واجهة برمجة التطبيقات GPT4.1

آخر تحديث منذ شهر واحد 711 00
واجهة برمجة التطبيقات GPT4.1واجهة برمجة التطبيقات GPT4.1
واجهة برمجة التطبيقات GPT4.1

سلسلة جديدة من نماذج GPT تتميز بتحسينات كبيرة في الترميز، واتباع التعليمات، والسياق الطويل، بالإضافة إلى أول نموذج نانوي لدينا على الإطلاق. متوفر عبرAPIيتصل

يرجى الاطلاع على المقال للحصول على التعليمات الإصدار الأول!ChatGPT4.1 دليل كامل للاستخدام المحلي - حتى للمبتدئين وأجهزة الكمبيوتر العادية

يحقق Docker Desktop+webUI نماذج كبيرة،N8Nدليل كامل للاستخدام المحلي

ChatGPT4.1 المقدمة 

نُطلق اليوم ثلاثة نماذج جديدة في واجهة برمجة التطبيقات (API): GPT‑4.1، وGPT‑4.1 mini، وGPT‑4.1 nano. تتفوق هذه النماذج على GPT‑4o وGPT‑4o mini في جميع النواحي، مع تحسينات كبيرة في البرمجة والتعليمات. كما تتميز بنوافذ سياقية أوسع - تدعم ما يصل إلى مليون رمز سياقي - وتُمكّن من استخدام هذا السياق بشكل أفضل مع تحسين فهم السياقات الطويلة. وتتميز هذه النماذج بحد أقصى معرفي مُحدّث في يونيو 1.

يتفوق GPT‑4.1 في معايير الصناعة التالية:

  • البرمجة:GPT‑4.1 يسجل 54.6% على تم التحقق من مقعد SWE، تحسينًا من خلال 21.4%(ABS) أكثر من GPT‑4o و26.6٪(ABS) أكثر من GPT‑4.5 - مما يجعله نموذجًا رائدًا للترميز.
  • التعليمات التالية: On تحدي المقاييس المتعدد(يفتح في نافذة جديدة) معيار، وهو مقياس لقدرة متابعة التعليمات، حصل على 4.1% في اختبار GPT‑38.3، وهو معدل 10.5%(ABS) زيادة على GPT‑4o.
  • السياق الطويل: On فيديو-MME(يفتح في نافذة جديدة)، وهو معيار لفهم السياق الطويل متعدد الوسائط، يضع GPT‑4.1 نتيجة جديدة على أحدث طراز - حيث حصل على 72.0% في فئة السياق الطويل بدون ترجمة، و6.7% في فئة السياق الطويل بدون ترجمة، وXNUMX% في فئة السياق الطويل بدون ترجمة.(ABS) تحسين على GPT‑4o.

بينما تُقدم معايير الأداء رؤى قيّمة، دربنا هذه النماذج مع التركيز على فائدتها العملية. وقد مكّننا التعاون الوثيق والشراكة مع مجتمع المطورين من تحسين هذه النماذج لأداء المهام الأكثر أهمية لتطبيقاتهم.

ولتحقيق هذه الغاية، تقدم سلسلة طرازات GPT‑4.1 أداءً استثنائيًا بتكلفة أقل. وتعزز هذه الطرازات الأداء في جميع مراحل منحنى زمن الوصول.

واجهة برمجة التطبيقات GPT4.1

يُمثل GPT‑4.1 mini نقلة نوعية في أداء النماذج الصغيرة، حتى أنه تفوق على GPT‑4o في العديد من معايير الأداء. يُعادل GPT‑4o أو يتفوق عليه في تقييمات الذكاء، مع تقليل زمن الوصول بنحو النصف وخفض التكلفة بنسبة 83%.

للمهام التي تتطلب زمن وصول منخفضًا، يُعدّ GPT‑4.1 nano أسرع وأرخص طراز متوفر لدينا. فهو يُقدّم أداءً استثنائيًا بحجم صغير بفضل نافذة سياق مليون رمز، ويحقق 1% في MMLU، و80.1% في GPQA، و50.3% في ترميز Aider متعدد اللغات - وهو أعلى حتى من GPT‑9.8o mini. وهو مثالي لمهام مثل التصنيف أو الإكمال التلقائي.

هذه التحسينات في موثوقية التعليمات وفهم السياق الطويل تجعل نماذج GPT‑4.1 أكثر فعالية بكثير في تشغيل الوكلاء، أو الأنظمة التي يمكنها إنجاز المهام بشكل مستقل نيابةً عن المستخدمين. عند دمجها مع عناصر بدائية مثل واجهة برمجة تطبيقات الاستجابات(يفتح في نافذة جديدة)يمكن للمطورين الآن إنشاء وكلاء أكثر فائدة وموثوقية في هندسة البرمجيات في العالم الحقيقي، واستخراج الأفكار من المستندات الكبيرة، وحل طلبات العملاء بأقل قدر من المساعدة، والمهام المعقدة الأخرى.

لاحظ أن GPT‑4.1 سيكون متاحًا فقط عبر واجهة برمجة التطبيقات. في ChatGPT، تم دمج العديد من التحسينات في متابعة التعليمات والترميز والذكاء تدريجيًا في أحدث إصدار(يفتح في نافذة جديدة) من GPT‑4o، وسنستمر في دمج المزيد في الإصدارات المستقبلية.

سنبدأ أيضًا بإيقاف GPT‑4.5 Preview في واجهة برمجة التطبيقات، نظرًا لأن GPT‑4.1 يوفر أداءً مُحسّنًا أو مُشابهًا للعديد من الإمكانيات الرئيسية بتكلفة وزمن انتقال أقل بكثير. سيتم إيقاف GPT‑4.5 Preview بعد ثلاثة أشهر، في 14 يوليو 2025، لإتاحة الوقت للمطورين للانتقال. كان GPT‑4.5 أدخلت كمعاينة بحثية لاستكشاف وتجربة نموذج ضخم يعتمد على الحوسبة المكثفة، وقد تعلمنا الكثير من ملاحظات المطورين. سنواصل نقل الإبداع وجودة الكتابة والفكاهة والدقة التي أخبرتنا أنك تقدرها في GPT‑4.5 إلى نماذج واجهات برمجة التطبيقات المستقبلية.

فيما يلي، نقوم بتفصيل كيفية أداء GPT‑4.1 عبر العديد من المعايير المرجعية، إلى جانب أمثلة من مختبري ألفا مثل Windsurf وQodo وHex وBlue J وThomson Reuters وCarlyle التي توضح كيفية أدائه في الإنتاج في المهام الخاصة بالمجال.

البرمجة

يعتبر GPT‑4.1 أفضل بشكل ملحوظ من GPT‑4o في مجموعة متنوعة من مهام الترميز، بما في ذلك حل مهام الترميز بشكل وكيل، وترميز الواجهة الأمامية، وإجراء عدد أقل من التعديلات غير الضرورية، واتباع تنسيقات الاختلاف بشكل موثوق، وضمان الاستخدام المتسق للأدوات، والمزيد.

في مقياس SWE-bench Verified، وهو مقياس لمهارات هندسة البرمجيات في العالم الحقيقي، يُنجز GPT‑4.1 نسبة 54.6% من المهام، مقارنةً بنسبة 33.2% لـ GPT‑4o (2024-11-20). يعكس هذا تحسنًا في قدرة النموذج على استكشاف مستودع الأكواد البرمجية، وإكمال المهمة، وإنتاج كود برمجي يعمل ويجتاز الاختبارات.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (عالي) مفتوحAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4o mini55%33%41%49%38%24%9%SWE‑bench Verified accuracy

في حالة تم التحقق من مقعد SWEيُزوَّد النموذج بمستودع أكواد ووصف للمشكلة، ويجب عليه إنشاء تصحيح لحل المشكلة. يعتمد الأداء بشكل كبير على المطالبات والأدوات المستخدمة. للمساعدة في إعادة إنتاج نتائجنا ووضعها في سياقها، نصف إعدادنا لـ GPT‑4.1. هنا(يفتح في نافذة جديدة). تغفل درجاتنا 23 من أصل 500 مشكلة لم تتمكن حلولها من العمل على بنيتنا التحتية؛ وإذا تم تقييمها بشكل متحفظ على أنها 0، فإن النتيجة 54.6% تصبح 52.1%.

بالنسبة لمطوري واجهات برمجة التطبيقات (API) الذين يرغبون في تحرير ملفات كبيرة، يُعد GPT‑4.1 أكثر موثوقية بكثير في اختلافات الكود عبر مجموعة من التنسيقات. يفوق GPT‑4.1 درجة GPT‑4o بأكثر من الضعف في معيار الفرق متعدد اللغات لـ Aider(يفتح في نافذة جديدة)، بل ويتفوق على GPT‑4.5 بنسبة 8%عضلات المعدة.هذا التقييم هو مقياس لقدرات البرمجة عبر لغات برمجة مختلفة، ومقياس لقدرة النموذج على إحداث تغييرات بصيغتي "الكل" و"الاختلاف". لقد دربنا GPT‑4.1 خصيصًا لاتباع صيغ "الاختلاف" بشكل أكثر موثوقية، مما يتيح للمطورين توفير التكلفة ووقت الاستجابة من خلال تعديل أسطر إخراج النموذج فقط، بدلاً من إعادة كتابة الملف بأكمله. للحصول على أفضل أداء لاختلاف الكود، يُرجى مراجعة موقعنا. دليل التوجيه(يفتح في نافذة جديدة)للمطورين الذين يفضلون إعادة كتابة الملفات بالكامل، قمنا بزيادة حدود رموز الإخراج لـ GPT‑4.1 إلى 32,768 رمزًا (مقارنةً بـ 16,384 رمزًا لـ GPT‑4o). نوصي أيضًا باستخدام المخرجات المتوقعة(يفتح في نافذة جديدة) لتقليل زمن الاستجابة لإعادة كتابة الملف بالكامل.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (عالي) مفتوحAI o3-mini (عالي)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini52% (كامل)53% (فرق)31% (كامل)18% (فرق)64% (كامل)62% (فرق)67% (كامل)60% (فرق)35% (كامل)32% (فرق)10% (كامل)6% (فرق)4% (كامل)3% (فرق)غير متوفر (كامل)45% (فرق)دقة معيار Aider متعدد اللغات

في معيار أيدر متعدد اللغات، تحل النماذج تمارين الترميز من التمرين(يفتح في نافذة جديدة) عن طريق تعديل ملفات المصدر، مع السماح بإعادة المحاولة مرة واحدة. يتطلب تنسيق "الكامل" من النموذج إعادة كتابة الملف بأكمله، مما قد يكون بطيئًا ومكلفًا. يتطلب تنسيق "الاختلاف" من النموذج كتابة سلسلة من البحث/استبدال الكتل(يفتح في نافذة جديدة).

يُحسّن GPT‑4.1 بشكل كبير من GPT‑4o في برمجة الواجهة الأمامية، وهو قادر على إنشاء تطبيقات ويب أكثر تفضيلاً من حيث الوظائف والجمال. في مقارناتنا المباشرة، يُقيّم مُقيّمون بشريون مواقع GPT‑4.1 على مواقع GPT‑4o بنسبة 80%.

موجه: إنشاء تطبيق ويب للبطاقات التعليمية. يجب أن يكون المستخدم قادرًا على إنشاء بطاقات تعليمية والبحث في بطاقاته التعليمية الموجودة ومراجعتها والاطلاع على إحصائيات البطاقات التعليمية التي تمت مراجعتها. قم بتحميل عشر بطاقات تحتوي على كلمة أو عبارة باللغة الهندية وترجمتها الإنجليزية. واجهة المراجعة: في واجهة المراجعة، سيؤدي النقر أو الضغط على مفتاح المسافة إلى قلب البطاقة برسوم متحركة ثلاثية الأبعاد سلسة للكشف عن الترجمة. سيؤدي الضغط على مفاتيح الأسهم إلى التنقل عبر البطاقات. واجهة البحث: يجب أن يوفر شريط البحث قائمة بالنتائج بشكل ديناميكي أثناء كتابة المستخدم في استعلام. واجهة الإحصائيات: يجب أن تعرض صفحة الإحصائيات رسمًا بيانيًا لعدد البطاقات التي راجعها المستخدم والنسبة المئوية التي حصل عليها بشكل صحيح. واجهة إنشاء البطاقات: يجب أن تسمح صفحة إنشاء البطاقات للمستخدم بتحديد الجزء الأمامي والخلفي من بطاقة تعليمية وإضافتها إلى مجموعة المستخدم. يجب أن تكون كل من هذه الواجهات قابلة للوصول في الشريط الجانبي. قم بإنشاء تطبيق React بصفحة واحدة (ضع جميع الأنماط مضمنة).

 

GPT‑4o

 

GPT‑4.1

بالإضافة إلى المعايير المذكورة أعلاه، يتميز GPT‑4.1 بتوافق أفضل مع التنسيقات، ويُجري تعديلات غير ضرورية بشكل أقل تكرارًا. في تقييماتنا الداخلية، انخفضت نسبة التعديلات غير الضرورية على الكود من 9% مع GPT‑4o إلى 2% مع GPT‑4.1.

أمثلة من العالم الحقيقي

تطيير طائرة شراعية(يفتح في نافذة جديدة)حقق GPT‑4.1 نتيجة أعلى بنسبة 60% من GPT‑4o في معيار الترميز الداخلي لـ Windsurf، وهو ما يرتبط ارتباطًا وثيقًا بمعدل قبول تغييرات الترميز في المراجعة الأولى. لاحظ مستخدموه أنه كان أكثر كفاءة بنسبة 30% في استدعاء الأدوات، وأقل عرضة بنسبة 50% لتكرار التعديلات غير الضرورية أو قراءة الترميز بخطوات محدودة وتدريجية. تُترجم هذه التحسينات إلى تكرار أسرع وسير عمل أكثر سلاسة لفرق الهندسة.

قدو(يفتح في نافذة جديدة)اختبر Qodo GPT‑4.1 مقارنة مباشرة مع نماذج رائدة أخرى في توليد مراجعات أكواد عالية الجودة من طلبات سحب GitHub باستخدام منهجية مستوحاة من معيار الضبط الدقيق الخاص بهم. من خلال 200 طلب سحب حقيقي ذي معنى بنفس المطالبات والشروط، وجدوا أن GPT‑4.1 أنتج الاقتراح الأفضل في 55٪ من الحالات(يفتح في نافذة جديدة)ومن الجدير بالذكر أنهم وجدوا أن GPT‑4.1 يتميز بالدقة (معرفة متى لا ينبغي تقديم الاقتراحات) والشمولية (توفير تحليل شامل عند الحاجة)، مع الحفاظ على التركيز على القضايا الحرجة حقًا.

التعليمات التالية

يتبع GPT‑4.1 التعليمات بشكل أكثر موثوقية، وقد قمنا بقياس تحسينات كبيرة عبر مجموعة متنوعة من التقييمات التي تتبع التعليمات.

لقد قمنا بتطوير تقييم داخلي لمتابعة التعليمات لتتبع أداء النموذج عبر عدد من الأبعاد وفي العديد من الفئات الرئيسية لمتابعة التعليمات، بما في ذلك:

  • التنسيق التالي. توفير التعليمات التي تحدد تنسيقًا مخصصًا لاستجابة النموذج، مثل XML، وYAML، وMarkdown، وما إلى ذلك.
  • تعليمات سلبية. تحديد السلوك الذي يجب على النموذج تجنبه. (مثال: "لا تطلب من المستخدم التواصل مع الدعم")
  • تعليمات مرتبة. توفير مجموعة من التعليمات التي يجب على النموذج اتباعها بترتيب مُحدد. (مثال: "اطلب اسم المستخدم أولًا، ثم بريده الإلكتروني")
  • متطلبات المحتوى. إنتاج محتوى يتضمن معلومات محددة. (مثال: "اذكر دائمًا كمية البروتين عند كتابة خطة التغذية")
  • تصنيف. ترتيب النتائج بطريقة محددة. (مثال: "فرز الاستجابة حسب عدد السكان")
  • ثقة عمياء. توجيه النموذج لقول "لا أعرف" أو ما شابه ذلك إذا لم تكن المعلومات المطلوبة متاحة، أو لم يكن الطلب ضمن فئة معينة. (مثال: "إذا لم تكن تعرف الإجابة، فأرسل بريدًا إلكترونيًا لقسم الدعم")

هذه الفئات هي ثمرة ملاحظات المطورين حول جوانب التعليم الأكثر أهميةً لهم. ضمن كل فئة، قسّمنا الأسئلة السهلة والمتوسطة والصعبة. يتفوق GPT‑4.1 بشكل ملحوظ على GPT‑4o في الأسئلة الصعبة تحديدًا.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (عالي) مفتوحAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini49%29%51%50%54%45%32%27%Internal OpenAI التعليمات التالية لتقييم الدقة (مجموعة فرعية صلبة)

تعتمد تعليماتنا الداخلية التي تتبع التقييم على حالات استخدام المطورين الحقيقية وردود الأفعال، وتغطي مهام ذات تعقيد متفاوت إلى جانب التعليمات المتعلقة بالتنسيق والإسهاب والطول والمزيد.

يُعدّ اتباع التعليمات متعددة الأدوار أمرًا بالغ الأهمية للعديد من المطورين، إذ من المهم للنموذج الحفاظ على الترابط في عمق المحادثة، وتتبع ما قاله المستخدم سابقًا. لقد دربنا GPT‑4.1 ليكون أكثر قدرة على استخلاص المعلومات من الرسائل السابقة في المحادثة، مما يسمح بمحادثات أكثر طبيعية. يُعدّ معيار MultiChallenge من Scale مقياسًا مفيدًا لهذه القدرة، ويُحقق GPT‑4.1 أداءً بنسبة 10.5%.(ABS) أفضل من GPT‑4o.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (عالي) مفتوحAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini38%28%45%40%44%36%15%20%MultiChallenge accuracy

In تحدي متعدد(يفتح في نافذة جديدة)يتم تحدي النماذج في المحادثات متعددة الأدوار لاستخدام أربعة أنواع من المعلومات من الرسائل السابقة بشكل صحيح.

حصل GPT‑4.1 أيضًا على 87.4% في اختبار IFEval، مقارنةً بـ 81.0% في اختبار GPT‑4o. يستخدم IFEval إرشادات مع تعليمات قابلة للتحقق (على سبيل المثال، تحديد طول المحتوى أو تجنب مصطلحات أو تنسيقات معينة).

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (عالي) مفتوحAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini87%81%92%94%88%84%75%78%IFEval accuracy

In IFEval(يفتح في نافذة جديدة)يجب أن تولد النماذج إجابات تتوافق مع التعليمات المختلفة.

إن اتباع التعليمات بشكل أفضل يجعل التطبيقات الحالية أكثر موثوقية، ويُمكّن التطبيقات الجديدة التي كانت محدودة سابقًا بضعف موثوقيتها. لاحظ المختبرون الأوائل أن GPT‑4.1 يمكن أن يكون أكثر حرفية، لذا نوصي بالوضوح والدقة في توجيه الأوامر. لمزيد من المعلومات حول أفضل ممارسات توجيه الأوامر في GPT‑4.1، يُرجى مراجعة دليل التوجيه.

أمثلة من العالم الحقيقي

أزرق J(يفتح في نافذة جديدة)كان GPT‑4.1 أكثر دقة بنسبة 53% من GPT‑4o في اختبار داخلي لأكثر سيناريوهات الضرائب الواقعية تحديًا في Blue J. تُبرز هذه الزيادة في الدقة - وهي أساسية لأداء النظام ورضا المستخدمين - فهم GPT‑4.1 المُحسّن للأنظمة المعقدة وقدرته على اتباع تعليمات دقيقة على مدار فترات زمنية طويلة. بالنسبة لمستخدمي Blue J، يعني ذلك أبحاثًا ضريبية أسرع وأكثر موثوقية، ووقتًا أطول للأعمال الاستشارية عالية القيمة.

عرافة(يفتح في نافذة جديدة):قدم GPT‑4.1 تحسنًا بمقدار 2x تقريبًا على أكثر تحديات Hex مجموعة تقييم SQL،(يفتح في نافذة جديدة) يُظهر هذا تحسينات ملحوظة في متابعة التعليمات والفهم الدلالي. كان النموذج أكثر موثوقية في اختيار الجداول الصحيحة من مخططات كبيرة وغامضة، وهي نقطة قرار أولية تؤثر بشكل مباشر على الدقة الإجمالية، ويصعب ضبطها من خلال التوجيه وحده. بالنسبة لـ Hex، أدى هذا إلى انخفاض ملحوظ في التصحيح اليدوي، وتسريع عملية سير العمل على مستوى الإنتاج.

سياق طويل

يمكن لـ GPT‑4.1 وGPT‑4.1 mini وGPT‑4.1 nano معالجة ما يصل إلى مليون رمز سياقي - مقارنة بـ 1 لنماذج GPT‑128,000o السابقة. مليون رمز هو أكثر من 4 نسخ من قاعدة بيانات React بالكامل، لذا فإن السياق الطويل مناسب تمامًا لمعالجة قواعد البيانات الكبيرة، أو الكثير من المستندات الطويلة.

لقد دربنا GPT‑4.1 على معالجة المعلومات بدقة عبر كامل طول السياق البالغ مليون سياق. كما دربناه ليكون أكثر موثوقية من GPT‑1o في ملاحظة النصوص ذات الصلة، وتجاهل المشتتات عبر السياقات الطويلة والقصيرة. يُعد فهم السياقات الطويلة قدرةً أساسيةً للتطبيقات في المجالات القانونية، والبرمجية، ودعم العملاء، والعديد من المجالات الأخرى.

فيما يلي، نوضح قدرة GPT‑4.1 على استرجاع معلومة صغيرة مخفية ("إبرة") موضوعة في نقاط مختلفة داخل نافذة السياق. يستعيد GPT‑4.1 الإبرة بدقة متناهية في جميع المواضع وجميع أطوال السياق، حتى مليون رمز. وهو قادر على استخراج التفاصيل ذات الصلة بالمهمة المطروحة بكفاءة، بغض النظر عن موقعها في المُدخلات.

واجهة برمجة التطبيقات GPT4.1

في تقييمنا الداخلي لإبرة في كومة قش، فإن GPT‑4.1، وGPT‑4.1 mini، وGPT 4.1 nano قادرون على استرجاع الإبرة في جميع المواضع في السياق حتى 1M.

مع ذلك، قليلٌ من المهام الواقعية تُضاهي سهولة استرجاع إجابة إبرة واحدة واضحة. نجد أن المستخدمين غالبًا ما يحتاجون إلى نماذجنا لاسترجاع وفهم معلومات متعددة، وفهم هذه المعلومات وعلاقتها ببعضها البعض. ولإبراز هذه الإمكانية، نوفر تقييمًا جديدًا مفتوح المصدر: OpenAI-MRCR (مرجع متعدد الجولات).

يختبر OpenAI-MRCR قدرة النموذج على اكتشاف وتمييز الإبر المتعددة المخفية جيدًا في السياق. يتكون التقييم من محادثات تركيبية متعددة الأدوار بين المستخدم والمساعد، حيث يطلب المستخدم كتابةً حول موضوع معين، على سبيل المثال "كتابة قصيدة عن التابير" أو "كتابة تدوينة عن الصخور". ثم نُدرج طلبين أو أربعة أو ثمانية طلبات متطابقة في السياق. يجب على النموذج بعد ذلك استرداد الاستجابة المقابلة لحالة محددة (مثلًا، "أعطني القصيدة الثالثة عن التابير").

ينشأ التحدي من التشابه بين هذه الطلبات وبقية السياقات، إذ يُمكن تضليل النماذج بسهولة من خلال اختلافات دقيقة، مثل قصة قصيرة عن التابير بدلاً من قصيدة، أو قصيدة عن الضفادع بدلاً من التابير. وجدنا أن GPT‑4.1 يتفوق على GPT‑4o في سياقات تصل إلى 128 ألف رمز، ويحافظ على أداء قوي حتى مع وجود مليون رمز.

لكن المهمة لا تزال صعبة، حتى بالنسبة لنماذج التفكير المتقدمة. نحن نشارك مجموعة بيانات التقييم(يفتح في نافذة جديدة) لتشجيع المزيد من العمل على استرجاع السياق الطويل في العالم الحقيقي.

واجهة برمجة التطبيقات GPT4.1

In OpenAI-MRCR(يفتح في نافذة جديدة)يجب أن يجيب النموذج على سؤال يتضمن التمييز بين 2 أو 4 أو 8 مطالبات مستخدم متناثرة بين عوامل التشتيت.

نحن نطلق أيضا جولات الرسم البياني(يفتح في نافذة جديدة)مجموعة بيانات لتقييم منطق السياق الطويل متعدد القفزات. تتطلب العديد من حالات استخدام المطورين للسياق الطويل قفزات منطقية متعددة داخل السياق، مثل التنقل بين ملفات متعددة عند كتابة التعليمات البرمجية أو الرجوع إلى مستندات للإجابة على أسئلة قانونية معقدة.

من الناحية النظرية، يمكن للنموذج (أو حتى الإنسان) حل مشكلة OpenAI-MRCR من خلال القيام بمرور واحد أو قراءة سريعة للموجه، ولكن تم تصميم Graphwalks ليتطلب التفكير عبر مواضع متعددة في السياق ولا يمكن حلها بشكل متسلسل.

يملأ Graphwalks نافذة السياق برسم بياني موجه يتكون من تجزئات سداسية عشرية، ثم يطلب من النموذج إجراء بحث أولًا بالعرض (BFS) بدءًا من عقدة عشوائية في الرسم البياني. ثم نطلب منه إرجاع جميع العقد بعمق معين. يحقق GPT‑4.1 دقة 61.7% في هذا المعيار، معادلًا أداء o1 ومتفوقًا على GPT‑4o بسهولة.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (عالي) مفتوحAI o3-mini (عالي)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini62%42%62%51%72%62%25%29%Graphwalks BFS دقة <128 كيلو بايت

In جولات الرسم البياني(يفتح في نافذة جديدة)، يُطلب من النموذج إجراء بحث أولي من عقدة عشوائية في رسم بياني كبير.

لا تخبرنا المعايير بالقصة الكاملة، لذا عملنا مع شركاء ألفا لاختبار أداء GPT‑4.1 في مهام السياق الطويل في العالم الحقيقي.

أمثلة من العالم الحقيقي

تومسون رويترز:(يفتح في نافذة جديدة) اختبرت شركة تومسون رويترز GPT‑4.1 مع CoCounsel، وهي درجتها المهنية AI مساعد قانوني. بالمقارنة مع GPT‑4o، تمكنوا من تحسين دقة مراجعة المستندات المتعددة بنسبة 17% عند استخدام GPT‑4.1 في معايير داخلية طويلة السياق، وهو مقياس أساسي لقدرة CoCounsel على التعامل مع سير العمل القانوني المعقد الذي يتضمن مستندات متعددة وطويلة. وعلى وجه الخصوص، وجدوا أن النموذج يتميز بموثوقية عالية في الحفاظ على السياق عبر المصادر وتحديد العلاقات الدقيقة بين المستندات بدقة، مثل البنود المتضاربة أو السياق التكميلي الإضافي، وهي مهام بالغة الأهمية للتحليل القانوني واتخاذ القرارات.

كارلايل(يفتح في نافذة جديدة)استخدمت كارلايل GPT‑4.1 لاستخراج بيانات مالية دقيقة من مستندات متعددة وطويلة، بما في ذلك ملفات PDF وملفات Excel وغيرها من التنسيقات المعقدة. بناءً على تقييماتهم الداخلية، كان أداء النموذج أفضل بنسبة 50% في استرجاع المستندات الضخمة ذات البيانات الكثيفة، وكان أول نموذج ينجح في التغلب على القيود الرئيسية التي واجهتها النماذج الأخرى المتاحة، بما في ذلك استرجاع البيانات من مصادر عشوائية، وأخطاء الضياع في المنتصف، والاستدلال متعدد المراحل عبر المستندات.

بالإضافة إلى أداء النموذج ودقته، يحتاج المطورون أيضًا إلى نماذج سريعة الاستجابة لمواكبة احتياجات المستخدمين وتلبيتها. لقد حسّنا مجموعة الاستدلالات لدينا لتقليل الوقت اللازم للوصول إلى الرمز الأول، ومع التخزين المؤقت الفوري، يمكنك تقليل زمن الوصول بشكل أكبر مع توفير التكاليف. في اختباراتنا الأولية، كان زمن الوصول إلى الرمز الأول لـ GPT‑4.1 حوالي خمس عشرة ثانية مع 128,000 رمز سياق، ودقيقة واحدة لمليون رمز سياق. GPT‑4.1 mini و nano أسرع، على سبيل المثال، غالبًا ما يُرجع GPT‑4.1 nano الرمز الأول في أقل من خمس ثوانٍ للاستعلامات التي تحتوي على 128,000 رمز إدخال.

الرؤية

تتمتع عائلة GPT‑4.1 بقوة استثنائية في فهم الصور، حيث يمثل GPT‑4.1 mini على وجه الخصوص قفزة كبيرة إلى الأمام، حيث يتفوق في كثير من الأحيان على GPT‑4o في معايير الصور.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini75%69%78%75%73%55%56%MMMU accuracy

In MMMU(يفتح في نافذة جديدة)يجيب النموذج على الأسئلة التي تحتوي على مخططات ورسوم بيانية وخرائط وما إلى ذلك. (ملاحظة: حتى عندما لا يتم تضمين الصورة، لا يزال من الممكن استنتاج أو تخمين العديد من الإجابات من السياق.)

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini72%61%72%72%73%56%57%MathVista accuracy

In ماثفيستا(يفتح في نافذة جديدة)، النموذج يحل المهام الرياضية البصرية.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini57%53%55%55%57%41%37%CharXiv-Reasoning accuracy

In CharXiv-Reasoning(يفتح في نافذة جديدة)، يجيب النموذج على أسئلة حول الرسوم البيانية من الأوراق العلمية.

يُعد أداء السياق الطويل مهمًا أيضًا لحالات الاستخدام المتعددة الوسائط، مثل معالجة مقاطع الفيديو الطويلة. فيديو-MME⁠(يفتح في نافذة جديدة) (طويلة بدون ترجمة)، يُجيب نموذج على أسئلة اختيار من متعدد بناءً على مقاطع فيديو مدتها 30-60 دقيقة بدون ترجمة. حقق GPT‑4.1 أداءً متطورًا، مسجلاً 72.0%، بزيادة عن 65.3% لـ GPT‑4o.

GPT-4.1GPT-4o (2024-11-20)72%65%Video long context

In فيديو-MME(يفتح في نافذة جديدة)يجيب النموذج على أسئلة الاختيار من متعدد بناءً على مقاطع فيديو مدتها من 30 إلى 60 دقيقة بدون ترجمة.

الأسعار

GPT‑4.1، وGPT‑4.1 mini، وGPT‑4.1 nano متاحة الآن لجميع المطورين.

بفضل تحسينات كفاءة أنظمة الاستدلال لدينا، تمكنا من تقديم أسعار أقل لسلسلة GPT‑4.1. GPT‑4.1 أقل تكلفة بنسبة 26% من GPT‑4o للاستعلامات المتوسطة، وGPT‑4.1 nano هو أرخص وأسرع طراز لدينا على الإطلاق. بالنسبة للاستعلامات التي تمرّر السياق نفسه بشكل متكرر، نرفع خصم التخزين المؤقت الفوري إلى 75% (بدلاً من 50% سابقًا) لهذه الطرازات الجديدة. وأخيرًا، نقدم طلبات سياق طويلة بدون أي تكلفة إضافية تتجاوز التكلفة القياسية لكل رمز.

الموديل
(الأسعار لكل مليون رمز)
إدخالالإدخال المخزن مؤقتًاالناتجالتسعير المختلط*
جي بي تي-4.1$2.00$0.50$8.00$1.84
gpt-4.1-mini$0.40$0.10$1.60$0.42
gpt-4.1-نانو$0.10$0.025$0.40$0.12

*بناءً على نسب الإدخال/الإخراج والذاكرة المؤقتة النموذجية.

هذه النماذج متاحة للاستخدام في دفعة API(يفتح في نافذة جديدة) مع خصم إضافي بنسبة 50% على السعر.

خلاصة

GPT‑4.1 هي خطوة مهمة إلى الأمام في التطبيق العملي لـ AIمن خلال التركيز الدقيق على احتياجات المطورين في العالم الحقيقي، بدءًا من البرمجة واتباع التعليمات وفهم السياقات الطويلة، تفتح هذه النماذج آفاقًا جديدة لبناء أنظمة ذكية وتطبيقات وكيلة متطورة. نحن نستلهم باستمرار من إبداع مجتمع المطورين، ويسعدنا رؤية ما ستبنونه باستخدام GPT‑4.1.

الزائدة الدودية

يمكنك العثور أدناه على قائمة كاملة بالنتائج عبر التقييمات الأكاديمية، والترميز، ومتابعة التعليمات، والسياق الطويل، والرؤية، واستدعاء الوظيفة.

المعرفة الأكاديمية
الفئةGPT-4.1GPT-4.1 مينيGPT-4.1 نانوجي بي تي-4o(2024-11-20)جي بي تي-4o مينيساعات العملAI o1(عالي)ساعات العملAI o3-ميني(عالي)GPT-4.5
ايمي '2448.1%49.6%29.4%13.1%8.6%74.3%87.3%36.7%
الماس من GPQA166.3%65.0%50.3%46.0%40.2%75.7%77.2%69.5%
MMLU90.2%87.5%80.1%85.7%82.0%91.8%86.9%90.8%
جامعة ماريلاند متعددة اللغات87.3%78.5%66.9%81.4%70.5%87.7%80.7%85.1%

[1] يستخدم تطبيقنا لـ GPQA نموذجًا لاستخراج الإجابة بدلًا من التعبيرات العادية. في GPT-4.1، كان الفرق أقل من 1% (غير ذي دلالة إحصائية)، ولكن في GPT-4o، يُحسّن استخراج النموذج النتائج بشكل ملحوظ (حوالي 46% -> 54%).

تقييمات الترميز
الفئةGPT-4.1GPT-4.1 مينيGPT-4.1 نانوجي بي تي-4o(2024-11-20)جي بي تي-4o مينيساعات العملAI o1(عالي)ساعات العملAI o3-ميني(عالي)GPT-4.5
تم التحقق من مقعد SWE254.6%23.6%-33.2%8.7%41.0%49.3%38.0%
سوي لانسر$ 176K
(35.1٪)
$ 165K
(33.0٪)
$ 77K
(15.3٪)
$ 163K
(32.6٪)
$ 116K
(23.1٪)
$ 160K
(32.1٪)
$ 90K
(18.0٪)
$ 186K
(37.3٪)
SWE-Lancer (مجموعة فرعية IC-Diamond)$ 34K
(14.4٪)
$ 31K
(13.1٪)
$ 9K
(3.7٪)
$ 29K
(12.4٪)
$ 11K
(4.8٪)
$ 29K
(9.7٪)
$ 17K
(7.4٪)
$ 41K
(17.4٪)
متعدد اللغات لدى أيدر: كامل51.6%34.7%9.8%30.7%3.6%64.6%66.7%-
متعدد اللغات لدى أيدر: الفرق52.9%31.6%6.2%18.2%2.7%61.7%60.4%44.9%

[2] لقد قمنا بحذف 23/500 مشكلة لم تتمكن من تشغيلها على البنية التحتية الخاصة بنا. القائمة الكاملة للمهام المحذوفة والتي يبلغ عددها 23 هي 'astropy__astropy-7606'، 'astropy__astropy-8707'، 'astropy__astropy-8872'، 'django__django-10097'، 'django__django-7530'، 'matplotlib__matplotlib-20488'، 'matplotlib__matplotlib-20676'، 'matplotlib__matplotlib-20826'، 'matplotlib__matplotlib-23299'، 'matplotlib__matplotlib-24970'، 'matplotlib__matplotlib-25479'، 'matplotlib__matplotlib-26342'، 'psf__requests-6028'، 'pylint-dev__pylint-6528'، 'pylint-dev__pylint-7080'، 'pylint-dev__pylint-7277'، 'pytest-dev__pytest-5262'، 'pytest-dev__pytest-7521'، 'scikit-learn__scikit-learn-12973'، 'sphinx-doc__sphinx-10466'، 'sphinx-doc__sphinx-7462'، 'sphinx-doc__sphinx-8265'، و'sphinx-doc__sphinx-9367'.

التعليمات بعد التقييم
الفئةGPT-4.1GPT-4.1 مينيGPT-4.1 نانوجي بي تي-4o(2024-11-20)جي بي تي-4o مينيساعات العملAI o1(عالي)ساعات العملAI o3-ميني(عالي)GPT-4.5
تعليمات API الداخلية التالية (صعبة)49.1%45.1%31.6%29.2%27.2%51.3%50.0%54.0%
تحدي متعدد38.3%35.8%15.0%27.8%20.3%44.9%39.9%43.8%
MultiChallenge (ممهدة o3-mini)346.2%42.2%31.1%39.9%25.6%52.9%50.2%50.1%
كولي65.8%54.6%42.5%50.2%52.7%95.3%98.7%72.3%
IFEval87.4%84.1%74.5%81.0%78.4%92.2%93.9%88.2%
متعدد IF70.8%67.0%57.2%60.9%57.9%77.9%79.5%70.8%

[3] ملاحظة: وجدنا أن المُقيِّم الافتراضي في MultiChallenge (GPT-4o) يُخطئ في تقييم استجابات النموذج بشكل متكرر. وجدنا أن استبدال المُقيِّم بنموذج استدلال، مثل o3-mini، يُحسّن دقة التقييم بشكل ملحوظ في العينات التي فحصناها. ولضمان اتساق النتائج مع لوحة النتائج، ننشر كلا مجموعتي النتائج.

تقييمات السياق الطويل
الفئةGPT-4.1GPT-4.1 مينيGPT-4.1 نانوجي بي تي-4o(2024-11-20)جي بي تي-4o مينيساعات العملAI o1(عالي)ساعات العملAI o3-ميني(عالي)GPT-4.5
OpenAI-MRCR: إبرتان 2 كيلو57.2%47.2%36.6%31.9%24.5%22.1%18.7%38.5%
OpenAI-MRCR: إبرتان 2 متر46.3%33.3%12.0%-----
Graphwalks bfs < 128 كيلو بايت61.7%61.7%25.0%41.7%29.0%62.0%51.0%72.3%
Graphwalks bfs >128k19.0%15.0%2.9%-----
آباء Graphwalks <128 ألف58.0%60.5%9.4%35.4%12.6%50.9%58.3%72.6%
أولياء أمور Graphwalks >128 ألفًا25.0%11.0%5.6%-----
تقييم الرؤية
الفئةGPT-4.1GPT-4.1 مينيGPT-4.1 نانوجي بي تي-4o(2024-11-20)جي بي تي-4o مينيساعات العملAI o1(عالي)ساعات العملAI o3-ميني(عالي)GPT-4.5
MMMU74.8%72.7%55.4%68.7%56.3%77.6%-75.2%
ماثفيستا72.2%73.1%56.2%61.4%56.5%71.8%-72.3%
تشاركسيف-آر56.7%56.8%40.5%52.7%36.8%55.1%-55.4%
تشاركسيف-دي87.9%88.4%73.9%85.3%76.6%88.9%-90.0%
استدعاء الوظيفة Eval
الفئةGPT-4.1GPT-4.1 مينيGPT-4.1 نانوجي بي تي-4o(2024-11-20)جي بي تي-4o مينيساعات العملAI o1(عالي)ساعات العملAI o3-ميني(عالي)GPT-4.5
مقعد الوظائف المعقدة65.5%49.3%0.6%66.5%38.6%47.6%17.6%63.0%
شركة طيران تاوبنش449.4%36.0%14.0%42.8%22.0%50.0%32.4%50.0%
تجارة التجزئة في تاوبنش4 , 568.0%
(73.6٪)
55.8%
(65.4٪)
22.6%
(23.5٪)
60.3%44.0%70.8%57.6%68.4%

[4] يتم حساب متوسط ​​أرقام تقييم tau-bench عبر 5 عمليات تشغيل لتقليل التباين، ويتم تشغيلها بدون أي أدوات مخصصة أو مطالبة.

[5] الأرقام بين قوسين تمثل نتائج اختبار Tau-bench عند استخدام GPT-4.1 كنموذج مستخدم، بدلاً من GPT-4o. وجدنا أنه نظرًا لتفوق GPT-4.1 في متابعة التعليمات، فإنه أكثر قدرة على الأداء كمستخدم، مما يؤدي إلى مسارات أكثر نجاحًا. نعتقد أن هذا يمثل الأداء الحقيقي للنموذج المُقيّم على المعيار.

إحصائيات

الملاحة ذات الصلة

لا تعليقات

لا شيء
لا تعليقات...