जीपीटी4.1 एपीआई

अंतिम बार 3 महीने पहले अपडेट किया गया 690 00

एपीआई कॉलChatGPT4.1 मॉडल

स्थान:
加拿大
टिप्पणी:
zh,एन
रिकॉर्डिंग समय:
2025-04-15
जीपीटी4.1 एपीआईजीपीटी4.1 एपीआई
जीपीटी4.1 एपीआई

GPT मॉडल की एक नई श्रृंखला जिसमें कोडिंग, निर्देश अनुसरण और लंबे संदर्भ पर प्रमुख सुधार शामिल हैं - साथ ही हमारा पहला नैनो मॉडल भी।APIपुकारना

कृपया निर्देशों के लिए लेख देखें पहली विज्ञप्ति!ChatGPT4.1 स्थानीय उपयोग के लिए पूर्ण मार्गदर्शिका - शुरुआती और नियमित कंप्यूटर के लिए भी

डॉकर डेस्कटॉप+वेबयूआई बड़े मॉडल का एहसास कराता है,N8Nस्थानीय उपयोग के लिए संपूर्ण मार्गदर्शिका

ChatGPT4.1 परिचय 

आज, हम API में तीन नए मॉडल लॉन्च कर रहे हैं: GPT‑4.1, GPT‑4.1 मिनी और GPT‑4.1 नैनो। ये मॉडल सभी जगह GPT‑4o और GPT‑4o मिनी से बेहतर प्रदर्शन करते हैं, जिसमें प्रमुख जी शामिल हैंaiकोडिंग और निर्देश अनुसरण में ns। उनके पास बड़ी संदर्भ विंडो भी हैं - संदर्भ के 1 मिलियन टोकन तक का समर्थन करते हैं - और बेहतर दीर्घ-संदर्भ समझ के साथ उस संदर्भ का बेहतर उपयोग करने में सक्षम हैं। वे जून 2024 तक के ताज़ा ज्ञान कटऑफ की सुविधा देते हैं।

GPT‑4.1 निम्नलिखित उद्योग मानक मापदण्डों में उत्कृष्ट है:

जबकि बेंचमार्क मूल्यवान अंतर्दृष्टि प्रदान करते हैं, हमने इन मॉडलों को वास्तविक दुनिया की उपयोगिता पर ध्यान केंद्रित करते हुए प्रशिक्षित किया। डेवलपर समुदाय के साथ घनिष्ठ सहयोग और साझेदारी ने हमें इन मॉडलों को उन कार्यों के लिए अनुकूलित करने में सक्षम बनाया जो उनके अनुप्रयोगों के लिए सबसे महत्वपूर्ण हैं।

इस उद्देश्य के लिए, GPT‑4.1 मॉडल परिवार कम लागत पर असाधारण प्रदर्शन प्रदान करता है। ये मॉडल विलंबता वक्र पर हर बिंदु पर प्रदर्शन को आगे बढ़ाते हैं।

जीपीटी4.1 एपीआई

GPT‑4.1 मिनी छोटे मॉडल के प्रदर्शन में एक महत्वपूर्ण छलांग है, यहाँ तक कि कई बेंचमार्क में GPT‑4o को भी पीछे छोड़ देता है। यह इंटेलिजेंस इवैल में GPT‑4o से मेल खाता है या उससे आगे निकल जाता है, जबकि विलंबता को लगभग आधे से कम करता है और लागत को 83% तक कम करता है।

कम विलंबता की मांग करने वाले कार्यों के लिए, GPT‑4.1 नैनो हमारा सबसे तेज़ और सबसे सस्ता उपलब्ध मॉडल है। यह अपने 1 मिलियन टोकन संदर्भ विंडो के साथ छोटे आकार में असाधारण प्रदर्शन प्रदान करता है, और MMLU पर 80.1%, GPQA पर 50.3% और Aider पॉलीग्लॉट कोडिंग पर 9.8% स्कोर करता है - GPT‑4o मिनी से भी अधिक। यह वर्गीकरण या स्वतः पूर्णता जैसे कार्यों के लिए आदर्श है।

निर्देश अनुसरण विश्वसनीयता और लंबे संदर्भ समझ में ये सुधार GPT‑4.1 मॉडल को एजेंटों या सिस्टम को शक्ति प्रदान करने में काफी अधिक प्रभावी बनाते हैं जो उपयोगकर्ताओं की ओर से स्वतंत्र रूप से कार्य पूरा कर सकते हैं। प्रतिक्रिया एपीआई(एक नई विंडो में खुलता है)डेवलपर्स अब ऐसे एजेंट बना सकते हैं जो वास्तविक दुनिया की सॉफ्टवेयर इंजीनियरिंग में अधिक उपयोगी और विश्वसनीय हैं, बड़े दस्तावेजों से अंतर्दृष्टि निकालते हैं, न्यूनतम सहायता के साथ ग्राहक अनुरोधों का समाधान करते हैं, और अन्य जटिल कार्य करते हैं।

ध्यान दें कि GPT‑4.1 केवल API के माध्यम से उपलब्ध होगा। ChatGPT, अनुदेशन अनुसरण, कोडिंग और बुद्धिमत्ता में कई सुधारों को धीरे-धीरे इसमें शामिल किया गया है नवीनतम संस्करण(एक नई विंडो में खुलता है) GPT‑4o का, और हम भविष्य के रिलीज के साथ और अधिक शामिल करना जारी रखेंगे।

हम API में GPT‑4.5 पूर्वावलोकन को भी बंद करना शुरू कर देंगे, क्योंकि GPT‑4.1 बहुत कम लागत और विलंबता पर कई प्रमुख क्षमताओं पर बेहतर या समान प्रदर्शन प्रदान करता है। डेवलपर्स को संक्रमण के लिए समय देने के लिए GPT‑4.5 पूर्वावलोकन को तीन महीने बाद, 14 जुलाई, 2025 को बंद कर दिया जाएगा। शुरू की एक बड़े, कंप्यूट-इंटेंसिव मॉडल का पता लगाने और प्रयोग करने के लिए एक शोध पूर्वावलोकन के रूप में, और हमने डेवलपर फ़ीडबैक से बहुत कुछ सीखा है। हम भविष्य के API मॉडल में GPT‑4.5 में आपके द्वारा बताई गई रचनात्मकता, लेखन गुणवत्ता, हास्य और बारीकियों को आगे बढ़ाते रहेंगे।

नीचे, हम GPT‑4.1 के विभिन्न बेंचमार्कों पर प्रदर्शन का विश्लेषण कर रहे हैं, साथ ही विंडसर्फ, क्यूडो, हेक्स, ब्लू जे, थॉमसन रॉयटर्स और कार्लाइल जैसे अल्फा परीक्षकों के उदाहरण भी दे रहे हैं, जो दर्शाते हैं कि यह डोमेन-विशिष्ट कार्यों पर उत्पादन में कैसा प्रदर्शन करता है।

कोडन

GPT‑4.1, विभिन्न कोडिंग कार्यों में GPT‑4o से काफी बेहतर है, जिसमें कोडिंग कार्यों को एजेंटिक रूप से हल करना, फ्रंटएंड कोडिंग, कम बाहरी संपादन करना, डिफ फॉर्मेट का विश्वसनीय रूप से पालन करना, लगातार टूल उपयोग सुनिश्चित करना आदि शामिल है।

SWE-बेंच वेरिफाइड पर, जो वास्तविक दुनिया के सॉफ़्टवेयर इंजीनियरिंग कौशल का एक माप है, GPT‑4.1 54.6% कार्य पूरे करता है, जबकि GPT‑33.2o (4-2024-11) के लिए यह 20% है। यह कोड रिपॉजिटरी का पता लगाने, कार्य पूरा करने और कोड बनाने की मॉडल क्षमता में सुधार को दर्शाता है जो परीक्षण चलाता है और पास करता है।

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (उच्च)खुलाAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4o mini55%33%41%49%38%24%9%SWE‑bench Verified accuracy

के लिए SWE-बेंच सत्यापित, मॉडल को एक कोड रिपॉजिटरी और समस्या विवरण दिया जाता है, और समस्या को हल करने के लिए एक पैच तैयार करना चाहिए। प्रदर्शन उपयोग किए गए संकेतों और उपकरणों पर अत्यधिक निर्भर है। हमारे परिणामों को पुन: प्रस्तुत करने और संदर्भ देने में सहायता के लिए, हम GPT‑4.1 के लिए अपने सेटअप का वर्णन करते हैं यहाँ उत्पन्न करें(एक नई विंडो में खुलता है)हमारे स्कोर में 23 में से 500 समस्याएं शामिल नहीं हैं, जिनके समाधान हमारे बुनियादी ढांचे पर नहीं चल सकते; यदि इन्हें रूढ़िवादी रूप से 0 के रूप में स्कोर किया जाता है, तो 54.6% स्कोर 52.1% हो जाता है।

बड़ी फ़ाइलों को संपादित करने की चाहत रखने वाले API डेवलपर्स के लिए, GPT‑4.1 कई तरह के फ़ॉर्मेट में कोड अंतर पर ज़्यादा विश्वसनीय है। GPT‑4.1 ने GPT‑4o के स्कोर को दोगुना से भी ज़्यादा कर दिया है एडर का बहुभाषी अंतर बेंचमार्क(एक नई विंडो में खुलता है), और यहां तक ​​कि GPT‑4.5 को 8% से पीछे छोड़ देता हैपेट.यह मूल्यांकन विभिन्न प्रोग्रामिंग भाषाओं में कोडिंग क्षमताओं का एक माप है और पूरे और डिफ फॉर्मेट में परिवर्तन करने की मॉडल क्षमता का एक माप है। हमने विशेष रूप से डिफ फॉर्मेट का अधिक विश्वसनीय तरीके से पालन करने के लिए GPT‑4.1 को प्रशिक्षित किया है, जो डेवलपर्स को पूरी फ़ाइल को फिर से लिखने के बजाय केवल मॉडल आउटपुट में बदली गई लाइनें होने से लागत और विलंबता दोनों को बचाने की अनुमति देता है। सर्वोत्तम कोड डिफ प्रदर्शन के लिए, कृपया हमारे देखें संकेत गाइड(एक नई विंडो में खुलता है). उन डेवलपर्स के लिए जो पूरी फ़ाइलों को फिर से लिखना पसंद करते हैं, हमने GPT‑4.1 के लिए आउटपुट टोकन सीमा को बढ़ाकर 32,768 टोकन कर दिया है (GPT‑16,384o के लिए 4 टोकन से ऊपर)। हम यह भी सलाह देते हैं कि पूर्वानुमानित आउटपुट(एक नई विंडो में खुलता है) पूर्ण फ़ाइल पुनर्लेखन की विलंबता को कम करने के लिए।

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (उच्च)खुलाAI o3-मिनी (उच्च)GPT-4.5GPT-4.1 मिनीGPT-4.1 नैनोGPT-4o मिनी52% (संपूर्ण)53% (अंतर)31% (संपूर्ण)18% (अंतर)64% (संपूर्ण)62% (अंतर)67% (संपूर्ण)60% (अंतर)35% (संपूर्ण)32% (अंतर)10% (संपूर्ण)6% (अंतर)4% (संपूर्ण)3% (अंतर)N/A (संपूर्ण)45% (अंतर)Aider की बहुभाषी बेंचमार्क सटीकता

ऐडर के पॉलीग्लॉट बेंचमार्क में, मॉडल कोडिंग अभ्यास को हल करते हैं व्यायाम(एक नई विंडो में खुलता है) स्रोत फ़ाइलों को संपादित करके, एक बार पुनः प्रयास की अनुमति के साथ। 'संपूर्ण' प्रारूप के लिए मॉडल को पूरी फ़ाइल को फिर से लिखना पड़ता है, जो धीमा और महंगा हो सकता है। 'diff' प्रारूप के लिए मॉडल को कई श्रृंखलाएँ लिखने की आवश्यकता होती है ब्लॉक खोजें/बदलें(एक नई विंडो में खुलता है).

GPT‑4.1 फ्रंटएंड कोडिंग में GPT‑4o से भी काफी बेहतर है, और ऐसे वेब ऐप बनाने में सक्षम है जो अधिक कार्यात्मक रूप से पसंदीदा और सौंदर्य की दृष्टि से मनभावन हैं। हमारे आमने-सामने की तुलना में, भुगतान किए गए मानव ग्रेडर GPT‑4.1 की वेबसाइटों को GPT‑4o की तुलना में 80% समय पर बनाते हैं।

आदेश: फ्लैशकार्ड वेब एप्लिकेशन बनाएं। उपयोगकर्ता को फ्लैशकार्ड बनाने, अपने मौजूदा फ्लैशकार्ड में खोज करने, फ्लैशकार्ड की समीक्षा करने और समीक्षा किए गए फ्लैशकार्ड के आँकड़े देखने में सक्षम होना चाहिए। हिंदी शब्द या वाक्यांश और उसके अंग्रेजी अनुवाद वाले दस कार्ड पहले से लोड करें। समीक्षा इंटरफ़ेस: समीक्षा इंटरफ़ेस में, क्लिक करने या स्पेस दबाने पर कार्ड को एक सहज 3-डी एनीमेशन के साथ फ़्लिप करना चाहिए ताकि अनुवाद दिखाई दे। तीर कुंजी दबाने पर कार्ड के माध्यम से नेविगेट करना चाहिए। खोज इंटरफ़ेस: खोज बार को उपयोगकर्ता द्वारा क्वेरी में टाइप किए जाने पर परिणामों की एक सूची गतिशील रूप से प्रदान करनी चाहिए। सांख्यिकी इंटरफ़ेस: सांख्यिकी पृष्ठ पर उपयोगकर्ता द्वारा समीक्षा किए गए कार्ड की संख्या और उनके द्वारा सही प्राप्त किए गए प्रतिशत का ग्राफ़ दिखाना चाहिए। कार्ड बनाएँ इंटरफ़ेस: कार्ड बनाएँ पृष्ठ पर उपयोगकर्ता को फ्लैशकार्ड के सामने और पीछे के भाग को निर्दिष्ट करने और उपयोगकर्ता के संग्रह में जोड़ने की अनुमति होनी चाहिए। इनमें से प्रत्येक इंटरफ़ेस साइडबार में सुलभ होना चाहिए। एक एकल पृष्ठ React ऐप बनाएं (सभी शैलियों को इनलाइन रखें)।

 

जीपीटी‑4o

 

जीपीटी‑4.1

उपरोक्त बेंचमार्क से परे, GPT‑4.1 प्रारूपों का अधिक विश्वसनीय तरीके से पालन करने में बेहतर है और कम बार-बार बाहरी संपादन करता है। हमारे आंतरिक मूल्यांकन में, कोड पर बाहरी संपादन GPT‑9o के साथ 4% से GPT‑2 के साथ 4.1% तक गिर गया।

वास्तविक दुनिया के उदाहरण

विंडसर्फिंग(एक नई विंडो में खुलता है)विंडसर्फ के आंतरिक कोडिंग बेंचमार्क पर GPT‑4.1 का स्कोर GPT‑60o से 4% अधिक है, जो इस बात से दृढ़ता से संबंधित है कि पहली समीक्षा में कोड में कितनी बार बदलाव स्वीकार किए जाते हैं। उनके उपयोगकर्ताओं ने नोट किया कि यह टूल कॉलिंग में 30% अधिक कुशल था और अनावश्यक संपादनों को दोहराने या अत्यधिक संकीर्ण, वृद्धिशील चरणों में कोड पढ़ने की संभावना लगभग 50% कम थी। ये सुधार इंजीनियरिंग टीमों के लिए तेज़ पुनरावृत्ति और सुचारू वर्कफ़्लो में तब्दील हो जाते हैं।

कोदो(एक नई विंडो में खुलता है)Qodo ने अपने फ़ाइन-ट्यूनिंग बेंचमार्क से प्रेरित कार्यप्रणाली का उपयोग करके GitHub पुल अनुरोधों से उच्च-गुणवत्ता वाली कोड समीक्षाएँ बनाने के लिए GPT‑4.1 का दूसरे अग्रणी मॉडलों के साथ सीधा परीक्षण किया। समान संकेतों और शर्तों के साथ 200 सार्थक वास्तविक दुनिया के पुल अनुरोधों में, उन्होंने पाया कि GPT‑4.1 ने बेहतर सुझाव दिया मामलों की 55%(एक नई विंडो में खुलता है)उल्लेखनीय रूप से, उन्होंने पाया कि GPT‑4.1 सटीकता (यह जानना कि कब सुझाव नहीं देना है) और व्यापकता (आवश्यक होने पर संपूर्ण विश्लेषण प्रदान करना) दोनों में उत्कृष्ट है, जबकि वास्तव में महत्वपूर्ण मुद्दों पर ध्यान केंद्रित करता है।

अनुदेश का पालन

GPT‑4.1 निर्देशों का अधिक विश्वसनीय तरीके से पालन करता है, और हमने मूल्यांकन के बाद विभिन्न प्रकार के निर्देशों में महत्वपूर्ण सुधार मापा है।

हमने कई आयामों में और निर्देश अनुवर्तन की कई प्रमुख श्रेणियों में मॉडल के प्रदर्शन को ट्रैक करने के लिए निर्देश अनुवर्तन के लिए एक आंतरिक मूल्यांकन विकसित किया है, जिसमें शामिल हैं:

  • प्रारूप निम्नलिखित है. मॉडल की प्रतिक्रिया के लिए कस्टम प्रारूप निर्दिष्ट करने वाले निर्देश प्रदान करना, जैसे XML, YAML, मार्कडाउन, आदि।
  • नकारात्मक निर्देश. मॉडल को जिस व्यवहार से बचना चाहिए उसे निर्दिष्ट करना। (उदाहरण: “उपयोगकर्ता को सहायता से संपर्क करने के लिए न कहें”)
  • आदेशित निर्देश. निर्देशों का एक सेट प्रदान करना जिसका मॉडल को दिए गए क्रम में पालन करना होगा। (उदाहरण: “पहले उपयोगकर्ता का नाम पूछें, फिर उनका ईमेल पूछें”)
  • सामग्री आवश्यकताएँ. ऐसी सामग्री आउटपुट करना जिसमें कुछ निश्चित जानकारी शामिल हो। (उदाहरण: “पोषण योजना लिखते समय हमेशा प्रोटीन की मात्रा शामिल करें”)
  • रैंकिंग। आउटपुट को एक विशेष तरीके से क्रमबद्ध करना। (उदाहरण: “जनसंख्या गणना के अनुसार प्रतिक्रिया को क्रमबद्ध करें”)
  • अति आत्मविश्वास। यदि अनुरोधित जानकारी उपलब्ध नहीं है, या अनुरोध किसी दी गई श्रेणी में नहीं आता है, तो मॉडल को “मुझे नहीं पता” या इसी तरह का कुछ कहने का निर्देश देना। (उदाहरण: “यदि आपको उत्तर नहीं पता है, तो सहायता संपर्क ईमेल प्रदान करें”)

ये श्रेणियां डेवलपर्स से मिले फीडबैक का परिणाम हैं कि निर्देश के अनुसरण के कौन से पहलू उनके लिए सबसे अधिक प्रासंगिक और महत्वपूर्ण हैं। प्रत्येक श्रेणी में, हमने आसान, मध्यम और कठिन प्रॉम्प्ट को विभाजित किया है। GPT‑4.1 विशेष रूप से कठिन प्रॉम्प्ट पर GPT‑4o की तुलना में काफी बेहतर है।

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (उच्च)खुलाAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini49%29%51%50%54%45%32%27%Internal OpenAI मूल्यांकन सटीकता (हार्ड उपसमूह) के बाद निर्देश

मूल्यांकन के बाद हमारा आंतरिक निर्देश वास्तविक डेवलपर उपयोग मामलों और फीडबैक पर आधारित होता है, जिसमें विभिन्न जटिलता वाले कार्यों के साथ-साथ स्वरूपण, शब्दाडंबर, लंबाई और अन्य पर निर्देश शामिल होते हैं।

कई डेवलपर्स के लिए मल्टी-टर्न इंस्ट्रक्शन फॉलो करना महत्वपूर्ण है - मॉडल के लिए बातचीत में गहराई से सुसंगतता बनाए रखना और उपयोगकर्ता ने पहले जो बताया था उसका ट्रैक रखना महत्वपूर्ण है। हमने GPT‑4.1 को बातचीत में पिछले संदेशों से जानकारी को बेहतर ढंग से चुनने में सक्षम बनाने के लिए प्रशिक्षित किया है, जिससे अधिक स्वाभाविक बातचीत हो सके। स्केल से मल्टीचैलेंज बेंचमार्क इस क्षमता का एक उपयोगी माप है, और GPT‑4.1 10.5% प्रदर्शन करता हैपेट GPT‑4o से बेहतर है।

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (उच्च)खुलाAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini38%28%45%40%44%36%15%20%MultiChallenge accuracy

In मल्टीचैलेंज(एक नई विंडो में खुलता है)इसमें, मॉडलों को बहु-मोड़ वार्तालापों में पिछले संदेशों से चार प्रकार की जानकारी का उचित उपयोग करने की चुनौती दी जाती है।

GPT‑4.1 भी IFEval पर 87.4% स्कोर करता है, जबकि GPT‑81.0o के लिए यह 4% है। IFEval सत्यापन योग्य निर्देशों के साथ संकेतों का उपयोग करता है (उदाहरण के लिए, सामग्री की लंबाई निर्दिष्ट करना या कुछ शर्तों या प्रारूपों से बचना)।

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (उच्च)खुलाAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini87%81%92%94%88%84%75%78%IFEval accuracy

In आईएफईवैल्यू(एक नई विंडो में खुलता है), मॉडल को विभिन्न निर्देशों का अनुपालन करने वाले उत्तर उत्पन्न करने होंगे।

बेहतर निर्देश अनुसरण मौजूदा अनुप्रयोगों को अधिक विश्वसनीय बनाता है, और नए अनुप्रयोगों को सक्षम बनाता है जो पहले खराब विश्वसनीयता द्वारा सीमित थे। शुरुआती परीक्षकों ने नोट किया कि GPT‑4.1 अधिक शाब्दिक हो सकता है, इसलिए हम संकेतों में स्पष्ट और विशिष्ट होने की सलाह देते हैं। GPT‑4.1 के लिए संकेत देने के सर्वोत्तम तरीकों के बारे में अधिक जानकारी के लिए, कृपया संकेत देने की मार्गदर्शिका देखें।

वास्तविक दुनिया के उदाहरण

नीला जे(एक नई विंडो में खुलता है)ब्लू जे के सबसे चुनौतीपूर्ण वास्तविक दुनिया कर परिदृश्यों के आंतरिक बेंचमार्क पर GPT‑4.1, GPT‑53o की तुलना में 4% अधिक सटीक था। सटीकता में यह उछाल - सिस्टम प्रदर्शन और उपयोगकर्ता संतुष्टि दोनों के लिए महत्वपूर्ण है - जटिल विनियमों की GPT‑4.1 की बेहतर समझ और लंबे संदर्भों में सूक्ष्म निर्देशों का पालन करने की इसकी क्षमता को उजागर करता है। ब्लू जे उपयोगकर्ताओं के लिए, इसका मतलब है तेज़, अधिक विश्वसनीय कर अनुसंधान और उच्च-मूल्य सलाहकार कार्य के लिए अधिक समय।

हेक्स(एक नई विंडो में खुलता है): GPT‑4.1 ने हेक्स के सबसे चुनौतीपूर्ण पर लगभग 2x सुधार दिया एसक्यूएल मूल्यांकन सेट,(एक नई विंडो में खुलता है) निर्देश के अनुसरण और अर्थपूर्ण समझ में महत्वपूर्ण लाभ प्रदर्शित करना। मॉडल बड़े, अस्पष्ट स्कीमा से सही तालिकाओं का चयन करने में अधिक विश्वसनीय था - एक अपस्ट्रीम निर्णय बिंदु जो सीधे समग्र सटीकता को प्रभावित करता है और अकेले संकेत के माध्यम से ट्यून करना मुश्किल है। हेक्स के लिए, इसका परिणाम मैन्युअल डिबगिंग में मापनीय कमी और उत्पादन-ग्रेड वर्कफ़्लो के लिए एक तेज़ मार्ग था।

लंबा संदर्भ

GPT‑4.1, GPT‑4.1 मिनी और GPT‑4.1 नैनो संदर्भ के 1 मिलियन टोकन तक संसाधित कर सकते हैं - पिछले GPT‑128,000o मॉडल के लिए 4 से अधिक। 1 मिलियन टोकन पूरे React कोडबेस की 8 प्रतियों से अधिक है, इसलिए लंबा संदर्भ बड़े कोडबेस या बहुत सारे लंबे दस्तावेज़ों को संसाधित करने के लिए बहुत उपयुक्त है।

हमने GPT‑4.1 को पूरे 1 मिलियन संदर्भ लंबाई में जानकारी पर विश्वसनीय रूप से ध्यान देने के लिए प्रशिक्षित किया है। हमने इसे प्रासंगिक पाठ को नोटिस करने और लंबी और छोटी संदर्भ लंबाई में ध्यान भटकाने वाली बातों को अनदेखा करने में GPT‑4o की तुलना में कहीं अधिक विश्वसनीय होने के लिए भी प्रशिक्षित किया है। कानूनी, कोडिंग, ग्राहक सहायता और कई अन्य डोमेन में अनुप्रयोगों के लिए लंबे संदर्भ की समझ एक महत्वपूर्ण क्षमता है।

नीचे, हम संदर्भ विंडो के भीतर विभिन्न बिंदुओं पर स्थित सूचना के एक छोटे से छिपे हुए टुकड़े (एक "सुई") को पुनः प्राप्त करने की GPT‑4.1 की क्षमता को प्रदर्शित करते हैं। GPT‑4.1 लगातार सभी स्थितियों और सभी संदर्भ लंबाई पर सुई को सटीक रूप से पुनः प्राप्त करता है, 1 मिलियन टोकन तक। यह इनपुट में उनकी स्थिति की परवाह किए बिना हाथ में मौजूद कार्य के लिए प्रासंगिक विवरण निकालने में प्रभावी रूप से सक्षम है।

जीपीटी4.1 एपीआई

हमारे आंतरिक सुई-इन-ए-हैस्टैक मूल्यांकन में, GPT-4.1, GPT-4.1 मिनी, और GPT 4.1 नैनो सभी 1M तक के संदर्भ में सभी स्थितियों पर सुई को पुनः प्राप्त करने में सक्षम हैं।

हालाँकि, कुछ वास्तविक दुनिया के कार्य एक एकल, स्पष्ट सुई उत्तर को पुनः प्राप्त करने जितना सरल हैं। हम पाते हैं कि उपयोगकर्ताओं को अक्सर जानकारी के कई टुकड़ों को पुनः प्राप्त करने और समझने के लिए हमारे मॉडल की आवश्यकता होती है, और उन टुकड़ों को एक दूसरे के संबंध में समझने की आवश्यकता होती है। इस क्षमता को प्रदर्शित करने के लिए, हम एक नया मूल्यांकन ओपन-सोर्स कर रहे हैं: OpenAI-MRCR (मल्टी-राउंड कोरेफ़रेंस)।

ओपनएआई-एमआरसीआर मॉडल की क्षमता का परीक्षण करता है कि वह संदर्भ में छिपी हुई कई सुइयों को खोज सके और उनके बीच अंतर को स्पष्ट कर सके। मूल्यांकन में उपयोगकर्ता और सहायक के बीच कई बार सिंथेटिक बातचीत शामिल होती है, जहाँ उपयोगकर्ता किसी विषय पर लिखने के लिए कहता है, उदाहरण के लिए "टैपीर के बारे में एक कविता लिखें" या "चट्टानों के बारे में एक ब्लॉग पोस्ट लिखें"। फिर हम पूरे संदर्भ में दो, चार या आठ समान अनुरोध डालते हैं। फिर मॉडल को किसी विशिष्ट उदाहरण (जैसे, "मुझे टैपिर के बारे में तीसरी कविता दें") के अनुरूप प्रतिक्रिया प्राप्त करनी चाहिए।

चुनौती इन अनुरोधों और बाकी संदर्भ के बीच समानता से उत्पन्न होती है - मॉडल आसानी से सूक्ष्म अंतरों से गुमराह हो सकते हैं, जैसे कि कविता के बजाय टैपिर के बारे में एक छोटी कहानी, या टैपिर के बजाय मेंढकों के बारे में एक कविता। हम पाते हैं कि GPT‑4.1 4K टोकन तक के संदर्भ लंबाई पर GPT‑128o से बेहतर प्रदर्शन करता है और 1 मिलियन टोकन तक भी मजबूत प्रदर्शन बनाए रखता है।

लेकिन यह कार्य कठिन बना हुआ है - उन्नत तर्क मॉडल के लिए भी। हम साझा कर रहे हैं eval डेटासेट(एक नई विंडो में खुलता है) वास्तविक दुनिया के दीर्घ-संदर्भ पुनर्प्राप्ति पर आगे के कार्य को प्रोत्साहित करना।

जीपीटी4.1 एपीआई

In ओपनएआई-एमआरसीआर(एक नई विंडो में खुलता है), मॉडल को एक प्रश्न का उत्तर देना होगा जिसमें विचलित करने वाले 2, 4, या 8 उपयोगकर्ता संकेतों के बीच स्पष्टता लाना शामिल है।

हम यह भी जारी कर रहे हैं ग्राफवॉक(एक नई विंडो में खुलता है), मल्टी-हॉप लॉन्ग-कॉन्टेक्स्ट रीजनिंग का मूल्यांकन करने के लिए एक डेटासेट। लॉन्ग कॉन्टेक्स्ट के लिए कई डेवलपर उपयोग मामलों में संदर्भ के भीतर कई तार्किक हॉप्स की आवश्यकता होती है, जैसे कोड लिखते समय कई फ़ाइलों के बीच जंप करना या जटिल कानूनी प्रश्नों का उत्तर देते समय दस्तावेज़ों को क्रॉस रेफ़रेंस करना।

एक मॉडल (या यहां तक ​​कि एक मानव) सैद्धांतिक रूप से एक ओपनएआई-एमआरसीआर समस्या को एक बार पढ़कर या प्रॉम्प्ट को पढ़कर हल कर सकता है, लेकिन ग्राफवॉक को संदर्भ में कई स्थितियों में तर्क की आवश्यकता के लिए डिज़ाइन किया गया है और इसे क्रमिक रूप से हल नहीं किया जा सकता है।

ग्राफवॉक संदर्भ विंडो को हेक्साडेसिमल हैश से बने निर्देशित ग्राफ से भरता है, और फिर मॉडल को ग्राफ में एक यादृच्छिक नोड से शुरू करके एक चौड़ाई-पहले खोज (बीएफएस) करने के लिए कहता है। फिर हम इसे एक निश्चित गहराई पर सभी नोड्स को वापस करने के लिए कहते हैं। GPT‑4.1 इस बेंचमार्क पर 61.7% सटीकता प्राप्त करता है, जो o1 के प्रदर्शन से मेल खाता है और GPT‑4o को आसानी से हरा देता है।

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (उच्च)खुलाAI o3-मिनी (उच्च)GPT-4.5GPT-4.1 मिनीGPT-4.1 नैनोGPT-4o मिनी62%42%62%51%72%62%25%29%ग्राफ़वॉक BFS <128k सटीकता

In ग्राफवॉक(एक नई विंडो में खुलता है), एक मॉडल को एक बड़े ग्राफ में एक यादृच्छिक नोड से चौड़ाई-प्रथम खोज करने के लिए कहा जाता है।

बेंचमार्क पूरी कहानी नहीं बताते हैं, इसलिए हमने अल्फा भागीदारों के साथ मिलकर उनके वास्तविक दुनिया के लंबे संदर्भ कार्यों पर GPT‑4.1 के प्रदर्शन का परीक्षण किया।

वास्तविक दुनिया के उदाहरण

थॉमसन रॉयटर्स:(एक नई विंडो में खुलता है) थॉमसन रॉयटर्स ने अपने पेशेवर ग्रेड कोकाउंसल के साथ GPT‑4.1 का परीक्षण किया AI कानूनी काम के लिए सहायक। GPT‑4o की तुलना में, वे आंतरिक दीर्घ-संदर्भ बेंचमार्क में GPT‑17 का उपयोग करते समय बहु-दस्तावेज़ समीक्षा सटीकता में 4.1% सुधार करने में सक्षम थे - कई, लंबे दस्तावेज़ों को शामिल करने वाले जटिल कानूनी वर्कफ़्लो को संभालने के लिए CoCounsel की क्षमता का एक आवश्यक उपाय। विशेष रूप से, उन्होंने पाया कि मॉडल स्रोतों में संदर्भ बनाए रखने और दस्तावेजों के बीच सूक्ष्म संबंधों की सटीक पहचान करने में अत्यधिक विश्वसनीय है, जैसे कि परस्पर विरोधी खंड या अतिरिक्त पूरक संदर्भ - कानूनी विश्लेषण और निर्णय लेने के लिए महत्वपूर्ण कार्य।

कार्लाइल(एक नई विंडो में खुलता है)कार्लाइल ने पीडीएफ, एक्सेल फाइल और अन्य जटिल प्रारूपों सहित कई लंबे दस्तावेजों में बारीक वित्तीय डेटा को सटीक रूप से निकालने के लिए जीपीटी-4.1 का उपयोग किया। उनके आंतरिक मूल्यांकन के आधार पर, इसने घने डेटा वाले बहुत बड़े दस्तावेज़ों से पुनर्प्राप्ति पर 50% बेहतर प्रदर्शन किया और यह अन्य उपलब्ध मॉडलों के साथ देखी गई प्रमुख सीमाओं को सफलतापूर्वक पार करने वाला पहला मॉडल था, जिसमें सुई-इन-द-हिस्टैक पुनर्प्राप्ति, बीच में खोई हुई त्रुटियाँ और दस्तावेज़ों में मल्टी-हॉप तर्क शामिल हैं।

मॉडल के प्रदर्शन और सटीकता के अलावा, डेवलपर्स को ऐसे मॉडल की भी आवश्यकता होती है जो उपयोगकर्ताओं की ज़रूरतों को पूरा करने के लिए तेज़ी से प्रतिक्रिया दें। हमने पहले टोकन के समय को कम करने के लिए अपने इंफ़रेंस स्टैक में सुधार किया है, और प्रॉम्प्ट कैशिंग के साथ, आप लागतों को बचाते हुए विलंबता को और भी कम कर सकते हैं। हमारे शुरुआती परीक्षण में, GPT‑4.1 के लिए पहले टोकन की विलंबता संदर्भ के 128,000 टोकन के साथ लगभग पंद्रह सेकंड थी, और संदर्भ के एक मिलियन टोकन के लिए एक मिनट थी। GPT‑4.1 मिनी और नैनो तेज़ हैं, उदाहरण के लिए, GPT‑4.1 नैनो अक्सर 128,000 इनपुट टोकन वाली क्वेरी के लिए पाँच सेकंड से भी कम समय में पहला टोकन लौटाता है।

विज़न

GPT‑4.1 परिवार छवि समझ में असाधारण रूप से मजबूत है, विशेष रूप से GPT‑4.1 मिनी एक महत्वपूर्ण छलांग का प्रतिनिधित्व करता है, जो अक्सर छवि बेंचमार्क पर GPT‑4o को हरा देता है।

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini75%69%78%75%73%55%56%MMMU accuracy

In एमएमएमयू(एक नई विंडो में खुलता है), एक मॉडल चार्ट, आरेख, मानचित्र आदि से युक्त प्रश्नों का उत्तर देता है। (नोट: जब छवि शामिल नहीं होती है, तब भी कई उत्तरों का संदर्भ से अनुमान लगाया जा सकता है।)

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini72%61%72%72%73%56%57%MathVista accuracy

In मैथविस्टा(एक नई विंडो में खुलता है), एक मॉडल दृश्य गणितीय कार्यों को हल करता है।

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini57%53%55%55%57%41%37%CharXiv-Reasoning accuracy

In चारएक्सिव-रीजनिंग(एक नई विंडो में खुलता है)इसमें एक मॉडल वैज्ञानिक पत्रों से चार्ट के बारे में सवालों के जवाब देता है।

मल्टीमॉडल उपयोग के मामलों के लिए भी लंबे संदर्भ का प्रदर्शन महत्वपूर्ण है, जैसे कि लंबे वीडियो को प्रोसेस करना। वीडियो-एमएमई⁠(एक नई विंडो में खुलता है) (लंबा बिना सबटाइटल के), एक मॉडल बिना सबटाइटल के 30-60 मिनट लंबे वीडियो पर आधारित बहुविकल्पीय प्रश्नों का उत्तर देता है। GPT‑4.1 ने अत्याधुनिक प्रदर्शन हासिल किया, जिसका स्कोर 72.0% रहा, जबकि GPT‑65.3o के लिए यह 4% था।

GPT-4.1GPT-4o (2024-11-20)72%65%Video long context

In वीडियो-एमएमई(एक नई विंडो में खुलता है)इसमें एक मॉडल बिना किसी उपशीर्षक वाले 30-60 मिनट लंबे वीडियो पर आधारित बहुविकल्पीय प्रश्नों के उत्तर देता है।

मूल्य निर्धारण

GPT‑4.1, GPT‑4.1 मिनी और GPT‑4.1 नैनो अब सभी डेवलपर्स के लिए उपलब्ध हैं।

हमारे अनुमान प्रणालियों में दक्षता सुधार के माध्यम से, हम GPT‑4.1 श्रृंखला पर कम कीमतों की पेशकश करने में सक्षम हैं। GPT‑4.1 मीडियन क्वेरीज़ के लिए GPT‑26o की तुलना में 4% कम महंगा है, और GPT‑4.1 नैनो हमारा अब तक का सबसे सस्ता और सबसे तेज़ मॉडल है। उन क्वेरीज़ के लिए जो बार-बार एक ही संदर्भ से गुज़रती हैं, हम इन नए मॉडलों के लिए प्रॉम्प्ट कैशिंग छूट को 75% (पहले 50% से ऊपर) तक बढ़ा रहे हैं। अंत में, हम मानक प्रति-टोकन लागतों से परे बिना किसी अतिरिक्त लागत के लंबे संदर्भ अनुरोध प्रदान करते हैं।

आदर्श
(कीमतें 1M टोकन प्रति हैं)
निवेशकैश्ड इनपुटउत्पादनमिश्रित मूल्य निर्धारण*
जीपीटी-4.1$2.00$0.50$8.00$1.84
जीपीटी-4.1-मिनी$0.40$0.10$1.60$0.42
जीपीटी-4.1-नैनो$0.10$0.025$0.40$0.12

*विशिष्ट इनपुट/आउटपुट और कैश अनुपात पर आधारित।

ये मॉडल हमारे उपयोग के लिए उपलब्ध हैं बैच एपीआई(एक नई विंडो में खुलता है) अतिरिक्त 50% मूल्य छूट पर।

निष्कर्ष

GPT‑4.1 व्यावहारिक अनुप्रयोग में एक महत्वपूर्ण कदम है AIवास्तविक दुनिया के डेवलपर की ज़रूरतों पर बारीकी से ध्यान केंद्रित करके - कोडिंग से लेकर निर्देश-पालन और लंबे संदर्भ की समझ तक - ये मॉडल बुद्धिमान सिस्टम और परिष्कृत एजेंटिक एप्लिकेशन बनाने की नई संभावनाओं को अनलॉक करते हैं। हम डेवलपर समुदाय की रचनात्मकता से लगातार प्रेरित होते हैं, और यह देखने के लिए उत्साहित हैं कि आप GPT‑4.1 के साथ क्या बनाते हैं।

परिशिष्ट

अकादमिक, कोडिंग, अनुदेश अनुसरण, दीर्घ संदर्भ, विजन और फ़ंक्शन कॉलिंग मूल्यांकन के परिणामों की पूरी सूची नीचे दी गई है।

शैक्षणिक ज्ञान
वर्गGPT-4.1जीपीटी-4.1 मिनीजीपीटी-4.1 नैनोGPT-4o(2024 - 11 - 20)GPT-4o मिनीप्रारंभिकAI o1(उच्च)प्रारंभिकAI o3-मिनी(उच्च)GPT-4.5
एआईएमई '2448.1% तक 49.6% तक 29.4% तक 13.1% तक 8.6% तक 74.3% तक 87.3% तक 36.7% तक
जीपीक्यूए डायमंड166.3% तक 65.0% तक 50.3% तक 46.0% तक 40.2% तक 75.7% तक 77.2% तक 69.5% तक
एमएमएलयू90.2% तक 87.5% तक 80.1% तक 85.7% तक 82.0% तक 91.8% तक 86.9% तक 90.8% तक
बहुभाषी एमएमएलयू87.3% तक 78.5% तक 66.9% तक 81.4% तक 70.5% तक 87.7% तक 80.7% तक 85.1% तक

[1] GPQA का हमारा कार्यान्वयन रेगेक्स के बजाय उत्तर निकालने के लिए एक मॉडल का उपयोग करता है। GPT-4.1 के लिए, अंतर <1% था (सांख्यिकीय रूप से महत्वपूर्ण नहीं), लेकिन GPT-4o के लिए मॉडल निष्कर्षण स्कोर में काफी सुधार करता है (~ 46% -> 54%)।

कोडिंग मूल्यांकन
वर्गGPT-4.1जीपीटी-4.1 मिनीजीपीटी-4.1 नैनोGPT-4o(2024 - 11 - 20)GPT-4o मिनीप्रारंभिकAI o1(उच्च)प्रारंभिकAI o3-मिनी(उच्च)GPT-4.5
SWE-बेंच सत्यापित254.6% तक 23.6% तक -33.2% तक 8.7% तक 41.0% तक 49.3% तक 38.0% तक
SWE-लांसर$ 176K
(35.1%)
$ 165K
(33.0%)
$ 77K
(15.3%)
$ 163K
(32.6%)
$ 116K
(23.1%)
$ 160K
(32.1%)
$ 90K
(18.0%)
$ 186K
(37.3%)
SWE-लांसर (IC-डायमंड उपसमूह)$ 34K
(14.4%)
$ 31K
(13.1%)
$ 9K
(3.7%)
$ 29K
(12.4%)
$ 11K
(4.8%)
$ 29K
(9.7%)
$ 17K
(7.4%)
$ 41K
(17.4%)
ऐडर का बहुभाषीय: संपूर्ण51.6% तक 34.7% तक 9.8% तक 30.7% तक 3.6% तक 64.6% तक 66.7% तक -
Aider का बहुभाषी: diff52.9% तक 31.6% तक 6.2% तक 18.2% तक 2.7% तक 61.7% तक 60.4% तक 44.9% तक

[2] हमने 23/500 समस्याओं को छोड़ दिया जो हमारे बुनियादी ढांचे पर नहीं चल सकती थीं। छोड़े गए 23 कार्यों की पूरी सूची हैं 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'पाइलिंट-देव__पाइलिंट-7080', 'पाइलिंट-देव__पाइलिंट-7277', 'पायटेस्ट-देव__पायटेस्ट-5262', 'पायटेस्ट-देव__पायटेस्ट-7521', 'स्किकिट-लर्न__स्किकिट-लर्न-12973', 'स्पिंक्स-डॉक__स्पिंक्स-10466', 'स्पिंक्स-डॉक__स्पिंक्स-7462', 'स्पिंक्स-डॉक__स्पिंक्स-8265', और 'स्पिंक्स-डॉक__स्पिंक्स-9367'।

मूल्यांकन के बाद निर्देश
वर्गGPT-4.1जीपीटी-4.1 मिनीजीपीटी-4.1 नैनोGPT-4o(2024 - 11 - 20)GPT-4o मिनीप्रारंभिकAI o1(उच्च)प्रारंभिकAI o3-मिनी(उच्च)GPT-4.5
आंतरिक API निर्देश का पालन (कठिन)49.1% तक 45.1% तक 31.6% तक 29.2% तक 27.2% तक 51.3% तक 50.0% तक 54.0% तक
मल्टीचैलेंज38.3% तक 35.8% तक 15.0% तक 27.8% तक 20.3% तक 44.9% तक 39.9% तक 43.8% तक
मल्टीचैलेंज (o3-मिनी ग्रेडर)346.2% तक 42.2% तक 31.1% तक 39.9% तक 25.6% तक 52.9% तक 50.2% तक 50.1% तक
कोल्ली65.8% तक 54.6% तक 42.5% तक 50.2% तक 52.7% तक 95.3% तक 98.7% तक 72.3% तक
आईएफईवैल्यू87.4% तक 84.1% तक 74.5% तक 81.0% तक 78.4% तक 92.2% तक 93.9% तक 88.2% तक
मल्टी-आईएफ70.8% तक 67.0% तक 57.2% तक 60.9% तक 57.9% तक 77.9% तक 79.5% तक 70.8% तक

[3] नोट: हम पाते हैं कि मल्टीचैलेंज (GPT-4o) में डिफ़ॉल्ट ग्रेडर अक्सर मॉडल प्रतिक्रियाओं को गलत स्कोर करता है। हम पाते हैं कि ग्रेडर को o3-mini जैसे रीजनिंग मॉडल में बदलने से हमारे द्वारा निरीक्षण किए गए नमूनों पर ग्रेडिंग की सटीकता में काफी सुधार होता है। लीडरबोर्ड के साथ संगतता कारणों से, हम परिणामों के दोनों सेट प्रकाशित कर रहे हैं।

लंबे संदर्भ मूल्यांकन
वर्गGPT-4.1जीपीटी-4.1 मिनीजीपीटी-4.1 नैनोGPT-4o(2024 - 11 - 20)GPT-4o मिनीप्रारंभिकAI o1(उच्च)प्रारंभिकAI o3-मिनी(उच्च)GPT-4.5
OpenAI-MRCR: 2 सुई128k57.2% तक 47.2% तक 36.6% तक 31.9% तक 24.5% तक 22.1% तक 18.7% तक 38.5% तक
ओपनएआई-एमआरसीआर: 2 सुई 1एम46.3% तक 33.3% तक 12.0% तक -----
ग्राफवॉक bfs < 128k61.7% तक 61.7% तक 25.0% तक 41.7% तक 29.0% तक 62.0% तक 51.0% तक 72.3% तक
ग्राफवॉक bfs >128k19.0% तक 15.0% तक 2.9% तक -----
ग्राफवॉक माता-पिता <128k58.0% तक 60.5% तक 9.4% तक 35.4% तक 12.6% तक 50.9% तक 58.3% तक 72.6% तक
ग्राफवॉक माता-पिता >128k25.0% तक 11.0% तक 5.6% तक -----
विज़न इवैल्यूएशन
वर्गGPT-4.1जीपीटी-4.1 मिनीजीपीटी-4.1 नैनोGPT-4o(2024 - 11 - 20)GPT-4o मिनीप्रारंभिकAI o1(उच्च)प्रारंभिकAI o3-मिनी(उच्च)GPT-4.5
एमएमएमयू74.8% तक 72.7% तक 55.4% तक 68.7% तक 56.3% तक 77.6% तक -75.2% तक
मैथविस्टा72.2% तक 73.1% तक 56.2% तक 61.4% तक 56.5% तक 71.8% तक -72.3% तक
चारएक्सिव-आर56.7% तक 56.8% तक 40.5% तक 52.7% तक 36.8% तक 55.1% तक -55.4% तक
चारXiv-डी87.9% तक 88.4% तक 73.9% तक 85.3% तक 76.6% तक 88.9% तक -90.0% तक
फ़ंक्शन कॉलिंग Eval
वर्गGPT-4.1जीपीटी-4.1 मिनीजीपीटी-4.1 नैनोGPT-4o(2024 - 11 - 20)GPT-4o मिनीप्रारंभिकAI o1(उच्च)प्रारंभिकAI o3-मिनी(उच्च)GPT-4.5
कॉम्प्लेक्सफ़ंकबेंच65.5% तक 49.3% तक 0.6% तक 66.5% तक 38.6% तक 47.6% तक 17.6% तक 63.0% तक
टाउबेन्च एयरलाइन449.4% तक 36.0% तक 14.0% तक 42.8% तक 22.0% तक 50.0% तक 32.4% तक 50.0% तक
ताउबेंच रिटेल4, 568.0% तक
(73.6%)
55.8% तक
(65.4%)
22.6% तक
(23.5%)
60.3% तक 44.0% तक 70.8% तक 57.6% तक 68.4% तक

[4] टौ-बेंच इवैल्यूएशन संख्याओं को विचरण को कम करने के लिए 5 रनों में औसत किया जाता है, और बिना किसी कस्टम टूल या प्रॉम्प्टिंग के चलाया जाता है।

[5] कोष्ठकों में संख्याएँ GPT-4.1o के बजाय GPT-4 को उपयोगकर्ता मॉडल के रूप में उपयोग करते समय ताऊ-बेंच परिणामों को दर्शाती हैं। हमने पाया है कि, चूँकि GPT-4.1 निर्देशों का पालन करने में बेहतर है, इसलिए यह उपयोगकर्ता के रूप में बेहतर प्रदर्शन करने में सक्षम है, और इसलिए अधिक सफल प्रक्षेपवक्र में परिणाम देता है। हमारा मानना ​​है कि यह बेंचमार्क पर मूल्यांकित मॉडल के वास्तविक प्रदर्शन को दर्शाता है।

数据统计

संबंधित नेविगेशन

कोई टिप्पणी नहीं

कोई नहीं
कोई टिप्पणी नहीं...