
GPT मॉडल की एक नई श्रृंखला जिसमें कोडिंग, निर्देश अनुसरण और लंबे संदर्भ पर प्रमुख सुधार शामिल हैं - साथ ही हमारा पहला नैनो मॉडल भी।APIपुकारना
कृपया निर्देशों के लिए लेख देखें पहली विज्ञप्ति!ChatGPT4.1 स्थानीय उपयोग के लिए पूर्ण मार्गदर्शिका - शुरुआती और नियमित कंप्यूटर के लिए भी
ChatGPT4.1 परिचय
आज, हम API में तीन नए मॉडल लॉन्च कर रहे हैं: GPT‑4.1, GPT‑4.1 मिनी और GPT‑4.1 नैनो। ये मॉडल सभी जगह GPT‑4o और GPT‑4o मिनी से बेहतर प्रदर्शन करते हैं, जिसमें प्रमुख जी शामिल हैंaiकोडिंग और निर्देश अनुसरण में ns। उनके पास बड़ी संदर्भ विंडो भी हैं - संदर्भ के 1 मिलियन टोकन तक का समर्थन करते हैं - और बेहतर दीर्घ-संदर्भ समझ के साथ उस संदर्भ का बेहतर उपयोग करने में सक्षम हैं। वे जून 2024 तक के ताज़ा ज्ञान कटऑफ की सुविधा देते हैं।
GPT‑4.1 निम्नलिखित उद्योग मानक मापदण्डों में उत्कृष्ट है:
- कोडन: GPT‑4.1 स्कोर 54.6% SWE-बेंच सत्यापित, सुधार करके 21.4% तक पेट GPT‑4o से अधिक और 26.6%पेट GPT‑4.5 से अधिक - यह कोडिंग के लिए एक अग्रणी मॉडल बनाता है।
- अनुदेश निम्नलिखित: On स्केल की मल्टीचैलेंज(एक नई विंडो में खुलता है) बेंचमार्क, निर्देश पालन क्षमता का एक उपाय, GPT‑4.1 स्कोर 38.3%, 10.5%पेट जीपीटी‑4o से अधिक की वृद्धि।
- लंबा संदर्भ: On वीडियो-एमएमई(एक नई विंडो में खुलता है)मल्टीमॉडल लंबे संदर्भ समझ के लिए एक बेंचमार्क, GPT‑4.1 एक नया अत्याधुनिक परिणाम निर्धारित करता है - लंबे, बिना उपशीर्षक श्रेणी में 72.0% स्कोर,पेट जीपीटी-4o में सुधार।
जबकि बेंचमार्क मूल्यवान अंतर्दृष्टि प्रदान करते हैं, हमने इन मॉडलों को वास्तविक दुनिया की उपयोगिता पर ध्यान केंद्रित करते हुए प्रशिक्षित किया। डेवलपर समुदाय के साथ घनिष्ठ सहयोग और साझेदारी ने हमें इन मॉडलों को उन कार्यों के लिए अनुकूलित करने में सक्षम बनाया जो उनके अनुप्रयोगों के लिए सबसे महत्वपूर्ण हैं।
इस उद्देश्य के लिए, GPT‑4.1 मॉडल परिवार कम लागत पर असाधारण प्रदर्शन प्रदान करता है। ये मॉडल विलंबता वक्र पर हर बिंदु पर प्रदर्शन को आगे बढ़ाते हैं।

GPT‑4.1 मिनी छोटे मॉडल के प्रदर्शन में एक महत्वपूर्ण छलांग है, यहाँ तक कि कई बेंचमार्क में GPT‑4o को भी पीछे छोड़ देता है। यह इंटेलिजेंस इवैल में GPT‑4o से मेल खाता है या उससे आगे निकल जाता है, जबकि विलंबता को लगभग आधे से कम करता है और लागत को 83% तक कम करता है।
कम विलंबता की मांग करने वाले कार्यों के लिए, GPT‑4.1 नैनो हमारा सबसे तेज़ और सबसे सस्ता उपलब्ध मॉडल है। यह अपने 1 मिलियन टोकन संदर्भ विंडो के साथ छोटे आकार में असाधारण प्रदर्शन प्रदान करता है, और MMLU पर 80.1%, GPQA पर 50.3% और Aider पॉलीग्लॉट कोडिंग पर 9.8% स्कोर करता है - GPT‑4o मिनी से भी अधिक। यह वर्गीकरण या स्वतः पूर्णता जैसे कार्यों के लिए आदर्श है।
निर्देश अनुसरण विश्वसनीयता और लंबे संदर्भ समझ में ये सुधार GPT‑4.1 मॉडल को एजेंटों या सिस्टम को शक्ति प्रदान करने में काफी अधिक प्रभावी बनाते हैं जो उपयोगकर्ताओं की ओर से स्वतंत्र रूप से कार्य पूरा कर सकते हैं। प्रतिक्रिया एपीआई(एक नई विंडो में खुलता है)डेवलपर्स अब ऐसे एजेंट बना सकते हैं जो वास्तविक दुनिया की सॉफ्टवेयर इंजीनियरिंग में अधिक उपयोगी और विश्वसनीय हैं, बड़े दस्तावेजों से अंतर्दृष्टि निकालते हैं, न्यूनतम सहायता के साथ ग्राहक अनुरोधों का समाधान करते हैं, और अन्य जटिल कार्य करते हैं।
ध्यान दें कि GPT‑4.1 केवल API के माध्यम से उपलब्ध होगा। ChatGPT, अनुदेशन अनुसरण, कोडिंग और बुद्धिमत्ता में कई सुधारों को धीरे-धीरे इसमें शामिल किया गया है नवीनतम संस्करण(एक नई विंडो में खुलता है) GPT‑4o का, और हम भविष्य के रिलीज के साथ और अधिक शामिल करना जारी रखेंगे।
हम API में GPT‑4.5 पूर्वावलोकन को भी बंद करना शुरू कर देंगे, क्योंकि GPT‑4.1 बहुत कम लागत और विलंबता पर कई प्रमुख क्षमताओं पर बेहतर या समान प्रदर्शन प्रदान करता है। डेवलपर्स को संक्रमण के लिए समय देने के लिए GPT‑4.5 पूर्वावलोकन को तीन महीने बाद, 14 जुलाई, 2025 को बंद कर दिया जाएगा। शुरू की एक बड़े, कंप्यूट-इंटेंसिव मॉडल का पता लगाने और प्रयोग करने के लिए एक शोध पूर्वावलोकन के रूप में, और हमने डेवलपर फ़ीडबैक से बहुत कुछ सीखा है। हम भविष्य के API मॉडल में GPT‑4.5 में आपके द्वारा बताई गई रचनात्मकता, लेखन गुणवत्ता, हास्य और बारीकियों को आगे बढ़ाते रहेंगे।
नीचे, हम GPT‑4.1 के विभिन्न बेंचमार्कों पर प्रदर्शन का विश्लेषण कर रहे हैं, साथ ही विंडसर्फ, क्यूडो, हेक्स, ब्लू जे, थॉमसन रॉयटर्स और कार्लाइल जैसे अल्फा परीक्षकों के उदाहरण भी दे रहे हैं, जो दर्शाते हैं कि यह डोमेन-विशिष्ट कार्यों पर उत्पादन में कैसा प्रदर्शन करता है।
कोडन
GPT‑4.1, विभिन्न कोडिंग कार्यों में GPT‑4o से काफी बेहतर है, जिसमें कोडिंग कार्यों को एजेंटिक रूप से हल करना, फ्रंटएंड कोडिंग, कम बाहरी संपादन करना, डिफ फॉर्मेट का विश्वसनीय रूप से पालन करना, लगातार टूल उपयोग सुनिश्चित करना आदि शामिल है।
SWE-बेंच वेरिफाइड पर, जो वास्तविक दुनिया के सॉफ़्टवेयर इंजीनियरिंग कौशल का एक माप है, GPT‑4.1 54.6% कार्य पूरे करता है, जबकि GPT‑33.2o (4-2024-11) के लिए यह 20% है। यह कोड रिपॉजिटरी का पता लगाने, कार्य पूरा करने और कोड बनाने की मॉडल क्षमता में सुधार को दर्शाता है जो परीक्षण चलाता है और पास करता है।
बड़ी फ़ाइलों को संपादित करने की चाहत रखने वाले API डेवलपर्स के लिए, GPT‑4.1 कई तरह के फ़ॉर्मेट में कोड अंतर पर ज़्यादा विश्वसनीय है। GPT‑4.1 ने GPT‑4o के स्कोर को दोगुना से भी ज़्यादा कर दिया है एडर का बहुभाषी अंतर बेंचमार्क(एक नई विंडो में खुलता है), और यहां तक कि GPT‑4.5 को 8% से पीछे छोड़ देता हैपेट.यह मूल्यांकन विभिन्न प्रोग्रामिंग भाषाओं में कोडिंग क्षमताओं का एक माप है और पूरे और डिफ फॉर्मेट में परिवर्तन करने की मॉडल क्षमता का एक माप है। हमने विशेष रूप से डिफ फॉर्मेट का अधिक विश्वसनीय तरीके से पालन करने के लिए GPT‑4.1 को प्रशिक्षित किया है, जो डेवलपर्स को पूरी फ़ाइल को फिर से लिखने के बजाय केवल मॉडल आउटपुट में बदली गई लाइनें होने से लागत और विलंबता दोनों को बचाने की अनुमति देता है। सर्वोत्तम कोड डिफ प्रदर्शन के लिए, कृपया हमारे देखें संकेत गाइड(एक नई विंडो में खुलता है). उन डेवलपर्स के लिए जो पूरी फ़ाइलों को फिर से लिखना पसंद करते हैं, हमने GPT‑4.1 के लिए आउटपुट टोकन सीमा को बढ़ाकर 32,768 टोकन कर दिया है (GPT‑16,384o के लिए 4 टोकन से ऊपर)। हम यह भी सलाह देते हैं कि पूर्वानुमानित आउटपुट(एक नई विंडो में खुलता है) पूर्ण फ़ाइल पुनर्लेखन की विलंबता को कम करने के लिए।
GPT‑4.1 फ्रंटएंड कोडिंग में GPT‑4o से भी काफी बेहतर है, और ऐसे वेब ऐप बनाने में सक्षम है जो अधिक कार्यात्मक रूप से पसंदीदा और सौंदर्य की दृष्टि से मनभावन हैं। हमारे आमने-सामने की तुलना में, भुगतान किए गए मानव ग्रेडर GPT‑4.1 की वेबसाइटों को GPT‑4o की तुलना में 80% समय पर बनाते हैं।
जीपीटी‑4o
जीपीटी‑4.1
उपरोक्त बेंचमार्क से परे, GPT‑4.1 प्रारूपों का अधिक विश्वसनीय तरीके से पालन करने में बेहतर है और कम बार-बार बाहरी संपादन करता है। हमारे आंतरिक मूल्यांकन में, कोड पर बाहरी संपादन GPT‑9o के साथ 4% से GPT‑2 के साथ 4.1% तक गिर गया।
वास्तविक दुनिया के उदाहरण
विंडसर्फिंग(एक नई विंडो में खुलता है): विंडसर्फ के आंतरिक कोडिंग बेंचमार्क पर GPT‑4.1 का स्कोर GPT‑60o से 4% अधिक है, जो इस बात से दृढ़ता से संबंधित है कि पहली समीक्षा में कोड में कितनी बार बदलाव स्वीकार किए जाते हैं। उनके उपयोगकर्ताओं ने नोट किया कि यह टूल कॉलिंग में 30% अधिक कुशल था और अनावश्यक संपादनों को दोहराने या अत्यधिक संकीर्ण, वृद्धिशील चरणों में कोड पढ़ने की संभावना लगभग 50% कम थी। ये सुधार इंजीनियरिंग टीमों के लिए तेज़ पुनरावृत्ति और सुचारू वर्कफ़्लो में तब्दील हो जाते हैं।
कोदो(एक नई विंडो में खुलता है): Qodo ने अपने फ़ाइन-ट्यूनिंग बेंचमार्क से प्रेरित कार्यप्रणाली का उपयोग करके GitHub पुल अनुरोधों से उच्च-गुणवत्ता वाली कोड समीक्षाएँ बनाने के लिए GPT‑4.1 का दूसरे अग्रणी मॉडलों के साथ सीधा परीक्षण किया। समान संकेतों और शर्तों के साथ 200 सार्थक वास्तविक दुनिया के पुल अनुरोधों में, उन्होंने पाया कि GPT‑4.1 ने बेहतर सुझाव दिया मामलों की 55%(एक नई विंडो में खुलता है)उल्लेखनीय रूप से, उन्होंने पाया कि GPT‑4.1 सटीकता (यह जानना कि कब सुझाव नहीं देना है) और व्यापकता (आवश्यक होने पर संपूर्ण विश्लेषण प्रदान करना) दोनों में उत्कृष्ट है, जबकि वास्तव में महत्वपूर्ण मुद्दों पर ध्यान केंद्रित करता है।
अनुदेश का पालन
GPT‑4.1 निर्देशों का अधिक विश्वसनीय तरीके से पालन करता है, और हमने मूल्यांकन के बाद विभिन्न प्रकार के निर्देशों में महत्वपूर्ण सुधार मापा है।
हमने कई आयामों में और निर्देश अनुवर्तन की कई प्रमुख श्रेणियों में मॉडल के प्रदर्शन को ट्रैक करने के लिए निर्देश अनुवर्तन के लिए एक आंतरिक मूल्यांकन विकसित किया है, जिसमें शामिल हैं:
- प्रारूप निम्नलिखित है. मॉडल की प्रतिक्रिया के लिए कस्टम प्रारूप निर्दिष्ट करने वाले निर्देश प्रदान करना, जैसे XML, YAML, मार्कडाउन, आदि।
- नकारात्मक निर्देश. मॉडल को जिस व्यवहार से बचना चाहिए उसे निर्दिष्ट करना। (उदाहरण: “उपयोगकर्ता को सहायता से संपर्क करने के लिए न कहें”)
- आदेशित निर्देश. निर्देशों का एक सेट प्रदान करना जिसका मॉडल को दिए गए क्रम में पालन करना होगा। (उदाहरण: “पहले उपयोगकर्ता का नाम पूछें, फिर उनका ईमेल पूछें”)
- सामग्री आवश्यकताएँ. ऐसी सामग्री आउटपुट करना जिसमें कुछ निश्चित जानकारी शामिल हो। (उदाहरण: “पोषण योजना लिखते समय हमेशा प्रोटीन की मात्रा शामिल करें”)
- रैंकिंग। आउटपुट को एक विशेष तरीके से क्रमबद्ध करना। (उदाहरण: “जनसंख्या गणना के अनुसार प्रतिक्रिया को क्रमबद्ध करें”)
- अति आत्मविश्वास। यदि अनुरोधित जानकारी उपलब्ध नहीं है, या अनुरोध किसी दी गई श्रेणी में नहीं आता है, तो मॉडल को “मुझे नहीं पता” या इसी तरह का कुछ कहने का निर्देश देना। (उदाहरण: “यदि आपको उत्तर नहीं पता है, तो सहायता संपर्क ईमेल प्रदान करें”)
ये श्रेणियां डेवलपर्स से मिले फीडबैक का परिणाम हैं कि निर्देश के अनुसरण के कौन से पहलू उनके लिए सबसे अधिक प्रासंगिक और महत्वपूर्ण हैं। प्रत्येक श्रेणी में, हमने आसान, मध्यम और कठिन प्रॉम्प्ट को विभाजित किया है। GPT‑4.1 विशेष रूप से कठिन प्रॉम्प्ट पर GPT‑4o की तुलना में काफी बेहतर है।
कई डेवलपर्स के लिए मल्टी-टर्न इंस्ट्रक्शन फॉलो करना महत्वपूर्ण है - मॉडल के लिए बातचीत में गहराई से सुसंगतता बनाए रखना और उपयोगकर्ता ने पहले जो बताया था उसका ट्रैक रखना महत्वपूर्ण है। हमने GPT‑4.1 को बातचीत में पिछले संदेशों से जानकारी को बेहतर ढंग से चुनने में सक्षम बनाने के लिए प्रशिक्षित किया है, जिससे अधिक स्वाभाविक बातचीत हो सके। स्केल से मल्टीचैलेंज बेंचमार्क इस क्षमता का एक उपयोगी माप है, और GPT‑4.1 10.5% प्रदर्शन करता हैपेट GPT‑4o से बेहतर है।
GPT‑4.1 भी IFEval पर 87.4% स्कोर करता है, जबकि GPT‑81.0o के लिए यह 4% है। IFEval सत्यापन योग्य निर्देशों के साथ संकेतों का उपयोग करता है (उदाहरण के लिए, सामग्री की लंबाई निर्दिष्ट करना या कुछ शर्तों या प्रारूपों से बचना)।
बेहतर निर्देश अनुसरण मौजूदा अनुप्रयोगों को अधिक विश्वसनीय बनाता है, और नए अनुप्रयोगों को सक्षम बनाता है जो पहले खराब विश्वसनीयता द्वारा सीमित थे। शुरुआती परीक्षकों ने नोट किया कि GPT‑4.1 अधिक शाब्दिक हो सकता है, इसलिए हम संकेतों में स्पष्ट और विशिष्ट होने की सलाह देते हैं। GPT‑4.1 के लिए संकेत देने के सर्वोत्तम तरीकों के बारे में अधिक जानकारी के लिए, कृपया संकेत देने की मार्गदर्शिका देखें।
वास्तविक दुनिया के उदाहरण
नीला जे(एक नई विंडो में खुलता है): ब्लू जे के सबसे चुनौतीपूर्ण वास्तविक दुनिया कर परिदृश्यों के आंतरिक बेंचमार्क पर GPT‑4.1, GPT‑53o की तुलना में 4% अधिक सटीक था। सटीकता में यह उछाल - सिस्टम प्रदर्शन और उपयोगकर्ता संतुष्टि दोनों के लिए महत्वपूर्ण है - जटिल विनियमों की GPT‑4.1 की बेहतर समझ और लंबे संदर्भों में सूक्ष्म निर्देशों का पालन करने की इसकी क्षमता को उजागर करता है। ब्लू जे उपयोगकर्ताओं के लिए, इसका मतलब है तेज़, अधिक विश्वसनीय कर अनुसंधान और उच्च-मूल्य सलाहकार कार्य के लिए अधिक समय।
हेक्स(एक नई विंडो में खुलता है): GPT‑4.1 ने हेक्स के सबसे चुनौतीपूर्ण पर लगभग 2x सुधार दिया एसक्यूएल मूल्यांकन सेट,(एक नई विंडो में खुलता है) निर्देश के अनुसरण और अर्थपूर्ण समझ में महत्वपूर्ण लाभ प्रदर्शित करना। मॉडल बड़े, अस्पष्ट स्कीमा से सही तालिकाओं का चयन करने में अधिक विश्वसनीय था - एक अपस्ट्रीम निर्णय बिंदु जो सीधे समग्र सटीकता को प्रभावित करता है और अकेले संकेत के माध्यम से ट्यून करना मुश्किल है। हेक्स के लिए, इसका परिणाम मैन्युअल डिबगिंग में मापनीय कमी और उत्पादन-ग्रेड वर्कफ़्लो के लिए एक तेज़ मार्ग था।
लंबा संदर्भ
GPT‑4.1, GPT‑4.1 मिनी और GPT‑4.1 नैनो संदर्भ के 1 मिलियन टोकन तक संसाधित कर सकते हैं - पिछले GPT‑128,000o मॉडल के लिए 4 से अधिक। 1 मिलियन टोकन पूरे React कोडबेस की 8 प्रतियों से अधिक है, इसलिए लंबा संदर्भ बड़े कोडबेस या बहुत सारे लंबे दस्तावेज़ों को संसाधित करने के लिए बहुत उपयुक्त है।
हमने GPT‑4.1 को पूरे 1 मिलियन संदर्भ लंबाई में जानकारी पर विश्वसनीय रूप से ध्यान देने के लिए प्रशिक्षित किया है। हमने इसे प्रासंगिक पाठ को नोटिस करने और लंबी और छोटी संदर्भ लंबाई में ध्यान भटकाने वाली बातों को अनदेखा करने में GPT‑4o की तुलना में कहीं अधिक विश्वसनीय होने के लिए भी प्रशिक्षित किया है। कानूनी, कोडिंग, ग्राहक सहायता और कई अन्य डोमेन में अनुप्रयोगों के लिए लंबे संदर्भ की समझ एक महत्वपूर्ण क्षमता है।
नीचे, हम संदर्भ विंडो के भीतर विभिन्न बिंदुओं पर स्थित सूचना के एक छोटे से छिपे हुए टुकड़े (एक "सुई") को पुनः प्राप्त करने की GPT‑4.1 की क्षमता को प्रदर्शित करते हैं। GPT‑4.1 लगातार सभी स्थितियों और सभी संदर्भ लंबाई पर सुई को सटीक रूप से पुनः प्राप्त करता है, 1 मिलियन टोकन तक। यह इनपुट में उनकी स्थिति की परवाह किए बिना हाथ में मौजूद कार्य के लिए प्रासंगिक विवरण निकालने में प्रभावी रूप से सक्षम है।

हमारे आंतरिक सुई-इन-ए-हैस्टैक मूल्यांकन में, GPT-4.1, GPT-4.1 मिनी, और GPT 4.1 नैनो सभी 1M तक के संदर्भ में सभी स्थितियों पर सुई को पुनः प्राप्त करने में सक्षम हैं।
हालाँकि, कुछ वास्तविक दुनिया के कार्य एक एकल, स्पष्ट सुई उत्तर को पुनः प्राप्त करने जितना सरल हैं। हम पाते हैं कि उपयोगकर्ताओं को अक्सर जानकारी के कई टुकड़ों को पुनः प्राप्त करने और समझने के लिए हमारे मॉडल की आवश्यकता होती है, और उन टुकड़ों को एक दूसरे के संबंध में समझने की आवश्यकता होती है। इस क्षमता को प्रदर्शित करने के लिए, हम एक नया मूल्यांकन ओपन-सोर्स कर रहे हैं: OpenAI-MRCR (मल्टी-राउंड कोरेफ़रेंस)।
ओपनएआई-एमआरसीआर मॉडल की क्षमता का परीक्षण करता है कि वह संदर्भ में छिपी हुई कई सुइयों को खोज सके और उनके बीच अंतर को स्पष्ट कर सके। मूल्यांकन में उपयोगकर्ता और सहायक के बीच कई बार सिंथेटिक बातचीत शामिल होती है, जहाँ उपयोगकर्ता किसी विषय पर लिखने के लिए कहता है, उदाहरण के लिए "टैपीर के बारे में एक कविता लिखें" या "चट्टानों के बारे में एक ब्लॉग पोस्ट लिखें"। फिर हम पूरे संदर्भ में दो, चार या आठ समान अनुरोध डालते हैं। फिर मॉडल को किसी विशिष्ट उदाहरण (जैसे, "मुझे टैपिर के बारे में तीसरी कविता दें") के अनुरूप प्रतिक्रिया प्राप्त करनी चाहिए।
चुनौती इन अनुरोधों और बाकी संदर्भ के बीच समानता से उत्पन्न होती है - मॉडल आसानी से सूक्ष्म अंतरों से गुमराह हो सकते हैं, जैसे कि कविता के बजाय टैपिर के बारे में एक छोटी कहानी, या टैपिर के बजाय मेंढकों के बारे में एक कविता। हम पाते हैं कि GPT‑4.1 4K टोकन तक के संदर्भ लंबाई पर GPT‑128o से बेहतर प्रदर्शन करता है और 1 मिलियन टोकन तक भी मजबूत प्रदर्शन बनाए रखता है।
लेकिन यह कार्य कठिन बना हुआ है - उन्नत तर्क मॉडल के लिए भी। हम साझा कर रहे हैं eval डेटासेट(एक नई विंडो में खुलता है) वास्तविक दुनिया के दीर्घ-संदर्भ पुनर्प्राप्ति पर आगे के कार्य को प्रोत्साहित करना।

In ओपनएआई-एमआरसीआर(एक नई विंडो में खुलता है), मॉडल को एक प्रश्न का उत्तर देना होगा जिसमें विचलित करने वाले 2, 4, या 8 उपयोगकर्ता संकेतों के बीच स्पष्टता लाना शामिल है।
हम यह भी जारी कर रहे हैं ग्राफवॉक(एक नई विंडो में खुलता है), मल्टी-हॉप लॉन्ग-कॉन्टेक्स्ट रीजनिंग का मूल्यांकन करने के लिए एक डेटासेट। लॉन्ग कॉन्टेक्स्ट के लिए कई डेवलपर उपयोग मामलों में संदर्भ के भीतर कई तार्किक हॉप्स की आवश्यकता होती है, जैसे कोड लिखते समय कई फ़ाइलों के बीच जंप करना या जटिल कानूनी प्रश्नों का उत्तर देते समय दस्तावेज़ों को क्रॉस रेफ़रेंस करना।
एक मॉडल (या यहां तक कि एक मानव) सैद्धांतिक रूप से एक ओपनएआई-एमआरसीआर समस्या को एक बार पढ़कर या प्रॉम्प्ट को पढ़कर हल कर सकता है, लेकिन ग्राफवॉक को संदर्भ में कई स्थितियों में तर्क की आवश्यकता के लिए डिज़ाइन किया गया है और इसे क्रमिक रूप से हल नहीं किया जा सकता है।
ग्राफवॉक संदर्भ विंडो को हेक्साडेसिमल हैश से बने निर्देशित ग्राफ से भरता है, और फिर मॉडल को ग्राफ में एक यादृच्छिक नोड से शुरू करके एक चौड़ाई-पहले खोज (बीएफएस) करने के लिए कहता है। फिर हम इसे एक निश्चित गहराई पर सभी नोड्स को वापस करने के लिए कहते हैं। GPT‑4.1 इस बेंचमार्क पर 61.7% सटीकता प्राप्त करता है, जो o1 के प्रदर्शन से मेल खाता है और GPT‑4o को आसानी से हरा देता है।
बेंचमार्क पूरी कहानी नहीं बताते हैं, इसलिए हमने अल्फा भागीदारों के साथ मिलकर उनके वास्तविक दुनिया के लंबे संदर्भ कार्यों पर GPT‑4.1 के प्रदर्शन का परीक्षण किया।
वास्तविक दुनिया के उदाहरण
थॉमसन रॉयटर्स:(एक नई विंडो में खुलता है) थॉमसन रॉयटर्स ने अपने पेशेवर ग्रेड कोकाउंसल के साथ GPT‑4.1 का परीक्षण किया AI कानूनी काम के लिए सहायक। GPT‑4o की तुलना में, वे आंतरिक दीर्घ-संदर्भ बेंचमार्क में GPT‑17 का उपयोग करते समय बहु-दस्तावेज़ समीक्षा सटीकता में 4.1% सुधार करने में सक्षम थे - कई, लंबे दस्तावेज़ों को शामिल करने वाले जटिल कानूनी वर्कफ़्लो को संभालने के लिए CoCounsel की क्षमता का एक आवश्यक उपाय। विशेष रूप से, उन्होंने पाया कि मॉडल स्रोतों में संदर्भ बनाए रखने और दस्तावेजों के बीच सूक्ष्म संबंधों की सटीक पहचान करने में अत्यधिक विश्वसनीय है, जैसे कि परस्पर विरोधी खंड या अतिरिक्त पूरक संदर्भ - कानूनी विश्लेषण और निर्णय लेने के लिए महत्वपूर्ण कार्य।
कार्लाइल(एक नई विंडो में खुलता है): कार्लाइल ने पीडीएफ, एक्सेल फाइल और अन्य जटिल प्रारूपों सहित कई लंबे दस्तावेजों में बारीक वित्तीय डेटा को सटीक रूप से निकालने के लिए जीपीटी-4.1 का उपयोग किया। उनके आंतरिक मूल्यांकन के आधार पर, इसने घने डेटा वाले बहुत बड़े दस्तावेज़ों से पुनर्प्राप्ति पर 50% बेहतर प्रदर्शन किया और यह अन्य उपलब्ध मॉडलों के साथ देखी गई प्रमुख सीमाओं को सफलतापूर्वक पार करने वाला पहला मॉडल था, जिसमें सुई-इन-द-हिस्टैक पुनर्प्राप्ति, बीच में खोई हुई त्रुटियाँ और दस्तावेज़ों में मल्टी-हॉप तर्क शामिल हैं।
मॉडल के प्रदर्शन और सटीकता के अलावा, डेवलपर्स को ऐसे मॉडल की भी आवश्यकता होती है जो उपयोगकर्ताओं की ज़रूरतों को पूरा करने के लिए तेज़ी से प्रतिक्रिया दें। हमने पहले टोकन के समय को कम करने के लिए अपने इंफ़रेंस स्टैक में सुधार किया है, और प्रॉम्प्ट कैशिंग के साथ, आप लागतों को बचाते हुए विलंबता को और भी कम कर सकते हैं। हमारे शुरुआती परीक्षण में, GPT‑4.1 के लिए पहले टोकन की विलंबता संदर्भ के 128,000 टोकन के साथ लगभग पंद्रह सेकंड थी, और संदर्भ के एक मिलियन टोकन के लिए एक मिनट थी। GPT‑4.1 मिनी और नैनो तेज़ हैं, उदाहरण के लिए, GPT‑4.1 नैनो अक्सर 128,000 इनपुट टोकन वाली क्वेरी के लिए पाँच सेकंड से भी कम समय में पहला टोकन लौटाता है।
विज़न
GPT‑4.1 परिवार छवि समझ में असाधारण रूप से मजबूत है, विशेष रूप से GPT‑4.1 मिनी एक महत्वपूर्ण छलांग का प्रतिनिधित्व करता है, जो अक्सर छवि बेंचमार्क पर GPT‑4o को हरा देता है।
मल्टीमॉडल उपयोग के मामलों के लिए भी लंबे संदर्भ का प्रदर्शन महत्वपूर्ण है, जैसे कि लंबे वीडियो को प्रोसेस करना। वीडियो-एमएमई(एक नई विंडो में खुलता है) (लंबा बिना सबटाइटल के), एक मॉडल बिना सबटाइटल के 30-60 मिनट लंबे वीडियो पर आधारित बहुविकल्पीय प्रश्नों का उत्तर देता है। GPT‑4.1 ने अत्याधुनिक प्रदर्शन हासिल किया, जिसका स्कोर 72.0% रहा, जबकि GPT‑65.3o के लिए यह 4% था।
मूल्य निर्धारण
GPT‑4.1, GPT‑4.1 मिनी और GPT‑4.1 नैनो अब सभी डेवलपर्स के लिए उपलब्ध हैं।
हमारे अनुमान प्रणालियों में दक्षता सुधार के माध्यम से, हम GPT‑4.1 श्रृंखला पर कम कीमतों की पेशकश करने में सक्षम हैं। GPT‑4.1 मीडियन क्वेरीज़ के लिए GPT‑26o की तुलना में 4% कम महंगा है, और GPT‑4.1 नैनो हमारा अब तक का सबसे सस्ता और सबसे तेज़ मॉडल है। उन क्वेरीज़ के लिए जो बार-बार एक ही संदर्भ से गुज़रती हैं, हम इन नए मॉडलों के लिए प्रॉम्प्ट कैशिंग छूट को 75% (पहले 50% से ऊपर) तक बढ़ा रहे हैं। अंत में, हम मानक प्रति-टोकन लागतों से परे बिना किसी अतिरिक्त लागत के लंबे संदर्भ अनुरोध प्रदान करते हैं।
आदर्श (कीमतें 1M टोकन प्रति हैं) | निवेश | कैश्ड इनपुट | उत्पादन | मिश्रित मूल्य निर्धारण* |
जीपीटी-4.1 | $2.00 | $0.50 | $8.00 | $1.84 |
जीपीटी-4.1-मिनी | $0.40 | $0.10 | $1.60 | $0.42 |
जीपीटी-4.1-नैनो | $0.10 | $0.025 | $0.40 | $0.12 |
*विशिष्ट इनपुट/आउटपुट और कैश अनुपात पर आधारित।
ये मॉडल हमारे उपयोग के लिए उपलब्ध हैं बैच एपीआई(एक नई विंडो में खुलता है) अतिरिक्त 50% मूल्य छूट पर।
निष्कर्ष
GPT‑4.1 व्यावहारिक अनुप्रयोग में एक महत्वपूर्ण कदम है AIवास्तविक दुनिया के डेवलपर की ज़रूरतों पर बारीकी से ध्यान केंद्रित करके - कोडिंग से लेकर निर्देश-पालन और लंबे संदर्भ की समझ तक - ये मॉडल बुद्धिमान सिस्टम और परिष्कृत एजेंटिक एप्लिकेशन बनाने की नई संभावनाओं को अनलॉक करते हैं। हम डेवलपर समुदाय की रचनात्मकता से लगातार प्रेरित होते हैं, और यह देखने के लिए उत्साहित हैं कि आप GPT‑4.1 के साथ क्या बनाते हैं।
परिशिष्ट
अकादमिक, कोडिंग, अनुदेश अनुसरण, दीर्घ संदर्भ, विजन और फ़ंक्शन कॉलिंग मूल्यांकन के परिणामों की पूरी सूची नीचे दी गई है।
शैक्षणिक ज्ञान
वर्ग | GPT-4.1 | जीपीटी-4.1 मिनी | जीपीटी-4.1 नैनो | GPT-4o(2024 - 11 - 20) | GPT-4o मिनी | प्रारंभिकAI o1(उच्च) | प्रारंभिकAI o3-मिनी(उच्च) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
एआईएमई '24 | 48.1% तक | 49.6% तक | 29.4% तक | 13.1% तक | 8.6% तक | 74.3% तक | 87.3% तक | 36.7% तक |
जीपीक्यूए डायमंड1 | 66.3% तक | 65.0% तक | 50.3% तक | 46.0% तक | 40.2% तक | 75.7% तक | 77.2% तक | 69.5% तक |
एमएमएलयू | 90.2% तक | 87.5% तक | 80.1% तक | 85.7% तक | 82.0% तक | 91.8% तक | 86.9% तक | 90.8% तक |
बहुभाषी एमएमएलयू | 87.3% तक | 78.5% तक | 66.9% तक | 81.4% तक | 70.5% तक | 87.7% तक | 80.7% तक | 85.1% तक |
[1] GPQA का हमारा कार्यान्वयन रेगेक्स के बजाय उत्तर निकालने के लिए एक मॉडल का उपयोग करता है। GPT-4.1 के लिए, अंतर <1% था (सांख्यिकीय रूप से महत्वपूर्ण नहीं), लेकिन GPT-4o के लिए मॉडल निष्कर्षण स्कोर में काफी सुधार करता है (~ 46% -> 54%)।
कोडिंग मूल्यांकन
वर्ग | GPT-4.1 | जीपीटी-4.1 मिनी | जीपीटी-4.1 नैनो | GPT-4o(2024 - 11 - 20) | GPT-4o मिनी | प्रारंभिकAI o1(उच्च) | प्रारंभिकAI o3-मिनी(उच्च) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
SWE-बेंच सत्यापित2 | 54.6% तक | 23.6% तक | - | 33.2% तक | 8.7% तक | 41.0% तक | 49.3% तक | 38.0% तक |
SWE-लांसर | $ 176K (35.1%) | $ 165K (33.0%) | $ 77K (15.3%) | $ 163K (32.6%) | $ 116K (23.1%) | $ 160K (32.1%) | $ 90K (18.0%) | $ 186K (37.3%) |
SWE-लांसर (IC-डायमंड उपसमूह) | $ 34K (14.4%) | $ 31K (13.1%) | $ 9K (3.7%) | $ 29K (12.4%) | $ 11K (4.8%) | $ 29K (9.7%) | $ 17K (7.4%) | $ 41K (17.4%) |
ऐडर का बहुभाषीय: संपूर्ण | 51.6% तक | 34.7% तक | 9.8% तक | 30.7% तक | 3.6% तक | 64.6% तक | 66.7% तक | - |
Aider का बहुभाषी: diff | 52.9% तक | 31.6% तक | 6.2% तक | 18.2% तक | 2.7% तक | 61.7% तक | 60.4% तक | 44.9% तक |
[2] हमने 23/500 समस्याओं को छोड़ दिया जो हमारे बुनियादी ढांचे पर नहीं चल सकती थीं। छोड़े गए 23 कार्यों की पूरी सूची हैं 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'पाइलिंट-देव__पाइलिंट-7080', 'पाइलिंट-देव__पाइलिंट-7277', 'पायटेस्ट-देव__पायटेस्ट-5262', 'पायटेस्ट-देव__पायटेस्ट-7521', 'स्किकिट-लर्न__स्किकिट-लर्न-12973', 'स्पिंक्स-डॉक__स्पिंक्स-10466', 'स्पिंक्स-डॉक__स्पिंक्स-7462', 'स्पिंक्स-डॉक__स्पिंक्स-8265', और 'स्पिंक्स-डॉक__स्पिंक्स-9367'।
मूल्यांकन के बाद निर्देश
वर्ग | GPT-4.1 | जीपीटी-4.1 मिनी | जीपीटी-4.1 नैनो | GPT-4o(2024 - 11 - 20) | GPT-4o मिनी | प्रारंभिकAI o1(उच्च) | प्रारंभिकAI o3-मिनी(उच्च) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
आंतरिक API निर्देश का पालन (कठिन) | 49.1% तक | 45.1% तक | 31.6% तक | 29.2% तक | 27.2% तक | 51.3% तक | 50.0% तक | 54.0% तक |
मल्टीचैलेंज | 38.3% तक | 35.8% तक | 15.0% तक | 27.8% तक | 20.3% तक | 44.9% तक | 39.9% तक | 43.8% तक |
मल्टीचैलेंज (o3-मिनी ग्रेडर)3 | 46.2% तक | 42.2% तक | 31.1% तक | 39.9% तक | 25.6% तक | 52.9% तक | 50.2% तक | 50.1% तक |
कोल्ली | 65.8% तक | 54.6% तक | 42.5% तक | 50.2% तक | 52.7% तक | 95.3% तक | 98.7% तक | 72.3% तक |
आईएफईवैल्यू | 87.4% तक | 84.1% तक | 74.5% तक | 81.0% तक | 78.4% तक | 92.2% तक | 93.9% तक | 88.2% तक |
मल्टी-आईएफ | 70.8% तक | 67.0% तक | 57.2% तक | 60.9% तक | 57.9% तक | 77.9% तक | 79.5% तक | 70.8% तक |
[3] नोट: हम पाते हैं कि मल्टीचैलेंज (GPT-4o) में डिफ़ॉल्ट ग्रेडर अक्सर मॉडल प्रतिक्रियाओं को गलत स्कोर करता है। हम पाते हैं कि ग्रेडर को o3-mini जैसे रीजनिंग मॉडल में बदलने से हमारे द्वारा निरीक्षण किए गए नमूनों पर ग्रेडिंग की सटीकता में काफी सुधार होता है। लीडरबोर्ड के साथ संगतता कारणों से, हम परिणामों के दोनों सेट प्रकाशित कर रहे हैं।
लंबे संदर्भ मूल्यांकन
वर्ग | GPT-4.1 | जीपीटी-4.1 मिनी | जीपीटी-4.1 नैनो | GPT-4o(2024 - 11 - 20) | GPT-4o मिनी | प्रारंभिकAI o1(उच्च) | प्रारंभिकAI o3-मिनी(उच्च) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
OpenAI-MRCR: 2 सुई128k | 57.2% तक | 47.2% तक | 36.6% तक | 31.9% तक | 24.5% तक | 22.1% तक | 18.7% तक | 38.5% तक |
ओपनएआई-एमआरसीआर: 2 सुई 1एम | 46.3% तक | 33.3% तक | 12.0% तक | - | - | - | - | - |
ग्राफवॉक bfs < 128k | 61.7% तक | 61.7% तक | 25.0% तक | 41.7% तक | 29.0% तक | 62.0% तक | 51.0% तक | 72.3% तक |
ग्राफवॉक bfs >128k | 19.0% तक | 15.0% तक | 2.9% तक | - | - | - | - | - |
ग्राफवॉक माता-पिता <128k | 58.0% तक | 60.5% तक | 9.4% तक | 35.4% तक | 12.6% तक | 50.9% तक | 58.3% तक | 72.6% तक |
ग्राफवॉक माता-पिता >128k | 25.0% तक | 11.0% तक | 5.6% तक | - | - | - | - | - |
विज़न इवैल्यूएशन
वर्ग | GPT-4.1 | जीपीटी-4.1 मिनी | जीपीटी-4.1 नैनो | GPT-4o(2024 - 11 - 20) | GPT-4o मिनी | प्रारंभिकAI o1(उच्च) | प्रारंभिकAI o3-मिनी(उच्च) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
एमएमएमयू | 74.8% तक | 72.7% तक | 55.4% तक | 68.7% तक | 56.3% तक | 77.6% तक | - | 75.2% तक |
मैथविस्टा | 72.2% तक | 73.1% तक | 56.2% तक | 61.4% तक | 56.5% तक | 71.8% तक | - | 72.3% तक |
चारएक्सिव-आर | 56.7% तक | 56.8% तक | 40.5% तक | 52.7% तक | 36.8% तक | 55.1% तक | - | 55.4% तक |
चारXiv-डी | 87.9% तक | 88.4% तक | 73.9% तक | 85.3% तक | 76.6% तक | 88.9% तक | - | 90.0% तक |
फ़ंक्शन कॉलिंग Eval
वर्ग | GPT-4.1 | जीपीटी-4.1 मिनी | जीपीटी-4.1 नैनो | GPT-4o(2024 - 11 - 20) | GPT-4o मिनी | प्रारंभिकAI o1(उच्च) | प्रारंभिकAI o3-मिनी(उच्च) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
कॉम्प्लेक्सफ़ंकबेंच | 65.5% तक | 49.3% तक | 0.6% तक | 66.5% तक | 38.6% तक | 47.6% तक | 17.6% तक | 63.0% तक |
टाउबेन्च एयरलाइन4 | 49.4% तक | 36.0% तक | 14.0% तक | 42.8% तक | 22.0% तक | 50.0% तक | 32.4% तक | 50.0% तक |
ताउबेंच रिटेल4, 5 | 68.0% तक (73.6%) | 55.8% तक (65.4%) | 22.6% तक (23.5%) | 60.3% तक | 44.0% तक | 70.8% तक | 57.6% तक | 68.4% तक |
[4] टौ-बेंच इवैल्यूएशन संख्याओं को विचरण को कम करने के लिए 5 रनों में औसत किया जाता है, और बिना किसी कस्टम टूल या प्रॉम्प्टिंग के चलाया जाता है।
[5] कोष्ठकों में संख्याएँ GPT-4.1o के बजाय GPT-4 को उपयोगकर्ता मॉडल के रूप में उपयोग करते समय ताऊ-बेंच परिणामों को दर्शाती हैं। हमने पाया है कि, चूँकि GPT-4.1 निर्देशों का पालन करने में बेहतर है, इसलिए यह उपयोगकर्ता के रूप में बेहतर प्रदर्शन करने में सक्षम है, और इसलिए अधिक सफल प्रक्षेपवक्र में परिणाम देता है। हमारा मानना है कि यह बेंचमार्क पर मूल्यांकित मॉडल के वास्तविक प्रदर्शन को दर्शाता है।
数据统计
संबंधित नेविगेशन


DeepSeek

Gemini

किमि

Claude

टेनसेंट युआनबाओ

xAI Grok
