GPT4.1 API

अन्तिम पटक १ महिना अगाडि अपडेट गरिएको 747 00

API कलहरूChatGPT४.१ मोडेल

स्थान:
加拿大
व्याख्या:
zh, en
रेकर्डिङ समय:
2025-04-15
GPT4.1 APIGPT4.1 API
GPT4.1 API

कोडिङ, निर्देशन पालना, र लामो सन्दर्भमा प्रमुख सुधारहरू प्रस्तुत गर्ने GPT मोडेलहरूको नयाँ श्रृंखला - साथै हाम्रो पहिलो-नानो मोडेल। मार्फत उपलब्ध छएपीआई调用

निर्देशनहरूको लागि कृपया लेख हेर्नुहोस्। पहिलो रिलिज!ChatGPT४.१ स्थानीय प्रयोगको लागि पूर्ण गाइड - शुरुआती र नियमित कम्प्युटरहरूको लागि पनि

डकर डेस्कटप+वेबयूआईले ठूला मोडेलहरू साकार पार्छ,N8Nस्थानीय प्रयोगको लागि पूर्ण निर्देशिका

ChatGPT४.१ परिचय 

आज, हामी API मा तीन नयाँ मोडेलहरू लन्च गर्दैछौं: GPT‑4.1, GPT‑4.1 mini, र GPT‑4.1 nano। यी मोडेलहरूले GPT‑4o र GPT‑4o mini लाई बोर्डभरि भन्दा राम्रो प्रदर्शन गर्छन्, कोडिङ र निर्देशन पालनामा प्रमुख लाभहरू सहित। तिनीहरूसँग ठूला सन्दर्भ विन्डोजहरू पनि छन् - सन्दर्भको १० लाख टोकनहरू समर्थन गर्ने - र सुधारिएको लामो-सन्दर्भ बुझाइको साथ त्यो सन्दर्भलाई राम्रोसँग प्रयोग गर्न सक्षम छन्। तिनीहरूमा जुन २०२४ को ताजा ज्ञान कटअफ छ।

GPT-4.1 ले निम्न उद्योग मानक मापनहरूमा उत्कृष्ट प्रदर्शन गर्दछ:

  • कोडिंग: GPT-4.1 ले ५४.६% अंक प्राप्त गर्यो SWE-बेन्च प्रमाणितद्वारा सुधार गर्दै 21.4%ABS GPT-4o भन्दा माथि र 26.6%ABS GPT-4.5 भन्दा माथि - यसलाई कोडिङको लागि एक अग्रणी मोडेल बनाउँछ।
  • निम्न निर्देशन: On स्केलको बहुचुनौती(नयाँ विण्डोमा खुल्छ) बेन्चमार्क, निर्देशन पछ्याउने क्षमताको मापन, GPT-4.1 ले ३८.३% स्कोर गर्छ, १०.५%ABS GPT-4o भन्दा बढि।
  • लामो सन्दर्भ: On भिडियो-MME(नयाँ विण्डोमा खुल्छ)बहु-मोडल लामो सन्दर्भ बुझाइको लागि एक बेन्चमार्क, GPT-4.1 ले नयाँ अत्याधुनिक नतिजा सेट गर्दछ - लामो, कुनै उपशीर्षक वर्गमा ७२.०% स्कोर गर्दै, ६.७%ABS GPT-4o भन्दा सुधार।

बेन्चमार्कहरूले बहुमूल्य अन्तर्दृष्टि प्रदान गरे तापनि, हामीले वास्तविक-विश्व उपयोगितामा केन्द्रित भएर यी मोडेलहरूलाई तालिम दियौं। विकासकर्ता समुदायसँगको घनिष्ठ सहकार्य र साझेदारीले हामीलाई यी मोडेलहरूलाई तिनीहरूको अनुप्रयोगहरूको लागि सबैभन्दा महत्त्वपूर्ण कार्यहरूको लागि अनुकूलन गर्न सक्षम बनायो।

यस उद्देश्यका लागि, GPT-4.1 मोडेल परिवारले कम लागतमा असाधारण प्रदर्शन प्रदान गर्दछ। यी मोडेलहरूले विलम्बता कर्भको प्रत्येक बिन्दुमा प्रदर्शनलाई अगाडि बढाउँछन्।

GPT4.1 API

GPT-4.1 मिनी सानो मोडेलको प्रदर्शनमा एक महत्वपूर्ण छलांग हो, धेरै बेन्चमार्कहरूमा GPT-4o लाई पनि उछिन्छ। यसले बुद्धिमत्ता मूल्याङ्कनमा GPT-4o सँग मेल खान्छ वा पार गर्छ जबकि विलम्बता लगभग आधा घटाउँछ र लागत ८३% घटाउँछ।

कम विलम्बताको माग गर्ने कार्यहरूको लागि, GPT‑4.1 nano हाम्रो उपलब्ध सबैभन्दा छिटो र सस्तो मोडेल हो। यसले यसको १० लाख टोकन सन्दर्भ विन्डोको साथ सानो आकारमा असाधारण प्रदर्शन प्रदान गर्दछ, र MMLU मा ८०.१%, GPQA मा ५०.३%, र Aider पोलिग्लट कोडिङमा ९.८% स्कोर गर्दछ — GPT‑1o mini भन्दा पनि उच्च। यो वर्गीकरण वा स्वत: पूर्णता जस्ता कार्यहरूको लागि आदर्श हो।

विश्वसनीयता र लामो सन्दर्भ बुझाइ पछि निर्देशनमा यी सुधारहरूले GPT-4.1 मोडेलहरूलाई पावर एजेन्टहरू, वा प्रयोगकर्ताहरूको तर्फबाट स्वतन्त्र रूपमा कार्यहरू पूरा गर्न सक्ने प्रणालीहरूमा धेरै प्रभावकारी बनाउँछन्। आदिमहरू जस्तै संयोजन गर्दा API प्रतिक्रियाहरू(नयाँ विण्डोमा खुल्छ)मार्फत, विकासकर्ताहरूले अब वास्तविक-विश्व सफ्टवेयर इन्जिनियरिङमा बढी उपयोगी र भरपर्दो एजेन्टहरू निर्माण गर्न सक्छन्, ठूला कागजातहरूबाट अन्तर्दृष्टि निकाल्न सक्छन्, न्यूनतम ह्यान्ड-होल्डिङमा ग्राहक अनुरोधहरू समाधान गर्न सक्छन्, र अन्य जटिल कार्यहरू गर्न सक्छन्।

ध्यान दिनुहोस् कि GPT‑4.1 API मार्फत मात्र उपलब्ध हुनेछ। ChatGPTनिर्देशन पालना, कोडिङ, र बुद्धिमत्तामा भएका धेरै सुधारहरूलाई बिस्तारै समावेश गरिएको छ नवीनतम संस्करण(नयाँ विण्डोमा खुल्छ) GPT-4o को, र हामी भविष्यका रिलीजहरूमा थप समावेश गर्न जारी राख्नेछौं।

हामी API मा GPT-4.5 पूर्वावलोकनलाई पनि हटाउन थाल्नेछौं, किनकि GPT-4.1 ले धेरै कम लागत र विलम्बतामा धेरै प्रमुख क्षमताहरूमा सुधारिएको वा समान प्रदर्शन प्रदान गर्दछ। विकासकर्ताहरूलाई संक्रमणको लागि समय दिनको लागि GPT-4.5 पूर्वावलोकन तीन महिनामा, जुलाई १४, २०२५ मा बन्द गरिनेछ। GPT-14 थियो पेश गरियो ठूलो, कम्प्युट-गहन मोडेलको अन्वेषण र प्रयोग गर्न अनुसन्धान पूर्वावलोकनको रूपमा, र हामीले विकासकर्ताहरूको प्रतिक्रियाबाट धेरै कुरा सिकेका छौं। हामी GPT‑4.5 मा तपाईंले प्रशंसा गर्नुभएको रचनात्मकता, लेखन गुणस्तर, हास्य, र सूक्ष्मतालाई भविष्यका API मोडेलहरूमा अगाडि बढाउन जारी राख्नेछौं।

तल, हामी GPT-4.1 ले धेरै बेन्चमार्कहरूमा कसरी प्रदर्शन गर्छ भनेर वर्णन गर्छौं, साथै Windsurf, Qodo, Hex, Blue J, Thomson Reuters, र Carlyle जस्ता अल्फा परीक्षकहरूका उदाहरणहरू पनि समावेश गर्दछौं जसले डोमेन-विशिष्ट कार्यहरूमा उत्पादनमा यसले कसरी प्रदर्शन गर्छ भनेर देखाउँछ।

कोडिंग

GPT-4.1 विभिन्न कोडिङ कार्यहरूमा GPT-4o भन्दा उल्लेखनीय रूपमा राम्रो छ, जसमा एजेन्टली कोडिङ कार्यहरू समाधान गर्ने, फ्रन्टएन्ड कोडिङ गर्ने, कम बाह्य सम्पादनहरू गर्ने, फरक ढाँचाहरू विश्वसनीय रूपमा पछ्याउने, निरन्तर उपकरण प्रयोग सुनिश्चित गर्ने, र थप कुराहरू समावेश छन्।

वास्तविक-विश्व सफ्टवेयर इन्जिनियरिङ सीपहरूको मापन, SWE-बेन्च भेरिफाइडमा, GPT-4.1 ले GPT-54.6o (२०२४-११-२०) को लागि ३३.२% को तुलनामा ५४.६% कार्यहरू पूरा गर्दछ। यसले कोड भण्डार अन्वेषण गर्ने, कार्य समाप्त गर्ने, र परीक्षणहरू चलाउने र पास गर्ने कोड उत्पादन गर्ने मोडेल क्षमतामा सुधारहरू प्रतिबिम्बित गर्दछ।

GPT-4.1GPT-4o (2024-11-20)OpenAI o१ (उच्च)खुलाAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4o mini55%33%41%49%38%24%9%SWE‑bench Verified accuracy

लागि SWE-बेन्च प्रमाणित, एउटा मोडेललाई कोड रिपोजिटरी र मुद्दा विवरण दिइन्छ, र समस्या समाधान गर्न प्याच उत्पन्न गर्नुपर्छ। कार्यसम्पादन प्रयोग गरिएका प्रम्प्ट र उपकरणहरूमा अत्यधिक निर्भर हुन्छ। हाम्रा नतिजाहरूलाई पुन: उत्पादन र सन्दर्भबद्ध गर्न मद्दत गर्न, हामी GPT-4.1 को लागि हाम्रो सेटअप वर्णन गर्छौं। यहाँ(नयाँ विण्डोमा खुल्छ)। हाम्रो स्कोरले ५०० मध्ये २३ समस्याहरूलाई हटाउँछ जसका समाधानहरू हाम्रो पूर्वाधारमा चल्न सकेनन्; यदि यी समस्याहरूलाई रूढिवादी रूपमा ० को रूपमा स्कोर गरियो भने, ५४.६% स्कोर ५२.१% बन्छ।

ठूला फाइलहरू सम्पादन गर्न खोज्ने API विकासकर्ताहरूका लागि, GPT-4.1 विभिन्न ढाँचाहरूमा कोड भिन्नताहरूमा धेरै भरपर्दो छ। GPT-4.1 ले GPT-4o को स्कोरलाई दोब्बर भन्दा बढी बनाउँछ एडरको पोलिग्लोट डिफ बेन्चमार्क(नयाँ विण्डोमा खुल्छ), र GPT-४.५ लाई ८% ले पनि उछिन्छabsयो मूल्याङ्कन विभिन्न प्रोग्रामिङ भाषाहरूमा कोडिङ क्षमताहरूको मापन र सम्पूर्ण र भिन्न ढाँचाहरूमा परिवर्तनहरू उत्पादन गर्ने मोडेल क्षमताको मापन दुवै हो। हामीले विशेष रूपमा GPT‑4.1 लाई भिन्न ढाँचाहरू अझ भरपर्दो रूपमा पछ्याउन तालिम दिएका छौं, जसले विकासकर्ताहरूलाई सम्पूर्ण फाइल पुन: लेख्नुको सट्टा मोडेल आउटपुट लाइनहरू परिवर्तन गरेर मात्र लागत र विलम्बता दुवै बचत गर्न अनुमति दिन्छ। उत्तम कोड भिन्न प्रदर्शनको लागि, कृपया हाम्रो सन्दर्भ गर्नुहोस् प्रोत्साहनजनक गाइड(नयाँ विण्डोमा खुल्छ)। सम्पूर्ण फाइलहरू पुन: लेख्न रुचाउने विकासकर्ताहरूका लागि, हामीले GPT‑4.1 को लागि आउटपुट टोकन सीमा बढाएर ३२,७६८ टोकन गरेका छौं (GPT‑32,768o को लागि १६,३८४ टोकनबाट बढाएर)। हामी यो पनि प्रयोग गर्न सिफारिस गर्छौं अनुमानित आउटपुटहरू(नयाँ विण्डोमा खुल्छ) पूर्ण फाइल पुनर्लेखनको विलम्बता कम गर्न।

GPT-4.1GPT-4o (2024-11-20)OpenAI o१ (उच्च)खुलाAI o3-मिनी (उच्च)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini52% (सम्पूर्ण)53% (फरक)31% (सम्पूर्ण)18% (फरक)64% (सम्पूर्ण)62% (फरक)67% (सम्पूर्ण)60% (फरक)35% (सम्पूर्ण)32% (फरक)10% (सम्पूर्ण)6% (फरक)4% (सम्पूर्ण)3% (फरक)N/A (सम्पूर्ण)45% (फरक)एडरको बहुभुज बेन्चमार्क शुद्धता

एडरको पोलिग्लट बेन्चमार्कमा, मोडेलहरूले कोडिङ अभ्यासहरू समाधान गर्छन् व्यायाम(नयाँ विण्डोमा खुल्छ) स्रोत फाइलहरू सम्पादन गरेर, एक पटक पुन: प्रयास गर्न अनुमति दिएर। 'सम्पूर्ण' ढाँचाको लागि मोडेललाई सम्पूर्ण फाइल पुन: लेख्न आवश्यक पर्दछ, जुन ढिलो र महँगो हुन सक्छ। 'डिफ' ढाँचाको लागि मोडेललाई श्रृंखला लेख्न आवश्यक पर्दछ। ब्लकहरू खोज्नुहोस्/बदल्नुहोस्(नयाँ विण्डोमा खुल्छ).

GPT-4.1 ले फ्रन्टएन्ड कोडिङमा GPT-4o मा उल्लेखनीय रूपमा सुधार गर्छ, र अधिक कार्यात्मक रूपमा मनपर्ने र सौन्दर्यको रूपमा मनमोहक वेब एपहरू सिर्जना गर्न सक्षम छ। हाम्रो हेड-टू-हेड तुलनामा, सशुल्क मानव ग्रेडरहरू GPT-4.1 का वेबसाइटहरू GPT-4o को ८०% समय भन्दा बढी छन्।

प्रतिक्षा गर्नुहोस्: फ्ल्यासकार्ड वेब अनुप्रयोग बनाउनुहोस्। प्रयोगकर्ताले फ्ल्यासकार्डहरू सिर्जना गर्न, आफ्नो अवस्थित फ्ल्यासकार्डहरू खोज्न, फ्ल्यासकार्डहरूको समीक्षा गर्न र समीक्षा गरिएका फ्ल्यासकार्डहरूमा तथ्याङ्कहरू हेर्न सक्षम हुनुपर्छ। हिन्दी शब्द वा वाक्यांश र यसको अंग्रेजी अनुवाद भएको दस कार्डहरू प्रिलोड गर्नुहोस्। समीक्षा इन्टरफेस: समीक्षा इन्टरफेसमा, स्पेसमा क्लिक गर्दा वा थिच्दा अनुवाद प्रकट गर्न सहज 3-D एनिमेसनको साथ कार्ड फ्लिप गर्नुपर्छ। तीर कुञ्जीहरू थिच्दा कार्डहरू मार्फत नेभिगेट गर्नुपर्छ। खोज इन्टरफेस: प्रयोगकर्ताले क्वेरीमा टाइप गर्दा खोज पट्टीले गतिशील रूपमा परिणामहरूको सूची प्रदान गर्नुपर्छ। तथ्याङ्क इन्टरफेस: तथ्याङ्क पृष्ठले प्रयोगकर्ताले समीक्षा गरेका कार्डहरूको संख्या र उनीहरूले सही गरेको प्रतिशतको ग्राफ देखाउनुपर्छ। कार्डहरू इन्टरफेस सिर्जना गर्नुहोस्: कार्डहरू सिर्जना गर्नुहोस् पृष्ठले प्रयोगकर्तालाई फ्ल्यासकार्डको अगाडि र पछाडि निर्दिष्ट गर्न र प्रयोगकर्ताको सङ्ग्रहमा थप्न अनुमति दिनुपर्छ। यी प्रत्येक इन्टरफेसहरू साइडबारमा पहुँचयोग्य हुनुपर्छ। एकल पृष्ठ प्रतिक्रिया एप उत्पन्न गर्नुहोस् (सबै शैलीहरू इनलाइन राख्नुहोस्)।

 

GPT-4o

 

GPT-४.१

माथिका बेन्चमार्कहरूभन्दा बाहिर, GPT-4.1 ले ढाँचाहरू अझ भरपर्दो रूपमा पछ्याउन राम्रो छ र बाह्य सम्पादनहरू कम बारम्बार गर्दछ। हाम्रो आन्तरिक मूल्याङ्कनमा, कोडमा बाह्य सम्पादनहरू GPT-9o सँग 4% बाट GPT-2 सँग 4.1% मा झरेका छन्।

वास्तविक संसार उदाहरणहरू

Windsurf(नयाँ विण्डोमा खुल्छ)GPT-4.1 ले Windsurf को आन्तरिक कोडिङ बेन्चमार्कमा GPT-60o भन्दा ६०% बढी स्कोर गर्छ, जुन पहिलो समीक्षामा कोड परिवर्तनहरू कति पटक स्वीकार गरिन्छ भन्ने कुरासँग जोडदार रूपमा सम्बन्धित छ। तिनीहरूका प्रयोगकर्ताहरूले यो उपकरण कलिङमा ३०% बढी कुशल र अनावश्यक सम्पादनहरू दोहोर्याउने वा अत्यधिक साँघुरो, वृद्धिशील चरणहरूमा कोड पढ्ने सम्भावना लगभग ५०% कम भएको उल्लेख गरे। यी सुधारहरूले छिटो पुनरावृत्ति र सहजतामा अनुवाद गर्दछ। कार्यप्रवाहइन्जिनियरिङ टोलीहरूको लागि।

कोडो(नयाँ विण्डोमा खुल्छ)Qodo ले GitHub पुल अनुरोधहरूबाट उच्च-गुणस्तरको कोड समीक्षाहरू उत्पन्न गर्ने सन्दर्भमा अन्य अग्रणी मोडेलहरू विरुद्ध GPT-4.1 को हेड-टू-हेड परीक्षण गर्‍यो जुन उनीहरूको फाइन-ट्युनिङ बेन्चमार्कबाट प्रेरित पद्धति प्रयोग गरेर गरिएको थियो। समान प्रम्प्ट र सर्तहरू भएका २०० अर्थपूर्ण वास्तविक-विश्व पुल अनुरोधहरूमा, तिनीहरूले पत्ता लगाए कि GPT-200 ले राम्रो सुझाव उत्पादन गर्‍यो। केसहरूको%%(नयाँ विण्डोमा खुल्छ)। उल्लेखनीय रूपमा, उनीहरूले GPT-4.1 ले सटीकता (सुझाव कहिले नदिने भनेर जान्ने) र व्यापकता (आवश्यक पर्दा पूर्ण विश्लेषण प्रदान गर्ने) दुवैमा उत्कृष्ट रहेको पाए, जबकि साँच्चै महत्वपूर्ण मुद्दाहरूमा ध्यान केन्द्रित राख्छ।

निर्देशन पालना गर्दै

GPT-4.1 ले निर्देशनहरूलाई अझ भरपर्दो रूपमा पालना गर्छ, र हामीले मूल्याङ्कन पछि विभिन्न निर्देशनहरूमा उल्लेखनीय सुधारहरू मापन गरेका छौं।

हामीले निर्देशन पालनाको लागि आन्तरिक मूल्याङ्कन विकास गर्यौं जसले गर्दा मोडेलको कार्यसम्पादन धेरै आयामहरूमा र निर्देशन पालनाको धेरै प्रमुख वर्गहरूमा ट्र्याक गर्न सकियोस्, जसमा समावेश छन्:

  • निम्न ढाँचा। मोडेलको प्रतिक्रियाको लागि अनुकूलन ढाँचा निर्दिष्ट गर्ने निर्देशनहरू प्रदान गर्दै, जस्तै XML, YAML, Markdown, आदि।
  • नकारात्मक निर्देशनहरू। मोडेलले बेवास्ता गर्नुपर्ने व्यवहार निर्दिष्ट गर्ने। (उदाहरण: “प्रयोगकर्तालाई समर्थनमा सम्पर्क गर्न नभन्नुहोस्”)
  • आदेशित निर्देशनहरू। मोडेलले दिइएको क्रममा पालना गर्नुपर्ने निर्देशनहरूको सेट प्रदान गर्दै। (उदाहरण: "पहिले प्रयोगकर्ताको नाम सोध्नुहोस्, त्यसपछि उनीहरूको इमेल सोध्नुहोस्")
  • सामग्री आवश्यकताहरू। निश्चित जानकारी समावेश गर्ने सामग्री आउटपुट गर्दै। (उदाहरण: "पोषण योजना लेख्दा सधैं प्रोटिनको मात्रा समावेश गर्नुहोस्")
  • रैंकिंग। आउटपुटलाई विशेष तरिकाले क्रमबद्ध गर्ने। (उदाहरण: "जनसंख्या गणना अनुसार प्रतिक्रिया क्रमबद्ध गर्नुहोस्")
  • अति आत्मविश्वास। अनुरोध गरिएको जानकारी उपलब्ध नभएमा वा अनुरोध दिइएको श्रेणीमा पर्दैन भने मोडेललाई "मलाई थाहा छैन" वा यस्तै भन्न निर्देशन दिने। (उदाहरण: "यदि तपाईंलाई उत्तर थाहा छैन भने, समर्थन सम्पर्क इमेल प्रदान गर्नुहोस्")

यी वर्गहरू विकासकर्ताहरूबाट प्राप्त प्रतिक्रियाको परिणाम हुन् जसमा निम्न निर्देशनका कुन पक्षहरू उनीहरूका लागि सबैभन्दा सान्दर्भिक र महत्त्वपूर्ण छन् भन्ने बारेमा जानकारी दिइएको छ। प्रत्येक वर्ग भित्र, हामीले सजिलो, मध्यम र कठिन प्रम्प्टहरूलाई विभाजन गरेका छौं। विशेष गरी कठिन प्रम्प्टहरूमा GPT-4.1 ले GPT-4o भन्दा उल्लेखनीय रूपमा सुधार गर्छ।

GPT-4.1GPT-4o (2024-11-20)OpenAI o१ (उच्च)खुलाAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini49%29%51%50%54%45%32%27%Internal OpenAI eval शुद्धता (हार्ड सबसेट) पछिका निर्देशनहरू

हाम्रो आन्तरिक निर्देशन पछि eval वास्तविक विकासकर्ता प्रयोग केसहरू र प्रतिक्रियामा आधारित छ, जसले ढाँचा, शब्दावली, लम्बाइ, र थप निर्देशनहरू सहित विभिन्न जटिलताका कार्यहरू समेट्छ।

धेरै विकासकर्ताहरूको लागि बहु-पालो निर्देशन पालना गर्नु महत्त्वपूर्ण छ—मोडेलको लागि कुराकानीमा गहिरो सुसंगतता कायम राख्नु र प्रयोगकर्ताले पहिले भनेको कुरा ट्र्याक राख्नु महत्त्वपूर्ण छ। हामीले GPT‑4.1 लाई कुराकानीमा विगतका सन्देशहरूबाट जानकारी राम्रोसँग छान्न सक्षम हुन तालिम दिएका छौं, जसले गर्दा थप प्राकृतिक कुराकानीहरू सम्भव हुन्छन्। स्केलबाट मल्टिच्यालेन्ज बेन्चमार्क यो क्षमताको उपयोगी मापन हो, र GPT‑4.1 ले १०.५% प्रदर्शन गर्छ।ABS GPT-4o भन्दा राम्रो।

GPT-4.1GPT-4o (2024-11-20)OpenAI o१ (उच्च)खुलाAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini38%28%45%40%44%36%15%20%MultiChallenge accuracy

In बहु-चुनौती(नयाँ विण्डोमा खुल्छ), मोडेलहरूलाई बहु-पालो कुराकानीहरूमा अघिल्ला सन्देशहरूबाट चार प्रकारको जानकारीलाई सही रूपमा प्रयोग गर्न चुनौती दिइन्छ।

GPT-4.1 ले IFEval मा पनि ८७.४% स्कोर गर्छ, जबकि GPT-87.4o को लागि ८१.०% छ। IFEval ले प्रमाणित निर्देशनहरू सहित प्रम्प्टहरू प्रयोग गर्दछ (उदाहरणका लागि, सामग्रीको लम्बाइ निर्दिष्ट गर्ने वा निश्चित शब्दहरू वा ढाँचाहरू बेवास्ता गर्ने)।

GPT-4.1GPT-4o (2024-11-20)OpenAI o१ (उच्च)खुलाAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini87%81%92%94%88%84%75%78%IFEval accuracy

In IFEval(नयाँ विण्डोमा खुल्छ), मोडेलहरूले विभिन्न निर्देशनहरूको पालना गर्ने उत्तरहरू उत्पन्न गर्नुपर्छ।

राम्रो निर्देशन पालनाले अवस्थित अनुप्रयोगहरूलाई अझ भरपर्दो बनाउँछ, र पहिले कमजोर विश्वसनीयताले सीमित गरिएका नयाँ अनुप्रयोगहरूलाई सक्षम बनाउँछ। प्रारम्भिक परीक्षकहरूले GPT-4.1 बढी शाब्दिक हुन सक्छ भनेर उल्लेख गरे, त्यसैले हामी प्रम्प्टहरूमा स्पष्ट र विशिष्ट हुन सिफारिस गर्छौं। GPT-4.1 को लागि प्रम्प्ट गर्ने उत्तम अभ्यासहरूको बारेमा थप जानकारीको लागि, कृपया प्रम्प्टिङ गाइड हेर्नुहोस्।

वास्तविक संसार उदाहरणहरू

निलो जे(नयाँ विण्डोमा खुल्छ)ब्लू जेको सबैभन्दा चुनौतीपूर्ण वास्तविक-विश्व कर परिदृश्यहरूको आन्तरिक बेन्चमार्कमा GPT-4.1 GPT-53o भन्दा ५३% बढी सटीक थियो। प्रणाली कार्यसम्पादन र प्रयोगकर्ता सन्तुष्टि दुवैको लागि महत्वपूर्ण शुद्धतामा यो उछालले GPT-4 को जटिल नियमहरूको सुधारिएको बुझाइ र लामो सन्दर्भहरूमा सूक्ष्म निर्देशनहरू पालना गर्ने क्षमतालाई हाइलाइट गर्दछ। ब्लू जे प्रयोगकर्ताहरूको लागि, यसको अर्थ छिटो, अधिक भरपर्दो कर अनुसन्धान र उच्च-मूल्य सल्लाहकार कार्यको लागि अधिक समय हो।

हेक्स(नयाँ विण्डोमा खुल्छ): GPT-4.1 ले हेक्सको सबैभन्दा चुनौतीपूर्णमा लगभग २× सुधार प्रदान गर्‍यो SQL मूल्याङ्कन सेट,(नयाँ विण्डोमा खुल्छ) निर्देशन पालना र अर्थपूर्ण बुझाइमा उल्लेखनीय लाभहरू प्रदर्शन गर्दै। ठूला, अस्पष्ट स्कीमाहरूबाट सही तालिकाहरू चयन गर्न मोडेल बढी भरपर्दो थियो - एक अपस्ट्रीम निर्णय बिन्दु जसले समग्र शुद्धतालाई प्रत्यक्ष रूपमा असर गर्छ र केवल प्रम्प्टिङ मार्फत ट्युन गर्न गाह्रो छ। हेक्सको लागि, यसले म्यानुअल डिबगिङमा मापनयोग्य कमी र उत्पादन-ग्रेड कार्यप्रवाहहरूमा छिटो मार्गको परिणामस्वरूप भयो।

लामो सन्दर्भ

GPT-4.1, GPT-4.1 mini, र GPT-4.1 nano ले १० लाख टोकनसम्मको सन्दर्भ प्रशोधन गर्न सक्छ - अघिल्लो GPT-1o मोडेलहरूको लागि १२८,००० बाट। १० लाख टोकनहरू सम्पूर्ण React कोडबेसको ८ भन्दा बढी प्रतिहरू हुन्, त्यसैले लामो सन्दर्भ ठूला कोडबेसहरू, वा धेरै लामो कागजातहरू प्रशोधन गर्नको लागि उत्तम उपयुक्त छ।

हामीले GPT‑4.1 लाई पूर्ण १० लाख सन्दर्भ लम्बाइमा जानकारीमा भरपर्दो रूपमा उपस्थित हुन तालिम दियौं। हामीले यसलाई सान्दर्भिक पाठ याद गर्न र लामो र छोटो सन्दर्भ लम्बाइमा विचलितकर्ताहरूलाई बेवास्ता गर्न GPT‑1o भन्दा धेरै भरपर्दो हुन पनि तालिम दिएका छौं। कानूनी, कोडिङ, ग्राहक समर्थन, र धेरै अन्य डोमेनहरूमा अनुप्रयोगहरूको लागि लामो-सन्दर्भ बुझाइ एक महत्वपूर्ण क्षमता हो।

तल, हामी GPT-4.1 को सन्दर्भ विन्डो भित्र विभिन्न बिन्दुहरूमा राखिएको सानो लुकेको जानकारी ("सुई") पुन: प्राप्त गर्ने क्षमता प्रदर्शन गर्छौं। GPT-4.1 ले सबै स्थानहरू र सबै सन्दर्भ लम्बाइहरूमा, १० लाख टोकनहरू सम्म, सुईलाई निरन्तर रूपमा सही रूपमा पुन: प्राप्त गर्दछ। यो इनपुटमा तिनीहरूको स्थितिको पर्वाह नगरी हातमा रहेको कार्यको लागि सान्दर्भिक विवरणहरू प्रभावकारी रूपमा निकाल्न सक्षम छ।

GPT4.1 API

घाँसको ढिस्कोको हाम्रो आन्तरिक सुईमा, GPT-4.1, GPT-4.1 मिनी, र GPT 4.1 न्यानो सबैले १M सम्मको सन्दर्भमा सबै स्थानहरूमा सुई पुन: प्राप्त गर्न सक्षम छन्।

यद्यपि, केही वास्तविक-विश्व कार्यहरू एकल, स्पष्ट सुई उत्तर प्राप्त गर्नु जत्तिकै सरल हुन्छन्। हामीले प्रयोगकर्ताहरूलाई प्रायः हाम्रा मोडेलहरूलाई धेरै जानकारीहरू पुन: प्राप्त गर्न र बुझ्न, र ती टुक्राहरूलाई एकअर्काको सम्बन्धमा बुझ्न आवश्यक पर्ने पाउँछौं। यो क्षमता प्रदर्शन गर्न, हामी नयाँ मूल्याङ्कन खुला-सोर्स गर्दैछौं: OpenAI-MRCR (बहु-राउन्ड कोररेफरेन्स)।

OpenAI-MRCR ले सन्दर्भमा राम्ररी लुकेका धेरै सुईहरू बीच फेला पार्ने र अस्पष्टता हटाउने मोडेलको क्षमताको परीक्षण गर्दछ। मूल्याङ्कनमा प्रयोगकर्ता र सहायक बीच बहु-पालो संश्लेषित कुराकानीहरू समावेश हुन्छन् जहाँ प्रयोगकर्ताले विषयको बारेमा लेखनको लागि सोध्छ, उदाहरणका लागि "ट्यापिरहरूको बारेमा कविता लेख्नुहोस्" वा "चट्टानहरूको बारेमा ब्लग पोस्ट लेख्नुहोस्"। त्यसपछि हामी सन्दर्भभरि दुई, चार, वा आठ समान अनुरोधहरू घुसाउँछौं। त्यसपछि मोडेलले एक विशेष उदाहरणसँग सम्बन्धित प्रतिक्रिया पुन: प्राप्त गर्नुपर्छ (जस्तै, "मलाई टेपिरहरूको बारेमा तेस्रो कविता दिनुहोस्")।

यी अनुरोधहरू र बाँकी सन्दर्भ बीचको समानताबाट चुनौती उत्पन्न हुन्छ - मोडेलहरूलाई सजिलैसँग सूक्ष्म भिन्नताहरूद्वारा भ्रमित गर्न सकिन्छ, जस्तै कविताको सट्टा ट्यापिरहरूको बारेमा छोटो कथा, वा ट्यापिरहरूको सट्टा भ्यागुताहरूको बारेमा कविता। हामीले पाउँछौं कि GPT‑4.1 ले १२८K टोकनहरू सम्मको सन्दर्भ लम्बाइमा GPT‑4o लाई राम्रो प्रदर्शन गर्छ र १० लाख टोकनहरू सम्म पनि बलियो प्रदर्शन कायम राख्छ।

तर यो कार्य अझै पनि कठिन छ - उन्नत तर्क मोडेलहरूको लागि पनि। हामी साझा गर्दैछौं इभल डेटासेट(नयाँ विण्डोमा खुल्छ) वास्तविक-विश्व लामो-सन्दर्भ पुन: प्राप्तिमा थप कामलाई प्रोत्साहित गर्न।

GPT4.1 API

In ओपनएआई-एमआरसीआर(नयाँ विण्डोमा खुल्छ), मोडेलले एउटा प्रश्नको उत्तर दिनुपर्छ जसमा विचलितकर्ताहरू बीच छरिएका २, ४, वा ८ प्रयोगकर्ता प्रम्प्टहरू बीचको अस्पष्टता हटाउने समावेश छ।

हामी पनि जारी गर्दैछौं ग्राफवाकहरू(नयाँ विण्डोमा खुल्छ), बहु-हप लामो-सन्दर्भ तर्कको मूल्याङ्कन गर्ने डेटासेट। लामो सन्दर्भको लागि धेरै विकासकर्ता प्रयोग केसहरूलाई सन्दर्भ भित्र धेरै तार्किक हप्स आवश्यक पर्दछ, जस्तै कोड लेख्दा धेरै फाइलहरू बीच हाम फाल्ने वा जटिल कानुनी प्रश्नहरूको जवाफ दिँदा कागजातहरू क्रस सन्दर्भ गर्ने।

एउटा मोडेल (वा मानव पनि) ले सैद्धान्तिक रूपमा प्रम्प्टको एक पास वा रिड-थ्रु गरेर OpenAI-MRCR समस्या समाधान गर्न सक्छ, तर Graphwalks लाई सन्दर्भमा धेरै स्थानहरूमा तर्क आवश्यक पर्ने गरी डिजाइन गरिएको छ र यसलाई क्रमिक रूपमा समाधान गर्न सकिँदैन।

ग्राफवाक्सले हेक्साडेसिमल ह्यासहरू मिलेर बनेको निर्देशित ग्राफले सन्दर्भ विन्डो भर्छ, र त्यसपछि मोडेललाई ग्राफमा रहेको अनियमित नोडबाट सुरु हुने ब्रेडथ-फर्स्ट सर्च (BFS) गर्न भन्छ। त्यसपछि हामी यसलाई निश्चित गहिराइमा सबै नोडहरू फर्काउन भन्छौं। GPT-4.1 ले यस बेन्चमार्कमा 61.7% शुद्धता प्राप्त गर्दछ, o1 को प्रदर्शनसँग मेल खान्छ र GPT-4o लाई सजिलै हराउँछ।

GPT-4.1GPT-4o (2024-11-20)OpenAI o१ (उच्च)खुलाAI o3-मिनी (उच्च)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini62%42%62%51%72%62%25%29%ग्राफवाक BFS <128k शुद्धता

In ग्राफवाकहरू(नयाँ विण्डोमा खुल्छ), एउटा मोडेललाई ठूलो ग्राफमा रहेको अनियमित नोडबाट चौडाइ-पहिलो खोज गर्न भनिएको छ।

बेन्चमार्कहरूले पूर्ण कथा बताउँदैनन्, त्यसैले हामीले अल्फा साझेदारहरूसँग उनीहरूको वास्तविक-विश्व लामो सन्दर्भ कार्यहरूमा GPT-4.1 को प्रदर्शन परीक्षण गर्न काम गर्यौं।

वास्तविक संसार उदाहरणहरू

थमसन रोयटर्स:(नयाँ विण्डोमा खुल्छ) थमसन रोयटर्सले आफ्नो व्यावसायिक ग्रेड कोकाउन्सेलसँग GPT-4.1 परीक्षण गर्‍यो। AI कानुनी कार्यको लागि सहायक। GPT‑4o को तुलनामा, तिनीहरूले आन्तरिक लामो-सन्दर्भ बेन्चमार्कहरूमा GPT‑17 प्रयोग गर्दा बहु-कागजात समीक्षा शुद्धता १७% ले सुधार गर्न सक्षम भए - धेरै, लामो कागजातहरू समावेश गर्ने जटिल कानुनी कार्यप्रवाहहरू ह्यान्डल गर्ने CoCounsel को क्षमताको एक आवश्यक मापन। विशेष गरी, तिनीहरूले मोडेललाई स्रोतहरूमा सन्दर्भ कायम राख्न र कागजातहरू बीचको सूक्ष्म सम्बन्धहरू सही रूपमा पहिचान गर्न अत्यधिक विश्वसनीय पाए, जस्तै विवादास्पद खण्डहरू वा अतिरिक्त पूरक सन्दर्भ - कानूनी विश्लेषण र निर्णय लिने कार्यहरू।

कार्लाइल(नयाँ विण्डोमा खुल्छ)कार्लाइलले GPT-4.1 प्रयोग गरेर PDF, Excel फाइलहरू, र अन्य जटिल ढाँचाहरू सहित धेरै, लामो कागजातहरूबाट दानादार वित्तीय डेटा सही रूपमा निकाल्यो। तिनीहरूको आन्तरिक मूल्याङ्कनको आधारमा, यसले घना डेटा भएका धेरै ठूला कागजातहरूबाट पुन: प्राप्तिमा ५०% राम्रो प्रदर्शन गर्‍यो र अन्य उपलब्ध मोडेलहरूमा देखिएका प्रमुख सीमितताहरू सफलतापूर्वक पार गर्ने पहिलो मोडेल थियो, जसमा सुई-इन-द-हेस्ट्याक पुन: प्राप्ति, हराएको-इन-द-मिडल त्रुटिहरू, र कागजातहरूमा बहु-हप तर्क समावेश थिए।

मोडेल कार्यसम्पादन र शुद्धताको अतिरिक्त, विकासकर्ताहरूलाई प्रयोगकर्ताहरूको आवश्यकताहरू पूरा गर्न र छिटो प्रतिक्रिया दिने मोडेलहरू पनि चाहिन्छ। हामीले पहिलो टोकनको समय घटाउन हाम्रो अनुमान स्ट्याकमा सुधार गरेका छौं, र द्रुत क्यासिङको साथ, तपाईंले लागत बचत गर्दै विलम्बतालाई अझ कम गर्न सक्नुहुन्छ। हाम्रो प्रारम्भिक परीक्षणमा, GPT‑4.1 को लागि पहिलो टोकनको विलम्बता लगभग पन्ध्र सेकेन्ड थियो जसमा १२८,००० टोकनहरू सन्दर्भ थिए, र दस लाख टोकनहरूको सन्दर्भको लागि एक मिनेट थियो। GPT‑128,000 मिनी र न्यानो छिटो छन्, उदाहरणका लागि, GPT‑4.1 न्यानोले प्रायः १२८,००० इनपुट टोकनहरू भएका प्रश्नहरूको लागि पाँच सेकेन्ड भन्दा कममा पहिलो टोकन फिर्ता गर्दछ।

दर्शन

GPT-4.1 परिवार छवि बुझाइमा असाधारण रूपमा बलियो छ, विशेष गरी GPT-4.1 मिनीले महत्त्वपूर्ण छलांगको प्रतिनिधित्व गर्दछ, प्रायः छवि बेन्चमार्कहरूमा GPT-4o लाई हराउँछ।

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini75%69%78%75%73%55%56%MMMU accuracy

In MMMU(नयाँ विण्डोमा खुल्छ), एउटा मोडेलले चार्ट, रेखाचित्र, नक्सा, आदि भएका प्रश्नहरूको जवाफ दिन्छ। (नोट: छवि समावेश नगरिएको बेला पनि, धेरै उत्तरहरू अझै पनि सन्दर्भबाट अनुमान वा अनुमान गर्न सकिन्छ।)

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini72%61%72%72%73%56%57%MathVista accuracy

In म्याथभिस्टा(नयाँ विण्डोमा खुल्छ), एउटा मोडेलले दृश्य गणितीय कार्यहरू समाधान गर्छ।

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini57%53%55%55%57%41%37%CharXiv-Reasoning accuracy

In CharXiv-तर्क(नयाँ विण्डोमा खुल्छ), एक मोडेलले वैज्ञानिक पत्रहरूबाट चार्टहरूको बारेमा प्रश्नहरूको जवाफ दिन्छ।

लामो भिडियोहरू प्रशोधन गर्ने जस्ता बहु-मोडल प्रयोगका केसहरूको लागि लामो सन्दर्भ प्रदर्शन पनि महत्त्वपूर्ण छ। भिडियो-MME⁠(नयाँ विण्डोमा खुल्छ) (लामो सब्स बिना), एउटा मोडेलले उपशीर्षक बिना ३०-६० मिनेट लामो भिडियोहरूमा आधारित बहुविकल्पीय प्रश्नहरूको जवाफ दिन्छ। GPT-४.१ ले अत्याधुनिक प्रदर्शन हासिल गर्दछ, ७२.०% स्कोर गर्दै, GPT-४o को लागि ६५.३% बाट बढेर।

GPT-4.1GPT-4o (2024-11-20)72%65%Video long context

In भिडियो-MME(नयाँ विण्डोमा खुल्छ), एक मोडेलले उपशीर्षक बिना ३०-६० मिनेट लामो भिडियोहरूमा आधारित बहुविकल्पीय प्रश्नहरूको जवाफ दिन्छ।

मूल्य निर्धारण

GPT-4.1, GPT-4.1 mini, र GPT-4.1 nano अब सबै विकासकर्ताहरूको लागि उपलब्ध छन्।

हाम्रो अनुमान प्रणालीहरूमा दक्षता सुधारको माध्यमबाट, हामी GPT-4.1 श्रृंखलामा कम मूल्यहरू प्रस्ताव गर्न सक्षम भएका छौं। GPT-4.1 मध्य प्रश्नहरूको लागि GPT-26o भन्दा २६% कम महँगो छ, र GPT-4 nano हाम्रो सबैभन्दा सस्तो र छिटो मोडेल हो। बारम्बार एउटै सन्दर्भ पास गर्ने प्रश्नहरूको लागि, हामी यी नयाँ मोडेलहरूको लागि प्रम्प्ट क्यासिङ छुटलाई ७५% (पहिले ५०% बाट माथि) मा बढाउँदैछौं। अन्तमा, हामी मानक प्रति-टोकन लागत भन्दा बाहिर कुनै अतिरिक्त लागत बिना लामो सन्दर्भ अनुरोधहरू प्रस्ताव गर्दछौं।

मोडेल
(मूल्यहरू प्रति १० लाख टोकनका लागि हुन्)
आगतक्यास गरिएको इनपुटउत्पादनमिश्रित मूल्य निर्धारण*
जीपीटी -२$2.00$0.50$8.00$1.84
gpt-४.१-मिनी$0.40$0.10$1.60$0.42
gpt-४.१-न्यानो$0.10$0.025$0.40$0.12

*विशिष्ट इनपुट/आउटपुट र क्यास अनुपातमा आधारित।

यी मोडेलहरू हाम्रो प्रयोगको लागि उपलब्ध छन् ब्याच API(नयाँ विण्डोमा खुल्छ) थप ५०% मूल्य छुटमा।

निष्कर्ष

GPT-4.1 को व्यावहारिक प्रयोगमा एक महत्वपूर्ण कदम हो AI। वास्तविक-विश्व विकासकर्ता आवश्यकताहरूमा ध्यान केन्द्रित गरेर - कोडिङदेखि निर्देशन-अनुसरण र लामो सन्दर्भ बुझाइसम्म - यी मोडेलहरूले बुद्धिमान प्रणालीहरू र परिष्कृत एजेन्टिक अनुप्रयोगहरू निर्माण गर्न नयाँ सम्भावनाहरू खोल्छन्। हामी विकासकर्ता समुदायको रचनात्मकताबाट निरन्तर प्रेरित छौं, र GPT‑4.1 सँग तपाईंले के निर्माण गर्नुहुन्छ भनेर हेर्न उत्साहित छौं।

परिशिष्ट

शैक्षिक, कोडिङ, निर्देशन अनुगमन, लामो सन्दर्भ, दृष्टिकोण, र प्रकार्य कलिङ मूल्याङ्कनका नतिजाहरूको पूर्ण सूची तल पाउन सकिन्छ।

शैक्षिक ज्ञान
श्रेणीGPT-4.1GPT-4.1 मिनीGPT-4.1 नानोGPT-4o(2024-11-20)GPT-4o मिनीखुलाAI o1(उच्च)खुलाAI o3-mini(उच्च)GPT-4.5
AIME '२४48.1%49.6%29.4%13.1%8.6%74.3%87.3%36.7%
GPQA हीरा166.3%65.0%50.3%46.0%40.2%75.7%77.2%69.5%
MMLU90.2%87.5%80.1%85.7%82.0%91.8%86.9%90.8%
बहुभाषी MMLU87.3%78.5%66.9%81.4%70.5%87.7%80.7%85.1%

[1] GPQA को हाम्रो कार्यान्वयनले regex को सट्टा उत्तर निकाल्न मोडेल प्रयोग गर्दछ। GPT-4.1 को लागि, भिन्नता <1% थियो (सांख्यिकीय रूपमा महत्त्वपूर्ण छैन), तर GPT-4o मोडेल निकासीको लागि स्कोरमा उल्लेखनीय सुधार हुन्छ (~46% -> 54%)।

कोडिङ मूल्याङ्कनहरू
श्रेणीGPT-4.1GPT-4.1 मिनीGPT-4.1 नानोGPT-4o(2024-11-20)GPT-4o मिनीखुलाAI o1(उच्च)खुलाAI o3-mini(उच्च)GPT-4.5
SWE-बेन्च प्रमाणित254.6%23.6%-33.2%8.7%41.0%49.3%38.0%
SWE-ल्यान्सर$ 176K
(35.1%)
$ 165K
(33.0%)
$ 77K
(15.3%)
$ 163K
(32.6%)
$ 116K
(23.1%)
$ 160K
(32.1%)
$ 90K
(18.0%)
$ 186K
(37.3%)
SWE-Lancer (IC-डायमण्ड उपसमूह)$ 34K
(14.4%)
$ 31K
(13.1%)
$ 9K
(3.7%)
$ 29K
(12.4%)
$ 11K
(4.8%)
$ 29K
(9.7%)
$ 17K
(7.4%)
$ 41K
(17.4%)
एडरको बहुभाषा: सम्पूर्ण51.6%34.7%9.8%30.7%3.6%64.6%66.7%-
एडरको बहुभाषा: भिन्नता52.9%31.6%6.2%18.2%2.7%61.7%60.4%44.9%

[2] हामी हाम्रो पूर्वाधारमा चल्न नसक्ने २३/५०० समस्याहरू हटाउँछौं। हटाइएका २३ कार्यहरूको पूर्ण सूची 'astropy__astropy-23', 'astropy__astropy-500', 'astropy__astropy-23', 'django__django-7606', 'django__django-8707', 'matplotlib__matplotlib-8872', 'matplotlib__matplotlib-10097', 'matplotlib__matplotlib-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'psf__requests-24970', 'पाइलिन्ट-डेभ__पाइलिन्ट-६५२८', 'पाइलिन्ट-डेभ__पाइलिन्ट-७०८०', 'पाइलिन्ट-डेभ__पाइलिन्ट-७२७७', 'पाइटेस्ट-डेभ__पाइटेस्ट-५२६२', 'पाइटेस्ट-डेभ__पाइटेस्ट-७५२१', 'सिकिट-सिकिट__सिकिट-सिकिट-१२९७३', 'स्फिन्क्स-डक__स्पिन्क्स-१०४६६', 'स्फिन्क्स-डक__स्पिन्क्स-७४६२', 'स्फिन्क्स-डक__स्पिन्क्स-८२६५', र 'स्फिन्क्स-डक__स्पिन्क्स-९३६७'।

इभल पछिको निर्देशन
श्रेणीGPT-4.1GPT-4.1 मिनीGPT-4.1 नानोGPT-4o(2024-11-20)GPT-4o मिनीखुलाAI o1(उच्च)खुलाAI o3-mini(उच्च)GPT-4.5
आन्तरिक API निर्देशनहरू पालना गर्दै (कडा)49.1%45.1%31.6%29.2%27.2%51.3%50.0%54.0%
बहु-चुनौती38.3%35.8%15.0%27.8%20.3%44.9%39.9%43.8%
MultiChallenge (o3-mini grader)346.2%42.2%31.1%39.9%25.6%52.9%50.2%50.1%
Collie65.8%54.6%42.5%50.2%52.7%95.3%98.7%72.3%
IFEval87.4%84.1%74.5%81.0%78.4%92.2%93.9%88.2%
बहु-IF70.8%67.0%57.2%60.9%57.9%77.9%79.5%70.8%

[3] नोट: हामीले MultiChallenge (GPT-4o) मा पूर्वनिर्धारित ग्रेडरले मोडेल प्रतिक्रियाहरू बारम्बार गलत स्कोर गर्ने गरेको पाउँछौं। हामीले पत्ता लगायौं कि o3-mini जस्ता तर्क मोडेलमा ग्रेडर स्वैप गर्नाले हामीले निरीक्षण गरेका नमूनाहरूमा ग्रेडिङमा शुद्धतामा उल्लेखनीय सुधार हुन्छ। लिडरबोर्डसँग स्थिरताको कारणले गर्दा, हामी परिणामहरूको दुवै सेट प्रकाशित गर्दैछौं।

लामो सन्दर्भ मूल्याङ्कनहरू
श्रेणीGPT-4.1GPT-4.1 मिनीGPT-4.1 नानोGPT-4o(2024-11-20)GPT-4o मिनीखुलाAI o1(उच्च)खुलाAI o3-mini(उच्च)GPT-4.5
ओपनएआई-एमआरसीआर: २ सुई १२८ किलोमिटर57.2%47.2%36.6%31.9%24.5%22.1%18.7%38.5%
ओपनएआई-एमआरसीआर: २ सुई १ मिटर46.3%33.3%12.0%-----
ग्राफवाक्स bfs < १२८k61.7%61.7%25.0%41.7%29.0%62.0%51.0%72.3%
ग्राफवाक्स bfs >१२८k19.0%15.0%2.9%-----
ग्राफवाक्स अभिभावक <128k58.0%60.5%9.4%35.4%12.6%50.9%58.3%72.6%
ग्राफवाक्स अभिभावक >१२८ हजार25.0%11.0%5.6%-----
भिजन इभल
श्रेणीGPT-4.1GPT-4.1 मिनीGPT-4.1 नानोGPT-4o(2024-11-20)GPT-4o मिनीखुलाAI o1(उच्च)खुलाAI o3-mini(उच्च)GPT-4.5
MMMU74.8%72.7%55.4%68.7%56.3%77.6%-75.2%
म्याथभिस्टा72.2%73.1%56.2%61.4%56.5%71.8%-72.3%
CharXiv-RGenericName56.7%56.8%40.5%52.7%36.8%55.1%-55.4%
CharXiv-DGenericName87.9%88.4%73.9%85.3%76.6%88.9%-90.0%
प्रकार्य कलिङ इभल
श्रेणीGPT-4.1GPT-4.1 मिनीGPT-4.1 नानोGPT-4o(2024-11-20)GPT-4o मिनीखुलाAI o1(उच्च)खुलाAI o3-mini(उच्च)GPT-4.5
कम्प्लेक्सफङ्कबेन्च65.5%49.3%0.6%66.5%38.6%47.6%17.6%63.0%
टाउबेन्च एयरलाइन्स449.4%36.0%14.0%42.8%22.0%50.0%32.4%50.0%
टाउबेन्च रिटेल4, 568.0%
(73.6%)
55.8%
(65.4%)
22.6%
(23.5%)
60.3%44.0%70.8%57.6%68.4%

[4] भिन्नता कम गर्न tau-bench eval संख्याहरू ५ रनहरूमा औसत गरिन्छ, र कुनै पनि अनुकूलन उपकरणहरू वा प्रम्प्टिङ बिना चलाइन्छ।

[5] कोष्ठकमा भएका संख्याहरूले GPT-4.1o को सट्टा प्रयोगकर्ता मोडेलको रूपमा GPT-4 प्रयोग गर्दा Tau-bench परिणामहरू प्रतिनिधित्व गर्दछ। हामीले पत्ता लगाएका छौं कि, GPT-4.1 निर्देशन पालनामा राम्रो भएकोले, यो प्रयोगकर्ताको रूपमा राम्रो प्रदर्शन गर्न सक्षम छ, र त्यसैले बढी सफल प्रक्षेपणहरूमा परिणाम दिन्छ। हामी विश्वास गर्छौं कि यसले बेन्चमार्कमा मूल्याङ्कन गरिएको मोडेलको वास्तविक प्रदर्शनलाई प्रतिनिधित्व गर्दछ।

तथ्याङ्क

सम्बन्धित नेभिगेसन

कुनै टिप्पणी छैन

कुनै पनि
कुनै टिप्पणी छैन...