
Siri baharu model GPT yang menampilkan penambahbaikan besar pada pengekodan, mengikut arahan dan konteks yang panjang—serta model nano pertama kami. Tersedia melaluiAPI调用
Sila lihat artikel untuk arahan Keluaran pertama!ChatGPT4.1 Panduan penuh untuk kegunaan tempatan – walaupun untuk pemula dan komputer biasa
ChatGPT4.1 Pengenalan
Hari ini, kami melancarkan tiga model baharu dalam API: GPT‑4.1, GPT‑4.1 mini dan GPT‑4.1 nano. Model ini mengatasi prestasi mini GPT‑4o dan GPT‑4o secara keseluruhan, dengan g utamaains dalam pengekodan dan arahan berikut. Mereka juga mempunyai tetingkap konteks yang lebih besar—menyokong sehingga 1 juta token konteks—dan dapat menggunakan konteks tersebut dengan lebih baik dengan pemahaman konteks panjang yang dipertingkatkan. Mereka menampilkan potongan pengetahuan yang diperbaharui pada bulan Jun 2024.
GPT‑4.1 cemerlang dalam ukuran standard industri berikut:
- Pengekodan: GPT‑4.1 mendapat markah 54.6% pada SWE-bench Disahkan, bertambah baik dengan 21.4% abs melebihi GPT‑4o dan 26.6%abs melebihi GPT‑4.5—menjadikannya model terkemuka untuk pengekodan.
- Arahan berikut: On Pelbagai Cabaran Skala(dibuka dalam tetingkap baru) penanda aras, ukuran kebolehan mengikut arahan, GPT‑4.1 markah 38.3%, 10.5%abs meningkat berbanding GPT‑4o.
- Konteks panjang: On Video-MME(dibuka dalam tetingkap baru), penanda aras untuk pemahaman konteks panjang berbilang mod, GPT‑4.1 menetapkan hasil tercanggih baharu—menjaringkan 72.0% pada kategori panjang tanpa sari kata, 6.7%abs peningkatan berbanding GPT‑4o.
Walaupun penanda aras memberikan pandangan yang berharga, kami melatih model ini dengan fokus pada utiliti dunia sebenar. Kerjasama rapat dan perkongsian dengan komuniti pembangun membolehkan kami mengoptimumkan model ini untuk tugasan yang paling penting bagi aplikasi mereka.
Untuk tujuan ini, keluarga model GPT‑4.1 menawarkan prestasi luar biasa pada kos yang lebih rendah. Model ini mendorong prestasi ke hadapan pada setiap titik pada lengkung kependaman.

GPT‑4.1 mini ialah lonjakan ketara dalam prestasi model kecil, malah mengatasi GPT‑4o dalam banyak penanda aras. Ia sepadan atau melebihi GPT‑4o dalam eval perisikan sambil mengurangkan kependaman hampir separuh dan mengurangkan kos sebanyak 83%.
Untuk tugasan yang memerlukan kependaman rendah, GPT‑4.1 nano ialah model terpantas dan termurah kami yang tersedia. Ia memberikan prestasi yang luar biasa pada saiz yang kecil dengan tetingkap konteks token 1 juta dan skor 80.1% pada MMLU, 50.3% pada GPQA dan 9.8% pada pengekodan polyglot Aider—malah lebih tinggi daripada GPT‑4o mini. Ia sesuai untuk tugasan seperti pengelasan atau autolengkap.
Penambahbaikan dalam arahan berikutan kebolehpercayaan dan pemahaman konteks yang panjang ini juga menjadikan model GPT‑4.1 jauh lebih berkesan untuk menjana kuasa ejen, atau sistem yang boleh melaksanakan tugas secara bebas bagi pihak pengguna. Apabila digabungkan dengan primitif seperti API Respons(dibuka dalam tetingkap baru), pembangun kini boleh membina ejen yang lebih berguna dan boleh dipercayai dalam kejuruteraan perisian dunia sebenar, mengekstrak cerapan daripada dokumen besar, menyelesaikan permintaan pelanggan dengan pegangan tangan yang minimum dan tugas rumit lain.
Ambil perhatian bahawa GPT‑4.1 hanya akan tersedia melalui API. Dalam ChatGPT, banyak penambahbaikan dalam mengikuti arahan, pengekodan, dan kecerdasan telah dimasukkan secara beransur-ansur ke dalam versi terkini(dibuka dalam tetingkap baru) daripada GPT‑4o, dan kami akan terus menggabungkan lebih banyak lagi dengan keluaran akan datang.
Kami juga akan mula menamatkan Pratonton GPT‑4.5 dalam API, kerana GPT‑4.1 menawarkan prestasi yang lebih baik atau serupa pada banyak keupayaan utama pada kos dan kependaman yang jauh lebih rendah. Pratonton GPT‑4.5 akan dimatikan dalam masa tiga bulan, pada 14 Julai 2025, untuk memberi masa kepada pembangun untuk beralih. GPT‑4.5 ialah diperkenalkan sebagai pratonton penyelidikan untuk meneroka dan mencuba model yang besar dan intensif pengiraan, dan kami telah belajar banyak daripada maklum balas pembangun. Kami akan terus meneruskan kreativiti, kualiti penulisan, humor dan nuansa yang anda beritahu kami yang anda hargai dalam GPT‑4.5 ke dalam model API akan datang.
Di bawah, kami membahagikan prestasi GPT‑4.1 merentas beberapa penanda aras, bersama-sama dengan contoh daripada penguji alfa seperti Windsurf, Qodo, Hex, Blue J, Thomson Reuters dan Carlyle yang mempamerkan prestasinya dalam pengeluaran pada tugas khusus domain.
Pengekodan
GPT‑4.1 jauh lebih baik daripada GPT‑4o dalam pelbagai tugas pengekodan, termasuk menyelesaikan tugas pengekodan secara ejen, pengekodan bahagian hadapan, membuat lebih sedikit pengeditan luar, mengikut format berbeza dengan pasti, memastikan penggunaan alat yang konsisten dan banyak lagi.
Pada SWE-bench Verified, ukuran kemahiran kejuruteraan perisian dunia sebenar, GPT‑4.1 menyelesaikan 54.6% tugasan, berbanding 33.2% untuk GPT‑4o (2024-11-20). Ini mencerminkan peningkatan dalam keupayaan model untuk meneroka repositori kod, menyelesaikan tugasan dan menghasilkan kod yang menjalankan dan lulus ujian.
Untuk pembangun API yang ingin mengedit fail besar, GPT‑4.1 adalah lebih dipercayai pada perbezaan kod merentas pelbagai format. GPT‑4.1 lebih daripada dua kali ganda markah GPT‑4o pada Tanda aras perbezaan poliglot Aider(dibuka dalam tetingkap baru), malah mengalahkan GPT‑4.5 sebanyak 8%absPenilaian ini adalah kedua-dua ukuran keupayaan pengekodan merentas pelbagai bahasa pengaturcaraan dan ukuran keupayaan model untuk menghasilkan perubahan dalam format keseluruhan dan berbeza. Kami telah melatih GPT‑4.1 secara khusus untuk mengikuti format berbeza dengan lebih pasti, yang membolehkan pembangun menjimatkan kos dan kependaman dengan hanya meminta output model menukar baris, dan bukannya menulis semula keseluruhan fail. Untuk prestasi perbezaan kod terbaik, sila rujuk kami panduan menggesa(dibuka dalam tetingkap baru). Bagi pembangun yang lebih suka menulis semula keseluruhan fail, kami telah meningkatkan had token output untuk GPT‑4.1 kepada 32,768 token (naik daripada 16,384 token untuk GPT‑4o). Kami juga mengesyorkan menggunakan Output yang Diramalkan(dibuka dalam tetingkap baru) untuk mengurangkan kependaman penulisan semula fail penuh.
GPT‑4.1 juga bertambah baik dengan ketara apabila GPT‑4o dalam pengekodan bahagian hadapan, dan mampu mencipta apl web yang lebih disukai dari segi fungsi dan menyenangkan dari segi estetika. Dalam perbandingan head-to-head kami, tapak web GPT‑4.1 penggred manusia berbayar berbanding 4% GPT‑80o.
GPT‑4o
GPT‑4.1
Di luar penanda aras di atas, GPT‑4.1 adalah lebih baik dalam mengikuti format dengan lebih dipercayai dan menjadikan pengeditan luar kurang kerap. Dalam eval dalaman kami, pengeditan luar pada kod menurun daripada 9% dengan GPT‑4o kepada 2% dengan GPT‑4.1.
Contoh dunia sebenar
Luncur Angin(dibuka dalam tetingkap baru): GPT‑4.1 mendapat markah 60% lebih tinggi daripada GPT‑4o pada penanda aras pengekodan dalaman Windsurf, yang sangat berkorelasi dengan kekerapan perubahan kod diterima pada semakan pertama. Pengguna mereka menyatakan bahawa ia adalah 30% lebih cekap dalam panggilan alat dan kira-kira 50% kurang berkemungkinan untuk mengulangi suntingan yang tidak perlu atau membaca kod dalam langkah-langkah tambahan yang terlalu sempit. Penambahbaikan ini diterjemahkan kepada lelaran yang lebih pantas dan aliran kerja yang lebih lancar untuk pasukan kejuruteraan.
Qodo(dibuka dalam tetingkap baru): Qodo menguji GPT‑4.1 head-to-head terhadap model terkemuka lain dalam menjana ulasan kod berkualiti tinggi daripada permintaan tarik GitHub menggunakan metodologi yang diilhamkan oleh penanda aras penalaan halus mereka. Merentasi 200 permintaan tarikan dunia nyata yang bermakna dengan gesaan dan syarat yang sama, mereka mendapati bahawa GPT‑4.1 menghasilkan cadangan yang lebih baik dalam 55% kes(dibuka dalam tetingkap baru). Terutama, mereka mendapati bahawa GPT‑4.1 cemerlang pada kedua-dua ketepatan (mengetahui bila tidak membuat cadangan) dan kekomprekan (menyediakan analisis menyeluruh apabila diperlukan), sambil mengekalkan fokus pada isu yang benar-benar kritikal.
Arahan mengikut
GPT‑4.1 mengikut arahan dengan lebih pasti dan kami telah mengukur peningkatan yang ketara merentas pelbagai arahan berikutan eval.
Kami membangunkan eval dalaman untuk arahan berikut untuk menjejak prestasi model merentas beberapa dimensi dan dalam beberapa kategori utama arahan berikut, termasuk:
- Format mengikut. Menyediakan arahan yang menentukan format tersuai untuk respons model, seperti XML, YAML, Markdown, dsb.
- Arahan negatif. Menentukan tingkah laku model harus dielakkan. (Contoh: “Jangan minta pengguna menghubungi sokongan”)
- Arahan yang dipesan. Menyediakan satu set arahan model mesti ikut dalam susunan yang diberikan. (Contoh: “Tanya dahulu nama pengguna, kemudian minta e-mel mereka”)
- Keperluan kandungan. Mengeluarkan kandungan yang merangkumi maklumat tertentu. (Contoh: “Sentiasa sertakan jumlah protein semasa menulis rancangan pemakanan”)
- Kedudukan. Memesan output dengan cara tertentu. (Contoh: “Isih respons mengikut kiraan populasi”)
- Terlalu yakin. Mengarahkan model untuk menyebut "Saya tidak tahu" atau serupa jika maklumat yang diminta tidak tersedia atau permintaan itu tidak termasuk dalam kategori tertentu. (Contoh: “Jika anda tidak tahu jawapannya, berikan e-mel hubungan sokongan”)
Kategori ini adalah hasil maklum balas daripada pembangun mengenai aspek arahan yang mana yang paling relevan dan penting bagi mereka. Dalam setiap kategori, kami telah membahagikan gesaan mudah, sederhana dan keras. GPT‑4.1 bertambah baik dengan ketara berbanding GPT‑4o pada gesaan keras khususnya.
Mengikuti arahan berbilang pusingan adalah penting bagi kebanyakan pembangun—adalah penting bagi model untuk mengekalkan keselarasan jauh ke dalam perbualan dan menjejaki perkara yang diberitahu oleh pengguna sebelum ini. Kami telah melatih GPT‑4.1 untuk lebih berkebolehan memilih maklumat daripada mesej lepas dalam perbualan, membolehkan perbualan yang lebih semula jadi. Penanda aras MultiChallenge daripada Skala ialah ukuran yang berguna bagi keupayaan ini dan GPT‑4.1 berprestasi 10.5%abs lebih baik daripada GPT‑4o.
GPT‑4.1 juga mendapat markah 87.4% pada IFEval, berbanding 81.0% untuk GPT‑4o. IFEval menggunakan gesaan dengan arahan yang boleh disahkan (contohnya, menentukan panjang kandungan atau mengelakkan istilah atau format tertentu).
Arahan yang lebih baik berikutan menjadikan aplikasi sedia ada lebih dipercayai, dan membolehkan aplikasi baharu yang sebelum ini dihadkan oleh kebolehpercayaan yang lemah. Penguji awal menyatakan bahawa GPT‑4.1 boleh menjadi lebih literal, jadi kami mengesyorkan agar anda bersikap eksplisit dan khusus dalam gesaan. Untuk maklumat lanjut tentang menggesa amalan terbaik untuk GPT‑4.1, sila rujuk panduan menggesa.
Contoh dunia sebenar
Biru J(dibuka dalam tetingkap baru): GPT‑4.1 adalah 53% lebih tepat daripada GPT‑4o pada penanda aras dalaman bagi senario cukai dunia sebenar Blue J yang paling mencabar. Lonjakan dalam ketepatan ini—kunci kepada prestasi sistem dan kepuasan pengguna—menyerlahkan kefahaman GPT‑4.1 yang lebih baik tentang peraturan kompleks dan keupayaannya untuk mengikuti arahan bernuansa dalam konteks yang panjang. Bagi pengguna Blue J, ini bermakna penyelidikan cukai yang lebih pantas, lebih dipercayai dan lebih banyak masa untuk kerja nasihat bernilai tinggi.
Hex(dibuka dalam tetingkap baru): GPT‑4.1 memberikan peningkatan hampir 2× pada Hex yang paling mencabar set penilaian SQL,(dibuka dalam tetingkap baru) mempamerkan keuntungan yang ketara dalam mengikuti arahan dan pemahaman semantik. Model ini lebih dipercayai dalam memilih jadual yang betul daripada skema yang besar dan samar-samar—titik keputusan huluan yang secara langsung memberi kesan kepada ketepatan keseluruhan dan sukar untuk disesuaikan melalui gesaan sahaja. Untuk Hex, ini menghasilkan pengurangan yang boleh diukur dalam penyahpepijatan manual dan laluan yang lebih pantas ke aliran kerja gred pengeluaran.
Konteks Panjang
GPT‑4.1, GPT‑4.1 mini dan GPT‑4.1 nano boleh memproses sehingga 1 juta token konteks—meningkat daripada 128,000 untuk model GPT‑4o sebelumnya. 1 juta token ialah lebih daripada 8 salinan keseluruhan pangkalan kod React, konteks yang panjang amat sesuai untuk memproses pangkalan kod yang besar atau banyak dokumen yang panjang.
Kami melatih GPT‑4.1 untuk menerima maklumat dengan pasti sepanjang 1 juta panjang konteks penuh. Kami juga telah melatihnya supaya jauh lebih dipercayai daripada GPT‑4o dalam melihat teks yang berkaitan dan mengabaikan pengalih merentas panjang konteks panjang dan pendek. Pemahaman konteks panjang ialah keupayaan kritikal untuk aplikasi merentas undang-undang, pengekodan, sokongan pelanggan dan banyak domain lain.
Di bawah, kami menunjukkan keupayaan GPT‑4.1 untuk mendapatkan semula sekeping maklumat kecil yang tersembunyi ("jarum") yang diletakkan pada pelbagai titik dalam tetingkap konteks. GPT‑4.1 secara konsisten mengambil jarum dengan tepat pada semua kedudukan dan semua panjang konteks, sehingga 1 juta token. Ia secara berkesan dapat mengeluarkan butiran yang relevan untuk tugasan di tangan tanpa mengira kedudukan mereka dalam input.

Dalam jarum dalaman kami dalam eval timbunan jerami, GPT‑4.1, GPT‑4.1 mini dan GPT 4.1 nano semuanya boleh mendapatkan semula jarum pada semua kedudukan dalam konteks sehingga 1M.
Walau bagaimanapun, beberapa tugas dunia sebenar adalah semudah mendapatkan satu jawapan jarum yang jelas. Kami mendapati pengguna sering memerlukan model kami untuk mendapatkan dan memahami berbilang maklumat dan untuk memahami bahagian tersebut berhubung antara satu sama lain. Untuk mempamerkan keupayaan ini, kami menyediakan sumber terbuka eval baharu: OpenAI-MRCR (Multi-Round Coreference).
OpenAI-MRCR menguji keupayaan model untuk mencari dan menyahkekaburan antara berbilang jarum yang tersembunyi dalam konteks. Penilaian terdiri daripada perbualan sintetik berbilang pusingan antara pengguna dan pembantu di mana pengguna meminta sekeping tulisan tentang topik, contohnya "tulis puisi tentang tapir" atau "tulis catatan blog tentang batu". Kami kemudian memasukkan dua, empat atau lapan permintaan yang sama sepanjang konteks. Model kemudiannya mesti mendapatkan semula respons yang sepadan dengan contoh tertentu (cth, “berikan saya puisi ketiga tentang tapir”).
Cabaran timbul daripada persamaan antara permintaan ini dan konteks yang lain—model mudah disesatkan oleh perbezaan halus, seperti cerpen tentang tapir dan bukannya puisi, atau puisi tentang katak dan bukannya tapir. Kami mendapati bahawa GPT‑4.1 mengatasi GPT‑4o pada panjang konteks sehingga 128K token dan mengekalkan prestasi yang kukuh walaupun sehingga 1 juta token.
Tetapi tugasnya tetap sukar—walaupun untuk model penaakulan lanjutan. Kami berkongsi set data eval(dibuka dalam tetingkap baru) untuk menggalakkan kerja lanjut mengenai pencarian semula konteks panjang dunia sebenar.

In OpenAI-MRCR(dibuka dalam tetingkap baru), model mesti menjawab soalan yang melibatkan nyahkekaburan antara 2, 4 atau 8 gesaan pengguna yang bertaburan di antara pengalih perhatian.
Kami juga melepaskan Laluan graf(dibuka dalam tetingkap baru), set data untuk menilai penaakulan konteks panjang berbilang hop. Banyak kes penggunaan pembangun untuk konteks yang panjang memerlukan berbilang lompatan logik dalam konteks, seperti melompat antara berbilang fail semasa menulis kod atau dokumen rujukan silang semasa menjawab soalan undang-undang yang rumit.
Model (atau bahkan manusia) secara teorinya boleh menyelesaikan masalah OpenAI-MRCR dengan melakukan satu laluan atau membaca gesaan, tetapi Graphwalks direka untuk memerlukan penaakulan merentas berbilang kedudukan dalam konteks dan tidak boleh diselesaikan secara berurutan.
Graphwalks mengisi tetingkap konteks dengan graf terarah yang terdiri daripada cincang heksadesimal, dan kemudian meminta model untuk melakukan carian pertama luas (BFS) bermula daripada nod rawak dalam graf. Kami kemudian memintanya untuk mengembalikan semua nod pada kedalaman tertentu. GPT‑4.1 mencapai ketepatan 61.7% pada penanda aras ini, memadankan prestasi o1 dan menewaskan GPT‑4o dengan mudah.
Penanda aras tidak menceritakan kisah penuh, jadi kami bekerjasama dengan rakan kongsi alfa untuk menguji prestasi GPT‑4.1 pada tugas konteks panjang dunia sebenar mereka.
Contoh dunia sebenar
Thomson Reuters:(dibuka dalam tetingkap baru) Thomson Reuters menguji GPT‑4.1 dengan CoCounsel, gred profesional mereka AI pembantu untuk kerja undang-undang. Berbanding dengan GPT‑4o, mereka dapat meningkatkan ketepatan semakan berbilang dokumen sebanyak 17% apabila menggunakan GPT‑4.1 merentas penanda aras konteks panjang dalaman—ukuran penting keupayaan CoCounsel untuk mengendalikan aliran kerja undang-undang yang kompleks yang melibatkan berbilang dokumen yang panjang. Khususnya, mereka mendapati model itu sangat boleh dipercayai dalam mengekalkan konteks merentas sumber dan mengenal pasti dengan tepat perhubungan bernuansa antara dokumen, seperti klausa yang bercanggah atau konteks tambahan tambahan—tugas yang kritikal kepada analisis undang-undang dan membuat keputusan.
Carlyle(dibuka dalam tetingkap baru): Carlyle menggunakan GPT‑4.1 untuk mengekstrak data kewangan berbutir dengan tepat merentas berbilang dokumen yang panjang—termasuk PDF, fail Excel dan format kompleks lain. Berdasarkan penilaian dalaman mereka, ia berprestasi 50% lebih baik pada pengambilan semula daripada dokumen yang sangat besar dengan data padat dan merupakan model pertama yang berjaya mengatasi had utama yang dilihat dengan model lain yang tersedia, termasuk pengambilan jarum dalam timbunan jerami, ralat hilang di tengah dan penaakulan berbilang hop merentas dokumen.
Selain prestasi dan ketepatan model, pembangun juga memerlukan model yang bertindak balas dengan cepat untuk mengikuti dan memenuhi keperluan pengguna. Kami telah menambah baik tindanan inferens kami untuk mengurangkan masa kepada token pertama, dan dengan caching segera, anda boleh mengurangkan kependaman lebih jauh sambil menjimatkan kos. Dalam ujian awal kami, kependaman kepada token pertama untuk GPT‑4.1 ialah kira-kira lima belas saat dengan 128,000 token konteks dan seminit untuk sejuta token konteks. GPT‑4.1 mini dan nano adalah lebih pantas, contohnya, GPT‑4.1 nano paling kerap mengembalikan token pertama dalam masa kurang daripada lima saat untuk pertanyaan dengan 128,000 token input.
Visi
Keluarga GPT‑4.1 sangat kuat dalam pemahaman imej, dengan GPT‑4.1 mini khususnya mewakili lonjakan yang ketara ke hadapan, selalunya mengalahkan GPT‑4o pada penanda aras imej.
Prestasi konteks yang panjang juga penting untuk kes penggunaan pelbagai mod, seperti memproses video yang panjang. Dalam Video-MME(dibuka dalam tetingkap baru) (panjang w/o subs), model menjawab soalan aneka pilihan berdasarkan video berdurasi 30-60 minit tanpa sari kata. GPT‑4.1 mencapai prestasi terkini, menjaringkan 72.0%, meningkat daripada 65.3% untuk GPT‑4o.
Harga
GPT‑4.1, GPT‑4.1 mini dan GPT‑4.1 nano kini tersedia kepada semua pembangun.
Melalui peningkatan kecekapan pada sistem inferens kami, kami telah dapat menawarkan harga yang lebih rendah pada siri GPT‑4.1. GPT‑4.1 adalah 26% lebih murah daripada GPT‑4o untuk pertanyaan median dan GPT‑4.1 nano ialah model termurah dan terpantas kami yang pernah ada. Untuk pertanyaan yang berulang kali melepasi konteks yang sama, kami meningkatkan diskaun caching segera kepada 75% (naik daripada 50% sebelumnya) untuk model baharu ini. Akhir sekali, kami menawarkan permintaan konteks yang panjang tanpa kos tambahan melebihi kos per-token standard.
model (Harga adalah setiap token 1M) | Input | Input dicache | Output | Harga Campuran* |
gpt-4.1 | $2.00 | $0.50 | $8.00 | $1.84 |
gpt-4.1-mini | $0.40 | $0.10 | $1.60 | $0.42 |
gpt-4.1-nano | $0.10 | $0.025 | $0.40 | $0.12 |
*Berdasarkan nisbah input/output dan cache biasa.
Model ini tersedia untuk digunakan dalam kami API Kelompok(dibuka dalam tetingkap baru) dengan tambahan 50% diskaun harga.
Kesimpulan
GPT‑4.1 ialah satu langkah ke hadapan yang penting dalam aplikasi praktikal AI. Dengan menumpukan rapat pada keperluan pembangun dunia sebenar—bermula daripada pengekodan kepada mengikut arahan dan pemahaman konteks yang panjang—model ini membuka kunci kemungkinan baharu untuk membina sistem pintar dan aplikasi agen yang canggih. Kami sentiasa diilhamkan oleh kreativiti komuniti pembangun dan teruja untuk melihat perkara yang anda bina dengan GPT‑4.1.
Umbai usus
Senarai penuh keputusan merentas akademik, pengekodan, arahan mengikut, konteks panjang, penglihatan dan fungsi panggilan evals boleh didapati di bawah.
Pengetahuan akademik
kategori | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | BukaAI o1(tinggi) | BukaAI o3-mini(tinggi) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
AIME '24 | 48.1% | 49.6% | 29.4% | 13.1% | 8.6% | 74.3% | 87.3% | 36.7% |
GPQA Berlian1 | 66.3% | 65.0% | 50.3% | 46.0% | 40.2% | 75.7% | 77.2% | 69.5% |
MMLU | 90.2% | 87.5% | 80.1% | 85.7% | 82.0% | 91.8% | 86.9% | 90.8% |
MMLU berbilang bahasa | 87.3% | 78.5% | 66.9% | 81.4% | 70.5% | 87.7% | 80.7% | 85.1% |
[1] Pelaksanaan GPQA kami menggunakan model untuk mengekstrak jawapan dan bukannya regex. Untuk GPT-4.1, perbezaannya adalah <1% (tidak signifikan secara statistik), tetapi untuk pengekstrakan model GPT-4o meningkatkan skor dengan ketara (~46% -> 54%).
Eval pengekodan
kategori | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | BukaAI o1(tinggi) | BukaAI o3-mini(tinggi) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
SWE-bench Disahkan2 | 54.6% | 23.6% | - | 33.2% | 8.7% | 41.0% | 49.3% | 38.0% |
SWE-Lancer | $ 176K (35.1%) | $ 165K (33.0%) | $ 77K (15.3%) | $ 163K (32.6%) | $ 116K (23.1%) | $ 160K (32.1%) | $ 90K (18.0%) | $ 186K (37.3%) |
SWE-Lancer (subset IC-Diamond) | $ 34K (14.4%) | $ 31K (13.1%) | $ 9K (3.7%) | $ 29K (12.4%) | $ 11K (4.8%) | $ 29K (9.7%) | $ 17K (7.4%) | $ 41K (17.4%) |
Poliglot Aider: keseluruhan | 51.6% | 34.7% | 9.8% | 30.7% | 3.6% | 64.6% | 66.7% | - |
Poliglot Aider: diff | 52.9% | 31.6% | 6.2% | 18.2% | 2.7% | 61.7% | 60.4% | 44.9% |
[2] Kami meninggalkan 23/500 masalah yang tidak dapat dijalankan pada infrastruktur kami. Senarai penuh 23 tugasan yang ditinggalkan ialah 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib-20488__20676 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'matplotlib-6028', 'matplotlib-6528 'psf__requests-7080', 'pylint-dev__pylint-7277', 'pylint-dev__pylint-5262', 'pylint-dev__pylint-7521', 'pytest-dev__pytest-12973', 'pytest-dev__pytest-10466 'scikit-learn__scikit-learn-7462', 'sphinx-doc__sphinx-8265', 'sphinx-doc__sphinx-9367', 'sphinx-doc__sphinx-XNUMX' dan 'sphinx-doc__sphinx-XNUMX'.
Arahan Mengikuti Eval
kategori | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | BukaAI o1(tinggi) | BukaAI o3-mini(tinggi) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
Arahan API dalaman mengikut (keras) | 49.1% | 45.1% | 31.6% | 29.2% | 27.2% | 51.3% | 50.0% | 54.0% |
Pelbagai Cabaran | 38.3% | 35.8% | 15.0% | 27.8% | 20.3% | 44.9% | 39.9% | 43.8% |
MultiChallenge (penggred mini o3)3 | 46.2% | 42.2% | 31.1% | 39.9% | 25.6% | 52.9% | 50.2% | 50.1% |
COLLIE | 65.8% | 54.6% | 42.5% | 50.2% | 52.7% | 95.3% | 98.7% | 72.3% |
IFEval | 87.4% | 84.1% | 74.5% | 81.0% | 78.4% | 92.2% | 93.9% | 88.2% |
Berbilang JIKA | 70.8% | 67.0% | 57.2% | 60.9% | 57.9% | 77.9% | 79.5% | 70.8% |
[3] Nota: kami mendapati bahawa penggred lalai dalam MultiChallenge (GPT-4o) kerap tersalah skor respons model. maklum balas. Kami mendapati bahawa menukar penggred kepada model penaakulan, seperti o3-mini, meningkatkan ketepatan pada penggredan dengan ketara pada sampel yang telah kami periksa. Atas sebab konsistensi dengan papan pendahulu, kami menerbitkan kedua-dua set hasil.
Eval Konteks Panjang
kategori | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | BukaAI o1(tinggi) | BukaAI o3-mini(tinggi) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
OpenAI-MRCR: 2 jarum128k | 57.2% | 47.2% | 36.6% | 31.9% | 24.5% | 22.1% | 18.7% | 38.5% |
OpenAI-MRCR: 2 jarum 1M | 46.3% | 33.3% | 12.0% | - | - | - | - | - |
bf grafwalks < 128k | 61.7% | 61.7% | 25.0% | 41.7% | 29.0% | 62.0% | 51.0% | 72.3% |
Graphwalks bfs >128k | 19.0% | 15.0% | 2.9% | - | - | - | - | - |
Ibu bapa grafwalks <128k | 58.0% | 60.5% | 9.4% | 35.4% | 12.6% | 50.9% | 58.3% | 72.6% |
Ibu bapa grafwalks >128k | 25.0% | 11.0% | 5.6% | - | - | - | - | - |
Vision Eval
kategori | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | BukaAI o1(tinggi) | BukaAI o3-mini(tinggi) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
MMMU | 74.8% | 72.7% | 55.4% | 68.7% | 56.3% | 77.6% | - | 75.2% |
MathVista | 72.2% | 73.1% | 56.2% | 61.4% | 56.5% | 71.8% | - | 72.3% |
CharXiv-R | 56.7% | 56.8% | 40.5% | 52.7% | 36.8% | 55.1% | - | 55.4% |
CharXiv-D | 87.9% | 88.4% | 73.9% | 85.3% | 76.6% | 88.9% | - | 90.0% |
Fungsi Memanggil Eval
kategori | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | BukaAI o1(tinggi) | BukaAI o3-mini(tinggi) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
ComplexFuncBench | 65.5% | 49.3% | 0.6% | 66.5% | 38.6% | 47.6% | 17.6% | 63.0% |
syarikat penerbangan Taubench4 | 49.4% | 36.0% | 14.0% | 42.8% | 22.0% | 50.0% | 32.4% | 50.0% |
Peruncitan Taubench4, 5 | 68.0% (73.6%) | 55.8% (65.4%) | 22.6% (23.5%) | 60.3% | 44.0% | 70.8% | 57.6% | 68.4% |
[4] Nombor eval tau-bench dipuratakan merentasi 5 larian untuk mengurangkan varians, dan dijalankan tanpa sebarang alat tersuai atau gesaan.
[5] Nombor dalam kurungan mewakili keputusan Tau-bench apabila menggunakan GPT-4.1 sebagai model pengguna, bukannya GPT-4o. Kami telah mendapati bahawa, memandangkan GPT-4.1 lebih baik dalam mengikuti arahan, ia lebih mampu berprestasi sebagai pengguna, dan seterusnya menghasilkan trajektori yang lebih berjaya. Kami percaya ini mewakili prestasi sebenar model yang dinilai pada penanda aras.
Perangkaan
Navigasi berkaitan


DeepSeek

Gemini

Kimi

Claude

Tencent Yuanbao

xAI Grok
