Seri baru model GPT yang menampilkan peningkatan besar pada pengkodean, mengikuti instruksi, dan konteks panjang—ditambah model nano pertama kami. Tersedia melaluiAPIPanggilan
Silakan lihat artikel untuk petunjuknya Rilis perdana!ChatGPT4.1 Panduan lengkap untuk penggunaan lokal – bahkan untuk pemula dan komputer biasa
ChatGPT4.1 Pendahuluan
Hari ini, kami meluncurkan tiga model baru dalam API: GPT‑4.1, GPT‑4.1 mini, dan GPT‑4.1 nano. Model-model ini mengungguli GPT‑4o dan GPT‑4o mini secara keseluruhan, dengan peningkatan besar dalam pengodean dan instruksi yang mengikutinya. Model-model ini juga memiliki jendela konteks yang lebih besar—mendukung hingga 1 juta token konteks—dan mampu menggunakan konteks tersebut dengan lebih baik dengan pemahaman konteks panjang yang lebih baik. Model-model ini memiliki batas pengetahuan yang diperbarui pada bulan Juni 2024.
GPT‑4.1 unggul dalam ukuran standar industri berikut:
- Pengkodean: Skor GPT‑4.1 54.6% Bangku SWE Terverifikasi, meningkatkan dengan 21.4%abs lebih dari GPT‑4o dan 26.6%abs melalui GPT‑4.5—menjadikannya model terdepan untuk pengkodean.
- Instruksi berikut: On Tantangan Multi Skala(terbuka di jendela baru) benchmark, ukuran kemampuan mengikuti instruksi, skor GPT‑4.1 38.3%, 10.5%abs peningkatan dibandingkan GPT‑4o.
- Konteks panjang: On Video MME(terbuka di jendela baru), sebuah tolok ukur untuk pemahaman konteks panjang multimodal, GPT‑4.1 menetapkan hasil mutakhir baru—dengan skor 72.0% pada kategori panjang, tanpa subtitle, peningkatan 6.7%abs peningkatan dibandingkan GPT‑4o.
Meskipun tolok ukur memberikan wawasan yang berharga, kami melatih model-model ini dengan fokus pada utilitas di dunia nyata. Kolaborasi dan kemitraan yang erat dengan komunitas pengembang memungkinkan kami mengoptimalkan model-model ini untuk tugas-tugas yang paling penting bagi aplikasi mereka.
Untuk tujuan ini, keluarga model GPT‑4.1 menawarkan kinerja luar biasa dengan biaya lebih rendah. Model-model ini mendorong kinerja lebih maju di setiap titik pada kurva latensi.

GPT‑4.1 mini merupakan lompatan signifikan dalam performa model kecil, bahkan mengalahkan GPT‑4o dalam banyak tolok ukur. Ia menyamai atau melampaui GPT‑4o dalam evaluasi kecerdasan sekaligus mengurangi latensi hingga hampir setengahnya dan mengurangi biaya hingga 83%.
Untuk tugas yang menuntut latensi rendah, GPT‑4.1 nano adalah model tercepat dan termurah yang tersedia. Model ini memberikan kinerja luar biasa pada ukuran kecil dengan jendela konteks 1 juta token, dan skor 80.1% pada MMLU, 50.3% pada GPQA, dan 9.8% pada pengodean poliglot Aider—bahkan lebih tinggi dari GPT‑4o mini. Model ini ideal untuk tugas seperti klasifikasi atau pelengkapan otomatis.
Peningkatan dalam keandalan mengikuti instruksi dan pemahaman konteks panjang ini juga membuat model GPT‑4.1 jauh lebih efektif dalam memberdayakan agen, atau sistem yang dapat secara independen menyelesaikan tugas atas nama pengguna. Bila dikombinasikan dengan primitif seperti API Respons(terbuka di jendela baru), pengembang kini dapat membangun agen yang lebih berguna dan andal dalam rekayasa perangkat lunak dunia nyata, mengekstrak wawasan dari dokumen besar, menyelesaikan permintaan pelanggan dengan bantuan minimal, dan tugas rumit lainnya.
Perlu dicatat bahwa GPT‑4.1 hanya akan tersedia melalui API. ChatGPT, banyak perbaikan dalam mengikuti instruksi, pengkodean, dan kecerdasan telah secara bertahap dimasukkan ke dalam versi terbaru(terbuka di jendela baru) GPT‑4o, dan kami akan terus menyertakan lebih banyak lagi pada rilis mendatang.
Kami juga akan mulai menghentikan GPT‑4.5 Preview di API, karena GPT‑4.1 menawarkan kinerja yang lebih baik atau serupa pada banyak kemampuan utama dengan biaya dan latensi yang jauh lebih rendah. GPT‑4.5 Preview akan dinonaktifkan dalam tiga bulan, pada tanggal 14 Juli 2025, untuk memberi waktu bagi pengembang untuk melakukan transisi. GPT‑4.5 diperkenalkan sebagai pratinjau penelitian untuk mengeksplorasi dan bereksperimen dengan model yang besar dan intensif komputasi, dan kami telah belajar banyak dari masukan pengembang. Kami akan terus meneruskan kreativitas, kualitas penulisan, humor, dan nuansa yang Anda katakan bahwa Anda hargai dalam GPT‑4.5 ke dalam model API mendatang.
Di bawah ini, kami uraikan kinerja GPT‑4.1 di beberapa tolok ukur, beserta contoh dari penguji alfa seperti Windsurf, Qodo, Hex, Blue J, Thomson Reuters, dan Carlyle yang menunjukkan kinerjanya dalam produksi pada tugas khusus domain.
Pengkodean
GPT‑4.1 secara signifikan lebih baik daripada GPT‑4o dalam berbagai tugas pengkodean, termasuk penyelesaian tugas pengkodean secara agen, pengkodean frontend, membuat lebih sedikit suntingan yang tidak perlu, mengikuti format diff dengan andal, memastikan penggunaan alat yang konsisten, dan banyak lagi.
Pada SWE-bench Verified, sebuah ukuran keterampilan rekayasa perangkat lunak di dunia nyata, GPT‑4.1 menyelesaikan 54.6% tugas, dibandingkan dengan 33.2% untuk GPT‑4o (2024-11-20). Hal ini mencerminkan peningkatan kemampuan model untuk menjelajahi repositori kode, menyelesaikan tugas, dan menghasilkan kode yang berjalan dan lulus pengujian.
Bagi pengembang API yang ingin mengedit file besar, GPT‑4.1 jauh lebih andal dalam perbedaan kode di berbagai format. GPT‑4.1 memiliki skor lebih dari dua kali lipat GPT‑4o pada Tolok ukur perbedaan poliglot Aider(terbuka di jendela baru), dan bahkan mengalahkan GPT‑4.5 sebesar 8%perutEvaluasi ini merupakan ukuran kemampuan pengkodean di berbagai bahasa pemrograman dan ukuran kemampuan model untuk menghasilkan perubahan dalam format whole dan diff. Kami telah melatih GPT‑4.1 secara khusus untuk mengikuti format diff dengan lebih andal, yang memungkinkan pengembang menghemat biaya dan latensi dengan hanya mengubah baris keluaran model, daripada menulis ulang seluruh file. Untuk kinerja kode diff terbaik, silakan lihat panduan mendorong(terbuka di jendela baru). Bagi pengembang yang lebih suka menulis ulang seluruh file, kami telah meningkatkan batas token keluaran untuk GPT‑4.1 menjadi 32,768 token (naik dari 16,384 token untuk GPT‑4o). Kami juga merekomendasikan penggunaan Hasil yang Diprediksi(terbuka di jendela baru) untuk mengurangi latensi penulisan ulang berkas penuh.
GPT‑4.1 juga secara substansial meningkatkan GPT‑4o dalam pengkodean frontend, dan mampu menciptakan aplikasi web yang secara fungsional lebih disukai dan secara estetika lebih menarik. Dalam perbandingan langsung kami, manusia yang dibayar menilai situs web GPT‑4.1 lebih baik daripada GPT‑4o sebanyak 80% dari waktu.
GPT‑4o
GPT‑4.1
Di luar tolok ukur di atas, GPT‑4.1 lebih baik dalam mengikuti format dengan lebih andal dan lebih jarang melakukan penyuntingan yang tidak perlu. Dalam evaluasi internal kami, penyuntingan yang tidak perlu pada kode turun dari 9% dengan GPT‑4o menjadi 2% dengan GPT‑4.1.
Contoh dunia nyata
Selancar angin(terbuka di jendela baru): GPT‑4.1 memperoleh skor 60% lebih tinggi daripada GPT‑4o pada tolok ukur pengodean internal Windsurf, yang berkorelasi kuat dengan seberapa sering perubahan kode diterima pada tinjauan pertama. Pengguna mereka mencatat bahwa GPT‑30 50% lebih efisien dalam pemanggilan alat dan sekitar XNUMX% lebih kecil kemungkinannya untuk mengulang suntingan yang tidak perlu atau membaca kode dalam langkah-langkah yang terlalu sempit dan bertahap. Peningkatan ini menghasilkan iterasi yang lebih cepat dan alur kerja yang lebih lancar bagi tim teknik.
Qodo(terbuka di jendela baru): Qodo menguji GPT‑4.1 secara langsung dengan model-model terkemuka lainnya dalam menghasilkan tinjauan kode berkualitas tinggi dari permintaan tarik GitHub menggunakan metodologi yang terinspirasi oleh tolok ukur penyempurnaan mereka. Di antara 200 permintaan tarik dunia nyata yang bermakna dengan perintah dan kondisi yang sama, mereka menemukan bahwa GPT‑4.1 menghasilkan saran yang lebih baik dalam 55% dari kasus(terbuka di jendela baru)Khususnya, mereka menemukan bahwa GPT‑4.1 unggul dalam hal presisi (mengetahui kapan tidak boleh memberikan saran) dan kelengkapan (memberikan analisis menyeluruh jika diperlukan), sekaligus tetap fokus pada isu-isu yang benar-benar kritis.
Instruksi berikut
GPT‑4.1 mengikuti instruksi dengan lebih andal, dan kami telah mengukur peningkatan yang signifikan dalam berbagai evaluasi kepatuhan instruksi.
Kami mengembangkan evaluasi internal untuk mengikuti instruksi guna melacak kinerja model di sejumlah dimensi dan dalam beberapa kategori utama mengikuti instruksi, termasuk:
- Format berikut. Memberikan instruksi yang menentukan format khusus untuk respons model, seperti XML, YAML, Markdown, dll.
- Instruksi negatif. Menentukan perilaku yang harus dihindari oleh model. (Contoh: “Jangan meminta pengguna untuk menghubungi dukungan”)
- Instruksi yang berurutan. Memberikan serangkaian instruksi yang harus diikuti model dalam urutan tertentu. (Contoh: “Pertama-tama tanyakan nama pengguna, lalu tanyakan alamat emailnya”)
- Persyaratan konten. Menghasilkan konten yang mencakup informasi tertentu. (Contoh: “Selalu sertakan jumlah protein saat menulis rencana nutrisi”)
- Peringkat. Mengurutkan output dengan cara tertentu. (Contoh: “Urutkan respons berdasarkan jumlah populasi”)
- Keyakinan berlebihan. Memberikan instruksi kepada model untuk mengatakan “Saya tidak tahu” atau yang serupa jika informasi yang diminta tidak tersedia, atau permintaan tersebut tidak termasuk dalam kategori tertentu. (Contoh: “Jika Anda tidak tahu jawabannya, berikan email kontak dukungan”)
Kategori-kategori ini merupakan hasil masukan dari para pengembang mengenai aspek-aspek instruksi yang paling relevan dan penting bagi mereka. Dalam setiap kategori, kami telah membagi perintah mudah, sedang, dan sulit. GPT‑4.1 secara signifikan lebih baik daripada GPT‑4 pada perintah sulit khususnya.
Mengikuti instruksi beberapa putaran sangat penting bagi banyak pengembang—penting bagi model untuk menjaga koherensi dalam percakapan, dan melacak apa yang dikatakan pengguna sebelumnya. Kami telah melatih GPT‑4.1 agar lebih mampu memilih informasi dari pesan sebelumnya dalam percakapan, yang memungkinkan percakapan yang lebih alami. Tolok ukur MultiChallenge dari Scale merupakan ukuran yang berguna untuk kemampuan ini, dan GPT‑4.1 berkinerja 10.5%abs lebih baik dari GPT‑4o.
GPT‑4.1 juga memperoleh skor 87.4% pada IFEval, dibandingkan dengan 81.0% untuk GPT‑4o. IFEval menggunakan perintah dengan instruksi yang dapat diverifikasi (misalnya, menentukan panjang konten atau menghindari istilah atau format tertentu).
Petunjuk yang lebih baik membuat aplikasi yang ada lebih andal, dan memungkinkan aplikasi baru yang sebelumnya dibatasi oleh keandalan yang buruk. Penguji awal mencatat bahwa GPT‑4.1 dapat lebih literal, jadi kami sarankan untuk bersikap eksplisit dan spesifik dalam perintah. Untuk informasi lebih lanjut tentang praktik terbaik perintah untuk GPT‑4.1, silakan lihat panduan perintah.
Contoh dunia nyata
Biru J(terbuka di jendela baru): GPT‑4.1 53% lebih akurat daripada GPT‑4o pada tolok ukur internal skenario pajak dunia nyata Blue J yang paling menantang. Peningkatan akurasi ini—yang menjadi kunci bagi kinerja sistem dan kepuasan pengguna—menyoroti peningkatan pemahaman GPT‑4.1 terhadap peraturan yang rumit dan kemampuannya untuk mengikuti instruksi yang bernuansa dalam konteks yang panjang. Bagi pengguna Blue J, hal ini berarti penelitian pajak yang lebih cepat dan lebih andal serta lebih banyak waktu untuk pekerjaan konsultasi bernilai tinggi.
kutukan(terbuka di jendela baru):GPT‑4.1 memberikan peningkatan hampir 2x pada Hex yang paling menantang set evaluasi SQL,(terbuka di jendela baru) menunjukkan peningkatan signifikan dalam mengikuti instruksi dan pemahaman semantik. Model ini lebih andal dalam memilih tabel yang benar dari skema yang besar dan ambigu—titik keputusan hulu yang secara langsung memengaruhi akurasi keseluruhan dan sulit untuk disetel melalui perintah saja. Untuk Hex, hal ini menghasilkan pengurangan yang terukur dalam debugging manual dan jalur yang lebih cepat menuju alur kerja tingkat produksi.
Konteks Panjang
GPT‑4.1, GPT‑4.1 mini, dan GPT‑4.1 nano dapat memproses hingga 1 juta token konteks—naik dari 128,000 untuk model GPT‑4o sebelumnya. 1 juta token lebih dari 8 salinan seluruh basis kode React, jadi konteks yang panjang sangat cocok untuk memproses basis kode besar, atau banyak dokumen panjang.
Kami melatih GPT‑4.1 untuk menangani informasi dengan andal di seluruh konteks sepanjang 1 juta. Kami juga melatihnya agar jauh lebih andal daripada GPT‑4o dalam memperhatikan teks yang relevan, dan mengabaikan pengalih perhatian di seluruh konteks panjang dan pendek. Pemahaman konteks panjang merupakan kemampuan penting untuk aplikasi di seluruh ranah hukum, pengodean, dukungan pelanggan, dan banyak ranah lainnya.
Di bawah ini, kami menunjukkan kemampuan GPT‑4.1 untuk mengambil sepotong kecil informasi tersembunyi ("jarum") yang diposisikan di berbagai titik dalam jendela konteks. GPT‑4.1 secara konsisten mengambil jarum secara akurat di semua posisi dan semua panjang konteks, hingga 1 juta token. GPT‑XNUMX secara efektif mampu menarik detail yang relevan untuk tugas yang sedang dikerjakan terlepas dari posisinya dalam input.

Dalam evaluasi jarum dalam tumpukan jerami internal kami, GPT‑4.1, GPT‑4.1 mini, dan GPT 4.1 nano semuanya mampu mengambil jarum di semua posisi dalam konteks hingga 1M.
Namun, beberapa tugas di dunia nyata semudah mengambil satu jawaban jarum yang jelas. Kami mendapati pengguna sering kali membutuhkan model kami untuk mengambil dan memahami beberapa bagian informasi, dan memahami bagian-bagian tersebut dalam kaitannya satu sama lain. Untuk menunjukkan kemampuan ini, kami membuka sumber evaluasi baru: OpenAI-MRCR (Multi-Round Coreference).
OpenAI-MRCR menguji kemampuan model untuk menemukan dan membedakan antara beberapa jarum yang tersembunyi dengan baik dalam konteks. Evaluasi tersebut terdiri dari percakapan sintetis multi-putaran antara pengguna dan asisten, di mana pengguna meminta tulisan tentang suatu topik, misalnya "tulis puisi tentang tapir" atau "tulis posting blog tentang batu". Kami kemudian menyisipkan dua, empat, atau delapan permintaan yang identik di seluruh konteks. Model tersebut kemudian harus mengambil respons yang sesuai dengan contoh tertentu (misalnya, "berikan saya puisi ketiga tentang tapir").
Tantangan muncul dari kesamaan antara permintaan ini dan konteks lainnya—model dapat dengan mudah disesatkan oleh perbedaan yang halus, seperti cerita pendek tentang tapir alih-alih puisi, atau puisi tentang katak alih-alih tapir. Kami menemukan bahwa GPT‑4.1 mengungguli GPT‑4o pada panjang konteks hingga 128K token dan mempertahankan kinerja yang kuat bahkan hingga 1 juta token.
Namun tugas ini tetap sulit—bahkan untuk model penalaran tingkat lanjut. Kami berbagi dataset evaluasi(terbuka di jendela baru) untuk mendorong pekerjaan lebih lanjut pada pengambilan konteks panjang di dunia nyata.

In OpenAI-MRCR(terbuka di jendela baru), model tersebut harus menjawab pertanyaan yang melibatkan penghilangan ambiguitas antara 2, 4, atau 8 perintah pengguna yang tersebar di antara berbagai pengalih perhatian.
Kami juga merilis Jalan Grafik(terbuka di jendela baru), kumpulan data untuk mengevaluasi penalaran konteks panjang multi-hop. Banyak kasus penggunaan pengembang untuk konteks panjang memerlukan beberapa lompatan logis dalam konteks, seperti berpindah-pindah di antara beberapa file saat menulis kode atau merujuk silang dokumen saat menjawab pertanyaan hukum yang rumit.
Suatu model (bahkan manusia) secara teoritis dapat memecahkan masalah OpenAI-MRCR dengan melakukan satu lintasan atau membaca perintah tersebut, tetapi Graphwalks dirancang untuk memerlukan penalaran pada beberapa posisi dalam konteks dan tidak dapat diselesaikan secara berurutan.
Graphwalks mengisi jendela konteks dengan grafik terarah yang terdiri dari hash heksadesimal, lalu meminta model untuk melakukan pencarian breadth-first (BFS) yang dimulai dari node acak dalam grafik. Kami kemudian memintanya untuk mengembalikan semua node pada kedalaman tertentu. GPT‑4.1 mencapai akurasi 61.7% pada tolok ukur ini, menyamai kinerja o1 dan mengalahkan GPT‑4o dengan mudah.
Tolok ukur tidak menceritakan keseluruhan cerita, jadi kami bekerja sama dengan mitra alfa untuk menguji kinerja GPT‑4.1 pada tugas konteks panjang dunia nyata mereka.
Contoh dunia nyata
Thomson Reuters:(terbuka di jendela baru) Thomson Reuters menguji GPT‑4.1 dengan CoCounsel, lembaga sertifikasi profesional mereka AI asisten untuk pekerjaan hukum. Dibandingkan dengan GPT‑4o, mereka mampu meningkatkan akurasi peninjauan multidokumen hingga 17% saat menggunakan GPT‑4.1 di seluruh tolok ukur konteks panjang internal—ukuran penting kemampuan CoCounsel untuk menangani alur kerja hukum yang rumit yang melibatkan banyak dokumen yang panjang. Secara khusus, mereka menemukan model tersebut sangat andal dalam mempertahankan konteks di seluruh sumber dan secara akurat mengidentifikasi hubungan yang bernuansa antara dokumen, seperti klausul yang saling bertentangan atau konteks tambahan—tugas yang penting untuk analisis dan pengambilan keputusan hukum.
Carlyle(terbuka di jendela baru): Carlyle menggunakan GPT‑4.1 untuk mengekstrak data keuangan granular secara akurat di beberapa dokumen yang panjang—termasuk PDF, file Excel, dan format kompleks lainnya. Berdasarkan evaluasi internal mereka, model ini memiliki kinerja 50% lebih baik dalam pengambilan dari dokumen yang sangat besar dengan data yang padat dan merupakan model pertama yang berhasil mengatasi keterbatasan utama yang terlihat pada model lain yang tersedia, termasuk pengambilan jarum di tumpukan jerami, kesalahan hilang di tengah, dan penalaran multi-hop di seluruh dokumen.
Selain performa dan akurasi model, pengembang juga memerlukan model yang merespons dengan cepat untuk mengimbangi dan memenuhi kebutuhan pengguna. Kami telah menyempurnakan tumpukan inferensi kami untuk mengurangi waktu hingga token pertama, dan dengan prompt caching, Anda dapat memangkas latensi lebih jauh sekaligus menghemat biaya. Dalam pengujian awal kami, latensi hingga token pertama untuk GPT‑4.1 adalah sekitar lima belas detik dengan 128,000 token konteks, dan satu menit untuk satu juta token konteks. GPT‑4.1 mini dan nano lebih cepat, misalnya, GPT‑4.1 nano paling sering mengembalikan token pertama dalam waktu kurang dari lima detik untuk kueri dengan 128,000 token input.
Visi
Keluarga GPT‑4.1 sangat kuat dalam pemahaman gambar, dengan GPT‑4.1 mini khususnya mewakili lompatan maju yang signifikan, sering kali mengalahkan GPT‑4o pada tolok ukur gambar.
Performa konteks panjang juga penting untuk kasus penggunaan multimoda, seperti pemrosesan video panjang. Video-MME(terbuka di jendela baru) (panjang tanpa subtitel), model menjawab pertanyaan pilihan ganda berdasarkan video berdurasi 30-60 menit tanpa subtitel. GPT‑4.1 mencapai kinerja terbaik, dengan skor 72.0%, naik dari 65.3% untuk GPT‑4o.
Harga
GPT‑4.1, GPT‑4.1 mini, dan GPT‑4.1 nano sekarang tersedia untuk semua pengembang.
Melalui peningkatan efisiensi pada sistem inferensi kami, kami mampu menawarkan harga yang lebih rendah pada seri GPT‑4.1. GPT‑4.1 26% lebih murah daripada GPT‑4o untuk kueri median, dan GPT‑4.1 nano adalah model termurah dan tercepat yang pernah kami miliki. Untuk kueri yang berulang kali melewati konteks yang sama, kami meningkatkan diskon cache prompt menjadi 75% (naik dari 50% sebelumnya) untuk model-model baru ini. Terakhir, kami menawarkan permintaan konteks panjang tanpa biaya tambahan di luar biaya per token standar.
| Pilih Model (Harga per 1 juta token) | Memasukkan | Input yang di-cache | Keluaran | Harga Campuran* |
| gpt-4.1 | $2.00 | $0.50 | $8.00 | $1.84 |
| gpt-4.1-mini | $0.40 | $0.10 | $1.60 | $0.42 |
| gpt-4.1-nano | $0.10 | $0.025 | $0.40 | $0.12 |
*Berdasarkan rasio input/output dan cache yang umum.
Model-model ini tersedia untuk digunakan di API kumpulan(terbuka di jendela baru) dengan tambahan diskon harga 50%.
Kesimpulan
GPT‑4.1 merupakan langkah maju yang signifikan dalam penerapan praktis AIDengan berfokus secara cermat pada kebutuhan pengembang di dunia nyata—mulai dari pengodean hingga mengikuti instruksi dan memahami konteks jangka panjang—model-model ini membuka kemungkinan baru untuk membangun sistem cerdas dan aplikasi agen yang canggih. Kami terus terinspirasi oleh kreativitas komunitas pengembang, dan bersemangat untuk melihat apa yang Anda bangun dengan GPT‑4.1.
Lampiran
Daftar lengkap hasil di seluruh evaluasi akademis, pengkodean, mengikuti instruksi, konteks panjang, visi, dan pemanggilan fungsi dapat ditemukan di bawah.
Pengetahuan akademis
| Kategori | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | OpenAI o1(tinggi) | OpenAI o3-mini(tinggi) | GPT-4.5 |
|---|---|---|---|---|---|---|---|---|
| TUJUAN '24 | 48.1% | 49.6% | 29.4% | 13.1% | 8.6% | 74.3% | 87.3% | 36.7% |
| Berlian GPQA1 | 66.3% | 65.0% | 50.3% | 46.0% | 40.2% | 75.7% | 77.2% | 69.5% |
| MMLU | 90.2% | 87.5% | 80.1% | 85.7% | 82.0% | 91.8% | 86.9% | 90.8% |
| MMLU multibahasa | 87.3% | 78.5% | 66.9% | 81.4% | 70.5% | 87.7% | 80.7% | 85.1% |
[1] Implementasi GPQA kami menggunakan model untuk mengekstrak jawaban, bukan regex. Untuk GPT-4.1, perbedaannya <1% (tidak signifikan secara statistik), tetapi untuk GPT-4o, ekstraksi model meningkatkan skor secara signifikan (~46% -> 54%).
Evaluasi pengkodean
| Kategori | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | OpenAI o1(tinggi) | OpenAI o3-mini(tinggi) | GPT-4.5 |
|---|---|---|---|---|---|---|---|---|
| Bangku SWE Terverifikasi2 | 54.6% | 23.6% | - | 33.2% | 8.7% | 41.0% | 49.3% | 38.0% |
| SWE-Lancer | $ 176K (35.1%) | $ 165K (33.0%) | $ 77K (15.3%) | $ 163K (32.6%) | $ 116K (23.1%) | $ 160K (32.1%) | $ 90K (18.0%) | $ 186K (37.3%) |
| SWE-Lancer (subset IC-Diamond) | $ 34K (14.4%) | $ 31K (13.1%) | $ 9K (3.7%) | $ 29K (12.4%) | $ 11K (4.8%) | $ 29K (9.7%) | $ 17K (7.4%) | $ 41K (17.4%) |
| Poliglot Aider: utuh | 51.6% | 34.7% | 9.8% | 30.7% | 3.6% | 64.6% | 66.7% | - |
| Poliglot Aider: diff | 52.9% | 31.6% | 6.2% | 18.2% | 2.7% | 61.7% | 60.4% | 44.9% |
[2] Kami menghilangkan 23/500 masalah yang tidak dapat berjalan pada infrastruktur kami. Daftar lengkap dari 23 tugas yang dihilangkan adalah 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', dan 'sphinx-doc__sphinx-9367'.
Instruksi Setelah Evaluasi
| Kategori | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | OpenAI o1(tinggi) | OpenAI o3-mini(tinggi) | GPT-4.5 |
|---|---|---|---|---|---|---|---|---|
| Instruksi API internal berikut (keras) | 49.1% | 45.1% | 31.6% | 29.2% | 27.2% | 51.3% | 50.0% | 54.0% |
| Tantangan Ganda | 38.3% | 35.8% | 15.0% | 27.8% | 20.3% | 44.9% | 39.9% | 43.8% |
| MultiChallenge (siswa kelas o3-mini)3 | 46.2% | 42.2% | 31.1% | 39.9% | 25.6% | 52.9% | 50.2% | 50.1% |
| Collie | 65.8% | 54.6% | 42.5% | 50.2% | 52.7% | 95.3% | 98.7% | 72.3% |
| IFEval | 87.4% | 84.1% | 74.5% | 81.0% | 78.4% | 92.2% | 93.9% | 88.2% |
| Multi-IF | 70.8% | 67.0% | 57.2% | 60.9% | 57.9% | 77.9% | 79.5% | 70.8% |
[3] Catatan: kami menemukan bahwa grader default di MultiChallenge (GPT-4o) sering salah menilai respons model. Kami menemukan bahwa mengganti grader ke model penalaran, seperti o3-mini, meningkatkan akurasi penilaian secara signifikan pada sampel yang telah kami periksa. Untuk alasan konsistensi dengan papan peringkat, kami menerbitkan kedua set hasil.
Evaluasi Konteks Panjang
| Kategori | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | OpenAI o1(tinggi) | OpenAI o3-mini(tinggi) | GPT-4.5 |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 jarum128k | 57.2% | 47.2% | 36.6% | 31.9% | 24.5% | 22.1% | 18.7% | 38.5% |
| OpenAI-MRCR: 2 jarum 1M | 46.3% | 33.3% | 12.0% | - | - | - | - | - |
| Grafik berjalan bfs < 128k | 61.7% | 61.7% | 25.0% | 41.7% | 29.0% | 62.0% | 51.0% | 72.3% |
| Grafik berjalan bfs >128k | 19.0% | 15.0% | 2.9% | - | - | - | - | - |
| Orang tua Graphwalk <128k | 58.0% | 60.5% | 9.4% | 35.4% | 12.6% | 50.9% | 58.3% | 72.6% |
| Graphwalks orang tua >128k | 25.0% | 11.0% | 5.6% | - | - | - | - | - |
Visi Evaluasi
| Kategori | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | OpenAI o1(tinggi) | OpenAI o3-mini(tinggi) | GPT-4.5 |
|---|---|---|---|---|---|---|---|---|
| MMMU | 74.8% | 72.7% | 55.4% | 68.7% | 56.3% | 77.6% | - | 75.2% |
| MatematikaVista | 72.2% | 73.1% | 56.2% | 61.4% | 56.5% | 71.8% | - | 72.3% |
| CharXiv-R | 56.7% | 56.8% | 40.5% | 52.7% | 36.8% | 55.1% | - | 55.4% |
| CharXiv-D | 87.9% | 88.4% | 73.9% | 85.3% | 76.6% | 88.9% | - | 90.0% |
Pemanggilan Fungsi Eval
| Kategori | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | OpenAI o1(tinggi) | OpenAI o3-mini(tinggi) | GPT-4.5 |
|---|---|---|---|---|---|---|---|---|
| KompleksFuncBench | 65.5% | 49.3% | 0.6% | 66.5% | 38.6% | 47.6% | 17.6% | 63.0% |
| Maskapai penerbangan Taubench4 | 49.4% | 36.0% | 14.0% | 42.8% | 22.0% | 50.0% | 32.4% | 50.0% |
| Ritel Taubench4, 5 | 68.0% (73.6%) | 55.8% (65.4%) | 22.6% (23.5%) | 60.3% | 44.0% | 70.8% | 57.6% | 68.4% |
[4] Angka evaluasi tau-bench dirata-ratakan dalam 5 kali pengujian untuk mengurangi varians, dan dijalankan tanpa alat khusus atau perintah apa pun.
[5] Angka dalam tanda kurung mewakili hasil Tau-bench saat menggunakan GPT-4.1 sebagai model pengguna, bukan GPT-4o. Kami menemukan bahwa, karena GPT-4.1 lebih baik dalam mengikuti instruksi, ia lebih mampu bekerja sebagai pengguna, dan dengan demikian menghasilkan lintasan yang lebih berhasil. Kami yakin ini mewakili kinerja sebenarnya dari model yang dievaluasi pada benchmark.

