
Kodlama, talimat takibi ve uzun bağlam konusunda önemli iyileştirmeler içeren yeni bir GPT modelleri serisi—artı ilk nano modelimiz. Şuradan edinilebilir:APIArama
Talimatlar için lütfen makaleye bakın İlk sürüm!ChatGPT4.1 Yerel kullanıma ilişkin tam kılavuz – yeni başlayanlar ve düzenli bilgisayar kullanıcıları için bile
ChatGPT4.1 Giriş
Bugün API'de üç yeni model başlatıyoruz: GPT‑4.1, GPT‑4.1 mini ve GPT‑4.1 nano. Bu modeller, büyük ölçüde GPT‑4o ve GPT‑4o mini'den daha iyi performans gösteriyor.ains kodlama ve talimat takibinde. Ayrıca daha büyük bağlam pencerelerine sahiptirler—1 milyona kadar bağlam belirtecini desteklerler—ve bu bağlamı iyileştirilmiş uzun bağlam anlayışıyla daha iyi kullanabilirler. Haziran 2024'te yenilenmiş bir bilgi kesintisi sunarlar.
GPT‑4.1, aşağıdaki endüstri standardı ölçütlerinde üstündür:
- kodlama: GPT‑4.1, %54.6 puan aldı SWE tezgahı Doğrulandı, geliştirerek 21.4%abs GPT‑4o'dan fazla ve% 26.6abs GPT‑4.5'e göre daha üstündür ve bu da onu kodlama için önde gelen bir model haline getirir.
- Talimat aşağıdaki gibidir: On Scale'in MultiChallenge'ı(Yeni bir pencerede açılır) kıyaslama ölçütü, yeteneği izleyen talimatın bir ölçüsü, GPT‑4.1 puanları %38.3, %10.5abs GPT‑4o'ya göre artış.
- Uzun bağlam: On Video-MME(Yeni bir pencerede açılır)Çok modlu uzun bağlam anlayışı için bir ölçüt olan GPT‑4.1, uzun, altyazısız kategoride %72.0 puan alarak yeni bir son teknoloji sonucu belirliyor ve %6.7'lik birabs GPT‑4o'ya göre iyileştirme.
Ölçütler değerli içgörüler sağlarken, bu modelleri gerçek dünya faydasına odaklanarak eğittik. Geliştirici topluluğuyla yakın işbirliği ve ortaklık, bu modelleri uygulamaları için en önemli görevler için optimize etmemizi sağladı.
Bu amaçla, GPT‑4.1 model ailesi daha düşük bir maliyetle olağanüstü performans sunar. Bu modeller, gecikme eğrisinin her noktasında performansı ileriye taşır.

GPT‑4.1 mini, küçük model performansında önemli bir sıçramadır ve hatta birçok kıyaslamada GPT‑4o'yu bile geride bırakır. Zeka değerlendirmelerinde GPT‑4o'yu yakalar veya aşar, gecikmeyi neredeyse yarı yarıya azaltır ve maliyeti %83 düşürür.
Düşük gecikme gerektiren görevler için GPT‑4.1 nano, mevcut en hızlı ve en ucuz modelimizdir. 1 milyon belirteç bağlam penceresiyle küçük bir boyutta olağanüstü performans sunar ve MMLU'da %80.1, GPQA'da %50.3 ve Aider çok dilli kodlamada %9.8 puan alır; GPT‑4o mini'den bile daha yüksektir. Sınıflandırma veya otomatik tamamlama gibi görevler için idealdir.
Güvenilirlik ve uzun bağlam anlayışını izleyen talimattaki bu iyileştirmeler, GPT‑4.1 modellerini, kullanıcılar adına görevleri bağımsız olarak gerçekleştirebilen aracıları veya sistemleri güçlendirmede önemli ölçüde daha etkili hale getirir. Yanıtlar API'si(Yeni bir pencerede açılır)Geliştiriciler artık gerçek dünya yazılım mühendisliğinde daha kullanışlı ve güvenilir aracılar oluşturabilir, büyük belgelerden içgörüler çıkarabilir, müşteri taleplerini minimum destekle çözebilir ve diğer karmaşık görevleri yerine getirebilirler.
GPT‑4.1'in yalnızca API aracılığıyla kullanılabileceğini unutmayın. ChatGPT, talimat takibi, kodlama ve zekadaki birçok iyileştirme kademeli olarak dahil edildi en son versiyon(Yeni bir pencerede açılır) GPT‑4'ın ve gelecekteki sürümlerle daha fazlasını dahil etmeye devam edeceğiz.
Ayrıca, GPT‑4.5 çok daha düşük maliyet ve gecikmeyle birçok önemli özellikte iyileştirilmiş veya benzer performans sunduğundan API'de GPT‑4.1 Preview'ı kullanımdan kaldırmaya başlayacağız. GPT‑4.5 Preview, geliştiricilerin geçiş yapması için zaman tanımak amacıyla üç ay sonra, 14 Temmuz 2025'te kapatılacak. GPT‑4.5 tanıttı büyük, hesaplama yoğunluklu bir modeli keşfetmek ve denemek için bir araştırma önizlemesi olarak ve geliştirici geri bildirimlerinden çok şey öğrendik. GPT‑4.5'te beğendiğinizi söylediğiniz yaratıcılığı, yazım kalitesini, mizahı ve nüansı gelecekteki API modellerine taşımaya devam edeceğiz.
Aşağıda, GPT‑4.1'in çeşitli kıyaslamalarda nasıl performans gösterdiğini, Windsurf, Qodo, Hex, Blue J, Thomson Reuters ve Carlyle gibi alfa test uzmanlarından alınan ve alan-özel görevlerde üretimde nasıl performans gösterdiğini gösteren örneklerle birlikte açıklıyoruz.
kodlama
GPT‑4.1, kodlama görevlerini aracı olarak çözme, ön uç kodlama, daha az gereksiz düzenleme yapma, farklı formatları güvenilir şekilde takip etme, tutarlı araç kullanımı sağlama ve daha fazlası dahil olmak üzere çeşitli kodlama görevlerinde GPT‑4o'dan önemli ölçüde daha iyidir.
Gerçek dünya yazılım mühendisliği becerilerinin bir ölçüsü olan SWE-bench Verified'da GPT‑4.1, GPT‑54.6o'nun (33.2-4-2024) %11'sine kıyasla görevlerin %20'sını tamamlıyor. Bu, bir kod deposunu keşfetme, bir görevi tamamlama ve hem çalışan hem de testleri geçen kod üretme konusunda model yeteneğindeki gelişmeleri yansıtıyor.
Büyük dosyaları düzenlemek isteyen API geliştiricileri için GPT‑4.1, çeşitli biçimlerdeki kod farklılıkları konusunda çok daha güvenilirdir. GPT‑4.1, GPT‑4o'nun puanını iki katından fazla artırır Aider'ın çok dilli fark karşılaştırması(Yeni bir pencerede açılır)ve hatta GPT‑4.5'i %8 oranında geçiyorabs.Bu değerlendirme hem çeşitli programlama dilleri genelindeki kodlama yeteneklerinin bir ölçüsü hem de modelin bütün ve diff formatlarında değişiklikler üretme yeteneğinin bir ölçüsüdür. GPT‑4.1'i diff formatlarını daha güvenilir bir şekilde takip edecek şekilde özel olarak eğittik, bu da geliştiricilerin tüm bir dosyayı yeniden yazmak yerine yalnızca modelin değiştirilen satırları çıktı olarak vermesiyle hem maliyetten hem de gecikmeden tasarruf etmelerini sağlar. En iyi kod diff performansı için lütfen şuraya bakın: yönlendirme rehberi(Yeni bir pencerede açılır)Tüm dosyaları yeniden yazmayı tercih eden geliştiriciler için GPT‑4.1 için çıktı belirteci sınırlarını 32,768 belirtece çıkardık (GPT‑16,384o için 4 belirteçten). Ayrıca şunu kullanmanızı öneririz: Tahmini Çıktılar(Yeni bir pencerede açılır) tam dosya yeniden yazmalarının gecikmesini azaltmak için.
GPT‑4.1 ayrıca ön uç kodlamada GPT‑4o'dan önemli ölçüde daha iyi ve işlevsel olarak daha tercih edilen ve estetik açıdan daha hoş web uygulamaları oluşturma yeteneğine sahip. Baş başa karşılaştırmalarımızda, ücretli insan derecelendiriciler GPT‑4.1'in web sitelerini GPT‑4o'nun web sitelerinden %80 oranında daha iyi derecelendiriyor.
GPT‑4o
GPT‑4.1
Yukarıdaki kıyaslamaların ötesinde, GPT‑4.1 biçimleri daha güvenilir bir şekilde takip etmede daha iyidir ve gereksiz düzenlemeleri daha az sıklıkta yapar. Dahili değerlendirmelerimizde, koddaki gereksiz düzenlemeler GPT‑9o ile %4'dan GPT‑2 ile %4.1'ye düştü.
Gerçek dünya örnekleri
Rüzgar Sörfü(Yeni bir pencerede açılır): GPT‑4.1, Windsurf'ün dahili kodlama kıyaslamasında GPT‑60o'dan %4 daha yüksek puan alıyor ve bu, kod değişikliklerinin ilk incelemede ne sıklıkla kabul edildiğiyle güçlü bir şekilde ilişkili. Kullanıcıları, araç çağırmada %30 daha verimli olduğunu ve gereksiz düzenlemeleri tekrarlama veya kodu aşırı dar, artımlı adımlarla okuma olasılığının yaklaşık %50 daha düşük olduğunu belirtti. Bu iyileştirmeler, mühendislik ekipleri için daha hızlı yineleme ve daha sorunsuz iş akışlarına dönüşüyor.
Kudo(Yeni bir pencerede açılır): Qodo, ince ayar ölçütlerinden esinlenen bir metodoloji kullanarak GitHub çekme isteklerinden yüksek kaliteli kod incelemeleri üretme konusunda GPT‑4.1'i diğer önde gelen modellerle karşılaştırdı. Aynı istemler ve koşullara sahip 200 anlamlı gerçek dünya çekme isteği arasında, GPT‑4.1'in daha iyi öneri ürettiğini buldular 55 vakaların% 'si(Yeni bir pencerede açılır)Özellikle, GPT‑4.1'in hem kesinlik (ne zaman öneride bulunulmaması gerektiğini bilmek) hem de kapsamlılık (gerektiğinde kapsamlı analiz sağlamak) konusunda mükemmel olduğunu ve aynı zamanda gerçekten kritik konulara odaklanmayı sürdürdüğünü buldular.
Talimat takip ediyor
GPT‑4.1 talimatları daha güvenilir bir şekilde takip ediyor ve değerlendirmelerin ardından çeşitli talimatlarda önemli gelişmeler ölçtük.
Model performansını çeşitli boyutlarda ve aşağıdakiler de dahil olmak üzere çeşitli temel talimat takip kategorilerinde izlemek için talimat takibine yönelik bir dahili değerlendirme geliştirdik:
- Format aşağıdadır. Modelin yanıtına özel bir biçim (örneğin XML, YAML, Markdown vb.) belirten talimatlar sağlama.
- Olumsuz talimatlar. Modelin kaçınması gereken davranışı belirtme. (Örnek: "Kullanıcıdan destekle iletişime geçmesini istemeyin")
- Sipariş edilen talimatlar. Modelin belirli bir sırayla izlemesi gereken bir dizi talimat sağlamak. (Örnek: "Önce kullanıcının adını, sonra e-postasını isteyin")
- İçerik gereksinimleri. Belirli bilgileri içeren içerik çıktısı. (Örnek: “Beslenme planı yazarken her zaman protein miktarını ekleyin”)
- Sıralama. Çıktıyı belirli bir şekilde sıralamak. (Örnek: "Yanıtı nüfus sayısına göre sırala")
- Aşırı güven. İstenen bilgi mevcut değilse veya istek belirli bir kategoriye girmiyorsa, modele "Bilmiyorum" veya benzeri bir şey söylemesi talimatı vermek. (Örnek: "Cevabı bilmiyorsanız, destek iletişim e-postasını sağlayın")
Bu kategoriler, geliştiricilerin talimat takibinin hangi yönlerinin onlar için en alakalı ve önemli olduğuna ilişkin geri bildirimlerinin sonucudur. Her kategori içinde, kolay, orta ve zor istemleri ayırdık. GPT‑4.1, özellikle zor istemlerde GPT‑4o'ya göre önemli ölçüde daha iyidir.
Çoklu tur talimat takibi birçok geliştirici için kritik öneme sahiptir; modelin bir konuşmanın derinliklerinde tutarlılığı koruması ve kullanıcının daha önce ne söylediğini takip etmesi önemlidir. GPT‑4.1'i konuşmadaki geçmiş mesajlardan daha iyi bilgi seçebilecek şekilde eğittik ve bu da daha doğal konuşmalara olanak sağladı. Scale'den MultiChallenge kıyaslaması bu yeteneğin yararlı bir ölçüsüdür ve GPT‑4.1 %10.5 performans gösterirabs GPT‑4o'dan daha iyi.
GPT‑4.1, GPT‑87.4o'nun %81.0'ına kıyasla IFEval'de %4 puan alıyor. IFEval, doğrulanabilir talimatlar içeren istemler kullanıyor (örneğin, içerik uzunluğunu belirtme veya belirli terim veya biçimleri kullanmama).
Daha iyi talimat takibi mevcut uygulamaları daha güvenilir hale getirir ve daha önce düşük güvenilirlikle sınırlı olan yeni uygulamaları etkinleştirir. İlk test edenler GPT‑4.1'in daha gerçekçi olabileceğini belirtti, bu nedenle istemlerde açık ve spesifik olmanızı öneririz. GPT‑4.1 için istem en iyi uygulamaları hakkında daha fazla bilgi için lütfen istem kılavuzuna bakın.
Gerçek dünya örnekleri
mavi J(Yeni bir pencerede açılır): GPT‑4.1, Blue J'nin en zorlu gerçek dünya vergi senaryolarının dahili bir kıyaslamasında GPT‑53o'dan %4 daha doğruydu. Hem sistem performansı hem de kullanıcı memnuniyeti için önemli olan bu doğruluk artışı, GPT‑4.1'in karmaşık düzenlemeleri daha iyi anlamasını ve uzun bağlamlarda ayrıntılı talimatları takip etme yeteneğini vurgular. Blue J kullanıcıları için bu, daha hızlı, daha güvenilir vergi araştırması ve yüksek değerli danışmanlık çalışmaları için daha fazla zaman anlamına gelir.
Büyü(Yeni bir pencerede açılır): GPT‑4.1, Hex'in en zorlu sürümünde neredeyse 2 kat iyileştirme sağladı SQL değerlendirme seti,(Yeni bir pencerede açılır) talimat takibinde ve semantik anlayışta önemli kazanımlar sergiliyor. Model, büyük, belirsiz şemalardan doğru tabloları seçmede daha güvenilirdi; genel doğruluğu doğrudan etkileyen ve yalnızca istem yoluyla ayarlanması zor olan bir yukarı akış karar noktası. Hex için bu, manuel hata ayıklamada ölçülebilir bir azalma ve üretim düzeyindeki iş akışlarına daha hızlı bir yol ile sonuçlandı.
Uzun Bağlam
GPT‑4.1, GPT‑4.1 mini ve GPT‑4.1 nano, 1 milyona kadar bağlam belirtecini işleyebilir; bu, önceki GPT‑128,000o modellerindeki 4'den fazladır. 1 milyon belirteç, tüm React kod tabanının 8 kopyasından daha fazladır; bu nedenle uzun bağlam, büyük kod tabanlarını veya çok sayıda uzun belgeyi işlemek için mükemmel bir uyumdur.
GPT‑4.1'i 1 milyon bağlam uzunluğundaki bilgilere güvenilir bir şekilde dikkat edecek şekilde eğittik. Ayrıca, ilgili metni fark etme ve uzun ve kısa bağlam uzunluklarında dikkat dağıtıcıları görmezden gelme konusunda GPT‑4o'dan çok daha güvenilir olacak şekilde eğittik. Uzun bağlam anlayışı, hukuk, kodlama, müşteri desteği ve diğer birçok alandaki uygulamalar için kritik bir yetenektir.
Aşağıda, GPT‑4.1'in bağlam penceresi içinde çeşitli noktalara yerleştirilmiş küçük bir gizli bilgi parçasını ("iğne") alma yeteneğini gösteriyoruz. GPT‑4.1, iğneyi her zaman tüm konumlarda ve tüm bağlam uzunluklarında, 1 milyon jetona kadar doğru bir şekilde alır. Girdideki konumlarından bağımsız olarak, eldeki görev için ilgili ayrıntıları etkili bir şekilde çıkarabilir.

İçimizdeki samanlıkta iğne arama değerlendirmesinde, GPT‑4.1, GPT‑4.1 mini ve GPT 4.1 nano, 1M'ye kadar bağlamdaki tüm pozisyonlardaki iğneyi geri alma yeteneğine sahiptir.
Ancak, gerçek dünyadaki birkaç görev tek, belirgin bir iğne cevabını almak kadar basittir. Kullanıcıların genellikle modellerimizin birden fazla bilgi parçasını alıp anlamalarına ve bu parçaları birbirleriyle ilişkili olarak anlamalarına ihtiyaç duyduğunu görüyoruz. Bu yeteneği sergilemek için yeni bir değerlendirmeyi açık kaynaklı hale getiriyoruz: OpenAI-MRCR (Çoklu Turlu Ortak Referans).
OpenAI-MRCR, modelin bağlamda iyi gizlenmiş birden fazla iğneyi bulma ve belirsizliği giderme yeteneğini test eder. Değerlendirme, bir kullanıcı ve asistan arasında kullanıcının bir konu hakkında bir yazı parçası istediği, örneğin "tapriler hakkında bir şiir yaz" veya "kayalar hakkında bir blog yazısı yaz" gibi çok turlu sentetik konuşmalardan oluşur. Daha sonra bağlam boyunca iki, dört veya sekiz özdeş istek ekleriz. Daha sonra model belirli bir örneğe karşılık gelen yanıtı almalıdır (örneğin, "bana tapirlerle ilgili üçüncü şiiri ver").
Zorluk, bu istekler ile bağlamın geri kalanı arasındaki benzerlikten kaynaklanmaktadır; modeller, bir şiir yerine tapirlerle ilgili kısa bir hikaye veya tapirler yerine kurbağalarla ilgili bir şiir gibi ince farklılıklar nedeniyle kolayca yanıltılabilir. GPT‑4.1'in 4K token'a kadar bağlam uzunluklarında GPT‑128o'dan daha iyi performans gösterdiğini ve 1 milyon token'a kadar bile güçlü performansı sürdürdüğünü görüyoruz.
Ancak görev zor olmaya devam ediyor—gelişmiş akıl yürütme modelleri için bile. Paylaşıyoruz değerlendirme veri seti(Yeni bir pencerede açılır) Gerçek dünyada uzun bağlamlı bilgi edinme konusunda daha fazla çalışmayı teşvik etmek.

In OpenAI-MRCR(Yeni bir pencerede açılır), modelin dikkat dağıtıcılar arasına dağılmış 2, 4 veya 8 kullanıcı komutu arasında belirsizliği gidermeyi içeren bir soruyu yanıtlaması gerekir.
Biz de yayınlıyoruz Grafik yürüyüşleri(Yeni bir pencerede açılır), çoklu atlamalı uzun bağlam akıl yürütmesini değerlendirmek için bir veri kümesi. Uzun bağlam için birçok geliştirici kullanım durumu, kod yazarken birden fazla dosya arasında geçiş yapmak veya karmaşık yasal soruları yanıtlamak için belgeleri çapraz referanslamak gibi bağlam içinde birden fazla mantıksal atlama gerektirir.
Bir model (veya hatta bir insan) teorik olarak bir OpenAI-MRCR problemini tek bir geçiş veya komut istemini okuyarak çözebilir, ancak Graphwalks bağlamdaki birden fazla pozisyon arasında akıl yürütmeyi gerektirecek şekilde tasarlanmıştır ve ardışık olarak çözülemez.
Graphwalks, bağlam penceresini onaltılık karma değerlerden oluşan yönlendirilmiş bir grafikle doldurur ve ardından modelden grafikteki rastgele bir düğümden başlayarak genişlik öncelikli arama (BFS) yapmasını ister. Daha sonra belirli bir derinlikteki tüm düğümleri döndürmesini isteriz. GPT‑4.1, bu kıyaslamada %61.7 doğruluk elde ederek o1'in performansına ulaşır ve GPT‑4o'yu rahatlıkla yener.
Ölçütler tüm hikayeyi anlatmıyor, bu nedenle GPT‑4.1'in gerçek dünyadaki uzun bağlam görevlerindeki performansını test etmek için alfa ortaklarımızla çalıştık.
Gerçek dünya örnekleri
Thomson Reuters:(Yeni bir pencerede açılır) Thomson Reuters, GPT‑4.1'i profesyonel düzeydeki CoCounsel ile test etti AI Hukuki işler için asistan. GPT‑4 ile karşılaştırıldığında, CoCounsel'in birden fazla, uzun belge içeren karmaşık hukuki iş akışlarını ele alma becerisinin temel bir ölçüsü olan dahili uzun bağlam ölçütlerinde GPT‑17 kullanıldığında çoklu belge inceleme doğruluğunu %4.1 oranında artırabildiler. Özellikle, modelin kaynaklar arasında bağlamı korumada ve belgeler arasındaki çelişkili maddeler veya ek tamamlayıcı bağlam gibi nüanslı ilişkileri doğru bir şekilde belirlemede oldukça güvenilir olduğunu buldular; bu görevler hukuki analiz ve karar alma açısından kritik öneme sahiptir.
Carlyle(Yeni bir pencerede açılır): Carlyle, PDF'ler, Excel dosyaları ve diğer karmaşık formatlar dahil olmak üzere birden fazla uzun belgede ayrıntılı finansal verileri doğru bir şekilde çıkarmak için GPT‑4.1'i kullandı. Dahili değerlendirmelerine göre, yoğun veri içeren çok büyük belgelerden alma konusunda %50 daha iyi performans gösterdi ve samanlıkta iğne alma, ortada kaybolan hatalar ve belgeler arasında çok atlamalı akıl yürütme gibi diğer mevcut modellerde görülen temel sınırlamaları başarıyla aşan ilk model oldu.
Geliştiricilerin model performansı ve doğruluğuna ek olarak, kullanıcıların ihtiyaçlarını karşılamak ve onlara ayak uydurmak için hızlı yanıt veren modellere de ihtiyaçları vardır. İlk belirtece ulaşma süresini azaltmak için çıkarım yığınımızı geliştirdik ve hızlı önbelleğe alma ile maliyetlerden tasarruf ederken gecikmeyi daha da azaltabilirsiniz. İlk testlerimizde, GPT‑4.1 için ilk belirtece ulaşma gecikmesi 128,000 bağlam belirteci ile yaklaşık on beş saniye ve bir milyon bağlam belirteci için bir dakikaydı. GPT‑4.1 mini ve nano daha hızlıdır, örneğin GPT‑4.1 nano, 128,000 giriş belirtecine sahip sorgular için ilk belirteci genellikle beş saniyeden kısa sürede döndürür.
Vizyon
GPT‑4.1 ailesi görüntü anlama konusunda olağanüstü güçlüdür; özellikle GPT‑4.1 mini önemli bir sıçramayı temsil eder ve çoğu zaman görüntü kıyaslamalarında GPT‑4'ı geride bırakır.
Uzun bağlam performansı, uzun videoların işlenmesi gibi çok modlu kullanım durumları için de önemlidir. Video-MME(Yeni bir pencerede açılır) (altyazısız uzun) bir model, altyazısız 30-60 dakikalık videolara dayalı çoktan seçmeli soruları yanıtlıyor. GPT‑4.1, GPT‑72.0'ın %65.3'lük puanına kıyasla %4 puan alarak en son teknoloji performansına ulaşıyor.
Fiyatlandırma
GPT‑4.1, GPT‑4.1 mini ve GPT‑4.1 nano artık tüm geliştiricilerin kullanımına sunuldu.
Çıkarım sistemlerimizdeki verimlilik iyileştirmeleri sayesinde GPT‑4.1 serisinde daha düşük fiyatlar sunabildik. GPT‑4.1, medyan sorgular için GPT‑26o'dan %4 daha ucuzdur ve GPT‑4.1 nano şimdiye kadarki en ucuz ve en hızlı modelimizdir. Aynı bağlamı tekrar tekrar geçen sorgular için, bu yeni modeller için istem önbelleğe alma indirimini %75'e (önceki %50'den) çıkarıyoruz. Son olarak, standart belirteç başına maliyetlerin ötesinde ek bir maliyet olmaksızın uzun bağlam istekleri sunuyoruz.
Model (Fiyatlar 1M token başınadır) | Giriş | Önbelleğe alınmış girdi | Çıktı | Karma Fiyatlandırma* |
GPT-4.1 | $2.00 | $0.50 | $8.00 | $1.84 |
gpt-4.1-mini | $0.40 | $0.10 | $1.60 | $0.42 |
gpt-4.1-nano | $0.10 | $0.025 | $0.40 | $0.12 |
*Tipik giriş/çıkış ve önbellek oranlarına dayanmaktadır.
Bu modeller, firmamızda kullanıma hazırdır. Toplu API(Yeni bir pencerede açılır) ek %50 fiyat indirimiyle.
Sonuç
GPT‑4.1, pratik uygulamada önemli bir adımdır AI. Kodlamadan talimat takibine ve uzun bağlam anlayışına kadar gerçek dünya geliştirici ihtiyaçlarına yakından odaklanarak, bu modeller akıllı sistemler ve karmaşık aracı uygulamalar oluşturmak için yeni olasılıkların kilidini açar. Geliştirici topluluğunun yaratıcılığından sürekli olarak ilham alıyoruz ve GPT‑4.1 ile neler inşa edeceğinizi görmek için heyecanlıyız.
Ek
Akademik, kodlama, talimat takibi, uzun bağlam, vizyon ve fonksiyon çağırma değerlendirmelerindeki sonuçların tam listesi aşağıda bulunabilir.
Akademik bilgi
Kategoriler | GPT 4.1 | GPT-4.1mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | AçılışAI o1(yüksek) | AçılışAI o3-mini(yüksek) | GPT 4.5 |
---|---|---|---|---|---|---|---|---|
AMAÇ '24 | 48.1% | 49.6% | 29.4% | 13.1% | 8.6% | 74.3% | 87.3% | 36.7% |
GPQA Elmas1 | 66.3% | 65.0% | 50.3% | 46.0% | 40.2% | 75.7% | 77.2% | 69.5% |
MMLU | 90.2% | 87.5% | 80.1% | 85.7% | 82.0% | 91.8% | 86.9% | 90.8% |
Çok dilli MMLU | 87.3% | 78.5% | 66.9% | 81.4% | 70.5% | 87.7% | 80.7% | 85.1% |
[1] GPQA uygulamamız, regex yerine cevabı çıkarmak için bir model kullanır. GPT-4.1 için fark %1'den azdı (istatistiksel olarak anlamlı değil), ancak GPT-4o için model çıkarma puanları önemli ölçüde iyileştiriyor (~%46 -> %54).
Kodlama değerlendirmeleri
Kategoriler | GPT 4.1 | GPT-4.1mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | AçılışAI o1(yüksek) | AçılışAI o3-mini(yüksek) | GPT 4.5 |
---|---|---|---|---|---|---|---|---|
SWE tezgahı Doğrulandı2 | 54.6% | 23.6% | - | 33.2% | 8.7% | 41.0% | 49.3% | 38.0% |
SWE-Mızraklı | $ 176K (35.1%) | $ 165K (33.0%) | $ 77K (15.3%) | $ 163K (32.6%) | $ 116K (23.1%) | $ 160K (32.1%) | $ 90K (18.0%) | $ 186K (37.3%) |
SWE-Lancer (IC-Diamond alt kümesi) | $ 34K (14.4%) | $ 31K (13.1%) | $ 9K (3.7%) | $ 29K (12.4%) | $ 11K (4.8%) | $ 29K (9.7%) | $ 17K (7.4%) | $ 41K (17.4%) |
Aider'in çok dilliliği: bütün | 51.6% | 34.7% | 9.8% | 30.7% | 3.6% | 64.6% | 66.7% | - |
Aider'in çok dillisi: diff | 52.9% | 31.6% | 6.2% | 18.2% | 2.7% | 61.7% | 60.4% | 44.9% |
[2] Altyapımızda çalıştırılamayan 23 problemden 500'ünü atlıyoruz. Atlanan 23 görevin tam listesi şunlardır: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028' 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' ve 'sphinx-doc__sphinx-9367'.
Değerlendirmeyi Takip Eden Talimat
Kategoriler | GPT 4.1 | GPT-4.1mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | AçılışAI o1(yüksek) | AçılışAI o3-mini(yüksek) | GPT 4.5 |
---|---|---|---|---|---|---|---|---|
Dahili API talimatını takip etme (zor) | 49.1% | 45.1% | 31.6% | 29.2% | 27.2% | 51.3% | 50.0% | 54.0% |
Çoklu meydan okuma | 38.3% | 35.8% | 15.0% | 27.8% | 20.3% | 44.9% | 39.9% | 43.8% |
MultiChallenge (o3-mini sınıflayıcı)3 | 46.2% | 42.2% | 31.1% | 39.9% | 25.6% | 52.9% | 50.2% | 50.1% |
COLLIE | 65.8% | 54.6% | 42.5% | 50.2% | 52.7% | 95.3% | 98.7% | 72.3% |
IFEval | 87.4% | 84.1% | 74.5% | 81.0% | 78.4% | 92.2% | 93.9% | 88.2% |
Çoklu-IF | 70.8% | 67.0% | 57.2% | 60.9% | 57.9% | 77.9% | 79.5% | 70.8% |
[3] Not: MultiChallenge'daki (GPT-4o) varsayılan notlandırıcının model yanıtlarını sıklıkla yanlış puanladığını görüyoruz. yanıtlar. Notlandırıcıyı o3-mini gibi bir akıl yürütme modeline değiştirmenin, incelediğimiz örneklerde notlandırmada doğruluğu önemli ölçüde artırdığını görüyoruz. Liderlik tablosuyla tutarlılık nedenleriyle, her iki sonuç kümesini de yayınlıyoruz.
Uzun Bağlam Değerlendirmeleri
Kategoriler | GPT 4.1 | GPT-4.1mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | AçılışAI o1(yüksek) | AçılışAI o3-mini(yüksek) | GPT 4.5 |
---|---|---|---|---|---|---|---|---|
OpenAI-MRCR: 2 iğne128k | 57.2% | 47.2% | 36.6% | 31.9% | 24.5% | 22.1% | 18.7% | 38.5% |
OpenAI-MRCR: 2 iğne 1M | 46.3% | 33.3% | 12.0% | - | - | - | - | - |
Grafik yürüyüşleri bfs < 128k | 61.7% | 61.7% | 25.0% | 41.7% | 29.0% | 62.0% | 51.0% | 72.3% |
Graphwalks bfs >128k | 19.0% | 15.0% | 2.9% | - | - | - | - | - |
Graphwalks ebeveynleri <128k | 58.0% | 60.5% | 9.4% | 35.4% | 12.6% | 50.9% | 58.3% | 72.6% |
Graphwalks ebeveynleri >128k | 25.0% | 11.0% | 5.6% | - | - | - | - | - |
Vizyon Değerlendirmesi
Kategoriler | GPT 4.1 | GPT-4.1mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | AçılışAI o1(yüksek) | AçılışAI o3-mini(yüksek) | GPT 4.5 |
---|---|---|---|---|---|---|---|---|
MMMU | 74.8% | 72.7% | 55.4% | 68.7% | 56.3% | 77.6% | - | 75.2% |
MatematikVista | 72.2% | 73.1% | 56.2% | 61.4% | 56.5% | 71.8% | - | 72.3% |
CharXiv-R | 56.7% | 56.8% | 40.5% | 52.7% | 36.8% | 55.1% | - | 55.4% |
CharXiv-D | 87.9% | 88.4% | 73.9% | 85.3% | 76.6% | 88.9% | - | 90.0% |
Fonksiyon Çağrısı Eval
Kategoriler | GPT 4.1 | GPT-4.1mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | AçılışAI o1(yüksek) | AçılışAI o3-mini(yüksek) | GPT 4.5 |
---|---|---|---|---|---|---|---|---|
KarmaşıkFuncBench | 65.5% | 49.3% | 0.6% | 66.5% | 38.6% | 47.6% | 17.6% | 63.0% |
Taubench havayolu4 | 49.4% | 36.0% | 14.0% | 42.8% | 22.0% | 50.0% | 32.4% | 50.0% |
Taubench perakende4, 5 | 68.0% (73.6%) | 55.8% (65.4%) | 22.6% (23.5%) | 60.3% | 44.0% | 70.8% | 57.6% | 68.4% |
[4] Tau-bench değerlendirme sayıları, varyansı azaltmak için 5 çalışma boyunca ortalama alınır ve herhangi bir özel araç veya istem olmadan çalıştırılır.
[5] Parantez içindeki sayılar, GPT-4.1o yerine kullanıcı modeli olarak GPT-4 kullanıldığında Tau-bench sonuçlarını temsil eder. GPT-4.1'in talimat izlemede daha iyi olması nedeniyle kullanıcı olarak daha iyi performans gösterebildiğini ve bu nedenle daha başarılı yörüngelerle sonuçlandığını bulduk. Bunun, değerlendirilen modelin kıyaslamadaki gerçek performansını temsil ettiğine inanıyoruz.
Japon Mutfağı Tasarımı
İlgili gezinme


DeepSeek

Gemini

Kimi

Claude

Tencent Yuanbao

xAI Grok
