GPT4.1-API

Zuletzt aktualisiert vor 3 Monat 690 00

API-AufrufeChatGPT4.1. Geburtstag

Standort:
加拿大
Sprache:
zh,en
Aufnahmezeit:
2025-04-15
GPT4.1-APIGPT4.1-API
GPT4.1-API

Eine neue Reihe von GPT-Modellen mit wesentlichen Verbesserungen bei Codierung, Anweisungsverfolgung und langem Kontext – sowie unser erstes Nano-Modell. Verfügbar überAPIÜbersetzung

Anweisungen finden Sie im Artikel. Erste Veröffentlichung!ChatGPT4.1 Vollständige Anleitung zur lokalen Nutzung – auch für Anfänger und normale Computer

Docker Desktop+webUI realisiert große Modelle,N8NVollständige Anleitung für den lokalen Gebrauch

ChatGPT4.1 Einleitung 

Heute stellen wir drei neue Modelle in der API vor: GPT‑4.1, GPT‑4.1 mini und GPT‑4.1 nano. Diese Modelle übertreffen GPT‑4o und GPT‑4o mini auf ganzer Linie, mit großen gains in der Codierung und im Befolgen von Anweisungen. Sie verfügen außerdem über größere Kontextfenster – die bis zu 1 Million Kontext-Token unterstützen – und können diesen Kontext dank verbessertem Verständnis von Langzeitkontexten besser nutzen. Sie verfügen über einen aktualisierten Wissensstand vom Juni 2024.

GPT‑4.1 zeichnet sich durch die folgenden Industriestandardmaßnahmen aus:

  • Programmierung: GPT‑4.1 erreicht 54.6 % auf SWE-Bench verifiziert, Verbesserung um 21.4%abs über GPT‑4o und 26.6%abs über GPT‑4.5 – und ist damit ein führendes Modell für die Codierung.
  • Anleitung folgt: On Scales MultiChallenge(Öffnet in neuem Fenster) Benchmark, ein Maß für die Fähigkeit, Anweisungen zu befolgen, erreicht GPT‑4.1 38.3 %, einabs Anstieg gegenüber GPT‑4o.
  • Langer Kontext: On Video-MME(Öffnet in neuem Fenster), ein Maßstab für multimodales Verständnis langer Kontexte, setzt GPT‑4.1 ein neues Spitzenergebnis – mit 72.0 % in der Kategorie „Lang, ohne Untertitel“, ein Ergebnis von 6.7 %abs Verbesserung gegenüber GPT‑4o.

Benchmarks liefern wertvolle Erkenntnisse, und wir haben diese Modelle mit Fokus auf ihren praktischen Nutzen trainiert. Durch die enge Zusammenarbeit mit der Entwickler-Community konnten wir diese Modelle für die wichtigsten Aufgaben ihrer Anwendungen optimieren.

Zu diesem Zweck bietet die GPT-4.1-Modellfamilie außergewöhnliche Leistung zu geringeren Kosten. Diese Modelle steigern die Leistung an jedem Punkt der Latenzkurve.

GPT4.1-API

GPT‑4.1 mini stellt einen deutlichen Leistungssprung bei kleinen Modellen dar und übertrifft in vielen Benchmarks sogar GPT‑4o. Es erreicht oder übertrifft GPT‑4o in Intelligenzbewertungen, reduziert die Latenz um fast die Hälfte und die Kosten um 83 %.

Für Aufgaben, die eine geringe Latenz erfordern, ist GPT‑4.1 nano unser schnellstes und günstigstes Modell. Es bietet mit seinem Kontextfenster von 1 Million Token außergewöhnliche Leistung bei geringer Größe und erreicht 80.1 % bei MMLU, 50.3 % bei GPQA und 9.8 % bei Aider Polyglot Coding – sogar mehr als GPT‑4o mini. Es eignet sich ideal für Aufgaben wie Klassifizierung oder Autovervollständigung.

Diese Verbesserungen in der Zuverlässigkeit der Anweisungsverfolgung und im Verständnis des langen Kontexts machen die GPT-4.1-Modelle auch wesentlich effektiver bei der Unterstützung von Agenten oder Systemen, die Aufgaben im Auftrag von Benutzern selbstständig erledigen können. In Kombination mit Primitiven wie dem Antworten-API(Öffnet in neuem Fenster)Entwickler können jetzt Agenten erstellen, die bei der realen Softwareentwicklung nützlicher und zuverlässiger sind, Erkenntnisse aus großen Dokumenten extrahieren, Kundenanfragen mit minimalem Aufwand lösen und andere komplexe Aufgaben erledigen.

Beachten Sie, dass GPT‑4.1 nur über die API verfügbar sein wird. In ChatGPTViele der Verbesserungen in den Bereichen Anweisungsbefolgung, Kodierung und Intelligenz wurden schrittweise in die neueste Version(Öffnet in neuem Fenster) von GPT‑4o, und wir werden in zukünftigen Versionen weiterhin mehr integrieren.

Wir werden außerdem damit beginnen, die GPT-4.5-Vorschau in der API abzuschaffen, da GPT-4.1 eine verbesserte oder ähnliche Leistung bei vielen wichtigen Funktionen zu deutlich geringeren Kosten und Latenzzeiten bietet. Die GPT-4.5-Vorschau wird in drei Monaten, am 14. Juli 2025, abgeschaltet, um Entwicklern Zeit für die Umstellung zu geben. GPT-4.5 war eingeführt Als Forschungsvorschau, um ein großes, rechenintensives Modell zu erkunden und damit zu experimentieren. Wir haben viel aus dem Feedback der Entwickler gelernt. Wir werden die Kreativität, die Schreibqualität, den Humor und die Nuancen, die Sie an GPT-4.5 schätzen, auch in zukünftigen API-Modellen einbringen.

Nachfolgend erläutern wir die Leistung von GPT‑4.1 in mehreren Benchmarks und zeigen Beispiele von Alphatestern wie Windsurf, Qodo, Hex, Blue J, Thomson Reuters und Carlyle, die die Leistung in der Produktion bei domänenspezifischen Aufgaben veranschaulichen.

Programmierung

GPT-4.1 ist bei einer Vielzahl von Codierungsaufgaben deutlich besser als GPT-4o, einschließlich der agentenbasierten Lösung von Codierungsaufgaben, der Frontend-Codierung, der Reduzierung irrelevanter Änderungen, der zuverlässigen Befolgung von Diff-Formaten, der Gewährleistung einer konsistenten Tool-Nutzung und mehr.

Beim SWE-Bench Verified, einem Test für praxisnahe Softwareentwicklungsfähigkeiten, erledigt GPT‑4.1 54.6 % der Aufgaben, verglichen mit 33.2 % bei GPT‑4o (2024). Dies spiegelt die verbesserte Fähigkeit des Modells wider, ein Code-Repository zu erkunden, eine Aufgabe abzuschließen und Code zu erstellen, der sowohl ausgeführt wird als auch Tests besteht.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (hoch)OffenAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4o mini55%33%41%49%38%24%9%SWE‑bench Verified accuracy

Für SWE-Bench verifizierterhält ein Modell ein Code-Repository und eine Problembeschreibung und muss einen Patch zur Lösung des Problems generieren. Die Leistung hängt stark von den verwendeten Eingabeaufforderungen und Tools ab. Um die Reproduktion und Kontextualisierung unserer Ergebnisse zu erleichtern, beschreiben wir unser Setup für GPT‑4.1 Here(Öffnet in neuem Fenster). Unsere Bewertungen lassen 23 von 500 Problemen aus, deren Lösungen auf unserer Infrastruktur nicht ausgeführt werden konnten. Wenn diese konservativ mit 0 bewertet werden, wird aus der Bewertung von 54.6 % eine Bewertung von 52.1 %.

Für API-Entwickler, die große Dateien bearbeiten möchten, ist GPT‑4.1 bei Code-Diffs in verschiedenen Formaten deutlich zuverlässiger. GPT‑4.1 übertrifft die Punktzahl von GPT‑4o um mehr als das Doppelte. Aiders polyglotter Diff-Benchmark(Öffnet in neuem Fenster)und schlägt GPT‑4.5 sogar um 8 %Abs.Diese Bewertung misst sowohl die Programmierfähigkeiten in verschiedenen Programmiersprachen als auch die Fähigkeit des Modells, Änderungen in ganzen und Diff-Formaten zu erzeugen. Wir haben GPT‑4.1 speziell darauf trainiert, Diff-Formaten zuverlässiger zu folgen. Dadurch sparen Entwickler Kosten und Latenz, da nur die geänderten Zeilen der Modellausgabe verwendet werden, anstatt eine ganze Datei neu zu schreiben. Für optimale Code-Diff-Leistung beachten Sie bitte unsere Anleitung zur Eingabeaufforderung(Öffnet in neuem Fenster)Für Entwickler, die lieber ganze Dateien neu schreiben, haben wir die Ausgabe-Token-Limits für GPT‑4.1 auf 32,768 Token erhöht (von 16,384 Token für GPT‑4o). Wir empfehlen außerdem die Verwendung von Vorhergesagte Ergebnisse(Öffnet in neuem Fenster) um die Latenz beim vollständigen Neuschreiben von Dateien zu reduzieren.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (hoch)OffenAI o3-mini (hoch)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini52 % (gesamt)53 % (Unterschied)31 % (gesamt)18 % (Unterschied)64 % (gesamt)62 % (Unterschied)67 % (gesamt)60 % (Unterschied)35 % (gesamt)32 % (Unterschied)10 % (gesamt)6 % (Unterschied)4 % (gesamt)3 % (Unterschied)N/A (gesamt)45 % (Unterschied)Genauigkeit des Aider-Polyglot-Benchmarks

In Aiders Polyglot-Benchmark lösen Modelle Programmierübungen von Übung(Öffnet in neuem Fenster) durch Bearbeiten von Quelldateien, wobei ein erneuter Versuch zulässig ist. Das Format „whole“ erfordert, dass das Modell die gesamte Datei neu schreibt, was langsam und kostspielig sein kann. Das Format „diff“ erfordert, dass das Modell eine Reihe von Blöcke suchen/ersetzen(Öffnet in neuem Fenster).

GPT-4.1 bietet gegenüber GPT-4o auch im Frontend-Coding deutliche Verbesserungen und ermöglicht die Erstellung funktional und ästhetisch ansprechender Web-Apps. In unserem direkten Vergleich schneiden die bezahlten menschlichen Bewerter von GPT-4.1-Websites in 4 % der Fälle besser ab als die von GPT-80o.

Prompt: Erstellen Sie eine Karteikarten-Webanwendung. Der Benutzer sollte Karteikarten erstellen, seine vorhandenen Karteikarten durchsuchen, Karteikarten wiederholen und Statistiken zu den wiederholten Karteikarten anzeigen können. Laden Sie zehn Karten mit einem Hindi-Wort oder -Satz und seiner englischen Übersetzung vor. Wiederholungsoberfläche: In der Wiederholungsoberfläche sollte ein Klick oder die Leertaste die Karte mit einer flüssigen 3D-Animation umdrehen, um die Übersetzung anzuzeigen. Mit den Pfeiltasten kann durch die Karten navigiert werden. Suchoberfläche: Die Suchleiste sollte dynamisch eine Ergebnisliste anzeigen, während der Benutzer eine Suchanfrage eingibt. Statistikoberfläche: Die Statistikseite sollte ein Diagramm mit der Anzahl der vom Benutzer wiederholten Karten und dem Prozentsatz der richtigen Antworten anzeigen. Kartenerstellungsoberfläche: Auf der Kartenerstellungsseite sollte der Benutzer Vorder- und Rückseite einer Karteikarte festlegen und sie seiner Sammlung hinzufügen können. Jede dieser Oberflächen sollte über die Seitenleiste zugänglich sein. Generieren Sie eine einseitige React-App (alle Stile inline).

 

GPT‑4o

 

GPT‑4.1

Über die oben genannten Benchmarks hinaus ist GPT‑4.1 zuverlässiger in der Formatverfolgung und nimmt seltener irrelevante Änderungen vor. In unseren internen Tests sanken die irrelevanten Änderungen am Code von 9 % mit GPT‑4 auf 2 % mit GPT‑4.1.

Beispiele aus der Praxis

Windsurf(Öffnet in neuem Fenster)GPT-4.1 schneidet im internen Code-Benchmark von Windsurf 60 % besser ab als GPT-4o. Dies korreliert stark mit der Häufigkeit, mit der Codeänderungen bei der ersten Überprüfung akzeptiert werden. Die Nutzer stellten fest, dass der Tool-Aufruf um 30 % effizienter war und die Wahrscheinlichkeit, unnötige Änderungen zu wiederholen oder Code in zu engen, inkrementellen Schritten zu lesen, um etwa 50 % geringer war. Diese Verbesserungen führen zu schnelleren Iterationen und reibungsloseren Arbeitsabläufen für die Entwicklungsteams.

Qodo(Öffnet in neuem Fenster)Qodo testete GPT‑4.1 direkt mit anderen führenden Modellen zur Generierung hochwertiger Code-Reviews aus GitHub-Pull-Requests. Dabei verwendete sie eine Methodik, die von ihrem Feinabstimmungs-Benchmark inspiriert war. Bei 200 aussagekräftigen, realen Pull-Requests mit denselben Eingabeaufforderungen und Bedingungen ergab sich, dass GPT‑4.1 den besseren Vorschlag lieferte in 55% der Fälle(Öffnet in neuem Fenster)Sie stellten insbesondere fest, dass GPT‑4.1 sowohl hinsichtlich der Präzision (wissen, wann keine Vorschläge gemacht werden sollten) als auch der Vollständigkeit (bereitstellen einer gründlichen Analyse, wenn dies erforderlich ist) herausragend ist und gleichzeitig den Fokus auf die wirklich kritischen Probleme legt.

Anweisung folgt

GPT‑4.1 befolgt Anweisungen zuverlässiger und wir haben bei einer Vielzahl von Evaluierungen nach der Anweisung erhebliche Verbesserungen festgestellt.

Wir haben eine interne Evaluierung für die Befolgung von Anweisungen entwickelt, um die Modellleistung in einer Reihe von Dimensionen und in mehreren Schlüsselkategorien der Befolgung von Anweisungen zu verfolgen, darunter:

  • Format folgt. Bereitstellung von Anweisungen, die ein benutzerdefiniertes Format für die Antwort des Modells angeben, z. B. XML, YAML, Markdown usw.
  • Negative Anweisungen. Festlegen des Verhaltens, das das Modell vermeiden soll. (Beispiel: „Bitten Sie den Benutzer nicht, den Support zu kontaktieren“)
  • Bestellte Anleitung. Bereitstellung einer Reihe von Anweisungen, die das Modell in einer bestimmten Reihenfolge befolgen muss. (Beispiel: „Fragen Sie zuerst nach dem Namen des Benutzers, dann nach seiner E-Mail-Adresse“)
  • Inhaltliche Anforderungen. Ausgabe von Inhalten, die bestimmte Informationen enthalten. (Beispiel: „Berücksichtigen Sie beim Erstellen eines Ernährungsplans immer die Proteinmenge.“)
  • Rangfolge. Sortieren der Ergebnisse auf eine bestimmte Art und Weise. (Beispiel: „Antwort nach Bevölkerungszahl sortieren“)
  • Überbewusstsein. Weisen Sie das Modell an, „Ich weiß nicht“ oder Ähnliches zu sagen, wenn die angeforderten Informationen nicht verfügbar sind oder die Anfrage nicht in eine bestimmte Kategorie fällt. (Beispiel: „Wenn Sie die Antwort nicht wissen, geben Sie die E-Mail-Adresse des Support-Kontakts an.“)

Diese Kategorien basieren auf dem Feedback der Entwickler, welche Aspekte der Anweisungsbefolgung für sie am relevantesten und wichtigsten sind. Innerhalb jeder Kategorie haben wir einfache, mittlere und schwierige Anweisungen unterteilt. GPT‑4.1 bietet insbesondere bei schwierigen Anweisungen deutliche Verbesserungen gegenüber GPT‑4o.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (hoch)OffenAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini49%29%51%50%54%45%32%27%Internal OpenAI Anweisungen zur Evaluierungsgenauigkeit (harte Teilmenge)

Unsere internen Anweisungen nach der Evaluierung basieren auf echten Anwendungsfällen und Feedback von Entwicklern und decken Aufgaben unterschiedlicher Komplexität ab, gepaart mit Anweisungen zu Formatierung, Ausführlichkeit, Länge und mehr.

Das Befolgen von Anweisungen in mehreren Gesprächsrunden ist für viele Entwickler entscheidend – es ist wichtig, dass das Modell auch im Verlauf einer Konversation die Kohärenz beibehält und die vorherigen Aussagen des Benutzers nachverfolgt. Wir haben GPT‑4.1 trainiert, um Informationen aus früheren Nachrichten im Gespräch besser herauszufiltern und so natürlichere Gespräche zu ermöglichen. Der MultiChallenge-Benchmark von Scale ist ein nützliches Maß für diese Fähigkeit, und GPT‑4.1 erreicht eine Leistung von 10.5 %.abs besser als GPT‑4o.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (hoch)OffenAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini38%28%45%40%44%36%15%20%MultiChallenge accuracy

In MultiChallenge(Öffnet in neuem Fenster), Modelle werden anhand von mehrstufigen Gesprächen auf die Probe gestellt, um vier Arten von Informationen aus vorherigen Nachrichten richtig zu verwenden.

GPT‑4.1 erreicht bei IFEval ebenfalls 87.4 %, verglichen mit 81.0 % bei GPT‑4o. IFEval verwendet Eingabeaufforderungen mit überprüfbaren Anweisungen (z. B. Angabe der Inhaltslänge oder Vermeidung bestimmter Begriffe oder Formate).

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (hoch)OffenAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini87%81%92%94%88%84%75%78%IFEval accuracy

In IFEval(Öffnet in neuem Fenster)müssen Modelle Antworten generieren, die verschiedene Anweisungen erfüllen.

Eine bessere Befolgung von Anweisungen erhöht die Zuverlässigkeit bestehender Anwendungen und ermöglicht neue Anwendungen, die zuvor durch mangelnde Zuverlässigkeit eingeschränkt waren. Erste Tester stellten fest, dass GPT‑4.1 wörtlicher sein kann. Daher empfehlen wir, in Eingabeaufforderungen explizit und spezifisch zu sein. Weitere Informationen zu bewährten Vorgehensweisen für Eingabeaufforderungen in GPT‑4.1 finden Sie im Leitfaden zu Eingabeaufforderungen.

Beispiele aus der Praxis

Blau J.(Öffnet in neuem Fenster)GPT‑4.1 war bei einem internen Benchmarking der anspruchsvollsten Steuerszenarien von Blue J um 53 % genauer als GPT‑4o. Dieser Genauigkeitssprung – entscheidend für die Systemleistung und die Nutzerzufriedenheit – unterstreicht das verbesserte Verständnis von GPT‑4.1 für komplexe Vorschriften und die Fähigkeit, differenzierte Anweisungen auch in längeren Kontexten zu befolgen. Für Blue J-Nutzer bedeutet das schnellere, zuverlässigere Steuerrecherche und mehr Zeit für wertvolle Beratungsarbeit.

Sechskant(Öffnet in neuem Fenster): GPT‑4.1 lieferte eine fast zweifache Verbesserung der anspruchsvollsten SQL-Auswertungssatz,(Öffnet in neuem Fenster) Dies zeigte deutliche Verbesserungen bei der Befolgung von Anweisungen und dem semantischen Verständnis. Das Modell war zuverlässiger bei der Auswahl der richtigen Tabellen aus großen, mehrdeutigen Schemata – ein vorgelagerter Entscheidungspunkt, der sich direkt auf die Gesamtgenauigkeit auswirkt und allein durch Eingabeaufforderungen nur schwer zu optimieren ist. Für Hex führte dies zu einer messbaren Reduzierung des manuellen Debuggens und einem schnelleren Übergang zu produktionsreifen Workflows.

Langer Kontext

GPT‑4.1, GPT‑4.1 mini und GPT‑4.1 nano können bis zu 1 Million Kontexttoken verarbeiten – gegenüber 128,000 bei früheren GPT‑4o-Modellen. 1 Million Token sind mehr als 8 Kopien der gesamten React-Codebasis, daher eignet sich langer Kontext hervorragend für die Verarbeitung großer Codebasen oder vieler langer Dokumente.

Wir haben GPT‑4.1 darauf trainiert, Informationen über die gesamte Kontextlänge von einer Million zuverlässig zu erfassen. Darüber hinaus ist es deutlich zuverlässiger als GPT‑1o, relevante Texte zu erkennen und Störfaktoren sowohl in langen als auch in kurzen Kontexten zu ignorieren. Das Verständnis langer Kontexte ist eine entscheidende Fähigkeit für Anwendungen in den Bereichen Recht, Programmierung, Kundensupport und vielen anderen Bereichen.

Im Folgenden demonstrieren wir die Fähigkeit von GPT‑4.1, eine kleine versteckte Information (eine „Nadel“) an verschiedenen Stellen im Kontextfenster abzurufen. GPT‑4.1 ruft die Nadel an allen Positionen und bei allen Kontextlängen bis zu einer Million Token zuverlässig und präzise ab. Es ist effektiv in der Lage, relevante Details für die jeweilige Aufgabe unabhängig von ihrer Position in der Eingabe zu extrahieren.

GPT4.1-API

In unserer internen Nadel-im-Heuhaufen-Evaluierung sind GPT‑4.1, GPT‑4.1 mini und GPT 4.1 nano in der Lage, die Nadel an allen Positionen im Kontext bis zu 1M abzurufen.

Allerdings sind nur wenige Aufgaben in der realen Welt so einfach wie das Abrufen einer einzigen, offensichtlichen Nadelantwort. Wir stellen fest, dass Nutzer unsere Modelle oft benötigen, um mehrere Informationen abzurufen und zu verstehen und diese in Bezug zueinander zu setzen. Um diese Fähigkeit zu demonstrieren, stellen wir eine neue Evaluierung als Open Source zur Verfügung: OpenAI-MRCR (Multi-Round Coreference).

OpenAI-MRCR testet die Fähigkeit des Modells, mehrere gut versteckte Nadeln im Kontext zu finden und zu unterscheiden. Die Evaluierung besteht aus mehrstufigen synthetischen Gesprächen zwischen einem Benutzer und einem Assistenten, in denen der Benutzer um einen Text zu einem bestimmten Thema bittet, zum Beispiel „Schreibe ein Gedicht über Tapire“ oder „Schreibe einen Blogbeitrag über Steine“. Anschließend fügen wir zwei, vier oder acht identische Anfragen in den Kontext ein. Das Modell muss dann die Antwort zu einem bestimmten Fall abrufen (z. B. „Gib mir das dritte Gedicht über Tapire“).

Die Herausforderung liegt in der Ähnlichkeit dieser Anfragen mit dem restlichen Kontext – Modelle können leicht durch subtile Unterschiede in die Irre geführt werden, beispielsweise durch eine Kurzgeschichte über Tapire statt eines Gedichts oder ein Gedicht über Frösche statt Tapire. Wir haben festgestellt, dass GPT-4.1 GPT-4o bei Kontextlängen von bis zu 128 Tokens übertrifft und selbst bei bis zu 1 Million Tokens eine starke Leistung beibehält.

Aber die Aufgabe bleibt schwierig – selbst für fortgeschrittene Denkmodelle. Wir teilen die Eval-Datensatz(Öffnet in neuem Fenster) um weitere Arbeiten zur realen Langzeitkontextabfrage zu fördern.

GPT4.1-API

In OpenAI-MRCR(Öffnet in neuem Fenster), das Modell muss eine Frage beantworten, bei der zwischen 2, 4 oder 8 Benutzeraufforderungen, die zwischen Ablenkern verstreut sind, unterschieden werden muss.

Wir veröffentlichen außerdem Graphwalks(Öffnet in neuem Fenster), ein Datensatz zur Auswertung von Multi-Hop-Long-Context-Argumentation. Viele Anwendungsfälle von Entwicklern für Long Context erfordern mehrere logische Hops innerhalb des Kontexts, z. B. das Springen zwischen mehreren Dateien beim Schreiben von Code oder das Querverweisen von Dokumenten bei der Beantwortung komplizierter Rechtsfragen.

Ein Modell (oder sogar ein Mensch) könnte ein OpenAI-MRCR-Problem theoretisch lösen, indem es die Eingabeaufforderung einmal durchläuft oder durchliest. Graphwalks ist jedoch so konzipiert, dass es ein Denken über mehrere Positionen im Kontext hinweg erfordert und nicht sequenziell gelöst werden kann.

Graphwalks füllt das Kontextfenster mit einem gerichteten Graphen aus hexadezimalen Hashes und fordert das Modell anschließend auf, eine Breitensuche (BFS) ausgehend von einem zufälligen Knoten im Graphen durchzuführen. Anschließend wird es angewiesen, alle Knoten in einer bestimmten Tiefe zurückzugeben. GPT‑4.1 erreicht in diesem Benchmark eine Genauigkeit von 61.7 %, entspricht damit der Leistung von o1 und schlägt GPT‑4o deutlich.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (hoch)OffenAI o3-mini (hoch)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini62%42%62%51%72%62%25%29%Graphwalks BFS <128k Genauigkeit

In Graphwalks(Öffnet in neuem Fenster)wird ein Modell aufgefordert, eine Breitensuche von einem zufälligen Knoten in einem großen Graphen aus durchzuführen.

Benchmarks erzählen nicht die ganze Geschichte, deshalb haben wir mit Alpha-Partnern zusammengearbeitet, um die Leistung von GPT-4.1 bei ihren realen Aufgaben mit langem Kontext zu testen.

Beispiele aus der Praxis

Thomson Reuters:(Öffnet in neuem Fenster) Thomson Reuters hat GPT‑4.1 mit CoCounsel getestet, der professionellen Version AI Assistent für juristische Arbeit. Im Vergleich zu GPT-4o konnten sie die Genauigkeit der Überprüfung mehrerer Dokumente um 17 % verbessern, wenn sie GPT-4.1 in internen Benchmarks mit langem Kontext verwendeten – ein wichtiger Maßstab für die Fähigkeit von CoCounsel, komplexe juristische Arbeitsabläufe mit mehreren, langen Dokumenten zu bewältigen. Sie stellten insbesondere fest, dass das Modell äußerst zuverlässig den Kontext über Quellen hinweg aufrechterhält und nuancierte Beziehungen zwischen Dokumenten, wie z. B. widersprüchliche Klauseln oder zusätzlichen Kontext, präzise identifiziert – Aufgaben, die für die juristische Analyse und Entscheidungsfindung von entscheidender Bedeutung sind.

Carlyle(Öffnet in neuem Fenster)Carlyle nutzte GPT‑4.1, um detaillierte Finanzdaten aus mehreren umfangreichen Dokumenten – darunter PDFs, Excel-Dateien und andere komplexe Formate – präzise zu extrahieren. Interne Auswertungen zeigten, dass die Datenabfrage aus sehr großen Dokumenten mit hoher Datendichte um 50 % besser ablief. Zudem war es das erste Modell, das wichtige Einschränkungen anderer verfügbarer Modelle erfolgreich überwand, darunter die Suche nach der Nadel im Heuhaufen, Fehler beim „Lost-in-the-Middle“-Verfahren und Multi-Hop-Reasoning über Dokumente hinweg.

Neben Modellleistung und -genauigkeit benötigen Entwickler auch Modelle, die schnell reagieren, um mit den Benutzeranforderungen Schritt zu halten und diese zu erfüllen. Wir haben unseren Inferenz-Stack verbessert, um die Zeit bis zum ersten Token zu verkürzen. Durch schnelles Caching können Sie die Latenz noch weiter reduzieren und gleichzeitig Kosten sparen. In unseren ersten Tests betrug die Latenz bis zum ersten Token für GPT-4.1 etwa 128,000 Sekunden bei 4.1 Kontexttoken und eine Minute bei einer Million Kontexttoken. GPT-4.1 mini und nano sind schneller. Beispielsweise gibt GPT-128,000 nano bei Abfragen mit XNUMX Eingabetoken das erste Token meist in weniger als fünf Sekunden zurück.

Vision

Die GPT-4.1-Familie verfügt über eine außergewöhnlich starke Bildverarbeitungsleistung, wobei insbesondere GPT-4.1 mini einen deutlichen Fortschritt darstellt und GPT-4o bei Bild-Benchmarks häufig schlägt.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini75%69%78%75%73%55%56%MMMU accuracy

In MMMU(Öffnet in neuem Fenster), ein Modell beantwortet Fragen, die Diagramme, Karten usw. enthalten. (Hinweis: Auch wenn das Bild nicht enthalten ist, können viele Antworten dennoch aus dem Kontext abgeleitet oder erraten werden.)

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini72%61%72%72%73%56%57%MathVista accuracy

In MathVista(Öffnet in neuem Fenster), ein Modell löst visuelle mathematische Aufgaben.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini57%53%55%55%57%41%37%CharXiv-Reasoning accuracy

In CharXiv-Argumentation(Öffnet in neuem Fenster), ein Modell beantwortet Fragen zu Diagrammen aus wissenschaftlichen Arbeiten.

Die Leistung im langen Kontext ist auch für multimodale Anwendungsfälle wichtig, wie z. B. die Verarbeitung langer Videos. In Video-MME⁠(Öffnet in neuem Fenster) (lang ohne Untertitel) – ein Modell beantwortet Multiple-Choice-Fragen basierend auf 30–60 Minuten langen Videos ohne Untertitel. GPT‑4.1 erreicht mit 72.0 % eine Spitzenleistung (im Vergleich zu 65.3 % bei GPT‑4o).

GPT-4.1GPT-4o (2024-11-20)72%65%Video long context

In Video-MME(Öffnet in neuem Fenster), ein Model beantwortet Multiple-Choice-Fragen basierend auf 30–60 Minuten langen Videos ohne Untertitel.

AnzeigenPreise

GPT‑4.1, GPT‑4.1 mini und GPT‑4.1 nano stehen jetzt allen Entwicklern zur Verfügung.

Durch Effizienzverbesserungen unserer Inferenzsysteme konnten wir die Preise für die GPT-4.1-Serie senken. GPT-4.1 ist bei mittleren Abfragen 26 % günstiger als GPT-4o, und GPT-4.1 nano ist unser günstigstes und schnellstes Modell aller Zeiten. Für Abfragen, die wiederholt denselben Kontext durchlaufen, erhöhen wir den Rabatt für das Prompt-Caching für diese neuen Modelle auf 75 % (vorher 50 %). Schließlich bieten wir lange Kontextanfragen ohne zusätzliche Kosten über die Standardkosten pro Token hinaus an.

Modell
(Preise gelten pro 1 Mio. Token)
EingangZwischengespeicherte EingabeAusgangGemischte Preise*
gpt-4.1$2.00$0.50$8.00$1.84
gpt-4.1-mini$0.40$0.10$1.60$0.42
gpt-4.1-nano$0.10$0.025$0.40$0.12

*Basierend auf typischen Eingabe-/Ausgabe- und Cache-Verhältnissen.

Diese Modelle stehen Ihnen zur Verwendung in unserem Batch-API(Öffnet in neuem Fenster) mit einem zusätzlichen Preisnachlass von 50 %.

Fazit

GPT‑4.1 ist ein bedeutender Fortschritt in der praktischen Anwendung von AIDurch die enge Ausrichtung auf die realen Bedürfnisse von Entwicklern – von der Programmierung über das Befolgen von Anweisungen bis hin zum langfristigen Kontextverständnis – eröffnen diese Modelle neue Möglichkeiten für die Entwicklung intelligenter Systeme und anspruchsvoller agentenbasierter Anwendungen. Wir sind immer wieder von der Kreativität der Entwickler-Community inspiriert und gespannt, was Sie mit GPT‑4.1 entwickeln.

Anhang

Eine vollständige Liste der Ergebnisse der Evaluierungen in den Bereichen akademischer Unterricht, Codierung, Anweisungsbefolgung, Langzeitkontext, Vision und Funktionsaufruf finden Sie weiter unten.

Akademisches Wissen
KategorieGPT-4.1GPT-4.1 miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4o miniÖffneAI o1(hoch)ÖffneAI o3-mini(hoch)GPT-4.5
AIME '2448.1%49.6%29.4%13.1%8.6%74.3%87.3%36.7%
GPQA Diamant166.3%65.0%50.3%46.0%40.2%75.7%77.2%69.5%
MMLU90.2%87.5%80.1%85.7%82.0%91.8%86.9%90.8%
Mehrsprachige MMLU87.3%78.5%66.9%81.4%70.5%87.7%80.7%85.1%

[1] Unsere Implementierung von GPQA verwendet ein Modell zur Extraktion der Antwort anstelle von regulären Ausdrücken. Bei GPT-4.1 betrug der Unterschied <1 % (nicht statistisch signifikant), bei GPT-4o verbessert die Modellextraktion die Ergebnisse jedoch deutlich (~46 % -> 54 %).

Codierungsauswertungen
KategorieGPT-4.1GPT-4.1 miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4o miniÖffneAI o1(hoch)ÖffneAI o3-mini(hoch)GPT-4.5
SWE-Bench verifiziert254.6%23.6%-33.2%8.7%41.0%49.3%38.0%
SWE-Lancer$ 176K
(35.1%)
$ 165K
(33.0%)
$ 77K
(15.3%)
$ 163K
(32.6%)
$ 116K
(23.1%)
$ 160K
(32.1%)
$ 90K
(18.0%)
$ 186K
(37.3%)
SWE-Lancer (IC-Diamond-Teilmenge)$ 34K
(14.4%)
$ 31K
(13.1%)
$ 9K
(3.7%)
$ 29K
(12.4%)
$ 11K
(4.8%)
$ 29K
(9.7%)
$ 17K
(7.4%)
$ 41K
(17.4%)
Aiders Polyglotte: ganz51.6%34.7%9.8%30.7%3.6%64.6%66.7%-
Aiders Polyglott: diff52.9%31.6%6.2%18.2%2.7%61.7%60.4%44.9%

[2] Wir schließen 23/500 Probleme aus, die auf unserer Infrastruktur nicht ausgeführt werden konnten. Die vollständige Liste der 23 ausgelassenen Aufgaben umfasst: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', „pylint-dev__pylint-7080“, „pylint-dev__pylint-7277“, „pytest-dev__pytest-5262“, „pytest-dev__pytest-7521“, „scikit-learn__scikit-learn-12973“, „sphinx-doc__sphinx-10466“, „sphinx-doc__sphinx-7462“, „sphinx-doc__sphinx-8265“ und „sphinx-doc__sphinx-9367“.

Anweisung nach der Eval
KategorieGPT-4.1GPT-4.1 miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4o miniÖffneAI o1(hoch)ÖffneAI o3-mini(hoch)GPT-4.5
Interne API-Anweisungsverfolgung (hart)49.1%45.1%31.6%29.2%27.2%51.3%50.0%54.0%
MultiChallenge38.3%35.8%15.0%27.8%20.3%44.9%39.9%43.8%
MultiChallenge (o3-Mini-Grader)346.2%42.2%31.1%39.9%25.6%52.9%50.2%50.1%
COLLIE65.8%54.6%42.5%50.2%52.7%95.3%98.7%72.3%
IFEval87.4%84.1%74.5%81.0%78.4%92.2%93.9%88.2%
Multi-IF70.8%67.0%57.2%60.9%57.9%77.9%79.5%70.8%

[3] Hinweis: Wir stellen fest, dass der Standard-Grader in MultiChallenge (GPT-4o) Modellantworten häufig falsch bewertet. Wir haben festgestellt, dass der Austausch des Graders gegen ein Reasoning-Modell wie o3-mini die Genauigkeit der Bewertung der von uns untersuchten Proben deutlich verbessert. Aus Gründen der Konsistenz mit der Bestenliste veröffentlichen wir beide Ergebnisse.

Lange Kontextauswertungen
KategorieGPT-4.1GPT-4.1 miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4o miniÖffneAI o1(hoch)ÖffneAI o3-mini(hoch)GPT-4.5
OpenAI-MRCR: 2 Nadeln 128k57.2%47.2%36.6%31.9%24.5%22.1%18.7%38.5%
OpenAI-MRCR: 2 Nadeln 1M46.3%33.3%12.0%-----
Graphwalks bfs < 128k61.7%61.7%25.0%41.7%29.0%62.0%51.0%72.3%
Graphwalks bfs >128k19.0%15.0%2.9%-----
Graphwalks-Eltern <128k58.0%60.5%9.4%35.4%12.6%50.9%58.3%72.6%
Graphwalks-Eltern >128k25.0%11.0%5.6%-----
Vision Eval
KategorieGPT-4.1GPT-4.1 miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4o miniÖffneAI o1(hoch)ÖffneAI o3-mini(hoch)GPT-4.5
MMMU74.8%72.7%55.4%68.7%56.3%77.6%-75.2%
MathVista72.2%73.1%56.2%61.4%56.5%71.8%-72.3%
CharXiv-R56.7%56.8%40.5%52.7%36.8%55.1%-55.4%
CharXiv-D87.9%88.4%73.9%85.3%76.6%88.9%-90.0%
Funktionsaufruf Eval
KategorieGPT-4.1GPT-4.1 miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4o miniÖffneAI o1(hoch)ÖffneAI o3-mini(hoch)GPT-4.5
ComplexFuncBench65.5%49.3%0.6%66.5%38.6%47.6%17.6%63.0%
Taubench Fluggesellschaft449.4%36.0%14.0%42.8%22.0%50.0%32.4%50.0%
Taubench Einzelhandel4, 568.0%
(73.6%)
55.8%
(65.4%)
22.6%
(23.5%)
60.3%44.0%70.8%57.6%68.4%

[4] Die Tau-Bench-Evaluierungszahlen werden über 5 Läufe gemittelt, um die Varianz zu reduzieren, und ohne benutzerdefinierte Tools oder Eingabeaufforderungen ausgeführt.

[5] Die Zahlen in Klammern stellen die Tau-Bench-Ergebnisse dar, wenn GPT-4.1 als Benutzermodell anstelle von GPT-4o verwendet wird. Wir haben festgestellt, dass GPT-4.1 aufgrund seiner besseren Befehlsbefolgung besser als Benutzer agieren kann und somit zu erfolgreicheren Trajektorien führt. Wir gehen davon aus, dass dies die tatsächliche Leistung des evaluierten Modells im Benchmark widerspiegelt.

Statistik

Verwandte Navigation

暂无评论

keine
keine Kommentare...