API GPT4.1

Dernière mise à jour il y a 3 mois 690 00

Appels APIChatGPT4.1模型

Lieu:
加拿大
Langue:
zh,fr
Durée d'enregistrement :
2025-04-15
API GPT4.1API GPT4.1
API GPT4.1

Une nouvelle série de modèles GPT présentant des améliorations majeures en matière de codage, de suivi des instructions et de contexte long, ainsi que notre tout premier modèle nano. Disponible viaAPItransfert

Veuillez consulter l'article pour les instructions Première sortie !ChatGPT4.1 Guide complet d'utilisation locale – même pour les débutants et les ordinateurs ordinaires

Docker Desktop+webUI réalise de grands modèles,N8NGuide complet pour une utilisation locale

ChatGPT4.1 Introduction 

Aujourd'hui, nous lançons trois nouveaux modèles dans l'API : GPT‑4.1, GPT‑4.1 mini et GPT‑4.1 nano. Ces modèles surpassent globalement les GPT‑4o et GPT‑4o mini, avec des performances g majeures.ains en codage et suivi d'instructions. Ils disposent également de fenêtres contextuelles plus larges, prenant en charge jusqu'à 1 million de jetons de contexte, et sont capables de mieux exploiter ce contexte grâce à une meilleure compréhension du contexte long. Leur date limite de connaissances actualisée est fixée à juin 2024.

GPT‑4.1 excelle dans les mesures standard de l'industrie suivantes :

  • Codage:GPT‑4.1 obtient un score de 54.6 % sur Banc SWE Vérifié, s'améliorant de 21.4%Abdos sur GPT‑4o et 26.6%Abdos sur GPT-4.5, ce qui en fait un modèle de pointe pour le codage.
  • Instruction suivante : On Le MultiChallenge de Scale(Ouvre dans une nouvelle fenêtre) benchmark, une mesure de l'instruction suivant la capacité, les scores GPT-4.1 sont de 38.3 %, 10.5 %Abdos augmentation par rapport à GPT‑4o.
  • Contexte long : On Vidéo-MME(Ouvre dans une nouvelle fenêtre), une référence pour la compréhension de contextes longs multimodaux, GPT-4.1 établit un nouveau résultat de pointe, avec un score de 72.0 % dans la catégorie des longs, sans sous-titres, et de 6.7 % dans la catégorie des longs, sans sous-titres.Abdos amélioration par rapport à GPT‑4o.

Si les benchmarks fournissent des informations précieuses, nous avons entraîné ces modèles en nous concentrant sur leur utilité concrète. Une étroite collaboration et un partenariat avec la communauté des développeurs nous ont permis d'optimiser ces modèles pour les tâches les plus importantes pour leurs applications.

À cette fin, la famille de modèles GPT-4.1 offre des performances exceptionnelles à moindre coût. Ces modèles optimisent les performances à chaque point de la courbe de latence.

API GPT4.1

GPT‑4.1 mini représente une avancée significative en matière de performances des petits modèles, surpassant même GPT‑4o dans de nombreux benchmarks. Il égale ou dépasse GPT‑4o en termes d'évaluations d'intelligence, tout en réduisant la latence de près de moitié et les coûts de 83 %.

Pour les tâches exigeant une faible latence, GPT‑4.1 nano est notre modèle le plus rapide et le plus économique. Il offre des performances exceptionnelles malgré sa petite taille grâce à sa fenêtre contextuelle d'un million de jetons, et obtient des scores de 1 % en MMLU, 80.1 % en GPQA et 50.3 % en codage polyglotte Aider, soit des scores encore supérieurs à ceux de GPT‑9.8o mini. Il est idéal pour des tâches comme la classification ou l'autocomplétion.

Ces améliorations en termes de fiabilité du suivi des instructions et de compréhension du contexte long rendent également les modèles GPT-4.1 considérablement plus efficaces pour alimenter les agents, ou les systèmes capables d'accomplir des tâches de manière autonome pour le compte des utilisateurs. Associés à des primitives telles que API de réponses(Ouvre dans une nouvelle fenêtre), les développeurs peuvent désormais créer des agents plus utiles et plus fiables dans l'ingénierie logicielle du monde réel, en extrayant des informations à partir de documents volumineux, en résolvant les demandes des clients avec un minimum d'assistance et en effectuant d'autres tâches complexes.

Notez que GPT-4.1 ne sera disponible que via l'API. ChatGPT, de nombreuses améliorations apportées au suivi des instructions, au codage et à l’intelligence ont été progressivement intégrées dans le dernière version(Ouvre dans une nouvelle fenêtre) de GPT-4o, et nous continuerons d’en intégrer davantage dans les versions futures.

Nous allons également commencer à déprécier GPT‑4.5 Preview dans l'API, car GPT‑4.1 offre des performances améliorées ou similaires sur de nombreuses fonctionnalités clés, à un coût et une latence bien inférieurs. GPT‑4.5 Preview sera désactivé dans trois mois, le 14 juillet 2025, afin de permettre aux développeurs d'effectuer la transition. GPT‑4.5 était introduit Nous avons ainsi pu explorer et expérimenter un modèle volumineux et gourmand en ressources de calcul. Les retours des développeurs nous ont beaucoup appris. Nous continuerons d'intégrer la créativité, la qualité rédactionnelle, l'humour et les nuances que vous avez appréciées dans GPT‑4.5 dans les futurs modèles d'API.

Ci-dessous, nous analysons les performances de GPT-4.1 sur plusieurs benchmarks, ainsi que des exemples de testeurs alpha tels que Windsurf, Qodo, Hex, Blue J, Thomson Reuters et Carlyle qui illustrent ses performances en production sur des tâches spécifiques au domaine.

Codage

GPT‑4.1 est nettement meilleur que GPT‑4o dans une variété de tâches de codage, notamment la résolution de tâches de codage de manière agentive, le codage frontal, la réduction des modifications superflues, le suivi fiable des formats de différence, la garantie d'une utilisation cohérente des outils, et bien plus encore.

Sur SWE-bench Verified, une mesure des compétences concrètes en ingénierie logicielle, GPT‑4.1 réalise 54.6 % des tâches, contre 33.2 % pour GPT‑4o (2024/11/20). Cela reflète une amélioration de la capacité du modèle à explorer un référentiel de code, à terminer une tâche et à produire du code qui exécute et réussit les tests.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (élevé)OuvertAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4o mini55%33%41%49%38%24%9%SWE‑bench Verified accuracy

Pour Banc SWE VérifiéUn modèle reçoit un dépôt de code et une description du problème, et doit générer un correctif pour le résoudre. Les performances dépendent fortement des invites et des outils utilisés. Pour faciliter la reproduction et la contextualisation de nos résultats, nous décrivons notre configuration pour GPT‑4.1. here.(Ouvre dans une nouvelle fenêtre)Nos scores omettent 23 des 500 problèmes dont les solutions ne pouvaient pas fonctionner sur notre infrastructure ; si ceux-ci sont notés de manière conservatrice à 0, le score de 54.6 % devient 52.1 %.

Pour les développeurs d'API souhaitant modifier des fichiers volumineux, GPT‑4.1 est beaucoup plus fiable pour les différences de code entre différents formats. GPT‑4.1 double plus que le score de GPT‑4o sur Benchmark polyglotte d'Aider(Ouvre dans une nouvelle fenêtre), et bat même GPT-4.5 de 8 %Abs.Cette évaluation mesure à la fois les capacités de codage dans différents langages de programmation et la capacité du modèle à produire des modifications aux formats complet et différentiel. Nous avons spécifiquement entraîné GPT‑4.1 à suivre les formats différentiels de manière plus fiable, ce qui permet aux développeurs de réduire les coûts et la latence en ne modifiant que les lignes de sortie du modèle, plutôt que de réécrire un fichier entier. Pour des performances optimales en matière de différentiel de code, veuillez consulter notre guide d'invite(Ouvre dans une nouvelle fenêtre)Pour les développeurs qui préfèrent réécrire des fichiers entiers, nous avons augmenté la limite de jetons de sortie pour GPT‑4.1 à 32,768 16,384 jetons (contre 4 XNUMX pour GPT‑XNUMXo). Nous recommandons également l'utilisation de Résultats prévus(Ouvre dans une nouvelle fenêtre) pour réduire la latence des réécritures complètes de fichiers.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (élevé)OuvertAI o3-mini (élevé)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini52 % (entier)53 % (diff)31 % (entier)18 % (diff)64 % (entier)62 % (diff)67 % (entier)60 % (diff)35 % (entier)32 % (diff)10 % (entier)6 % (diff)4 % (entier)3 % (diff)N/A (entier)45 % (diff)Précision du benchmark polyglotte d'Aider

Dans le benchmark polyglotte d'Aider, les modèles résolvent des exercices de codage à partir de Exercice(Ouvre dans une nouvelle fenêtre) en modifiant les fichiers sources, avec une seule tentative autorisée. Le format « whole » nécessite que le modèle réécrive l'intégralité du fichier, ce qui peut être lent et coûteux. Le format « diff » nécessite que le modèle écrive une série de rechercher/remplacer des blocs(Ouvre dans une nouvelle fenêtre).

GPT‑4.1 améliore également considérablement le codage front-end de GPT‑4o et permet de créer des applications web plus fonctionnelles et plus esthétiques. Lors de nos comparaisons directes, les évaluateurs humains rémunérés ont évalué les sites web de GPT‑4.1 plus souvent que ceux de GPT‑4o dans 80 % des cas.

Rapide: Créez une application web de flashcards. L'utilisateur doit pouvoir créer des flashcards, effectuer des recherches parmi ses flashcards existantes, les réviser et consulter les statistiques sur les flashcards révisées. Préchargez dix cartes contenant un mot ou une expression hindi et sa traduction anglaise. Interface de révision : Dans l'interface de révision, cliquez ou appuyez sur la barre d'espace pour faire pivoter la carte et afficher la traduction en 3D. Appuyez sur les touches fléchées pour naviguer entre les cartes. Interface de recherche : La barre de recherche doit afficher dynamiquement une liste de résultats au fur et à mesure que l'utilisateur saisit une requête. Interface de statistiques : La page de statistiques doit afficher un graphique du nombre de cartes révisées par l'utilisateur et du pourcentage de réponses correctes. Interface de création de cartes : La page de création de cartes doit permettre à l'utilisateur de spécifier le recto et le verso d'une flashcard et de l'ajouter à sa collection. Chacune de ces interfaces doit être accessible dans la barre latérale. Générez une application React monopage (intégrez tous les styles).

 

GPT-4o

 

GPT-4.1

Au-delà des tests ci-dessus, GPT‑4.1 est plus fiable dans le suivi des formats et effectue moins fréquemment des modifications superflues. Lors de nos évaluations internes, les modifications superflues du code sont passées de 9 % avec GPT‑4o à 2 % avec GPT‑4.1.

Exemples du monde réel

Planche à voile(Ouvre dans une nouvelle fenêtre)GPT‑4.1 obtient un score 60 % supérieur à celui de GPT‑4o au benchmark de codage interne de Windsurf, ce qui est fortement corrélé à la fréquence d'acceptation des modifications de code dès la première revue. Les utilisateurs ont constaté une efficacité 30 % supérieure dans l'appel d'outils et une probabilité environ 50 % inférieure de répéter des modifications inutiles ou de lire le code par étapes trop étroites et incrémentielles. Ces améliorations se traduisent par des itérations plus rapides et des flux de travail plus fluides pour les équipes d'ingénierie.

Qodo(Ouvre dans une nouvelle fenêtre)Qodo a comparé GPT‑4.1 à d'autres modèles leaders pour générer des revues de code de haute qualité à partir de requêtes de tirage GitHub, en utilisant une méthodologie inspirée de leur benchmark de réglage fin. Sur 200 requêtes de tirage significatives, issues du monde réel et présentant les mêmes invites et conditions, ils ont constaté que GPT‑4.1 produisait la meilleure suggestion. 55% des cas(Ouvre dans une nouvelle fenêtre). Ils ont notamment constaté que GPT-4.1 excelle à la fois en termes de précision (savoir quand ne pas faire de suggestions) et d’exhaustivité (fournir une analyse approfondie lorsque cela est justifié), tout en maintenant l’accent sur les questions véritablement critiques.

Instruction suivante

GPT-4.1 suit les instructions de manière plus fiable et nous avons mesuré des améliorations significatives dans une variété d'instructions après les évaluations.

Nous avons développé une évaluation interne du suivi des instructions afin de suivre les performances du modèle sur un certain nombre de dimensions et dans plusieurs catégories clés du suivi des instructions, notamment :

  • Format suivant. Fournir des instructions spécifiant un format personnalisé pour la réponse du modèle, tel que XML, YAML, Markdown, etc.
  • Instructions négatives. Spécifier le comportement à éviter par le modèle. (Exemple : « Ne pas demander à l'utilisateur de contacter le support »)
  • Instructions ordonnées. Fournir un ensemble d'instructions que le modèle doit suivre dans un ordre donné. (Exemple : « Demander d'abord le nom de l'utilisateur, puis son adresse e-mail. »)
  • Exigences en matière de contenu. Production de contenu incluant certaines informations. (Exemple : « Toujours inclure la quantité de protéines dans un plan nutritionnel »)
  • Classement. Classer les résultats d'une manière particulière. (Exemple : « Trier la réponse par nombre d'habitants »)
  • Trop de confiance. Demander au modèle de répondre « Je ne sais pas » ou une réponse similaire si l'information demandée n'est pas disponible ou si la demande n'entre pas dans une catégorie donnée. (Exemple : « Si vous ne connaissez pas la réponse, indiquez l'adresse e-mail du support. »)

Ces catégories sont le fruit des retours des développeurs concernant les aspects des instructions qui leur semblent les plus pertinents et importants. Au sein de chaque catégorie, nous avons divisé les sujets en sujets faciles, moyens et difficiles. GPT‑4.1 est nettement supérieur à GPT‑4o, notamment pour les sujets difficiles.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (élevé)OuvertAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini49%29%51%50%54%45%32%27%Internal OpenAI Instructions suivant la précision de l'évaluation (sous-ensemble dur)

Nos instructions internes suivant l'évaluation sont basées sur des cas d'utilisation réels de développeurs et des commentaires, couvrant des tâches de complexité variable associées à des instructions sur le formatage, la verbosité, la longueur, etc.

Le suivi d'instructions multi-tours est essentiel pour de nombreux développeurs : il est essentiel que le modèle maintienne sa cohérence au cours d'une conversation et conserve la trace des informations précédentes. Nous avons entraîné GPT‑4.1 à mieux extraire les informations des messages précédents, favorisant ainsi des échanges plus naturels. Le benchmark MultiChallenge de Scale est une mesure utile de cette capacité, et GPT‑4.1 obtient un score de 10.5 %.Abdos meilleur que GPT‑4o.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (élevé)OuvertAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini38%28%45%40%44%36%15%20%MultiChallenge accuracy

In MultiChallenge(Ouvre dans une nouvelle fenêtre), les modèles sont mis au défi lors de conversations à plusieurs tours d'utiliser correctement quatre types d'informations provenant de messages précédents.

GPT-4.1 obtient également un score de 87.4 % à l'IFEval, contre 81.0 % pour GPT-4o. IFEval utilise des invites avec des instructions vérifiables (par exemple, préciser la longueur du contenu ou éviter certains termes ou formats).

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (élevé)OuvertAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini87%81%92%94%88%84%75%78%IFEval accuracy

In Évaluation de l'IFE(Ouvre dans une nouvelle fenêtre), les modèles doivent générer des réponses conformes à diverses instructions.

Un meilleur suivi des instructions rend les applications existantes plus fiables et permet de nouvelles applications auparavant limitées par une fiabilité insuffisante. Les premiers testeurs ont remarqué que GPT‑4.1 peut être plus littéral ; nous recommandons donc d'être explicites et précis dans les invites. Pour en savoir plus sur les bonnes pratiques d'invite pour GPT‑4.1, veuillez consulter le guide des invites.

Exemples du monde réel

Bleu J(Ouvre dans une nouvelle fenêtre)GPT‑4.1 s'est avéré 53 % plus précis que GPT‑4o lors d'un benchmark interne des scénarios fiscaux réels les plus complexes de Blue J. Ce gain de précision, essentiel à la fois aux performances du système et à la satisfaction des utilisateurs, souligne la meilleure compréhension de GPT‑4.1 des réglementations complexes et sa capacité à suivre des instructions nuancées sur de longues périodes. Pour les utilisateurs de Blue J, cela signifie des recherches fiscales plus rapides et plus fiables, et plus de temps pour des missions de conseil à forte valeur ajoutée.

Hex(Ouvre dans une nouvelle fenêtre):GPT‑4.1 a apporté une amélioration de près de 2 fois supérieure à celle du jeu le plus difficile de Hex Ensemble d'évaluation SQL,(Ouvre dans une nouvelle fenêtre) Ce modèle a permis des gains significatifs en termes de suivi des instructions et de compréhension sémantique. Il s'est avéré plus fiable dans la sélection des tables appropriées parmi des schémas volumineux et ambigus, un point de décision en amont qui impacte directement la précision globale et est difficile à ajuster par la seule sollicitation. Pour Hex, cela a entraîné une réduction mesurable du débogage manuel et un accès plus rapide à des workflows de qualité production.

Contexte long

GPT‑4.1, GPT‑4.1 mini et GPT‑4.1 nano peuvent traiter jusqu'à 1 million de jetons de contexte, contre 128,000 4 pour les modèles GPT‑1o précédents. 8 million de jetons représente plus de XNUMX copies de l'ensemble de la base de code React. Le contexte long est donc idéal pour traiter de grandes bases de code ou de nombreux documents longs.

Nous avons entraîné GPT-4.1 à traiter les informations de manière fiable sur l'ensemble du contexte (1 million de lignes). Nous l'avons également entraîné à être bien plus fiable que GPT-4o pour détecter le texte pertinent et ignorer les éléments de distraction, que le contexte soit long ou court. La compréhension d'un contexte long est une capacité essentielle pour les applications dans les domaines juridique, du codage, du support client et bien d'autres.

Ci-dessous, nous démontrons la capacité de GPT‑4.1 à récupérer une petite information cachée (une « aiguille ») positionnée à différents endroits de la fenêtre contextuelle. GPT‑4.1 récupère l'aiguille avec précision et constance, à toutes les positions et pour toutes les longueurs de contexte, jusqu'à 1 million de jetons. Il est capable d'extraire efficacement les détails pertinents pour la tâche en cours, quelle que soit leur position dans l'entrée.

API GPT4.1

Dans notre évaluation interne d'aiguille dans une botte de foin, GPT‑4.1, GPT‑4.1 mini et GPT 4.1 nano sont tous capables de récupérer l'aiguille à toutes les positions du contexte jusqu'à 1 M.

Cependant, peu de tâches concrètes sont aussi simples que de trouver une réponse unique et évidente. Nous constatons que les utilisateurs ont souvent besoin de nos modèles pour extraire et comprendre plusieurs informations, et les associer les unes aux autres. Pour illustrer cette capacité, nous mettons en open source une nouvelle évaluation : OpenAI-MRCR (Multi-Round Coreference).

OpenAI-MRCR teste la capacité du modèle à identifier et à lever l'ambiguïté de plusieurs aiguilles bien dissimulées dans le contexte. L'évaluation consiste en des conversations synthétiques à plusieurs tours entre un utilisateur et un assistant, où l'utilisateur demande un texte sur un sujet précis, par exemple « écrire un poème sur les tapirs » ou « écrire un article de blog sur les roches ». Nous insérons ensuite deux, quatre ou huit requêtes identiques dans le contexte. Le modèle doit ensuite récupérer la réponse correspondant à une instance spécifique (par exemple, « donne-moi le troisième poème sur les tapirs »).

Le défi réside dans la similitude entre ces requêtes et le reste du contexte : les modèles peuvent facilement être induits en erreur par des différences subtiles, comme une nouvelle sur les tapirs plutôt qu'un poème, ou un poème sur les grenouilles plutôt que sur les tapirs. Nous constatons que GPT‑4.1 surpasse GPT‑4o pour des longueurs de contexte allant jusqu'à 128 1 jetons et conserve d'excellentes performances même jusqu'à XNUMX million de jetons.

Mais la tâche reste ardue, même pour les modèles de raisonnement avancés. Nous partageons ensemble de données d'évaluation(Ouvre dans une nouvelle fenêtre) pour encourager des travaux supplémentaires sur la recherche de contextes longs dans le monde réel.

API GPT4.1

In OpenAI-MRCR(Ouvre dans une nouvelle fenêtre), le modèle doit répondre à une question qui implique de lever l'ambiguïté entre 2, 4 ou 8 invites utilisateur dispersées parmi les distracteurs.

Nous publions également Promenades graphiques(Ouvre dans une nouvelle fenêtre), un ensemble de données permettant d'évaluer le raisonnement multi-sauts en contexte long. De nombreux cas d'utilisation de contexte long par les développeurs nécessitent plusieurs sauts logiques au sein du contexte, comme le passage d'un fichier à l'autre lors de l'écriture de code ou le référencement croisé de documents pour répondre à des questions juridiques complexes.

Un modèle (ou même un humain) pourrait théoriquement résoudre un problème OpenAI-MRCR en effectuant un seul passage ou une lecture de l'invite, mais Graphwalks est conçu pour nécessiter un raisonnement sur plusieurs positions dans le contexte et ne peut pas être résolu séquentiellement.

Graphwalks remplit la fenêtre contextuelle avec un graphe orienté composé de hachages hexadécimaux, puis demande au modèle d'effectuer une recherche en largeur (BFS) à partir d'un nœud aléatoire du graphe. Nous lui demandons ensuite de renvoyer tous les nœuds à une certaine profondeur. GPT‑4.1 atteint une précision de 61.7 % sur ce benchmark, égalant ainsi les performances de o1 et surpassant largement GPT‑4o.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (élevé)OuvertAI o3-mini (élevé)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini62%42%62%51%72%62%25%29%Graphwalks BFS <128k précision

In Promenades graphiques(Ouvre dans une nouvelle fenêtre), on demande à un modèle d'effectuer une recherche en largeur à partir d'un nœud aléatoire dans un grand graphique.

Les benchmarks ne disent pas tout, nous avons donc travaillé avec des partenaires alpha pour tester les performances de GPT-4.1 sur leurs tâches de contexte long du monde réel.

Exemples du monde réel

Thomson Reuters:(Ouvre dans une nouvelle fenêtre) Thomson Reuters a testé GPT-4.1 avec CoCounsel, leur plateforme de test de qualité professionnelle AI Assistant juridique. Comparé à GPT-4o, ils ont pu améliorer de 17 % la précision de l'analyse multidocument grâce à GPT-4.1 dans le cadre de tests internes de contexte long, une mesure essentielle de la capacité de CoCounsel à gérer des flux de travail juridiques complexes impliquant de nombreux documents volumineux. Ils ont notamment constaté que le modèle était très fiable pour maintenir le contexte entre les sources et identifier avec précision les relations nuancées entre les documents, telles que les clauses contradictoires ou le contexte supplémentaire, des tâches essentielles à l'analyse juridique et à la prise de décision.

Carlyle(Ouvre dans une nouvelle fenêtre)Carlyle a utilisé GPT-4.1 pour extraire avec précision des données financières granulaires issues de nombreux documents volumineux, notamment des fichiers PDF, Excel et autres formats complexes. D'après ses évaluations internes, ce modèle a obtenu des performances 50 % supérieures pour la récupération de documents très volumineux contenant des données denses. Il a été le premier à surmonter avec succès les principales limitations rencontrées avec d'autres modèles disponibles, notamment la récupération par erreur, les erreurs de type « perdues au milieu » et le raisonnement multi-sauts entre documents.

Outre les performances et la précision des modèles, les développeurs ont également besoin de modèles réactifs pour s'adapter aux besoins des utilisateurs. Nous avons amélioré notre pile d'inférence afin de réduire le délai d'obtention du premier jeton. Grâce à la mise en cache rapide, vous pouvez encore réduire la latence tout en réduisant les coûts. Lors de nos premiers tests, la latence d'obtention du premier jeton pour GPT‑4.1 était d'environ quinze secondes avec 128,000 4.1 jetons de contexte, et d'une minute pour un million de jetons de contexte. GPT‑4.1 mini et nano sont plus rapides ; par exemple, GPT‑128,000 nano renvoie généralement le premier jeton en moins de cinq secondes pour les requêtes contenant XNUMX XNUMX jetons d'entrée.

Visionnaires

La famille GPT-4.1 est exceptionnellement performante en matière de compréhension d'images, le GPT-4.1 mini en particulier représentant un bond en avant significatif, battant souvent le GPT-4o sur les benchmarks d'images.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini75%69%78%75%73%55%56%MMMU accuracy

In MMMU(Ouvre dans une nouvelle fenêtre), un modèle répond à des questions contenant des graphiques, des diagrammes, des cartes, etc. (Remarque : même lorsque l'image n'est pas incluse, de nombreuses réponses peuvent toujours être déduites ou devinées à partir du contexte.)

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini72%61%72%72%73%56%57%MathVista accuracy

In MathVista(Ouvre dans une nouvelle fenêtre), un modèle résout des tâches mathématiques visuelles.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini57%53%55%55%57%41%37%CharXiv-Reasoning accuracy

In CharXiv-Raisonnement(Ouvre dans une nouvelle fenêtre), un modèle répond à des questions sur les graphiques d'articles scientifiques.

Les performances en contexte long sont également importantes pour les cas d'utilisation multimodaux, tels que le traitement de longues vidéos. Vidéo-MME⁠(Ouvre dans une nouvelle fenêtre) (long sans sous-titres), un modèle répond à des questions à choix multiples basées sur des vidéos de 30 à 60 minutes sans sous-titres. GPT‑4.1 atteint des performances de pointe, obtenant un score de 72.0 %, contre 65.3 % pour GPT‑4o.

GPT-4.1GPT-4o (2024-11-20)72%65%Video long context

In Vidéo-MME(Ouvre dans une nouvelle fenêtre), un modèle répond à des questions à choix multiples basées sur des vidéos de 30 à 60 minutes sans sous-titres.

Prix

GPT‑4.1, GPT‑4.1 mini et GPT‑4.1 nano sont désormais disponibles pour tous les développeurs.

Grâce à l'amélioration de l'efficacité de nos systèmes d'inférence, nous avons pu proposer des prix plus bas sur la série GPT‑4.1. GPT‑4.1 est 26 % moins cher que GPT‑4o pour les requêtes médianes, et GPT‑4.1 nano est notre modèle le plus économique et le plus rapide à ce jour. Pour les requêtes qui utilisent le même contexte de manière répétée, nous augmentons la réduction de mise en cache des invites à 75 % (contre 50 % auparavant) pour ces nouveaux modèles. Enfin, nous proposons des requêtes à contexte long sans frais supplémentaires, au-delà du coût standard par jeton.

Modèle
(Les prix sont par 1M de jetons)
EntréeEntrée mise en cacheSortieTarification mixte*
gpt-4.1$2.00$0.50$8.00$1.84
gpt-4.1-mini$0.40$0.10$1.60$0.42
gpt-4.1-nano$0.10$0.025$0.40$0.12

*Basé sur des ratios d'entrée/sortie et de cache typiques.

Ces modèles sont disponibles pour une utilisation dans notre API par lots(Ouvre dans une nouvelle fenêtre) avec une remise supplémentaire de 50 % sur les prix.

Conclusion

GPT-4.1 constitue une avancée significative dans l’application pratique de AIEn se concentrant sur les besoins réels des développeurs, du codage au suivi des instructions et à la compréhension du contexte, ces modèles ouvrent de nouvelles possibilités pour la création de systèmes intelligents et d'applications agentiques sophistiquées. Nous sommes constamment inspirés par la créativité de la communauté des développeurs et sommes impatients de découvrir ce que vous créerez avec GPT‑4.1.

Appendice

Une liste complète des résultats des évaluations académiques, de codage, de suivi des instructions, de contexte long, de vision et d'appel de fonctions est disponible ci-dessous.

Connaissance académique
CatégoriesGPT-4.1GPT-4.1 miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4o miniOpenAI o1(haute)OpenAI o3-mini(haute)GPT-4.5
AIME '2448.1%49.6%29.4%13.1%8.6%74.3%87.3%36.7%
GPQA Diamant166.3%65.0%50.3%46.0%40.2%75.7%77.2%69.5%
MMLU90.2%87.5%80.1%85.7%82.0%91.8%86.9%90.8%
MMLU multilingue87.3%78.5%66.9%81.4%70.5%87.7%80.7%85.1%

[1] Notre implémentation de GPQA utilise un modèle pour extraire la réponse plutôt qu'une expression régulière. Pour GPT-4.1, la différence était inférieure à 1 % (non statistiquement significative), mais pour GPT-4, l'extraction du modèle améliore significativement les scores (~46 % -> 54 %).

Évaluations de codage
CatégoriesGPT-4.1GPT-4.1 miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4o miniOpenAI o1(haute)OpenAI o3-mini(haute)GPT-4.5
Banc SWE Vérifié254.6%23.6%-33.2%8.7%41.0%49.3%38.0%
SWE-Lancer176K $
(35.1%)
165K $
(33.0%)
77K $
(15.3%)
163K $
(32.6%)
116K $
(23.1%)
160K $
(32.1%)
90K $
(18.0%)
186K $
(37.3%)
SWE-Lancer (sous-ensemble IC-Diamond)34K $
(14.4%)
31K $
(13.1%)
9K $
(3.7%)
29K $
(12.4%)
11K $
(4.8%)
29K $
(9.7%)
17K $
(7.4%)
41K $
(17.4%)
Polyglotte d'Aider : entier51.6%34.7%9.8%30.7%3.6%64.6%66.7%-
Polyglotte d'Aider : diff52.9%31.6%6.2%18.2%2.7%61.7%60.4%44.9%

[2] Nous omettons 23/500 problèmes qui ne pourraient pas fonctionner sur notre infrastructure. La liste complète des 23 tâches omises sont 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' et 'sphinx-doc__sphinx-9367'.

Instruction après évaluation
CatégoriesGPT-4.1GPT-4.1 miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4o miniOpenAI o1(haute)OpenAI o3-mini(haute)GPT-4.5
Instruction API interne suivante (difficile)49.1%45.1%31.6%29.2%27.2%51.3%50.0%54.0%
MultiChallenge38.3%35.8%15.0%27.8%20.3%44.9%39.9%43.8%
MultiChallenge (niveleuse o3-mini)346.2%42.2%31.1%39.9%25.6%52.9%50.2%50.1%
Collie65.8%54.6%42.5%50.2%52.7%95.3%98.7%72.3%
Évaluation de l'IFE87.4%84.1%74.5%81.0%78.4%92.2%93.9%88.2%
Multi-IF70.8%67.0%57.2%60.9%57.9%77.9%79.5%70.8%

[3] Remarque : nous constatons que le correcteur par défaut de MultiChallenge (GPT-4o) donne souvent des notes erronées aux réponses du modèle. Nous constatons que le remplacement du correcteur par un modèle de raisonnement, comme o3-mini, améliore considérablement la précision de la notation des échantillons que nous avons inspectés. Par souci de cohérence avec le classement, nous publions les deux séries de résultats.

Évaluations contextuelles longues
CatégoriesGPT-4.1GPT-4.1 miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4o miniOpenAI o1(haute)OpenAI o3-mini(haute)GPT-4.5
OpenAI-MRCR : 2 aiguilles 128 k57.2%47.2%36.6%31.9%24.5%22.1%18.7%38.5%
OpenAI-MRCR : 2 aiguilles 1 M46.3%33.3%12.0%-----
Graphwalks bfs < 128k61.7%61.7%25.0%41.7%29.0%62.0%51.0%72.3%
Graphwalks bfs >128k19.0%15.0%2.9%-----
Parents de Graphwalks <128k58.0%60.5%9.4%35.4%12.6%50.9%58.3%72.6%
Parents de Graphwalks >128k25.0%11.0%5.6%-----
Évaluation de la vision
CatégoriesGPT-4.1GPT-4.1 miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4o miniOpenAI o1(haute)OpenAI o3-mini(haute)GPT-4.5
MMMU74.8%72.7%55.4%68.7%56.3%77.6%-75.2%
MathVista72.2%73.1%56.2%61.4%56.5%71.8%-72.3%
CharXiv-R56.7%56.8%40.5%52.7%36.8%55.1%-55.4%
CharXiv-D87.9%88.4%73.9%85.3%76.6%88.9%-90.0%
Fonction d'appel Eval
CatégoriesGPT-4.1GPT-4.1 miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4o miniOpenAI o1(haute)OpenAI o3-mini(haute)GPT-4.5
ComplexFuncBench65.5%49.3%0.6%66.5%38.6%47.6%17.6%63.0%
Compagnie aérienne Taubench449.4%36.0%14.0%42.8%22.0%50.0%32.4%50.0%
Vente au détail de Taubench4, 568.0%
(73.6%)
55.8%
(65.4%)
22.6%
(23.5%)
60.3%44.0%70.8%57.6%68.4%

[4] Les nombres d'évaluation tau-bench sont moyennés sur 5 exécutions pour réduire la variance et exécutés sans aucun outil personnalisé ni invite.

[5] Les chiffres entre parenthèses représentent les résultats du banc Tau lors de l'utilisation de GPT-4.1 comme modèle utilisateur, plutôt que de GPT-4o. Nous avons constaté que, comme GPT-4.1 suit mieux les instructions, il est plus performant en tant qu'utilisateur et génère ainsi des trajectoires plus performantes. Nous pensons que cela représente la véritable performance du modèle évalué lors du benchmark.

Statistiques

Navigation associée

Plus de traductions en contexte:

aucun
Sans commentaires...