
Una nuova serie di modelli GPT con importanti miglioramenti nella codifica, nel seguire le istruzioni e nel contesto esteso, oltre al nostro primo modello nano in assoluto. Disponibile tramiteAPItrasferimento
Per le istruzioni, consultare l'articolo Prima uscita!ChatGPT4.1 Guida completa all'uso locale, anche per principianti e computer normali
ChatGPT4.1 Introduzione
Oggi lanciamo tre nuovi modelli nell'API: GPT-4.1, GPT-4.1 mini e GPT-4.1 nano. Questi modelli superano GPT-4o e GPT-4o mini in tutti gli aspetti, con notevoli miglioramenti nella codifica e nel rispetto delle istruzioni. Hanno anche finestre di contesto più ampie, supportando fino a 1 milione di token di contesto, e sono in grado di utilizzare meglio tale contesto con una migliore comprensione del contesto esteso. Presentano un limite di conoscenza aggiornato a giugno 2024.
GPT‑4.1 eccelle nei seguenti standard di settore:
- codifica: GPT‑4.1 ottiene il 54.6% su Banco SWE verificato, migliorando di abs su GPT‑4o e 26.6%abs rispetto a GPT-4.5, rendendolo un modello leader per la codifica.
- Istruzioni seguenti: On MultiChallenge di Scale(Si apre in una nuova finestra) benchmark, una misura della capacità di seguire l'istruzione, punteggi GPT‑4.1 38.3%, un 10.5%abs aumento rispetto a GPT‑4o.
- Contesto lungo: On Video-MME(Si apre in una nuova finestra), un punto di riferimento per la comprensione di contesti lunghi multimodali, GPT‑4.1 stabilisce un nuovo risultato all'avanguardia, ottenendo un punteggio del 72.0% nella categoria dei contenuti lunghi e senza sottotitoli, un 6.7%abs miglioramento rispetto a GPT‑4o.
Sebbene i benchmark forniscano informazioni preziose, abbiamo addestrato questi modelli concentrandoci sull'utilità pratica. La stretta collaborazione e partnership con la community di sviluppatori ci ha permesso di ottimizzare questi modelli per le attività più importanti per le loro applicazioni.
A tal fine, la famiglia di modelli GPT-4.1 offre prestazioni eccezionali a un costo inferiore. Questi modelli migliorano le prestazioni in ogni punto della curva di latenza.

GPT-4.1 mini rappresenta un significativo passo avanti nelle prestazioni dei modelli di piccole dimensioni, superando persino GPT-4o in molti benchmark. Eguaglia o supera GPT-4o nelle valutazioni di intelligence, riducendo al contempo la latenza di quasi la metà e i costi dell'83%.
Per attività che richiedono bassa latenza, GPT-4.1 nano è il nostro modello più veloce ed economico disponibile. Offre prestazioni eccezionali in dimensioni ridotte grazie alla sua finestra di contesto di 1 milione di token e ottiene un punteggio dell'80.1% in MMLU, del 50.3% in GPQA e del 9.8% nella codifica poliglotta Aider, persino superiore a GPT-4o mini. È ideale per attività come la classificazione o il completamento automatico.
Questi miglioramenti nell'affidabilità del seguito di istruzioni e nella comprensione del contesto esteso rendono inoltre i modelli GPT-4.1 considerevolmente più efficaci nel supportare agenti, ovvero sistemi in grado di svolgere autonomamente compiti per conto degli utenti. In combinazione con primitive come API delle risposte(Si apre in una nuova finestra), gli sviluppatori possono ora creare agenti più utili e affidabili per l'ingegneria del software nel mondo reale, estraendo informazioni da documenti di grandi dimensioni, risolvendo le richieste dei clienti con un supporto minimo e svolgendo altre attività complesse.
Si noti che GPT‑4.1 sarà disponibile solo tramite API. In ChatGPT, molti dei miglioramenti nell'istruzione, nella codifica e nell'intelligenza sono stati gradualmente incorporati nel ultima versione(Si apre in una nuova finestra) di GPT‑4o e continueremo a incorporarne altri nelle versioni future.
Inizieremo anche a rimuovere l'anteprima di GPT-4.5 dall'API, poiché GPT-4.1 offre prestazioni migliorate o simili su molte funzionalità chiave a costi e latenza molto inferiori. L'anteprima di GPT-4.5 verrà disattivata tra tre mesi, il 14 luglio 2025, per consentire agli sviluppatori di effettuare la transizione. GPT-4.5 era introdotto Come anteprima di ricerca per esplorare e sperimentare un modello ampio e ad alta intensità di calcolo, abbiamo imparato molto dal feedback degli sviluppatori. Continueremo a portare avanti la creatività, la qualità della scrittura, l'umorismo e le sfumature che ci avete detto di apprezzare in GPT-4.5 nei futuri modelli API.
Di seguito analizziamo le prestazioni di GPT‑4.1 in diversi benchmark, insieme ad esempi di tester alpha come Windsurf, Qodo, Hex, Blue J, Thomson Reuters e Carlyle che mostrano le sue prestazioni in produzione su attività specifiche del dominio.
codifica
GPT‑4.1 è significativamente migliore di GPT‑4o in una varietà di attività di codifica, tra cui la risoluzione di attività di codifica in modo agente, la codifica frontend, l'esecuzione di meno modifiche estranee, il rispetto affidabile dei formati diff, la garanzia di un utilizzo coerente degli strumenti e altro ancora.
Secondo SWE-bench Verified, un sistema di valutazione delle competenze di ingegneria del software nel mondo reale, GPT-4.1 completa il 54.6% delle attività, rispetto al 33.2% di GPT-4o (2024/11/20). Ciò riflette i miglioramenti nella capacità del modello di esplorare un repository di codice, completare un'attività e produrre codice che funzioni e superi i test.
Per gli sviluppatori di API che desiderano modificare file di grandi dimensioni, GPT-4.1 è molto più affidabile nelle differenze di codice su una vasta gamma di formati. GPT-4.1 più che raddoppia il punteggio di GPT-4o su Il benchmark delle differenze poliglotte di Aider(Si apre in una nuova finestra)e supera persino GPT‑4.5 dell'8%abs.Questa valutazione è sia una misura delle capacità di codifica in diversi linguaggi di programmazione, sia una misura della capacità del modello di produrre modifiche nei formati whole e diff. Abbiamo addestrato specificamente GPT-4.1 per seguire i formati diff in modo più affidabile, il che consente agli sviluppatori di risparmiare sia sui costi che sulla latenza, poiché il modello restituisce solo le righe modificate, anziché riscrivere un intero file. Per le migliori prestazioni di diff del codice, consulta il nostro guida di suggerimento(Si apre in una nuova finestra)Per gli sviluppatori che preferiscono riscrivere interi file, abbiamo aumentato i limiti dei token di output per GPT-4.1 a 32,768 token (rispetto ai 16,384 token di GPT-4o). Consigliamo inoltre di utilizzare Risultati previsti(Si apre in una nuova finestra) per ridurre la latenza delle riscritture complete dei file.
GPT-4.1 migliora sostanzialmente anche la codifica frontend rispetto a GPT-4o, consentendo di creare applicazioni web più funzionali ed esteticamente più gradevoli. Nei nostri confronti diretti, i valutatori umani retribuiti hanno valutato i siti web realizzati con GPT-4.1 rispetto a quelli realizzati con GPT-4o nell'80% dei casi.
GPT‑4o
GPT-4.1
Oltre ai benchmark sopra riportati, GPT-4.1 è più affidabile nel seguire i formati e apporta modifiche non necessarie con minore frequenza. Nelle nostre valutazioni interne, le modifiche non necessarie al codice sono scese dal 9% con GPT-4 al 2% con GPT-4.1.
Esempi del mondo reale
Windsurf(Si apre in una nuova finestra): GPT-4.1 ottiene un punteggio superiore del 60% rispetto a GPT-4o nel benchmark di codifica interno di Windsurf, che è strettamente correlato alla frequenza con cui le modifiche al codice vengono accettate alla prima revisione. Gli utenti hanno notato un'efficienza del 30% maggiore nelle chiamate degli strumenti e circa il 50% in meno di probabilità di ripetere modifiche non necessarie o di leggere il codice in passaggi incrementali eccessivamente ristretti. Questi miglioramenti si traducono in iterazioni più rapide e flussi di lavoro più fluidi per i team di progettazione.
Qodo(Si apre in una nuova finestra): Qodo ha testato GPT-4.1 a confronto con altri modelli leader nella generazione di revisioni del codice di alta qualità dalle richieste di pull di GitHub, utilizzando una metodologia ispirata al loro benchmark di fine-tuning. In 200 richieste di pull significative e reali con gli stessi prompt e condizioni, hanno scoperto che GPT-4.1 ha prodotto il suggerimento migliore in 55% dei casi(Si apre in una nuova finestra)In particolare, hanno scoperto che GPT-4.1 eccelle sia in termini di precisione (sapendo quando non fornire suggerimenti) sia di completezza (fornendo analisi approfondite quando necessario), mantenendo al contempo l'attenzione su questioni veramente critiche.
Istruzioni seguenti
GPT‑4.1 segue le istruzioni in modo più affidabile e abbiamo rilevato miglioramenti significativi in una serie di valutazioni relative alle istruzioni.
Abbiamo sviluppato una valutazione interna per l'insegnamento seguito per monitorare le prestazioni del modello in diverse dimensioni e in diverse categorie chiave dell'insegnamento seguito, tra cui:
- Formato seguente. Fornire istruzioni che specificano un formato personalizzato per la risposta del modello, ad esempio XML, YAML, Markdown, ecc.
- Istruzioni negative. Specificare il comportamento che il modello dovrebbe evitare. (Esempio: "Non chiedere all'utente di contattare l'assistenza")
- Istruzioni ordinate. Fornire una serie di istruzioni che il modello deve seguire in un ordine specifico. (Esempio: "Prima chiedi il nome dell'utente, poi chiedi il suo indirizzo email")
- Requisiti di contenuto. Fornire contenuti che includono determinate informazioni. (Esempio: "Includi sempre la quantità di proteine quando scrivi un piano nutrizionale")
- Classifica. Ordinare l'output in un modo particolare. (Esempio: "Ordinare la risposta in base al conteggio della popolazione")
- eccessiva sicurezza. Indicare al modello di rispondere "Non lo so" o simili se le informazioni richieste non sono disponibili o se la richiesta non rientra in una determinata categoria. (Esempio: "Se non conosci la risposta, indica l'indirizzo email del contatto di supporto")
Queste categorie sono il risultato del feedback degli sviluppatori in merito agli aspetti dell'istruzione più rilevanti e importanti per loro. All'interno di ciascuna categoria, abbiamo suddiviso le richieste in facili, medie e difficili. GPT-4.1 migliora significativamente rispetto a GPT-4o, in particolare per quanto riguarda le richieste difficili.
Seguire le istruzioni multi-turn è fondamentale per molti sviluppatori: è fondamentale che il modello mantenga la coerenza in una conversazione e tenga traccia di ciò che l'utente ha detto in precedenza. Abbiamo addestrato GPT-4.1 per essere in grado di estrarre meglio le informazioni dai messaggi precedenti, consentendo conversazioni più naturali. Il benchmark MultiChallenge di Scale è un utile strumento di misurazione di questa capacità e GPT-4.1 raggiunge un punteggio del 10.5%.abs migliore di GPT‑4o.
GPT‑4.1 ottiene anche un punteggio dell'87.4% su IFEval, rispetto all'81.0% di GPT‑4o. IFEval utilizza prompt con istruzioni verificabili (ad esempio, specificando la lunghezza del contenuto o evitando determinati termini o formati).
Un migliore rispetto delle istruzioni rende le applicazioni esistenti più affidabili e consente l'utilizzo di nuove applicazioni precedentemente limitate da scarsa affidabilità. I primi tester hanno notato che GPT-4.1 può essere più letterale, quindi consigliamo di essere espliciti e specifici nei prompt. Per ulteriori informazioni sulle best practice per i prompt di GPT-4.1, consultare la guida ai prompt.
Esempi del mondo reale
Blu J(Si apre in una nuova finestra): GPT-4.1 si è rivelato il 53% più accurato di GPT-4o in un benchmark interno sugli scenari fiscali reali più complessi di Blue J. Questo miglioramento della precisione, fondamentale sia per le prestazioni del sistema che per la soddisfazione degli utenti, evidenzia la migliore comprensione di GPT-4.1 di normative complesse e la sua capacità di seguire istruzioni complesse in contesti lunghi. Per gli utenti di Blue J, ciò si traduce in una ricerca fiscale più rapida e affidabile e in più tempo per attività di consulenza di alto valore.
Hex(Si apre in una nuova finestra): GPT‑4.1 ha fornito un miglioramento di quasi 2 volte rispetto al più impegnativo Hex Set di valutazione SQL,(Si apre in una nuova finestra) mostrando miglioramenti significativi nell'esecuzione delle istruzioni e nella comprensione semantica. Il modello si è rivelato più affidabile nella selezione delle tabelle corrette da schemi ampi e ambigui, un punto decisionale a monte che influisce direttamente sulla precisione complessiva ed è difficile da ottimizzare solo tramite prompt. Per Hex, ciò ha comportato una riduzione misurabile del debug manuale e un percorso più rapido verso flussi di lavoro di livello produttivo.
Contesto lungo
GPT‑4.1, GPT‑4.1 mini e GPT‑4.1 nano possono elaborare fino a 1 milione di token di contesto, rispetto ai 128,000 dei precedenti modelli GPT‑4o. 1 milione di token equivale a più di 8 copie dell'intera base di codice React, quindi il contesto lungo è ideale per l'elaborazione di basi di codice di grandi dimensioni o di molti documenti lunghi.
Abbiamo addestrato GPT-4.1 a gestire in modo affidabile le informazioni lungo l'intera lunghezza di 1 milione di contesti. Lo abbiamo anche addestrato a essere molto più affidabile di GPT-4o nel rilevare il testo rilevante e ignorare i distrattori in contesti lunghi e brevi. La comprensione di contesti lunghi è una capacità fondamentale per applicazioni in ambito legale, di programmazione, di assistenza clienti e in molti altri ambiti.
Di seguito, dimostriamo la capacità di GPT-4.1 di recuperare una piccola informazione nascosta (un "ago") posizionata in vari punti all'interno della finestra di contesto. GPT-4.1 recupera l'ago in modo coerente e accurato in tutte le posizioni e per tutte le lunghezze di contesto, fino a 1 milione di token. È effettivamente in grado di estrarre dettagli rilevanti per l'attività in corso, indipendentemente dalla loro posizione nell'input.

Nella nostra valutazione interna dell'ago nel pagliaio, GPT‑4.1, GPT‑4.1 mini e GPT 4.1 nano sono tutti in grado di recuperare l'ago in tutte le posizioni nel contesto fino a 1M.
Tuttavia, poche attività reali sono così semplici come recuperare una singola, ovvia risposta. Abbiamo scoperto che gli utenti hanno spesso bisogno che i nostri modelli recuperino e comprendano più informazioni, e che le mettano in relazione tra loro. Per dimostrare questa capacità, stiamo rendendo open source una nuova valutazione: OpenAI-MRCR (Multi-Round Coreference).
OpenAI-MRCR testa la capacità del modello di trovare e disambiguare tra più aghi ben nascosti nel contesto. La valutazione consiste in conversazioni sintetiche a più turni tra un utente e un assistente, in cui l'utente chiede un testo su un argomento, ad esempio "scrivi una poesia sui tapiri" o "scrivi un post di blog sulle rocce". Inseriamo quindi due, quattro o otto richieste identiche nel contesto. Il modello deve quindi recuperare la risposta corrispondente a un'istanza specifica (ad esempio, "dammi la terza poesia sui tapiri").
La sfida nasce dalla somiglianza tra queste richieste e il resto del contesto: i modelli possono essere facilmente fuorviati da sottili differenze, come un racconto sui tapiri anziché una poesia, o una poesia sulle rane anziché sui tapiri. Abbiamo scoperto che GPT-4.1 supera GPT-4o in contesti con lunghezza fino a 128 token e mantiene prestazioni elevate anche fino a 1 milione di token.
Ma il compito rimane arduo, anche per i modelli di ragionamento avanzati. Stiamo condividendo il set di dati di valutazione(Si apre in una nuova finestra) per incoraggiare ulteriori lavori sul recupero di dati a lungo contesto nel mondo reale.

In OpenAI-MRCR(Si apre in una nuova finestra), il modello deve rispondere a una domanda che implica la disambiguazione tra 2, 4 o 8 richieste utente sparse tra i distrattori.
Stiamo anche rilasciando Passeggiate grafiche(Si apre in una nuova finestra), un set di dati per la valutazione del ragionamento multi-hop in contesti lunghi. Molti casi d'uso degli sviluppatori per contesti lunghi richiedono più hop logici all'interno del contesto, come il passaggio da un file all'altro durante la scrittura del codice o il riferimento incrociato di documenti per rispondere a complesse domande legali.
In teoria, un modello (o persino un essere umano) potrebbe risolvere un problema OpenAI-MRCR eseguendo una sola passata o lettura del prompt, ma Graphwalks è progettato per richiedere il ragionamento su più posizioni nel contesto e non può essere risolto in sequenza.
Graphwalks riempie la finestra di contesto con un grafo orientato composto da hash esadecimali, quindi chiede al modello di eseguire una ricerca in ampiezza (BFS) a partire da un nodo casuale nel grafo. Gli chiediamo quindi di restituire tutti i nodi a una certa profondità. GPT-4.1 raggiunge una precisione del 61.7% in questo benchmark, eguagliando le prestazioni di o1 e superando nettamente GPT-4o.
I benchmark non raccontano tutta la verità, quindi abbiamo collaborato con i partner alpha per testare le prestazioni di GPT-4.1 nelle loro attività di contesto prolungato nel mondo reale.
Esempi del mondo reale
Thomson Reuters:(Si apre in una nuova finestra) Thomson Reuters ha testato GPT‑4.1 con CoCounsel, il loro servizio di livello professionale AI Assistente per il lavoro legale. Rispetto a GPT-4o, sono stati in grado di migliorare l'accuratezza della revisione multi-documento del 17% utilizzando GPT-4.1 nei benchmark interni a contesto lungo, una misura essenziale della capacità di CoCounsel di gestire flussi di lavoro legali complessi che coinvolgono più documenti lunghi. In particolare, hanno riscontrato che il modello è altamente affidabile nel mantenere il contesto tra le fonti e nell'identificare accuratamente le relazioni più sfumate tra i documenti, come clausole contrastanti o contesto supplementare aggiuntivo, attività fondamentali per l'analisi legale e il processo decisionale.
Carlyle(Si apre in una nuova finestra): Carlyle ha utilizzato GPT-4.1 per estrarre accuratamente dati finanziari granulari da più documenti di grandi dimensioni, inclusi PDF, file Excel e altri formati complessi. In base alle valutazioni interne, il modello ha ottenuto prestazioni superiori del 50% nel recupero da documenti molto grandi con dati densi ed è stato il primo a superare con successo le principali limitazioni riscontrate in altri modelli disponibili, tra cui il recupero "ago nel pagliaio", gli errori "lost-in-the-middle" e il ragionamento multi-hop tra i documenti.
Oltre alle prestazioni e all'accuratezza del modello, gli sviluppatori necessitano anche di modelli che rispondano rapidamente per stare al passo e soddisfare le esigenze degli utenti. Abbiamo migliorato il nostro stack di inferenza per ridurre il tempo necessario al primo token e, con il caching dei prompt, è possibile ridurre ulteriormente la latenza, risparmiando sui costi. Nei nostri test iniziali, la latenza al primo token per GPT-4.1 era di circa quindici secondi con 128,000 token di contesto e di un minuto per un milione di token di contesto. GPT-4.1 mini e nano sono più veloci: ad esempio, GPT-4.1 nano restituisce il primo token in meno di cinque secondi per query con 128,000 token di input.
Visione
La famiglia GPT-4.1 è eccezionalmente forte nella comprensione delle immagini, con GPT-4.1 mini in particolare che rappresenta un significativo balzo in avanti, superando spesso GPT-4o nei benchmark delle immagini.
Le prestazioni di contesto lungo sono importanti anche per i casi d'uso multimodali, come l'elaborazione di video lunghi. In Video-MME(Si apre in una nuova finestra) (lungo senza sottotitoli): un modello risponde a domande a risposta multipla basate su video di 30-60 minuti senza sottotitoli. GPT-4.1 raggiunge prestazioni all'avanguardia, con un punteggio del 72.0%, in aumento rispetto al 65.3% di GPT-4.
Prezzi
GPT‑4.1, GPT‑4.1 mini e GPT‑4.1 nano sono ora disponibili per tutti gli sviluppatori.
Grazie ai miglioramenti dell'efficienza dei nostri sistemi di inferenza, siamo stati in grado di offrire prezzi più bassi sulla serie GPT-4.1. GPT-4.1 è il 26% più economico di GPT-4o per le query mediane, e GPT-4.1 nano è il nostro modello più economico e veloce di sempre. Per le query che passano ripetutamente lo stesso contesto, stiamo aumentando lo sconto sulla memorizzazione nella cache dei prompt al 75% (dal 50% precedente) per questi nuovi modelli. Infine, offriamo richieste di contesto lunghe senza costi aggiuntivi rispetto ai costi standard per token.
Modello (I prezzi sono per 1 milione di token) | Ingresso | Input memorizzato nella cache | Uscita | Prezzi misti* |
gpt-4.1 | $2.00 | $0.50 | $8.00 | $1.84 |
gpt-4.1-mini | $0.40 | $0.10 | $1.60 | $0.42 |
gpt-4.1-nano | $0.10 | $0.025 | $0.40 | $0.12 |
*In base ai rapporti input/output e cache tipici.
Questi modelli sono disponibili per l'uso nel nostro API batch(Si apre in una nuova finestra) con un ulteriore sconto del 50%.
Conclusione
GPT‑4.1 rappresenta un significativo passo avanti nell’applicazione pratica di AIConcentrandosi attentamente sulle esigenze reali degli sviluppatori, che spaziano dalla codifica al rispetto delle istruzioni e alla comprensione del contesto esteso, questi modelli aprono nuove possibilità per la creazione di sistemi intelligenti e applicazioni agentiche sofisticate. Siamo costantemente ispirati dalla creatività della community di sviluppatori e non vediamo l'ora di vedere cosa realizzerete con GPT-4.1.
Appendice
Di seguito è riportato un elenco completo dei risultati delle valutazioni accademiche, di codifica, di istruzione successiva, di contesto esteso, di visione e di chiamata di funzione.
Conoscenza accademica
Categoria | GPT-4.1 | GPT-4.1mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4omini | ApriAI o1(alto) | ApriAI o3-mini(alto) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
AIME '24 | ||||||||
Diamante GPQA1 | ||||||||
MMLU | ||||||||
MMLU multilingue |
[1] La nostra implementazione di GPQA utilizza un modello per estrarre la risposta invece di un'espressione regolare. Per GPT-4.1, la differenza era <1% (non statisticamente significativa), ma per GPT-4o l'estrazione tramite modello migliora significativamente i punteggi (~46% -> 54%).
Valutazioni di codifica
Categoria | GPT-4.1 | GPT-4.1mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4omini | ApriAI o1(alto) | ApriAI o3-mini(alto) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
Banco SWE verificato2 | - | |||||||
SWE-Lancer | $ 176K (35.1%) | $ 165K (33.0%) | $ 77K (15.3%) | $ 163K (32.6%) | $ 116K (23.1%) | $ 160K (32.1%) | $ 90K (18.0%) | $ 186K (37.3%) |
SWE-Lancer (sottoinsieme IC-Diamond) | $ 34K (14.4%) | $ 31K (13.1%) | $ 9K (3.7%) | $ 29K (12.4%) | $ 11K (4.8%) | $ 29K (9.7%) | $ 17K (7.4%) | $ 41K (17.4%) |
Poliglotta di Aider: intero | - | |||||||
Poliglotta di Aider: diff |
[2] Omettiamo 23/500 problemi che non potrebbero essere eseguiti sulla nostra infrastruttura. L'elenco completo delle 23 attività omesse è 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' e 'sphinx-doc__sphinx-9367'.
Istruzione dopo la valutazione
Categoria | GPT-4.1 | GPT-4.1mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4omini | ApriAI o1(alto) | ApriAI o3-mini(alto) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
Seguendo le istruzioni API interne (rigide) | ||||||||
MultiChallenge | ||||||||
MultiChallenge (selezionatrice o3-mini)3 | ||||||||
COLLIE | ||||||||
Valutazione IFE | ||||||||
Multi-IF |
[3] Nota: abbiamo scoperto che il valutatore predefinito in MultiChallenge (GPT-4o) spesso assegna punteggi errati alle risposte del modello. Abbiamo scoperto che sostituire il valutatore con un modello di ragionamento, come o3-mini, migliora significativamente l'accuratezza della valutazione sui campioni che abbiamo ispezionato. Per motivi di coerenza con la classifica, stiamo pubblicando entrambi i set di risultati.
Valutazioni di contesto lunghe
Categoria | GPT-4.1 | GPT-4.1mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4omini | ApriAI o1(alto) | ApriAI o3-mini(alto) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
OpenAI-MRCR: 2 aghi128k | ||||||||
OpenAI-MRCR: 2 aghi 1M | - | - | - | - | - | |||
Graphwalks bfs < 128k | ||||||||
Graphwalks bfs >128k | - | - | - | - | - | |||
Genitori di Graphwalks <128k | ||||||||
Genitori di Graphwalks >128k | - | - | - | - | - |
Valutazione della visione
Categoria | GPT-4.1 | GPT-4.1mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4omini | ApriAI o1(alto) | ApriAI o3-mini(alto) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
MMMU | - | |||||||
MatematicaVista | - | |||||||
CharXiv-R | - | |||||||
CharXiv-D | - |
Valutazione della chiamata di funzione
Categoria | GPT-4.1 | GPT-4.1mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4omini | ApriAI o1(alto) | ApriAI o3-mini(alto) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
ComplexFuncBench | ||||||||
Compagnia aerea Taubench4 | ||||||||
Vendita al dettaglio Taubench4, 5 | (73.6%) | (65.4%) | (23.5%) |
[4] I numeri di valutazione tau-bench vengono mediati su 5 esecuzioni per ridurre la varianza e vengono eseguiti senza strumenti personalizzati o richieste.
[5] I numeri tra parentesi rappresentano i risultati del Tau-bench quando si utilizza GPT-4.1 come modello utente, anziché GPT-4o. Abbiamo scoperto che, poiché GPT-4.1 è migliore nel seguire le istruzioni, è in grado di funzionare meglio come utente, e quindi si traduce in traiettorie più riuscite. Riteniamo che questo rappresenti la vera prestazione del modello valutato sul benchmark.
数据统计
Navigazione correlata


Gemini

xAI Grok

WildCard

Kimi

ChatGPT

Tencent Yuanbao
