API GPT4.1

Ultimo aggiornamento 3 mese fa 822 00

Chiamate APIChatGPT4.1 Modello

Località:
加拿大
lingua:
zh,en
Tempo di registrazione:
2025-04-15
API GPT4.1API GPT4.1
API GPT4.1

Una nuova serie di modelli GPT con importanti miglioramenti nella codifica, nel seguire le istruzioni e nel contesto esteso, oltre al nostro primo modello nano in assoluto. Disponibile tramiteAPItrasferimento

Per le istruzioni, consultare l'articolo Prima uscita!ChatGPT4.1 Guida completa all'uso locale, anche per principianti e computer normali

Docker Desktop+webUI realizza modelli di grandi dimensioni,N8NGuida completa per l'uso locale

ChatGPT4.1 Introduzione 

Oggi lanciamo tre nuovi modelli nell'API: GPT-4.1, GPT-4.1 mini e GPT-4.1 nano. Questi modelli superano GPT-4o e GPT-4o mini in tutti gli aspetti, con notevoli miglioramenti nella codifica e nel rispetto delle istruzioni. Hanno anche finestre di contesto più ampie, supportando fino a 1 milione di token di contesto, e sono in grado di utilizzare meglio tale contesto con una migliore comprensione del contesto esteso. Presentano un limite di conoscenza aggiornato a giugno 2024.

GPT‑4.1 eccelle nei seguenti standard di settore:

  • codifica: GPT‑4.1 ottiene il 54.6% su Banco SWE verificato, migliorando di  abs su GPT‑4o e 26.6%abs rispetto a GPT-4.5, rendendolo un modello leader per la codifica.
  • Istruzioni seguenti: On MultiChallenge di Scale(Si apre in una nuova finestra) benchmark, una misura della capacità di seguire l'istruzione, punteggi GPT‑4.1 38.3%, un 10.5%abs aumento rispetto a GPT‑4o.
  • Contesto lungo: On Video-MME(Si apre in una nuova finestra), un punto di riferimento per la comprensione di contesti lunghi multimodali, GPT‑4.1 stabilisce un nuovo risultato all'avanguardia, ottenendo un punteggio del 72.0% nella categoria dei contenuti lunghi e senza sottotitoli, un 6.7%abs miglioramento rispetto a GPT‑4o.

Sebbene i benchmark forniscano informazioni preziose, abbiamo addestrato questi modelli concentrandoci sull'utilità pratica. La stretta collaborazione e partnership con la community di sviluppatori ci ha permesso di ottimizzare questi modelli per le attività più importanti per le loro applicazioni.

A tal fine, la famiglia di modelli GPT-4.1 offre prestazioni eccezionali a un costo inferiore. Questi modelli migliorano le prestazioni in ogni punto della curva di latenza.

API GPT4.1

GPT-4.1 mini rappresenta un significativo passo avanti nelle prestazioni dei modelli di piccole dimensioni, superando persino GPT-4o in molti benchmark. Eguaglia o supera GPT-4o nelle valutazioni di intelligence, riducendo al contempo la latenza di quasi la metà e i costi dell'83%.

Per attività che richiedono bassa latenza, GPT-4.1 nano è il nostro modello più veloce ed economico disponibile. Offre prestazioni eccezionali in dimensioni ridotte grazie alla sua finestra di contesto di 1 milione di token e ottiene un punteggio dell'80.1% in MMLU, del 50.3% in GPQA e del 9.8% nella codifica poliglotta Aider, persino superiore a GPT-4o mini. È ideale per attività come la classificazione o il completamento automatico.

Questi miglioramenti nell'affidabilità del seguito di istruzioni e nella comprensione del contesto esteso rendono inoltre i modelli GPT-4.1 considerevolmente più efficaci nel supportare agenti, ovvero sistemi in grado di svolgere autonomamente compiti per conto degli utenti. In combinazione con primitive come API delle risposte(Si apre in una nuova finestra), gli sviluppatori possono ora creare agenti più utili e affidabili per l'ingegneria del software nel mondo reale, estraendo informazioni da documenti di grandi dimensioni, risolvendo le richieste dei clienti con un supporto minimo e svolgendo altre attività complesse.

Si noti che GPT‑4.1 sarà disponibile solo tramite API. In ChatGPT, molti dei miglioramenti nell'istruzione, nella codifica e nell'intelligenza sono stati gradualmente incorporati nel ultima versione(Si apre in una nuova finestra) di GPT‑4o e continueremo a incorporarne altri nelle versioni future.

Inizieremo anche a rimuovere l'anteprima di GPT-4.5 dall'API, poiché GPT-4.1 offre prestazioni migliorate o simili su molte funzionalità chiave a costi e latenza molto inferiori. L'anteprima di GPT-4.5 verrà disattivata tra tre mesi, il 14 luglio 2025, per consentire agli sviluppatori di effettuare la transizione. GPT-4.5 era introdotto Come anteprima di ricerca per esplorare e sperimentare un modello ampio e ad alta intensità di calcolo, abbiamo imparato molto dal feedback degli sviluppatori. Continueremo a portare avanti la creatività, la qualità della scrittura, l'umorismo e le sfumature che ci avete detto di apprezzare in GPT-4.5 nei futuri modelli API.

Di seguito analizziamo le prestazioni di GPT‑4.1 in diversi benchmark, insieme ad esempi di tester alpha come Windsurf, Qodo, Hex, Blue J, Thomson Reuters e Carlyle che mostrano le sue prestazioni in produzione su attività specifiche del dominio.

codifica

GPT‑4.1 è significativamente migliore di GPT‑4o in una varietà di attività di codifica, tra cui la risoluzione di attività di codifica in modo agente, la codifica frontend, l'esecuzione di meno modifiche estranee, il rispetto affidabile dei formati diff, la garanzia di un utilizzo coerente degli strumenti e altro ancora.

Secondo SWE-bench Verified, un sistema di valutazione delle competenze di ingegneria del software nel mondo reale, GPT-4.1 completa il 54.6% delle attività, rispetto al 33.2% di GPT-4o (2024/11/20). Ciò riflette i miglioramenti nella capacità del modello di esplorare un repository di codice, completare un'attività e produrre codice che funzioni e superi i test.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (alto)ApertoAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4o mini55%33%41%49%38%24%9%SWE‑bench Verified accuracy

Per Banco SWE verificato, a un modello viene assegnato un repository di codice e una descrizione del problema, e deve generare una patch per risolverlo. Le prestazioni dipendono fortemente dai prompt e dagli strumenti utilizzati. Per facilitare la riproduzione e la contestualizzazione dei nostri risultati, descriviamo la nostra configurazione per GPT-4.1. qui(Si apre in una nuova finestra)I nostri punteggi omettono 23 dei 500 problemi le cui soluzioni non potevano essere eseguite sulla nostra infrastruttura; se a questi viene assegnato un punteggio conservativo pari a 0, il punteggio del 54.6% diventa del 52.1%.

Per gli sviluppatori di API che desiderano modificare file di grandi dimensioni, GPT-4.1 è molto più affidabile nelle differenze di codice su una vasta gamma di formati. GPT-4.1 più che raddoppia il punteggio di GPT-4o su Il benchmark delle differenze poliglotte di Aider(Si apre in una nuova finestra)e supera persino GPT‑4.5 dell'8%abs.Questa valutazione è sia una misura delle capacità di codifica in diversi linguaggi di programmazione, sia una misura della capacità del modello di produrre modifiche nei formati whole e diff. Abbiamo addestrato specificamente GPT-4.1 per seguire i formati diff in modo più affidabile, il che consente agli sviluppatori di risparmiare sia sui costi che sulla latenza, poiché il modello restituisce solo le righe modificate, anziché riscrivere un intero file. Per le migliori prestazioni di diff del codice, consulta il nostro guida di suggerimento(Si apre in una nuova finestra)Per gli sviluppatori che preferiscono riscrivere interi file, abbiamo aumentato i limiti dei token di output per GPT-4.1 a 32,768 token (rispetto ai 16,384 token di GPT-4o). Consigliamo inoltre di utilizzare Risultati previsti(Si apre in una nuova finestra) per ridurre la latenza delle riscritture complete dei file.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (alto)ApertoAI o3-mini (alto)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini52% (intero)53% (diff)31% (intero)18% (diff)64% (intero)62% (diff)67% (intero)60% (diff)35% (intero)32% (diff)10% (intero)6% (diff)4% (intero)3% (diff)N/D (intero)45% (diff)Precisione del benchmark poliglotta di Aider

Nel benchmark poliglotta di Aider, i modelli risolvono esercizi di codifica da Esercizio(Si apre in una nuova finestra) modificando i file sorgente, con un solo tentativo consentito. Il formato "intero" richiede al modello di riscrivere l'intero file, il che può essere lento e costoso. Il formato "diff" richiede al modello di scrivere una serie di blocchi di ricerca/sostituzione(Si apre in una nuova finestra).

GPT-4.1 migliora sostanzialmente anche la codifica frontend rispetto a GPT-4o, consentendo di creare applicazioni web più funzionali ed esteticamente più gradevoli. Nei nostri confronti diretti, i valutatori umani retribuiti hanno valutato i siti web realizzati con GPT-4.1 rispetto a quelli realizzati con GPT-4o nell'80% dei casi.

chiederà: Crea un'applicazione web per flashcard. L'utente dovrebbe essere in grado di creare flashcard, cercare tra quelle esistenti, revisionarle e visualizzare le statistiche sulle flashcard revisionate. Precarica dieci schede contenenti una parola o una frase in hindi e la relativa traduzione in inglese. Interfaccia di revisione: nell'interfaccia di revisione, cliccando o premendo la barra spaziatrice, la scheda verrà ruotata con un'animazione 3D fluida per rivelare la traduzione. Premendo i tasti freccia, sarà possibile navigare tra le schede. Interfaccia di ricerca: la barra di ricerca dovrebbe fornire dinamicamente un elenco di risultati mentre l'utente digita una query. Interfaccia delle statistiche: la pagina delle statistiche dovrebbe mostrare un grafico del numero di schede che l'utente ha revisionato e la percentuale di risposte corrette. Interfaccia di creazione schede: la pagina di creazione schede dovrebbe consentire all'utente di specificare il fronte e il retro di una flashcard e aggiungerla alla propria collezione. Ciascuna di queste interfacce dovrebbe essere accessibile dalla barra laterale. Genera un'app React a pagina singola (inserisci tutti gli stili in linea).

 

GPT‑4o

 

GPT-4.1

Oltre ai benchmark sopra riportati, GPT-4.1 è più affidabile nel seguire i formati e apporta modifiche non necessarie con minore frequenza. Nelle nostre valutazioni interne, le modifiche non necessarie al codice sono scese dal 9% con GPT-4 al 2% con GPT-4.1.

Esempi del mondo reale

Windsurf(Si apre in una nuova finestra)GPT-4.1 ottiene un punteggio superiore del 60% rispetto a GPT-4o nel benchmark di codifica interno di Windsurf, che è strettamente correlato alla frequenza con cui le modifiche al codice vengono accettate alla prima revisione. Gli utenti hanno notato un'efficienza del 30% maggiore nelle chiamate degli strumenti e circa il 50% in meno di probabilità di ripetere modifiche non necessarie o di leggere il codice in passaggi incrementali eccessivamente ristretti. Questi miglioramenti si traducono in iterazioni più rapide e flussi di lavoro più fluidi per i team di progettazione.

Qodo(Si apre in una nuova finestra)Qodo ha testato GPT-4.1 a confronto con altri modelli leader nella generazione di revisioni del codice di alta qualità dalle richieste di pull di GitHub, utilizzando una metodologia ispirata al loro benchmark di fine-tuning. In 200 richieste di pull significative e reali con gli stessi prompt e condizioni, hanno scoperto che GPT-4.1 ha prodotto il suggerimento migliore in 55% dei casi(Si apre in una nuova finestra)In particolare, hanno scoperto che GPT-4.1 eccelle sia in termini di precisione (sapendo quando non fornire suggerimenti) sia di completezza (fornendo analisi approfondite quando necessario), mantenendo al contempo l'attenzione su questioni veramente critiche.

Istruzioni seguenti

GPT‑4.1 segue le istruzioni in modo più affidabile e abbiamo rilevato miglioramenti significativi in ​​una serie di valutazioni relative alle istruzioni.

Abbiamo sviluppato una valutazione interna per l'insegnamento seguito per monitorare le prestazioni del modello in diverse dimensioni e in diverse categorie chiave dell'insegnamento seguito, tra cui:

  • Formato seguente. Fornire istruzioni che specificano un formato personalizzato per la risposta del modello, ad esempio XML, YAML, Markdown, ecc.
  • Istruzioni negative. Specificare il comportamento che il modello dovrebbe evitare. (Esempio: "Non chiedere all'utente di contattare l'assistenza")
  • Istruzioni ordinate. Fornire una serie di istruzioni che il modello deve seguire in un ordine specifico. (Esempio: "Prima chiedi il nome dell'utente, poi chiedi il suo indirizzo email")
  • Requisiti di contenuto. Fornire contenuti che includono determinate informazioni. (Esempio: "Includi sempre la quantità di proteine ​​quando scrivi un piano nutrizionale")
  • Classifica. Ordinare l'output in un modo particolare. (Esempio: "Ordinare la risposta in base al conteggio della popolazione")
  • eccessiva sicurezza. Indicare al modello di rispondere "Non lo so" o simili se le informazioni richieste non sono disponibili o se la richiesta non rientra in una determinata categoria. (Esempio: "Se non conosci la risposta, indica l'indirizzo email del contatto di supporto")

Queste categorie sono il risultato del feedback degli sviluppatori in merito agli aspetti dell'istruzione più rilevanti e importanti per loro. All'interno di ciascuna categoria, abbiamo suddiviso le richieste in facili, medie e difficili. GPT-4.1 migliora significativamente rispetto a GPT-4o, in particolare per quanto riguarda le richieste difficili.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (alto)ApertoAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini49%29%51%50%54%45%32%27%Internal OpenAI Istruzioni seguenti: accuratezza di valutazione (sottoinsieme rigido)

Le nostre istruzioni interne successive alla valutazione si basano su casi d'uso reali e feedback degli sviluppatori e coprono attività di varia complessità, insieme a istruzioni su formattazione, verbosità, lunghezza e altro ancora.

Seguire le istruzioni multi-turn è fondamentale per molti sviluppatori: è fondamentale che il modello mantenga la coerenza in una conversazione e tenga traccia di ciò che l'utente ha detto in precedenza. Abbiamo addestrato GPT-4.1 per essere in grado di estrarre meglio le informazioni dai messaggi precedenti, consentendo conversazioni più naturali. Il benchmark MultiChallenge di Scale è un utile strumento di misurazione di questa capacità e GPT-4.1 raggiunge un punteggio del 10.5%.abs migliore di GPT‑4o.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (alto)ApertoAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini38%28%45%40%44%36%15%20%MultiChallenge accuracy

In MultiChallenge(Si apre in una nuova finestra), i modelli vengono sfidati nelle conversazioni multi-turn per utilizzare correttamente quattro tipi di informazioni dai messaggi precedenti.

GPT‑4.1 ottiene anche un punteggio dell'87.4% su IFEval, rispetto all'81.0% di GPT‑4o. IFEval utilizza prompt con istruzioni verificabili (ad esempio, specificando la lunghezza del contenuto o evitando determinati termini o formati).

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (alto)ApertoAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini87%81%92%94%88%84%75%78%IFEval accuracy

In Valutazione IFE(Si apre in una nuova finestra), i modelli devono generare risposte conformi a varie istruzioni.

Un migliore rispetto delle istruzioni rende le applicazioni esistenti più affidabili e consente l'utilizzo di nuove applicazioni precedentemente limitate da scarsa affidabilità. I ​​primi tester hanno notato che GPT-4.1 può essere più letterale, quindi consigliamo di essere espliciti e specifici nei prompt. Per ulteriori informazioni sulle best practice per i prompt di GPT-4.1, consultare la guida ai prompt.

Esempi del mondo reale

Blu J(Si apre in una nuova finestra)GPT-4.1 si è rivelato il 53% più accurato di GPT-4o in un benchmark interno sugli scenari fiscali reali più complessi di Blue J. Questo miglioramento della precisione, fondamentale sia per le prestazioni del sistema che per la soddisfazione degli utenti, evidenzia la migliore comprensione di GPT-4.1 di normative complesse e la sua capacità di seguire istruzioni complesse in contesti lunghi. Per gli utenti di Blue J, ciò si traduce in una ricerca fiscale più rapida e affidabile e in più tempo per attività di consulenza di alto valore.

Hex(Si apre in una nuova finestra): GPT‑4.1 ha fornito un miglioramento di quasi 2 volte rispetto al più impegnativo Hex Set di valutazione SQL,(Si apre in una nuova finestra) mostrando miglioramenti significativi nell'esecuzione delle istruzioni e nella comprensione semantica. Il modello si è rivelato più affidabile nella selezione delle tabelle corrette da schemi ampi e ambigui, un punto decisionale a monte che influisce direttamente sulla precisione complessiva ed è difficile da ottimizzare solo tramite prompt. Per Hex, ciò ha comportato una riduzione misurabile del debug manuale e un percorso più rapido verso flussi di lavoro di livello produttivo.

Contesto lungo

GPT‑4.1, GPT‑4.1 mini e GPT‑4.1 nano possono elaborare fino a 1 milione di token di contesto, rispetto ai 128,000 dei precedenti modelli GPT‑4o. 1 milione di token equivale a più di 8 copie dell'intera base di codice React, quindi il contesto lungo è ideale per l'elaborazione di basi di codice di grandi dimensioni o di molti documenti lunghi.

Abbiamo addestrato GPT-4.1 a gestire in modo affidabile le informazioni lungo l'intera lunghezza di 1 milione di contesti. Lo abbiamo anche addestrato a essere molto più affidabile di GPT-4o nel rilevare il testo rilevante e ignorare i distrattori in contesti lunghi e brevi. La comprensione di contesti lunghi è una capacità fondamentale per applicazioni in ambito legale, di programmazione, di assistenza clienti e in molti altri ambiti.

Di seguito, dimostriamo la capacità di GPT-4.1 di recuperare una piccola informazione nascosta (un "ago") posizionata in vari punti all'interno della finestra di contesto. GPT-4.1 recupera l'ago in modo coerente e accurato in tutte le posizioni e per tutte le lunghezze di contesto, fino a 1 milione di token. È effettivamente in grado di estrarre dettagli rilevanti per l'attività in corso, indipendentemente dalla loro posizione nell'input.

API GPT4.1

Nella nostra valutazione interna dell'ago nel pagliaio, GPT‑4.1, GPT‑4.1 mini e GPT 4.1 nano sono tutti in grado di recuperare l'ago in tutte le posizioni nel contesto fino a 1M.

Tuttavia, poche attività reali sono così semplici come recuperare una singola, ovvia risposta. Abbiamo scoperto che gli utenti hanno spesso bisogno che i nostri modelli recuperino e comprendano più informazioni, e che le mettano in relazione tra loro. Per dimostrare questa capacità, stiamo rendendo open source una nuova valutazione: OpenAI-MRCR (Multi-Round Coreference).

OpenAI-MRCR testa la capacità del modello di trovare e disambiguare tra più aghi ben nascosti nel contesto. La valutazione consiste in conversazioni sintetiche a più turni tra un utente e un assistente, in cui l'utente chiede un testo su un argomento, ad esempio "scrivi una poesia sui tapiri" o "scrivi un post di blog sulle rocce". Inseriamo quindi due, quattro o otto richieste identiche nel contesto. Il modello deve quindi recuperare la risposta corrispondente a un'istanza specifica (ad esempio, "dammi la terza poesia sui tapiri").

La sfida nasce dalla somiglianza tra queste richieste e il resto del contesto: i modelli possono essere facilmente fuorviati da sottili differenze, come un racconto sui tapiri anziché una poesia, o una poesia sulle rane anziché sui tapiri. Abbiamo scoperto che GPT-4.1 supera GPT-4o in contesti con lunghezza fino a 128 token e mantiene prestazioni elevate anche fino a 1 milione di token.

Ma il compito rimane arduo, anche per i modelli di ragionamento avanzati. Stiamo condividendo il set di dati di valutazione(Si apre in una nuova finestra) per incoraggiare ulteriori lavori sul recupero di dati a lungo contesto nel mondo reale.

API GPT4.1

In OpenAI-MRCR(Si apre in una nuova finestra), il modello deve rispondere a una domanda che implica la disambiguazione tra 2, 4 o 8 richieste utente sparse tra i distrattori.

Stiamo anche rilasciando Passeggiate grafiche(Si apre in una nuova finestra), un set di dati per la valutazione del ragionamento multi-hop in contesti lunghi. Molti casi d'uso degli sviluppatori per contesti lunghi richiedono più hop logici all'interno del contesto, come il passaggio da un file all'altro durante la scrittura del codice o il riferimento incrociato di documenti per rispondere a complesse domande legali.

In teoria, un modello (o persino un essere umano) potrebbe risolvere un problema OpenAI-MRCR eseguendo una sola passata o lettura del prompt, ma Graphwalks è progettato per richiedere il ragionamento su più posizioni nel contesto e non può essere risolto in sequenza.

Graphwalks riempie la finestra di contesto con un grafo orientato composto da hash esadecimali, quindi chiede al modello di eseguire una ricerca in ampiezza (BFS) a partire da un nodo casuale nel grafo. Gli chiediamo quindi di restituire tutti i nodi a una certa profondità. GPT-4.1 raggiunge una precisione del 61.7% in questo benchmark, eguagliando le prestazioni di o1 e superando nettamente GPT-4o.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (alto)ApertoAI o3-mini (alto)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini62%42%62%51%72%62%25%29%Precisione Graphwalks BFS <128k

In Passeggiate grafiche(Si apre in una nuova finestra), si chiede a un modello di eseguire una ricerca in ampiezza da un nodo casuale in un grafico di grandi dimensioni.

I benchmark non raccontano tutta la verità, quindi abbiamo collaborato con i partner alpha per testare le prestazioni di GPT-4.1 nelle loro attività di contesto prolungato nel mondo reale.

Esempi del mondo reale

Thomson Reuters:(Si apre in una nuova finestra) Thomson Reuters ha testato GPT‑4.1 con CoCounsel, il loro servizio di livello professionale AI Assistente per il lavoro legale. Rispetto a GPT-4o, sono stati in grado di migliorare l'accuratezza della revisione multi-documento del 17% utilizzando GPT-4.1 nei benchmark interni a contesto lungo, una misura essenziale della capacità di CoCounsel di gestire flussi di lavoro legali complessi che coinvolgono più documenti lunghi. In particolare, hanno riscontrato che il modello è altamente affidabile nel mantenere il contesto tra le fonti e nell'identificare accuratamente le relazioni più sfumate tra i documenti, come clausole contrastanti o contesto supplementare aggiuntivo, attività fondamentali per l'analisi legale e il processo decisionale.

Carlyle(Si apre in una nuova finestra)Carlyle ha utilizzato GPT-4.1 per estrarre accuratamente dati finanziari granulari da più documenti di grandi dimensioni, inclusi PDF, file Excel e altri formati complessi. In base alle valutazioni interne, il modello ha ottenuto prestazioni superiori del 50% nel recupero da documenti molto grandi con dati densi ed è stato il primo a superare con successo le principali limitazioni riscontrate in altri modelli disponibili, tra cui il recupero "ago nel pagliaio", gli errori "lost-in-the-middle" e il ragionamento multi-hop tra i documenti.

Oltre alle prestazioni e all'accuratezza del modello, gli sviluppatori necessitano anche di modelli che rispondano rapidamente per stare al passo e soddisfare le esigenze degli utenti. Abbiamo migliorato il nostro stack di inferenza per ridurre il tempo necessario al primo token e, con il caching dei prompt, è possibile ridurre ulteriormente la latenza, risparmiando sui costi. Nei nostri test iniziali, la latenza al primo token per GPT-4.1 era di circa quindici secondi con 128,000 token di contesto e di un minuto per un milione di token di contesto. GPT-4.1 mini e nano sono più veloci: ad esempio, GPT-4.1 nano restituisce il primo token in meno di cinque secondi per query con 128,000 token di input.

Visione

La famiglia GPT-4.1 è eccezionalmente forte nella comprensione delle immagini, con GPT-4.1 mini in particolare che rappresenta un significativo balzo in avanti, superando spesso GPT-4o nei benchmark delle immagini.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini75%69%78%75%73%55%56%MMMU accuracy

In MMMU(Si apre in una nuova finestra), un modello risponde a domande contenenti grafici, diagrammi, mappe, ecc. (Nota: anche se l'immagine non è inclusa, molte risposte possono comunque essere dedotte o intuite dal contesto.)

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini72%61%72%72%73%56%57%MathVista accuracy

In MatematicaVista(Si apre in una nuova finestra), un modello risolve compiti matematici visivi.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini57%53%55%55%57%41%37%CharXiv-Reasoning accuracy

In CharXiv-Ragionamento(Si apre in una nuova finestra), un modello risponde a domande sui grafici contenuti in articoli scientifici.

Le prestazioni di contesto lungo sono importanti anche per i casi d'uso multimodali, come l'elaborazione di video lunghi. In Video-MME⁠(Si apre in una nuova finestra) (lungo senza sottotitoli): un modello risponde a domande a risposta multipla basate su video di 30-60 minuti senza sottotitoli. GPT-4.1 raggiunge prestazioni all'avanguardia, con un punteggio del 72.0%, in aumento rispetto al 65.3% di GPT-4.

GPT-4.1GPT-4o (2024-11-20)72%65%Video long context

In Video-MME(Si apre in una nuova finestra), un modello risponde a domande a risposta multipla basate su video lunghi 30-60 minuti senza sottotitoli.

Prezzi

GPT‑4.1, GPT‑4.1 mini e GPT‑4.1 nano sono ora disponibili per tutti gli sviluppatori.

Grazie ai miglioramenti dell'efficienza dei nostri sistemi di inferenza, siamo stati in grado di offrire prezzi più bassi sulla serie GPT-4.1. GPT-4.1 è il 26% più economico di GPT-4o per le query mediane, e GPT-4.1 nano è il nostro modello più economico e veloce di sempre. Per le query che passano ripetutamente lo stesso contesto, stiamo aumentando lo sconto sulla memorizzazione nella cache dei prompt al 75% (dal 50% precedente) per questi nuovi modelli. Infine, offriamo richieste di contesto lunghe senza costi aggiuntivi rispetto ai costi standard per token.

Modello
(I prezzi sono per 1 milione di token)
IngressoInput memorizzato nella cacheUscitaPrezzi misti*
gpt-4.1$2.00$0.50$8.00$1.84
gpt-4.1-mini$0.40$0.10$1.60$0.42
gpt-4.1-nano$0.10$0.025$0.40$0.12

*In base ai rapporti input/output e cache tipici.

Questi modelli sono disponibili per l'uso nel nostro API batch(Si apre in una nuova finestra) con un ulteriore sconto del 50%.

Conclusione

GPT‑4.1 rappresenta un significativo passo avanti nell’applicazione pratica di AIConcentrandosi attentamente sulle esigenze reali degli sviluppatori, che spaziano dalla codifica al rispetto delle istruzioni e alla comprensione del contesto esteso, questi modelli aprono nuove possibilità per la creazione di sistemi intelligenti e applicazioni agentiche sofisticate. Siamo costantemente ispirati dalla creatività della community di sviluppatori e non vediamo l'ora di vedere cosa realizzerete con GPT-4.1.

Appendice

Di seguito è riportato un elenco completo dei risultati delle valutazioni accademiche, di codifica, di istruzione successiva, di contesto esteso, di visione e di chiamata di funzione.

Conoscenza accademica
CategoriaGPT-4.1GPT-4.1miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4ominiApriAI o1(alto)ApriAI o3-mini(alto)GPT-4.5
AIME '24
Diamante GPQA1
MMLU
MMLU multilingue

[1] La nostra implementazione di GPQA utilizza un modello per estrarre la risposta invece di un'espressione regolare. Per GPT-4.1, la differenza era <1% (non statisticamente significativa), ma per GPT-4o l'estrazione tramite modello migliora significativamente i punteggi (~46% -> 54%).

Valutazioni di codifica
CategoriaGPT-4.1GPT-4.1miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4ominiApriAI o1(alto)ApriAI o3-mini(alto)GPT-4.5
Banco SWE verificato2 -
SWE-Lancer$ 176K
(35.1%)
$ 165K
(33.0%)
$ 77K
(15.3%)
$ 163K
(32.6%)
$ 116K
(23.1%)
$ 160K
(32.1%)
$ 90K
(18.0%)
$ 186K
(37.3%)
SWE-Lancer (sottoinsieme IC-Diamond)$ 34K
(14.4%)
$ 31K
(13.1%)
$ 9K
(3.7%)
$ 29K
(12.4%)
$ 11K
(4.8%)
$ 29K
(9.7%)
$ 17K
(7.4%)
$ 41K
(17.4%)
Poliglotta di Aider: intero -
Poliglotta di Aider: diff

[2] Omettiamo 23/500 problemi che non potrebbero essere eseguiti sulla nostra infrastruttura. L'elenco completo delle 23 attività omesse è 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' e 'sphinx-doc__sphinx-9367'.

Istruzione dopo la valutazione
CategoriaGPT-4.1GPT-4.1miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4ominiApriAI o1(alto)ApriAI o3-mini(alto)GPT-4.5
Seguendo le istruzioni API interne (rigide)
MultiChallenge
MultiChallenge (selezionatrice o3-mini)3
COLLIE
Valutazione IFE
Multi-IF

[3] Nota: abbiamo scoperto che il valutatore predefinito in MultiChallenge (GPT-4o) spesso assegna punteggi errati alle risposte del modello. Abbiamo scoperto che sostituire il valutatore con un modello di ragionamento, come o3-mini, migliora significativamente l'accuratezza della valutazione sui campioni che abbiamo ispezionato. Per motivi di coerenza con la classifica, stiamo pubblicando entrambi i set di risultati.

Valutazioni di contesto lunghe
CategoriaGPT-4.1GPT-4.1miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4ominiApriAI o1(alto)ApriAI o3-mini(alto)GPT-4.5
OpenAI-MRCR: 2 aghi128k
OpenAI-MRCR: 2 aghi 1M -----
Graphwalks bfs < 128k
Graphwalks bfs >128k -----
Genitori di Graphwalks <128k
Genitori di Graphwalks >128k -----
Valutazione della visione
CategoriaGPT-4.1GPT-4.1miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4ominiApriAI o1(alto)ApriAI o3-mini(alto)GPT-4.5
MMMU -
MatematicaVista -
CharXiv-R -
CharXiv-D -
Valutazione della chiamata di funzione
CategoriaGPT-4.1GPT-4.1miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4ominiApriAI o1(alto)ApriAI o3-mini(alto)GPT-4.5
ComplexFuncBench
Compagnia aerea Taubench4
Vendita al dettaglio Taubench4, 5
(73.6%)

(65.4%)

(23.5%)

[4] I numeri di valutazione tau-bench vengono mediati su 5 esecuzioni per ridurre la varianza e vengono eseguiti senza strumenti personalizzati o richieste.

[5] I numeri tra parentesi rappresentano i risultati del Tau-bench quando si utilizza GPT-4.1 come modello utente, anziché GPT-4o. Abbiamo scoperto che, poiché GPT-4.1 è migliore nel seguire le istruzioni, è in grado di funzionare meglio come utente, e quindi si traduce in traiettorie più riuscite. Riteniamo che questo rappresenti la vera prestazione del modello valutato sul benchmark.

数据统计

Navigazione correlata

Leggi di più

nessuna
Non ci sono commenti...