API GPT4.1

Última atualização há 3 mês 690 00

Chamadas de APIChatGPT4.1º aniversário

Localização:
加拿大
Língua:
zh,en
Tempo de gravação:
2025-04-15
API GPT4.1API GPT4.1
API GPT4.1

Uma nova série de modelos GPT com grandes melhorias em codificação, acompanhamento de instruções e contexto longo — além do nosso primeiro modelo nano. Disponível viaAPItransferir

Consulte o artigo para obter instruções Primeiro lançamento!ChatGPT4.1 Guia completo para uso local – mesmo para iniciantes e computadores comuns

Docker Desktop+webUI realiza modelos grandes,N8NGuia completo para uso local

ChatGPT4.1 Introdução 

Hoje, estamos lançando três novos modelos na API: GPT‑4.1, GPT‑4.1 mini e GPT‑4.1 nano. Esses modelos superam o GPT‑4o e o GPT‑4o mini em todos os aspectos, com grande desempenho.ains em codificação e acompanhamento de instruções. Eles também têm janelas de contexto maiores — suportando até 1 milhão de tokens de contexto — e conseguem usar melhor esse contexto com melhor compreensão de contexto longo. Apresentam um limite de conhecimento atualizado em junho de 2024.

O GPT‑4.1 se destaca nas seguintes medidas padrão do setor:

  • Codificação: GPT‑4.1 obtém 54.6% em SWE-bench verificado, melhorando por 21.4%abs sobre GPT‑4o e% 26.6abs sobre GPT‑4.5, tornando-o um modelo líder para codificação.
  • Instruções a seguir: On MultiChallenge da Scale(Abre em uma nova janela) benchmark, uma medida da capacidade de seguir instruções, o GPT‑4.1 obtém 38.3%, um 10.5%abs aumento em relação ao GPT‑4o.
  • Contexto longo: On Vídeo-MME(Abre em uma nova janela), um padrão para a compreensão de contextos longos multimodais, o GPT‑4.1 estabelece um novo resultado de última geração, com uma pontuação de 72.0% na categoria longa, sem legendas, um resultado de 6.7%abs melhoria em relação ao GPT‑4o.

Embora os benchmarks forneçam insights valiosos, treinamos esses modelos com foco na utilidade no mundo real. A colaboração e a parceria estreitas com a comunidade de desenvolvedores nos permitiram otimizar esses modelos para as tarefas mais importantes para suas aplicações.

Para isso, a família de modelos GPT-4.1 oferece desempenho excepcional a um custo menor. Esses modelos elevam o desempenho em todos os pontos da curva de latência.

API GPT4.1

O GPT‑4.1 mini representa um salto significativo no desempenho de modelos pequenos, superando até mesmo o GPT‑4o em muitos benchmarks. Ele iguala ou supera o GPT‑4o em avaliações de inteligência, reduzindo a latência em quase metade e o custo em 83%.

Para tarefas que exigem baixa latência, o GPT‑4.1 nano é o nosso modelo mais rápido e barato disponível. Ele oferece desempenho excepcional em um tamanho compacto, com sua janela de contexto de 1 milhão de tokens, e pontua 80.1% em MMLU, 50.3% em GPQA e 9.8% em codificação poliglota Aider — ainda mais alto que o GPT‑4o mini. É ideal para tarefas como classificação ou preenchimento automático.

Essas melhorias na confiabilidade após instruções e na compreensão de contextos longos também tornam os modelos GPT-4.1 consideravelmente mais eficazes no suporte a agentes, ou sistemas que podem realizar tarefas de forma independente em nome dos usuários. Quando combinados com primitivos como o Respostas API(Abre em uma nova janela), os desenvolvedores agora podem criar agentes que são mais úteis e confiáveis ​​na engenharia de software do mundo real, extraindo insights de documentos grandes, resolvendo solicitações de clientes com o mínimo de intervenção e outras tarefas complexas.

Observe que o GPT‑4.1 só estará disponível por meio da API. ChatGPT, muitas das melhorias no acompanhamento de instruções, codificação e inteligência foram gradualmente incorporadas ao última versão(Abre em uma nova janela) do GPT‑4o e continuaremos a incorporar mais em versões futuras.

Também começaremos a descontinuar o GPT‑4.5 Preview na API, pois o GPT‑4.1 oferece desempenho aprimorado ou similar em muitos recursos importantes, com custo e latência muito menores. O GPT‑4.5 Preview será desativado em três meses, em 14 de julho de 2025, para dar tempo aos desenvolvedores de fazer a transição. O GPT‑4.5 foi introduzido como uma prévia da pesquisa para explorar e experimentar um modelo amplo e com uso intensivo de computação, e aprendemos muito com o feedback dos desenvolvedores. Continuaremos a levar adiante a criatividade, a qualidade da escrita, o humor e as nuances que vocês nos disseram apreciar no GPT-4.5 para futuros modelos de API.

Abaixo, detalhamos o desempenho do GPT‑4.1 em vários benchmarks, juntamente com exemplos de testadores alfa como Windsurf, Qodo, Hex, Blue J, Thomson Reuters e Carlyle, que mostram seu desempenho em produção em tarefas específicas de domínio.

Codificação

O GPT‑4.1 é significativamente melhor que o GPT‑4o em uma variedade de tarefas de codificação, incluindo resolução de tarefas de codificação de forma agêntica, codificação front-end, redução de edições estranhas, acompanhamento confiável de formatos diff, garantia de uso consistente de ferramentas e muito mais.

No SWE-bench Verified, uma medida de habilidades reais de engenharia de software, o GPT-4.1 conclui 54.6% das tarefas, em comparação com 33.2% do GPT-4o (2024/11/20). Isso reflete melhorias na capacidade do modelo de explorar um repositório de código, concluir uma tarefa e produzir código que seja executado e aprovado em testes.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (alto)AbertoAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4o mini55%33%41%49%38%24%9%SWE‑bench Verified accuracy

Para a SWE-bench verificado, um modelo recebe um repositório de código e uma descrição do problema, e deve gerar um patch para resolvê-lo. O desempenho depende muito dos prompts e ferramentas utilizados. Para auxiliar na reprodução e contextualização dos nossos resultados, descrevemos nossa configuração para o GPT-4.1. aqui(Abre em uma nova janela). Nossas pontuações omitem 23 de 500 problemas cujas soluções não puderam ser executadas em nossa infraestrutura; se eles forem pontuados de forma conservadora como 0, a pontuação de 54.6% se torna 52.1%.

Para desenvolvedores de API que buscam editar arquivos grandes, o GPT‑4.1 é muito mais confiável em diferenças de código em uma variedade de formatos. O GPT‑4.1 mais que dobra a pontuação do GPT‑4o em Benchmark de comparação poliglota de Aider(Abre em uma nova janela), e ainda supera o GPT‑4.5 em 8%abdômen.Esta avaliação é tanto uma medida das capacidades de codificação em várias linguagens de programação quanto da capacidade do modelo de produzir alterações nos formatos inteiro e diff. Treinamos especificamente o GPT-4.1 para acompanhar os formatos diff de forma mais confiável, o que permite aos desenvolvedores economizar custos e latência, tendo apenas as linhas alteradas na saída do modelo, em vez de reescrever um arquivo inteiro. Para obter o melhor desempenho de diff de código, consulte nosso guia de orientação(Abre em uma nova janela)Para desenvolvedores que preferem reescrever arquivos inteiros, aumentamos os limites de tokens de saída para GPT‑4.1 para 32,768 tokens (em comparação com 16,384 tokens para GPT‑4o). Também recomendamos o uso de Saídas previstas(Abre em uma nova janela) para reduzir a latência de reescritas completas de arquivos.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (alto)AbertoAI o3-mini (alto)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini52% (inteiro)53% (diferença)31% (inteiro)18% (diferença)64% (inteiro)62% (diferença)67% (inteiro)60% (diferença)35% (inteiro)32% (diferença)10% (inteiro)6% (diferença)4% (inteiro)3% (diferença)N/A (inteiro)45% (diferença)Precisão do benchmark poliglota da Aider

No benchmark poliglota de Aider, os modelos resolvem exercícios de codificação de Exercismo(Abre em uma nova janela) editando os arquivos de origem, com uma nova tentativa permitida. O formato 'inteiro' exige que o modelo reescreva o arquivo inteiro, o que pode ser lento e custoso. O formato 'diff' exige que o modelo escreva uma série de blocos de pesquisa/substituição(Abre em uma nova janela).

O GPT‑4.1 também melhora substancialmente o GPT‑4o na codificação frontend e é capaz de criar aplicativos web com funcionalidades mais vantajosas e estéticas mais agradáveis. Em nossas comparações diretas, avaliadores humanos pagos avaliaram os sites do GPT‑4.1 em 4% das vezes, em comparação com os do GPT‑80o.

prompt: Crie um aplicativo web de flashcards. O usuário deve ser capaz de criar flashcards, pesquisar entre os flashcards existentes, revisar flashcards e ver estatísticas sobre os flashcards revisados. Pré-carregue dez cartões contendo uma palavra ou frase em hindi e sua tradução em inglês. Interface de revisão: Na interface de revisão, clicar ou pressionar Espaço deve virar o cartão com uma animação 3D suave para revelar a tradução. Pressionar as teclas de seta deve navegar pelos cartões. Interface de pesquisa: A barra de pesquisa deve fornecer dinamicamente uma lista de resultados conforme o usuário digita uma consulta. Interface de estatísticas: A página de estatísticas deve mostrar um gráfico do número de cartões que o usuário revisou e a porcentagem de acertos. Interface de criação de cartões: A página de criação de cartões deve permitir que o usuário especifique a frente e o verso de um flashcard e adicione-o à coleção do usuário. Cada uma dessas interfaces deve ser acessível na barra lateral. Gere um aplicativo React de página única (coloque todos os estilos em linha).

 

GPT-4o

 

GPT-4.1

Além dos benchmarks acima, o GPT‑4.1 é melhor em seguir formatos de forma mais confiável e realiza edições externas com menos frequência. Em nossas avaliações internas, as edições externas no código caíram de 9% com o GPT‑4 para 2% com o GPT‑4.1.

Exemplos do mundo real

Windsurf(Abre em uma nova janela)O GPT‑4.1 obteve uma pontuação 60% superior à do GPT‑4o no benchmark interno de codificação da Windsurf, o que se correlaciona fortemente com a frequência com que as alterações de código são aceitas na primeira revisão. Os usuários notaram que o GPT‑30 era 50% mais eficiente na chamada de ferramentas e cerca de XNUMX% menos propenso a repetir edições desnecessárias ou ler o código em etapas incrementais muito limitadas. Essas melhorias se traduzem em iterações mais rápidas e fluxos de trabalho mais fluidos para as equipes de engenharia.

Qodo(Abre em uma nova janela)A Qodo testou o GPT‑4.1 em comparação com outros modelos líderes na geração de revisões de código de alta qualidade a partir de pull requests do GitHub, usando uma metodologia inspirada em seu benchmark de ajuste fino. Em 200 pull requests reais relevantes com os mesmos prompts e condições, eles descobriram que o GPT‑4.1 produziu a melhor sugestão. 55% dos casos(Abre em uma nova janela). Notavelmente, eles descobriram que o GPT‑4.1 se destaca tanto em precisão (saber quando não fazer sugestões) quanto em abrangência (fornecer análises completas quando necessário), mantendo o foco em questões realmente críticas.

Instrução a seguir

O GPT‑4.1 segue instruções de forma mais confiável, e medimos melhorias significativas em uma variedade de avaliações de acompanhamento de instruções.

Desenvolvemos uma avaliação interna para acompanhamento de instruções para monitorar o desempenho do modelo em diversas dimensões e em diversas categorias principais de acompanhamento de instruções, incluindo:

  • Formato a seguir. Fornecer instruções que especifiquem um formato personalizado para a resposta do modelo, como XML, YAML, Markdown, etc.
  • Instruções negativas. Especificando o comportamento que o modelo deve evitar. (Exemplo: “Não peça ao usuário para entrar em contato com o suporte”)
  • Instruções ordenadas. Fornecer um conjunto de instruções que o modelo deve seguir em uma determinada ordem. (Exemplo: “Primeiro pergunte o nome do usuário, depois pergunte o e-mail dele”)
  • Requisitos de conteúdo. Produzir conteúdo que inclua determinadas informações. (Exemplo: “Sempre inclua a quantidade de proteína ao escrever um plano nutricional”)
  • Classificação. Ordenar a saída de uma maneira específica. (Exemplo: “Classificar a resposta por contagem populacional”)
  • Excesso de confiança. Instruir o modelo a dizer "Não sei" ou algo semelhante caso a informação solicitada não esteja disponível ou a solicitação não se enquadre em uma determinada categoria. (Exemplo: "Se você não souber a resposta, informe o e-mail de contato do suporte")

Essas categorias são o resultado do feedback dos desenvolvedores sobre quais aspectos das instruções a seguir são mais relevantes e importantes para eles. Dentro de cada categoria, dividimos os prompts em fáceis, médios e difíceis. O GPT‑4.1 apresenta uma melhora significativa em relação ao GPT‑4o, especialmente nos prompts difíceis.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (alto)AbertoAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini49%29%51%50%54%45%32%27%Internal OpenAI Instruções seguindo a precisão de avaliação (subconjunto rígido)

Nossas instruções internas após a avaliação são baseadas em casos de uso e feedback reais de desenvolvedores, abrangendo tarefas de complexidade variada, juntamente com instruções sobre formatação, verbosidade, comprimento e muito mais.

Seguir instruções em múltiplas etapas é crucial para muitos desenvolvedores — é importante que o modelo mantenha a coerência em uma conversa e acompanhe o que o usuário disse anteriormente. Treinamos o GPT-4.1 para que ele consiga extrair melhor as informações de mensagens anteriores na conversa, permitindo conversas mais naturais. O benchmark MultiChallenge da Scale é uma medida útil dessa capacidade, e o GPT-4.1 tem um desempenho de 10.5%.abs melhor que GPT‑4o.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (alto)AbertoAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini38%28%45%40%44%36%15%20%MultiChallenge accuracy

In MultiDesafio(Abre em uma nova janela), os modelos são desafiados em conversas multi-turno a usar corretamente quatro tipos de informações de mensagens anteriores.

O GPT‑4.1 também obteve 87.4% no IFEval, em comparação com 81.0% do GPT‑4o. O IFEval utiliza prompts com instruções verificáveis ​​(por exemplo, especificando o tamanho do conteúdo ou evitando certos termos ou formatos).

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (alto)AbertoAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini87%81%92%94%88%84%75%78%IFEval accuracy

In IFEval(Abre em uma nova janela), os modelos devem gerar respostas que obedeçam a diversas instruções.

Uma melhor execução de instruções torna os aplicativos existentes mais confiáveis ​​e possibilita novos aplicativos que antes eram limitados por baixa confiabilidade. Os primeiros testadores notaram que o GPT‑4.1 pode ser mais literal, por isso recomendamos que os prompts sejam explícitos e específicos. Para obter mais informações sobre as melhores práticas de prompts para o GPT‑4.1, consulte o guia de prompts.

Exemplos do mundo real

Azul J(Abre em uma nova janela)O GPT‑4.1 foi 53% mais preciso que o GPT‑4o em um benchmark interno dos cenários tributários reais mais desafiadores da Blue J. Esse aumento na precisão — essencial tanto para o desempenho do sistema quanto para a satisfação do usuário — destaca a melhor compreensão do GPT‑4.1 de regulamentações complexas e sua capacidade de seguir instruções detalhadas em contextos longos. Para os usuários da Blue J, isso significa pesquisas tributárias mais rápidas e confiáveis, além de mais tempo para trabalhos de consultoria de alto valor.

Feitiço(Abre em uma nova janela): O GPT‑4.1 apresentou uma melhoria de quase 2× em relação ao mais desafiador do Hex conjunto de avaliação SQL,(Abre em uma nova janela) Apresentando ganhos significativos no acompanhamento de instruções e na compreensão semântica. O modelo se mostrou mais confiável na seleção das tabelas corretas a partir de esquemas grandes e ambíguos — um ponto de decisão anterior que impacta diretamente a precisão geral e é difícil de ajustar apenas com prompts. Para a Hex, isso resultou em uma redução mensurável na depuração manual e um caminho mais rápido para fluxos de trabalho de nível de produção.

Contexto longo

GPT‑4.1, GPT‑4.1 mini e GPT‑4.1 nano podem processar até 1 milhão de tokens de contexto — em comparação com 128,000 dos modelos GPT‑4o anteriores. 1 milhão de tokens equivale a mais de 8 cópias de toda a base de código do React, portanto, o contexto longo é uma ótima opção para processar grandes bases de código ou muitos documentos longos.

Treinamos o GPT-4.1 para atender informações de forma confiável em todo o comprimento de 1 milhão de contextos. Também o treinamos para ser muito mais confiável do que o GPT-4 na identificação de textos relevantes e na eliminação de distrações em contextos longos e curtos. A compreensão de contextos longos é uma capacidade crítica para aplicações em áreas jurídicas, de programação, de suporte ao cliente e em muitas outras.

Abaixo, demonstramos a capacidade do GPT-4.1 de recuperar uma pequena informação oculta (uma "agulha") posicionada em vários pontos da janela de contexto. O GPT-4.1 recupera a agulha de forma consistente e precisa em todas as posições e em todos os comprimentos de contexto, até 1 milhão de tokens. Ele é efetivamente capaz de extrair detalhes relevantes para a tarefa em questão, independentemente de sua posição na entrada.

API GPT4.1

Em nossa avaliação interna de agulha no palheiro, GPT‑4.1, GPT‑4.1 mini e GPT 4.1 nano são capazes de recuperar a agulha em todas as posições no contexto até 1M.

No entanto, poucas tarefas no mundo real são tão simples quanto recuperar uma única e óbvia resposta de agulha. Percebemos que os usuários frequentemente precisam de nossos modelos para recuperar e entender múltiplas informações, e para entendê-las em relação umas às outras. Para demonstrar essa capacidade, estamos disponibilizando uma nova avaliação: OpenAI-MRCR (Multi-Round Coreference).

O OpenAI-MRCR testa a capacidade do modelo de encontrar e desambiguar entre múltiplas agulhas bem escondidas no contexto. A avaliação consiste em conversas sintéticas multivoltas entre um usuário e um assistente, nas quais o usuário solicita um texto sobre um tópico, por exemplo, "escreva um poema sobre antas" ou "escreva um post de blog sobre rochas". Em seguida, inserimos duas, quatro ou oito solicitações idênticas em todo o contexto. O modelo deve então recuperar a resposta correspondente a uma instância específica (por exemplo, "dê-me o terceiro poema sobre antas").

O desafio surge da semelhança entre essas solicitações e o restante do contexto — os modelos podem ser facilmente enganados por diferenças sutis, como um conto sobre antas em vez de um poema, ou um poema sobre sapos em vez de antas. Constatamos que o GPT-4.1 supera o GPT-4o em extensões de contexto de até 128 mil tokens e mantém um desempenho sólido mesmo com até 1 milhão de tokens.

Mas a tarefa continua difícil, mesmo para modelos de raciocínio avançados. Estamos compartilhando o conjunto de dados de avaliação(Abre em uma nova janela) para incentivar mais trabalho na recuperação de contexto longo do mundo real.

API GPT4.1

In OpenAI-MRCR(Abre em uma nova janela), o modelo deve responder a uma pergunta que envolva a desambiguação entre 2, 4 ou 8 prompts do usuário espalhados entre distratores.

Também estamos lançando Caminhadas gráficas(Abre em uma nova janela), um conjunto de dados para avaliar o raciocínio de contexto longo com múltiplos saltos. Muitos casos de uso de desenvolvedores para contextos longos exigem múltiplos saltos lógicos dentro do contexto, como alternar entre vários arquivos ao escrever código ou fazer referência cruzada a documentos ao responder a perguntas jurídicas complexas.

Um modelo (ou até mesmo um humano) poderia teoricamente resolver um problema OpenAI-MRCR fazendo uma única passagem ou leitura do prompt, mas o Graphwalks foi projetado para exigir raciocínio em várias posições no contexto e não pode ser resolvido sequencialmente.

O Graphwalks preenche a janela de contexto com um grafo direcionado composto por hashes hexadecimais e, em seguida, solicita ao modelo que realize uma busca em largura (BFS) a partir de um nó aleatório no grafo. Em seguida, solicitamos que ele retorne todos os nós em uma determinada profundidade. O GPT‑4.1 atinge 61.7% de precisão neste benchmark, igualando o desempenho do o1 e superando facilmente o GPT‑4o.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (alto)AbertoAI o3-mini (alto)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini62%42%62%51%72%62%25%29%Graphwalks BFS <128k precisão

In Caminhadas gráficas(Abre em uma nova janela), um modelo é solicitado a executar uma busca em largura a partir de um nó aleatório em um gráfico grande.

Os benchmarks não contam a história completa, então trabalhamos com parceiros alfa para testar o desempenho do GPT‑4.1 em suas tarefas de contexto longo do mundo real.

Exemplos do mundo real

Thomson Reuters:(Abre em uma nova janela) A Thomson Reuters testou o GPT‑4.1 com o CoCounsel, seu software de nível profissional AI assistente para trabalhos jurídicos. Em comparação com o GPT‑4o, eles conseguiram melhorar a precisão da revisão de múltiplos documentos em 17% ao utilizar o GPT‑4.1 em benchmarks internos de contexto longo — uma medida essencial da capacidade da CoCounsel de lidar com fluxos de trabalho jurídicos complexos que envolvem múltiplos documentos extensos. Em particular, eles constataram que o modelo era altamente confiável na manutenção do contexto entre fontes e na identificação precisa de relações diferenciadas entre documentos, como cláusulas conflitantes ou contexto suplementar adicional — tarefas cruciais para a análise jurídica e a tomada de decisões.

Carlyle(Abre em uma nova janela)A Carlyle utilizou o GPT-4.1 para extrair com precisão dados financeiros granulares de vários documentos extensos, incluindo PDFs, arquivos Excel e outros formatos complexos. Com base em avaliações internas, o modelo apresentou um desempenho 50% melhor na recuperação de documentos muito grandes com dados densos e foi o primeiro a superar com sucesso as principais limitações observadas em outros modelos disponíveis, incluindo recuperação de "agulha no palheiro", erros de "perdido no meio" e raciocínio multi-salto entre documentos.

Além do desempenho e da precisão do modelo, os desenvolvedores também precisam de modelos que respondam rapidamente para acompanhar e atender às necessidades dos usuários. Aprimoramos nossa pilha de inferência para reduzir o tempo até o primeiro token e, com o cache rápido, você pode reduzir ainda mais a latência, economizando custos. Em nossos testes iniciais, a latência até o primeiro token para o GPT-4.1 foi de aproximadamente quinze segundos com 128,000 tokens de contexto e de um minuto para um milhão de tokens de contexto. O GPT-4.1 mini e o nano são mais rápidos; por exemplo, o GPT-4.1 nano geralmente retorna o primeiro token em menos de cinco segundos para consultas com 128,000 tokens de entrada.

Visão

A família GPT‑4.1 é excepcionalmente forte na compreensão de imagens, com o GPT‑4.1 mini em particular representando um salto significativo, muitas vezes superando o GPT‑4o em benchmarks de imagem.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini75%69%78%75%73%55%56%MMMU accuracy

In MMMU(Abre em uma nova janela), um modelo responde a perguntas contendo gráficos, diagramas, mapas, etc. (Observação: mesmo quando a imagem não está incluída, muitas respostas ainda podem ser inferidas ou adivinhadas a partir do contexto.)

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini72%61%72%72%73%56%57%MathVista accuracy

In MathVista(Abre em uma nova janela), um modelo resolve tarefas matemáticas visuais.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini57%53%55%55%57%41%37%CharXiv-Reasoning accuracy

In CharXiv-Raciocínio(Abre em uma nova janela), um modelo responde perguntas sobre gráficos de artigos científicos.

O desempenho de contexto longo também é importante para casos de uso multimodal, como o processamento de vídeos longos. Vídeo-MME⁠(Abre em uma nova janela) (longo sem legendas), um modelo responde a perguntas de múltipla escolha com base em vídeos de 30 a 60 minutos sem legendas. O GPT‑4.1 atinge o desempenho mais avançado, com uma pontuação de 72.0%, acima dos 65.3% do GPT‑4o.

GPT-4.1GPT-4o (2024-11-20)72%65%Video long context

In Vídeo-MME(Abre em uma nova janela), uma modelo responde a perguntas de múltipla escolha com base em vídeos de 30 a 60 minutos de duração, sem legendas.

Preços

GPT‑4.1, GPT‑4.1 mini e GPT‑4.1 nano já estão disponíveis para todos os desenvolvedores.

Por meio de melhorias na eficiência de nossos sistemas de inferência, conseguimos oferecer preços mais baixos na série GPT‑4.1. O GPT‑4.1 é 26% mais barato que o GPT‑4o para consultas medianas, e o GPT‑4.1 nano é o nosso modelo mais barato e rápido até hoje. Para consultas que passam repetidamente pelo mesmo contexto, estamos aumentando o desconto no cache de prompts para 75% (em comparação com 50% anteriormente) para esses novos modelos. Por fim, oferecemos solicitações de contexto longo sem custo adicional além dos custos padrão por token.

Modelo
(Os preços são por 1 milhão de tokens)
EntradaEntrada em cachesaídaPreços combinados*
gpt-4.1$2.00$0.50$8.00$1.84
gpt-4.1-mini$0.40$0.10$1.60$0.42
gpt-4.1-nano$0.10$0.025$0.40$0.12

*Com base em taxas típicas de entrada/saída e cache.

Esses modelos estão disponíveis para uso em nosso API de lote(Abre em uma nova janela) com um desconto adicional de 50%.

Conclusão

O GPT‑4.1 representa um avanço significativo na aplicação prática do AI. Ao focar nas necessidades reais dos desenvolvedores — desde a codificação até o acompanhamento de instruções e a compreensão de contextos longos — esses modelos abrem novas possibilidades para a construção de sistemas inteligentes e aplicações agênticas sofisticadas. Somos continuamente inspirados pela criatividade da comunidade de desenvolvedores e estamos ansiosos para ver o que vocês construirão com o GPT-4.1.

Apêndice

Uma lista completa de resultados acadêmicos, de codificação, de acompanhamento de instruções, de contexto longo, de visão e de chamada de função pode ser encontrada abaixo.

Conhecimento acadêmico
CategoriaGPT-4.1GPT-4.1 miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4o miniAbraAI o1(Alto)AbraAI o3-mini(Alto)GPT-4.5
AIME '2448.1%49.6%29.4%13.1%8.6%74.3%87.3%36.7%
GPQA Diamante166.3%65.0%50.3%46.0%40.2%75.7%77.2%69.5%
MMLU90.2%87.5%80.1%85.7%82.0%91.8%86.9%90.8%
MMLU multilíngue87.3%78.5%66.9%81.4%70.5%87.7%80.7%85.1%

[1] Nossa implementação do GPQA utiliza um modelo para extrair a resposta em vez de uma expressão regular. Para o GPT-4.1, a diferença foi <1% (não estatisticamente significativa), mas para o GPT-4o, a extração do modelo melhora significativamente as pontuações (~46% -> 54%).

Avaliações de codificação
CategoriaGPT-4.1GPT-4.1 miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4o miniAbraAI o1(Alto)AbraAI o3-mini(Alto)GPT-4.5
SWE-bench verificado254.6%23.6%-33.2%8.7%41.0%49.3%38.0%
SWE-LancerUS$176K
(% 35.1)
US$165K
(% 33.0)
US$77K
(% 15.3)
US$163K
(% 32.6)
US$116K
(% 23.1)
US$160K
(% 32.1)
US$90K
(% 18.0)
US$186K
(% 37.3)
SWE-Lancer (subconjunto IC-Diamond)US$34K
(% 14.4)
US$31K
(% 13.1)
US$9K
(% 3.7)
US$29K
(% 12.4)
US$11K
(% 4.8)
US$29K
(% 9.7)
US$17K
(% 7.4)
US$41K
(% 17.4)
Poliglota de Aider: inteiro51.6%34.7%9.8%30.7%3.6%64.6%66.7%-
Poliglota de Aider: diff52.9%31.6%6.2%18.2%2.7%61.7%60.4%44.9%

[2] Omitimos 23/500 problemas que não poderiam ser executados em nossa infraestrutura. A lista completa de 23 tarefas omitidas são 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' e 'sphinx-doc__sphinx-9367'.

Instrução após avaliação
CategoriaGPT-4.1GPT-4.1 miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4o miniAbraAI o1(Alto)AbraAI o3-mini(Alto)GPT-4.5
Instruções de API internas a seguir (difícil)49.1%45.1%31.6%29.2%27.2%51.3%50.0%54.0%
MultiDesafio38.3%35.8%15.0%27.8%20.3%44.9%39.9%43.8%
MultiChallenge (o3-mini-aluno)346.2%42.2%31.1%39.9%25.6%52.9%50.2%50.1%
COLLIE65.8%54.6%42.5%50.2%52.7%95.3%98.7%72.3%
IFEval87.4%84.1%74.5%81.0%78.4%92.2%93.9%88.2%
Multi-IF70.8%67.0%57.2%60.9%57.9%77.9%79.5%70.8%

[3] Nota: constatamos que o classificador padrão do MultiChallenge (GPT-4o) frequentemente pontua incorretamente as respostas do modelo. Descobrimos que trocar o classificador por um modelo de raciocínio, como o o3-mini, melhora significativamente a precisão da classificação nas amostras que inspecionamos. Por motivos de consistência com a tabela de classificação, estamos publicando os dois conjuntos de resultados.

Avaliações de Contexto Longo
CategoriaGPT-4.1GPT-4.1 miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4o miniAbraAI o1(Alto)AbraAI o3-mini(Alto)GPT-4.5
OpenAI-MRCR: 2 agulhas 128k57.2%47.2%36.6%31.9%24.5%22.1%18.7%38.5%
OpenAI-MRCR: 2 agulhas 1M46.3%33.3%12.0%-----
Graphwalks bfs < 128k61.7%61.7%25.0%41.7%29.0%62.0%51.0%72.3%
Graphwalks bfs >128k19.0%15.0%2.9%-----
Pais do Graphwalks <128k58.0%60.5%9.4%35.4%12.6%50.9%58.3%72.6%
Pais do Graphwalks >128 mil25.0%11.0%5.6%-----
Avaliação de Visão
CategoriaGPT-4.1GPT-4.1 miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4o miniAbraAI o1(Alto)AbraAI o3-mini(Alto)GPT-4.5
MMMU74.8%72.7%55.4%68.7%56.3%77.6%-75.2%
MathVista72.2%73.1%56.2%61.4%56.5%71.8%-72.3%
CharXiv-R56.7%56.8%40.5%52.7%36.8%55.1%-55.4%
CharXiv-D87.9%88.4%73.9%85.3%76.6%88.9%-90.0%
Chamada de Função Eval
CategoriaGPT-4.1GPT-4.1 miniGPT-4.1 nanoGPT-4o(2024-11-20)GPT-4o miniAbraAI o1(Alto)AbraAI o3-mini(Alto)GPT-4.5
ComplexFuncBench65.5%49.3%0.6%66.5%38.6%47.6%17.6%63.0%
Companhia aérea Taubench449.4%36.0%14.0%42.8%22.0%50.0%32.4%50.0%
Varejo Taubench4, 568.0%
(% 73.6)
55.8%
(% 65.4)
22.6%
(% 23.5)
60.3%44.0%70.8%57.6%68.4%

[4] Os números de avaliação do tau-bench são calculados em média em 5 execuções para reduzir a variância e executados sem nenhuma ferramenta ou solicitação personalizada.

[5] Os números entre parênteses representam os resultados do teste Tau-bench ao utilizar o GPT-4.1 como modelo de usuário, em vez do GPT-4o. Descobrimos que, como o GPT-4.1 é melhor em seguir instruções, ele tem melhor desempenho como usuário, resultando em trajetórias mais bem-sucedidas. Acreditamos que isso representa o desempenho real do modelo avaliado no teste de benchmark.

数据统计

Navegação relacionada

Não há comentários

Nenhum
sem comentários...