
Uma nova série de modelos GPT com grandes melhorias em codificação, acompanhamento de instruções e contexto longo — além do nosso primeiro modelo nano. Disponível viaAPItransferir
Consulte o artigo para obter instruções Primeiro lançamento!ChatGPT4.1 Guia completo para uso local – mesmo para iniciantes e computadores comuns
ChatGPT4.1 Introdução
Hoje, estamos lançando três novos modelos na API: GPT‑4.1, GPT‑4.1 mini e GPT‑4.1 nano. Esses modelos superam o GPT‑4o e o GPT‑4o mini em todos os aspectos, com grande desempenho.ains em codificação e acompanhamento de instruções. Eles também têm janelas de contexto maiores — suportando até 1 milhão de tokens de contexto — e conseguem usar melhor esse contexto com melhor compreensão de contexto longo. Apresentam um limite de conhecimento atualizado em junho de 2024.
O GPT‑4.1 se destaca nas seguintes medidas padrão do setor:
- Codificação: GPT‑4.1 obtém 54.6% em SWE-bench verificado, melhorando por 21.4%abs sobre GPT‑4o e% 26.6abs sobre GPT‑4.5, tornando-o um modelo líder para codificação.
- Instruções a seguir: On MultiChallenge da Scale(Abre em uma nova janela) benchmark, uma medida da capacidade de seguir instruções, o GPT‑4.1 obtém 38.3%, um 10.5%abs aumento em relação ao GPT‑4o.
- Contexto longo: On Vídeo-MME(Abre em uma nova janela), um padrão para a compreensão de contextos longos multimodais, o GPT‑4.1 estabelece um novo resultado de última geração, com uma pontuação de 72.0% na categoria longa, sem legendas, um resultado de 6.7%abs melhoria em relação ao GPT‑4o.
Embora os benchmarks forneçam insights valiosos, treinamos esses modelos com foco na utilidade no mundo real. A colaboração e a parceria estreitas com a comunidade de desenvolvedores nos permitiram otimizar esses modelos para as tarefas mais importantes para suas aplicações.
Para isso, a família de modelos GPT-4.1 oferece desempenho excepcional a um custo menor. Esses modelos elevam o desempenho em todos os pontos da curva de latência.

O GPT‑4.1 mini representa um salto significativo no desempenho de modelos pequenos, superando até mesmo o GPT‑4o em muitos benchmarks. Ele iguala ou supera o GPT‑4o em avaliações de inteligência, reduzindo a latência em quase metade e o custo em 83%.
Para tarefas que exigem baixa latência, o GPT‑4.1 nano é o nosso modelo mais rápido e barato disponível. Ele oferece desempenho excepcional em um tamanho compacto, com sua janela de contexto de 1 milhão de tokens, e pontua 80.1% em MMLU, 50.3% em GPQA e 9.8% em codificação poliglota Aider — ainda mais alto que o GPT‑4o mini. É ideal para tarefas como classificação ou preenchimento automático.
Essas melhorias na confiabilidade após instruções e na compreensão de contextos longos também tornam os modelos GPT-4.1 consideravelmente mais eficazes no suporte a agentes, ou sistemas que podem realizar tarefas de forma independente em nome dos usuários. Quando combinados com primitivos como o Respostas API(Abre em uma nova janela), os desenvolvedores agora podem criar agentes que são mais úteis e confiáveis na engenharia de software do mundo real, extraindo insights de documentos grandes, resolvendo solicitações de clientes com o mínimo de intervenção e outras tarefas complexas.
Observe que o GPT‑4.1 só estará disponível por meio da API. ChatGPT, muitas das melhorias no acompanhamento de instruções, codificação e inteligência foram gradualmente incorporadas ao última versão(Abre em uma nova janela) do GPT‑4o e continuaremos a incorporar mais em versões futuras.
Também começaremos a descontinuar o GPT‑4.5 Preview na API, pois o GPT‑4.1 oferece desempenho aprimorado ou similar em muitos recursos importantes, com custo e latência muito menores. O GPT‑4.5 Preview será desativado em três meses, em 14 de julho de 2025, para dar tempo aos desenvolvedores de fazer a transição. O GPT‑4.5 foi introduzido como uma prévia da pesquisa para explorar e experimentar um modelo amplo e com uso intensivo de computação, e aprendemos muito com o feedback dos desenvolvedores. Continuaremos a levar adiante a criatividade, a qualidade da escrita, o humor e as nuances que vocês nos disseram apreciar no GPT-4.5 para futuros modelos de API.
Abaixo, detalhamos o desempenho do GPT‑4.1 em vários benchmarks, juntamente com exemplos de testadores alfa como Windsurf, Qodo, Hex, Blue J, Thomson Reuters e Carlyle, que mostram seu desempenho em produção em tarefas específicas de domínio.
Codificação
O GPT‑4.1 é significativamente melhor que o GPT‑4o em uma variedade de tarefas de codificação, incluindo resolução de tarefas de codificação de forma agêntica, codificação front-end, redução de edições estranhas, acompanhamento confiável de formatos diff, garantia de uso consistente de ferramentas e muito mais.
No SWE-bench Verified, uma medida de habilidades reais de engenharia de software, o GPT-4.1 conclui 54.6% das tarefas, em comparação com 33.2% do GPT-4o (2024/11/20). Isso reflete melhorias na capacidade do modelo de explorar um repositório de código, concluir uma tarefa e produzir código que seja executado e aprovado em testes.
Para desenvolvedores de API que buscam editar arquivos grandes, o GPT‑4.1 é muito mais confiável em diferenças de código em uma variedade de formatos. O GPT‑4.1 mais que dobra a pontuação do GPT‑4o em Benchmark de comparação poliglota de Aider(Abre em uma nova janela), e ainda supera o GPT‑4.5 em 8%abdômen.Esta avaliação é tanto uma medida das capacidades de codificação em várias linguagens de programação quanto da capacidade do modelo de produzir alterações nos formatos inteiro e diff. Treinamos especificamente o GPT-4.1 para acompanhar os formatos diff de forma mais confiável, o que permite aos desenvolvedores economizar custos e latência, tendo apenas as linhas alteradas na saída do modelo, em vez de reescrever um arquivo inteiro. Para obter o melhor desempenho de diff de código, consulte nosso guia de orientação(Abre em uma nova janela)Para desenvolvedores que preferem reescrever arquivos inteiros, aumentamos os limites de tokens de saída para GPT‑4.1 para 32,768 tokens (em comparação com 16,384 tokens para GPT‑4o). Também recomendamos o uso de Saídas previstas(Abre em uma nova janela) para reduzir a latência de reescritas completas de arquivos.
O GPT‑4.1 também melhora substancialmente o GPT‑4o na codificação frontend e é capaz de criar aplicativos web com funcionalidades mais vantajosas e estéticas mais agradáveis. Em nossas comparações diretas, avaliadores humanos pagos avaliaram os sites do GPT‑4.1 em 4% das vezes, em comparação com os do GPT‑80o.
GPT-4o
GPT-4.1
Além dos benchmarks acima, o GPT‑4.1 é melhor em seguir formatos de forma mais confiável e realiza edições externas com menos frequência. Em nossas avaliações internas, as edições externas no código caíram de 9% com o GPT‑4 para 2% com o GPT‑4.1.
Exemplos do mundo real
Windsurf(Abre em uma nova janela): O GPT‑4.1 obteve uma pontuação 60% superior à do GPT‑4o no benchmark interno de codificação da Windsurf, o que se correlaciona fortemente com a frequência com que as alterações de código são aceitas na primeira revisão. Os usuários notaram que o GPT‑30 era 50% mais eficiente na chamada de ferramentas e cerca de XNUMX% menos propenso a repetir edições desnecessárias ou ler o código em etapas incrementais muito limitadas. Essas melhorias se traduzem em iterações mais rápidas e fluxos de trabalho mais fluidos para as equipes de engenharia.
Qodo(Abre em uma nova janela): A Qodo testou o GPT‑4.1 em comparação com outros modelos líderes na geração de revisões de código de alta qualidade a partir de pull requests do GitHub, usando uma metodologia inspirada em seu benchmark de ajuste fino. Em 200 pull requests reais relevantes com os mesmos prompts e condições, eles descobriram que o GPT‑4.1 produziu a melhor sugestão. 55% dos casos(Abre em uma nova janela). Notavelmente, eles descobriram que o GPT‑4.1 se destaca tanto em precisão (saber quando não fazer sugestões) quanto em abrangência (fornecer análises completas quando necessário), mantendo o foco em questões realmente críticas.
Instrução a seguir
O GPT‑4.1 segue instruções de forma mais confiável, e medimos melhorias significativas em uma variedade de avaliações de acompanhamento de instruções.
Desenvolvemos uma avaliação interna para acompanhamento de instruções para monitorar o desempenho do modelo em diversas dimensões e em diversas categorias principais de acompanhamento de instruções, incluindo:
- Formato a seguir. Fornecer instruções que especifiquem um formato personalizado para a resposta do modelo, como XML, YAML, Markdown, etc.
- Instruções negativas. Especificando o comportamento que o modelo deve evitar. (Exemplo: “Não peça ao usuário para entrar em contato com o suporte”)
- Instruções ordenadas. Fornecer um conjunto de instruções que o modelo deve seguir em uma determinada ordem. (Exemplo: “Primeiro pergunte o nome do usuário, depois pergunte o e-mail dele”)
- Requisitos de conteúdo. Produzir conteúdo que inclua determinadas informações. (Exemplo: “Sempre inclua a quantidade de proteína ao escrever um plano nutricional”)
- Classificação. Ordenar a saída de uma maneira específica. (Exemplo: “Classificar a resposta por contagem populacional”)
- Excesso de confiança. Instruir o modelo a dizer "Não sei" ou algo semelhante caso a informação solicitada não esteja disponível ou a solicitação não se enquadre em uma determinada categoria. (Exemplo: "Se você não souber a resposta, informe o e-mail de contato do suporte")
Essas categorias são o resultado do feedback dos desenvolvedores sobre quais aspectos das instruções a seguir são mais relevantes e importantes para eles. Dentro de cada categoria, dividimos os prompts em fáceis, médios e difíceis. O GPT‑4.1 apresenta uma melhora significativa em relação ao GPT‑4o, especialmente nos prompts difíceis.
Seguir instruções em múltiplas etapas é crucial para muitos desenvolvedores — é importante que o modelo mantenha a coerência em uma conversa e acompanhe o que o usuário disse anteriormente. Treinamos o GPT-4.1 para que ele consiga extrair melhor as informações de mensagens anteriores na conversa, permitindo conversas mais naturais. O benchmark MultiChallenge da Scale é uma medida útil dessa capacidade, e o GPT-4.1 tem um desempenho de 10.5%.abs melhor que GPT‑4o.
O GPT‑4.1 também obteve 87.4% no IFEval, em comparação com 81.0% do GPT‑4o. O IFEval utiliza prompts com instruções verificáveis (por exemplo, especificando o tamanho do conteúdo ou evitando certos termos ou formatos).
Uma melhor execução de instruções torna os aplicativos existentes mais confiáveis e possibilita novos aplicativos que antes eram limitados por baixa confiabilidade. Os primeiros testadores notaram que o GPT‑4.1 pode ser mais literal, por isso recomendamos que os prompts sejam explícitos e específicos. Para obter mais informações sobre as melhores práticas de prompts para o GPT‑4.1, consulte o guia de prompts.
Exemplos do mundo real
Azul J(Abre em uma nova janela): O GPT‑4.1 foi 53% mais preciso que o GPT‑4o em um benchmark interno dos cenários tributários reais mais desafiadores da Blue J. Esse aumento na precisão — essencial tanto para o desempenho do sistema quanto para a satisfação do usuário — destaca a melhor compreensão do GPT‑4.1 de regulamentações complexas e sua capacidade de seguir instruções detalhadas em contextos longos. Para os usuários da Blue J, isso significa pesquisas tributárias mais rápidas e confiáveis, além de mais tempo para trabalhos de consultoria de alto valor.
Feitiço(Abre em uma nova janela): O GPT‑4.1 apresentou uma melhoria de quase 2× em relação ao mais desafiador do Hex conjunto de avaliação SQL,(Abre em uma nova janela) Apresentando ganhos significativos no acompanhamento de instruções e na compreensão semântica. O modelo se mostrou mais confiável na seleção das tabelas corretas a partir de esquemas grandes e ambíguos — um ponto de decisão anterior que impacta diretamente a precisão geral e é difícil de ajustar apenas com prompts. Para a Hex, isso resultou em uma redução mensurável na depuração manual e um caminho mais rápido para fluxos de trabalho de nível de produção.
Contexto longo
GPT‑4.1, GPT‑4.1 mini e GPT‑4.1 nano podem processar até 1 milhão de tokens de contexto — em comparação com 128,000 dos modelos GPT‑4o anteriores. 1 milhão de tokens equivale a mais de 8 cópias de toda a base de código do React, portanto, o contexto longo é uma ótima opção para processar grandes bases de código ou muitos documentos longos.
Treinamos o GPT-4.1 para atender informações de forma confiável em todo o comprimento de 1 milhão de contextos. Também o treinamos para ser muito mais confiável do que o GPT-4 na identificação de textos relevantes e na eliminação de distrações em contextos longos e curtos. A compreensão de contextos longos é uma capacidade crítica para aplicações em áreas jurídicas, de programação, de suporte ao cliente e em muitas outras.
Abaixo, demonstramos a capacidade do GPT-4.1 de recuperar uma pequena informação oculta (uma "agulha") posicionada em vários pontos da janela de contexto. O GPT-4.1 recupera a agulha de forma consistente e precisa em todas as posições e em todos os comprimentos de contexto, até 1 milhão de tokens. Ele é efetivamente capaz de extrair detalhes relevantes para a tarefa em questão, independentemente de sua posição na entrada.

Em nossa avaliação interna de agulha no palheiro, GPT‑4.1, GPT‑4.1 mini e GPT 4.1 nano são capazes de recuperar a agulha em todas as posições no contexto até 1M.
No entanto, poucas tarefas no mundo real são tão simples quanto recuperar uma única e óbvia resposta de agulha. Percebemos que os usuários frequentemente precisam de nossos modelos para recuperar e entender múltiplas informações, e para entendê-las em relação umas às outras. Para demonstrar essa capacidade, estamos disponibilizando uma nova avaliação: OpenAI-MRCR (Multi-Round Coreference).
O OpenAI-MRCR testa a capacidade do modelo de encontrar e desambiguar entre múltiplas agulhas bem escondidas no contexto. A avaliação consiste em conversas sintéticas multivoltas entre um usuário e um assistente, nas quais o usuário solicita um texto sobre um tópico, por exemplo, "escreva um poema sobre antas" ou "escreva um post de blog sobre rochas". Em seguida, inserimos duas, quatro ou oito solicitações idênticas em todo o contexto. O modelo deve então recuperar a resposta correspondente a uma instância específica (por exemplo, "dê-me o terceiro poema sobre antas").
O desafio surge da semelhança entre essas solicitações e o restante do contexto — os modelos podem ser facilmente enganados por diferenças sutis, como um conto sobre antas em vez de um poema, ou um poema sobre sapos em vez de antas. Constatamos que o GPT-4.1 supera o GPT-4o em extensões de contexto de até 128 mil tokens e mantém um desempenho sólido mesmo com até 1 milhão de tokens.
Mas a tarefa continua difícil, mesmo para modelos de raciocínio avançados. Estamos compartilhando o conjunto de dados de avaliação(Abre em uma nova janela) para incentivar mais trabalho na recuperação de contexto longo do mundo real.

In OpenAI-MRCR(Abre em uma nova janela), o modelo deve responder a uma pergunta que envolva a desambiguação entre 2, 4 ou 8 prompts do usuário espalhados entre distratores.
Também estamos lançando Caminhadas gráficas(Abre em uma nova janela), um conjunto de dados para avaliar o raciocínio de contexto longo com múltiplos saltos. Muitos casos de uso de desenvolvedores para contextos longos exigem múltiplos saltos lógicos dentro do contexto, como alternar entre vários arquivos ao escrever código ou fazer referência cruzada a documentos ao responder a perguntas jurídicas complexas.
Um modelo (ou até mesmo um humano) poderia teoricamente resolver um problema OpenAI-MRCR fazendo uma única passagem ou leitura do prompt, mas o Graphwalks foi projetado para exigir raciocínio em várias posições no contexto e não pode ser resolvido sequencialmente.
O Graphwalks preenche a janela de contexto com um grafo direcionado composto por hashes hexadecimais e, em seguida, solicita ao modelo que realize uma busca em largura (BFS) a partir de um nó aleatório no grafo. Em seguida, solicitamos que ele retorne todos os nós em uma determinada profundidade. O GPT‑4.1 atinge 61.7% de precisão neste benchmark, igualando o desempenho do o1 e superando facilmente o GPT‑4o.
Os benchmarks não contam a história completa, então trabalhamos com parceiros alfa para testar o desempenho do GPT‑4.1 em suas tarefas de contexto longo do mundo real.
Exemplos do mundo real
Thomson Reuters:(Abre em uma nova janela) A Thomson Reuters testou o GPT‑4.1 com o CoCounsel, seu software de nível profissional AI assistente para trabalhos jurídicos. Em comparação com o GPT‑4o, eles conseguiram melhorar a precisão da revisão de múltiplos documentos em 17% ao utilizar o GPT‑4.1 em benchmarks internos de contexto longo — uma medida essencial da capacidade da CoCounsel de lidar com fluxos de trabalho jurídicos complexos que envolvem múltiplos documentos extensos. Em particular, eles constataram que o modelo era altamente confiável na manutenção do contexto entre fontes e na identificação precisa de relações diferenciadas entre documentos, como cláusulas conflitantes ou contexto suplementar adicional — tarefas cruciais para a análise jurídica e a tomada de decisões.
Carlyle(Abre em uma nova janela): A Carlyle utilizou o GPT-4.1 para extrair com precisão dados financeiros granulares de vários documentos extensos, incluindo PDFs, arquivos Excel e outros formatos complexos. Com base em avaliações internas, o modelo apresentou um desempenho 50% melhor na recuperação de documentos muito grandes com dados densos e foi o primeiro a superar com sucesso as principais limitações observadas em outros modelos disponíveis, incluindo recuperação de "agulha no palheiro", erros de "perdido no meio" e raciocínio multi-salto entre documentos.
Além do desempenho e da precisão do modelo, os desenvolvedores também precisam de modelos que respondam rapidamente para acompanhar e atender às necessidades dos usuários. Aprimoramos nossa pilha de inferência para reduzir o tempo até o primeiro token e, com o cache rápido, você pode reduzir ainda mais a latência, economizando custos. Em nossos testes iniciais, a latência até o primeiro token para o GPT-4.1 foi de aproximadamente quinze segundos com 128,000 tokens de contexto e de um minuto para um milhão de tokens de contexto. O GPT-4.1 mini e o nano são mais rápidos; por exemplo, o GPT-4.1 nano geralmente retorna o primeiro token em menos de cinco segundos para consultas com 128,000 tokens de entrada.
Visão
A família GPT‑4.1 é excepcionalmente forte na compreensão de imagens, com o GPT‑4.1 mini em particular representando um salto significativo, muitas vezes superando o GPT‑4o em benchmarks de imagem.
O desempenho de contexto longo também é importante para casos de uso multimodal, como o processamento de vídeos longos. Vídeo-MME(Abre em uma nova janela) (longo sem legendas), um modelo responde a perguntas de múltipla escolha com base em vídeos de 30 a 60 minutos sem legendas. O GPT‑4.1 atinge o desempenho mais avançado, com uma pontuação de 72.0%, acima dos 65.3% do GPT‑4o.
Preços
GPT‑4.1, GPT‑4.1 mini e GPT‑4.1 nano já estão disponíveis para todos os desenvolvedores.
Por meio de melhorias na eficiência de nossos sistemas de inferência, conseguimos oferecer preços mais baixos na série GPT‑4.1. O GPT‑4.1 é 26% mais barato que o GPT‑4o para consultas medianas, e o GPT‑4.1 nano é o nosso modelo mais barato e rápido até hoje. Para consultas que passam repetidamente pelo mesmo contexto, estamos aumentando o desconto no cache de prompts para 75% (em comparação com 50% anteriormente) para esses novos modelos. Por fim, oferecemos solicitações de contexto longo sem custo adicional além dos custos padrão por token.
Modelo (Os preços são por 1 milhão de tokens) | Entrada | Entrada em cache | saída | Preços combinados* |
gpt-4.1 | $2.00 | $0.50 | $8.00 | $1.84 |
gpt-4.1-mini | $0.40 | $0.10 | $1.60 | $0.42 |
gpt-4.1-nano | $0.10 | $0.025 | $0.40 | $0.12 |
*Com base em taxas típicas de entrada/saída e cache.
Esses modelos estão disponíveis para uso em nosso API de lote(Abre em uma nova janela) com um desconto adicional de 50%.
Conclusão
O GPT‑4.1 representa um avanço significativo na aplicação prática do AI. Ao focar nas necessidades reais dos desenvolvedores — desde a codificação até o acompanhamento de instruções e a compreensão de contextos longos — esses modelos abrem novas possibilidades para a construção de sistemas inteligentes e aplicações agênticas sofisticadas. Somos continuamente inspirados pela criatividade da comunidade de desenvolvedores e estamos ansiosos para ver o que vocês construirão com o GPT-4.1.
Apêndice
Uma lista completa de resultados acadêmicos, de codificação, de acompanhamento de instruções, de contexto longo, de visão e de chamada de função pode ser encontrada abaixo.
Conhecimento acadêmico
Categoria | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | AbraAI o1(Alto) | AbraAI o3-mini(Alto) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
AIME '24 | 48.1% | 49.6% | 29.4% | 13.1% | 8.6% | 74.3% | 87.3% | 36.7% |
GPQA Diamante1 | 66.3% | 65.0% | 50.3% | 46.0% | 40.2% | 75.7% | 77.2% | 69.5% |
MMLU | 90.2% | 87.5% | 80.1% | 85.7% | 82.0% | 91.8% | 86.9% | 90.8% |
MMLU multilíngue | 87.3% | 78.5% | 66.9% | 81.4% | 70.5% | 87.7% | 80.7% | 85.1% |
[1] Nossa implementação do GPQA utiliza um modelo para extrair a resposta em vez de uma expressão regular. Para o GPT-4.1, a diferença foi <1% (não estatisticamente significativa), mas para o GPT-4o, a extração do modelo melhora significativamente as pontuações (~46% -> 54%).
Avaliações de codificação
Categoria | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | AbraAI o1(Alto) | AbraAI o3-mini(Alto) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
SWE-bench verificado2 | 54.6% | 23.6% | - | 33.2% | 8.7% | 41.0% | 49.3% | 38.0% |
SWE-Lancer | US$176K (% 35.1) | US$165K (% 33.0) | US$77K (% 15.3) | US$163K (% 32.6) | US$116K (% 23.1) | US$160K (% 32.1) | US$90K (% 18.0) | US$186K (% 37.3) |
SWE-Lancer (subconjunto IC-Diamond) | US$34K (% 14.4) | US$31K (% 13.1) | US$9K (% 3.7) | US$29K (% 12.4) | US$11K (% 4.8) | US$29K (% 9.7) | US$17K (% 7.4) | US$41K (% 17.4) |
Poliglota de Aider: inteiro | 51.6% | 34.7% | 9.8% | 30.7% | 3.6% | 64.6% | 66.7% | - |
Poliglota de Aider: diff | 52.9% | 31.6% | 6.2% | 18.2% | 2.7% | 61.7% | 60.4% | 44.9% |
[2] Omitimos 23/500 problemas que não poderiam ser executados em nossa infraestrutura. A lista completa de 23 tarefas omitidas são 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' e 'sphinx-doc__sphinx-9367'.
Instrução após avaliação
Categoria | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | AbraAI o1(Alto) | AbraAI o3-mini(Alto) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
Instruções de API internas a seguir (difícil) | 49.1% | 45.1% | 31.6% | 29.2% | 27.2% | 51.3% | 50.0% | 54.0% |
MultiDesafio | 38.3% | 35.8% | 15.0% | 27.8% | 20.3% | 44.9% | 39.9% | 43.8% |
MultiChallenge (o3-mini-aluno)3 | 46.2% | 42.2% | 31.1% | 39.9% | 25.6% | 52.9% | 50.2% | 50.1% |
COLLIE | 65.8% | 54.6% | 42.5% | 50.2% | 52.7% | 95.3% | 98.7% | 72.3% |
IFEval | 87.4% | 84.1% | 74.5% | 81.0% | 78.4% | 92.2% | 93.9% | 88.2% |
Multi-IF | 70.8% | 67.0% | 57.2% | 60.9% | 57.9% | 77.9% | 79.5% | 70.8% |
[3] Nota: constatamos que o classificador padrão do MultiChallenge (GPT-4o) frequentemente pontua incorretamente as respostas do modelo. Descobrimos que trocar o classificador por um modelo de raciocínio, como o o3-mini, melhora significativamente a precisão da classificação nas amostras que inspecionamos. Por motivos de consistência com a tabela de classificação, estamos publicando os dois conjuntos de resultados.
Avaliações de Contexto Longo
Categoria | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | AbraAI o1(Alto) | AbraAI o3-mini(Alto) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
OpenAI-MRCR: 2 agulhas 128k | 57.2% | 47.2% | 36.6% | 31.9% | 24.5% | 22.1% | 18.7% | 38.5% |
OpenAI-MRCR: 2 agulhas 1M | 46.3% | 33.3% | 12.0% | - | - | - | - | - |
Graphwalks bfs < 128k | 61.7% | 61.7% | 25.0% | 41.7% | 29.0% | 62.0% | 51.0% | 72.3% |
Graphwalks bfs >128k | 19.0% | 15.0% | 2.9% | - | - | - | - | - |
Pais do Graphwalks <128k | 58.0% | 60.5% | 9.4% | 35.4% | 12.6% | 50.9% | 58.3% | 72.6% |
Pais do Graphwalks >128 mil | 25.0% | 11.0% | 5.6% | - | - | - | - | - |
Avaliação de Visão
Categoria | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | AbraAI o1(Alto) | AbraAI o3-mini(Alto) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
MMMU | 74.8% | 72.7% | 55.4% | 68.7% | 56.3% | 77.6% | - | 75.2% |
MathVista | 72.2% | 73.1% | 56.2% | 61.4% | 56.5% | 71.8% | - | 72.3% |
CharXiv-R | 56.7% | 56.8% | 40.5% | 52.7% | 36.8% | 55.1% | - | 55.4% |
CharXiv-D | 87.9% | 88.4% | 73.9% | 85.3% | 76.6% | 88.9% | - | 90.0% |
Chamada de Função Eval
Categoria | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | AbraAI o1(Alto) | AbraAI o3-mini(Alto) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
ComplexFuncBench | 65.5% | 49.3% | 0.6% | 66.5% | 38.6% | 47.6% | 17.6% | 63.0% |
Companhia aérea Taubench4 | 49.4% | 36.0% | 14.0% | 42.8% | 22.0% | 50.0% | 32.4% | 50.0% |
Varejo Taubench4, 5 | 68.0% (% 73.6) | 55.8% (% 65.4) | 22.6% (% 23.5) | 60.3% | 44.0% | 70.8% | 57.6% | 68.4% |
[4] Os números de avaliação do tau-bench são calculados em média em 5 execuções para reduzir a variância e executados sem nenhuma ferramenta ou solicitação personalizada.
[5] Os números entre parênteses representam os resultados do teste Tau-bench ao utilizar o GPT-4.1 como modelo de usuário, em vez do GPT-4o. Descobrimos que, como o GPT-4.1 é melhor em seguir instruções, ele tem melhor desempenho como usuário, resultando em trajetórias mais bem-sucedidas. Acreditamos que isso representa o desempenho real do modelo avaliado no teste de benchmark.
数据统计
Navegação relacionada


DeepSeek

Gemini

Alguem

Claude

Tencent Yuanbao

xAI Grok
