
Новая серия моделей GPT, в которой реализованы значительные улучшения в кодировании, следовании инструкциям и длинном контексте, а также наша первая в истории нано-модель. Доступно черезAPIВызов
Инструкции см. в статье. Первый выпуск!ChatGPT4.1 Полное руководство по локальному использованию — даже для новичков и обычных компьютеров
ChatGPT4.1 Введение
Сегодня мы запускаем три новые модели в API: GPT‑4.1, GPT‑4.1 mini и GPT‑4.1 nano. Эти модели превосходят GPT‑4o и GPT‑4o mini по всем показателям, с основными gains в кодировании и следовании инструкциям. Они также имеют более крупные контекстные окна — поддерживающие до 1 миллиона токенов контекста — и способны лучше использовать этот контекст с улучшенным пониманием длинного контекста. Они имеют обновленный предельный уровень знаний в июне 2024 года.
GPT‑4.1 превосходит следующие отраслевые стандартные показатели:
- Кодирование: GPT-4.1 набирает 54.6% баллов SWE-стенд проверен, улучшение на 21.4%.ABS по GPT‑4o и 26.6%ABS по сравнению с GPT‑4.5, что делает его ведущей моделью для кодирования.
- Инструкция следующая: On MultiChallenge от Scale(Открывается в новом окне) эталонный тест, показатель способности следовать инструкциям, GPT-4.1 набирает 38.3%, 10.5%ABS увеличение по сравнению с GPT‑4o.
- Длинный контекст: On Видео-MME(Открывается в новом окне), эталон для понимания мультимодального длинного контекста, GPT-4.1 устанавливает новый передовой результат — набрав 72.0% в категории длинных текстов без субтитров, 6.7%ABS улучшение по сравнению с GPT‑4o.
Хотя бенчмарки предоставляют ценную информацию, мы обучили эти модели, сосредоточившись на реальной полезности. Тесное сотрудничество и партнерство с сообществом разработчиков позволило нам оптимизировать эти модели для задач, которые наиболее важны для их приложений.
Для этого семейство моделей GPT‑4.1 предлагает исключительную производительность по более низкой цене. Эти модели повышают производительность в каждой точке кривой задержки.

GPT‑4.1 mini — это значительный скачок в производительности малых моделей, даже превосходящий GPT‑4o во многих тестах. Он соответствует или превосходит GPT‑4o в оценках интеллекта, одновременно сокращая задержку почти вдвое и снижая стоимость на 83%.
Для задач, требующих низкой задержки, GPT‑4.1 nano — наша самая быстрая и самая дешевая модель из доступных. Она обеспечивает исключительную производительность при небольшом размере с контекстным окном в 1 миллион токенов и набирает 80.1% на MMLU, 50.3% на GPQA и 9.8% на кодировании полиглотов Aider — даже выше, чем GPT‑4o mini. Она идеально подходит для таких задач, как классификация или автодополнение.
Эти улучшения в надежности выполнения инструкций и понимании длинного контекста также делают модели GPT‑4.1 значительно более эффективными для поддержки агентов или систем, которые могут самостоятельно выполнять задачи от имени пользователей. В сочетании с такими примитивами, как API ответов(Открывается в новом окне)Теперь разработчики могут создавать агенты, которые будут более полезны и надежны при реальной разработке программного обеспечения, извлечении информации из больших документов, решении запросов клиентов с минимальным участием оператора и выполнении других сложных задач.
Обратите внимание, что GPT‑4.1 будет доступен только через API. ChatGPT, многие улучшения в следовании инструкциям, кодировании и интеллекте постепенно были включены в Последняя версия(Открывается в новом окне) GPT‑4o, и мы продолжим включать больше в будущие версии.
Мы также начнем прекращать поддержку GPT‑4.5 Preview в API, поскольку GPT‑4.1 обеспечивает улучшенную или аналогичную производительность многих ключевых возможностей при гораздо меньших затратах и задержках. GPT‑4.5 Preview будет отключен через три месяца, 14 июля 2025 года, чтобы дать разработчикам время на переход. GPT‑4.5 был выпустили как исследовательский предварительный просмотр для изучения и экспериментирования с большой, интенсивной вычислительной моделью, и мы многому научились из отзывов разработчиков. Мы продолжим продвигать креативность, качество письма, юмор и нюансы, которые вы нам сказали, что цените в GPT‑4.5, в будущие модели API.
Ниже мы рассмотрим, как GPT‑4.1 работает в нескольких тестах, а также приведем примеры от таких альфа-тестеров, как Windsurf, Qodo, Hex, Blue J, Thomson Reuters и Carlyle, которые демонстрируют, как он работает в производственной среде при решении задач, специфичных для предметной области.
Кодирование
GPT‑4.1 значительно превосходит GPT‑4o в различных задачах кодирования, включая агентное решение задач кодирования, кодирование интерфейса, внесение меньшего количества посторонних правок, надежное следование форматам различий, обеспечение единообразного использования инструментов и многое другое.
На SWE-bench Verified, показателе реальных навыков разработки программного обеспечения, GPT‑4.1 выполняет 54.6% задач по сравнению с 33.2% для GPT‑4o (2024-11-20). Это отражает улучшение способности модели исследовать репозиторий кода, завершать задачу и создавать код, который и работает, и проходит тесты.
Для разработчиков API, желающих редактировать большие файлы, GPT‑4.1 гораздо надежнее при сравнении кодов в различных форматах. GPT‑4.1 более чем вдвое превосходит GPT‑4o по Тест различий полиглотов от Aider(Открывается в новом окне), и даже превосходит GPT‑4.5 на 8%абс.Эта оценка является как мерой возможностей кодирования на различных языках программирования, так и мерой способности модели производить изменения в целых и diff-форматах. Мы специально обучили GPT‑4.1 более надежно следовать diff-форматам, что позволяет разработчикам экономить как стоимость, так и задержку, имея только измененные строки вывода модели, а не переписывая весь файл. Для лучшей производительности code diff, пожалуйста, обратитесь к нашему подсказка руководство(Открывается в новом окне). Для разработчиков, предпочитающих переписывать целые файлы, мы увеличили лимиты выходных токенов для GPT‑4.1 до 32,768 16,384 токенов (с 4 XNUMX токенов для GPT‑XNUMXo). Мы также рекомендуем использовать Прогнозируемые результаты(Открывается в новом окне) для уменьшения задержки полной перезаписи файлов.
GPT‑4.1 также существенно превосходит GPT‑4o в кодировании интерфейса и способен создавать веб-приложения, которые более функциональны и эстетически приятны. В наших прямых сравнениях платные люди оценивают веб-сайты GPT‑4.1 по сравнению с GPT‑4o в 80% случаев.
ГПТ-4о
ГПТ-4.1
Помимо указанных выше бенчмарков, GPT‑4.1 лучше следует форматам более надежно и реже вносит посторонние правки. В наших внутренних оценках посторонние правки в коде снизились с 9% с GPT‑4o до 2% с GPT‑4.1.
Примеры из реального мира
Заниматься виндсерфингом(Открывается в новом окне): GPT‑4.1 набрал на 60% больше баллов, чем GPT‑4o на внутреннем тесте кодирования Windsurf, что тесно связано с тем, как часто изменения кода принимаются при первом просмотре. Их пользователи отметили, что он на 30% эффективнее в вызове инструментов и примерно на 50% реже повторяет ненужные правки или читает код слишком узкими, пошаговыми шагами. Эти улучшения приводят к более быстрой итерации и более плавным рабочим процессам для инженерных групп.
Кодо(Открывается в новом окне): Qodo протестировал GPT‑4.1 лицом к лицу с другими ведущими моделями по созданию высококачественных обзоров кода из запросов на извлечение GitHub, используя методологию, вдохновленную их бенчмарком тонкой настройки. На основе 200 значимых реальных запросов на извлечение с теми же подсказками и условиями они обнаружили, что GPT‑4.1 выдал лучшее предложение в 55% случаев(Открывается в новом окне). Примечательно, что они обнаружили, что GPT-4.1 отличается как точностью (знанием того, когда не следует делать предложений), так и полнотой (предоставлением тщательного анализа, когда это оправдано), сохраняя при этом фокус на действительно важных вопросах.
Инструкция следующая
GPT‑4.1 более надежно следует инструкциям, и после проведения оценок мы зафиксировали значительные улучшения в различных инструкциях.
Мы разработали внутреннюю оценку выполнения инструкций, чтобы отслеживать эффективность модели по ряду измерений и в нескольких ключевых категориях выполнения инструкций, включая:
- Формат следующий. Предоставление инструкций, определяющих пользовательский формат ответа модели, например XML, YAML, Markdown и т. д.
- Отрицательные инструкции. Указание поведения, которого следует избегать модели. (Пример: «Не просите пользователя обращаться в службу поддержки»).
- Заказал инструкции. Предоставление набора инструкций, которым модель должна следовать в определенном порядке. (Пример: «Сначала спросите имя пользователя, затем спросите его адрес электронной почты»).
- Требования к содержанию. Вывод контента, включающего определенную информацию. (Пример: «Всегда включайте количество белка при составлении плана питания»)
- Рейтинг. Упорядочивание выходных данных определенным образом. (Пример: «Сортировать ответ по численности населения»).
- Самонадеянность. Дайте модели указание сказать «Я не знаю» или что-то подобное, если запрашиваемая информация недоступна или запрос не попадает в заданную категорию. (Пример: «Если вы не знаете ответа, укажите адрес электронной почты службы поддержки»).
Эти категории являются результатом отзывов разработчиков о том, какие аспекты следования инструкциям наиболее актуальны и важны для них. В каждой категории мы разделили легкие, средние и сложные подсказки. GPT-4.1 значительно превосходит GPT-4o в сложных подсказках в частности.
Многооборотное выполнение инструкций имеет решающее значение для многих разработчиков — важно, чтобы модель сохраняла связность в глубине разговора и отслеживала то, что пользователь сказал ей ранее. Мы обучили GPT-4.1 лучше извлекать информацию из прошлых сообщений в разговоре, что позволяет вести более естественные разговоры. Тест MultiChallenge от Scale является полезным показателем этой возможности, и GPT-4.1 выполняет 10.5%ABS лучше, чем GPT‑4o.
GPT‑4.1 также набирает 87.4% на IFEval по сравнению с 81.0% для GPT‑4o. IFEval использует подсказки с проверяемыми инструкциями (например, указание длины контента или избегание определенных терминов или форматов).
Лучшее выполнение инструкций делает существующие приложения более надежными и позволяет новым приложениям, ранее ограниченным низкой надежностью. Ранние тестировщики отметили, что GPT‑4.1 может быть более буквальным, поэтому мы рекомендуем быть явными и конкретными в подсказках. Для получения дополнительной информации о рекомендациях по подсказкам для GPT‑4.1 см. руководство по подсказкам.
Примеры из реального мира
Синий J(Открывается в новом окне): GPT‑4.1 оказался на 53% точнее GPT‑4o на внутреннем бенчмарке самых сложных реальных налоговых сценариев Blue J. Этот скачок точности — ключ к производительности системы и удовлетворенности пользователей — подчеркивает улучшенное понимание сложных правил GPT‑4.1 и его способность следовать тонким инструкциям в длинных контекстах. Для пользователей Blue J это означает более быстрые и надежные налоговые исследования и больше времени для ценной консультационной работы.
Hex(Открывается в новом окне): GPT‑4.1 показал почти двукратное улучшение в самом сложном тесте Hex набор для оценки SQL,(Открывается в новом окне) демонстрируя значительные достижения в следовании инструкциям и семантическом понимании. Модель оказалась более надежной при выборе правильных таблиц из больших неоднозначных схем — точка принятия решения на верхнем уровне, которая напрямую влияет на общую точность и которую трудно настроить только с помощью подсказок. Для Hex это привело к измеримому сокращению ручной отладки и более быстрому пути к рабочим процессам производственного уровня.
Длинный контекст
GPT‑4.1, GPT‑4.1 mini и GPT‑4.1 nano могут обрабатывать до 1 миллиона токенов контекста — по сравнению со 128,000 4 для предыдущих моделей GPT‑1o. 8 миллион токенов — это более XNUMX копий всей кодовой базы React, поэтому длинный контекст отлично подходит для обработки больших кодовых баз или множества длинных документов.
Мы обучили GPT‑4.1 надежно воспринимать информацию на протяжении всего контекста длиной в 1 миллион. Мы также обучили его быть намного более надежным, чем GPT‑4o, в замечании релевантного текста и игнорировании отвлекающих факторов на протяжении длинных и коротких контекстов. Понимание длинного контекста является критически важной способностью для приложений в юридической сфере, кодировании, поддержке клиентов и многих других областях.
Ниже мы демонстрируем способность GPT‑4.1 извлекать небольшой скрытый фрагмент информации («иголку»), расположенный в различных точках контекстного окна. GPT‑4.1 последовательно извлекает иголку точно во всех положениях и при всех длинах контекста, вплоть до 1 миллиона токенов. Он эффективно способен извлекать соответствующие детали для поставленной задачи независимо от их положения во входных данных.

В нашей внутренней оценке «иголки в стоге сена» GPT‑4.1, GPT‑4.1 mini и GPT 4.1 nano способны извлекать иголку во всех положениях в контексте до 1 млн.
Однако немногие задачи реального мира столь же просты, как получение одного очевидного ответа на иголку. Мы обнаружили, что пользователи часто нуждаются в наших моделях для получения и понимания нескольких фрагментов информации, а также для понимания этих фрагментов в отношении друг к другу. Чтобы продемонстрировать эту возможность, мы открываем исходный код нового eval: OpenAI-MRCR (Multi-Round Coreference).
OpenAI-MRCR тестирует способность модели находить и устранять неоднозначность между несколькими иглами, хорошо скрытыми в контексте. Оценка состоит из многооборотных синтетических разговоров между пользователем и помощником, где пользователь просит написать текст на определенную тему, например, «написать стихотворение о тапирах» или «написать сообщение в блоге о камнях». Затем мы вставляем два, четыре или восемь одинаковых запросов по всему контексту. Затем модель должна получить ответ, соответствующий определенному случаю (например, «дайте мне третье стихотворение о тапирах»).
Проблема возникает из-за сходства между этими запросами и остальной частью контекста — модели могут легко быть введены в заблуждение тонкими различиями, такими как короткая история о тапирах вместо поэмы, или поэма о лягушках вместо тапиров. Мы обнаружили, что GPT-4.1 превосходит GPT-4o при длине контекста до 128 тыс. токенов и сохраняет высокую производительность даже до 1 млн токенов.
Но задача остается сложной — даже для продвинутых моделей рассуждений. Мы делимся набор данных оценки(Открывается в новом окне) для поощрения дальнейшей работы по поиску реального контекста в длинных текстах.

In OpenAI-MRCR(Открывается в новом окне)модель должна ответить на вопрос, требующий устранения неоднозначности между 2, 4 или 8 подсказками пользователя, разбросанными среди отвлекающих факторов.
Мы также выпускаем Графические прогулки(Открывается в новом окне), набор данных для оценки многоадресного длинноконтекстного рассуждения. Многие сценарии использования разработчиками длинного контекста требуют множественных логических переходов в контексте, например, переход между несколькими файлами при написании кода или перекрестные ссылки на документы при ответе на сложные юридические вопросы.
Модель (или даже человек) теоретически может решить задачу OpenAI-MRCR, выполнив один проход или прочтя подсказку, но Graphwalks разработан так, чтобы требовать рассуждений в нескольких позициях в контексте, и не может быть решен последовательно.
Graphwalks заполняет контекстное окно направленным графом, состоящим из шестнадцатеричных хешей, а затем просит модель выполнить поиск в ширину (BFS), начиная со случайного узла в графе. Затем мы просим ее вернуть все узлы на определенной глубине. GPT-4.1 достигает точности 61.7% на этом бенчмарке, что соответствует производительности o1 и легко превосходит GPT-4o.
Тесты производительности не дают полной картины, поэтому мы работали с альфа-партнерами, чтобы протестировать производительность GPT‑4.1 на их реальных длинных контекстных задачах.
Примеры из реального мира
Томсон Рейтер:(Открывается в новом окне) Thomson Reuters протестировала GPT-4.1 с CoCounsel, их профессиональным уровнем AI помощник по юридической работе. По сравнению с GPT‑4o, им удалось улучшить точность обзора нескольких документов на 17% при использовании GPT‑4.1 по внутренним бенчмаркам с длинным контекстом — существенная мера способности CoCounsel обрабатывать сложные юридические рабочие процессы, включающие несколько длинных документов. В частности, они обнаружили, что модель очень надежна при сохранении контекста между источниками и точном определении нюансных отношений между документами, таких как противоречивые положения или дополнительный дополнительный контекст — задачи, критически важные для юридического анализа и принятия решений.
Карлайл(Открывается в новом окне): Carlyle использовала GPT‑4.1 для точного извлечения гранулярных финансовых данных из нескольких длинных документов, включая PDF, файлы Excel и другие сложные форматы. Согласно их внутренним оценкам, она показала на 50% лучшие результаты при извлечении из очень больших документов с плотными данными и стала первой моделью, которая успешно преодолела ключевые ограничения, наблюдавшиеся в других доступных моделях, включая извлечение иголки в стоге сена, ошибки «потерянных посередине» и многоскачковое рассуждение по документам.
Помимо производительности и точности модели, разработчикам также нужны модели, которые быстро реагируют, чтобы успевать за потребностями пользователей и удовлетворять их. Мы улучшили наш стек вывода, чтобы сократить время до первого токена, а с помощью оперативного кэширования вы можете еще больше сократить задержку, сэкономив на расходах. В нашем первоначальном тестировании задержка до первого токена для GPT‑4.1 составляла приблизительно пятнадцать секунд при 128,000 4.1 токенов контекста и минуту для миллиона токенов контекста. GPT‑4.1 mini и nano работают быстрее, например, GPT‑128,000 nano чаще всего возвращает первый токен менее чем за пять секунд для запросов со XNUMX XNUMX входных токенов.
Наше видение
Семейство GPT‑4.1 исключительно эффективно справляется с распознаванием изображений, а GPT‑4.1 mini, в частности, представляет собой значительный шаг вперед, часто превосходя GPT‑4o в тестах обработки изображений.
Производительность длительной контекстной обработки также важна для мультимодальных вариантов использования, таких как обработка длинных видео. Видео-MME(Открывается в новом окне) (длинные без субтитров), модель отвечает на вопросы с несколькими вариантами ответов на основе 30-60-минутных видео без субтитров. GPT‑4.1 достигает передовой производительности, набрав 72.0% по сравнению с 65.3% для GPT‑4o.
Цены
GPT‑4.1, GPT‑4.1 mini и GPT‑4.1 nano теперь доступны всем разработчикам.
Благодаря повышению эффективности наших систем вывода мы смогли предложить более низкие цены на серию GPT‑4.1. GPT‑4.1 на 26% дешевле GPT‑4o для медианных запросов, а GPT‑4.1 nano — наша самая дешевая и самая быстрая модель из когда-либо созданных. Для запросов, которые многократно передают один и тот же контекст, мы увеличиваем скидку на кэширование подсказок до 75% (ранее 50%) для этих новых моделей. Наконец, мы предлагаем длинные контекстные запросы без дополнительных затрат сверх стандартных затрат на токен.
Модель (Цены указаны за 1 млн токенов) | вход | Кэшированный ввод | Результат | Смешанное ценообразование* |
GPT-4.1 | $2.00 | $0.50 | $8.00 | $1.84 |
gpt-4.1-мини | $0.40 | $0.10 | $1.60 | $0.42 |
gpt-4.1-нано | $0.10 | $0.025 | $0.40 | $0.12 |
*На основе типичных соотношений ввода-вывода и кэша.
Эти модели доступны для использования в наших Пакетный API(Открывается в новом окне) с дополнительной скидкой 50%.
Вывод
GPT‑4.1 — это значительный шаг вперед в практическом применении AI. Благодаря сосредоточению на реальных потребностях разработчиков — от кодирования до следования инструкциям и понимания контекста — эти модели открывают новые возможности для создания интеллектуальных систем и сложных агентных приложений. Мы постоянно вдохновляемся креативностью сообщества разработчиков и с нетерпением ждем, что вы создадите с помощью GPT‑4.1.
Приложение
Полный список результатов оценок по академическим показателям, кодированию, следованию инструкциям, длинному контексту, зрению и вызову функций можно найти ниже.
Академические знания
Категория | GPT-4.1 | ГПТ-4.1 мини | GPT-4.1 нано | ГПТ-4о(2024-11-20) | ГПТ-4о мини | ОткрытоAI o1(высокая) | ОткрытоAI о3-мини(высокая) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
ИИМЕ '24 | 48.1%. | 49.6%. | 29.4%. | 13.1%. | 8.6%. | 74.3%. | 87.3%. | 36.7%. |
GPQA-Бриллиант1 | 66.3%. | 65.0%. | 50.3%. | 46.0%. | 40.2%. | 75.7%. | 77.2%. | 69.5%. |
ММЛУ | 90.2%. | 87.5%. | 80.1%. | 85.7%. | 82.0%. | 91.8%. | 86.9%. | 90.8%. |
Многоязычный MMLU | 87.3%. | 78.5%. | 66.9%. | 81.4%. | 70.5%. | 87.7%. | 80.7%. | 85.1%. |
[1] Наша реализация GPQA использует модель для извлечения ответа вместо регулярных выражений. Для GPT-4.1 разница составила <1% (статистически незначима), но для GPT-4o извлечение модели значительно улучшает результаты (~46% -> 54%).
Кодирование оценок
Категория | GPT-4.1 | ГПТ-4.1 мини | GPT-4.1 нано | ГПТ-4о(2024-11-20) | ГПТ-4о мини | ОткрытоAI o1(высокая) | ОткрытоAI о3-мини(высокая) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
SWE-стенд проверен2 | 54.6%. | 23.6%. | – | 33.2%. | 8.7%. | 41.0%. | 49.3%. | 38.0%. |
SWE-Lancer | $ 176K (35.1%) | $ 165K (33.0%) | $ 77K (15.3%) | $ 163K (32.6%) | $ 116K (23.1%) | $ 160K (32.1%) | $ 90K (18.0%) | $ 186K (37.3%) |
SWE-Lancer (подмножество IC-Diamond) | $ 34K (14.4%) | $ 31K (13.1%) | $ 9K (3.7%) | $ 29K (12.4%) | $ 11K (4.8%) | $ 29K (9.7%) | $ 17K (7.4%) | $ 41K (17.4%) |
Полиглот Эйдера: целый | 51.6%. | 34.7%. | 9.8%. | 30.7%. | 3.6%. | 64.6%. | 66.7%. | – |
Полиглот Эйдера: diff | 52.9%. | 31.6%. | 6.2%. | 18.2%. | 2.7%. | 61.7%. | 60.4%. | 44.9%. |
[2] Мы опускаем 23/500 задач, которые не могут быть решены на нашей инфраструктуре. Полный список из 23 пропущенных задач: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' и 'sphinx-doc__sphinx-9367'.
Инструкция после оценки
Категория | GPT-4.1 | ГПТ-4.1 мини | GPT-4.1 нано | ГПТ-4о(2024-11-20) | ГПТ-4о мини | ОткрытоAI o1(высокая) | ОткрытоAI о3-мини(высокая) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
Внутренние инструкции API следующие (жесткие) | 49.1%. | 45.1%. | 31.6%. | 29.2%. | 27.2%. | 51.3%. | 50.0%. | 54.0%. |
Мультивызов | 38.3%. | 35.8%. | 15.0%. | 27.8%. | 20.3%. | 44.9%. | 39.9%. | 43.8%. |
MultiChallenge (мини-грейдер o3)3 | 46.2%. | 42.2%. | 31.1%. | 39.9%. | 25.6%. | 52.9%. | 50.2%. | 50.1%. |
КОЛЛИЫ | 65.8%. | 54.6%. | 42.5%. | 50.2%. | 52.7%. | 95.3%. | 98.7%. | 72.3%. |
IFEval | 87.4%. | 84.1%. | 74.5%. | 81.0%. | 78.4%. | 92.2%. | 93.9%. | 88.2%. |
Мульти-IF | 70.8%. | 67.0%. | 57.2%. | 60.9%. | 57.9%. | 77.9%. | 79.5%. | 70.8%. |
[3] Примечание: мы обнаружили, что оценщик по умолчанию в MultiChallenge (GPT-4o) часто неправильно оценивает ответы модели. ответы. Мы обнаружили, что замена оценщика на модель рассуждений, например o3-mini, значительно повышает точность оценки на образцах, которые мы проверили. Для обеспечения согласованности с таблицей лидеров мы публикуем оба набора результатов.
Длинные оценки контекста
Категория | GPT-4.1 | ГПТ-4.1 мини | GPT-4.1 нано | ГПТ-4о(2024-11-20) | ГПТ-4о мини | ОткрытоAI o1(высокая) | ОткрытоAI о3-мини(высокая) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
OpenAI-MRCR: 2 иглы128k | 57.2%. | 47.2%. | 36.6%. | 31.9%. | 24.5%. | 22.1%. | 18.7%. | 38.5%. |
OpenAI-MRCR: 2 иглы 1M | 46.3%. | 33.3%. | 12.0%. | – | – | – | – | – |
Графические прогулки bfs < 128k | 61.7%. | 61.7%. | 25.0%. | 41.7%. | 29.0%. | 62.0%. | 51.0%. | 72.3%. |
Графические прогулки bfs >128k | 19.0%. | 15.0%. | 2.9%. | – | – | – | – | – |
Родители Graphwalks <128 тыс. | 58.0%. | 60.5%. | 9.4%. | 35.4%. | 12.6%. | 50.9%. | 58.3%. | 72.6%. |
Родители Graphwalks >128 тыс. | 25.0%. | 11.0%. | 5.6%. | – | – | – | – | – |
Оценка видения
Категория | GPT-4.1 | ГПТ-4.1 мини | GPT-4.1 нано | ГПТ-4о(2024-11-20) | ГПТ-4о мини | ОткрытоAI o1(высокая) | ОткрытоAI о3-мини(высокая) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
МММУ | 74.8%. | 72.7%. | 55.4%. | 68.7%. | 56.3%. | 77.6%. | – | 75.2%. |
МатВиста | 72.2%. | 73.1%. | 56.2%. | 61.4%. | 56.5%. | 71.8%. | – | 72.3%. |
CharXiv-R | 56.7%. | 56.8%. | 40.5%. | 52.7%. | 36.8%. | 55.1%. | – | 55.4%. |
CharXiv-D | 87.9%. | 88.4%. | 73.9%. | 85.3%. | 76.6%. | 88.9%. | – | 90.0%. |
Вызов функции Eval
Категория | GPT-4.1 | ГПТ-4.1 мини | GPT-4.1 нано | ГПТ-4о(2024-11-20) | ГПТ-4о мини | ОткрытоAI o1(высокая) | ОткрытоAI о3-мини(высокая) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
ComplexFuncBench | 65.5%. | 49.3%. | 0.6%. | 66.5%. | 38.6%. | 47.6%. | 17.6%. | 63.0%. |
авиакомпания Таубенч4 | 49.4%. | 36.0%. | 14.0%. | 42.8%. | 22.0%. | 50.0%. | 32.4%. | 50.0%. |
Таубенч розничная торговля4, 5 | 68.0%. (73.6%) | 55.8%. (65.4%) | 22.6%. (23.5%) | 60.3%. | 44.0%. | 70.8%. | 57.6%. | 68.4%. |
[4] Числа оценки tau-bench усредняются по 5 запускам для уменьшения дисперсии и запускаются без каких-либо специальных инструментов или подсказок.
[5] Цифры в скобках представляют результаты Tau-bench при использовании GPT-4.1 в качестве пользовательской модели, а не GPT-4o. Мы обнаружили, что поскольку GPT-4.1 лучше выполняет инструкции, она лучше выполняет функции пользователя и, таким образом, обеспечивает более успешные траектории. Мы считаем, что это отражает истинную производительность оцениваемой модели в бенчмарке.
数据 统计
Связанная навигация


DeepSeek

Gemini

Kimi

Claude

Tencent Юаньбао

xAI Grok
