
コーディング、命令追跡、ロングコンテキストの大幅な改善を特徴とする新しいGPTモデルシリーズ。さらに、初のナノモデルも搭載。API電話
手順については記事をご覧ください 初リリース!ChatGPT4.1 ローカル使用の完全ガイド - 初心者や通常のコンピュータでも
ChatGPT4.1 はじめに
本日、APIに4.1つの新しいモデル、GPT-4.1、GPT-4.1 mini、GPT-4 nanoをリリースします。これらのモデルは、GPT-4oおよびGPT-XNUMXo miniを全般的に上回り、主要なgaiコーディングと指示追従において、nsの能力が優れています。また、最大1万トークンのコンテキストをサポートするより広いコンテキストウィンドウを備えており、長文理解能力が向上し、そのコンテキストをより有効に活用できます。2024年XNUMX月を目標とした新たな知識カットオフを特徴としています。
GPT-4.1 は、次のような業界標準の測定に優れています。
- コーディングGPT-4.1のスコアは54.6% SWEベンチ検証済み、改善により 21.4% 短縮されます腹筋 GPT-4o以上 と26.6%で腹筋 GPT-4.5 を上回り、コーディングの主要なモデルとなっています。
- 指示は次のとおりです: On スケールのマルチチャレンジ(新しいウィンドウで開きます) 指示に従う能力を測るベンチマークであるGPT-4.1のスコアは38.3%で、10.5%の腹筋 GPT-4oよりも増加します。
- 長いコンテキスト: On ビデオ-MME(新しいウィンドウで開きます)マルチモーダル長文理解のベンチマークであるGPT-4.1は、長文・字幕なしのカテゴリで72.0%、字幕なしのカテゴリで6.7%という新たな最先端の結果を達成しました。腹筋 GPT-4oからの改善。
ベンチマークは貴重な洞察を提供しますが、これらのモデルは実世界での有用性に重点を置いてトレーニングしました。開発者コミュニティとの緊密な連携とパートナーシップにより、これらのモデルをアプリケーションにとって最も重要なタスクに合わせて最適化することができました。
そのため、GPT-4.1モデルファミリーは、低コストで卓越したパフォーマンスを提供します。これらのモデルは、レイテンシ曲線のあらゆるポイントでパフォーマンスを向上させます。

GPT-4.1 miniは、小規模モデルのパフォーマンスにおいて飛躍的な向上を示し、多くのベンチマークでGPT-4oを上回ります。知能評価ではGPT-4oと同等かそれ以上であり、レイテンシはほぼ半分に短縮され、コストは83%削減されます。
低レイテンシが求められるタスクには、GPT-4.1 nanoが最速かつ最も安価なモデルです。1万トークンのコンテキストウィンドウを備え、小型ながらも優れたパフォーマンスを発揮します。MMLUで80.1%、GPQAで50.3%、Aiderポリグロットコーディングで9.8%という高いスコアを獲得しており、GPT-4o miniよりも高いスコアを誇ります。分類や自動補完などのタスクに最適です。
指示に従う信頼性と長い文脈の理解におけるこれらの改善により、GPT-4.1モデルは、ユーザーに代わってタスクを独立して実行できるエージェントやシステムを強化する上で、大幅に効果的になります。 レスポンスAPI(新しいウィンドウで開きます)開発者は、実際のソフトウェア エンジニアリング、大規模なドキュメントからの洞察の抽出、最小限の手助けによる顧客要求の解決、その他の複雑なタスクにおいて、より有用で信頼性の高いエージェントを構築できるようになりました。
GPT-4.1はAPI経由でのみ利用可能となることにご注意ください。 ChatGPT指示に従うこと、コーディング、知能の向上の多くは、徐々に 最新バージョン(新しいウィンドウで開きます) GPT-4o の、そして今後のリリースでもさらに多くの機能を組み込んでいく予定です。
また、GPT-4.5は多くの主要機能において、コストとレイテンシを大幅に削減しながら、改善された、あるいは同等のパフォーマンスを提供するため、APIにおけるGPT-4.1プレビューの廃止も開始します。GPT-4.5プレビューは、開発者が移行するための時間を確保するため、14か月後の2025年4.5月XNUMX日に廃止されます。GPT-XNUMXは 導入 大規模で計算負荷の高いモデルを探索・実験するための研究プレビューとして、開発者の皆様からのフィードバックから多くのことを学びました。GPT-4.5で皆様からいただいた創造性、文章の質、ユーモア、そしてニュアンスを、将来のAPIモデルにも引き継いでいきます。
以下では、GPT-4.1がいくつかのベンチマークでどのように機能するかを分析し、Windsurf、Qodo、Hex、Blue J、Thomson Reuters、Carlyleなどのアルファテスターからの例とともに、ドメイン固有のタスクでの本番環境でのパフォーマンスを示します。
コーディング
GPT-4.1は、コーディングタスクのエージェントによる解決、フロントエンドコーディング、不要な編集の削減、diff形式の確実な遵守、一貫したツール使用の確保など、さまざまなコーディングタスクにおいてGPT-4oよりも大幅に優れています。
実世界のソフトウェアエンジニアリングスキルを測るSWE-bench Verifiedにおいて、GPT-4.1はタスクの54.6%を完了しました。これは、GPT-33.2o(4年2024月11日)の20%と比較して大幅に向上しています。これは、コードリポジトリの探索、タスクの完了、そして実行とテスト合格の両方を実現するコード生成といったモデルの能力が向上したことを反映しています。
大きなファイルを編集するAPI開発者にとって、GPT-4.1はさまざまな形式のコード差分においてはるかに信頼性が高い。GPT-4.1はGPT-4oのスコアのXNUMX倍以上である。 Aider の多言語差分ベンチマーク(新しいウィンドウで開きます)GPT-4.5を8%上回る腹筋。この評価は、様々なプログラミング言語におけるコーディング能力の尺度であると同時に、全体形式と差分形式で変更を生成するモデル能力の尺度でもあります。GPT-4.1は、差分形式をより確実に追跡できるように特別にトレーニングされており、これにより開発者はファイル全体を書き換えるのではなく、変更された行のみをモデルに出力させることで、コストとレイテンシの両方を削減できます。最高のコード差分パフォーマンスについては、当社の 促すガイド(新しいウィンドウで開きます)ファイル全体を書き換えたい開発者向けに、GPT-4.1の出力トークン制限を32,768トークンに引き上げました(GPT-16,384oの4トークンから増加)。また、 予測出力(新しいウィンドウで開きます) 完全なファイル書き換えの遅延を削減します。
GPT-4.1はフロントエンドコーディングにおいてもGPT-4oを大幅に改善し、より機能的で美しいウェブアプリを作成できます。当社の直接比較では、有償の人間によるグレーダーによるGPT-4.1のウェブサイトのグレーディングは、GPT-4oのウェブサイトのグレーディングを80%上回りました。
GPT-4o について
GPT-4.1 の
上記のベンチマークに加え、GPT-4.1はフォーマットへの追従性が向上し、不要な編集頻度も低下しました。社内評価では、コードに対する不要な編集はGPT-9oでは4%でしたが、GPT-2では4.1%に減少しました。
現実世界の例
ウインドサーフィンをする(新しいウィンドウで開きます): GPT-4.1は、Windsurfの内部コーディングベンチマークにおいてGPT-60oよりも4%高いスコアを獲得しました。これは、コード変更が初回レビューで承認される頻度と強く相関しています。ユーザーからは、ツール呼び出しの効率が30%向上し、不要な編集を繰り返したり、過度に狭い範囲で段階的にコードを読んだりする可能性が約50%減少したという報告がありました。これらの改善は、エンジニアリングチームの反復処理の高速化とワークフローの円滑化につながります。
コド(新しいウィンドウで開きます): Qodoは、GitHubのプルリクエストから高品質なコードレビューを生成するという点において、GPT-4.1と他の主要モデルを直接比較しました。これは、自社のファインチューニングベンチマークに着想を得た手法を用いて実施されました。同じプロンプトと条件で200件の実際の意味のあるプルリクエストに対して、GPT-4.1が最も優れた提案を生成することが分かりました。 例55%(新しいウィンドウで開きます)特に、GPT-4.1は、本当に重要な問題に焦点を当てながら、精度(提案すべきでないタイミングを知る)と包括性(必要に応じて徹底的な分析を提供する)の両方に優れていることがわかりました。
指示に従う
GPT-4.1 はより確実に命令に従い、さまざまな命令実行評価で大幅な改善が測定されました。
私たちは、さまざまな側面と、次のようないくつかの主要な指示追跡カテゴリにわたってモデルのパフォーマンスを追跡するために、指示追跡の内部評価を開発しました。
- フォーマットは以下のとおりです。 XML、YAML、Markdown など、モデルの応答のカスタム形式を指定する指示を提供します。
- 否定的な指示。 モデルが避けるべき動作を指定します。(例:「ユーザーにサポートへの問い合わせを求めない」)
- 指示された手順。 モデルが特定の順序で実行しなければならない一連の指示を提供します。(例:「まずユーザーの名前を尋ね、次にメールアドレスを尋ねる」)
- コンテンツ要件。 特定の情報を含むコンテンツの出力。(例:「栄養プランを作成する際は、必ずタンパク質の量を含める」)
- ランキング。 出力を特定の方法で並べ替えます。(例:「人口数で回答を並べ替える」)
- 自信過剰。 要求された情報が入手できない場合、またはリクエストが特定のカテゴリに該当しない場合に、「わかりません」などの返答をモデルに指示します。(例:「回答がわからない場合は、サポート連絡先のメールアドレスを入力してください」)
これらのカテゴリは、開発者からのフィードバックに基づいており、指示に従う際のどの側面が最も関連性が高く重要であるかが示されています。各カテゴリでは、プロンプトを「簡単」、「中程度」、「難しい」に分類しています。GPT-4.1は、特に「難しい」プロンプトにおいてGPT-4oよりも大幅に改善されています。
多くの開発者にとって、複数ターンの指示追従は非常に重要です。モデルが会話の深部まで一貫性を維持し、ユーザーが以前に伝えた内容を把握することが重要です。GPT-4.1は、会話中の過去のメッセージから情報をより適切に抽出できるようにトレーニングし、より自然な会話を実現しました。ScaleのMultiChallengeベンチマークは、この機能の有用な指標であり、GPT-4.1は10.5%の性能向上を達成しました。腹筋 GPT-4oよりも優れています。
GPT-4.1はIFEvalで87.4%のスコアを獲得し、GPT-81.0oでは4%のスコアを獲得しました。IFEvalは検証可能な指示(コンテンツの長さの指定、特定の用語や形式の回避など)を含むプロンプトを使用します。
指示の追従性が向上することで、既存のアプリケーションの信頼性が向上し、これまで信頼性の低さがネックとなっていた新規アプリケーションの運用が可能になります。初期のテスターからは、GPT-4.1ではより文字どおりの指示が求められることが指摘されているため、プロンプトでは明示的かつ具体的な指示を推奨します。GPT-4.1におけるプロンプトのベストプラクティスの詳細については、プロンプトガイドをご覧ください。
現実世界の例
ブルーJ(新しいウィンドウで開きます): GPT-4.1は、Blue Jの最も困難な実世界の税務シナリオを対象とした社内ベンチマークにおいて、GPT-53oと比較して4%高い精度を示しました。システムパフォーマンスとユーザー満足度の両方にとって重要なこの精度向上は、GPT-4.1が複雑な規制の理解力と、長いコンテキストにおける微妙な指示への対応力を向上させたことを示しています。Blue Jユーザーにとって、これはより迅速で信頼性の高い税務調査と、より価値の高いアドバイザリー業務への時間確保を意味します。
16進法(新しいウィンドウで開きます)GPT-4.1はHexの最も難しいテストでほぼ2倍の改善を達成しました。 SQL評価セット、(新しいウィンドウで開きます) 指示の追従性と意味理解において、大幅な向上が見られました。大規模で曖昧なスキーマから正しいテーブルを選択する際のモデル信頼性が向上しました。これは上流の意思決定ポイントであり、全体的な精度に直接影響を及ぼし、プロンプトだけでは調整が困難です。Hex社では、これにより手動デバッグの大幅な削減と、本番環境レベルのワークフローへの迅速な移行が実現しました。
長いコンテキスト
GPT-4.1、GPT-4.1 mini、およびGPT-4.1 nanoは、最大1万トークンのコンテキストを処理できます。これは、以前のGPT-128,000oモデルの4トークンから増加しています。1万トークンはReactコードベース全体の8つのコピーを超えるため、長いコンテキストは大規模なコードベースや大量の長いドキュメントの処理に最適です。
GPT-4.1は、1万コンテキスト長全体にわたって情報に確実に注意を向けるよう学習しました。また、GPT-4oよりもはるかに高い信頼性で関連テキストを認識し、長短のコンテキスト長を問わず妨害要因を無視できるように学習しました。長コンテキスト理解は、法務、コーディング、カスタマーサポートなど、多くの分野のアプリケーションにとって重要な能力です。
以下では、コンテキストウィンドウ内の様々な位置に配置された小さな隠れた情報(「針」)を取得するGPT-4.1の能力を示します。GPT-4.1は、あらゆる位置とあらゆるコンテキスト長(最大1万トークン)において、一貫して針を正確に取得します。入力内の位置に関係なく、タスクに関連する詳細情報を効果的に抽出できます。

私たちの内部の「干し草の山の中の針」評価では、GPT-4.1、GPT-4.1 mini、GPT 4.1 nano はすべて、コンテキスト内の 1M までのあらゆる位置で針を取得できました。
しかし、現実世界のタスクは、単一の明白な針の答えを取得するほど単純なものはほとんどありません。ユーザーは、私たちのモデルを使って複数の情報を取得し、理解し、それらを相互に関連付けて理解することを求めることがよくあります。この機能を紹介するため、新しい評価モデルであるOpenAI-MRCR(Multi-Round Coreference)をオープンソース化します。
OpenAI-MRCRは、文脈に巧妙に隠された複数の針を発見し、それらの曖昧性を解消するモデルの能力をテストします。評価は、ユーザーとアシスタント間の複数ターンの合成会話で構成され、ユーザーは「バクについての詩を書いてください」や「岩についてのブログ記事を書いてください」など、あるトピックに関する文章を要求します。次に、コンテキスト全体に2つ、4つ、または8つの同一のリクエストを挿入します。モデルは、特定のインスタンスに対応する応答(例:「バクについての3番目の詩をください」)を取得する必要があります。
課題は、これらのリクエストとコンテキスト全体の類似性にあります。モデルは、詩ではなくバクに関する短編小説、あるいはバクではなくカエルに関する詩といった微妙な違いによって簡単に誤認識されてしまう可能性があります。GPT-4.1は、コンテキスト長が4トークンまでGPT-128oよりも優れており、1万トークンまで高いパフォーマンスを維持することがわかりました。
しかし、高度な推論モデルであっても、この課題は依然として困難です。 評価データセット(新しいウィンドウで開きます) 現実世界の長期コンテキスト検索に関するさらなる研究を奨励するため。

In OpenAI-MRCR(新しいウィンドウで開きます)モデルは、妨害因子の中に散在する 2 つ、4 つ、または 8 つのユーザー プロンプトを明確に区別する質問に答える必要があります。
また、リリースします グラフウォーク(新しいウィンドウで開きます)マルチホップのロングコンテキスト推論を評価するためのデータセット。ロングコンテキストを使用する多くの開発者のユースケースでは、コード記述時に複数のファイル間を移動したり、複雑な法的質問に答える際にドキュメントを相互参照したりするなど、コンテキスト内で複数の論理ホップが必要になります。
モデル (または人間) は、理論的にはプロンプトを 1 回パスまたは読み通すことで OpenAI-MRCR の問題を解決できますが、Graphwalks はコンテキスト内の複数の位置にわたる推論を必要とするように設計されており、順番に解決することはできません。
Graphwalksは、コンテキストウィンドウを4.1進ハッシュで構成された有向グラフで埋め、モデルにグラフ内のランダムなノードから幅優先探索(BFS)を実行するよう指示します。そして、特定の深さにあるすべてのノードを返すよう指示します。GPT-61.7はこのベンチマークで1%の精度を達成し、o4と同等の性能でGPT-XNUMXoを大きく上回りました。
ベンチマークだけでは全体像が把握できないため、アルファ パートナーと協力して、実際の長いコンテキスト タスクで GPT-4.1 のパフォーマンスをテストしました。
現実世界の例
トムソン・ロイター:(新しいウィンドウで開きます) トムソン・ロイターは、プロフェッショナルグレードのCoCounselでGPT-4.1をテストしました。 AI 法務業務のアシスタントとしてGPT-4oを使用しました。社内のロングコンテキストベンチマークにおいて、GPT-17を使用した場合、GPT-4.1oと比較して複数文書のレビュー精度がXNUMX%向上しました。これは、複数の長文文書を含む複雑な法務ワークフローを処理するCoCounselの能力を測る重要な指標です。特に、GPT-XNUMXは、ソース間のコンテキストを維持し、矛盾する条項や追加の補足コンテキストなど、文書間の微妙な関係性を正確に特定する点で、非常に信頼性が高いことがわかりました。これは、法務分析と意思決定に不可欠なタスクです。
カーライル(新しいウィンドウで開きます): カーライルは、PDF、Excelファイル、その他の複雑な形式を含む複数の長大な文書から、きめ細かな金融データを正確に抽出するためにGPT-4.1を使用しました。社内評価によると、GPT-50は、高密度データを含む非常に大規模な文書からの検索においてXNUMX%のパフォーマンス向上を達成し、干し草の山の中の針のような検索、中間者エラー、文書間のマルチホップ推論など、既存のモデルに見られる主要な限界を克服した初のモデルとなりました。
モデルのパフォーマンスと精度に加えて、開発者はユーザーのニーズに迅速に対応し、それを満たすために迅速に応答するモデルも必要としています。推論スタックを改良し、最初のトークンまでの時間を短縮しました。また、迅速なキャッシュにより、レイテンシをさらに短縮し、コストを削減できます。初期テストでは、GPT-4.1の最初のトークンまでのレイテンシは、128,000トークンのコンテキストで約4.1秒、4.1万トークンのコンテキストで128,000分でした。GPT-XNUMX miniとnanoはより高速で、例えばGPT-XNUMX nanoは、XNUMX入力トークンのクエリに対して、ほとんどの場合XNUMX秒未満で最初のトークンを返します。
展望
GPT-4.1 ファミリーは画像理解に非常に優れており、特に GPT-4.1 mini は大きな飛躍を遂げており、画像ベンチマークで GPT-4o を上回ることがよくあります。
長時間コンテキストのパフォーマンスは、長時間の動画処理などのマルチモーダルユースケースでも重要です。 ビデオMME(新しいウィンドウで開きます) (字幕なしの長編)では、モデルが30~60分の字幕なしの動画に基づいて多肢選択式の質問に回答します。GPT-4.1は最先端のパフォーマンスを達成し、GPT-72.0oの65.3%から4%に向上しました。
価格
GPT-4.1、GPT-4.1 mini、GPT-4.1 nano は現在すべての開発者にご利用いただけます。
推論システムの効率性向上により、GPT-4.1シリーズの価格を引き下げることができました。GPT-4.1は、中央値クエリの場合GPT-26oよりも4%安価で、GPT-4.1 nanoはこれまでで最も安価かつ高速なモデルです。同じコンテキストを繰り返し渡すクエリについては、これらの新モデルでプロンプトキャッシュ割引を75%(従来の50%から)に引き上げました。さらに、ロングコンテキストリクエストは、トークンあたりの標準コスト以外の追加費用なしで提供しています。
モデル (価格は1万トークンあたり) | 入力 | キャッシュされた入力 | 出力 | ブレンド価格設定* |
gpt-4.1 | $2.00 | $0.50 | $8.00 | $1.84 |
gpt-4.1-ミニ | $0.40 | $0.10 | $1.60 | $0.42 |
gpt-4.1-ナノ | $0.10 | $0.025 | $0.40 | $0.12 |
*標準的な入出力およびキャッシュ比率に基づきます。
これらのモデルは、 バッチAPI(新しいウィンドウで開きます) さらに 50% 割引の価格となります。
まとめ:
GPT-4.1は、実用化に向けて大きな前進です。 AIこれらのモデルは、コーディングから命令の理解、そして長期的なコンテキスト理解に至るまで、現実世界の開発者のニーズに深く焦点を当てることで、インテリジェントシステムや高度なエージェントアプリケーションの構築における新たな可能性を切り開きます。私たちは開発者コミュニティの創造性に常に刺激を受けており、GPT-4.1を使って皆さんがどのようなものを開発されるのか、楽しみにしています。
付録
学術、コーディング、指示の追跡、長いコンテキスト、ビジョン、および関数呼び出しの評価にわたる結果の完全なリストは以下にあります。
学術的知識
カテゴリー | GPT-4.1 | GPT-4.1 ミニ | GPT-4.1ナノ | GPT-4o(2024-11-20) | GPT-4oミニ | 店は開いていますAI o1(高い) | 店は開いていますAI o3-mini(高い) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
AIME '24 | 48.1% 短縮されます | 49.6% 短縮されます | 29.4% 短縮されます | 13.1% 短縮されます | 8.6% 短縮されます | 74.3% 短縮されます | 87.3% 短縮されます | 36.7% 短縮されます |
GPQA ダイヤモンド1 | 66.3% 短縮されます | 65.0% 短縮されます | 50.3% 短縮されます | 46.0% 短縮されます | 40.2% 短縮されます | 75.7% 短縮されます | 77.2% 短縮されます | 69.5% 短縮されます |
MMLU | 90.2% 短縮されます | 87.5% 短縮されます | 80.1% 短縮されます | 85.7% 短縮されます | 82.0% 短縮されます | 91.8% 短縮されます | 86.9% 短縮されます | 90.8% 短縮されます |
多言語MMLU | 87.3% 短縮されます | 78.5% 短縮されます | 66.9% 短縮されます | 81.4% 短縮されます | 70.5% 短縮されます | 87.7% 短縮されます | 80.7% 短縮されます | 85.1% 短縮されます |
[1] GPQAの実装では、正規表現ではなくモデルを用いて回答を抽出しています。GPT-4.1では差は1%未満(統計的に有意ではない)でしたが、GPT-4oではモデル抽出によってスコアが大幅に向上しました(約46%→54%)。
コーディング評価
カテゴリー | GPT-4.1 | GPT-4.1 ミニ | GPT-4.1ナノ | GPT-4o(2024-11-20) | GPT-4oミニ | 店は開いていますAI o1(高い) | 店は開いていますAI o3-mini(高い) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
SWEベンチ検証済み2 | 54.6% 短縮されます | 23.6% 短縮されます | – | 33.2% 短縮されます | 8.7% 短縮されます | 41.0% 短縮されます | 49.3% 短縮されます | 38.0% 短縮されます |
SWE-ランサー | $ 176K (35.1%)を | $ 165K (33.0%)を | $ 77K (15.3%)を | $ 163K (32.6%)を | $ 116K (23.1%)を | $ 160K (32.1%)を | $ 90K (18.0%)を | $ 186K (37.3%)を |
SWE-ランサー(IC-ダイヤモンドサブセット) | $ 34K (14.4%)を | $ 31K (13.1%)を | $ 9K (3.7%)を | $ 29K (12.4%)を | $ 11K (4.8%)を | $ 29K (9.7%)を | $ 17K (7.4%)を | $ 41K (17.4%)を |
アイダーの多言語:全体 | 51.6% 短縮されます | 34.7% 短縮されます | 9.8% 短縮されます | 30.7% 短縮されます | 3.6% 短縮されます | 64.6% 短縮されます | 66.7% 短縮されます | – |
Aiderの多言語:diff | 52.9% 短縮されます | 31.6% 短縮されます | 6.2% 短縮されます | 18.2% 短縮されます | 2.7% 短縮されます | 61.7% 短縮されます | 60.4% 短縮されます | 44.9% 短縮されます |
[2] 私たちのインフラでは実行できなかった23/500の問題を省略します。省略された23のタスクの完全なリストは、「astropy__astropy-7606」、「astropy__astropy-8707」、「astropy__astropy-8872」、「django__django-10097」、「django__django-7530」、「matplotlib__matplotlib-20488」、「matplotlib__matplotlib-20676」、「matplotlib__matplotlib-20826」、「matplotlib__matplotlib-23299」、「matplotlib__matplotlib-24970」、「matplotlib__matplotlib-25479」、「matplotlib__matplotlib-26342」、「psf__requests-6028」です。 'pylint-dev__pylint-6528'、'pylint-dev__pylint-7080'、'pylint-dev__pylint-7277'、'pytest-dev__pytest-5262'、'pytest-dev__pytest-7521'、'scikit-learn__scikit-learn-12973'、'sphinx-doc__sphinx-10466'、'sphinx-doc__sphinx-7462'、'sphinx-doc__sphinx-8265'、および 'sphinx-doc__sphinx-9367'。
評価後の命令
カテゴリー | GPT-4.1 | GPT-4.1 ミニ | GPT-4.1ナノ | GPT-4o(2024-11-20) | GPT-4oミニ | 店は開いていますAI o1(高い) | 店は開いていますAI o3-mini(高い) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
内部API命令に従う(ハード) | 49.1% 短縮されます | 45.1% 短縮されます | 31.6% 短縮されます | 29.2% 短縮されます | 27.2% 短縮されます | 51.3% 短縮されます | 50.0% 短縮されます | 54.0% 短縮されます |
マルチチャレンジ | 38.3% 短縮されます | 35.8% 短縮されます | 15.0% 短縮されます | 27.8% 短縮されます | 20.3% 短縮されます | 44.9% 短縮されます | 39.9% 短縮されます | 43.8% 短縮されます |
マルチチャレンジ(o3-ミニグレーダー)3 | 46.2% 短縮されます | 42.2% 短縮されます | 31.1% 短縮されます | 39.9% 短縮されます | 25.6% 短縮されます | 52.9% 短縮されます | 50.2% 短縮されます | 50.1% 短縮されます |
コリー | 65.8% 短縮されます | 54.6% 短縮されます | 42.5% 短縮されます | 50.2% 短縮されます | 52.7% 短縮されます | 95.3% 短縮されます | 98.7% 短縮されます | 72.3% 短縮されます |
IFEval | 87.4% 短縮されます | 84.1% 短縮されます | 74.5% 短縮されます | 81.0% 短縮されます | 78.4% 短縮されます | 92.2% 短縮されます | 93.9% 短縮されます | 88.2% 短縮されます |
マルチIF | 70.8% 短縮されます | 67.0% 短縮されます | 57.2% 短縮されます | 60.9% 短縮されます | 57.9% 短縮されます | 77.9% 短縮されます | 79.5% 短縮されます | 70.8% 短縮されます |
[3] 注:MultiChallenge(GPT-4o)のデフォルトの採点ツールは、モデルの回答を頻繁に誤って採点することが判明しました。採点ツールをo3-miniのような推論モデルに切り替えると、検査したサンプルの採点精度が大幅に向上することがわかりました。リーダーボードとの一貫性を保つため、両方の結果を公開しています。
長いコンテキスト評価
カテゴリー | GPT-4.1 | GPT-4.1 ミニ | GPT-4.1ナノ | GPT-4o(2024-11-20) | GPT-4oミニ | 店は開いていますAI o1(高い) | 店は開いていますAI o3-mini(高い) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
OpenAI-MRCR: 2針128k | 57.2% 短縮されます | 47.2% 短縮されます | 36.6% 短縮されます | 31.9% 短縮されます | 24.5% 短縮されます | 22.1% 短縮されます | 18.7% 短縮されます | 38.5% 短縮されます |
OpenAI-MRCR: 2針1M | 46.3% 短縮されます | 33.3% 短縮されます | 12.0% 短縮されます | – | – | – | – | – |
Graphwalks bfs < 128k | 61.7% 短縮されます | 61.7% 短縮されます | 25.0% 短縮されます | 41.7% 短縮されます | 29.0% 短縮されます | 62.0% 短縮されます | 51.0% 短縮されます | 72.3% 短縮されます |
Graphwalks bfs >128k | 19.0% 短縮されます | 15.0% 短縮されます | 2.9% 短縮されます | – | – | – | – | – |
Graphwalks の親 <128k | 58.0% 短縮されます | 60.5% 短縮されます | 9.4% 短縮されます | 35.4% 短縮されます | 12.6% 短縮されます | 50.9% 短縮されます | 58.3% 短縮されます | 72.6% 短縮されます |
Graphwalksの親 >128k | 25.0% 短縮されます | 11.0% 短縮されます | 5.6% 短縮されます | – | – | – | – | – |
視力評価
カテゴリー | GPT-4.1 | GPT-4.1 ミニ | GPT-4.1ナノ | GPT-4o(2024-11-20) | GPT-4oミニ | 店は開いていますAI o1(高い) | 店は開いていますAI o3-mini(高い) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
MMMU | 74.8% 短縮されます | 72.7% 短縮されます | 55.4% 短縮されます | 68.7% 短縮されます | 56.3% 短縮されます | 77.6% 短縮されます | – | 75.2% 短縮されます |
MathVista | 72.2% 短縮されます | 73.1% 短縮されます | 56.2% 短縮されます | 61.4% 短縮されます | 56.5% 短縮されます | 71.8% 短縮されます | – | 72.3% 短縮されます |
CharXiv-R | 56.7% 短縮されます | 56.8% 短縮されます | 40.5% 短縮されます | 52.7% 短縮されます | 36.8% 短縮されます | 55.1% 短縮されます | – | 55.4% 短縮されます |
CharXiv-D | 87.9% 短縮されます | 88.4% 短縮されます | 73.9% 短縮されます | 85.3% 短縮されます | 76.6% 短縮されます | 88.9% 短縮されます | – | 90.0% 短縮されます |
関数呼び出しの評価
カテゴリー | GPT-4.1 | GPT-4.1 ミニ | GPT-4.1ナノ | GPT-4o(2024-11-20) | GPT-4oミニ | 店は開いていますAI o1(高い) | 店は開いていますAI o3-mini(高い) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
複合関数ベンチ | 65.5% 短縮されます | 49.3% 短縮されます | 0.6% 短縮されます | 66.5% 短縮されます | 38.6% 短縮されます | 47.6% 短縮されます | 17.6% 短縮されます | 63.0% 短縮されます |
タウベンチ航空4 | 49.4% 短縮されます | 36.0% 短縮されます | 14.0% 短縮されます | 42.8% 短縮されます | 22.0% 短縮されます | 50.0% 短縮されます | 32.4% 短縮されます | 50.0% 短縮されます |
タウベンチの小売店4、5 | 68.0% 短縮されます (73.6%)を | 55.8% 短縮されます (65.4%)を | 22.6% 短縮されます (23.5%)を | 60.3% 短縮されます | 44.0% 短縮されます | 70.8% 短縮されます | 57.6% 短縮されます | 68.4% 短縮されます |
[4] tau-benchの評価数値は、分散を減らすために5回の実行で平均化され、カスタムツールやプロンプトなしで実行されます。
[5] 括弧内の数字は、GPT-4.1oではなくGPT-4をユーザーモデルとして使用した場合のTau-benchの結果です。GPT-4.1は指示追従性に優れているため、ユーザーモデルとしてより優れたパフォーマンスを発揮し、より多くの成功軌道を獲得することがわかりました。これは、ベンチマークにおける評価モデルの真のパフォーマンスを表していると考えています。
データ統計
関連ナビゲーション


DeepSeek

Gemini

キミ

Claude

テンセント元宝

xAI Grok
