GPT4.1 API

最終更新 8 か月前 3,272 00

API呼び出しChatGPT4.1 モデル

北海道:
加隊大
言語:
zh,en
録音時間:
2025-04-15
GPT4.1 APIGPT4.1 API
GPT4.1 API

コーディング、命令追跡、ロングコンテキストの大幅な改善を特徴とする新しいGPTモデルシリーズ。さらに、初のナノモデルも搭載。API電話

手順については記事をご覧ください 初リリース!ChatGPT4.1 ローカル使用の完全ガイド - 初心者や通常のコンピュータでも

Docker Desktop+webUIは大規模モデルを実現し、N8N現地での使用のための完全ガイド

ChatGPT4.1 はじめに 

本日、APIで4.1つの新しいモデル「GPT-4.1」、「GPT-4.1 mini」、「GPT-4 nano」をリリースします。これらのモデルは、コーディングと命令追跡において大幅な改善が見られ、GPT-4oおよびGPT-1o miniを全般的に上回る性能を発揮します。また、コンテキストウィンドウが拡大し、最大2024万トークンのコンテキストをサポートし、ロングコンテキスト理解能力の向上により、そのコンテキストをより有効に活用できます。これらのモデルは、XNUMX年XNUMX月に更新されたデータカットオフを備えています。

GPT-4.1 は、次のような業界標準の測定に優れています。

ベンチマークは貴重な洞察を提供しますが、これらのモデルは実世界での有用性に重点を置いてトレーニングしました。開発者コミュニティとの緊密な連携とパートナーシップにより、これらのモデルをアプリケーションにとって最も重要なタスクに合わせて最適化することができました。

そのため、GPT-4.1モデルファミリーは、低コストで卓越したパフォーマンスを提供します。これらのモデルは、レイテンシ曲線のあらゆるポイントでパフォーマンスを向上させます。

GPT4.1 API

GPT-4.1 miniは、小規模モデルのパフォーマンスにおいて飛躍的な向上を示し、多くのベンチマークでGPT-4oを上回ります。知能評価ではGPT-4oと同等かそれ以上であり、レイテンシはほぼ半分に短縮され、コストは83%削減されます。

低レイテンシが求められるタスクには、GPT-4.1 nanoが最速かつ最も安価なモデルです。1万トークンのコンテキストウィンドウを備え、小型ながらも優れたパフォーマンスを発揮します。MMLUで80.1%、GPQAで50.3%、Aiderポリグロットコーディングで9.8%という高いスコアを獲得しており、GPT-4o miniよりも高いスコアを誇ります。分類や自動補完などのタスクに最適です。

指示に従う信頼性と長い文脈の理解におけるこれらの改善により、GPT-4.1モデルは、ユーザーに代わってタスクを独立して実行できるエージェントやシステムを強化する上で、大幅に効果的になります。 レスポンスAPI(新しいウィンドウで開きます)開発者は、実際のソフトウェア エンジニアリング、大規模なドキュメントからの洞察の抽出、最小限の手助けによる顧客要求の解決、その他の複雑なタスクにおいて、より有用で信頼性の高いエージェントを構築できるようになりました。

GPT-4.1はAPI経由でのみ利用可能となることにご注意ください。 ChatGPT指示に従うこと、コーディング、知能の向上の多くは、徐々に 最新バージョン(新しいウィンドウで開きます) GPT-4o の、そして今後のリリースでもさらに多くの機能を組み込んでいく予定です。

また、GPT-4.5は多くの主要機能において、コストとレイテンシを大幅に削減しながら、改善された、あるいは同等のパフォーマンスを提供するため、APIにおけるGPT-4.1プレビューの廃止も開始します。GPT-4.5プレビューは、開発者が移行するための時間を確保するため、14か月後の2025年4.5月XNUMX日に廃止されます。GPT-XNUMXは 導入 大規模で計算負荷の高いモデルを探索・実験するための研究プレビューとして、開発者の皆様からのフィードバックから多くのことを学びました。GPT-4.5で皆様からいただいた創造性、文章の質、ユーモア、そしてニュアンスを、将来のAPIモデルにも引き継いでいきます。

以下では、GPT-4.1がいくつかのベンチマークでどのように機能するかを分析し、Windsurf、Qodo、Hex、Blue J、Thomson Reuters、Carlyleなどのアルファテスターからの例とともに、ドメイン固有のタスクでの本番環境でのパフォーマンスを示します。

コーディング

GPT-4.1は、コーディングタスクのエージェントによる解決、フロントエンドコーディング、不要な編集の削減、diff形式の確実な遵守、一貫したツール使用の確保など、さまざまなコーディングタスクにおいてGPT-4oよりも大幅に優れています。

実世界のソフトウェアエンジニアリングスキルを測るSWE-bench Verifiedにおいて、GPT-4.1はタスクの54.6%を完了しました。これは、GPT-33.2o(4年2024月11日)の20%と比較して大幅に向上しています。これは、コードリポジトリの探索、タスクの完了、そして実行とテスト合格の両方を実現するコード生成といったモデルの能力が向上したことを反映しています。

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (高)オープンAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4o mini55%33%41%49%38%24%9%SWE‑bench Verified accuracy

 SWEベンチ検証済みモデルにはコードリポジトリと問題の説明が与えられ、問題を解決するためのパッチを生成する必要があります。パフォーマンスは、使用するプロンプトとツールに大きく依存します。結果を再現し、文脈を理解するために、GPT-4.1の設定について説明します。 こちら(新しいウィンドウで開きます)スコアでは、23 の問題のうち、当社のインフラストラクチャ上で実行できなかった 500 の問題が省略されています。これらを控えめに 0 とスコア付けすると、54.6% のスコアは 52.1% になります。

大きなファイルを編集するAPI開発者にとって、GPT-4.1はさまざまな形式のコード差分においてはるかに信頼性が高い。GPT-4.1はGPT-4oのスコアのXNUMX倍以上である。 Aider の多言語差分ベンチマーク(新しいウィンドウで開きます)GPT-4.5を8%上回る腹筋。この評価は、様々なプログラミング言語におけるコーディング能力の尺度であると同時に、全体形式と差分形式で変更を生成するモデル能力の尺度でもあります。GPT-4.1は、差分形式をより確実に追跡できるように特別にトレーニングされており、これにより開発者はファイル全体を書き換えるのではなく、変更された行のみをモデルに出力させることで、コストとレイテンシの両方を削減できます。最高のコード差分パフォーマンスについては、当社の 促すガイド(新しいウィンドウで開きます)ファイル全体を書き換えたい開発者向けに、GPT-4.1の出力トークン制限を32,768トークンに引き上げました(GPT-16,384oの4トークンから増加)。また、 予測出力(新しいウィンドウで開きます) 完全なファイル書き換えの遅延を削減します。

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (高)オープンAI o3-mini (高)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini52% (全体)53% (差分)31% (全体)18% (差分)64% (全体)62% (差分)67% (全体)60% (差分)35% (全体)32% (差分)10% (全体)6% (差分)4% (全体)3% (差分)N/A (全体)45% (差分)Aiderの多言語ベンチマークの精度

Aiderの多言語ベンチマークでは、モデルは次のようなコーディング演習を解く。 エクササイズ(新しいウィンドウで開きます) ソースファイルを編集することで、1回の再試行が許可されます。「whole」形式では、モデルはファイル全体を書き換える必要があり、時間とコストがかかります。「diff」形式では、モデルは一連の差分を書き込む必要があります。 検索/置換ブロック(新しいウィンドウで開きます).

GPT-4.1はフロントエンドコーディングにおいてもGPT-4oを大幅に改善し、より機能的で美しいウェブアプリを作成できます。当社の直接比較では、有償の人間によるグレーダーによるGPT-4.1のウェブサイトのグレーディングは、GPT-4oのウェブサイトのグレーディングを80%上回りました。

プロンプト: フラッシュカードのウェブ アプリケーションを作成します。ユーザーは、フラッシュカードを作成したり、既存のフラッシュカードを検索したり、フラッシュカードをレビューしたり、レビューしたフラッシュカードの統計を確認したりできる必要があります。ヒンディー語の単語またはフレーズとその英語の翻訳を含む 3 枚のカードを事前に読み込みます。レビュー インターフェイス: レビュー インターフェイスでは、クリックするかスペース キーを押すと、カードがスムーズな XNUMXD アニメーションでめくられ、翻訳が表示されます。矢印キーを押すと、カード間を移動できます。検索インターフェイス: ユーザーがクエリを入力すると、検索バーに結果の一覧が動的に表示されます。統計インターフェイス: 統計ページには、ユーザーがレビューしたカードの数と、正解率のグラフが表示されます。カード作成インターフェイス: カード作成ページでは、ユーザーがフラッシュカードの表と裏を指定して、ユーザーのコレクションに追加できます。これらの各インターフェイスは、サイドバーからアクセスできます。単一ページの React アプリを生成します (すべてのスタイルをインラインで配置します)。

 

GPT-4o について

 

GPT-4.1 の

上記のベンチマークに加え、GPT-4.1はフォーマットへの追従性が向上し、不要な編集頻度も低下しました。社内評価では、コードに対する不要な編集はGPT-9oでは4%でしたが、GPT-2では4.1%に減少しました。

現実世界の例

ウインドサーフィンをする(新しいウィンドウで開きます)GPT-4.1は、Windsurfの内部コーディングベンチマークにおいてGPT-60oよりも4%高いスコアを獲得しました。これは、コード変更が初回レビューで承認される頻度と強く相関しています。ユーザーからは、ツール呼び出しの効率が30%向上し、不要な編集を繰り返したり、過度に狭い範囲で段階的にコードを読んだりする可能性が約50%減少したという報告がありました。これらの改善は、エンジニアリングチームの反復処理の高速化とワークフローの円滑化につながります。

コド(新しいウィンドウで開きます)Qodoは、GitHubのプルリクエストから高品質なコードレビューを生成するという点において、GPT-4.1と他の主要モデルを直接比較しました。これは、自社のファインチューニングベンチマークに着想を得た手法を用いて実施されました。同じプロンプトと条件で200件の実際の意味のあるプルリクエストに対して、GPT-4.1が最も優れた提案を生成することが分かりました。 例55%(新しいウィンドウで開きます)特に、GPT-4.1は、本当に重要な問題に焦点を当てながら、精度(提案すべきでないタイミングを知る)と包括性(必要に応じて徹底的な分析を提供する)の両方に優れていることがわかりました。

指示に従う

GPT-4.1 はより確実に命令に従い、さまざまな命令実行評価で大幅な改善が測定されました。

私たちは、さまざまな側面と、次のようないくつかの主要な指示追跡カテゴリにわたってモデルのパフォーマンスを追跡するために、指示追跡の内部評価を開発しました。

  • フォーマットは以下のとおりです。 XML、YAML、Markdown など、モデルの応答のカスタム形式を指定する指示を提供します。
  • 否定的な指示。 モデルが避けるべき動作を指定します。(例:「ユーザーにサポートへの問い合わせを求めない」)
  • 指示された手順。 モデルが特定の順序で実行しなければならない一連の指示を提供します。(例:「まずユーザーの名前を尋ね、次にメールアドレスを尋ねる」)
  • コンテンツ要件。 特定の情報を含むコンテンツの出力。(例:「栄養プランを作成する際は、必ずタンパク質の量を含める」)
  • ランキング。 出力を特定の方法で並べ替えます。(例:「人口数で回答を並べ替える」)
  • 自信過剰。 要求された情報が入手できない場合、またはリクエストが特定のカテゴリに該当しない場合に、「わかりません」などの返答をモデルに指示します。(例:「回答がわからない場合は、サポート連絡先のメールアドレスを入力してください」)

これらのカテゴリは、開発者からのフィードバックに基づいており、指示に従う際のどの側面が最も関連性が高く重要であるかが示されています。各カテゴリでは、プロンプトを「簡単」、「中程度」、「難しい」に分類しています。GPT-4.1は、特に「難しい」プロンプトにおいてGPT-4oよりも大幅に改善されています。

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (高)オープンAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini49%29%51%50%54%45%32%27%Internal OpenAI 評価精度に続く命令(ハードサブセット)

評価に続く当社の内部指示は、実際の開発者の使用事例とフィードバックに基づいており、フォーマット、詳細度、長さなどに関する指示と合わせて、さまざまな複雑さのタスクをカバーしています。

多くの開発者にとって、複数ターンの指示追従は非常に重要です。モデルが会話の深部まで一貫性を維持し、ユーザーが以前に伝えた内容を把握することが重要です。GPT-4.1は、会話中の過去のメッセージから情報をより適切に抽出できるようにトレーニングし、より自然な会話を実現しました。ScaleのMultiChallengeベンチマークは、この機能の有用な指標であり、GPT-4.1は10.5%の性能向上を達成しました。腹筋 GPT-4oよりも優れています。

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)OpenAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini38%28%45%40%44%36%15%20%MultiChallenge accuracy

In マルチチャレンジ(新しいウィンドウで開きます)、モデルは、マルチターンの会話で、以前のメッセージからの 4 種類の情報を適切に使用するように求められます。

GPT-4.1はIFEvalで87.4%のスコアを獲得し、GPT-81.0oでは4%のスコアを獲得しました。IFEvalは検証可能な指示(コンテンツの長さの指定、特定の用語や形式の回避など)を含むプロンプトを使用します。

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)OpenAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini87%81%92%94%88%84%75%78%IFEval accuracy

In IFEval(新しいウィンドウで開きます)モデルはさまざまな指示に準拠した回答を生成する必要があります。

指示の追従性が向上することで、既存のアプリケーションの信頼性が向上し、これまで信頼性の低さがネックとなっていた新規アプリケーションの運用が可能になります。初期のテスターからは、GPT-4.1ではより文字どおりの指示が求められることが指摘されているため、プロンプトでは明示的かつ具体的な指示を推奨します。GPT-4.1におけるプロンプトのベストプラクティスの詳細については、プロンプトガイドをご覧ください。

現実世界の例

ブルーJ(新しいウィンドウで開きます)GPT-4.1は、Blue Jの最も困難な実世界の税務シナリオを対象とした社内ベンチマークにおいて、GPT-53oと比較して4%高い精度を示しました。システムパフォーマンスとユーザー満足度の両方にとって重要なこの精度向上は、GPT-4.1が複雑な規制の理解力と、長いコンテキストにおける微妙な指示への対応力を向上させたことを示しています。Blue Jユーザーにとって、これはより迅速で信頼性の高い税務調査と、より価値の高いアドバイザリー業務への時間確保を意味します。

16進法(新しいウィンドウで開きます)GPT-4.1はHexの最も難しいテストでほぼ2倍の改善を達成しました。 SQL評価セット、(新しいウィンドウで開きます) 指示の追従性と意味理解において、大幅な向上が見られました。大規模で曖昧なスキーマから正しいテーブルを選択する際のモデル信頼性が向上しました。これは上流の意思決定ポイントであり、全体的な精度に直接影響を及ぼし、プロンプトだけでは調整が困難です。Hex社では、これにより手動デバッグの大幅な削減と、本番環境レベルのワークフローへの迅速な移行が実現しました。

長いコンテキスト

GPT-4.1、GPT-4.1 mini、およびGPT-4.1 nanoは、最大1万トークンのコンテキストを処理できます。これは、以前のGPT-128,000oモデルの4トークンから増加しています。1万トークンはReactコードベース全体の8つのコピーを超えるため、長いコンテキストは大規模なコードベースや大量の長いドキュメントの処理に最適です。

GPT-4.1は、1万コンテキスト長全体にわたって情報に確実に注意を向けるよう学習しました。また、GPT-4oよりもはるかに高い信頼性で関連テキストを認識し、長短のコンテキスト長を問わず妨害要因を無視できるように学習しました。長コンテキスト理解は、法務、コーディング、カスタマーサポートなど、多くの分野のアプリケーションにとって重要な能力です。

以下では、コンテキストウィンドウ内の様々な位置に配置された小さな隠れた情報(「針」)を取得するGPT-4.1の能力を示します。GPT-4.1は、あらゆる位置とあらゆるコンテキスト長(最大1万トークン)において、一貫して針を正確に取得します。入力内の位置に関係なく、タスクに関連する詳細情報を効果的に抽出できます。

GPT4.1 API

私たちの内部の「干し草の山の中の針」評価では、GPT-4.1、GPT-4.1 mini、GPT 4.1 nano はすべて、コンテキスト内の 1M までのあらゆる位置で針を取得できました。

しかし、現実世界のタスクは、単一の明白な針の答えを取得するほど単純なものはほとんどありません。ユーザーは、私たちのモデルを使って複数の情報を取得し、理解し、それらを相互に関連付けて理解することを求めることがよくあります。この機能を紹介するため、新しい評価モデルであるOpenAI-MRCR(Multi-Round Coreference)をオープンソース化します。

OpenAI-MRCRは、文脈に巧妙に隠された複数の針を発見し、それらの曖昧性を解消するモデルの能力をテストします。評価は、ユーザーとアシスタント間の複数ターンの合成会話で構成され、ユーザーは「バクについての詩を書いてください」や「岩についてのブログ記事を書いてください」など、あるトピックに関する文章を要求します。次に、コンテキスト全体に2つ、4つ、または8つの同一のリクエストを挿入します。モデルは、特定のインスタンスに対応する応答(例:「バクについての3番目の詩をください」)を取得する必要があります。

課題は、これらのリクエストとコンテキスト全体の類似性にあります。モデルは、詩ではなくバクに関する短編小説、あるいはバクではなくカエルに関する詩といった微妙な違いによって簡単に誤認識されてしまう可能性があります。GPT-4.1は、コンテキスト長が4トークンまでGPT-128oよりも優れており、1万トークンまで高いパフォーマンスを維持することがわかりました。

しかし、高度な推論モデルであっても、この課題は依然として困難です。 評価データセット(新しいウィンドウで開きます) 現実世界の長期コンテキスト検索に関するさらなる研究を奨励するため。

GPT4.1 API

In OpenAI-MRCR(新しいウィンドウで開きます)モデルは、妨害因子の中に散在する 2 つ、4 つ、または 8 つのユーザー プロンプトを明確に区別する質問に答える必要があります。

また、リリースします グラフウォーク(新しいウィンドウで開きます)マルチホップのロングコンテキスト推論を評価するためのデータセット。ロングコンテキストを使用する多くの開発者のユースケースでは、コード記述時に複数のファイル間を移動したり、複雑な法的質問に答える際にドキュメントを相互参照したりするなど、コンテキスト内で複数の論理ホップが必要になります。

モデル (または人間) は、理論的にはプロンプトを 1 回パスまたは読み通すことで OpenAI-MRCR の問題を解決できますが、Graphwalks はコンテキスト内の複数の位置にわたる推論を必要とするように設計されており、順番に解決することはできません。

Graphwalksは、コンテキストウィンドウを4.1進ハッシュで構成された有向グラフで埋め、モデルにグラフ内のランダムなノードから幅優先探索(BFS)を実行するよう指示します。そして、特定の深さにあるすべてのノードを返すよう指示します。GPT-61.7はこのベンチマークで1%の精度を達成し、o4と同等の性能でGPT-XNUMXoを大きく上回りました。

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (高)オープンAI o3-mini (高)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini62%42%62%51%72%62%25%29%Graphwalks BFS <128k 精度

In グラフウォーク(新しいウィンドウで開きます)、モデルは大きなグラフ内のランダムなノードから幅優先探索を実行するように求められます。

ベンチマークだけでは全体像が把握できないため、アルファ パートナーと協力して、実際の長いコンテキスト タスクで GPT-4.1 のパフォーマンスをテストしました。

現実世界の例

トムソン・ロイター:(新しいウィンドウで開きます) トムソン・ロイターは、プロフェッショナルグレードのCoCounselでGPT-4.1をテストしました。 AI 法務業務のアシスタントとしてGPT-4oを使用しました。社内のロングコンテキストベンチマークにおいて、GPT-17を使用した場合、GPT-4.1oと比較して複数文書のレビュー精度がXNUMX%向上しました。これは、複数の長文文書を含む複雑な法務ワークフローを処理するCoCounselの能力を測る重要な指標です。特に、GPT-XNUMXは、ソー​​ス間のコンテキストを維持し、矛盾する条項や追加の補足コンテキストなど、文書間の微妙な関係性を正確に特定する点で、非常に信頼性が高いことがわかりました。これは、法務分析と意思決定に不可欠なタスクです。

カーライル(新しいウィンドウで開きます)カーライルは、PDF、Excelファイル、その他の複雑な形式を含む複数の長大な文書から、きめ細かな金融データを正確に抽出するためにGPT-4.1を使用しました。社内評価によると、GPT-50は、高密度データを含む非常に大規模な文書からの検索においてXNUMX%のパフォーマンス向上を達成し、干し草の山の中の針のような検索、中間者エラー、文書間のマルチホップ推論など、既存のモデルに見られる主要な限界を克服した初のモデルとなりました。

モデルのパフォーマンスと精度に加えて、開発者はユーザーのニーズに迅速に対応し、それを満たすために迅速に応答するモデルも必要としています。推論スタックを改良し、最初のトークンまでの時間を短縮しました。また、迅速なキャッシュにより、レイテンシをさらに短縮し、コストを削減できます。初期テストでは、GPT-4.1の最初のトークンまでのレイテンシは、128,000トークンのコンテキストで約4.1秒、4.1万トークンのコンテキストで128,000分でした。GPT-XNUMX miniとnanoはより高速で、例えばGPT-XNUMX nanoは、XNUMX入力トークンのクエリに対して、ほとんどの場合XNUMX秒未満で最初のトークンを返します。

展望

GPT-4.1 ファミリーは画像理解に非常に優れており、特に GPT-4.1 mini は大きな飛躍を遂げており、画像ベンチマークで GPT-4o を上回ることがよくあります。

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini75%69%78%75%73%55%56%MMMU accuracy

In MMMU(新しいウィンドウで開きます)では、モデルがチャート、図、地図などを含む質問に答えます。(注: 画像が含まれていない場合でも、多くの回答は文脈から推測できます。)

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini72%61%72%72%73%56%57%MathVista accuracy

In MathVista(新しいウィンドウで開きます)、モデルは視覚的な数学的タスクを解決します。

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini57%53%55%55%57%41%37%CharXiv-Reasoning accuracy

In CharXiv-推論(新しいウィンドウで開きます)、モデルは科学論文の図表に関する質問に答えます。

長時間コンテキストのパフォーマンスは、長時間の動画処理などのマルチモーダルユースケースでも重要です。 ビデオMME⁠(新しいウィンドウで開きます) (字幕なしの長編)では、モデルが30~60分の字幕なしの動画に基づいて多肢選択式の質問に回答します。GPT-4.1は最先端のパフォーマンスを達成し、GPT-72.0oの65.3%から4%に向上しました。

GPT-4.1GPT-4o (2024-11-20)72%65%Video long context

In ビデオ-MME(新しいウィンドウで開きます)では、モデルが字幕なしの 30 ~ 60 分の動画に基づいて多肢選択式の質問に回答します。

価格

GPT-4.1、GPT-4.1 mini、GPT-4.1 nano は現在すべての開発者にご利用いただけます。

推論システムの効率性向上により、GPT-4.1シリーズの価格を引き下げることができました。GPT-4.1は、中央値クエリの場合GPT-26oよりも4%安価で、GPT-4.1 nanoはこれまでで最も安価かつ高速なモデルです。同じコンテキストを繰り返し渡すクエリについては、これらの新モデルでプロンプトキャッシュ割引を75%(従来の50%から)に引き上げました。さらに、ロングコンテキストリクエストは、トークンあたりの標準コスト以外の追加費用なしで提供しています。

モデル
(価格は1万トークンあたり)
入力キャッシュされた入力出力ブレンド価格設定*
gpt-4.1$2.00$0.50$8.00$1.84
gpt-4.1-ミニ$0.40$0.10$1.60$0.42
gpt-4.1-ナノ$0.10$0.025$0.40$0.12

*標準的な入出力およびキャッシュ比率に基づきます。

これらのモデルは、 バッチAPI(新しいウィンドウで開きます) さらに 50% 割引の価格となります。

結論

GPT-4.1は、実用化に向けて大きな前進です。 AIこれらのモデルは、コーディングから命令の理解、そして長期的なコンテキスト理解に至るまで、現実世界の開発者のニーズに深く焦点を当てることで、インテリジェントシステムや高度なエージェントアプリケーションの構築における新たな可能性を切り開きます。私たちは開発者コミュニティの創造性に常に刺激を受けており、GPT-4.1を使って皆さんがどのようなものを開発されるのか、楽しみにしています。

付録

学術、コーディング、指示の追跡、長いコンテキスト、ビジョン、および関数呼び出しの評価にわたる結果の完全なリストは以下にあります。

学術的知識
カテゴリーGPT-4.1GPT-4.1 ミニGPT-4.1ナノGPT-4o(2024-11-20)GPT-4oミニ店は開いていますAI o1(高い)店は開いていますAI o3-mini(高い)GPT-4.5
AIME '2448.1%49.6%29.4%13.1%8.6%74.3%87.3%36.7%
GPQA ダイヤモンド166.3%65.0%50.3%46.0%40.2%75.7%77.2%69.5%
MMLU90.2%87.5%80.1%85.7%82.0%91.8%86.9%90.8%
多言語MMLU87.3%78.5%66.9%81.4%70.5%87.7%80.7%85.1%

[1] GPQAの実装では、正規表現ではなくモデルを用いて回答を抽出しています。GPT-4.1では差は1%未満(統計的に有意ではない)でしたが、GPT-4oではモデル抽出によってスコアが大幅に向上しました(約46%→54%)。

コーディング評価
カテゴリーGPT-4.1GPT-4.1 ミニGPT-4.1ナノGPT-4o(2024-11-20)GPT-4oミニ店は開いていますAI o1(高い)店は開いていますAI o3-mini(高い)GPT-4.5
SWEベンチ検証済み254.6%23.6%33.2%8.7%41.0%49.3%38.0%
SWE-ランサー$ 176K
(35.1%)を
$ 165K
(33.0%)を
$ 77K
(15.3%)を
$ 163K
(32.6%)を
$ 116K
(23.1%)を
$ 160K
(32.1%)を
$ 90K
(18.0%)を
$ 186K
(37.3%)を
SWE-ランサー(IC-ダイヤモンドサブセット)$ 34K
(14.4%)を
$ 31K
(13.1%)を
$ 9K
(3.7%)を
$ 29K
(12.4%)を
$ 11K
(4.8%)を
$ 29K
(9.7%)を
$ 17K
(7.4%)を
$ 41K
(17.4%)を
アイダーの多言語:全体51.6%34.7%9.8%30.7%3.6%64.6%66.7%
Aiderの多言語:diff52.9%31.6%6.2%18.2%2.7%61.7%60.4%44.9%

[2] 私たちのインフラでは実行できなかった23/500の問題を省略します。省略された23のタスクの完全なリストは、「astropy__astropy-7606」、「astropy__astropy-8707」、「astropy__astropy-8872」、「django__django-10097」、「django__django-7530」、「matplotlib__matplotlib-20488」、「matplotlib__matplotlib-20676」、「matplotlib__matplotlib-20826」、「matplotlib__matplotlib-23299」、「matplotlib__matplotlib-24970」、「matplotlib__matplotlib-25479」、「matplotlib__matplotlib-26342」、「psf__requests-6028」です。 'pylint-dev__pylint-6528'、'pylint-dev__pylint-7080'、'pylint-dev__pylint-7277'、'pytest-dev__pytest-5262'、'pytest-dev__pytest-7521'、'scikit-learn__scikit-learn-12973'、'sphinx-doc__sphinx-10466'、'sphinx-doc__sphinx-7462'、'sphinx-doc__sphinx-8265'、および 'sphinx-doc__sphinx-9367'。

評価後の命令
カテゴリーGPT-4.1GPT-4.1 ミニGPT-4.1ナノGPT-4o(2024-11-20)GPT-4oミニ店は開いていますAI o1(高い)店は開いていますAI o3-mini(高い)GPT-4.5
内部API命令に従う(ハード)49.1%45.1%31.6%29.2%27.2%51.3%50.0%54.0%
マルチチャレンジ38.3%35.8%15.0%27.8%20.3%44.9%39.9%43.8%
マルチチャレンジ(o3-ミニグレーダー)346.2%42.2%31.1%39.9%25.6%52.9%50.2%50.1%
コリー65.8%54.6%42.5%50.2%52.7%95.3%98.7%72.3%
IFEval87.4%84.1%74.5%81.0%78.4%92.2%93.9%88.2%
マルチIF70.8%67.0%57.2%60.9%57.9%77.9%79.5%70.8%

[3] 注:MultiChallenge(GPT-4o)のデフォルトの採点ツールは、モデルの回答を頻繁に誤って採点することが判明しました。採点ツールをo3-miniのような推論モデルに切り替えると、検査したサンプルの採点精度が大幅に向上することがわかりました。リーダーボードとの一貫性を保つため、両方の結果を公開しています。

長いコンテキスト評価
カテゴリーGPT-4.1GPT-4.1 ミニGPT-4.1ナノGPT-4o(2024-11-20)GPT-4oミニ店は開いていますAI o1(高い)店は開いていますAI o3-mini(高い)GPT-4.5
OpenAI-MRCR: 2針128k57.2%47.2%36.6%31.9%24.5%22.1%18.7%38.5%
OpenAI-MRCR: 2針1M46.3%33.3%12.0%
Graphwalks bfs < 128k61.7%61.7%25.0%41.7%29.0%62.0%51.0%72.3%
Graphwalks bfs >128k19.0%15.0%2.9%
Graphwalks の親 <128k58.0%60.5%9.4%35.4%12.6%50.9%58.3%72.6%
Graphwalksの親 >128k25.0%11.0%5.6%
視力評価
カテゴリーGPT-4.1GPT-4.1 ミニGPT-4.1ナノGPT-4o(2024-11-20)GPT-4oミニ店は開いていますAI o1(高い)店は開いていますAI o3-mini(高い)GPT-4.5
MMMU74.8%72.7%55.4%68.7%56.3%77.6%75.2%
MathVista72.2%73.1%56.2%61.4%56.5%71.8%72.3%
CharXiv-R56.7%56.8%40.5%52.7%36.8%55.1%55.4%
CharXiv-D87.9%88.4%73.9%85.3%76.6%88.9%90.0%
関数呼び出しの評価
カテゴリーGPT-4.1GPT-4.1 ミニGPT-4.1ナノGPT-4o(2024-11-20)GPT-4oミニ店は開いていますAI o1(高い)店は開いていますAI o3-mini(高い)GPT-4.5
複合関数ベンチ65.5%49.3%0.6%66.5%38.6%47.6%17.6%63.0%
タウベンチ航空449.4%36.0%14.0%42.8%22.0%50.0%32.4%50.0%
タウベンチの小売店4、568.0%
(73.6%)を
55.8%
(65.4%)を
22.6%
(23.5%)を
60.3%44.0%70.8%57.6%68.4%

[4] tau-benchの評価数値は、分散を減らすために5回の実行で平均化され、カスタムツールやプロンプトなしで実行されます。

[5] 括弧内の数字は、GPT-4.1oではなくGPT-4をユーザーモデルとして使用した場合のTau-benchの結果です。GPT-4.1は指示追従性に優れているため、ユーザーモデルとしてより優れたパフォーマンスを発揮し、より多くの成功軌道を獲得することがわかりました。これは、ベンチマークにおける評価モデルの真のパフォーマンスを表していると考えています。

データ統計

関連ナビゲーション

コメントはありません

なし
コメントはありません...