GPT4.1 API

마지막 업데이트 3개월 전 690 00

API 호출ChatGPT4.1 모델

위치 :
加拿大
말:
zh,en
녹음 시간:
2025-04-15
GPT4.1 APIGPT4.1 API
GPT4.1 API

코딩, 명령어 수행, 긴 맥락에 대한 주요 개선 사항을 특징으로 하는 새로운 GPT 모델 시리즈와 더불어 최초의 나노 모델이 추가되었습니다. 다음에서 이용 가능합니다.API调用

지침은 기사를 참조하세요. 첫 번째 출시!ChatGPT4.1 초보자와 일반 컴퓨터를 포함한 로컬 사용에 대한 전체 가이드

Docker Desktop+webUI는 대규모 모델을 실현합니다.N8N현지 사용을 위한 완전한 가이드

ChatGPT4.1 서론 

오늘 API에 GPT‑4.1, GPT‑4.1 mini, GPT‑4.1 nano의 세 가지 새로운 모델이 출시됩니다. 이 모델들은 주요 g를 포함하여 전반적으로 GPT‑4o 및 GPT‑4o mini보다 우수한 성능을 발휘합니다.ai코딩 및 지시 이행에 있어 ns를 사용합니다. 또한 최대 1만 개의 컨텍스트 토큰을 지원하는 더 큰 컨텍스트 창을 제공하며, 향상된 장문 컨텍스트 이해력을 통해 해당 컨텍스트를 더 잘 활용할 수 있습니다. 2024년 XNUMX월로 지식 마감일이 변경되었습니다.

GPT‑4.1은 다음과 같은 산업 표준 측정 기준에서 탁월합니다.

  • 코딩: GPT‑4.1은 54.6%를 기록했습니다. SWE-bench 검증됨, 개선하여 21.4%ABS GPT‑4o 이상 그리고 26.6의 %ABS GPT‑4.5를 넘어서서 코딩을 위한 선도적인 모델이 되었습니다.
  • 다음은 지침입니다. On 스케일의 멀티챌린지(새 창에서 열림) 벤치마크, 교육 수행 능력 측정, GPT‑4.1 점수 38.3%, 10.5%ABS GPT‑4o보다 증가.
  • 긴 맥락: On 비디오-MME(새 창에서 열림)다중 모드 긴 컨텍스트 이해를 위한 벤치마크인 GPT‑4.1은 긴 자막 없는 카테고리에서 72.0%, 6.7%를 기록하며 최첨단 결과를 새롭게 제시합니다.ABS GPT‑4o보다 개선됨.

벤치마크는 귀중한 통찰력을 제공하지만, 저희는 이러한 모델을 실제 활용에 중점을 두고 학습했습니다. 개발자 커뮤니티와의 긴밀한 협력 및 파트너십을 통해 애플리케이션에 가장 중요한 작업에 맞게 모델을 최적화할 수 있었습니다.

이를 위해 GPT‑4.1 모델 제품군은 더 저렴한 비용으로 탁월한 성능을 제공합니다. 이 모델들은 지연 시간 곡선의 모든 지점에서 성능을 향상시킵니다.

GPT4.1 API

GPT‑4.1 mini는 소형 모델 성능에서 상당한 도약을 이루었으며, 여러 벤치마크에서 GPT‑4o를 능가하기도 했습니다. 지능 평가에서 GPT‑4o와 동등하거나 능가하는 동시에 지연 시간을 거의 절반으로 줄이고 비용을 83% 절감했습니다.

낮은 지연 시간이 요구되는 작업의 경우, GPT‑4.1 nano는 가장 빠르고 저렴한 모델입니다. 1만 개의 토큰 컨텍스트 윈도우를 통해 작은 크기에도 불구하고 탁월한 성능을 제공하며, MMLU에서 80.1%, GPQA에서 50.3%, Aider 폴리글롯 코딩에서 9.8%의 점수를 기록하여 GPT‑4o mini보다 훨씬 높은 성능을 제공합니다. 분류 또는 자동 완성과 같은 작업에 이상적입니다.

이러한 지시 수행 신뢰도 및 긴 맥락 이해력의 향상은 GPT‑4.1 모델을 사용자를 대신하여 독립적으로 작업을 수행할 수 있는 에이전트 또는 시스템의 성능을 크게 향상시킵니다. 다음과 같은 기본 요소와 결합하면 응답 API(새 창에서 열림)이제 개발자는 실제 소프트웨어 엔지니어링에서 더욱 유용하고 안정적인 에이전트를 구축하여 대용량 문서에서 통찰력을 추출하고, 최소한의 지원으로 고객 요청을 해결하고, 기타 복잡한 작업을 수행할 수 있습니다.

GPT‑4.1은 API를 통해서만 사용할 수 있습니다. ChatGPT, 지시사항 준수, 코딩 및 지능의 많은 개선 사항이 점차적으로 통합되었습니다. 최신 버전(새 창에서 열림) GPT‑4o를 사용하고 있으며, 향후 릴리스에서 더 많은 기능을 통합할 예정입니다.

GPT‑4.5은 훨씬 낮은 비용과 지연 시간으로 여러 주요 기능에서 개선되거나 유사한 성능을 제공하므로, API에서 GPT‑4.1 Preview의 지원 중단을 시작할 예정입니다. 개발자들이 전환할 시간을 주기 위해 GPT‑4.5 Preview는 14개월 후인 2025년 4.5월 XNUMX일에 종료됩니다. GPT‑XNUMX는 소개 대규모 컴퓨팅 집약적 모델을 탐색하고 실험하기 위한 연구 미리보기로서, 개발자 피드백을 통해 많은 것을 배웠습니다. GPT‑4.5에서 여러분이 높이 평가해 주신 창의성, 글쓰기 품질, 유머, 그리고 뉘앙스를 향후 API 모델에도 계속 반영해 나갈 것입니다.

아래에서는 Windsurf, Qodo, Hex, Blue J, Thomson Reuters, Carlyle 등 알파 테스터의 예시와 함께 GPT‑4.1이 여러 벤치마크에서 어떤 성능을 보이는지 분석하여 도메인별 작업에 대한 프로덕션 환경에서의 성능을 보여줍니다.

코딩

GPT‑4.1은 다양한 코딩 작업에서 GPT‑4o보다 훨씬 뛰어납니다. 여기에는 코딩 작업을 에이전트적으로 해결하는 것, 프런트엔드 코딩, 불필요한 편집을 줄이는 것, diff 형식을 안정적으로 따르는 것, 일관된 도구 사용을 보장하는 것 등이 포함됩니다.

실제 소프트웨어 엔지니어링 기술을 측정하는 SWE-bench Verified에서 GPT‑4.1은 작업의 54.6%를 완료하는 반면, GPT‑33.2o(4년 2024월 11일 기준)는 20%를 완료했습니다. 이는 모델이 코드 저장소를 탐색하고, 작업을 완료하고, 테스트를 실행하고 통과하는 코드를 생성하는 능력이 향상되었음을 보여줍니다.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (높음)열림AI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4o mini55%33%41%49%38%24%9%SWE‑bench Verified accuracy

럭셔리 SWE-bench 검증됨모델에 코드 저장소와 문제 설명이 제공되고, 문제 해결을 위한 패치를 생성해야 합니다. 성능은 사용된 프롬프트와 도구에 따라 크게 달라집니다. 결과 재현 및 맥락화를 돕기 위해 GPT‑4.1 설정을 설명합니다. LINK(새 창에서 열림). 저희 점수에는 저희 인프라에서 실행할 수 없는 해결책을 가진 23개 문제 중 500개가 제외되어 있습니다. 이 문제들을 보수적으로 0점으로 평가한다면, 54.6% 점수는 52.1%가 됩니다.

대용량 파일을 편집하려는 API 개발자의 경우 GPT‑4.1은 다양한 형식의 코드 비교에서 훨씬 더 안정적입니다. GPT‑4.1은 GPT‑4o보다 두 배 이상 높은 점수를 받았습니다. Aider의 다중 언어 diff 벤치마크(새 창에서 열림)GPT‑4.5보다 8% 더 뛰어납니다.복근.이 평가는 다양한 프로그래밍 언어에 대한 코딩 능력과 전체 및 diff 형식에서 변경을 생성하는 모델의 능력을 측정하는 것입니다. 저희는 GPT‑4.1이 diff 형식을 더욱 안정적으로 따르도록 특별히 훈련시켰습니다. 이를 통해 개발자는 전체 파일을 다시 작성하는 대신 모델 출력에서 ​​변경된 줄만 처리하여 비용과 지연 시간을 모두 절약할 수 있습니다. 최상의 코드 diff 성능에 대한 자세한 내용은 다음을 참조하십시오. 프롬프팅 가이드(새 창에서 열림)전체 파일을 다시 작성하는 것을 선호하는 개발자를 위해 GPT‑4.1의 출력 토큰 한도를 32,768개(GPT‑16,384o의 4개 토큰)로 늘렸습니다. 또한 다음을 사용하는 것이 좋습니다. 예측 출력(새 창에서 열림) 전체 파일을 다시 쓸 때의 대기 시간을 줄이려면.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (높음)열림AI o3-mini(높음)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini52%(전체)53%(차이)31%(전체)18%(차이)64%(전체)62%(차이)67%(전체)60%(차이)35%(전체)32%(차이)10%(전체)6%(차이)4%(전체)3%(차이)N/A(전체)45%(차이)Aider의 다국어 벤치마크 정확도

Aider의 다국어 벤치마크에서 모델은 다음에서 코딩 연습을 풉니다. 운동(새 창에서 열림) 소스 파일을 편집하여 한 번의 재시도가 허용됩니다. '전체' 형식은 모델이 전체 파일을 다시 작성해야 하므로 속도가 느리고 비용이 많이 들 수 있습니다. '차이' 형식은 모델이 일련의 검색/바꾸기 블록(새 창에서 열림).

GPT‑4.1은 프런트엔드 코딩 측면에서도 GPT‑4o보다 크게 개선되었으며, 기능적으로 더 선호되고 미적으로도 만족스러운 웹 앱을 제작할 수 있습니다. 직접 비교 결과, 유료 인간 평가자들은 GPT‑4.1 웹사이트가 GPT‑4o 웹사이트보다 80% 더 높은 점수를 받았습니다.

프롬프트 : 플래시카드 웹 애플리케이션을 만드세요. 사용자는 플래시카드를 만들고, 기존 플래시카드를 검색하고, 플래시카드를 검토하고, 검토된 플래시카드에 대한 통계를 확인할 수 있어야 합니다. 힌디어 단어나 구문과 해당 단어의 영어 번역이 포함된 카드 3장을 미리 로드합니다. 검토 인터페이스: 검토 인터페이스에서 클릭하거나 스페이스바를 누르면 부드러운 XNUMXD 애니메이션으로 카드가 뒤집혀 번역이 표시됩니다. 화살표 키를 누르면 카드를 탐색할 수 있습니다. 검색 인터페이스: 사용자가 쿼리를 입력할 때 검색창에서 결과 목록을 동적으로 제공해야 합니다. 통계 인터페이스: 통계 페이지에는 사용자가 검토한 카드 수와 정답률을 그래프로 표시해야 합니다. 카드 생성 인터페이스: 카드 생성 페이지에서는 사용자가 플래시카드의 앞면과 뒷면을 지정하고 사용자 컬렉션에 추가할 수 있어야 합니다. 이러한 각 인터페이스는 사이드바에서 접근 가능해야 합니다. 단일 페이지 React 앱을 생성하세요(모든 스타일을 인라인으로 삽입).

 

GPT‑4o

 

GPT‑4.1

위의 벤치마크 외에도 GPT‑4.1은 형식을 더 안정적으로 따르고 불필요한 편집 빈도를 줄였습니다. 내부 평가 결과, 코드의 불필요한 편집은 GPT‑9의 4%에서 GPT‑2의 4.1%로 감소했습니다.

실제 사례

윈드 서핑(새 창에서 열림)Windsurf의 내부 코딩 벤치마크에서 GPT‑4.1은 GPT‑60o보다 4% 높은 점수를 기록했는데, 이는 첫 번째 검토에서 코드 변경이 얼마나 자주 승인되는지와 밀접한 상관관계가 있습니다. Windsurf 사용자들은 도구 호출 효율이 30% 향상되었고, 불필요한 수정을 반복하거나 지나치게 좁고 점진적인 단계로 코드를 읽을 가능성이 약 50% 감소했다고 밝혔습니다. 이러한 개선 사항은 엔지니어링 팀의 반복 작업 속도 향상과 워크플로우 개선으로 이어집니다.

코도(새 창에서 열림)Qodo는 자사의 미세 조정 벤치마크에서 영감을 받은 방법론을 사용하여 GitHub 풀 리퀘스트에서 고품질 코드 리뷰를 생성하는 다른 주요 모델과 GPT‑4.1을 직접 비교 테스트했습니다. 동일한 프롬프트와 조건을 가진 200개의 의미 있는 실제 풀 리퀘스트에서 GPT‑4.1이 더 나은 제안을 생성한다는 것을 발견했습니다. 사례 55 %(새 창에서 열림)특히, GPT‑4.1은 정밀성(언제 제안하지 말아야 할지 아는 능력)과 포괄성(필요할 때 철저한 분석을 제공하는 능력) 모두에서 뛰어나며, 진정으로 중요한 문제에 초점을 맞춘다는 것을 발견했습니다.

지시사항에 따라

GPT‑4.1은 지침을 더 안정적으로 따르며, 다양한 지침 준수 평가에서 상당한 개선이 측정되었습니다.

우리는 다음을 포함한 여러 차원과 몇 가지 주요 교육 수행 범주에 걸쳐 모델 성과를 추적하기 위해 교육 수행에 대한 내부 평가를 개발했습니다.

  • 형식은 다음과 같습니다. XML, YAML, Markdown 등 모델의 응답에 대한 사용자 정의 형식을 지정하는 지침을 제공합니다.
  • 부정적인 지시. 모델이 피해야 할 동작을 지정합니다. (예: "사용자에게 지원팀에 문의하도록 요청하지 마세요")
  • 주문된 지침. 모델이 정해진 순서대로 따라야 하는 일련의 지침을 제공합니다. (예: "먼저 사용자 이름을 묻고, 그다음 이메일 주소를 묻습니다")
  • 콘텐츠 요구 사항. 특정 정보가 포함된 콘텐츠 출력 (예: "영양 계획 작성 시 단백질 섭취량을 반드시 포함하세요")
  • 순위. 특정 방식으로 출력을 정렬합니다. (예: "응답을 인구 수에 따라 정렬")
  • 과신. 요청된 정보를 얻을 수 없거나 요청이 해당 범주에 속하지 않는 경우, 모델에게 "모르겠습니다" 또는 이와 유사한 답변을 하도록 지시합니다. (예: "답변을 모르는 경우 지원 연락처 이메일을 입력하세요")

이러한 카테고리는 개발자들이 학습 과정의 어떤 측면이 자신에게 가장 관련성이 높고 중요한지에 대한 피드백을 바탕으로 구성되었습니다. 각 카테고리 내에서 쉬움, 보통, 어려움 수준의 프롬프트로 구분했습니다. GPT‑4.1은 특히 어려움 수준의 프롬프트에서 GPT‑4o보다 크게 향상되었습니다.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (높음)열림AI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini49%29%51%50%54%45%32%27%Internal OpenAI 평가 정확도에 따른 지침(하드 서브세트)

평가에 따른 내부 지침은 실제 개발자의 사용 사례와 피드백을 기반으로 하며, 다양한 복잡도의 작업을 포괄하며 형식, 자세함, 길이 등에 대한 지침도 포함되어 있습니다.

여러 차례의 지시를 따르는 것은 많은 개발자에게 매우 중요합니다. 모델이 대화의 심층적인 일관성을 유지하고 사용자가 이전에 말한 내용을 추적하는 것이 중요합니다. 저희는 GPT‑4.1이 대화의 이전 메시지에서 정보를 더 잘 추출하도록 훈련시켜 더욱 자연스러운 대화를 가능하게 했습니다. Scale의 MultiChallenge 벤치마크는 이러한 역량을 측정하는 유용한 지표이며, GPT‑4.1은 10.5%의 성능을 보입니다.ABS GPT‑4o보다 낫습니다.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (높음)열림AI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini38%28%45%40%44%36%15%20%MultiChallenge accuracy

In 멀티챌린지(새 창에서 열림)모델은 다중 턴 대화에서 이전 메시지의 네 가지 유형의 정보를 올바르게 사용하는 데 어려움을 겪습니다.

GPT‑4.1은 IFEval에서도 87.4%의 점수를 받았는데, 이는 GPT‑81.0o의 4%보다 높은 수치입니다. IFEval은 검증 가능한 지침(예: 콘텐츠 길이 지정, 특정 용어 또는 형식 제외)이 포함된 프롬프트를 사용합니다.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (높음)열림AI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini87%81%92%94%88%84%75%78%IFEval accuracy

In IFEval(새 창에서 열림)모델은 다양한 지침을 준수하는 답변을 생성해야 합니다.

더 나은 지시 이행은 기존 애플리케이션의 안정성을 높이고, 이전에는 안정성이 낮았던 새로운 애플리케이션을 활성화합니다. 초기 테스터들은 GPT‑4.1이 더 직설적일 수 있다는 점을 지적했으므로, 프롬프트에서 명확하고 구체적인 내용을 사용하는 것이 좋습니다. GPT‑4.1 프롬프트 모범 사례에 대한 자세한 내용은 프롬프트 가이드를 참조하세요.

실제 사례

블루 제이(새 창에서 열림)Blue J의 가장 까다로운 실제 세무 시나리오를 대상으로 한 내부 벤치마크에서 GPT‑4.1은 GPT‑53o보다 4% 더 정확했습니다. 시스템 성능과 사용자 만족도 모두에 중요한 이러한 정확도 향상은 GPT‑4.1이 복잡한 규정을 더 잘 이해하고 긴 맥락에서 섬세한 지시를 따르는 능력을 향상시켰음을 보여줍니다. Blue J 사용자는 이를 통해 더 빠르고 신뢰할 수 있는 세무 조사와 고부가가치 자문 업무에 더 많은 시간을 할애할 수 있습니다.

마녀(새 창에서 열림): GPT‑4.1은 Hex의 가장 어려운 문제보다 거의 2배 향상된 성능을 제공했습니다. SQL 평가 세트,(새 창에서 열림) 지시 이행 및 의미 이해 측면에서 상당한 성과를 보였습니다. 이 모델은 크고 모호한 스키마에서 올바른 테이블을 선택하는 데 더욱 신뢰할 수 있었습니다. 이는 전반적인 정확도에 직접적인 영향을 미치는 상위 의사결정 지점이며, 프롬프트만으로는 조정이 어렵습니다. Hex의 경우, 이를 통해 수동 디버깅이 눈에 띄게 감소하고 프로덕션급 워크플로로의 전환 속도가 빨라졌습니다.

긴 문맥

GPT‑4.1, GPT‑4.1 mini, GPT‑4.1 nano는 최대 1만 개의 컨텍스트 토큰을 처리할 수 있습니다. 이는 기존 GPT‑128,000o 모델의 4개보다 증가한 수치입니다. 1만 개의 토큰은 전체 React 코드베이스의 8개 사본보다 많으므로, 긴 컨텍스트는 대규모 코드베이스나 많은 긴 문서를 처리하는 데 매우 적합합니다.

GPT‑4.1은 1만 개의 전체 맥락에 걸쳐 정보에 안정적으로 접근하도록 훈련되었습니다. 또한, GPT‑4o보다 관련 텍스트를 훨씬 더 안정적으로 인식하고, 길고 짧은 맥락에서 방해 요소를 무시하도록 훈련했습니다. 긴 맥락 이해는 법률, 코딩, 고객 지원 등 다양한 분야의 애플리케이션에 필수적인 기능입니다.

아래에서는 GPT‑4.1이 컨텍스트 창 내 다양한 ​​지점에 위치한 작은 숨겨진 정보("바늘")를 검색하는 기능을 보여줍니다. GPT‑4.1은 모든 위치와 모든 컨텍스트 길이에서 최대 1만 개의 토큰까지 바늘을 일관되게 정확하게 검색합니다. 입력에서의 위치와 관계없이 해당 작업에 필요한 관련 정보를 효과적으로 도출할 수 있습니다.

GPT4.1 API

우리의 건초더미 속의 바늘 평가에서 GPT‑4.1, GPT‑4.1 미니, GPT 4.1 나노는 모두 최대 1M까지의 컨텍스트 내 모든 위치에서 바늘을 회수할 수 있었습니다.

하지만 실제 작업 중에서 바늘에 대한 단 하나의 명확한 답을 검색하는 것만큼 간단한 작업은 거의 없습니다. 저희는 사용자들이 저희 모델이 여러 정보를 검색하고 이해하고, 각 정보의 관계를 이해해야 하는 경우가 많다는 것을 알고 있습니다. 이러한 기능을 보여주기 위해, 저희는 새로운 평가 도구인 OpenAI-MRCR(Multi-Round Coreference)을 오픈소스로 공개합니다.

OpenAI-MRCR은 맥락 속에 잘 숨겨진 여러 바늘을 찾고 구분하는 모델의 능력을 테스트합니다. 평가는 사용자와 어시스턴트 간의 여러 차례의 합성 대화로 구성되며, 사용자는 특정 주제에 대한 글을 요청합니다. 예를 들어, "테이퍼에 대한 시를 써 주세요" 또는 "바위에 대한 블로그 글을 써 주세요"와 같습니다. 그런 다음 맥락 전체에 동일한 요청을 두 개, 네 개 또는 여덟 개 삽입합니다. 모델은 특정 인스턴스(예: "테이퍼에 대한 세 번째 시를 주세요")에 해당하는 응답을 검색해야 합니다.

이러한 요청과 나머지 맥락 간의 유사성 때문에 문제가 발생합니다. 모델은 미묘한 차이로 인해 쉽게 오도될 수 있습니다. 예를 들어, 시 대신 테이퍼에 대한 단편 소설을 읽거나, 테이퍼 대신 개구리에 대한 시를 읽는 것과 같은 미묘한 차이입니다. GPT‑4.1은 최대 4 토큰의 맥락에서 GPT‑128o보다 성능이 뛰어나며, 최대 1만 토큰의 맥락에서도 뛰어난 성능을 유지합니다.

하지만 이 작업은 고급 추론 모델에서도 여전히 어렵습니다. 우리는 다음을 공유합니다. 평가 데이터 세트(새 창에서 열림) 실제 세계의 장기 맥락 검색에 대한 추가 연구를 장려합니다.

GPT4.1 API

In 오픈AI-MRCR(새 창에서 열림), 모델은 방해 요소 사이에 흩어져 있는 2개, 4개 또는 8개의 사용자 프롬프트를 구분하는 질문에 답해야 합니다.

우리는 또한 출시하고 있습니다 그래프워크(새 창에서 열림), 멀티홉 롱 컨텍스트 추론을 평가하기 위한 데이터셋입니다. 롱 컨텍스트를 사용하는 많은 개발자 사용 사례에는 컨텍스트 내에서 여러 논리적 홉이 필요합니다. 예를 들어, 코드를 작성할 때 여러 파일 사이를 이동하거나 복잡한 법률 질문에 답할 때 문서를 교차 참조하는 경우가 있습니다.

모델(또는 사람)은 이론적으로 OpenAI-MRCR 문제를 프롬프트를 한 번 통과하거나 읽어서 해결할 수 있지만 Graphwalks는 맥락에서 여러 입장에서 추론을 요구하도록 설계되었으며 순차적으로 해결할 수 없습니다.

Graphwalks는 4.1진수 해시로 구성된 유향 그래프로 컨텍스트 창을 채운 다음, 모델에 그래프의 임의의 노드부터 너비 우선 탐색(BFS)을 수행하도록 요청합니다. 그런 다음 특정 깊이에 있는 모든 노드를 반환하도록 요청합니다. GPT‑61.7은 이 벤치마크에서 1%의 정확도를 달성하여 o4의 성능과 동일하며 GPT‑XNUMXo를 크게 앞지릅니다.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (높음)열림AI o3-mini(높음)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini62%42%62%51%72%62%25%29%Graphwalks BFS <128k 정확도

In 그래프워크(새 창에서 열림), 모델은 큰 그래프에서 임의의 노드로부터 너비 우선 탐색을 수행하도록 요청받습니다.

벤치마크만으로는 전체적인 상황을 알 수 없으므로, 알파 파트너와 협력하여 실제 장기 컨텍스트 작업에서 GPT‑4.1의 성능을 테스트했습니다.

실제 사례

톰슨 로이터:(새 창에서 열림) Thomson Reuters는 전문가용 CoCounsel을 사용하여 GPT‑4.1을 테스트했습니다. AI 법률 업무 보조원. GPT‑4을 내부 장문 컨텍스트 벤치마크에서 사용했을 때 GPT‑17o 대비 다중 문서 검토 정확도를 4.1% 향상시킬 수 있었습니다. 이는 CoCounsel이 여러 개의 장문 문서가 포함된 복잡한 법률 워크플로우를 처리하는 능력을 보여주는 필수 지표입니다. 특히, 이 모델은 여러 출처의 맥락을 유지하고 상충되는 조항이나 추가적인 보충 맥락과 같은 문서 간의 미묘한 관계를 정확하게 파악하는 데 매우 높은 신뢰성을 보였습니다. 이는 법률 분석 및 의사 결정에 필수적인 작업입니다.

칼라(새 창에서 열림)Carlyle은 GPT‑4.1을 사용하여 PDF, Excel 파일 및 기타 복잡한 형식을 포함한 여러 개의 긴 문서에서 세부적인 재무 데이터를 정확하게 추출했습니다. 내부 평가 결과, 고밀도 데이터가 포함된 대용량 문서 검색 성능이 50% 향상되었으며, 기존 모델에서 발견되는 '건초더미 속 바늘' 검색, '중간 오류', 문서 간 멀티홉 추론 등 주요 한계를 성공적으로 극복한 최초의 모델이었습니다.

모델 성능과 정확도 외에도 개발자는 사용자의 요구를 충족하고 따라잡을 수 있도록 신속하게 대응하는 모델이 필요합니다. 추론 스택을 개선하여 첫 번째 토큰 생성 시간을 단축했으며, 신속한 캐싱을 통해 비용을 절감하는 동시에 지연 시간을 더욱 단축할 수 있습니다. 초기 테스트에서 GPT‑4.1의 첫 번째 토큰 생성 지연 시간은 128,000개의 컨텍스트 토큰에서 약 4.1초, 4.1만 개의 컨텍스트 토큰에서는 128,000분이었습니다. GPT‑XNUMX mini와 nano는 더 빠릅니다. 예를 들어, GPT‑XNUMX nano는 XNUMX개의 입력 토큰이 있는 쿼리에서 XNUMX초 이내에 첫 번째 토큰을 반환하는 경우가 가장 많습니다.

비전

GPT‑4.1 제품군은 이미지 이해 능력이 매우 뛰어나며, 특히 GPT‑4.1 mini는 상당한 진전을 이루었으며 이미지 벤치마크에서 GPT‑4o를 능가하는 경우가 많습니다.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini75%69%78%75%73%55%56%MMMU accuracy

In MMMU(새 창에서 열림)모델은 차트, 다이어그램, 지도 등이 포함된 질문에 답합니다. (참고: 이미지가 포함되어 있지 않더라도 많은 답변은 맥락에서 추론하거나 추측할 수 있습니다.)

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini72%61%72%72%73%56%57%MathVista accuracy

In MathVista(새 창에서 열림), 모델은 시각적인 수학 과제를 해결합니다.

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini57%53%55%55%57%41%37%CharXiv-Reasoning accuracy

In CharXiv-추론(새 창에서 열림), 모델은 과학 논문의 차트에 대한 질문에 답합니다.

긴 컨텍스트 성능은 긴 비디오 처리와 같은 다중 모드 사용 사례에도 중요합니다. 비디오-MME⁠(새 창에서 열림) (자막 없는 긴 영상) 모델은 자막이 없는 30~60분 길이의 영상을 기반으로 객관식 문제에 답합니다. GPT‑4.1은 GPT‑72.0o의 65.3%보다 향상된 4%의 성적을 기록하며 최첨단 성능을 달성했습니다.

GPT-4.1GPT-4o (2024-11-20)72%65%Video long context

In 비디오-MME(새 창에서 열림), 모델은 자막이 없는 30~60분 길이의 영상을 기반으로 객관식 질문에 답합니다.

가격:

GPT‑4.1, GPT‑4.1 mini, GPT‑4.1 nano는 현재 모든 개발자에게 제공됩니다.

추론 시스템의 효율성 개선을 통해 GPT‑4.1 시리즈의 가격을 더 낮출 수 있었습니다. GPT‑4.1은 중간 쿼리의 경우 GPT‑26o보다 4% 저렴하며, GPT‑4.1 nano는 역대 가장 저렴하고 빠른 모델입니다. 동일한 컨텍스트를 반복적으로 전달하는 쿼리의 경우, 이러한 새로운 모델에 대한 즉시 캐싱 할인율을 기존 75%에서 50%로 상향 조정합니다. 마지막으로, 토큰당 표준 비용 외에 추가 비용 없이 긴 컨텍스트 요청을 제공합니다.

모델
(가격은 1M 토큰당입니다)
입력캐시된 입력산출혼합 가격*
gpt-4.1$2.00$0.50$8.00$1.84
gpt-4.1-미니$0.40$0.10$1.60$0.42
gpt-4.1-나노$0.10$0.025$0.40$0.12

*일반적인 입출력 및 캐시 비율을 기준으로 합니다.

이 모델은 우리의 사용에 사용할 수 있습니다 배치 API(새 창에서 열림) 추가로 50% 할인된 가격으로 구매하세요.

결론

GPT‑4.1은 실제 적용에 있어서 중요한 진전입니다. AI코딩부터 명령어 수행, 그리고 긴 맥락 이해에 이르기까지 실제 개발자의 요구에 집중함으로써, 이러한 모델은 지능형 시스템과 정교한 에이전트 애플리케이션을 구축할 수 있는 새로운 가능성을 열어줍니다. 저희는 개발자 커뮤니티의 창의력에서 끊임없이 영감을 얻고 있으며, 여러분이 GPT‑4.1을 통해 무엇을 만들어낼지 기대하고 있습니다.

충수

학업, 코딩, 교육 수행, 긴 맥락, 비전 및 함수 호출 평가에 대한 전체 결과 목록은 아래에서 확인할 수 있습니다.

학문적 지식
카테고리 GPT-4.1GPT-4.1 미니GPT-4.1 나노GPT-4o(2024-11-20)GPT-4o 미니엽니다AI o1(높은)엽니다AI o3-미니(높은)GPT-4.5
에이미 '2448.1%49.6%29.4%13.1%8.6%74.3%87.3%36.7%
GPQA 다이아몬드166.3%65.0%50.3%46.0%40.2%75.7%77.2%69.5%
MMLU90.2%87.5%80.1%85.7%82.0%91.8%86.9%90.8%
다국어 MMLU87.3%78.5%66.9%81.4%70.5%87.7%80.7%85.1%

[1] GPQA 구현에서는 정규 표현식 대신 모델을 사용하여 답변을 추출합니다. GPT-4.1의 경우 차이가 1% 미만(통계적으로 유의하지 않음)이었지만, GPT-4o의 경우 모델 추출을 통해 점수가 상당히 향상되었습니다(약 46%에서 54%).

코딩 평가
카테고리 GPT-4.1GPT-4.1 미니GPT-4.1 나노GPT-4o(2024-11-20)GPT-4o 미니엽니다AI o1(높은)엽니다AI o3-미니(높은)GPT-4.5
SWE-bench 검증됨254.6%23.6%-33.2%8.7%41.0%49.3%38.0%
SWE-랜서$ 176K
(35.1의 %)
$ 165K
(33.0의 %)
$ 77K
(15.3의 %)
$ 163K
(32.6의 %)
$ 116K
(23.1의 %)
$ 160K
(32.1의 %)
$ 90K
(18.0의 %)
$ 186K
(37.3의 %)
SWE-랜서(IC-다이아몬드 하위 집합)$ 34K
(14.4의 %)
$ 31K
(13.1의 %)
$ 9K
(3.7의 %)
$ 29K
(12.4의 %)
$ 11K
(4.8의 %)
$ 29K
(9.7의 %)
$ 17K
(7.4의 %)
$ 41K
(17.4의 %)
Aider의 다국어: 전체51.6%34.7%9.8%30.7%3.6%64.6%66.7%-
Aider의 다국어: diff52.9%31.6%6.2%18.2%2.7%61.7%60.4%44.9%

[2] 우리는 인프라에서 실행할 수 없는 23/500 문제를 생략합니다. 생략된 23개 작업의 전체 목록은 다음과 같습니다. 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528' 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', 및 'sphinx-doc__sphinx-9367'.

평가 후 지시
카테고리 GPT-4.1GPT-4.1 미니GPT-4.1 나노GPT-4o(2024-11-20)GPT-4o 미니엽니다AI o1(높은)엽니다AI o3-미니(높은)GPT-4.5
내부 API 명령어 따르기(하드)49.1%45.1%31.6%29.2%27.2%51.3%50.0%54.0%
멀티챌린지38.3%35.8%15.0%27.8%20.3%44.9%39.9%43.8%
MultiChallenge(o3-미니 그레이더)346.2%42.2%31.1%39.9%25.6%52.9%50.2%50.1%
콜리65.8%54.6%42.5%50.2%52.7%95.3%98.7%72.3%
IFEval87.4%84.1%74.5%81.0%78.4%92.2%93.9%88.2%
다중 IF70.8%67.0%57.2%60.9%57.9%77.9%79.5%70.8%

[3] 참고: MultiChallenge(GPT-4o)의 기본 채점자가 모델 응답을 자주 잘못 채점하는 것을 발견했습니다. 채점자를 o3-mini와 같은 추론 모델로 바꾸면 검사한 샘플에 대한 채점 정확도가 크게 향상되는 것을 확인했습니다. 리더보드와의 일관성을 위해 두 결과 세트를 모두 게시합니다.

긴 컨텍스트 평가
카테고리 GPT-4.1GPT-4.1 미니GPT-4.1 나노GPT-4o(2024-11-20)GPT-4o 미니엽니다AI o1(높은)엽니다AI o3-미니(높은)GPT-4.5
OpenAI-MRCR: 2개의 바늘 128k57.2%47.2%36.6%31.9%24.5%22.1%18.7%38.5%
OpenAI-MRCR: 2개 바늘 1M46.3%33.3%12.0%-----
그래프워크 bfs < 128k61.7%61.7%25.0%41.7%29.0%62.0%51.0%72.3%
그래프워크 bfs >128k19.0%15.0%2.9%-----
Graphwalks 부모 <128k58.0%60.5%9.4%35.4%12.6%50.9%58.3%72.6%
Graphwalks 부모 >128k25.0%11.0%5.6%-----
비전 평가
카테고리 GPT-4.1GPT-4.1 미니GPT-4.1 나노GPT-4o(2024-11-20)GPT-4o 미니엽니다AI o1(높은)엽니다AI o3-미니(높은)GPT-4.5
MMMU74.8%72.7%55.4%68.7%56.3%77.6%-75.2%
MathVista72.2%73.1%56.2%61.4%56.5%71.8%-72.3%
샤시브-R56.7%56.8%40.5%52.7%36.8%55.1%-55.4%
샤시브-D87.9%88.4%73.9%85.3%76.6%88.9%-90.0%
함수 호출 Eval
카테고리 GPT-4.1GPT-4.1 미니GPT-4.1 나노GPT-4o(2024-11-20)GPT-4o 미니엽니다AI o1(높은)엽니다AI o3-미니(높은)GPT-4.5
ComplexFuncBench65.5%49.3%0.6%66.5%38.6%47.6%17.6%63.0%
타우벤치 항공사449.4%36.0%14.0%42.8%22.0%50.0%32.4%50.0%
타우벤치 리테일4, 568.0%
(73.6의 %)
55.8%
(65.4의 %)
22.6%
(23.5의 %)
60.3%44.0%70.8%57.6%68.4%

[4] 타우-벤치 평가 숫자는 분산을 줄이기 위해 5번의 실행에 걸쳐 평균화되며 사용자 정의 도구나 프롬프트 없이 실행됩니다.

[5] 괄호 안의 숫자는 GPT-4.1o가 아닌 GPT-4을 사용자 모델로 사용했을 때의 Tau-bench 결과를 나타냅니다. GPT-4.1이 명령어 수행 능력이 더 뛰어나기 때문에 사용자로서 더 나은 성능을 발휘할 수 있고 따라서 더 성공적인 궤적을 생성합니다. 이는 벤치마크에서 평가된 모델의 실제 성능을 나타낸다고 믿습니다.

편집 계획

관련 탐색

댓글 없음

없음
댓글이 없습니다...