เอพีไอ GPT4.1

อัปเดตล่าสุดเมื่อ 3 เดือนที่ผ่านมา 822 00

การเรียก APIChatGPT4.1 แบบจำลอง

สถานที่ตั้ง:
加拿大
คำแปล:
zh, en
เวลาในการบันทึก:
2025-04-15
เอพีไอ GPT4.1เอพีไอ GPT4.1
เอพีไอ GPT4.1

ซีรีส์ใหม่ของโมเดล GPT ที่มีการปรับปรุงครั้งใหญ่ในการเข้ารหัส การปฏิบัติตามคำสั่ง และบริบทยาว รวมถึงโมเดลนาโนรุ่นแรกของเรา มีจำหน่ายผ่านAPI调用

กรุณาอ่านบทความเพื่อดูคำแนะนำ เปิดตัวครั้งแรก!ChatGPT4.1 คำแนะนำฉบับสมบูรณ์ในการใช้งานในพื้นที่ – แม้กระทั่งสำหรับผู้เริ่มต้นและคอมพิวเตอร์ทั่วไป

Docker Desktop+webUI รองรับโมเดลขนาดใหญ่N8Nคู่มือฉบับสมบูรณ์สำหรับการใช้งานในพื้นที่

ChatGPT4.1 บทนำ 

วันนี้ เราเปิดตัวโมเดลใหม่ 4.1 โมเดลใน API ได้แก่ GPT‑4.1, GPT‑4.1 mini และ GPT‑4 nano โมเดลเหล่านี้มีประสิทธิภาพเหนือกว่า GPT‑4o และ GPT‑1o mini ในทุกๆ ด้าน โดยมีการพัฒนาที่สำคัญในการเข้ารหัสและการปฏิบัติตามคำสั่ง โมเดลเหล่านี้ยังมีหน้าต่างบริบทที่ใหญ่ขึ้น ซึ่งรองรับโทเค็นบริบทได้มากถึง 2024 ล้านโทเค็น และสามารถใช้บริบทนั้นได้ดีขึ้นด้วยความเข้าใจบริบทระยะยาวที่ดีขึ้น โมเดลเหล่านี้มีเกณฑ์ความรู้ใหม่ที่ปรับปรุงใหม่ในเดือนมิถุนายน XNUMX

GPT‑4.1 โดดเด่นในการวัดมาตรฐานอุตสาหกรรมต่อไปนี้:

  • การเข้ารหัส:คะแนน GPT‑4.1 อยู่ที่ 54.6% ตรวจสอบ SWE-bench แล้ว, ปรับปรุงโดย 21.4% เอบีเอส มากกว่า GPT‑4o และ 26.6%เอบีเอส มากกว่า GPT‑4.5 ทำให้เป็นโมเดลชั้นนำในการเขียนโค้ด
  • คำแนะนำดังต่อไปนี้: On ความท้าทายหลายระดับของ Scale(เปิดในหน้าต่างใหม่) เกณฑ์มาตรฐานการวัดความสามารถในการปฏิบัติตามคำสั่ง GPT‑4.1 ได้คะแนน 38.3%, 10.5%เอบีเอส เพิ่มขึ้นจาก GPT‑4o
  • บริบทยาว: On วิดีโอ-MME(เปิดในหน้าต่างใหม่)มาตรฐานสำหรับการทำความเข้าใจบริบทยาวแบบหลายโหมด GPT‑4.1 กำหนดผลลัพธ์ที่ล้ำสมัยที่สุด โดยได้คะแนน 72.0% ในหมวดหมู่ยาว ไม่มีคำบรรยาย และได้คะแนน 6.7%เอบีเอส การปรับปรุงจาก GPT‑4o

แม้ว่าเกณฑ์มาตรฐานจะให้ข้อมูลเชิงลึกที่มีค่า แต่เราได้ฝึกอบรมโมเดลเหล่านี้โดยเน้นที่ประโยชน์ใช้สอยในโลกแห่งความเป็นจริง ความร่วมมืออย่างใกล้ชิดและความร่วมมือกับชุมชนนักพัฒนาทำให้เราสามารถปรับโมเดลเหล่านี้ให้เหมาะสมกับงานที่สำคัญที่สุดต่อแอปพลิเคชันของพวกเขาได้

ด้วยเหตุนี้ กลุ่มผลิตภัณฑ์รุ่น GPT‑4.1 จึงมอบประสิทธิภาพที่โดดเด่นด้วยต้นทุนที่ต่ำลง โดยรุ่นเหล่านี้ช่วยยกระดับประสิทธิภาพในทุกจุดบนเส้นโค้งเวลาแฝง

เอพีไอ GPT4.1

GPT‑4.1 mini ถือเป็นก้าวกระโดดครั้งสำคัญในด้านประสิทธิภาพของโมเดลขนาดเล็ก โดยสามารถเอาชนะ GPT‑4o ในเกณฑ์มาตรฐานหลายรายการได้ โดยสามารถเทียบเคียงหรือดีกว่า GPT‑4o ในการประเมินด้านปัญญาประดิษฐ์ ขณะเดียวกันก็ลดเวลาแฝงลงเกือบครึ่งหนึ่งและลดต้นทุนลง 83%

สำหรับงานที่ต้องการความหน่วงต่ำ GPT‑4.1 nano เป็นโมเดลที่เร็วที่สุดและถูกที่สุดของเรา โมเดลนี้มอบประสิทธิภาพที่ยอดเยี่ยมในขนาดเล็กด้วยหน้าต่างบริบท 1 ล้านโทเค็น และทำคะแนนได้ 80.1% ใน MMLU, 50.3% ใน GPQA และ 9.8% ในการเข้ารหัส Aider polyglot ซึ่งสูงกว่า GPT‑4o mini อีกด้วย โมเดลนี้เหมาะอย่างยิ่งสำหรับงานประเภทการจำแนกหรือการเติมคำอัตโนมัติ

การปรับปรุงในการเรียนการสอนตามความน่าเชื่อถือและความเข้าใจบริบทยาวยังทำให้โมเดล GPT‑4.1 มีประสิทธิภาพมากขึ้นอย่างมากในการขับเคลื่อนตัวแทนหรือระบบที่สามารถทำงานแทนผู้ใช้ได้อย่างอิสระ เมื่อรวมกับพื้นฐานเช่น API การตอบกลับ(เปิดในหน้าต่างใหม่)ตอนนี้ นักพัฒนาสามารถสร้างตัวแทนที่มีประโยชน์และเชื่อถือได้มากขึ้นในการใช้งานวิศวกรรมซอฟต์แวร์ในโลกแห่งความเป็นจริง การดึงข้อมูลเชิงลึกจากเอกสารขนาดใหญ่ การแก้ไขคำขอของลูกค้าด้วยการช่วยเหลือที่น้อยที่สุด และงานที่ซับซ้อนอื่นๆ

โปรดทราบว่า GPT‑4.1 จะพร้อมใช้งานผ่าน API เท่านั้น ChatGPTการปรับปรุงหลายอย่างในการเรียนการสอน การเข้ารหัส และปัญญาประดิษฐ์ ได้ถูกนำมาผนวกเข้าไปเรื่อยๆ รุ่นล่าสุด(เปิดในหน้าต่างใหม่) ของ GPT‑4o และเราจะดำเนินการรวมเพิ่มเติมต่อไปในรุ่นต่อๆ ไป

เราจะเริ่มยกเลิก GPT‑4.5 Preview ใน API เนื่องจาก GPT‑4.1 มอบประสิทธิภาพที่ได้รับการปรับปรุงหรือคล้ายคลึงกันในความสามารถหลักหลายประการด้วยต้นทุนและเวลาแฝงที่ต่ำกว่ามาก GPT‑4.5 Preview จะถูกปิดใช้งานในอีกสามเดือน คือวันที่ 14 กรกฎาคม 2025 เพื่อให้มีเวลาให้นักพัฒนาได้เปลี่ยนแปลง GPT‑4.5 เดิมทีเป็น GPT‑XNUMX แนะนำ เป็นตัวอย่างการวิจัยเพื่อสำรวจและทดลองใช้โมเดลขนาดใหญ่ที่ต้องใช้การประมวลผลสูง และเราได้เรียนรู้มากมายจากคำติชมของนักพัฒนา เราจะยังคงนำความคิดสร้างสรรค์ คุณภาพการเขียน อารมณ์ขัน และความละเอียดอ่อนที่คุณบอกเราว่าชื่นชอบใน GPT‑4.5 มาใช้กับโมเดล API ในอนาคตต่อไป

ด้านล่างนี้ เราจะแยกรายละเอียดว่า GPT‑4.1 มีประสิทธิภาพการทำงานอย่างไรในเกณฑ์มาตรฐานต่างๆ พร้อมทั้งตัวอย่างจากผู้ทดสอบอัลฟ่า เช่น Windsurf, Qodo, Hex, Blue J, Thomson Reuters และ Carlyle ซึ่งแสดงให้เห็นประสิทธิภาพในการทำงานในงานเฉพาะโดเมนในระบบการผลิต

การเข้ารหัส

GPT‑4.1 ดีกว่า GPT‑4o อย่างเห็นได้ชัดในงานเขียนโค้ดที่หลากหลาย รวมถึงการแก้ปัญหางานเขียนโค้ดอย่างมีตัวแทน การเขียนโค้ดส่วนหน้า การแก้ไขที่ไม่เกี่ยวข้องน้อยลง การปฏิบัติตามรูปแบบ diff ได้อย่างน่าเชื่อถือ การรับรองการใช้เครื่องมือที่สอดคล้องกัน และอื่นๆ อีกมากมาย

จากการทดสอบ SWE-bench Verified ซึ่งเป็นการวัดทักษะด้านวิศวกรรมซอฟต์แวร์ในโลกแห่งความเป็นจริง GPT‑4.1 สามารถทำภารกิจสำเร็จได้ 54.6% เมื่อเทียบกับ GPT‑33.2o ที่ทำได้เพียง 4% (2024-11-20) ซึ่งสะท้อนถึงการปรับปรุงความสามารถของโมเดลในการสำรวจคลังโค้ด การทำงานให้เสร็จสิ้น และสร้างโค้ดที่ทั้งทำงานและผ่านการทดสอบ

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (สูง)เปิดAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4o mini55%33%41%49%38%24%9%SWE‑bench Verified accuracy

สำหรับ ตรวจสอบ SWE-bench แล้วโมเดลจะได้รับที่เก็บรหัสและคำอธิบายปัญหา และต้องสร้างแพตช์เพื่อแก้ไขปัญหา ประสิทธิภาพขึ้นอยู่กับคำแนะนำและเครื่องมือที่ใช้เป็นอย่างมาก เพื่อช่วยในการจำลองและจัดบริบทผลลัพธ์ของเรา เราจะอธิบายการตั้งค่าสำหรับ GPT‑4.1 Good Farm Animal Welfare Awards(เปิดในหน้าต่างใหม่)คะแนนของเราละเว้นปัญหา 23 ข้อจาก 500 ปัญหาซึ่งวิธีแก้ไขไม่สามารถทำงานบนโครงสร้างพื้นฐานของเราได้ หากได้คะแนนอย่างระมัดระวังเป็น 0 คะแนน 54.6% ก็จะกลายเป็น 52.1%

สำหรับนักพัฒนา API ที่ต้องการแก้ไขไฟล์ขนาดใหญ่ GPT‑4.1 มีความน่าเชื่อถือมากกว่ามากในการแก้ไขโค้ดในรูปแบบต่างๆ GPT‑4.1 มีคะแนนมากกว่า GPT‑4o มากกว่าสองเท่า เกณฑ์มาตรฐานต่างที่พูดได้หลายภาษาของ Aider(เปิดในหน้าต่างใหม่)และยังเอาชนะ GPT‑4.5 ได้ถึง 8%หน้าท้องการประเมินนี้เป็นทั้งการวัดความสามารถในการเขียนโค้ดในภาษาการเขียนโปรแกรมต่างๆ และเป็นการวัดความสามารถของโมเดลในการสร้างการเปลี่ยนแปลงในรูปแบบทั้งหมดและรูปแบบ diff เราได้ฝึก GPT‑4.1 โดยเฉพาะเพื่อให้ปฏิบัติตามรูปแบบ diff ได้อย่างน่าเชื่อถือมากขึ้น ซึ่งช่วยให้นักพัฒนาสามารถประหยัดทั้งต้นทุนและเวลาแฝงได้โดยให้โมเดลแสดงบรรทัดที่เปลี่ยนแปลงเท่านั้น แทนที่จะเขียนไฟล์ทั้งหมดใหม่ สำหรับประสิทธิภาพ diff ของโค้ดที่ดีที่สุด โปรดดูที่ คำแนะนำการเตือน(เปิดในหน้าต่างใหม่)สำหรับนักพัฒนาที่ต้องการเขียนไฟล์ใหม่ทั้งหมด เราได้เพิ่มขีดจำกัดโทเค็นเอาต์พุตสำหรับ GPT‑4.1 เป็น 32,768 โทเค็น (เพิ่มขึ้นจาก 16,384 โทเค็นสำหรับ GPT‑4o) นอกจากนี้ เราขอแนะนำให้ใช้ ผลลัพธ์ที่คาดการณ์(เปิดในหน้าต่างใหม่) เพื่อลดความล่าช้าในการเขียนไฟล์ใหม่ทั้งหมด

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (สูง)เปิดAI o3-mini (สูง)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini52% (ทั้งหมด)53% (diff)31% (ทั้งหมด)18% (diff)64% (ทั้งหมด)62% (diff)67% (ทั้งหมด)60% (diff)35% (ทั้งหมด)32% (diff)10% (ทั้งหมด)6% (diff)4% (ทั้งหมด)3% (diff)N/A (ทั้งหมด)45% (diff)ความแม่นยำของเกณฑ์มาตรฐานโพลีกลอตของ Aider

ในการประเมินประสิทธิภาพภาษาหลายภาษาของ Aider โมเดลจะแก้ไขแบบฝึกหัดการเขียนโค้ดจาก ออกกำลังกาย(เปิดในหน้าต่างใหม่) โดยแก้ไขไฟล์ต้นฉบับโดยอนุญาตให้ลองใหม่ได้หนึ่งครั้ง รูปแบบ 'ทั้งหมด' ต้องการให้โมเดลเขียนไฟล์ทั้งหมดใหม่ ซึ่งอาจช้าและมีค่าใช้จ่ายสูง รูปแบบ 'diff' ต้องการให้โมเดลเขียนชุดไฟล์ ค้นหา/แทนที่บล็อค(เปิดในหน้าต่างใหม่).

GPT‑4.1 ยังปรับปรุง GPT‑4o ให้ดีขึ้นอย่างมากในการเขียนโค้ดส่วนหน้า และสามารถสร้างแอปบนเว็บที่เน้นการใช้งานและความสวยงามได้ดีกว่า จากการเปรียบเทียบแบบตัวต่อตัว ผู้ประเมินที่จ่ายเงินสามารถให้คะแนนเว็บไซต์ของ GPT‑4.1 ได้ดีกว่า GPT‑4o ถึง 80%

Prompt: สร้างเว็บแอปพลิเคชันแฟลชการ์ด ผู้ใช้ควรสามารถสร้างแฟลชการ์ด ค้นหาในแฟลชการ์ดที่มีอยู่ ทบทวนแฟลชการ์ด และดูสถิติของแฟลชการ์ดที่ทบทวน โหลดการ์ด 3 ใบที่มีคำหรือวลีภาษาฮินดีและคำแปลภาษาอังกฤษไว้ล่วงหน้า อินเทอร์เฟซทบทวน: ในอินเทอร์เฟซทบทวน การคลิกหรือกด Space จะช่วยพลิกการ์ดด้วยแอนิเมชั่น XNUMX มิติที่ราบรื่นเพื่อแสดงคำแปล การกดปุ่มลูกศรจะช่วยนำทางผ่านการ์ด อินเทอร์เฟซการค้นหา: แถบค้นหาควรแสดงรายการผลลัพธ์แบบไดนามิกขณะที่ผู้ใช้พิมพ์ในแบบสอบถาม อินเทอร์เฟซสถิติ: หน้าสถิติควรแสดงกราฟของจำนวนการ์ดที่ผู้ใช้ทบทวนและเปอร์เซ็นต์ที่ผู้ใช้ได้ถูกต้อง อินเทอร์เฟซสร้างการ์ด: หน้าสร้างการ์ดควรอนุญาตให้ผู้ใช้ระบุส่วนหน้าและส่วนหลังของแฟลชการ์ดและเพิ่มลงในคอลเล็กชันของผู้ใช้ อินเทอร์เฟซเหล่านี้แต่ละส่วนควรเข้าถึงได้จากแถบด้านข้าง สร้างแอป React แบบหน้าเดียว (ใส่สไตล์ทั้งหมดแบบอินไลน์)

 

จีพีที‑4โอ

 

จีพีที‑4.1

นอกเหนือจากเกณฑ์มาตรฐานข้างต้นแล้ว GPT‑4.1 ยังมีประสิทธิภาพในการปฏิบัติตามรูปแบบต่างๆ ได้อย่างน่าเชื่อถือยิ่งขึ้น และทำให้การแก้ไขที่ไม่เกี่ยวข้องเกิดขึ้นน้อยลง ในการประเมินภายในของเรา การแก้ไขที่ไม่เกี่ยวข้องกับรหัสลดลงจาก 9% ด้วย GPT‑4o เหลือ 2% ด้วย GPT‑4.1

ตัวอย่างในโลกแห่งความจริง

วินเซิร์ฟ(เปิดในหน้าต่างใหม่)คะแนน GPT‑4.1 สูงกว่า GPT‑60o ถึง 4% ในเกณฑ์มาตรฐานการเขียนโค้ดภายในของ Windsurf ซึ่งสัมพันธ์อย่างมากกับความถี่ในการยอมรับการเปลี่ยนแปลงโค้ดในการตรวจสอบครั้งแรก ผู้ใช้สังเกตว่า GPT‑30 มีประสิทธิภาพมากกว่า 50% ในการเรียกใช้เครื่องมือ และมีโอกาสทำซ้ำการแก้ไขที่ไม่จำเป็นหรืออ่านโค้ดในขั้นตอนที่แคบเกินไปและเพิ่มขึ้นทีละน้อยน้อยลงประมาณ XNUMX% การปรับปรุงเหล่านี้ทำให้การวนซ้ำเร็วขึ้นและเวิร์กโฟลว์ราบรื่นขึ้นสำหรับทีมวิศวกรรม

โกโด(เปิดในหน้าต่างใหม่)Qodo ทดสอบ GPT‑4.1 แบบตัวต่อตัวกับโมเดลชั้นนำอื่นๆ ในการสร้างการตรวจสอบโค้ดคุณภาพสูงจากคำขอพูลของ GitHub โดยใช้ระเบียบวิธีที่ได้รับแรงบันดาลใจจากเกณฑ์มาตรฐานการปรับแต่งอย่างละเอียดของพวกเขา จากคำขอพูลในโลกแห่งความเป็นจริงที่มีความหมาย 200 รายการที่มีคำเตือนและเงื่อนไขเดียวกัน พวกเขาพบว่า GPT‑4.1 สร้างคำแนะนำที่ดีกว่า 55% ของกรณี(เปิดในหน้าต่างใหม่)ที่น่าสังเกตคือ พวกเขาพบว่า GPT‑4.1 โดดเด่นทั้งในเรื่องความแม่นยำ (รู้ว่าเมื่อใดไม่ควรเสนอแนะ) และความครอบคลุม (ให้การวิเคราะห์อย่างละเอียดถี่ถ้วนเมื่อจำเป็น) ในขณะที่ยังคงมุ่งเน้นไปที่ปัญหาที่สำคัญอย่างแท้จริง

คำแนะนำการปฏิบัติตาม

GPT‑4.1 ปฏิบัติตามคำสั่งได้อย่างน่าเชื่อถือยิ่งขึ้น และเราได้วัดการปรับปรุงที่สำคัญในคำสั่งที่หลากหลายหลังจากการประเมิน

เราได้พัฒนาการประเมินภายในสำหรับการปฏิบัติตามคำสั่งเพื่อติดตามประสิทธิภาพของโมเดลในมิติต่างๆ และในหมวดหมู่หลักของการปฏิบัติตามคำสั่งหลายประเภท ได้แก่:

  • รูปแบบดังต่อไปนี้ การให้คำแนะนำที่ระบุรูปแบบกำหนดเองสำหรับการตอบสนองของโมเดล เช่น XML, YAML, Markdown เป็นต้น
  • คำแนะนำเชิงลบ การระบุพฤติกรรมที่โมเดลควรหลีกเลี่ยง (ตัวอย่าง: “อย่าขอให้ผู้ใช้ติดต่อฝ่ายสนับสนุน”)
  • สั่งทำตามคำสั่ง การจัดทำชุดคำสั่งที่โมเดลต้องปฏิบัติตามในลำดับที่กำหนด (ตัวอย่าง: “ขอชื่อผู้ใช้ก่อน จากนั้นจึงขออีเมล”)
  • ข้อกำหนดด้านเนื้อหา การแสดงผลเนื้อหาที่มีข้อมูลบางอย่าง (ตัวอย่าง: “ระบุปริมาณโปรตีนเสมอเมื่อเขียนแผนโภชนาการ”)
  • อันดับ. การเรียงลำดับผลลัพธ์ในลักษณะเฉพาะ (ตัวอย่าง: “เรียงลำดับคำตอบตามจำนวนประชากร”)
  • ความมั่นใจมากเกินไป การสั่งให้โมเดลบอกว่า “ฉันไม่ทราบ” หรือข้อความคล้ายกัน หากไม่มีข้อมูลที่ร้องขอ หรือคำขอไม่เข้าข่ายหมวดหมู่ที่กำหนด (ตัวอย่าง: “หากคุณไม่ทราบคำตอบ โปรดระบุอีเมลติดต่อฝ่ายสนับสนุน”)

หมวดหมู่นี้เป็นผลมาจากข้อเสนอแนะจากนักพัฒนาเกี่ยวกับด้านต่างๆ ของคำแนะนำที่ตามมาซึ่งมีความเกี่ยวข้องและสำคัญที่สุดสำหรับพวกเขา ภายในแต่ละหมวดหมู่ เราได้แยกคำแนะนำแบบง่าย ปานกลาง และยาก GPT‑4.1 ปรับปรุงให้ดีขึ้นอย่างเห็นได้ชัดเมื่อเทียบกับ GPT‑4o โดยเฉพาะในส่วนคำแนะนำแบบยาก

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (สูง)เปิดAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini49%29%51%50%54%45%32%27%Internal OpenAI คำแนะนำในการประเมินความแม่นยำ (ชุดย่อยที่ยาก)

การเรียนการสอนภายในของเราตามการประเมินนั้นอิงตามกรณีการใช้งานจริงของนักพัฒนาและข้อเสนอแนะ ครอบคลุมงานที่มีความซับซ้อนต่างกันควบคู่ไปกับคำแนะนำเกี่ยวกับการจัดรูปแบบ ความละเอียด ความยาว และอื่นๆ อีกมากมาย

การปฏิบัติตามคำแนะนำแบบหลายรอบมีความสำคัญสำหรับนักพัฒนาหลายๆ คน เป็นสิ่งสำคัญที่โมเดลจะต้องรักษาความสอดคล้องกันในบทสนทนา และติดตามสิ่งที่ผู้ใช้บอกไว้ก่อนหน้านี้ เราได้ฝึก GPT‑4.1 ให้สามารถแยกแยะข้อมูลจากข้อความที่ผ่านมาในบทสนทนาได้ดีขึ้น ทำให้บทสนทนาเป็นธรรมชาติมากขึ้น เกณฑ์มาตรฐาน MultiChallenge จาก Scale เป็นมาตรการที่มีประโยชน์สำหรับความสามารถนี้ และ GPT‑4.1 ทำได้ 10.5%เอบีเอส ดีกว่า GPT‑4o

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (สูง)เปิดAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini38%28%45%40%44%36%15%20%MultiChallenge accuracy

In ความท้าทายหลายรูปแบบ(เปิดในหน้าต่างใหม่)โมเดลจะถูกท้าทายในการสนทนาหลายรอบเพื่อใช้ข้อมูลสี่ประเภทจากข้อความก่อนหน้าอย่างเหมาะสม

GPT‑4.1 ยังทำคะแนนได้ 87.4% ใน IFEval เมื่อเทียบกับ 81.0% ใน GPT‑4o IFEval ใช้คำเตือนพร้อมคำแนะนำที่ตรวจสอบได้ (ตัวอย่างเช่น การระบุความยาวของเนื้อหาหรือการหลีกเลี่ยงคำศัพท์หรือรูปแบบบางอย่าง)

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (สูง)เปิดAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini87%81%92%94%88%84%75%78%IFEval accuracy

In ไอเฟวาล(เปิดในหน้าต่างใหม่)โมเดลจะต้องสร้างคำตอบที่สอดคล้องกับคำสั่งต่างๆ

การปฏิบัติตามคำแนะนำที่ดีขึ้นทำให้แอปพลิเคชันที่มีอยู่มีความน่าเชื่อถือมากขึ้น และช่วยให้แอปพลิเคชันใหม่ที่เคยถูกจำกัดด้วยความน่าเชื่อถือต่ำสามารถใช้งานได้ ผู้ทดสอบในช่วงแรกสังเกตว่า GPT‑4.1 สามารถเป็นแบบตัวอักษรได้ ดังนั้นเราขอแนะนำให้ระบุคำสั่งอย่างชัดเจนและเฉพาะเจาะจง หากต้องการข้อมูลเพิ่มเติมเกี่ยวกับแนวทางปฏิบัติที่ดีที่สุดในการแจ้งคำสั่งสำหรับ GPT‑4.1 โปรดดูคู่มือการแจ้งคำสั่ง

ตัวอย่างในโลกแห่งความจริง

บลูเจ(เปิดในหน้าต่างใหม่)GPT‑4.1 มีความแม่นยำมากกว่า GPT‑53o ถึง 4% ในเกณฑ์มาตรฐานภายในของ Blue J ในสถานการณ์ภาษีที่ท้าทายที่สุดในโลกแห่งความเป็นจริง ความแม่นยำที่เพิ่มขึ้นนี้ถือเป็นปัจจัยสำคัญทั้งต่อประสิทธิภาพของระบบและความพึงพอใจของผู้ใช้ ซึ่งเน้นย้ำถึงความเข้าใจที่ดีขึ้นของ GPT‑4.1 ต่อกฎระเบียบที่ซับซ้อนและความสามารถในการปฏิบัติตามคำสั่งที่ละเอียดอ่อนในบริบทที่ยาวนาน สำหรับผู้ใช้ Blue J นั่นหมายถึงการค้นคว้าภาษีที่เร็วขึ้น เชื่อถือได้มากขึ้น และมีเวลาสำหรับงานให้คำแนะนำที่มีมูลค่าสูงมากขึ้น

แม่มด(เปิดในหน้าต่างใหม่):GPT‑4.1 มอบการปรับปรุงเกือบ 2 เท่าจาก Hex ที่ท้าทายที่สุด ชุดประเมินผล SQL(เปิดในหน้าต่างใหม่) แสดงให้เห็นถึงความก้าวหน้าที่สำคัญในการปฏิบัติตามคำแนะนำและความเข้าใจด้านความหมาย โมเดลนี้มีความน่าเชื่อถือมากกว่าในการเลือกตารางที่ถูกต้องจากโครงร่างที่คลุมเครือขนาดใหญ่ ซึ่งเป็นจุดตัดสินใจต้นทางที่ส่งผลโดยตรงต่อความแม่นยำโดยรวม และยากต่อการปรับแต่งผ่านการแจ้งเตือนเพียงอย่างเดียว สำหรับ Hex ส่งผลให้การดีบักด้วยตนเองลดลงอย่างเห็นได้ชัด และมีเส้นทางที่เร็วขึ้นสู่เวิร์กโฟลว์ระดับการผลิต

บริบทยาว

GPT‑4.1, GPT‑4.1 mini และ GPT‑4.1 nano สามารถประมวลผลโทเค็นบริบทได้สูงสุด 1 ล้านโทเค็น ซึ่งเพิ่มขึ้นจาก 128,000 โทเค็นในรุ่น GPT‑4o ก่อนหน้า โทเค็น 1 ล้านโทเค็นมากกว่าสำเนาฐานโค้ด React ทั้งหมด 8 สำเนา ดังนั้นบริบทยาวจึงเหมาะอย่างยิ่งสำหรับการประมวลผลฐานโค้ดขนาดใหญ่หรือเอกสารยาวจำนวนมาก

เราได้ฝึก GPT‑4.1 ให้สามารถดูแลข้อมูลได้อย่างน่าเชื่อถือตลอดความยาวบริบท 1 ล้านความยาว นอกจากนี้ เรายังฝึกให้ GPT‑4o สามารถสังเกตเห็นข้อความที่เกี่ยวข้องและละเลยสิ่งที่กวนใจได้ตลอดความยาวบริบททั้งแบบยาวและสั้น การทำความเข้าใจบริบทระยะยาวเป็นความสามารถที่สำคัญสำหรับแอปพลิเคชันต่างๆ ในด้านกฎหมาย การเขียนโค้ด การสนับสนุนลูกค้า และโดเมนอื่นๆ อีกมากมาย

ด้านล่างนี้ เราจะสาธิตความสามารถของ GPT‑4.1 ในการดึงข้อมูลขนาดเล็กที่ซ่อนอยู่ ("เข็ม") ซึ่งวางอยู่ที่จุดต่างๆ ภายในหน้าต่างบริบท GPT‑4.1 ดึงเข็มออกมาได้อย่างแม่นยำอย่างสม่ำเสมอในทุกตำแหน่งและทุกความยาวของบริบท สูงสุดถึง 1 ล้านโทเค็น GPT‑XNUMX สามารถดึงรายละเอียดที่เกี่ยวข้องสำหรับงานที่รับผิดชอบออกมาได้อย่างมีประสิทธิภาพ โดยไม่คำนึงถึงตำแหน่งในอินพุต

เอพีไอ GPT4.1

ในการประเมินเข็มภายในในมัดหญ้าของเรา GPT‑4.1, GPT‑4.1 mini และ GPT 4.1 nano สามารถดึงเข็มออกได้ในทุกตำแหน่งในบริบทได้ไกลถึง 1 ล้านเมกะพิกเซล

อย่างไรก็ตาม งานในโลกแห่งความเป็นจริงมีเพียงไม่กี่งานเท่านั้นที่ตรงไปตรงมาเท่ากับการค้นหาคำตอบที่ชัดเจนเพียงคำตอบเดียว เราพบว่าผู้ใช้มักต้องการให้โมเดลของเราค้นหาและทำความเข้าใจข้อมูลหลายชิ้น และทำความเข้าใจข้อมูลเหล่านั้นเมื่อสัมพันธ์กัน เพื่อแสดงความสามารถนี้ เราจึงเปิดซอร์สการประเมินใหม่: OpenAI-MRCR (Multi-Round Coreference)

OpenAI-MRCR ทดสอบความสามารถของโมเดลในการค้นหาและแยกแยะเข็มหลายเข็มที่ซ่อนอยู่ในบริบทได้ดี การประเมินประกอบด้วยการสนทนาสังเคราะห์แบบหลายรอบระหว่างผู้ใช้และผู้ช่วย โดยผู้ใช้ขอให้เขียนบทความเกี่ยวกับหัวข้อหนึ่งๆ เช่น "เขียนบทกวีเกี่ยวกับแรด" หรือ "เขียนโพสต์บล็อกเกี่ยวกับหิน" จากนั้นเราจะแทรกคำขอที่เหมือนกันสอง สี่ หรือแปดรายการตลอดบริบท จากนั้นโมเดลจะต้องเรียกค้นคำตอบที่สอดคล้องกับอินสแตนซ์เฉพาะ (เช่น "ให้บทกวีที่สามเกี่ยวกับแรดแก่ฉัน")

ความท้าทายเกิดจากความคล้ายคลึงกันระหว่างคำขอเหล่านี้กับบริบทที่เหลือ โมเดลอาจถูกเข้าใจผิดได้ง่ายจากความแตกต่างเพียงเล็กน้อย เช่น เรื่องสั้นเกี่ยวกับแรดแทนที่จะเป็นบทกวี หรือบทกวีเกี่ยวกับกบแทนที่จะเป็นแรด เราพบว่า GPT‑4.1 มีประสิทธิภาพเหนือกว่า GPT‑4o ที่ความยาวบริบทสูงสุดถึง 128 โทเค็น และยังคงประสิทธิภาพที่แข็งแกร่งแม้กระทั่งถึง 1 ล้านโทเค็น

แต่ภารกิจนี้ยังคงยากอยู่ แม้แต่สำหรับโมเดลการใช้เหตุผลขั้นสูง เรากำลังแบ่งปัน การประเมินชุดข้อมูล(เปิดในหน้าต่างใหม่) เพื่อส่งเสริมการทำงานเพิ่มเติมในการดึงข้อมูลในบริบทระยะยาวในโลกแห่งความเป็นจริง

เอพีไอ GPT4.1

In โอเพ่นเอไอ-เอ็มอาร์ซีอาร์(เปิดในหน้าต่างใหม่)โมเดลจะต้องตอบคำถามที่เกี่ยวข้องกับการแยกความกำกวมระหว่างคำเตือนผู้ใช้ 2, 4 หรือ 8 ข้อที่กระจัดกระจายอยู่ในสิ่งที่กวนใจ

เรายังปล่อย กราฟวอล์คส์(เปิดในหน้าต่างใหม่)ชุดข้อมูลสำหรับประเมินการใช้เหตุผลแบบบริบทยาวหลายฮ็อป กรณีการใช้งานของนักพัฒนาจำนวนมากสำหรับบริบทยาวต้องการฮ็อปเชิงตรรกะหลายฮ็อปภายในบริบท เช่น การกระโดดระหว่างไฟล์หลายไฟล์เมื่อเขียนโค้ดหรือการอ้างอิงแบบไขว้เอกสารเมื่อตอบคำถามทางกฎหมายที่ซับซ้อน

ในทางทฤษฎีแล้ว โมเดล (หรือแม้แต่คน) สามารถแก้ปัญหา OpenAI-MRCR ได้ด้วยการอ่านคำแนะนำเพียงครั้งเดียว แต่ Graphwalks ได้รับการออกแบบมาให้ต้องใช้การใช้เหตุผลในหลายตำแหน่งในบริบท และไม่สามารถแก้ปัญหาตามลำดับได้

Graphwalks เติมหน้าต่างบริบทด้วยกราฟที่มีทิศทางซึ่งประกอบด้วยแฮชเลขฐานสิบหก จากนั้นจึงขอให้โมเดลดำเนินการค้นหาตามความกว้างก่อน (BFS) โดยเริ่มจากโหนดแบบสุ่มในกราฟ จากนั้นจึงขอให้โมเดลส่งคืนโหนดทั้งหมดที่ความลึกที่กำหนด GPT‑4.1 มีความแม่นยำ 61.7% ในเกณฑ์มาตรฐานนี้ ซึ่งเทียบเท่ากับประสิทธิภาพของ o1 และเอาชนะ GPT‑4o ได้อย่างง่ายดาย

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (สูง)เปิดAI o3-mini (สูง)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini62%42%62%51%72%62%25%29%Graphwalks BFS ความแม่นยำ <128k

In กราฟวอล์คส์(เปิดในหน้าต่างใหม่)โมเดลจะถูกขอให้ดำเนินการค้นหาตามความกว้างจากโหนดแบบสุ่มในกราฟขนาดใหญ่

เกณฑ์มาตรฐานยังไม่สามารถบอกเล่าเรื่องราวทั้งหมดได้ ดังนั้น เราจึงทำงานร่วมกับพาร์ทเนอร์ระดับอัลฟ่าเพื่อทดสอบประสิทธิภาพของ GPT‑4.1 ในงานบริบทยาวในโลกแห่งความเป็นจริง

ตัวอย่างในโลกแห่งความจริง

ทอมสัน รอยเตอร์:(เปิดในหน้าต่างใหม่) Thomson Reuters ทดสอบ GPT‑4.1 กับ CoCounsel ซึ่งเป็นระดับมืออาชีพ AI ผู้ช่วยสำหรับงานกฎหมาย เมื่อเปรียบเทียบกับ GPT‑4o พวกเขาสามารถปรับปรุงความถูกต้องของการตรวจสอบเอกสารหลายฉบับได้ 17% เมื่อใช้ GPT‑4.1 ในเกณฑ์มาตรฐานภายในที่มีบริบทยาว ซึ่งเป็นมาตรการสำคัญในการวัดความสามารถของ CoCounsel ในการจัดการเวิร์กโฟลว์ทางกฎหมายที่ซับซ้อนซึ่งเกี่ยวข้องกับเอกสารยาวหลายฉบับ โดยเฉพาะอย่างยิ่ง พวกเขาพบว่าโมเดลนี้มีความน่าเชื่อถือสูงในการรักษาบริบทในแหล่งต่าง ๆ และระบุความสัมพันธ์ที่ละเอียดอ่อนระหว่างเอกสารได้อย่างแม่นยำ เช่น เงื่อนไขที่ขัดแย้งกันหรือบริบทเสริมเพิ่มเติม ซึ่งเป็นงานที่สำคัญต่อการวิเคราะห์และการตัดสินใจทางกฎหมาย

คาร์ไลล์(เปิดในหน้าต่างใหม่)Carlyle ใช้ GPT‑4.1 เพื่อดึงข้อมูลทางการเงินแบบละเอียดจากเอกสารจำนวนมากที่มีความยาวได้อย่างแม่นยำ ไม่ว่าจะเป็น PDF ไฟล์ Excel และรูปแบบที่ซับซ้อนอื่นๆ จากการประเมินภายใน พบว่า GPT‑50 มีประสิทธิภาพดีขึ้น XNUMX% ในการดึงข้อมูลจากเอกสารขนาดใหญ่ที่มีข้อมูลหนาแน่น และเป็นโมเดลแรกที่สามารถเอาชนะข้อจำกัดสำคัญที่พบในโมเดลอื่นๆ ที่มีอยู่ได้สำเร็จ เช่น การดึงข้อมูลแบบเข็มในมัดหญ้า ข้อผิดพลาดที่หายไประหว่างทาง และการใช้เหตุผลแบบหลายฮ็อปในเอกสารต่างๆ

นอกเหนือจากประสิทธิภาพและความแม่นยำของโมเดลแล้ว นักพัฒนายังต้องการโมเดลที่ตอบสนองอย่างรวดเร็วเพื่อให้ทันและตรงตามความต้องการของผู้ใช้ เราได้ปรับปรุงสแต็กการอนุมานของเราเพื่อลดเวลาในการเข้าถึงโทเค็นแรก และด้วยการแคชแบบทันที คุณสามารถลดเวลาแฝงได้มากขึ้นในขณะที่ประหยัดต้นทุน ในการทดสอบเริ่มต้นของเรา เวลาแฝงสำหรับโทเค็นแรกสำหรับ GPT‑4.1 อยู่ที่ประมาณ 128,000 วินาทีสำหรับโทเค็นบริบท 4.1 รายการ และ 4.1 นาทีสำหรับโทเค็นบริบท 128,000 ล้านรายการ GPT‑XNUMX mini และ nano เร็วกว่า เช่น GPT‑XNUMX nano มักจะส่งคืนโทเค็นแรกในเวลาน้อยกว่าห้าวินาทีสำหรับการค้นหาที่มีโทเค็นอินพุต XNUMX รายการ

วิสัยทัศน์:

ครอบครัว GPT‑4.1 มีความแข็งแกร่งเป็นพิเศษในการทำความเข้าใจภาพ โดยเฉพาะอย่างยิ่ง GPT‑4.1 mini ถือเป็นก้าวกระโดดที่สำคัญ โดยมักจะเอาชนะ GPT‑4o ได้ในเกณฑ์มาตรฐานของภาพ

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini75%69%78%75%73%55%56%MMMU accuracy

In มม(เปิดในหน้าต่างใหม่)โมเดลจะตอบคำถามที่ประกอบด้วยแผนภูมิ แผนภาพ แผนที่ ฯลฯ (หมายเหตุ: แม้ว่าจะไม่มีรูปภาพรวมอยู่ด้วย คำตอบหลายข้อยังสามารถอนุมานหรือเดาจากบริบทได้)

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini72%61%72%72%73%56%57%MathVista accuracy

In คณิตวิสต้า(เปิดในหน้าต่างใหม่)แบบจำลองสำหรับแก้ปัญหาทางคณิตศาสตร์เชิงภาพ

GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini57%53%55%55%57%41%37%CharXiv-Reasoning accuracy

In CharXiv-การใช้เหตุผล(เปิดในหน้าต่างใหม่)แบบจำลองจะตอบคำถามเกี่ยวกับแผนภูมิจากเอกสารทางวิทยาศาสตร์

ประสิทธิภาพบริบทยาวยังมีความสำคัญสำหรับกรณีการใช้งานหลายโหมด เช่น การประมวลผลวิดีโอยาวๆ วิดีโอ-MME⁠(เปิดในหน้าต่างใหม่) (ยาวโดยไม่มีคำบรรยาย) โมเดลจะตอบคำถามแบบเลือกตอบโดยอิงจากวิดีโอความยาว 30-60 นาทีโดยไม่มีคำบรรยาย GPT‑4.1 บรรลุประสิทธิภาพที่ล้ำสมัย โดยทำคะแนนได้ 72.0% เพิ่มขึ้นจาก 65.3% ของ GPT‑4o

GPT-4.1GPT-4o (2024-11-20)72%65%Video long context

In วิดีโอ-MME(เปิดในหน้าต่างใหม่)นางแบบจะตอบคำถามแบบเลือกตอบโดยอ้างอิงจากวิดีโอความยาว 30-60 นาที โดยไม่มีคำบรรยาย

ราคา

GPT‑4.1, GPT‑4.1 mini และ GPT‑4.1 nano พร้อมให้บริการแก่นักพัฒนาซอฟต์แวร์ทุกคนแล้ว

ด้วยการปรับปรุงประสิทธิภาพระบบอนุมานของเรา เราจึงสามารถเสนอราคาที่ต่ำลงสำหรับซีรีส์ GPT‑4.1 ได้ GPT‑4.1 มีราคาถูกกว่า GPT‑26o ถึง 4% สำหรับการค้นหาค่ามัธยฐาน และ GPT‑4.1 nano คือโมเดลที่ถูกที่สุดและเร็วที่สุดของเรา สำหรับการค้นหาที่ส่งบริบทเดียวกันซ้ำๆ เรากำลังเพิ่มส่วนลดแคชพร้อมท์เป็น 75% (เพิ่มขึ้นจาก 50% ก่อนหน้านี้) สำหรับโมเดลใหม่เหล่านี้ และสุดท้าย เราเสนอคำขอบริบทแบบยาวโดยไม่มีค่าใช้จ่ายเพิ่มเติมนอกเหนือจากต้นทุนต่อโทเค็นมาตรฐาน

รุ่น
(ราคาต่อ 1 ล้านโทเค็น)
อินพุตอินพุตที่แคชเอาท์พุตราคาแบบผสมผสาน*
GPT-4.1$2.00$0.50$8.00$1.84
gpt-4.1-มินิ$0.40$0.10$1.60$0.42
จีพีที-4.1-นาโน$0.10$0.025$0.40$0.12

*อิงตามอัตราอินพุต/เอาต์พุตและแคชทั่วไป

โมเดลเหล่านี้มีไว้ใช้งานใน API แบตช์(เปิดในหน้าต่างใหม่) พร้อมส่วนลดราคาเพิ่มอีก 50%

สรุป

GPT‑4.1 ถือเป็นก้าวสำคัญในการนำแนวคิดนี้ไปใช้ในทางปฏิบัติ AIด้วยการมุ่งเน้นอย่างใกล้ชิดไปที่ความต้องการของนักพัฒนาในโลกแห่งความเป็นจริง ตั้งแต่การเขียนโค้ดไปจนถึงการปฏิบัติตามคำสั่งและการทำความเข้าใจบริบทระยะยาว โมเดลเหล่านี้จึงปลดล็อกความเป็นไปได้ใหม่ๆ ในการสร้างระบบอัจฉริยะและแอปพลิเคชันเอเจนต์ที่ซับซ้อน เราได้รับแรงบันดาลใจอย่างต่อเนื่องจากความคิดสร้างสรรค์ของชุมชนนักพัฒนา และรู้สึกตื่นเต้นที่จะได้เห็นสิ่งที่คุณสร้างด้วย GPT‑4.1

ภาคผนวก

สามารถดูรายชื่อผลลัพธ์ครบถ้วนจากการประเมินด้านวิชาการ การเขียนโค้ด การปฏิบัติตามคำสั่ง บริบทระยะยาว วิสัยทัศน์ และการเรียกใช้ฟังก์ชันได้ที่ด้านล่าง

ความรู้ด้านวิชาการ
Categoryจีพีที-4.1GPT-4.1 มินิGPT-4.1 นาโนGPT-4o(2024-11-20)GPT-4o มินิจุดเปิดAI o1(สูง)จุดเปิดAI โอวันมินิ(สูง)จีพีที-4.5
เอมี่ '2448.1% 49.6% 29.4% 13.1% 8.6% 74.3% 87.3% 36.7%
จีพีคิวเอ ไดมอนด์166.3% 65.0% 50.3% 46.0% 40.2% 75.7% 77.2% 69.5%
มมส90.2% 87.5% 80.1% 85.7% 82.0% 91.8% 86.9% 90.8%
MMLU หลายภาษา87.3% 78.5% 66.9% 81.4% 70.5% 87.7% 80.7% 85.1%

[1] การใช้งาน GPQA ของเราใช้แบบจำลองในการแยกคำตอบแทน regex สำหรับ GPT-4.1 ความแตกต่างอยู่ที่น้อยกว่า 1% (ไม่มีนัยสำคัญทางสถิติ) แต่สำหรับ GPT-4o การแยกแบบจำลองช่วยปรับปรุงคะแนนได้อย่างมีนัยสำคัญ (~46% -> 54%)

การประเมินการเข้ารหัส
Categoryจีพีที-4.1GPT-4.1 มินิGPT-4.1 นาโนGPT-4o(2024-11-20)GPT-4o มินิจุดเปิดAI o1(สูง)จุดเปิดAI โอวันมินิ(สูง)จีพีที-4.5
ตรวจสอบ SWE-bench แล้ว254.6% 23.6% -33.2% 8.7% 41.0% 49.3% 38.0%
SWE-แลนเซอร์$ 176K
(% 35.1)
$ 165K
(% 33.0)
$ 77K
(% 15.3)
$ 163K
(% 32.6)
$ 116K
(% 23.1)
$ 160K
(% 32.1)
$ 90K
(% 18.0)
$ 186K
(% 37.3)
SWE-Lancer (กลุ่มย่อย IC-Diamond)$ 34K
(% 14.4)
$ 31K
(% 13.1)
$ 9K
(% 3.7)
$ 29K
(% 12.4)
$ 11K
(% 4.8)
$ 29K
(% 9.7)
$ 17K
(% 7.4)
$ 41K
(% 17.4)
ภาษาหลายภาษาของ Aider: ทั้งหมด51.6% 34.7% 9.8% 30.7% 3.6% 64.6% 66.7% -
หลายภาษาของ Aider: diff52.9% 31.6% 6.2% 18.2% 2.7% 61.7% 60.4% 44.9%

[2] เราละเว้นปัญหา 23/500 ที่ไม่สามารถทำงานบนโครงสร้างพื้นฐานของเราได้ รายการเต็มของ 23 งานที่ถูกละเว้นคือ 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028' 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' และ 'sphinx-doc__sphinx-9367'

คำแนะนำการปฏิบัติตามการประเมิน
Categoryจีพีที-4.1GPT-4.1 มินิGPT-4.1 นาโนGPT-4o(2024-11-20)GPT-4o มินิจุดเปิดAI o1(สูง)จุดเปิดAI โอวันมินิ(สูง)จีพีที-4.5
คำสั่งภายใน API ตาม (แบบยาก)49.1% 45.1% 31.6% 29.2% 27.2% 51.3% 50.0% 54.0%
ความท้าทายหลายรูปแบบ38.3% 35.8% 15.0% 27.8% 20.3% 44.9% 39.9% 43.8%
ความท้าทายหลายรูปแบบ (o3-mini grader)346.2% 42.2% 31.1% 39.9% 25.6% 52.9% 50.2% 50.1%
สุนัขเฝ้าแกะ65.8% 54.6% 42.5% 50.2% 52.7% 95.3% 98.7% 72.3%
ไอเฟวาล87.4% 84.1% 74.5% 81.0% 78.4% 92.2% 93.9% 88.2%
มัลติ-IF70.8% 67.0% 57.2% 60.9% 57.9% 77.9% 79.5% 70.8%

[3] หมายเหตุ: เราพบว่าตัวให้คะแนนเริ่มต้นใน MultiChallenge (GPT-4o) มักจะให้คะแนนคำตอบของโมเดลผิดบ่อยครั้ง เราพบว่าการเปลี่ยนตัวให้คะแนนเป็นโมเดลการใช้เหตุผล เช่น o3-mini ช่วยเพิ่มความแม่นยำในการให้คะแนนตัวอย่างที่เราตรวจสอบได้อย่างมาก เพื่อความสอดคล้องกับกระดานผู้นำ เราจึงเผยแพร่ผลลัพธ์ทั้งสองชุด

การประเมินบริบทยาว
Categoryจีพีที-4.1GPT-4.1 มินิGPT-4.1 นาโนGPT-4o(2024-11-20)GPT-4o มินิจุดเปิดAI o1(สูง)จุดเปิดAI โอวันมินิ(สูง)จีพีที-4.5
OpenAI-MRCR: 2เข็ม128k57.2% 47.2% 36.6% 31.9% 24.5% 22.1% 18.7% 38.5%
OpenAI-MRCR: เข็ม 2 เข็ม 1M46.3% 33.3% 12.0% -----
กราฟวอล์ค bfs < 128k61.7% 61.7% 25.0% 41.7% 29.0% 62.0% 51.0% 72.3%
กราฟวอล์ค bfs >128k19.0% 15.0% 2.9% -----
Graphwalks ผู้ปกครอง <128k58.0% 60.5% 9.4% 35.4% 12.6% 50.9% 58.3% 72.6%
Graphwalks ผู้ปกครอง >128k25.0% 11.0% 5.6% -----
การประเมินวิสัยทัศน์
Categoryจีพีที-4.1GPT-4.1 มินิGPT-4.1 นาโนGPT-4o(2024-11-20)GPT-4o มินิจุดเปิดAI o1(สูง)จุดเปิดAI โอวันมินิ(สูง)จีพีที-4.5
มม74.8% 72.7% 55.4% 68.7% 56.3% 77.6% -75.2%
คณิตวิสต้า72.2% 73.1% 56.2% 61.4% 56.5% 71.8% -72.3%
ชาร์Xiv-R56.7% 56.8% 40.5% 52.7% 36.8% 55.1% -55.4%
ชาร์Xiv-D87.9% 88.4% 73.9% 85.3% 76.6% 88.9% -90.0%
การเรียกฟังก์ชัน Eval
Categoryจีพีที-4.1GPT-4.1 มินิGPT-4.1 นาโนGPT-4o(2024-11-20)GPT-4o มินิจุดเปิดAI o1(สูง)จุดเปิดAI โอวันมินิ(สูง)จีพีที-4.5
คอมเพล็กซ์ฟันเบ็นช์65.5% 49.3% 0.6% 66.5% 38.6% 47.6% 17.6% 63.0%
สายการบิน Tabench449.4% 36.0% 14.0% 42.8% 22.0% 50.0% 32.4% 50.0%
ขายปลีก Tabench4, 568.0%
(% 73.6)
55.8%
(% 65.4)
22.6%
(% 23.5)
60.3% 44.0% 70.8% 57.6% 68.4%

[4] ตัวเลขการประเมิน tau-bench จะถูกเฉลี่ยจากการรัน 5 ครั้งเพื่อลดความแปรปรวน และรันโดยไม่ต้องใช้เครื่องมือที่กำหนดเองหรือการเตือนใดๆ

[5] ตัวเลขในวงเล็บแสดงถึงผลลัพธ์ของการทดสอบ Tau-bench เมื่อใช้ GPT-4.1 เป็นแบบจำลองผู้ใช้ แทนที่จะเป็น GPT-4o เราพบว่า เนื่องจาก GPT-4.1 ปฏิบัติตามคำสั่งได้ดีกว่า จึงสามารถทำงานในฐานะผู้ใช้ได้ดีกว่า และส่งผลให้มีวิถีการทำงานที่ประสบความสำเร็จมากขึ้น เราเชื่อว่าตัวเลขนี้แสดงถึงประสิทธิภาพที่แท้จริงของแบบจำลองที่ประเมินในการทดสอบประสิทธิภาพ

การแปลภาษาอังกฤษ

การนำทางที่เกี่ยวข้อง

ไม่มีความคิดเห็น

ไม่มี
ไม่มีความคิดเห็น...