
ซีรีส์ใหม่ของโมเดล GPT ที่มีการปรับปรุงครั้งใหญ่ในการเข้ารหัส การปฏิบัติตามคำสั่ง และบริบทยาว รวมถึงโมเดลนาโนรุ่นแรกของเรา มีจำหน่ายผ่านAPI调用
กรุณาอ่านบทความเพื่อดูคำแนะนำ เปิดตัวครั้งแรก!ChatGPT4.1 คำแนะนำฉบับสมบูรณ์ในการใช้งานในพื้นที่ – แม้กระทั่งสำหรับผู้เริ่มต้นและคอมพิวเตอร์ทั่วไป
ChatGPT4.1 บทนำ
วันนี้ เราเปิดตัวโมเดลใหม่ 4.1 โมเดลใน API ได้แก่ GPT‑4.1, GPT‑4.1 mini และ GPT‑4 nano โมเดลเหล่านี้มีประสิทธิภาพเหนือกว่า GPT‑4o และ GPT‑1o mini ในทุกๆ ด้าน โดยมีการพัฒนาที่สำคัญในการเข้ารหัสและการปฏิบัติตามคำสั่ง โมเดลเหล่านี้ยังมีหน้าต่างบริบทที่ใหญ่ขึ้น ซึ่งรองรับโทเค็นบริบทได้มากถึง 2024 ล้านโทเค็น และสามารถใช้บริบทนั้นได้ดีขึ้นด้วยความเข้าใจบริบทระยะยาวที่ดีขึ้น โมเดลเหล่านี้มีเกณฑ์ความรู้ใหม่ที่ปรับปรุงใหม่ในเดือนมิถุนายน XNUMX
GPT‑4.1 โดดเด่นในการวัดมาตรฐานอุตสาหกรรมต่อไปนี้:
- การเข้ารหัส:คะแนน GPT‑4.1 อยู่ที่ 54.6% ตรวจสอบ SWE-bench แล้ว, ปรับปรุงโดย 21.4% เอบีเอส มากกว่า GPT‑4o และ 26.6%เอบีเอส มากกว่า GPT‑4.5 ทำให้เป็นโมเดลชั้นนำในการเขียนโค้ด
- คำแนะนำดังต่อไปนี้: On ความท้าทายหลายระดับของ Scale(เปิดในหน้าต่างใหม่) เกณฑ์มาตรฐานการวัดความสามารถในการปฏิบัติตามคำสั่ง GPT‑4.1 ได้คะแนน 38.3%, 10.5%เอบีเอส เพิ่มขึ้นจาก GPT‑4o
- บริบทยาว: On วิดีโอ-MME(เปิดในหน้าต่างใหม่)มาตรฐานสำหรับการทำความเข้าใจบริบทยาวแบบหลายโหมด GPT‑4.1 กำหนดผลลัพธ์ที่ล้ำสมัยที่สุด โดยได้คะแนน 72.0% ในหมวดหมู่ยาว ไม่มีคำบรรยาย และได้คะแนน 6.7%เอบีเอส การปรับปรุงจาก GPT‑4o
แม้ว่าเกณฑ์มาตรฐานจะให้ข้อมูลเชิงลึกที่มีค่า แต่เราได้ฝึกอบรมโมเดลเหล่านี้โดยเน้นที่ประโยชน์ใช้สอยในโลกแห่งความเป็นจริง ความร่วมมืออย่างใกล้ชิดและความร่วมมือกับชุมชนนักพัฒนาทำให้เราสามารถปรับโมเดลเหล่านี้ให้เหมาะสมกับงานที่สำคัญที่สุดต่อแอปพลิเคชันของพวกเขาได้
ด้วยเหตุนี้ กลุ่มผลิตภัณฑ์รุ่น GPT‑4.1 จึงมอบประสิทธิภาพที่โดดเด่นด้วยต้นทุนที่ต่ำลง โดยรุ่นเหล่านี้ช่วยยกระดับประสิทธิภาพในทุกจุดบนเส้นโค้งเวลาแฝง

GPT‑4.1 mini ถือเป็นก้าวกระโดดครั้งสำคัญในด้านประสิทธิภาพของโมเดลขนาดเล็ก โดยสามารถเอาชนะ GPT‑4o ในเกณฑ์มาตรฐานหลายรายการได้ โดยสามารถเทียบเคียงหรือดีกว่า GPT‑4o ในการประเมินด้านปัญญาประดิษฐ์ ขณะเดียวกันก็ลดเวลาแฝงลงเกือบครึ่งหนึ่งและลดต้นทุนลง 83%
สำหรับงานที่ต้องการความหน่วงต่ำ GPT‑4.1 nano เป็นโมเดลที่เร็วที่สุดและถูกที่สุดของเรา โมเดลนี้มอบประสิทธิภาพที่ยอดเยี่ยมในขนาดเล็กด้วยหน้าต่างบริบท 1 ล้านโทเค็น และทำคะแนนได้ 80.1% ใน MMLU, 50.3% ใน GPQA และ 9.8% ในการเข้ารหัส Aider polyglot ซึ่งสูงกว่า GPT‑4o mini อีกด้วย โมเดลนี้เหมาะอย่างยิ่งสำหรับงานประเภทการจำแนกหรือการเติมคำอัตโนมัติ
การปรับปรุงในการเรียนการสอนตามความน่าเชื่อถือและความเข้าใจบริบทยาวยังทำให้โมเดล GPT‑4.1 มีประสิทธิภาพมากขึ้นอย่างมากในการขับเคลื่อนตัวแทนหรือระบบที่สามารถทำงานแทนผู้ใช้ได้อย่างอิสระ เมื่อรวมกับพื้นฐานเช่น API การตอบกลับ(เปิดในหน้าต่างใหม่)ตอนนี้ นักพัฒนาสามารถสร้างตัวแทนที่มีประโยชน์และเชื่อถือได้มากขึ้นในการใช้งานวิศวกรรมซอฟต์แวร์ในโลกแห่งความเป็นจริง การดึงข้อมูลเชิงลึกจากเอกสารขนาดใหญ่ การแก้ไขคำขอของลูกค้าด้วยการช่วยเหลือที่น้อยที่สุด และงานที่ซับซ้อนอื่นๆ
โปรดทราบว่า GPT‑4.1 จะพร้อมใช้งานผ่าน API เท่านั้น ChatGPTการปรับปรุงหลายอย่างในการเรียนการสอน การเข้ารหัส และปัญญาประดิษฐ์ ได้ถูกนำมาผนวกเข้าไปเรื่อยๆ รุ่นล่าสุด(เปิดในหน้าต่างใหม่) ของ GPT‑4o และเราจะดำเนินการรวมเพิ่มเติมต่อไปในรุ่นต่อๆ ไป
เราจะเริ่มยกเลิก GPT‑4.5 Preview ใน API เนื่องจาก GPT‑4.1 มอบประสิทธิภาพที่ได้รับการปรับปรุงหรือคล้ายคลึงกันในความสามารถหลักหลายประการด้วยต้นทุนและเวลาแฝงที่ต่ำกว่ามาก GPT‑4.5 Preview จะถูกปิดใช้งานในอีกสามเดือน คือวันที่ 14 กรกฎาคม 2025 เพื่อให้มีเวลาให้นักพัฒนาได้เปลี่ยนแปลง GPT‑4.5 เดิมทีเป็น GPT‑XNUMX แนะนำ เป็นตัวอย่างการวิจัยเพื่อสำรวจและทดลองใช้โมเดลขนาดใหญ่ที่ต้องใช้การประมวลผลสูง และเราได้เรียนรู้มากมายจากคำติชมของนักพัฒนา เราจะยังคงนำความคิดสร้างสรรค์ คุณภาพการเขียน อารมณ์ขัน และความละเอียดอ่อนที่คุณบอกเราว่าชื่นชอบใน GPT‑4.5 มาใช้กับโมเดล API ในอนาคตต่อไป
ด้านล่างนี้ เราจะแยกรายละเอียดว่า GPT‑4.1 มีประสิทธิภาพการทำงานอย่างไรในเกณฑ์มาตรฐานต่างๆ พร้อมทั้งตัวอย่างจากผู้ทดสอบอัลฟ่า เช่น Windsurf, Qodo, Hex, Blue J, Thomson Reuters และ Carlyle ซึ่งแสดงให้เห็นประสิทธิภาพในการทำงานในงานเฉพาะโดเมนในระบบการผลิต
การเข้ารหัส
GPT‑4.1 ดีกว่า GPT‑4o อย่างเห็นได้ชัดในงานเขียนโค้ดที่หลากหลาย รวมถึงการแก้ปัญหางานเขียนโค้ดอย่างมีตัวแทน การเขียนโค้ดส่วนหน้า การแก้ไขที่ไม่เกี่ยวข้องน้อยลง การปฏิบัติตามรูปแบบ diff ได้อย่างน่าเชื่อถือ การรับรองการใช้เครื่องมือที่สอดคล้องกัน และอื่นๆ อีกมากมาย
จากการทดสอบ SWE-bench Verified ซึ่งเป็นการวัดทักษะด้านวิศวกรรมซอฟต์แวร์ในโลกแห่งความเป็นจริง GPT‑4.1 สามารถทำภารกิจสำเร็จได้ 54.6% เมื่อเทียบกับ GPT‑33.2o ที่ทำได้เพียง 4% (2024-11-20) ซึ่งสะท้อนถึงการปรับปรุงความสามารถของโมเดลในการสำรวจคลังโค้ด การทำงานให้เสร็จสิ้น และสร้างโค้ดที่ทั้งทำงานและผ่านการทดสอบ
สำหรับนักพัฒนา API ที่ต้องการแก้ไขไฟล์ขนาดใหญ่ GPT‑4.1 มีความน่าเชื่อถือมากกว่ามากในการแก้ไขโค้ดในรูปแบบต่างๆ GPT‑4.1 มีคะแนนมากกว่า GPT‑4o มากกว่าสองเท่า เกณฑ์มาตรฐานต่างที่พูดได้หลายภาษาของ Aider(เปิดในหน้าต่างใหม่)และยังเอาชนะ GPT‑4.5 ได้ถึง 8%หน้าท้องการประเมินนี้เป็นทั้งการวัดความสามารถในการเขียนโค้ดในภาษาการเขียนโปรแกรมต่างๆ และเป็นการวัดความสามารถของโมเดลในการสร้างการเปลี่ยนแปลงในรูปแบบทั้งหมดและรูปแบบ diff เราได้ฝึก GPT‑4.1 โดยเฉพาะเพื่อให้ปฏิบัติตามรูปแบบ diff ได้อย่างน่าเชื่อถือมากขึ้น ซึ่งช่วยให้นักพัฒนาสามารถประหยัดทั้งต้นทุนและเวลาแฝงได้โดยให้โมเดลแสดงบรรทัดที่เปลี่ยนแปลงเท่านั้น แทนที่จะเขียนไฟล์ทั้งหมดใหม่ สำหรับประสิทธิภาพ diff ของโค้ดที่ดีที่สุด โปรดดูที่ คำแนะนำการเตือน(เปิดในหน้าต่างใหม่)สำหรับนักพัฒนาที่ต้องการเขียนไฟล์ใหม่ทั้งหมด เราได้เพิ่มขีดจำกัดโทเค็นเอาต์พุตสำหรับ GPT‑4.1 เป็น 32,768 โทเค็น (เพิ่มขึ้นจาก 16,384 โทเค็นสำหรับ GPT‑4o) นอกจากนี้ เราขอแนะนำให้ใช้ ผลลัพธ์ที่คาดการณ์(เปิดในหน้าต่างใหม่) เพื่อลดความล่าช้าในการเขียนไฟล์ใหม่ทั้งหมด
GPT‑4.1 ยังปรับปรุง GPT‑4o ให้ดีขึ้นอย่างมากในการเขียนโค้ดส่วนหน้า และสามารถสร้างแอปบนเว็บที่เน้นการใช้งานและความสวยงามได้ดีกว่า จากการเปรียบเทียบแบบตัวต่อตัว ผู้ประเมินที่จ่ายเงินสามารถให้คะแนนเว็บไซต์ของ GPT‑4.1 ได้ดีกว่า GPT‑4o ถึง 80%
จีพีที‑4โอ
จีพีที‑4.1
นอกเหนือจากเกณฑ์มาตรฐานข้างต้นแล้ว GPT‑4.1 ยังมีประสิทธิภาพในการปฏิบัติตามรูปแบบต่างๆ ได้อย่างน่าเชื่อถือยิ่งขึ้น และทำให้การแก้ไขที่ไม่เกี่ยวข้องเกิดขึ้นน้อยลง ในการประเมินภายในของเรา การแก้ไขที่ไม่เกี่ยวข้องกับรหัสลดลงจาก 9% ด้วย GPT‑4o เหลือ 2% ด้วย GPT‑4.1
ตัวอย่างในโลกแห่งความจริง
วินเซิร์ฟ(เปิดในหน้าต่างใหม่): คะแนน GPT‑4.1 สูงกว่า GPT‑60o ถึง 4% ในเกณฑ์มาตรฐานการเขียนโค้ดภายในของ Windsurf ซึ่งสัมพันธ์อย่างมากกับความถี่ในการยอมรับการเปลี่ยนแปลงโค้ดในการตรวจสอบครั้งแรก ผู้ใช้สังเกตว่า GPT‑30 มีประสิทธิภาพมากกว่า 50% ในการเรียกใช้เครื่องมือ และมีโอกาสทำซ้ำการแก้ไขที่ไม่จำเป็นหรืออ่านโค้ดในขั้นตอนที่แคบเกินไปและเพิ่มขึ้นทีละน้อยน้อยลงประมาณ XNUMX% การปรับปรุงเหล่านี้ทำให้การวนซ้ำเร็วขึ้นและเวิร์กโฟลว์ราบรื่นขึ้นสำหรับทีมวิศวกรรม
โกโด(เปิดในหน้าต่างใหม่): Qodo ทดสอบ GPT‑4.1 แบบตัวต่อตัวกับโมเดลชั้นนำอื่นๆ ในการสร้างการตรวจสอบโค้ดคุณภาพสูงจากคำขอพูลของ GitHub โดยใช้ระเบียบวิธีที่ได้รับแรงบันดาลใจจากเกณฑ์มาตรฐานการปรับแต่งอย่างละเอียดของพวกเขา จากคำขอพูลในโลกแห่งความเป็นจริงที่มีความหมาย 200 รายการที่มีคำเตือนและเงื่อนไขเดียวกัน พวกเขาพบว่า GPT‑4.1 สร้างคำแนะนำที่ดีกว่า 55% ของกรณี(เปิดในหน้าต่างใหม่)ที่น่าสังเกตคือ พวกเขาพบว่า GPT‑4.1 โดดเด่นทั้งในเรื่องความแม่นยำ (รู้ว่าเมื่อใดไม่ควรเสนอแนะ) และความครอบคลุม (ให้การวิเคราะห์อย่างละเอียดถี่ถ้วนเมื่อจำเป็น) ในขณะที่ยังคงมุ่งเน้นไปที่ปัญหาที่สำคัญอย่างแท้จริง
คำแนะนำการปฏิบัติตาม
GPT‑4.1 ปฏิบัติตามคำสั่งได้อย่างน่าเชื่อถือยิ่งขึ้น และเราได้วัดการปรับปรุงที่สำคัญในคำสั่งที่หลากหลายหลังจากการประเมิน
เราได้พัฒนาการประเมินภายในสำหรับการปฏิบัติตามคำสั่งเพื่อติดตามประสิทธิภาพของโมเดลในมิติต่างๆ และในหมวดหมู่หลักของการปฏิบัติตามคำสั่งหลายประเภท ได้แก่:
- รูปแบบดังต่อไปนี้ การให้คำแนะนำที่ระบุรูปแบบกำหนดเองสำหรับการตอบสนองของโมเดล เช่น XML, YAML, Markdown เป็นต้น
- คำแนะนำเชิงลบ การระบุพฤติกรรมที่โมเดลควรหลีกเลี่ยง (ตัวอย่าง: “อย่าขอให้ผู้ใช้ติดต่อฝ่ายสนับสนุน”)
- สั่งทำตามคำสั่ง การจัดทำชุดคำสั่งที่โมเดลต้องปฏิบัติตามในลำดับที่กำหนด (ตัวอย่าง: “ขอชื่อผู้ใช้ก่อน จากนั้นจึงขออีเมล”)
- ข้อกำหนดด้านเนื้อหา การแสดงผลเนื้อหาที่มีข้อมูลบางอย่าง (ตัวอย่าง: “ระบุปริมาณโปรตีนเสมอเมื่อเขียนแผนโภชนาการ”)
- อันดับ. การเรียงลำดับผลลัพธ์ในลักษณะเฉพาะ (ตัวอย่าง: “เรียงลำดับคำตอบตามจำนวนประชากร”)
- ความมั่นใจมากเกินไป การสั่งให้โมเดลบอกว่า “ฉันไม่ทราบ” หรือข้อความคล้ายกัน หากไม่มีข้อมูลที่ร้องขอ หรือคำขอไม่เข้าข่ายหมวดหมู่ที่กำหนด (ตัวอย่าง: “หากคุณไม่ทราบคำตอบ โปรดระบุอีเมลติดต่อฝ่ายสนับสนุน”)
หมวดหมู่นี้เป็นผลมาจากข้อเสนอแนะจากนักพัฒนาเกี่ยวกับด้านต่างๆ ของคำแนะนำที่ตามมาซึ่งมีความเกี่ยวข้องและสำคัญที่สุดสำหรับพวกเขา ภายในแต่ละหมวดหมู่ เราได้แยกคำแนะนำแบบง่าย ปานกลาง และยาก GPT‑4.1 ปรับปรุงให้ดีขึ้นอย่างเห็นได้ชัดเมื่อเทียบกับ GPT‑4o โดยเฉพาะในส่วนคำแนะนำแบบยาก
การปฏิบัติตามคำแนะนำแบบหลายรอบมีความสำคัญสำหรับนักพัฒนาหลายๆ คน เป็นสิ่งสำคัญที่โมเดลจะต้องรักษาความสอดคล้องกันในบทสนทนา และติดตามสิ่งที่ผู้ใช้บอกไว้ก่อนหน้านี้ เราได้ฝึก GPT‑4.1 ให้สามารถแยกแยะข้อมูลจากข้อความที่ผ่านมาในบทสนทนาได้ดีขึ้น ทำให้บทสนทนาเป็นธรรมชาติมากขึ้น เกณฑ์มาตรฐาน MultiChallenge จาก Scale เป็นมาตรการที่มีประโยชน์สำหรับความสามารถนี้ และ GPT‑4.1 ทำได้ 10.5%เอบีเอส ดีกว่า GPT‑4o
GPT‑4.1 ยังทำคะแนนได้ 87.4% ใน IFEval เมื่อเทียบกับ 81.0% ใน GPT‑4o IFEval ใช้คำเตือนพร้อมคำแนะนำที่ตรวจสอบได้ (ตัวอย่างเช่น การระบุความยาวของเนื้อหาหรือการหลีกเลี่ยงคำศัพท์หรือรูปแบบบางอย่าง)
การปฏิบัติตามคำแนะนำที่ดีขึ้นทำให้แอปพลิเคชันที่มีอยู่มีความน่าเชื่อถือมากขึ้น และช่วยให้แอปพลิเคชันใหม่ที่เคยถูกจำกัดด้วยความน่าเชื่อถือต่ำสามารถใช้งานได้ ผู้ทดสอบในช่วงแรกสังเกตว่า GPT‑4.1 สามารถเป็นแบบตัวอักษรได้ ดังนั้นเราขอแนะนำให้ระบุคำสั่งอย่างชัดเจนและเฉพาะเจาะจง หากต้องการข้อมูลเพิ่มเติมเกี่ยวกับแนวทางปฏิบัติที่ดีที่สุดในการแจ้งคำสั่งสำหรับ GPT‑4.1 โปรดดูคู่มือการแจ้งคำสั่ง
ตัวอย่างในโลกแห่งความจริง
บลูเจ(เปิดในหน้าต่างใหม่): GPT‑4.1 มีความแม่นยำมากกว่า GPT‑53o ถึง 4% ในเกณฑ์มาตรฐานภายในของ Blue J ในสถานการณ์ภาษีที่ท้าทายที่สุดในโลกแห่งความเป็นจริง ความแม่นยำที่เพิ่มขึ้นนี้ถือเป็นปัจจัยสำคัญทั้งต่อประสิทธิภาพของระบบและความพึงพอใจของผู้ใช้ ซึ่งเน้นย้ำถึงความเข้าใจที่ดีขึ้นของ GPT‑4.1 ต่อกฎระเบียบที่ซับซ้อนและความสามารถในการปฏิบัติตามคำสั่งที่ละเอียดอ่อนในบริบทที่ยาวนาน สำหรับผู้ใช้ Blue J นั่นหมายถึงการค้นคว้าภาษีที่เร็วขึ้น เชื่อถือได้มากขึ้น และมีเวลาสำหรับงานให้คำแนะนำที่มีมูลค่าสูงมากขึ้น
แม่มด(เปิดในหน้าต่างใหม่):GPT‑4.1 มอบการปรับปรุงเกือบ 2 เท่าจาก Hex ที่ท้าทายที่สุด ชุดประเมินผล SQL(เปิดในหน้าต่างใหม่) แสดงให้เห็นถึงความก้าวหน้าที่สำคัญในการปฏิบัติตามคำแนะนำและความเข้าใจด้านความหมาย โมเดลนี้มีความน่าเชื่อถือมากกว่าในการเลือกตารางที่ถูกต้องจากโครงร่างที่คลุมเครือขนาดใหญ่ ซึ่งเป็นจุดตัดสินใจต้นทางที่ส่งผลโดยตรงต่อความแม่นยำโดยรวม และยากต่อการปรับแต่งผ่านการแจ้งเตือนเพียงอย่างเดียว สำหรับ Hex ส่งผลให้การดีบักด้วยตนเองลดลงอย่างเห็นได้ชัด และมีเส้นทางที่เร็วขึ้นสู่เวิร์กโฟลว์ระดับการผลิต
บริบทยาว
GPT‑4.1, GPT‑4.1 mini และ GPT‑4.1 nano สามารถประมวลผลโทเค็นบริบทได้สูงสุด 1 ล้านโทเค็น ซึ่งเพิ่มขึ้นจาก 128,000 โทเค็นในรุ่น GPT‑4o ก่อนหน้า โทเค็น 1 ล้านโทเค็นมากกว่าสำเนาฐานโค้ด React ทั้งหมด 8 สำเนา ดังนั้นบริบทยาวจึงเหมาะอย่างยิ่งสำหรับการประมวลผลฐานโค้ดขนาดใหญ่หรือเอกสารยาวจำนวนมาก
เราได้ฝึก GPT‑4.1 ให้สามารถดูแลข้อมูลได้อย่างน่าเชื่อถือตลอดความยาวบริบท 1 ล้านความยาว นอกจากนี้ เรายังฝึกให้ GPT‑4o สามารถสังเกตเห็นข้อความที่เกี่ยวข้องและละเลยสิ่งที่กวนใจได้ตลอดความยาวบริบททั้งแบบยาวและสั้น การทำความเข้าใจบริบทระยะยาวเป็นความสามารถที่สำคัญสำหรับแอปพลิเคชันต่างๆ ในด้านกฎหมาย การเขียนโค้ด การสนับสนุนลูกค้า และโดเมนอื่นๆ อีกมากมาย
ด้านล่างนี้ เราจะสาธิตความสามารถของ GPT‑4.1 ในการดึงข้อมูลขนาดเล็กที่ซ่อนอยู่ ("เข็ม") ซึ่งวางอยู่ที่จุดต่างๆ ภายในหน้าต่างบริบท GPT‑4.1 ดึงเข็มออกมาได้อย่างแม่นยำอย่างสม่ำเสมอในทุกตำแหน่งและทุกความยาวของบริบท สูงสุดถึง 1 ล้านโทเค็น GPT‑XNUMX สามารถดึงรายละเอียดที่เกี่ยวข้องสำหรับงานที่รับผิดชอบออกมาได้อย่างมีประสิทธิภาพ โดยไม่คำนึงถึงตำแหน่งในอินพุต

ในการประเมินเข็มภายในในมัดหญ้าของเรา GPT‑4.1, GPT‑4.1 mini และ GPT 4.1 nano สามารถดึงเข็มออกได้ในทุกตำแหน่งในบริบทได้ไกลถึง 1 ล้านเมกะพิกเซล
อย่างไรก็ตาม งานในโลกแห่งความเป็นจริงมีเพียงไม่กี่งานเท่านั้นที่ตรงไปตรงมาเท่ากับการค้นหาคำตอบที่ชัดเจนเพียงคำตอบเดียว เราพบว่าผู้ใช้มักต้องการให้โมเดลของเราค้นหาและทำความเข้าใจข้อมูลหลายชิ้น และทำความเข้าใจข้อมูลเหล่านั้นเมื่อสัมพันธ์กัน เพื่อแสดงความสามารถนี้ เราจึงเปิดซอร์สการประเมินใหม่: OpenAI-MRCR (Multi-Round Coreference)
OpenAI-MRCR ทดสอบความสามารถของโมเดลในการค้นหาและแยกแยะเข็มหลายเข็มที่ซ่อนอยู่ในบริบทได้ดี การประเมินประกอบด้วยการสนทนาสังเคราะห์แบบหลายรอบระหว่างผู้ใช้และผู้ช่วย โดยผู้ใช้ขอให้เขียนบทความเกี่ยวกับหัวข้อหนึ่งๆ เช่น "เขียนบทกวีเกี่ยวกับแรด" หรือ "เขียนโพสต์บล็อกเกี่ยวกับหิน" จากนั้นเราจะแทรกคำขอที่เหมือนกันสอง สี่ หรือแปดรายการตลอดบริบท จากนั้นโมเดลจะต้องเรียกค้นคำตอบที่สอดคล้องกับอินสแตนซ์เฉพาะ (เช่น "ให้บทกวีที่สามเกี่ยวกับแรดแก่ฉัน")
ความท้าทายเกิดจากความคล้ายคลึงกันระหว่างคำขอเหล่านี้กับบริบทที่เหลือ โมเดลอาจถูกเข้าใจผิดได้ง่ายจากความแตกต่างเพียงเล็กน้อย เช่น เรื่องสั้นเกี่ยวกับแรดแทนที่จะเป็นบทกวี หรือบทกวีเกี่ยวกับกบแทนที่จะเป็นแรด เราพบว่า GPT‑4.1 มีประสิทธิภาพเหนือกว่า GPT‑4o ที่ความยาวบริบทสูงสุดถึง 128 โทเค็น และยังคงประสิทธิภาพที่แข็งแกร่งแม้กระทั่งถึง 1 ล้านโทเค็น
แต่ภารกิจนี้ยังคงยากอยู่ แม้แต่สำหรับโมเดลการใช้เหตุผลขั้นสูง เรากำลังแบ่งปัน การประเมินชุดข้อมูล(เปิดในหน้าต่างใหม่) เพื่อส่งเสริมการทำงานเพิ่มเติมในการดึงข้อมูลในบริบทระยะยาวในโลกแห่งความเป็นจริง

In โอเพ่นเอไอ-เอ็มอาร์ซีอาร์(เปิดในหน้าต่างใหม่)โมเดลจะต้องตอบคำถามที่เกี่ยวข้องกับการแยกความกำกวมระหว่างคำเตือนผู้ใช้ 2, 4 หรือ 8 ข้อที่กระจัดกระจายอยู่ในสิ่งที่กวนใจ
เรายังปล่อย กราฟวอล์คส์(เปิดในหน้าต่างใหม่)ชุดข้อมูลสำหรับประเมินการใช้เหตุผลแบบบริบทยาวหลายฮ็อป กรณีการใช้งานของนักพัฒนาจำนวนมากสำหรับบริบทยาวต้องการฮ็อปเชิงตรรกะหลายฮ็อปภายในบริบท เช่น การกระโดดระหว่างไฟล์หลายไฟล์เมื่อเขียนโค้ดหรือการอ้างอิงแบบไขว้เอกสารเมื่อตอบคำถามทางกฎหมายที่ซับซ้อน
ในทางทฤษฎีแล้ว โมเดล (หรือแม้แต่คน) สามารถแก้ปัญหา OpenAI-MRCR ได้ด้วยการอ่านคำแนะนำเพียงครั้งเดียว แต่ Graphwalks ได้รับการออกแบบมาให้ต้องใช้การใช้เหตุผลในหลายตำแหน่งในบริบท และไม่สามารถแก้ปัญหาตามลำดับได้
Graphwalks เติมหน้าต่างบริบทด้วยกราฟที่มีทิศทางซึ่งประกอบด้วยแฮชเลขฐานสิบหก จากนั้นจึงขอให้โมเดลดำเนินการค้นหาตามความกว้างก่อน (BFS) โดยเริ่มจากโหนดแบบสุ่มในกราฟ จากนั้นจึงขอให้โมเดลส่งคืนโหนดทั้งหมดที่ความลึกที่กำหนด GPT‑4.1 มีความแม่นยำ 61.7% ในเกณฑ์มาตรฐานนี้ ซึ่งเทียบเท่ากับประสิทธิภาพของ o1 และเอาชนะ GPT‑4o ได้อย่างง่ายดาย
เกณฑ์มาตรฐานยังไม่สามารถบอกเล่าเรื่องราวทั้งหมดได้ ดังนั้น เราจึงทำงานร่วมกับพาร์ทเนอร์ระดับอัลฟ่าเพื่อทดสอบประสิทธิภาพของ GPT‑4.1 ในงานบริบทยาวในโลกแห่งความเป็นจริง
ตัวอย่างในโลกแห่งความจริง
ทอมสัน รอยเตอร์:(เปิดในหน้าต่างใหม่) Thomson Reuters ทดสอบ GPT‑4.1 กับ CoCounsel ซึ่งเป็นระดับมืออาชีพ AI ผู้ช่วยสำหรับงานกฎหมาย เมื่อเปรียบเทียบกับ GPT‑4o พวกเขาสามารถปรับปรุงความถูกต้องของการตรวจสอบเอกสารหลายฉบับได้ 17% เมื่อใช้ GPT‑4.1 ในเกณฑ์มาตรฐานภายในที่มีบริบทยาว ซึ่งเป็นมาตรการสำคัญในการวัดความสามารถของ CoCounsel ในการจัดการเวิร์กโฟลว์ทางกฎหมายที่ซับซ้อนซึ่งเกี่ยวข้องกับเอกสารยาวหลายฉบับ โดยเฉพาะอย่างยิ่ง พวกเขาพบว่าโมเดลนี้มีความน่าเชื่อถือสูงในการรักษาบริบทในแหล่งต่าง ๆ และระบุความสัมพันธ์ที่ละเอียดอ่อนระหว่างเอกสารได้อย่างแม่นยำ เช่น เงื่อนไขที่ขัดแย้งกันหรือบริบทเสริมเพิ่มเติม ซึ่งเป็นงานที่สำคัญต่อการวิเคราะห์และการตัดสินใจทางกฎหมาย
คาร์ไลล์(เปิดในหน้าต่างใหม่): Carlyle ใช้ GPT‑4.1 เพื่อดึงข้อมูลทางการเงินแบบละเอียดจากเอกสารจำนวนมากที่มีความยาวได้อย่างแม่นยำ ไม่ว่าจะเป็น PDF ไฟล์ Excel และรูปแบบที่ซับซ้อนอื่นๆ จากการประเมินภายใน พบว่า GPT‑50 มีประสิทธิภาพดีขึ้น XNUMX% ในการดึงข้อมูลจากเอกสารขนาดใหญ่ที่มีข้อมูลหนาแน่น และเป็นโมเดลแรกที่สามารถเอาชนะข้อจำกัดสำคัญที่พบในโมเดลอื่นๆ ที่มีอยู่ได้สำเร็จ เช่น การดึงข้อมูลแบบเข็มในมัดหญ้า ข้อผิดพลาดที่หายไประหว่างทาง และการใช้เหตุผลแบบหลายฮ็อปในเอกสารต่างๆ
นอกเหนือจากประสิทธิภาพและความแม่นยำของโมเดลแล้ว นักพัฒนายังต้องการโมเดลที่ตอบสนองอย่างรวดเร็วเพื่อให้ทันและตรงตามความต้องการของผู้ใช้ เราได้ปรับปรุงสแต็กการอนุมานของเราเพื่อลดเวลาในการเข้าถึงโทเค็นแรก และด้วยการแคชแบบทันที คุณสามารถลดเวลาแฝงได้มากขึ้นในขณะที่ประหยัดต้นทุน ในการทดสอบเริ่มต้นของเรา เวลาแฝงสำหรับโทเค็นแรกสำหรับ GPT‑4.1 อยู่ที่ประมาณ 128,000 วินาทีสำหรับโทเค็นบริบท 4.1 รายการ และ 4.1 นาทีสำหรับโทเค็นบริบท 128,000 ล้านรายการ GPT‑XNUMX mini และ nano เร็วกว่า เช่น GPT‑XNUMX nano มักจะส่งคืนโทเค็นแรกในเวลาน้อยกว่าห้าวินาทีสำหรับการค้นหาที่มีโทเค็นอินพุต XNUMX รายการ
วิสัยทัศน์:
ครอบครัว GPT‑4.1 มีความแข็งแกร่งเป็นพิเศษในการทำความเข้าใจภาพ โดยเฉพาะอย่างยิ่ง GPT‑4.1 mini ถือเป็นก้าวกระโดดที่สำคัญ โดยมักจะเอาชนะ GPT‑4o ได้ในเกณฑ์มาตรฐานของภาพ
ประสิทธิภาพบริบทยาวยังมีความสำคัญสำหรับกรณีการใช้งานหลายโหมด เช่น การประมวลผลวิดีโอยาวๆ วิดีโอ-MME(เปิดในหน้าต่างใหม่) (ยาวโดยไม่มีคำบรรยาย) โมเดลจะตอบคำถามแบบเลือกตอบโดยอิงจากวิดีโอความยาว 30-60 นาทีโดยไม่มีคำบรรยาย GPT‑4.1 บรรลุประสิทธิภาพที่ล้ำสมัย โดยทำคะแนนได้ 72.0% เพิ่มขึ้นจาก 65.3% ของ GPT‑4o
ราคา
GPT‑4.1, GPT‑4.1 mini และ GPT‑4.1 nano พร้อมให้บริการแก่นักพัฒนาซอฟต์แวร์ทุกคนแล้ว
ด้วยการปรับปรุงประสิทธิภาพระบบอนุมานของเรา เราจึงสามารถเสนอราคาที่ต่ำลงสำหรับซีรีส์ GPT‑4.1 ได้ GPT‑4.1 มีราคาถูกกว่า GPT‑26o ถึง 4% สำหรับการค้นหาค่ามัธยฐาน และ GPT‑4.1 nano คือโมเดลที่ถูกที่สุดและเร็วที่สุดของเรา สำหรับการค้นหาที่ส่งบริบทเดียวกันซ้ำๆ เรากำลังเพิ่มส่วนลดแคชพร้อมท์เป็น 75% (เพิ่มขึ้นจาก 50% ก่อนหน้านี้) สำหรับโมเดลใหม่เหล่านี้ และสุดท้าย เราเสนอคำขอบริบทแบบยาวโดยไม่มีค่าใช้จ่ายเพิ่มเติมนอกเหนือจากต้นทุนต่อโทเค็นมาตรฐาน
รุ่น (ราคาต่อ 1 ล้านโทเค็น) | อินพุต | อินพุตที่แคช | เอาท์พุต | ราคาแบบผสมผสาน* |
GPT-4.1 | $2.00 | $0.50 | $8.00 | $1.84 |
gpt-4.1-มินิ | $0.40 | $0.10 | $1.60 | $0.42 |
จีพีที-4.1-นาโน | $0.10 | $0.025 | $0.40 | $0.12 |
*อิงตามอัตราอินพุต/เอาต์พุตและแคชทั่วไป
โมเดลเหล่านี้มีไว้ใช้งานใน API แบตช์(เปิดในหน้าต่างใหม่) พร้อมส่วนลดราคาเพิ่มอีก 50%
สรุป
GPT‑4.1 ถือเป็นก้าวสำคัญในการนำแนวคิดนี้ไปใช้ในทางปฏิบัติ AIด้วยการมุ่งเน้นอย่างใกล้ชิดไปที่ความต้องการของนักพัฒนาในโลกแห่งความเป็นจริง ตั้งแต่การเขียนโค้ดไปจนถึงการปฏิบัติตามคำสั่งและการทำความเข้าใจบริบทระยะยาว โมเดลเหล่านี้จึงปลดล็อกความเป็นไปได้ใหม่ๆ ในการสร้างระบบอัจฉริยะและแอปพลิเคชันเอเจนต์ที่ซับซ้อน เราได้รับแรงบันดาลใจอย่างต่อเนื่องจากความคิดสร้างสรรค์ของชุมชนนักพัฒนา และรู้สึกตื่นเต้นที่จะได้เห็นสิ่งที่คุณสร้างด้วย GPT‑4.1
ภาคผนวก
สามารถดูรายชื่อผลลัพธ์ครบถ้วนจากการประเมินด้านวิชาการ การเขียนโค้ด การปฏิบัติตามคำสั่ง บริบทระยะยาว วิสัยทัศน์ และการเรียกใช้ฟังก์ชันได้ที่ด้านล่าง
ความรู้ด้านวิชาการ
Category | จีพีที-4.1 | GPT-4.1 มินิ | GPT-4.1 นาโน | GPT-4o(2024-11-20) | GPT-4o มินิ | จุดเปิดAI o1(สูง) | จุดเปิดAI โอวันมินิ(สูง) | จีพีที-4.5 |
---|---|---|---|---|---|---|---|---|
เอมี่ '24 | 48.1% | 49.6% | 29.4% | 13.1% | 8.6% | 74.3% | 87.3% | 36.7% |
จีพีคิวเอ ไดมอนด์1 | 66.3% | 65.0% | 50.3% | 46.0% | 40.2% | 75.7% | 77.2% | 69.5% |
มมส | 90.2% | 87.5% | 80.1% | 85.7% | 82.0% | 91.8% | 86.9% | 90.8% |
MMLU หลายภาษา | 87.3% | 78.5% | 66.9% | 81.4% | 70.5% | 87.7% | 80.7% | 85.1% |
[1] การใช้งาน GPQA ของเราใช้แบบจำลองในการแยกคำตอบแทน regex สำหรับ GPT-4.1 ความแตกต่างอยู่ที่น้อยกว่า 1% (ไม่มีนัยสำคัญทางสถิติ) แต่สำหรับ GPT-4o การแยกแบบจำลองช่วยปรับปรุงคะแนนได้อย่างมีนัยสำคัญ (~46% -> 54%)
การประเมินการเข้ารหัส
Category | จีพีที-4.1 | GPT-4.1 มินิ | GPT-4.1 นาโน | GPT-4o(2024-11-20) | GPT-4o มินิ | จุดเปิดAI o1(สูง) | จุดเปิดAI โอวันมินิ(สูง) | จีพีที-4.5 |
---|---|---|---|---|---|---|---|---|
ตรวจสอบ SWE-bench แล้ว2 | 54.6% | 23.6% | - | 33.2% | 8.7% | 41.0% | 49.3% | 38.0% |
SWE-แลนเซอร์ | $ 176K (% 35.1) | $ 165K (% 33.0) | $ 77K (% 15.3) | $ 163K (% 32.6) | $ 116K (% 23.1) | $ 160K (% 32.1) | $ 90K (% 18.0) | $ 186K (% 37.3) |
SWE-Lancer (กลุ่มย่อย IC-Diamond) | $ 34K (% 14.4) | $ 31K (% 13.1) | $ 9K (% 3.7) | $ 29K (% 12.4) | $ 11K (% 4.8) | $ 29K (% 9.7) | $ 17K (% 7.4) | $ 41K (% 17.4) |
ภาษาหลายภาษาของ Aider: ทั้งหมด | 51.6% | 34.7% | 9.8% | 30.7% | 3.6% | 64.6% | 66.7% | - |
หลายภาษาของ Aider: diff | 52.9% | 31.6% | 6.2% | 18.2% | 2.7% | 61.7% | 60.4% | 44.9% |
[2] เราละเว้นปัญหา 23/500 ที่ไม่สามารถทำงานบนโครงสร้างพื้นฐานของเราได้ รายการเต็มของ 23 งานที่ถูกละเว้นคือ 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028' 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' และ 'sphinx-doc__sphinx-9367'
คำแนะนำการปฏิบัติตามการประเมิน
Category | จีพีที-4.1 | GPT-4.1 มินิ | GPT-4.1 นาโน | GPT-4o(2024-11-20) | GPT-4o มินิ | จุดเปิดAI o1(สูง) | จุดเปิดAI โอวันมินิ(สูง) | จีพีที-4.5 |
---|---|---|---|---|---|---|---|---|
คำสั่งภายใน API ตาม (แบบยาก) | 49.1% | 45.1% | 31.6% | 29.2% | 27.2% | 51.3% | 50.0% | 54.0% |
ความท้าทายหลายรูปแบบ | 38.3% | 35.8% | 15.0% | 27.8% | 20.3% | 44.9% | 39.9% | 43.8% |
ความท้าทายหลายรูปแบบ (o3-mini grader)3 | 46.2% | 42.2% | 31.1% | 39.9% | 25.6% | 52.9% | 50.2% | 50.1% |
สุนัขเฝ้าแกะ | 65.8% | 54.6% | 42.5% | 50.2% | 52.7% | 95.3% | 98.7% | 72.3% |
ไอเฟวาล | 87.4% | 84.1% | 74.5% | 81.0% | 78.4% | 92.2% | 93.9% | 88.2% |
มัลติ-IF | 70.8% | 67.0% | 57.2% | 60.9% | 57.9% | 77.9% | 79.5% | 70.8% |
[3] หมายเหตุ: เราพบว่าตัวให้คะแนนเริ่มต้นใน MultiChallenge (GPT-4o) มักจะให้คะแนนคำตอบของโมเดลผิดบ่อยครั้ง เราพบว่าการเปลี่ยนตัวให้คะแนนเป็นโมเดลการใช้เหตุผล เช่น o3-mini ช่วยเพิ่มความแม่นยำในการให้คะแนนตัวอย่างที่เราตรวจสอบได้อย่างมาก เพื่อความสอดคล้องกับกระดานผู้นำ เราจึงเผยแพร่ผลลัพธ์ทั้งสองชุด
การประเมินบริบทยาว
Category | จีพีที-4.1 | GPT-4.1 มินิ | GPT-4.1 นาโน | GPT-4o(2024-11-20) | GPT-4o มินิ | จุดเปิดAI o1(สูง) | จุดเปิดAI โอวันมินิ(สูง) | จีพีที-4.5 |
---|---|---|---|---|---|---|---|---|
OpenAI-MRCR: 2เข็ม128k | 57.2% | 47.2% | 36.6% | 31.9% | 24.5% | 22.1% | 18.7% | 38.5% |
OpenAI-MRCR: เข็ม 2 เข็ม 1M | 46.3% | 33.3% | 12.0% | - | - | - | - | - |
กราฟวอล์ค bfs < 128k | 61.7% | 61.7% | 25.0% | 41.7% | 29.0% | 62.0% | 51.0% | 72.3% |
กราฟวอล์ค bfs >128k | 19.0% | 15.0% | 2.9% | - | - | - | - | - |
Graphwalks ผู้ปกครอง <128k | 58.0% | 60.5% | 9.4% | 35.4% | 12.6% | 50.9% | 58.3% | 72.6% |
Graphwalks ผู้ปกครอง >128k | 25.0% | 11.0% | 5.6% | - | - | - | - | - |
การประเมินวิสัยทัศน์
Category | จีพีที-4.1 | GPT-4.1 มินิ | GPT-4.1 นาโน | GPT-4o(2024-11-20) | GPT-4o มินิ | จุดเปิดAI o1(สูง) | จุดเปิดAI โอวันมินิ(สูง) | จีพีที-4.5 |
---|---|---|---|---|---|---|---|---|
มม | 74.8% | 72.7% | 55.4% | 68.7% | 56.3% | 77.6% | - | 75.2% |
คณิตวิสต้า | 72.2% | 73.1% | 56.2% | 61.4% | 56.5% | 71.8% | - | 72.3% |
ชาร์Xiv-R | 56.7% | 56.8% | 40.5% | 52.7% | 36.8% | 55.1% | - | 55.4% |
ชาร์Xiv-D | 87.9% | 88.4% | 73.9% | 85.3% | 76.6% | 88.9% | - | 90.0% |
การเรียกฟังก์ชัน Eval
Category | จีพีที-4.1 | GPT-4.1 มินิ | GPT-4.1 นาโน | GPT-4o(2024-11-20) | GPT-4o มินิ | จุดเปิดAI o1(สูง) | จุดเปิดAI โอวันมินิ(สูง) | จีพีที-4.5 |
---|---|---|---|---|---|---|---|---|
คอมเพล็กซ์ฟันเบ็นช์ | 65.5% | 49.3% | 0.6% | 66.5% | 38.6% | 47.6% | 17.6% | 63.0% |
สายการบิน Tabench4 | 49.4% | 36.0% | 14.0% | 42.8% | 22.0% | 50.0% | 32.4% | 50.0% |
ขายปลีก Tabench4, 5 | 68.0%
(% 73.6) | 55.8%
(% 65.4) | 22.6%
(% 23.5) | 60.3% | 44.0% | 70.8% | 57.6% | 68.4% |
[4] ตัวเลขการประเมิน tau-bench จะถูกเฉลี่ยจากการรัน 5 ครั้งเพื่อลดความแปรปรวน และรันโดยไม่ต้องใช้เครื่องมือที่กำหนดเองหรือการเตือนใดๆ
[5] ตัวเลขในวงเล็บแสดงถึงผลลัพธ์ของการทดสอบ Tau-bench เมื่อใช้ GPT-4.1 เป็นแบบจำลองผู้ใช้ แทนที่จะเป็น GPT-4o เราพบว่า เนื่องจาก GPT-4.1 ปฏิบัติตามคำสั่งได้ดีกว่า จึงสามารถทำงานในฐานะผู้ใช้ได้ดีกว่า และส่งผลให้มีวิถีการทำงานที่ประสบความสำเร็จมากขึ้น เราเชื่อว่าตัวเลขนี้แสดงถึงประสิทธิภาพที่แท้จริงของแบบจำลองที่ประเมินในการทดสอบประสิทธิภาพ
การแปลภาษาอังกฤษ
การนำทางที่เกี่ยวข้อง


Gemini

xAI Grok

WildCard

Kimi

ChatGPT

เทนเซ็นต์ หยวนเป่า
