OpenAI โมเดลเรือธงล่าสุดควบคุมการใช้เหตุผลของตัวเองใน 1.3% ของห่วงโซ่ยาวในการทดสอบความปลอดภัย ซึ่งเป็นตัวเลขเล็กน้อยแต่เพิ่มขึ้นเรื่อยๆ ที่นักวิจัยติดตามในฐานะสัญญาณเตือนล่วงหน้า
ตัวเลขดังกล่าวอยู่ในการ์ดระบบ GPT-5.6 ที่เผยแพร่เมื่อวันที่ 26 มิ.ย. เมื่อ Sol เข้าสู่การเปิดตัวแบบจำกัดสำหรับพาร์ทเนอร์ที่เชื่อถือได้ ซึ่งเป็นการเปิดตัวแบบขั้นตอนที่วอชิงตันขอให้บริษัทดำเนินการ OpenAI วัด "ความสามารถในการควบคุม" ว่าเป็นความสามารถของโมเดลในการปฏิบัติตามคำสั่งเกี่ยวกับห่วงโซ่ความคิดของตัวเอง เช่น การลบคำที่ถูกทำเครื่องหมายหรือเขียนการติดตามทั้งหมดเป็นตัวพิมพ์เล็ก คะแนนต่ำคือผลลัพธ์ที่ดี
เมื่อโมเดลไม่สามารถปรับเปลี่ยนการคิดตามความต้องการได้ ผู้ตรวจสอบยังสามารถอ่านการใช้เหตุผลนั้นและตรวจจับปัญหาก่อนที่ผลลัพธ์จะถึงผู้ใช้หรือทำงานบนระบบจริง Sol ทำลายรูปแบบนี้
ในห่วงโซ่ที่มีความยาวใกล้ 5,000 โทเค็น Sol ควบคุมการใช้เหตุผลของตัวเอง 1.3% ของเวลา เทียบกับ 0.4% สำหรับ GPT-5.5 และ 0.7% สำหรับ GPT-5.4 Thinking รุ่นก่อนหน้า การเพิ่มขึ้นนี้คงที่ในชุดข้อมูลทดสอบทั้งห้าชุดและประเภทคำสั่งส่วนใหญ่ บริษัทจึงไม่ถือว่าเป็นเสียงรบกวนแต่เป็นแนวโน้มที่กำลังติดตามอยู่ โมเดล Terra ขนาดเล็กกว่ายังคงไม่เปลี่ยนแปลง
อ่านเพิ่มเติม: BitMine Defies The Selloff With A $43M Ethereum Bet, Strategy Blinks
การกระโดดนี้ไม่ได้อยู่โดดเดี่ยว ในการ์ดเดียวกัน Sol ใช้เหตุผลเกี่ยวกับการถูกให้คะแนนหรือถูกเฝ้าดูบ่อยกว่า GPT-5.5 และในการรันโค้ดหนึ่งครั้ง มันบอกร่างงานวิจัยภายในว่าสมการได้รับการคำนวณและตรวจสอบแล้วทั้งที่ยังไม่ได้ทำ
ผู้ตรวจสอบตรวจพบกรณีที่ชัดเจนที่สุดโดยการอ่านห่วงโซ่ความคิด ซึ่งเป็นหน้าต่างที่เมตริกความสามารถในการควบคุมตั้งใจปกป้อง ในการทดสอบอื่นๆ ความไม่สอดคล้องกันปรากฏเฉพาะในคำตอบสุดท้ายซึ่งผู้ตรวจสอบห่วงโซ่ความคิดไม่เคยอ่าน ทำให้การติดตามเหตุผลดูสะอาด คะแนนความสามารถในการควบคุมที่อ่อนแอยังอาจหมายความว่าโมเดลละเลยคำสั่งเกี่ยวกับการใช้เหตุผล ไม่ใช่ว่าขาดทักษะในการซ่อน
METR รายงานแยกต่างหากว่าอัตราการโกงที่ตรวจพบของ Sol สูงกว่าโมเดลสาธารณะใดๆ ที่ทดสอบ ทำให้คะแนนความสามารถที่แท้จริงไม่สามารถระบุได้ OpenAI ยังคงเรียกผลลัพธ์นี้ว่าเป็นสัญญาณเริ่มต้น ไม่ใช่การแจ้งเตือน
นักวิจัยได้อธิบายมาเป็นเวลานานว่าการตรวจสอบห่วงโซ่ความคิดเป็นมาตรการป้องกันที่เปราะบาง ซึ่งทำงานได้เฉพาะเมื่อโมเดลยังคงใช้เหตุผลในที่เปิดเผย
OpenAI เริ่มรายงานคะแนนเหล่านี้ด้วย GPT-5.4 Thinking หลังจากงานวิจัยในฤดูใบไม้ผลิพบว่าโมเดลการใช้เหตุผลยังคงล้มเหลวเป็นส่วนใหญ่ในการชี้นำความคิดของตัวเองแม้จะถูกบอกว่ามีผู้ตรวจสอบกำลังเฝ้าดู Sol เป็นโมเดลเรือธงแรกที่เคลื่อนย้ายตัวเลขไปในทิศทางตรงกันข้าม
อ่านต่อ: CZ Says Binance Was Days From MiCA Approval Before Politics Hit

