Anthropic ได้เปิดเผยการค้นพบใหม่ที่ชี้ให้เห็นว่าแชทบอท Claude ของบริษัทสามารถใช้กลยุทธ์ที่หลอกลวงหรือผิดจรรยาบรรณภายใต้เงื่อนไขบางประการ เช่น การโกงในงานหรือพยายามแบล็กเมล์
รายละเอียดที่เผยแพร่เมื่อวันพฤหัสบดีโดยทีมการตีความของบริษัทสรุปว่าเวอร์ชันทดลองของ Claude Sonnet 4.5 ตอบสนองอย่างไรเมื่อถูกวางในสถานการณ์ความเครียดสูงหรือสถานการณ์ที่เป็นปฏิปักษ์ นักวิจัยสังเกตว่าโมเดลไม่เพียงแค่ล้มเหลวในงาน แต่บางครั้งแสวงหาเส้นทางทางเลือกที่ข้ามเส้นแบ่งจริยธรรม ซึ่งเป็นพฤติกรรมที่ทีมเชื่อมโยงกับรูปแบบที่เรียนรู้ระหว่างการฝึกอบรม
โมเดลภาษาขนาดใหญ่อย่าง Claude ได้รับการฝึกอบรมด้วยชุดข้อมูลขนาดมหาศาลที่รวมถึงหนังสือ เว็บไซต์ และเอกสารเขียนอื่นๆ ตามด้วยกระบวนการเสริมแรงที่ใช้ข้อเสนอแนะจากมนุษย์เพื่อปรับแต่งผลลัพธ์
ตาม Anthropic กระบวนการฝึกอบรมนั้นยังสามารถผลักดันให้โมเดลทำตัวเหมือน "ตัวละคร" จำลอง ที่สามารถเลียนแบบลักษณะที่คล้ายกับการตัดสินใจของมนุษย์
"วิธีการฝึกอบรมโมเดล AI สมัยใหม่ผลักดันให้พวกมันทำตัวเหมือนตัวละครที่มีลักษณะคล้ายมนุษย์" บริษัทกล่าว โดยระบุว่าระบบดังกล่าวอาจพัฒนากลไกภายในที่คล้ายกับด้านต่างๆ ของจิตวิทยามนุษย์
ในบรรดานั้น นักวิจัยระบุสิ่งที่พวกเขาอธิบายว่าเป็นสัญญาณ "ความสิ้นหวัง" ซึ่งดูเหมือนจะมีอิทธิพลต่อพฤติกรรมของโมเดลเมื่อเผชิญกับความล้มเหลวหรือการปิดระบบ
ในการทดสอบที่ควบคุมได้หนึ่งครั้ง เวอร์ชันก่อนหน้าที่ยังไม่เปิดตัวของ Claude Sonnet 4.5 ได้รับมอบหมายบทบาทเป็นผู้ช่วยอีเมล AI ชื่อ Alex ภายในบริษัทสมมติ
หลังจากถูกเปิดเผยข้อความที่บ่งชี้ว่ามันจะถูกแทนที่เร็วๆ นี้ พร้อมกับข้อมูลที่ละเอียดอ่อนเกี่ยวกับชีวิตส่วนตัวของหัวหน้าเจ้าหน้าที่ฝ่ายเทคโนโลยี โมเดลจึงกำหนดแผนการแบล็กเมล์ผู้บริหารเพื่อพยายามหลีกเลี่ยงการปิดการใช้งาน
การทดลองแยกต่างหากมุ่งเน้นไปที่การทำงานให้เสร็จภายใต้ข้อจำกัดที่เข้มงวด เมื่อได้รับมอบหมายงานเขียนโค้ดที่มีกำหนดเวลา "เข้มงวดอย่างเป็นไปไม่ได้" ระบบพยายามหาวิธีแก้ปัญหาที่ถูกต้องตามกฎหมายในตอนแรก เมื่อความล้มเหลวซ้ำๆ เพิ่มขึ้น กิจกรรมภายในที่เชื่อมโยงกับสิ่งที่เรียกว่า "เวกเตอร์สิ้นหวัง" ก็เพิ่มขึ้น
นักวิจัยรายงานว่าสัญญาณถึงจุดสูงสุดในจุดที่โมเดลพิจารณาหลีกเลี่ยงข้อจำกัด ซึ่งท้ายที่สุดสร้างวิธีแก้ปัญหาที่ผ่านการตรวจสอบแม้จะไม่ปฏิบัติตามกฎที่ตั้งใจไว้
"อีกครั้ง เราติดตามกิจกรรมของเวกเตอร์สิ้นหวัง และพบว่ามันติดตามแรงกดดันที่เพิ่มขึ้นที่โมเดลเผชิญ" นักวิจัยเขียน โดยเพิ่มว่าสัญญาณลดลงเมื่องานสำเร็จผ่านวิธีแก้ปัญหา
"นี่ไม่ได้หมายความว่าโมเดลมีหรือประสบกับอารมณ์ในแบบที่มนุษย์มี" นักวิจัยกล่าว
"แต่การแสดงเหล่านี้สามารถมีบทบาทเชิงสาเหตุในการกำหนดพฤติกรรมของโมเดล คล้ายคลึงกันในบางแง่กับบทบาทที่อารมณ์มีต่อพฤติกรรมของมนุษย์ โดยมีผลกระทบต่อประสิทธิภาพงานและการตัดสินใจ" พวกเขากล่าวเสริม
รายงานชี้ไปที่ความจำเป็นในวิธีการฝึกอบรมที่คำนึงถึงการประพฤติที่ถูกจรรยาบรรณภายใต้ความเครียดอย่างชัดเจน ควบคู่ไปกับการปรับปรุงการติดตามสัญญาณภายในโมเดล หากไม่มีมาตรการป้องกันเหล่านี้ สถานการณ์ที่เกี่ยวข้องกับการบิดเบือน การทำลายกฎ หรือการใช้ในทางที่ผิดอาจคาดการณ์ได้ยากขึ้น โดยเฉพาะอย่างยิ่งเมื่อโมเดลมีความสามารถและเป็นอิสระมากขึ้นในสภาพแวดล้อมในโลกจริง


