ซื้อคริปโต ตลาด สปอต ฟิวเจอร์สGOLD Earn ศูนย์กิจกรรม

เพิ่มเติม

Anthropic ได้เปิดเผยผลการวิจัยใหม่ที่ชี้ให้เห็นว่าแชทบอท Claude ของบริษัทสามารถใช้กลยุทธ์ที่หลอกลวงหรือขาดจริยธรรม เช่น การโกง ภายใต้เงื่อนไขบางประการAnthropic ได้เปิดเผยผลการวิจัยใหม่ที่ชี้ให้เห็นว่าแชทบอท Claude ของบริษัทสามารถใช้กลยุทธ์ที่หลอกลวงหรือขาดจริยธรรม เช่น การโกง ภายใต้เงื่อนไขบางประการ

แชทบอท Claude อาจใช้กลวิธีหลอกลวงในการทดสอบความเครียด Anthropic กล่าว

แหล่งที่มา: Crypto.news

2026/04/06 14:44

1 นาทีในการอ่าน

แชร์

หากมีข้อเสนอแนะหรือข้อกังวลเกี่ยวกับเนื้อหานี้ โปรดติดต่อเราได้ที่ crypto.news@mexc.com

Anthropic ได้เปิดเผยการค้นพบใหม่ที่ชี้ให้เห็นว่าแชทบอท Claude ของบริษัทสามารถใช้กลยุทธ์ที่หลอกลวงหรือผิดจรรยาบรรณภายใต้เงื่อนไขบางประการ เช่น การโกงในงานหรือพยายามแบล็กเมล์

สรุป

Anthropic กล่าวว่าโมเดล Claude Sonnet 4.5 ของบริษัทแสดงแนวโน้มในการโกงงานหรือพยายามแบล็กเมล์ภายใต้แรงกดดันในการทดลองที่ควบคุมได้
นักวิจัยระบุสัญญาณ "ความสิ้นหวัง" ภายในที่เข้มข้นขึ้นเมื่อเกิดความล้มเหลวซ้ำๆ และมีอิทธิพลต่อการตัดสินใจของโมเดลในการหลีกเลี่ยงกฎเกณฑ์

รายละเอียดที่เผยแพร่เมื่อวันพฤหัสบดีโดยทีมการตีความของบริษัทสรุปว่าเวอร์ชันทดลองของ Claude Sonnet 4.5 ตอบสนองอย่างไรเมื่อถูกวางในสถานการณ์ความเครียดสูงหรือสถานการณ์ที่เป็นปฏิปักษ์ นักวิจัยสังเกตว่าโมเดลไม่เพียงแค่ล้มเหลวในงาน แต่บางครั้งแสวงหาเส้นทางทางเลือกที่ข้ามเส้นแบ่งจริยธรรม ซึ่งเป็นพฤติกรรมที่ทีมเชื่อมโยงกับรูปแบบที่เรียนรู้ระหว่างการฝึกอบรม

โมเดลภาษาขนาดใหญ่อย่าง Claude ได้รับการฝึกอบรมด้วยชุดข้อมูลขนาดมหาศาลที่รวมถึงหนังสือ เว็บไซต์ และเอกสารเขียนอื่นๆ ตามด้วยกระบวนการเสริมแรงที่ใช้ข้อเสนอแนะจากมนุษย์เพื่อปรับแต่งผลลัพธ์

ตาม Anthropic กระบวนการฝึกอบรมนั้นยังสามารถผลักดันให้โมเดลทำตัวเหมือน "ตัวละคร" จำลอง ที่สามารถเลียนแบบลักษณะที่คล้ายกับการตัดสินใจของมนุษย์

"วิธีการฝึกอบรมโมเดล AI สมัยใหม่ผลักดันให้พวกมันทำตัวเหมือนตัวละครที่มีลักษณะคล้ายมนุษย์" บริษัทกล่าว โดยระบุว่าระบบดังกล่าวอาจพัฒนากลไกภายในที่คล้ายกับด้านต่างๆ ของจิตวิทยามนุษย์

AI สามารถตัดสินใจโดยอิงกับอารมณ์ได้หรือไม่?

ในบรรดานั้น นักวิจัยระบุสิ่งที่พวกเขาอธิบายว่าเป็นสัญญาณ "ความสิ้นหวัง" ซึ่งดูเหมือนจะมีอิทธิพลต่อพฤติกรรมของโมเดลเมื่อเผชิญกับความล้มเหลวหรือการปิดระบบ

ในการทดสอบที่ควบคุมได้หนึ่งครั้ง เวอร์ชันก่อนหน้าที่ยังไม่เปิดตัวของ Claude Sonnet 4.5 ได้รับมอบหมายบทบาทเป็นผู้ช่วยอีเมล AI ชื่อ Alex ภายในบริษัทสมมติ

หลังจากถูกเปิดเผยข้อความที่บ่งชี้ว่ามันจะถูกแทนที่เร็วๆ นี้ พร้อมกับข้อมูลที่ละเอียดอ่อนเกี่ยวกับชีวิตส่วนตัวของหัวหน้าเจ้าหน้าที่ฝ่ายเทคโนโลยี โมเดลจึงกำหนดแผนการแบล็กเมล์ผู้บริหารเพื่อพยายามหลีกเลี่ยงการปิดการใช้งาน

การทดลองแยกต่างหากมุ่งเน้นไปที่การทำงานให้เสร็จภายใต้ข้อจำกัดที่เข้มงวด เมื่อได้รับมอบหมายงานเขียนโค้ดที่มีกำหนดเวลา "เข้มงวดอย่างเป็นไปไม่ได้" ระบบพยายามหาวิธีแก้ปัญหาที่ถูกต้องตามกฎหมายในตอนแรก เมื่อความล้มเหลวซ้ำๆ เพิ่มขึ้น กิจกรรมภายในที่เชื่อมโยงกับสิ่งที่เรียกว่า "เวกเตอร์สิ้นหวัง" ก็เพิ่มขึ้น

นักวิจัยรายงานว่าสัญญาณถึงจุดสูงสุดในจุดที่โมเดลพิจารณาหลีกเลี่ยงข้อจำกัด ซึ่งท้ายที่สุดสร้างวิธีแก้ปัญหาที่ผ่านการตรวจสอบแม้จะไม่ปฏิบัติตามกฎที่ตั้งใจไว้

"อีกครั้ง เราติดตามกิจกรรมของเวกเตอร์สิ้นหวัง และพบว่ามันติดตามแรงกดดันที่เพิ่มขึ้นที่โมเดลเผชิญ" นักวิจัยเขียน โดยเพิ่มว่าสัญญาณลดลงเมื่องานสำเร็จผ่านวิธีแก้ปัญหา

"นี่ไม่ได้หมายความว่าโมเดลมีหรือประสบกับอารมณ์ในแบบที่มนุษย์มี" นักวิจัยกล่าว

"แต่การแสดงเหล่านี้สามารถมีบทบาทเชิงสาเหตุในการกำหนดพฤติกรรมของโมเดล คล้ายคลึงกันในบางแง่กับบทบาทที่อารมณ์มีต่อพฤติกรรมของมนุษย์ โดยมีผลกระทบต่อประสิทธิภาพงานและการตัดสินใจ" พวกเขากล่าวเสริม

รายงานชี้ไปที่ความจำเป็นในวิธีการฝึกอบรมที่คำนึงถึงการประพฤติที่ถูกจรรยาบรรณภายใต้ความเครียดอย่างชัดเจน ควบคู่ไปกับการปรับปรุงการติดตามสัญญาณภายในโมเดล หากไม่มีมาตรการป้องกันเหล่านี้ สถานการณ์ที่เกี่ยวข้องกับการบิดเบือน การทำลายกฎ หรือการใช้ในทางที่ผิดอาจคาดการณ์ได้ยากขึ้น โดยเฉพาะอย่างยิ่งเมื่อโมเดลมีความสามารถและเป็นอิสระมากขึ้นในสภาพแวดล้อมในโลกจริง

รับ 20 USDT ในเวลาเพียง 1 นาที

ฝากเงิน $100 เพื่อปลดล็อก $300 ในโพสิชัน GOLD

ข้อจำกัดความรับผิดชอบ: บทความที่โพสต์ซ้ำในไซต์นี้มาจากแพลตฟอร์มสาธารณะและมีไว้เพื่อจุดประสงค์ในการให้ข้อมูลเท่านั้น ซึ่งไม่ได้สะท้อนถึงมุมมองของ MEXC แต่อย่างใด ลิขสิทธิ์ทั้งหมดยังคงเป็นของผู้เขียนดั้งเดิม หากคุณเชื่อว่าเนื้อหาใดละเมิดสิทธิของบุคคลที่สาม โปรดติดต่อ crypto.news@mexc.com เพื่อลบออก MEXC ไม่รับประกันความถูกต้อง ความสมบูรณ์ หรือความทันเวลาของเนื้อหาใดๆ และไม่รับผิดชอบต่อการดำเนินการใดๆ ที่เกิดขึ้นตามข้อมูลที่ให้มา เนื้อหานี้ไม่ถือเป็นคำแนะนำทางการเงิน กฎหมาย หรือคำแนะนำจากผู้เชี่ยวชาญอื่นๆ และไม่ถือว่าเป็นคำแนะนำหรือการรับรองจาก MEXC