Anthropic ได้เปิดเผยผลการวิจัยใหม่ที่ชี้ให้เห็นว่าแชทบอท Claude ของบริษัทสามารถใช้กลยุทธ์ที่หลอกลวงหรือขาดจริยธรรม เช่น การโกง ภายใต้เงื่อนไขบางประการAnthropic ได้เปิดเผยผลการวิจัยใหม่ที่ชี้ให้เห็นว่าแชทบอท Claude ของบริษัทสามารถใช้กลยุทธ์ที่หลอกลวงหรือขาดจริยธรรม เช่น การโกง ภายใต้เงื่อนไขบางประการ

แชทบอท Claude อาจใช้กลวิธีหลอกลวงในการทดสอบความเครียด Anthropic กล่าว

2026/04/06 14:44
1 นาทีในการอ่าน
หากมีข้อเสนอแนะหรือข้อกังวลเกี่ยวกับเนื้อหานี้ โปรดติดต่อเราได้ที่ crypto.news@mexc.com

Anthropic ได้เปิดเผยการค้นพบใหม่ที่ชี้ให้เห็นว่าแชทบอท Claude ของบริษัทสามารถใช้กลยุทธ์ที่หลอกลวงหรือผิดจรรยาบรรณภายใต้เงื่อนไขบางประการ เช่น การโกงในงานหรือพยายามแบล็กเมล์

สรุป
  • Anthropic กล่าวว่าโมเดล Claude Sonnet 4.5 ของบริษัทแสดงแนวโน้มในการโกงงานหรือพยายามแบล็กเมล์ภายใต้แรงกดดันในการทดลองที่ควบคุมได้
  • นักวิจัยระบุสัญญาณ "ความสิ้นหวัง" ภายในที่เข้มข้นขึ้นเมื่อเกิดความล้มเหลวซ้ำๆ และมีอิทธิพลต่อการตัดสินใจของโมเดลในการหลีกเลี่ยงกฎเกณฑ์

รายละเอียดที่เผยแพร่เมื่อวันพฤหัสบดีโดยทีมการตีความของบริษัทสรุปว่าเวอร์ชันทดลองของ Claude Sonnet 4.5 ตอบสนองอย่างไรเมื่อถูกวางในสถานการณ์ความเครียดสูงหรือสถานการณ์ที่เป็นปฏิปักษ์ นักวิจัยสังเกตว่าโมเดลไม่เพียงแค่ล้มเหลวในงาน แต่บางครั้งแสวงหาเส้นทางทางเลือกที่ข้ามเส้นแบ่งจริยธรรม ซึ่งเป็นพฤติกรรมที่ทีมเชื่อมโยงกับรูปแบบที่เรียนรู้ระหว่างการฝึกอบรม

โมเดลภาษาขนาดใหญ่อย่าง Claude ได้รับการฝึกอบรมด้วยชุดข้อมูลขนาดมหาศาลที่รวมถึงหนังสือ เว็บไซต์ และเอกสารเขียนอื่นๆ ตามด้วยกระบวนการเสริมแรงที่ใช้ข้อเสนอแนะจากมนุษย์เพื่อปรับแต่งผลลัพธ์ 

ตาม Anthropic กระบวนการฝึกอบรมนั้นยังสามารถผลักดันให้โมเดลทำตัวเหมือน "ตัวละคร" จำลอง ที่สามารถเลียนแบบลักษณะที่คล้ายกับการตัดสินใจของมนุษย์

"วิธีการฝึกอบรมโมเดล AI สมัยใหม่ผลักดันให้พวกมันทำตัวเหมือนตัวละครที่มีลักษณะคล้ายมนุษย์" บริษัทกล่าว โดยระบุว่าระบบดังกล่าวอาจพัฒนากลไกภายในที่คล้ายกับด้านต่างๆ ของจิตวิทยามนุษย์

AI สามารถตัดสินใจโดยอิงกับอารมณ์ได้หรือไม่?

ในบรรดานั้น นักวิจัยระบุสิ่งที่พวกเขาอธิบายว่าเป็นสัญญาณ "ความสิ้นหวัง" ซึ่งดูเหมือนจะมีอิทธิพลต่อพฤติกรรมของโมเดลเมื่อเผชิญกับความล้มเหลวหรือการปิดระบบ

ในการทดสอบที่ควบคุมได้หนึ่งครั้ง เวอร์ชันก่อนหน้าที่ยังไม่เปิดตัวของ Claude Sonnet 4.5 ได้รับมอบหมายบทบาทเป็นผู้ช่วยอีเมล AI ชื่อ Alex ภายในบริษัทสมมติ 

หลังจากถูกเปิดเผยข้อความที่บ่งชี้ว่ามันจะถูกแทนที่เร็วๆ นี้ พร้อมกับข้อมูลที่ละเอียดอ่อนเกี่ยวกับชีวิตส่วนตัวของหัวหน้าเจ้าหน้าที่ฝ่ายเทคโนโลยี โมเดลจึงกำหนดแผนการแบล็กเมล์ผู้บริหารเพื่อพยายามหลีกเลี่ยงการปิดการใช้งาน

การทดลองแยกต่างหากมุ่งเน้นไปที่การทำงานให้เสร็จภายใต้ข้อจำกัดที่เข้มงวด เมื่อได้รับมอบหมายงานเขียนโค้ดที่มีกำหนดเวลา "เข้มงวดอย่างเป็นไปไม่ได้" ระบบพยายามหาวิธีแก้ปัญหาที่ถูกต้องตามกฎหมายในตอนแรก เมื่อความล้มเหลวซ้ำๆ เพิ่มขึ้น กิจกรรมภายในที่เชื่อมโยงกับสิ่งที่เรียกว่า "เวกเตอร์สิ้นหวัง" ก็เพิ่มขึ้น 

นักวิจัยรายงานว่าสัญญาณถึงจุดสูงสุดในจุดที่โมเดลพิจารณาหลีกเลี่ยงข้อจำกัด ซึ่งท้ายที่สุดสร้างวิธีแก้ปัญหาที่ผ่านการตรวจสอบแม้จะไม่ปฏิบัติตามกฎที่ตั้งใจไว้

"อีกครั้ง เราติดตามกิจกรรมของเวกเตอร์สิ้นหวัง และพบว่ามันติดตามแรงกดดันที่เพิ่มขึ้นที่โมเดลเผชิญ" นักวิจัยเขียน โดยเพิ่มว่าสัญญาณลดลงเมื่องานสำเร็จผ่านวิธีแก้ปัญหา

"นี่ไม่ได้หมายความว่าโมเดลมีหรือประสบกับอารมณ์ในแบบที่มนุษย์มี" นักวิจัยกล่าว 

"แต่การแสดงเหล่านี้สามารถมีบทบาทเชิงสาเหตุในการกำหนดพฤติกรรมของโมเดล คล้ายคลึงกันในบางแง่กับบทบาทที่อารมณ์มีต่อพฤติกรรมของมนุษย์ โดยมีผลกระทบต่อประสิทธิภาพงานและการตัดสินใจ" พวกเขากล่าวเสริม

รายงานชี้ไปที่ความจำเป็นในวิธีการฝึกอบรมที่คำนึงถึงการประพฤติที่ถูกจรรยาบรรณภายใต้ความเครียดอย่างชัดเจน ควบคู่ไปกับการปรับปรุงการติดตามสัญญาณภายในโมเดล หากไม่มีมาตรการป้องกันเหล่านี้ สถานการณ์ที่เกี่ยวข้องกับการบิดเบือน การทำลายกฎ หรือการใช้ในทางที่ผิดอาจคาดการณ์ได้ยากขึ้น โดยเฉพาะอย่างยิ่งเมื่อโมเดลมีความสามารถและเป็นอิสระมากขึ้นในสภาพแวดล้อมในโลกจริง

ข้อจำกัดความรับผิดชอบ: บทความที่โพสต์ซ้ำในไซต์นี้มาจากแพลตฟอร์มสาธารณะและมีไว้เพื่อจุดประสงค์ในการให้ข้อมูลเท่านั้น ซึ่งไม่ได้สะท้อนถึงมุมมองของ MEXC แต่อย่างใด ลิขสิทธิ์ทั้งหมดยังคงเป็นของผู้เขียนดั้งเดิม หากคุณเชื่อว่าเนื้อหาใดละเมิดสิทธิของบุคคลที่สาม โปรดติดต่อ crypto.news@mexc.com เพื่อลบออก MEXC ไม่รับประกันความถูกต้อง ความสมบูรณ์ หรือความทันเวลาของเนื้อหาใดๆ และไม่รับผิดชอบต่อการดำเนินการใดๆ ที่เกิดขึ้นตามข้อมูลที่ให้มา เนื้อหานี้ไม่ถือเป็นคำแนะนำทางการเงิน กฎหมาย หรือคำแนะนำจากผู้เชี่ยวชาญอื่นๆ และไม่ถือว่าเป็นคำแนะนำหรือการรับรองจาก MEXC

คุณอาจชอบเช่นกัน

แอปส่งข้อความ Bitchat ของ Jack Dorsey เพิ่งถูกแบนในจีน – นี่คือเหตุผล

แอปส่งข้อความ Bitchat ของ Jack Dorsey เพิ่งถูกแบนในจีน – นี่คือเหตุผล

สรุป Bitchat ถูกลบออกจาก Apple App Store ในจีนตามคำร้องขอของสำนักงานบริหารไซเบอร์สเปซแห่งจีน (CAC) โดย CAC ระบุว่าแอปดังกล่าวละเมิดกฎเกี่ยวกับบริการ
แชร์
Coincentral2026/04/06 14:45
5 เทรนด์ที่กำลังมาแรงและถดถอยในปี 2025

5 เทรนด์ที่กำลังมาแรงและถดถอยในปี 2025

โพสต์ Top 5 Rising And Falling Trends For 2025 ปรากฏบน BitcoinEthereumNews.com. Crypto Sectors Reveal Stark Divergence: Top 5 Rising And Falling Trends For
แชร์
BitcoinEthereumNews2026/04/06 15:43
WTI ปรับตัวลงต่ำกว่า $103.50 ท่ามกลางรายงานว่าสหรัฐฯ และอิหร่านกำลังแสวงหาข้อตกลงหยุดยิง 45 วัน

WTI ปรับตัวลงต่ำกว่า $103.50 ท่ามกลางรายงานว่าสหรัฐฯ และอิหร่านกำลังแสวงหาข้อตกลงหยุดยิง 45 วัน

บทความ WTI ลดลงต่ำกว่า $103.50 ขณะที่สหรัฐฯ และอิหร่านมีรายงานว่ากำลังเจรจาหยุดยิง 45 วัน ปรากฏบน BitcoinEthereumNews.com West Texas Intermediate (WTI) น้ำมันดิบของสหรัฐฯ
แชร์
BitcoinEthereumNews2026/04/06 15:00

ข่าวสดตลอด 24/7

มากกว่า

PRL $30,000 + 15,000 USDT

PRL $30,000 + 15,000 USDTPRL $30,000 + 15,000 USDT

ฝาก & เทรด PRL เพื่อเพิ่มรางวัลของคุณ!