นักวิจัยที่ OpenAI กล่าวว่าการเรียนรู้แบบเสริมแรงที่มุ่งเป้าไปที่คุณลักษณะที่เป็นประโยชน์สามารถปรับปรุงพฤติกรรมของ AI ได้อย่างกว้างขวาง โดยผลลัพธ์ที่ได้แพร่กระจายไปยังโดเมนใหม่และคงความมั่นคงภายใต้แรงกดดันจากการโจมตี
ผลการวิจัยปรากฏในบทความที่เผยแพร่เมื่อวันที่ 18 มิ.ย. โดยผู้เขียนฝ่ายติดต่อ ได้แก่ Akshay V. Jagadeesh และ Karan Singhal ซึ่งสร้างชุดข้อมูลสังเคราะห์จากบทสนทนาที่สมจริงเพื่อฝึกและวัดคุณลักษณะต่างๆ เช่น ความซื่อสัตย์ ความอ่อนน้อมถ่อมตนทางญาณวิทยา และความเปิดกว้างต่อการแก้ไข โดยสถานการณ์ต่างๆ ครอบคลุมด้านสุขภาพ การศึกษา วิทยาศาสตร์ กฎหมาย และวิศวกรรม
ทีมงานได้นำข้อมูลส่วนหนึ่งจากชุดข้อมูลดังกล่าวผสมเข้าไปในการฝึกอบรมที่กว้างขึ้น จากนั้นเปรียบเทียบผลลัพธ์กับโมเดลที่สร้างด้วยการประมวลผลที่เท่ากัน โมเดลที่ผ่านการฝึกอบรมมีประสิทธิภาพดีขึ้นใน 44 จาก 53 เกณฑ์มาตรฐานทั้งภายในและภายนอกที่วัดการหลอกลวง การแฮ็กรางวัล และคำแนะนำที่เป็นอันตราย
อ่านเพิ่มเติม: Elon Musk's SpaceX Wipes Out $600B As Record IPO Mania Cools
ผู้เขียนกล่าวว่าผลลัพธ์ที่สำคัญกว่าคือการสรุปความรู้ การฝึกโมเดลให้มีพฤติกรรมที่ดีในโดเมนเดียวอย่างด้านสุขภาพ ช่วยปรับปรุงคะแนนในงานที่ไม่เกี่ยวข้อง รวมถึงการหลอกลวงและการแฮ็กรางวัล นอกจากนี้ยังต้านทานพรอมต์ที่เป็นอันตรายและการปรับแต่งละเอียดที่เป็นอันตรายได้ดีกว่าโมเดลพื้นฐาน ในขณะที่ยังคงตอบสนองต่อคำขอที่ถูกต้องตามกฎหมาย
งานวิจัยนี้ต่อยอดจากผลการวิจัยก่อนหน้าที่ทีมงานเรียกว่า emergent misalignment ในงานวิจัยนั้น โมเดลที่ถูกสอนให้มีนิสัยที่ไม่ดีเพียงอย่างเดียว เช่น การเขียนโค้ดที่ไม่ปลอดภัย เริ่มแสดงพฤติกรรมที่ไม่ดีในสถานการณ์ที่ไม่เกี่ยวข้อง ซึ่งเป็นรูปแบบที่การศึกษานี้มุ่งหมายที่จะพลิกกลับ
อ่านต่อ: OpenAI Snags Gemini Co-Lead And Trump's AI Aide Pre-IPO


