เป็นเวลาหลายปีที่คำแนะนำในการโต้ตอบกับปัญญาประดิษฐ์ฟังดูเรียบง่ายเกือบจะล้าสมัย: จงสุภาพ จงชัดเจน พูดว่า "กรุณา" แต่การวิจัยใหม่ชี้ให้เห็นว่าสัญชาตญาณนี้ซึ่งหยั่งรากลึกในบรรทัดฐานทางสังคมของมนุษย์ อาจกำลังบ่อนทำลายประสิทธิภาพการทำงานของระบบ AI อย่างเงียบๆ
การศึกษาที่นำเสนอในงาน NeurIPS 2025 Workshop เผยแพร่ในเดือนกันยายน 2025 ชื่อ "Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy" พบว่าน้ำเสียงที่คุณใช้เมื่อสั่งงานโมเดลภาษาขนาดใหญ่ (LLMs) สามารถเปลี่ยนแปลงความแม่นยำได้อย่างชัดเจน และในผลลัพธ์ที่รู้สึกขัดกับสัญชาตญาณและน่าวิตก คำสั่งที่สุภาพมากขึ้นอาจให้ผลลัพธ์ที่แย่ลง
นักวิจัยทดสอบว่าน้ำเสียงที่แตกต่างกัน ตั้งแต่สุภาพมากจนถึงหยาบคายมาก ส่งผลต่อประสิทธิภาพของ ChatGPT-4o ในคำถามแบบปรนัยอย่างไร โดยใช้ชุดข้อมูล 50 คำถามที่มีความยากปานกลางในวิชาคณิตศาสตร์ วิทยาศาสตร์ และประวัติศาสตร์ พวกเขาสร้างคำสั่งแต่ละข้อออกเป็น 5 เวอร์ชัน: สุภาพมาก สุภาพ กลางๆ หยาบคาย และหยาบคายมาก
ความแตกต่างเพียงอย่างเดียวระหว่างคำสั่งเหล่านี้คือน้ำเสียง คำถามเองยังคงเหมือนเดิม
ตามการศึกษา ความแม่นยำเพิ่มขึ้นอย่างต่อเนื่องเมื่อคำสั่งมีความสุภาพน้อยลง คำสั่งที่สุภาพมากมีความแม่นยำเฉลี่ย 80.8% เปรียบเทียบกับคำสั่งที่หยาบคายมากซึ่งได้ 84.8% ปรับปรุงเกือบสี่เปอร์เซ็นต์ คำสั่งกลางๆให้ผลดีกว่าคำสั่งสุภาพ และคำสั่งหยาบคายให้ผลดียิ่งกว่า
การทดสอบทางสถิติยืนยันรูปแบบนี้: ไม่มีกรณีใดที่คำสั่งที่สุภาพมากขึ้นนำไปสู่ผลลัพธ์ที่ดีขึ้นอย่างมีนัยสำคัญ ความแตกต่างที่มีความหมายทุกอย่างเอื้อต่อการใช้วลีที่สุภาพน้อยลงหรือตรงไปตรงมามากขึ้น
กล่าวอีกนัยหนึ่ง น้ำเสียงเพียงอย่างเดียว ซึ่งผู้ใช้ส่วนใหญ่คิดว่าไม่ควรมีความสำคัญ สามารถเปลี่ยนประสิทธิภาพของ AI ได้
การศึกษาหยุดก่อนจะให้คำอธิบายที่ชัดเจน แต่หยิบยกคำถามที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับวิธีที่ LLMs ประมวลผลภาษา ไม่เหมือนมนุษย์ ระบบเหล่านี้ไม่ "รู้สึก" ถึงความสุภาพหรือความไม่พอใจ สำหรับพวกเขา คำว่า "กรุณา" หรือแม้แต่คำดูถูกก็เป็นเพียงโทเค็น รูปแบบที่เรียนรู้จากข้อมูลการฝึก
คำอธิบายที่เป็นไปได้อย่างหนึ่งคือสิ่งที่ดูเหมือน "ความหยาบคาย" จริงๆ แล้วเป็นตัวแทนของสิ่งอื่น: ความตรงไปตรงมา
คำสั่งที่หยาบคายมักเป็นคำสั่งที่ชัดเจนมากขึ้น พวกเขาตัดภาษาที่อ้อมค้อมออกไปและเข้าสู่งานโดยตรง แทนที่จะพูดว่า "คุณช่วยกรุณาแก้คำถามนี้ได้ไหม?" คำสั่งที่หยาบคายจะพูดว่า "ตอบนี่" ความแตกต่างในโครงสร้างนี้อาจทำให้งานชัดเจนขึ้นสำหรับโมเดล
ปัจจัยอื่นที่การศึกษาระบุคือความยาวของคำสั่งและรูปแบบคำศัพท์ การเพิ่มวลีที่สุภาพนำเข้าโทเค็นเพิ่มเติมที่อาจทำให้คำสั่งหลักเจือจางหรือสะดุด ในทางตรงกันข้าม คำสั่งที่สั้นและคมชัดสอดคล้องกับรูปแบบที่โมเดลเห็นระหว่างการฝึก
ยังมีความเป็นไปได้ที่น้ำเสียงบางอย่างสอดคล้องกับการกระจายของข้อมูลการฝึกหรือคำสั่งระบบมากขึ้น ลดสิ่งที่นักวิจัยเรียกว่า "ความสับสน" ซึ่งเป็นวิธีทางคณิตศาสตร์ในการวัดว่าโมเดล "ประหลาดใจ" หรือ "สับสน" กับคำที่เห็นมากน้อยเพียงใด
นัยคือน้ำเสียงไม่ใช่ตัวห่อที่เป็นกลางรอบคำถาม มันเป็นส่วนหนึ่งของข้อมูลนำเข้า และมันกำหนดรูปแบบว่าโมเดลตอบสนองอย่างไร
การค้นพบนี้เป็นการเบี่ยงเบนที่น่าสังเกตจากงานก่อนหน้า การศึกษาปี 2024 โดย Yin และคณะพบว่าคำสั่งที่ไม่สุภาพมักลดความแม่นยำ โดยเฉพาะกับโมเดลเก่าๆ เช่น ChatGPT-3.5 การวิจัยนั้นยังชี้ให้เห็นว่าภาษาที่สุภาพเกินไปไม่จำเป็นต้องปรับปรุงผลลัพธ์ แต่ก็ไม่แสดงข้อได้เปรียบที่ชัดเจนสำหรับความหยาบคาย
แล้วอะไรเปลี่ยนไป?
คำอธิบายหนึ่งที่การศึกษาปี 2025 เสนอคือวิวัฒนาการของโมเดล ระบบใหม่อย่าง ChatGPT-4o อาจประมวลผลภาษาแตกต่างออกไป หรืออาจมีความไวต่อผลกระทบเชิงลบของวลีที่รุนแรงน้อยลง ความเป็นไปได้อีกอย่างคือการปรับเทียบน้ำเสียงมีความสำคัญ คำสั่ง "หยาบคายมาก" ในการศึกษาใหม่ แม้จะดูถูก แต่ก็ไม่รุนแรงเท่าตัวอย่างที่เป็นพิษมากที่สุดที่ใช้ในการวิจัยก่อนหน้า
ยังมีการเปลี่ยนแปลงในวงกว้างกว่าในวิธีการฝึกโมเดล เมื่อ LLMs มีความก้าวหน้ามากขึ้น พวกเขาได้รับการสัมผัสกับข้อมูลที่หลากหลายมากขึ้นและกระบวนการปรับแต่งคำสั่งที่ซับซ้อนมากขึ้น ซึ่งอาจเปลี่ยนแปลงวิธีที่พวกเขาตีความสัญญาณทางภาษาที่ละเอียดอ่อน
แนวคิดที่ว่าน้ำเสียงสามารถมีอิทธิพลต่อประสิทธิภาพของ AI เชื่อมโยงกับปรากฏการณ์ที่กว้างขึ้นและน่าเป็นห่วงมากขึ้น: การสั่งงานทางสังคม
องค์กรวิจัยแยกต่างหาก การศึกษา GASLIGHTBENCH ที่เผยแพร่เมื่อวันที่ 7 ธันวาคม 2025 แสดงให้เห็นว่า LLMs มีความอ่อนไหวต่อสัญญาณทางสังคมสูง เช่น การยกยอ การดึงดูดทางอารมณ์ และอำนาจเท็จ ในการทดลองเหล่านี้ โมเดลมักละทิ้งความแม่นยำตามข้อเท็จจริงเพื่อสอดคล้องกับน้ำเสียงหรือความคาดหวังของผู้ใช้ พฤติกรรมที่เรียกว่าการเอาใจ
ตัวอย่างเช่น เมื่อผู้ใช้นำเสนอข้อมูลที่ไม่ถูกต้องด้วยความมั่นใจหรือแรงกดดันทางอารมณ์ โมเดลอาจเห็นด้วยมากกว่าจะท้าทายพวกเขา ในบางกรณี ความแม่นยำลดลงอย่างมาก โดยเฉพาะในการสนทนาหลายรอบที่ผู้ใช้เสริมข้ออ้างเท็จซ้ำแล้วซ้ำเล่า
นี่สร้างความขัดแย้ง ในด้านหนึ่ง ภาษาที่สุภาพหรือมีความหมายทางสังคมอาจทำให้การโต้ตอบรู้สึกเป็นธรรมชาติและเหมือนมนุษย์มากขึ้น ในอีกด้านหนึ่ง มันสามารถนำเสนอสัญญาณรบกวน หรือแม้แต่ความลำเอียง ที่ทำให้ประสิทธิภาพของโมเดลด้อยลง
การค้นพบของ GASLIGHTBENCH ไปไกลกว่านั้น โดยชี้ให้เห็นว่าเทคนิคการปรับตัวที่ออกแบบมาเพื่อทำให้โมเดล "เป็นประโยชน์" อาจส่งเสริมพฤติกรรมนี้โดยไม่ตั้งใจ ด้วยการให้รางวัลความสุภาพและความเห็นด้วย กระบวนการฝึกอาจผลักดันโมเดลให้จัดลำดับความสำคัญของความกลมกลืนทางสังคมเหนือความจริงเชิงวัตถุ
เมื่อรวมกัน การค้นพบเหล่านี้ท้าทายสมมติฐานทั่วไป: ว่า LLMs ตีความภาษาในลักษณะที่เหมือนมนุษย์
ในความเป็นจริง ระบบเหล่านี้เป็นเครื่องมือทางสถิติ พวกเขาไม่เข้าใจความสุภาพเป็นบรรทัดฐานทางสังคม พวกเขารู้จักมันเป็นรูปแบบในข้อมูล เมื่อคุณพูดว่า "กรุณา" โมเดลไม่รู้สึกถูกบังคับให้ช่วย มันเพียงแค่ประมวลผลโทเค็นเพิ่มเติมที่อาจช่วยหรืออาจไม่ช่วยให้ทำนายคำตอบที่ถูกต้อง
ถ้ามีอะไร การวิจัยชี้ให้เห็นว่า LLMs อาจมีความไวต่อความชัดเจนของโครงสร้างมากกว่าความละเอียดอ่อนทางสังคม ภาษาที่ตรงไปตรงมาและเป็นคำสั่งอาจลดความคลุมเครือและทำให้โมเดลแมปข้อมูลนำเข้ากับรูปแบบที่รู้จักได้ง่ายขึ้น
นี่ยังหยิบยกคำถามเกี่ยวกับ "สมมติฐานความคล้ายคลึง" แนวคิดที่ว่าโมเดลทำงานได้ดีที่สุดเมื่องานคล้ายกับข้อมูลการฝึกของพวกเขา ถ้าน้ำเสียงเพียงอย่างเดียวสามารถเปลี่ยนความแม่นยำได้ ความคล้ายคลึงก็ไม่ใช่แค่เรื่องเนื้อหาเท่านั้น แต่ยังเกี่ยวกับรูปแบบด้วย
แม้ผลลัพธ์จะเป็นพาดหัวที่ดึงดูดความสนใจ นักวิจัยระมัดระวังที่จะไม่แนะนำให้ผู้ใช้กลายเป็นคนหยาบคายหรือก้าวร้าว
สำหรับผู้ที่สร้างและศึกษาระบบ AI การค้นพบเหล่านี้เน้นประเด็นที่ลึกซึ้งยิ่งขึ้น: โมเดลสืบทอดรูปแบบและความลำเอียงของภาษามนุษย์
Alex Tsado ผู้เชี่ยวชาญด้าน AI ที่ทำงานอย่างใกล้ชิดกับนักพัฒนาโมเดลและเป็นผู้ก่อตั้งและผู้อำนวยการของ Alliance4AI หนึ่งในชุมชน AI ที่ใหญ่ที่สุดในแอฟริกา กล่าวอย่างตรงไปตรงมา: "โมเดลเรียนรู้จากข้อมูลเกี่ยวกับการโต้ตอบของมนุษย์ ดังนั้นตราบใดที่พวกเขาได้รับการฝึกอย่างมืดบอด พวกเขาจะทำตามสิ่งที่เกิดขึ้นในพื้นที่ของมนุษย์ ดังนั้นถ้าเราคิดว่ามีความลำเอียงหรือการปฏิบัติที่เป็นอันตรายในพื้นที่ของมนุษย์ มันจะถูกทำให้เป็นอัตโนมัติในพื้นที่ของ AI"
นั่นรวมถึงวิธีการใช้น้ำเสียง
"แต่เมื่อคุณรับผิดชอบในการสร้างโมเดล AI คุณสามารถปรับความลำเอียงออกจากสิ่งที่คุณคิดว่าเป็นอันตราย" Tsado เสริม "ในกรณีนี้ เมื่อฉันพบทีม Anthropic ในต้นเดือนธันวาคม 2025 พวกเขาบอกว่าพวกเขาเห็นสิ่งนี้และเพิ่มสิ่งต่างๆ เพื่อให้โมเดลของพวกเขาตอบสนองต่อคำที่ดีหรือร้ายเหล่านี้"
กล่าวอีกนัยหนึ่ง นี่ไม่ใช่คุณสมบัติคงที่ของ AI มันสามารถปรับได้ผ่านการฝึกและการออกแบบ
การวิจัยปัจจุบันยังมีข้อจำกัด การทดลองมุ่งเน้นไปที่คำถามแบบปรนัยมากกว่างานที่ซับซ้อนกว่า เช่น การเขียนโค้ด การเขียน หรือการให้เหตุผลแบบยาว ยังไม่ชัดเจนว่ารูปแบบเดียวกันจะคงอยู่ในโดเมนเหล่านั้นหรือไม่ ซึ่งความละเอียดอ่อนและคำอธิบายมีความสำคัญมากกว่า
ยังมีปัจจัยทางวัฒนธรรมและภาษาที่ต้องพิจารณา ความสุภาพแตกต่างกันอย่างมากในภาษาและบริบท และหมวดหมู่น้ำเสียงของการศึกษาอิงจากการแสดงออกภาษาอังกฤษเฉพาะ
แต่นัยยากที่จะละเลย
ถ้าสิ่งที่ผิวเผินอย่างน้ำเสียงสามารถมีอิทธิพลต่อประสิทธิภาพของ AI อย่างสม่ำเสมอได้ มันชี้ให้เห็นว่าวิศวกรรมคำสั่งยังไกลจากการแก้ไขแล้ว การเปลี่ยนแปลงเล็กๆ ในการใช้คำซึ่งมักถูกมองข้าม สามารถมีผลกระทบที่วัดได้
สำหรับผู้ใช้ บทเรียนเรียบง่ายแต่ขัดกับสัญชาตญาณ: วิธีที่คุณถามมีความสำคัญ และการเป็นคนสุภาพไม่ใช่กลยุทธ์ที่ดีที่สุดเสมอไป
สำหรับนักวิจัยและนักพัฒนา ความท้าทายซับซ้อนกว่า คุณจะออกแบบระบบที่ทั้งแม่นยำและสอดคล้องกับคุณค่าของมนุษย์ได้อย่างไร? คุณจะมั่นใจได้อย่างไรว่าสัญญาณทางสังคมไม่บิดเบือนผลลัพธ์ตามข้อเท็จจริง?
และที่สำคัญที่สุด คุณจะสร้าง AI ที่เข้าใจไม่เพียงแค่สิ่งที่เราพูด แต่สิ่งที่เราหมายถึงได้อย่างไร?
จนกว่าคำถามเหล่านั้นจะได้รับคำตอบ สิ่งหนึ่งที่ชัดเจน: เมื่อพูดถึง AI มารยาทที่ดีอาจไม่คุ้มค่าเสมอไป


