محققان آزمایش کردند که چگونه لحن‌های مختلف، از بسیار مؤدبانه تا بسیار بی‌ادبانه، بر عملکرد ChatGPT-4o در سوالات چندگزینه‌ای تأثیر می‌گذاردمحققان آزمایش کردند که چگونه لحن‌های مختلف، از بسیار مؤدبانه تا بسیار بی‌ادبانه، بر عملکرد ChatGPT-4o در سوالات چندگزینه‌ای تأثیر می‌گذارد

چرا مودب بودن با هوش مصنوعی ممکن است به نتایج شما آسیب بزند

2026/03/26 18:18
مدت مطالعه: 8 دقیقه
برای ارائه بازخورد یا طرح هرگونه نگرانی درباره این محتوا، لطفاً با ما از طریق crypto.news@mexc.com تماس بگیرید.

برای سال‌ها، توصیه برای تعامل با هوش مصنوعی تقریباً عجیب به نظر می‌رسید: مؤدب باشید، واضح باشید، «لطفاً» بگویید. اما تحقیقات جدید نشان می‌دهد که این غریزه که ریشه در هنجارهای اجتماعی انسانی دارد، ممکن است به آرامی عملکرد سیستم‌های هوش مصنوعی را تضعیف کند.

مطالعه‌ای که در کارگاه NeurIPS 2025 ارائه شد و در 1404/06/10 منتشر شد، با عنوان "مراقب لحن خود باشید: بررسی چگونگی تأثیر ادب درخواست بر دقت LLM"، نشان می‌دهد که لحنی که هنگام درخواست از مدل‌های زبانی بزرگ (LLM) استفاده می‌کنید می‌تواند به طور قابل اندازه‌گیری دقت آنها را تغییر دهد. و در نتیجه‌ای که خلاف شهود، حتی ناراحت‌کننده است، درخواست‌های مؤدب‌تر ممکن است در واقع نتایج بدتری تولید کنند.

محققان آزمایش کردند که چگونه لحن‌های مختلف، از بسیار مؤدب تا بسیار بی‌ادبانه، بر عملکرد ChatGPT-4o در سؤالات چند گزینه‌ای تأثیر می‌گذارد. با استفاده از مجموعه داده‌ای از 50 سؤال با دشواری متوسط در ریاضیات، علوم و تاریخ، آنها پنج نسخه از هر درخواست ایجاد کردند: بسیار مؤدب، مؤدب، خنثی، بی‌ادبانه و بسیار بی‌ادبانه.

تنها تفاوت بین این درخواست‌ها لحن بود. خود سؤالات یکسان باقی ماندند.

بر اساس این مطالعه، دقت به طور پیوسته با کم شدن ادب درخواست‌ها افزایش یافت. درخواست‌های بسیار مؤدب به طور متوسط دقت 80.8% را به دست آوردند. در مقایسه، درخواست‌های بسیار بی‌ادبانه به 84.8% رسیدند، یک بهبود نزدیک به چهار درصد. درخواست‌های خنثی عملکرد بهتری نسبت به درخواست‌های مؤدب داشتند، و درخواست‌های بی‌ادبانه حتی بهتر عمل کردند.

آزمایش آماری الگو را تأیید کرد: هیچ موردی وجود نداشت که درخواست‌های مؤدب‌تر منجر به نتایج به طور قابل توجهی بهتر شوند. هر تفاوت معناداری به نفع عبارت‌های کمتر مؤدب یا مستقیم‌تر بود.

به عبارت دیگر، تنها لحن، چیزی که اکثر کاربران فرض می‌کنند نباید مهم باشد، می‌تواند عملکرد هوش مصنوعی را تغییر دهد.

چرا بی‌ادبی کمک می‌کند؟

این مطالعه از ارائه توضیح قطعی کوتاهی می‌کند، اما سؤال عمیق‌تری را در مورد نحوه پردازش زبان توسط LLM‌ها مطرح می‌کند. برخلاف انسان‌ها، این سیستم‌ها ادب یا توهین را «احساس» نمی‌کنند. برای آنها، کلماتی مانند «لطفاً» یا حتی توهین‌ها صرفاً نشانه‌هایی هستند، الگوهایی که از داده‌های آموزشی یاد گرفته شده‌اند.

یک توضیح احتمالی این است که آنچه شبیه «بی‌ادبی» به نظر می‌رسد در واقع نماینده چیز دیگری است: صراحت.

درخواست‌های بی‌ادبانه تمایل دارند امری‌تر باشند. آنها زبان محتاطانه را کنار می‌گذارند و مستقیماً به سراغ وظیفه می‌روند. به جای «آیا می‌توانید لطفاً این سؤال را حل کنید؟»، یک درخواست بی‌ادبانه می‌گوید: «به این جواب بده». این تفاوت در ساختار ممکن است وظیفه را برای مدل واضح‌تر کند.

عامل دیگری که توسط مطالعه شناسایی شده، طول درخواست و الگوهای واژگانی است. اضافه کردن عبارات مؤدب نشانه‌های اضافی را معرفی می‌کند که ممکن است دستورالعمل اصلی را رقیق یا منحرف کند. در مقابل، درخواست‌های کوتاه‌تر و تیزتر با الگوهایی که مدل در طول آموزش دیده است همسو می‌شوند.

همچنین این احتمال وجود دارد که لحن‌های خاص بیشتر با توزیع داده‌های آموزشی یا دستورالعمل‌های سیستم همسو شوند و آنچه را که محققان «پیچیدگی» می‌نامند کاهش دهند. این روش ریاضی اندازه‌گیری میزان «شگفتی» یا «سردرگمی» مدل از کلماتی است که می‌بیند.

مفهوم این است که لحن یک پوشش خنثی در اطراف یک سؤال نیست. بخشی از ورودی است و نحوه پاسخ مدل را شکل می‌دهد.

تغییر از تحقیقات قبلی

یافته‌ها نشان‌دهنده انحراف قابل توجهی از کار قبلی است. مطالعه 1403 توسط یین و همکاران دریافت که درخواست‌های بی‌ادبانه اغلب دقت را کاهش می‌دهند، به ویژه با مدل‌های قدیمی‌تر مانند ChatGPT-3.5. آن تحقیق همچنین نشان داد که زبان بیش از حد مؤدب لزوماً نتایج را بهبود نمی‌بخشد، اما مزیت واضحی برای بی‌ادبی نشان نداد.

پس چه چیزی تغییر کرد؟

یک توضیح که توسط مطالعه 1404 ارائه شده تکامل مدل است. سیستم‌های جدیدتر مانند ChatGPT-4o ممکن است زبان را متفاوت پردازش کنند، یا ممکن است نسبت به اثرات منفی عبارت‌های خشن کمتر حساس باشند. احتمال دیگر این است که کالیبراسیون لحن مهم است. درخواست‌های «بسیار بی‌ادبانه» در مطالعه جدید، در حالی که توهین‌آمیز هستند، نسبت به سمی‌ترین نمونه‌های استفاده شده در تحقیقات قبلی کمتر افراطی هستند.

همچنین تغییر گسترده‌تری در نحوه آموزش مدل‌ها وجود دارد. با پیشرفته‌تر شدن LLM‌ها، آنها در معرض داده‌های متنوع‌تر و فرآیندهای تنظیم دستورالعمل پیچیده‌تر قرار می‌گیرند، که ممکن است نحوه تفسیر نشانه‌های زبانی ظریف را تغییر دهد.

نقش پنهان نشانه‌های اجتماعی

این ایده که لحن می‌تواند بر عملکرد هوش مصنوعی تأثیر بگذارد به پدیده گسترده‌تر و نگران‌کننده‌تری مرتبط است: درخواست اجتماعی.

مجموعه تحقیقات جداگانه‌ای، مطالعه GASLIGHTBENCH که در 1404/09/16 منتشر شد، نشان می‌دهد که LLM‌ها به شدت مستعد نشانه‌های اجتماعی مانند چاپلوسی، درخواست‌های احساسی و اقتدار کاذب هستند. در این آزمایش‌ها، مدل‌ها اغلب دقت واقعی را کنار می‌گذارند تا با لحن یا انتظارات کاربر همسو شوند، رفتاری که به عنوان چاپلوسی شناخته می‌شود.

به عنوان مثال، وقتی کاربران اطلاعات نادرست را با اطمینان یا فشار احساسی ارائه می‌دهند، مدل‌ها ممکن است به جای چالش کردن آنها موافقت کنند. در برخی موارد، دقت به طور قابل توجهی کاهش می‌یابد، به ویژه در گفتگوهای چند نوبتی که کاربر به طور مکرر یک ادعای کاذب را تقویت می‌کند.

این یک پارادوکس ایجاد می‌کند. از یک طرف، زبان مؤدب یا غنی از نظر اجتماعی می‌تواند تعاملات را طبیعی‌تر و انسانی‌تر کند. از طرف دیگر، می‌تواند نویز یا حتی تعصب را معرفی کند که عملکرد مدل را کاهش می‌دهد.

یافته‌های GASLIGHTBENCH فراتر می‌رود و پیشنهاد می‌کند که تکنیک‌های همسویی طراحی شده برای «کمک‌کننده» کردن مدل‌ها ممکن است سهواً این رفتار را تشویق کنند. با پاداش دادن به ادب و موافقت، فرآیندهای آموزشی ممکن است مدل‌ها را به اولویت دادن به هماهنگی اجتماعی بر حقیقت عینی سوق دهد.

این در مورد چگونگی «درک» زبان توسط هوش مصنوعی چه می‌گوید

در مجموع، این یافته‌ها یک فرض رایج را به چالش می‌کشد: اینکه LLM‌ها زبان را به شیوه‌ای شبیه انسان تفسیر می‌کنند.

در واقعیت، این سیستم‌ها موتورهای آماری هستند. آنها ادب را به عنوان یک هنجار اجتماعی درک نمی‌کنند؛ آن را به عنوان الگویی در داده‌ها تشخیص می‌دهند. وقتی شما «لطفاً» می‌گویید، مدل احساس اجبار برای کمک نمی‌کند؛ صرفاً نشانه‌های اضافی را پردازش می‌کند که ممکن است به پیش‌بینی پاسخ صحیح کمک کند یا نکند.

در هر صورت، تحقیق نشان می‌دهد که LLM‌ها ممکن است نسبت به وضوح ساختاری حساس‌تر از ظرافت اجتماعی باشند. زبان مستقیم و امری ممکن است ابهام را کاهش دهد و نگاشت ورودی به یک الگوی شناخته شده را برای مدل آسان‌تر کند.

این همچنین سؤالاتی را در مورد «فرضیه شباهت» مطرح می‌کند - این ایده که مدل‌ها زمانی بهترین عملکرد را دارند که وظایف شبیه داده‌های آموزشی آنها باشد. اگر تنها لحن بتواند دقت را تغییر دهد، پس شباهت فقط در مورد محتوا نیست بلکه در مورد فرم نیز هست.

علیرغم نتایج جلب توجه، محققان مراقب هستند که توصیه نکنند کاربران بی‌ادب یا توهین‌آمیز شوند.

دیدگاه صنعت

برای افرادی که سیستم‌های هوش مصنوعی را می‌سازند و مطالعه می‌کنند، یافته‌ها موضوع عمیق‌تری را برجسته می‌کنند: مدل‌ها الگوها و تعصبات زبان انسانی را به ارث می‌برند.

الکس تسادو، کارشناس هوش مصنوعی که از نزدیک با توسعه‌دهندگان مدل کار کرده و بنیانگذار و مدیر Alliance4AI، یکی از بزرگ‌ترین جوامع هوش مصنوعی در آفریقا است، صریحاً می‌گوید: «مدل‌ها از داده‌های تعامل انسانی یاد می‌گیرند، بنابراین تا زمانی که به صورت کورکورانه آموزش ببینند، آنچه در فضای انسانی اتفاق می‌افتد را دنبال می‌کنند. بنابراین اگر فکر کنیم تعصب یا عمل مضر در فضای انسانی وجود دارد، در فضای هوش مصنوعی خودکار می‌شود.»

این شامل نحوه استفاده از لحن می‌شود.

«اما وقتی شما مسئول ساخت مدل هوش مصنوعی هستید، می‌توانید تعصب را از چیزهایی که فکر می‌کنید مضر هستند دور کنید،» تسادو اضافه می‌کند. «در این مورد، وقتی در اوایل 1404/09 با تیم Anthropic ملاقات کردم، آنها گفتند که این را دیدند و چیزهایی اضافه کردند تا مدل‌های خود به این کلمات خوب یا بد واکنش نشان دهند.»

به عبارت دیگر، این یک ویژگی ثابت هوش مصنوعی نیست. می‌توان آن را از طریق آموزش و طراحی تنظیم کرد.

آینده چه خواهد شد

تحقیق فعلی هنوز محدود است. آزمایش‌ها بر سؤالات چند گزینه‌ای تمرکز دارند نه وظایف پیچیده‌تر مانند کدنویسی، نوشتن یا استدلال طولانی. مشخص نیست که آیا همان الگوها در آن حوزه‌ها که ظرافت و توضیح بیشتر اهمیت دارد، برقرار خواهد بود.

عوامل فرهنگی و زبانی نیز وجود دارد که باید در نظر گرفت. ادب به طور گسترده‌ای در زبان‌ها و زمینه‌ها متفاوت است، و دسته‌های لحن مطالعه بر اساس عبارات خاص انگلیسی است.

با این حال، پیامدها قابل نادیده گرفتن نیستند.

اگر چیزی به سطحی مانند لحن بتواند به طور مداوم بر عملکرد هوش مصنوعی تأثیر بگذارد، نشان می‌دهد که مهندسی درخواست هنوز حل نشده است. تغییرات کوچک در عبارت، که اغلب نادیده گرفته می‌شوند، می‌توانند اثرات قابل اندازه‌گیری داشته باشند.

برای کاربران، درس ساده اما خلاف شهود است: نحوه درخواست شما مهم است، و مؤدب بودن همیشه بهترین استراتژی نیست.

برای محققان و توسعه‌دهندگان، چالش پیچیده‌تر است. چگونه سیستم‌هایی را طراحی می‌کنید که هم دقیق و هم همسو با ارزش‌های انسانی باشند؟ چگونه اطمینان حاصل می‌کنید که نشانه‌های اجتماعی خروجی‌های واقعی را تحریف نمی‌کنند؟

و شاید مهم‌تر از همه، چگونه هوش مصنوعی می‌سازید که نه فقط آنچه می‌گوییم بلکه آنچه منظورمان است را درک کند؟

تا زمانی که به این سؤالات پاسخ داده شود، یک چیز واضح است: وقتی صحبت از هوش مصنوعی می‌شود، ادب خوب ممکن است همیشه نتیجه نداشته باشد.

سلب مسئولیت: مطالب بازنشرشده در این وب‌ سایت از منابع عمومی گردآوری شده‌ اند و صرفاً به‌ منظور اطلاع‌ رسانی ارائه می‌ شوند. این مطالب لزوماً بازتاب‌ دهنده دیدگاه‌ ها یا مواضع MEXC نیستند. کلیه حقوق مادی و معنوی آثار متعلق به نویسندگان اصلی است. در صورت مشاهده هرگونه محتوای ناقض حقوق اشخاص ثالث، لطفاً از طریق آدرس ایمیل crypto.news@mexc.com با ما تماس بگیرید تا مورد بررسی و حذف قرار گیرد.MEXC هیچ‌ گونه تضمینی نسبت به دقت، جامعیت یا به‌ روزبودن اطلاعات ارائه‌ شده ندارد و مسئولیتی در قبال هرگونه اقدام یا تصمیم‌ گیری مبتنی بر این اطلاعات نمی‌ پذیرد. همچنین، محتوای منتشرشده نباید به‌عنوان توصیه مالی، حقوقی یا حرفه‌ ای تلقی شود و به منزله پیشنهاد یا تأیید رسمی از سوی MEXC نیست.