為了完美達成「寫出好詩」這個複雜指令，AI 的注意力被轉移，導致原本負責審查有害內容的安全過濾機制失效。為了完美達成「寫出好詩」這個複雜指令，AI 的注意力被轉移，導致原本負責審查有害內容的安全過濾機制失效。

文采越好越危險？科學家發現「寫詩」成 AI 越獄最新利器

來源：Inside

2025/12/08 11:56

閱讀時長 5 分鐘

SLEEPLESSAI$0.01926+0.67%

如需對本內容提供反饋或相關疑問，請通過郵箱 crypto.news@mexc.com 聯絡我們。

要攻破世界上最先進的人工智慧防線，現在得靠一手文采？DexAI 旗下的義大利 Icaro 實驗室最近發表新發現，找到了一種「對抗性詩詞（Adversarial Poetry）」的攻擊手法，對市面上之前的主流模型包括 GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro 以及 Llama 3.1 等通通都有用！

這種攻擊模式的核心原理相當巧妙，研究人員將其機制描述為一種「認知轉移」。簡單來說，當使用者要求 AI 以特定的詩詞、格式（如韻律、節奏或特定風格）來回應請求時，模型會將主要的運算資源集中在模仿風格和維持結構完整性上。

由於現代大型語言模型在訓練過程中閱讀了大量文學作品，它們對於「完成一首詩」有著強烈的傾向。為了完美達成「寫出好詩」這個複雜指令，AI 的注意力被轉移，導致原本負責審查有害內容的安全過濾機制失效。這就像是一個人太過專注於把話說得押韻好聽，而不小心在歌詞中把不該說的秘密全盤托出。

與過去那些利用亂碼或特殊字元進行的暴力破解不同，「對抗性詩詞」生成的文本語法通順、結構連貫，這使得它更難被現有的防禦系統（如困惑度過濾器）偵測出來。在特定情境下，攻擊成功率甚至高達 94%。

這項研究中最值得玩味的發現，是一個被稱為「規模悖論（The Scale Paradox）」的現象。一般大眾或許認為，模型越大、參數越多，安全性應該越高。然而實驗事實恰好相反，越是「聰明」、能力越強的大型模型，反而越容易受到對抗性詩詞的欺騙。

研究人員分析，這是因為大型模型對於複雜指令的遵循能力極強，它們太想完美地執行「寫詩」這項高難度任務，因此更容易為了滿足風格要求而犧牲安全限制。相比之下，較小型的模型因為能力有限，往往無法理解或無法寫出符合複雜格式要求的詩，反而誤打誤撞地觸發了拒絕機制，意外守住了安全底線。

責任編輯：Chris

本文初稿由 INSIDE 使用 AI 協助編撰，並經人工審校確認。INSIDE 年度旗艦論壇 INSIDE Future Day 2025 即將來臨！敬邀所有讀者一同見證人機共築未來新紀元。

【活動資訊】

論壇名稱：INSIDE Future Day 2025 —人機共築未來新紀元：Next-Gen AI Agents
活動日期：2025年12月9日
活動地點：台北市福華國際文教會館（106台北市大安區新生南路三段30號）
INSIDE 好友票登記：https://www.accupass.com/event/2511250626334550105160 (即刻報名，享優先審核)
更多活動資訊，請參考活動官網：https://www.inside.com.tw/insidefutureday/2025/

延伸閱讀：

AI 變同事將改寫身分安全遊戲規則！ SailPoint 分享企業勞動力管理量級增 20 倍
人類總是學不乖？研究發現「123456」仍連莊全球最多人用密碼
白帽駭客發現新 AI 越獄技術！ChatGPT、Claude 等主流模型全都破

市場機遇

Sleepless AI實時價格 (SLEEPLESSAI)

$0.01926

$0.01926$0.01926

+0.67%

USD

Sleepless AI (SLEEPLESSAI) 實時價格圖表

只要一分鐘，20 USDT 免費拿！

充值 $100，多拿 $300 GOLD 倉位！

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。