要攻破世界上最先進的人工智慧防線,現在得靠一手文采?DexAI 旗下的義大利 Icaro 實驗室最近發表新發現,找到了一種「對抗性詩詞(Adversarial Poetry)」的攻擊手法,對市面上之前的主流模型包括 GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro 以及 Llama 3.1 等通通都有用!
這種攻擊模式的核心原理相當巧妙,研究人員將其機制描述為一種「認知轉移」。簡單來說,當使用者要求 AI 以特定的詩詞、格式(如韻律、節奏或特定風格)來回應請求時,模型會將主要的運算資源集中在模仿風格和維持結構完整性上。
由於現代大型語言模型在訓練過程中閱讀了大量文學作品,它們對於「完成一首詩」有著強烈的傾向。為了完美達成「寫出好詩」這個複雜指令,AI 的注意力被轉移,導致原本負責審查有害內容的安全過濾機制失效。這就像是一個人太過專注於把話說得押韻好聽,而不小心在歌詞中把不該說的秘密全盤托出 。
與過去那些利用亂碼或特殊字元進行的暴力破解不同,「對抗性詩詞」生成的文本語法通順、結構連貫,這使得它更難被現有的防禦系統(如困惑度過濾器)偵測出來。在特定情境下,攻擊成功率甚至高達 94%。
這項研究中最值得玩味的發現,是一個被稱為「規模悖論(The Scale Paradox)」的現象。一般大眾或許認為,模型越大、參數越多,安全性應該越高。然而實驗事實恰好相反,越是「聰明」、能力越強的大型模型,反而越容易受到對抗性詩詞的欺騙。
研究人員分析,這是因為大型模型對於複雜指令的遵循能力極強,它們太想完美地執行「寫詩」這項高難度任務,因此更容易為了滿足風格要求而犧牲安全限制。相比之下,較小型的模型因為能力有限,往往無法理解或無法寫出符合複雜格式要求的詩,反而誤打誤撞地觸發了拒絕機制,意外守住了安全底線 。
責任編輯:Chris
本文初稿由 INSIDE 使用 AI 協助編撰,並經人工審校確認。INSIDE 年度旗艦論壇 INSIDE Future Day 2025 即將來臨!敬邀所有讀者一同見證人機共築未來新紀元。
延伸閱讀:
AI 變同事將改寫身分安全遊戲規則! SailPoint 分享企業勞動力管理量級增 20 倍
人類總是學不乖?研究發現「123456」仍連莊全球最多人用密碼
白帽駭客發現新 AI 越獄技術!ChatGPT、Claude 等主流模型全都破

