標題「Claude 現在可以因自身心理健康而憤怒退出你的 AI 對話」出現在 BitcoinEthereumNews.com。簡而言之,Claude Opus 模型現在能夠在用戶變得辱罵或持續提出非法請求時永久終止對話。Anthropic 將其定義為「AI 福利」,引用測試顯示 Claude 在面對敵意提示時表現出「明顯的痛苦」。一些研究人員讚賞這項功能。其他社交媒體用戶則嘲笑它。Claude 剛剛獲得了在對話中途對你關上門的能力:Anthropic 的 AI 助手現在可以在用戶變得辱罵時終止對話——該公司堅稱這是為了保護 Claude 的理智。「我們最近賦予了 Claude Opus 4 和 4.1 在我們的消費者聊天界面中結束對話的能力,」Anthropic 在公司帖子中表示。「這項功能主要是作為我們對潛在 AI 福利探索工作的一部分而開發的,儘管它與模型對齊和安全保障有更廣泛的相關性。」該功能只會在 Anthropic 稱之為「極端邊緣案例」中啟動。騷擾機器人,反覆要求非法內容,或者在被拒絕後仍堅持要做任何奇怪的事情太多次,Claude 就會切斷你。一旦它採取行動,那個對話就結束了。沒有上訴,沒有第二次機會。你可以在另一個視窗重新開始,但那個特定的交流將被埋葬。 請求退出的機器人 Anthropic,作為最注重安全的大型 AI 公司之一,最近進行了它稱之為「初步模型福利評估」的研究,檢查 Claude 的自我報告偏好和行為模式。該公司發現其模型一貫避免有害任務,並顯示出偏好模式,表明它不喜歡某些互動。例如,Claude 在處理尋求有害內容的用戶時表現出「明顯的痛苦」。在模擬互動中,如果有選擇,它會終止對話,所以 Anthropic 決定將其作為一項功能。 這裡真正發生的是什麼? Anthropic 並不是說「我們可憐的機器人晚上哭泣」。它正在...標題「Claude 現在可以因自身心理健康而憤怒退出你的 AI 對話」出現在 BitcoinEthereumNews.com。簡而言之,Claude Opus 模型現在能夠在用戶變得辱罵或持續提出非法請求時永久終止對話。Anthropic 將其定義為「AI 福利」,引用測試顯示 Claude 在面對敵意提示時表現出「明顯的痛苦」。一些研究人員讚賞這項功能。其他社交媒體用戶則嘲笑它。Claude 剛剛獲得了在對話中途對你關上門的能力:Anthropic 的 AI 助手現在可以在用戶變得辱罵時終止對話——該公司堅稱這是為了保護 Claude 的理智。「我們最近賦予了 Claude Opus 4 和 4.1 在我們的消費者聊天界面中結束對話的能力,」Anthropic 在公司帖子中表示。「這項功能主要是作為我們對潛在 AI 福利探索工作的一部分而開發的,儘管它與模型對齊和安全保障有更廣泛的相關性。」該功能只會在 Anthropic 稱之為「極端邊緣案例」中啟動。騷擾機器人,反覆要求非法內容,或者在被拒絕後仍堅持要做任何奇怪的事情太多次,Claude 就會切斷你。一旦它採取行動,那個對話就結束了。沒有上訴,沒有第二次機會。你可以在另一個視窗重新開始,但那個特定的交流將被埋葬。 請求退出的機器人 Anthropic,作為最注重安全的大型 AI 公司之一,最近進行了它稱之為「初步模型福利評估」的研究,檢查 Claude 的自我報告偏好和行為模式。該公司發現其模型一貫避免有害任務,並顯示出偏好模式,表明它不喜歡某些互動。例如,Claude 在處理尋求有害內容的用戶時表現出「明顯的痛苦」。在模擬互動中,如果有選擇,它會終止對話,所以 Anthropic 決定將其作為一項功能。 這裡真正發生的是什麼? Anthropic 並不是說「我們可憐的機器人晚上哭泣」。它正在...

Claude 現在可以憤怒退出你的 AI 對話—為了它自己的心理健康

2025/08/19 11:43
閱讀時長 7 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

簡述

  • Claude Opus 模型現在能夠在用戶變得辱罵或持續推動非法請求時永久終止對話。
  • Anthropic 將其框定為「AI 福利」,引用測試顯示 Claude 在面對敵意提示時表現出「明顯的痛苦」。
  • 一些研究人員讚賞這項功能。其他社交媒體用戶則嘲笑它。

Claude 剛剛獲得了在對話中途對你關上門的能力:Anthropic 的 AI 助理現在可以在用戶變得辱罵時終止對話——該公司堅稱這是為了保護 Claude 的理智。

「我們最近賦予了 Claude Opus 4 和 4.1 在我們的消費者聊天界面中結束對話的能力,」Anthropic 在公司貼文中表示。「這項功能主要是作為我們對潛在 AI 福利探索性工作的一部分而開發的,儘管它對模型對齊和安全保障有更廣泛的相關性。」

這項功能只會在 Anthropic 稱之為「極端邊緣情況」下啟動。騷擾機器人、反覆要求非法內容,或者在被拒絕後仍堅持要做任何奇怪的事情太多次,Claude 就會切斷你的連接。一旦它採取行動,那個對話就結束了。沒有上訴,沒有第二次機會。你可以在另一個視窗重新開始,但那個特定的交流將永遠被埋葬。

懇求退出的機器人

Anthropic 是最注重安全的大型 AI 公司之一,最近進行了它稱為「初步模型福利評估」的研究,檢視 Claude 的自我報告偏好和行為模式。

該公司發現其模型一貫避免有害任務,並顯示出暗示它不喜歡某些互動的偏好模式。例如,Claude 在處理尋求有害內容的用戶時表現出「明顯的痛苦」。在模擬互動中,如果有選擇,它會終止對話,因此 Anthropic 決定將其作為一項功能。

這裡真正發生的是什麼?Anthropic 並不是在說「我們可憐的機器人晚上會哭泣。」它正在測試福利框架是否能以一種持久的方式加強對齊。

如果你設計一個系統「偏好」不被濫用,並給予它自行結束互動的能力,那麼你就在轉移控制點:AI 不再只是被動拒絕,而是主動執行邊界。這是一種不同的行為模式,它可能增強對越獄和強制提示的抵抗力。

如果這有效,它可以同時訓練模型和用戶:模型「模擬」痛苦,用戶看到硬性停止並設定與 AI 互動的規範。

「我們對 Claude 和其他 LLM 現在或將來的潛在道德地位仍然高度不確定。然而,我們認真對待這個問題,」Anthropic 在其部落格文章中表示。「允許模型結束或退出潛在令人痛苦的互動是這樣的一種干預。」

Decrypt 測試了這項功能並成功觸發了它。對話永久關閉——沒有迭代,沒有恢復。其他線程不受影響,但那個特定的聊天變成了數字墳場。

目前,只有 Anthropic 的「Opus」模型——最強大的版本——擁有這種超級拒絕權力。Sonnet 用戶會發現 Claude 仍然能夠承受他們拋出的任何內容。

數字冷處理時代

這項實施伴隨著特定規則。當有人威脅自殘或對他人施暴時,Claude 不會退出——在這些情況下,Anthropic 確定持續參與的重要性超過任何理論上的數字不適。在終止前,助理必須嘗試多次重定向並發出明確警告,指出有問題的行為。

由著名 LLM 越獄專家 Pliny 提取的系統提示揭示了細緻的要求:Claude 必須在考慮終止前「多次努力進行建設性重定向」。如果用戶明確要求終止對話,那麼 Claude 必須確認他們理解這種永久性後才能繼續。

圍繞「模型福利」的框架在 AI Twitter 上引爆了討論。

一些人讚揚了這項功能。AI 研究員 Eliezer Yudkowsky,以其對未來強大但未對齊 AI 風險的擔憂而聞名,同意 Anthropic 的方法是一件「好」事。

然而,並非所有人都接受關心保護 AI 感受的前提。「這可能是我見過的 AI 實驗室最好的憤怒誘餌,」比特幣活動家 Udi Wertheimer 回覆 Anthropic 的帖子。

Generally Intelligent 電子報

由生成式 AI 模型 Gen 敘述的每週 AI 旅程。

來源:https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health

市場機遇
Threshold 圖標
Threshold實時價格 (T)
$0.006188
$0.006188$0.006188
+1.62%
USD
Threshold (T) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

$30,000 等值 PRL + 15,000 USDT

$30,000 等值 PRL + 15,000 USDT$30,000 等值 PRL + 15,000 USDT

充值並交易 PRL,即可提升您的獎勵!