買幣行情現貨交易合約OIL 理財活動中心

該研究確認了 RECKONING 解析相關知識的能力即使在使用 GPT-2-XL-LoRA 擴展模型規模時仍能保持該研究確認了 RECKONING 解析相關知識的能力即使在使用 GPT-2-XL-LoRA 擴展模型規模時仍能保持

干擾因素穩健性：RECKONING 在處理無關事實的推理上顯著優於 FT-ICR

來源：Hackernoon

2025/10/25 01:09

閱讀時長 5 分鐘

如需對本內容提供反饋或相關疑問，請通過郵箱 crypto.news@mexc.com 聯絡我們。

連結表格

摘要和 1. 引言

背景
方法
實驗

4.1 多跳推理性能

4.2 帶干擾項的推理

4.3 對真實世界知識的泛化

4.4 運行時間分析

4.5 記憶知識
相關工作
結論、致謝和參考文獻

\ A. 數據集

B. 帶干擾項的上下文推理

C. 實現細節

D. 自適應學習率

E. 大型語言模型實驗

4.2 帶干擾項的推理

在需要回答關於同一知識集的多個問題的情況下，對一個問題相關的某些知識可能對另一個問題不相關。例如，在表 7 中，事實「Charlie 是白色的。」對回答問題「Harry 是紅色的嗎？」並不需要。因此，評估 RECKONING 在知識集中存在不相關信息（即干擾項）時的穩健性非常重要。在這個實驗中，我們分析 RECKONING 在回答問題時專注於正確知識並忽略干擾項的能力。我們使用 ProofWriter 作為評估數據集，因為它已經有一個在知識中包含干擾項的設置。為了系統性分析，我們逐漸向上下文添加干擾項（從 2 個開始，最終添加到所有可能的干擾項，平均每個問題有 7 個）。我們使用多任務目標訓練 RECKONING 和基準模型，其中模型必須 (1) 回憶與問題相關的所有事實和規則，以及 (2) 基於正確知識預測結論。在這種情況下，我們調整訓練方式，使得對於每個問題 x，外循環（方程 (5)）CLM 損失僅針對來自 K 的相關事實計算，從而在訓練期間學習只回憶相關事實。

\ 在圖 5 中，我們看到 RECKONING 在干擾項下的性能始終比 FT-ICR 基準更穩健。當我們在上下文中包含所有干擾項時，RECKONING 在各跳數上達到了顯著更高的平均標籤準確率（82.5%），而基準僅為（70.9%），這是通過計算 3 個考慮的跳深度的平均值得出的。此外，與無干擾項的性能相比，RECKONING 的性能僅下降了 17.1%，而基準性能下降了 28.6%，從而表現出更好的從干擾項中分離正確知識的能力。

\ 最後，我們還探索了 RECKONING 對具有更大參數規模模型的泛化能力。我們通過採用參數高效微調方法 LoRA [33]，將我們使用的語言模型從 GPT-2-small（124M）擴展到 GPT-2-XL（1.5B）。為簡單起見，我們只在最困難的設置上評估模型，即帶有所有干擾項的 ProofWriter-5-hop。使用 GPT-2-XL-LoRA，上下文推理在測試集上達到了 65% 的準確率，而我們的 RECKONING 模型達到了 70.2% 的準確率，性能提升了 5%。這一結果表明，即使隨著模型規模的擴大，RECKONING 在存在干擾項時的優勢仍然存在。

:::info 作者：

(1) Zeming Chen，EPFL (zeming.chen@epfl.ch)；

(2) Gail Weiss，EPFL (antoine.bosselut@epfl.ch)；

(3) Eric Mitchell，Stanford University (eric.mitchell@cs.stanford.edu)'；

(4) Asli Celikyilmaz，Meta AI Research (aslic@meta.com)；

(5) Antoine Bosselut，EPFL (antoine.bosselut@epfl.ch)。

:::

:::info 本論文可在 Arxiv 上獲取，遵循 CC BY 4.0 DEED 許可證。

:::

只要一分鐘，20 USDT 免費拿！

充值 $100，多拿 $300 GOLD 倉位！

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。