該研究確認了 RECKONING 解析相關知識的能力即使在使用 GPT-2-XL-LoRA 擴展模型規模時仍能保持該研究確認了 RECKONING 解析相關知識的能力即使在使用 GPT-2-XL-LoRA 擴展模型規模時仍能保持

干擾因素穩健性:RECKONING 在處理無關事實的推理上顯著優於 FT-ICR

2025/10/25 01:09
閱讀時長 5 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

摘要和 1. 引言

  1. 背景

  2. 方法

  3. 實驗

    4.1 多跳推理性能

    4.2 帶干擾項的推理

    4.3 對真實世界知識的泛化

    4.4 運行時間分析

    4.5 記憶知識

  4. 相關工作

  5. 結論、致謝和參考文獻

\ A. 數據集

B. 帶干擾項的上下文推理

C. 實現細節

D. 自適應學習率

E. 大型語言模型實驗

4.2 帶干擾項的推理

在需要回答關於同一知識集的多個問題的情況下,對一個問題相關的某些知識可能對另一個問題不相關。例如,在表 7 中,事實「Charlie 是白色的。」對回答問題「Harry 是紅色的嗎?」並不需要。因此,評估 RECKONING 在知識集中存在不相關信息(即干擾項)時的穩健性非常重要。在這個實驗中,我們分析 RECKONING 在回答問題時專注於正確知識並忽略干擾項的能力。我們使用 ProofWriter 作為評估數據集,因為它已經有一個在知識中包含干擾項的設置。為了系統性分析,我們逐漸向上下文添加干擾項(從 2 個開始,最終添加到所有可能的干擾項,平均每個問題有 7 個)。我們使用多任務目標訓練 RECKONING 和基準模型,其中模型必須 (1) 回憶與問題相關的所有事實和規則,以及 (2) 基於正確知識預測結論。在這種情況下,我們調整訓練方式,使得對於每個問題 x,外循環(方程 (5))CLM 損失僅針對來自 K 的相關事實計算,從而在訓練期間學習只回憶相關事實。

\ 在圖 5 中,我們看到 RECKONING 在干擾項下的性能始終比 FT-ICR 基準更穩健。當我們在上下文中包含所有干擾項時,RECKONING 在各跳數上達到了顯著更高的平均標籤準確率(82.5%),而基準僅為(70.9%),這是通過計算 3 個考慮的跳深度的平均值得出的。此外,與無干擾項的性能相比,RECKONING 的性能僅下降了 17.1%,而基準性能下降了 28.6%,從而表現出更好的從干擾項中分離正確知識的能力。

\ 最後,我們還探索了 RECKONING 對具有更大參數規模模型的泛化能力。我們通過採用參數高效微調方法 LoRA [33],將我們使用的語言模型從 GPT-2-small(124M)擴展到 GPT-2-XL(1.5B)。為簡單起見,我們只在最困難的設置上評估模型,即帶有所有干擾項的 ProofWriter-5-hop。使用 GPT-2-XL-LoRA,上下文推理在測試集上達到了 65% 的準確率,而我們的 RECKONING 模型達到了 70.2% 的準確率,性能提升了 5%。這一結果表明,即使隨著模型規模的擴大,RECKONING 在存在干擾項時的優勢仍然存在。

\

:::info 作者:

(1) Zeming Chen,EPFL (zeming.chen@epfl.ch);

(2) Gail Weiss,EPFL (antoine.bosselut@epfl.ch);

(3) Eric Mitchell,Stanford University (eric.mitchell@cs.stanford.edu)';

(4) Asli Celikyilmaz,Meta AI Research (aslic@meta.com);

(5) Antoine Bosselut,EPFL (antoine.bosselut@epfl.ch)。

:::


:::info 本論文可在 Arxiv 上獲取,遵循 CC BY 4.0 DEED 許可證。

:::

\

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

$30,000 等值 PRL + 15,000 USDT

$30,000 等值 PRL + 15,000 USDT$30,000 等值 PRL + 15,000 USDT

充值並交易 PRL,即可提升您的獎勵!