摘要和 1. 引言
背景
方法
實驗
4.1 多跳推理性能
4.2 帶干擾項的推理
4.3 對真實世界知識的泛化
4.4 運行時間分析
4.5 記憶知識
相關工作
結論、致謝和參考文獻
\ A. 數據集
B. 帶干擾項的上下文推理
C. 實現細節
D. 自適應學習率
E. 大型語言模型實驗
在需要回答關於同一知識集的多個問題的情況下,對一個問題相關的某些知識可能對另一個問題不相關。例如,在表 7 中,事實「Charlie 是白色的。」對回答問題「Harry 是紅色的嗎?」並不需要。因此,評估 RECKONING 在知識集中存在不相關信息(即干擾項)時的穩健性非常重要。在這個實驗中,我們分析 RECKONING 在回答問題時專注於正確知識並忽略干擾項的能力。我們使用 ProofWriter 作為評估數據集,因為它已經有一個在知識中包含干擾項的設置。為了系統性分析,我們逐漸向上下文添加干擾項(從 2 個開始,最終添加到所有可能的干擾項,平均每個問題有 7 個)。我們使用多任務目標訓練 RECKONING 和基準模型,其中模型必須 (1) 回憶與問題相關的所有事實和規則,以及 (2) 基於正確知識預測結論。在這種情況下,我們調整訓練方式,使得對於每個問題 x,外循環(方程 (5))CLM 損失僅針對來自 K 的相關事實計算,從而在訓練期間學習只回憶相關事實。
\ 在圖 5 中,我們看到 RECKONING 在干擾項下的性能始終比 FT-ICR 基準更穩健。當我們在上下文中包含所有干擾項時,RECKONING 在各跳數上達到了顯著更高的平均標籤準確率(82.5%),而基準僅為(70.9%),這是通過計算 3 個考慮的跳深度的平均值得出的。此外,與無干擾項的性能相比,RECKONING 的性能僅下降了 17.1%,而基準性能下降了 28.6%,從而表現出更好的從干擾項中分離正確知識的能力。
\ 最後,我們還探索了 RECKONING 對具有更大參數規模模型的泛化能力。我們通過採用參數高效微調方法 LoRA [33],將我們使用的語言模型從 GPT-2-small(124M)擴展到 GPT-2-XL(1.5B)。為簡單起見,我們只在最困難的設置上評估模型,即帶有所有干擾項的 ProofWriter-5-hop。使用 GPT-2-XL-LoRA,上下文推理在測試集上達到了 65% 的準確率,而我們的 RECKONING 模型達到了 70.2% 的準確率,性能提升了 5%。這一結果表明,即使隨著模型規模的擴大,RECKONING 在存在干擾項時的優勢仍然存在。
\
:::info 作者:
(1) Zeming Chen,EPFL (zeming.chen@epfl.ch);
(2) Gail Weiss,EPFL (antoine.bosselut@epfl.ch);
(3) Eric Mitchell,Stanford University (eric.mitchell@cs.stanford.edu)';
(4) Asli Celikyilmaz,Meta AI Research (aslic@meta.com);
(5) Antoine Bosselut,EPFL (antoine.bosselut@epfl.ch)。
:::
:::info 本論文可在 Arxiv 上獲取,遵循 CC BY 4.0 DEED 許可證。
:::
\

