Резюме и 1. Введение
Фон
Метод
Эксперименты
4.1 Производительность многоходового рассуждения
4.2 Рассуждение с дистракторами
4.3 Обобщение на знания реального мира
4.4 Анализ времени выполнения
4.5 Запоминание знаний
Связанные работы
Заключение, благодарности и ссылки
\ A. Набор данных
B. Контекстное рассуждение с дистракторами
C. Детали реализации
D. Адаптивная скорость обучения
E. Эксперименты с большими языковыми моделями
В случаях, когда на один и тот же набор знаний необходимо ответить на несколько вопросов, некоторые знания, релевантные для одного вопроса, вероятно, будут нерелевантными для другого. Например, в Таблице 7 факт "Чарли белый" не нужен для ответа на вопрос "Гарри красный?". Таким образом, важно оценить устойчивость RECKONING при наличии нерелевантной информации (т.е. дистракторов) в наборе знаний. В этом эксперименте мы анализируем способность RECKONING фокусироваться на правильных знаниях и игнорировать дистракторы при ответе на вопросы. Мы используем ProofWriter в качестве набора данных для оценки, поскольку он уже имеет настройку с дистракторами, включенными в знания. Для систематического анализа мы постепенно добавляем дистракторы в контекст (начиная с 2 и заканчивая всеми возможными дистракторами, которых в среднем 7 на вопрос). Мы обучаем RECKONING и базовую модель, используя многозадачную цель, где модель должна (1) вспомнить все факты и правила, релевантные для вопроса, и (2) предсказать вывод на основе правильных знаний. В этом случае мы адаптируем обучение таким образом, что для каждого вопроса x потеря CLM внешнего цикла (Уравнение (5)) вычисляется только относительно релевантных фактов из K, тем самым обучаясь вспоминать только релевантные факты во время обучения.
\ На Рисунке 5 мы видим, что производительность RECKONING стабильно более устойчива к дистракторам, чем базовая модель FT-ICR. Когда мы включаем все дистракторы в контекст, RECKONING достигает значительно более высокой средней точности меток (82,5%) по всем переходам, чем базовая модель (70,9%), как вычислено по среднему значению 3 рассматриваемых глубин переходов. Кроме того, по сравнению с производительностью без дистракторов, производительность RECKONING падает только на 17,1%, в то время как производительность базовой модели падает на 28,6%, тем самым демонстрируя лучшую способность отделять правильные знания от дистракторов.
\ Наконец, мы также исследуем обобщаемость RECKONING на модели с большим размером параметров. Мы масштабируем используемую нами языковую модель, GPT-2-small (124M), до GPT-2-XL (1,5B), применяя метод эффективной тонкой настройки параметров LoRA [33]. Для простоты мы оцениваем модели только на самых сложных настройках, т.е. ProofWriter-5-hop со всеми дистракторами. С GPT-2-XL-LoRA контекстное рассуждение достигает 65% точности на тестовом наборе, в то время как наша модель RECKONING достигает 70,2% точности, что на 5% больше. Этот результат предполагает, что преимущества RECKONING в присутствии дистракторов сохраняются даже при увеличении размера моделей.
\
:::info Авторы:
(1) Zeming Chen, EPFL (zeming.chen@epfl.ch);
(2) Gail Weiss, EPFL (antoine.bosselut@epfl.ch);
(3) Eric Mitchell, Stanford University (eric.mitchell@cs.stanford.edu)';
(4) Asli Celikyilmaz, Meta AI Research (aslic@meta.com);
(5) Antoine Bosselut, EPFL (antoine.bosselut@epfl.ch).
:::
:::info Эта статья доступна на arxiv по лицензии CC BY 4.0 DEED.
:::
\


