Исследование подтверждает, что способность RECKONING распутывать соответствующие знания сохраняется даже при масштабировании размера модели с использованием GPT-2-XL-LoRAИсследование подтверждает, что способность RECKONING распутывать соответствующие знания сохраняется даже при масштабировании размера модели с использованием GPT-2-XL-LoRA

Устойчивость к отвлекающим факторам: RECKONING значительно превосходит FT-ICR в рассуждениях о нерелевантных фактах

2025/10/25 01:09
3м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Резюме и 1. Введение

  1. Фон

  2. Метод

  3. Эксперименты

    4.1 Производительность многоходового рассуждения

    4.2 Рассуждение с дистракторами

    4.3 Обобщение на знания реального мира

    4.4 Анализ времени выполнения

    4.5 Запоминание знаний

  4. Связанные работы

  5. Заключение, благодарности и ссылки

\ A. Набор данных

B. Контекстное рассуждение с дистракторами

C. Детали реализации

D. Адаптивная скорость обучения

E. Эксперименты с большими языковыми моделями

4.2 Рассуждение с дистракторами

В случаях, когда на один и тот же набор знаний необходимо ответить на несколько вопросов, некоторые знания, релевантные для одного вопроса, вероятно, будут нерелевантными для другого. Например, в Таблице 7 факт "Чарли белый" не нужен для ответа на вопрос "Гарри красный?". Таким образом, важно оценить устойчивость RECKONING при наличии нерелевантной информации (т.е. дистракторов) в наборе знаний. В этом эксперименте мы анализируем способность RECKONING фокусироваться на правильных знаниях и игнорировать дистракторы при ответе на вопросы. Мы используем ProofWriter в качестве набора данных для оценки, поскольку он уже имеет настройку с дистракторами, включенными в знания. Для систематического анализа мы постепенно добавляем дистракторы в контекст (начиная с 2 и заканчивая всеми возможными дистракторами, которых в среднем 7 на вопрос). Мы обучаем RECKONING и базовую модель, используя многозадачную цель, где модель должна (1) вспомнить все факты и правила, релевантные для вопроса, и (2) предсказать вывод на основе правильных знаний. В этом случае мы адаптируем обучение таким образом, что для каждого вопроса x потеря CLM внешнего цикла (Уравнение (5)) вычисляется только относительно релевантных фактов из K, тем самым обучаясь вспоминать только релевантные факты во время обучения.

\ На Рисунке 5 мы видим, что производительность RECKONING стабильно более устойчива к дистракторам, чем базовая модель FT-ICR. Когда мы включаем все дистракторы в контекст, RECKONING достигает значительно более высокой средней точности меток (82,5%) по всем переходам, чем базовая модель (70,9%), как вычислено по среднему значению 3 рассматриваемых глубин переходов. Кроме того, по сравнению с производительностью без дистракторов, производительность RECKONING падает только на 17,1%, в то время как производительность базовой модели падает на 28,6%, тем самым демонстрируя лучшую способность отделять правильные знания от дистракторов.

\ Наконец, мы также исследуем обобщаемость RECKONING на модели с большим размером параметров. Мы масштабируем используемую нами языковую модель, GPT-2-small (124M), до GPT-2-XL (1,5B), применяя метод эффективной тонкой настройки параметров LoRA [33]. Для простоты мы оцениваем модели только на самых сложных настройках, т.е. ProofWriter-5-hop со всеми дистракторами. С GPT-2-XL-LoRA контекстное рассуждение достигает 65% точности на тестовом наборе, в то время как наша модель RECKONING достигает 70,2% точности, что на 5% больше. Этот результат предполагает, что преимущества RECKONING в присутствии дистракторов сохраняются даже при увеличении размера моделей.

\

:::info Авторы:

(1) Zeming Chen, EPFL (zeming.chen@epfl.ch);

(2) Gail Weiss, EPFL (antoine.bosselut@epfl.ch);

(3) Eric Mitchell, Stanford University (eric.mitchell@cs.stanford.edu)';

(4) Asli Celikyilmaz, Meta AI Research (aslic@meta.com);

(5) Antoine Bosselut, EPFL (antoine.bosselut@epfl.ch).

:::


:::info Эта статья доступна на arxiv по лицензии CC BY 4.0 DEED.

:::

\

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

30 000$ в PRL + 15 000 USDT

30 000$ в PRL + 15 000 USDT30 000$ в PRL + 15 000 USDT

Вносите депозит и торгуйте PRL для роста наград!