L'étude confirme que la capacité de RECKONING à démêler les connaissances pertinentes est maintenue même lors de la mise à l'échelle de la taille du modèle en utilisant GPT-2-XL-LoRAL'étude confirme que la capacité de RECKONING à démêler les connaissances pertinentes est maintenue même lors de la mise à l'échelle de la taille du modèle en utilisant GPT-2-XL-LoRA

Robustesse aux distracteurs : RECKONING surpasse significativement FT-ICR dans le raisonnement sur les faits non pertinents

Abstrait et 1. Introduction

  1. Contexte

  2. Méthode

  3. Expériences

    4.1 Performance de raisonnement multi-hop

    4.2 Raisonnement avec distracteurs

    4.3 Généralisation aux connaissances du monde réel

    4.4 Analyse du temps d'exécution

    4.5 Mémorisation des connaissances

  4. Travaux connexes

  5. Conclusion, Remerciements et Références

\ A. Ensemble de données

B. Raisonnement en contexte avec distracteurs

C. Détails d'implémentation

D. Taux d'apprentissage adaptatif

E. Expériences avec des modèles de langage de grande taille

4.2 Raisonnement avec distracteurs

Dans les cas où plusieurs questions doivent être répondues sur le même ensemble de connaissances, certaines connaissances pertinentes pour une question seront probablement non pertinentes pour une autre question. Par exemple, dans le Tableau 7, le fait "Charlie est Blanc." n'est pas nécessaire pour répondre à la question "Harry est rouge ?". Il est donc important d'évaluer la robustesse de RECKONING lorsqu'il existe des informations non pertinentes (c'est-à-dire des distracteurs) dans l'ensemble de connaissances. Dans cette expérience, nous analysons la capacité de RECKONING à se concentrer sur les connaissances correctes et à ignorer les distracteurs lors de la réponse aux questions. Nous utilisons ProofWriter comme ensemble de données d'évaluation car il dispose déjà d'un paramètre avec des distracteurs inclus dans les connaissances. Pour une analyse systématique, nous ajoutons progressivement des distracteurs au contexte (en commençant par 2 et en terminant par tous les distracteurs possibles, dont il y a une moyenne de 7 par question). Nous entraînons RECKONING et la référence en utilisant l'objectif multi-tâches, où le modèle doit (1) rappeler tous les faits et règles pertinents à la question et (2) prédire la conclusion basée sur les connaissances correctes. Dans ce cas, nous adaptons l'entraînement de sorte que pour chaque question x, la perte CLM de la boucle externe (Équation (5)) est calculée uniquement par rapport aux faits pertinents de K, apprenant ainsi à ne rappeler que les faits pertinents pendant l'entraînement.

\ Dans la Figure 5, nous voyons que la performance de RECKONING est constamment plus robuste face aux distracteurs que la référence FT-ICR. Lorsque nous incluons tous les distracteurs dans le contexte, RECKONING atteint une précision d'étiquette moyenne significativement plus élevée (82,5%) à travers les sauts que la référence (70,9%), calculée par la moyenne des 3 profondeurs de saut considérées. De plus, par rapport à la performance sans distracteurs, la performance de RECKONING ne chute que de 17,1% tandis que la performance de référence chute de 28,6%, démontrant ainsi une meilleure capacité à démêler les connaissances correctes des distracteurs.

\ Enfin, nous explorons également la généralisabilité de RECKONING aux modèles avec une taille de paramètre plus grande. Nous augmentons la taille du modèle de langage que nous avons utilisé, GPT-2-small (124M), à GPT-2-XL (1,5B) en adoptant une méthode de finetuning efficace en paramètres LoRA [33]. Pour simplifier, nous évaluons uniquement les modèles sur les paramètres les plus difficiles, c'est-à-dire ProofWriter-5-hop avec tous les distracteurs. Avec GPT-2-XL-LoRA, le raisonnement en contexte atteint 65% de précision sur l'ensemble de test, tandis que notre modèle RECKONING atteint 70,2% de précision, soit un gain de performance de 5%. Ce résultat suggère que les avantages de RECKONING en présence de distracteurs se maintiennent même lorsque les modèles augmentent en taille.

\

:::info Auteurs:

(1) Zeming Chen, EPFL (zeming.chen@epfl.ch);

(2) Gail Weiss, EPFL (antoine.bosselut@epfl.ch);

(3) Eric Mitchell, Stanford University (eric.mitchell@cs.stanford.edu)';

(4) Asli Celikyilmaz, Meta AI Research (aslic@meta.com);

(5) Antoine Bosselut, EPFL (antoine.bosselut@epfl.ch).

:::


:::info Cet article est disponible sur arxiv sous licence CC BY 4.0 DEED.

:::

\

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter service@support.mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.