O estudo confirma que a capacidade do RECKONING de separar conhecimento relevante é mantida mesmo quando se aumenta o tamanho do modelo usando GPT-2-XL-LoRAO estudo confirma que a capacidade do RECKONING de separar conhecimento relevante é mantida mesmo quando se aumenta o tamanho do modelo usando GPT-2-XL-LoRA

Robustez de Distração: RECKONING Supera Significativamente FT-ICR no Raciocínio Sobre Factos Irrelevantes

2025/10/25 01:09
Leu 3 min
Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em crypto.news@mexc.com

Resumo e 1. Introdução

  1. Contexto

  2. Método

  3. Experiências

    4.1 Desempenho de Raciocínio Multi-hop

    4.2 Raciocínio com Distratores

    4.3 Generalização para Conhecimento do Mundo Real

    4.4 Análise de Tempo de Execução

    4.5 Memorização de Conhecimento

  4. Trabalhos Relacionados

  5. Conclusão, Agradecimentos e Referências

\ A. Conjunto de Dados

B. Raciocínio em Contexto com Distratores

C. Detalhes de Implementação

D. Taxa de Aprendizagem Adaptativa

E. Experiências com Modelos de Linguagem Grandes

4.2 Raciocínio com Distratores

Em casos onde múltiplas perguntas devem ser respondidas sobre o mesmo conjunto de conhecimento, algum conhecimento que é relevante para uma pergunta provavelmente será irrelevante para outra pergunta. Por exemplo, na Tabela 7, o facto "Charlie é Branco." não é necessário para responder à pergunta "Harry é vermelho?". Assim, é importante avaliar a robustez do RECKONING quando existe informação irrelevante (ou seja, distratores) no conjunto de conhecimento. Nesta experiência, analisamos a capacidade do RECKONING de focar no conhecimento correto e ignorar distratores ao responder perguntas. Utilizamos o ProofWriter como conjunto de dados de avaliação, pois já possui uma configuração com distratores incluídos no conhecimento. Para análise sistemática, adicionamos gradualmente distratores ao contexto (começando com 2 e terminando com todos os distratores possíveis, dos quais há uma média de 7 por pergunta). Treinamos o RECKONING e a linha de base usando o objetivo multitarefa, onde o modelo deve (1) recuperar todos os factos e regras relevantes para a pergunta e (2) prever a conclusão com base no conhecimento correto. Neste caso, adaptamos o treino de modo que para cada pergunta x, a perda CLM do ciclo externo (Equação (5)) é calculada apenas em relação aos factos relevantes de K, aprendendo assim a recuperar apenas factos relevantes durante o treino.

\ Na Figura 5, vemos que o desempenho do RECKONING é consistentemente mais robusto sob distratores do que a linha de base FT-ICR. Quando incluímos todos os distratores no contexto, o RECKONING alcança uma precisão média de rótulos significativamente maior (82,5%) entre saltos do que a linha de base (70,9%), conforme calculado pela média das 3 profundidades de salto consideradas. Além disso, em comparação com o desempenho sem distratores, o desempenho do RECKONING cai apenas 17,1%, enquanto o desempenho da linha de base cai 28,6%, exibindo assim uma melhor capacidade de separar o conhecimento correto dos distratores.

\ Finalmente, também exploramos a capacidade de generalização do RECKONING para modelos com um tamanho de parâmetro maior. Aumentamos o modelo de linguagem que usamos, GPT-2-small (124M), para GPT-2-XL (1,5B) adotando um método de ajuste fino eficiente em parâmetros, o LoRA [33]. Por simplicidade, avaliamos os modelos apenas nas configurações mais difíceis, ou seja, ProofWriter-5-hop com todos os distratores. Com o GPT-2-XL-LoRA, o raciocínio em contexto alcança 65% de precisão no conjunto de teste, enquanto nosso modelo RECKONING alcança 70,2% de precisão, um ganho de desempenho de 5%. Este resultado sugere que as vantagens do RECKONING na presença de distratores se mantêm mesmo à medida que os modelos aumentam em tamanho.

\

:::info Autores:

(1) Zeming Chen, EPFL (zeming.chen@epfl.ch);

(2) Gail Weiss, EPFL (antoine.bosselut@epfl.ch);

(3) Eric Mitchell, Universidade de Stanford (eric.mitchell@cs.stanford.edu)';

(4) Asli Celikyilmaz, Meta AI Research (aslic@meta.com);

(5) Antoine Bosselut, EPFL (antoine.bosselut@epfl.ch).

:::


:::info Este artigo está disponível no arxiv sob licença CC BY 4.0 DEED.

:::

\

Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail crypto.news@mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!