Este artigo analisa o desenvolvimento e aplicação de Modelos de Linguagem de Visão de Grande Escala, focando na sua integração em sistemas de condução autónoma.Este artigo analisa o desenvolvimento e aplicação de Modelos de Linguagem de Visão de Grande Escala, focando na sua integração em sistemas de condução autónoma.

A Integração de Vision-LLMs em Sistemas AD: Capacidades e Desafios

2025/09/28 04:00
Leu 3 min
Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em crypto.news@mexc.com

Resumo e 1. Introdução

  1. Trabalho Relacionado

    2.1 Vision-LLMs

    2.2 Ataques Adversariais Transferíveis

  2. Preliminares

    3.1 Revisitando Vision-LLMs Auto-Regressivos

    3.2 Ataques Tipográficos em Sistemas AD Baseados em Vision-LLMs

  3. Metodologia

    4.1 Auto-Geração de Ataque Tipográfico

    4.2 Aumentos de Ataque Tipográfico

    4.3 Realizações de Ataques Tipográficos

  4. Experiências

  5. Conclusão e Referências

2 Trabalho Relacionado

2.1 Vision-LLMs

Tendo demonstrado a proficiência dos Modelos de Linguagem Grandes (LLMs) no raciocínio em vários benchmarks de linguagem natural, os investigadores estenderam os LLMs com codificadores visuais para suportar a compreensão multimodal. Esta integração deu origem a várias formas de Vision-LLMs, capazes de raciocinar com base na composição de entradas visuais e linguísticas.

\ Pré-treino de Vision-LLMs. A interconexão entre LLMs e modelos de visão pré-treinados envolve o pré-treino individual de codificadores unimodais nos seus respetivos domínios, seguido de treino conjunto de visão-linguagem em grande escala [17, 18, 19, 20, 2, 1]. Através de um corpus de linguagem visual intercalado (por exemplo, MMC4 [21] e M3W [22]), os modelos auto-regressivos aprendem a processar imagens convertendo-as em tokens visuais, combinando-os com tokens textuais e introduzindo-os nos LLMs. As entradas visuais são tratadas como uma língua estrangeira, melhorando os LLMs tradicionais apenas de texto ao permitir a compreensão visual enquanto mantêm as suas capacidades linguísticas. Portanto, uma estratégia de pré-treino direta pode não ser projetada para lidar com casos em que o texto de entrada está significativamente mais alinhado com textos visuais numa imagem do que com o contexto visual dessa imagem.

\ Vision-LLMs em Sistemas AD. Os Vision-LLMs provaram ser úteis para perceção, planeamento, raciocínio e controlo em sistemas de condução autónoma (AD) [6, 7, 9, 5]. Por exemplo, trabalhos existentes avaliaram quantitativamente as capacidades linguísticas dos Vision-LLMs em termos da sua confiabilidade na explicação dos processos de tomada de decisão da AD [7]. Outros exploraram o uso de VisionLLMs para manobras veiculares [8, 5], e [6] até validou uma abordagem em ambientes físicos controlados. Como os sistemas AD envolvem situações críticas de segurança, análises abrangentes das suas vulnerabilidades são cruciais para implantação e inferência confiáveis. No entanto, as adoções propostas de Vision-LLMs em AD têm sido diretas, o que significa que problemas existentes (por exemplo, vulnerabilidades contra ataques tipográficos) em tais modelos provavelmente estão presentes sem contramedidas adequadas.

\

:::info Autores:

(1) Nhat Chung, CFAR e IHPC, A*STAR, Singapura e VNU-HCM, Vietname;

(2) Sensen Gao, CFAR e IHPC, A*STAR, Singapura e Universidade Nankai, China;

(3) Tuan-Anh Vu, CFAR e IHPC, A*STAR, Singapura e HKUST, HKSAR;

(4) Jie Zhang, Universidade Tecnológica de Nanyang, Singapura;

(5) Aishan Liu, Universidade Beihang, China;

(6) Yun Lin, Universidade Jiao Tong de Xangai, China;

(7) Jin Song Dong, Universidade Nacional de Singapura, Singapura;

(8) Qing Guo, CFAR e IHPC, A*STAR, Singapura e Universidade Nacional de Singapura, Singapura.

:::


:::info Este artigo está disponível no arxiv sob licença CC BY 4.0 DEED.

:::

\

Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail crypto.news@mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.

$30,000 em PRL + 15,000 USDT

$30,000 em PRL + 15,000 USDT$30,000 em PRL + 15,000 USDT

Deposite e negocie PRL e aumente suas recompensas!