Comprar cripto Mercados Spot FuturosGOLD Ganhe Centro de eventos

Mais

Este artigo analisa o desenvolvimento e aplicação de Modelos de Linguagem de Visão de Grande Escala, focando na sua integração em sistemas de condução autónoma.Este artigo analisa o desenvolvimento e aplicação de Modelos de Linguagem de Visão de Grande Escala, focando na sua integração em sistemas de condução autónoma.

A Integração de Vision-LLMs em Sistemas AD: Capacidades e Desafios

Fonte: Hackernoon

2025/09/28 04:00

Leu 3 min

Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em crypto.news@mexc.com

Tabela de Links

Resumo e 1. Introdução

Trabalho Relacionado

2.1 Vision-LLMs

2.2 Ataques Adversariais Transferíveis
Preliminares

3.1 Revisitando Vision-LLMs Auto-Regressivos

3.2 Ataques Tipográficos em Sistemas AD Baseados em Vision-LLMs
Metodologia

4.1 Auto-Geração de Ataque Tipográfico

4.2 Aumentos de Ataque Tipográfico

4.3 Realizações de Ataques Tipográficos
Experiências
Conclusão e Referências

2 Trabalho Relacionado

2.1 Vision-LLMs

Tendo demonstrado a proficiência dos Modelos de Linguagem Grandes (LLMs) no raciocínio em vários benchmarks de linguagem natural, os investigadores estenderam os LLMs com codificadores visuais para suportar a compreensão multimodal. Esta integração deu origem a várias formas de Vision-LLMs, capazes de raciocinar com base na composição de entradas visuais e linguísticas.

\ Pré-treino de Vision-LLMs. A interconexão entre LLMs e modelos de visão pré-treinados envolve o pré-treino individual de codificadores unimodais nos seus respetivos domínios, seguido de treino conjunto de visão-linguagem em grande escala [17, 18, 19, 20, 2, 1]. Através de um corpus de linguagem visual intercalado (por exemplo, MMC4 [21] e M3W [22]), os modelos auto-regressivos aprendem a processar imagens convertendo-as em tokens visuais, combinando-os com tokens textuais e introduzindo-os nos LLMs. As entradas visuais são tratadas como uma língua estrangeira, melhorando os LLMs tradicionais apenas de texto ao permitir a compreensão visual enquanto mantêm as suas capacidades linguísticas. Portanto, uma estratégia de pré-treino direta pode não ser projetada para lidar com casos em que o texto de entrada está significativamente mais alinhado com textos visuais numa imagem do que com o contexto visual dessa imagem.

\ Vision-LLMs em Sistemas AD. Os Vision-LLMs provaram ser úteis para perceção, planeamento, raciocínio e controlo em sistemas de condução autónoma (AD) [6, 7, 9, 5]. Por exemplo, trabalhos existentes avaliaram quantitativamente as capacidades linguísticas dos Vision-LLMs em termos da sua confiabilidade na explicação dos processos de tomada de decisão da AD [7]. Outros exploraram o uso de VisionLLMs para manobras veiculares [8, 5], e [6] até validou uma abordagem em ambientes físicos controlados. Como os sistemas AD envolvem situações críticas de segurança, análises abrangentes das suas vulnerabilidades são cruciais para implantação e inferência confiáveis. No entanto, as adoções propostas de Vision-LLMs em AD têm sido diretas, o que significa que problemas existentes (por exemplo, vulnerabilidades contra ataques tipográficos) em tais modelos provavelmente estão presentes sem contramedidas adequadas.

:::info Autores:

(1) Nhat Chung, CFAR e IHPC, A*STAR, Singapura e VNU-HCM, Vietname;

(2) Sensen Gao, CFAR e IHPC, A*STAR, Singapura e Universidade Nankai, China;

(3) Tuan-Anh Vu, CFAR e IHPC, A*STAR, Singapura e HKUST, HKSAR;

(4) Jie Zhang, Universidade Tecnológica de Nanyang, Singapura;

(5) Aishan Liu, Universidade Beihang, China;

(6) Yun Lin, Universidade Jiao Tong de Xangai, China;

(7) Jin Song Dong, Universidade Nacional de Singapura, Singapura;

(8) Qing Guo, CFAR e IHPC, A*STAR, Singapura e Universidade Nacional de Singapura, Singapura.

:::

:::info Este artigo está disponível no arxiv sob licença CC BY 4.0 DEED.

:::

Ganhe 20 USDT em apenas 1 minuto

Deposite $100 para desbloquear $300 em posições GOLD

Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail crypto.news@mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.

Notícias em alta

Mais

BTC vượt mốc 71.000 USD, tăng 4,15% trong ngày

Bộ An ninh Quốc gia cảnh báo rủi ro lừa đảo dựa vào từ ngữ

Một số ngân hàng Argentina thử nghiệm JPM Coin để thanh toán khu vực

360 phát hiện 3 lỗ hổng OpenClaw, gồm 1 mức cao và 2 mức trung bình

US$ 24,9 mil milhões em Boom da Páscoa Levanta Questão: Podem as Doações Cripto Tornar-se Mainstream?

Notícias ao vivo 24/7

Mais

O sentimento no mercado acionista dos EUA parece positivo hoje.

Autor: DEG08:08

Notícias sobre o cessar-fogo no Irão podem afetar o sentimento do mercado de UKOIL.

Autor: TylerD 🧙‍♂️07:25

O cessar-fogo entre os EUA e o Irão visa reabrir o Estreito de Ormuz. O Bitcoin reage de forma positiva, refletindo o potencial impacto geopolítico nos mercados.

Autor: Crypto Profe07:10

A descoberta por IA de um bug com 27 anos levanta preocupações sobre a preparação da segurança cripto em meio a tensões geopolíticas.

Autor: Greeny07:06

O acordo de cessar-fogo do Irão afeta o sentimento do mercado; os preços do petróleo recuam em meio a uma atividade mais ampla nos mercados.

Autor: legen 🚀🌕07:06