本文回顧了視覺大型語言模型的發展和應用，重點關注其在自動駕駛系統中的整合。本文回顧了視覺大型語言模型的發展和應用，重點關注其在自動駕駛系統中的整合。

視覺-LLMs 整合至 AD 系統：能力與挑戰

來源：Hackernoon

2025/09/28 04:00

閱讀時長 5 分鐘

如需對本內容提供反饋或相關疑問，請通過郵箱 crypto.news@mexc.com 聯絡我們。

連結表格

摘要和 1. 引言

相關工作

2.1 視覺-大型語言模型

2.2 可轉移對抗攻擊
預備知識

3.1 重新審視自迴歸視覺-大型語言模型

3.2 基於視覺-大型語言模型的自動駕駛系統中的印刷攻擊
方法論

4.1 印刷攻擊的自動生成

4.2 印刷攻擊的增強

4.3 印刷攻擊的實現
實驗
結論和參考文獻

2 相關工作

2.1 視覺-大型語言模型

大型語言模型（LLMs）在各種自然語言基準測試中展現了推理能力後，研究人員已經將 LLMs 與視覺編碼器擴展，以支援多模態理解。這種整合催生了各種形式的視覺-大型語言模型，能夠基於視覺和語言輸入的組合進行推理。

\ 視覺-大型語言模型預訓練。 LLMs 與預訓練視覺模型之間的互連涉及單模態編碼器在各自領域的個別預訓練，隨後進行大規模視覺-語言聯合訓練 [17, 18, 19, 20, 2, 1]。通過交錯的視覺語言語料庫（例如 MMC4 [21] 和 M3W [22]），自迴歸模型學習通過將圖像轉換為視覺標記來處理圖像，將這些標記與文本標記結合，並將它們輸入到 LLMs 中。視覺輸入被視為一種外語，通過啟用視覺理解同時保留其語言能力，增強了傳統的純文本 LLMs。因此，直接的預訓練策略可能無法處理輸入文本與圖像中的視覺文本顯著對齊而非與該圖像的視覺上下文對齊的情況。

\ 自動駕駛系統中的視覺-大型語言模型。 視覺-大型語言模型在自動駕駛（AD）系統的感知、規劃、推理和控制方面已證明非常有用 [6, 7, 9, 5]。例如，現有工作已經從其在解釋 AD 決策過程中的可信度方面對視覺-大型語言模型的語言能力進行了定量基準測試 [7]。其他研究探索了視覺-大型語言模型在車輛操縱方面的應用 [8, 5]，而 [6] 甚至在受控物理環境中驗證了一種方法。由於 AD 系統涉及安全關鍵情況，對其漏洞的全面分析對於可靠部署和推理至關重要。然而，將視覺-大型語言模型應用於 AD 的提議一直很直接，這意味著此類模型中的現有問題（例如，對印刷攻擊的漏洞）可能在沒有適當對策的情況下存在。

:::info 作者:

(1) Nhat Chung, CFAR 和 IHPC, A*STAR, 新加坡和 VNU-HCM, 越南;

(2) Sensen Gao, CFAR 和 IHPC, A*STAR, 新加坡和南開大學, 中國;

(3) Tuan-Anh Vu, CFAR 和 IHPC, A*STAR, 新加坡和 HKUST, 香港特別行政區;

(4) Jie Zhang, 南洋理工大學, 新加坡;

(5) Aishan Liu, 北京航空航天大學, 中國;

(6) Yun Lin, 上海交通大學, 中國;

(7) Jin Song Dong, 新加坡國立大學, 新加坡;

(8) Qing Guo, CFAR 和 IHPC, A*STAR, 新加坡和新加坡國立大學, 新加坡.

:::

:::info 本論文可在 Arxiv 上獲取，採用 CC BY 4.0 DEED 許可證。

:::

只要一分鐘，20 USDT 免費拿！

充值 $100，多拿 $300 GOLD 倉位！

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。