標準情報專注於人工智慧和數據策略的精品諮詢公司宣布推出 FDM-1,這是一種新的電腦行為模型,旨在透過觀察真實用戶活動的視訊錄影來學習如何操作數位介面。
該公司在新聞稿中表示,該系統基於超過11萬小時的螢幕錄影進行訓練,規模超過了以往任何公開的電腦使用建模資料集。為了產生如此大規模的訓練訊號,該公司採用了一種自動化技術,直接從螢幕上的視覺變化重建用戶可能的操作,例如按鍵和遊標移動。這種方法使模型能夠推斷交互過程,而無需主要依賴人工標註的數據。
FDM-1 專為處理長時間連續的視訊串流而設計,使其能夠在單次會話中追蹤近兩小時不間斷的螢幕活動。擴展的上下文視窗使該模型能夠捕捉在較長時間範圍內展開的複雜工作流程,例如工程、設計和財務運營。該公司表示,與通常僅限於短序列或靜態螢幕截圖的早期電腦應用代理程式相比,這種能力使系統能夠處理更豐富的視覺上下文。
在與公告一同發布的演示影片中,該模型展示了其執行一系列任務的能力,包括在電腦輔助設計軟體中建立機械部件、透過自動化介面探索識別軟體漏洞,以及在舊金山的公共街道上,利用即時視訊串流和鍵盤輸入控制真實車輛。據該公司稱,駕駛演示僅需不到一小時的特定任務微調。
該公司表示,FDM-1 的設計目標是直接處理原始視頻,而不是簡化的視覺快照,這使得模型能夠學習諸如滾動、拖曳和三維操作等連續動作。透過基於視覺幀和先前互動歷史預測用戶的下一個動作,該系統旨在無需針對特定任務的強化學習設置,即可在各種軟體環境中實現泛化。
該公司表示,此次發布背後的更廣泛目標是將電腦使用代理從資料受限的開發模式轉變為計算受限的模式,從而可以使用更多公開可用的教學和工作流程影片進行訓練。高階主管將此次發布描述為使人工智慧系統學習人們在實踐中如何使用數位工具的重要一步,類似於法學碩士(LLM)從網路文本中學習寫作和交流模式的方式。
Source link


