在過去兩年中,版權擁有者已對人工智慧公司提起了數十起訴訟,聲稱他們的作品在未經許可的情況下被抓取並輸入到模型中。截至2025年底,僅在美國就有至少63起版權案件針對人工智慧開發商提出,國外還有更多。
這些訴訟中有些圍繞著文字。但越來越多的訴訟涉及圖像和視頻。對公司的重要啟示是:抓取的視覺數據不再是商業產品的安全基礎。
授權視覺數據的瓶頸
先進的視覺模型同時需要三樣東西:特定內容、多樣性和法律明確性。如今,大多數數據集至少缺少其中一項。
抓取的網絡圖像範圍廣泛但雜亂且有風險。傳統的素材庫雖然乾淨,但往往偏向西方、商業和攝影棚環境。定制拍攝雖然準確但速度慢且昂貴。
授權協議現在成為許多高知名度合作夥伴關係的核心。Getty Images與Perplexity的多年協議,例如,讓這家初創公司可以訪問Getty的創意和編輯視覺內容用於人工智慧搜索,並提供歸屬和補償。
特定內容的稀缺性
開發人員可以找到大量通用的生活方式圖像。但當他們需要小眾或罕見場景時,麻煩就開始了。
想想:
- 特定機器的工業故障
- 特定地區的基礎設施和公共服務
- 在西方素材庫中很少出現的文化和宗教場景
- 安全、無障礙或殘疾情境中的邊緣案例
當這些場景在規模上不存在時,模型就會產生幻覺或失敗。在此基礎上訓練的模型會對真相產生偏見。當涉及到在數據中幾乎不存在的人和地方時,它們表現不佳,並且會生成對主流框架之外的任何人來說感覺不對或完全冒犯的視覺效果。
數據質量和缺失的元數據
即使團隊擁有權利,文件本身往往也沒有準備好進行訓練。圖像帶有不完整的標籤、不一致的類別,或者根本沒有標籤。關鍵的上下文缺失,這讓工程師只能猜測或手動重新標記。
行業如何應對
在性能和監管的雙重壓力下,該行業正在匯聚三個主要的應對方式。
- 授權平台作為數據基礎設施
為了替代抓取的網絡圖像,人工智慧團隊越來越多地購買授權檔案的訪問權。大型內容公司現在銷售具有明確權利和元數據的訓練就緒圖像和視頻包,而不是讓客戶事後逆向工程同意。
除了這些現有企業外,更新的平台直接圍繞人工智慧訓練用例而建立。Wirestock匯集創作者內容,處理授權,並根據明確的人工智慧訓練條款提供視覺數據集(在此了解更多關於Wirestock的信息)。
對於創作者來說,這項工作不再是"上傳並希望"的素材,而是更像定義明確的項目。通過人工智慧 自由攝影工作,創作者收到簡報並為被接受用於訓練的作品集獲得報酬。
合成數據填補空白
在真實世界圖像難以收集的地方,團隊正轉向合成數據。他們使用模擬工具、3D管道或生成模型來製作特定任務的視覺效果,然後將這些與真實的授權內容混合。
合成數據集可以覆蓋邊緣案例並平衡分佈,但它們仍然依賴真實圖像作為參考點。沒有這個錨點,模型就有從自己輸出的閉環中學習的風險。
要求透明度的監管
立法者開始要求對訓練來源的可見性。加州的AB-2013,例如,將要求許多為該州服務的生成式人工智慧開發商披露他們使用了什麼類型的數據以及這些數據來自哪裡。
訓練數據不能再放在未命名的桶中;它必須有足夠好的文檔,以便監管機構、客戶和創作者可以看到它是如何組裝的。
這對人工智慧建設者意味著什麼
抓取的、匿名的圖像文件夾現在是一種負擔。它們會減慢團隊速度,吸引法律審查,並使每次新產品對話變得比需要的更困難。
更安全的模式是在你能解釋的視覺數據上進行訓練。你團隊中的某人應該能夠用一句話說明數據集包含什麼,它來自哪裡,以及許可允許什麼。如果這是不可能的,那麼模型就是在借用時間。
列出對收入或聲譽重要的模型的簡短清單,並記錄它們的主要訓練來源。將任何抓取或未記錄的內容視為"審查中",然後開始用授權或委託的數據替換這些集合。
常見問題
我們不是大型人工智慧實驗室。我們現在真的需要擔心這個嗎?
如果你正在向客戶提供人工智慧功能,是的。企業買家、監管機構和合作夥伴開始詢問訓練數據來自哪裡,無論公司規模大小。
降低我們視覺數據風險的現實第一步是什麼?
從電子表格開始。列出你的關鍵模型、你使用的數據集,以及這些數據集是如何獲取的:授權檔案、內部內容、公共抓取或"不確定"。從那裡,選擇一兩個高影響力的模型,並開始尋找授權數據集進行替換。
合成數據能自己解決這個問題嗎?
不能。合成圖像有助於覆蓋範圍和罕見場景,但它們仍然需要真實的授權圖像作為參考。沒有這個錨點,模型就有漂移到自己輸出的閉環中並在真實場景中失敗的風險。
閱讀更多來自Techbullion的內容







