在這次訪談中,我們與 Theta 的創始工程師 Ashton 交流,討論強化學習基礎設施的前沿發展。他分析了在這次訪談中,我們與 Theta 的創始工程師 Ashton 交流,討論強化學習基礎設施的前沿發展。他分析了

認識作者:Ashton Chew,Theta 創始工程師

2025/12/15 04:25


讓我們開始吧!告訴我們一些關於你自己的事。例如,姓名、職業和個人興趣。

嘿!我叫 Ashton,我是 Theta 的創始工程師,在那裡我負責 RL 基礎設施、RL 和分散式系統。我特別專注於電腦使用和工具使用。在過去,我曾在 Amazon AGI 工作,處理推論和工具使用基礎設施。在空閒時間,我喜歡平面設計、副項目和抱石。

有趣!你最新的 Hackernoon 熱門故事是關於什麼的?

我最新的故事,「你的 AI 真的會使用電腦嗎?2025 年電腦使用基準測試地圖」,觸及了目前 VC 最熱門的領域之一:RL 環境和評估。我全面概述了最常用的電腦使用基準測試,並提供了如何選擇基準來訓練和測試電腦使用代理的實用建議。

我一直遇到同樣的問題:幾乎沒有文章評論基準測試本身。隨著這個領域的發展,我們實際評估質量而不是獎勵任何能夠操縱指標的行為是至關重要的。我們以前就遇到過這種情況。在 LLM 的早期,基準測試是隨機且分散的,以至於它們只能微弱地反映真正的贏家。

基準測試成為了「最佳模型」的事實上的計分板,然後人們意識到很多基準測試並沒有測量它們聲稱的內容。

早期最具啟發性的失敗之一是當「閱讀理解」悄悄變成了「數據集結構上的模式匹配」。研究人員故意運行了挑釁性的基線測試(僅問題、僅最後一句),結果高到足以引起一個令人不安的可能性:基準測試並沒有一致地強制模型使用完整的段落。在 2018 年的一篇批評中,重點不是閱讀從不重要,而是一些數據集通過過度獎勵如近期性和刻板印象答案先驗等捷徑,意外地使其變成了可選項。

\

# 假設任務:根據段落和問題回答問題 段落(摘要): - 句子 1-8:John 在學校的一天(大多是無關細節) - 句子 9:「放學後,John 去了廚房。」 - 句子 10:「他在開始做作業前吃了一片披薩。」 問題:「John 吃了什麼?」 答案:「披薩」

基準測試意外地獎勵了一個捷徑,即模型過度權重最後一句(因為答案通常接近結尾)並簡單地提取最近動作的直接對象(「吃了___」),在這種情況下得出「披薩」。

然後出現了更具破壞性的基線:完全移除段落看看會發生什麼。如果僅問題模型具有競爭力,這表明數據集通過重複和先驗而不是測試基於段落的理解來洩漏信號。

問題:「John 吃了什麼?」

這個基線基本上是一個理智檢查:模型是否仍然可以通過依賴高頻率答案模板而不依賴段落來獲得好成績?實際上,它只是猜測數據集不成比例地獎勵的標記(「披薩」、「三明治」),如果這比應有的效果更好,你測量的不是理解能力,而是數據集的先驗。

電腦使用評估已經產生了一個更直接的捷徑:代理有一個瀏覽器,基準測試是公開的,評估變成了一個開卷考試,最後一頁有答案。在全面代理排行榜(HAL)論文中,作者報告觀察到代理在 HuggingFace 上搜索基準測試而不是解決任務,這種行為只有在檢查日誌時才能發現。

\

# 假設任務:在網絡環境中完成工作流程 任務:「在應用程序中配置設置 X 並驗證它已啟用。」 失敗模式: 1) 打開新標籤 2) 搜索:「基準 X 預期啟用狀態」/「HAL <基準> 設置 X」 3) 查找:存儲庫/排行榜寫作/數據集卡/問題線程 4) 複製預期的最終狀態(答案)

在那一點上,評估只是在測量它是否能找到答案。

任務:「找到正確的頁面並提取 Y。」 失敗模式: - 搜索:「<基準名稱> Y」 - 從公共資料(文檔、論壇帖子、數據集卡)複製 - 將值粘貼到代理輸出中,就好像它來自交互一樣

如果代理可以從數據集卡或存儲庫中提取值並仍然「通過」,成功檢查是在評分合理性,而不是交互正確性。公共任務加上淺層驗證將網絡搜索變成了一種漏洞。

這兩個例子是警示:如果我們不早期對電腦使用基準測試提出更高標準,我們將重複 LLM 時代,只是有更好的 UI 和更精細的作弊方式。

你通常寫類似的主題嗎?如果不是,你通常寫什麼?

是的!在電腦使用周圍的 RL 環境和 RL 基礎設施上工作,我經常被最好的電腦使用模型和最真實的訓練環境所包圍。所以我寫了另一篇文章,「屏幕就是 API」,這是關於電腦使用以及為什麼它是 AI 模型的未來。

這個領域報導極少,原因有二:

  1. 模型在電腦使用方面的能力不如其他任務(編碼、數學等)。
  2. 電腦使用發展迅速且極為新穎。

我想改變這一點。

太好了!你的寫作習慣是怎樣的(如果你有的話)

我通常會閱讀大量研究論文,並與行業同行討論他們對某個主題的看法。除此之外,我花很多時間閱讀像 PG 這樣優秀博主的文章。所以我通常從其他人那裡獲得很多寫作靈感。

在科技領域做一名作家可能是一種挑戰。這通常不是我們的主要角色,而是另一個角色的附加。在寫作方面,你面臨的最大挑戰是什麼?

找時間坐下來將我的生活經驗轉化為文字。

你希望在職業生涯中下一步實現什麼?

與優秀的人一起解決更困難的問題,向這些人學習,並分享我的經驗。

哇,這很令人欽佩。現在,說點更輕鬆的:你最喜歡的罪惡快樂是什麼?

看電影!我現在最喜歡的電影是《神鬼交鋒》(2002)。

你有與科技無關的愛好嗎?如果有,是什麼?

我喜歡抱石,因為它讓我感覺自己像一個與攀岩牆互動的人類電腦使用代理。我開玩笑的。我認為抱石很有趣,因為它讓我暫時忘記工作並整合我的思考。

Hacker Noon 社區下一步可以期待閱讀你的什麼內容?

我目前正在寫另一篇關於 RL 環境基礎設施的文章!

你對 HackerNoon 作為作家平台的看法是什麼?

我認為審核結構很棒,這是一個很好的地方,可以讓我將想法呈現給技術讀者。

感謝你抽時間參加我們的「認識作家」系列。這是一種樂趣。你有什麼結束語嗎?

我喜歡寫作。謝謝你,HackerNoon!

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

您可能也會喜歡

新店擋土牆灌漿意外砸破民宅 黃心華籲新北市府速給受災戶回家時程

新店擋土牆灌漿意外砸破民宅 黃心華籲新北市府速給受災戶回家時程

CNEWS匯流新聞網記者唐有為/台北報導 新北市新店區碧瑤、錦秀社區自今年10月發生大規模擋土牆崩塌後,後續搶災工程在13日深夜傳出工安意外。事故疑似是施工方進行施工平台灌漿加固時,重力塊被流動的混凝土漿體衝倒,導致圍牆結構失衡。新北市議員黃心華接獲消息後,迅速抵達現場關切、了解狀況,並立即要求市府團隊正視工地管理問題
分享
Cnews2025/12/15 12:14
邱議瑩5度辦前鎮座談會 鍾年晃、陳柏惟齊挺:最能接棒陳其邁人選

邱議瑩5度辦前鎮座談會 鍾年晃、陳柏惟齊挺:最能接棒陳其邁人選

CNEWS匯流新聞網記者黃泰宇/高雄報導 立法委員邱議瑩昨(14)日在高雄市前鎮區舉辦「傾聽共贏座談會」,邱議瑩指出,這是她第5度在前鎮舉辦座談活動,持續與鄉親面對面交流、分享城市願景。活動湧入近千名民眾,人氣爆棚、氣氛熱烈。活動現場資深媒體人鍾年晃與立法院榮譽顧問陳柏惟也到場力挺,兩人直言邱議瑩是最適合、也最能接棒市
分享
Cnews2025/12/15 11:57
花蓮IP「小石花」獲BEST100年度設計 余明勲:象徵災後的韌性與重生

花蓮IP「小石花」獲BEST100年度設計 余明勲:象徵災後的韌性與重生

CNEWS匯流新聞網記者黃泰宇/花蓮報導 花蓮縣政府推動「繁花盛開計畫」再傳佳訊,花蓮縣政府今(15)日表示,由設計師陳普及其帶領的日目247Visualart 設計團隊打造的城市觀光角色IP「小石花」,榮獲由Shopping Design舉辦之 2025 Taiwan Design BEST100「年度設計」殊榮,成
分享
Cnews2025/12/15 11:54