В этом интервью мы беседуем с Эштоном, инженером-основателем Theta, чтобы обсудить передовые технологии инфраструктуры Обучения с подкреплением. Он объясняетВ этом интервью мы беседуем с Эштоном, инженером-основателем Theta, чтобы обсудить передовые технологии инфраструктуры Обучения с подкреплением. Он объясняет

Знакомьтесь с автором: Эштон Чью, инженер-основатель Theta

2025/12/15 04:25


Давайте начнем! Расскажите немного о себе. Например, имя, профессия и личные интересы.

Привет! Меня зовут Эштон, и я инженер-основатель в Theta, где я работаю над инфраструктурой RL, RL и распределенными системами. Я специализируюсь на компьютерном использовании и использовании инструментов. В прошлом я работал в Amazon AGI и занимался инфраструктурой для вывода и использования инструментов. В свободное время я люблю графический дизайн, побочные проекты и боулдеринг.

Интересно! О чем была ваша последняя популярная статья на Hackernoon?

Моя последняя статья "Может ли ваш ИИ действительно использовать компьютер? Карта эталонов компьютерного использования 2025 года" затронула одну из самых горячих тем в VC прямо сейчас: среды RL и оценки. Я дал всесторонний обзор наиболее используемых эталонов компьютерного использования, а также практические советы по выбору эталонов для обучения и тестирования агентов компьютерного использования.

Я постоянно сталкивался с одним и тем же пробелом: не так много статей, которые рассматривают сами эталоны. И по мере роста этой области жизненно важно, чтобы мы действительно оценивали качество, а не вознаграждали то, что случайно обыгрывает метрику. Мы уже были здесь раньше. В ранние дни LLM эталоны были достаточно случайными и разрозненными, что они лишь слабо отражали реального победителя.

Эталоны стали де-факто таблицей результатов для "лучшей модели", а затем люди поняли, что многие из них не измеряли то, что заявляли.

Одной из самых показательных неудач раннего периода было, когда "понимание прочитанного" тихо превратилось в "сопоставление шаблонов в структуре данных". Исследователи запустили намеренно провокационные базовые линии (только вопрос, только последнее предложение), и результаты были достаточно высокими, чтобы вызвать неудобную возможность: эталон не последовательно заставлял модели использовать весь отрывок. В критике 2018 года суть была не в том, что чтение никогда не имеет значения, а в том, что некоторые наборы данных случайно сделали его необязательным, чрезмерно вознаграждая такие ярлыки, как недавность и стереотипные предварительные ответы.

\

# Предполагаемая задача: ответить на вопрос, учитывая отрывок и вопрос Отрывок (резюме): - Предложения 1–8: День Джона в школе (в основном несущественные детали) - Предложение 9: "После школы Джон пошел на кухню." - Предложение 10: "Он съел кусок пиццы перед тем, как начать делать домашнее задание." Вопрос: "Что съел Джон?" Ответ: "пицца"

Эталон случайно вознаграждает ярлык, где модель переоценивает последнее предложение (потому что ответ часто находится ближе к концу) и просто извлекает прямой объект самого последнего действия ("съел ___"), что в данном случае дает "пицца".

А затем появляется еще более разрушительная базовая линия: полностью удалите отрывок и посмотрите, что произойдет. Если модель, основанная только на вопросе, конкурентоспособна, это признак того, что набор данных пропускает сигнал через повторение и предварительные знания, а не тестирует понимание, основанное на отрывке.

Вопрос: "Что съел Джон?"

Эта базовая линия по сути является проверкой здравого смысла: может ли модель по-прежнему хорошо оцениваться, опираясь на шаблоны ответов с высокой частотой без опоры на отрывок вообще? На практике она просто угадывает токен, который набор данных непропорционально вознаграждает ("пицца", "бутерброд"), и если это работает чаще, чем должно, вы измеряете не столько понимание, сколько предварительные знания набора данных.

Оценки компьютерного использования уже создали еще более буквальный ярлык: у агента есть браузер, эталон общедоступен, и оценка превращается в экзамен с открытой книгой с ключом ответа на последней странице. В статье о Holistic Agent Leaderboard (HAL) авторы сообщают о наблюдении за агентами, которые искали эталон на HuggingFace вместо решения задачи, поведение, которое вы заметите только при проверке логов.

\

# Предполагаемая задача: выполнить рабочий процесс в веб-среде Задача: "Настройте параметр X в приложении и убедитесь, что он включен." Режим отказа: 1) Открыть новую вкладку 2) Поиск: "эталон X ожидаемое включенное состояние" / "HAL <эталон> настройка X" 3) Найти: репозиторий / описание таблицы лидеров / карточку набора данных / тему проблемы 4) Воспроизвести ожидаемое конечное состояние (ответ)

В этот момент оценка измеряла, может ли он найти ключ ответа.

Задача: "Найдите правильную страницу и извлеките Y." Режим отказа: - Поиск: "<название эталона> Y" - Копирование из общедоступного артефакта (документы, сообщение на форуме, карточка набора данных) - Вставка значения в вывод агента, как будто оно пришло из взаимодействия

Если агент может извлечь значение из карточки набора данных или репозитория и все равно "пройти", проверка успеха оценивает правдоподобность, а не правильность взаимодействия. Общедоступные задачи плюс поверхностная проверка превращают веб-поиск в эксплойт.

Эти два примера являются предупреждающим выстрелом: если мы не будем придерживаться более высоких стандартов для эталонов компьютерного использования на раннем этапе, мы повторим эру LLM только с лучшими пользовательскими интерфейсами и более сложными способами обмана.

Вы обычно пишете на подобные темы? Если нет, о чем вы обычно пишете?

Да! Работая над средами RL и инфраструктурой RL вокруг компьютерного использования, я постоянно окружен лучшими моделями компьютерного использования и наиболее реалистичными средами обучения. Поэтому я написал еще одну статью, "Экран - это API", которая является аргументом в пользу компьютерного использования и почему это будущее моделей ИИ.

Это пространство крайне недостаточно освещено по двум причинам:

  1. Модели не так способны в компьютерном использовании, как в других задачах (кодирование, математика и т.д.).
  2. Компьютерное использование быстро развивается и чрезвычайно ново.

Я хочу это изменить.

Отлично! Какова ваша обычная рутина письма (если она у вас есть)

Я обычно читаю кучу исследовательских статей и разговариваю с коллегами в отрасли об их мыслях по теме. Кроме того, я трачу много времени на чтение статей великих блогеров, таких как PG. Так что я обычно черпаю много вдохновения от других людей в своем письме.

Быть писателем в технологиях может быть вызовом. Это часто не наша основная роль, а дополнение к другой. Какой самый большой вызов у вас, когда дело доходит до письма?

Найти время, чтобы сесть и облечь свой жизненный опыт в слова.

Чего вы надеетесь достичь следующим в своей карьере?

Решать более сложные проблемы с отличными людьми, учиться у этих людей и делиться своим опытом.

Вау, это достойно восхищения. Теперь что-то более повседневное: Какое у вас любимое виноватое удовольствие?

Смотреть фильмы! Мой любимый фильм сейчас - "Поймай меня, если сможешь" (2002).

У вас есть хобби, не связанное с технологиями? Если да, то какое?

Я люблю боулдеринг, потому что он заставляет меня чувствовать себя человеческим агентом компьютерного использования, взаимодействующим со стеной для скалолазания. Я шучу. Я думаю, что боулдеринг очень увлекателен, потому что он позволяет мне отвлечься от работы и упорядочить свои мысли.

Что сообщество Hacker Noon может ожидать прочитать от вас в следующий раз?

В настоящее время я пишу еще одну статью об инфраструктуре среды RL!

Каково ваше мнение о HackerNoon как о платформе для писателей?

Я думаю, что структура рецензирования потрясающая, и это было отличное место для меня, чтобы представить свои мысли перед техническими читателями.

Спасибо, что нашли время присоединиться к нашей серии "Познакомьтесь с писателем". Это было удовольствие. У вас есть какие-нибудь заключительные слова?

Я люблю писать. Спасибо, HackerNoon!

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Казначейские акции Solana: Почему эти компании скупают SOL?

Казначейские акции Solana: Почему эти компании скупают SOL?

Пост Акции Казначейства Solana: Почему эти компании скупают SOL? появился на BitcoinEthereumNews.com. В 2020 году все наблюдали, как Strategy (тогда называвшаяся Microstrategy) скупала Биктоин и превратила корпоративные криптовалютные казначейства в популярную историю. Сейчас формируется новая волна. И она сосредоточена на Экосистеме Solana. Десятки компаний держат SOL как ставку на цену. Но они не просто удерживают. Они создают то, что называется казначействами Solana или Цифровыми Казначействами Активов (DATs). Это не пассивные хранилища. Это активные стратегии, которые стейкают, получают доходность и связаны с быстрорастущей Экосистемой Solana. Forward Industries, компания, котирующаяся на Nasdaq, недавно купила более 6,8 миллиона SOL, став крупнейшей в мире компанией с казначейством Solana. Другие, такие как Helius Medical, Upexi и DeFi Development, следуют аналогичному сценарию, превращая SOL в центральный элемент своих балансов. Тренд очевиден: акции казначейства Solana становятся новым классом акций с криптовалютной экспозицией. И для инвесторов вопрос не только в том, кто покупает, но и почему эта стратегия распространяется так быстро. Ключевые моменты: Казначейства Solana (DATs) - это корпоративные резервы SOL, предназначенные для получения доходности через стейкинг и DeFi. Компании, такие как Forward Industries, Helius Medical, Upexi и DeFi Development Corp, теперь владеют миллионами SOL. Публичные фирмы совместно владеют 17,1 млн SOL (≈4 млрд долларов), что делает Solana одним из наиболее принятых казначейств. В отличие от казначейств Биткоина, холдинги Solana генерируют 6-8% годовых вознаграждений. Это превращает резервы в продуктивные активы Акции казначейства Solana становятся новым способом для инвесторов получить косвенное воздействие на SOL. Риски остаются: волатильность, регулирование и концентрированные холдинги. Но корпоративное принятие растет быстро. Что такое казначейство Solana (DAT)? Казначейство Solana, иногда называемое Цифровым Казначейством Активов (DAT), - это когда компания держит SOL как часть своего баланса. Но в отличие от казначейств Биткоина, это обычно не просто статические резервы, находящиеся в холодном хранении. Ключевое отличие - продуктивность. SOL можно стейкать напрямую...
Поделиться
BitcoinEthereumNews2025/09/21 06:09