Купить крипто Рынки Спот ФьючерсыMU Сбережения Центр событий Хаб наград

Еще

В этом интервью мы беседуем с Эштоном, инженером-основателем Theta, чтобы обсудить передовые технологии инфраструктуры Обучения с подкреплением. Он объясняетВ этом интервью мы беседуем с Эштоном, инженером-основателем Theta, чтобы обсудить передовые технологии инфраструктуры Обучения с подкреплением. Он объясняет

Знакомьтесь с автором: Эштон Чью, инженер-основатель Theta

Источник: Hackernoon

2025/12/15 04:25

6м. чтение

Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Давайте начнем! Расскажите немного о себе. Например, имя, профессия и личные интересы.

Привет! Меня зовут Эштон, и я инженер-основатель в Theta, где я работаю над инфраструктурой RL, RL и распределенными системами. Я специализируюсь на компьютерном использовании и использовании инструментов. В прошлом я работал в Amazon AGI и занимался инфраструктурой для вывода и использования инструментов. В свободное время я люблю графический дизайн, побочные проекты и боулдеринг.

Интересно! О чем была ваша последняя популярная статья на Hackernoon?

Моя последняя статья "Может ли ваш ИИ действительно использовать компьютер? Карта эталонов компьютерного использования 2025 года" затронула одну из самых горячих тем в VC прямо сейчас: среды RL и оценки. Я дал всесторонний обзор наиболее используемых эталонов компьютерного использования, а также практические советы по выбору эталонов для обучения и тестирования агентов компьютерного использования.

Я постоянно сталкивался с одним и тем же пробелом: не так много статей, которые рассматривают сами эталоны. И по мере роста этой области жизненно важно, чтобы мы действительно оценивали качество, а не вознаграждали то, что случайно обыгрывает метрику. Мы уже были здесь раньше. В ранние дни LLM эталоны были достаточно случайными и разрозненными, что они лишь слабо отражали реального победителя.

Эталоны стали де-факто таблицей результатов для "лучшей модели", а затем люди поняли, что многие из них не измеряли то, что заявляли.

Одной из самых показательных неудач раннего периода было, когда "понимание прочитанного" тихо превратилось в "сопоставление шаблонов в структуре данных". Исследователи запустили намеренно провокационные базовые линии (только вопрос, только последнее предложение), и результаты были достаточно высокими, чтобы вызвать неудобную возможность: эталон не последовательно заставлял модели использовать весь отрывок. В критике 2018 года суть была не в том, что чтение никогда не имеет значения, а в том, что некоторые наборы данных случайно сделали его необязательным, чрезмерно вознаграждая такие ярлыки, как недавность и стереотипные предварительные ответы.

# Предполагаемая задача: ответить на вопрос, учитывая отрывок и вопрос Отрывок (резюме): - Предложения 1–8: День Джона в школе (в основном несущественные детали) - Предложение 9: "После школы Джон пошел на кухню." - Предложение 10: "Он съел кусок пиццы перед тем, как начать делать домашнее задание." Вопрос: "Что съел Джон?" Ответ: "пицца"

Эталон случайно вознаграждает ярлык, где модель переоценивает последнее предложение (потому что ответ часто находится ближе к концу) и просто извлекает прямой объект самого последнего действия ("съел ___"), что в данном случае дает "пицца".

А затем появляется еще более разрушительная базовая линия: полностью удалите отрывок и посмотрите, что произойдет. Если модель, основанная только на вопросе, конкурентоспособна, это признак того, что набор данных пропускает сигнал через повторение и предварительные знания, а не тестирует понимание, основанное на отрывке.

Вопрос: "Что съел Джон?"

Эта базовая линия по сути является проверкой здравого смысла: может ли модель по-прежнему хорошо оцениваться, опираясь на шаблоны ответов с высокой частотой без опоры на отрывок вообще? На практике она просто угадывает токен, который набор данных непропорционально вознаграждает ("пицца", "бутерброд"), и если это работает чаще, чем должно, вы измеряете не столько понимание, сколько предварительные знания набора данных.

Оценки компьютерного использования уже создали еще более буквальный ярлык: у агента есть браузер, эталон общедоступен, и оценка превращается в экзамен с открытой книгой с ключом ответа на последней странице. В статье о Holistic Agent Leaderboard (HAL) авторы сообщают о наблюдении за агентами, которые искали эталон на HuggingFace вместо решения задачи, поведение, которое вы заметите только при проверке логов.

# Предполагаемая задача: выполнить рабочий процесс в веб-среде Задача: "Настройте параметр X в приложении и убедитесь, что он включен." Режим отказа: 1) Открыть новую вкладку 2) Поиск: "эталон X ожидаемое включенное состояние" / "HAL <эталон> настройка X" 3) Найти: репозиторий / описание таблицы лидеров / карточку набора данных / тему проблемы 4) Воспроизвести ожидаемое конечное состояние (ответ)

В этот момент оценка измеряла, может ли он найти ключ ответа.

Задача: "Найдите правильную страницу и извлеките Y." Режим отказа: - Поиск: "<название эталона> Y" - Копирование из общедоступного артефакта (документы, сообщение на форуме, карточка набора данных) - Вставка значения в вывод агента, как будто оно пришло из взаимодействия

Если агент может извлечь значение из карточки набора данных или репозитория и все равно "пройти", проверка успеха оценивает правдоподобность, а не правильность взаимодействия. Общедоступные задачи плюс поверхностная проверка превращают веб-поиск в эксплойт.

Эти два примера являются предупреждающим выстрелом: если мы не будем придерживаться более высоких стандартов для эталонов компьютерного использования на раннем этапе, мы повторим эру LLM только с лучшими пользовательскими интерфейсами и более сложными способами обмана.

Вы обычно пишете на подобные темы? Если нет, о чем вы обычно пишете?

Да! Работая над средами RL и инфраструктурой RL вокруг компьютерного использования, я постоянно окружен лучшими моделями компьютерного использования и наиболее реалистичными средами обучения. Поэтому я написал еще одну статью, "Экран - это API", которая является аргументом в пользу компьютерного использования и почему это будущее моделей ИИ.

Это пространство крайне недостаточно освещено по двум причинам:

Модели не так способны в компьютерном использовании, как в других задачах (кодирование, математика и т.д.).
Компьютерное использование быстро развивается и чрезвычайно ново.

Я хочу это изменить.

Отлично! Какова ваша обычная рутина письма (если она у вас есть)

Я обычно читаю кучу исследовательских статей и разговариваю с коллегами в отрасли об их мыслях по теме. Кроме того, я трачу много времени на чтение статей великих блогеров, таких как PG. Так что я обычно черпаю много вдохновения от других людей в своем письме.

Быть писателем в технологиях может быть вызовом. Это часто не наша основная роль, а дополнение к другой. Какой самый большой вызов у вас, когда дело доходит до письма?

Найти время, чтобы сесть и облечь свой жизненный опыт в слова.

Чего вы надеетесь достичь следующим в своей карьере?

Решать более сложные проблемы с отличными людьми, учиться у этих людей и делиться своим опытом.

Вау, это достойно восхищения. Теперь что-то более повседневное: Какое у вас любимое виноватое удовольствие?

Смотреть фильмы! Мой любимый фильм сейчас - "Поймай меня, если сможешь" (2002).

У вас есть хобби, не связанное с технологиями? Если да, то какое?

Я люблю боулдеринг, потому что он заставляет меня чувствовать себя человеческим агентом компьютерного использования, взаимодействующим со стеной для скалолазания. Я шучу. Я думаю, что боулдеринг очень увлекателен, потому что он позволяет мне отвлечься от работы и упорядочить свои мысли.

Что сообщество Hacker Noon может ожидать прочитать от вас в следующий раз?

В настоящее время я пишу еще одну статью об инфраструктуре среды RL!

Каково ваше мнение о HackerNoon как о платформе для писателей?

Я думаю, что структура рецензирования потрясающая, и это было отличное место для меня, чтобы представить свои мысли перед техническими читателями.

Спасибо, что нашли время присоединиться к нашей серии "Познакомьтесь с писателем". Это было удовольствие. У вас есть какие-нибудь заключительные слова?

Я люблю писать. Спасибо, HackerNoon!

Возможности рынка

Edge Курс (EDGE1)

$0.06532

$0.06532$0.06532

+0.39%

USD

График цены Edge (EDGE1) в реальном времени

Получите покрытие: 1 млн USDT

Чем выше уровень VVIP, тем выше шансы на награды.

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Новости 24/7 в прямом эфире

Еще

Общий объем открытых позиций на Hyperliquid достиг нового исторического максимума, что сигнализирует о росте рыночной активности

Автор: DEGEN NEWS07:14

Закон CLARITY готов к голосованию в Сенате с неопределённым исходом, что влияет на регуляторный ландшафт XRP

Автор: Ripple Bull Winkle | Crypto Researcher 🚀🚨07:01

Трамп заявляет, что США опережают Китай в сфере ИИ и криптовалют, упоминая Биткоин

Автор: Rockerfeller03:07

Phantom интегрирует блокчейн Robinhood Crypto, расширяя интероперабельность и полезность экосистемы SOL

Автор: DEGEN NEWS02:10

Взломанный твит вызвал панические продажи, создав потенциальную возможность покупки ZEC на фоне волатильности рынка

Автор: wizzy (make it all back arc)02:03

Быстрое чтение

Еще

Цены на криптовалюту

Биткоин

BTC

$65,453.95

$65,453.95$65,453.95

+0.74%

Эфириум

ETH

$1,886.96

$1,886.96$1,886.96

-0.43%

USDCoin

USDC

$1.00072

$1.00072$1.00072

+0.01%

Солана

SOL

$75.81

$75.81$75.81

-0.74%

Рипл

XRP

$1.1128

$1.1128$1.1128

+0.01%

Рекордная реклама, акции -7%

29 июля: рынок ждет отчета Meta о прибылях.

Знакомьтесь с автором: Эштон Чью, инженер-основатель Theta

Давайте начнем! Расскажите немного о себе. Например, имя, профессия и личные интересы.

Интересно! О чем была ваша последняя популярная статья на Hackernoon?

Вы обычно пишете на подобные темы? Если нет, о чем вы обычно пишете?

Отлично! Какова ваша обычная рутина письма (если она у вас есть)

Чего вы надеетесь достичь следующим в своей карьере?

Вау, это достойно восхищения. Теперь что-то более повседневное: Какое у вас любимое виноватое удовольствие?

У вас есть хобби, не связанное с технологиями? Если да, то какое?

Что сообщество Hacker Noon может ожидать прочитать от вас в следующий раз?

Каково ваше мнение о HackerNoon как о платформе для писателей?

Спасибо, что нашли время присоединиться к нашей серии "Познакомьтесь с писателем". Это было удовольствие. У вас есть какие-нибудь заключительные слова?

Вам также может быть интересно

Меняющееся лицо ухода за пожилыми людьми в Малайзии — Сайед Мохаммад Реза Ямани Сайед Умар

Не лазейка: экспортный контроль Сингапура в сфере ИИ позволяет Китаю легально использовать американский ИИ

По ценным бумагам KZOSP проводится дискретный аукцион

Популярные новости

10.07.2026, 10-27 (мск) изменены значения верхней границы ценового коридора и диапазона оценки рыночных рисков ценной бумаги RU000A0JS4Z7 (ВЭБ.РФ 21).

Утреннее обновление NordFX — 10 июля 2026 г.

Торговый баланс Германии в мае вырос до 19,1 млрд евро, значительно превысив прогнозы

Arbitrum объявляет о десяти инновационных командах — и почему это не просто шумиха

ARK Invest Кэти Вуд покупает акции Circle на $13,7 млн, продавая акции Robinhood

Новости 24/7 в прямом эфире

Быстрое чтение

Что такое акции BitMine и почему BMNR снова растет в 2026 году?

BitMEX и MEXC сравнивают две модели обмена, поскольку BitMEX готовится к закрытию

Лучшие альтернативы BitMEX в 2026 году, куда движутся деривативные трейдеры после закрытия

Почему криптобиржи закрывают уроки от BitMEX FTX и Quadriga

Как переместить свои активы после закрытия BitMEX

Цены на криптовалюту