Купить крипто Рынки Спот ФьючерсыINTC Сбережения Центр событий

Еще

DGrid AI представляет новую структуру Proof of Quality, разработанную для оценки результатов ИИ и улучшения распределения критериев награждения в децентрализованных сетях. ДецентрализованныйDGrid AI представляет новую структуру Proof of Quality, разработанную для оценки результатов ИИ и улучшения распределения критериев награждения в децентрализованных сетях. Децентрализованный

Последнее исследование DGrid AI устраняет ключевой недостаток в децентрализованной системе AI Scoring

Источник: Crypto.news

2026/06/18 18:43

5м. чтение

AI$0.0252+4.91%

Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

DGrid AI представляет новый фреймворк Proof of Quality, разработанный для оценки результатов ИИ и улучшения распределения вознаграждений в децентрализованных сетях.

Summary

Новое исследование PoQ от DGrid AI вводит оценку без эталонных ответов для вознаграждения ИИ-агентов без необходимости в правильных ответах.
DGrid обучил специализированных ИИ-судей для оценки качества результатов, улучшая децентрализованные системы вознаграждений ИИ в масштабе.
Новые модели Proof of Quality от DGrid AI помогают децентрализованным сетям ИИ точно оценивать ответы без данных об истинных значениях.

Децентрализованные сети ИИ имеют проблему с оплатой, над которой исследователи тихо работали годами, и недавняя статья от DGrid AI ставит этот вопрос прямо на стол. Системы оценки качества, обеспечивающие вознаграждения узлов, в значительной мере зависели от наличия правильного ответа для сравнения. В реальных условиях такой ответ редко существует.

Статья, четвёртая в серии продолжающихся исследований DGrid по Proof of Quality (PoQ), предлагает обученную альтернативу и публикует стоящие за ней цифры. PoQ использует небольшие модели-оценщики для оценки качества каждого результата, и эти оценки определяют вознаграждения. Дёшево и масштабируемо.

DGrid выстраивал это шаг за шагом: версия с учётом стоимости, встраивающая задержку в математику выплат, слой устойчивости к состязательным атакам, который держится, когда оценщики начинают лгать или ленятся, и фреймворк, разбивающий «качество» на части, доступные для проверки. Добротная инженерия. И каждый слой снова и снова упирался в одну и ту же стену.

Как развивалась проблема оценки

Базовая структура децентрализованной сети инференса создаёт проблему измерения. Независимые узлы запускают языковые модели и отвечают на запросы пользователей. Эти ответы нужно оценивать, поскольку оценки определяют оплату. Криптографическая верификация каждого вычисления была бы технически безупречной, но непомерно дорогой в масштабе, поэтому практическим путём стала автоматизированная оценка качества с использованием меньших моделей.

Более ранние работы DGrid поэтапно развивали этот подход, добавляя выплаты с поправкой на задержку, защиту от манипулятивных оценщиков и более детальную разбивку того, что «качество» реально означает в контексте оценки. Что не удалось полностью разрешить — так это сам сигнал оценки.

Сильнейшим сигналом, которым располагала команда, было семантическое сходство: сравнить вывод модели с известным правильным ответом и измерить расстояние между ними в пространстве эмбеддингов. Это работает в эталонных средах, где существуют справочные ответы. Это не работает в живой сети, где пользователи задают открытые вопросы и никакой истины не ждёт в базе данных.

Готовые альтернативы показали худшие результаты. NLI cross-encoder — класс моделей, предназначенный для оценки логического следования между предложениями, — вернул корреляцию Пирсона −0.363 при использовании для оценки качества ответов без эталонного ответа. Отрицательная корреляция означает, что модель с большей вероятностью отдавала предпочтение плохим ответам перед хорошими. Это неприемлемый инструмент оценки.

Что предлагает статья

Вместо того чтобы адаптировать существующие модели, исследователи обучили трёх судей специально для оценки качества без эталонных ответов. Каждый принимает вопрос и ответ на входе и выдаёт оценку от 0 до 10 без предоставления правильного ответа.

Три модели различаются прежде всего по размеру и скорости:

TextCNN (~10M параметров) работает приблизительно за 1 миллисекунду на вызов, что делает его подходящим для высокопроизводительной первичной фильтрации.
MiniLM (22M параметров) занимает среднюю позицию при около 13 миллисекундах.
DeBERTa (184M параметров) занимает примерно 15 миллисекунд и оптимизирован для точности.

Обучение проходило в два этапа. Модели сначала были предварительно обучены на UltraFeedback — общедоступном наборе данных ответов, оценённых GPT-4, — перед тонкой настройкой на собственном распределении задач сети. Цель состояла в том, чтобы дать судьям широкое базовое понимание качества, прежде чем сузить их фокус до конкретного контекста оценки.

Ключевой результат

На отложенной тестовой выборке из 300 примеров судья DeBERTa достиг корреляции Пирсона 0.747 с эталонным прокси — без доступа к каким-либо справочным ответам. Оценщики на основе эталонов из предыдущего фреймворка, которые имели доступ к правильным ответам, достигли максимума 0.647.

Разрыв имеет простое объяснение. Старые оценщики были метриками сходства, измеряющими косинусное расстояние до эталонного эмбеддинга. Новые судьи были оптимизированы сквозным образом непосредственно для задачи оценки. Разница в производительности отражает именно это различие, а не какой-либо архитектурный прорыв.

Одна оговорка, которую делают авторы: используемая здесь истина сама по себе является прокси — пересечение слов на уровне токенов, а не человеческое суждение. Судьи хорошо коррелируют с этой метрикой, но является ли пересечение слов надёжным отражением того, что человек считал бы качественным ответом, — отдельный, нерешённый вопрос.

Вместе с судьями предусмотрены две ориентированные на развёртывание функции. Каскадный конвейер сначала направляет запросы через лёгкую модель и эскалирует к более тяжёлым моделям только тогда, когда оценки неоднозначны, снижая затраты на оценку до 72.7% при наиболее агрессивной настройке порога, хотя корреляция падает примерно до 0.51 в этой конфигурации. Механизм онлайн-калибровки, работающий без ручной настройки, последовательно определяет семантическое качество как доминирующий сигнал и соответствующим образом корректирует веса, присваивая ему в 4.7 раза больше начального веса со временем.

Где система по-прежнему испытывает трудности

Судьи работают неравномерно по типам задач. В вопросно-ответных задачах корреляция достигает 0.830. В задачах суммаризации она падает до 0.199. Статья объясняет это не провалом самих судей, а метрикой оценки, используемой в процессе обучения: необработанное пересечение слов — плохая мера качества суммаризации, поэтому модели, обученные против неё, учатся отслеживать слабый сигнал. Авторы описывают это как основную открытую проблему, а не как известное ограничение, которым тихо управляют.

Такая подача согласуется с тем, как статья в целом представляет свои результаты — методично, с чётко изложенными случаями неудач наряду с улучшениями. Четыре статьи в этом исследовательском треке — работа читается меньше как анонс продукта и больше как команда, постепенно закрывающая пробелы в том, что они намерены реально развернуть.

Раскрытие информации: этот контент предоставлен третьей стороной. Ни crypto.news, ни автор данной статьи не одобряют какой-либо продукт, упомянутый на этой странице. Пользователям следует провести собственное исследование перед принятием каких-либо действий, связанных с компанией.

Возможности рынка

Gensyn Курс (AI)

$0.0252

$0.0252$0.0252

+2.60%

USD

График цены Gensyn (AI) в реальном времени

Комбо Кубка мира: Цель на 200x

До 20 комбо в матчах Кубка мира за 1 ордер

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.