DGrid AI представляет новый фреймворк Proof of Quality, разработанный для оценки результатов ИИ и улучшения распределения вознаграждений в децентрализованных сетях.
Децентрализованные сети ИИ имеют проблему с оплатой, над которой исследователи тихо работали годами, и недавняя статья от DGrid AI ставит этот вопрос прямо на стол. Системы оценки качества, обеспечивающие вознаграждения узлов, в значительной мере зависели от наличия правильного ответа для сравнения. В реальных условиях такой ответ редко существует.
Статья, четвёртая в серии продолжающихся исследований DGrid по Proof of Quality (PoQ), предлагает обученную альтернативу и публикует стоящие за ней цифры. PoQ использует небольшие модели-оценщики для оценки качества каждого результата, и эти оценки определяют вознаграждения. Дёшево и масштабируемо.
DGrid выстраивал это шаг за шагом: версия с учётом стоимости, встраивающая задержку в математику выплат, слой устойчивости к состязательным атакам, который держится, когда оценщики начинают лгать или ленятся, и фреймворк, разбивающий «качество» на части, доступные для проверки. Добротная инженерия. И каждый слой снова и снова упирался в одну и ту же стену.
Базовая структура децентрализованной сети инференса создаёт проблему измерения. Независимые узлы запускают языковые модели и отвечают на запросы пользователей. Эти ответы нужно оценивать, поскольку оценки определяют оплату. Криптографическая верификация каждого вычисления была бы технически безупречной, но непомерно дорогой в масштабе, поэтому практическим путём стала автоматизированная оценка качества с использованием меньших моделей.
Более ранние работы DGrid поэтапно развивали этот подход, добавляя выплаты с поправкой на задержку, защиту от манипулятивных оценщиков и более детальную разбивку того, что «качество» реально означает в контексте оценки. Что не удалось полностью разрешить — так это сам сигнал оценки.
Сильнейшим сигналом, которым располагала команда, было семантическое сходство: сравнить вывод модели с известным правильным ответом и измерить расстояние между ними в пространстве эмбеддингов. Это работает в эталонных средах, где существуют справочные ответы. Это не работает в живой сети, где пользователи задают открытые вопросы и никакой истины не ждёт в базе данных.
Готовые альтернативы показали худшие результаты. NLI cross-encoder — класс моделей, предназначенный для оценки логического следования между предложениями, — вернул корреляцию Пирсона −0.363 при использовании для оценки качества ответов без эталонного ответа. Отрицательная корреляция означает, что модель с большей вероятностью отдавала предпочтение плохим ответам перед хорошими. Это неприемлемый инструмент оценки.
Вместо того чтобы адаптировать существующие модели, исследователи обучили трёх судей специально для оценки качества без эталонных ответов. Каждый принимает вопрос и ответ на входе и выдаёт оценку от 0 до 10 без предоставления правильного ответа.
Три модели различаются прежде всего по размеру и скорости:
Обучение проходило в два этапа. Модели сначала были предварительно обучены на UltraFeedback — общедоступном наборе данных ответов, оценённых GPT-4, — перед тонкой настройкой на собственном распределении задач сети. Цель состояла в том, чтобы дать судьям широкое базовое понимание качества, прежде чем сузить их фокус до конкретного контекста оценки.
На отложенной тестовой выборке из 300 примеров судья DeBERTa достиг корреляции Пирсона 0.747 с эталонным прокси — без доступа к каким-либо справочным ответам. Оценщики на основе эталонов из предыдущего фреймворка, которые имели доступ к правильным ответам, достигли максимума 0.647.
Разрыв имеет простое объяснение. Старые оценщики были метриками сходства, измеряющими косинусное расстояние до эталонного эмбеддинга. Новые судьи были оптимизированы сквозным образом непосредственно для задачи оценки. Разница в производительности отражает именно это различие, а не какой-либо архитектурный прорыв.
Одна оговорка, которую делают авторы: используемая здесь истина сама по себе является прокси — пересечение слов на уровне токенов, а не человеческое суждение. Судьи хорошо коррелируют с этой метрикой, но является ли пересечение слов надёжным отражением того, что человек считал бы качественным ответом, — отдельный, нерешённый вопрос.
Вместе с судьями предусмотрены две ориентированные на развёртывание функции. Каскадный конвейер сначала направляет запросы через лёгкую модель и эскалирует к более тяжёлым моделям только тогда, когда оценки неоднозначны, снижая затраты на оценку до 72.7% при наиболее агрессивной настройке порога, хотя корреляция падает примерно до 0.51 в этой конфигурации. Механизм онлайн-калибровки, работающий без ручной настройки, последовательно определяет семантическое качество как доминирующий сигнал и соответствующим образом корректирует веса, присваивая ему в 4.7 раза больше начального веса со временем.
Судьи работают неравномерно по типам задач. В вопросно-ответных задачах корреляция достигает 0.830. В задачах суммаризации она падает до 0.199. Статья объясняет это не провалом самих судей, а метрикой оценки, используемой в процессе обучения: необработанное пересечение слов — плохая мера качества суммаризации, поэтому модели, обученные против неё, учатся отслеживать слабый сигнал. Авторы описывают это как основную открытую проблему, а не как известное ограничение, которым тихо управляют.
Такая подача согласуется с тем, как статья в целом представляет свои результаты — методично, с чётко изложенными случаями неудач наряду с улучшениями. Четыре статьи в этом исследовательском треке — работа читается меньше как анонс продукта и больше как команда, постепенно закрывающая пробелы в том, что они намерены реально развернуть.
Раскрытие информации: этот контент предоставлен третьей стороной. Ни crypto.news, ни автор данной статьи не одобряют какой-либо продукт, упомянутый на этой странице. Пользователям следует провести собственное исследование перед принятием каких-либо действий, связанных с компанией.

