За останнє десятиліття штучний інтелект зростав, переважно живлячись одним і тим самим ресурсом: публічними веб-даними. Тексти, зображення, документи, форуми, новини, блоги, репозиторії... величезна кількість матеріалу, який моделі поглинули для побудови своїх мовних та когнітивних здібностей. Але ця фаза скоро закінчиться.
Згідно з прогнозами, на які посилається Messari, загальний обсяг публічного тексту, доступного для навчання моделей — приблизно 300 трильйонів токенів — може бути повністю вичерпаний між 2026 та 2032 роками. Це означає, що великі моделі "з'їли інтернет", і тепер їм потрібно щось інше. Наступним рубежем для ШІ буде вже не веб: це буде реальний світ.
І саме тут вступає в гру концепція граничних даних, ресурсу, який визначатиме конкурентоспроможність майбутніх моделей. Відео, аудіо, сенсорні, моторні, роботизовані дані, дані дій, дані, що генеруються від взаємодії з фізичним світом або складними цифровими інтерфейсами. Дані, які не можна просто завантажити: їх потрібно збирати, координувати, перевіряти і, перш за все, стимулювати.
З цієї причини блокчейн — це не деталь чи маргінальне доповнення: це інфраструктура, яка уможливлює оркестрацію цієї нової економіки даних.
Найсучасніші моделі 2025 року — не лише лінгвістичні, а й мультимодальні, агентні та орієнтовані на міркування — більше не вдосконалюються простим додаванням загальних текстових наборів даних. Вони вимагають чогось набагато конкретнішого і набагато дорожчого для збору: даних, які відображають дії, наміри, рух, взаємодію, маніпуляцію, контекст.
Це стосується, наприклад, агентів використання комп'ютера, ШІ, здатного взаємодіяти безпосередньо з комп'ютером, як це робила б людина. Для навчання цих систем текстових описів недостатньо: потрібні "траєкторії", які є фактичними записами людей, що виконують завдання на екрані.
Протокол на зразок Chakra, згаданий у звіті, розробив розширення, яке дозволяє користувачам записувати свій екран під час виконання щоденних завдань: навігація системою управління, підготовка документа Excel, редагування зображень, використання професійного програмного забезпечення. Ці записи стають безцінним матеріалом для навчання моделей, таких як GLADOS-1, перша модель використання комп'ютера, побудована майже повністю на краудсорсингових даних.
І саме в цьому суть: ці дані не існують, доки хтось їх не створить. І за них потрібно платити. Так само, як платять за енергію чи висновки.
Інший яскравий приклад походить зі світу ігор. Платформа на зразок Shaga, що народилася як децентралізована мережа хмарних ігор, виробляє надзвичайно цінний побічний продукт: так звані пари геймплей-дія (GAP), які є синхронізованими парами того, що відбувається на екрані, та команд, які видає гравець.
Це дані, які не можна отримати, просто переглядаючи відео на YouTube: їх потрібно захоплювати у джерела, на пристрої гравця. І цей тип набору даних, згідно з оцінками, наведеними Messari, може коштувати до 50–100 доларів за годину геймплею.
Для контексту: Shaga вже накопичила понад 259 000 годин геймплею з оціночною вартістю понад 26 мільйонів доларів. І не випадково OpenAI роком раніше запропонувала півмільярда для придбання Medal, подібної платформи, що спеціалізується саме на записі геймплею.
Ці дані використовуються для навчання світових моделей, моделей, які не просто інтерпретують мову, а моделюють фізику, причинно-наслідкові зв'язки та взаємодію агента з середовищем. Це моделі, які дозволять створювати більш інтелектуальних роботів, автономних агентів, передові системи прогнозування та ШІ, здатний "рухатися" у складних середовищах.
І саме тут ми підходимо до другої великої хвилі граничних даних: роботизованих даних.
ШІ майбутнього не буде знаходитися лише в центрах обробки даних. Він житиме в роботах, дронах, автономних автомобілях, розподілених датчиках та розумних домашніх пристроях. Кожному роботу потрібні будуть дані, щоб навчитися рухатися, ідентифікувати об'єкти, приймати рішення та маніпулювати середовищем. І цей збір даних неймовірно дорогий: він вимагає фізичного обладнання, операторів-людей для телеоперації, постійного обслуговування та координації.
Проекти на зразок PrismaX, BitRobot, GEODNET та NATIX починають використовувати стимулюючі механізми, типові для Web3, щоб розподілити ці витрати серед глобальної мережі учасників. Замість того, щоб одна компанія збирала роботизовані дані, тисячі користувачів можуть робити це скоординовано, отримуючи пряму компенсацію.
Це та сама логіка, що й у майнінгу: але замість обчислювальної потужності тут внеском є реальні дані.
Якщо роботи та ШІ-агенти дійсно починають взаємодіяти з фізичним світом, потрібен абсолютно новий рівень координації. Роботам потрібно буде:
Саме тут з'являються такі ініціативи, як OpenMind і Peaq, які намагаються побудувати ончейн інфраструктуру, присвячену комунікації та ідентичності роботів. Еквівалент DNS, але для машин. Система, де дрони, автономні автомобілі, роботизовані руки чи промислові системи можуть сигналізувати про свою присутність, сертифікувати свої дії, платити іншим системам та обмінюватися послугами.
Це початок машинної економіки, економіки, населеної нелюдськими сутностями, які автономно взаємодіють у децентралізованих мережах.
Звіт також приділяє значну увагу IoTeX, протоколу, який за останні роки перетворив свою інфраструктуру на комплексну платформу для збору, сертифікації та оркестрації даних реального світу.
IoTeX дозволяє підключати датчики, IoT-пристрої, домашні системи та промислове обладнання, забезпечуючи:
Сьогодні IoTeX координує понад 16 000 пристроїв та десятки вертикальних проектів, надаючи ШІ-агентам можливість доступу до перевірених даних з реального світу. Значна різниця порівняно з простим скрапінгом.
За даними Messari, траєкторія чітка: дані стають фінансовим активом у всіх відношеннях. Так само, як сьогодні можна інвестувати в обчислення, GPU та колокацію, у майбутньому буде можливо інвестувати в "потоки даних", купувати права на використання, підтримувати мережі, які збирають граничні дані, і натомість отримувати економічну віддачу.
Це майже неминуча еволюція: якщо дані стають рідкісними, цінними та складними у виробництві, то вони матимуть ринок, ціну, попит та пропозицію.
Блокчейн, знову ж таки, є ідеальним шаром для:
ШІ не буде розвиватися через все більші моделі, а через багатші дані, отримані з реального світу та зібрані через глобальні мережі учасників. Це найбільша золота лихоманка наступного десятиліття: не чіпів, а даних.
Протоколи Web3 — це не просто деталь: вони є природною платформою для збору, перевірки, розповсюдження та компенсації тим, хто надає ці дані. Якщо веб був сировиною першої хвилі ШІ, то реальний світ буде сировиною другої.
І цього разу, вперше, збір не буде контролюватися кількома гігантами, а мережами.
Відкриті, стимульовані, децентралізовані мережі: нова інфраструктура граничних даних.


