https://data.stackexchange.com/stackoverflow/query/1932553/data-stack-exchange#graphНедавно мне попался график (примерно такой, как на скрине выше): число новыхhttps://data.stackexchange.com/stackoverflow/query/1932553/data-stack-exchange#graphНедавно мне попался график (примерно такой, как на скрине выше): число новых

На чём будут учиться нейросети в 2026

2026/01/29 21:33
4м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

https://data.stackexchange.com/stackoverflow/query/1932553/data-stack-exchange#graph

3e13ba1c15c5d082f2880ac325400a59.png

Недавно мне попался график (примерно такой, как на скрине выше): число новых вопросов на StackExchange/Stack Overflow растёт до середины 2010-х, держится на плато, а потом — особенно после 2022–2023 — начинает резко падать и к “сегодня” стремится почти к нулю.

Для больших языковых моделей (LLM) публичные Q&A-площадки были идеальным топливом:
вопрос → контекст → решение → правки/комментарии.
Если поток вопросов/ответов иссякает — что будет дальше с данными для обучения?

Ниже — какие источники данных будут доминировать в 2025–2027, и почему “интернет как датасет” заканчивается в привычном виде.

1. Закончился бесплатный и чистый веб

Заканчивается эпоха “сырого интернета” как основного источника свежего прикладного знания.

Причин сразу несколько:

  1. Публичные знания уходят в приватные каналы (чаты, корпоративные базы, закрытые Discord/Slack).

  2. Веб всё сильнее засоряется AI-генерацией, что ухудшает качество для обучения (самоповторы, галлюцинации, SEO-копипаст).

  3. Юридические риски растут, и компании начинают предпочитать лицензирование и “белые” наборы данных.

Показательный факт: даже сами участники рынка начинают покупать доступ к “веттед” знаниям вместо бесконечного скрейпа. Пример — партнёрство OpenAI и Stack Overflow через доступ к OverflowAPI/курированным данным.

2. Меньше данных, но теперь они лучше отобраны

Если раньше гнались за объёмом (ещё 10 триллионов токенов!), то теперь выигрывает подход курирование, дедупликация и модельная фильтрация. Иными словами, данные теперь крайне тщательно подготавливаются.
Как пример: на Hugging Face выложили FineWeb — очищенный и дедуплицированный английский веб из CommonCrawl (порядка 18.5T токенов). И отдельно — FineWeb-Edu (варианты “educational filtering”), где идея в том, чтобы резать мусор и оставлять полезное даже ценой сокращения объёма.

Или еще интереснее — Проект DataComp-LM (DCLM) устраивает соревнование по сборке датасетов. Качество датасета — это отдельная дисциплина. В их baseline подчёркивается, что model-based filtering критичен для сильных результатов.

3. Если Q&A исчезают, то откуда будут браться “новые знания”?

Ниже — карта основных источников, которые будут расти.

3.1. CommonCrawl и “очищенные веб-корпусы”

Common Crawl никуда не исчезает: это огромный открытый архив веб-сканов, который пополняется на миллиарды страниц в месяц. Но важный сдвиг: в обучение попадёт не CommonCrawl “как есть”, а его производные — FineWeb-подобные корпуса, с фильтрацией, дедупом, анти-спамом, анти-AI-мусором.

Следовательно “обучение на вебе” останется, но станет больше похоже на “обучение на отобранном учебнике из веба”.

3.2. Лицензированные датасеты и партнёрства

Когда ценность качественного человеческого контента растёт — растёт и рынок лицензирования.

Stack Overflow отдельно развивает тему лицензирования/доступа к данным для AI-кейсов, а крупные компании заключают соглашения вместо “позже разберёмся в суде”. Понятно что из-за этого знания могут стать более закрытыми, а доступ — платным.

3.3. Код и инженерные артефакты

Даже если разработчики меньше задают вопросов, они продолжают оставлять след в: репозиториях (код, тесты, примеры), issue/PR-дискуссиях, changelog’ах и migration guides, документации и туториалах.

3.4. “Книги и архивы” как новый легальный золотой стандарт

Мы наблюдаем заметный разворот к источникам публичного домена — потому что это одновременно: качественнее случайных веб-страниц, юридически безопаснее.

Например, Harvard анонсировал корпус почти миллиона оцифрованных public-domain книг (HLPD corpus), как “структурированный датасет для исследований и AI”.

3.5. Синтетические данные

Синтетика будет расти по двум причинам: дёшево и управляемо (можно генерировать под конкретные навыки), помогает закрывать “дыры” (форматы, редкие языки, tool-use сценарии).

Риск тоже очевиден: если “перекормить” модель синтетикой, можно получить замыкание на собственных ошибках и стилистическую деградацию. Поэтому устойчивые пайплайны обычно держат смесь: реальное + синтетическое + жёсткая фильтрация.

3.6. Логи взаимодействий и данные продуктов

Самый недооценённый источник будущего — поведение пользователей: диалоги с ассистентом, оценки “полезно/не полезно”, исправления, предпочтения. Важно, что эти данные особенно ценны для instruction-tuning и RL-подходов.

4. Юридические рамки изменят техническую реальность

Европейский AI Act и связанные инициативы усиливают давление на прозрачность и комплаенс: компании будут вынуждены лучше понимать происхождение данных, права, процедуры удаления/опровержения и т.п.

5. Возможные сценарии

Сценарий А: “Данные становятся платными”

Публичные знания → закрываются/монетизируются → доступ через API и лицензии.
Это похоже на то, как новости и научные журналы давно живут за paywall.

Сценарий B: “Открытые корпуса станут супер-курированными”

Вместо “бесконечного веба” появятся эталонные открытые наборы: очищенный веб, public-domain книги, научные/тех-архивы, репозитории кода, с прозрачными методами фильтрации и версионированием.

Реальность, вероятно, будет гибридом: часть данных закрывается, часть — институционализируется и становится качественнее.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Рост токена RAVE на 1800% предварялся таинственным накоплением в кошельках, что вызвало срочное расследование инсайдерской торговли

Рост токена RAVE на 1800% предварялся таинственным накоплением в кошельках, что вызвало срочное расследование инсайдерской торговли

Статья о росте токена RAVE на 1800%, которому предшествовало таинственное накопление в кошельках, что вызвало срочное расследование инсайдерской торговли, появилась на BitcoinEthereumNews.com. RAVE Token
Поделиться
BitcoinEthereumNews2026/04/13 14:25
Компания Сэйлора рассматривает очередную масштабную покупку Bitcoin

Компания Сэйлора рассматривает очередную масштабную покупку Bitcoin

Статья Saylor's Firm Eyes Another Massive Bitcoin Buy появилась на BitcoinEthereumNews.com. Спекуляции нарастают вокруг Стратегии Майкла Сэйлора после того, как
Поделиться
BitcoinEthereumNews2026/04/13 13:59
Новости криптовалютного рынка: индекс цен производителей США и закон CLARITY в фокусе на фоне опасений инфляции

Новости криптовалютного рынка: индекс цен производителей США и закон CLARITY в фокусе на фоне опасений инфляции

Ключевые моменты: Криптовалютный рынок вступает в напряженную, критическую фазу на фоне опасений по поводу инфляции в США и глобальной неопределенности. На фоне растущей геополитической напряженности
Поделиться
Thecoinrepublic2026/04/13 15:30

Генезис USD1: 0% + 12% APR

Генезис USD1: 0% + 12% APRГенезис USD1: 0% + 12% APR

Новые пользователи: Стейкайте и получите до 600% APR