Новость15 июня, 00:37

Теневая экономика LLM: кто на самом деле обучает нейросети и как это влияет на ваш бизнес

За каждым POST-запросом к /v1/chat/completions скрывается конвейер, в котором есть стадия, не указанная ни в одной OpenAPI-схеме вендора: ручная разметка, оценка и фильтрация данных — зачастую людьми, чей дневной заработок ниже стоимости вашего compute-часа.

Максим Воронцов, Хардкорный бэкендер и девопс · обновлено 15 июня 2026 г.

Теневая экономика LLM: кто на самом деле обучает нейросети и как это влияет на ваш бизнес

Документальный фильм «Кровь и пот ИИ», саммари которого опубликовано на Хабре, показывает этот слой инфраструктуры, а параллельный опрос The Wall Street Journal среди 16 экономистов (его разобрала «Медуза») фиксирует, что индустрия пока не готова компенсировать социальные издержки схемы.

Что на самом деле делают дата-воркеры

Конвейер обучения — это не только GPU и тензоры. Между сбором сырого корпуса и файнтюном сидит слой human-in-the-loop, который в продакшен-пайплайнах LLM-провайдеров выглядит примерно так:

В эту цепочку входят классификация изображений для беспилотников, разметка полок в супермаркетах, фильтрация токсичных ответов. По оценке Всемирного банка, число таких работников — от 150 до 430 млн человек, а география намеренно сдвинута в страны со слабыми институтами: Кению, Индию, Болгарию, Венесуэлу, Ливан. Социолог Милош Мишелли из VITAM называет вынос разметки в эти юрисдикции «осознанной стратегией», а не рыночной случайностью — и это единственный фрагмент, который меняется, когда вы меняете вендора.

Что проверить в своём стеке

1. SLA на качество и происхождение данных. В договорах с OpenAI, Anthropic, Google и российскими провайдерами (Yandex Cloud, GigaChat API) редко фиксируется, кто и на каких условиях размечал обучающие выборки. Если для вас это существенно — это предмет переговоров, а не пункт из Terms of Service.

2. Self-hosted для приватных данных. Если вы обрабатываете чувствительные данные, локальные модели (Llama, Qwen, Saiga) убирают как минимум один слой внешнего аутсорсинга — вы платите за compute, но не за человеческий труд где-то в Найроби.

3. Воркеры в вашем собственном пайплайне. Если вы гоняете RLHF, краудсорсинговую разметку или файнтюн на заказ — посмотрите, через какую платформу идут исполнители: Toloka, MTurk, Mindrift, Scale AI. Почасовая ставка ниже локального минимума и рейтинг исполнителей ниже 4.0 — это та же самая схема, просто она лежит в вашем собственном репозитории.

Что отслеживать

Опрос WSJ показал расхождение экономистов в прогнозах. Нобелевский лауреат Дарон Асемоглу ждёт роста неравенства и «проигравших работников», профессор Ротманской школы управления (Университет Торонто) — перераспределения в смежные сферы при гибком образовании. Общий вывод, полезный разработчику: освоение AI-инструментов снижает ваш персональный риск увольнения, но не снимает системных рисков с цепочки, на которой вы построены. Пока индустрия не публикует отчёты по аналогии с Model Card и Datasheet for Datasets — относитесь к чужому ИИ в своём продукте как к зависимости без SBOM: используйте, но документируйте риски.

Теневая экономика LLM: кто на самом деле обучает нейросети и как это влияет на ваш бизнес

Что на самом деле делают дата-воркеры

Что проверить в своём стеке

Что отслеживать

Другие новости

Почему рабочие специальности в России стали оплачиваться выше IT-сектора

Рейтинг CNews500

GitHub вдвое сокращает выплаты за найденные уязвимости

Проблемы мобильной разработки