Код, интерфейсы и трафик без воды
lawebbox

Теневая экономика LLM: кто на самом деле обучает нейросети и как это влияет на ваш бизнес

За каждым POST-запросом к /v1/chat/completions скрывается конвейер, в котором есть стадия, не указанная ни в одной OpenAPI-схеме вендора: ручная разметка, оценка и фильтрация данных — зачастую людьми, чей дневной заработок ниже стоимости вашего compute-часа.

Илья Воронов, Суровый бэкендер и DevOps-инженер · обновлено 15 июня 2026 г.

Теневая экономика LLM: кто на самом деле обучает нейросети и как это влияет на ваш бизнес

Что на самом деле делают дата-воркеры

Конвейер обучения — это не только GPU и тензоры. Между сбором сырого корпуса и файнтюном сидит слой human-in-the-loop, который в продакшен-пайплайнах LLM-провайдеров выглядит примерно так:

```python

# псевдокод одного звена цепочки

def rate_label(item: RawSample) -> Preference:

worker = match_worker(item.locale, item.difficulty)

return worker.judge(item) # ~9$ за 12 задач, Mindrift

```

В эту цепочку входят классификация изображений для беспилотников, разметка полок в супермаркетах, фильтрация токсичных ответов. По оценке Всемирного банка, число таких работников — от 150 до 430 млн человек, а география намеренно сдвинута в страны со слабыми институтами: Кению, Индию, Болгарию, Венесуэлу, Ливан. Социолог Милош Мишелли из VITAM называет вынос разметки в эти юрисдикции «осознанной стратегией», а не рыночной случайностью — и это единственный фрагмент, который меняется, когда вы меняете вендора.

Что проверить в своём стеке

1. SLA на качество и происхождение данных. В договорах с OpenAI, Anthropic, Google и российскими провайдерами (Yandex Cloud, GigaChat API) редко фиксируется, кто и на каких условиях размечал обучающие выборки. Если для вас это существенно — это предмет переговоров, а не пункт из Terms of Service.

2. Self-hosted для приватных данных. Если вы обрабатываете чувствительные данные, локальные модели (Llama, Qwen, Saiga) убирают как минимум один слой внешнего аутсорсинга — вы платите за compute, но не за человеческий труд где-то в Найроби.

3. Воркеры в вашем собственном пайплайне. Если вы гоняете RLHF, краудсорсинговую разметку или файнтюн на заказ — посмотрите, через какую платформу идут исполнители: Toloka, MTurk, Mindrift, Scale AI. Почасовая ставка ниже локального минимума и рейтинг исполнителей ниже 4.0 — это та же самая схема, просто она лежит в вашем собственном репозитории.

Что отслеживать

Опрос WSJ показал расхождение экономистов в прогнозах. Нобелевский лауреат Дарон Асемоглу ждёт роста неравенства и «проигравших работников», профессор Ротманской школы управления (Университет Торонто) — перераспределения в смежные сферы при гибком образовании. Общий вывод, полезный разработчику: освоение AI-инструментов снижает ваш персональный риск увольнения, но не снимает системных рисков с цепочки, на которой вы построены. Пока индустрия не публикует отчёты по аналогии с Model Card и Datasheet for Datasets — относитесь к чужому ИИ в своём продукте как к зависимости без SBOM: используйте, но документируйте риски.