Разрыв в понимании между CEO и CDO/прочими околотехнологическими управленцами, к сожалению, неизбежен. Сразу после слов: «Хьюстон, у нас проблемы с данными», — начинаются технические детали, рассказ о которых переживет не каждый генеральный директор.
Во-первых, данных нужно не просто много, а очень много: для обучения GPT‑3 от OpenAI (модель, на которой работает ChatGPT) понадобились около 45 Тб только текстовых данных и доступ к огромному количеству открытых и проприетарных (в частности, к базе Shutterstock’а — одного из крупнейших сервисов по продаже изображений в высоком качестве).
Плохая [для не-технологических управленцев] новость: данные нужны не только для «обучения ИИ с нуля», но и для тонкой настройки (fine-tuning) генеративного ИИ.
Например, рекомендуемые объемы дата-сетов для донастройки LLM (Large Language Model — нейросеть для работы с текстами) от Microsoft — десятки тысяч аннотированных примеров, и чем меньше тренируемая модель, тем больше нужно данных: для донастройки ada, например, — от 100 тыс. до 1 млн примеров; а для text-davinchi‑002 теоретически может хватить и ста.
(Кстати, дефицит данных — одна из причин, по которой LLM-предложения от российских вендоров пока не дотягивают до топовых зарубежных разработок: корпус доступных данных на русском языке на порядки меньше, чем на английском и китайском. Все, конечно, изворачиваются как могут: VK, например, использует как бы «ничей» контент открытых сообществ и комментариев в них, — но зарубежные LLM уже дошли до границ интернетов и начинают испытывать дефицит данных; а о том, как с этим обстоят дела в русскоязычном сегменте, наверное, лучше даже не думать.)
Во-вторых, нельзя скормить ИИ случайное содержимое корпоративного сервера и ждать чудес: ИИ не решит проблему разрозненных данных из разрозненных источников; чтобы получить связный и логичный результат, нужны связные и логичные данные/примеры. И вопреки радужным прогнозам («Уж генИИ-то сможет любой мусор превратить в конфетку!»), до конфеток еще далековато, особенно если вести речь не об обучении модели с нуля, а о тонкой донастройке: в открытых дата-сетах (Common Crawl, C4, The Pile, LAION и пр.), собранных по сусекам Интернета, много мусора, и годятся они в основном для обучения «универсальных» моделей.
Проще говоря, чем специфичнее домен знаний/примеры, необходимые для [до]обучения ИИ, тем сложнее получить и подготовить данные — в частности, потому, что люди, способные качественно подготовить примеры по какой-то узкой теме, влетят в копеечку. И еще потому, что это вам не проверка знаний YandexGPT на предмет того, какая страна первой применила ядерную бомбу.