Туман ИИ

БИЗНЕС / #8_ОКТЯБРЬ_2024
Текст: Наталия АНДРЕЕВА, CEO & founder аналитической группы «Другая стратегия», член Инвестиционного комитета Северо-Западного центра трансфера технологий / Фото: Aramco / Иллюстрация: Midjourney

Венчурно-­финансовый угар вокруг ИИ не стихает, но потребители — ​в первую очередь корпорации — ​начинают задаваться резонным вопросом: что останется от темы, когда хайп увянет, а разработчики упадут в гартнеровскую долину разочарования? Попробуем разобраться, где ИИ уже принес реальную пользу компаниям, а где оказался неэффективен и почему.

Стратегические высоты
Если 2022 и 2023 годы прошли под лозунгом «сейчас [генеративный] ИИ спасет экономику, бизнес и вселенную», то в 2024‑м компании начали задаваться резонным вопросом: «Где деньги/польза от этого вашего ИИ?»

С точки зрения технологических политики и стратегий, место ИИ в корпоративном контуре уже более или менее определилось: ИИ (в т. ч. генИИ) выступает как это одно из приоритетных направлений инвестиций класса «прикупить долю в технологической компании»; до ВИЭ и прочих климатических технологий ему, конечно, еще предстоит дорасти, но хайп и венчурный пузырь делают свое дело: в 2023 году корпорации проинвестировали в ИИ-компании $ 125 млрд — ​почти столько же, сколько во все остальные цифровые бизнесы, вместе взятые ($ 146 млрд).

Инвестиционное внимание к ИИ-компаниям понятно: абсолютное большинство CEO (56 % по данным консалтинговой корпорации PricewaterhouseCoopers) рассматривают новые технологии как главный драйвер корпоративных изменений на ближайшие три года; а 47 % (по данным консалтинговой компании Gartner) планируют активно вкладывать корпоративные средства в новые технологии всех родов и видов, в первую очередь — ​чтобы подстраховаться в ситуации, когда большинство рисков непрогнозируемы и неуправляемы (геополитика, санкции, провалы в цепочках поставок и пр.).

При этом в собственно корпоративном контуре внимание к ИИ заметно меньше. Если судить по количеству вакансий, то лидирует в цифровой повестке все-таки разработка ПО следующих поколений (~0,84 млн вакансий); за разработкой с большим отрывом следуют классические ИИ/ML (0,58 млн), кибербезопасность (0,39 млн), облачные и периферийные вычисления (0,39 млн) и пр.
Корпоративные инвестиции в технологические компании в 2023 г., $ млрд
Количество корпоративных вакансий по направлениям в 2023 г., млн
Меньшее внимание к ИИ в корпоративном контуре тоже вполне обоснованно. В условиях экономической нестабильности руководство компаний начало внимательно относиться к эффективности покупки/внедрения цифровых технологий, платформ, продуктов и пр. В частности, еще в 2022 году 80 % СЕО начали требовать от своих «цифровых трансформаторов» конкретных, измеримых результатов, демонстрирующих пользу от «цифры» (рост прибыли, вовлеченности пользователей и пр.), отмечает Gartner. Требования появились не на пустом месте: в последние два года поставленных целей в области цифровой трансформации достигла только треть компаний, и только четверти компаний удалось сократить операционные расходы на столько, на сколько было запланировано (по данным McKinsey).

В целом систематическое «нарушение обещаний» со стороны вендоров, цифровых подразделений и околоцифрового хайпа привело к тому, что за последние 10 лет доверие к CDO и «цифре» со стороны CEO снизилось почти в два раза: по данным опросов IBM, если в 2013 году 64 % руководителей считали, что IT-департаменты и прочие цифровизаторы эффективны и в полной мере выполняют свои обязательства, то в 2024 году в этом уверены только 36 % CEO.
Доля руководителей, считающих IT и цифровые подразделения эффективными, % ответивших
В таких условиях инвестиции в ИИ — ​как с точки зрения покупки компаний, так и с точки зрения внедрения ИИ в бизнес — ​играют не то чтобы радужными красками.
Завод компании Saudi Aramco
Коза и баян
Во-первых, все счастливые [и пока не использующие ИИ] компании счастливы одинаково, все несчастные несчастны по-своему: устоявшихся практик и юзкейсов применения ИИ всех видов и родов на рынке пока просто нет, и практически каждая компания вынуждена искать их самостоятельно — ​кроме, разве что, типовых задач вроде анализа выгрузки из CRM, для решения которых можно быстро приспособить доступные коробочные решения. В частности, по результатам опросов Gartner, почти половина компаний из США и ЕС считают самым большим вызовом внедрения ИИ-решений нехватку «историй успеха» — ​с точки зрения оценки потенциальных выгод от ИИ и подготовки обоснований для соответствующих инвестиций.

Самые быстрые, четкие и богатые компании уже определились с тем, где, почем и зачем им нужен ИИ; а все остальные пока готовы разве что заменять роботами операторов колл-центров (каждая четвертая компания), «прикручивать» ИИ к продуктам (в том числе для шильдика «мы используем новейшие технологии, платите нам больше») и персонализировать пользовательский опыт (каждая пятая ­компания).
Наиболее частые применения ИИ в компаниях, % ответивших
Во-вторых, результаты корпоративного ИИ-самоопределения предсказуемы: ИИ в большинстве приличных компаний прикладной: классические ИИ с ML/DL и «тяжелые» аналитические ИИ (BI), работающие с большими [проприетарными/пользовательскими] данными. По данным Deloitte, в части применений ИИ большинство руководителей склоняются к сложной аналитике данных и разворачиванию масштабных рекомендательных систем; еще четверть верят в возможность использования ИИ для автоматизации решений.

Что до неприлично «перегретого» генИИ, то в контуре ИИ-экосистем он пока пробавляется ролями третьего плана, вроде драфтинга документов, генерации подсказок для продажников/консультантов и пр. Исключений (случаев, когда генИИ заметно повышает качество и скорость бизнес-­процессов) пока только два: а) оптимизация разработки ПО, где генИИ таки работает и дает приличные результаты, б) кастомизация пользовательского опыта в компаниях, сидящих на CRM-системах, то есть в основном в e-commerce и банках.

Реальная востребованность генеративного ИИ хорошо видна по кадровым запросам корпораций: несмотря на заметный (+100−110 % в год) прирост профильных вакансий, спрос на специалистов в прикладных ИИ пока в 8−10 раз больше.
Динамика корпоративных вакансий по направлениям, млн
ИИ в компании Saudi Aramco (Саудовская Аравия)
Saudi Aramco — ​национальная нефтегазовая компания, вторая в мире по объему выручки, вторая из нефтяных по размеру подтвержденных запасов нефти; одна из самых дорогих компаний в мире (по рыночной капитализации).

В 2019 году в компании был создан Центр четвертой промышленной революции (4IR Center), а в его контуре — ​ИИ-хаб, ответственный за разработку/покупку и внедрение ИИ-решений в бизнес-­процессы. К 2024 году хаб разработал 55 ИИ-решений; в репозитории хаба поступают данные о 3 млн процессов (5 млрд дата-пойнтов в день).

Примеры применений ИИ в Saudi Aramco
  1. Мониторинг возгораний газа в газопроводах и на производствах: ИИ, разработанный инхауз, в режиме реального времени обрабатывает данные с 18 тыс. источников (сенсоры, датчики, спутниковая съемка и пр.) и а) визуализирует состояние газопроводной и газоперерабатывающей систем, б) выявляет возгорания, в) прогнозирует потенциальные возгорания. Результаты применения: ​сокращение случаев возгорания на 50 % и достижение доли возгораний в потерях газа до 1 % (один из лучших показателей по нефтегазовой индустрии).
  2. Мониторинг состояния нефтяного поля Хурайс (500+ скважин): инхауз-­ИИ обрабатывает данные с 40 тыс. датчиков для оптимизации широкого спектра процессов (количество топливного газа в бойлерах; управление роботами технического обслуживания; выявление потенциальных утечек и пр.). Результаты применения: ​+15 % добытой нефти; радикальное сокращение времени реагирования на технические проблемы.
  3. Моделирование нефтяных полей, скважин и пр.: собственный ИИ-симулятор полей и скважин TeraPOWERS включает всю нефте- и газоносную систему Аравийского полуострова; модели обновляются в режиме реального времени — ​интегрируют данные со скважин, пробных бурений и пр.
  4. Мониторинг производства и управление им: BI-система, в режиме реального времени собирающая и обрабатывающая данные из 100+ тыс. источников (сенсоры со скважин, трубопроводов, перерабатывающих мощностей и пр.); находится в пользовании отдела планирования добычи и поставок нефти.
  5. Мониторинг цепочек поставок и управление ими: набор ИИ-решений и решений в области автоматизации для а) оптимизации глобальной логистики поставок нефти и нефтепродуктов, б) end-to-end прослеживаемости поставок, в) своевременного выявления проблем.
(И конечно же ни слова о генИИ.)
Казалось бы, маркетинг и продажи должны активно использовать генИИ для генерации изображений/текстов (SMM, персонализированные предложения для потребителей и пр.). Но нет: хотя, по данным IBM, почти для половины организаций использование генИИ в маркетинге/взаимодействии с клиентами — ​цифровой приоритет номер один, реально для этих целей генИИ пока использует лишь каждая третья компания (по данным McKinsey); даже вроде бы уже привычные потребителям чат-боты служб поддержки внедрены пока всего в 6 % организаций (согласно стэнфордскому Artificial Intelligence Index Report 2024).

(Это, конечно, официальные цифры: сотрудники активно и массово используют ИИ-генерацию как для SMM-текстов, так и для обработки инфографики, и для решения прочих рутинных задач; просто руководители, которых опрашивают консультанты, об этом не знают или не готовы публично это признать; в частности, один из опросов Ernst&Young показал, что неофициально ИИ на работе используют девять из 10 работников.)
Корпоративные функции, выигрывающие от внедрения ИИ, % ответивших
Интересный [статистический] факт на полях: самый частый случай применения генИИ — ​использование ИИ, встроенного в массовые решения вендоров, типа Copilot от Microsoft или Adobe Firefly. Как показывают свежие опросы Gartner (2024), в США, Германии и Великобритании Copilot и аналоги — ​единственный вид генИИ, используемый 34 % компаний, считающихся «продвинутыми» в части применения генеративного искусственного интеллекта. Всё более сложное применяется реже: мало-мальски умное использование генИИ (промпт-­инжиниринг) практикуют 25 % компаний; обучение и донастройку генИИ — ​21 %, а использование самостоятельных решений (ChatGPT, Gemini и пр.), не встроенных в массовые IT-продукты, — ​уже только 19 %.

В-третьих, внедрение любого ИИ, хоть аналитического/прикладного, хоть генеративного, — ​не фунт изюма даже в тех [не самых частых] случаях, когда понятно, кому и зачем он, этот ИИ, нужен. Самый горящий вопрос тут — ​это, конечно, данные и всё, что с ними связано.
Больше данных
Самая главная (и самая неочевидная) проблема данных -как ни странно, не техническая, а управленческая и коммуникативная: по данным опросов IBM (2024), две трети CEO и директоров по финансам считают, что с чем с чем, а с данными для ИИ/ML у их компаний все в порядке.

При этом CDO и руководители, связанные с IT-функциями и внедрением новых технологий, не разделяют оптимизма начальства: только 29 % ответственных за технологии считают, что системы управления данными в компаниях соответствуют требованиям к качеству, доступности и безопасности данных, в том числе для внедрения генИИ; а еще 45 % говорят о том, что за последние полгода у них повысилась тревожность по поводу точности/байесов в данных, и как раз из-за сияющих ИИ-перспектив.

Тревоги CDO по поводу данных не случайны: сложности с данными — ​вторая по важности ИИ-проблема (25 % компаний) после дефицита навыков и экспертизы (33 %); опросы IBM показывают, что все остальное — ​вопросы этики, сложности с интеграцией ИИ-решений в бизнес-­процессы, цены и пр. — ​волнует организации меньше.

Примерно та же история происходит и с генеративным ИИ. Как показали недавние опросы, проведенные компанией McKinsey, 70 % организаций, активно внедряющих генИИ, в той или иной форме сталкиваются с проблемой данных; она догоняет даже такую традиционную ИИ-страшилку, как дефицит кадров; а репутационные и/или юридические риски, связанные с ИИ-галлюцинациями, инфраструктурные вызовы и пр. со страшной скоростью обгоняет.

(Есть, конечно, нюансы, связанные с масштабами деятельности компаний: крупные организации, например, в связи с генИИ куда больше волнуются по поводу безопасности/приватности данных, представляя, во сколько им обойдутся иски от приличных, уважаемых клиентов в случае утечки; но в среднем по больнице данные «болят» больше.)
Наиболее распространенные вызовы, с которыми сталкивались компании при внедрении генИИ, % компаний, столкнувшихся с проблемой
Разрыв в понимании между CEO и CDO/прочими околотехнологическими управленцами, к сожалению, неизбежен. Сразу после слов: «Хьюстон, у нас проблемы с данными», — начинаются технические детали, рассказ о которых переживет не каждый генеральный директор.

Во-первых, данных нужно не просто много, а очень много: для обучения GPT‑3 от OpenAI (модель, на которой работает ChatGPT) понадобились около 45 Тб только текстовых данных и доступ к огромному количеству открытых и проприетарных (в частности, к базе Shutterstock’а — ​одного из крупнейших сервисов по продаже изображений в высоком качестве).

Плохая [для не-технологических управленцев] новость: данные нужны не только для «обучения ИИ с нуля», но и для тонкой настройки (fine-tuning) генеративного ИИ.

Например, рекомендуемые объемы дата-сетов для донастройки LLM (Large Language Model — ​нейросеть для работы с текстами) от Microsoft — ​десятки тысяч аннотированных примеров, и чем меньше тренируемая модель, тем больше нужно данных: для донастройки ada, например, — ​от 100 тыс. до 1 млн примеров; а для text-davinchi‑002 теоретически может хватить и ста.

(Кстати, дефицит данных — ​одна из причин, по которой LLM-предложения от российских вендоров пока не дотягивают до топовых зарубежных разработок: корпус доступных данных на русском языке на порядки меньше, чем на английском и китайском. Все, конечно, изворачиваются как могут: VK, например, использует как бы «ничей» контент открытых сообществ и комментариев в них, — ​но зарубежные LLM уже дошли до границ интернетов и начинают испытывать дефицит данных; а о том, как с этим обстоят дела в русскоязычном сегменте, наверное, лучше даже не думать.)

Во-вторых, нельзя скормить ИИ случайное содержимое корпоративного сервера и ждать чудес: ИИ не решит проблему разрозненных данных из разрозненных источников; чтобы получить связный и логичный результат, нужны связные и логичные данные/примеры. И вопреки радужным прогнозам («Уж генИИ-то сможет любой мусор превратить в конфетку!»), до конфеток еще далековато, особенно если вести речь не об обучении модели с нуля, а о тонкой донастройке: в открытых дата-сетах (Common Crawl, C4, The Pile, LAION и пр.), собранных по сусекам Интернета, много мусора, и годятся они в основном для обучения «универсальных» моделей.

Проще говоря, чем специфичнее домен знаний/примеры, необходимые для [до]обучения ИИ, тем сложнее получить и подготовить данные — ​в частности, потому, что люди, способные качественно подготовить примеры по какой-то узкой теме, влетят в копеечку. И еще потому, что это вам не проверка знаний YandexGPT на предмет того, какая страна первой применила ядерную бомбу.
Архитектура для дообучения GPT‑4 в Morgan Stanley
В Morgan Stanley (американский финансовый конгломерат, вторая по величине транснациональная компания США) работает около 16 тыс. «финансовых советников/консультантов», сопровождающих клиентов. В 2022 году на базе GPT‑3+ компания создала для них внутренний «вопрос-­ответный» сервис, позволяющий быстро извлекать нужные инсайты и сведения из корпоративной базы знаний.

Основные компоненты сервиса
1. Базовая LLM + тематические субмодели по различным доменам финансового знания (инвестиционные рекомендации, страхование и пр.) на ее основе.

2. End-to-end система управления контентом/данными:

2.1. data-команда, занимающаяся наполнением/развитием единого корпоративного репозитория данных;

2.2. cтруктурированный и аннотированный массив из 100+ тыс. исследовательских (аналитических, социологических и пр.) проприетарных/закрытых документов Morgan Stanley, связанных со сферой финансов.

3. Процедуры поддержания работоспособности системы:

3.1. проверка данных, добавляемых в массив:
  • data-комплаенс для качественных/исследовательских данных: каждый документ проверяется независимым оценщиком (тематическим экспертом) внутри компании;
  • data-комплаенс для неисследовательских данных: команда «оценщиков», проверяющая все блоки данных (текстовых, табличных и пр.), вносимых в базу, с точки зрения качества разметки/тегов, «битых» ссылок, наличия summary и пр. и ранжирующая документы по качеству;
  • data-комплаенс по актуальности: оперативные данные (например, стоимость акций компаний) регулярно обновляются, дабы обеспечить высокую добавленную ценность ответов системы.

3.2. Регулярные техосмотры и «донастройки»:
  • еженедельная проверка по «мастер-­вопросам» (выдает ли система правильные ответы);
  • real-time доступ пользователей к коду/ссылкам, отсылающим к документам, на основании которых генерируются ответы.

4. Правила пользования системой: запрет на «долгие разговоры на посторонние темы» и на использование нетематических промптов (для снижения количества галлюцинаций; аналогичный запрет, например, введен для чат-бота Bing).
В-третьих, есть данные — ​и данные.

Условная база знаний, состоящая из исследовательских документов, художественной литературы и пр., устаревает очень медленно или вообще не устаревает. Но data-счастье не в базах, а в real-time данных, это верно для всех видов ИИ и почти для всех его применений [с высокой добавленной стоимостью]: мониторинг технических неполадок, персонализация пользовательского опыта (например, предложение товаров при использовании маркетплейса), извлечение свежих данных (курс акций конкретной компании на бирже) — ​всё это требует процессинга real-time данных, к которому мало кто готов. В 2024 году вопрос обработки real-time данных волнует две трети CDO/технических специалистов, ответственных за ИИ и ML в компаниях: 65 % говорят об инфраструктурных ограничениях для нормальной обработки данных, 62 % — ​о банальной недоступности нужных данных (несвоевременность получения, низкое качество и пр.).

В-четвертых, одно из самых узких мест в части получения нужных данных — ​человеческий фактор: по данным свежих опросов Amazon, 70 % CDO считают, что самый большой и сложный вызов в части внедрения ИИ (да и любых цифровых технологий) — ​организационные и поведенческие ограничения, или, если называть вещи своими именами, сопротивление сотрудников, которым навязывают новые решения, инструменты и — ​в случае с данными — ​задачи. На отсутствие «культуры обращения с данными» жалуются 59 % CDO, и по важности к этой проблеме приближается только традиционная нехватка ресурсов (55 %).

(Примерно на этом месте любой не-технический сотрудник, слушающий рассказ CDO, хоть офис-менеджер, хоть генеральный директор, должен начать просить пощады. А ведь дело еще не дошло до таких вопросов, как, скажем, MLOps/ModelOps и инфраструктура под них!)

Весь этот клубок проблем предсказуемо приводит к тому, что проблемами данных предпочитают не заниматься («Я не вижу — ​меня не видят!»): если верить IBM, только в половине организаций, более или менее системно вкладывающихся в цифровые технологии, разработана нормальная архитектура сбора/хранения/обработки данных; корпоративные стандарты данных есть у 42 % компаний, «потребительские» мастер-­данные — ​у 46 %, а «продуктовые» — ​только у 35 %.
Кадровая анемия (да, но нет)
Ситуация с ИИ-кадрами в корпорациях складывается почти такая же парадоксальная, как с данными: как показывают опросы IBM, две трети СЕО считают, что у их цифровых команд и сотрудников вполне достаточно навыков для того, чтобы успешно внедрять новые технологии, в том числе генИИ. Управленцы же от технологий не уверены в прекрасной кадровой обеспеченности: более или менее позитивно оценивают кадровый потенциал компаний половина CTO, а 40 % говорят, что их сильно беспокоит ситуация с навыками в области генИИ.

Проблема не ограничивается неумением использовать ИИ (любой): внедрение в бизнес-­процессы платформ/сервисов на основе ИИ приводит к тому, что меняется спектр требований к имеющимся и потенциальным сотрудникам. В частности, по данным свежих опросов Deloitte (2024), компании в США [вынужденно] приоритезируют навыки в части анализа данных, промпт-­инжиниринга (предсказуемо) и оценки информации (видимо, в духе «как понять, что ваш ИИ не бредит?»).
Навыки, выходящие на первый план в связи с развитием генИИ
Впрочем, управленцев от цифры и технологий беспокоят и другие вещи, и другие навыки. 58 % CTO испытывают сложности с наймом людей на ключевые должности, причем куда больше генИИ их тревожит дефицит специалистов по приватности/анонимизации данных (39 % CTO) и облачным технологиям (36 %); за кадровые судьбы ИИ тревожатся 29 % CTO. Ну и, для полноты картины, каждый третий считает, что в ближайшие три года «технологическим» специалистам компаний придется переобучаться (по данным IBM).

Универсального алгоритма для решения кадровых проблем у компаний пока нет, но (опять же по данным опросов) 66 % руководителей считают, что эффективнее нанять профильных ИИ-специалистов на рынке, чем переучивать собственных сотрудников. Подход «новых наделать» планируют применять и для того, чтобы «дособрать» куда менее сложные навыки, в том числе дата-грамотность (62 % СЕО склоняются к найму новых людей) и базовая цифровая грамотность (60 % СЕО).

(Как обычно, больше половины СТО при этом рапортуют (судя по опросам IBM), что им не дают нанимать нужных людей, объясняя это финансовыми ограничениями.)

Самое грустное — ​то, что в кадровом обеспечении ИИ (как прикладного, так и генереативного) уже сложился структурный дисбаланс спроса и предложения. Если верить последним оценкам McKinsey (2024), количество «специалистов по генИИ» (людей, указывающих навыки работы с генИИ в резюме) на рынке уже в 12+ раз превышает реальный спрос; при этом компании [вроде бы] страдают и не могут найти нужных людей.
% спроса на специалистов, который может быть покрыт за счет [формально] доступных кадров (людей, указавших соответствующие навыки в резюме)
Лучше всего ситуацию с системным дисбалансом рынка «цифровых навыков», пожалуй, отражают кадровые планы компаний из разных индустрий: согласно отчету международного кадрового агентства Adecco, на внешнем рынке планируют искать ИИ-специалистов не только e-коммерс/ритейл (72 %), автопром (67 %), энергетика (65 %) и аэрокосмическая отрасль (64 %), но и больше половины IT-компаний (59 %), что — ​с учетом то и дело происходящих в хайтек-­индустриях массовых сокращений персонала — ​выглядит прямо-таки угрожающе.
Далеко идущие выводы
Всё вышесказанное можно обобщить примерно следующим образом.

Во-первых, важно отделять хайп от котлет: ИИ — ​не панацея и не серебряная пуля; у него должно быть место в технологической/бизнес-­стратегии компании, иначе получится искусство ради искусства (никогда такого не было, и вот опять!). Именно поэтому ключевые задачи, над которыми бьются цифровизаторы от сохи, — ​получение понятных юзкейсов и оценка эффективности применения ИИ.
Ключевые инициативы/активности CDO, % ответивших
Конечно, консалтерские компании много и со вкусом пишут/говорят о том, что ИИ — ​это революция, что компании должны создавать специальные управления/С-позиции для руководства повсеместной ИИ-зацией. Но, как известно, чем больше новых подразделений, тем лучше продаются консалтерские продукты.

Во-вторых, нет искусственного интеллекта в вакууме; есть цифровая экосистема компании, в которой у всех видов ИИ (прикладной/ML, генИИ, далее везде) есть свои роли, цели и задачи. Как показывает практика, сейчас основная добавленная ИИ-стоимость лежит в сфере скучного прикладного ИИ с предиктивной аналитикой, оптимизацией производственных процессов, сложнейшим процессингом real-time данных и пр.

В-третьих, не в ИИ-моделях счастье, а в проприетарных/уникальных данных, на которых эти модели можно довести до ума. Именно поэтому корпорации, могущие себе это позволить, разрабатывают собственные ИИ-модели и ИИ-подобные решения (как Aramco, у которой уже больше 50 внутренних ИИ-продуктов). Коробочные ИИ-продукты — ​это для бедных, а [как бы] бесплатные генИИ/LLM — ​еще и для глупых.
Росс[ИИ]я
Доступная информация о том, насколько ИИ (любой) востребован в России, разнообразна, но, по официальным данным, ИИ используют около 52 % крупных российских организаций и 21 % говорит о планах его использования. Ситуация предсказуемо варьируется в зависимости от отраслей: в 2023 году лидерами по внедрению ИИ в стране были финансовые организации (читай, топ‑20 банков), ИКТ и ТЭК; аутсайдерами — ​экология, сфера образования и агропромышленный комплекс.

В части применения ИИ российские компании движутся строго в общемировом фарватере: согласно исследованию консалтинговой компании «Яков и партнеры», наиболее частые случаи применения (неуточненного) ИИ — ​это маркетинг/продажи и оптимизация взаимодействия с потребителями (кастомизация, чат-боты служб поддержки и пр.). Отраслевая специфика похожа на глобальную: о самых заметных эффектах от внедрения ИИ говорят предприятия из сферы ритейла, банки и ИКТ-компании.
% компаний, внедряющих ИИ в разные бизнес-функции
Правда, тут есть одно очень существенное отличие: в России собственные ИИ-решения разрабатывают только 40 % компаний, внедряющих ИИ; а доля самостоятельных разработок в среднем по миру варьируется от 55 % (для ИИ-генерации кода) до 74,5 % (ИИ для новых продуктов/сервисов), и чем ближе сфера применения ИИ к ядру бизнеса, тем меньше компании склонны доверять покупным решениям и заодно вендорам, предпочитающим продавать вместе с ИИ свои облачные мощности (конечно, все они мамой клянутся, что не дадут утечь конфиденциальным данным).

Причин разрыва с мировыми практиками много, но основных — ​две: а) лишь немногие российские компании могут позволить себе содержать разработческие отделы нужного уровня, б) те, которые могут, вынуждены конкурировать. В таких условиях проще и дешевле купить коробочное/взять опенсорсное решение и дотянуть его до минимально приемлемого уровня собственными силами, что в 2023 году и делали 50−77 % российских компаний, использующих ИИ (по данным исследования, подготовленного Национальным центром развития искусственного интеллекта РФ с партнерами).

Что касается процесса внедрения ИИ, российские компании идут по тем же граблям, что и зарубежные коллеги и конкуренты, а именно — ​по граблям данных.

Согласно Индексу интеллектуальной зрелости отраслей экономики (2023), ИИ-желания руководства пока не совпадают с реальными возможностями: 39 % компаний, использующих или планирующих использовать ИИ, уже создали/выбрали подразделения, ответственные за внедрение ИИ; 27 % создали, ни много ни мало, внутренние «центры компетенций» в сфере ИИ. При этом нормальные системы управления данными развернуты только в 15 % организаций, а у 60 % оно отсутствует как класс, даже на уровне отдельных подразделений/бизнес-­функций.

И этот разрыв уже начинает проступать в результатах опросов: в 2023 году данные оказались ИИ-проблемой, значимость которой выросла больше всего — ​на 7 % (по сравнению с 2021 годом); по поводу большинства других проблем (наличие средств, людей, ИИ-решений и пр.) компании стали беспокоиться меньше, чем двумя годами ранее.
Основные препятствия для использования ИИ, % выбравших вариант ответа
А дальше начинаются особенности национальной ИИ-зации.

Первый сложный момент — ​доступность вычислительных мощностей/железа (как для вендоров, так и для компаний, нуждающихся в собственных мощностях). С учетом ситуации на рынке GPU, шансы на получение чего-то приличного невелики: рынок наиболее ИИ-пригодных решений практически монополизирован компаниями из США (NVIDIA, AMD и Intel); ближайший конкурент — ​Китай — заметно отстает после того, как США запретили экспорт туда передовых ИИ-чипов; единственный высококлассный собственный продукт для ИИ в Китае — ​Huawei Ascend AI.

Проще говоря, взять state-of-the-art вычислительные мощности под ИИ российским разработчикам неоткуда. Параллельный импорт — ​это хорошо, но китайским ИИ-вендорам/компаниям и так GPU не хватает, вплоть до того, что они организуют схемы завоза видеокарт NVIDIA из Сингапура: карты провозят курьеры, покупающие GPU как бы для личного пользования.
Мощности и время, потребовавшиеся для обучения генеративных моделей
(Рекламы облачных мощностей от российских провайдеров не будет, поскольку 85 % организаций в России [вполне резонно и в соответствии с глобальными трендами] не готовы использовать для работы с ИИ чужие облака.) (Вопрос о качестве отечественных облачных сервисов — ​по сравнению с Amazon — ​тоже лучше не поднимать, чтобы никого не обидеть.)

Судя по всему, изворачиваться придется по-другому, по крайней мере в вопросах, связанных с применением генИИ.

1) Использовать не LLM, а SLM (Small Language Model). Иногда меньше — ​это больше. Малые языковые модели, «тонко настроенные» на тех же дата-сетах, что и большие, как правило, показывают лучшие результаты. Это подтвердило масштабное исследование 400 языковых моделей, проведенное в 2022 году: по итогам обучения на одном и том же дата-сете модель на 70 млрд параметров (Chinchilla) стабильно лучше выполняла тестовые задания, чем модели на 270+ млрд параметров (GPT‑3, Jurassic‑1, Megatron-­Turing NLG и др.).

Кроме того, исследование 2024 года по двум главным семействам LLM (GPT и LLaMA) с использованием нескольких тысяч промптов показало: чем больше модель, тем чаще она дает неправильные ответы; в некоторых случаях их доля достигает 60 %.

2) Использовать эргономичные алгоритмы, допускающие тонкую настройку моделей без бешеных требований к вычислительным мощностям: LoRA (Low-­Rank Adaptation), квантизацию и прямую оптимизацию предпочтений (Direct Preference Optimization, подходящую для замены обучения с подкреплением на основе отзывов людей/Reinforcement Learning from Human Feedback).

Это, конечно, хорошие новости для российских вендоров, развивающих собственные языковые модели (по количеству параметров до зарубежных конкурентов пока дотягивает только YandexGPT).
Количество параметров в отдельных ИИ-моделях
Но это в теории.

А на практике возникает второй сложный момент: дефицит железа и вынужденная ставка на малые, эргономичные модели означают, что в России борьба за качественные данные в ближайшие годы станет совсем уж откровенной, и о том, каким образом разработчикам придется их добывать, даже думать не хочется.

Потому что вариантов на самом деле два: использовать данные пользователей без разрешения (спрятать согласие на обработку персональных данных в поддон 1000‑страничного «соглашения» — ​общераспространенная практика) или попросить государство принудительно раскулачить бизнес для укрепления технологического суверенитета. Что, собственно, уже мало-помалу происходит.

И наконец, третий сложный момент — ​самый, пожалуй, неприятный и при этом неочевидный.

Победные реляции российских вендоров по поводу качества LLM-моделей и генеративного ИИ заслонили тот факт, что в России беда с прикладным искусственным интеллектом и продуктами на его основе (ML/DL, продвинутой аналитикой, «тяжелыми» BI-системами, цифровыми двой­никами производственных процессов, PLM и пр.). То есть с тем ИИ, который, по прогнозам отечественных консалтеров, к 2030 году должен дать 70 % экономического ИИ-эффекта.
Конечно, в России много примеров создания и использования прикладных ИИ/ML решений, в первую очередь в промышленности: ИИ активно используют металлургические и нефтегазовые компании, в том числе НЛМК (цифровые двой­ники, ИИ-управление оборудованием и пр.), Норникель (проекты в предиктивном анализе), Северсталь (лаборатория генИИ, пилотные проекты по его внедрению), Роснефть (40+ модулей ИИ/ML для инженерных расчетов; мониторинг трубопроводов), Газпромнефть (моделирование сложных процессов, в том числе бурения, нефтепереработки и пр.).

Однако у всех этих компаний есть ресурсы для того, чтобы вести собственные разработки и, слегка прислонившись к параллельному импорту, разворачивать вычислительные центры. Что делать всем остальным — ​вопрос открытый, поскольку в России: а) [пока] нет промышленного ПО мирового уровня (например, «тяжелых» PLM класса Siemens Teamcenter или ENOVIA от Dassault Systemes), б) имеющиеся разрозненные ИИ-решения мало совместимы как между собой, так и с легаси-­ПО, оставшимся на предприятиях; между тем, по данным опросов ИСИЭЗ НИУ ВШЭ, примерно половине российских промышленных компаний придется совмещать ИИ с имеющимся ПО.

Поэтому генеративный ИИ генеративным ИИ (низкокачественных трэш-­SMMщиков не жалко), а искать российский ИИ-суверенитет придется не под этим фонарем.
ДРУГИЕ МАТЕРИАЛЫ