Компанії виявляють, що створювати ШІ-агентів набагато простіше, ніж будувати системи, які роблять цих агентів надійними у виробничому середовищі.
Корпоративні команди зі штучного інтелекту останні два роки змагалися у створенні агентів. Тепер вони зіткнулися з іншою проблемою: дуже мало з цих агентів можна реально довіряти у масштабі.

Розрив починає проявлятися у публічних показниках. За повідомленнями, Prosus створив 50 000 агентів для внутрішнього використання, але щодня працює лише близько 5 000 з них. Це співвідношення 10 до 1 стало показовою метрикою поточного стану корпоративного виробництва ШІ. Питання не в тому, чи можуть компанії створювати агентів. Питання в тому, чи можуть вони надійно визначити, яких агентів безпечно розгортати, яким результатам можна довіряти і що відбувається, коли системи дають збій.
Ця відмінність важлива, оскільки обіцяна ефективність автономних систем передбачає, що системи з самого початку приймають правильні рішення.
Розрив між експериментуванням і виробництвом
Для багатьох інженерних команд перша хвиля розгортання ШІ-агентів відбувалася швидко. Внутрішні копілоти, автоматизатори робочих процесів і мультиагентні системи з'явилися в різних підрозділах. Демонстрації працювали. Пілотні програми виглядали перспективно.
Виробниче середовище розповіло іншу історію.
Антоніо Бустаманте, генеральний директор bem, роками працює над ШІ-інфраструктурою для регульованих галузей, зокрема страхування, фінансів і охорони здоров'я. З його точки зору, найбільшим вузьким місцем у галузі є підзвітність.
Він вказує на широко обговорюваний інцидент за участі Upstream, у якому ШІ-агент приєднався до каналу Slack, а людська команда, за повідомленнями, замовкла на 24 години, оскільки ніхто не знав, як з ним взаємодіяти. Бустаманте стверджує, що це мовчання виявило щось глибше: компанії не розробили операційних моделей для роботи поруч з агентами.
Та сама закономірність спостерігається у великомасштабних корпоративних розгортаннях. Команди можуть швидко генерувати тисячі агентів, але використання падає, коли ці системи стикаються із заплутаними виробничими даними, нечіткою відповідальністю або непевними результатами.
Саме тому багато компаній зараз опиняються в ситуації, коли зусилля з розгортання ШІ-агентів є значними, а реальне корпоративне виробництво ШІ — відносно незначним.
Чому мультиагентні системи постійно зупиняються
Частина проблеми пов'язана з тим, як корпоративні середовища насправді працюють.
У контрольованих демонстраціях дані чисті, а робочі процеси передбачувані. Реальні організації рідко функціонують таким чином. Більшість корпоративних систем містять фрагментовані записи, непослідовні формати, відсутній контекст і роки накопичених операційних обхідних рішень.
Бустаманте порівнює ситуацію з конвеєром. Виробнича модель Генрі Форда досягла успіху, тому що вхідні дані були стандартизовані до того, як виробництво масштабувалося. Мультиагентні системи стикаються із протилежними умовами. Від них очікується робота з нестандартизованими корпоративними даними, що характерно для більшості корпоративних середовищ.
Деякі компанії вже публічно визнали операційний тягар. У кількох розгортаннях організації виявили, що змушені призначати людей-рецензентів для постійної перевірки результатів роботи агентів. В одному прикладі, що поширюється в галузі, мультиагентна система, за повідомленнями, потребувала 20 осіб для перевірки результатів за лаштунками.
Це повністю змінює економіку. Обіцяні вигоди від розгортання автономних агентів зникають, якщо люди все одно мають перевіряти кожне рішення вручну.
Оцінка достовірності та відсутній рівень підзвітності
Бустаманте стверджує, що оцінка достовірності стала одним із найбільш недооцінених компонентів у управлінні ШІ та виробництві ШІ-інфраструктури. Без систем, які можуть вимірювати невизначеність, оператори не мають надійного способу визначити, які агенти готові до виробництва, а які потребують втручання.
На практиці оцінка достовірності означає більше, ніж присвоєння відсотка відповіді. Вона вимагає систем, які можуть пояснити невизначеність, простежити рішення до вихідних даних і створити контрольні точки за участі людини до того, як помилки накопичуються в робочих процесах.
Цей рівень підзвітності ШІ стає особливо важливим у галузях, де помилки мають фінансові або юридичні наслідки. Невдала перевірка страхової претензії, помилка витягування даних у сфері охорони здоров'я або помилка фінансової обробки можуть стати подією, що тягне за собою відповідальність.
Бустаманте описує ширшу тезу bem як «Платформа оркестрування агентів для речей, які не можуть дати збій». Ця фраза відображає зростаюче усвідомлення в галузі: надійність ШІ-агентів залежить менше від кількості розгорнутих агентів і більше від того, чи можете ви відстежувати, перевіряти й виправляти рішення, коли щось іде не так.
Як виглядає готова до виробництва інфраструктура
Наступний етап корпоративного ШІ може бути менше пов'язаний зі створенням більшої кількості агентів і більше — з побудовою систем навколо них.
Компанії, зосереджені на довгостроковому використанні ШІ-агентів, дедалі більше шукають інфраструктуру, яка залишається гнучкою під час виконання, є жорсткою в результатах і відстежуваною в умовах збоїв. Це включає оцінку достовірності, журнали аудиту, точки втручання, стандартизацію даних і системи управління, розроблені для виробництва, а не для демонстрацій.
Компанії, які подолають розрив між експериментуванням з мультиагентними системами і реальним розгортанням, можуть виявитися не тими, у кого найбільше агентів. Це можуть бути ті, хто нарешті побудує інфраструктуру підзвітності, яку підприємства пропустили з першого разу.








