Firmy odkrywają, że budowanie agentów AI jest łatwe w porównaniu z budowaniem systemów, które sprawiają, że ci agenci są godni zaufania w środowisku produkcyjnym.
Zespoły AI w przedsiębiorstwach przez ostatnie dwa lata ścigały się w budowaniu agentów. Teraz napotykają inny problem: bardzo niewielu z tych agentów można faktycznie zaufać w dużej skali.

Luka zaczyna pojawiać się w publicznych liczbach. Prosus podobno zbudował wewnętrznie 50 000 agentów, ale tylko około 5 000 działa codziennie. Ten stosunek 10 do 1 stał się wymownym wskaźnikiem obecnego stanu produkcji AI w przedsiębiorstwach. Problem nie polega na tym, czy firmy mogą tworzyć agentów. Chodzi o to, czy mogą niezawodnie określić, którzy agenci są bezpieczni do wdrożenia, które wyniki są godne zaufania i co się dzieje, gdy systemy zawodzą.
To rozróżnienie ma znaczenie, ponieważ obiecana wydajność autonomicznych systemów zakłada, że systemy te podejmują właściwe decyzje w pierwszej kolejności.
Luka między eksperymentowaniem a produkcją
Dla wielu zespołów inżynierskich wczesna fala wdrożeń agentów AI przebiegała szybko. Wewnętrzne kopiloty, automaty przepływu pracy i systemy wieloagentowe pojawiły się w różnych działach. Dema działały. Programy pilotażowe wyglądały obiecująco.
Środowiska produkcyjne mówiły inną historię.
Antonio Bustamante, dyrektor generalny bem, od lat pracuje nad infrastrukturą AI dla regulowanych branż, w tym ubezpieczeń, finansów i opieki zdrowotnej. Z jego perspektywy największym wąskim gardłem branży jest odpowiedzialność.
Wskazuje on na szeroko omawiane zdarzenie z udziałem Upstream, w którym agent AI dołączył do kanału Slack, a ludzki zespół podobno zamilkł na 24 godziny, ponieważ nikt nie wiedział, jak z nim współdziałać. Bustamante argumentuje, że cisza ujawniła coś głębszego: firmy nie zaprojektowały modeli operacyjnych do pracy obok agentów.
Ten sam schemat pojawia się w dużych wdrożeniach korporacyjnych. Zespoły mogą szybko generować tysiące agentów, ale wykorzystanie spada, gdy systemy napotykają nieuporządkowane dane produkcyjne, niejasną własność lub niepewne wyniki.
Dlatego właśnie wiele firm znajduje się teraz w sytuacji, gdy posiada rozległe wysiłki związane z wdrażaniem agentów AI, ale relatywnie niewielką rzeczywistą produkcję AI w przedsiębiorstwach.
Dlaczego systemy wieloagentowe wciąż utykają
Część problemu wynika ze sposobu, w jaki faktycznie funkcjonują środowiska korporacyjne.
W kontrolowanych demach dane są czyste, a przepływy pracy są przewidywalne. Prawdziwe organizacje rzadko działają w ten sposób. Większość systemów korporacyjnych zawiera fragmentaryczne rekordy, niespójne formaty, brakujący kontekst i lata nagromadzonych operacyjnych obejść.
Bustamante porównuje tę sytuację do linii montażowej. Model produkcyjny Henry'ego Forda odniósł sukces, ponieważ dane wejściowe były standaryzowane przed skalowaniem produkcji. Systemy wieloagentowe stoją przed odwrotnym warunkiem. Oczekuje się, że będą działać na niestandardowych danych korporacyjnych, co jest cechą charakterystyczną większości środowisk korporacyjnych.
Niektóre firmy już publicznie przyznały się do obciążenia operacyjnego. W kilku wdrożeniach organizacje znalazły się w sytuacji, gdy musiały przydzielać ludzkich recenzentów do ciągłego przeglądania wyników agentów. W jednym przykładzie krążącym w branży podobno system wieloagentowy wymagał 20 osób do weryfikacji wyników za kulisami.
To całkowicie zmienia ekonomikę. Obiecane zyski z wdrażania autonomicznych agentów znikają, jeśli ludzie nadal muszą ręcznie weryfikować każdą decyzję.
Ocenianie pewności i brakująca warstwa odpowiedzialności
Bustamante argumentuje, że ocenianie pewności stało się jednym z najbardziej pomijanych komponentów w zarządzaniu AI i produkcji infrastruktury AI. Bez systemów, które mogą mierzyć niepewność, operatorzy nie mają niezawodnego sposobu na określenie, którzy agenci są gotowi do produkcji, a którzy wymagają interwencji.
W praktyce ocenianie pewności oznacza więcej niż przypisanie procentu do odpowiedzi. Wymaga systemów, które mogą wyjaśniać niepewność, śledzić decyzje z powrotem do danych źródłowych i tworzyć punkty kontrolne z udziałem człowieka, zanim błędy skumulują się w przepływach pracy.
Ta warstwa odpowiedzialności AI staje się szczególnie ważna w branżach, gdzie błędy niosą konsekwencje finansowe lub prawne. Nieudana weryfikacja roszczenia ubezpieczeniowego, błąd ekstrakcji danych medycznych lub błąd w przetwarzaniu finansowym może stać się zdarzeniem odpowiedzialności.
Bustamante opisuje szerszą tezę bem jako „Platforma orkiestracji agentów dla rzeczy, które nie mogą zawieść". Sformułowanie to odzwierciedla rosnące w branży przekonanie: niezawodność agenta AI zależy mniej od tego, ilu agentów wdrażasz, a bardziej od tego, czy możesz śledzić, audytować i korygować decyzje, gdy coś pójdzie nie tak.
Jak wygląda infrastruktura gotowa do produkcji
Kolejna faza korporacyjnej AI może mieć mniej wspólnego z budowaniem kolejnych agentów, a więcej z budowaniem systemów wokół nich.
Firmy skupiające się na długoterminowym wykorzystaniu agentów AI coraz częściej poszukują infrastruktury, która pozostaje elastyczna podczas wykonywania, jest sztywna w wynikach i możliwa do śledzenia w warunkach awarii. Obejmuje to ocenianie pewności, ścieżki audytu, punkty interwencji, standaryzację danych i systemy zarządzania zaprojektowane do produkcji, a nie do dem.
Firmy, które zamkną lukę między eksperymentowaniem z systemami wieloagentowymi a wdrożeniem w świecie rzeczywistym, mogą nie być tymi z największą liczbą agentów. Mogą to być te, które w końcu zbudują infrastrukturę odpowiedzialności, którą przedsiębiorstwa pominęły za pierwszym razem.







