شرکتها در حال کشف این واقعیت هستند که ساخت AI Agent در مقایسه با ساخت سیستمهایی که این عوامل را در محیط تولید قابل اعتماد میکنند، آسانتر است.
تیمهای هوش مصنوعی سازمانی دو سال گذشته را صرف رقابت برای ساخت AI Agent کردند. حالا با مشکل متفاوتی روبهرو شدهاند: تعداد بسیار کمی از این عوامل در مقیاس بزرگ واقعاً قابل اعتماد هستند.

این شکاف در حال ظهور در اعداد عمومی است. گزارشها حاکی است که Prosus بهصورت داخلی ۵۰٬۰۰۰ AI Agent ساخته، اما تنها حدود ۵٬۰۰۰ مورد بهصورت روزانه فعال هستند. این نسبت ۱۰ به ۱ به معیاری آشکارکننده برای وضعیت فعلی تولید هوش مصنوعی سازمانی تبدیل شده است. مسئله این نیست که آیا شرکتها میتوانند AI Agent بسازند. مسئله این است که آیا میتوانند بهطور مطمئن تشخیص دهند کدام عوامل برای استقرار ایمن هستند، کدام خروجیها قابل اعتماد هستند، و در صورت خرابی سیستمها چه اتفاقی میافتد.
این تمایز اهمیت دارد زیرا کارایی وعدهدادهشده سیستمهای خودمختار این فرض را دارد که سیستمها از همان ابتدا تصمیمات درستی میگیرند.
شکاف از آزمایش تا تولید
برای بسیاری از تیمهای مهندسی، موج اولیه استقرار AI Agent بهسرعت پیش رفت. کمکخلبانهای داخلی، خودکارسازهای جریان کاری، و سیستمهای چند عاملی در سراسر بخشها ظاهر شدند. دموها کار کردند. برنامههای آزمایشی امیدوارکننده به نظر میرسیدند.
محیطهای تولید داستان متفاوتی گفتند.
آنتونیو بوستامانته، مدیرعامل bem، سالها است که روی زیرساخت هوش مصنوعی برای صنایع تنظیمشده، از جمله بیمه، مالی و بهداشت و درمان کار میکند. از دیدگاه او، بزرگترین گلوگاه صنعت، پاسخگویی است.
او به یک حادثه بحثبرانگیز مربوط به Upstream اشاره میکند که در آن یک AI Agent به یک کانال Slack پیوست و گزارشها نشان میدهد تیم انسانی به مدت ۲۴ ساعت سکوت کرد زیرا هیچکس نمیدانست چگونه با آن تعامل کند. بوستامانته استدلال میکند که این سکوت چیز عمیقتری را آشکار کرد: شرکتها مدلهای عملیاتی برای کار در کنار AI Agent طراحی نکردهاند.
همین الگو در داخل استقرارهای سازمانی بزرگمقیاس نیز دیده میشود. تیمها میتوانند بهسرعت هزاران AI Agent تولید کنند، اما میزان استفاده کاهش مییابد بهمحض اینکه این سیستمها با دادههای تولید آشفته، مالکیت نامشخص یا خروجیهای نامطمئن روبهرو میشوند.
به همین دلیل است که بسیاری از شرکتها اکنون خود را با تلاشهای گسترده استقرار AI Agent اما تولید هوش مصنوعی سازمانی واقعی نسبتاً اندک مییابند.
چرا سیستمهای چند عاملی دائماً متوقف میشوند
بخشی از مشکل از نحوه عملکرد واقعی محیطهای سازمانی ناشی میشود.
در دموهای کنترلشده، دادهها تمیز هستند و جریانهای کاری قابل پیشبینیاند. سازمانهای واقعی به ندرت اینگونه عمل میکنند. اکثر سیستمهای سازمانی حاوی سوابق پراکنده، قالبهای ناسازگار، زمینههای از دست رفته و سالها راهحلهای عملیاتی انباشته هستند.
بوستامانته این وضعیت را به خط مونتاژ تشبیه میکند. مدل تولید هنری فورد موفق شد زیرا ورودیها قبل از مقیاسبندی تولید، استانداردسازی شدند. سیستمهای چند عاملی با شرایط معکوس روبهرو هستند. انتظار میرود آنها بر روی دادههای سازمانی غیراستاندارد کار کنند، که این ویژگی اکثر محیطهای سازمانی است.
برخی شرکتها از قبل بهصورت عمومی بار عملیاتی را پذیرفتهاند. در چندین استقرار، سازمانها خود را در حال تخصیص بازبینان انسانی برای بررسی مستمر خروجیهای AI Agent یافتند. در یک مثال که در صنعت در گردش است، گزارشها نشان میدهد یک سیستم چند عاملی به ۲۰ نفر برای تأیید نتایج در پشتصحنه نیاز داشت.
این موضوع اقتصاد را بهطور کامل تغییر میدهد. سودهای وعدهدادهشده از استقرار AI Agent های خودمختار از بین میروند اگر انسانها هنوز باید هر تصمیمی را بهصورت دستی تأیید کنند.
امتیازدهی اطمینان و لایه پاسخگویی گمشده
بوستامانته استدلال میکند که امتیازدهی اطمینان به یکی از نادیدهگرفتهشدهترین اجزا در حاکمیت هوش مصنوعی و تولید زیرساخت هوش مصنوعی تبدیل شده است. بدون سیستمهایی که بتوانند عدم قطعیت را اندازهگیری کنند، اپراتورها هیچ راه مطمئنی برای تشخیص اینکه کدام AI Agent ها آماده تولید هستند و کدامها به مداخله نیاز دارند، ندارند.
در عمل، امتیازدهی اطمینان بیش از تخصیص یک درصد به یک پاسخ است. این به سیستمهایی نیاز دارد که بتوانند عدم قطعیت را توضیح دهند، تصمیمات را به دادههای منبع ردیابی کنند، و نقاط بازرسی انسان در حلقه ایجاد کنند قبل از اینکه خطاها در جریانهای کاری انباشته شوند.
این لایه از پاسخگویی هوش مصنوعی در صنایعی که اشتباهات پیامدهای مالی یا قانونی دارند، اهمیت ویژهای پیدا میکند. یک بررسی ناموفق غرامت بیمه، خطای استخراج اطلاعات بهداشتی، یا اشتباه پردازش مالی میتواند به یک رویداد مسئولیتساز تبدیل شود.
بوستامانته تز گستردهتر bem را بهعنوان «پلتفرم ارکستراسیون AI Agent برای چیزهایی که نمیتوانند شکست بخورند» توصیف میکند. این عبارت منعکسکننده یک آگاهی رو به رشد در سراسر صنعت است: قابلیت اطمینان AI Agent کمتر به تعداد AI Agent هایی که مستقر میکنید بستگی دارد و بیشتر به اینکه آیا میتوانید تصمیمات را در زمان بروز مشکل ردیابی، حسابرسی و اصلاح کنید.
زیرساخت آماده تولید چه شکلی دارد
مرحله بعدی هوش مصنوعی سازمانی ممکن است کمتر به ساخت AI Agent های بیشتر و بیشتر به ساخت سیستمهایی پیرامون آنها مربوط باشد.
شرکتهایی که بر استفاده بلندمدت از AI Agent تمرکز دارند، بهطور فزایندهای به دنبال زیرساختی هستند که در حین اجرا انعطافپذیر بماند، در نتایج سختگیرانه باشد و در شرایط خرابی قابل ردیابی باشد. این شامل امتیازدهی اطمینان، مسیرهای حسابرسی، نقاط مداخله، استانداردسازی داده و سیستمهای حاکمیتی طراحیشده برای تولید، نه دمو، میشود.
شرکتهایی که شکاف بین آزمایش سیستمهای چند عاملی و استقرار در دنیای واقعی را میبندند، ممکن است کسانی نباشند که بیشترین AI Agent را دارند. آنها ممکن است کسانی باشند که در نهایت زیرساخت پاسخگویی را میسازند که سازمانها بار اول از آن صرفنظر کردند.







