أصدرت مجموعة أبحاث الذكاء الاصطناعي في Tether نسخة إنتاجية مفتوحة المصدر من TurboQuant، وهو خوارزمية ضغط الذاكرة التي طوّرها في الأصل فريق Google Research.
يأتي هذا الإصدار ضمن QVAC SDK 0.12.0 ويستهدف أجهزة الكمبيوتر المحمولة والهواتف وأجهزة الحافة والشبكات اللامركزية. ويتيح لنماذج الذكاء الاصطناعي المحلية التعامل مع جلسات أطول دون الاعتماد على البنية التحتية السحابية.
يمثّل هذا تحوّلاً عملياً في طريقة إدارة الذكاء الاصطناعي على الجهاز للمهام كثيفة الذاكرة.
ظلّت الذاكرة عائقاً أمام تشغيل نماذج ذكاء اصطناعي قادرة على أجهزة المستهلكين. فعندما يعالج مساعد الذكاء الاصطناعي مستنداً طويلاً أو محادثة، يخزّن ذلك السياق فيما يُعرف بـ KV cache.
عند ما يقارب 262,000 رمز مميز، يمكن لـ KV cache الخاص بنموذج 4B أن يستهلك وحده نحو 8 جيجابايت من الذاكرة. وأربع جلسات متزامنة يمكن أن ترفع هذا الرقم إلى 32 جيجابايت قبل احتساب النموذج نفسه.
يعالج TurboQuant هذا الأمر بضغط KV cache بما يصل إلى خمسة أضعاف مع الحفاظ على جودة المخرجات قريبة من النموذج غير المضغوط.
يمكن للمستخدم الآن أن يطلب من مساعد على جهازه المحمول تحليل مستند قانوني يتكوّن من مئة صفحة دون رفعه إلى خادم بعيد.
يمكن للطلاب والمطورين والصحفيين والباحثين جميعاً الاستفادة من جلسات ذكاء اصطناعي أطول وأكثر إدراكاً للسياق على الأجهزة التي يمتلكونها بالفعل.
وتحدّث الرئيس التنفيذي لـ Tether باولو أرودينو عن الدوافع الأشمل وراء هذا الإصدار، مشيراً إلى الفجوة بين البحث والبرمجيات العملية.
"أظهرت أبحاث Google أن ذاكرة الذكاء الاصطناعي يمكن ضغطها بكفاءة أكبر بكثير مما افترضه معظم الناس،" قال. "عملنا يُدخل هذا الاختراق في برمجيات الإنتاج التي يمكن للمطورين والشركات الناشئة والمستخدمين البناء بها فعلاً."
يتضمّن إصدار الإنتاج خط أنابيب تكميم كامل ومحوّلات إطار العمل ووثائق المطوّرين وملفات تعريف مُضبَّطة لأعباء العمل.
صُمّمت هذه المكوّنات للبيئات الحقيقية خارج مراكز البيانات الضخمة، وتغطي الذاكرة المحدودة والأجهزة المختلطة والنشر الحساس لزمن الاستجابة.
يُشحن TurboQuant ضمن QVAC SDK 0.12.0، مدمجاً مباشرةً في Fabric، وهو مكوّن أساسي في حزمة QVAC.
بدأ Fabric كفرع من llama.cpp ونما منذ ذلك الحين ليشمل تقدّمات بحثية متعددة. يمنح SDK المطوّرين مجموعة موحّدة من الأدوات والمكتبات ومكوّنات وقت التشغيل لبناء تطبيقات الذكاء الاصطناعي المحلية.
بالنسبة للشركات الناشئة والمطورين المستقلين، يزيل هذا الافتراض القائل بأن منتجات الذكاء الاصطناعي الكبيرة تتطلب مجموعات GPU باهظة الثمن.
يمكن للفرق الآن التصميم لنوافذ سياق أطول وأحمال عمل ملفات أكبر ونشر مرن عبر أجهزة المستهلكين والحافة. وهذا يفتح مسارات عملية لبناء منتجات ذكاء اصطناعي دون بنية تعتمد على السحابة فقط.
معالجاً المخاوف المتعلقة بخصوصية البيانات والاعتماد على السحابة، قدّم أرودينو حجّته للإبقاء على مهام الذكاء الاصطناعي على الأجهزة المحلية.
"يجب أن يتمكّن الناس من مطالبة مساعد الذكاء الاصطناعي بقراءة مستند طويل أو العمل من خلال معلومات خاصة دون أن تُجبر كل مهمة على المرور عبر مركز بيانات بعيد،" قال. TurboQuant، بهذا المعنى، يمنح الذكاء الاصطناعي المحلي مساحة تشغيلية أكبر.
تتمحور استراتيجية Tether حول الذكاء الاصطناعي الذي يعمل بالقرب من المستخدمين، عبر الأجهزة الشخصية والشبكات اللامركزية. وترى الشركة في كفاءة البرمجيات وقابليتها للنقل عوامل محدِّدة في المرحلة القادمة من تطوير الذكاء الاصطناعي، إلى جانب البنية التحتية للحوسبة واسعة النطاق.
نُشر المقال Tether Brings Google's TurboQuant to Production, Unlocking Long-Context AI on Everyday Devices أولاً على Blockonomi.

