Дослідницька група ШІ компанії Tether випустила відкриту виробничу версію TurboQuant — алгоритму стиснення пам'яті, спочатку розробленого Google Research.
Випуск є частиною QVAC SDK 0.12.0 і орієнтований на ноутбуки, телефони, периферійні пристрої та децентралізовані мережі. Він дозволяє локальним моделям ШІ обробляти довші сесії без залежності від хмарної інфраструктури.
Це означає практичний зсув у тому, як ШІ на пристроях керує завданнями з інтенсивним використанням пам'яті.
Пам'ять давно є перешкодою для запуску потужних моделей ШІ на споживчому обладнанні. Коли ШІ-асистент обробляє довгий документ або розмову, він зберігає цей контекст у так званому KV-кеші.
При приблизно 262 000 токенів KV-кеш для моделі 4B може займати близько 8 ГБ пам'яті. Чотири паралельні сесії можуть збільшити цей показник до 32 ГБ ще до врахування самої моделі.
TurboQuant вирішує це, стискаючи KV-кеш до п'яти разів, зберігаючи при цьому якість виводу, близьку до нестисненої моделі.
Тепер користувач може попросити асистента на ноутбуці проаналізувати стосторінковий юридичний документ без його завантаження на віддалений сервер.
Студенти, розробники, журналісти та дослідники можуть скористатися довшими, більш контекстно-усвідомленими сесіями ШІ на пристроях, якими вони вже володіють.
Говорячи про ширше обґрунтування випуску, генеральний директор Tether Паоло Ардоїно вказав на розрив між дослідженнями та практичним програмним забезпеченням.
"Дослідження Google показало, що пам'ять ШІ можна стискати набагато ефективніше, ніж більшість людей вважала," — сказав він. "Наша робота переносить це досягнення у виробниче програмне забезпечення, з яким розробники, стартапи та користувачі можуть реально працювати."
Виробничий випуск включає повний конвеєр квантизації, адаптери фреймворків, документацію для розробників та профілі, налаштовані під робочі навантаження.
Ці компоненти розроблені для реальних середовищ поза гіпермасштабними центрами обробки даних, охоплюючи обмежену пам'ять, змішане обладнання та розгортання, чутливі до затримок.
TurboQuant постачається як частина QVAC SDK 0.12.0, інтегрований безпосередньо у Fabric — ключовий компонент стеку QVAC.
Fabric розпочався як форк llama.cpp і з тих пір розширився, включивши кілька дослідницьких досягнень. SDK надає розробникам уніфікований набір інструментів, бібліотек та компонентів середовища виконання для створення локальних застосунків ШІ.
Для стартапів і незалежних розробників це усуває припущення, що великі продукти ШІ вимагають дорогих GPU-кластерів.
Команди тепер можуть проектувати для довших контекстних вікон, більших файлових навантажень та гнучкого розгортання на споживчому та периферійному обладнанні. Це відкриває практичні шляхи для створення продуктів ШІ без архітектури, що залежить виключно від хмари.
Звертаючись до питань конфіденційності даних та залежності від хмари, Ардоїно висловився на користь збереження завдань ШІ на локальних пристроях.
"Люди повинні мати можливість попросити ШІ-асистента прочитати довгий документ або опрацювати приватну інформацію, не змушуючи кожне завдання проходити через віддалений центр обробки даних," — сказав він. TurboQuant у цьому сенсі надає локальному ШІ більше операційного простору.
Стратегія Tether зосереджена на ШІ, що працює ближче до користувачів — на особистих пристроях і в децентралізованих мережах. Компанія вбачає ефективність програмного забезпечення та портативність як визначальні фактори наступного етапу розвитку ШІ поряд із великомасштабною обчислювальною інфраструктурою.
Публікація Tether brings Google's TurboQuant to production, unlocking long-context AI on everyday devices вперше з'явилася на Blockonomi.
