Tether 人工智能研究团队发布了 TurboQuant 的开源正式版本,这是一种最初由 Google Research 开发的内存压缩算法。
此次发布是 QVAC SDK 0.12.0 的一部分,面向笔记本电脑、手机、边缘设备及去中心化网络。它允许本地 AI 模型在不依赖云基础设施的情况下处理更长的会话。
这标志着设备端 AI 在处理内存密集型任务方面发生了实质性转变。
长期以来,内存一直是在消费级硬件上运行强大 AI 模型的一大障碍。当 AI 助手处理长篇文档或对话时,它会将上下文存储在所谓的 KV 缓存中。
在约 262,000 个 token 的情况下,4B 模型的 KV 缓存仅内存消耗就可达约 8 GB。四个并发会话在不计算模型本身的情况下,可将该数字推高至 32 GB。
TurboQuant 通过将 KV 缓存压缩高达五倍来解决这一问题,同时将输出质量保持在接近未压缩模型的水平。
用户现在可以让基于笔记本电脑的助手分析一份百页法律文件,而无需将其上传至远程服务器。
学生、开发者、记者和研究人员都可以在自己已有的设备上享受更长、更具上下文感知能力的 AI 会话。
在谈及此次发布的更广泛考量时,Tether 首席执行官 Paolo Ardoino 指出了研究与实际软件之间的差距。
"谷歌的研究表明,AI 内存的压缩效率远超大多数人的预期,"他说。"我们的工作将这一突破带入了开发者、初创企业和用户可以真正使用的正式软件中。"
此正式版本包含完整的量化流水线、框架适配器、开发者文档以及针对工作负载优化的配置文件。
这些组件专为超大规模数据中心以外的真实环境而设计,涵盖内存受限、混合硬件及对延迟敏感的部署场景。
TurboQuant 作为 QVAC SDK 0.12.0 的一部分发布,直接集成到 Fabric 中,而 Fabric 是 QVAC 技术栈的核心组件。
Fabric 最初是 llama.cpp 的一个分支,此后不断发展,融合了多项研究进展。该 SDK 为开发者提供了一套统一的工具、库和运行时组件,用于构建本地 AI 应用程序。
对于初创企业和独立开发者而言,这打破了大型 AI 产品需要昂贵 GPU 集群的固有假设。
团队现在可以针对更长的上下文窗口、更大的文件工作负载以及跨消费级和边缘硬件的灵活部署进行设计。这为在不依赖纯云端架构的情况下构建 AI 产品开辟了切实可行的路径。
针对数据隐私和云端依赖的顾虑,Ardoino 阐述了将 AI 任务保留在本地设备上的理由。
"人们应该能够让 AI 助手阅读长篇文档或处理私人信息,而不必将每项任务都强制通过远程数据中心,"他说。从这个意义上说,TurboQuant 为本地 AI 提供了更大的运行空间。
Tether 的战略核心在于让 AI 更贴近用户运行,覆盖个人设备和去中心化网络。该公司认为,软件效率和可移植性与大规模计算基础设施一样,都是 AI 发展下一阶段的决定性因素。
The post Tether Brings Google's TurboQuant to Production, Unlocking Long-Context AI on Everyday Devices appeared first on Blockonomi.


