O Grupo de Investigação de IA da Tether lançou uma versão de produção open-source do TurboQuant, um algoritmo de compressão de memória originalmente desenvolvido pela Google Research.
O lançamento faz parte do QVAC SDK 0.12.0 e destina-se a portáteis, telemóveis, dispositivos de edge e redes descentralizadas. Permite que os modelos de IA locais processem sessões mais longas sem depender de infraestrutura cloud.
Isto marca uma mudança prática na forma como a IA no dispositivo gere tarefas com uso intensivo de memória.
A memória tem sido há muito tempo uma barreira para executar modelos de IA capazes em hardware de consumo. Quando um assistente de IA processa um documento longo ou uma conversa, armazena esse contexto no que é denominado KV cache.
Com aproximadamente 262 000 tokens, o KV cache de um modelo 4B pode consumir cerca de 8 GB de memória por si só. Quatro sessões simultâneas podem elevar esse valor para 32 GB, antes de contabilizar o próprio modelo.
O TurboQuant resolve isto ao comprimir o KV cache até cinco vezes, mantendo a qualidade do resultado próxima de um modelo não comprimido.
Um utilizador pode agora pedir a um assistente instalado num portátil que analise um documento jurídico de cem páginas sem o carregar para um servidor remoto.
Estudantes, programadores, jornalistas e investigadores podem todos beneficiar de sessões de IA mais longas e com maior consciência contextual nos dispositivos que já possuem.
Ao falar sobre o raciocínio mais amplo por detrás do lançamento, o CEO da Tether, Paolo Ardoino, apontou para o fosso entre a investigação e o software prático.
"A investigação da Google mostrou que a memória de IA podia ser comprimida de forma muito mais eficiente do que a maioria das pessoas assumia," afirmou. "O nosso trabalho traz essa descoberta para software de produção com o qual programadores, startups e utilizadores podem realmente construir."
O lançamento de produção inclui um pipeline de quantização completo, adaptadores de framework, documentação para programadores e perfis ajustados à carga de trabalho.
Estes componentes são concebidos para ambientes reais fora de centros de dados de hiperescala, abrangendo memória limitada, hardware misto e implementações sensíveis à latência.
O TurboQuant é fornecido como parte do QVAC SDK 0.12.0, integrado diretamente no Fabric, um componente central da stack QVAC.
O Fabric começou como um fork do llama.cpp e cresceu desde então para incorporar múltiplos avanços de investigação. O SDK oferece aos programadores um conjunto unificado de ferramentas, bibliotecas e componentes de runtime para construir aplicações de IA locais.
Para startups e programadores independentes, isto elimina o pressuposto de que grandes produtos de IA requerem clusters de GPU dispendiosos.
As equipas podem agora projetar para janelas de contexto mais longas, cargas de trabalho de ficheiros maiores e implementação flexível em hardware de consumo e de edge. Isso abre caminhos práticos para construir produtos de IA sem arquitetura exclusivamente na cloud.
Ao abordar as preocupações em torno da privacidade de dados e da dependência da cloud, Ardoino defendeu a manutenção das tarefas de IA em dispositivos locais.
"As pessoas devem poder pedir a um assistente de IA que leia um documento longo ou trabalhe com informações privadas sem que cada tarefa seja forçada a passar por um centro de dados remoto," disse. O TurboQuant, nesse sentido, dá à IA local mais espaço operacional.
A estratégia da Tether centra-se em IA que funciona mais próximo dos utilizadores, em dispositivos pessoais e redes descentralizadas. A empresa vê a eficiência e a portabilidade do software como fatores determinantes na próxima fase do desenvolvimento da IA, a par da infraestrutura de computação em grande escala.
O artigo Tether Brings Google's TurboQuant to Production, Unlocking Long-Context AI on Everyday Devices foi publicado primeiro em Blockonomi.


