Comprar cripto Mercados Spot FuturosMU Ganhe Centro de eventos

Mais

TLDR: O TurboQuant comprime a memória cache KV de IA até cinco vezes com um impacto mínimo na qualidade do modelo. A atualização permite que laptops e telemóveis executem IA por mais tempoTLDR: O TurboQuant comprime a memória cache KV de IA até cinco vezes com um impacto mínimo na qualidade do modelo. A atualização permite que laptops e telemóveis executem IA por mais tempo

A Tether traz o TurboQuant da Google para produção, desbloqueando IA de contexto longo em dispositivos do dia a dia

Fonte: Blockonomi

2026/06/02 07:46

Leu 4 min

AI$0.02756-1.95%

LONG$0.0007322-0.47%

Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em crypto.news@mexc.com

TLDR:

O TurboQuant comprime a memória KV cache de IA até cinco vezes com um impacto mínimo na qualidade do modelo.
A atualização permite que portáteis e telemóveis executem sessões de IA mais longas sem depender da cloud.
O QVAC SDK 0.12.0 integra o TurboQuant no Fabric, expandindo as opções de desenvolvimento de IA local.
A Tether pretende impulsionar a IA focada na privacidade, aproximando a inferência eficiente dos utilizadores finais.

O Grupo de Investigação de IA da Tether lançou uma versão de produção open-source do TurboQuant, um algoritmo de compressão de memória originalmente desenvolvido pela Google Research.

O lançamento faz parte do QVAC SDK 0.12.0 e destina-se a portáteis, telemóveis, dispositivos de edge e redes descentralizadas. Permite que os modelos de IA locais processem sessões mais longas sem depender de infraestrutura cloud.

Isto marca uma mudança prática na forma como a IA no dispositivo gere tarefas com uso intensivo de memória.

O TurboQuant comprime a memória de IA até cinco vezes

A memória tem sido há muito tempo uma barreira para executar modelos de IA capazes em hardware de consumo. Quando um assistente de IA processa um documento longo ou uma conversa, armazena esse contexto no que é denominado KV cache.

Com aproximadamente 262 000 tokens, o KV cache de um modelo 4B pode consumir cerca de 8 GB de memória por si só. Quatro sessões simultâneas podem elevar esse valor para 32 GB, antes de contabilizar o próprio modelo.

O TurboQuant resolve isto ao comprimir o KV cache até cinco vezes, mantendo a qualidade do resultado próxima de um modelo não comprimido.

Um utilizador pode agora pedir a um assistente instalado num portátil que analise um documento jurídico de cem páginas sem o carregar para um servidor remoto.

Estudantes, programadores, jornalistas e investigadores podem todos beneficiar de sessões de IA mais longas e com maior consciência contextual nos dispositivos que já possuem.

Ao falar sobre o raciocínio mais amplo por detrás do lançamento, o CEO da Tether, Paolo Ardoino, apontou para o fosso entre a investigação e o software prático.

"A investigação da Google mostrou que a memória de IA podia ser comprimida de forma muito mais eficiente do que a maioria das pessoas assumia," afirmou. "O nosso trabalho traz essa descoberta para software de produção com o qual programadores, startups e utilizadores podem realmente construir."

O lançamento de produção inclui um pipeline de quantização completo, adaptadores de framework, documentação para programadores e perfis ajustados à carga de trabalho.

Estes componentes são concebidos para ambientes reais fora de centros de dados de hiperescala, abrangendo memória limitada, hardware misto e implementações sensíveis à latência.

O QVAC SDK 0.12.0 expande as opções de desenvolvimento de IA local

O TurboQuant é fornecido como parte do QVAC SDK 0.12.0, integrado diretamente no Fabric, um componente central da stack QVAC.

O Fabric começou como um fork do llama.cpp e cresceu desde então para incorporar múltiplos avanços de investigação. O SDK oferece aos programadores um conjunto unificado de ferramentas, bibliotecas e componentes de runtime para construir aplicações de IA locais.

Para startups e programadores independentes, isto elimina o pressuposto de que grandes produtos de IA requerem clusters de GPU dispendiosos.

As equipas podem agora projetar para janelas de contexto mais longas, cargas de trabalho de ficheiros maiores e implementação flexível em hardware de consumo e de edge. Isso abre caminhos práticos para construir produtos de IA sem arquitetura exclusivamente na cloud.

Ao abordar as preocupações em torno da privacidade de dados e da dependência da cloud, Ardoino defendeu a manutenção das tarefas de IA em dispositivos locais.

"As pessoas devem poder pedir a um assistente de IA que leia um documento longo ou trabalhe com informações privadas sem que cada tarefa seja forçada a passar por um centro de dados remoto," disse. O TurboQuant, nesse sentido, dá à IA local mais espaço operacional.

A estratégia da Tether centra-se em IA que funciona mais próximo dos utilizadores, em dispositivos pessoais e redes descentralizadas. A empresa vê a eficiência e a portabilidade do software como fatores determinantes na próxima fase do desenvolvimento da IA, a par da infraestrutura de computação em grande escala.

O artigo Tether Brings Google's TurboQuant to Production, Unlocking Long-Context AI on Everyday Devices foi publicado primeiro em Blockonomi.

Oportunidade de mercado

Cotação Gensyn (AI)

$0.02747

$0.02747$0.02747

-3.41%

USD

Gráfico de preço em tempo real de Gensyn (AI)

Launchpad SPACEX(PRE)

Registre-se para concorrer a um sorteio grátis

Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail crypto.news@mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.