作者:互联网 时间: 2026-06-03 10:04:02
Tether在QVAC SDK 0.12.0中新增了内存优化工具,该举措将帮助笔记本电脑、智能手机等设备在本地处理更繁重的工作负载。首席执行官Paolo Ardoino在X平台宣布本次更新时表示,新版包含TurboQuant技术,可将AI内存需求降低五倍,同时保持近乎相同的输出质量。
本次更新主要针对大型语言模型的关键瓶颈:内存。随着对话和任务时长增加,内存需求会急剧上升。TurboQuant能减轻这种负担,使设备可一次性处理更庞大的文档、更长的对话和更多信息。
新版还新增了文生视频功能、机器人控制特性、编程助手支持、语音处理升级以及更快的图像分类工具。
TurboQuant是QVAC SDK 0.12.0的核心功能。该技术能压缩KV缓存——这是AI模型在会话期间用于追踪对话、文档等信息的工作内存类型。
当用户向模型输入更多信息时,内存需求就会上升。Tether表示,处理约26.2万token的40亿参数模型,仅缓存就可能需要约8GB内存。在此规模下运行多个会话,很快就会超出多数笔记本电脑和消费级设备的极限。
TurboQuant旨在缓解这种压力。据Tether称,该技术能将KV缓存内存需求压缩至五分之一,同时保持近乎相同的输出质量。因此用户无需过度依赖远程计算资源,即可处理更长的对话、更大的文档和更庞大的代码库。
本次更新不仅优化了内存。QVAC SDK 0.12.0还新增了多项工具,旨在扩展开发者能在本地设备运行的功能。
新增功能包括通过Wan2.1模型实现的文生视频支持。该平台还推出了视觉-语言-行动功能,允许开发者构建机器人控制应用。
新版进一步增加了轻量级图像分类工具,专为无需大型视觉模型的任务设计。同时QVAC将其文本转语音和转录系统迁移至GGML引擎,这一改动增强了对主流桌面和移动操作系统的支持。
开发者还获得了编程助手的新选项。QVAC现在通过提供程序包集成OpenCode和OpenClaw,简化了模型管理与部署。
本次发布彰显了Tether致力于在用户设备本地运行更多计算任务,而非完全依赖集中式数据中心的战略。该公司日益聚焦于能在个人设备、本地网络和去中心化系统上运行的软件。
"谷歌研究证明,AI内存压缩效率远超大多数人想象。我们的工作正是将这一突破转化为开发者、初创公司和用户真正可用的生产级软件。"Ardoino表示。
他补充道:"用户应该能要求AI助手阅读长文档、记住项目、协助编程或处理隐私信息,而无需每个任务都经由远程数据中心处理。"
此次发布正值Tether将业务拓展至内存优化工具之外。Ardoino近期透露,公司正在开发开源点对点搜索引擎,并演示了去中心化维基百科搜索系统。