作者:互联网 时间: 2026-06-30 08:02:56
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 多模态理解力帮你轻松跨越从0到1的创作门槛☜☜☜
谷歌 DeepMind 团队正式发布一项关键性技术进展:将原生的桌面级计算机操控能力深度整合至 Gemini 3.5 Flash 模型之中。开发者由此可借助单一模型,直接构建具备跨平台视觉理解与交互能力的 AI 智能体——该智能体能在网页浏览器、移动设备及桌面操作系统中自主观察界面并执行操作。
过去,此类计算机控制功能以独立模型形式存在,需开发者在多个模型间频繁切换,并手动维护和同步上下文状态。如今完成原生融合后,AI 在处理跨设备、长周期任务时不再依赖外部协调机制,上下文全程保留在模型内部,显著降低开发复杂度与集成成本。
谷歌研究团队指出,制约当前 AI 智能体稳定运行的关键障碍,并非单个工具的能力上限,而是多模型协作过程中不可避免的上下文衰减与信息断层。通过将网页搜索、地图服务与本地桌面操作统一纳入同一模型架构,所有子任务共享统一语义空间,实现真正意义上的上下文无缝流转,从而显著提升复杂流程的成功率与鲁棒性。
这种“全栈式工具内聚”的范式转变,堪比将原本分散的办公楼群改造为一栋内部通道贯通的综合体——彻底规避了跨楼调度带来的延迟、误传与权限错配问题。从架构层面重构能力边界,有望系统性优化智能体的任务可靠性与端到端响应效率。
该原生计算机操作能力将优先落地于三类典型应用:需持续数小时乃至数天不间断运行的自动化流程(如数据归档、报表生成);面向 UI 一致性的长期回归测试与兼容性验证;以及涉及跨软件协同的知识密集型办公任务(如资料整理、会议纪要生成与分发)。这些场景均对上下文持久性与操作连贯性提出严苛要求,天然适配该技术特性。
在安全性方面,谷歌部署了多层次防御机制:涵盖面向真实操作系统环境的对抗样本训练、企业级敏感操作实时拦截策略,以及针对间接提示注入攻击的行为识别与阻断模块。面对开放、动态且不可预测的真实计算环境,这套组合式防护方案旨在为企业用户提供兼顾功能性与可控性的可信执行边界。