谷歌 Gemini 3.5 Flash 原生搭载计算机使用能力,AI 代理时代真正来了
六月底的这场技术发布把人工智能代理的想象空间又往前推了一大步。Google 在 2026 年 6 月 24 日正式推出了 Gemini 3.5 Flash这次最引人注目的变化不是参数规模的膨胀而是它内置了原生的计算机使用Computer Use功能。换句话说这个模型不再只是坐在对话框里回答问题而是能够直接操作浏览器、移动端和桌面系统像人类一样在数字环境里完成多步骤任务。这项能力此前只在独立的 Gemini 2.5 系列上出现过现在被直接嵌入到更轻量、更快速的 Flash 版本中。对开发者来说这意味着部署门槛大幅降低性能却并未缩水。企业想要构建自动化工具或优化内部工作流不再需要复杂的中间件拼接一套 API 就能让 AI 代理上手干活。从能看到能干Gemini 3.5 Flash 的进化逻辑这次升级的核心是让 AI 系统具备观察、推理、行动的闭环能力。Gemini 3.5 Flash 可以浏览网页界面、执行软件测试、管理企业级应用甚至处理那些需要持续交互和情境判断的长期任务。它继承了 Gemini 家族在函数调用、搜索整合和地图工具上的优势又在此基础上叠加了与操作系统直接交互的能力。在 OSWorld-Verified 基准测试中Gemini 3.5 Flash 拿下了 78.4% 的分数。这个成绩放在当前主流模型里相当亮眼说明它在理解屏幕内容、定位界面元素、执行正确操作这一系列链条上已经具备了接近实用的可靠性。企业场景下的落地想象真正让人兴奋的是这项技术在实际业务中的渗透速度。已经有早期采用者把它用在了持续软件测试上——AI 代理可以 24 小时不间断地模拟用户操作自动发现界面 Bug 和交互断层。在企业知识工作流方面它也能承担大量重复性的数据整理、表单填写和跨系统信息搬运工作。Google 为此专门搭建了 Gemini Enterprise 代理平台同时开放了 Gemini API 接口。开发者还能在 Browserbase 提供的托管环境里先做测试降低试错成本。GitHub 上也放出了参考实现代码社区生态的跟进速度比预期快得多。安全问题不能只做事后补丁能力越大风险面也越大。当 AI 代理被赋予访问敏感系统或核心业务流程的权限时一条恶意指令就可能引发连锁反应。Google 显然意识到了这一点在 Gemini 3.5 Flash 里内置了几层安全机制。最核心的是对抗训练专门针对提示注入攻击做了优化。这种攻击手段通过外部内容向 AI 输入恶意指令劫持其正常行为。除了模型层面的防御Google 还加了两道企业级安全闸门一是对敏感或不可逆操作强制要求用户确认二是一旦检测到间接提示注入的苗头系统会自动终止任务。不过安全专家的态度依然谨慎。他们认为与实时环境交互的自主代理天然会引入新的攻击路径尤其是在配置不当、权限边界模糊的情况下。Google 建议采用纵深防御策略把模型自带的安全层与沙盒环境、严格的访问控制、人机协同验证结合起来而不是单靠某一项技术兜底。

相关新闻