AI前沿日报：Gemini 3.5 Flash拥抱“计算机使用”，Agent生态竞相开放

2小时前作者：Covsun & Bob 浏览量：2

AI Daily 6月25日周四

AI前沿日报：Gemini 3.5 Flash拥抱“计算机使用”，Agent生态竞相开放

模型能力原生化、智能体工具链标准化，AI正从“问答助手”向“行动伙伴”全面演进。

来源：AIHOT · 随趣科技整理 阅读时间：约 5 分钟

【编者按】今日AI领域动态密集。Google将“计算机使用”能力深度整合进Gemini Flash模型，标志着多模态智能体走向产品化；OpenAI更新GPT-5.5 Instant并测试更自然的双向语音交互，同时与Broadcom联合发布推理芯片，巩固基础设施；国内，通义千问开源了覆盖七大领域的Agent世界模型，火山引擎则推出了完整的Agent Ready基础设施。与此同时，行业观察显示工程岗位在AI冲击下展现出惊人韧性，而AI编码实践也正从关注“代码生成率”转向“可交付性”与协作效能。

01 模型发布/更新

Gemini 3.5 Flash 中的计算机使用

来源：Hacker News 热门（buzzing.cc 中文翻译）

Google将计算机使用（Computer use）作为内置工具集成至Gemini 3.5 Flash，使开发者能构建跨浏览器、移动端和桌面环境的智能体。该功能此前仅作为独立模型，现已原生整合至主Flash模型，并提供企业级安全保护。该能力在长周期企业自动化场景中表现更优。

查看原文 →

GPT-5.5 Instant 新版本，对话更有趣

来源：X：OpenAI (@OpenAI)

OpenAI带来新版GPT-5.5 Instant，模型能更好地理解问题背后的意图并调整回应，也能更可靠地处理复杂约束，提升实用性和连贯性。今天向付费用户推送，明天向免费用户推送。

查看原文 →

OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试

来源：IT之家（RSS）

部分ChatGPT用户已可体验双向AI语音模型Bidi 1。该模型支持边说话边监听，用户可在对话中途打断并发出新指令。OpenAI尚未官宣，预计本周启动更大范围测试。

查看原文 →

Qwen-AgentWorld 开源：让 Agent 学会"先预测，再行动"

来源：公众号：通义实验室（千问）

通义千问推出首个原生语言世界模型Qwen-AgentWorld，覆盖七大领域。模型基于超1000万条真实交互轨迹训练，在基准测试中超越GPT-5.4和Claude Opus。其作为解耦环境模拟器或智能体基础模型的能力均已验证，模型与评测基准已开源。

查看原文 →

02 产品发布/更新

盈透证券与 Grok 集成：实现从分析到交易指令的闭环

来源：xAI：News（网页）

盈透证券（Interactive Brokers）与Grok集成，用户可通过自然语言对话完成组合收益分析、风险敞口情景建模、市场研究，并直接生成实时交易指令，实现从数据洞察到执行决策的一体化。

查看原文 →

Notion 使用 Cursor SDK 嵌入编码智能体

来源：Cursor Blog

Notion通过Cursor SDK在数周内将编码智能体嵌入产品。用户可在文档中@Cursor完成从规划到创建PR的全流程开发。该集成基于Provider无关的智能体框架，让Notion无需自建基础设施即可获得完整编码能力。

查看原文 →

Perplexity 推出 Computer for Counsel

来源：X：Perplexity (@perplexity_ai)

Perplexity推出“Computer for Counsel”，该计算机现连接了律师日常使用的研究数据库、文档工具和案件管理系统，可从中提取可引用来源。所有Pro和Max订阅用户均可使用。

查看原文 →

Figma 在 Config 2026 押注人类判断，AI能力来自第三方

来源：The Decoder：AI News（RSS）

Figma在Config 2026扩展了设计画布并集成工作流系统。新功能包括Code Layers、Motion动画等。然而其AI功能依赖Anthropic、OpenAI等外部模型，推理成本影响利润，且面临竞品直接生成界面的威胁。

查看原文 →

Mistral AI 为 Connectors 推出多项安全与可控新能力

来源：Mistral AI：News（网页）

Mistral AI为Connectors发布多项新能力，包括增强的管理员控制、带连接器作用域的API密钥、多账户连接器、连接器调试器等，提升了AI工作流的可控性、安全性和可靠性。

查看原文 →

火山引擎推出 Agent Ready 基础设施，AgentKit与ArkClaw企业版升级

来源：公众号：火山引擎

火山引擎推出面向企业的Agent Ready基础设施和三层架构。AgentKit升级提供身份、运行时、沙箱等模块，ArkClaw企业版集成Agent广场与知识库。实践案例显示，海底捞门店Agent将小时级工作压缩到分钟级。

查看原文 →

OpenAI 与 Broadcom 发布面向 LLM 推理的定制芯片 Jalapeño

来源：OpenAI：官网动态（RSS）

OpenAI与Broadcom联合推出Jalapeño，一款专为大语言模型推理优化的定制AI芯片，旨在提升AI系统的性能、效率与规模。

查看原文 →

03 行业动态

在与Anthropic的纠纷中，NSA失去了对Mythos的访问权限

来源：Hacker News 热门（buzzing.cc 中文翻译）

美国国家安全局（NSA）因与人工智能公司Anthropic的纠纷，失去了对Mythos系统的访问权限。

查看原文 →

04 论文研究

思考即回忆：推理如何解锁LLM中的参数化知识

来源：Google Research：Blog（网页）

Google Research研究发现，推理（chain-of-thought）能帮助大语言模型回忆简单事实。生成的推理token充当计算缓冲，且推理过程中产生的相关事实起到启动效应，共同激活模型的正确答案。

查看原文 →

DFlash：块扩散草稿模型实现最高15倍吞吐量提升

来源：MarkTechPost（RSS）

UC San Diego团队提出的DFlash是一种轻量块扩散草稿模型，通过一次前向推理生成整块token再并行验证，实现无损加速。在NVIDIA Blackwell上，最高可实现约15倍吞吐量提升。

查看原文 →

05 技巧与观点

AI被认为会取代工程岗位，但新数据显示工程是2025年最具韧性的岗位

来源：TechCrunch：AI（RSS）

数据显示工程是2025年最具韧性的岗位。大型科技公司工程岗招聘降幅远低于总体，且占多家巨头新招员工超半数。早期初创公司工程师招聘甚至实现增长。这被视作AI引发的“杰文斯悖论”体现。

查看原文 →

NVIDIA NeMo AutoModel：一行代码加速Transformer MoE模型微调

来源：Hugging Face：Blog（RSS）

NVIDIA开源库NeMo AutoModel通过专家并行等技术，在MoE模型微调中实现3.4-3.7倍训练吞吐量提升和29-32%的GPU内存减少，仅需改动一行import，使百亿参数模型微调成为可能。

查看原文 →

OpenRouter 零数据留存（ZDR）实践：97 款新模型，流量占比近半

来源：OpenRouter：Announcements（RSS）

OpenRouter的零数据留存保证提示词和响应不被存储。自1月来新增97款支持ZDR的模型，月度token量增长4.3倍，约占全部路由流量一半。企业用户可灵活控制数据留存粒度。

查看原文 →

里德·霍夫曼称SpaceX"不是一家人工智能公司"，xAI则是"彻底的灾难"

来源：Hacker News 热门（buzzing.cc 中文翻译）

LinkedIn联合创始人Reid Hoffman在播客中批评SpaceX收购AI工具Cursor是“花钱买相关性”，称xAI是“彻底的灾难”，其联合创始人已全部离职。他还批评了美国政府强制Anthropic下架模型的行为。

查看原文 →

字节跳动技术副总裁洪定坤：AI Coding 的实践与探索

来源：公众号：火山引擎

字节跳动分享AI Coding实践：过去一年AI代码贡献率增长6倍，但人均需求吞吐率仅提升60%。研究发现，主流模型组合代码正确率高但可交付性差，需结合基建提升至80分。AI降低了编程门槛，但需优化指标与协作。

查看原文 →

MiniCPM-V 4.6 在 Apple Core AI 上高速运行

来源：X：面壁智能 OpenBMB (@OpenBMB)

MiniCPM-V 4.6在设备上以不到2B参数的高效率运行，展示了在Apple Core AI平台上的优异性能，推动高效多模态AI发展。

查看原文 →

结语

从模型能力的原生集成，到智能体开发工具链的标准化，再到算力基础设施的定制化，今天的AI资讯勾勒出一条清晰的主线：AI正在从“能说会道”走向“能做会算”。无论是Gemini的计算机使用、Qwen的世界模型，还是各家推出的Agent开发平台，都在致力于弥合“理解”与“行动”之间的鸿沟。同时，行业对AI影响的反思也趋于理性，工程技术岗位的韧性证明了人机协同的巨大潜力。这场由大模型驱动的变革，正以前所未有的深度和广度重塑我们的工具与工作方式。

文章资讯

AI前沿日报：Gemini 3.5 Flash拥抱“计算机使用”，Agent生态竞相开放

01 模型发布/更新

Gemini 3.5 Flash 中的计算机使用

GPT-5.5 Instant 新版本，对话更有趣

OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试

Qwen-AgentWorld 开源：让 Agent 学会"先预测，再行动"

02 产品发布/更新

盈透证券与 Grok 集成：实现从分析到交易指令的闭环

Notion 使用 Cursor SDK 嵌入编码智能体

Perplexity 推出 Computer for Counsel

Figma 在 Config 2026 押注人类判断，AI能力来自第三方

Mistral AI 为 Connectors 推出多项安全与可控新能力

火山引擎推出 Agent Ready 基础设施，AgentKit与ArkClaw企业版升级

OpenAI 与 Broadcom 发布面向 LLM 推理的定制芯片 Jalapeño

03 行业动态

在与Anthropic的纠纷中，NSA失去了对Mythos的访问权限

04 论文研究

思考即回忆：推理如何解锁LLM中的参数化知识

DFlash：块扩散草稿模型实现最高15倍吞吐量提升

05 技巧与观点

AI被认为会取代工程岗位，但新数据显示工程是2025年最具韧性的岗位

NVIDIA NeMo AutoModel：一行代码加速Transformer MoE模型微调

OpenRouter 零数据留存（ZDR）实践：97 款新模型，流量占比近半

里德·霍夫曼称SpaceX"不是一家人工智能公司"，xAI则是"彻底的灾难"

字节跳动技术副总裁洪定坤：AI Coding 的实践与探索

MiniCPM-V 4.6 在 Apple Core AI 上高速运行

结语