AI前沿日报:Gemini 3.5 Flash拥抱“计算机使用”,Agent生态竞相开放
AI前沿日报:Gemini 3.5 Flash拥抱“计算机使用”,Agent生态竞相开放
模型能力原生化、智能体工具链标准化,AI正从“问答助手”向“行动伙伴”全面演进。
【编者按】今日AI领域动态密集。Google将“计算机使用”能力深度整合进Gemini Flash模型,标志着多模态智能体走向产品化;OpenAI更新GPT-5.5 Instant并测试更自然的双向语音交互,同时与Broadcom联合发布推理芯片,巩固基础设施;国内,通义千问开源了覆盖七大领域的Agent世界模型,火山引擎则推出了完整的Agent Ready基础设施。与此同时,行业观察显示工程岗位在AI冲击下展现出惊人韧性,而AI编码实践也正从关注“代码生成率”转向“可交付性”与协作效能。
01 模型发布/更新
Gemini 3.5 Flash 中的计算机使用
来源:Hacker News 热门(buzzing.cc 中文翻译)Google将计算机使用(Computer use)作为内置工具集成至Gemini 3.5 Flash,使开发者能构建跨浏览器、移动端和桌面环境的智能体。该功能此前仅作为独立模型,现已原生整合至主Flash模型,并提供企业级安全保护。该能力在长周期企业自动化场景中表现更优。
查看原文 →GPT-5.5 Instant 新版本,对话更有趣
来源:X:OpenAI (@OpenAI)OpenAI带来新版GPT-5.5 Instant,模型能更好地理解问题背后的意图并调整回应,也能更可靠地处理复杂约束,提升实用性和连贯性。今天向付费用户推送,明天向免费用户推送。
查看原文 →OpenAI ChatGPT 语音最大规模升级:双向AI语音模型 Bidi 1 已上线测试
来源:IT之家(RSS)部分ChatGPT用户已可体验双向AI语音模型Bidi 1。该模型支持边说话边监听,用户可在对话中途打断并发出新指令。OpenAI尚未官宣,预计本周启动更大范围测试。
查看原文 →Qwen-AgentWorld 开源:让 Agent 学会"先预测,再行动"
来源:公众号:通义实验室(千问)通义千问推出首个原生语言世界模型Qwen-AgentWorld,覆盖七大领域。模型基于超1000万条真实交互轨迹训练,在基准测试中超越GPT-5.4和Claude Opus。其作为解耦环境模拟器或智能体基础模型的能力均已验证,模型与评测基准已开源。
查看原文 →02 产品发布/更新
盈透证券与 Grok 集成:实现从分析到交易指令的闭环
来源:xAI:News(网页)盈透证券(Interactive Brokers)与Grok集成,用户可通过自然语言对话完成组合收益分析、风险敞口情景建模、市场研究,并直接生成实时交易指令,实现从数据洞察到执行决策的一体化。
查看原文 →Notion 使用 Cursor SDK 嵌入编码智能体
来源:Cursor BlogNotion通过Cursor SDK在数周内将编码智能体嵌入产品。用户可在文档中@Cursor完成从规划到创建PR的全流程开发。该集成基于Provider无关的智能体框架,让Notion无需自建基础设施即可获得完整编码能力。
查看原文 →Perplexity 推出 Computer for Counsel
来源:X:Perplexity (@perplexity_ai)Perplexity推出“Computer for Counsel”,该计算机现连接了律师日常使用的研究数据库、文档工具和案件管理系统,可从中提取可引用来源。所有Pro和Max订阅用户均可使用。
查看原文 →Figma 在 Config 2026 押注人类判断,AI能力来自第三方
来源:The Decoder:AI News(RSS)Figma在Config 2026扩展了设计画布并集成工作流系统。新功能包括Code Layers、Motion动画等。然而其AI功能依赖Anthropic、OpenAI等外部模型,推理成本影响利润,且面临竞品直接生成界面的威胁。
查看原文 →Mistral AI 为 Connectors 推出多项安全与可控新能力
来源:Mistral AI:News(网页)Mistral AI为Connectors发布多项新能力,包括增强的管理员控制、带连接器作用域的API密钥、多账户连接器、连接器调试器等,提升了AI工作流的可控性、安全性和可靠性。
查看原文 →火山引擎推出 Agent Ready 基础设施,AgentKit与ArkClaw企业版升级
来源:公众号:火山引擎火山引擎推出面向企业的Agent Ready基础设施和三层架构。AgentKit升级提供身份、运行时、沙箱等模块,ArkClaw企业版集成Agent广场与知识库。实践案例显示,海底捞门店Agent将小时级工作压缩到分钟级。
查看原文 →OpenAI 与 Broadcom 发布面向 LLM 推理的定制芯片 Jalapeño
来源:OpenAI:官网动态(RSS)OpenAI与Broadcom联合推出Jalapeño,一款专为大语言模型推理优化的定制AI芯片,旨在提升AI系统的性能、效率与规模。
查看原文 →03 行业动态
在与Anthropic的纠纷中,NSA失去了对Mythos的访问权限
来源:Hacker News 热门(buzzing.cc 中文翻译)美国国家安全局(NSA)因与人工智能公司Anthropic的纠纷,失去了对Mythos系统的访问权限。
查看原文 →04 论文研究
思考即回忆:推理如何解锁LLM中的参数化知识
来源:Google Research:Blog(网页)Google Research研究发现,推理(chain-of-thought)能帮助大语言模型回忆简单事实。生成的推理token充当计算缓冲,且推理过程中产生的相关事实起到启动效应,共同激活模型的正确答案。
查看原文 →DFlash:块扩散草稿模型实现最高15倍吞吐量提升
来源:MarkTechPost(RSS)UC San Diego团队提出的DFlash是一种轻量块扩散草稿模型,通过一次前向推理生成整块token再并行验证,实现无损加速。在NVIDIA Blackwell上,最高可实现约15倍吞吐量提升。
查看原文 →05 技巧与观点
AI被认为会取代工程岗位,但新数据显示工程是2025年最具韧性的岗位
来源:TechCrunch:AI(RSS)数据显示工程是2025年最具韧性的岗位。大型科技公司工程岗招聘降幅远低于总体,且占多家巨头新招员工超半数。早期初创公司工程师招聘甚至实现增长。这被视作AI引发的“杰文斯悖论”体现。
查看原文 →NVIDIA NeMo AutoModel:一行代码加速Transformer MoE模型微调
来源:Hugging Face:Blog(RSS)NVIDIA开源库NeMo AutoModel通过专家并行等技术,在MoE模型微调中实现3.4-3.7倍训练吞吐量提升和29-32%的GPU内存减少,仅需改动一行import,使百亿参数模型微调成为可能。
查看原文 →OpenRouter 零数据留存(ZDR)实践:97 款新模型,流量占比近半
来源:OpenRouter:Announcements(RSS)OpenRouter的零数据留存保证提示词和响应不被存储。自1月来新增97款支持ZDR的模型,月度token量增长4.3倍,约占全部路由流量一半。企业用户可灵活控制数据留存粒度。
查看原文 →里德·霍夫曼称SpaceX"不是一家人工智能公司",xAI则是"彻底的灾难"
来源:Hacker News 热门(buzzing.cc 中文翻译)LinkedIn联合创始人Reid Hoffman在播客中批评SpaceX收购AI工具Cursor是“花钱买相关性”,称xAI是“彻底的灾难”,其联合创始人已全部离职。他还批评了美国政府强制Anthropic下架模型的行为。
查看原文 →字节跳动技术副总裁洪定坤:AI Coding 的实践与探索
来源:公众号:火山引擎字节跳动分享AI Coding实践:过去一年AI代码贡献率增长6倍,但人均需求吞吐率仅提升60%。研究发现,主流模型组合代码正确率高但可交付性差,需结合基建提升至80分。AI降低了编程门槛,但需优化指标与协作。
查看原文 →MiniCPM-V 4.6 在 Apple Core AI 上高速运行
来源:X:面壁智能 OpenBMB (@OpenBMB)MiniCPM-V 4.6在设备上以不到2B参数的高效率运行,展示了在Apple Core AI平台上的优异性能,推动高效多模态AI发展。
查看原文 →结语
从模型能力的原生集成,到智能体开发工具链的标准化,再到算力基础设施的定制化,今天的AI资讯勾勒出一条清晰的主线:AI正在从“能说会道”走向“能做会算”。无论是Gemini的计算机使用、Qwen的世界模型,还是各家推出的Agent开发平台,都在致力于弥合“理解”与“行动”之间的鸿沟。同时,行业对AI影响的反思也趋于理性,工程技术岗位的韧性证明了人机协同的巨大潜力。这场由大模型驱动的变革,正以前所未有的深度和广度重塑我们的工具与工作方式。