阶跃星辰发布 Step 3.7 Flash,Anthropic 完成 650 亿美元融资,Claude Opus 4.8 登场
阶跃星辰发布 Step 3.7 Flash,Anthropic 完成 650 亿美元融资,Claude Opus 4.8 登场
2026年5月29日 AI 热点速览
今天的 AI 圈热闹非凡:阶跃星辰开源 Step 3.7 Flash 模型,主打智能体工作流效率;Anthropic 一日双响,发布 Claude Opus 4.8 并宣布完成 650 亿美元 H 轮融资;Apple 正努力将 Gemini 塞进 iPhone;SGLang 与 AMD 合作优化 DeepSeek-R1 推理成本。更多资讯,一网打尽。
01模型发布 / 更新
阶跃星辰 Step 3.7 Flash 发布,聚焦智能体效率
X:阶跃星辰 StepFun阶跃星辰发布了开源大模型 Step 3.7 Flash,主打智能体工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,τ2-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。
查看原文 →Nano Banana Pro 与 Nano Banana 2 正式发布
X:Google AI for DevelopersNano Banana Pro 【gemini-3-pro-image】 和 Nano Banana 2 【gemini-3.1-flash-image】 现已正式发布,可通过 Gemini API 投入生产使用。官方推荐查看社区示例,了解两个模型的实际图像生成能力。
查看原文 →Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级
Anthropic:NewsroomAnthropic 发布了新一代模型 Claude Opus 4.8,作为 Opus 4.7 的升级版本,其在编码、智能体技能、推理和实用知识工作等各项基准测试中均取得进步。同步推出的新功能包括:用户可控制任务投入程度、Claude Code 新增"动态工作流"特性,以及 Opus 4.8 的 2.5 倍速模式价格降低为以往的三分之一。早期测试者反馈其在智能体任务中的判断力更可靠、工具调用更高效。该模型在 Online-Mind2Web 测评中得分 84%,超越了 Opus 4.7 和 GPT-5.5。此外,其诚实度与对齐表现也得到提升,代码错误漏检率降低了约 75%。
查看原文 →02产品发布 / 更新
llm-anthropic 0.25.1
Simon Willison 博客llm-anthropic 发布 0.25.1 版本。主要更新包括:新增 Claude Opus 4.8 模型;为账户启用了该功能的组织新增了 -o fast 1 选项以使用快速模式;调整了各模型的默认 max_tokens 值,使其直接使用模型的最大输出长度,而非固定的 8,192。
查看原文 →别只看基准测试,要看全面表现
X:OpenRouterOpenRouter 提醒开发者不要只依赖基准测试,而要看模型的全面表现。其新推出的比较页面允许用户可视化对比模型性能,例如直接对比 GPT-5.5、Claude Opus 4.7 与 Claude Opus 4.8。
查看原文 →Grok Build 0.2.7 发布,新增多项功能
X:xAIGrok Build 0.2.7 现已发布,包含 /usage、/login、跨子智能体共享终端,以及改进的图像理解功能。
查看原文 →Replit Canvas:智能体设计工具发布
X:Replit最好的设计工作不会在聊天框里发生。Replit 推出全新的 Replit Canvas,作为智能体设计工具,为用户提供空间来探索想法、创建变体并进行迭代,帮助构建精美的网站、应用、营销资产等。
查看原文 →使用 Google Pay & Wallet Developer MCP server 加速你的集成工作流
Google Developers BlogGoogle 推出 Google Pay & Wallet Developer MCP server,这是一款开放标准工具,旨在将 AI 开发助手和 IDE 安全连接到实时的 API 与账户上下文。开发者无需离开开发环境,即可搜索官方文档、验证 Wallet pass 定义、检查集成状态以及管理商户账户,从而减少开发摩擦。
查看原文 →在 Claude Code 中引入动态工作流
Claude:BlogClaude Code 推出"动态工作流"功能,使 Claude 能端到端处理复杂任务。该功能通过动态编写脚本,在单个会话中并行运行数十到数百个子智能体来完成工作,并会在结果呈现前进行验证。它适用于跨代码库的 bug 查找、大规模迁移等需要多角度分析的任务。现已在研究预览阶段可用。
查看原文 →Data Formulator 推出企业数据 AI 分析工具
X:Microsoft ResearchData Formulator 为企业数据工作流引入了 AI 驱动的分析功能。数据团队可以轻松将企业数据带入一个 AI 就绪的工作空间,用户可以使用 AI 智能体来探索、分析和可视化数据,将原始数据转化为可操作的洞察。
查看原文 →Sesame,这家由 Oculus 创始人创办的对话式 AI 初创公司,发布其 iOS 应用
TechCrunch:AI由 Oculus 创始人创办的 AI 初创公司 Sesame 发布了其 iOS 应用,该应用将对话式 AI 智能体带给公众。应用提供更自然的来回交互体验,设计上区别于传统聊天机器人,旨在让用户感觉更像在和真人对话。
查看原文 →03行业动态
萨姆·阿尔特曼和达里奥·阿莫代伊纷纷收回关于 AI 引发就业危机的预测
Hacker News 热门OpenAI 和 Anthropic 的掌门人似乎正在改变此前关于 AI 将迅速引发大规模失业的悲观预言态度。
查看原文 →Anthropic 完成 650 亿美元 H 轮融资,估值达 9650 亿美元
Anthropic:NewsroomAnthropic 宣布完成由 Altimeter Capital 等领投的 650 亿美元 H 轮融资,投后估值达 9650 亿美元。公司表示其旗舰模型 Claude 的企业部署持续增长,年化收入已突破 470 亿美元。此轮融资将用于推进 AI 安全与可解释性研究、扩展算力以满足 Claude 的需求,并规模化产品与合作伙伴关系。近期 Anthropic 已显著扩大计算容量,并宣布 Claude 已登陆 AWS、Google Cloud 和 Microsoft Azure 三大云平台。
查看原文 →Apple 正努力将庞大的 Gemini 模型塞进 iPhone 以驱动新 Siri
Ars Technica:AIApple 正尝试将大型 Gemini 模型集成到 iPhone 中,以支持全新的 Siri 功能。由于模型规模庞大,本地处理可能无法完全实现,因此一个云端组件很可能是必然的选择。
查看原文 →04论文研究
hexoai 开源 SIA 框架:AI 智能体实现递归自我改进
X:Rohan Paulhexoai 开源了 SIA(自我改进AI)框架。该框架展示了 AI 智能体不仅能优化其外部工作流,还能通过任务反馈直接更新自身的模型权重,从而在领域知识和能力上实现自主提升,而非仅依赖人类提供的提示或工具改进。论文报告显示,SIA 在 LawBench 基准上性能提升 56.6%,在 GPU kernels 运行上耗时减少 91.9%,在单细胞 RNA 去噪任务中相比基线提升 502%。
查看原文 →SGLang 团队与 AMD 合作,使 AMD MI355X GPU 的 DeepSeek-R1 推理在总拥有成本上具备竞争力
LMSYS:BlogSGLang 与 AMD 团队合作,通过一系列全栈优化,使 AMD Instinct MI355X GPU 在运行 DeepSeek-R1 大模型推理时实现了极具竞争力的总拥有成本。在 129 tok/s/user 的交互延迟下,其成本为每百万 token $0.169,比