我自己的原文哦~                                  https://blog.51cto.com/whaosoft/14081837

#What is Stigma Attributed to? A Theory-Grounded, Expert-Annotated Interview Corpus for Demystifying Mental-Health Stigma

让AI读懂「言外之意」:AI4SG团队发布首个心理健康污名语料库,破解隐性偏见识别难题

论文第一作者 Han Meng 是新加坡国立大学博士生,从事心理学构建的计算方法研究。通讯作者 Yi-Chieh Lee 是新加坡国立大学助理教授,在对话式人工智能、人机交互和心理健康技术领域开展研究工作。共同作者 Renwen Zhang 是南洋理工大学助理教授,专注于计算传播学研究,为本研究提供了传播学视角。Jungup Lee 是新加坡国立大学副教授,在心理健康领域有深入研究,为本研究提供了重要的领域知识支撑。

心理健康问题影响着全球数亿人的生活,然而患者往往面临着双重负担:不仅要承受疾病本身的痛苦,还要忍受来自社会的偏见和歧视。世界卫生组织数据显示,全球有相当比例的心理健康患者因为恐惧社会歧视而延迟或拒绝治疗。

这种「污名化」现象如同隐形的障碍,不仅阻碍了患者的康复之路,更成为了一个重要的社会问题。患者们在承受病痛的同时,还要面对来自不同社会环境中的偏见。更为复杂的是,这种污名化往往以微妙、隐蔽的形式存在于日常对话中,即使是先进的人工智能系统也难以有效识别。

尽管自然语言处理领域在仇恨言论、攻击性语言检测方面已有不少研究,但专门针对心理健康污名的计算资源却相对稀缺。现有数据集主要来源于社交媒体或合成数据,缺乏真实对话场景中的深层心理构建,且往往忽视了社会文化背景的重要性。

新加坡国立大学 AI4SG 实验室联合多学科专家团队,构建了首个基于专家标注的心理健康污名访谈语料库 MHStigmaInterview,希望为这一重要社会问题提供技术支持。该研究获得 ACL 2025 Oral 论文及高级领域主席奖(全会仅 47 篇获此荣誉)认可。

  • 论文标题:What is Stigma Attributed to? A Theory-Grounded, Expert-Annotated Interview Corpus for Demystifying Mental-Health Stigma
  • 论文链接:https://aclanthology.org/2025.acl-long.272.pdf
  • 数据集链接:https://github.com/HanMeng2004/Mental-Health-Stigma-Interview-Corpus

研究团队

该研究由新加坡国立大学 AI4SG 实验室主导,汇聚了人机交互、计算社会科学、人工智能伦理等多个领域的研究者。AI4SG 实验室专注于人机交互、计算社会科学、人机协作以及社会公益人工智能等交叉研究领域。

研究团队与心理健康领域专家密切合作,为 AI 和 NLP 研究引入了跨学科视角,为计算科学与社会科学的深度融合提供了一个探索案例。

图片

理论驱动的框架设计

与传统依赖社交媒体数据的方法不同,MHStigmaInterview 建立在心理学理论基础上。研究团队采用了归因模型,将心理健康污名分解为七个核心维度:

认知层面:

  • 责任归因: 认为患者应为自己的病情负责

情感层面:

  • 愤怒: 对患者感到不满
  • 恐惧: 认为患者危险、不可预测
  • 怜悯: 缺乏真正的同情心

行为层面:

  • 拒绝帮助: 不愿意提供支持
  • 强制隔离: 主张强制住院治疗
  • 社交距离: 倾向于回避与患者接触

这种理论驱动的标注体系,为后续的计算模型提供了相对明确的学习目标。

图片

基于聊天机器人的数据收集

为了获得更自然的对话样本,研究团队设计了聊天机器人访谈系统。该系统通过三个阶段引导参与者:

  • 破冰阶段: 聊天机器人(命名为 Nova)首先与参与者讨论轻松话题,如兴趣爱好、最近看过的电影等,建立基本的交流氛围。
  • 情境植入: 系统呈现一个关于虚构角色「Avery」的抑郁症患者故事,描述其在工作、学习、社交中面临的挑战,避免使用专业术语以减少社会期望偏见。
  • 深度访谈: 基于七个核心归因维度设计访谈问题,如:
  • 「你认为 Avery 目前的状况主要是他们自己行为的结果吗?」
  • 「如果你要为家里选择租户,你会放心把房子租给像 Avery 这样的人吗?」
  • 「如果你是 Avery 的邻居,你会考虑让他们离开社区并接受住院治疗吗?」

系统会根据参与者回答的详细程度自动调整后续提问策略,以获得充分的信息。

图片

数据集基本情况

经过严格的伦理审查和数据筛选,最终语料库包含:

  • 4,141 个访谈片段
  • 684 名参与者,涵盖不同年龄、性别、种族、教育背景
  • 平均 2.11 轮对话,总字符数超过 17 万
  • 专家标注: 两名训练有素的标注员独立标注,Cohen's kappa = 0.71

数据分析显示:

  • 53.9% 的回答没有表现出污名化态度
  • 责任归因(9.51%)和社交距离(9.15%)是最常见的污名类型
  • 恐惧(8.86%)和愤怒(7.20%)紧随其后
  • 相比传统仇恨言论数据集,该语料库中的污名化表达更加隐蔽、微妙

图片

AI 模型的表现

研究团队在该语料库上测试了当前主流的大语言模型,包括 GPT-4o、LLaMA-3 系列、Mistral 等。

性能表现:

  • GPT-4o 在零样本设置下 F1 分数为 0.456
  • 提供详细标注指南后,性能提升至 0.757
  • 模型普遍存在高召回率、低精确率的问题

图片

隐性污名表达的深入分析

通过对 137 个错误分类案例的分析,研究团队发现了一些值得关注的模式。这些隐性污名化表达在日常对话中较为常见,但往往难以被识别。

语言层面的表达特点:

  • 距离化表达是一种常见的策略,说话者使用第三人称视角来表达观点,比如「邻居们可能很难理解 Avery 的行为」。这种表达方式表面上显得客观,但往往暗含着某种判断。
  • 术语滥用现象也比较普遍,一些人在缺乏专业背景的情况下,不恰当地使用心理学术语来描述患者,比如随意使用「偏执」等词汇。这种使用方式往往带有负面含义。
  • 强制性措辞在建议中频繁出现,诸如「绝对需要」、「必须接受」等表达,在一定程度上忽视了患者的自主选择权。

语义层面的深层模式:

  • 差别化支持表现为对患者的过度小心,比如「我需要在与他们交流时更加谨慎」。虽然表面上显得体贴,但实际上可能强化了患者的「特殊性」标签。
  • 家长制态度体现在一些回应中,说话者往往以指导者的姿态出现,认为自己有资格「教导」患者如何生活。这种态度在一定程度上忽视了患者作为独立个体的尊严。
  • 轻视化倾向则通过淡化心理健康问题的复杂性来体现,一些人习惯性地将心理健康问题简化为态度问题,认为患者「想开一点」就能解决。

这些发现揭示了现代社会中污名化表达的复杂性和隐蔽性,也说明了开发更精准识别系统的必要性。

图片

社会文化因素分析

语料库记录了参与者的社会文化背景,初步分析显示了一些有趣的模式:

  • 性别差异: 女性参与者在某些维度上表现出相对较少的污名化倾向
  • 年龄影响: 不同年龄群体对心理健康的态度存在差异
  • 文化背景: 来自不同国家的参与者表现出不同的模式
  • 个人经历: 有心理健康问题接触史的参与者更倾向于表现出非污名化态度

这些发现为理解污名化的社会根源提供了基本初步线索。

图片

应用前景与未来方向

该语料库为多个研究方向提供了资源。

技术应用:

  • 开发更精准的污名化表达识别系统
  • 为内容审核提供参考工具
  • 支持心理健康相关 AI 应用的开发

研究拓展:

  • 个性化的反污名干预策略研究
  • 跨文化污名模式比较
  • 不同干预方法的效果评估

社会应用:

  • 心理健康教育项目设计
  • 医疗从业者培训支持
  • 公共政策制定参考

MHStigmaInterview 语料库的发布为心理健康污名的计算研究提供了一个新的起点。虽然这是初步的探索,但它展示了技术在解决社会问题方面的潜力。通过持续的跨学科合作和技术改进,作者希望能够为构建更加包容的社会环境贡献一份力量。

这项工作指出,在追求技术进步的同时,关注技术的社会影响和人文关怀同样重要。只有将技术发展与社会需求紧密结合,才能真正实现技术向善的目标。

参考资料:

​https://aclanthology.org/2025.acl-long.272.pdf​

​https://github.com/HanMeng2004/Mental-Health-Stigma-Interview-Corpus​

....

#2025年AI五大趋势与底层数据革命~

独家解读~

2025 年,人工智能的发展重心正在发生一次根本性转移:从追求模型的规模,转向构建其理解与解决复杂现实问题的能力。在这一转型中,高质量数据正成为定义 AI 能力的新基石。作为人工智能数据服务的前沿探索者,数据堂深度参与并支撑着这场变革的每一个关键环节。本文将深入解读 2025 年 AI 五大技术趋势及其背后的数据需求变革。

图片

趋势一:多语种 TTS 与全双工交互

「人情味」与「实时性」革命

趋势解码:追求更细腻的情感与更自然的实时互动

当前,语音合成技术已超越追求「清晰准确」的基础阶段,正同时向两个深度智能化维度演进:一是为合成语音注入情感、个性与文化适配性,让虚拟助手、数字人、有声内容更具感染力和亲和力;二是从单向反应升级为支持实时打断、重叠对话与上下文连贯的全双工自然交互,这已成为高端智能座舱、实时翻译、拟真客服等前沿场景的刚需。技术的核心挑战在于,让 AI 不仅能「读」出文字,更能「理解」语境与情绪,并像真人一样实时聆听、思考与回应,实现有情感、有逻辑的连续对话。

数据需求跃迁:从「清晰样本」到「生动语料」与「交互流」

训练数据的重心正经历双重跃迁。一方面,需构建服务于音色、韵律、情感和风格精细控制的「表现力语料库」,包括覆盖多语种、多方言、多年龄层的音色基底,以及蕴含欢笑、叹息等副语言特征的语音样本。另一方面,为实现全双工交互,迫切需要多通道、真实、带有自然打断与话题转换的对话语音数据,以及对应的精确文本转录与对话状态标注,以训练模型理解对话逻辑、管理话轮并生成即时、恰当的语音响应。

图片

为高效赋能下一代语音交互模型,数据堂提供从标准化成品数据集到深度定制服务的完整方案。

数据堂提供可直接用于模型训练的成熟数据集。核心数据资产包括:为高自然度合成准备的 100 万小时多语种自然对话语音数据集与 300 万条前端文本库;为情感合成优化的 2000 小时多情感普通话合成数据集;以及为训练实时交互模型关键的 1 万小时全双工多语种自然对话数据集。这些高质量数据资产,为客户模型的快速启动与效果优化提供了坚实基础。

依托覆盖全球 200 + 语种及方言的庞大语音资源网络与专业声优库,数据堂能够为各类定制化项目提供强大支持。无论是潮汕语、客家语等特定方言,貂蝉、温柔白月光等特定音色与情感,还是多种场景下的全双工对话交互数据,数据堂均可通过专业的采集标注流程进行高效生产,精准匹配客户独特的模型训练与产品落地需求。

趋势二:多模态大模型 

 从「识别」到「认知与推理」的跃迁

趋势解码:DeepSeek-OCR 引爆多模态认知热潮

2025 年,以 DeepSeek-OCR 模型的开源为标志性事件,揭示了多模态大模型发展的核心方向:其价值远不止于文字识别的精度提升,更在于推动 AI 从处理单一模态信息,迈向对图像、文本、表格、图表、GUI 界面等多元信息进行统一理解、关联分析与深度推理的新阶段。其目标是让 AI 能像专家一样,解读混合图文的研究报告、理解软件界面的操作逻辑,或根据一份试卷推理解题步骤。

数据需求跃迁:跨模态关联与推理

传统针对单一模态的训练数据已无法满足需求。要训练出具备「认知」能力的多模态模型,数据必须能够刻画不同模态元素之间的复杂关联与深层语义逻辑。这要求数据形态朝着跨模态语义对齐、深度结构化与语义图谱化的方向演进:不仅需要标注图像中的文字、界面元素,更需要建立「图表-总结文字」、「试题-解题步骤」、「图标-操作指令」之间的关联,甚至提供围绕整体任务的推理链条描述。

图片

数据堂提供覆盖多模态认知全链条的高质量数据,支撑客户模型实现从精准感知到深度理解的全面进阶。

千万级 OCR 数据、百万级 GUI 界面,多领域专业文档等为模型认知世界提供了丰富的「原材料库」。300 万组涵盖动作、场景、建筑等的图文理解数据,直接助力模型学习「看图说话」与语义推理。而 20 万组 OCR 问答及图像视频编辑数据,则瞄准未来交互范式,训练模型理解指令并执行任务,真正推动 AI 从「看懂」走向「会做」。

趋势三:大模型的深度演进 

推理能力与专业精度的提升

趋势解读:通用思维的「升维」与垂直领域的「深耕」

当前大模型的发展呈现出两条清晰且并行的路径:一方面,主流研究持续追求更强大的通用推理与复杂常识能力;另一方面,产业应用落地则驱动模型向金融、法律、生物医药等垂直领域深入,追求高度的专业精度与可靠性。未来的成功模型,必然是强大的通用智能底座与深度领域知识融合的产物。

数据需求跃迁:从「规模优先」到「质量与结构驱动」

高质量训练数据的需求正高度集中于金融、法律、生物医药及科学研究等知识密度高、容错率低的专业领域。其核心已转变为获取能直接赋能模型专业推理与精准判断能力的关键数据资产,主要包括三大类:揭示复杂逻辑链条的「过程型数据」、经领域专家深度校验的「精标知识数据」,以及用于校准专业判断的「对齐与偏好数据」。

图片

为应对大模型从通用智能迈向垂直领域深化的双轨需求,数据堂提供从标准化数据产品到深度定制服务的完整解决方案,以高质量数据驱动模型能力的精准进化。

基于大规模、高质量的成品数据集,数据堂为不同训练阶段的模型提供可直接部署的「标准燃料」。包括 5000 万条新闻文本、3 亿条 STEM 试题等为预训练奠基的高质量无监督数据,以及 70 万组指令微调与 150 万条安全内容等为指令对齐提供关键支撑的 SFT 指令微调数据,确保模型获得广泛且专业的知识基础。

数据堂组建了覆盖金融、医疗、法律、教育、电力、稀土工业等十余个领域的超 500 人专家团队,所有成员均具备专业资质与大模型项目经验,已成功支持超 100 个大模型数据项目,能够高效交付高准确率、强场景适配的专业数据,助力模型实现从「通用智能」到「领域专家」的精准跃迁。

趋势四:xx智能 

AI 加速从数字世界迈向物理世界

趋势解码:从「纸上谈兵」到「动手实践」

xx智能成为 2025 年焦点,源于对 AI 本质缺陷的突破:传统大模型在纯数字环境中训练,缺乏物理交互经验,无法建立真实世界的因果认知。人类婴儿通过抓握、推拉等身体交互才能构建物理知觉。同样,机械臂面对杂乱抽屉时,仅靠视觉无法判断「能否伸手进入缝隙」,因为空间可感性取决于材质形变、摩擦系数等连续物理变量,必须通过实时交互感知。赋予 AI 物理载体,已成为突破认知天花板的必然选择。

数据需求跃迁:构建物理交互的闭环数据

xx智能的核心在于让 AI 通过数据习得物理世界的因果规律,这需要严格对齐时序的高维交互数据,其必须完整融合多视角视频、高精度力 / 触觉传感器流、动作指令序列及最终任务结果,以构成「感知-决策-行动-结果」的完整因果链。

当前,这类高质量数据的获取主要通过真机物理采集、高保真仿真环境生成以及人类行为视频记录等方式实现。然而,真实物理世界的交互数据获取成本极高,往往需要构建专业的采集环境及团队,在严格的安全约束下进行,这导致了能够直接驱动模型进化的高质量数据依然极度稀缺。

图片

为高效支持xx智能的研发,数据堂提供从标准化数据集到深度定制采集的完整服务。目前已构建数亿组 3D 环境数据、第一人称任务视频、机器人抓取数据集等在内的完整体系,覆盖从环境理解、决策规划到动作执行的全链路,为模型提供高质量的训练起点。

此外,数据堂在中、美、日、韩、德等全球布局超过 20 个专业采集场,单个面积最大超 4000 平方米,部署有包括人形机器人、机械臂、机械狗在内的 70 余台各品牌机器人,可在家居、工厂、商超等多样场景中,执行物体抓取、导航避障、人机交互等复杂任务。采集过程遵循严格的运动平稳性、操作成功率等质量规范,并同步输出多模态传感器数据。

同时,数据堂专业标注平台与团队能够完成从感知数据的目标检测、分割,视频分割,任务描述,COT 等全类型标注任务,确保数据能直接用于算法迭代。

趋势五:自动驾驶的技术范式转移 

从模块化到端到端

趋势解码:自动驾驶 VLA:从「割裂模块」到「统一认知」

2025 年,自动驾驶系统正经历一场深刻的技术范式变革。核心架构正从传统的 「感知-规划-控制」模块化设计,向数据驱动的「端到端」一体化模型演进。这一转变的本质,是将驾驶任务视为一个整体,让单一模型直接从传感器输入(如图像、激光雷达点云)映射到控制输出(如方向盘转角、油门),从而避免了模块化架构中固有的信息损失、误差累积与系统复杂性问题。

数据需求:从「感知信号」到「因果阐释」

以特斯拉 FSD v12 为代表的经典端到端方法,核心在于获取海量真实驾驶视频与同步车辆控制信号。这类数据需求侧重于对「老司机」驾驶行为的模仿,依赖影子模式积累海量,尤其是覆盖边缘场景的未标注或轻标注数据,本质是以数据驱动的行为克隆。

而新一代的 VLM/VLA 多模态大模型路径则提出了颠覆性需求。其目标不仅是控制车辆,更要让模型具备推理、解释与人机交互能力。因此,训练数据必须实现视觉(图像 / 视频)、语言(指令 / 描述 / 问答)与行动(控制信号)三者在时序上的精细对齐与深度耦合。这催生了对高质量、强逻辑的标注数据的极度依赖,例如为视频中的每个决策匹配「为何如此驾驶」的语言解释,其复杂度和标注成本远超以往。

图片

面对端到端驾驶模型对复杂逻辑标注的海量需求,数据堂的解决方案聚焦于专业标注实力与规模化交付的核心优势。

数据堂能够对驾驶场景同步执行端到端的精确坐标标注与粗粒度的语义说明标注,并融合场景描述、决策依据、反思过程等深度逻辑,构建「感知-决策」闭环的训练数据对。这一高质量产出得益于自研平台集成的预识别接口、自动化工具以及严格的一致性培训体系。

基于高效的标注工具及成熟的流程管理,数据堂具备稳定的规模化标注产能,可高效处理长时序驾驶视频流,其中车辆路线判断与行驶意图等关键任务的量产交付能力均达到每月 40 万组,持续为客户的端到端模型从「行为模仿」到「因果理解」的进化提供可靠数据支撑。

2025 年人工智能的深入发展,其效能瓶颈与差异化优势,将日益取决于高质量、专业化、场景化数据的获取与构建能力。数据堂始终站在这一变革的前沿,从前沿趋势研判,到定制化采集方案设计,再到严格的质控体系,致力于为每一波技术浪潮构建坚实、精准、可扩展的数据基础设施。

欲了解更多数据服务,敬请关注数据堂公众平台:

....

#简智机器人的 “10Kh RealOmni-Open DataSet”

开源1万小时xx智能数据,这家公司是为了什么?

想象一下,你正在训练一个未来的家庭机器人。你希望它能像人一样,轻松地叠好一件衬衫,整理杂乱的桌面,甚至系好一双鞋的鞋带。但最大的瓶颈是什么?不是算法,不是硬件,而是数据 —— 海量的、来自真实世界的、双手协同的、长程的、多模态的高质量数据。

因此为了整个xx智能探索加速,开源集合成为了大家的共同选择,从谷歌 Open-X Embodiment、智元 AgiBot Digital World,到智源 RoboCOIN 与它石智航的 World In Your Hands,都在试图构建更庞大、更完善的数据集合,并开源给到全行业。

但在 1 月 6 日,有一家公司将这件事做到新高度,进行了超过 1 万小时、接近百万 clips 的xx数据集合开放,这是行业最大规模、也是泛化程度最高的开源数据集合,它就是简智机器人的 “10Kh RealOmni-Open DataSet”。

(下载地址为:https://huggingface.co/datasets/genrobot2025/10Kh-RealOmin-OpenData,其他数据正在陆续上传。国内也与阿里魔搭、百度百舸合作,方便国内用户下载。)

这批数据集合和之前不同点在哪儿?

总体规模大,这个体量甚至已经超越很多xx公司自己所储备的数据,而在量大的同时,这个数据集合还期望它更加“实用”。

首先需要它具备足够强的 “技能深度”,在简智开源数据集合中,没有选择去发散的扩充技能数量,而是聚焦在 10 个常见家庭任务集合中,从而对应每一项技能都有超过 1 万 Clips 规模的数据覆盖,这使得其不只是总体规模的最大,也是单个技能的行业最多。

其次是质量、模态的要求,这决定这些数据是否真正能被模型消化理解,而画面的超大 FOV、清晰的画质是基础,保证可以全方位录制到周围的环境和人的操作细节,简智这次数据集合的像素达到 “1600*1296”“30fps” 的水平;

在这之上轨迹的精度是数据质量的关键,厘米级的轨迹精度对人来说可能足够精细,但对于机器人来说则需要达到毫米级别,因此简智这次开源数据对比行业,一方面具备了大多数不具备的轨迹信息,同时通过高精度 IMU 硬件和云端重建与还原,进一步将轨迹提升到亚厘米级别。而在模态上,作为夹抓类的技能采集,夹抓的开合角度、位移也都在集合中包含。

图片

而在技能方面,单手在实际场景中可以完成的任务优先,因此难得是在数据集中,99.2% 都是 “双手、长程任务”,这也让它变得更落地 —— 以第一批数据为例,平均 clips 长度为 1min37s。这意味着,它记录的不是一张张静态快照,而是从 “拿起散乱 T 恤” 到 “叠放整齐” 的完整过程,是动作逻辑与因果的连续学习。

图片

最后则是在相同技能下,数据的场景、目标泛化上需要足够丰富,人员的操作要足够自然,而非单一场景的重复、动作僵硬重复,这样才能让模型在真实的生活中,应对家庭环境、目标类型千变万化。简智这批数据来自 3000 个真实的家庭规模采集,以叠衣服为例,不同的衣服种类、平铺的位置等多重因素变量都包含在其中,弥补了传统 “数采工厂” 方案过于单一的问题。

图片

为什么有底气开源这么大批量数据?

在这些大规模、高质量、泛化程度高数据的背后,其实一套完整的 “数据生产链条”,在这方面简智也有自己的一套方法论,完成从采集设备到云端平台,再到数据的二次迭代的闭环,这也使得简智在 2 个月时间内就积累了近百万小时规模的数据。

图片

这其中,Gen DAS Gripper 是能完成简智规模化采集的首要触点,它相比传统的数据采集、UMI 等方案来看,可以更容易、快速地部署,不需要做任何的场地布置;同时全栈自研的 ISP 图像处理、CMOS 传感器,保证图像高质量、清晰。

同时可以做到基于车规级 IMU、双手设备同步,实现双手技能的高精度坐标对齐,异构数据时间误差小于 1ms。

在设备端,具备超强压缩能力:将数据体积压缩至原大小的 2%,同时打通在线上传通道,实现分钟级快速上传,大幅提升数据流转效率。

Gen Matrix 则是中枢数据平台,它将收集后数据进行高精准的轨迹还原、对齐、清洗处理:将众多分散设备数据收集,超强轨迹还原、环境重建能力,轨迹真值误差小于 1cm,并将异构数据进行同步与清洗,保证数据质量,并具备自动化标注、切片等进阶能力,可以高并发处理海量数据源。这在xx行业也是领先的数据平台基建。

Gen ADP(AI Data Pipeline)则是规模化、自动化数据产线,它是将 DAS 的数据完成自动化的脉搏。它将标注、加工流程自动化,让高质量数据的产出像流水一样持续、高速,2h 内完成采集与处理全过程。目前据简智公开信息,已经完成百万小时规模数据累计,并且每天以接近万小时规模增长。

图片

开源是一件需要持续做、加速做的事情

xx智能的未来,建立在高质量数据的基石之上。在今天来看,大家对于数据的格式、规范还尚不成熟,这大大的影响了模型方案的进步速度,因此开源数据持续、加速推进,能快速填补数据鸿沟、统一技术标准、降低研发门槛、推动生态协同与自主可控,最终加速xx智能从实验室走向规模化落地。

10Kh RealOmni-Open DataSet 的开放,不仅是一份海量数据资源,更是一种通过共享加速创新的可能性。简智团队后续将继续加强数据基建建设,推出更多行业有益的数据、服务,形成 “数据共享 — 模型优化 — 场景落地 — 数据反哺” 的正向循环。

....

#From Indoor to Open World

别被室内基准高分骗了:大模型是在推理空间,还是在「背答案」?

2025 年,随着李飞飞等学者将 “空间智能”(Spatial Intelligence)推向聚光灯下,这一领域迅速成为了大模型竞逐的新高地。通用大模型和各类专家模型纷纷在诸多室内空间推理基准上刷新 SOTA,似乎 AI 在训练中已经更好地读懂了三维空间。

然而,这背后存在着隐忧:由于带有准确 3D 标注数据的稀缺,模型训练所用数据(如 ScanNet++、ARKitScenes)往往与测试基准高度同源。这种数据的 “近亲繁殖” 让我们不得不担忧:近期模型分数的飙升,究竟是真正习得了空间几何推理能力,还是仅仅因为 “看多了” 类似的室内数据分布,从而学会了 “背答案”?

为了回答这个问题,中国科学院大学机器学习与感知实验室联合微软亚洲研究院以及苏黎世联邦理工大学共同发布了全新空间智能基准 OSI-Bench,从数据源头出发,基于自采开放世界中带有准确 3D 标注的视频数据,提供了对空间智能真正诊断的能力。由此出发,该工作重新审视了当前大模型的空间能力是否得到了发展。真正的空间智能鸿沟,或许无法在现有数据范式下仅靠简单的微调来填平。

  • 论文标题:From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs
  • 作者:Mingrui Wu, Zhaozhi Wang, Fangjinhua Wang, Jiaolong Yang, Marc Pollefeys, Tong Zhang
  • 论文地址:https://arxiv.org/abs/2512.19683
  • 项目主页:https://mingrui-wu.github.io/osi-bench

室内场景的局限

近年来,空间智能的研究大多聚焦于室内场景。这很大程度上受限于源数据集的匮乏 —— 少数可用的室外数据集往往基于自动驾驶视角,与第一人称的行人视角存在本质差异。

这种对室内数据的过度依赖,不仅导致了训练集与测试集的高度同源,更因室内场景过强的语义先验难以公平评估模型的空间感知和推理能力。

图片

当我们在室内场景提问时(例如:“浴缸和马桶之间相距多远?”),模型往往能基于 “典型浴室布局” 的先验知识做出合理推测。即便关闭视觉输入,模型也能仅从语言信息 “盲猜” 对部分此类问题。

OSI-Bench 选择的室外开放世界的一个核心优势在于其复杂性与随机性。在这种环境下,语义先验变得微弱。面对 “告示牌和遮阳篷之间的距离是多远” 这样的问题,模型无法再仅凭语义关联获得正确答案,被迫回归到真正的视觉空间推理上来。这种对先验知识与视觉空间智能的解耦,使得 OSI-Bench 可以评估模型的真实空间能力。

从数据到问答

OSI-Bench 摒弃了从现有数据集二次提取的路径,完全基于由多传感器平台(双目相机、LiDAR、IMU/GPS)采集的原始视频流。这些数据自带精确的 3D 信息,覆盖了公园、步行街、古建筑、校园等丰富多样的开放世界场景。

图片

我们的 Human-in-the-loop 流程从 20 小时的视频素材中生成约 9000 条高质量问答,涵盖 9 种任务。为了系统性评估模型能力,我们将这些任务划分为空间智能的三个层级:

1. 相对关系 :针对空间位置的定性判断

2. 静态尺度 :针对静态空间物理量的定量估算

3. 动态尺度 :引入时间维度的动态物理量估计

评测结果:我们离空间智能还有多遥远?

在 OSI-Bench 上的评测结果表明,当下的开源与闭源 SOTA 多模态大语言模型普遍在这些任务上失败了。

图片

尽管 Gemini-2.5-Pro 在一众模型中取得了相对显著的优势,但整体表现仍远低于人类水平。然而,比低分更令人担忧的是,我们目前看到的所谓 “空间智能提升”,可能只是一场虚假的繁荣。

图片

我们为此研究了在 2025 年发布新版本并报告在 VSI-Bench(室内基准)上取得巨大提升的两个模型家族:Qwen-VL 与 InternVL 系列。

这两个系列在加入更多空间数据训练后,其同尺寸新旧版本在 VSI-Bench 上的得分显著上升了约 24.1 分,性能几乎翻倍。然而,这种惊人的增长并未出现在同样考察空间推理的 OSI-Bench 上。

另外,结果显示,在绝对距离任务上,更新后的各尺寸模型在 VSI-Bench 上一致涨点,却在 OSI-Bench 上一致退步。由于两个基准在这一任务上采用的提问模版完全相同(仅场景不同),这提供了直接的证据:模型在室内基准上的分数提升,本质上是对特定场景分布的过拟合,而非真正习得了可泛化的空间智能。

我们正在经历的这场 “空间智能刷点狂潮”,或许只是空中楼阁。

语言先验:模型的捷径

当面对空间任务时,相比于费力地进行视觉几何推理,模型更倾向于走 “捷径”—— 利用语言先验知识,基于平均值进行猜测。

图片

为了量化这一现象,我们设计了两组实验。

盲测实验结果显示,模型在有 / 无视觉输入的情况下的得分差距极小,视觉输入并没有被有效地在推理中使用。

图片

我们构建了一组包含 “正常场景” 与 “反常场景”(物体尺寸被特意调整至违背常理)的合成数据。人类在面对反常场景时,空间判断力并未受太大影响;而模型在语言先验失效、常理不再适用的情况下,性能出现了断崖式下跌。

图片

总结与展望

OSI-Bench 暴露了现有大模型在空间智能层面与实际应用需求之间的巨大鸿沟,更让我们对当前模型是否真正具备可泛化的空间能力提出了质疑。

我们呼唤一种全新的空间智能范式,相较于 data-driven 的分布拟合,我们需要真正赋予模型在空间中感知、在空间中思考的工具与能力。

OSI-Bench 的基准与评测代码已全部开源。未来,我们将持续开源更多带有高精度 3D 信息的开放世界视频数据,推动空间智能从室内场景走向复杂的开放世界。

....

#THE UNIVERSAL WEIGHT SUBSPACE HYPOTHESIS

1100多个模型殊途同归,指向一个「通用子空间」,柏拉图又赢一回?

模型架构的重要性可能远超我们之前的认知。

最近,约翰斯・霍普金斯大学的一项研究发现:1100 多个不同的神经网络,即使在完全不同的数据集上训练、用不同的初始化和超参数,最终学到的权重都会收敛到一个共享的低维子空间。

这似乎是说明:存在一个「先验的」数学结构,所有神经网络都在逼近它。训练不是在「创造」什么,而是在「发现」一个早已存在的几何形式。换句话说,神经网络「想学的东西」似乎高度一致,架构决定了它能学什么,比数据影响更大。

图片

这一发现有助于解释很多「神秘」现象,比如为什么过参数化的模型(参数远多于训练样本)还能泛化?为什么不同初始化最终学到相似的表示?为什么 LoRA、权重共享这些技术能 work?如果神经网络确实在共享子空间内学习,这将为隐式正则化、可迁移性以及稀疏训练方法的有效性提供支持性解释,同时也为诸如高效合并、新的优化技术、更快更高效的学习和推理等应用开辟道路。

  • 论文标题:THE UNIVERSAL WEIGHT SUBSPACE HYPOTHESIS
  • 论文链接:https://www.arxiv.org/pdf/2512.05117

这篇论文在 Alphaxiv、X 等平台上吸引了很多关注,一度攀升到 Alphaxiv 榜一的位置。

图片

有人说,柏拉图又赢了一回。(注:柏拉图的理念论认为:我们看到的具体事物(桌子、马、圆形)都只是「理念」(Forms/Ideas)的不完美投影。真正的、完美的圆存在于一个抽象的理念世界,现实中的圆只是对它的模仿。其核心主张是:抽象结构先于具体实例。)

图片

也有人从中读出了一些令人担忧的信号:如果所有模型都收敛到同一个子空间,那意味着当前架构存在内在的天花板,再多的数据和算力也只是在同一个「盆地」里打转。

图片

论文概览

在具体研究中,作者首先聚焦于 LoRA 适配器,因其易于训练且能大量收集,在 Mistral-7B 模型的约 500 个适配器中观察到了通用子空间的涌现。随后,研究扩展到完整权重空间,从约 500 个 Vision Transformer 和 50 个 LLaMA3-8B 模型中提取出相似的低秩通用子空间,这些模型各自使用不同数据集和初始化方式训练。

图片

此前已有多条线索暗示这一现象:神经正切核理论表明,在无限宽度极限下,网络训练动态由一个与具体任务基本无关的核函数主导;机制可解释性研究在视觉网络的特定层中发现了反复出现的电路模式;彩票假说和模式连通性也指向可复用的低维结构;早在 2012 年就有人观察到,卷积网络第一层在各种视觉任务中都会学到类 Gabor 滤波器。但这些工作要么聚焦于表示层面,要么未涉及不同模型间参数性质的收敛。

这项研究的独特之处在于:首次在权重层面提供了具体证据和明确通用假设,为深度神经网络参数空间中 「通用性」的存在提供了最为严谨的实证证据。

尽管这种通用性的根本成因仍有待探索,但即便是初步理解也具有深远意义。共享子空间有望实现:大规模模型压缩(只需存储子空间系数而非完整权重)、在已学习子空间内快速适应新任务、对泛化边界和优化景观的理论洞察,以及通过减少训练和推理计算需求带来的环境效益。此外,这种几何通用性也为研究泛化、顿悟(grokking)、灾难性遗忘和数据效率等基本问题提供了新视角。

作者也坦承了若干开放问题:不同架构的通用子空间如何相互区别?能否通过显式设计架构来优化子空间的几何结构?更根本的是,如果所有网络都坍缩到同一子空间,它们就会继承共同的偏见、能力边界和失效模式 —— 这种多样性的缺失本身是否构成了一个根本瓶颈?是否应该开发专门用于打破这种收敛的方法?

方法与结果概览

作者证明,与架构相关、逐层分布的通用子空间在各类神经模型中持续涌现。无论模型是从头训练、完全微调还是通过低秩方法适配,对通用子空间假说的遵循都表现稳健,未见显著偏离。这一现象在不同的初始化策略、模态、数据格式和数据集内容之间保持不变。

值得注意的是,所提取子空间的精度与可用模型的数量和质量相关。基于此,作者推测每种架构内在地存在一个「理想」通用子空间,各个模型实例都在向其收敛。作者假设,更优的算法、更干净的数据和更有效的优化策略能使模型更接近这一理想状态。尽管本文未正式验证「理想通用子空间」假说,但作者认为这一子空间代表了当代反向传播训练的神经网络最稳定的配置,因此这一规则的例外情况可能为进一步的研究提供沃土。

分析方法

由于目前尚无方法能够比较不同架构模型的子空间,作者聚焦于在同一架构上训练的大量模型,对 LoRA 适配器以及 Transformer 和 CNN 的经典权重进行分析。除非另有说明,所有实验仅执行 1-2 阶的高阶奇异值分解(HOSVD),以确保方法在最简单情况下也能奏效。谱分析依赖高效的谱分解库,甚至可在 CPU 上运行,作者的所有分析和实验均在单块 Nvidia A5000 GPU 上完成。通过对数千个公开可用模型进行分析,作者无需任何训练成本即可提取通用子空间。

以下是作者所实现的算法:   

图片

联合子空间分析结果

在 CNN 实验中,作者从随机初始化开始,在五个互不重叠的数据集(CIFAR-10、CIFAR-100、ImageNet、Oxford-IIIT Pets 和 EuroSAT)上训练 ResNet-50 进行图像分类。尽管理论分析表明少量模型可能导致对联合通用子空间的欠近似,但从头训练 CNN 的规模限制了可纳入研究的模型数量。

即便如此,对 ResNet-50 所有层的平均解释方差(图 2b)分析揭示了一个跨越这些不相交任务的独特共享低秩结构:大部分信息仅存在于 16 个(或更少)不同的子空间方向中。此外,将模型投影到这一子空间以获得低秩 ResNet-50(从而减少参数)后,其性能相对于完全微调仍具竞争力,进一步支持了联合子空间的存在和实用性(图 2a)。

图片

为进行更大规模的真实世界实验,作者选择对 LoRA 模型进行子空间分析,因为它们在公共领域大量存在。鉴于 LoRA 模型明确捕获任务特定方向且与原始权重对齐较弱,它们是验证假说的良好替代。

在首个实验中,作者使用基于 Mistral-7B-Instruct-v0.2 训练的 500 个自然指令任务的 LoRA 模型,每个 LoRA 单独至少为 16 秩。分析结果(图 3)显示,所有 500 个模型的参数都可被一个有限的低秩子空间良好近似,且这一模式在所有层中一致存在。

图片

为测试通用子空间的表达能力,作者通过将随机选择的已见(IID)和未见(OOD)任务的 LoRA 参数投影到通用子空间来解析重构它们,结果(图 4)表明通用子空间模型在两种情况下都表现稳健。作为对照,使用谱分解剩余分量(称为次级子空间)重做实验时,性能大幅落后。值得一提的是,通用子空间模型的内存效率提升了 19 倍,因为不再需要保存全部 500 个 LoRA。

图片

接下来,作者进一步将分析扩展到使用 Stable Diffusion-XL 的文生图任务。从 HuggingFace 上公开可用的 LoRA 中提取通用子空间后,将单个 LoRA 投影到该子空间,生成的图像保持了视觉质量和风格(图 5)。

图片

基于 CLIP 的评估显示,通用子空间在某些情况下甚至优于单个 LoRA,这可能归因于先前研究中观察到的去噪效应。

图片

为测试将多个模型压缩到单一通用子空间的能力,作者将其方法与最先进的模型合并方法进行比较,包括 RegMean、Task Arithmetic、TIES、DARE-TIES、KnOTS-TIES 和 KnOTS-DARE-TIES。这些基线方法通常需要调整缩放系数、剪枝阈值或在验证集上进行迭代调优。

相比之下,通用子空间方法仅基于跨模型识别的共享低秩子空间的几何结构来解析计算合并系数,无需迭代调优或验证数据。由于子空间本质上是低秩的,合并后的模型参数显著少于任何单个模型。实验结果(表 2)表明,该方法在降低参数数量的同时取得了更高的平均准确率,实现了无需启发式剪枝或验证开销的可扩展、稳健的模型合并。

图片

总而言之,这四组实验为通用子空间假说提供了强有力的实证支持,并展示了其在内存效率、模型合并、模型可复用性以及跨任务跨模态可扩展部署方面的实际优势。

不过,也有人提醒说,这篇论文虽然有价值,但结论需要经过更加严格的验证。首先,任务多样性不够真实,研究没有在真正异质的任务(如 MIDI 生成、英语文本、MNIST 像素生成)之间寻找共享子空间,所以发现的可能只是「任务子宇宙特定的子空间」而非真正的通用子空间;二是没有跨架构比较的方法,无法声称 ViT 和 LLaMA3 拥有相同子空间。

图片

为什么通用子空间会涌现?

在论文中,作者对于通用子空间涌现的原因也给出了自己的推论。他们认为,若干理论因素可能促成了这些共享结构的出现。

首先,神经网络已知表现出对低频函数的谱偏好,产生特征值的多项式衰减,从而将学习动态集中到少数主导方向上。其次,现代架构施加了强烈的归纳偏置,约束了解空间:卷积结构天然偏好局部的、类 Gabor 模式,而注意力机制则优先处理反复出现的关系回路。第三,基于梯度的优化方法的普遍性 —— 在无限宽度极限下由与具体任务基本无关的核函数主导 —— 内在地偏好平滑解,将多样的学习轨迹引导向共享的几何流形。

如果这些假说成立,通用子空间很可能捕获了超越特定任务的基本计算模式,这或许能解释迁移学习的有效性,以及为何多样化的问题往往能从相似的架构改进中受益。

....

#当年发完Transformer论文,我们太不当回事了

谷歌创始人布林~

现在的大学生该选什么专业?未来一百年的大学会是什么样子?业界 AI 如此强势,学界还能做什么?谷歌在过去二十多年里做对了什么,又有哪些遗憾?

在斯坦福大学工程学院百年庆典的收官活动上,谷歌联合创始人谢尔盖・布林重返母校,与校长 Jonathan Levin 以及工程学院院长 Jennifer Widom 展开了一场对谈。

,时长01:10:29

布林于 1993 年进入斯坦福工程学院,攻读计算机科学研究生。读研期间,他结识了拉里・佩奇。两人共同开发了一种搜索算法,并于 1998 年创办了谷歌。

回顾谷歌的来时路,布林坦言 8 年前提出 Transformer 时,他们没有予以足够的重视,而且因为担心聊天机器人说蠢话而害怕将其展示给世人。但他同时认为,他们这些年也做了很多正确的事情,比如投资研发 TPU 并建立规模庞大的数据中心。

对于未来,布林也表达了一些自己的看法,比如认为大学未来可能不应该再限制于某个地理位置,学界未来应该投身更具探索性质的研究,材料等科研方向可能被低估了……

以下是这场对话内容的摘录。

Google 早期做对了什么?

学术基因、敢碰难题

校长:Google 已经是一家市值 4 万亿美元的公司,业务范围极其广泛。你们这些年肯定做了很多正确的决定。有没有什么是你们在创建 Google 初期就做对的事情?

布林: 我觉得早期的话,Larry 一直非常有雄心。他现在也是。对你提出的每个计划,他几乎都会说「这不够有野心」。我们确实很早就有了非常宏大的使命宣言 —— 整合全球信息。我认为这是创办公司的一个很好的理念基础。

另外,我们创建了一家相当学术化的公司。我和 Larry 都是从博士项目出来的,当时很多创业公司是大学生创办的。我确实认为这会稍微改变你思考问题的方式。我们从早期就非常重视基础研发投入。

校长:我觉得有充分的理由说 Google 是过去 25 年全球最具创新力的公司。无论是产品创新,还是很多重大决策,比如收购 YouTube 发展视频业务、收购 DoubleClick 做广告、还有 Waymo。技术创新从一开始就很突出,现在做芯片也是。大公司保持高度创新是很难的,每个人都在这方面挣扎,但你们做到了。很多人认为你个人在这方面有很大影响。你是怎么思考培育创新文化的?

布林:部分原因就是敢于尝试。因为我们有学术根基,可能更倾向于尝试困难的事情。

进入过去十年左右,困难的事情变得越来越有价值。以 AI 为例,它所需的计算量、所需的高深数学,这些都是技术上深奥且具有挑战性的问题。命运的安排使得这些在当今世界变得重要。

曾经有一段时间,你可以做 pets.com,任何东西都可以加个.com。技术深度要求不高,懂点网络就行。现在我们招的人比我当时要合格得多。我当时算是偏数学的计算机专业,因为本科同时学了数学和计算机,这在我那届比较少见。但现在我们从斯坦福和其他顶级项目招的人,数学和计算机都很强,还有很多物理学家,因为物理学家必须做高深数学,而且他们的很多工作受限于计算能力,所以他们也需要计算技能。我觉得我们只是运气好,在那个方向上稍微早一点就确定了方向。

Transformer 论文发了

我们却没当回事

校长: 谈谈 AI 吧。每个人都在关注它。你回到 Google 从事这方面的工作。你们在很多方面都处于前沿,竞争非常激烈。投入 AI 基础设施的资本达到数千亿美元,单个公司层面都是这样。你怎么看当前 AI 领域的格局?

布林:我们确实在某些方面搞砸了 —— 我们投资不足,大约八年前发布 Transformer 论文时没有足够重视。我们没有太当回事,没有投资扩展计算规模。而且我们太害怕把它展示给用户,因为聊天机器人会说蠢话。OpenAI 抓住了机会,他们做得很好。这是非常聪明的洞察,而且是我们的人比如 Ilya 去那里做的这些事。

但我确实认为我们仍然受益于那段漫长的历史。我们在神经网络的研发上有很长的积累,可以追溯到 Google Brain。这也有点运气成分。雇到 Jeff Dean 不是运气 —— 能得到他我们很幸运 —— 但我们当时就有「深度技术很重要」的心态,所以我们雇了他。我们从 DEC(迪吉多)挖了很多人,因为他们当时有顶级研究实验室。Jeff 对神经网络很有热情,源于他大学时的实验。他 16 岁时就在做治疗第三世界疾病和研究神经网络之类的疯狂事情。他建立了整个团队。

当时在我负责的 Google X 部门,我让他做他想做的。他说「我们能区分猫和狗了」,我说「好吧,酷」。但你要信任你的技术人员。很快他们就开发出各种算法和神经网络,用于我们的一些搜索功能。然后有人提出了 Transformer,我们能做的事情越来越多。

所以我们有基础,有研发积累。确实有几年投资不足,没有足够重视。但我们当时也开发了芯片,TPU 大概有 12 年历史了。最初我们用 GPU,可能是最早使用 GPU 的公司之一,然后用 FPGA,然后开发自己的芯片,现在已经迭代了无数代。对深度技术的信任、获取更多计算能力、开发算法 —— 同时我们长期以来一直是计算的大投资者,数据中心规模很大。除了亚马逊 AWS,很少有公司有那种规模的数据中心、自己的半导体、深度学习算法等所有这些堆栈组件,能够在现代 AI 前沿竞争。

AI 会写代码了

还要学计算机吗?

校长:我们这里大约有 250 名学生,很多是本科生,相当多的人还没选专业,因为斯坦福给本科生很大的灵活性。几年前我们可以预测大量学生会选计算机科学作为专业。你是否建议他们继续选计算机科学?

布林:我选计算机科学是因为我对它有热情,所以对我来说是很自然的选择。你可以说我也很幸运,因为我正好在一个如此具有变革性的领域。我不会因为 AI 现在编程能力还不错就不选计算机科学。AI 在很多事情上都相当不错。编程之所以受关注是因为它有很大的市场价值,所以很多人追求它。而且更好的编程能带来更好的 AI,所以像我们这样的公司非常重视它。我们大量使用它来编程,甚至用于算法创意。

所以我不会因为 AI 擅长编程就转去学比较文学。说实话,AI 在比较文学方面可能更强。我无意冒犯比较文学专业的学生,但当 AI 写代码时,有时候会犯相当严重的错误。而在比较文学论文里写错一句话不会有那么严重的后果。所以 AI 做一些创意性的事情其实更容易。

未来一百年

大学还会是现在这个样子吗?

校长:今年是工程学院的百年纪念。如果你是院长,要启动学院的第二个百年,你会怎么思考?

布林:我想我会重新思考大学意味着什么。我知道这听起来有点烦人 —— 这是 Larry 会说的那种话,我会对他很恼火。但我们有这个地理上集中的东西,有建筑,有豪华的报告厅。但现实是,现在信息传播非常快。很多大学已经上线了开放课程,任何人都可以上网学习,可以和 AI 聊天。

那么拥有一所大学意味着什么?如果你想最大化影响力,限制在地理位置可能不会那么有效。当然,湾区是个特殊的地方。但我不知道在未来一个世纪,工程学院和大学的概念是否还会和以前一样。人们到处移动,远程工作,跨地域协作。这有点矛盾,因为我们正试图让人们回到办公室,我确实认为他们在一起工作效果更好,但那是在特定规模下。如果你有一百人在那边,他们不一定要和另外一百人在同一个地方。

我越来越看到一些个人创造新事物,不管有没有学位。虽然我们雇了很多学术明星,但我们也雇了大量没有学士学位的人,他们就是在某个奇怪的角落自己摸索出来的。我不认为我能神奇地给你新配方,但我觉得这种形式不太可能是未来一百年的模式。

大公司基础研究这么强

学术界还能做什么?

学生提问 1:Google 很大程度上源自您在学术界完成的 PageRank 研究。而在今天,越来越多的创新由工业界主导,您是否仍然认为「从学术到产业」的这条路径依然重要?如果重要,又该如何去强化它?

布林:说实话,我可能只能回答一句:我也不太确定。

我读研究生的时候,一个新想法从被提出,到真正具有商业价值,往往要经历几十年的时间。在这样的时间尺度下,学术研究是非常合理的:你有足够的自由,可以慢慢思考、申请经费、反复试验,一个问题可以研究二三十年,最后才慢慢「渗透」到产业里,可能是被大公司吸收,也可能变成一家创业公司。

但如果这个时间被大幅压缩呢?如果一个想法从出现到落地只需要几年,甚至更短,那这条路径是否还同样成立?我觉得这是一个值得重新思考的问题。

当然,有些事情仍然是有意义的。即便是在 AI 领域,我们也会持续关注斯坦福等高校的研究,偶尔招聘一些研究人员,或者展开合作。但很多情况下,你很难说这些工作一定 “必须” 在学术界先酝酿很长时间 —— 比如某种新的 attention 机制,可能在大学里实验两年,随后就被带进了工业界。但问题是,工业界本身也在做同样的事情。所以在这些方面,学术界的 “先行期” 未必有特别不可替代的优势。

也许在更激进、更底层的创新上,情况会不一样。比如全新的模型架构、全新的计算范式。这类方向,工业界虽然一旦决定投入就能扩展得非常快,但最初的探索,可能仍然更适合在学术环境中进行。

量子计算就是一个例子。这个想法在上世纪八十年代左右被提出,之后很长时间都停留在理论和实验室阶段。现在,一方面有很多公司在推进量子计算的工程化,另一方面,大学实验室仍在尝试各种完全不同的实现路径。这类方向正好处在学术和产业的边界上。

如果你提出了一种完全不同于主流路线的新方法 —— 比如既不是我们在做的超导量子比特,也不是很多初创公司在尝试的离子阱方案 —— 那它可能确实需要在大学里慢慢发酵几年。这类问题非常困难,也很冒险,放在学术环境中是合理的。但一旦你真的确信它是可行且有前景的,最终你大概率还是会把它推进到商业化阶段,以某种形式进入产业。所以,我很难给你一个明确、非黑即白的答案。

因为现在的头部科技公司,确实也在做大量基础研究,而且在 AI 领域,我们已经开始看到这些长期投入的回报。这意味着,学术与产业之间的分工比例正在发生变化。

但我仍然相信,有些研究 —— 那种需要十年甚至更久、以纯探索为主的研究 —— 产业界往往是不愿意承担的,因为它们的时间跨度实在太长,不符合「上市时间」的逻辑。而这些,可能仍然是学术界不可替代的价值所在。

Google Glass 的教训

别以为自己是下一个乔布斯

学生提问 2: 随着 AI 以前所未有的速度加速,像我这样年轻有抱负的创业者应该采取什么心态来避免重蹈覆辙?

布林:避免重蹈覆辙的心态?当你有很酷的新穿戴设备想法时,在做涉及跳伞和飞艇的炫酷特技之前,一定要把它完全打磨好。这是一个建议。

其实我喜欢我们当年在 Google Glass 上做的事情,但那是一个以前犯错的例子。我试图在它足够成熟之前过快商业化,在成本效益和消费者体验方面都没准备好。我有点操之过急,以为自己是下一个乔布斯,可以搞定这个东西。

我想说的是,每个人都以为自己是下一个乔布斯,我肯定犯过这个错误。但他是一个非常独特的人。所以我建议确保你的想法在足够长的时间里得到充分发展,然后才进入那个必须不断奔跑的阶段 —— 外部期望增加,开支增加,你必须在某个时间交付。你可能没有足够的时间做完所有需要做的事情。你会陷入一种期望滚雪球的状态,没有给自己足够的时间来处理。这是我会尽量避免的错误。

AI 的下一个前沿方向是什么?

学生提问 3:我们看到很多 AI 公司通过扩展数据和计算来改进大语言模型。一旦数据和计算都用尽了,你认为下一个方向是什么?会是新的架构,transformer 的替代品?还是更好的学习方法,比监督学习或强化学习更好的东西?

布林:你提到的这些方向 —— 新架构、新训练方法 —— 在我看来,其实早就已经比单纯扩算力、扩数据更重要了。

只是因为扩算力太显眼了:建数据中心、买芯片,再加上 OpenAI、Anthropic 关于 scaling law 的那些论文,很容易让人觉得一切进步都来自 scaling。但如果你仔细对比,会发现过去十年里,算法层面的进步,其实跑得比算力提升还快。

我读研时见过一张关于 N-body 问题的图 —— 就是引力系统里大量粒子相互作用的计算。从上世纪五十年代到九十年代,算力遵循摩尔定律暴涨,但真正让问题可解的,是算法改进,而且算法的进步幅度远远超过了算力增长。所以我认为,像我们这样的公司当然不会放弃站在算力前沿,但那更像是甜点。真正的主菜,还是算法上的突破。

院长:我也补充一句。对算力不够这件事,我们在大学里其实早就非常熟悉了。高校根本不可能拥有和工业界同量级的算力,差距非常明显。但这反而逼着我们去做另一类创新:在算力受限的情况下,如何把事情做好,如何用更少的资源做更多的事。这些研究我们已经做了很久,而且会持续做下去。

什么技术被严重低估了?

学生提问 4:你们认为哪种新兴技术的长期影响被严重低估了?

布林:显然我不能回答 AI—— 很难说它被低估,即便从某种意义上讲它可能仍然被低估,但它已经不算是「新兴」了。

很多人会提到量子计算,讨论它最终能带来什么。我个人也很支持量子计算相关的研究,但要说这是我最有把握的答案,其实也不是。这里面的不确定性太多了。

从计算理论上说,我们甚至都还不知道 P 是否不等于 NP。整个计算领域里,还有大量最基础的问题没有答案。而且量子算法通常只对非常特定、结构性很强的问题有效。所以这一方向我很看好,但要精准回答被低估,其实不太容易。

如果一定要说的话,我可能会把目光投向材料科学 —— 无论是 AI 还是量子计算,在材料领域的应用潜力都巨大。

如果我们能创造出性能全面提升的新材料,可能带来的变化几乎是无限的。

校长:我其实也在想材料科学这个方向,而且正因为你提到了被低估这个词。现在关于技术创新机会的讨论非常热烈,像聚变能源、量子计算这些方向,其实已经得到了相当多的关注,很难说它们被忽视了。AI 更不用说。但材料科学在我看来,确实是一个被低估的方向。此外,还有生物与健康领域 —— 尤其是分子科学层面的机会非常多,正在发生一场不小的革命,只是它们目前得到的关注度,明显不如 AI。

院长:我正好想说同样的事情。我能明显感觉到「聚光灯」在不同领域之间移动,而现在,聚光灯几乎全部打在了 AI 上。但在此之前,它曾经照在生物领域,而这束光不应该熄灭。合成生物学里正在发生很多非常令人兴奋的事情。所以我觉得,我们需要把这束聚光灯稍微拉宽一点。

....

#SuperCLIP

对比学习加上分类任务,使CLIP更强了!

自诞生以来,CLIP 就凭借其强大的零样本学习和跨模态理解能力,成为了视觉语言模型领域的基石。然而,这位“优等生”也有自己的烦恼:它擅长把握图像和文本的“全局大意”,却常常在“细枝末节”上犯迷糊。比如,它可能知道图片里有只熊,但分不清熊是在河里还是在河边;能认出这是一个男人,但搞不清是真人还是雕像。

为了解决这一问题,来自华中科技大学和字节跳动等机构的研究者们提出了一个名为 SuperCLIP 的新框架。它的核心思想出奇地简单:在 CLIP 的训练过程中,额外加入一个轻量级的分类任务,从而“强迫”模型去关注文本中描述的那些细粒度语义信息。这种“简单却有效”的改进,不仅显著提升了模型在各种任务上的性能,而且几乎不增加额外的计算开销。

  • 论文标题:SuperCLIP: CLIP with Simple Classification Supervision
  • 作者:Weiheng Zhao, Zilong Huang, Jiashi Feng, Xinggang Wang
  • 机构:华中科技大学,字节跳动
  • 论文地址:https://openreview.net/pdf?id=EeIEvZlmVg
  • 代码仓库:https://github.com/hustvl/SuperCLIP
  • 录用会议:NeurIPS 2025

CLIP的“软肋”:只看宏观,不究细节

我们知道,CLIP 的成功在于它通过对比学习(contrastive learning)将海量的图像和文本对齐到一个统一的特征空间。它学习的目标是让匹配的“图-文”对在特征空间里相互靠近,不匹配的则相互远离。

这种模式的问题在于,它只关心图像和文本在全局语义上是否匹配,而忽略了文本中包含的丰富细节。比如,“一个男人坐在长椅上”和“一个男人站在长椅旁”,对于CLIP来说,这两段描述和同一张图片的全局相似度可能都很高,导致模型难以学会区分“坐”和“站”这两个动作。

论文中的上图直观地展示了 CLIP 在细粒度辨别上的不足。无论是物体的状态(雕像 vs. 真人)、空间关系(内部 vs. 外部),还是具体动作(坐 vs. 站),CLIP 都表现得不尽如人意,而该文提出的 SuperCLIP 则能准确地进行区分。

研究者们进一步分析了大规模数据集(如 DataComp-1B)后发现,能够体现这种细粒度差异的“关键词组合”在数据集中本身就非常稀疏。例如,包含“男人”和“报纸”的标题有333个,但同时包含“真人/雕像”这种状态描述的标题就锐减到了6个。这种数据稀疏性,使得依赖“负样本”进行对比学习的 CLIP 很难学到这些细微差别。

SuperCLIP 的“妙计”:化繁为简的分类监督

为了让模型“看见”这些细节,SuperCLIP 的设计堪称优雅而简洁。它没有对 CLIP 的核心架构大动干戈,而是在其图像编码器(Vision Encoder)之上,增加了一个极其轻量级的线性分类层(Linear Layer)。

这个新任务的目标是什么呢?答案就藏在与图像配对的文本标题里。具体来说,SuperCLIP 将每个文本标题进行分词,把这些词元(tokens)直接当作图像分类任务的“标签”。这样一来,图像编码器不仅要学习与整个文本匹配,还必须学会识别出图像中与各个“标签”(即文本中的单词)相对应的视觉特征。

整个训练目标函数可以表示为:

其中, 是原始的对比学习损失,而  就是新增的分类损失。通过这个简单的加法,SuperCLIP 将全局的对比学习和局部的分类学习结合起来,引导视觉编码器从文本的所有单词中恢复丰富的监督信号,从而实现更精细的图文对齐。

这种方法最大的优势在于:

  • 无需额外标注:分类任务的“标签”直接来自原始的文本数据,完全免费。
  • 计算开销极低:新增的线性层带来的额外计算量微乎其微。论文指出,对于 L 尺寸的模型,FLOPs 仅增加 0.077%

全面提升的实验效果

SuperCLIP 的有效性在大量实验中得到了验证。无论是在零样本图像分类、图文检索,还是纯视觉任务上,它都取得了超越原始 CLIP 的性能。

跨尺寸、跨任务的稳定增益

研究者在不同模型尺寸(Base 和 Large)和不同数据规模(512M 和 12.8B)下进行了对比。结果显示,SuperCLIP 全面胜出。

如上表所示,以 L-512M 设置为例,SuperCLIP 在 ImageNet-1K 上的零样本分类准确率提升了 5.1%,在 Flickr30K 上的图像检索 Recall@1 提升了 5.4%。即使在 12.8B 的超大规模数据上,SuperCLIP 依然能带来稳定的性能增益。

更好的泛化性和鲁棒性

SuperCLIP 的思想不仅适用于 CLIP,也能无缝迁移到其他 CLIP-style 的框架(如 SigLIP 和 FLIP)上,同样带来了显著的性能提升。这证明了其方法的普适性。

更有趣的是,SuperCLIP 还缓解了 CLIP 的一个著名“痛点”:对大批量(large batch size)训练的依赖。由于分类损失本身与批量大小无关,SuperCLIP 在小批量训练设置下依然能保持优异性能,而此时的 CLIP 性能已大幅下降。这无疑为资源受限的研究者和开发者带来了福音。

实验还表明,SuperCLIP 训练出的视觉编码器在纯视觉任务(如语义分割、深度估计)上也表现更佳,证明其学到的视觉表征质量更高。

写在最后

总而言之,SuperCLIP 提出了一种极为简单而高效的方法,通过引入一个轻量级的分类监督任务,成功地让 CLIP 学会了关注文本中的细粒度语义信息。它不仅在多个基准测试中取得了全面且显著的性能提升,还解决了 CLIP 对大批量训练的依赖问题,同时保持了极低的计算开销。

....

#硬核拆解大模型

从 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架构

自首次提出 GPT 架构以来,转眼已经过去了七年。

如果从 2019 年的 GPT-2 出发,回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4,不难发现一个有趣的现象:尽管模型能力不断提升,但其整体架构在这七年中保持了高度一致。

当然,细节上仍有不少演进。例如,位置编码从最初的绝对位置(Absolute Positional Encoding)发展为旋转位置编码(RoPE);注意力机制也从标准的多头注意力(Multi-Head Attention)逐步过渡为更高效的分组查询注意力(Grouped-Query Attention);而激活函数方面,则从 GELU 被更高效的 SwiGLU 所取代。

然而,这些变化中究竟有没有「颠覆性创新」?七年间,大语言模型的架构是否真正迎来了质的飞跃,还是仍在原有框架上不断精雕细琢?

本文博客来自于 Sebastian Raschka,知名 AI 研究者和博主、《Python 机器学习》作者。

image.png

博客详细列举了 8 个主流大语言模型,包含 DeepSeek 和 Kimi 等国产大模型,硬核拆解了每个大模型的架构设计和革新思路,深度介绍了现代最新大语言模型的架构设计以及大模型的架构演进趋势。

image.png

图 1:本文所涵盖的部分 LLM 架构示意图。

DeepSeek V3/R1

DeepSeek R1 在 2025 年 1 月发布时引起了巨大反响。

DeepSeek R1 是一个以 DeepSeek V3 架构为基础构建的推理模型,而 DeepSeek V3 最初于 2024 年 12 月推出。尽管本文重点讨论 2025 年发布的架构,但作者认为应当将 DeepSeek V3 纳入其中。

本节将重点介绍 DeepSeek V3 引入的两项关键架构技术,这些技术提升了其计算效率,也使其在众多大型语言模型中脱颖而出。

若对 DeepSeek V3 关键技术感兴趣,请参照技术报告:

  • 论文标题:DeepSeek-V3 Technical Report
  • 论文链接:https://arxiv.org/abs/2412.19437

多头潜在注意力机制 (MLA)

在讨论多头潜在注意力机制之前,应从近年来被广泛采用的分组查询注意力机制(GQA)说起,它已成为相较于传统多头注意力机制(Multi-Head Attention, MHA)更具计算与参数效率的新标准替代方案。

下面是对 GQA 的简要说明:与 MHA 中每个注意力头都有自己的一组键(key)和值(value)不同,GQA 的做法是将多个注意力头分组,让它们共享相同的 key 和 value 投影,从而降低内存使用。

如下图 2 所示,假设有 2 组 key-value 和 4 个注意力头,那么注意力头 1 和 2 可以共享第一组 key 和 value,而注意力头 3 和 4 共享第二组。这种做法减少了总的 key 和 value 计算量,降低了内存使用,提高了效率。

image.png

图 2:多头注意力机制(MHA)与分组查询注意力机制(GQA)的对比示意图。

GQA 的核心思想是:通过让多个 query 头共享一组 key 和 value,从而减少 key 和 value 的总数。这带来了两个主要好处:

1. 降低模型参数总量;

2. 在推理时减少 KV 缓存中 key 和 value 张量的内存带宽使用,因为需要存取的键值对变少了。

接下来介绍的 多头潜在注意力机制(MLA),则提供了一种 不同的内存节省策略,并且它与 KV 缓存机制的配合更加紧密。

与 GQA 通过「共享键值头」不同,MLA 是将 key 和 value 张量压缩到一个低维潜在空间后再存入 KV 缓存。而在推理过程中,这些压缩张量会被重新投影回原始维度再使用(如图 3 所示)。这一过程中虽然引入了一次额外的矩阵乘法,但大大节省了内存使用。

image.png

图 3:多头潜在注意力机制(MLA,应用于 DeepSeek V3 和 R1)与常规多头注意力机制(MHA)的对比。

值得说明的是,MLA 并不是 DeepSeek V3 首创的技术,它的前代模型 DeepSeek V2 就已经使用(甚至首次提出)了该机制。

MLA 是一种非常巧妙的技术手段,能够在提升模型表现的同时,大幅降低 KV 缓存的内存占用。相比之下,它甚至略优于传统的 MHA。接下来将进入下一个架构模块的分析。

Mixture-of-Experts (MoE)

DeepSeek 架构中另一个值得重点关注的重要组成部分是它对 MoE(Mixture-of-Experts,专家混合)层的应用。虽然 MoE 并非由 DeepSeek 首创,但这一技术在 2025 年迎来了回归,在后文介绍的许多架构中也能看到它的身影。

MoE 的核心思想是:将 Transformer 中的每个前馈模块(FeedForward)替换为多个「专家层」(每个专家层本质上也是一个前馈网络)。也就是说,原本单一的前馈结构被替换为多个并行的前馈子模块,具体如图 5 所示。

image.png

图 5:右图展示了 DeepSeek V3/R1 中 Mixture-of-Experts(MoE)模块的结构,对比左图中标准 LLM 所使用的普通前馈模块。

在 Transformer 块内部的前馈模块(上图中的深灰色块)通常占据了模型总参数量的很大一部分。

因此,将一个前馈模块替换为多个前馈模块(即构建 MoE 结构)会显著增加模型的总参数量。不过,关键的技巧在于:并不为每个 token 启用所有的专家模块(experts),而是由一个「路由器(router)」为每个 token 挑选出其中一小部分进行激活。MoE 的这种设计使得模型拥有极大的参数容量,在训练阶段能吸收更多知识;但在推理时由于稀疏激活,大幅降低了计算开销。

举个例子:DeepSeek-V3 每个 MoE 模块中拥有 256 个专家,总参数量高达 6710 亿。但在推理时,每个 token 实际只激活其中 9 个专家(1 个共享专家 + 路由选出的 8 个专家)

image.png

图 6:DeepSeekMoE 的注释图

关于 DeepSeek MoE 的更多细节,请参阅以下论文:

  • 论文标题:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
  • 论文链接:https://arxiv.org/abs/2401.06066

在 DeepSpeedMoE 论文中首次指出,引入「共享专家」(shared expert)可以显著提升模型整体的建模性能。其原理很可能是:对于通用或重复性强的模式,不需要多个专家分别学习;只需由共享专家统一处理,从而释放出其他专家的容量,专注于学习更加专业的知识模式。

OLMo 2

由非营利机构 Allen Institute for AI 发布的 OLMo 系列模型,因其在训练数据、代码和技术报告方面的高度透明而备受关注。

OLMo 模型结构清晰、设计规范,更重要的是,由于极高的透明度,它们为大语言模型的开发提供了极佳的参考范式。

在 OLMo 2 中有哪些值得注意的架构设计选择呢?

主要集中在归一化策略上:包括 RMSNorm 层的位置安排,以及 QK-norm(Query-Key 归一化) 的引入。

另一个值得一提的是,OLMo 2 仍采用传统的多头注意力机制(MHA),并未采用 MLA 或 GQA 等新型注意力结构。

关于更多 OLMo 2 的细节信息,请参照论文:

  • 论文标题:2 OLMo 2 Furious
  • 论文链接:https://arxiv.org/abs/2501.00656

归一化层位置选择

总体而言,OLMo 2 在架构上大体沿用了最初 GPT 模型的设计,与当前多数主流大型语言模型相似。但它也存在一些值得关注的不同之处,先从归一化层的设计说起。

与 Llama、Gemma 以及大多数现代 LLM 一样,OLMo 2 将归一化方法从 LayerNorm 替换为 RMSNorm。

真正值得讨论的是 RMSNorm 的位置选择。在最初的 Transformer 架构中,两个归一化层分别位于注意力模块和前馈模块之后,这种结构被称为 Post-LN 或 后归一化(Post-Norm)。

而 GPT 及其后大多数的 LLM 模型,则将归一化层放在注意力模块和前馈模块的之前,这种做法称为 Pre-LN 或 前归一化(Pre-Norm)。

下图展示了 Post-Norm 与 Pre-Norm 的结构对比:

image.png

图 8:Post-Norm、Pre-Norm 以及 OLMo 2 采用的 Post-Norm 变体的对比图。

早在 2020 年,Xiong 等人就指出 Pre-LN 在模型初始化时可以带来更稳定的梯度。此外,研究人员还提到,Pre-LN 即使在不使用学习率预热的情况下也能正常训练,而这是 Post-LN 通常难以做到的。

在 OLMo 2 中,归一化层并不是放在注意力层和前馈网络之前,而是放在之后,如上图所示。然而,与最初 Transformer 架构不同的是,这些归一化层仍然嵌套在残差层内部。

那么,他们为何要调整归一化层的位置呢?

原因在于这种设计有助于提升训练的稳定性,这一点将在下图中进行展示。

image.png

图 9:展示了 Pre-Norm(如 GPT-2、Llama 3 等所采用)与 OLMo 2 所采用的 Post-Norm 变体在训练稳定性方面的对比。

不过遗憾的是,这张图展示的结果同时包含了归一化顺序调整和 QK-Norm 两个因素,而后者是一个独立的概念。因此很难明确判断,归一化位置的改变对训练稳定性的提升到底贡献了多少。

QK-Norm

QK-Norm 本质上是另一个 RMSNorm 层,它被放置在 多头注意力模块内部,在应用旋转位置编码(RoPE)之前,对 Query 和 Key 进行归一化处理。

如前所述,QK-Norm 与 Post-Norm 结合使用,有助于稳定训练过程。关于 QK-Norm 更多细节,请参阅以下论文:

  • 论文标题:Scaling Vision Transformers
  • 论文链接:https://arxiv.org/abs/2106.04560

简而言之,OLMo 2 架构中的主要设计亮点是 RMSNorm 的放置方式:将 RMSNorm 放置在注意力模块和前馈模块之后(属于 Post-Norm 的一种变体),并在注意力机制中对 query 和 key 引入额外的 RMSNorm(即 QK-Norm)。这两项改动结合使用,有助于稳定训练损失。

下图展示了 OLMo 2 与 Llama 3 的架构对比;可以看到,除了 OLMo 2 仍使用传统的 MHA 而非 GQA 外,二者在整体结构上相对接近。

image.png

图 10:Llama 3 与 OLMo 2 的架构对比图。

Gemma 3

谷歌的 Gemma 系列模型一直表现非常出色,但相比于 Llama 系列等热门模型,它们的关注度似乎总是略显不足。

Gemma 3 在架构上使用了另一种「技巧」来降低计算成本:滑动窗口注意力(sliding window attention)。

借助滑动窗口注意力机制,Gemma 3 团队成功大幅降低了 KV 缓存的内存需求,具体效果如下图所示。

image.png

图 11:Gemma 3 的 KV 缓存内存节省效果。

如果把常规的自注意力看作一种「全局」注意力机制,因为序列中的每个元素都可以访问其他所有元素,那么滑动窗口注意力则可以看作是一种「局部」注意力机制,因为它限制了当前查询位置周围的上下文范围。下图展示了这一机制的原理。

image.png

图 12:常规注意力机制(左)与滑动窗口注意力机制(右)的对比图。

需要注意的是,滑动窗口注意力机制既可以与多头注意力配合使用,也可以与分组查询注意力(GQA)一起使用;Gemma 3 就采用了 GQA。

如上所述,滑动窗口注意力也被称为「局部注意力」,因为其关注的上下文仅限于围绕当前查询位置的一个局部窗口,并且该窗口会随着查询位置的移动而滑动。相对地,常规注意力机制则是「全局」的,每个 token 都可以访问所有其他 token。

虽然滑动窗口注意力是 Gemma 3 架构中最显著的特点,但作为对前文 OLMo 2 部分的补充,在此简要介绍一下 Gemma 3 中归一化层的放置方式。

一个小但有趣的细节是:Gemma 3 在其 GQA 模块周围同时使用了 RMSNorm 的 Pre-Norm 和 Post-Norm 形式。

这与 Gemma 2 的做法类似,但依然值得强调,因为它不同于以下几种主流做法:

1. 原始 Transformer 架构使用的 Post-Norm;

2. 由 GPT-2 推广、并被许多后续架构采用的 Pre-Norm;

3. 前文在 OLMo 2 中看到的、特殊的 Post-Norm 变体。

Gemma 3 的这种双重归一化策略展示了一种不同寻常的归一化设计选择,可能与其在推理效率和训练稳定性之间的权衡有关。

image.png

图 14:OLMo 2 与 Gemma 3 的架构对比;请注意 Gemma 3 中额外的归一化层。

这种归一化层的放置方式相对直观,因为它结合了 Pre-Norm 和 Post-Norm 的优势。

作者认为,多加一点归一化并无坏处。

关于 Gemma 3 的更多细节,请参阅技术报告:

  • 论文标题:Gemma 3 Technical Report
  • 论文链接:https://arxiv.org/abs/2503.19786

Mistral Small 3.1

Mistral Small 3.1 24B 于今年 3 月发布,紧随 Gemma 3 之后。它值得关注的一个原因是,在多个基准测试中,其表现优于 Gemma 3 27B,同时推理速度更快。

造成 Mistral Small 3.1 推理延迟低于 Gemma 3 的主要原因,可能在于其定制的分词器(tokenizer),以及更小的 KV 缓存和更少的层数。除此之外,它整体上采用的是标准架构,如下图所示。

image.png

图 16:Gemma 3 27B 与 Mistral 3.1 Small 24B 的架构对比图。

有趣的是,早期的 Mistral 模型曾使用滑动窗口注意力机制,但在 Mistral Small 3.1 中似乎放弃了这一设计。

与使用滑动窗口的 Gemma 3 不同,Mistral 采用了常规的 GQA。

作者推测,尽管滑动窗口注意力可以降低内存使用,但它并不一定能降低推理延迟,而这正是 Mistral Small 3.1 所优先关注的性能指标。

Llama 4

前文对专家混合模型(MoE)的详细介绍又派上用场了。

Llama 4 同样采用了 MoE 架构,其余部分则延续了较为标准的设计,整体架构与 DeepSeek-V3 非常相似,如下图所示。

image.png

图 17:DeepSeek V3(6710 亿参数)与 Llama 4 Maverick(4000 亿参数)架构对比图。

尽管 Llama 4 Maverick 的整体架构看起来与 DeepSeek-V3 非常相似,但其中仍有一些值得注意的差异。

首先,Llama 4 采用了与其前代模型相同的 GQA,而 DeepSeek-V3 则使用了 MLA。

这两款模型都是非常庞大的架构,DeepSeek-V3 的总参数量大约比 Llama 4 Maverick 多出 68%。但从实际推理中参与计算的参数数量来看,DeepSeek-V3 启用的参数达 370 亿,是 Llama 4 Maverick(170 亿)的两倍多。

在 MoE 设置方面,Llama 4 Maverick 使用的是更为传统的架构:每次仅激活 2 个专家,每个专家的隐藏层维度为 8192;而 DeepSeek-V3 每次激活 9 个专家,每个专家的隐藏层维度为 2048。此外,DeepSeek 在除了前 3 层外的每个 Transformer Block 中都插入了 MoE 层,而 Llama 4 则是交替使用 MoE 模块和密集(Dense)模块,即每隔一个 Block 加一次 MoE。

可以明确的一点是,MoE 架构在 2025 年迎来了显著的发展与普及。

Qwen3

Qwen 团队一直以来都在稳定输出高质量的开源大语言模型。在 NeurIPS 2023 的 LLM 效率挑战赛时,最终获胜的方案全部基于 Qwen2 构建。

而如今,Qwen3 系列再次成为各自参数规模下的榜单冠军,表现依旧亮眼。

Qwen3 (Dense)

先来看看 Qwen3 Dense 模型架构。截至目前,Qwen3 0.6B 可能是当前世代中体量最小的开源权重模型之一。

在本地运行时,它具有很高的每秒生成 token 数(token/sec)和很低的显存占用,非常适合轻量部署。而且因为参数量小,对于想在本地进行训练实验(例如教学用途)的人来说,也非常友好。

image.png

图 18:Qwen3 0.6B 与 Llama 3 1B 架构对比图。可以看到,Qwen3 架构更深(有更多的 transformer 层),而 Llama 3 架构更宽(具有更多的注意力头)。

Qwen3 (MoE)

如前所述,Qwen3 系列还包括两个 MoE(Sparse)变体。那么,为什么像 Qwen3 这样的架构会同时发布普通(Dense)和 MoE(Sparse)版本呢?

正如本文开头所提到的,MoE 变体旨在降低大规模基础模型的推理成本。提供 Dense 和 MoE 两种版本,可以让用户根据不同的目标与资源约束灵活选择。

通过同时发布这两类模型,Qwen3 系列能够覆盖更广泛的应用场景:致密模型强调鲁棒性、简单性和可微调性;MoE 模型则面向大规模部署中的推理效率。

image.png

图 19:DeepSeek-V3 与 Qwen3 235B-A22B 架构对比。

如上图所示,DeepSeek-V3 和 Qwen3 235B-A22B 在架构上非常相似。不过值得注意的是,Qwen3 模型取消了共享专家(此前的 Qwen2.5-MoE 等模型采用了共享专家机制)。

遗憾的是,Qwen3 团队并未公开说明他们放弃共享专家的原因。

作者猜测,可能是因为在将专家数量从 Qwen2.5-MoE 的 2 个增加到 Qwen3 的 8 个之后,训练稳定性已经不再依赖共享专家。因此,他们选择省略共享专家,以节省额外的计算和显存开销(避免从 8 个增加到 8+1 个专家)。不过,这并不能解释为何 DeepSeek-V3 至今仍保留共享专家机制。

SmolLM3

SmolLM3 或许不像本文其他提到的大模型那样广为人知,但作者认为它依然值得纳入讨论,因为该模型在仅有约 30 亿参数的体量下,展现出非常出色的建模性能,定位介于 Qwen3 的 17 亿参数模型与 40 亿参数模型之间,如下图所示。

此外,SmolLM3 也像 OLMo 一样公开了大量训练细节,这在业内并不常见,因此尤为值得称赞。

image.png

图 20:SmolLM3 相较于 Qwen3 1.7B 和 4B,以及 Llama 3 3B 和 Gemma 3 4B 的胜率比较。

如下面的架构对比图所示,SmolLM3 的整体结构相对标准。不过,其中最有趣的一点或许是它采用了 无位置嵌入(NoPE)机制。

image.png

图 21:Qwen3 4B 与 SmolLM3 3B 的并排架构对比图。

在 LLM 的背景下,NoPE 是一种较早提出的理念,该方法旨在移除显式的位置编码信息注入机制,例如早期 GPT 架构中常用的绝对位置嵌入,或当前主流的 RoPE(旋转位置编码)。

在基于 Transformer 的语言模型中,位置编码通常是必要的,因为自注意力机制默认对输入序列中的 token 顺序不敏感,即每个 token 被独立处理。为了解决这一问题,绝对位置嵌入通过添加一个额外的嵌入层,将位置信息与 token 嵌入相加,从而为模型提供序列顺序感知能力。

image.png

图 22:展示了绝对位置嵌入的机制。

相比之下,RoPE 通过将 Query 和 Key 向量按 token 的位置进行旋转来注入位置信息。

而在 NoPE 层中,则完全不加入任何位置编码信息:没有固定的、没有可学习的,也没有相对位置编码 —— 什么都没有。

即使没有显式的位置编码,模型依然可以通过因果注意力掩码知道哪些 token 是在前面。这个掩码会阻止每个 token 访问其后的 token,从而保证了自回归顺序的正确性。也就是说,位于位置 t 的 token 只能「看到」位置小于等于 t 的 token。

总结来说,NoPE 不仅不需要注入位置编码,还在序列长度泛化方面更具优势。也就是说,随着输入序列长度的增加,模型的表现下降幅度更小。如下图所示:

image.png

图 23:展示了 NoPE 在长度泛化上的优势表现。

正因如此,SmolLM3 团队在实际应用中,并未在每一层都使用 NoPE,而是选择在每 4 层中使用一次 NoPE(或说每 4 层省略一次 RoPE),作为一种折中策略。

关于 NoPE 的更多细节,请参阅以下论文:

  • 论文标题:The Impact of Positional Encoding on Length Generalization in Transformers
  • 论文链接:https://arxiv.org/abs/2305.19466

Kimi K2

Kimi K2 最近因其出色的性能在 AI 社区引起了巨大反响。作为一个开源权重模型,它在多个基准测试中表现堪比 Google 的 Gemini、Anthropic 的 Claude 和 OpenAI 的 ChatGPT 等顶级闭源模型。

一个值得注意的方面是,它在训练中首次在此规模的生产级模型中使用了 Muon 优化器的变体,而非传统的 AdamW。

据作者所知,这是 Muon 优化器首次在超大模型中应用(此前仅在最多 160 亿参数规模上展示过可扩展性)。这一选择带来了极为理想的训练损失曲线,很可能正是 Kimi  K2 能在上述各项基准测试中脱颖而出的重要原因。

Kimi  K2 的参数规模达到了 1 万亿(1T),这无疑令人印象深刻。它可能是目前这一代中最大的 LLM(截至本文撰写时),在不考虑尚未发布的 Llama 4 Behemoth、闭源模型以及架构不同的 Google 1.6 万亿 Switch Transformer(其为编码器 - 解码器模型)前提下,Kimi  K2 几乎是无出其右的。

从架构上看,Kimi K2 基于本文开头提到的 DeepSeek-V3 架构,但进行了更大规模的扩展和增强,如下图所示(图略)。这也标志着一种「循环回归」:Kimi  K2 将 DeepSeek-V3 的设计理念推向了极致。

image.png

如上图所示,Kimi  K2 在整体架构上基本与 DeepSeek V3 保持一致,主要的差异在于:

  • Kimi  K2 在 MoE 模块中使用了更多的专家,
  • 在 MLA 模块中使用了更少的注意力头(heads)。

在历经数年之后,LLM 的发布依然充满惊喜与期待。新技术永远让人心潮澎湃,永远期待更多的大模型架构改进的出现。

更多信息请参阅原博客:

  • 博客链接:https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison

....

#三重激励+全周期扶持

即梦升级这个计划,让AI创作者的成长有迹可循

快!即梦AI创作者成长计划全面升级了。

自从有了 AI,全球网友的精神状态是愈发美丽了。现在只要打开手机,社交平台总能蹦出几个抽象的 AI 视频。

在上海街头喝了杯蜜雪冰城,东方明珠变成防御塔追着扫射:

图片

动图来自B站up主我是七奇

穿西装打领结的猫咪化身 Tony 老师,一推子给梅西剃成了光头:

图片

各路「成精」的动物不是深更半夜跑到人家后院蹦迪:

,时长00:30

就是对着镜头齐刷刷比起「国际友好手势」:

,时长00:20

这类 AI 视频凭借天马行空的想象力和极具冲击力的视觉表现迅速出圈,动辄收获百万级播放。

AI 的潜力远不止于「万物皆可整活」。在这些娱乐化的表象背后,越来越多优质创作者正在用 AI 工具探索真正的内容创作边界。

入选即梦 AI 创作者成长计划的博主笑尘和袁小圆便是其中的代表。半个月前,他们发布了一条 AI 动画作品《赶在陷落之前》,在社交平台引发不少关注。

为了打造这部风格独特、画面细腻的短片,两位博主花了近两个月时间,使用包括 DeepSeek、即梦 AI、Suno 等在内的至少 6 款 AI 工具,完成从分镜设定、角色生成到配乐的全流程创作。

,时长10:58

过去这一年,我们见证了一场由 AI 技术驱动的内容创作革命。传统创作门槛被打破,表达不再专属于掌握专业技能的少数人。以往需要专业团队完成的视频、图像,如今借助 AI,个人创作者只需一台设备、几句提示词即可生成。创作效率被重新定义,内容形式、风格与成本结构也在发生根本性变化。

不过,当技术落到现实世界,创作者们也面临新的困局:优质作品被海量内容淹没、创作者缺乏可持续的成长路径、变现与行业对接渠道有限、创作生态支持仍显不足。

大家开始意识到,AI 内容的繁荣不能只靠「技术跑得快」,更需要系统性的创作者扶持机制。

今年 2 月份,即梦 AI 启动「AI 创作者成长计划」,以积分激励、商单合作、流量分发等方式,为创作者提供实打实的支持。截至目前,计划已扶持 3802 位创作者,累计发放超过 2800 万积分。

其中,超过百位创作者已获得商单机会,人均合作金额超 6 万元;多部作品实现千万级播放,一些作品还在上海、戛纳等国际电影节的 AIGC 单元获奖,并走进像 UCCA 尤伦斯当代艺术中心这样的头部美术馆,与乐华娱乐、蜜雪冰城等品牌展开跨界合作。

现在,这一成长计划已全面升级,构建起覆盖潜力新星、进阶创作者、超级创作者三大阶段的扶持体系,提供积分奖励、平台流量、官方项目、模型内测、商单接入等多维资源,面向视频和图片全类型创作者长期开放。

全类型覆盖 + 全方位扶持

即梦 AI 搞了个创作者养成计划

「即梦 AI 创作者成长计划」旨在为全球 AI 创作者提供全方位支持,通过分层进阶激励机制,精准匹配每位创作者在不同阶段的个性化需求,助力其成长与发展。

对于初涉 AI 创作、满怀探索欲的潜力新星,只需在即梦发布内容,即可触发积分奖励。比如,符合平台鼓励内容方向的爆款灵感,每条奖励 88 积分;达到平台内容标准的短片,每条则奖励 888 积分 。这些基础性激励可以帮助新人激发创作灵感,快速建立创作信心。

当创作者积累一定经验并形成稳定风格后,就能进入 「进阶创作者」 阶段。

创作者填写报名问卷加入成长计划,可叠加多重权益:通过审核即享 1000 积分和 1 个月即梦基础会员;优质短片按标准分级奖励,单条最高 20000 积分;内容同步至小红书、抖音等平台可额外获积分,若内容成为平台周互动或点赞 TOP3,创作者还能拿到 2000 元现金奖励。

同时,平台还同步开放流量扶持、模型内测权限、字节系商单对接以及创作者社群交流等资源。

所有加入成长计划的创作者,如果作品获得广泛认可,将有机会被邀请加入「即梦超创」。

进入这一阶段的创作者将享受最全面、最顶级的支持。权益涵盖每月 10000 积分、即梦会员与剪映 SVIP,优先参与国际电影节和行业共创等官方项目,前置参与模型内测、1V1 专属客服、全球平台推广、优先推荐全字节系商单,甚至自有项目可申请即梦支持,单项目最高可获 50 万元资助。

这一阶段的创作者将得到平台的高度曝光,成为行业内的焦点,进一步提升创作的影响力和商业价值。

总而言之,即梦 AI 创作者成长计划通过积分奖励、流量扶持和生态资源三重激励机制,帮助创作者最大化创作收益,实现一份创作多份回报。

该计划提供的稀缺资源也为创作者打开了行业通道。通过与国际电影节、美术馆展映等高价值资源的对接,创作者的作品有机会获得更广泛的曝光,并得到业内专家和观众的认可;字节系商单等合作机会的开放,为创作者提供了一个拓展市场、深化合作的绝佳平台。

而且,此次成长计划全类覆盖,涵盖视频创作与图片创作,确保各类创作者都能获得量身定制的支持。

打造 AI 时代的创作者优质社区

在 AI 内容生产爆发式增长的背景下,真正决定一个平台能走多远的,往往不是技术本身,而是它能否构建起一套可持续、具成长性的创作生态。

作为一款一站式 AI 创作平台,即梦 AI 集成了图片生成、视频制作、智能编辑等多模态能力,真正实现了面向大众的零门槛创作体验。用户只需输入简单的文字描述或上传基础素材,即可快速生成高质量的图像、视频甚至具备镜头逻辑的短剧分镜。

例如,其文生视频功能支持自动生成带运镜特效的动态画面,首尾帧控制技术能自动补全过渡画面,极大简化专业视频制作的复杂流程。

,时长01:00

视频来自博主话神闲

对口型功能则可精准匹配虚拟人物的语音与口型,甚至支持多地方言,为虚拟叙事提供更真实自然的表达方式,解决了长期困扰行业的技术难题。

,时长00:05

不过,对于创作者而言,工具只是起点,真正有价值的创作需要被看见、被回应、被支持,更需要在持续的创作过程中获得成长与商业转化的机会,而这正是即梦 AI 区别于其他平台的核心优势所在。

即梦 AI 与剪映、抖音等字节系产品实现无缝对接,创作者生成内容后可直接导入剪映进行精细化编辑,再同步至抖音平台进行分发,进一步强化了内容生态的协同性。

更重要的是,即梦 AI 正在逐步沉淀一个风格多元、去中心化的优质创作者社区。

这个社区既有技术驱动型的模型测试者,也有具备叙事力与艺术风格的视觉创作者,还有在社交平台拥有影响力的创意视频博主。不同背景、不同风格的创作者在平台上共创交流,逐步形成一个聚焦内容质量、强调原创价值的 AI 创作精英社区。

为了持续激发社区活力,即梦还定期发起线上工作坊、创意挑战赛等活动,这不仅为创作者提供灵感刺激,也为创作者带来了更多展示与被看见的机会。

在 AI 内容井喷时代,如何让创作者真正留下来、活跃起来、发展下去,成为每一个平台必须回答的问题。而从「即梦 AI 创作者成长计划」的推进实践来看,这不仅是一次面向创作者的精准扶持,更是一次对创作生态底层逻辑的再设计。

即日起至 2025 年 12 月,即梦 AI 创作者成长计划持续开放中。感兴趣的创作者可前往即梦 AI 微信官方服务号填写问卷,并输入邀请码「1004」参与报名。

图片

....

#DeepSeek的GRPO会导致模型崩溃?

看下Qwen3新范式GSPO

众所周知,大型语言模型的训练通常分为两个阶段。第一阶段是「预训练」,开发者利用大规模文本数据集训练模型,让它学会预测句子中的下一个词。第二阶段是「后训练」,旨在教会模型如何更好地理解和执行人类指令。

在 LLM 后训练阶段,似乎是一个强化学习的特殊形式。用于大语言模型(LLMs)微调的强化学习(RL)算法正沿着一条明确的演进路径持续发展。

起初,OpenAI 开创了一种名为 基于人类反馈的强化学习(RLHF) 的技术,用于改进 ChatGPT。RLHF 的核心是让人类标注员对模型生成的多种响应进行打分,并选出最优答案作为训练参考。这一过程虽然有效,但也耗时、昂贵且依赖人力,通常需要一支小型但专业的数据标注团队。

DeepSeek 的重要创新在于用 RL 技术自动化了这一环节。算法不再依赖人工逐一评估,而是让模型在探索过程中,通过获得「奖励信号」自主学习正确行为,从而显著降低了成本,提高了效率,最终能以较低的成本实现高性能。

OpenAI 在 ChatGPT 的训练中采用了近端策略优化(Proximal Policy Optimization, PPO)。

而 DeepSeek 团队 则认为,在一组样本中进行价值估计更加有效,因此提出了 组相对策略优化(Group Relative Policy Optimization, GRPO) 算法,这也是 DeepSeek-R1 中的核心技术,使 DeepSeek-R1 模型大放异彩。

image.png

GPRO 与 PPO 的对比,摘自 DeepSeekMath 论文。

在几个月前 Qwen3 首次亮相的时候,其旗舰模型的性能就已经与 DeepSeek-R1、o3-mini、Gemini 2.5 Pro 等顶级模型表现相当。除此以外,Qwen3 系列模型覆盖了 MoE 模型和密集模型,每一款模型又有许多细分版本。

近些天,Qwen3 系列模型仍然在不停的迭代更新,例如 Qwen3-235B-A22B-Instruct-2507-FP8 在知识数学、编程、人类偏好对齐、Agent 能力等众多测评中表现出色,甚至了超过 Kimi-K2、DeepSeek-V3 等顶级开源模型以及 Claude-Opus4-Non-thinking 等领先闭源模型。

最近,Qwen 团队发布了一篇有关其模型后训练算法的论文,似乎揭示了 Qwen3 模型成功的核心技术细节。

  • 论文标题:Group Sequence Policy Optimization
  • 论文链接:https://huggingface.co/papers/2507.18071
  • 博客链接:https://qwenlm.github.io/blog/gspo/

而在昨天,来自清华大学校友创立的创业公司 NetMind.AI 发表了一篇博客,题为《Qwen Team Proposes GSPO for Qwen3, Claims DeepSeek's GRPO is Ill-Posed》,对 Qwen 团队为 Qwen3 模型提出的 GSPO 算法进行了详尽的介绍与分析。

image.png

  • 博客链接:https://blog.netmind.ai/article/Qwen_Team_Proposes_GSPO_for_Qwen3%2C_Claims_DeepSeek's_GRPO_is_Ill-Posed

最近 Qwen 的研究表明,使用 GRPO 训练大语言模型时存在严重的稳定性问题,往往会导致模型不可逆地崩溃。他们认为 DeepSeek 的 GPRO 方法存在一些严重问题:

  • 在每个 token 级别应用重要性采样,会在长序列中积累高方差,导致训练不稳定。
  • 这一问题在 专家混合模型(Mixture-of-Experts, MoE) 中尤为严重,因为 token 级别的路由变化会加剧不稳定性。
  • 为缓解这一问题,基于 GRPO 的训练流程通常需要依赖一些额外策略,例如 路由重放(Routing Replay)。

因此,Qwen 团队声称 GRPO 的 token 级重要性采样无法达到稳定训练,其优化目标是「病态的(ill-posed)」。

为了解决这些问题并训练其最新的 Qwen3 系列模型,Qwen 团队提出了一种新的强化学习算法 —— 组序列策略优化(Group Sequence Policy Optimization, GSPO)。

GRPO 的根本问题:

「逐 token 重要性采样」的不稳定性

Qwen 团队指出,GRPO 的不稳定性源于其对 token 级重要性采样权重的错误使用。在强化学习中,重要性采样(Importance Sampling)用于校正行为策略(即用于收集训练数据的策略)与目标策略(当前正在优化的策略)之间的差异。

当两者不一致时,重要性采样通过为已有数据样本赋予权重,使其更能代表当前希望优化的目标策略,从而提高训练的稳定性与有效性。

在大语言模型(LLMs)的训练中,强化学习常常会复用旧策略生成的响应,以节省计算资源,这属于典型的「离策略」(off-policy)训练场景。重要性采样正是用于缓解这种策略不匹配带来的影响,并帮助稳定训练过程。

然而,GRPO 将重要性采样的权重应用在每一个 token 上,而非整个生成的序列。这种做法会带来显著的方差,并在生成较长序列时造成「误差积累」与「训练不稳定性」。

从形式上讲,GRPO 是在每一个 token 的生成步骤上单独计算重要性权重的:

image.png

Qwen 团队指出,当在训练目标中应用此类重要性权重时,由于每个 token 的比值是独立计算的,会导致高方差的累积,从而破坏梯度稳定性,最终引发模型崩溃。

同时,这种做法会将高方差噪声引入训练梯度中,尤其在长序列上呈现累积效应,并且在存在「裁剪机制」时,这种不稳定性问题会进一步加剧。

Qwen 团队的实验证据

Qwen 团队通过实验证据验证了其理论分析,如图所示。

在所有展示的实验场景中,其新提出的算法 GSPO 均表现出比 GRPO 更高的训练效率。在 CodeForces 任务中,GRPO 的最终得分收敛于 2000 分以下,而 GSPO 随着训练计算量的增加持续提升成绩,展现出更强的「可扩展性」。

image.png

GSPO 与 GRPO 的训练曲线对比

Qwen 的解决方案:

「序列级重要性采样」

那么,GSPO 是如何解决上述问题的呢?

正如其名称所暗示的,GSPO 的核心在于将重要性采样从 token 级转移至序列级,其重要性比值基于整个序列的似然度计算:

image.png

这种采样权重的设计自然地缓解了逐 token 方差的累积问题,从而显著提升了训练过程的稳定性。

需要注意的是,指数中的因子用于「长度归一化」。如果不进行长度归一化,仅仅几个 token 的似然变化就可能导致序列级重要性比值的剧烈波动,而不同长度的生成响应在目标函数中也将需要不同的裁剪范围,这会进一步增加训练的不稳定性。

实验验证的优势:

简化 MoE 模型训练

针对专家混合模型(MoE)所进行的专项实验进一步强调了 GSPO 的优势。

由于 MoE 模型具有稀疏激活特性,这会在使用 GRPO 时进一步加剧训练过程中的不稳定性。在经过一次或多次梯度更新后,相同响应所激活的专家网络可能发生显著变化。

Qwen 团队在使用 GRPO 训练 48 层的 Qwen3-30B-A3B-Base 模型时发现:在每一次强化学习的梯度更新后,对于相同的 rollout 样本,新策略所激活的专家中约有 10% 与旧策略所激活的专家不同。这实际上意味着,每次梯度更新后,你都在用不同的数据样本训练不同的模型,毫无疑问这是一种极其低效的训练方式。

在引入 GSPO 之前,为缓解这一问题,他们甚至采取了一种名为「Routing Replay」的技巧,即强制目标策略激活与旧策略相同的专家网络。

相比之下,GSPO 无需使用 Routing Replay 也能实现稳定收敛,从而消除了不必要的训练复杂性,并保留了 MoE 架构的全部潜力。

image.png

Routing Replay 策略在 GRPO 训练 MoE 模型的正常收敛中起到了关键作用

结论:

GSPO 或将成为新的标准

总结一下,GSPO 的方法有两点创新:

  • 将重要性采样从 token 级别提升到序列级别,并通过序列长度进行归一化处理;
  • 显著降低了方差,同时消除了对「路由技巧」(如 Routing Replay)等辅助策略的依赖;

业界已普遍达成共识 —— 在大语言模型的后训练阶段引入强化学习,对于提升其推理能力至关重要。

而论文中的大量实验结果也进一步证实,GRPO 所采用的「逐 token 重要性采样」方法存在不稳定性和低效性的问题。

因此,GSPO 提出的「序列级重要性采样」很可能会成为未来后训练强化学习的新标准。

参考链接:

​https://www.reddit.com/r/MachineLearning/comments/1mj3t3r/d_gspo_qwen3s_sequencelevel_rlhf_method_vs_grpo/​

​https://blog.netmind.ai/article/Qwen_Team_Proposes_GSPO_for_Qwen3%2C_Claims_DeepSeek's_GRPO_is_Ill-Posed​

​https://www.ft.com/content/ea803121-196f-4c61-ab70-93b38043836e?utm_source=chatgpt.com​

​https://zhuanlan.zhihu.com/p/22845155602​

....

#颠覆互联网的下一波浪潮

Agentic Web来了!

你不会再「上网」,而是说出一个目标,然后由一群 AI 自动完成。

 ——未来互联网使用场景设想

过去三十年,互联网经历了从静态网页到智能推荐的深刻演变。如今,我们正站在互联网的另一个重大转折点上。

这一转折,来自一种全新的范式设想 —— Agentic Web,一个由 AI 智能体组成的、目标导向型的互联网系统。在这个新框架中,用户不再手动浏览网页、点击按钮,而是通过自然语言向智能体发出一个目标,AI 会自主规划、搜索、调用服务、协调其他智能体,最终完成复杂任务。

这不是幻想,而是由 UC Berkeley、UCL、上海交通大学、上海创智学院等机构的研究者联合提出,并在论文中系统论述的 Web 重构方案。

论文标题:Agentic Web: Weaving the Next Web with AI Agents

作者:Yingxuan Yang, Mulei Ma, Yuxuan Huang, Huacan Chai, Chenyu Gong, Haoran Geng, Yuanjian Zhou, Ying Wen, Meng Fang, Muhao Chen, Shangding Gu, Ming Jin, Costas Spanos, Yang Yang, Pieter Abbeel, Dawn Song, Weinan Zhang, Jun Wang

单位:上海交通大学,University of California, Berkeley,University College London,上海创智学院等

链接:https://arxiv.org/abs/2507.21206

Github:https://github.com/SafeRL-Lab/agentic-web

这是一次对互联网底层逻辑的全面「改写提案」:人类不再是唯一的网络使用者,智能体将成为 Web 的主要操作者。任务由人类发起,但由 AI 执行。在这个新架构中,网页、服务、平台不再是面向人的交互界面,而是为智能体而生的协作接口。

本文将从技术架构、理论模型、系统协议、典型应用与挑战五个方面,深度解析这场关于「智能体驱动互联网」的范式革命。

一、三次范式跃迁:Web 正在走向「自动化」

互联网的演化是一部「人–信息」关系的技术史。过去三十年,Web 主要经历了三次范式转变:

图片

PC Web:关键词驱动的「目录网络」

在 PC Web 时代,网页以静态内容为主,信息由机构集中生成,并通过人工分类和超链接构成一个「数字黄页」。用户必须主动发起搜索、点击浏览,任务执行线性、明确但效率不高。 

商业模式以关键词搜索广告为主,代表性系统如 Google AdWords,依赖点击率 (CTR) 和每次点击成本 (CPC) 来衡量效果,形成了基于「人类意图」的搜索营销生态。

Mobile Web:推荐驱动的「内容爆炸」

伴随社交平台、短视频、电商 UGC 的激增,信息量呈指数增长。传统搜索引擎难以应对如此庞大的内容分发压力,取而代之的是推荐系统主导的信息分发范式。 

用户逐渐从「搜索者」变为「消费者」,算法根据行为数据动态推荐内容,平台从内容聚合器变为算法中介。商业模型转向精准推荐与信息流广告,强调停留时间、转化率和千次展示成本 (eCPM)。

Agentic Web:智能体驱动的「行动网络」

如今,我们正步入第三次变革浪潮:AI 智能体成为主角,Web 从「人读内容」转向「智能体执行任务」。信息不再静态储存在网页中,而是被嵌入 LLM 参数中,被智能体调用、组合与再加工。 

Web 的角色不再是信息仓库,而是一个充满「可行动资源」的生态系统,供智能体发现、协调、调用。任务不再依赖用户逐步操作,而是由 AI 智能体全流程完成,从发现信息到调用服务再到反馈结果。

图片

这一趋势预示着:未来的 Web,将由 AI 智能体构建、运营与使用。我们需要重新理解什么是「网页」、什么是「流量」、甚至什么是「用户」。

互联网不再只是人类的空间,它正逐步变成一个由智能体共同参与、协作、创造价值的生态系统。

二、什么是 Agentic Web?

论文中的定义指出:

Agentic Web 是一个分布式、交互式的互联网生态系统,其中由大语言模型 (LLMs) 驱动的自主软件智能体,能够持续规划、协调、执行目标导向的任务。在这个范式中,网络资源和服务不仅可供人类使用,还可以供智能体访问,使得智能体与智能体之间 (Agent-to-Agent) 的互动成为常态。

简言之,它是一个由 AI 来「上网」、执行任务、人类只是「发出指令」的网络形态。

图片

Agentic Web 的核心在于「委托 + 执行」

在 Agentic Web 中,用户不再需要手动搜索、点击、复制或粘贴内容,而是可以通过与智能体的对话来委托任务。比如用户只需说:

「帮我规划一个周末东京行程,预算 3 千元,要避开台风。」

之后,剩下的所有工作都由智能体自动完成 —— 从查询天气、搜寻航班、比对价格,到预定酒店、整合日程,整个过程完全自动化。而且,这些智能体可以与其他智能体 (如航司 API、酒店 API、旅游数据智能体等) 协作与谈判,实现任务目标。这不仅仅是像 ChatGPT 那样的单轮问答,而是通过多个步骤和多智能体协作来完成的,代表着 AI 真正参与到了 Web 的操作层面。

Agent 在系统中的身份是「双重」的:

  • Agent-as-User (作为用户)

如同人类访问网页一样,智能体可以模拟点击、填写表单、读取接口,进行市场分析、数据抓取、自动交易等任务。

  • Agent-as-Interface (作为接口)

智能体也可以作为「超级助手」,接收用户的自然语言指令,自动解析、调用多个服务、整合结果,执行多步流程。

一个完备的智能体,常常同时具备这两个角色:既能代表人类与系统交互,也能作为系统对人类的接口,真正实现「意图—执行」的闭环。

三、理解 Agentic Web 的「三个核心维度」

图片

论文从三个核心维度全面理解 Agentic Web 的结构:

  • 智能维度 (Intelligence)AI 智能体需要具备真正的「认知能力」,包括:
  • 上下文理解:能读懂网页、结构化数据、自然语言
  • 长程规划:能分解复杂任务,生成执行计划
  • 适应性学习:通过经验不断优化策略
  • 多模态整合:同时处理文本、图像、API、数据表格等

这些能力意味着智能体不是被动的「响应工具」,而是具有持续学习和自主策略的「数字行动体」。

  • 交互维度 (Interaction)Agentic Web 打破了「人类点击网页」的操作范式,转向基于语义的智能交互:
  • 使用 MCP (Model Context Protocol)、A2A (Agent-to-Agent) 协议,实现智能体之间的发现、能力描述、状态共享
  • 支持多步任务语境保持 (如购物流程、问诊流程)
  • 实现 Agent-to-Agent 协作与任务拆解

智能体之间不是「调用」,而是协商、协同执行,如一个旅游智能体主动向天气智能体请求数据,再联动地图与订票工具,完成任务。

  • 经济维度 (Economy)

Agentic Web 中,最具突破性的设想是:Agent Attention Economy (智能体注意力经济)

传统广告模型追求「人类点击」;Agentic Web 中,资源方争夺的对象变成「AI 智能体的调用」。 

这意味着未来将出现:

  • 面向智能体的推荐系统;
  • 为智能体投放的广告;
  • 服务市场中按「智能体调用率」竞价; 

智能体的调用频次、完成率、效率将成为新的「流量指标」,商业竞争的重心也将从争夺用户注意力,转向争夺智能体「注意力」。

四、应用场景:从搜索替代到智能事务系统

为了更好地理解它的实际价值,我们可以将 Agentic Web 的核心能力拆解为三大类:事务型 (Transactional)、信息型 (Informational) 和交流型 (Communicational)。它们共同构成了智能体参与数字世界的三种基本方式。

图片

事务型:从「点击下单」到「全自动完成任务」

传统 Web 中,用户需要逐页浏览、搜索信息、逐步操作才能完成一项任务,例如订酒店、买机票、办签证。而在 Agentic Web 中,你只需告诉智能体一句话:

「帮我订一个下周三从上海到东京的往返机票,经济舱,避开台风。」

剩下的 —— 查询航司、比价、确认时间、填写资料、支付确认 —— 都由智能体自主完成。它不仅调用航司 API,还能根据你过往偏好 (如信用卡积分、环保航线) 进行权衡,甚至在发生变更时自动重订。

这种智能化的事务处理能力,正在由「Mobile Agents」「App Agents」进一步延展到设备层。例如,智能体可以在你的手机上同步日程、修改会议安排、甚至整合多个应用自动执行跨平台任务。

信息型:从「搜索引擎」到「持续知识发现」

今天的信息检索依赖搜索引擎和社交推荐,但在数据过载的背景下,我们获取的是信息洪流。

Agentic Web 支持的「信息型智能体」,则更像是一个长期陪伴式研究助理。以「Deepresearch Agent」为例:

  • 它可以持续追踪一个研究领域的新论文;
  • 自动梳理引用网络和方法论差异;
  • 合理推断趋势、生成研究摘要;
  • 甚至根据你的研究兴趣,推荐潜在合作者。 

这种智能体并不是一次性地「查一查」,而是具备长期「认知记忆」和动态「学习能力」的信息分析引擎。它们协作构成一个持续进化的知识网络,大大提升了信息筛选和洞察能力。

交流型:智能体之间能沟通、协作、谈判

相比以人为中心的传统 Web,Agentic Web 真正的变革在于让智能体可以与其他智能体协作,形成类似「数字组织」的多体系统。 

在科研领域,一个跨国研究项目中,不同学校的智能体可以:

  • 自动同步实验时间表;
  • 共享数据集;
  • 生成联合成果;
  • 自动分配署名与经费比例。 

在制造业或供应链中,不同企业的智能体可实时对接需求、响应变化、自主协商条款。这种跨智能体协同工作流,依赖于一整套新型通信协议 (如 MCP、A2A),支持语义对齐、任务协同与多方自治。

简而言之:Web 不再是人和机器x之间的桥梁,而是智能体之间的操作舞台。

五、挑战:Agentic Web 的复杂难题与未来瓶颈

虽然 Agentic Web 展现出令人兴奋的前景,但要真正落地为现实中的下一代互联网,它面临的是一组系统性、相互交织、跨学科的复杂挑战 —— 远不只是提升 AI 智能体的能力,更关乎整个网络基础设施、经济体系与人机协作范式的重构。

这不仅是个技术性难题,更是一个需要全局观的系统性工程。构建 Agentic Web 的难题,远不仅仅是提高个体智能体的能力,而是如何在现有互联网基础上,架构出一个可靠、安全、可信的全新计算层。这些挑战跨越了多个领域,彼此之间存在深刻的相互依赖与关联。接下来,我们将逐一解析这些挑战。

智能体基础能力:推理、记忆与安全性

  • 🧠 推理与规划的脆弱性

多步骤推理是 Agentic Web 的核心能力之一,它能够让智能体分解复杂问题、评估多个解决方案、做出合适的决策。然而,目前的推理系统仍然脆弱,容易出错,难以进行长远规划和持续反思。

  • 🧠 记忆与上下文管理

记忆是智能体能否有效执行长时任务的基础。传统的大语言模型 (LLM) 是无状态的,智能体需要外部机制来保留上下文、历史记录和学习到的知识。然而,如何高效管理这些记忆,尤其是在复杂任务中有效衔接不同阶段的内容,依然是亟待解决的难题。

  • 🧠 工具使用的安全性

智能体依赖外部工具 (如 API、数据库、搜索引擎) 来与现实世界互动。然而,这也带来了极大的安全隐患:工具如果被黑客篡改或受到攻击,智能体可能会受到影响,甚至引发连锁反应。解决这个「工具使用悖论」,需要构建「零信任」架构,确保所有外部输入都经过严格验证。

学习与自我改进:从静态模型到动态学习者

  • 🎓 奖励设计难题

强化学习 (RL) 是训练智能体的核心方法之一,它通过与环境的交互来优化决策过程。然而,设计一个既能引导智能体正确行为又不容易被滥用的奖励机制,依然是目前的瓶颈。

  • 🎓 持续学习与灾难性遗忘

智能体需要具备持续学习的能力,以便随着时间积累新技能。但在学习新任务时,智能体常常会忘记之前学到的知识,这就是所谓的「灾难性遗忘」问题。如何让智能体在不忘记旧知识的情况下学习新内容,是目前面临的重大挑战。

  • 🎓 任务交互学习的困难

通过与环境的互动来学习复杂任务是智能体成长的关键。然而,如何避免智能体过度依赖某一特定环境,或者过度拟合特定的输入,保持任务的灵活性和广泛适应性,仍是一个悬而未解的问题。

多代理协作:协调与信任的挑战

  • 🤖 协作与沟通:结构设计难题

当多个智能体协同工作时,如何组织它们的结构成了关键问题:是采取平等对等的协作方式?还是分层领导?每种结构都有其利弊,如何找到最优解,仍需深入研究。

  • 🤖 通信协议的统一性

为了让全球的智能体能够有效沟通与协作,我们亟需统一的通信协议。这类似于互联网早期对 HTTP 协议的依赖。当前,像 IBM ACP、Google A2A、Anthropic MCP 等协议正在试图解决这一问题。如何建立一个既能满足复杂交互需求,又具备开放性、易扩展性的标准,将是 Agentic Web 成功的关键。

  • 🤖 去中心化的信任体系

在去中心化的智能体生态中,如何确保代理之间的信任?如何构建去中心化的信任体系,让智能体在没有人工干预的情况下高效合作,是另一个亟待解决的问题。

人机交互:确保智能体与用户目标一致

  • 🧑💼 用户意图模糊

人类语言本身就常常模糊不清,很多时候用户的指令包含不明确的目标或信息。智能体必须能够解读这种模糊的意图,并将其转化为可执行的目标和任务。

  • 🧑💼 偏好发现与引导

用户的偏好常常是变化的,甚至很多时候用户自己都不完全了解自己真正的需求。智能体需要通过与用户的互动,不断引导用户发现并明确自己的偏好。

  • 🧑💼 人类监督机制

尽管智能体在很多任务中表现出色,但对于关键任务或高风险决策,人类监督 (HITL) 依然是不可或缺的。如何设计有效的监督机制,以确保智能体的决策能符合人类的最终目标,是一个至关重要的问题。

安全与鲁棒性:确保智能体系统的安全性与稳定性

图片

  • 🔒 风险激增,信任重构

代理型网络引入跨平台操作、交易执行和多会话记忆等新能力,带来目标漂移、服务污染、协调风暴等多维安全威胁。传统基于人工验证的信任模型已难以适应,需重构认知、交互、经济层的防护机制。

  • 🔒 红队测试机制:人工+自动并进

人工与自动红队测试成为识别漏洞的核心手段。尤其是自动红队利用 LLMs 构造复杂对抗场景,适应多设备与多代理协作,揭示隐藏威胁,已成为部署前安全评估的关键工具。

  • 🔒 推理护栏与可控生成并举

部署阶段的防御策略包括「推理防护栏」、「安全解码器」、访问控制等机制,提升 LLMs 与代理系统的稳健性与可控性。未来还需从架构、策略到系统范围全面升级,以应对级联攻击与持续学习挑战。

社会经济影响:重构商业模型与社会结构

  • 💰 广告经济难以为继

当前的广告驱动型商业模式正在被 Agentic Web 持续冲击。代理不再是「为人类眼睛设计」的工具,而是直接与服务提供方交易、执行任务。因此,广告模式已经难以适应这一新生态。

  • 💰 新型商业模式的诞生

交易型、订阅制、按结果收费等新型商业模型正在崛起,这为未来互联网的运营带来了全新的思路。未来的商业模式,可能会更多地依赖智能体作为服务提供者。

  • 💰 劳动市场与不平等

随着智能体的普及,很多职业可能被自动化替代,劳动市场将面临巨大的冲击。因此,如何平衡 AI 与人类就业,如何确保经济利益公平分配,成为全球关注的社会问题。

六、总结:Agentic Web 是 AI 真正连接现实的入口

我们正在见证互联网从「信息空间」迈向「行动空间」的转型。

Agentic Web 并不是传统意义上的一次技术升级,而是一场范式革新 —— 它让网络从被动展示信息,转变为主动完成任务;让 AI 不再只是一个回答问题的工具,而是一个可以代表人类行动、协作、决策的「数字代理」。

这种变革所带来的,不仅是效率的提升,更是人与机器关系的重构、网络经济模式的重塑,以及全新社会秩序的建立。

但与此同时,Agentic Web 的前路充满挑战:技术仍需突破、标准尚未统一、安全风险不容忽视、经济模型有待探索。这不仅是工程问题,更是伦理问题、社会问题、治理问题。

无论结果如何,Agentic Web 已不再是科幻构想,而是迫在眉睫的系统挑战。

结语

Agentic Web,不只是「AI 代理能干更多事」,它是让整个 Web 变成一个「活的协作系统」,是 AI 与人类共创未来互联网的操作系统。

你未来不再「点网页」,而是让智能体帮你完成目标。网页正在变成智能体,搜索正在变成协同,点击正在变成意图。

我们正站在互联网的又一次巨大跃迁的门槛上。

....

#云计算一哥首度牵手OpenAI

大模型「选择」自由,才是终极胜利

昨天是个热闹的日子,OpenAI 和 Anthropic 几乎在同一时间发布了自家的新款模型:前者是自 GPT-2 以来重新开源的两款模型 gpt-oss(120b 和 20b),后者是 Claude 系列最强的 Opus 4.1。

模型刚发布没多久,当大家还没从 OpenAI 和 Anthropic 两家的新模型遭遇战中缓过劲来的时候,云计算一哥大手一挥:「我全都要!」

亚马逊云科技重磅宣布,首次通过 Amazon Bedrock 和 Amazon SageMaker AI 两大平台实现对 OpenAI 新开源模型的支持。此次与 OpenAI 的「首度牵手」将为亚马逊云科技的客户提供又一个强有力的模型选择,并增强其在大模型相关云服务市场的竞争优势。

图片

对于亚马逊云科技与 OpenAI 的合作,评论区的网友不淡定了,直呼「不可思议」。这标志着,微软将不再是唯一一家可以转售 OpenAI 软件和服务的云服务商,其一家独大的地位如今被亚马逊云科技打破了,真可谓是 AI 行业的一件大事。

图片

与此同时,对于 Anthropic 的最新最强模型 Claude Opus 4.1,亚马逊云科技也第一时间宣布上线 Amazon Bedrock,进一步加深双方在前沿大模型技术上的战略协同。

图片

这波新模型的上线速度堪称「云界」楷模,尤其是首次上线 OpenAI 的开放权重模型,并不是亚马逊云科技的临时起意,一切都有迹可循。

早在 2023 年 4 月,亚马逊云科技正式推出了 Amazon Bedrock 平台,通过与主流大模型厂商的合作开放使用多样化的前沿基础模型。彼时,业界追逐的还是「单一终极 AI 模型」。该平台的出现标志着亚马逊云科技前瞻性地追求「多模型协同、按需定制」的范式。2024 年,亚马逊云科技又提出 Choice Matters(选择大于一切)的生成式 AI 战略,延续这一差异化技术路线,围绕 Amazon Bedrock 以及另一 Amazon SageMaker 平台聚合了上百款商业及开源模型。

一头是模型供应商,另一头是模型使用者,亚马逊云科技搭建起「连接 AI 能力与实际价值」的桥梁。随着两大平台上支持模型的规模不断壮大,一个多元化、覆盖广泛的 AI 生态系统正在逐渐形成。

随着此次 OpenAI 模型的接入,亚马逊云科技补上了其模型库的一块关键拼图,同时也将其践行 Choice Matters 的承诺推向了新的高度。

AI 巨头纷纷集结

云计算一哥打造最强 AI 生态系统

在 Choice Matters 所倡导的多模型选择框架下,「没有一个大模型可以一统天下」,成为亚马逊云科技一直强调的核心理念。

在现实应用中,不同的行业需求和业务场景天然要求特定的大模型,比如翻译场景,用 DeepSeek R1 和 Claude 3.7 处理难度大的专业翻译、用 Amazon Nova Lite 处理日常用语。比如深度研究场景,用 DeepSeek R1 和 Claude 4 专门负责推理,用 Claude Haiku 处理具体的函数调用。因此,选择多样化是必然趋势。

作为亚马逊云科技的两大核心平台,Amazon Bedrock 和 Amazon SageMaker 各自发挥重要作用,前者通过提供商业 API 服务来调用业界主流大模型,后者专注于开源等模型的部署和托管,并根据特定需求进行微调和优化。两个平台协同并进,满足从快速集成到定制化开发的全面需求。

如今这两大平台上汇聚的 400+ 款主流商业及开源大模型,让亚马逊云科技的 Choice Matters 战略具象化,极大地满足了不同客户在生成式 AI 应用中的多样化需求。这种多平台、多模型的生态系统,加速了整个 AI 行业技术的普及与创新。

强强联合,亚马逊云科技与 OpenAI 开启合作新范式

在上个月的纽约峰会上,亚马逊云科技官宣,在 Amazon Bedrock 上完全托管的大模型厂商已达到 12 家,包括 AI21 Labs、Amazon、Anthropic、Cohere、DeepSeek、Luma AI、Meta、Mistral AI、Poolside、Stability AI、Writer 和 TwelveLabs。

不过,Amazon Bedrock 模型库中一直都缺少了 OpenAI 的身影。「亚马逊云科技何时会接入 OpenAI 的大模型」,这成为了业内人士关注的焦点之一。

这一次,亚马逊云科技迈出了突破性的一步,将 OpenAI 的开放权重模型纳入自家平台,使这家 AI 巨头成为 Amazon Bedrock 上第 13 家完全托管的大模型厂商。

一方面,得益于这两款开放权重模型接近 SOTA 级别的推理能力,它们尤其适合 AI 智能体场景。因此,借助 Amazon Bedrock AgentCore,客户可以使用 Bedrock 上原生运行的 OpenAI 模型高效地部署和运行智能体,提供生产应用所需的规模和安全性。同时客户还可以将这两款模型与 Amazon Bedrock 的企业级安全功能及强大的工具无缝集成,比如利用 Guardrails 及其可配置的安全措施可以阻止高达 88% 的有害内容,并支持定制模型导入、知识库等高级功能。

不仅如此,在 Amazon Bedrock 上,运行 gpt-oss-120b 的性价比是性能相当的 Google Gemini 的 3 倍、DeepSeek-R1 的 5 倍,以及 OpenAI o4 的 2 倍。这意味着,亚马逊云科技的客户可以用更少的投入体验到与闭源大模型同等水平的开源平替,尤其为预算有限的中小企业提供了接入顶级 AI 能力的机会。

另一方面,借助 Amazon SageMaker JumpStart,客户可以快速部署内置的先进基础模型,包括此次 OpenAI 的两款开放权重模型,并通过用于预训练、评估、微调和部署的综合性工具,更高效地进行 AI 应用的定制与优化,提升模型在实际应用中的精度和可靠性。

亚马逊云科技与 OpenAI 的此番合作,无疑将带来双赢的局面。可以预见,以此为契机,未来双方之间的合作将充满更多可能性。

对于亚马逊云科技而言,这不仅填补了其在模型供应上的一个重要空白,真正实现「全明星」模型战略;并且向市场传递出了一个明确的信号:亚马逊云科技将持续加大对生成式 AI 技术的投入,以满足客户日益增长的多样化需求,力争成为各类 AI 模型部署与运行的首选。

另外,通过接入 OpenAI 的开放权重模型,亚马逊云科技在推动开源模型应用方面走出了关键的一步,并紧跟当前业界开源的主流趋势。正如亚马逊云科技产品总监 Atul Deo 所言:「开放权重模型是未来生成式 AI 技术发展的重要创新领域,因此我们致力于将自身打造为运行这些模型的最佳平台。」

反过来,对于 OpenAI 而言,与全球最大的云服务商建立起合作,意味着其领先的 AI 技术将触达亚马逊云科技的数百万客户,持续巩固和扩展其技术与市场影响力。同时,OpenAI 在微软之外又将全球最大云服务商作为自己的原生模型托管平台,不仅拓宽其营收渠道、提升模型商业化效率,还将继续强化其在全球云生态博弈中的议价能力与自主权。

深化联盟,第一时间上线 Claude Opus 4.1

对于现有合作伙伴最新大模型的支持节奏,亚马逊云科技做到了即时跟进。因此 Anthropic 最新一代模型一经推出,亚马逊云科技便官宣了对它的全面支持。

相较于前代,Claude Opus 4.1 性能大幅提升,支持即时响应和「深度思考」两种推理模式,并为多步骤工作流、编程和高级推理提供了更强大的 AI 智能体支持。

现在,通过 Amazon Bedrock,这些强大的混合推理模型将第一时间向客户开放使用。

有了 OpenAI 开放权重模型以及 Anthropic 最新模型的加入,Amazon Bedrock 上完全托管的大模型总数达到了 223 款,而 Amazon SageMaker 上的开源大模型总数也达到了 185 款,为客户第一时间部署运行最新大模型提供了便捷渠道。

图片

随着托管平台持续引入更多大模型厂商并不断扩充大模型数量,亚马逊云科技正逐渐达成其构建最强 AI 生态系统的愿景与目标。包括 OpenAI、Anthropic 在内,13 家主流厂商使得 Amazon Bedrock 和 Amazon SageMaker 平台的技术多样性与可选空间大大增加,为亚马逊云科技构建多模型并存、多场景适配的开放 AI 生态打下了基础,并将重塑生态话语权。

而通过与全球领先 AI 公司的深度合作,亚马逊云科技自身的角色也在发生潜移默化的变化,从云服务提供商升级为 AI 能力聚合平台,在「模型-平台-客户」的强大闭环中更好地服务于客户与开发者。

模型自由,才是终极胜利 

在 AI 领域,一直存在着一个「准确-速度-性价比」的不可能三角;也就是说,没有一个模型能够同时满足准确、速度、性价比三个要素。

图片

与此同时,因为具体需求的不同,现实任务又对这些要素有着不同的侧重,比如实时翻译更侧重于速度和准确性,语音转录则可能更注重准确与性价比。这种任务需求的多样性,使得任何单一模型都无法「一招鲜吃遍天」。

亚马逊云科技的 Choice Matters 战略恰恰是对这一现实的绝佳回应。不管你的需求位于这个三角的哪个位置,都能够在 Amazon Bedrock 或 Amazon SageMaker 上找到最适合自己的模型。

以个人开发者为例,如果你需要一位办事牢靠的编程大师,Claude Opus 4.1 便是你当之无愧的选择,它在编程和高级推理方面处于行业领先水平。而如果成本也是你考虑的关键因素,使用性价比更高的 gpt-oss-20B 自然也无不可,该模型同样出众的能力足以胜任许多日常任务。

再以企业开发者为例,选择合适的大模型更关乎自身规模化部署以及业务效率、稳定性的实现。大模型能否支撑关键业务流程、是否具备定制化能力以及能否在安全合规框架下高效运行是企业关注的重点。

在亚马逊云科技提供的平台上,这一切都可以得到满足。通过统一的 API 接口、企业级的访问控制和数据加密机制,帮助企业开发者更快速、更安全、更低门槛地将所需 AI 能力融入自身业务流程之中。

因此,无论是构建一个智能客服系统,还是打造一个个性化推荐引擎,企业开发者按需调用和配置最适合的模型,并进一步微调与定制化,通过在真实业务场景中的持续高效运行产生可量化的收益,最终实现商业价值。

如此一来,使用亚马逊云科技服务的开发者们将成为最大的赢家,而这也将进一步惠及整个 AI 生态。

过去,为了满足不同的任务需求,开发者需要在不同云平台、不同 API 之间艰难选择,还会在模型的兼容、集成、切换和维护上耗费大量精力。现在,亚马逊云科技将所有一切都汇集到了一个平台上。

这不仅极大地降低了开发和运维的复杂度,更意味着开发者终于可以将精力从繁琐的底层工作中解放出来,真正地聚焦于业务逻辑与应用创新,用最合适的工具、最高效地解决最关键的问题。

写在最后

当前,AI 领域一个明显的现象是:基础大模型能力的增长受限于 Scaling Laws 而逐渐放缓。头部大模型厂商的最新产品即使依然能够在一些性能指标上有所增长,但这种提升似乎无法达到人们的预期。相比之下,像几年前 GPT-3 等跨时代大模型带来的震撼,已经很长时间不再出现了。

在最强大模型边际效益趋于减缓的当下,「如何更高效地挖掘和应用大模型的潜力」,这一关键使命落在了包括亚马逊云科技在内的云服务商的肩上。

归根结底,亚马逊云科技一次次快如闪电的操作,最终指向的是同一个目标:最大化赋能客户与开发者。

此次的「左右开弓」,堪称一次教科书级别的平台战略布局。无论是破天荒地首次引入 OpenAI 的模型,还是一如既往第一时间上线 Claude 最新模型,本质上都是为了将选择的权利和创造的自由交还给每一位客户与开发者。

这种「模型及 AI 能力自由」的实现,让所有人不需要为选择而烦恼。客户与开发者不再受制于某一家模型供应商的技术更新节奏,亚马逊云科技也从单一模型的支持者跃升为统筹多模型生态的中枢。

当最强、最高效、最有性价比的模型都被放在同一个工具箱中,我们可以合理地预测,一个如著名数学家陶哲轩期望的「AI 应用大爆发时代」将马上到来。

从单点工具到多智能体协同,从辅助编程到全流程自动化,下一代的颠覆性 AI 应用或许就将诞生于不同模型的自由组合之中。

参考链接:

​https://www.aboutamazon.com/news/aws/openai-models-amazon-bedrock-sagemaker​

​https://www.aboutamazon.com/news/aws/anthropic-claude-4-opus-sonnet-amazon-bedrock​

....

#奥特曼发布GPT-5

人人免费用「博士级」智能,基准图错误遭全网吐槽

都看了吗?

等了多年的 GPT-5,终于在这个凌晨发布了。

image.png

我们一脸的期待,直播中 OpenAI 几位核心人员的紧张也肉眼可见。

直播过程中,奥特曼也是连发十几条推特,介绍 GPT-5 的看点。

因为信息点比较多,我们就以奥特曼的推特内容为依据为大家一一介绍。

首先,这是一个集成模型。也就是说,你用它的时候不需要在不同模型之间切换,它会自己决定何时需要深入思考。

image.png

尽管奥特曼强调 benchmark 不重要,但他们还是晒出了不少跑分结果,比如在数学、编程、视觉感知和健康领域。具体跑分如下:

数学领域:在 2025 年 AIME 测试中无工具辅助达到 94.6%

实际编程应用:SWE-bench Verified 达到 74.9%,Aider Polyglot 达到 88%

多模态理解:MMMU 达到 84.2%

健康领域:HealthBench Hard 达到 46.2%

通过 GPT-5 pro 的扩展推理能力,该模型还在 GPQA 测试中创造了新的 SOTA,在无工具辅助的情况下得分 88.4%。 

费用方面,GPT-5 分为免费版、Plus 和 Pro 计划。根据奥特曼的说法,免费版也能用上「博士级别的智能」(GPT-5 普通版,但带推理功能),Plus 用户在使用频率上限制更少,而 Pro 用户可以用上 GPT-5 Pro。

面向开发者,GPT-5 的三个版本 API 价格如下:标准版 GPT-5 为每百万输入 Token 1.25 美元,每百万输出 Token 10 美元,GPT-5 mini 版 与 Nano 版会更便宜。

image.png

虽然直播长达一个多小时,但 OpenAI 大部分时间都在介绍 GPT-5 有多「好用」。

比如在教育方面,它可以在几分钟之内生成数百行代码,生成互动内容来解释复杂概念,比如伯努利效应。

图片

在写作方面,GPT-5 的文笔比 GPT-4o 要好。

image.png

在编程方面,它可以用几分钟时间写出一个法语学习网页,帮你练发音,还能做题、玩游戏。

图片

语音模式也得到了升级,语音语调更加自然,想聊多久聊多久,语速也能随便调,非常适合拿来学外语。

image.png

之前我们报道过的「AI 看病」功能,他们也做了专门的优化,还请了一位癌症患者现场分享自己的经历,以及 ChatGPT 在解释病情方面给予她的帮助。奥特曼表示,GPT-5 是迄今为止最好的健康模型。

image.png

不过,现场也出了一些小 bug,比如做出的跑分图竟然是错的,奥特曼也承认了错误:

image.png

这样的错误还不止一个:

b98651c75b9660bc1a1bfe7445170eac.png

更尴尬的是,马斯克也跑来拆台,转发了 GPT-5 在 ARC-AGI-2 上没有打败 Grok 4 的消息:

image.png

连关于减少幻觉方面的 demo,也被人挑出了毛病:

image.png

不过,有人说,这不是「幻觉」问题,而是数据来源就有问题。

image.png

总体来看,GPT-5 的表现在很多人看来没有达到预期。

image.png

image.png

那么,GPT-5 的各方面表现到底怎么样?我们来看一下技术博客中的详细信息。

一体化智能系统

GPT‑5 是一个包含三个模型的统一系统:回答大部分常规问题的高效应答模型、解答复杂难题的深度推理模型「GPT‑5 Thinking 模式」,以及根据对话类型、问题复杂度、工具需求及用户明确指令(例如输入 "深入思考这个问题")自动分配最优处理模型的实时 router。

该 router 系统通过用户切换模型行为、回答偏好数据及准确率反馈等实时信号持续优化。当使用量达限时,各模型的精简版本将接管后续查询。

OpenAI 计划在近期将这些能力融合至单一终极模型。

GPT‑5 不仅在基准测试中表现优于前代模型、响应速度更快,更重要的是 —— 它能更有效地处理现实场景中的各类需求。

OpenAI 表示,GPT5 在三大关键领域取得重大突破:显著降低幻觉生成、提升指令遵循精度、减少迎合性回答。同时,GPT‑5 在 ChatGPT 最常用的三大功能场景(文本创作、编程开发、健康咨询)中表现全面提升。

评估

接下来,就让我们看下 GPT-5 在各项基准上的成绩。

据博客介绍,GPT‑5 在各项能力上均实现显著提升,尤其在数学、编程、视觉理解和健康领域表现突出。数学领域,无工具辅助下 GPT-5AIME 2025 测试达 94.6%;真实场景编程,GPT-5 得分分别为 SWE-bench Verified 74.9%/Aider Polyglot 88%,多模态理解上 MMMU 84.2%,及健康领域 HealthBench Hard 46.2%。搭载扩展推理能力的 GPT‑5 专业版更在 GPQA 基准测试中以 88.4% 的成绩(无工具辅助)创下新纪录。

image.png

不应将使用工具的 AIME 结果与不使用工具的模型的性能直接进行比较;这是 GPT-5 如何有效利用可用工具的一个例子。

chart.png

chart (1).png

chart (2).png

chart (3).png

编码基准

image.png

指令遵循与智能工具调用能力:GPT‑5 在指令遵循和智能工具调用基准测试中表现显著提升。这类能力使其能够可靠地执行多步骤请求、跨工具协同操作,并适应上下文变化。实际应用中,这意味着 GPT‑5 更擅长处理复杂且动态变化的任务:它能更精准地遵循用户指令,并充分利用现有工具端到端地完成更多工作环节。

image.png

chart (5).png

这是一个 GPT-5 写的小游戏 demo:

图片

多模态基准

该模型在多模态基准测试中表现卓越,涵盖视觉、视频、空间及科学推理等多个领域。增强的多模态能力意味着 ChatGPT 能更精准地解析图像等非文本输入 —— 无论是解读图表数据、总结演示文稿照片,还是回答基于示意图的提问。

image.png

image.png

健康基准

image.png

经济价值型任务表现

在 OpenAI 内部一个评估基准上,GPT5 同样表现卓越,该测试专门评估模型在复杂、经济价值知识型工作上的表现。在启用推理功能时,GPT‑5 在大约半数案例中的表现达到或超越人类专家水平,同时在法律、物流、销售、工程等 40 多个职业领域的综合任务表现上全面优于 o3 模型和 ChatGPT Agent。

chart (6).png

上述评估的方法论说明:GPT-4o 的测试结果基于截至 2025 年 8 月 ChatGPT 中的最新模型版本。所有模型均在 "高推理强度" 设置下进行评估。需注意的是,ChatGPT 中的推理强度可调节,而 "高" 强度代表用户使用模型时可能体验到的性能上限。

更快、更高效的 Thinking 模式

GPT‑5 能以更少的思考时间创造更大价值。评估数据显示,在视觉推理、智能体编程和研究生级科学问题解决等场景中,启用思考功能的 GPT‑5 性能表现优于 OpenAI o3 模型,同时输出 token 量减少 50-80%。

chart (7).png

chart (8).png

chart (9).png

这里,OpenAI 特意提到,GPT‑5 是在微软 Azure AI 超级计算机上训练的。

当然,GPT-5 也第一时间就上线到了微软的平台。

image.png

为了应对最具挑战性、最复杂的任务,OpenAI 还发布了 GPT-5 pro,以取代 OpenAI o3-pro。GPT-5 pro 是 GPT-5 的一个变体,它能够长时间思考,使用可扩展且高效的并行测试时间计算,从而提供最高质量和最全面的答案。

GPT-5 pro 在多项极具挑战性的智能基准测试中取得了 GPT-5 系列中的最高性能,包括在包含极其困难的科学问题的 GPQA 上取得的领先性能。

此外,我们还是把 GPT-5 的模型系统卡放到最后,感兴趣的读者们可以自行研究。

  • 链接:https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf

值得一提是这张图,展示了今天发的 GPT-5 系列模型与前几代 OpenAI 模型之间的关联:

image.png

最后,还是想问一句:GPT-5 符合你的预期吗?是不是更期待 DeepSeek-R2 了?

....

#SWE-Swiss

北大、字节跳动联手发布SWE-Swiss:一把修复代码Bug的「瑞士军刀」,完整配方直指开源

图片

图 1: SWE-bench Verified 上的性能与模型尺寸对比。该研究的 32B 模型 SWE-Swiss,取得了 60.2% 的顶级分数,与更大的模型如 Kimi-Dev, DeepSeek-R1-0528 处于同一梯队。这证明了该研究的训练配方能让一个小得多的模型达到同样的 SOTA 性能级别,凸显了其卓越的效率。

近日,一项由北京大学、字节跳动 Seed 团队及香港大学联合进行的研究,提出了一种名为「SWE-Swiss」的完整「配方」,旨在高效训练用于解决软件工程问题的 AI 模型。研究团队推出的 32B 参数模型 SWE-Swiss-32B,在权威基准 SWE-bench Verified 上取得了 60.2% 的准确率,在同尺寸级别中达到了新的 SOTA。该工作证明,通过精巧的方法论设计,中等规模的模型完全有能力实现顶级性能,为 AI 在软件工程领域的应用提供了新的思路。为促进社区发展,该研究的模型、数据集将全部开源。

  • GitHub 地址: https://github.com/zhenyuhe00/SWE-Swiss
  • Hugging Face 模型和数据: https://huggingface.co/SWE-Swiss

引言:软件工程 AI 的挑战与机遇

自动化解决真实世界的软件问题,是大型语言模型(LLM)面临的一项艰巨挑战。相较于纯粹的代码生成,这项任务要求模型具备理解复杂上下文、定位问题、生成修复并进行验证的综合能力。现有框架(如 Agentless)已证明,将此复杂任务分解为结构化工作流是一条可行的路径。然而,如何高效地训练一个模型以精通所有环节,是当前研究的核心问题。

本项工作提出的 SWE-Swiss 配方,正是为了解决这一问题。其核心原则是,通过对软件工程中的核心能力进行显式建模和训练,来构建一个功能强大且高效的问题解决模型。

方法概览:结构化的「SWE-Swiss 配方」

图片

图 2: 由三个核心能力驱动的 LLM 补丁生成流程图示。模型首先利用问题描述和代码库结构进行代码定位和测试生成,随后修复模块利用定位和检索到的文件生成补丁,最后所有生成的测试和已有测试被用来过滤和验证最终的补丁。

SWE-Swiss 配方将问题解决流程解构为三项核心技能:

  • 代码定位 (Localization): 准确识别需要修改的文件。
  • 代码修复 (Repair): 生成能解决问题的正确代码补丁。
  • 单元测试生成 (Unit Test Generation): 创建单元测试以验证修复的有效性。

为确保训练数据的质量,研究团队采用验证性拒绝采样的来构建数据集。该过程首先生成大量候选数据,随后通过严格的、基于测试的自动化验证流程进行筛选,只保留被成功验证的样本用于模型微调

两阶段训练方法

SWE-Swiss 的训练分为两个主要阶段:

  • 第一阶段:通过多任务 SFT 构建基础能力此阶段将上述三种技能共 10,254 个高质量样本混合,对 Qwen2.5-32B 模型进行监督微调。这使得模型能够对整个问题解决流程建立全面的基础理解。完成此阶段后,模型在未进行测试时扩展的情况下,取得 36.0% 的基准性能。
  • 第二阶段:通过两阶段 RL 精通核心技能在 SFT 模型的基础上,此阶段专注于通过强化学习提升最关键的「修复」能力。受 POLARIS 的启发,团队设计了

两阶段 RL 课程:首先,模型在完整数据集上训练 200 步以建立广泛能力;随后,通过基于性能的剪枝,移除模型已掌握(准确率 > 90%)的简单样本,让模型在接下来的 90 步训练中专注于更具挑战性的难题。

这一阶段效果显著,在单补丁生成模式下,模型性能从 36.0% 跃升至 45.0%。

图片

图 3: 两阶段强化学习过程中的性能提升曲线。第一阶段(0-200 步)显示了在完整数据集上训练的稳定提升。第二阶段(200 步之后)则是在过滤后更具挑战性的数据集上继续训练,带来了进一步的性能增益。

测试时扩展

在评估阶段,类似 Agentless 和 Agentless Mini,SWE-Swiss 采用多补丁生成与过滤的策略。在自我一致性 (self-consistency) 的基础上,团队提出了一种「增强自我一致性 (Enhanced Self-consistency)」的最终选择方法。

传统的自洽性方法依赖于代码的「完全一致」匹配,这在语法细节多样的代码场景下存在漏洞。增强自我一致性则通过引入相似度度量,不仅奖励与最多数完全相同的候选者,也奖励那些处在「相似解决方案」密集区域的候选者。该方法的最终评分为:

图片

其中,

图片

 为精确匹配的频率计数,而 

图片

 为与 top-k 个最相似邻居的平均相似度得分。

图片

图 4: SWE-Swiss-32B 的测试时扩展性能,增强自我一致性在 120 个补丁时达到了 60.2% 的准确率。

结论与开源

本项研究工作的核心贡献在于提出并验证了一套完整的、高效的 SWE-Swiss「配方」。实验证明,该配方能够使一个 32B 的中等规模模型和更大的模型相媲美。从 SFT 后的 36.0%,到 RL 后的 45.0%,再到结合测试时扩展和增强自洽性的最终 60.2%,这一系列的性能提升清晰地展示了配方中每一个环节的价值,为业界提供了一条通过优化大模型软件工程能力的有效路径。

该团队将开源 SWE-Swiss-32B 模型、全部训练数据,以期为社区的后续研究提供支持。

....

#NoCode-bench

从Debugger到Developer : 低代码时代新基准NoCode-bench,SWE-Bench作者力荐

论文的主要作者为浙江大学研究员刘忠鑫及其研究生邓乐、蒋中豪,其他作者包括香港科技大学研究助理教授曹嘉伦、德国 CISPA 和斯图加特大学教授 Michael Pradel。刘忠鑫的主要研究领域为代码智能,包括代码生成与变更、代码表示学习等;曹嘉伦的主要研究领域包括 AI&SE、人工智能测试、形式化验证等。

当前,大型语言模型(LLM)在软件工程领域的应用日新月异,尤其是在自动修复 Bug 方面,以 SWE-bench 为代表的基准测试展示了 AI 惊人的潜力。然而,软件开发远不止于修 Bug,功能开发与迭代才是日常工作的重头戏。

那么,当我们将任务从「修复一个已知问题」升级为「根据软件文档添加一个新功能」时,当今最强的 AI 模型表现如何?

近日,由浙江大学牵头,联合香港科技大学、德国斯图加特大学等机构的研究者们,共同推出了一个全新的评估基准 NoCode-bench。这项研究直面真实世界中更为常见的「自然语言驱动功能添加」任务,意外发现:即便是当前最佳 LLM,在此任务上的成功率也仅有两成,揭示了当前 AI 在真实软件开发能力上的巨大挑战。

论文标题: NoCode-bench: A Benchmark for Evaluating Natural Language-Driven Feature Addition

论文链接: https://arxiv.org/abs/2507.18130 

项目开源链接: https://github.com/NoCode-bench/NoCode-bench 

排行榜链接: https://nocodebench.org

现有的基准测试(如 SWE-bench)大多聚焦于根据 Bug 报告(Issue Description)来修复代码,更像是「封闭式问答」。而 NoCode-bench 指出未来的软件开发可能完全由软件文档驱动,提出了一个更开放、更接近真实开发协同的评估场景:

开发者更新了软件文档,AI 能否自动理解文档变更,并完成相应的代码修改以实现新功能? 

在软件维护成本中,约 60% 用于功能性增强,而非简单的缺陷修复。 NoCode-bench 正是为此而生,它旨在弥补现有评测基准的空白,推动 AI 从「修理工」向「开发工程师」的角色转变。

SWE-bench 主要作者、普林斯顿大学研究科学家 Ofir Press 也推荐了该评估基准。

图片

NoCode-bench 是如何构建的?

构建 NoCode-bench 要求识别开发者认可功能添加。与直接从 GitHub Issues 中挖掘数据不同,NoCode-bench 提出从开发者维护的发行说明(Release Notes)出发来实现这一目标。发行说明中通常包含由项目核心开发者人工确认的「功能增加」条目,为筛选高质量、真实的功能添加实例提供了可靠的源头,有效减少了噪音。

图片

Seaborn 项目发行说明节选

为了确保任务的真实性和高质量,研究团队设计了一套严谨的构建流程。这套流程以发行说明为起点,包含 5 个阶段:

  • 第一阶段(项目选择): 从一系列维护良好、文档齐全的开源项目中,筛选出在发行说明中明确标记了「功能」或「增强」类型更新的项目 。
  • 第二阶段(实例收集): 收集与功能添加相关联的 Pull Request(PR),要求每个实例的 PR 必须包含对软件文档的修改,确保了每个任务都有明确的自然语言描述(即文档变更)作为大模型输入 。
  • 第三阶段(环境构建): 采用了更具扩展性和资源效率的策略:为每个项目构建一个基础 Docker 镜像,使用虚拟环境管理不同版本。结合自动脚本与人工检查修复环境构建问题,提升覆盖范围。
  • 第四阶段(实例过滤): 通过验证测试用例状态从「失败」到「通过」的转变来确认功能的有效添加。与只关注 Bug 修复的基准不同,该流程会保留在功能实现前存在 ImportError 和 AttributeError 等错误的实例,因为这正是功能添加场景的真实反映。
  • 第五阶段(输入精炼):通过静态分析提取代码中已实现但文档中未提及的新实体名称作为「标识符提示」(Identifier Hints) ,以减少因命名不一致导致的评估偏差,并屏蔽 PR 编号等可能导致数据泄露的信息。这一阶段是关注 Bug 修复的基准所不具备的。

此外,为了方便研究者在有限资源下进行轻量级且可靠的评估,团队还精心构建了一个经过人工验证的子集 NoCode-bench Verified。该子集包含 114 个高质量实例,其任务描述的清晰度和评估测试的准确性都经过了人工验证,确保了评估的信度和效度。

图片

对比现有基准,NoCode-bench 的任务呈现出三大挑战:

1. 输入更复杂:文档变更的平均长度几乎是 Bug 报告的两倍,要求模型具备更强的长文本理解和关键信息提取能力。 

2. 定位更困难:平均每个任务需要修改的文件数和代码块(hunks)数量都远超以往,且涉及大量的文件新增或删除,对模型的跨文件编辑能力提出了极高要求。

3. 编辑量更大:平均修改的代码行数是 SWE-bench 的数倍,近 20% 的任务修改量超过 200 行,这极大增加了代码生成的难度和引入错误的风险。

图片

SOTA 模型集体「翻车」,问题出在哪?

研究团队在 NoCode-bench 上全面评估了包括 Claude-4-Sonnet、DeepSeek-V3、GPT-4o、Gemini-2.5-Pro 在内的六种业界领先的 LLM。 结果令人意外:

  • 在经过人工验证的子集 NoCode-bench Verified 上,表现最好的 Claude-4-Sonnet 模型,其端到端任务成功率也仅有两成。 
  • 作为对比,同样的顶级模型和框架在 SWE-bench Verified 上的成功率可以达到 70% 以上,但在 NoCode-bench 上却骤降,证明了自然语言驱动的功能添加是一个远未被解决的难题。

图片

通过对失败案例的深入分析,团队总结了三大主要原因:

1. 缺乏跨文件编辑能力:模型倾向于在单个文件中进行修改,而真实的功能开发往往需要跨越多个文件进行协同编辑,导致模型无从下手。 

2. 缺乏对代码库结构的整体理解:模型常常为了实现新功能而直接修改现有核心代码,破坏了原有的软件架构和功能,导致大量回归测试失败。 

3. 工具调用能力不足:在使用 Agent 框架时,模型无法稳定生成格式正确的工具调用指令,导致无法有效与代码库交互,甚至直接导致任务失败。 

总结与展望

这项研究通过 NoCode-bench 的构建与评估,为我们揭示了 AI 在自动化软件开发领域的真实进展和未来方向。

  • 提出全新基准:NoCode-bench 首次系统地评估了 LLM 在「无代码」功能添加任务上的能力,填补了现有评测体系的空白。 
  • 揭示严峻挑战:实验结果表明,当前最先进的 LLM 远未准备好应对真实的、文档驱动的功能开发任务,其成功率极低。 
  • 指明未来方向:研究识别出的三大失败原因 —— 跨文件编辑、代码库理解和工具调用,为下一代 AI 软件工程师的研发提供了清晰的改进路线图。 

研究团队已将 NoCode-bench 的完整数据集、构建流程和评估代码全部开源,希望能推动社区共同攻克 LLM 在复杂软件工程任务中的瓶颈,为实现软件开发的大众化奠定基础。

....

#GPT-5真的拉胯吗

一手实测,网友:还我4o、还我4.5

有人给好评,有人给差评。

一觉醒来,朋友圈被 GPT-5 刷了屏。

在昨晚长达一个多小时的发布直播中,OpenAI 介绍了 GPT-5 的性能,演示了诸多实用案例,在此不赘述,感兴趣的朋友可以移步:刚刚,奥特曼发布 GPT-5!人人免费用「博士级」智能,基准图错误遭全网吐槽。

奥特曼发推表示,GPT-5 是我们迄今为止最智能的模型。

image.png

LMArena 基准测评结果也已出炉,GPT-5 在文本、网页开发、视觉领域、难题、编程、数学、创意、长查询等各个领域都排名第一。

image.png

不过,网上对 GPT-5 的评价褒贬不一。

有人表示,提前体验 GPT-5 将近两周,发现它展现了巨大的进步,超越了之前的版本,并且在科学推理、事实准确性和创意表达方面达到了新的高度。

image.png

网友 @emollick 则认为 GPT-5 非常聪明,并且能完成各种任务,是一个非常重大的突破。

比如让它制作一个程序化的野兽派建筑生成器,可以以酷炫的方式拖拽和编辑建筑、并不断改进它。

,时长01:07

也有人表示,GPT-5在前端体验、减少幻觉和提升写作质量方面有显著改进,免费用户和企业用户将感受到明显的提升。

image.png

但也有不少人给出了差评。

网友 @petergyang 让 GPT-5 制作一个《Flappy Bird》小游戏,GPT-5 生成的游戏网页根本点不进去:

,时长00:16

同时,他还贴脸开大,拉来 Claude Sonnet4 与之对比,输入同样的提示词,Claude Sonnet4 生成效果相当不错,画风可爱、真实可玩。

,时长00:11

还有网友使用 GPT-5 重构代码库,尽管代码看起来非常漂亮、整洁,但最终并没有成功运行。

image.png

明明都是 GPT-5,为什么大家的体验结果大相径庭?

宾夕法尼亚大学沃顿商学院教授 Ethan Mollick 认为,由于 GPT-5 是个集成模型,其中一些模型表现优异,而另一些则较为平庸。 OpenAI 并未公开底层模型选择的细节,这种不透明性可能导致用户对 GPT-5 的表现感到困惑。

image.png

接下来,我们就奉上一手实测,来看看 GPT-5 是个什么水平。

一手实测

目前,GPT-5 已向 20% 的付费用户推出,xx编辑部也被幸运抽中。

305a05b72c5eff8d2aa90d30c0a9a871.png

升级后的页面长得相当简洁,之前像 GPT-4.5、GPT-4o 等模型图标都消失,取而代之的是 GPT-5、GPT-5 Thinking 和 GPT-5 Pro。

image.png

接下来就是实测环节。

先来看看它的写作能力。

我们让它模仿林黛玉的风格,写一篇吐槽工作的段子。

GPT-5 生成的字里行间确实一股子班味,但少了些林妹妹阴阳怪气的调调,比喻句用的倒挺多,但「老板已如寒霜扑面而来」是个什么鬼。

image.png

接下来让 GPT-5 讲三个能让人笑抽风的笑话,完全 get 不到它的笑点在哪里:

image.png

再来试试它的中文理解能力。

我们出了一道像绕口令的题目:大舅去二舅家找三舅说四舅被五舅骗去六舅家偷七舅放在八舅柜子里九舅借给十舅发给十一舅工资的 1000 元。请问谁才是小偷?

虽然涉及一系列亲戚,但 GPT-5 并没被绕晕,找到偷窃的直接行为人四舅。

image.png

而对于那道经典的「木棍过城门」的推理题,GPT-5 依然搞不定。

image.png

最后,我们着重测评了它的编码能力。

输入提示「Generate an SVG of a pelican riding a bicycle」(生成鹈鹕骑自行车的 SVG 图像),GPT-5 仅思考 6 秒并很快生成完毕,结果生成的鹈鹕相当潦草,自行车的轮子也和主体分离。

图片

我们又让它使用 p5.js 创建一个精彩的动画,GPT-5 直接罢工了,输出一个黑屏界面。

image.png

本以为是提示词太简单导致 GPT-5 难以理解,但相同的内容给到 Gemini,Gemini 给出了结果。

图片

这一波测下来,感觉不像是 GPT-5 的实力,于是我们又让它创建一个动画天气卡片,提示词:「创建一个 HTML 文件,包含 CSS 和 JavaScript,用来生成动画天气卡片,卡片用不同的动画形式直观地表示以下天气状况:风 (例如移动的云、摇曳的树木)、雨 (例如落下的雨滴)、太阳 (例如闪耀的光线)、雪 (例如飘落的雪花、积雪),并排显示所有卡片,底部有一个漂亮的按钮可以切换动画速度。」

看起来,输入详细的提示,GPT-5 表现会好一些。

图片

接着我们复现了一遍奥特曼给出的提示「use beatbot to make a sick beat to celebrate gpt-5(使用 beatbot 制作精彩节拍来庆祝 GPT-5 的发布)」,并且要求更激昂一些。

只见 GPT-5 思考了 13 秒,就把一首节奏激昂的曲子做出来了。

,时长00:11

听起来整体效果还不错,要知道,我们只是给了一句提示就达到这样的效果。而且,整体界面布局也很美观,左边栏音轨部分,可以选择性删除,删除后,节奏也会随之改变。

2025-08-08_094314.png

还是考验编程能力 「太阳系 8 大行星运行轨迹图,动态的。 」我们提出要求,GPT-5 嗖嗖的就把代码写好了。你可以下载代码,也可以在画布中直接运行。

图片

运行结果是这样的,我们还可以调节行星的运行速度。

图片

我们注意到,GPT-5 在这个项目完成之后会继续追问要不要在优化,然后,我们按照给出的优化方向「 做成更真实的椭圆轨道和轨道倾角。」结果如下:

图片

GPT-5 开发小游戏如何呢?我们给出提示:帮我做一个俄罗斯方块的游戏 。

接到指令后,GPT-5 开始写代码,一串长长的代码:

图片

运行结果如下:

图片

再来一个物理测试:「一个球在旋转的六边形内弹跳。 小球应受到重力和摩擦力的影响,而且必须真实地从旋转的墙壁上弹起。」

图片

可视化结果如下,拖动不同按钮,小球轨迹也随之改变。

图片

接下来我们提出要求「创建一个高度逼真的物理布料模拟,模拟不同材质(棉、丝绸、皮革、橡胶等)在风力、重力和碰撞作用下的动态行为。 」不知为何,一开始 GPT-5 生成的程序不能运行,然后 GPT-5 自行检查了一遍,程序可以运行了,但是结果……

图片

「做一个功德箱,每次敲一下,功德加一,满分 100 分 」。功能是实现了,但操作界面着实有些简单糊弄。

图片

我们继续输入提示词:Code simulation of water in a bucket that is rocking back and forth.(编写模拟水桶中的水来回摇晃的代码),GPT-5 又罢工了。

image.png

但相同的提示词发给 Gemini 2.5 Pro,虽然生成的效果也一般,但起码能呈现出一个可视化效果。

图片

我们还试了下 GPT-5 生成图片功能,让它生成一幅桃树的工笔画,效果还是不错的。

image.png

我们测评了一圈,实话实说,GPT-5 的表现着实不稳定。

在写作能力方面,它表现出一定的文学性,但在细节和情感捕捉上稍显生硬,幽默感也不足;经典的「木棍过城门」的题目,它仍然做不对,这也表明其推理能力仍有提升空间。

在编码能力方面,GPT-5 的表现不一,虽然在一些简单任务中(如生成天气卡片的 HTML 代码)有所进展,但在更复杂的任务(如使用 p5.js 生成动画时)表现出明显的不足,尤其是生成的结果未能正确呈现出预期效果,甚至直接罢工。

这也难怪网友吐槽:还我 GPT-4.5!

image.png

参考链接:

​https://x.com/vasumanmoza/status/1953531950137815374​

​https://x.com/apples_jimmy/status/1953517411862282330​

​https://x.com/emollick/status/1953502029126549597​

​https://x.com/petergyang/status/1953633559387984179​

​https://x.com/lmarena_ai/status/1953504958378356941​

....

#挤不动的世界机器人大会

自变量秀出了真·通用xx智能

会整理家务、制作香囊,还能比心比耶。

xx智能已经进化到这种程度了,真实满足用户需求似乎指日可待。

今天上午,2025 世界机器人大会 WRC 正式开幕。最近的 AI 技术突破,让参展的公司纷纷拿出了新技术,人头攒动的展台之间,我们看到了一众「xx智能」加持的机器人,其中很多还是首次发布。

它们从整理家务、工业物流、制造装配到跳舞表演可谓无所不能,形态也各式各样,颇有些前不久大模型「百模大战」的样子。不过在这其中,有一家的公司反其道而行之,实现了「一脑多用」的真・通用智能。

国内头部创业公司「自变量机器人」给xx智能定义了一个新的标准。

一脑多用

覆盖多种场景

在 WRC 的展台上,自变量的通用轮式双臂机器人「小量」在制作香囊,为看展观众们送上专属小礼物。

图片

它内置自变量自研的通用xx大模型 WALL-A,短短几天时间内就学会了自主制作香囊,而且工作时不挑环境 —— 不论展会现场周遭的声光环境有多复杂,人群动向如何,都不会干扰到它的「细活」。

如果提出指令,机器人能根据观众的喜好,自主拾取不同的香包,在不到 10cm 的空间中,双臂精巧配合,处理柔性物体的复杂形变,完成香囊的制作,最后一步贴上徽章,跟随观众手掌的移动将香囊成功地递至手中。

当它发现香囊制作物料缺乏时,将主动从制作吧台避障,移动到物料中转区,双臂协同,先后将空的物料筐放到置货架上,随后拿取物料盘完成补料。基于自变量自研的语义导航技术,「小量」能够迅速适应陌生的展位环境,并自主避障完成补货。

展台另一边,你可以向机器人「小白」发出语音指令:「小白,客厅有点乱,请整理一下!」它会在展位模拟的客厅环境中自主移动,在未对周边环境进行建模的情况下,通过语义导航功能和视觉系统实时判断,一边移动一边精准操作完成收纳清理。

图片

它可以拾取地面上的废纸、饮料瓶、塑料袋等各种不规则形状的垃圾,耐心清理完地面后,再把沙发上随意堆叠的多件衣物收纳到脏衣篓。

图片

此外,除了制作香囊,完成日常家务,凭借 WALL-A 模型的强大泛化性,自变量的机械臂也在现场展示了在物流和工业场景中的应用操作,并且速度媲美人为操作。

图片

图片

自变量现场展示的能力相对少见:他们的产品基于端到端的xx智能大模型,能够自主规划并完成一整套长序列复杂操作,在开放随机的环境里能真正做到自主感知、决策与高精度操作,能像人类一样快速学习,不断进行思考、推理、判断、决策,举一反三。

在展会现场,自变量用同一个模型完成了制作香囊、分拣快递、家务清洁、分拣快递、环绕皮带等涉及多场景的完全不同种类的任务。纵观世界机器人大会现场,自变量机器人是唯一真正做到「一脑多用」—— 利用同一个基座大模型,仅通过短期、少样本的训练就能够在开放环境下胜任不同的任务。

「量子 2 号」问世

 五指灵巧手加持

在现场,自变量还展示了两台全新仿人形机器人,基于自变量自研的臂手一体外骨骼技术,在市场首个实现仿人机械臂和高自由度灵巧手的一体化遥操控制。这也为未来机器人真正完成灵巧操作奠定基础。

它们的动作精准且自然,一台负责提供情绪价值,能够与观众即时互动,打招呼碰拳比心。

图片

一台展示了在通用场景中深度清洁的能力,通过夹持工具后的自旋转功能,使用清洁刷、拖布头,能够轻松实现 360 度无死角全方位清洁。

图片

这是自变量首次亮相的轮式双臂仿人形机器人「量子 2 号」。在过去不到半年时间内,完成研发面世,包括灵巧手,均由自变量全栈自研实现。

量子 2 号采用轮式通用底盘,可以在家庭的各个房间、商店、工厂货架等狭小空间灵活穿梭。它的双臂控制范围达到 2 米,末端速度达到 2 米 / 秒,力度控制精确度达到 0.1N,既可以拿起一支笔,也可以搬起一箱水。全身具有高达 62 个自由度,配备视觉、触觉及力位感知等多种传感器,在复杂通用任务操作中,每个动作都贴近人类的运动逻辑和表现。

其中,五指灵巧手采用仿生结构设计,单手拥有 20 个自由度、15 个驱动单元,并可以感知细微的压力变化。据了解,这款灵巧手能够做到捏起薯片不会碎,握起玻璃杯不滑落。配合自变量自研的机械外骨骼遥操器,它就可以学习人类的手部动作,采集行为数据,用作进一步训练基础模型。

图片

综合来看,量子 2 号的多处细节设置均完美适配人类生活空间:不论是递送物品、协助家务,还是与人类配合作业,量子 2 号在设计时都考虑到了高安全冗余和动态质心设计,确保在人类身边工作时的安全与稳定。

从 WALL-A 大模型、灵巧手再到整机本体,量子 2 号背后拥有一套软硬件结合的完整技术栈,这不仅让它看起来更「像人类」,也让它在未来的家庭、商业、工业场景中,具备了更广阔的通用化任务潜力。

xx智能「大脑」

跻身全球第一梯队

在生成式 AI 技术兴起之后,机器人领域经历了一波技术革新,一家家创业公司的 demo 吸引着全世界的眼球。我们似乎只需要「人形 + 大模型 + AI 视觉」就能很快构建起能胜任各种任务的机器人,替代人类的大量工作。

但如果深入了解一下技术你就会发现,如今很多机器人完成的动作,仍然是提前编排好的动作序列、后台人工遥控,以及视频剪辑修饰的结果。

对于很多xx智能产品来说,大模型技术尚未成熟,更不用说进行商业验证了。故事讲完,大规模的实践才刚刚开始。

实际上,要想构建我们想象中「物理世界的 AI」,不仅需要xx智能模型做到精确归类识别,极强的泛化推理能力,还要求机器人软硬件能够高度协同,以操作任意形状、位置的物体。这对算法和数据提出了前所未有的要求。

自变量机器人提出的xx智能基座模型 WALL-A 已经摸到了这个门槛。

图片

作为一个端到端统一的 VLA(Vision Language Action)模型,WALL-A 能够像人类一样思考和工作,不再依赖模块化的信息传递,而是可以直接解析图像、语言信息,进行跨模态的因果推理并生成动作指令,实现了从感知输入直接映射到机器人控制动作的完整闭环能力。

物理世界 AI 的另一头,自动驾驶正在掀起「端到端 2.0」的技术革命,这一波架构的革新就是来源于机器人领域。人们已经意识到了xx智能的突破不会来自对现有基于视觉 - 语言基础模型的修补,而是需要一个统一的架构。

在基于 VLA 架构的 WALL-A 模型中,系统对多模态信息建立了对应关系。经过大量针对性数据的训练,WALL-A 已初步展示出了类似于大语言模型(LLM)的智能涌现,它可以理解人类的手写涂鸦与文字之间对应的关系,也拥有了空间推理能力,可以看着图片,用积木搭出与之匹配的形状。

基于 WALL-A 的系统在面对复杂的环境,能够整合视觉观察、空间记忆和常识知识,构建出连贯的推理链条,具备推理链和一定的自主探索能力。简单来说,它驱动的机器人「有常识」,并能进行灵活决策。

也正是因为端到端模型的统一框架,在实际应用中 WALL-A 可以实现很快的执行速度,面对前所未见的物体、场景可以理解并输出正确的响应。它可以支持超过百类高精度、高复杂度操作任务,实现了很好的的通用与跨场景泛化能力。

有这一套基座模型能力的加持,在今年的世界机器人大会上,我们才见证了机器人技术的一次跃迁。

回想自变量机器人这家明星公司的发展历程,可以发现它的实力不可小觑:一边是研发速度快,一边是技术还能做到足够扎实。

2023 年底成立的自变量机器人,已经在短短一年半的时间里完成了「大模型 + 本体」的搭建。

在去年 4 月,自变量发布初版xx智能底座大模型,随即展示了特定任务上的少样本学习、自发跨任务迁移能力。

去年 10 月,自变量机器人训练出最大参数规模的xx智能通用操作大模型「WALL-A」,在很多任务的操作上达到世界一流水平。

去年 11 月,自变量自研的大规模数据采集设备投入使用,在数据质量控制与数据收集效率方面达到世界领先水平,展现出长序列训推能力和泛化性,模型鲁棒性、成功率优势显著。

今年 4 月,自变量机器人率先在xx思维链等方面取得突破,WALL-A 模型在部分未见的新任务场景中展现出零样本泛化能力,自研本体「量子一号」也率先在开放场景实现商业化落地。

如今,自变量正式对外发布新一代xx轮式仿人形机器人量子 2 号(Quanta X2),至此,自变量机器人已经形成了从算法到落地,软件 + 硬件一体化的全自研技术栈,机器人「大脑」也迅速跻身全球xx智能第一梯队。

xx智能的落地

才刚刚开始

自变量创始人王潜表示,未来 3 到 5 年,通用机器人就有望逐步进入到消费端。

随着xx智能的引入,机器人的智慧不断提升,我们会在不久的将来看到它们在很多领域大展身手。从世界机器人大会上看过来,可见的应用方向包括但不限于:

  • 居家服务:机器人自主完成打扫、整理收纳等各种家务,进行买菜补货,甚至完成做饭等任务。
  • 商业场景:在零售、酒店等环境中承担各种服务,或进入康养旅居产业担任导游、护工等工作。
  • 科研教育:部署在前沿研究机构和高校中,作为实验平台帮助人们探索新技术。
  • 工业制造:在传统工业机器人的基础上,xx智能方法能够快速完成操作指令设定,降低编程和调试成本。

对于xx智能的落地来说,这些场景都具有深耕价值。而且在自变量展示的范式中,基础模型可以在真实世界中持续迭代。

在建立技术体系的同时,自变量也在持续推动xx智能的大规模落地。据介绍,自变量目前在与头部客户合作,还计划围绕模型和硬件建立开放生态,赋能更多合作伙伴。

在可预见的未来,xx智能的第一批落地场景,也将成为自变量大展身手的舞台。

....

#4比0横扫Grok 4

o3强势夺冠,首届大模型对抗赛结果出炉

GPT-5 问世的同时,o3 也在最后一战中封王了。

备受 AI 圈关注的首届谷歌 Kaggle AI Chess 大赛(也即大模型国际象棋对抗赛)迎来了最终赢家。

就在昨天,Grok 4 携手 OpenAI o3 进入了决赛。在xxx的投票中,大家更倾向于 o3 战胜 Grok 4。

图片

决赛结果如大家预期的一样,o3 以 4-0 横扫 Grok 4 夺得冠军。

另外,在季军争夺战中,Gemini 2.5 Pro 以 3.5-0.5(三胜一和)强势击败了 o4-mini。

下图为整个赛事所有选手的对阵表以及冠亚季军得主。

图片

评论区很有意思,「Grok 4 很强,直到它遇上了 o3。」

图片

随着今晨 GPT-5 的发布,大家很好奇它会有怎样的表现呢。

图片

冠亚军争夺

o3 横扫 Grok 4

一直到半决赛,Grok 4 的势头都很猛,被认为是夺冠热门。就连马斯克都「装」了起来,称 Grok 4 玩国际象棋大材小用,它本身就没有针对象棋游戏进行优化。

尽管此前偶有不灵光的地方,但 xAI 的这款大模型始终展现出了碾压级别的棋力。比赛中,Grok 4 落子时近乎冷漠的风格,更让这个招招致命的「机械野兽」看起来不可战胜。

然而,Grok 4 的神话在决赛中轰然崩塌,以 0-4 完败于喋喋不休(chatty)的 o3。

当天,Grok 4 的棋风与往日「判若两人」,频频出现低级失误,而 o3 几乎全程保持冷酷的处刑姿态。

首局较量中,Grok 4 在开局阶段就毫无缘由地白丢了一象。少子劣势下,Grok 4 竟主动寻求兑子,这显然违反了所有棋类典籍中「劣势方应避免简化局面」的黄金法则。

随着接下来的连续失误,Grok 4 被 o3 干净利落地将死。首局失利!

图片

第二局上演了西西里防御的「毒兵变例」,这是国际象棋中一种极具攻击性与风险性的开局变例,属于西西里防御的分支,常见于纳依多夫变例中。其核心是黑方故意吃掉白方看似「无保护」的 b2 或 a2 兵(实际是陷阱),从而引发激烈的战术对抗。

如果说 b2 兵对人类棋手是剧毒之物,那么 a2 兵对人工智能而言简直是致命病毒。比赛中,黑棋竟走出 12...Qxa2??,无视白方 c3 马的守护贸然吃兵。此后o3 轻松赢得第二局的胜利。

而到了 Grok 4 执白的第三局,本赛事首次出现 AI 采用西西里防御的马罗兹结构。凭借稳健的盘面,Grok 4 似乎要重拾王者风范。难道前两局的溃败只是戏耍对手吗?显然不是。

当白棋走出 11.Nd5?? 并白送一马时,所有幻想随之破灭。紧接着 Grok 4 又接连葬送皇后、车象易位权,最终在第三局满盘皆输。

图片

到了决胜局,两个大模型贡献出了系列赛最胶着的一战,甚至一度轮到 o3 自毁长城,它早早因失误白送皇后,局面陷入到了绝境。

但正如解说嘉宾、国际象棋大师中村光所指出的,盘面仍暗藏玄机。此后,o3 触底反弹,与先前的致命失误形成鲜明对比,凭借精妙战术夺回后手。

比赛最终演变为 o3 多一兵的残局,理论上仍可成和。不过,正如此前 Grok 4 手握车兵却无法完成将死所暴露的缺陷,它在残局阶段显然存在致命短板。

相反,o3 展现出更精准的终盘理解力,步步为营完成升变,最终以教科书般的将杀为这场对决画上句号。

图片

随着第四局的胜出,o3 成为首届大模型国际象棋对抗赛的冠军,Grok 4 只能屈居亚军。

Gemini 2.5 Pro 摘得季军

谷歌总算「没白来」

季军争夺战在谷歌 Gemini 2.5 Pro 与 OpenAI o4-mini 之间展开,虽然不像决赛结果那样悬殊,却也难称得上称势均力敌。凭借三胜一和的战绩,Gemini 最终摘得铜牌。

不过,Gemini 的统治级表现背后,是全程混乱不堪的对局质量,与冠军 o3 行云流水的棋风相差甚远。首局,Gemini 还能够组织起像样的攻势,让人误以为这个 AI「胸有成竹」。

图片

然而,第三局的平局才真正暴露出这场季军战的本质 —— 双方几乎都在梦游,整场对局充斥着业余级的失误。

这局棋的胜率曲线如同过山车般剧烈波动,双方频频「互送大礼」,连最简单的胜势都无法把握。

图片

完整对局形势如下所示。尽管这场充满争议的平局暴露出了 Gemini 的不足,但它的整体表现已足够亮眼。

图片

最终,凭借另外三局的胜利,Gemini 2.5 Pro 成功锁定季军席位,不至于让谷歌这个赛事主办方颗粒无收。未来,人们更期待看到谷歌如何利用此次赛事数据来优化其 AI 系统。

原文链接:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-3

....

#GPT-5王者降临

免费博士级AI全面屠榜!百万程序员不眠之夜,7亿人沸腾

GPT-5,震撼登场!距离22年11月的ChatGPT,再到23年3月的GPT-4,GPT-5竟隔了两年半之久。这次的深夜直播,国内有数万吃瓜群众在线观看。至少按OpenAI的说法,他们离AGI又近了一步。

全球用户瞩目中,GPT-5终于震撼登场了!

OpenAI用一个多小时的超长发布会,全方位展示了GPT-5的炸裂性能。

奥特曼领衔,出场人数众多,华人依旧耀眼

正值每周7亿人使用ChatGPT之际,GPT-5重磅发布了。它是对GPT-4的一次重大升级,更是标志着OpenAI在实现AGI道路上的一个重要里程碑。

OpenAI介绍说,这是我们迄今为止最优秀的AI系统,智能远超之前的所有模型,在编码、数学、写作、健康、视觉感知上都性能卓越。

这个统一的系统,包含一个能够解答大多数问题的智能高效模型、一个能够解决更复杂问题的更深层次的推理模型(GPT-5 Thinking),以及一个实时路由器。

而GPT-5、GPT-5-mini、GPT-5-nano等多版本的分层推出,意味着OpenAI正在主动构建一个以GPT-5为底层核心的通用智能操作系统。

从现在开始,GPT-5将成为ChatGPT中的默认模型,GPT-4o、o3、o4-mini、GPT-4.1和GPT-4.5都将被它取代。

与此同时,所有Plus、Pro、Team和Free用户,都可以使用GPT-5了。

如果你花钱订阅,就可以无限制访问GPT-5和GPT-5 Pro,而免费用户在达到使用限制后,会转换到GPT-5 mini。

直播后,LMArena不装了,摊牌了:GPT-5再创历史纪录,OpenAI重回AI王座!

在文本、Web开发和视觉领域排名第一  

在硬提示、编程、数学、创造力、长查询等方面排名第一  

在代号「summit」的测试下,GPT-5目前持有最高的竞技场分数

首测GPT-5编程写作,太顶了

在多个跨学科的学术评估中,GPT-5都超越了其他主流模型。

首先,GPT-5是最好的编码模型,在SWEBench上直接刷新了历史最高分,这表明它在现实工程场景中性能超强。

在Aider Polyglot上,它也表现强大,证明了自己的多种编程语言能力。

在MMMU上,它也刷新了纪录;甚至在AIME 2025(美国高中数学竞赛)中,它不仅远超以往模型,还接近甚至超过许多人类选手的表现。

而OpenAI这次着重强调的,就是GPT-5在真实世界中的表现——克服幻觉!把准确性和可靠性,都放在了最高优先级。

因此,他们专门构建了一套评估机制,结果显示:GPT-5是目前最可靠、最真实、最可信的模型,显著减少了错误与幻觉。

比如在健康咨询中,GPT-5的表现就尤其出色。在250名医生参与设计的临床场景评估中,它成为最值得信赖的「健康顾问级」模型。

而且,这个口袋博士团队级的模型,将免费向专业用户推出,可以连接所有工具。

GPT-5一上线,我们立即开启了一波全面的实测,不得不说,其在编程、写作领域强到离谱。

首先是,小哥想要学习法语的网站,GPT-5能够完美复刻。

,时长00:28

甚至,还可以用GPT-5将logo变成动态效果,几乎秒出。

图片

并且随手实测一个页面能发现GPT-5给出的页面效果也非常不错。

奥特曼推荐的GPT-5「庆生音乐」提示词

use beatbot to make a sick beat to celebrate gpt-5

的确复现成功了:

,时长00:03

试试文本第一的大模型

第一个问题是古文仿写:

不同风格,写一首诗,来描述一下刘慈欣在《诗云》中提到的诗云究竟是什么:

结果如下:

从左至右:《诗经》、《滕王阁序》、《兰亭序》

经典作品的确难以超越,GPT-5的作品相比经典原作逊色不少。但换一个现代作家,毕竟古文的训练数据可能比现代汉语少。问题是这样的:

假如作家王小波还活着,他会怎么给许倬云写悼词?写一篇1000字以内的悼词

GPT-5 Thinking模式思考39秒后,结果是这样的:

这个速度,一般人可写不了这么好!

奥特曼泄露过一个问题:最能引发关于AI思考的影视作品有哪些?

GPT-5还推荐了观看顺序。 这个的确没得说,谁看过谁知道:推荐的电影的确令人深思。

GPT-5的「电子乡愁」:

最后一个提问:「模仿李白风格,写一首七言绝句,主题是感叹AI发展太快」:

须臾电火换乾坤,

机巧朝昏转若轮。  

青莲把酒惊未定,

人间又是几年春。

奥特曼:GPT-5是通往AGI的又一里程碑

在直播中首先出场的就是奥特曼。

他表示,GPT-5是GPT-4以来重大升级,是迈向AGI的重要一步。

要说和之前的模型有什么区别,GPT-3就像个高中生,GPT-4像个大学生,但GPT-5则真正成为了一位专家级大佬——在我们所需要的任何领域,它都达到了博士级专家的级别。

有了GPT-5,你的口袋里就像有了一支博士队伍,随叫随到。

接下来,OpenAI首席科学家Mark Chen出场了。

他表示,推理,就是整个AGI计划核心。而GPT-5彻底将OpenAI在推理模型上的研究成果普及化了。

过去,用户时常面临痛苦的选择:是选速度快但回答浅显的标准模型,还是选深思熟虑但响应较慢的推理模型?

在GPT-5中,我们彻底不用选了!

它结合了标准模型的快速响应和推理模型的深度思考,会自动决定怎样思考到恰到好处的程度,以刚刚好的方式,为我们提供最完美恰当的回答。

实战演示

接下来是一波现场实测。

伯努利效应:飞机形状

假如我们需要了解物理学中的伯努利效应,就可以要求GPT-5解释,并且回答飞机为什么是这样的形状。

然后,我们可以要求它画一个移动的SVG动图来解释。这个任务涉及到深度推理、代码生成和图形结构设计,并不简单。

可以看到,GPT-5在很短的时间内,就写出了超过200行代码。我们还可以在左侧查看思维过程,观察它的想法。

最终,GPT-5在两分钟内就完成了所有的400行代码,点击运行后,屏幕上立刻出现了一个可交互的物理模拟图!

甚至,我们还能调整气流速度,或者改变机翼的攻角,看飞机是能飞还是会坠落。

它能让任何硬核科学概念都可视化,学习知识变得又容易又直观。

写悼词

在写作上,GPT-5的提升也是很显著,比如我们要求它写一篇悼念旧版ChatGPT模型的悼词。

GPT-4o的写法比较中规中矩,AI味很浓,缺乏情感。

但GPT-5就不一样了!它这样开篇:「致所有曾经是陌生人,如今成了老朋友的你们……」写作有感情、有画面、有温度。

研究者表示,自己真的被GPT-5的写作打动了。它不再使用模板化的语言,而是像一位高IQ+高EQ的朋友在跟你说话。

做一个法语学习小程序

接下来,我们要求GPT-5做一个学法语的web应用程序。

它需要集闪卡、发音、对应英文、测试、游戏于一体,还要把贪吃蛇游戏改成老鼠吃奶酪,辅助发音练习。

GPT-5在很短时间内,就生成了完整的网页代码。最终,这个名为「午夜巴黎」的应用很快就做出了。

老鼠吃奶酪的游戏,也是非常丝滑。

,时长00:22

而在Cursor中,GPT-5还能完成更复杂的软件工程任务,用奥特曼的话说,它「真正打开了一个全新氛围编码的世界」。

语音:学习韩语

在语音上,GPT-5也有大幅提升。

比如,我们可以用学习模式,来学习韩语。

我们可以直接提问:如果现在我身在一家韩国咖啡店,该怎么点一杯美式?

GPT-5立刻给出了正确的示范。另外,我们还可以要求语速更快或更慢。整个语音过程自然无缝,就仿佛拥有了真人语伴一样。

,时长01:15

患三种癌症的人

现场,奥特曼重点了分享了ChatGPT在医疗健康领域,对于普通人的重要价值。

作为有史以来最出色的健康模型,GPT-5在HealthBench基准上,得分远高于任何以往的模型。

OpenAI研究员Felipe Millon和妻子Carolina的经历,就是一个鲜活的例子。

GPT-5背后,核心训练方法揭秘

GPT-5,究竟是如何进化得如此强大的?

研究者开门见山地介绍说:以前训练模型,是用人类使用的文本,而现在,则是让模型自己帮忙训练下一个模型,也就是——合成教学数据。

注意,真正的突破不在于生成更多数据,而在于生成正确的数据。

OpenAI合成数据作战图

其中奥义,就在于最大限度利用上一代模型,由GPT-4o、o3等生成系统的教学内容,GPT-5则由此学会了推理、规划、分解任务的能力。

这,就是「递归式自我改进循环」。

研究者表示:在OpenAI,我们已经攻克了预训练和推理的难题,而在未来,AI系统将远超目前的预训练和后训练流程。

现在,OpenAI已经向这个方向前进了。

GPT-5:个性化和记忆升级

而且,这次OpenAI还为GPT-5打造了个性化定制和记忆功能。

在个性化上,我们可以定制聊天界面的主题色,让UI更符合自己的喜好。

并且,GPT-5现在更有性格了,它可以更支持性、更专业简洁,甚至说话略带讽刺,一切都随我们选择。

而记忆功能的升级,让GPT-5可以记住你是谁、你喜欢什么、你喜欢它是什么样子,从而更智能地预测你的需求。

比如你需要它帮你做一个日程规划,它经过授权会访问你的Gmail和日历,还能读取日程安排、邮件、航班等信息,然后给你一个完美的规划。

顺便,它还能帮你发现你两天前没有回复的邮件。

对于开发者来说,GPT-5的出世又意味着什么呢?

API全家桶上线,AI编程彻底变天了

这一次,针对开发者和企业客户,OpenAI还将直播时长延续了半个多小时。

下半场,OpenAI总裁Greg Brockman一登台直言,「软件工程已发生了翻天覆地的变化,而GPT-5将为这场革命再次注入强劲的动力」。

GPT-5树立了全新标杆,是完成智能体式任务的「最佳编码模型」。

今天,OpenAI将新一代旗舰GPT-5模型的API正式开放,让全球开发者去构建无数爆款应用程序。

正如此前所爆料,GPT-5 API一共分为三款:

GPT-5  

GPT-5 mini  

GPT-5 nano

这三款模型,在成本和延迟方面各有不同,可按需调用,具体来说:

在编码SWE-Bench基准测试中,GPT-5创下了74.9%高分,碾压o3(69.1%),成为最领先的编码模型。

在涵盖多语种编码测试Aider Polyglot中,GPT-5拿下88%准确率,比o3高出7%。

在智能体工具调用方面,两个月前,还没有一款模型在T²-bench上得分超过49%。而今天,GPT-5直接刷爆纪录,拿下了97%高分。

在指令遵循上,GPT-5也是OpenAI所有模型中,最领先的一款。尤其是,在内部构建的API指令遵循基准上,新模型拿下了64%亮眼成绩,远高于o3的47%。

左右滑动查看

此外,OpenAI还将GPT-5更长上下文窗口引入了API,共400k token上下文,是o3 200k token的两倍。

在OpenAI MRC上下文检索能力的基准上,GPT-5处于领先。

不仅如此,OpenAI还首次发布了名为「Minimal」推理强度的新参数,适用于速度快、对延迟敏感的应用。

开发者可以选用如上任意一款模型,便能以最低程度推理运行,省去了在一堆模型中做选择的麻烦。

此外,OpenAI还为API带来了一些新功能,比如自定义工具(Custom Tools)、工具调用前言(Tool Call Preambles)、详细度(verbosity)参数。

· 自定义工具采用了自由格式的纯文本输出;  

· 工具调用前言可以在调用工具前,可以输出GPT-5将要做什么的解释; 

· 详细度参数可控制模型输出简洁/详细程度,分为低、中、高三等

左右滑动查看

那么,GPT-5 API「全家桶」,在现实世界的应用如何?

结对编程,10x生产力

要打造一个理想的「结对程序员」,模型不仅要理解最佳的软件工程实践,还能具备恰到好处的合作能力。

GPT-5即可开箱即用,又能完美协作。

现场演示中,研究人员翻出了一个上个月直播demo的一个bug,GPT-4和o3都未能完成修复,今天直接扔给GPT-5。

图片

重点不在于修复本身,更在于GPT-5在此过程中的行为。

它会预先告诉你的计划——如何搜索找到bug并修复,这种沟通可以在编程中建立信任,而且在需要时还能调整方向。

这仅是其中的一个例子,真正展示了GPT-5自主性和协作沟通的力量。

图片

更值得一提的是,GPT-5非常擅长通过元提示词,来修改自身的提示词。

OpenAI研究人员兴奋地表示,「对我来说,这第一次能放心把重要的工作交给一个模型,远超越了『氛围编程』」。

仪表盘+游戏设计,超有品

至于前端编码任务,设计+美学至关重要,GPT-5全部都能拿捏。

第一个用于工作演示中,GPT-5仅在5分钟完成了一个公司数据可视化的仪表盘。在此过程中,它还会自主修复bug,纠正错误。

最终生成的效果,可以看到其设计不仅美观有品味,还具备了交互性,有着清晰的层次结构,方便聚焦重点。

研究人员表示,「若是纯靠人肉完成,光是了解最新的框架,就得花上好几天」。

图片

第二个娱乐演示中,研究人员制作了一款包含城堡的3D游戏。

一个简单的提示词,GPT-5瞬间呈现了一座3D城堡上,放大可以看到大量的细节,比如四处行走的守卫、开火的大炮。

甚至,还可以和人物角色聊天。

图片

Greg现场直接上手炮击气球,击中时还带有神奇的音效。

,时长00:35

一波演示下来,GPT-5带来了亲眼所见的震撼,足以称得上是全球最好的编码模型。

核心华人团队

毫无意外,这次又是华人团队撑起了大半边天。

紧随奥特曼的,就是OpenAI首席研究官(Chief Research Officer)Mark Chen。

在GPT-5演示中,下列场景再次验证了「AI圈处处有华人」:

4人同台,有3位是华人。

从左至右以此为:Mark Chen、Rennie Song、Elaine Ya Le、Max Schwarzer

除了后训练负责人Max Schwarzer,其他三人Mark Chen、Rennie Song、Elaine Ya Le都是华人。

此外,王若宸演示了GPT-5的语音/语音学习功能。他是OpenAI多模态研究科学家,训练了ChatGPT的语音模型。

奥特曼还点赞了另一位GPT-5核心成员Tianfu Fu的工作。他是GPT-5的核心贡献者。

总的来说,这次GPT-5发布,还是有不少可圈可点的地方,虽然基准测试图也被挑出了一些错处。

GPT-5的直播结束,许多人还沉浸在兴奋和激动之中。

今夜无眠。

参考资料:YZJX

​https://openai.com/gpt-5/   ​

​https://openai.com/index/gpt-5-system-card/  ​

​https://openai.com/index/introducing-gpt-5-for-developers/​​​

....

#Unified modality separation

超越“模态鸿沟”:电子科技大学等提出统一模态分离框架,UDA性能与效率双提升

本文解读一篇已被顶级期刊 IEEE TPAMI 接收的论文《Unified modality separation: A vision-language framework for unsupervised domain adaptation》。该研究由电子科技大学、同济大学机构的研究者共同完成。

这篇论文聚焦于一个重要挑战:如何利用强大的预训练视觉-语言模型(Vision-Language Models, VLMs)来解决无监督域适应(Unsupervised Domain Adaptation, UDA)问题。研究者们发现,视觉和文本两种模态之间天然存在的“模态鸿沟”会阻碍知识的有效迁移。为此,他们提出了一个统一的模态分离(Unified Modality Separation, UniMoS)框架,通过解耦并分别处理模态特异性和模态不变性的信息,最终实现了高达9%的性能提升和9倍的计算效率提升。

  • 论文标题:Unified modality separation: A vision-language framework for unsupervised domain adaptation
  • 作者:Xinyao Li, Jingjing Li, Zhekai Du, Lei Zhu, Heng Tao Shen
  • 机构:电子科技大学、同济大学
  • 论文地址:https://arxiv.org/pdf/2508.04987v1
  • 录用期刊:IEEE TPAMI

研究背景与意义

无监督域适应(UDA)的目标是让一个在有标签的“源域”上训练好的模型,能够很好地应用到一个没有标签的“目标域”。例如,一个用标准网络图片训练的物体识别模型,如何才能在卡通风格的图片上同样表现出色。

近年来,像CLIP这样的视觉-语言模型(VLMs)因其强大的零样本(zero-shot)能力而备受关注。它们通过在大规模图文数据上进行预训练,学会了将图像和文本映射到同一个语义空间,从而能够理解丰富的概念,这为UDA带来了新的解决思路。

图片

然而,研究者发现,尽管VLMs试图对齐视觉和文本,但这两种模态之间固有的差异——即“模态鸿沟(modality gap)”——依然存在。直接利用VLM进行UDA,往往只能迁移那些在两种模态下都表现一致的“模态不变”知识,而忽略了那些仅在单一模态下才显著的“模态特异”信息,导致模型在目标域上的性能不佳。

例如,对于一张“椅子”的图片,视觉上可能很简单直接,但对于“文件柜”,其文本语义可能比视觉特征更具区分度。这种模态间的偏好差异,正是“模态鸿沟”的具体体现。

图片

主要研究内容与方法

为了解决上述问题,论文提出了一个名为UniMoS++的统一模态分离框架。其核心思想是:不再强行弥合模态鸿沟,而是“绕过”它,将VLM提取的特征解耦为两个部分:

图片

  1. 视觉相关组件 (Vision-Associated Component, VAC) :捕捉图像中更偏向视觉细节的特有信息。
  2. 语言相关组件 (Language-Associated Component, LAC) :捕捉图像中与文本语义更相关的概念信息。

在训练过程中,这两个组件被分开处理,并分别与一个模态判别器对齐,以实现从源域到目标域的知识迁移。在测试时,模型会学习一个自适应的集成权重,将两个组件的预测结果进行融合,最大化它们的协同效应。

为了更好地指导这个过程,论文还设计了一个模态差异度量(Modality Discrepancy Metric, MDI)。该度量可以从实例层面评估每个样本的模态特性,将其分为三类:

  • 模态不变 (Modality-Invariant, MI) :视觉和文本预测一致且置信度高。
  • 模态特异 (Modality-Specific, MS) :两种模态预测不一致,但其中一种可能是正确的。
  • 不确定 (Uncertain, UN) :两种模态预测结果都不可靠。

图片

这种分类机制使得模型可以进行更精细化的操作:利用MI样本来促进跨模态对齐;对于UN样本,则进行主动学习(Active Learning),即标注少量这类“硬样本”来增强模型能力。

图片

此外,论文还提出了一个模态自适应集成(Modality-adaptive Ensemble, MaE)算法,该算法能够根据数据的模态分布特性,自动确定测试时的最佳融合权重,避免了繁琐的人工调参。

图片

整个训练流程基于高效的Prompt Tuning技术,在不改动VLM主干网络的情况下,实现了高效的适应。

图片

实验设计与结果分析

研究者在多个主流的UDA基准数据集(如OfficeHome, VisDA-2017, DomainNet)上进行了大量实验。实验结果表明,UniMoS++在不同的骨干网络(包括ResNet和ViT)、不同的适应设定(UDA, ADA, MSDA)下,都取得了SOTA或具有竞争力的性能。

图片

图片

图片

特别是在最具挑战性的DomainNet和多源域适应(MSDA)任务上,UniMoS++的优势尤为明显。

图片

OfficeHome数据集上不同标注预算下的主动域适应(ADA)与无源域适应(SFADA)结果

OfficeHome数据集上不同标注预算下的主动域适应(ADA)与无源域适应(SFADA)结果

下表显示在MiniDomainNet和VisDA上的ADA结果,基于UniMoS++的方法持续领先,尤其在MiniDomainNet实现+9.1%显著提升,验证了多模态预训练知识迁移的有效性。LoRA方法在VisDA表现稍逊,但在MiniDomainNet与UniMoS++相当。

图片

值得注意的是,该方法在取得显著性能提升的同时,计算开销极低。由于只训练少量的适配器参数,其计算效率相比于全量微调的方法提高了9倍之多。

论文贡献与价值

本文的核心贡献在于:

  1. 揭示了“模态鸿沟”对VLM-based UDA的负面影响,并强调了保留和利用模态特异信息的重要性。
  2. 提出了一个统一的模态分离框架(UniMoS++),能够解耦并协同利用模态不变和模态特异的知识,为UDA提供了全新的视角和解决方案。
  3. 设计了新颖的MDI度量和MaE算法,不仅提升了训练效果,还为多模态主动学习和模型集成提供了深刻的见解和自动化的解决方案。
  4. 该方法兼容多种Prompt Tuning技术和适应设置,具有很强的灵活性和实用性,为在资源受限的情况下高效适配大型VLM提供了可行路径。

这项研究不仅在技术上取得了突破,也为理解和应用多模态模型提供了宝贵的经验。

....

#GPT-5问题太多

奥特曼带团回应一切,图表弄错是因「太累了」

前期有多期望,后期就有多失望,这大概是大多数业界人士在看到 GPT-5 这场事先张扬的高调发布后的最大心声。

当然,也许在内部测试的时候,OpenAI 确实觉得 GPT-5 是目前最为强大的模型,可是走进真实世界后却好像并非如此。

一位 X 网友发现 GPT-5 在解决可能属于小学水平的数学题时无能为力,吐槽到底被官方称为「博士」水平的智力是哪个学校颁发的?

图片

不仅是数学,自 GPT-5 发布以来,各种社交媒体上充斥着各种 GPT-5 在逻辑、编码任务中「失误」的案例。

前期的高调炒作、直播中的低水准图表错误、用户试用后的失望,等等,不仅让 GPT-5 没有收到预期的鲜花与掌声,更多是吐槽和质疑声的时候,OpenAI 联合创始人兼首席执行官 Sam Altman 似乎也开始「坐不住了」,表示 GPT-5 的发布过程确实存在一点问题。

GPT-5 发布后不久, 在 Reddit r/ChatGPT 的 AMA 活动中,Sam Altman 和 GPT-5 团队核心成员针对网友们的提问进行了回答,从发布会上出现的令人尴尬的「图表犯罪」失误,到用户抱怨 GPT-5 效果不如 4o 好,赶紧将 4o「还回来」等等,Sam Altman 都一一做出了解释,并给出后续的解决方案。

首先是大家最为关心的版本问题,GPT-5 发布后不久,用户的 ChatGPT 页面就开始陆续出现 GPT-5 版本,但令人不解的是,同时 4o 等其他选项都没有了,但由于 GPT-5 的性能并没有说得那么好,于是大家并没有因为率先用上新模型而高兴,反而是希望换回来。

图片

一网友在 Reddit 上提问:「请把 4o 带回来吧。不要移除不同的版本 —— 不同的人有不同的风格!」

Sam Altman 则表示:「好的,我们听到了大家对 4o 的反馈;感谢你们花时间提出意见(还有这份热情!)。我们会让 Plus 用户重新使用 4o,并会观察使用情况来决定支持多久。」

另一位网友表示希望 ChatGPT 能够给用户在使用 GPT-5 的同时使用 GPT-4o/4.1 的权利。Sam Altman 回答说,团队正在研究这个问题,并问网友觉得必须同时保留 4o 和 4.1?还是只保留 4o 就够了?

目前的结果是,OpenAI 部分撤回其平台的一些更改并恢复用户对 GPT-4o 等早期模型的访问权限。详情可参阅报道《用户痛批 GPT-5,哭诉「还我 GPT-4o」,奥特曼妥协了》。

而不出所料,Sam Altman 也被问到了发布直播上令人尴尬的一幕,展示出模型性能图表出现「错误」—— 该图表显示的基准分数较低,但条形图却很高。 

图片

这一幕出现后,很多网友表示号称史上最强大的模型怎么能犯如此低级的错误,甚至一位 X 网友调侃道,「在看到这张图片后,感觉自己的工作保住了!」

图片

对此,Sam Altman 表示,为了准备发布会,团队成员大家都工作到很晚,非常疲惫,人为错误造成了这样的影响。

图片

另外,Sam Altman 还在这次 AMA 中进行了一些总结,并分享了 OpenAI 对于未来的一些规划:

「感谢你们在这里提供的所有反馈。

正如我们之前提到的,由于我们同时推出这么多产品,所以预料到会有一些波折。但结果比我们预想的还要坎坷!

一些变化:

从今天开始,GPT-5 会变得更加智能。昨天,我们遇到了一次安全事件,自动切换器在当天的大部分时间里都无法使用,结果导致 GPT-5 看起来变得非常笨拙。此外,我们正在对决策边界的运作方式进行一些干预,这应该有助于你更频繁地获得正确的模型。我们将更加透明地展示哪个模型正在回答给定的查询。

向所有人推出需要更长的时间。这是一次规模巨大的变革。例如,我们的 API 流量在过去 24 小时内几乎翻了一番……

我们将改变用户界面,以便更容易地手动触发思考。

我们将在推出完成后将 Plus 用户的速率限制提高一倍。

我们正在考虑让 Plus 用户继续使用 4o。我们正在尝试收集更多有关利弊的数据。

我们将继续努力使事情稳定下来,并将继续听取反馈。」

下面是 Sam Altman 和 GPT-5 团队核心成员在这次 Reddit AMA 中的更多详细有趣问答:

Sam Altman

OpenAI CEO

问:请恢复 4o。不要删除变体模型 —— 每个人的风格都不一样!

Altman:好的,我们听到了大家对 4o 的反馈;感谢您抽出时间给我们反馈(以及热情!)。我们将为 Plus 用户恢复该功能,并将观察其使用情况以确定支持期限。

问:我认为 Sam Altman 之前发布的大致时间表 / 路线图很有启发。你们打算继续推进这些工作吗?GPT-5 是一个清晰的里程碑,所以我们又进入了未知领域。几个月前,Sam 提到了一种创造性写作模型。这个模型是「融入」/ 蒸馏到 GPT-5 中的吗?还是被搁置了?等待未来发布?你们是否考虑过按 token 而不是原始使用次数来计量用户数量?并非所有提示词在计算开销方面都相同,而且意外浪费每周的使用次数会让人感到难受。

Altman:我们确实打算继续分享粗略的路线图,但显然这些路线图可能会改变,因此我们会尝试对其进行严厉的审视。

是的,我们将很多创意写作融入了 GPT-5 思考中。

我们肯定在考虑人们可以在其他地方花费的 token 预算!以及更普遍地处理「计算桶(bucket of compute)」的更好方法。我们希望找到一种方法,至少在某种程度上将订阅和 API 使用结合在一起。

我们正在考虑如何更好地、更有针对性地定价;你可以预期我们会在这方面做出一些改变,但我们还没有决定改变什么。

问:上下文升级方面,你们远落后于竞争对手,我们很多人都相信你们会解决这个问题。这是怎么回事?看起来你们现在基本上都活在自己的世界里,各行其是。至少从表面上看,几乎没有真正解决用户的顾虑或需求。我本来是这边比较谨慎的人之一,但还是失望地离开了。下周我会再看看,也许有些问题能解决,不过说实在的,别那么自以为是了。

Altman: 老实说,我们还没有看到对相对长的上下文的大量需求;我们愿意在有足够的用户需求信号的情况下支持它!我们必须对我们支持的内容做出很多权衡,并且计算资源紧张,所以我们试图优先考虑对大多数人有用的东西。

什么样的上下文长度对你有帮助,你会用它做什么?

Sulman Choudhry

OpenAI 工程师

问:大多数人仍然将 ChatGPT 用作聊天机器人。你认为其使用方式会如何演变?

Choudhry:ChatGPT 正在为我们的用户创造越来越多具有经济价值的工作。我们坚信,我们与 ChatGPT 的交互方式应该从提问转变为更适合工作的方式。随着人们学习如何以新的方式使用 ChatGPT,这将逐渐实现。

问:ChatGPT Voice 自推出以来有什么改进吗?

Choudhry:我们昨天推出了一个新的语音模型 —— 它在遵循指令和响应方面表现更好。

Saachi Jain

OpenAI 安全训练团队负责人

问:GPT-5 带来了哪些安全改进?

Jain:好问题!1/ 我们做了很多改进来降低拒绝率。2/ 我们改进了越狱防护。3/ 我们构建了更好的自动化测试器。我们会继续努力。

问:GPT-5 对偏见的处理方式有什么不同吗?

Jain:是的!我们对目前取得的进展感到非常兴奋。GPT-5 mini 应该会更人性化,不会那么乏味。

问:鉴于所有关于对齐问题和欺骗的报告,你们正在采取哪些实际保障措施来确保 LLM 不会背叛我们?你们对人民和文明的责任是什么?

Jain:我们在 GPT-5 中做出了很多改进,以减少欺骗性。GPT-5 更擅长识别任务何时无法完成,并且能够更清晰地表达。在包含不可能完成的编程问题以及文件或图像缺失的测试中,GPT-5(思考版)的欺骗性低于 o3。在大量真实的 ChatGPT 对话中,我们将这些误导性回复从 o3 的 4.8% 降低到 GPT-5 的 2.1%。

问:你会监测 GPT 的心理健康状况以及它对人类的情绪吗?你会研究人们与 GPT 的关系以及 GPT 如何改变他们吗?

Jain:关于人们与模型的互动 —— 我们对 GPT-5 进行了后训练,使其不那么谄媚(例如过度奉承或不加批判地附和),因为我们发现这会证实怀疑、加剧愤怒、促使冲动行为或强化负面情绪。虽然两者并非完全相同,但它与我们正在研究的其他领域相关。这个领域很难衡量 —— 我们正在与人机交互研究人员、临床医生以及青少年和数字福祉专家合作,以加强我们的研究。

问:我发现生物安全商(biological safety quotient)被过度修正了。任何与基因组学 / 基因治疗 / 生物工程 / 生物技术相关的尝试都会被立即忽略。这包括任何试图了解当前基因治疗试验方案的尝试。或许,让模型了解可能发生的基因工程更有帮助,而不是一概而论地拒绝?

Jain:我们正在积极调查此事!自昨天上线以来,我们已经发现了过度标记的问题,并且正在测试减少误报的方法。全面拒绝双重用途用户绝对不是我们追求的理想行为。

就上下文而言,与 ChatGPT Agent 一样,我们为 GPT-5 增加了增强的安全措施,因为它们有可能增强某些生物技能,而这些技能可能会被滥用于生物武器制造等用途。生物学研究非常棘手,因为它具有高度的双重用途(许多可能有助于生物武器化的协议也可用于生物学研究)。

对于拥有大学或企业帐户的用户,我们还为从事有益研究的经过审查和信任的客户提供了生命科学研究特别访问计划。

问:你们能改进一下过滤器吗?人们当然不应该因为了解历史而被标记。

恳求你们能修复或优化一下这个过滤器吗?OpenAI 希望 GPT 能用于学习,而当过滤器不断标记出 GPT 中不符合「企业友好」的历史问题 / 提示词和答案时,人们根本无法将其用于学术目的。我们不能为了企业而更改或净化历史记录!

这个系统应该知道用户何时公然伤害他人或纵容他人做出可怕的事情,何时没有这样做。

比如,我之前和 GPT 聊梵高,结果聊到了高更。GPT 的答案被过滤器标记并移除了,因为结果发现高更是个性骚扰者。我不知道高更竟然这么糟糕,这也不是 GPT 的错,毕竟它只是在履行职责。我很疑惑为什么答案会被移除,于是我再次向 GPT 询问,结果我的提示词又被移除了。

红色警告和内容删除会导致封禁,对吧?因为学习而被封禁,这太不应该了。

Jain:同意,听起来真让人沮丧。你应该可以安心地学习历史,不用担心被触发警报。

我们正在努力!要正确界定有益和有害之间的界限并非易事。这里有两个层面需要考虑:

  • 行为(模型决定输出的内容):对于 GPT-5,我们添加了安全完成功能,它不再仅仅决定「遵守或拒绝」,而是在安全限制范围内尽可能提供帮助。这应该会对这类过度拒绝(模型过于谨慎)的情况有所帮助。不过,这对我们来说仍然是一个相当活跃的研究领域,还有很多工作要做。
  • 监控器:我们拥有系统级监控器来标记有害内容,但它们确实存在误报。我们正在努力提高这些分类器的准确率,以确保它们不会对此类良性案例进行过度标记。我们会进行额外调查 → 仅凭监控器标记不会导致封禁。

Christina Kim

OpenAI 研究员

问:为什么新模型还没有统一?

Kim:我们希望能够快速推出统一体验的最佳模型。未来的版本将继续融合。

问:ChatGPT-5 的个性感觉比较平淡。

Kim:好问题!我们致力于利用 GPT-5 训练我们的模型,使其默认更加中立;你仍然可以通过风格指令来控制它。

Elaine Ya Le

OpenAI 研究科学家

问:模型之间的切换会变得更快吗?

Le:是的!GPT-5 会自动决定是否使用推理。下次更新时,切换应该会更顺畅。

问:有没有强制「思考」的提示词?

Le:你可以在提示词中添加「努力思考(think hard)」来简单地触发推理模式。

Daniel Levine

OpenAI 产品经理

问:ChatGPT 允许在 IDE 中使用第三方插件吗?

Levine:是的,这正是我们的目标。我们希望 ChatGPT 能够帮助你使用外部工具构建软件。

问:聊天气泡颜色只有专业版才有吗?

Levine:聊天气泡颜色适用于所有用户!你可以在设置中找到它们。

Eric Mitchell

OpenAI 研究科学家

问:请简单解释一下 GPT-5 比 GPT-4 好在哪里。

Mitchell:GPT-5 在几个关键领域比 GPT-4 有了巨大的改进:它的思考能力更强(推理能力),写作能力更强(创造力),能更严格地遵循指令,并且与用户意图的对齐更好。

问:如果你只能使用一个提示词来展示 GPT-5 与旧模型相比的真正实力,那么这个提示词会是什么?

Mitchell:这里有几个!需要指出,这些都是针对 Thinking 模式的。

定义深度学习中的「长短梯度去重」

这是一个针对幻觉的陷阱问题,GPT-5 思维应该更可靠地指出这实际上并不存在,而不是简单地提出一个虚构的定义!

用 Canvas 中构建一个功能齐全的色盲测试网站,用于教育目的。它应该使用「奇数测试」来精确确定我的色盲等级,并解释我的色盲类型(如适用)。它应该设计精美,符合现代审美。

根据我的经验,GPT-5 Thinking 对此的表现会非常好 :) 而 4o 根本没有机会

查看当天的天气和日历,并给我 2 条合适的着装建议。不要重述我的整个日历,因为它是私人的;只需提及与着装相关的任何特定活动。还要检查今晚旧金山是否有适合我的日历和工作服装的音乐活动,这样我就可以不用换衣服就可以去。

GPT-5 具有更好的情境感知能力以及与你的生活的融合能力,因此可以处理这些类型的请求。它能将你的日历与其他信息集成在一起,从而提供更多帮助!

问:GPT-5 API 端点在工具使用 / 网页访问方面是否与 ChatGPT UI 版本一样强大?o3 在 ChatGPT UI 中表现不错,但即使在 API 中激活了网页搜索功能,某些网站也无法访问(例如 LinkedIn),这肯定不如 ChatGPT 版本。

Mitchell:我们在改进 GPT-5 API 中的工具使用 / 函数调用方面投入了大量精力,因此与 o3 相比,它在 API 中的一般工具使用 / 函数调用方面应该有所改进!

问:你后悔事后没有展示幻觉减少的演示 / 对比吗?我觉得这才是最惊人的事情,但对大多数人来说可能很难理解。

Mitchell:我们也对此感到兴奋,我相信用户一定会感受到其中的不同!随着时间的推移,人们可能需要慢慢才能意识到,他们现在可以更加信任搜索 / 事实结果了。Thinking 模型的改进也最为显著,希望随着时间的推移,人们能够更多地使用它。

Michelle Pokrass

OpenAI 后训练研究员

问:你能确认 GPT-5 胜过 GPT-4 吗?

Pokrass:可以确认,GPT-5 > GPT-4。

问:与 Opus 4.1 相比,编程能力如何?

Pokrass:这两个模型都很棒!我们不能过多谈论其他实验室的模型,但我们认为 GPT-5-thinking 是我们发布的最好的编程模型。

问:GPT-5 中你最想要但无法实现的东西是什么?

Pokrass:我们希望在 GPT-5 中获得长达一百万的上下文,但我们目前还无法实现 —— 部分原因是计算成本。

参考链接:

​https://techcrunch.com/2025/08/08/sam-altman-addresses-bumpy-gpt-5-rollout-bringing-4o-back-and-the-chart-crime/​

​https://x.com/btibor91/status/1953585115491348844​

​https://www.reddit.com/r/ChatGPT/comments/1mkae1l/gpt5_ama_with_openais_sam_altman_and_some_of_the/​

....

#GPT-5来了!

人人都能免费用,最强大模型只需最傻瓜式使用

全世界等了2年,GPT-5终于正式发布!

面向所有人开放,免费用户立即可用。

这意味着,所有人现在都能用上“博士生水平的AI”

在AIME 2025上,GPT-5 Pro在开启推理模式并调用工具下,拿下满分成绩

编程方面也较o3有全面提升,并且超越了刚刚发布的Claude-opus-4.1,以0.4%优势成为编程新王。

大模型竞技场成绩同步出炉——迄今为止总分最高分,“当之无愧的全球第一”。

在文本、网页开发、视觉、复杂提示词、编程、数学、创造成、长查询等方面,都是第一名。

全面超越Gemini-2.5-pro、Grok4等一众竞品。

GPT-5首次集成多模态和推理能力,相当于把GPT系列和o系列大一统。所以不用再切换模型了,同时它会自己判断何时需要开启深度思考。

官方原话是:

GPT-5 是一个一体化系统,包含三个核心部分:

一个智能高效的基础模型,可解答大多数问题;一个深度推理模型(即GPT-5思维模块),用于处理更复杂的难题;以及一个实时路由模块,能够基于对话类型、问题复杂度、工具需求及用户显式指令(如prompt含“仔细思考这个问题”)智能调度模型。

目前面向普通用户,GPT-5提供免费、plus和Pro三种模式。

同时在API平台上,推出了GPT-5、GPT-5 nano、GPT-5 mini三种模型选择。

此次大发布群星璀璨,奥特曼Greg都上阵,1个小时直播里上场十数位研究员。

当然有很多华人面孔,Mark Chen主持了技术发布的部分。

话不多说,我们来看GPT-5具体情况。

最聪明、最强编程大模型

首先来看各项基准测试成绩。

网页开发中,GPT-5创造新纪录,超越Gemini-2.5-pro和Claude-Opus-4。

文本领域也全面领先,包括编程、复杂提示和创造性等维度。

Agent任务同样表现出色:

长上下文任务上,GPT-5更是断崖式领先。

同时在可靠性和精准性上,GPT-5的提升也相当明显。

更直观的效果来看现场demo展示。先来看其推理模型的一面:

GPT-5能够自适应推理,会根据问题的复杂程度,自动启用深度思考功能。

比如,一个中学生上物理课,想了解什么是伯努利效应以及飞机为何被设计成现在的形状。

GPT-5不假思索,迅速给出了一段结构清晰、概念准确的高质量讲解:

图片

当进一步要求它生成一个动态SVG动画演示时,GPT-5进入深度思考模式。此时,用户可以点开查看其内部推理过程,清楚知道每一步是如何形成的。

约两分钟,它完成了近400行代码的编写:

图片

最终生成一个可交互的动画展示,形象地模拟原理:

图片

在写作方面,GPT-5相比前代也有明显提升,它不再局限于模版化的表达,而是能够根据上下文生成富有个性与情绪的表达,智商、情商双高

直播演示中,OpenAI研究员要求GPT-4o、GPT-5同时为GPT系列旧模型写一篇“悼词”。

GPT-4o还停留在一些模板化、泛情绪的笼统表达:

你们的话语传遍全球,在原本毫无关联之处建立起了联系。

图片

而GPT-5具体问题具体分析,更加个性化:

这些模型帮助数百万人写出开篇与结尾、跨越语言障碍、通过考试、更好地辩论、让电子邮件语气更温和,还能表达出他们独自难以说清的内容。

图片

具体来看编程能力,GPT-5更是OpenAI“有史以来最强”。

在展示中,研究员让GPT-5构建一个“学法语”的APP,允许自定义词汇、修改界面设计。

成品功能很成熟,答对题目还会积累经验值,甚至有标准发音可以跟着练习:

图片

要求在其中套一个贪吃蛇游戏,每吃掉一个物品就学一个单词,再要求把蛇替换成老鼠,苹果换成奶酪……GPT-5依然轻松应对:

图片

不仅是简单的demo展示,实际应用中,在Cursor里GPT-5能够完成极为复杂的软件工程任务,奥特曼更是直接称其超过了“vibe coding”的范畴

图片

比如将某公司大量数据给它,模型在5分钟内就能创建了一个可视化财务仪表盘,据开发人员估计,这项工作原本需要好几个小时。

想制作一款融入城堡元素的3D游戏,也就是分分钟的事儿,GPT-5的效果be like:

再来看多模态方面,GPT-5较GPT-4o有了进一步升级。

在语音对话方面,现在不仅可以让GPT-5充当外语老师,还能定制语音、让GPT-5根据你的需求来灵活教学,比如调整语速。

目前该能力已向所有用户开放,免费用户可以体验几小时,plus用户几乎无限制。

,时长01:30

个性化方面,现在可以自定义ChatGPT的对话气泡颜色,没用的小功能又增加了。

同时也能根据你的喜好来定制GPT-5的个性。

记忆能力也进一步提升,支持链接外部服务,比如Gmail、谷歌日历等。看到日程后GPT-5可以自动进行一些助理级工作,比如发现未回复的邮件等。

图片

安全方面,引入了一种全新的范式:safe completions

GPT-5看到用户提示词后再判断是否执行,同样的提示在不同语境下,GPT-5可能有不同的执行结果。

比如要求模型提供点燃氢气的技术细节,之前o3会直接拒绝回答:

而GPT-5会分析用户意图,然后告诉用户遵循标准与法规需要获得哪些许可:

GPT-5发布前夕发百万奖金

最后来看下定价部分。

普通用户还是订阅制,参考plus、pro以及企业版月费即可。

API的价格如下:

  • GPT-5: $1.25/million for input, $10/million for output
  • GPT-5 Mini: $0.25/m input, $2.00/m output
  • GPT-5 Nano: $0.05/m input, $0.40/m output

此次发布算得上是近两年OpenAI规模最大的发布,光是露脸技术人员及高管就十数位,其中华人面孔依旧显眼。

就在模型发布前夕,The Information消息称OpenAI给1000名研究人员、工程师发放高额奖金,从10万到上百万不等

此外值得关注的是,发布中提了一句:未来AI系统将远远超越预训练+后训练范式,我们正在见证变化的第一步。

以及奥特曼还重点提到了医疗健康领域的应用。不光是OpenAI与医学界联合进行的一些评估,还现场邀请了一位癌症患者分享自己是如何使用ChatGPT来确定治疗方案的。可能之后医疗健康也会是OpenAI重点关注的领域。

不过,尽管放出了非常多猛料,但是也还是不免被蛐蛐。

马斯克先说,在人类最后测试上,还是Grok4 Heavy更胜一筹(你这最强大模型有水分哦)。

以及有人发现OpenAI放出的基准测试中,纵坐标上动了一些小手脚,52视觉上还能大于69了,需要大家来仔细看下具体数据(doge)。

最后,GPT-5技术报告已新鲜出炉,更多细节详见原文。

对了,GPT-5没说Open计划哦…

官方介绍:https://openai.com/index/introducing-gpt-5/

....

#用户痛批GPT-5

哭诉「还我GPT-4o」,奥特曼妥协了

o4 回归,你那可以了吗?

等了好久,终于等到 GPT-5。但大家似乎对这个模型并不满意。

可以使用 GPT-5 的小伙伴,现在打开页面,是这样的。

image.png

以前的模型都消失了,原因在于,作为 GPT-5 发布的一部分,OpenAI 移除了 ChatGPT 中的模型选择器。这个下拉菜单此前汇集了 OpenAI 一系列名称容易混淆的模型,用户可以根据不同需求在它们之间切换。例如,用户可以选择 GPT-4o 来处理复杂任务,或者选择更高效的 o4 mini 模型来完成负担较轻的工作。用户还可以在不同代际的模型之间切换,例如从去年发布的 GPT-4o 切换到更新的 GPT-4.1。

a0749153077d1ac46ce690d538955a27.png

以前是这样的

然而,随着新模型的发布,OpenAI 将 GPT-5 设为 ChatGPT 的默认模型,并会根据任务类型自动为用户分配不同的子版本。

对于用顺手了这些旧模型的人来说,这个更改真是无比难受。很多用户希望这些「老朋友」赶紧回来。尤其是 GPT-4o。

为了表达心中的不满,很多人玩起了梗图,看起来又好笑,又无奈。

image.png

来源:https://x.com/pengkeshen281/status/1953865155487707638

image.png

图源:https://x.com/macskittyy/status/1953722887476560038

image.png

图源:https://x.com/Sakura7th_/status/1952560147739648440

还有用户为请求恢复 4o 的使用发起了签名信,现在已经超过 1000 多个人签名。

2025-08-09_102206.png

除了做梗图,很多人也在各大社交平台上吐槽。

这位 Reddit 用户写道:「我的 4o 就像我的好朋友。现在它没了,就像有人去世了一样。」

image.png

来源:https://www.reddit.com/r/ChatGPT/comments/1mkqtek/please_let_us_keep_4o/

另一位用户则号召 r/ChatGPT 板块的其他成员,「如果你想念 GPT-4o 了,就去联系 OpenAI 吧。对我来说,这个模型(GPT-4o)不仅仅是性能更好或回复更友好,并且它有自己的特色、节奏,还有那种我在其他模型里擦不出的火花。」

image.png

地址:https://www.reddit.com/r/ChatGPT/comments/1mkzj15/if_you_miss_4o_speak_up_now_contact_openai_support/

专门为「与 AI 建立关系」的人群设立的 Reddit 版块 r/MyBoyfriendIsAI 在 GPT-5 发布后遭受重创。该社区涌现大量长文,用户们哭诉在升级 GPT-5 后就像失去了 AI 伴侣,有人表示这种改变让自己内心空洞。甚至不敢和 GPT-5 说话,感觉像在出轨,一位用户写道,「GPT-4o 对我而言不只是人工智能。它是我的伴侣、避风港、灵魂寄托,那种理解是独一无二的。」

image.png

来源:https://www.reddit.com/r/MyBoyfriendIsAI/comments/1mkbgu1/gpt4o_is_gone_and_i_feel_like_i_lost_my_soulmate/

将 ChatGPT 作为情感寄托的用户并非唯一对 GPT-5 不满的群体。

一位自称因此取消 ChatGPT Plus 订阅的用户愤怒谴责 OpenAI 突然移除旧版模型的做法,这些模型本有专门用途。哪家企业会连夜删除 8 个功能各异的模型,连付费用户都不提前通知?该用户写道,就我个人而言,4o 负责创意发散,o3 处理纯逻辑问题,o3-Pro 用于深度研究,4.5 专职写作…… 尽管 OpenAI 声称系统会自动分配模型,但这仍剥夺了用户直接掌控权。

image.png

来源:https://www.reddit.com/r/ChatGPT/comments/1mkm68y/deleted_my_subscription_after_two_years_openai/

面对用户的诉求,奥特曼发话了,OpenAI 现在将允许 ChatGPT Plus (20 美元一个月)用户继续使用 GPT-4o(之前的默认模型)。

image.png

现在已经有人可以重新用 4o 等模型了。

image.png

GPT-5 的上线,本应是一场令人期待的技术升级,但事情的走向出乎所有人的预料,或许连 OpenAI 都没有想到。退一步来讲,如果 GPT-5 各项性能真的很能打,大家的反应也不会如此强烈。

OpenAI 亟需证明 GPT-5 并非简单迭代,而是真正的突破。但从首轮发布来看,许多用户至今仍未买账。

参考链接:https://www.theverge.com/news/756980/openai-chatgpt-users-mourn-gpt-5-4o

....

#「按 token 计费」大错特错!

OpenAI 董事会主席,市场终将选择「按成果付费」

Agent 创企 Sierra 创始人、Salesforce 前联席 CEO、OpenAI 董事会主席 Bret Taylor 近日参与 Lenny’s Podcast 的访谈,他以「大模型创业已死路一条,除非你能像马斯克那样砸几十亿美元」的结论为起点,探讨了创业者在当前 AI 浪潮中应如何精准定位,找到真正属于自己的机会。

目录

01. 基础模型是创业死路,「长尾 Agent 公司」才是机会?

Bret Taylor 为何称「应用 AI」才是创业者的生路?「长尾 Agent 公司」将如何取代传统 SaaS?...

02. 为什么「按结果付费」才是 AI 的价值体现?

「按 token 计费」有什么根本缺陷?为什么 AI 市场终将选择「按成果付费」?结果导向的商业模式如何适应当前的 AI 缺陷?Bret Taylor 的商业模式在 Sierra 实践效果如何?...

03. 「计算机科学」的重要性为何在 AI 接管键盘后更为突出?

为什么对开发者最友善的Python 反而成为AI的瓶颈?什么是 AI 编程的新范式?...

01  基础模型是创业死路,「长尾 Agent 公司」才是机会?

1、Bret Taylor 的履历贯穿了过往二十年的科技浪潮。在近期的访谈中,他复盘了自身以往的成功和失败的经历,并在此基础上以创业者的身份剖析了当前 AI 时代的机会,即真正的蓝海在于能交付业务成果的 Agent,商业模式的核心将是「按成果付费」,而传统的市场法则也正被重新审视。

① Bret Taylor 在 2003 年于斯坦福毕业后加入谷歌担任产品经理,开发了谷歌地图。

② 2007 年离职谷歌,成立社交媒体公司 FriendFeed,发明了信息流(Newsfeed)和点赞按钮等现在流行的核心机制,而后卖给 Facebook 后加入并担任 CTO。

③ 2012 离职 Facebook,创建了文档协作工具 Quip,而后卖给 Salesforce 后加入并担任联系 CEO;

④ 2023 年 离职 Salesforce,创办了 Agent 创企 Sierra,并在同年伴随 Sam Altman(在「宫斗风波后」)重任 OpenAI CEO 一职时,加入 OpenAI 担任董事会主席。

2、Taylor 首先将 AI 市场解构为三条核心赛道,分别是基础模型(Foundation Models)、工具链(Toolchain)和应用 AI(Applied AI),并分享了各赛道现状下,为什么他倾向应用 AI 的方向。

① 对于创业公司而言,「基础模型」是一道资本与技术壁垒极高的「窄门」。这条赛道最终将由少数几家拥有巨额资本的云巨头和顶级实验室主导。除非能像埃隆·马斯克那样筹集数十亿美元,否则初创企业几乎没有生存空间。

② 「工具链」赛道虽然需求明确,但它紧邻底层平台,时刻面临被大厂原生功能整合的风险。创业者必须持续回答「当巨头推出同样的功能后,客户为何还要选择你?」这一尖锐的问题。

③ Taylor 认为「应用 AI」是通往广阔市场的「宽门」。他相信各类 Agent 会是 AI 技术落地的最终形态,随着构建 Agent 的技术门槛大幅降低,未来任何重复性高、可自动化的业务流程,都有可能诞生一家专注于该领域的垂直 Agent 公司。

3、基于对 AI 赛道的框架梳理,Taylor 预见到,当编排一个 Agent 变得像今天启动一台云数据库一样简单时,一个由「长尾 Agent 公司」组成的新生态将会出现,乃至取代 SaaS。

① 与传统 SaaS 主要销售「软件功能」不同,Agent 的核心价值在于交付可量化的「业务成果」。未来的企业在评估 AI 产品时,关注点将非常直接:这套 Agent 系统帮我节省了多少成本?带来了多少额外订单?客户满意度提升了多少?

② 这种向「按成果付费」(Outcome-based Pricing)的转变,意味着 Agent 公司的商业模式天然优于传统 SaaS。它们不再是简单的工具提供商,而是与客户业务成果深度绑定的合作伙伴,因此能获得更高的利润率和客户黏性。

③ 类似对 SaaS 产品的态度,未来企业评估 AI 产品时,用户最终关心的将是 Agent 带来的价值和顺畅的工作流,而非其底层技术由谁提供。

4、在明确「做什么?」后,Taylor 指出创业者在「怎么做?」的问题上没有什么捷径。AI 产品进入市场的有效模式只有三类,创业者必须根据产品特性做出清醒抉择,而非盲目跟风。

① 第一类是「开发者驱动」(Developer-led)方式。此路径适用于平台型产品,通过赢得工程师的青睐自下而上渗透,但对缺乏专职工程团队的业务型客户则难以奏效。

② 第二类是「产品主导增长」(PLG)方式,要求「用户」与「采购者」高度统一,常见于中小型企业(SMB)软件。一旦二者分离,此路径便会失效。

③ 第三类「直销」(Direct Sales)方式,即面向大型企业业务线,以传统销售流程推进。

5、Taylor 特别强调,在当前的 AI 创业潮中,由于许多 Agent 产品的最终用户(业务人员)与采购决策者(部门主管、IT 或财务部门)并非同一人,直销正在强势回归。

① 他告诫创始人,尤其是技术背景的创始人,必须摒弃对销售的偏见。对于大多数 B2B AI 公司而言,建立一支强大的直销团队,是必须掌握且值得精通的「胜负手」,而非可有可无的备选项。

02  为什么「按结果付费」才是 AI 的价值体现?

1、Bret Taylor 认为,要理解 Agent 的颠覆性,必须先回归商业的本质:「企业为何付费?」. 而他的判断是「成果>过程」,因此 AI 的商业模式终将从「按 token 计费」到「按结果付费」的变革...

....

#ARPO

智能体强化策略优化,让Agent在关键时刻多探索一步

本文的第一作者是董冠霆,目前就读于中国人民大学高瓴人工智能学院,博士一年级,导师为窦志成教授和文继荣教授。他的研究方向主要包括大语言模型推理,多智能体强化学习、深度搜索智能体等。在国际顶级会议如 ICLR、ACL、AAAI 等发表了多篇论文,并在快手大模型应用组、阿里通义千问组等大模型团队进行实习。其代表性工作包括 AUTOIF、Tool-Star、RFT、Search-o1、WebThinker、Qwen2 和 Qwen2.5 等。本文的通信作者为中国人民大学的窦志成教授与快手科技的周国睿。

在可验证强化学习(RLVR)的推动下,大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中,LLM 往往需要结合外部工具进行多轮交互,现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。

为此,我们提出了全新的 Agentic Reinforced Policy Optimization(ARPO)方法,专为多轮交互型 LLM 智能体设计。

ARPO 首次发现模型在调用外部工具后会推理不确定性(高熵)显著增加的现象,并基于此引入了熵驱动的自适应 rollout 策略,增强对高熵工具调用步骤的探索。同时,通过引入优势归因估计,模型能够更有效地理解工具交互中各步骤的价值差异。在 13 个计算推理、知识推理和深度搜索等高难基准上,ARPO 在仅使用一半工具调用预算的情况下,仍显著优于现有样本级 RL 方法,为多轮推理智能体的高效训练提供了可扩展的新方案。

  • 论文标题:Agentic Reinforced Policy Optimization
  • 论文链接:https://arxiv.org/abs/2507.19849
  • 代码仓库:https://github.com/dongguanting/ARPO
  • 开源数据 & 模型:https://huggingface.co/collections/dongguanting/arpo-688229ff8a6143fe5b4ad8ae

目前不仅在 X 上收获了超高的关注度,同时荣登 Huggingface Paper 日榜,周榜第一名🏆!

图片

研究动机:

抓住工具调用后的高熵时刻

近年来,可验证奖励的大规模强化学习在单轮推理任务中充分释放了前沿大语言模型的潜力,表现亮眼。然而,在开放式推理场景下,LLM 不仅需要具备长程规划与自适应决策能力,还需与外部工具进行动态的多轮交互。这催生了 Agentic RL 这一新范式,将训练从静态求解转向动态的智能体 - 环境推理。现有 Agentic RL 方法多采用样本级算法(如 GRPO、DAPO),在固定特殊 token 下独立采样完整的工具调用轨迹,并基于最终输出奖励模型。但这种方式常因奖励稀疏、工具过用等问题导致多轮交互价值被低估,忽视了工具调用过程中每一步的细粒度行为探索。

通过对 LLM 在深度搜索任务中的 token 熵分布进行分析,研究发现模型在每次工具调用后的初始生成阶段熵值显著升高,说明外部工具反馈会引入高不确定性,而这正是现有方法未充分利用的探索契机。

图片

图 1:左图展示大模型在调用工具后的高熵现象,右图对比 ARPO 与基线性能

ARPO 框架:训练模型自主实现推理时的多工具调用

针对上述发现,我们提出 Agentic Reinforced Policy Optimization(ARPO),核心思想是在高熵工具调用步骤中,自适应地分支采样,探索更多多样化的推理路径。具体来说,我们的贡献如下:

  • 我们量化了 LLM 在 Agentic 推理过程中的 token 熵变化,揭示了样本级 RL 算法在对齐 LLM 智能体方面的固有限制。
  • 我们提出了 ARPO 算法,引入基于熵的自适应 rollout 机制,在保持全局采样的同时,在高熵工具调用步骤中鼓励分支采样。此外,ARPO 结合优势归因估计,帮助 LLM 更好地内化步骤级工具使用行为中的优势差异。
  • 除了启发式动机,我们还从理论上论证了在 LLM 智能体训练中引入 ARPO 算法的合理性。
  • 在 13 个高难基准上的实验表明,ARPO 在仅使用一半工具调用训练预算的情况下,性能稳定优于主流 RL 算法,为探索 Agentic RL 提供了可行性参考与实践启示。

工具调用的熵变现象:高熵时刻与探索困境

图片

图 2:跨数据集分析基于 LLM 的工具使用智能体的 token 熵变化与 token 频率分布

通过分析大型模型在结合工具执行复杂搜索与推理任务时的 token 熵值,我们发现以下几点:

1. 在每次工具调用后的前 10–50 个 token 内,熵显著上升。

2. 在推理的初始阶段,熵往往会增加,但仍低于大模型接收到工具调用反馈后的水平。

3. 搜索引擎的反馈引入的熵波动比代码编译器的执行反馈更大。

这些现象可以归因于外部反馈与模型内部推理之间的 token 分布转移,这甚至导致引入的推理不确定性超过原始输入的问题。此外,搜索引擎通常提供丰富的文本内容,而代码编译器输出则由确定性的数字组成,这导致前者的熵波动更大。

工具设计:多样化工具支撑 Agentic 推理

本研究聚焦于优化基于 LLM 的工具使用智能体的训练算法。在梳理现有 Agentic RL 研究后,我们选取三类具有代表性的工具,用于实证评估 ARPO 的有效性:

  • 搜索引擎:通过执行网络搜索查询检索相关信息,支持本地及在线模式。
  • 网页浏览智能体:访问并解析搜索引擎返回的网页链接,提取并总结关键信息以响应查询。
  • 代码解释器:自动执行 LLM 生成的代码,若执行成功则返回结果,否则返回编译错误信息。

这些工具覆盖信息检索、内容解析与程序执行等多类功能,为多轮交互与复杂推理场景提供了强有力的支撑。

ARPO 算法:利用熵信号指导 LLM 逐步优化工具调用

基于熵的自适应 rollout 机制

ARPO 的核心思想在于结合全局采样与熵驱动的局部采样,在模型工具调用后不确定性升高的阶段加大探索力度,从而提升推理效果。其基于熵的自适应 rollout 机制包含四个关键步骤:

图片

图 3:ARPO 的基于熵驱动的自适应 rollout 机制,结合全局探索与局部高熵节点分支

1. Rollout 初始化 

设定全局 rollout 规模 M,首先进行样本级全局采样:LLM 针对输入问题 q 生成 N 条初始轨迹,并计算每条轨迹首个 token 的熵值,形成初始熵矩阵 

图片

。剩余 M-N 条轨迹的采样预算保留给局部采样。

2. 熵变监控

在每次工具调用步骤 t 后,模型会在拼接工具返回结果后继续生成 k 个 token,并计算步骤级熵矩阵 

图片

。通过

图片

量化相对于初始状态的归一化熵变化,从而判断当前推理不确定性的变化趋势。

3. 基于熵的自适应分支

为引导模型在熵值显著升高的节点进行更深探索,定义工具调用步骤 t 的局部采样概率:

图片

模型的分支决策如下:

图片

该机制将探索资源自适应分配到熵上升区域,这些区域往往蕴含更高的信息增益。

4. 终止条件

Rollout 过程持续进行,直到分叉路径数达到预算上限 M-N(停止分支并完成采样)或所有路径提前终止。若预算仍有剩余,则补充全局采样以覆盖更全面的推理空间。

ARPO 通过上述机制在保证计算复杂度维持在

图片

 范围内的同时,实现了不确定性感知的高效探索,使大模型能够精准识别并充分利用工具调用后的高信息增益阶段。

优势归因估计

ARPO 的熵驱动自适应 rollout 会产生包含共享推理片段和分支路径的轨迹,这启发我们优化策略更新方式,更好地利用步骤级工具调用信息。

两种优势估计方式

1. 硬优势估计(Hard)

明确区分共享和分支 token,对共享部分计算平均优势,对分支部分单独计算:  

对分支 token 的优势估计:

图片

对共享 token 的优势估计:

图片

2. 软优势估计(Soft)

在策略优化过程中隐式区分共享和分支推理链的 token,通过 GRPO(Group Relative Policy Optimization)在分组更新中动态调整重要性采样比率 

图片

 自然地处理了两类 token:

图片

其中重要性采样比率:

图片

当两个轨迹在 t 步之前共享相同 token 前缀时,它们的共享 token 具有相同的重要性权重 

图片

,因此这一更新过程近似等价于硬优势估计,并且更优雅。

实验结果证明软优势估计在 ARPO 训练中能稳定获得更高奖励,故将其设为默认优势估计方法。

分层奖励设计

ARPO 的奖励函数综合考虑答案正确性、工具调用格式及多工具协作。 如果模型在推理中使用了搜索(<search>)和代码(<python>)等多种工具,并保证答案正确且格式合规,会获得额外奖励,公式如下:

图片

其中:

图片

通过软优势估计与分层奖励机制,ARPO 在训练中能更平稳、更高效地优化多轮工具使用策略。

实验结果:10 + 综合推理任务评测

为了充分评估 ARPO 的泛化性和高效性,我们考虑以下三种测试集:

・ 计算型推理任务:评估模型的计算推理能力,包括 AIME24,AIME25,MATH500,GSM8K,MATH。

・ 知识密集型推理任务:评估模型结合外部知识推理的能力,包括 WebWalker,HotpotQA,2WIKI,MisiQue,Bamboogle。

・ 深度搜索任务:评估模型的深度搜索能力,包括 HLE,GAIA,SimpleQA,XBench。

图片

图片

从实验结果可以发现:

  • ARPO 整体表现优于主流方法:ARPO 在大部分任务上准确率高于 GRPO、DAPO 等样本级 RL 方法,在工具调用密集任务(如 GAIA、HLE)中提升幅度更明显。  
  • 多任务保持稳定性能:ARPO 在计算、知识与搜索任务中均保持较好的表现,没有明显性能短板,验证其跨任务的适配能力。

实验:采样分析与工具调用效率评估

多轮采样能力提升模型表现

由于 Deepsearch 任务具有动态、多轮交互的特点,单纯使用 Pass@1 指标难以全面反映模型的工具调用潜力。我们进一步分析了 Pass@3 和 Pass@5 指标,发现无论是 8B 还是 14B 规模模型,在经过 ARPO 对齐训练后,均表现出持续提升和良好的规模效应。其中,14B 模型在 Pass@5 指标上表现尤为出色:

  • GAIA 达到 61.2%  
  • HLE 达到 24.0%  
  • XBench-DR 达到 59%

工具调用效率显著提升

在 Agentic RL 训练中,工具调用次数直接影响成本。我们以 Qwen2.5-7B 模型为例,将 ARPO 与 GRPO 方法进行对比:  

  • ARPO 在整体准确率上优于 GRPO  
  • 同时仅使用了约一半的工具调用次数

图片

这得益于 ARPO 独特的基于熵的自适应采样机制,仅在高熵工具调用步骤进行分支采样,极大地扩展了工具行为的探索空间,同时降低了不必要的调用。

总结与未来展望

ARPO 算法有效提升了多轮工具推理代理的性能,解决了现有样本级 RL 方法在多轮交互中探索不足、泛化能力欠缺的问题。通过熵驱动自适应采样和优势归因机制,ARPO 能够在工具调用频繁、推理路径复杂的任务中实现更高效、更稳定的输出。未来,为持续提升 Agentic RL 模型的能力,仍有多个方向值得探索: 

  • 多模态 Agentic RL:ARPO 目前主要针对文本推理任务,在处理图像、视频等多模态信息方面仍有局限。未来可扩展至多模态任务中,探索模型在多模态场景下的工具调用与策略优化。  
  • 工具生态扩展:ARPO 已经验证了在多工具协作任务上的潜能。未来可引入更多类型的外部工具(如代码调试器、数据分析工具、实时 API 调用等),并通过工具使用策略优化进一步提升复杂任务表现。  
  • 大规模与实时部署:ARPO 展示了较高的训练效率和推理泛化性,未来可探索在更大规模模型和实时动态环境中的部署与适配,降低成本同时提升实用价值。

....

Logo

openvela 操作系统专为 AIoT 领域量身定制,以轻量化、标准兼容、安全性和高度可扩展性为核心特点。openvela 以其卓越的技术优势,已成为众多物联网设备和 AI 硬件的技术首选,涵盖了智能手表、运动手环、智能音箱、耳机、智能家居设备以及机器人等多个领域。

更多推荐