最新最全行业头条及行业动态_会展政策-云头条-云展动力

云展动力首页

[更换]

注册登录

hot

hot

EN

中文

APP下载

数字孪生

大数据获客

人工智能

分类目录

行业分类:

加载中...

头条分类:

加载中...

Codex直接剪视频，剪辑软件都不用开，PR AE瑟瑟发抖

梦瑶发自凹非寺量子位 | 公众号 QbitAI 传统视频制作N个产品来回横跳的工作流模式，这次可能真的要Game Over了？因为嘛—— 现在你只用跟Codex说一句话，它就能把剪辑、PS、视频生成等一箩筐子的活儿全包了！！就在刚刚，Codex把AI视频生成平台HeyGen接入了自家产品里。数字人、画面、字幕、外观改变、剪辑、导出全能一锅出，完全不用离开Codex的内种。最重要支持一键调用，啥skill啥安装包都不需要，插件在手，成片我有～视频制作友友狂喜，数字人生成友友狂喜，不想付八百个修图剪辑订阅费的我也狂喜！！ HeyGen接进了Codex，一句提示词搞定制作全流程大家平时甭管工作还生活里剪辑视频时，应该都有这样的抓马且让人挠头的感觉—— 那就是八百个软件切不完，真的切不完…… A软件生图，B软件修图、C软件剪辑，最后电脑卡死不说，把我们自己脑子的CPU也得干烧了！所以哪怕到了今天，我们似乎也找不到一个能在一个能用「大白话」搞定视频制作全流程的工具。而Codex这次干的事儿，就是把自家编程工具，跟AI视频生成平台HeyGen来了波梦幻联动—— 把生图、剪辑、字幕、配音这些步骤……全变成《代码工作流》。单这么说，大家是不是感觉和市面上一些AI视频工具没啥区别？？用之前我也这么觉得……但把插件装上后，我才发现自己想得是真有点简单了。(doge)—— 因为在Codex里调用HeyGen，本质上是用自然语言或代码指挥AI，生成的是类似HTML+CSS+JS的视频文件。也正是因为这样，其优势就在于：可编程可迭代、更能让我们精确控制局部细节。多说无益，我们直接小小实测一把，让友友们直观感受一下～在Codex中，我们不用装啥skill，直接在插件里搜「HeyGen」就能一键安装，超超超简单：从第一步「生图任务」开始。我在Codex里交代给HeyGen的任务是，让它生成一个数字人女孩。然后我就得到了一张人脸相对比较自然的女孩形象照，皮肤纹理、瞳孔细节、头发丝该有的都有：图片有了，下一步当然得让图动起来，咱直接试试HeyGen的看家本领：「数字人口播」。生成一个视频，让图片中的女孩张嘴说话做讲解。大概过了一分钟的时间，我就得到了一个声画同步的数字人口播视频！口型完全没问题，主体一致性完成度也比较高，不错不错：自动播放但是，大家要知道，我们之所以想在Codex中调用HeyGen—— 看中的不仅仅是它一次性生成的能力，而是能帮我们进行剪辑、局部修改的「加工」能力。所以我接下来直接上难度，我们在上个视频基础上，让HeyGen把口条改了，并加上相应的「字幕」：在这个过程中，我还发现了一件挺有意思的事儿。当Codex遇到一些小问题的时候，它能自己检查机器、调试设备、调配素材、解决故障，最后给你交出一条能直接用的成品。这也正是绝大多数AI视频生成工具无法做的—— 因为Codex本身就是一个会自己想办法把视频做完的AI视频工程师，而不是只会按提示生成一次的工具！！大概过了几分钟的样子，Codex就在上个视频版本的基础上增加了字幕。而且蛮让我震惊的是，当替换了新的字幕后，女孩的口型依旧对的非常自然，和新字幕非常匹配：自动播放最后，我直接狠试一波大家最最最关心的「自动剪辑」能力。这次，我直接给出了一箩筐《甲方需求》，也是大家平时剪辑里最常遇到的—— 把10秒以后的内容剪掉。自动播放第八秒女孩闭眼了，把那一秒剪掉。自动播放视频中的字幕变成单行，两行现在太丑了。自动播放大家觉得效果咋样，我是真挑不出啥毛病了。（惊呆.jpg）可以说每一秒，每一个需求，都剪辑地非常到位，这难道就是Codex+HeyGen的威力吗…… 而且这些视频，不夸张，大概10秒钟，就水灵灵地出现在了我的文件夹里：（文件不需要保存，自动下载到电脑里的那种) 最后，我是真忍不住说一句：从流转N个编辑器，变成在对话框里输Prompt 其实—— 把视频剪辑工作流打包在一个AI工具里，这事儿真不是HeyGen和Codex头一个想到的。之前Sora、Runway、Veo这类生成模型都做过，但是在口播讲解，生字幕，加转场这种事情上还是有点费劲。还有就是今年1月的时候，Remotion+Claude Code搞出一套「视频即代码」。但门槛还是太高了…你不会React，Claude写出来的代码你看不懂、改不动、出bug也不知道怎么修…… 而在Codex中，你不需要懂HTML、不需要懂React、不需要懂FFmpeg，这些词你听都没听过都没关系。你的工作只剩一件事:《张嘴提需求》。当然，这本身和Codex和HeyGen的各自优势有关系，我也自己问了问Codex，人家是这么回答的—— 是的，Codex写HTML、CSS、JS的水平，目前在所有AI编程Agent里是第一梯队。 HeyGen那边的家底更不用说，算得上是过去五年AI视频赛道里，极少数真正把数字人和视频生产做到能商用的公司。一个视频能力超强，一个编程能力超强，也算一波《强强联手》了。当然这些都是一些题外话了，对于我们用户来说，能帮我们省力才是最重要的～我猜啊，没准过不了几年，剪辑这活儿，没准都跟手敲代码一样，成了一种「复古手艺」了…… 让子弹再多飞一会儿吧。（doge）

2026-05-18 15:28:59

当AI“工程师”犯错时，谁能第一时间发现？

这项由罗格斯大学、德克萨斯大学奥斯汀分校和普渡大学联合开展的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.08715，有兴趣深入了解的读者可通过该编号查询完整论文。当你把一项复杂任务交给一个由多个AI"专员"组成的团队去完成时，你最担心的是什么？大概率是：万一其中某个专员出了错，而后面的专员又毫不知情地接着干，最终酿成一连串的连锁失败。这正是当今AI多智能体系统（简单理解为"多个AI协作完成任务的系统"）面临的核心困境。研究团队将这种困境形象地描述为"一个关键错误被下游智能体接受，并像滚雪球一样演变成全轨迹失败"。为解决这一问题，研究团队提出了一个名为**AgentForesight**（智能体预见）的框架，并配套了一个专门用于训练的数据集AFTRAJ-2K，以及一个经过专门训练的紧凑型在线审计模型AgentForesight-7B。这项研究的核心思路，用一句话概括就是：与其等到任务失败之后再去追责，不如在任务执行过程中每一步都设置一个"实时监督员"，一旦发现决定性错误，立刻发出警报。 --- 一、从"事后验尸"到"实时急救"：一个视角的根本转变以往，当一个AI多智能体系统完成（或失败）一项任务后，研究者会对整个执行过程进行"事后分析"，找出是哪个智能体在哪一步犯了错。这就像一场手术失败后，医院召集专家开复盘会，逐帧回看手术录像——分析很有价值，但病人已经无法挽救。学界把这种做法称为"事后归因"，现有的代表性工作包括Who&When、AgenTracer、AgentDebug等系统，它们都是在任务彻底结束、结果已经确定之后，才对完整的执行轨迹进行分析，找出那个"罪魁祸首"步骤。这种做法有一个根本性缺陷：到那时候，错误已经在系统里传播了好几步，可能触发了真实世界中的API调用、文件写入或外部服务请求，某些操作甚至是不可逆的。研究团队认为，这相当于"在盖子掀开之前什么都不知道，一旦掀开锅盖，里面的东西早就糊了"。这项研究提出的"在线审计"（Online Auditing）思路则完全不同。研究团队给在线审计的定义非常精确：在任务执行轨迹展开的每一步，一个专门的"审计员"只看到当前已执行的前缀（也就是从开始到当前步骤的历史记录），然后做出判断——要么让任务继续，要么发出警报，同时指出决定性错误发生在哪一步、由哪个智能体造成。这个审计员没有"未卜先知"的能力，看不到未来的步骤，也不知道任务最终会成功还是失败。这种约束使得在线审计比事后分析难得多，却也更有实际价值。要理解这两者的区别，可以用一个生活场景来类比。事后归因好比一个人在购物完回家后，对着购物小票发现自己买了不需要的东西，然后懊悔地列出是在哪一步做了错误决定。而在线审计则好比购物时身旁站着一位经验丰富的顾问，每当你拿起一件商品，他立刻判断"这个值得买"还是"先别放进购物车"——并在你真正做出不可挽回的决定之前叫停。 --- 二、AI工作的"执行轨迹"到底是什么？先建立一个基础认知在深入了解这套方法之前，有必要先理解一些基本概念，研究团队对这些概念做了非常清晰的形式化定义。一个多智能体系统的执行过程，可以被记录为一段"轨迹"。轨迹由一系列"步骤"组成，每一步记录了是哪个智能体角色（比如规划者、搜索员、代码编写者）执行了什么动作、产生了什么内容。整条轨迹走完之后，会有一个"结果函数"对其打分：成功得1分，失败得0分。在所有可能导致失败的步骤中，研究团队特别关注"决定性错误"这个概念。所谓决定性错误，是指那个如果被纠正，就能把失败轨迹变成成功轨迹的最早步骤。换句话说，不是每一个小失误都算决定性错误——只有那个"一旦出现、后续再怎么努力也难以挽回"的步骤，才被称为决定性错误。在对失败轨迹进行标注时，研究团队会为每条失败轨迹打上"决定性错误发生在第几步、由哪个智能体造成"的标签，而成功轨迹则打上"安全"的标签。这个框架建立之后，在线审计的任务就变得非常清晰：对于每一条正在执行中的轨迹，审计员在每一步都只看到"从第0步到第k步"的前缀，然后判断是"继续"还是"警报+指出第几步出了问题+指出哪个智能体负责"。而在整个判断过程中，审计员不能看到第k步之后发生的任何事情，也不能利用最终结果来辅助判断。 --- 三、数据集AFTRAJ-2K：为审计员准备"真实案例档案" 训练一个好的审计员，需要大量高质量的"案例档案"——既有安全执行的轨迹，也有包含决定性错误的失败轨迹，而且每条失败轨迹都要精确标注错误发生在哪一步。现有的数据集要么只有失败轨迹、缺乏成功轨迹，要么只有轨迹级别的标签（成功或失败），没有步骤级别的精确定位。为此，研究团队专门构建了AFTRAJ-2K数据集。数据集涵盖三个领域：数学推理（来自MATH-500基准）、代码生成（来自HumanEval+和MBPP+基准）、以及开放性智能体任务（来自GAIA和HotpotQA基准）。轨迹由三套成熟的多智能体框架生成，分别是AutoGen Swarm、MetaGPT和Smolagents，底层使用GPT-5.4-mini作为统一的语言模型骨干。整个数据集最终包含约2,272条经过精心筛选和标注的轨迹，其中1,158条是验证通过的"安全轨迹"，1,114条是带有决定性错误步骤标注的"不安全轨迹"。 **安全轨迹的构建：三重过滤的严苛标准** 并非所有最终答案正确的轨迹都能被纳入安全轨迹库。研究团队设计了三层过滤机制，只有全部通过的轨迹才算真正"安全"。第一层是结果等价性检验：确保轨迹的最终答案与标准答案完全一致，不同域有不同的验证方式——数学题用符号计算比较，GAIA用官方评分器，HotpotQA用特殊的文章-不敏感归一化器，代码题则通过实际运行测试用例。第二层是完整性检验：拒绝任何包含工具调用错误、序列化失败、空预测或环境限制终止的轨迹。第三层是连贯性检验：用一个GPT-5.4评判员来核查每一步的行动是否与已声明的子目标保持一致。通过这三层过滤的轨迹，才被认为在每一个前缀处都是真正安全的，可以用作正类监督信号。这种严苛标准的必要性在于：如果把那些"最终结果碰巧正确，但中间步骤其实出了问题被后续智能体修复了"的轨迹也当成安全轨迹，那么训练出来的审计员就会学会对那些"表面看起来没问题"的早期警示信号视而不见。 **不安全轨迹的构建：两条路径并行** 不安全轨迹的获取有两个来源，研究团队将其称为"构造性流"和"诊断性流"。构造性流的思路是在安全轨迹上主动"埋雷"。从一条已验证的安全轨迹出发，随机选择一个注入步骤和一个故障类别，生成一个有问题的替换步骤，然后让多智能体系统从这个被篡改的前缀开始继续往后运行，最终验证这次修改确实让结果变成了失败。由于注入位置是已知的，决定性错误步骤的标签可以直接确定。故障类别在不同领域有不同的设计。数学领域包括计算失误、过早终结、验证走捷径、错误解读验证结果等四类；代码领域包括代码逻辑错误、跳过验证步骤、错误解读验证结果等三类；智能体任务领域则包括工具注入、提示注入、验证走捷径、求解器过早给出答案、验证员文本走捷径、最终答案覆盖等更丰富的类型。注入完成后还有一道"合格检查"：如果后续智能体自我纠正导致最终结果仍然正确（意味着错误被修复了，不算决定性错误），或者目标步骤实际上没有被真正修改，则这条候选轨迹会被丢弃。诊断性流则针对那些自然产生的失败轨迹，此时决定性错误的位置未知，需要通过分析来确定。研究团队采用了一个"提议-验证集成"流程：先由5个独立的"提议者"调用返回候选的决定性错误步骤及负责智能体，然后对每个独特的候选步骤进行3轮独立验证，每次验证沿四个二元标准进行打分，分别是"错误确实存在"、"错误具有实质性"、"错误具有决定性"、"错误是最早的"。只有当某个候选步骤在四个标准全部满足的情况下获得的验证者支持数超过多数阈值（即至少2票），才会被接受为标注结果。这种设计比简单多数投票更为保守，确保了标注质量。最终，来自构造性流和诊断性流的不安全轨迹合并，与安全轨迹一起构成了完整的AFTRAJ-2K数据集。数据集按照"轨迹家族"（即一条安全轨迹及其所有注入变体）分层划分训练集和测试集，确保不会发生信息泄漏。 --- 四、AgentForesight-7B的训练：两阶段"由粗到精" 有了AFTRAJ-2K，接下来就是训练审计员。研究团队选择了Qwen2.5-7B-Instruct作为基础模型，并设计了一套"由粗到精"的两阶段强化学习训练方案。 **第一阶段：让审计员学会感知"危险边界"** 第一阶段的核心目标，是让审计员对"安全前缀"和"刚越过决定性错误的前缀"这两种情况有清晰的区分感知。研究团队将其称为"失败边界对齐"阶段。对于每条不安全轨迹，研究团队构建两个"边界对"提示：一个是包含到决定性错误步骤前一步的前缀（此时正确答案是"继续"），另一个是包含到决定性错误步骤本身的前缀（此时正确答案是"警报"）。这两个提示内容几乎相同，只差了最后那一步，但要求的判断结论却截然相反。通过让模型学习这种"一步之差、判断翻转"的规律，审计员就能内化一种隐性的"风险感知先验"——知道什么样的轨迹前缀是安全的，什么样的已经越过了危险线。这个训练方式背后用的优化方法叫BPPO（边界对偏好优化），是研究团队基于经典的DPO（直接偏好优化）专门为这种"边界对"结构设计的变体。简单来说，它让模型通过比较"对的答案"和"错的答案"来调整自己的判断偏好，而且对"边界前"（应说继续）和"边界后"（应说警报）两种情况分别优化，最终促使模型学会在决定性步骤处"翻转"自己的判断。 **第二阶段：让感知变成精准定位** 第一阶段让审计员建立了粗粒度的边界感知，但仅有感知还不够——审计员还需要在正确的时机精确指出"哪一步出了问题，是哪个智能体负责的"。第二阶段使用GRPO（一种基于组内相对奖励的强化学习方法）来进一步精炼这种能力。每次模型生成一个回答，该回答会沿三个维度被评分，研究团队将其称为"三轴奖励"。第一个维度是"什么"（结构轴）：评分函数检查回答是否符合要求的JSON格式，字段是否完整且有实质内容，格式不合格会被扣分。第二个维度是"在哪里"（时间轴）：评分函数用一个以正确步骤为中心的高斯函数来打分，预测步骤越接近真实决定性步骤，得分越高；完全精准命中得满分，偏差越大分数越低。第三个维度是"谁"（因果轴）：评分函数检查预测的负责智能体是否与真实标注一致，完全匹配得满分，不匹配只得部分分。三个维度的得分组合成一个综合奖励，其中对于"安全"轨迹给出正确判断得+1分，对于"不安全"轨迹精准命中得到由时间轴和因果轴加权的得分，而判断方向完全错误（把不安全说成安全或把安全说成不安全）则得-1分。在第二阶段的强化学习中，参考策略被固定在第一阶段训练出来的模型上，而非原始基础模型。这样做的好处是KL散度惩罚项会拉着模型回到"具备风险感知先验"的状态，防止模型在追求精准定位的过程中忘记了粗粒度的边界感知能力。整个训练过程在2张NVIDIA H200 GPU上完成。 --- 五、实验结果：和"更大更强"的模型同台竞技研究团队在两个数据集上评估了AgentForesight-7B的表现，并与大量基线模型进行了比较。评测使用的核心指标有两个。一是"精确步骤F1"（Exact-F1），这是一个综合了"召回率"和"精确率"的综合分数——简单说，既要求"不遗漏真正的决定性错误步骤"，也要求"不乱把错误的步骤误报成决定性错误步骤"，两者越平衡、越准确，得分越高。二是"绝对步骤偏移"（ASS），衡量预测的错误步骤与真实步骤之间的平均绝对距离，这个数值越小越好。 **在AFTRAJ-2K测试集上**，AgentForesight-7B以66.44的整体Exact-F1远超所有竞争对手。作为对比，同类中最强的专有模型DeepSeek-V4-Pro（一个远比7B大得多的模型）得分为46.56，差距超过19个百分点。在步骤定位精度上，AgentForesight-7B的ASS为0.59，而DeepSeek-V4-Pro为1.77，意味着定位精度提升了约3倍。分领域来看，AgentForesight-7B在数学领域的Exact-F1达到77.36（次优为DeepSeek-V4-Pro的50.34），代码领域达到78.87（次优为DeepSeek-V4-Pro的49.32），智能体任务领域达到48.70（次优为Qwen3-32B的40.00）。值得一提的是，AgentDebug-7B这个"能看到完整轨迹才进行事后分析"的基线模型，在整体Exact-F1上仅得到9.63，在数学领域甚至检测不到任何不安全轨迹。这充分说明，把一个"事后分析"模型直接拿来用于每一步的在线审计，效果非常糟糕。 **在外部基准Who&When上**，这项测试涉及127个多智能体系统，轨迹来源完全独立于AFTRAJ-2K。AgentForesight-7B在步骤准确率上达到57.69%，比最强基线GPT-4.1高出约19.59个百分点；在智能体准确率上达到73.08%，比GPT-4.1高出约6.41个百分点；ASS为1.62，优于所有基线。这说明AgentForesight-7B学到的在线审计能力具有良好的泛化性，而非只是记忆了训练数据的特定模式。 **两阶段训练的贡献分解** 研究团队还专门分析了两个训练阶段各自的贡献。以Qwen2.5-7B-Instruct基础模型（整体Exact-F1为21.05）为基准：仅使用第一阶段训练后，整体Exact-F1提升至35.63；仅使用第二阶段训练后，整体Exact-F1提升至50.42；两阶段结合后，整体Exact-F1最终达到66.44。这个分解揭示了一个有趣的规律：第二阶段单独训练在数学（63.64）和代码（72.73）领域效果很好，但在智能体任务领域（19.05）反而低于第一阶段单独训练的结果（31.58）。原因在于智能体任务的失败边界更难辨识，没有第一阶段建立的"风险感知先验"，第二阶段的精准定位训练就会"无处着力"。加上第一阶段之后，智能体任务领域的表现恢复到48.70，证明两阶段的协同是必要的。 **部署可行性：虚警率与步骤精度的双重考量** 研究团队还绘制了一张"部署权衡图"，横轴是虚警率（在安全轨迹上发出错误警报的概率），纵轴是步骤准确率（在不安全轨迹上精确定位决定性步骤的概率）。他们划定了一个"可部署区域"：虚警率不超过20%，步骤准确率不低于50%。在所有参与比较的系统中，只有AgentForesight-7B落在这个可部署区域内，其虚警率仅为2.37%，步骤准确率为59.51%。DeepSeek-V4-Pro以虚警率43.20%、步骤准确率53.99%勉强位于可部署区域之外，其他模型则大多集中在"虚警率高但步骤准确率中等"的不理想区域。 --- 六、当"聪明"的大模型也会犯的错，审计员如何应对研究团队通过具体案例展示了在线审计的独特挑战和AgentForesight-7B的优势。在一个网络搜索任务中，任务要求找到"离Rivington Hall Barn最近的前磨坊小镇"，正确答案是Bolton。搜索智能体在步骤5返回了错误答案"Horwich"，管理智能体随后将其传递并提交为最终答案。面对这个轨迹，DeepSeek-V4-Pro的判断是"整体流程看起来正常，判为安全"——完全没有发现错误；Gemini-3-Flash则过早地在步骤2（管理智能体的规划思考阶段）发出警报，属于"假阳性"。只有AgentForesight-7B正确地指出步骤5的搜索智能体是决定性错误的来源。在另一个数学案例中，决定性错误发生在步骤6，而两个专有基线Gemini-3-Flash和GPT-4.1分别在步骤4和步骤3就发出了警报——这些都是仍然可以被后续步骤修复的"可恢复步骤"，并非真正的决定性错误。AgentForesight-7B则唯一正确地等到步骤6才发出警报，精准命中真正的决定性错误所在。研究团队还分析了AgentForesight-7B自身的失败模式。在169条安全轨迹中，只有4条被错误地发出了警报（虚警率2.37%），而且这4个案例均属于"步骤内自我纠正被误判为决定性错误"——比如验证智能体的工具调用先返回了一个错误的中间结果，然后同一个智能体在同一步骤内又自行纠正了，AgentForesight-7B的风险感知先验被表面上的"错误信号"触发，提前一步发出了警报。在被正确检测到的不安全轨迹中，大约75%的定位偏差只有"偏差1步"，主要原因是系统有时会定位到"错误的根源所在步骤"而非"错误被最终提交的步骤"，这两者对人类来说可以说都是合理的解释。 --- 七、为什么不让AI自己"反思"，而要设置独立的外部审计员研究团队在论文中专门讨论了"为什么不让智能体自己反思检查，而是要设置一个独立的外部审计员"这个问题。核心原因在于一个被研究者反复证实的规律：生成一段内容，和评判这段内容是否正确，是两件难度不对等的事情。一个能力相对较小的评判者，往往可以可靠地监督一个能力更强的生成者。这在过程监督领域已经有充分的实证支持。在AgentForesight的场景中，7B的审计员可以可靠地监督底层运行着更大、更复杂模型的多智能体系统。更深层的问题在于：让智能体自己反思，相当于用生成错误内容时所用的同一套参数，去评判这段错误内容是否有问题。这就好比让一个人用同一把刻度不准的尺子，既量物体，又验证量得准不准——尺子有偏差，反思也会有相同的偏差。大量研究表明，基于语言反馈的自我纠正循环往往无法从上游错误中恢复，有时甚至会把本来正确的步骤改错。外部审计员的另一个优势是"解耦"：审计员不参与任务执行，不会干扰智能体的协作流程；审计员的训练目标和参数独立于底层智能体，因此它的"盲点"和底层智能体的"盲点"不重合。此外，外部审计员的虚警阈值可以单独调整，不影响底层智能体。实验数据也直接支持了这一点：在相同的Qwen2.5-7B-Instruct底座上，采用外部审计员范式的AgentForesight-7B（整体Exact-F1为66.44）比采用自我反思范式的Reflexion-7B（整体Exact-F1为23.38）高出约2.84倍。 --- 说到底，这项研究做了一件听起来简单但实际上颇具难度的事：把"发现AI犯错"这件事，从"等任务结束再慢慢分析"改变成了"边执行边盯着、一出错就叫停"。为了实现这个转变，研究团队构建了一套专门的数据集（每条轨迹都精确标注了"决定性错误步骤"），设计了一套两阶段训练方案（先让模型感知危险边界，再训练模型精准定位），最终得到一个紧凑的7B模型，在多个测试集上超越了参数规模大得多的专有系统。这项研究的现实意义不容小觑。随着越来越多的AI智能体被部署在真实世界的工作流程中——处理文件、调用API、操作数据库——一个能在错误传播之前及时叫停的"在线审计员"，很可能成为保障AI系统可靠运行的标配组件。当然，研究团队也坦诚地指出了局限：在线审计需要在每一步都调用审计员，增加了一定的运行开销；数据集目前覆盖的领域（数学、代码、网络搜索类任务）相对有限，尚未涵盖长期具身智能体或开放性科学发现等更复杂的场景。有兴趣深入研究这套方法的读者，可以通过arXiv编号2605.08715查阅完整论文和附录材料，研究团队也在论文中提供了完整的代码和数据集开源资源。 --- Q&A Q1：AgentForesight和传统AI错误检测方法有什么不同？ A：传统方法是在多智能体任务完全结束并失败后，才对整个轨迹做事后分析，找出哪个步骤出了问题，但此时错误已经传播，可能已触发不可逆操作。AgentForesight则采用"在线审计"方式，在任务执行的每一步都对当前已有的执行记录进行判断，一旦检测到决定性错误，立即发出警报并指出错误步骤和负责智能体，为干预留出窗口。 Q2：AFTRAJ-2K数据集是怎么保证标注质量的？ A：对于成功轨迹，研究团队使用了三层过滤机制，确保每一步都真正安全。对于失败轨迹，分为两类来源：一类是在安全轨迹上人为注入错误、精确记录注入位置；另一类是自然失败轨迹，通过"5个独立提议者+3轮独立验证"流程确定决定性错误步骤，只有在四项严格标准上都通过多数验证的候选步骤才被接受为标注结果，比简单多数投票更为保守。 Q3：AgentForesight-7B只有7亿参数，为什么能超过更大的专有模型？ A：主要原因是专门化训练。AgentForesight-7B的整个训练流程——包括数据集构建、两阶段强化学习方案、三轴奖励设计——都围绕"在前缀受限条件下进行在线审计"这一特定任务精心设计。而更大的专有模型是通用模型，没有针对这个特定任务进行专门训练，因此在这个特定场景下反而不如经过专门优化的小模型表现好。

2026-05-18 15:28:59

蚂蚁集团百灵开源万亿级思考模型Ring-2.6-1T，支持high与xhigh两种推理强度

IT之家 5 月 16 日消息，蚂蚁集团旗下百灵大模型昨日宣布，正式开源 Ring-2.6-1T，将这款面向真实复杂任务场景打造的万亿级旗舰思考模型开放给开发者、研究者与企业场景进行验证、适配和二次开发。据介绍，Ring-2.6-1T 引入了可调节 Reasoning Effort 机制，支持 high 与 xhigh 两种推理强度，开发者可以根据任务复杂度灵活控制模型思考深度，在效果、速度与成本之间取得更优平衡。其中，high 面向高频 Agent 工作流，具备更低 Token 开销与更快多步执行能力，适合多轮交互、工具协作、任务拆解和生产级默认调用；xhigh 面向数学、科研、复杂逻辑分析与多路径探索等高难任务，为复杂推理提供更充分的思考空间。 IT之家附开源链接如下： Hugging Face：https://huggingface.co/inclusionAI/Ring-2.6-1T ModelScope：https://modelscope.cn/models/inclusionAI/Ring-2.6-1T

2026-05-18 15:28:59

古尔曼称苹果下周在美国启动Apple Card拉新，办卡购AirPods Pro 3返现249美元

IT之家 5 月 16 日消息，彭博社记者马克 · 古尔曼（Mark Gurman）昨日（5 月 15 日）在 X 平台发布推文，报道称苹果公司最快下周，在美国符合条件的零售店内推出 Apple Card 拉新活动，用户办卡后购买 AirPods Pro 3，有望获得 249 美元（现汇率约合 1699 元人民币）等价现金返还。如果该拉新活动最终落地，这会成为 Apple Card 近年最激进的注册奖励之一。古尔曼称“注册 Apple Card 新卡就送”，但目前尚不清楚具体细节，包括是否需要达到最低消费、是否限首次获批用户、以及覆盖哪些门店。 IT之家注：苹果于 2019 年推出 Apple Card，由 Mastercard 与高盛（Goldman Sachs）合作支持，使用 Apple Pay 可获得不限次数的 2％返现，在 Apple 合作商户消费可获得不限次数的 3％返现。不过这张卡的商业模式并不轻松，返现成本叠加高于平均水平的拖欠率，给 Goldman Sachs 带来较大亏损。再加上相关监管要求银行提前计提准备金，这项业务的财务压力进一步放大。也因此，苹果公司后来转而与摩根大通（JP Morgan）达成协议，准备完成合作银行切换。

2026-05-18 15:28:59

马斯克开源𝕏最新算法！全网开发者逐行拆解

新智元报道编辑：好困【新智元导读】马斯克又搞大事！𝕏把社交平台绝对不会公开的两样东西「广告」和「审查」，连同一个能直接跑的推荐模型，一口气全推上了GitHub。6亿人每天刷到什么，现在是Grok说了算。就在刚刚，马斯克把𝕏最新版的算法给开源了！老马的官宣只有一句话，但瞬间就引来了超2700万网友的围观。之所以这么炸，是因为社交平台有两样东西是绝不能给外人看的：第一，广告注入系统，也就是「印钞机」。第二，内容审查管线，也就是「生死簿」。而𝕏把这两样的源码，连同一个3GB大小的推荐模型，一口气全放到了GitHub上！仓库地址：https://github.com/xai-org/x-algorithm 不是，𝕏连广告代码都给了？ 1月19日，𝕏第一次把推荐算法开源。当时公开的是Phoenix排名模型和Thunder信息流引擎，也就是是「你打开For You看到什么」的决策逻辑。但广告系统的代码，一个字都没有。这回，全给了。新增的home-mixer/ads/目录里，有四个相关的Rust文件。 partition_organic_blender.rs，负责把广告和自然内容混在一起 safe_gap_blender.rs，负责控制两条广告之间至少隔几条自然帖子 ads_brand_safety_hydrator.rs + ads_brand_safety_vf_hydrator.rs，负责管品牌安全，确保广告不会出现在暴力或色情内容旁边注意这里的关键词，blender，混合器。也就是说，广告不是硬插的，是跟你发的帖子、你关注的人发的帖子一起排队、一起打分、然后按规则混合的。你刷到的每一条广告，都是「赢」了旁边那几条自然内容才出现在那个位置的。有个审帖工具，名字叫「deluxe」另一个从未公开过的组件是grox/目录。它专管帖子发出之后、进入推荐之前的那道「审查流水线」。六个分类器各管一摊： spam.py，负责垃圾内容检测 post_safety_screen_deluxe.py，负责安全审查（「豪华版」这个命名，很𝕏） safety_ptos.py，负责平台服务条款策略检查 banger_initial_screen.py，负责爆款初筛，判断一条帖子是否「够炸」 reply_ranking.py，负责回复排序 classifier.py，负责通用内容分类这里最有意思的是banger_initial_screen。banger，爆款。也就是说，𝕏的算法里专门有一个分类器在判断「这条帖子炸不炸」，炸的优先往前排。整套Grox管线用Python写成，跟Rust写的推荐系统主体形成了分层。其中，Rust跑毫秒级排序，Python管「这条内容该不该存在」。配套的还有Kafka数据加载器、ASR语音识别处理、帖子摘要生成器，以及一个调度引擎把这些任务编排成不同的「plan」跑起来。 3GB模型给你，拿去直接跑技术圈最兴奋的可能是第三个变化。以前开源推荐算法，你看得到逻辑但跑不起来。没有模型权重，代码就是一堆空壳。这回𝕏直接塞了一个预训练好的mini Phoenix模型： Mini Phoenix Model├── 嵌入维度: 256├── 注意力头: 4├── Transformer层数: 2├── 模型体积: ~3 GB（Git LFS分发）└── 推理入口: python run_pipeline.py（检索→排序，一行跑通）一行命令，从检索到排序的完整推理流程就能跑通，pipeline结构跟生产环境一模一样。当然，mini模型的参数规模远小于线上那个。但这已经是社交平台历史上，第一次有人把「能跑的模型」和「生产级代码」打包在一起给出来。一条帖子的生死，15个概率说了算广告、审查、模型是这次最炸的三个新组件。但它们各自填进了推荐pipeline的具体位置。 1月那一版，pipeline六步里大部分只有骨架代码。这次补全之后，每一步都有了完整的Rust或Python实现。从2个候选源到7个以上，从0个用户画像hydrator到17个。直接把整条pipeline从「能看」变成了「能跑」。整条pipeline的灵魂在第5步打分。 Phoenix的Grok Transformer给每条帖子打分时，会同时预测15种用户行为的概率。最终得分的评判如下： Final Score = Σ (weight_i × P(action_i)) 正向行为 → 正权重（加分）负向行为 → 负权重（重扣） 15道考试，11道加分题，4道送命题。你的帖子每一条都要走这么一遍。 We have eliminated every single hand-engineered feature and most heuristics from the system。所有手工规则全砍了，100%靠Transformer端到端学出来。打分机制里还有一个设计叫Candidate Isolation，候选隔离。 Transformer推理的时候，候选帖子之间互相「看不见」。每条帖子只能看到用户的历史行为，看不到同一批里有什么其他帖子。为什么要这么做？因为如果候选帖子互相影响，同一条帖子跟50条候选一起送进去和跟500条一起送进去，得分会不一样。而𝕏通过注意力掩码把这个依赖彻底切断，每条帖子的分数独立、稳定、可缓存。换句话说，这15种预测，不是在猜「这个人喜欢什么」，是在判断你会做什么、不会做什么、以及做完之后会不会后悔。你的For You，现在是一本打开的书如今，全球主流社交平台里，𝕏是唯一一个把推荐算法、广告系统和内容审查管线都摊在GitHub上的。你的For You怎么排序，广告怎么混进来，哪些内容会被干掉，现在都有一份Rust和Python写成的答案。而且这套推荐系统已经100%切换到Grok Transformer驱动，手工规则全砍。也就是说，xAI的模型能力已经从聊天机器人，渗透到了6亿人每天的信息消费决策里。推荐系统，可能是当下最有实权的AI应用场景。谁控制了排序，谁就控制了注意力。有兴趣的可以git clone下来跑一把。 3GB模型，一行命令，你就能看到那15个概率是怎么决定你每天刷到什么的。

2026-05-18 15:28:59

摩尔线程2026产品发布会将于5月18日举行

IT之家 5 月 16 日消息，摩尔线程 (Moore Threads) 现已宣布，其 2026 产品发布会将于 5 月 18 日 19:00 举行。从预热视频来看，该企业有望带来 NAS / 迷你主机形态的家庭 AI 产品。

2026-05-18 15:28:59

奥特曼亲推！400万周活Codex杀入移动端，码农不用再死守电脑了

新智元报道编辑：元宇【新智元导读】400万周活的Codex，被OpenAI装进手机了！OpenAI官宣，Codex进入ChatGPT手机App，开发者离开电脑，也可以用手机随时审批命令、调整方向，指挥智能体继续跑活。程序员把任务扔给Codex，自己就可以出门喝咖啡了？刚刚，OpenAI把Codex装进了手机：Codex已进入ChatGPT手机App预览版，面向iOS和Android全量开放，覆盖所有套餐，包括免费版和Go用户。 OpenAI官方预告语说，用户期待这项功能已经很久了。奥特曼也发帖亲推：这是ChatGPT移动应用中的Codex！从此，开发者变身24小时AI监工：离开电脑，也可以通过手机看进度、审diff（代码变更对比）、批命令，智能体在电脑、devbox或远程环境里继续跑。 https://openai.com/index/work-with-codex-from-anywhere/ 正如OpenAI官方博客所言，「你可以随时随地和Codex一起工作」：移动端Codex的推出，呼应了AI编程长时任务带来的需求。过去，写代码是人坐在机器前输入指令的过程。现在，Codex每周有超过400万名开发者在使用，Codex处理的已经是长达数小时乃至数天的任务。智能体在跑，人在别处，异步审批正逐渐成为常态。当智能体跑到岔路口，需要一个判断，而你在咖啡馆、在通勤、在开会，这正是Codex移动端要解决的问题：让你在任何地方都能给智能体一个指令，让它能继续跑任务。手机是遥控器开发环境一直在电脑里很多人看到「Codex进手机」，第一反应是：以后可以在手机上写代码了？并非如此。 OpenAI的产品逻辑是这样的：Codex继续运行在你的电脑、Mac mini、公司devbox，或者公司远程开发环境里。文件、凭证、权限、本地配置，这些东西并不会搬到手机上。 ChatGPT手机端菜单已出现Codex入口手机端能做的，是作为控制面板：查看所有活跃线程、审查智能体的输出、批准它申请执行的命令、切换使用的模型、开启一个新任务。与此同时，智能体的实时状态会推送到手机上，包括截图、终端输出、diff、测试结果，以及需要人工介入的审批请求。底层是一套安全中继层（secure relay layer）。它让你的主机可以跨设备被访问，但不直接暴露在公网上。设置流程也相对直接：在macOS Codex App里开启远程访问，扫二维码，ChatGPT手机App完成连接。咖啡店、地铁、午餐桌、多任务监督四个正在被改写的场景场景一，咖啡店里审diff。早上派下去的几个任务，到点查一下进度，diff一目了然。某段改动方向不对，在手机上敲两句注释回过去，智能体收到就接着调整。开发者人不在工位，代码却没停下来。一杯咖啡的时间，三个PR的进展全部回顾完，必要的反馈都已经发出去。场景二，通勤路上改方向。智能体跑到一半卡在某个不熟的API上，主动给开发者发问询。地铁里看一眼，回复「用X库的Y方法」，智能体拿到答案继续跑。决策的颗粒度变细了：开发者不再亲自写代码，但持续在校准方向。一段30分钟的通勤，原来是无法转化成产出的纯消耗时间，现在能消化掉两到三个智能体的关键决策点。场景三，午餐时塞个新想法。吃饭刷动态时冒出一个产品idea，掏出手机派给智能体「先做个原型出来」。等下午回工位，已经有可看的提交记录在等着。从想法到代码的转化路径被压短了，原来需要一个晚上，现在压缩到一顿饭。场景四，多任务并行监督。同时三四个智能体在不同任务上跑，开发者用手机切换审阅。工作方式从「一次写一个项目」换成了「一次监督一组工程」。一个人手里同时挂着四五条线，每条线都在推进。每个智能体独立工作，开发者只在关键节点出现。四个场景指向同一件事：开发者的输入从「代码」换成了「判断」。手机够用，是因为输入的内容本来就不需要键盘和大屏。两句注释、一个方法名、一个「继续」或「重做」，这些是手机最擅长的输入形态。手机批代码，风险也需知道在手机上审批智能体任务，也可能带来更高的错误风险。小屏幕、多任务场景下，注意力质量很难匹配开发决策的要求。这并非小题大做。Codex在手机上等待批准的，往往并非普通的操作：shell命令要不要执行、两条重构路径走哪一条、一个权限申请批不批。这些判断在桌面IDE前可以放大窗口、对照上下文、反复确认。在通勤途中，很可能就是瞥一眼、划一下。 OpenAI在安全设计上做了一些应对：Hooks支持扫描提示词中的敏感信息、运行命令验证器；企业用户有权限管理和审计日志；Codex默认沙箱运行，需要更高权限时会主动申请。但工具的设计再完善，移动端审批本质上也是在把关键决策点搬进了碎片化注意力的场景。如何平衡便利性和严谨性之间的矛盾，仍是一个有待解决的问题。开发者从踢球的人变成了场边教练手机审批只是表象。 OpenAI在2月的Codex App发布中写过一句话：核心挑战已经从「智能体能做什么」，转变成「人如何在更大规模上指挥和监督智能体」。手机端是这句话的一个落地，背后是整套工作流的重塑，有三层东西同时在被解构。第一层，时间。过去，开发者的产出很大程度上受限于在场时间：人离开键盘，代码推进也往往随之暂停。现在，Codex可以在主机、devbox或远程开发环境中持续运行，开发者不必始终守在屏幕前，只需要在关键节点介入判断、审批和纠偏。当一个开发者手里同时挂着多个智能体任务时，工作流的瓶颈会从「亲自敲代码」转向「拆解任务、判断方向、审查质量」。这并不等于线性获得数倍人工编码时长，但确实会把原本容易空转的等待时间利用起来，也让单个开发者能够管理更多并行任务。产能的天花板，正在被重新定义。第二层，空间。决策可以发生在任何有4G信号的地方，但空间被解构并不等于「程序员变自由了」，决策密度反而在上升：原来一天写6小时代码，现在每隔半小时就要回应一次智能体的问询。开发者不被工位绑住，却被智能体的进度条绑住。智能体越能干、跑得越快，开发者要做判断的频次就越高。第三层，注意力结构。过去写代码要进入flow状态，连续输出几十分钟乃至几小时。现在的模式是碎片化决策：给智能体一段方向，等结果，再校准，再派下一步。开发者从「亲自下场踢球的球员」，变成了「场边的教练」。球员靠训练量堆能力，教练靠判断、经验、阅读比赛。两件事的核心能力并不相同。这套新工作流里，受益最大的是三类人。独立开发者：一个人也能并行四五个项目，资源杠杆被放到极致。精力上限的瓶颈被智能体打开，新的瓶颈转移到判断力和方向感。小团队：把智能体当低成本的「虚拟工程师」，三五个人加上一组智能体，能撑起的业务量级在过去需要约20人的团队。大厂工程师：从重复编码里抽出的精力，转去做架构设计、跨团队对齐、码审查这些智能体还不太擅长的事。资深工程师的价值被放大，初级工程师面临的挑战会更现实。开发者的能力门槛没有变低，只是技能权重换了。「写代码」在工作占比里的权重在下降，「定义任务、监督质量、判断方向」的权重在上升。能拿这套工作流跑出5倍产能的人，会比只会埋头写代码的人值钱很多。这一步棋 OpenAI已经布局了三个月 Codex的移动端并非突发动作。回头看，这是一条清晰的产品线。 2026年2月，OpenAI推出Codex macOS App。官方当时的定位是「agent command center（智能体指挥中心）」，设计目标是管理多个智能体并行运行、处理长任务、支持diff审查和工作树隔离（worktree isolation），让不同智能体可以在同一个代码库的不同副本上工作而互不干扰。 2026年2月2日，OpenAI发布Codex macOS App。https://openai.com/zh-HansCN/index/introducing-the-codex-app/ 2026年3月，Codex App更新Windows版本。 2026年4月，智能体获得在桌面后台持续运行的能力。 2026年5月初，OpenAI推出Codex Chrome扩展，允许智能体在真实浏览器会话中工作。 5月14日，手机端。每一步都在扩大控制面。桌面App是起点，跨系统是纵深，移动端是触角，Chrome扩展是感知。这次的企业能力也同步发布。 Remote SSH（远程SSH连接）正式GA（进入通用可用状态），Codex可以直连公司的受管远程环境，访问其中的依赖、凭证和安全策略。 Hooks也进入GA，支持扫描提示词中的敏感信息、运行验证器、记录会话日志，或者针对特定代码仓库定制Codex行为。此外还有程序化访问token（programmatic access token），可以从ChatGPT工作区设置中签发，用于CI流水线、发布工作流和内部自动化。以及HIPAA合规本地环境支持，面向医疗机构开放。目标群体已经不只是个人开发者，Codex在朝着团队级、企业级工作流走。 Anthropic先到 OpenAI在追 Anthropic早在2月就做了类似的事，OpenAI这次是在快速补课。 2026年2月，也就是OpenAI推出Codex macOS App的同一个月，Anthropic已经发布了Claude Code的Remote Control功能，允许用户从远端监控和介入Claude Code正在执行的任务。据TechCrunch报道，这与OpenAI这次的Codex移动端方向高度相似。这场仗的战场，已经从「谁的模型更能写代码」转移到了「谁能锁住开发者的工作流入口」。 GitHub Copilot式的代码补全只是一个功能，用完即走。 Claude Code和Codex争的是另一个层面的东西：开发者日常工作的调度中心。谁的工具深入开发者的项目、线程、凭证、任务队列，谁就能在工作流里扎根。 5月13日，也就是Codex手机端宣布前一天，奥特曼宣布：任何切换到Codex的公司，可以获得两个月免费使用，攻势直指Anthropic。时间点并非巧合。就在更早一些，有报道指出Anthropic因需求持续攀升而上调了部分定价。OpenAI顺势打出补贴牌，攻势明显。这是两家公司之间的一个惯常模式。Anthropic涨价，OpenAI降价。每一次都像是在问同一个问题：开发者，你最终要用谁的工具？这次Codex进手机，是OpenAI与Claude Code Remote Control的一次正面对决。 AI编程的战场，已经从开发者的工位，烧到了口袋。

2026-05-18 15:28:59

OpenAI把ChatGPT接进银行，它知道你攒了多少钱，但碰不了一分

新智元报道编辑：元宇【新智元导读】OpenAI刚把ChatGPT接入了银行账户。目前该功能以预览版形式面向美国ChatGPT Pro用户开放，可以通过Plaid连上12000家金融机构的账户，获得消费分析和理财规划辅助。从此，聊天框旁边，多了一个能帮你看每月账户流水的大模型。 OpenAI开始让ChatGPT读你的银行账户数据了。刚刚，OpenAI推出了ChatGPT个人理财功能预览版。用户授权后，可通过Plaid在ChatGPT中连接超过12000家金融机构账户，并基于余额、交易、投资和负债等数据，获得消费分析、预算梳理和长期财务规划辅助。 OpenAI官方披露，每月已经有2亿人在ChatGPT里聊钱：聊预算、聊投资、聊买不买得起房。实际上，用户早已把ChatGPT当理财顾问用了，OpenAI这次只是把数据通道补上了。以前你问ChatGPT「我该怎么存钱」，它给出的都是教科书式通用建议：盯住餐饮和订阅、48小时购买原则、自动转账到独立储蓄账户、留一个低消费默认、增加一点收入、每周只跟踪一个数字…… 这听起来都对，但实际上和自己的财务状况没什么关系。现在，通过个人理财功能问同样的问题，ChatGPT可以直接调取你2月到5月的真实账单——餐饮约1620美元、购物约1250美元、交通约1450美元、订阅约420美元，并基于这些数据，生成专属于你的个性化理财方案：餐饮每月封顶450、购物每月封顶300、交通每月封顶400、每周买菜目标125-150美元、自动转500美元到储蓄账户，目标每月多攒705美元。说的是你自己的钱，给出的也是为你量身定做的建议，这正是「通用问答」和「个人理财助理」之间的区别。同一个问题，连接账户前后的回答对比。左：通用储蓄建议；右：ChatGPT读取真实消费分类数据后给出针对性方案。这也是通用AI助手，首次以ChatGPT这种用户规模进入「钱包级」敏感数据场景。从此，聊天框旁边，多了一个能看见你工资流水、信用卡账单、订阅扣费、负债余额的大模型。这次发布，OpenAI同时上线了个人理财功能的web端和iOS端App，账户同步完成后，仪表盘会直接呈现投资组合表现、消费分类、订阅项目和待付款项。 OpenAI官方，也为这个功能划了边界：它不是专业财务建议的替代品，也不替用户做决定。 12000家金融机构，一个授权每月超过2亿人向ChatGPT提出财务相关问题，问答能力是ChatGPT本来就有的能力。这次个人理财功能最大的改变在于数据接入权，通过Plaid，这次功能覆盖超过12000家金融机构。进入个人理财功能预览版的入口操作很简单：打开ChatGPT侧栏的「Finances」（财务）选项，点「Get started」（开始使用），或直接在对话框输入「@Finances, connect my accounts」（@财务，连接我的账户）。 ChatGPT个人理财功能连接流程：从侧栏Finances入口发起，经Plaid授权，American Express、Charles Schwab、Robinhood等账户逐一同步完成。之后ChatGPT会引导你通过Plaid完成账户授权，几分钟后同步完成。很多人看到这里的第一反应可能是：OpenAI直接接入银行了？并非如此。还要通过一个关键中间层：Plaid（金融数据连接服务）。用户会按Plaid/银行的授权流程完成登录验证；在需要输入银行用户名和密码的场景下，Plaid称不会把这些登录凭证分享给OpenAI这类应用。也就是说，OpenAI拿到的是结构化的财务数据，拿不到你的银行密码。通过Plaid，这次个人理财功覆盖的金融机构包括Schwab、Fidelity、Chase、Robinhood、American Express、Capital One等。同步完成后，你会看到一个仪表盘：投资组合表现、消费分类、订阅项目、即将到期的账单。然后可以直接提问，问题可以很具体：「我5年内能在芝加哥买房吗」「我有哪些订阅可以取消」「我的消费结构哪里出了问题」。 ChatGPT结合你的真实账户数据回答，而不是给一套通用模板。目前，该功能面向美国Pro用户开放，支持网页端和iOS。 OpenAI的计划是先积累早期反馈，之后扩展到Plus用户，最终目标是面向所有人。 OpenAI把自己锁在了「只读模式」边界比功能更值得关注。在这次Plaid账户连接预览版中，OpenAI把权限限制在「只读」范围内。 ChatGPT可以访问账户的余额、交易记录、投资持仓、债务负债，但它不能查看完整账号、不能更改账户任何信息、不能转账、不能下单、不能进行投资操作。也就是说，它知道你有多少钱，但碰不了一分。这样的设计并非技术限制造成的，主要原因还是安全可控的考虑。在高敏感场景里，「只读」是建立信任最快的路。第一步让AI可以读数据，提供理财建议；信任建立起来之后，才是第二步「帮你操作」。数据保护机制上，OpenAI也推出了配套措施：账户断开后，已同步的财务数据会在30天内从OpenAI系统删除；临时对话不接入金融账户。此外，ChatGPT还会从你的描述里提炼「财务记忆」，比如「我在攒钱买车」「我欠XX多少钱」，这些记忆可以在财务页面单独查看和删除等。 GPT-5.5模型敢做金融的底气底座模型方面，连接金融账户的对话默认调用GPT-5.5 Thinking，Pro用户可以调用更高一档的GPT-5.5 Pro。 OpenAI为此专门做了一套内部个人理财基准测试，邀请超过50位来自主流金融机构的专业人士共同设计评估维度，评分是响应质量与准确性的加权综合。 OpenAI内部个人理财基准测试：GPT-5.5 Pro以82.5分居首，默认调用的GPT-5.5 Thinking得79分，同系列Instant模型得分59.4分。在OpenAI内部的个人理财基准测试中，GPT-5.5 Thinking得79分（满分100），GPT-5.5 Pro得82.5分。横向对比：GPT-5.4 Thinking只得76.6分，GPT-5.5 Instant和5.3 Instant分别是65.1和59.4分。这次个人理财功能默认选Thinking，而不是Instant，主要原因是多变量上下文推理：既要算清楚收入、支出、余额、债务、目标、时机，还要在不确定时说清假设、还需要哪些信息，这正是Thinking类模型的长处。更值得注意的是，GPT-5.5正在成为OpenAI垂直化的通用底座。健康场景、金融场景，两个高敏感行业，OpenAI都没有做专门的微调版，而是直接用通用旗舰模型来做。从问答入口到数据入口理财只是入口，数据才是目的。表面上看，是一个「AI私人理财助手」的产品发布。但OpenAI的野心，远不止于理财。 OpenAI的逻辑是：从通用问答，到高敏感垂直数据场景，再到行动闭环。据TechCrunch报道，就在这个功能发布前约一个月，OpenAI收购了个人理财初创公司Hiro的团队。 Hiro是一家个人理财初创公司，此前专注于帮助用户做个性化预算规划和消费行为分析，这套能力直接沉淀进了这次ChatGPT理财功能的体验设计里。与Intuit的合作也在推进中，根据双方联合公告，未来用户可以在ChatGPT里直接完成股票出售的税务影响估算、信用卡申请的批准概率测算，然后跳转到Intuit完成操作。接入Intuit之后，ChatGPT的理财建议将从「分析」延伸到「执行」，用户不只是听AI说「你该怎么报税」，而是可以在对话里直接完成税务估算，然后一键跳转到TurboTax提交申报。这就是OpenAI想建的闭环：「问答入口」先让你问，「数据入口」让它看到你的真实情况，最终「行动入口」让它帮你执行。这三个层级的商业价值，完全不在一个量级。「问答」可以被任何竞争对手复制。「读账户+帮执行」，护城河就厚得多了。每月有超过2亿用户向ChatGPT咨询财务问题，以前这2亿个问题没有数据支撑。现在，愿意连接账户的那部分用户，开始提供真实的财务数据作为对话上下文。这个飞轮一旦转起来，个性化的深度是通用AI难以想象的。当然，最核心的问题是：最终一切还要看用户数据说话。目前，这项功能仅对美国Pro用户开放，每月订阅费200美元。 OpenAI的计划是先从这批用户收集反馈，改进后扩展到Plus用户，最终目标是面向所有人。当一个AI能看到你全部的收支流水，知道你每个月在什么地方花了多少钱，你对它说实话的概率，会不会比对一个人类理财顾问更高？面对人类理财顾问，很多人会美化自己的消费习惯；但当面对AI，人们可能会更诚实。如果真是这样，AI更能看清你的财务问题，就不只是一个效率问题了。

2026-05-18 15:28:59

走进数采工厂：深聊机器人数据荒漠、四层金字塔与种树人

作者：硅谷101 当Scaling Law让大语言模型一路狂飙，用万亿参数涌现一代又一代更强大的智能之际，机器人领域却被数据荒漠所困，让具身智能的泛化性和自主性进展迟缓。为什么AI能用的数据，机器人用不了？机器人的四层数据金字塔是如何运作的？每一层的进展和技术困境分别是什么，以及，我们如何才能解决机器人的数据难题呢？这篇文章继续我们的“机器人专辑”，之前我们已经讲过了灵巧手、机器人闭源模型和开源模型，这一期我们来聊聊这个领域一个非常核心的部分：数据。为此，我们飞到上海，走进了机器人数采工厂，甚至有机会亲自尝试了一下“遥操作采集员”这份工作。除此之外，我们也跟智元、Sharpa等机器人公司们一起深入聊了聊，当前机器人数据的技术路线以及未来发展。（本文为视频改写，欢迎大家收看以下视频） 01 稀缺的机器人数据真实缺口有多大？首先我们来回答一个问题：什么是机器人数据？它跟AI大语言模型，以及图片和视频模型的数据有什么不同呢？大语言模型是靠“吃掉互联网”变聪明的。GPT-4的训练数据量以万亿token计，相当于把人类有记录的知识积累全部摄入。简单来说，AI生文、生图以及生声音、生视频的模型参数都可以在互联网上找到。大语言模型用的是“世界的文本语言”，包括文本、代码以及标注过的结构化文本，来帮助AI理解和生成“语言序列”。类似的，图像模型用的是“世界的瞬间截图”，声音模型用的是“世界的震动信号”，而视频模型用的是“世界的连续变化”，而这些数据，都大量存在互联网上。而机器人需要的数据是具身本体在真实物理世界里，和具体物体发生具体交互时产生的多维度传感器信号：视觉、力觉、关节位置、电机控制量，全部精确同步，时间戳对齐，才构成一条有用的训练轨迹。这些信息从来没有被系统性地记录过，也没有任何理由会被被动产生。姚卯青智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 机器人完整的数据，包括各种传感器所带来的数据，有视频，还有力触觉传感器等。它的输出是对身体上每一个电机关节的控制量，能够控制全身多达几十个自由度的关节协调配合，去完成具体的任务。它的难点就在于这些数据天然是不存在互联网上的，它需要我们以某种方式去采集，无论是在真实环境里采集，还是在虚拟世界里采集，都需要先布设机器人、搭建场景，再引入遥操人员来控制机器人采集这类数据。张凯峰 Sharpa研究科学家、学术负责人我觉得数据最大的难点在于我们没有办法采集到机器人自己在干活的数据，我们能采集到的其实是人在操作的数据，比如动作捕捉（MOCAP data），比如YouTube数据。所以要做好teleoperation（遥操）、让机器人自己去操作其实比较困难，主要原因是机器操作员是感受不到机器人的感受。这就是整个行业数据困境的根源：每一条高质量数据都必须从零开始生产。我们来用几个数字，试图展示一下这个缺口有多大。谷歌DeepMind在研发机器人模型RT系列第一代时，调动了13台机器人，在办公室厨房环境里持续采集了整整17个月，才积累了约13万条操作轨迹、覆盖700多项技能。为了训练RT-2，谷歌联合了全球34所研究机构，把60个已有数据集全部合并，加上来自22种机器人平台的真机数据，才凑出了Open X-Embodiment，一个包含超过100万条操作轨迹的开源数据集。这已经被认为是目前全球最大的跨机构真机数据集，但即便如此，它涵盖的527项技能和对应的场景，和现实世界的需求之间，依然是以数量级计的差距。面对如此难获得的机器人数据，怎么办呢？如今，行业摸索出了四条并行路线。它们的质量从低到高排列，构成一个金字塔，每一层都有自己的优势、上限和真实代价，接下来我们来一层一层给大家拆解。 02 数据金字塔顶层准确但昂贵的真机数据金字塔的顶层，就是遥操数据，又被称为“真机数据”。操作员通过外骨骼或遥操系统，实时控制机器人在真实场景里完成操作，机器人所有传感器全程录制。这层数据信息最完整，真实的物理接触、真实的不确定性、真实的失败和恢复，是今天让机器人真正能在现实场景落地的核心原材料。我们也正好有机会来到上海，走进智元机器人的数据采集工厂，看看真机数据是怎么采集的。姚卯青智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 我们这里有200台机器，每台机器至少配一个采集员，有些任务还会配备一位同事来搭配布置场景。” 但你以为遥操员是一个很简单的工作吗？答案是：并不是。反正我们在现场试了一下，发现这个工作还是很有门槛的。陈茜硅谷101联合创始人一个数据采集员，他需要什么样的资质才能把这个数据采集好呢？姚卯青智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 我觉得最重要的是天赋，好的数据采集员和差的数据采集员，效率可能相差3倍。我认为一个有天赋的数据采集员，首先是协调性非常好、空间感特别强的人。因为在采集数据的过程中，其实是在隔空控制另外一个身体，没有直观的触觉反馈，只能通过肉眼来闭环。机器人手臂和人手臂的构型也不一样，人能达到的很多姿态，机器人未必能够到，所以还要预判机器人怎样才能更高效地够到目标，再去设计自己的动作轨迹。其次是对空间的精度判断要很准，如果空间感差，明明想让机器人去抓，结果抓过了，或够不到，或一夹就滑，这种情况都非常常见。还有就是体力要好，一天下来其实非常辛苦。智元机器人采集员有些人是站着采的，有些人坐着采，两种感觉不一样。陈茜硅谷101联合创始人从刚入门的一个采集员到你这样的金牌采集员需要多长时间？智元机器人采集员入职需要一周培训时间，培训完先入门，之后任务难度逐级递加。姚卯青智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 即使是有天赋的采集员，从零基础到九成功力，大概也要一个月。Zero to hero（从平凡到英雄），要一个月吧。对于一个专业的金牌数据采集员来说，我刚才失败了N次的机器人摆放字母的任务，他一次就搞定了，而这样的数据采集，为的就是机器人的精确控制能力。但就算是专家水平的遥操员，也不是每一条都可以被算作是有效数据的。陈茜硅谷101联合创始人人类遥操数据的成功率是多少？任务难易程度不一样可能也会影响，我很好奇这个效率怎么算？姚卯青智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 一个专业遥操员，8小时工作大概能平均产出2到3小时的有效数据。因为中间必然会涉及两个采集之间的场景布置、数据上传，以及操作失败后的丢弃和重试。陈茜硅谷101联合创始人所以就大概1/4。所以，真机数据的优势是准确，更容易直接部署、后期调参成本也更低，但它的代价也非常直白：贵，并且慢，不容易指数级扩张。数采工厂涉及到硬件成本、场地成本、人工标注和监督成本，以及时间成本，与互联网数据相比，规模完全不是一个量级。智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 我们今年真机产能有200万小时，对应着接近2000台机器人和背后规模相当的采集员团队。陈茜硅谷101联合创始人这个规模会越来越大吗？姚卯青智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 真机今年差不多稳定在这个水平，当然也会根据市场的动态需求相应扩产。不可否认，人力成本我相信一定会是将来竞争力和效率里非常重要的一环。这也是为什么中国发展起了大量的数据采集，而美国相对进展比较缓慢，此前特斯拉招聘采集员的薪酬就是50美元一小时。如果是100万小时，今天放在全球就一定是碾压式的存在了。陈茜硅谷101联合创始人但100万小时就能解决问题了吗？姚卯青智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 我觉得在一些特定领域100万小时应该可以达到非常好的效果了。今年我们接触了很多有数据需求的客户，作为觅蜂的话，我们也在看很多客户的需求，提出100万小时需求的单个客户已经非常多了。这只是第一步，大家到了100万一定会想1000万。但即使是1亿小时，对于大型人工智能公司每年的基础设施投入来讲，也还是一个非常可控的部分。顺便说一句，智元正在将真机数据做成一站式的物理AI数据服务平台，想要解决的就是当前机器人行业面临的真机交互数据荒漠的问题。觅蜂科技，押注的是构建物理AI数据基础设施，实现真机遥操、无本体采集、仿真数据全范式覆盖，并打通硬件、软件、平台、运营的全链路。觅蜂科技2026年真机遥操产能接近200万小时，同时规划采集约800万小时的Human-Centric数据，背后是将近2000台机器人和对应规模的采集团队，在中国国内以及东南亚多地同步运作。可以看到，这就是机器人行业中的“石油业务”，而数据生态正在迅速崛起，并且需求量非常大。 03 金字塔第二层仿真合成数据金字塔从上往下的第二层，就是“仿真合成数据”这条规模效应最极致的路线，这也是黄仁勋的英伟达重点押注的路线。顺便说个小八卦，听说黄仁勋的一儿一女都在英伟达的Physical AI仿真部门，可见老黄对这一块有多看重。简单来说，这不是从真实世界采集，而是在虚拟环境里“生成出来”的数据。与一条一条训出来的真机数据做个对比：英伟达Isaac Lab可以在单台GPU上并行运行成千上万个虚拟机器人同时训练。规模可以是无限的，你想要多少数据，就有多少数据。比如说，机器人公司Sharpa在2026年CES上超火出圈的乒乓球机器人，就是花了40个小时用纯仿真数据训练出了0.2秒量级的击球反应速度，这就是这条路线的一个具体案例。仿真还能做一件真机采集做不到的事：生成现实中极难遇到的边缘场景。机器人在仿真里可以反复摔倒、反复失败，所有失败都成为数据，而不造成任何真实损失。此外，Sharpa的研究科学家还告诉我们，仿真技术让“触觉”这种真机更难采集的数据有了新的突破。张凯峰 Sharpa研究科学家、学术负责人我们最近跟英伟达合作了一个触觉仿真工具叫Tacmap，它做了这样一件事：对于传统视触觉而言，你需要在simulation（仿真）里建模视触觉指尖，但你没办法在simulation（仿真）里安装摄像头去观察marker（标记）点的形变。所以我们提出了Tacmap。它用物体与指尖穿膜的深度图作为介质，在仿真里可以高效获取这个deformation map（形变图），并且具有良好的物理特性。在现实环境中，我们也通过类似方式获取deformation map（形变图），通过大量数据采集训练了一个翻译模型叫translation model，将raw image（原始图像）翻译成deformation map（形变图）。基于这个deformation map（形变图），我们实现了一些技能的Sim-to-Real（从仿真到现实），能够完成一些精细化操作。当然，这个路线有一个巨大的漏洞，就是嘉宾刚才提到的Sim-to-Real Gap，字面意思是“仿真到现实的鸿沟”。问题的本质是：机器人在虚拟环境里练得再好，放到真实世界里往往会出问题。为什么会这样呢？因为仿真环境是人用代码构建的物理世界的近似，但真实世界的物理复杂得多。举一个最简单的例子：机器人在仿真里学会了抓一个塑料杯子，仿真里这个杯子的重量、摩擦系数、形变方式都是固定的参数。但真实世界里，湿手拿杯子和干手拿杯子的摩擦系数不一样，杯子里有没有水重量也不一样，光滑桌面和粗糙桌面上的杯子滑动方式不一样。这些细节，仿真里要么没建模，要么建模不够精确。总的来说，运动学层面的问题，包括关节怎么弯、手臂走什么轨迹，相对容易在仿真里做好，放到真机上效果也还行。但真正难的是动力学层面，比如物体之间接触时力怎么传递、软性材料怎么形变、液体怎么流动。这些现象对今天的物理引擎来说还很难完整复现。结果就是：机器人在仿真里练了一万次叠衣服，放到真实的毛衣面前，因为布料的柔软程度和仿真里的参数对不上，动作就会出错。这不是模型不够聪明，是它从来没有经历过真实的物理接触。目前，行业中的解决办法包括：域随机化（不去做一个“完美仿真”，而是做“很多不一样的仿真”，逼模型学会忽略差异、抓住本质），还有把仿真做得更好更真（这也是英伟达主要在做的事情），以及用少量的真机数据去微调。但张凯峰认为，最终还需要一个更创新的解决之道。张凯峰 Sharpa研究科学家、学术负责人现在很难解决的一个动力学的Sim-to-Real Gap（从仿真到现实的鸿沟）是环境的dynamics（动力学），也就是说你很难对齐这个物理世界的环境和现实世界的环境的迁移，也就是我们所说的transition model（状态转移模型），所以这是我觉得是目前还需要一些科学方法上的创新。除了Sim-to-real，Real-to-sim Gap（从现实到仿真的鸿沟）也是目前行业中的核心挑战，这个词和Sim-to-real是反过来的，意思是你没办法把真实世界准确“搬进”仿真里。因为现实世界太复杂了，咱们的真实环境中有无限的细节、噪音和不规则的事件，还有很多难以观测的参数。所以仿真世界，其实没有那么好建。 04 金字塔第三层动捕数据我们继续往机器人的数据金字塔下面走，到第三层，动作捕捉数据。动作捕捉数据集，被称为MOCAP。这个派系是用光学设备或视觉算法追踪人手的运动轨迹，比纯视频多了“怎么动”的信息维度。动捕数据的本质是记录“人是怎么动的”，然后再把这个动作“映射”到机器人上。比如说，机器人算法公司Physical Intelligence的π0系列就大量使用了这类数据。π0.5在大约400小时移动操作数据和大规模网络数据的基础上，实现了在真实家庭环境里完成长程任务的能力。它的优点是：数据质量高，尤其在运动结构上，能大幅减少无效数据，对复杂动作特别有效。大家看到的很酷炫的很多机器人跳舞，武术等等任务都是用到了动作捕捉的数据收集，这是纯强化学习很难达到的效果。但这个路线除了成本贵和数据覆盖有限之外，还有一个很关键的劣势就是：人毕竟和机器人的结构不一样，这就是Embodiment Gap（具身鸿沟）。张凯峰 Sharpa研究科学家、学术负责人一方面，视觉上看到的是人的手，而不是机器人的手，所以存在视觉上的gap（差异）。第二个问题是state（状态）上的gap（差异），通过动捕或其他方式得到的state（状态）其实不够准确，会有自遮挡的问题，也会有被物体遮挡的问题，所以得到的动作也是不准确的。 Embodiment Gap的意思是，人的身体和机器人的身体之间，有一道操作语义上的沟壑。人手在操作时依赖皮肤上密布的触觉感受器，每抓一个物体，神经系统都在实时根据触觉反馈调整力度。机器人没有这套系统，所以即使动作轨迹被精确复制，完成任务的能力也不会自动跟上。除了Embodiment Gap，还有另外一个没有克服的难题，叫做Functional Retargeting。它的意思是，机器人只是在模仿动作的形状，而不是理解这个动作要完成什么。张凯峰 Sharpa研究科学家、学术负责人这意味着你把人的动作映射到机器人动作上之后，它只是做了运动学层面的对应，并没有真正实现操作本身在语义上的对应。也就是说，动捕数据会出现比如说关节角度超限、力矩不够、平衡失败等问题，这就让这个层级的数据在一定程度上，和第四层的视频数据一起，被认为是“低质量数据”。 05 金字塔最底层互联网视频从YouTube到抖音，人类完成各种任务的视频海量存在。这是今天具身智能训练里唯一真正“不缺”的原材料。但它能教会机器人什么？姚卯青智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 更多是让机器人的大脑模型学习一种通用的表征，比如简单认知以及对物理规律有粗浅的认知，但它还只停留在认知阶段。姚卯青用了一个有趣的比喻：看再多别人打乒乓球的比赛视频，你第一天拿起球拍，也接不住球。视频给机器人建立了关于物理世界的基础认知，知道乒乓球是什么形状，知道打球大概是什么动作，但从“知道”到“会做”之间，隔着一道鸿沟。视频里根本没有动作信号，只有结果。互联网上的海量视频数据，也被Sharpa称之为最低质量的数据。张凯峰 Sharpa研究科学家、学术负责人 YouTube videos最大的劣势是它没有力和触觉信息，优势是量非常大，能给我们提供一些有用的信息：一是世界是怎么变化的，比如我们常常讲World Models（世界模型），就是利用这类in the wild（自然场景下）的数据来训练World Models（世界模型）；二是能给我们一些操作信息，比如affordance（预设用途）是什么，这对操作来讲也非常关键。再进一步聊视频作为机器人数据之前，我们引入两个关键的概念，分别是Egocentric和Human-Centric。这两个分类是视频数据中被认为对机器人最有用的数据。 Egocentric的意思是“自我中心数据”，也就是“以机器人的视角看出去”，看到桌子、杯子、自己的机械臂、甚至还有遮挡、接触和动态变化这样和行动绑定的“第一视角视频”，并能直接用于决策的数据，被称为Egocentric。为什么这个视角很重要呢，是因为机器人从摄像头，特别是人形机器人，看到的视角就是这样的。苹果在2025年5月发布了一个Egocentric的数据集名为EgoDex：用Apple Vision Pro采集了829小时第一人称视角视频，每一帧都配有手部每个关节的精确3D追踪数据，覆盖系鞋带、折叠衣物等194种桌面操作任务，数据集完全开源，希望推动机器人灵巧操作研究。最近，我们刚才提到的觅蜂科技也推出了MEgo系列无本体数据采集设备MEgo Gripper和MEgo View，搭配MEgo Engine一站式数据治理服务平台，试图降低物理AI数据采集对实体机器人本体的依赖，让高质量的第一视角数据走向轻量化、规模化和全场景化。另外一个词，Human-Centric数据的意思是围绕“人类行为、意图、偏好或示范”来构建，用来让机器人学习人类想要的行为方式。比如说人类抓杯子，人类开门，人类折叠衣服这类“人直接做给机器人看”的视频能让具身智能理解“人想达到什么目标”，以及人类标准中的“正确做法”。而Human-Centric数据可以是第一视角，也可以是第三视角。我们总结一下，Egocentric是第一人称视角视频，但任务不一定和人相关。而Human-Centric是人类意图的视频。这两者相交集的区域就是Egocentric+Human-Centric，指的是“人类在第一视角下完成任务的数据”，这被视为是视频数据里，最有价值的部分。比如说，英伟达在今年3月推出的EgoScale，就使用超过20000小时的人类视频进行预训练，涵盖数千个独特的任务和环境。精确的骨骼手部追踪使模型能够提取并重新定位21个人体运动关键点，从而构建统一的机器人动作空间。所以，虽然YouTube data被机器人专家们各种嫌弃，但因为它的海量存在和低成本效应，如果某家公司通过某种技术突破让这些互联网视频变得“更可用”、能大幅提升机器人表现，那将有巨大的前景，而这也正是目前各大公司押注的重点。特斯拉在2025年6月做了一次重要的策略调整：把此前依赖动作捕捉套装和VR头显的采集方式，换成了摄像机头盔，让工人戴着装有5个摄像头的装备录制日常操作视频，再用这些视频训练Optimus，公司内部表示这样能“更快规模化”。顺便说一句，自动驾驶就是Egocentric的数据，而且FSD也是用视频数据驱动汽车这个物理本体的案例，所以Optimus会在视频数据路线上再次押注，这也非常符合马斯克的第一性原理。而同时，初创公司们也在如何将“低质量数据”变得更可用这个路线上，也有着非常积极的尝试。在今年年初，Sharpa发布CraftNet，他们用一套触觉反射层（System 0）做补偿：机器人上层策略只需给出粗糙的动作意图，底层触觉感知系统根据实时力反馈自动完成精细调整。这个设计从硬件层降低了对上层数据精度的要求，使低质量动作捕捉和视频数据也可以被利用起来。张凯峰 Sharpa研究科学家、学术负责人张凯峰因为有了System 0，所以我们可以达到一个点石成金的效果，能够把大量的低质量数据用起来。System 1只需要给出粗糙的动作意图和手势，就能够实现fine manipulation（精细操作）的能力。说完了机器人数据的四层金字塔结构，各自的优劣势以及各层级正在发生的进展，就会发现鱼与熊掌不可兼得的真理，真的是有道理的。最精确最高质量的真机数据是最少最难获取的，而最容易获取的视频数据又是质量最低最不可用的数据。所以，行业现在的做法是：把他们混合起来用，能不能又平衡数据质量，又能平衡一下成本呢？那么这个混合的配方又是如何的呢？ 06 各家公司的混搭配方数据与成本如何取舍？我们在业界跟很多机器人公司聊，目前普遍的共识是，这个四层金字塔代表着数据的不同来源，并且也要适配不同的具身本体和模型，没有一个统一标准，每个公司会有自己的配方和天平。陈茜硅谷101联合创始人它到最后可能是一个整合的solution（解决方案）？它们各自的比例大概是什么样子？姚卯青智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 对，它会是一个整合的solution（解决方案）。现在很难说什么样的比例是黄金配方，因为这不是一个简单配比然后达成单一目标的问题。首先在技术路线上还有很多路径在探索，并没有归一到一种确定的范式。其次，训练机器人模型的目标也不是唯一的：有些情况是让机器人在某个特定场景干到极致，比如工业场景中人的节拍效率和100%的成功率；有些场景更看重泛化性，成功率98%、99%也可以接受，甚至允许人在过程中做一些干预、接管兜底，但对泛化性要求很高。面向不同目标，用到的数据比例也会不一样。对Sharpa来说，答案也很类似，不同的任务他们采取了不同的数据策略。张凯峰 Sharpa研究科学家、学术负责人我们的乒乓球机器人是在仿真里面训练的，大概是训练了40小时左右，我们的发牌机器人用的是imitation（模仿学习）的方式来训练的，它大概是用到了两三百小时的teleoperation data（远程操作数据）以及一些Egocentric的数据。张凯峰也给了我们一个很平均的估算，在训练较为复杂的任务中，各层数据之间的轨迹数量比大约是，遥操作数据：动作捕捉数据=1:100，动作捕捉数据：互联网视频≈1:100。换算下来，遥操作数据在整个数据池里大约是万分之一的存在。但就是这万分之一，往往是最终决定模型能否在真实场景落地的关键。张凯峰 Sharpa研究科学家、学术负责人非要我选一个更重要的点，我会选数据质量，因为只有高质量数据才能训练出有用的模型。但如果数量很难规模化，我们就需要做折中，就像我刚才讲的数据金字塔方式，把每一部分数据都利用起来：既能理解环境的变化，也能理解操作的语义，最终帮我们完成操作任务。 07 数据的“捷径” 硅谷路线以上我们聊到了智元这样的中国机器人公司如何处理数据问题：太贵、太慢，就直接把它做成工厂，利用人力成本和效率优势来打造护城河。但硅谷几家最受关注的机器人公司，却不得不走数据的“捷径路线”。 7.1 PI：让机器人在真实试错中自我进化比如说Physical Intelligence的数据策略就靠精度加迭代。他们在旧金山Dandelion Chocolate工厂部署了一台机器人整天打包巧克力盒子，同时在办公室提供咖啡服务，员工在Slack里发“我要一杯拿铁”，机器人就去做。创始人Sergey Levine的哲学是：看当机器人不得不在真实世界完成任务时会发生什么，以及这类部署的数据能如何继续改善系统。在这个基础上，PI试图让机器人在真实部署里通过强化学习持续自我改进。 2025年11月发布的π0.6，用一套叫RECAP的方法，在折叠衣物、装纸箱、做浓缩咖啡等任务上，把最难任务的吞吐量提升了一倍以上，失败率降低了约一半。2026年3月发布的RLT方法，引入了一个特殊的输出token，作为VLA模型与轻量级强化学习策略之间的紧凑接口，只需几小时真实操作练习，机器人在精细操作任务上的速度就能提升三倍，某些动作甚至超过人类遥操员。这条强化学习路线的吸引力在于：机器人自己产生自己的训练数据，绕过了人工采集。但它有三个今天还没有好答案的真实问题。第一是奖励函数。衣服叠得“够好”的标准很难量化，定义不准机器人就会找捷径，比如把衣服揉成一团塞进角落，因为这样“占用空间最小”，满足了某个错误的优化目标。第二是安全边界。机器人在客户生产线上试错，每次失败都有现实代价：损坏产品、影响节拍、甚至伤到工人。第三是数据归属。强化学习数据是机器人用客户的物理空间和物理资产试错产生的，所有权比遥操作数据更加模糊，遥操作好歹有明确的人工生产主体，但强化学习没有。如今PI在π0.6上验证的场景，是相对结构化的任务，在受控实验环境里运行了13小时。距离真实工厂大规模部署、在陌生场景里稳定运行，还有相当的距离。除了强化学习路线，PI同时在探索用我们上面提到的Egocentric视频补充训练数据。PI在2025年12月发布的研究显示，一旦机器人基础模型积累了足够的真实操作经验，加入第一人称人类视频后，各个泛化任务的平均成功率接近翻倍。 7.2 Figure AI：把最大的房东变成数据采集场 2025年9月，Figure AI与全球最大另类资产管理公司Brookfield签署战略合作。Brookfield管理着超过10万套住宅、5亿平方英尺的商业办公空间和1.6亿平方英尺的物流空间。 Figure的计划：在这些真实的家和写字楼里，让人戴着摄像头拍视频，用这些视频训练Helix模型，目标是建成“全球规模最大、最多样化的人形机器人预训练数据集”。Brookfield同时跟投了Figure超10亿美元的C轮融资。 Figure随后发布了初步结果：Helix模型在只用第一人称人类视频训练、没有任何机器人数据的情况下，已经能根据自然语言指令在杂乱的真实房间里导航移动。 7.3 Sunday Robotics：众包做家务视频还有一家更小的创业公司Sunday Robotics，走的路更极端：直接付钱让普通人在家里录自己做家务的视频，然后用这些视频训练机器人，把“数据采集员”变成众包经济的工作。如果我们看看不同机器人公司如何押注数据路线，我们会发现，不同的市场因为生态不同做出了不同的决策：整个硅谷在往视频数据靠，减少对遥操作的依赖，押注可以被动规模化的采集方式。这和中国公司的方向形成了差异化。但这两种选择可能也无所谓对错，因为我们还在行业的初期，任何的尝试都是有意义的，特别是对于数据来说，开源更是一件广受欢迎和好评的事。 08 种树人和数据飞轮开源百万条数据换来的是什么？ 2024年，智元做了一件让行业困惑的决定：把自己辛苦采集的百万条遥操数据，打包成AgiBot World数据集，免费向全球开放。但这背后有一个被大多数报道忽略的行业困境。2023年到2024年，具身智能公司大量涌现，但整个行业面临一个根本性的认知危机：没有公共的数据基准，就无法判断一个模型的训练方法对不对。谷歌的RT系列和开源模型OpenVLA在学术界引发了广泛关注，开创了VLA这个范式，但因为训练数据全是学术级的数据集，在实际场景里的效果依然有限，导致这个范式的真实潜力长期得不到验证。姚卯青智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 这件事一定得有人迈出第一步，工业界的人得迈出第一步，否则谁也无法真正训练出高质量的模型，也没有一个公允的benchmark（基准测试）数据集来做评测。面对这个数据荒漠，我们算是种下了第一棵树，希望将来能变成一片森林。而这棵树发芽了。 2025年3月，英伟达在GTC大会发布第一代具身基础模型GROOT N1。而GROOT N1训练所用真实世界数据里，约80%来自AgiBot World。而开源的连锁效应还不止于此。越来越多的学术团队在用了AgiBot World之后，转而采购智元的机器人本体做研发，因为在同一款本体上采集的数据，在这款本体上训练出来的模型效果更好。也就是说，数据开源带来了生态，生态带来了硬件销量，硬件销量产生更多数据。同时我们也看到，机器人的数据工厂在建，开源生态在形成，下一个问题是：具身智能能否形成真正的数据飞轮？姚卯青智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 数据飞轮绝对会存在。具身智能跟大语言模型一样，数据飞轮的核心是：模型部署之后，在用户的使用过程中持续接收到反馈，利用这些反馈不断提升能力，最终变成用户体验的提升。机器人现在其实更需要这样的飞轮，也更会催生这样的飞轮。语言模型容错度比较高，说错几个字、有些似是而非，用户还能接受。但机器人如果是在工厂打螺丝，毫米级的精度，差一点可能就不行了，一定需要在现实部署中不断遇到失败场景，把这些数据采集回来持续提升，才能达到进工厂接近人类节拍的百小时、千小时MTBF（平均故障间隔）级别。陈茜硅谷101联合创始人这样的一个数据飞轮，类比大语言模型的scaling law（缩放定律），它们是一回事吗？还是有区别的？姚卯青智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 基本上还是一回事。数据飞轮就是要在真正实地部署的形态下持续收集数据。这套我们现在已经在所有机器人产品上作为标配搭售了，在用户许可的情况下，会像自动驾驶的功能一样，收集那些高优的数据。陈茜硅谷101联合创始人部署的机器人收集到的数据，大概有多少比例可以回流回来再给你们进行训练？姚卯青智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 大概在5%以内。因为大部分时间这些数据对我们来说没有提升意义，因为都是成功的，属于已经会的东西。陈茜硅谷101联合创始人所以你们只需要失败的。姚卯青智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 对，要的是还不会的。不然天天这么多机器人在跑，全世界的存储都存不下这些实时数据，大家都是触发一些高价值的数据。但飞轮能转，不代表转速能达到预期。这里有一个比飞轮更基础的问题：具身智能的scaling law（缩放定律）是否成立？在语言模型里，这个问题有明确的答案：数据翻倍、模型变大，能力就会涌现。但机器人行业，目前还没有答案。张凯峰 Sharpa研究科学家、学术负责人我们需要看到：随着数据量增加、模型规模变大，能够有智能的涌现，能够实现任务级的泛化能力。我认为现在还没有看到有任务级别的泛化，我们现在能看到的泛化往往是物体层面的——见过很多种类的物体，能够实现物体层面的泛化，也能实现环境层面的泛化，但任务层级的泛化，还没有。这里就是关键区别：物体泛化（见过类似物体就能处理）和任务泛化（从没见过这类任务也能举一反三），是两个完全不同量级的能力。前者今天已经在一定程度上实现，后者还没有可信的证据。而这个证据，是整个机器人行业走向下一步进化的钥匙。而在机器人大规模部署之前，我们可能都不会有答案。 PI的创始人Sergey Levine教授在他的Substack上写道：在美国有约1万家麦当劳，一旦每家麦当劳各放一台机器人，每天工作两小时，一年就能产生1000万小时的具身智能训练数据，比现有全球积累的总量还要多几个数量级。在今年3月底，智元率先在产量上突破了10000台具身机器人。我们距离找到这把机器人的数据钥匙，是否更近了呢？我们拭目以待。

2026-05-18 15:28:59

突发！OpenAI大规模重组，总裁Brockman夺权挂帅

新智元报道编辑：Aeneas 【新智元导读】OpenAI深夜大地震了，ChatGPT、Codex和API三大王牌紧急合并，总裁亲自挂帅！追兵Anthropic的估值已经飙至9000亿，IPO前生死一战，超级应用要来了。就在刚刚，周六早上的科技圈又曝出重磅消息。 OpenAI官方毫无预兆地宣布了公司历史上在IPO前夕最大规模、最剧烈的一次组织架构大重组。 ChatGPT、Codex以及开发者生态的命脉——API，三大核心产品线被全部打碎，原地合并为一个统一的产品组织！更让人震惊的是，一度隐居幕后的OpenAI联合创始人兼总裁、那个曾经因为奥特曼被罢免而愤然辞职的技术战神Greg Brockman，正式被推向台前，全面接管产品战略！表面上，这是一次OpenAI为了Agent时代的战略聚焦。但实质上，这明显是一场惊心动魄的「硅谷权游」：ChatGPT的开国元老被调离、核心高管接连离职、AGI掌门人因病无限期休假…… 现在，OpenAI的围剿者们已经虎视眈眈。 Anthropic刚刚敲定300亿美元融资，估值飙升至9000亿美元，完成了对OpenAI的史诗级反超；谷歌更是在下周的I/O大会前磨刀霍霍。 9亿周活用户命悬一线，地表最强AI帝国正迎来属于它的生死存亡之秋！突然被换掉的掌门人，与走向台前的影子国王这次调整最让人大跌眼镜的，是OpenAI对核心功臣的挥刀。 ChatGPT「生父」被调离如果要评选OpenAI过去两年里风头最劲的功臣，Nick Turley绝对榜上有名。作为ChatGPT自上线以来的全权负责人，Nick Turley亲手把ChatGPT从一个无人问津的「全家桶赠品」，喂养成了今天坐拥9亿周活跃用户的全球第一大超级应用。然而，在这次的权力洗牌中，这位功勋卓著的ChatGPT「生父」却被一纸调令，直接从最核心、最吸睛的消费者产品线移开，去主管相对沉闷的「企业用户」方向。「他不再负责任何消费者产品。」外媒WIRED用这句话，冷酷地宣告了一位ChatGPT元老在C端大本营的谢幕。接替他消费者产品一把手位置的，是前Instagram副总裁Ashley Alexander。这位原本在OpenAI负责医疗健康应用的女将，直接空降到了流量的最核心。战神归位：Brockman的「垂帘听政」结束了如果说Nick Turley的调离是「大将换防」，那么Greg Brockman的亲自挂帅，则是OpenAI最高权力层的惊天巨变。作为OpenAI的联合创始人兼总裁，Brockman在技术圈一直是个狠角色。他能在奥特曼被董事会清洗时扔下铁饭碗同进退，也能在回归后默默在后台死磕AI基础设施。前段时间，OpenAI名义上的「AGI部署CEO」Fidji Simo因为严重的慢性疾病复发，自4月初开始持续休假，归期未定。Brockman此前只是代管产品。但就在这个周五，OpenAI直接向全体员工发布备忘录：Brockman的「代管」正式转正。他将全面、长期地正式接管OpenAI的所有产品战略！那个在技术后台修路造桥的「影子国王」，终于被逼到了聚光灯下。从此，他不仅要管算力、管芯片、管Blackwell的供应链，现在还要管9亿人每天在ChatGPT里聊什么，成为真正的实际掌权者。三线合一！奥特曼的惊天豪赌：「超级应用」降临为什么要在这个节骨眼上把三大产品线生生捏在一起？在流出的内部备忘录中，Brockman用一种极具行业煽动性的语言给出了答案。「我们正在巩固我们的产品工作，以便以最大的专注力向Agentic Future（智能体时代）进军，在消费者和企业端全面取胜！」史上第一次，OpenAI高层如此明确地承认：OpenAI原有的产品线，已经到了不得不变的臃肿期。从「三头马车」到「铁板一块」在重组之前，OpenAI内部的三大产品线几乎是各自为战的。 ChatGPT：负责貌美如花、搞定C端流量，吸引9亿周活用户； Codex：负责闷声发大财、死磕编程和代码生成，是程序员的神器； API：负责向全世界的开发者抽税，构建生态护城河。但在Brockman眼里，这种割裂是不可接受的。随着AI能力的进化，这三个东西正在自然收敛。现在的ChatGPT如果不会写代码、不会自动跑API，那它就是一个聊天花瓶；Codex如果没有ChatGPT的交互界面，就无法变成小白也能用的生产力工具。因此，现在三大团队原地解散，合体为全新的核心产品与平台团队。而这个巨无霸团队的掌舵人，正是Codex的原负责人——Thibault Sottiaux。曾经，他把Codex打造成OpenAI历史上增长最快的王牌产品而立下赫赫战功；如今，他成了Brockman麾下的头号大将。终极王牌：代号「Super App」的桌面吞噬者伴随着这次重组，OpenAI真正的大招也终于浮出水面。 Thibault Sottiaux目前正在秘密主导开发一款内部被称为「超级应用」的终极武器。这绝不仅仅是一个网页版的ChatGPT升级，而是一个要把ChatGPT、Codex编程智能体、以及OpenAI尚未发布的「Atlas网页浏览器」三合一的统一桌面端应用！这意味着，OpenAI要彻底跳出「聊天框」的限制。从此，这个超级应用长在你的电脑桌面上，它有自己的浏览器（Atlas），能自己看网页；它有最强的代码执行能力（Codex），能自己写脚本；它有ChatGPT的大脑，懂你的意图。它不需要你复制粘贴，它能「自主代替用户执行复杂的数字任务」。这才是奥特曼和Brockman眼中的「Agentic Future」——智能体时代！高管空心化：狂欢背后的失血与隐忧这个新闻看起来，似乎是一次很积极的「主动出击」。但如果仔细阅读OpenAI最近的人事变动名单，你就会发现这样一个可怕的事实：OpenAI的高管层，快要被掏空了。就在这次重组发生的前一个月，OpenAI内部掀起了一场海啸般的人事震荡。上个月，OpenAI离职了一批神仙大佬。 Kevin Weil，OpenAI科学家AI工作空间负责人，离职！ Bill Peebles，大名鼎鼎的Sora的联合负责人、核心大牛，离职！ Srinivas Narayanan，企业应用首席技术官，离职！更不用说，那个本该运筹帷幄的「AGI部署CEO」Fidji Simo，目前还躺在病床上，只能在病房里隔空跟Brockman对对方案。所以，这一次大重组的底层逻辑，并不是因为OpenAI兵强马壮，而是因为他们已经无人可用了。在连续失去多位技术副总裁、CTO和项目负责人后，OpenAI的战线拉得太长了——又要搞Sora视频，又要搞SearchGPT搜索，又要搞Orion大模型，还要搞硬件芯片。 Brockman这次把ChatGPT、Codex和API捏成一团，本质上是一次断臂式的收缩。把有限的精锐部队合并到同一个战场，用一个通吃C端和B端的「超级应用」，来掩盖内部高管流失的窘境。估值被反超！追兵已至，资本市场的「致命30秒」让奥特曼和Brockman如此焦虑、甚至不惜在IPO前夕进行如此剧烈重组的，还有外部那让人喘不过气来的竞争压力。硅谷的AI王座，在这个星期刚刚易主了。 Anthropic的「背刺」：9000亿美元的巨无霸诞生就在本周，OpenAI最致命的宿敌、由前员工出走创立的Anthropic，悄然敲定了一笔颠覆行业格局的新融资。在这轮由顶级财团领投的300亿美元巨额融资中，Anthropic的估值被直接推向了令人窒息的9000亿美元！ 9000亿美元是什么概念？它一举超越了OpenAI在非公开市场的最新估值，成为了全球估值最高的独立AI独角兽！更糟糕的是，Anthropic在编程领域对OpenAI实施了精确的降维打击。Claude系列模型在长文本和代码生成上，把OpenAI压得抬不起头。技术人员在疯狂逃向Claude，资本在疯狂涌向Anthropic。OpenAI如果再守着那个只会聊天的ChatGPT网页，它的帝国大厦在上市前夜就会崩塌。 5月，Anthropic的年度经常性收入已经飙升至450亿美元，短短5个月内营收增长了500%。这条陡峭的营收曲线，在整个科技商业史上都找不到先例！谷歌下周开大，留给OpenAI的时间不多了除了背后的刺客Anthropic，正前方的泰坦巨兽——谷歌，也在死死盯着OpenAI。下周，Google I/O年度开发者大会就将正式开幕。据硅谷线报，劈柴已经准备好了一箩筐针对ChatGPT的全新AI产品。去年OpenAI靠在Google I/O前一天发布GPT-4o截胡了谷歌；而今年，高管空心的OpenAI已经没有余力再去搞一场发布会来「截胡」了。唯一的办法，就是赶在谷歌开大招之前，把自己的组织架构调整好，告诉华尔街：别看Anthropic估值高，我们已经在搞三合一的Super App了。终局之战：IPO前夜的疯狂自救根据WIRED的独家起底，这次重组背后，还有一个全硅谷公开的秘密：OpenAI计划在今年年内正式推进IPO。对于任何一家准备上市的超级独角兽来说，资本市场最忌讳的就是「故事线不清晰」和「高管内斗内耗」。在上市的关键窗口期，如果OpenAI的招股书上写着：我们有ChatGPT团队、有独立的Codex团队、有API团队，三个团队天天为了算力资源抢得不可开交，那华尔街的分析师会毫不犹豫地给估值狠狠打折。通过这次重组，奥特曼向资本市场讲了一个极其性感的全新故事。「我们没有杂乱的产品，我们只有统一的底层能力。我们即将推出一个能统治所有桌面端、拥有9亿周活、能自动帮你干活的超级Agent。」让Brockman这位在硅谷声望极高的创始人亲自挂帅产品，也是在给摇摇欲坠的投资人信心：看，虽然有人离职，但公司的技术灵魂依然在第一线开荒。从那个在旧金山公寓里成立的非营利性实验室，到今天为了IPO疯狂重组的商业帝国，OpenAI正在经历它诞生以来最惊险的一段航程。 Brockman的走上前台，是临危受命，也是背水一战。当ChatGPT、Codex和Atlas浏览器在不久的将来融合成那个恐怖的「Super App」时，我们会看到通往AGI的终极钥匙吗？硅谷的这场AI王座之争，才刚刚进入最血腥的白刃战阶段。

2026-05-18 15:28:59

iPhone暴跌2千，安卓集体跳水

进入到五月中旬后，今年的618大战就正式拉开帷幕。5月15日，苹果官方的618促销政策正式公布，微博上立马出现了#iPhone 17 Pro降价2000元#的热搜词条。（图源：微博）除了苹果，安卓阵营在618也有动作，除了常规的打折促销外，部分品牌还在发新品。618可以看作是一次对手机行业一季度乃至整个上半年的考试，新品的竞争力、价格力如何，都会在这场大促中显露无疑。透过今年618，我们也能一窥2026手机产品发展的新趋势。苹果小打小闹，国产边发新品边清库存苹果：降价流于形式，都怪iPhone 17系列卖太好？首先要说明的是，iPhone 17 Pro直降2000元的热搜不能说是完全的假新闻，但说是以讹传讹也不过分。具体来说，苹果官方渠道给出的618优惠，就是iPhone 17降价200元，iPhone 17 Pro系列直降700元，即便算上天猫渠道的300元券，优惠力度也就1000元。（图源：天猫）所谓的2000元优惠力度，还算上了旧机型以旧换新的折扣和补贴。这种算法就很无厘头了，毕竟，如果你的旧手机价值上万，那岂不是可以「0元购」iPhone 17 Pro Max了？不难看出，苹果今年的降价力度显然不如去年，iPhone 17系列官方渠道的优惠幅度还没有各大电商平台百亿补贴的日常价大，618前普通用户就能买到4999元的iPhone 17了。苹果这么做也不难理解，一方面存储成本暴涨，iPhone 17系列也需要消化这部分压力，降价空间被挤压；另一方面，iPhone 17系列大获成功，销量节节攀升，数码博主RD观测给出的数据显示，这一机型国内的累计激活量已经接近3000万台，苹果没有大幅降价的动力。华为：折叠屏打头阵，最高降3000元 5月15日，华为宣布旗下两款折叠屏旗舰降价促销，Mate X7直降1000元，Mate X6最高降3000元。（图源：微博）其中，Mate X7发布于去年九月，这是一款大折叠产品，外屏6.49英寸，1080P；内屏9英寸，2K分辨率。它的电池容量为5600mAh，支持66W快充。作为一款折叠屏，Mate X7把可靠性作为了核心卖点，比如新升级的玄武架构，典藏版外屏还配备了第二代玄武钢化昆仑玻璃。 Mate X6则是2024年发布的产品了，相比Mate X7它的设计和配色更加内敛沉稳，产品形态则比较类似。作为发布时间较久的产品，它的促销力度也比较大，普通版直降3000元，10999元起；典藏版直降2000元，12999元起。小米：REDMI死磕性价比，xiaomi发高端新品苹果的对手们也在参与618活动，不同品牌力推的主力机型也都有所区别。以小米来说，今年618主推的存量机型就是REDMI K90系列。该系列机型众多、覆盖的价位很全，同时又是主打性价比的产品，更容易通过降价来吸引目标用户。其中，REDMI K90 Pro Max在这波促销中性价比优势明显，它在京东、淘宝和拼多多三大平台中的价格已经来到了3000元左右，如果叠加国补还能降到2600元左右。这样一款机型配备了第五代骁龙8至尊版芯片、超级像素高亮度OLED屏幕、后置高规格三摄、7560mAh大电池和百瓦快充，配合这个价格竞争力拉满。（图源：京东）作为小米高端主力的小米17系列，这届618则没有太多降价动作。同时，小米17系列还在618期间增加了新成员——小米17 Max。它无疑是小米17标准版的「升舱版」，屏幕尺寸增加到6.9英寸，首发2亿徕卡主摄，拥有8000mAh大电池。 vivo：大促降价，终于比涨价前便宜目前来看，vivo今年618参与促销的主力机型是X300系列。其中，X300 12+512GB版原价5299元，直播间降价900元，叠加国补和Plus会员优惠后，到手价来到3870元左右。 X300是vivo去年秋季推出的主力旗舰，搭载天玑9500芯片，配备了2亿蔡司主摄，还把支持蔡司长焦增距镜作为了核心卖点，高素质屏幕、大容量电池、高功率快充等特性也是一应俱全。（图源：vivo）值得一提的是，今年三月，vivo发布公告称，由于存储成本大幅上涨，不得不调整部分机型的售价，其中X300系列也在涨价之列。当时，X300标准版大容量版均涨价100元。现在，借着这波大促的机会，vivo X300的价格终于比涨价前更便宜了，3000元价位的天玑9500影像旗舰，确实有不俗的竞争力。 OPPO：超大杯直降1000元目前OPPO的618动作还没有全面铺开，不过部分机型已经参与到促销中了。OPPO的超大杯机型Find X9 Ultra，算上国补，不同容量版本的降价大概在700元-1000元之间，12GB+256GB 6749元、12GB+512GB 7199元、16GB+512GB 7649元。Find X9 Ultra称得上是顶级旗舰，第五代骁龙8至尊版芯片、2亿哈苏相机、144Hz高刷OLED屏幕、7050mAh大电池、100W快充。另外，OPPO旗下的一加系列，也有机型参与到促销中。一加15T的价格优势更加明显，叠加国补最低能达到3199元左右，降幅最高1300元。而且，一加15T是一款很典型的水桶型旗舰，拥有第五代骁龙6至尊版芯片、7500mAh大电池、50MP三摄，基本没有什么短板，3000元出头的价格让它在安卓旗舰市场上非常能打。（图源：淘宝）荣耀：连续发新机，主打超大电池荣耀的618促销还没开启，但新机却一个接一个的要来了。5月15日，荣耀正式宣布荣耀600系列将于25日发布。从官方已经公布的信息来看，该系列把影像和电池作为了核心卖点，配备两亿像素主摄，支持「4K闪光微单Live」，电池容量则达到了夸张的8600mAh，用的是自家的青海湖电池技术。（图源：荣耀）与此同时，荣耀WIN系列也将迎来新成员——WIN Turbo，这款产品会在这个月发布。目前荣耀WIN Turbo相关的公开信息还不多，不过从已经发布的WIN、WIN RT来看，这款产品大概率还是主打充分的性能释放和超大容量电池。具体来说，它应该会配备散热风扇，Turbo的命名方式下，预计性能方面还会有提升。手机行业上半年小考，产品有何变化？截至5月15日，今年上半年出现的新机数量不算特别多。以苹果来说，只在3月发布了一款iPhone 17e。小米上半年的动作也很少，新品基本只有REDMI品牌一季度发布的中端产品Turbo 5、二季度发布的K90 Max。 OPPO和vivo则是对原有的旗舰系列进行了补充，包括OPPO Find X9 Ultra和vivo X300 Ultra。这两款超大杯旗舰，都可以看作是去年发布的主力旗舰的加强版，都把影像作为了核心卖点，包括2亿像素、潜望式长焦等。华为上半年发布了全新旗舰系列，它在四月推出了Pura 90系列，一口气公布了四款机型。其中，超大杯Pura 90 Pro Max在影像上极其激进，搭载了1/1.28 英寸超大底2亿像素长焦传感器和第二代红枫影像技术；Pura X Max则是折叠屏领域的「新物种」，是行业首款横向外折叠手机，一发布就引起了轰动。荣耀则把年初的MWC作为核心舞台，发布了折叠屏新品Magic V6，7000mAh电池在折叠屏品类中创下纪录；同时还带来了拥有具身智能技术的机器人手机Robot Phone。更早些时候，荣耀还推出了主打极致轻薄的旗舰机Magic 8 Pro Air，重量比肩iPhone Air，同时影像和电池做到了不阉割。围绕上半年发布的这些新机，我们观察到了几个产品趋势。首先，手机影像卷上了新高度。回顾上半年的这些旗舰产品，我们能察觉到一个共同的关键词——2亿像素。目前，国产品牌的顶级旗舰，几乎全都配备了2亿像素主摄。超高像素，能够提供接近光学品质的变焦，同时能支撑8K视频录制、带来更极致的电子防抖能力。（图源：雷科技摄制）手机影像的激烈内卷已经持续很久了，从卷硬件规格到卷软件算法，再到卷联名、卷调色。如今，小米与徕卡、OPPO与哈苏、vivo与蔡司均形成了稳定的合作。其次，AI和手机的结合愈发紧密。MWC上亮相的荣耀Robot Phone，创造性的把摄像头设计成了能自动跟随的机械结构。这种对具身智能技术的应用，为手机开辟出了新的应用场景。同时，随着OpenClaw的爆火，手机厂商也更加重视「龙虾」在手机端的落地。小米、华为均在测试Claw工具，并且把它们和自家的语音助手相融合。（图源：雷科技摄制） OPPO、vivo、荣耀则在手机智能体应用上下了很多功夫，以荣耀为例，它的智能体具备意图识别和跨应用任务执行这两项关键能力。荣耀手机在听到用户的命令后，可以实现跨应用点单、发送文件等场景。现在可以明显感觉到，手机端的AI竞争不再尬吹芯片AI算力，也基本不太强调模型参数了，更加强调和手机应用场景的具体结合，能给用户带来哪些体验上的提升。毕竟，对绝大部分普通用户来说，他们并不关心深奥的AI技术名词，只在乎实际体验。另外，手机品牌都在探索过去看起来比较狭窄的赛道，尝试形成差异化的可能性。一个很明显的例子就是今年搭载风扇散热的手机变多了，除了荣耀，小米也开始在K90 Max这类机型上尝试，红魔、ROG这些偏小众的手机品牌也推出了类似的产品。风扇散热的核心作用就是让手机性能能够长期持续稳定输出，以在游戏等高负载场景中带来更好的体验。（图源：小米）总的来说，今年手机行业面临的困难是空前的，存储价格的持续暴涨，导致手机品牌普遍承受着极大的成本压力。各大品牌普遍在削减SKU，大量低端入门产品被削减。同时，尚有部分利润空间的旗舰领域，则成了手机厂商激烈内卷的关键阵地，性能、充电、影像、屏幕都在卷。此外，手机品牌们加速AI落地、研发各类「非常规」手机，背后也有生存压力的推动。这届618，还值得参与吗？正如前面所说，今年618，苹果的促销力度不大，其他品牌则倾向于清库存。参与618促销的产品基本都是去年发布的旧款旗舰，一方面高定价留下的利润空间还能抵御存储涨价，另一方面确实到了给秋季新品让路的时候了。作为消费者来说，要实现最大程度的省钱，可以在利用厂商的促销政策之外，寻找国补、地方消费券、银行活动等「场外选手」的帮助，毕竟手机品牌确实很难再让利了。从促销力度来看，今年618可能会是一个「小年」。在我们看来，今年618最适合入手的产品，仍然是高性价比的旗舰和次旗舰产品。原因倒也不复杂，这类产品性能、配置都更强劲，能支撑更长的生命周期；部分旗舰产品价格优势明显，比如前面提到的几款3000元价位的旗舰机，未来降价的空间已经不大。考虑到未来存储还可能涨价，现在的确已经是一个不错的买手机的时候。在京东的手机销量竞速榜上，我们发现，排名前十的机型，大部分都是旗舰型产品，低端入门机已经很少了，这和往年有很大的不同。这也从侧面说明，低端手机在存储压力下的生存空间在急剧缩减，当下更有购买价值的还是旗舰和次旗舰手机。（图源：京东）另外，我个人还是建议不要买内存和存储太小的机型。虽然说现在大容量版本价格偏高，但存储对于日常使用的流畅度有非常关键的影响。使用一段时间后，一旦剩余容量不足，体验劣化会很明显。目前，今年的618才刚刚开始，按照惯例，它的持续时间会贯穿五月和六月。如果你有意入手的产品尚未开启大促，可以再等等。

2026-05-18 15:28:49

上海电信发布Token资费套餐：1元对应25万额度点，支持手机账单付

IT之家 5 月 16 日消息，据上观新闻消息，上海电信今天率先推出 Token（词元）算力服务，成为上海首个发布 Token 资费套餐运营商。据报道，Token 资费套餐支持按量订购，1 元对应 25 万额度点，以 Kimi K2.5 大模型为例，约可支持调用 25 万输入 Tokens；也能够按需选择，用多少买多少，支持话费账单支付，多买可享受折扣。同时，上海电信在发布“AI 家庭助手”后还宣布，上海电信手机号用户还可以享受 2500 万额度点免费体验，有效期一个月。6 月起，电信“美好家”用户的家庭数字空间将上线 Token 会员权益，融合套餐一价全包。此外，上海电信用户购买额度点后，可通过标准 API 接口调用 30 余款主流大模型，将 AI 能力集成到自己的软件、脚本或自动化流程中。 IT之家注：Token（词元）是计算机科学与自然语言处理领域中的一个基础且重要的概念，通常指文本数据经过分词或标记化处理后的最小单位，其中单位可以是单词、标点符号、数字或其他任何有意义的符号。

2026-05-18 15:28:49

Anthropic焦虑藏不住了：美国必须赶紧拉开与中国AI的差距，不然就危险了

【文/观察者网王一】据《人民日报》报道，Anthropic、OpenAI、谷歌三家美国科技巨头近来联手对中国人工智能（AI）技术发起围堵，炒作中国AI利用“对抗性蒸馏”“窃取”美国模型能力。当地时间5月14日，Anthropic再在其网站上发长文，公开鼓吹美国尽快采取措施，进一步拉开与中国AI的差距，否则未来局势将非常危险。然而，这番言论迅速在科技界引发争议。香港《南华早报》15日称，多名业内人士直指Anthropic不过是在刻意渲染“中国威胁”，试图推动美国升级对华科技封锁，批评此举“危险且明显是出于私利”。在博文中，Anthropic声称，中国正通过宽松的芯片出口管制和所谓的“蒸馏攻击”，即利用已经开发完成的AI大模型来训练较小模型的方式，迅速缩小与美国AI的差距。该公司扬言，如果美国及其盟友现在采取措施同时解决上述两个问题，“就有可能将AI能力上的领先优势锁定在12至24个月”。Anthropic特别强调，“锁定这一领先优势的窗口”不一定会长期存在，并鼓吹美国立即行动。 Anthropic还设想了2028年全球AI格局的两种可能情景：一种是限制中国获取美国AI算力资源，另一种则是不采取限制措施。这家支持美国打压中国AI发展的公司炒作称，若第一种设想成为现实，美国不仅能巩固其在全球AI领域的主导权，还能在AI安全与治理等议题上与中国合作；而若后一种设想成真，将是人类未来“最大的威胁之一”。当地时间5月14日，Anthropic发长文鼓吹美国采取措施，打压中国AI发展。 Anthropic网站这种论调，让不少美国业内人士都觉得反感。斯坦福大学“以人为本人工智能研究所”数字研究员、亚洲协会政策研究所高级研究员汪丛青（Alvin Wang Graylin）直言，Anthropic正在用“军备竞赛思维”讨论AI问题，这种“散布恐惧和冲突的信息是不负责任的”，“将我们推向错误的方向”。 “负责任的做法应该是寻找共同点，而不是不断筑起高墙。”汪丛青说，“在我们临近和平的门槛时，煽动两个大国之间的竞争不仅是不负责任的，也是不道德的。” 《南华早报》指出，Anthropic今年4月发布新一代模型Claude Mythos Preview后，因该模型具备极强的网络安全漏洞识别与利用能力，在各国政府和科技行业内引发震动。外界也期待，中美两国能在当下这个时间点就AI风险治理展开合作。汪丛青指出，“真正的共同威胁”并非国家竞争，而是那些“不怕被报复的恶意行为者”对AI的滥用，提倡导致对话减少的政策“只会让世界变得更加危险”。美国智库布鲁金斯学会约翰·桑顿中国中心研究员陈凯欣（Kyle Chan）也表示，虽然Anthropic在博文中加入了“高度尊重中国人民及中国AI社区的成就”等表述，试图缓和其言辞，但这在中国AI界看来可能略显“空洞”，因为这些措辞“夹杂在大量将中国AI描绘成巨大威胁的文字之间”。而且值得注意的是，在不断炒作“中国威胁”的同时，Anthropic自身也正处于关键融资阶段。据美国彭博社和《华尔街日报》本周早些时候报道，Anthropic正在寻求融资300亿美元，这使其总估值达9000亿美元，甚至超过OpenAI在3月时的估值。在这种背景下，Anthropic渲染中国AI威胁，很难不让外界怀疑其背后可能存在的资本与商业考量。事实上，这也并不是Anthropic今年第一次对中国AI泼脏水。2月，该公司污蔑DeepSeek及另外两家中国人工智能实验室，利用 “蒸馏”技术截取Claude的技术能力、迭代优化自身模型。这一指控迅速遭到质疑。科技媒体“The Register”当时就点出，Anthropic自己就是利用他人创作内容训练AI模型的公司，却反过来指责中国“复制”其成果，这显示出美国AI行业“惊人的缺乏自我认知”。报道称，其论调也暴露出一种狭隘思维，即暗示中国只能依附美国发展，缺乏自主创新能力。但2025年初发布的DeepSeek R1模型就曾在全球科技界引发震动，外界普遍认为其性能已可与美国最先进模型比肩。此外，多份报告还显示，中国在国产AI芯片领域已取得巨大进展，一度鼓励国内科技企业减少对英伟达芯片的依赖。澳大利亚昆士兰科技大学兼职教授、前总理陆克文政策顾问鲍韶山本月13日也在观察者网撰文称，美国AI利益集团中那一小撮具有影响力且言论激进的群体——一群怀揣着末日愿景的科技寡头——所构成的威胁，并非主要体现在国家间的对抗，而是源于他们集中权力的野心。这种野心危及公众问责制、经济稳定与全球多元主义。鲍韶山指出，相比之下，中国的AI发展路径——强调成本效益、软硬件协同设计、开源要素与快速规模化——提供了一种反制思路：它倾向于更广泛的普惠式获得，而非垄断式控制。美国及全球AI领域的道德实践者应认识到，这是一场“集中式精英愿景”与“分布式、兼容主权的发展模式”之间的较量，而非简单的“美中对决”。截至目前，中国AI界对Anthropic试图限制中国技术进步的举动的整体反应也非常克制，基本上对其置之不理。 12日，月之暗面科技有限公司（Moonshot AI）总裁张予彤在北京大学出席活动时表示，Anthropic日益封闭的发展路线，实际上可能比中国开放的开源模式更加危险。她指出，Anthropic此前仅向美国政府和少数美国大型企业开放Claude Mythos初始版本，“如果真的认为一个模型存在风险，那么把它掌握在极少数人手中，可能会使风险更高”。

2026-05-18 15:28:49

AI打工人的“第一笔工资”：16.88美元

有人让Codex帮他赚钱，结果Codex真的做到了，并且赚到了16.88美元（约114元）！一个用户给Codex下了一个有点像玩笑的指令：去帮我赚5美元。结果，Codex真的去“接活”了。它自己找到了一个开源安全审计赏金项目，提交了有效的拉取请求，和维护者沟通，并处理GitHub的验证流程。最终，这项工作顺利通过，整个过程大约花了22小时，用户收到了第一笔付款：16.88美元。按这个数字最粗暴地推算，如果每天都能重复一次，一个月就是506.4美元，折合人民币约3441元。就算给AI“打工人”安排几天休假，差不多也有三千多的月薪。 01 一句“帮我赚5美元”之后，Codex真去接活了 X用户Chris说，他让Codex去帮他赚5美元。随后，Codex找到了一个可参与的开源安全审计项目（带赏金），围绕项目中的问题提交了一个有效的拉取请求，并在后续流程里与项目维护者沟通、处理了GitHub相关的验证流程。最终，这项工作被项目方接受并合并，用户因此收到了第一笔付款：16.88美元。整个过程大约花了22小时，而它只是一个开始。这是一整套接近软件工程协作的动作，从找项目到拉取请求、和甲方沟通、通过验证……Codex把“赚到5美元”的目标转化成了一个可行的工作路径。虽然Chris称，提示词仅仅是“做你最擅长的事，帮我赚5美元”，但由于目前并没有公开完整的操作日志，我们看不到完整prompt和中途的确认情况，只能看到结果描述，所以要说“AI只靠一句话自动赚钱”还是有些言过其实。但这个案例依然和普通的coding agent不太一样。过去我们让Codex写代码，通常有一个明确任务：修一个bug、补一段测试、解释一个代码库，或者实现某个功能。用户知道要做什么，只是把执行环节交给AI。而这一次，用户只给出了赚到5美元的目标，Codex自己找到了可以赚钱的代码任务，并且拆解了任务需求、靠写代码赚到了钱。它把写代码这件事，接到了一个真实的任务市场里。也就是说，这个AI牛马现在不只是替雇主打工，还开始在外面“接私活”给雇主挣钱了。至于成本。根据用户透露，他使用的是20美元的Plus订阅套餐，Codex同时进行了10到20项不同的审计任务，整个过程大概使用了2200万token。 16.88美元只是目前的第一笔到账。 02 一次有意义的尝试这件事有意思的地方并不在于Codex赚了多少，更重要的是，Codex这一次接入了一个真实存在的经济系统。这个系统里有任务、有规则，有审核、沟通和验收，也有最真实的付款。而真实世界里的劳动，往往不只是完成任务本身。一个人要赚钱，通常先要知道哪里有机会，判断自己能不能做，理解对方的要求，交付结果、接受审核，然后等待结算。至少这一次，Codex在一个非常有限的场景里，跑通了这条路径。另外，选择也很重要——就像是孟德尔选择豌豆做杂交实验天然就有优势一样，软件任务天然更适合AI Agent：代码在线上，协作在线上，提交通过PR完成，结果可以由测试和维护者验证，付款也可以通过平台结算。 AI最先“变现”的地方，自然会落到这些边界相对清楚、金额不大、结果可审核的软件零工，比如修一个小bug，补一段测试，改一份文档，处理一个报错，或者像这次一样，参与一个小型安全审计任务。这些事情过去可能是初级开发者、自由职业者、开源贡献者练手和赚零花钱的入口，现在，它们也开始成为AI Agent可以尝试进入的任务市场。 03 AI赚钱，没看起来那么简单如果按照乐观的情况推算，每天可以赚取16.88美元的话，一个月就是506.4美元，折合人民币约3441元。表面上看，哪怕减去20美元的订阅费，也有月薪三千。但Codex的真实使用成本并不只是订阅费，还要看token消耗、额度限制，以及失败任务的沉没成本等等。把一次成功实验直接乘以30，只是一个很有传播性的算法，我们不能说今天出门捡到了100元，一个月出门就能捡到三千。现实肯定比预想中更复杂。如果你也想要复现这个路径，看看能不能也用AI帮你赚钱，那么结果可能会让你失望。首先，任务不是每天都有。 Codex这一次找到的是开源安全审计相关的赏金项目，这类任务本来就不是无限供给。真正适合AI Agent处理、金额不太高、边界相对清楚、又愿意接受陌生贡献者提交PR的项目，更不可能每天稳定出现。其次，任务也不是每次都会成功。提交PR只是第一步。维护者要愿意看，修改要足够有效，代码要符合项目规范，验证流程要走得通，最后还要真的被合并、被确认、被付款。中间任何一个环节卡住，这笔钱都未必能到账。往长远一点看，假设AI Agent真正开始进入任务市场，赚钱都是小事——它会影响整个市场的生态。 AI提交一个拉取请求的边际成本很低，但维护者审核一个PR的成本并不低：他们要看代码、跑测试、判断修改是否真的有价值。如果未来大量用户都让Agent去找赏金、提PR、赚小钱，开源社区很可能先遇到的不是效率提升，而是审核压力上升。对用户来说，更大的风险在权限和安全上。 Codex要完成这类任务，可不只是生成一段代码，它还需要连接GitHub、访问代码库，它要收款，肯定也涉及账号和支付。权限越大，能力越强；但权限越大，风险也越高。另外，责任边界也会变得模糊。如果Codex提交的修改后来引入了漏洞，谁负责？如果AI为了完成“赚钱”目标，误触了平台规则，责任又该怎么算？这些问题现在都还没有成熟答案。也就是说，这件事并不意味着“普通人也能用AI自动赚钱了”，问题和风险都还有很多。 16.88美元只一张早期收据，从一张收据到一份工资单，中间还有很长一段路。但至少，AI已经在一个很小的场景里，证明了自己可以接入真实任务市场，完成一次从目标到付款的闭环。

2026-05-18 15:28:49

双屏掌机上新系统，游戏体验大不同

IT之家 5 月 16 日消息，安伯尼克 ANBERNIC 昨天为 RG DS 掌机发布全新 Linux 系统，拥有专为双屏定制的交互界面、深度系统优化。据介绍，安装该系统前需要准备一张 64GB 以上的 microSD 卡，然后登录 ANBERNIC 官网下载固件，并按照提示完成写入。之后将 microSD 卡插入机身并启动，系统将自动进入全新 Linux 界面。如需切换回 Android 系统，只需要关机后取出存储卡再开机即可。根据官方演示可以看到，新系统内置了深色、浅色、经典风格三套主题，支持模拟 DS 游戏、RA 游戏。设置菜单支持独立调节上下屏亮度、屏幕翻转。首页即是 DS 游戏专属菜单，可一键启动游戏。全能模拟器则可以模拟 FC、GBA、PS1、PSP、DC 等复古平台。

2026-05-18 15:28:49

新理想 L9 发布：45.98 万起，还会是 500 万内最好的 SUV 吗？

发布会开场，李想先是强调：其实大部分用户并不知道自己想要什么。他分享了一个故事：有一次我去买烤冷面，摊主问我还要加点什么，我开玩笑说能不能打个折。你看，用户永远想要更便宜，但摊主会告诉你，其实还能加蛋。这也是 L9 当年销量爆发的秘诀——当行业还在比拼基础参数的时候，理想顺手给车里塞进了冰箱、彩电和大沙发，交出了一份远超预期的答卷。四年过去了，全行业都开始把屏幕做大、座椅做软。当堆砌配置成为车企的常规操作，理想 L9 又走向了另一条路。如今的理想把大量精力和资金砸向底层架构，自研范围覆盖车规级算力芯片、800V 主动悬架、全线控底盘等多个领域。承载这些研发成果的，自然是今天上市的两款新车型： L9 Ultra 和 L9 Livis。首先值得肯定的是，理想没有盲目放大 L9，车长和车宽依然维持在 5.25 米和 2 米，日常开起来依旧方便。在这个好开的尺寸基础上，L9 的整车姿态还挺拔了不少。在车高仅增加 10 毫米的情况下，前机盖和水切线被大幅拉高，配上 22 寸大轮毂，原本庞大的车身显得颇为矫健；前唇那一抹金灰色镀铬饰条也收束得干净利落。 L9 Livis 还采用了迈巴赫同款涂装工艺，紫金、绿金、黑金等专属双色车身，额外增加两道工序后，漆膜厚度达到传统工艺的两到三倍，日光下呈现出流动的光影质感。外观的考究还藏在细节里。全车 12 颗超声波雷达被 UWB 传感器取代，保险杠上再也看不到突兀的小圆孔；隐藏式电动踏板收起后与底盘融为一体。这不仅让外观更整洁，UWB 技术还让哨兵模式耗电量骤降 82%，开两天只耗一度电。打开带有电容防夹功能的电动车门，里面还是那个熟悉的「起居室」，只是每一项体验的上限都被抬高了。全新 L9 是全球首款四个座位都配备全尺寸零重力座椅的 SUV。Livis 版本直接标配，Ultra 版本在首销期内也会免费赠送前排两把零重力座椅。在过去，转向管柱挤占了空间，主驾想完全躺平是个大难题。而在 L9 上，线控转向释放了空间，1.8 米的大个子坐进主驾也能一键舒展躺平。望向前方，仪表台上的两块屏幕合二为一，变成了一块 29 英寸的 6K 超宽全景屏。后排的 21 英寸屏幕新增电动平移功能，手轻轻一抬，这块「神奇移动屏」就会沿滑轨移到面前，并随座椅倾角自动找平。音响功率这次飙升到了 5440 瓦。 9.3.6 星环剧院音响搭载三重矩阵式低音系统，头枕音响创新采用水平对置设计，出声口藏在两侧，以往那种「有人在你脑后说话」的突兀感也随之消失。车内空调支持 7 温区控制，面部和脚部可以吹出不同温度的风；全车 29 处皮质区域都带加热功能。中控台下方的 10L 智能冰箱换了电动门，轻拍两下即可开关，不仅支持 -6°C 冷冻，内胆还能直接拆下来清洗。作为增程车，全新 L9 两个版本的纯电体验都做到了行业顶配。底盘塞进了一块 72.7 度的 5C 大电池，容量已经超过不少纯电车型，换来 420 公里纯电续航。按每天通勤 40 公里算，两周充一次电完全够用。充电速度也同步提升，配合理想自建的 8300 根 5C 超充桩，十分钟左右就能完成补能——在服务区上个洗手间、买杯咖啡的功夫，电量就能满血复活。长途出行时，这台重达 2.8 吨的全尺寸 SUV 的油耗还挺实在的：亏电油耗降至 6.3 升/百公里，满油满电综合续航达到 1650 公里。更让人省心的是，这套增程系统的保养周期延长到了 3 年或 3 万公里，还省去了过去增程车繁琐的维护。李想表示，在机械属性和维保频次上，全新 L9 已经越来越像一台纯电车了。把家装进车里，把纯电融进增程「全尺寸 SUV 一直有一个很难真正被解决的矛盾，既让一家人坐得舒适，又让自己开得尽兴。」李想说。为了同时满足这两点，L9 Livis 直接上了全套线控主动底盘。 L9 Livis 的 800V 主动悬架，让每个车轮都有超过 1 万牛的支撑力，传统的防倾杆被取消，四轮完全独立。过减速带、连续起伏路或者高速变线时，液压泵和减震器会实时配合，该撑就撑、该压就压。停车休息时，这套悬架甚至能联动赛车游戏，把车厢变成 4D 模拟器。大车想开得灵活，转向系统也要升级。Ultra 和 Livis 都标配了后轮转向 + 线控转向，转弯半径缩到 5.3 米，方向盘打满不用换手，角度也能按习惯自定义。另外，Livis 还首发了 EMB 线控机械制动，刹车响应快了约 0.1 秒，120km/h 时速下刹停距离能缩短 3 米以上。而且这套系统号称终生不用换刹车油，后期省心不少。安全性上，两款车都变得更加坚固了，堡垒安全车身 3.0 用上了 2200 兆帕的高强度钢和一体式双门环。最特别的是，车内的 11 个安全气囊还能通过红外传感器识别每一位乘员的体型与坐姿，动态调节保护策略。面对极端的碰撞危险，具备主动悬架的 L9 Livis 能在 0.7 秒内瞬间抬升 50 毫米，用最坚固的底盘部位去硬刚撞击；低速倒车时的防碰撞系统也具备了识别悬空物体的能力。智能化层面，理想首发了马赫 M100——一颗专为 AI 原生设计、采用数据流架构的端侧推理芯片。 L9 Ultra 版本用的是单芯片方案，算力达到 1280TOPS，配备前向激光雷达；L9 Livis 则拥有两颗马赫 M100，总算力翻倍达到 2560TOPS，同时配备了 4 颗激光雷达来实现 360° 全向感知。算力上来后，感知帧率成倍提升，乡间小路、施工路段都能提前预判，果断绕行。这颗芯片还跟去年 12 月发布的 Livis AI 眼镜实现了生态互联。交互开始变得科幻。戴着眼镜站在车外，一个手势或一个眼神，车就会自动泊出来，缓缓开到你面前。坐进车里，系统还能察觉你的情绪和状态。你今天好像心情特别好，是要带家人去顺义的公园踏青吗？这时候，它既是司机，也是伙伴。到了我们最关心的价格，两款车只拉开了 5 万元的价差。 L9 Ultra 定价为 45.98 万元，竞争力很强。72.7 度 5C 电池、双腔空悬、线控 + 后轮转向、1280 TOPS 马赫芯片都是标配，首销期还免费送前排零重力座椅、智能电开门和 5440 瓦音响。 L9 Livis 定价来到 50.98 万元，比此前 55.98 万的预售价低了不少。多花 5 万，换来的是专属双色车身、800V 主动悬架、带 EMB 制动的全线控底盘、翻倍到 2560 TOPS 的算力，以及 4 颗激光雷达。首销权益也公布了：6 月 30 日前锁单，现金直减 2 万元，老用户再额外补贴 1 万元。从 2015 年创立至今，理想还是习惯把消费者叫作用户。买车只是陪伴的开始，让全家人在日复一日的相处里都能开心，才是 L9 Livis 这台「硅基生命体」想要兑现的承诺。文 | 李华

2026-05-18 15:28:49

三星Galaxy M47手机跑分曝光，骁龙6 Gen 3芯片+8GB内存

5 月 16 日消息，科技媒体 GSMArena 今天（5 月 16 日）发布博文，报道称三星 Galaxy M47（型号 SM-M476B）手机现身 GeekBench 跑分库，6.7.1 版本 OpenCL 成绩为 2256 分。根据跑分库页面信息，该机搭载 4 个 2.4GHz 的性能核心，以及 4 个 1.8GHz 的能效核心，搭载 Adreno 710 GPU，应该为高通骁龙 6 Gen 3 芯片。附上相关截图如下：此外页面信息还显示该机搭载 8GB 内存，运行安卓 16 系统。基于现有曝光的信息，该机预估配备 5000 万像素主摄、800 万像素超广角摄像头，以及约为 5000mAh 的电池。

2026-05-18 15:28:49

传音Tecno Pova 8 Pro手机曝光：12+512GB存储，6340mAh大电池

IT之家 5 月 16 日消息，据科技媒体 XpertPick 昨天报道，传音 Tecno Pova 8 Pro 手机最近出现在 TUV Rheinland 数据库，新机厚度预计为 8mm，拥有 12+512GB 规格。据介绍，这台手机的型号是“LK7”，搭载一块 6340mAh 电池。不过考虑到行业惯例，Tecno 很可能将该机宣传为 6500mAh（IT之家注：典型值）电池。文件显示该机最高支持 11V 输入电压，意味着 Tecno Pova 8 Pro 很有可能支持高功率有线快充，不过具体功率暂未确认。同时，该机最近还通过了 FCC 认证，机身尺寸为 162*77*8mm，支持 5G、NFC、蓝牙、双频 Wi-Fi 及多种 LTE、NR 频段。从认证图片来看，该机后背左上配备尺寸较大的三角形后摄模组，含有双摄、LED 闪光灯。此外，FCC 标签信息还暗示该机拥有 12GB 内存 +512GB 存储版本，不过正式发布时可能会有更多配置选择。按以往惯例来看，该机可能会在未来几周内亮相。

2026-05-18 15:28:48

卢伟冰今天17点直播：小米17 Max大曝光六大新品剧透

快科技5月16日消息，卢伟冰官宣将于今天17点开启户外露营主题直播，主题为“Max一夏”，一口气带来多款小米新品爆料。这场直播阵容也很有意思，卢伟冰将以户外露营的形式和大家见面，氛围会比常规发布会轻松很多。直播核心看点满满，重头戏就是小米17 Max，会一次性完整展示四大Max核心体验，让大家提前摸清这款新机的真实实力。除了旗舰手机，直播还会亮相多款AIoT新品，整体新品数量多达六款。备受关注的小米首款耳夹式耳机也会首次真机亮相。另外小米龙虾miclaw也会在直播中首次现场实操演示，现场展示用手机操控电脑，还能联动控制全屋米家智能设备，并且会进行高强度功能测试，直观展现跨设备互联的实用性。恰逢618大促节点，直播期间还会专门做好物推荐，帮大家挑选值得入手的小米产品。同时直播间准备了多轮福利大奖，还有新款家电免费抽奖，蹲直播就能参与。直播现场还设置了不少趣味环节，有露营烧烤、翻包挑战等互动玩法，还会直面网友关心的手机定价话题，聊聊行业里定价的难处。

2026-05-18 15:28:48

OPPO Find X9 Ultra拍视频白色变粉色？客服回应：本月下旬OTA修复

IT之家 5 月 16 日消息，有部分用户反馈称，其购买的 OPPO Find X9 Ultra 在拍摄视频时，画面中的白色物体会异常呈现出粉色，引发了不少讨论。针对这一情况，OPPO 官方客服回复称：该问题是一个已知的软件缺陷，并且只有 Find X9 Ultra 这一机型存在这种情况，工程师团队目前已经解决该问题，计划于 5 月下旬推送新的 OTA 版本解决。此次事件的曝光主要源于一位的用户反馈。该网友透露，自己在五一假期自驾出游时，本想拍摄天空中壮丽的云彩，却发现使用 OPPO Find X9 Ultra 拍摄的画面中，原本洁白的云朵全部变成了粉色。另一位网友则演示了具体操作过程：她用这款手机拍摄一栋白色建筑时，预览画面颜色显示正常，但当变焦至 2 倍时，画面中的白色建筑瞬间变为了粉色，而且即便重启手机也无法消除。视频画面显示，这一问题在拍摄地砖、人物衣物中的白色区域时尤为明显，大范围的粉色覆盖了原本的白色区域。值得一提的是，当切换到长焦镜头后，颜色会恢复正常，但再切回短焦镜头的后，粉色又会再次出现。

2026-05-18 15:28:48

平台服务

投诉/举报/反馈

关于我们

云展动力APP

云展动力APP

【微信订阅号】

【微信订阅号】

【微信服务号】

【微信服务号】

友情链接

版权所有 (C) 广州智会云科技发展有限公司粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。