行业分类:
加载中...
头条分类:
加载中...
零元购!红果取消AI仿真人剧本保底,转向纯分成
周末的编剧群,没有休假的迹象。 昨晚在短剧编剧群中,有群友问: “没保底了?零保底?” “真没保底了?” 有人回复,“纯分成了”。 有编剧说,“我都完本了,跟我说纯分成”。 大家将红果取消AI仿真人剧本保底,戏称为“零元购”。 玩梗了。。 此事一度引发编剧群恐慌。 某编剧跟红果方面的人员沟通,对方表示“按照最新的政策是20%的分账比例,分成合作”,对方还提到,“不过这个等级不是一成不变的,后续剧本等级和编剧综合等级会随着质量的提升而提升的”。 当编剧跟对方确认:“纯分成,没有保底吗?” 对方确认,“是的”。 在另一个漫剧群中,红果方面的人员表示,“根据最新政策,最新选中的剧本只能走分成合作,辛苦大家看一下有没有问题。” 当编剧询问“从哪本开始?”,对方说“就是4月27日之后选中的,应该是有两本”。 也就是说,在4月27日之后,红果取消AI仿真人剧本保底,改为纯分成政策。 目前,可以确认红果方面已经取消AI仿真人剧本保底。而且是在未发布任何官方公告的情况下,编剧提交剧本时发现,保底不见了。 恐慌之后,今日11点50分,红果官方人员在群里发布一则通知: 老师好,按照4月27日最新政策,最新选中的剧本等级只能走纯分成合作,按照20%的比例进行分成,但是如果满足后验热度激励指标,单项激励活动可以正常享有,然后随着剧本质量的提升等级也会持续提升,辛苦看一下是否正常推进合作。 至此确认,4月27日之后审核的剧本,全部取消保底,改为纯分成,分成比例20%。 不过,新腕儿从业内某知名编剧处了解到,仅少数编剧的保底收入并未受影响。 这项保底取消政策的推出,意味着AI仿真人剧本不再稳赚,正式开启精品化时代。 从平台策略来讲,AI仿真人剧已经由曾经的「堆量」转变为「精品+爆款」。取消保底后,平台将砍掉低质供给,将资金集中于头部故事,强化制作,以分成赌爆款。 AI仿真人剧的竞争已经十分激烈了。 就在新腕儿发布的上周周榜中提到,AI剧投流榜单中,新剧占比72%,播放量破亿的剧有40部,证明整体AI剧市场竞争极为激烈,淘汰率很高,且流量集中于头部,腰部、尾部内容在不够优质的情况下,会迅速离场。 我们在周报中还提到“一本多拍”的情况越发普遍。 再看红果这项AI剧取消保底政策的推出,进一步加剧AI剧赛事的淘汰。不止是剧本身,连同幕后的编剧也一同加入AI剧轮盘赌。 在这场AI剧轮盘赌局中,保底红利彻底清零,大水漫灌的野蛮增长已然终结。
OpenAI发布个人理财功能:允许用户连接银行账户
5月16日消息,据TC报道,周五,OpenAI 为美国的 ChatGPT Pro 订阅用户推出了一套新的个人理财工具预览版,允许他们连接账户并提出从支出分析到未来财务规划等各种问题。 OpenAI 已与金融连接服务 Plaid 合作,共同管理账户连接。用户可以连接到超过 12,000 家金融机构,包括 Schwab、Fidelity、Chase、Robinhood、American Express 和 Capital One。 账户连接成功后,用户即可查看其投资组合表现、支出、订阅服务和即将到期款项的仪表盘。 OpenAI 于 4 月份收购了个人理财初创公司 Hiro 的团队,该公司此前获得了 Ribbit、General Catalyst 和 Restive 等公司的投资。就在一个月后,OpenAI 推出了这款新产品。 OpenAI 表示,Hiro 团队在金融领域的专业知识对这款产品的推出大有裨益,但并未明确说明该功能是否完全由 Hiro 团队开发。 OpenAI 用户可以通过侧边栏“财务”选项中的“开始使用”或在 ChatGPT 对话中输入“@Finances,连接我的账户”来访问该工具。用户完成上述操作后,聊天机器人将指导他们如何通过 Plaid 关联账户。该公司表示,计划很快支持 Intuit,这将使用户能够进行诸如股票出售对税收的影响或信用卡审批概率等分析。 据 OpenAI 称,每月已有超过 2 亿用户向 ChatGPT 提问金融问题。 该公司还指出,新的 GPT-5.5 模型在上下文推理方面表现更佳,这对于回答金融相关问题至关重要。该公司表示,他们与金融专家合作,为该模型制定了基准,以提升其在个人理财问题上的回答能力。 通过集成新的金融工具,用户可以获得诸如“我感觉最近花钱比较多,是不是有什么变化?”或“帮我制定一个计划,以便在未来 5 年内在我所在的地区买房”等问题的详细答案。 用户可以前往“设置”>“应用”>“财务”来移除与特定账户的连接。断开服务连接后,同步数据将在 30 天后从 ChatGPT 中删除。此外,用户还可以从“财务”页面查看和删除财务记录。 通用聊天机器人旨在回答任何问题,这导致人们开始询问有关健康、金融和个人生活等数据敏感话题的问题。人工智能公司意识到了这一点,并开始为这些领域开发专门的产品。OpenAI和 Anthropic都推出了与健康相关的工具。本月初,Perplexity 也推出了基于其计算机代理的金融研究产品。 OpenAI表示,其个人理财工具将通过ChatGPT在网页版和iOS平台上面向Pro用户开放。该公司指出,根据这些用户的反馈,他们希望在向Plus用户开放之前改进产品。
苹果股价昨日创收盘新高,站上300美元关口
IT之家 5 月 16 日消息,苹果公司股价昨日(5 月 15 日)收于 300.23 美元,首次站上 300 美元关口,创收盘新高,刷新 5 月 6 日创下的 287.51 美元此前收盘纪录。 苹果公司股价昨日盘中一度触及 303.12 美元(IT之家注:现汇率约合 2062 元人民币),创 52 周新高。华尔街分析师认为推动这轮上涨的核心原因有 3 个:季度业绩强于预期,服务业务继续走高,以及苹果公司再次批准 1000 亿美元股票回购。 在截至 2026 年 3 月 28 日的最新季度财报上,苹果季度营收为 1112 亿美元,每股收益为 2.01 美元,均高于华尔街预期。公司同时把季度股息上调至每股 0.27 美元。 Apple 各业务收入同比变化折线图 现金流同样是这次股价走强的重要支撑。苹果公司在该季度创造了超过 280 亿美元运营现金流。库克表示,3 月季度 iPhone 需求依然强劲,而服务收入再创历史新高。 相比更依赖单一硬件周期的增长叙事,苹果服务业务持续扩张,意味着苹果公司在硬件销量波动时,仍有更稳定的收入与利润缓冲。 科技媒体 Appleinsider 认为 AI 仍是悬在股价上方的压力点,包括更个性化的 Siri 体验在内,苹果此前预告的多项 Apple Intelligence 升级至今仍未完整推出。 与此同时,Google、微软、OpenAI 和 Samsung 在 2026 年持续加快生成式 AI 产品布局,市场也因此不断追问 Apple:在不放松生态控制的前提下,它还能否保持 AI 竞争力。
AI不是员工,它是放大器:你原来没闭环,现在更没闭环
这两年,很多人都被一个词点燃了:AI一人公司。 听起来太诱人了。 一个人,加几个AI工具,就能写代码、做设计、剪视频、写文案、做客服、跑增长。过去一个小团队才能干的事,现在一个人坐在电脑前就能干。 但这里有个很扎心的问题: 你变快了吗?还是只是感觉自己变快了? 2025年,研究机构METR做了一项随机对照试验。他们让16名有经验的开源开发者,在自己熟悉的成熟项目里完成246个真实任务。开发者原本预计,AI会让他们节省时间。任务做完后,他们也感觉AI让自己快了20%。 但实测结果反过来:允许使用AI工具后,完成任务的时间反而增加了19%。也就是说,主观感觉和真实结果之间,差了接近40个百分点。 这件事不只是程序员的事。 它直接戳中了今天最火的创业叙事:AI让一个人拥有公司级生产力,超级个体时代来了。 我认为,这句话只说对了一半。 AI确实放大了个人能力。 但它也放大了个人的误判、拖延、混乱和商业短板。 一人公司是真的火,但别把热潮等同于成功 先说中国市场。 新华社今年报道,中关村人才协会发布的《中国OPC发展趋势报告(2025-2030年)》显示,截至2025年6月,全国一人有限责任公司已突破1600万家。2025年上半年,全国新注册OPC数量达到286万户,同比激增47%,占全部新注册企业的23.8%。这个数字说明什么? 说明“一人公司”不是小圈子自嗨,确实变成了一个社会现象。 但它不等于“人人都能成功”。 很多人把一人公司想得太简单:注册公司,买AI工具,搭一个网站,发几条短视频,然后等订单来。 问题是,创业最难的从来不是“把东西做出来”。 最难的是三件事: 第一,谁真的需要你这个东西。 第二,他为什么现在就要付钱。 第三,你能不能持续找到这样的人。 AI能帮你写代码、写文案、做PPT,但它不能替你完成商业判断。 更直白一点说: AI降低的是生产门槛,不是赚钱门槛。 为什么你感觉快了,结果反而慢了? 这不是AI没用。 恰恰相反,AI在很多单点任务上非常有用。 GitHub Copilot早年的控制实验显示,开发者用Copilot完成一个JavaScript HTTP服务器任务时,速度比不用的人快了55.8%。这个实验是真实存在的,也是AI编程工具最常被引用的数据之一。 但问题在于:单点任务变快,不等于整个业务变快。 写代码快了,后面还有测试。 文案写快了,后面还有投放。 产品做快了,后面还有用户反馈。 页面上线快了,后面还有转化率。 你原来卡在“写不出来”,AI确实能帮你。 但如果你真正卡在“没人买”“不知道卖给谁”“不会定价”“不会交付”,AI帮不了你太多。 这就是AI一人公司的第一个悖论: AI最擅长解决执行问题,但创业最致命的是判断问题。 所以很多人用了AI之后,每天产出变多了,文件夹里塞满了方案、产品原型、脚本、海报、落地页。 可最后收入没变。 因为产出不等于价值。 忙碌不等于闭环。 最反直觉的是:AI降低门槛后,团队优势并没有消失 这里有个很适合转发的反直觉数据。 一篇2026年5月发布在arXiv上的论文,研究了ChatGPT发布前后的创业项目数据。研究发现,ChatGPT出现后,独立创始人的进入明显增加,尤其是在软件服务、金融科技等原本更依赖团队的领域。 这符合大家直觉:AI让更多人敢出来创业。 但论文同时指出,很多新增项目更像是低承诺、短周期的实验;而在高排名产品里,团队创业仍然保持优势,并没有被独立创始人全面取代。 这说明一件事: AI把更多人送上了起跑线,但没有取消比赛本身。 以前你不会写代码,进不了场。 现在AI帮你写代码,你进场了。 但进场以后,你还要拼需求理解、产品判断、客户关系、销售能力、交付稳定性、现金流管理。 这些东西,一个人当然可以做。 但很累。 而且它们不是靠“多问AI几次”就能自动解决的。 所以我觉得,AI一人公司最真实的状态不是“一个人打败一家公司”。 而是: 一个人终于可以像小公司一样试错,但也必须承担小公司所有的压力。 真正值钱的不是“一人公司”,而是“带着AI进客户现场的人” 还有一个岗位很值得注意:FDE,也就是前沿部署工程师,英文叫 Frontier Deployment Engineer。 这个词听起来很硅谷,但翻译成人话很简单: 不是坐在办公室里做一个通用产品,而是带着技术直接进入客户业务现场,帮客户把问题解决掉。 这类人为什么越来越贵? 因为企业买AI,最怕的不是模型不够强,而是不知道怎么落地。 BCG的研究说,全球只有5%的公司真正成为AI“未来型企业”,能从AI里获得明显价值;而60%的公司虽然投入很大,但几乎没有获得实质性收入或成本收益。 所以企业真正缺的不是又一个AI工具。 企业缺的是这样的人: 能听懂业务部门在抱怨什么。 能判断这个问题能不能用AI解决。 能写一点代码。 能搭工作流。 能把模型接进现有系统。 还能跟客户解释清楚。 招聘平台Paraform的文章引用Live Data Technologies数据称,2025年前沿部署工程师岗位同比增长1165%。另一项对1000个FDE岗位的分析显示,披露薪资区间的岗位中位数约为17.38万美元。 这个方向比“泛泛做一个AI一人公司”更值得普通人关注。 因为它不要求你凭空创造需求。 它是进入已有需求现场,用AI提高交付效率。 换句话说: OPC是自己找钱,FDE是去帮有钱的人解决问题。 两者难度完全不一样。 AI一人公司能跑出来的人,通常不是“从零开始的人” 现在比较容易跑出来的一人公司,大多有一个共同点: 他们不是用AI替代行业经验,而是用AI放大行业经验。 比如一个人本来就懂跨境电商,他用AI做选品、广告文案、客服、投放分析,这叫放大。 一个人本来就在养老行业多年,他用AI整理健康档案、设计服务流程、做客户沟通,这叫放大。 一个内容创作者本来就有知识库、有受众、有选题判断,他把Obsidian、Notion、ChatGPT、剪辑工具串起来,这也叫放大。 但另一类人很危险。 他们没有行业理解,没有客户资源,没有销售能力,只是看到AI很强,就开始做工具、做App、做智能体。 产品很酷。 页面很好看。 Demo很丝滑。 但问一句:“谁会付钱?” 答不上来。 再问一句:“为什么不用大厂免费功能?” 也答不上来。 这就是80%失败项目的典型原因:不是做不出来,而是没人要。 AI时代有一句老话要重新说: 想法不值钱,执行才值钱。 现在还要加一句: 工具也不值钱,你用工具解决的那个具体问题才值钱。 一人十亿美元公司会出现,但别误会它和你有关 Sam Altman曾说过,他和一些科技CEO朋友有个小赌局:赌第一家“一人十亿美元公司”什么时候出现。TechCrunch也报道过这个说法。 Anthropic CEO Dario Amodei也公开表达过类似判断:AI可能让一两个人运营十亿美元级公司。 我相信这件事会发生。 但它很可能不是普通人想象的那种“一人公司”。 它大概率不是一个人买了几个订阅工具,每月花几百块,就突然变成独角兽。 更可能是一个极强的人,站在极强资源上,用极强算力、极强渠道、极强数据,做出极高杠杆的东西。 这和普通人的区别很大。 所以真正应该问的问题不是: “AI时代,我能不能一个人开公司?” 真正的问题是: 我手上有什么东西,值得被AI放大? 如果你有行业经验,AI会放大你。 如果你有客户资源,AI会放大你。 如果你有内容判断,AI会放大你。 如果你有产品洞察,AI会放大你。 但如果你只有焦虑,AI也会放大焦虑。 如果你只有幻想,AI也会放大幻想。 这才是AI一人公司热潮里最该清醒的地方。 AI不是员工。AI是放大器。 你原来有闭环,它帮你更快闭环。 你原来没有闭环,它只会让你更快地生产一堆没人买的东西。 最后留一个问题: 你觉得今天做一人公司,最难跨过去的门槛到底是什么——技术、客户、现金流,还是一个人长期扛住压力的能力?
智界发了台50W的车 把尊界架在火上烤了
来不及期待刚刚亮相的尊界 V800 ,接下来上场的,是鸿蒙智行的第一款 MPV:智界 V9。 就在今天下午,智界 V9 的正式上市价格在余承东的支持下正式发布了。四款车型的价格相比预售都降了一万,直接和定价 43.9-51.4 万的极氪 009 非光辉版杠上了。 有一说一,虽然这个价格还在脖子哥的预期范围内,但大伙应该都没有想到鸿蒙系的第一台 MPV 会是智界带来的。 但在提前体验过 V9 以后,我觉得智界在这台车身上,还是做出了一些不同于传统豪华 MPV 的努力的。 首先就是动力规格层面,V9 没有和友商一样先整纯电再改款增程,而是直接全系用上了智界招牌的雪鸮增程系统。并且四款车型电池容量和电机配置都相同,区别仅限于入门车型 Max 用的是单电机后驱。 选配置的时候一眼就能看明白,这点好评。 外观上,虽然哥们的尺寸已经来到了 5359x2009x1859 mm ,妥妥的中大型 MPV 定位。但在用上了智界家族化的设计语言以后,好不好看另说,不能否认即使是在用了镀铬的菱形格栅以后,V9 在观感上其实并没有太多的登味。 而在这回发布的四个外饰颜色里头,个人认为白色是最能体现 V9 的气质的。简单,干净,还能突出考究的形面转折和造型细节,相比深色也更有体量感一些。 到了车内,很搞笑的是,在全长一个半小时左右的发布会里,余承东只用了不到两分钟来介绍 V9 的前排配置。虽然在二排为王的 MPV 里,前排就是这个待遇。 但在开过实车以后我还是想说,在鸿蒙系的所有车型里,智界 V9 的前排观感对我而言是最舒服的。 三联屏幕的规格统一连贯、屏幕总成跟 IP 结构也有着和谐的嵌套,甚至就连屏幕的黑边都比大哥尊界要来得窄。 氛围灯的布置也相当克制,只在前排门板和天窗控制区域简单塞了一些,属于是光污染趋势的逆行者了。 当然,发布会上花了大篇幅介绍的二排座椅亮点也是确实多,也是智界这回最想和传统 MPV 做出区别的部分。 除了双零重力这种常规功能以外,从次顶配 Ultra 开始,智界 V9 的后排座椅还能支持复杂的旋转功能,可以小角度倾斜方便上下车,可以 90 度旋转看景色,还可以 180 度转到后头变成一个客厅。 但这些还都不是这把椅子最厉害的地方,在顶配车型的选装列表上,智界 V9 给后排座椅提供了名叫全维安全气囊的配置。在发生碰撞点爆的时候,它会以这样的形式展开,迅速保护二排乘客的上半身,属实是有点科幻。 而在实际体验中,智界 V9 顶配二排舒适度确实够高。这可能脖子哥坐过的原厂座椅里,不加腰靠的情况下,最舒服的一个。机械座椅按摩的力度和深度都不是气袋能比的,绝对可以给到夯。 但因为顶配二排是两个航空座椅,头枕不是独立的,就导致了第三排的视野其实并不算好。 解决方案?当然是迟早都会推出的四座版本。毕竟瞄着极氪 009 的智界 V9,势必是会给光辉版上上压力的。 至于底盘和行走件,因为脖子哥已经提前试过了这台车,所以我就结合着实际的体验跟大伙说了。 从硬件层面看,智界 V9 的底盘和鸿蒙智行其他车系一样,无论是结构还是用料都是拉满的状态。前桥铝制双叉臂,后桥则有着粗壮的 H 臂连杆。 双腔空簧和 CDC 可变阻尼减振器已经不算新鲜,MPV 上争议很大的后轮转向也没有缺席。和马上就要上市的尊界 V800 相比,差距应该就只剩一个全主动悬架了。 比较有意思的是,智界 V9 在常见的一体式压铸的后地板上,用了个名叫电磁热控压铸的技术。 本质上就是在压铸的时候通过磁场来控制模具里金属液体的流动,让后者在模具里的分布、受热都更均匀,可以在降低压铸件重量的同时保证强度。 这些硬件配合着良好的前向视野,极大幅度地削弱了智界 V9 的大车感。再加上轻巧的转向阻尼以及只有 5.35 米的转弯半径( 和燃油两厢车差不多 ),让它开起来有着一种不符合 MPV 刻板印象的灵活。 至于第二排的乘坐质感,V9 在调校上并没有走类似路面高铁、完全隔绝路感的路线,而是在充分过滤一阶振动的前提下,保留了一些二阶振动来让座舱感知路面信息。 大的抛跳和起伏对车身姿态的影响不大,但能感知到路面材质和路况的变化,属于是把舒适和操控信心结合的比较好的方式。 而且有一说一,智界 V9 通过莱茵认证的防晕车能力确实是有点东西。一台 3 吨左右的车在开启舒适制动以后,在红绿灯刹停时可以做到几乎没有点头,是脖子哥体验过为数不多,真的能优化刹车体验的方案。 至于智界 V9 的其他部分,比如它首发 ADS5 的智驾能力、比如它实际的续航里程等等,很可惜因为各种原因,脖子哥在试驾的时候就没能体验到了。 但至少从纸面参数上看,智界 V9 身为鸿蒙智行的 9 系车型,无论是车身用料还是智驾硬件,都已经到了让人挑不出毛病的水平,也对得起它的售价。 唯一的悬念,我觉得就是智界理解下的 MPV 能不能从传统车型嘴里抢下足够多的份额了。 因为很明显,智界对于 V9 的定位是一台不那么商务油腻、但也没有那么家用温馨的车型。这种思路可以获得更多在两种定位中摇摆的用户 —— 毕竟不用再纠结牺牲哪头的需求了。 但,也会让心里有着坚定选项的用户转向友商的车型。 期待智界 V9 市场表现的同时,我们也可以期待一手尊界 V800 的配置和价格。 毕竟连智界的 MPV 都是这个水平了,尊界理应更加让我们惊艳吧。
一台卖1万8的折叠iPhone,最贵零件可能要给三星送钱
折叠屏手机有一道著名的折痕。 过去几年,手机厂商拼命想把它消灭。OPPO Find N6 主打“Zero-Feel Crease”,三星也在展示更接近无折痕的OLED面板。看起来,折叠屏终于要成熟了。 但有个问题很扎心: 折痕越来越浅,折叠屏还是没真正卖爆。 TrendForce 预测,2025年全球折叠屏手机出货约1980万台,市场渗透率大约1.6%,和2024年差不多。DSCC也认为,折叠屏面板需求已经停在大约2200万片附近,2025年还可能下滑。 这说明一件事:折痕不是折叠屏卖不动的唯一原因,甚至可能不是最关键原因。 真正的问题是:用户展开它之后,到底要干什么? 折痕变浅了,但购买理由没有变强 折叠屏手机的核心卖点,一句话就能讲完: 合起来是手机,展开是小平板。 听起来很美好。 但普通人买回去之后,很快会发现几个尴尬场景。 看视频,屏幕比例不对。展开以后黑边很大,实际画面没有想象中那么震撼。 看文档,确实比普通手机舒服,但大多数人不是天天在手机上看几十页PDF。 多任务,听起来高级,但很多App适配并不好。有些只是被拉伸,有些分屏体验别扭,真要干活还是电脑更顺手。 所以很多折叠屏用户最后变成什么? 大多数时间还是折着用。 这就是折叠屏最尴尬的地方:它不是没有进步,而是它解决的问题,还不够痛。 普通手机已经够用了。 真要大屏,很多人有iPad。 真要办公,很多人有电脑。 折叠屏夹在中间,看起来什么都能做,但很少有一个场景是它非做不可。 这才是苹果最在意的事。 苹果等的不是折痕,是“必须展开”的理由 现在关于苹果折叠屏的传闻很多。 比较一致的说法是,苹果第一款折叠屏iPhone可能在2026年下半年到2027年初推出,形态类似书本式折叠,价格可能超过2000美元。UBS分析师也提到,苹果初期产量可能只有1000万到1500万台,因为价格太高,会限制需求。 但注意,这些都还不是苹果官方确认。 苹果真正难的地方,不只是把屏幕做平。 苹果如果只是想做一台折叠屏手机,早就可以做。它有钱,有供应链话语权,也有足够多的工程师。 问题是,苹果不能只做一个“能折的iPhone”。 苹果要做的是一个让用户觉得: 我必须为这块大屏多花几千块。 这就难了。 iPhone当年不是第一个智能手机。Apple Watch也不是第一个智能手表。苹果经常晚入场,但它入场时,通常会重新定义一个明确场景。 iPhone重新定义移动互联网。 Apple Watch重新定义健康监测和通知入口。 AirPods重新定义无线耳机体验。 那折叠屏iPhone要重新定义什么? 如果答案只是“屏幕更大”,这个理由不够。 因为屏幕更大这件事,iPad已经做了很多年。 最有意思的是:苹果可能被三星卡住了 这篇文章最值得转发的点在这里。 苹果折叠屏iPhone最关键的零件,大概率要找三星Display。 多家供应链报道都指向同一个方向:三星Display可能成为苹果折叠屏OLED面板的独家供应商,甚至有报道称是三年独家协议。OLED-Info还提到,苹果为折叠AMOLED面板支付的价格大约是每片250美元。 这件事很有意思。 因为三星Display给苹果供屏幕,而三星手机部门又在卖Galaxy Z Fold。 也就是说,苹果一旦做折叠屏iPhone,最核心的屏幕技术,可能要从自己最大的手机竞争对手体系里买。 这不是普通零件。 折叠屏手机最贵、最难、最影响体验的就是内屏。 如果一台折叠iPhone卖2000美元以上,其中一块关键屏幕要给三星约250美元,那苹果当然会非常谨慎。 更现实的问题是:苹果暂时没有特别好的替代者。 BOE这些厂商一直想进入苹果高端供应链,但折叠屏不是普通OLED。它不仅要亮度、色彩、寿命,还要折叠耐久、折痕控制、良率和大规模交付。 做出样品是一回事。 稳定供给几百万、上千万台,是另一回事。 苹果最讨厌被单一供应商卡脖子,但在折叠屏这件事上,三星Display现在确实太强。 UFG是什么?简单说,就是让玻璃该薄的地方变薄 现在行业里还有一个词很热:UFG。 它一般被理解为 ultra-thin flexible glass,也就是超薄柔性玻璃。也有报道把它解释成不等厚柔性玻璃。 核心思路很简单: 普通玻璃硬,弯起来容易形成折痕。 那就把需要弯折的地方做得特别薄。 薄到什么程度?传闻中是10到20微米级别。这个厚度已经非常夸张,接近一张纸的量级。 这样一来,屏幕弯折区域更容易自然弯曲,折痕视觉上就会更轻。 但这里有一个制造难点:厚玻璃和薄玻璃交界处,很容易形成应力集中。你可以理解成一根木棍中间被削薄了,它当然更容易弯,但也更容易从厚薄交界处出问题。 实验室里做出好看的样品,不等于能给iPhone量产。 苹果需要的不是“十台里面九台好用”。 苹果需要的是:几百万台、上千万台,都要稳定,维修率不能爆,供应不能断。 所以UFG不是一个简单材料故事,它其实是良率故事,是供应链故事,也是成本故事。 折叠屏真正怕的不是划痕,是“夹碎” 很多人买折叠屏之前,只担心折痕。 但真正用过的人更怕另一件事:内屏损坏。 折叠屏内屏比普通手机屏幕更脆弱。三星Galaxy Z Fold 6在美国更换内屏的价格可以达到429美元。Android Authority整理的维修价格显示,Fold 6外屏更换最高约129美元,但内屏可到429美元。 为什么这么贵? 因为折叠屏内屏不是一块普通玻璃。它是一整套柔性OLED、保护层、铰链结构和贴合工艺的组合。 还有一种很真实的风险,叫“夹碎”。 比如屏幕中间有一颗小石子、一粒硬壳、一只耳机,用户没注意,啪一下合上去,内屏可能直接报废。 苹果其实也意识到这个问题。苹果有一项关于折叠设备物体检测的专利,描述的是:设备可以检测屏幕上是否有可能在合上时造成损坏的物体。 但专利是一回事,量产上不上又是另一回事。 折叠屏手机越贵,用户越怕摔、怕压、怕夹。 用户越怕,使用就越不自由。 使用越不自由,它就越不像一台普通手机。 这就是折叠屏的心理成本。 苹果会不会成功?关键不在第一代 我个人的判断是: 苹果第一代折叠屏iPhone,大概率不会是走量机器。 它更像一个信号产品。 告诉市场:苹果也进入折叠屏了。 告诉供应链:接下来可以围绕苹果规格继续投入。 告诉开发者:你们该认真想大屏iPhone应用了。 它真正的意义,不是第一代卖多少台,而是能不能把“展开后干什么”这个问题抛给整个iOS生态。 如果开发者开始为折叠屏iPhone做新的界面,比如更强的双App协作、更自然的文档批注、更适合AI助理的分屏工作流、更像小型控制台的创作工具,那折叠屏才有机会从“炫技产品”变成“新平台”。 否则,它就只是一个更贵、更重、更脆弱的大屏手机。 这也是苹果迟迟不来的原因。 不是因为苹果不知道折叠屏有市场。 也不是因为苹果做不出折叠屏。 而是苹果很清楚: 折叠屏真正缺的不是一块没有折痕的屏幕,而是一个让人每天都想展开它的场景。 手机行业过去十几年,最大的进步是把所有东西塞进一块直板屏。 折叠屏想赢,就不能只是把这块屏幕变大。 它必须证明: 展开之后,人真的会变得更高效、更舒服,或者更离不开它。 否则,折痕消失了,尴尬还在。 你觉得哪种大屏场景,才能真正让人换掉普通手机?
Anthropic“神话”又添新章:5日攻破苹果5年打造的Mac安全壁垒
财联社5月16日讯(编辑 史正丞)最为全球黑客最难攻破的目标之一,苹果公司引以为傲的安全壁垒也成为Anthropic旗舰大模型“神话”(Mythos)登神长阶的最新参照物。 网安机构Calif的研究人员称,利用今年4月测试Anthropic预览版“神话”AI时所发现的技术,他们找到了一种绕过苹果最先进安全技术的新方法。 据悉,通过将两个漏洞和数种技术串联起来,就能突破苹果Mac电脑的内存防护,并进一步访问本应无法触及的区域。这是一种所谓“权限提升(Privilege Escalation)”漏洞的利用方式。如果再与其他攻击手段组合使用,黑客就有可能借此完全控制整台电脑。 作为背景,苹果去年9月宣布开发出一项名为“内存完整性强制执行(Memory Integrity Enforcement,MIE)”的新技术,并称其是“历时5年、前所未有设计与工程投入的结晶”。 Calif表示,在Anthropic模型的协助下,构建利用这两个MacOS漏洞的攻击代码只花了5天时间。 Calif首席执行官Thai Duong特别强调,这次攻击并非“神话”模型单独完成,而是结合了公司研究人员的网络安全专长。Duong表示,“神话”模型擅长复现有公开记录的攻击,目前还没有看到它提出全新攻击技术的案例。 该公司研究人员对他们的发现兴奋不已,周二亲自驱车来到苹果库比蒂诺总部,提交了他们描述所利用漏洞的55页报告。 (Thai Duong(右一)与研究员Bruce Dang在苹果总部门口合影留念) 苹果公司的一位发言人回应称,公司正在部署并测试前沿AI模型以发现并修补漏洞,目前正在审查Calif的报告以验证其发现。这位发言人表示:“安全是我们的首要任务,我们非常重视潜在漏洞的报告。” 过去几个月里,Anthropic、OpenAI等公司的最新模型在发现网络安全漏洞方面的能力突飞猛进。一些网络安全专家据此警告称,新一代旗舰大模型可能导致“漏洞末日”(Bugmageddon),意为现有的互联网基础设施被挖掘出海量安全漏洞。这不仅会给程序员带来繁重的修复工作,也构成前所未有的安全事态。 Anthropic今年早些时候曾表示,“神话”模型在两周内就发现了100多个“火狐”浏览器的高危漏洞。由于该模型对网络安全的风险太大,Anthropic决定暂时不公开发布,而是先让各行各业的关键机构优先试用模型,寻找并填补自家设施的漏洞。
Codex直接剪视频,剪辑软件都不用开,PR AE瑟瑟发抖
梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 传统视频制作N个产品来回横跳的工作流模式,这次可能真的要Game Over了? 因为嘛—— 现在你只用跟Codex说一句话,它就能把剪辑、PS、视频生成等一箩筐子的活儿全包了!! 就在刚刚,Codex把AI视频生成平台HeyGen接入了自家产品里。 数字人、画面、字幕、外观改变、剪辑、导出全能一锅出,完全不用离开Codex的内种。 最重要支持一键调用,啥skill啥安装包都不需要,插件在手,成片我有~ 视频制作友友狂喜,数字人生成友友狂喜,不想付八百个修图剪辑订阅费的我也狂喜!! HeyGen接进了Codex,一句提示词搞定制作全流程 大家平时甭管工作还生活里剪辑视频时,应该都有这样的抓马且让人挠头的感觉—— 那就是八百个软件切不完,真的切不完…… A软件生图,B软件修图、C软件剪辑,最后电脑卡死不说,把我们自己脑子的CPU也得干烧了! 所以哪怕到了今天,我们似乎也找不到一个能在一个能用「大白话」搞定视频制作全流程的工具。 而Codex这次干的事儿,就是把自家编程工具,跟AI视频生成平台HeyGen来了波梦幻联动—— 把生图、剪辑、字幕、配音这些步骤……全变成《代码工作流》。 单这么说,大家是不是感觉和市面上一些AI视频工具没啥区别?? 用之前我也这么觉得……但把插件装上后,我才发现自己想得是真有点简单了。(doge)—— 因为在Codex里调用HeyGen,本质上是用自然语言或代码指挥AI,生成的是类似HTML+CSS+JS的视频文件。 也正是因为这样,其优势就在于:可编程可迭代、更能让我们精确控制局部细节。 多说无益,我们直接小小实测一把,让友友们直观感受一下~ 在Codex中,我们不用装啥skill,直接在插件里搜「HeyGen」就能一键安装,超超超简单: 从第一步「生图任务」开始。 我在Codex里交代给HeyGen的任务是,让它生成一个数字人女孩。 然后我就得到了一张人脸相对比较自然的女孩形象照,皮肤纹理、瞳孔细节、头发丝该有的都有: 图片有了,下一步当然得让图动起来,咱直接试试HeyGen的看家本领:「数字人口播」。 生成一个视频,让图片中的女孩张嘴说话做讲解。 大概过了一分钟的时间,我就得到了一个声画同步的数字人口播视频! 口型完全没问题,主体一致性完成度也比较高,不错不错: 自动播放 但是,大家要知道,我们之所以想在Codex中调用HeyGen—— 看中的不仅仅是它一次性生成的能力,而是能帮我们进行剪辑、局部修改的「加工」能力。 所以我接下来直接上难度,我们在上个视频基础上,让HeyGen把口条改了,并加上相应的「字幕」: 在这个过程中,我还发现了一件挺有意思的事儿。 当Codex遇到一些小问题的时候,它能自己检查机器、调试设备、调配素材、解决故障,最后给你交出一条能直接用的成品。 这也正是绝大多数AI视频生成工具无法做的—— 因为Codex本身就是一个会自己想办法把视频做完的AI视频工程师,而不是只会按提示生成一次的工具!! 大概过了几分钟的样子,Codex就在上个视频版本的基础上增加了字幕。 而且蛮让我震惊的是,当替换了新的字幕后,女孩的口型依旧对的非常自然,和新字幕非常匹配: 自动播放 最后,我直接狠试一波大家最最最关心的「自动剪辑」能力。 这次,我直接给出了一箩筐《甲方需求》,也是大家平时剪辑里最常遇到的—— 把10秒以后的内容剪掉。 自动播放 第八秒女孩闭眼了,把那一秒剪掉。 自动播放 视频中的字幕变成单行,两行现在太丑了。 自动播放 大家觉得效果咋样,我是真挑不出啥毛病了。(惊呆.jpg) 可以说每一秒,每一个需求,都剪辑地非常到位,这难道就是Codex+HeyGen的威力吗…… 而且这些视频,不夸张,大概10秒钟,就水灵灵地出现在了我的文件夹里: (文件不需要保存,自动下载到电脑里的那种) 最后,我是真忍不住说一句: 从流转N个编辑器,变成在对话框里输Prompt 其实—— 把视频剪辑工作流打包在一个AI工具里,这事儿真不是HeyGen和Codex头一个想到的。 之前Sora、Runway、Veo这类生成模型都做过,但是在口播讲解,生字幕,加转场这种事情上还是有点费劲。 还有就是今年1月的时候,Remotion+Claude Code搞出一套「视频即代码」。 但门槛还是太高了…你不会React,Claude写出来的代码你看不懂、改不动、出bug也不知道怎么修…… 而在Codex中,你不需要懂HTML、不需要懂React、不需要懂FFmpeg,这些词你听都没听过都没关系。 你的工作只剩一件事:《张嘴提需求》。 当然,这本身和Codex和HeyGen的各自优势有关系,我也自己问了问Codex,人家是这么回答的—— 是的,Codex写HTML、CSS、JS的水平,目前在所有AI编程Agent里是第一梯队。 HeyGen那边的家底更不用说,算得上是过去五年AI视频赛道里,极少数真正把数字人和视频生产做到能商用的公司。 一个视频能力超强,一个编程能力超强,也算一波《强强联手》了。 当然这些都是一些题外话了,对于我们用户来说,能帮我们省力才是最重要的~ 我猜啊,没准过不了几年,剪辑这活儿,没准都跟手敲代码一样,成了一种「复古手艺」了…… 让子弹再多飞一会儿吧。(doge)
当AI“工程师”犯错时,谁能第一时间发现?
这项由罗格斯大学、德克萨斯大学奥斯汀分校和普渡大学联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.08715,有兴趣深入了解的读者可通过该编号查询完整论文。 当你把一项复杂任务交给一个由多个AI"专员"组成的团队去完成时,你最担心的是什么?大概率是:万一其中某个专员出了错,而后面的专员又毫不知情地接着干,最终酿成一连串的连锁失败。这正是当今AI多智能体系统(简单理解为"多个AI协作完成任务的系统")面临的核心困境。研究团队将这种困境形象地描述为"一个关键错误被下游智能体接受,并像滚雪球一样演变成全轨迹失败"。 为解决这一问题,研究团队提出了一个名为**AgentForesight**(智能体预见)的框架,并配套了一个专门用于训练的数据集AFTRAJ-2K,以及一个经过专门训练的紧凑型在线审计模型AgentForesight-7B。这项研究的核心思路,用一句话概括就是:与其等到任务失败之后再去追责,不如在任务执行过程中每一步都设置一个"实时监督员",一旦发现决定性错误,立刻发出警报。 --- 一、从"事后验尸"到"实时急救":一个视角的根本转变 以往,当一个AI多智能体系统完成(或失败)一项任务后,研究者会对整个执行过程进行"事后分析",找出是哪个智能体在哪一步犯了错。这就像一场手术失败后,医院召集专家开复盘会,逐帧回看手术录像——分析很有价值,但病人已经无法挽救。学界把这种做法称为"事后归因",现有的代表性工作包括Who&When、AgenTracer、AgentDebug等系统,它们都是在任务彻底结束、结果已经确定之后,才对完整的执行轨迹进行分析,找出那个"罪魁祸首"步骤。 这种做法有一个根本性缺陷:到那时候,错误已经在系统里传播了好几步,可能触发了真实世界中的API调用、文件写入或外部服务请求,某些操作甚至是不可逆的。研究团队认为,这相当于"在盖子掀开之前什么都不知道,一旦掀开锅盖,里面的东西早就糊了"。 这项研究提出的"在线审计"(Online Auditing)思路则完全不同。研究团队给在线审计的定义非常精确:在任务执行轨迹展开的每一步,一个专门的"审计员"只看到当前已执行的前缀(也就是从开始到当前步骤的历史记录),然后做出判断——要么让任务继续,要么发出警报,同时指出决定性错误发生在哪一步、由哪个智能体造成。这个审计员没有"未卜先知"的能力,看不到未来的步骤,也不知道任务最终会成功还是失败。这种约束使得在线审计比事后分析难得多,却也更有实际价值。 要理解这两者的区别,可以用一个生活场景来类比。事后归因好比一个人在购物完回家后,对着购物小票发现自己买了不需要的东西,然后懊悔地列出是在哪一步做了错误决定。而在线审计则好比购物时身旁站着一位经验丰富的顾问,每当你拿起一件商品,他立刻判断"这个值得买"还是"先别放进购物车"——并在你真正做出不可挽回的决定之前叫停。 --- 二、AI工作的"执行轨迹"到底是什么?先建立一个基础认知 在深入了解这套方法之前,有必要先理解一些基本概念,研究团队对这些概念做了非常清晰的形式化定义。 一个多智能体系统的执行过程,可以被记录为一段"轨迹"。轨迹由一系列"步骤"组成,每一步记录了是哪个智能体角色(比如规划者、搜索员、代码编写者)执行了什么动作、产生了什么内容。整条轨迹走完之后,会有一个"结果函数"对其打分:成功得1分,失败得0分。 在所有可能导致失败的步骤中,研究团队特别关注"决定性错误"这个概念。所谓决定性错误,是指那个如果被纠正,就能把失败轨迹变成成功轨迹的最早步骤。换句话说,不是每一个小失误都算决定性错误——只有那个"一旦出现、后续再怎么努力也难以挽回"的步骤,才被称为决定性错误。在对失败轨迹进行标注时,研究团队会为每条失败轨迹打上"决定性错误发生在第几步、由哪个智能体造成"的标签,而成功轨迹则打上"安全"的标签。 这个框架建立之后,在线审计的任务就变得非常清晰:对于每一条正在执行中的轨迹,审计员在每一步都只看到"从第0步到第k步"的前缀,然后判断是"继续"还是"警报+指出第几步出了问题+指出哪个智能体负责"。而在整个判断过程中,审计员不能看到第k步之后发生的任何事情,也不能利用最终结果来辅助判断。 --- 三、数据集AFTRAJ-2K:为审计员准备"真实案例档案" 训练一个好的审计员,需要大量高质量的"案例档案"——既有安全执行的轨迹,也有包含决定性错误的失败轨迹,而且每条失败轨迹都要精确标注错误发生在哪一步。现有的数据集要么只有失败轨迹、缺乏成功轨迹,要么只有轨迹级别的标签(成功或失败),没有步骤级别的精确定位。为此,研究团队专门构建了AFTRAJ-2K数据集。 数据集涵盖三个领域:数学推理(来自MATH-500基准)、代码生成(来自HumanEval+和MBPP+基准)、以及开放性智能体任务(来自GAIA和HotpotQA基准)。轨迹由三套成熟的多智能体框架生成,分别是AutoGen Swarm、MetaGPT和Smolagents,底层使用GPT-5.4-mini作为统一的语言模型骨干。整个数据集最终包含约2,272条经过精心筛选和标注的轨迹,其中1,158条是验证通过的"安全轨迹",1,114条是带有决定性错误步骤标注的"不安全轨迹"。 **安全轨迹的构建:三重过滤的严苛标准** 并非所有最终答案正确的轨迹都能被纳入安全轨迹库。研究团队设计了三层过滤机制,只有全部通过的轨迹才算真正"安全"。 第一层是结果等价性检验:确保轨迹的最终答案与标准答案完全一致,不同域有不同的验证方式——数学题用符号计算比较,GAIA用官方评分器,HotpotQA用特殊的文章-不敏感归一化器,代码题则通过实际运行测试用例。第二层是完整性检验:拒绝任何包含工具调用错误、序列化失败、空预测或环境限制终止的轨迹。第三层是连贯性检验:用一个GPT-5.4评判员来核查每一步的行动是否与已声明的子目标保持一致。通过这三层过滤的轨迹,才被认为在每一个前缀处都是真正安全的,可以用作正类监督信号。 这种严苛标准的必要性在于:如果把那些"最终结果碰巧正确,但中间步骤其实出了问题被后续智能体修复了"的轨迹也当成安全轨迹,那么训练出来的审计员就会学会对那些"表面看起来没问题"的早期警示信号视而不见。 **不安全轨迹的构建:两条路径并行** 不安全轨迹的获取有两个来源,研究团队将其称为"构造性流"和"诊断性流"。 构造性流的思路是在安全轨迹上主动"埋雷"。从一条已验证的安全轨迹出发,随机选择一个注入步骤和一个故障类别,生成一个有问题的替换步骤,然后让多智能体系统从这个被篡改的前缀开始继续往后运行,最终验证这次修改确实让结果变成了失败。由于注入位置是已知的,决定性错误步骤的标签可以直接确定。 故障类别在不同领域有不同的设计。数学领域包括计算失误、过早终结、验证走捷径、错误解读验证结果等四类;代码领域包括代码逻辑错误、跳过验证步骤、错误解读验证结果等三类;智能体任务领域则包括工具注入、提示注入、验证走捷径、求解器过早给出答案、验证员文本走捷径、最终答案覆盖等更丰富的类型。注入完成后还有一道"合格检查":如果后续智能体自我纠正导致最终结果仍然正确(意味着错误被修复了,不算决定性错误),或者目标步骤实际上没有被真正修改,则这条候选轨迹会被丢弃。 诊断性流则针对那些自然产生的失败轨迹,此时决定性错误的位置未知,需要通过分析来确定。研究团队采用了一个"提议-验证集成"流程:先由5个独立的"提议者"调用返回候选的决定性错误步骤及负责智能体,然后对每个独特的候选步骤进行3轮独立验证,每次验证沿四个二元标准进行打分,分别是"错误确实存在"、"错误具有实质性"、"错误具有决定性"、"错误是最早的"。只有当某个候选步骤在四个标准全部满足的情况下获得的验证者支持数超过多数阈值(即至少2票),才会被接受为标注结果。这种设计比简单多数投票更为保守,确保了标注质量。 最终,来自构造性流和诊断性流的不安全轨迹合并,与安全轨迹一起构成了完整的AFTRAJ-2K数据集。数据集按照"轨迹家族"(即一条安全轨迹及其所有注入变体)分层划分训练集和测试集,确保不会发生信息泄漏。 --- 四、AgentForesight-7B的训练:两阶段"由粗到精" 有了AFTRAJ-2K,接下来就是训练审计员。研究团队选择了Qwen2.5-7B-Instruct作为基础模型,并设计了一套"由粗到精"的两阶段强化学习训练方案。 **第一阶段:让审计员学会感知"危险边界"** 第一阶段的核心目标,是让审计员对"安全前缀"和"刚越过决定性错误的前缀"这两种情况有清晰的区分感知。研究团队将其称为"失败边界对齐"阶段。 对于每条不安全轨迹,研究团队构建两个"边界对"提示:一个是包含到决定性错误步骤前一步的前缀(此时正确答案是"继续"),另一个是包含到决定性错误步骤本身的前缀(此时正确答案是"警报")。这两个提示内容几乎相同,只差了最后那一步,但要求的判断结论却截然相反。通过让模型学习这种"一步之差、判断翻转"的规律,审计员就能内化一种隐性的"风险感知先验"——知道什么样的轨迹前缀是安全的,什么样的已经越过了危险线。 这个训练方式背后用的优化方法叫BPPO(边界对偏好优化),是研究团队基于经典的DPO(直接偏好优化)专门为这种"边界对"结构设计的变体。简单来说,它让模型通过比较"对的答案"和"错的答案"来调整自己的判断偏好,而且对"边界前"(应说继续)和"边界后"(应说警报)两种情况分别优化,最终促使模型学会在决定性步骤处"翻转"自己的判断。 **第二阶段:让感知变成精准定位** 第一阶段让审计员建立了粗粒度的边界感知,但仅有感知还不够——审计员还需要在正确的时机精确指出"哪一步出了问题,是哪个智能体负责的"。第二阶段使用GRPO(一种基于组内相对奖励的强化学习方法)来进一步精炼这种能力。 每次模型生成一个回答,该回答会沿三个维度被评分,研究团队将其称为"三轴奖励"。第一个维度是"什么"(结构轴):评分函数检查回答是否符合要求的JSON格式,字段是否完整且有实质内容,格式不合格会被扣分。第二个维度是"在哪里"(时间轴):评分函数用一个以正确步骤为中心的高斯函数来打分,预测步骤越接近真实决定性步骤,得分越高;完全精准命中得满分,偏差越大分数越低。第三个维度是"谁"(因果轴):评分函数检查预测的负责智能体是否与真实标注一致,完全匹配得满分,不匹配只得部分分。三个维度的得分组合成一个综合奖励,其中对于"安全"轨迹给出正确判断得+1分,对于"不安全"轨迹精准命中得到由时间轴和因果轴加权的得分,而判断方向完全错误(把不安全说成安全或把安全说成不安全)则得-1分。 在第二阶段的强化学习中,参考策略被固定在第一阶段训练出来的模型上,而非原始基础模型。这样做的好处是KL散度惩罚项会拉着模型回到"具备风险感知先验"的状态,防止模型在追求精准定位的过程中忘记了粗粒度的边界感知能力。整个训练过程在2张NVIDIA H200 GPU上完成。 --- 五、实验结果:和"更大更强"的模型同台竞技 研究团队在两个数据集上评估了AgentForesight-7B的表现,并与大量基线模型进行了比较。 评测使用的核心指标有两个。一是"精确步骤F1"(Exact-F1),这是一个综合了"召回率"和"精确率"的综合分数——简单说,既要求"不遗漏真正的决定性错误步骤",也要求"不乱把错误的步骤误报成决定性错误步骤",两者越平衡、越准确,得分越高。二是"绝对步骤偏移"(ASS),衡量预测的错误步骤与真实步骤之间的平均绝对距离,这个数值越小越好。 **在AFTRAJ-2K测试集上**,AgentForesight-7B以66.44的整体Exact-F1远超所有竞争对手。作为对比,同类中最强的专有模型DeepSeek-V4-Pro(一个远比7B大得多的模型)得分为46.56,差距超过19个百分点。在步骤定位精度上,AgentForesight-7B的ASS为0.59,而DeepSeek-V4-Pro为1.77,意味着定位精度提升了约3倍。 分领域来看,AgentForesight-7B在数学领域的Exact-F1达到77.36(次优为DeepSeek-V4-Pro的50.34),代码领域达到78.87(次优为DeepSeek-V4-Pro的49.32),智能体任务领域达到48.70(次优为Qwen3-32B的40.00)。值得一提的是,AgentDebug-7B这个"能看到完整轨迹才进行事后分析"的基线模型,在整体Exact-F1上仅得到9.63,在数学领域甚至检测不到任何不安全轨迹。这充分说明,把一个"事后分析"模型直接拿来用于每一步的在线审计,效果非常糟糕。 **在外部基准Who&When上**,这项测试涉及127个多智能体系统,轨迹来源完全独立于AFTRAJ-2K。AgentForesight-7B在步骤准确率上达到57.69%,比最强基线GPT-4.1高出约19.59个百分点;在智能体准确率上达到73.08%,比GPT-4.1高出约6.41个百分点;ASS为1.62,优于所有基线。这说明AgentForesight-7B学到的在线审计能力具有良好的泛化性,而非只是记忆了训练数据的特定模式。 **两阶段训练的贡献分解** 研究团队还专门分析了两个训练阶段各自的贡献。以Qwen2.5-7B-Instruct基础模型(整体Exact-F1为21.05)为基准:仅使用第一阶段训练后,整体Exact-F1提升至35.63;仅使用第二阶段训练后,整体Exact-F1提升至50.42;两阶段结合后,整体Exact-F1最终达到66.44。 这个分解揭示了一个有趣的规律:第二阶段单独训练在数学(63.64)和代码(72.73)领域效果很好,但在智能体任务领域(19.05)反而低于第一阶段单独训练的结果(31.58)。原因在于智能体任务的失败边界更难辨识,没有第一阶段建立的"风险感知先验",第二阶段的精准定位训练就会"无处着力"。加上第一阶段之后,智能体任务领域的表现恢复到48.70,证明两阶段的协同是必要的。 **部署可行性:虚警率与步骤精度的双重考量** 研究团队还绘制了一张"部署权衡图",横轴是虚警率(在安全轨迹上发出错误警报的概率),纵轴是步骤准确率(在不安全轨迹上精确定位决定性步骤的概率)。他们划定了一个"可部署区域":虚警率不超过20%,步骤准确率不低于50%。在所有参与比较的系统中,只有AgentForesight-7B落在这个可部署区域内,其虚警率仅为2.37%,步骤准确率为59.51%。DeepSeek-V4-Pro以虚警率43.20%、步骤准确率53.99%勉强位于可部署区域之外,其他模型则大多集中在"虚警率高但步骤准确率中等"的不理想区域。 --- 六、当"聪明"的大模型也会犯的错,审计员如何应对 研究团队通过具体案例展示了在线审计的独特挑战和AgentForesight-7B的优势。 在一个网络搜索任务中,任务要求找到"离Rivington Hall Barn最近的前磨坊小镇",正确答案是Bolton。搜索智能体在步骤5返回了错误答案"Horwich",管理智能体随后将其传递并提交为最终答案。面对这个轨迹,DeepSeek-V4-Pro的判断是"整体流程看起来正常,判为安全"——完全没有发现错误;Gemini-3-Flash则过早地在步骤2(管理智能体的规划思考阶段)发出警报,属于"假阳性"。只有AgentForesight-7B正确地指出步骤5的搜索智能体是决定性错误的来源。 在另一个数学案例中,决定性错误发生在步骤6,而两个专有基线Gemini-3-Flash和GPT-4.1分别在步骤4和步骤3就发出了警报——这些都是仍然可以被后续步骤修复的"可恢复步骤",并非真正的决定性错误。AgentForesight-7B则唯一正确地等到步骤6才发出警报,精准命中真正的决定性错误所在。 研究团队还分析了AgentForesight-7B自身的失败模式。在169条安全轨迹中,只有4条被错误地发出了警报(虚警率2.37%),而且这4个案例均属于"步骤内自我纠正被误判为决定性错误"——比如验证智能体的工具调用先返回了一个错误的中间结果,然后同一个智能体在同一步骤内又自行纠正了,AgentForesight-7B的风险感知先验被表面上的"错误信号"触发,提前一步发出了警报。在被正确检测到的不安全轨迹中,大约75%的定位偏差只有"偏差1步",主要原因是系统有时会定位到"错误的根源所在步骤"而非"错误被最终提交的步骤",这两者对人类来说可以说都是合理的解释。 --- 七、为什么不让AI自己"反思",而要设置独立的外部审计员 研究团队在论文中专门讨论了"为什么不让智能体自己反思检查,而是要设置一个独立的外部审计员"这个问题。 核心原因在于一个被研究者反复证实的规律:生成一段内容,和评判这段内容是否正确,是两件难度不对等的事情。一个能力相对较小的评判者,往往可以可靠地监督一个能力更强的生成者。这在过程监督领域已经有充分的实证支持。在AgentForesight的场景中,7B的审计员可以可靠地监督底层运行着更大、更复杂模型的多智能体系统。 更深层的问题在于:让智能体自己反思,相当于用生成错误内容时所用的同一套参数,去评判这段错误内容是否有问题。这就好比让一个人用同一把刻度不准的尺子,既量物体,又验证量得准不准——尺子有偏差,反思也会有相同的偏差。大量研究表明,基于语言反馈的自我纠正循环往往无法从上游错误中恢复,有时甚至会把本来正确的步骤改错。 外部审计员的另一个优势是"解耦":审计员不参与任务执行,不会干扰智能体的协作流程;审计员的训练目标和参数独立于底层智能体,因此它的"盲点"和底层智能体的"盲点"不重合。此外,外部审计员的虚警阈值可以单独调整,不影响底层智能体。实验数据也直接支持了这一点:在相同的Qwen2.5-7B-Instruct底座上,采用外部审计员范式的AgentForesight-7B(整体Exact-F1为66.44)比采用自我反思范式的Reflexion-7B(整体Exact-F1为23.38)高出约2.84倍。 --- 说到底,这项研究做了一件听起来简单但实际上颇具难度的事:把"发现AI犯错"这件事,从"等任务结束再慢慢分析"改变成了"边执行边盯着、一出错就叫停"。为了实现这个转变,研究团队构建了一套专门的数据集(每条轨迹都精确标注了"决定性错误步骤"),设计了一套两阶段训练方案(先让模型感知危险边界,再训练模型精准定位),最终得到一个紧凑的7B模型,在多个测试集上超越了参数规模大得多的专有系统。 这项研究的现实意义不容小觑。随着越来越多的AI智能体被部署在真实世界的工作流程中——处理文件、调用API、操作数据库——一个能在错误传播之前及时叫停的"在线审计员",很可能成为保障AI系统可靠运行的标配组件。当然,研究团队也坦诚地指出了局限:在线审计需要在每一步都调用审计员,增加了一定的运行开销;数据集目前覆盖的领域(数学、代码、网络搜索类任务)相对有限,尚未涵盖长期具身智能体或开放性科学发现等更复杂的场景。 有兴趣深入研究这套方法的读者,可以通过arXiv编号2605.08715查阅完整论文和附录材料,研究团队也在论文中提供了完整的代码和数据集开源资源。 --- Q&A Q1:AgentForesight和传统AI错误检测方法有什么不同? A:传统方法是在多智能体任务完全结束并失败后,才对整个轨迹做事后分析,找出哪个步骤出了问题,但此时错误已经传播,可能已触发不可逆操作。AgentForesight则采用"在线审计"方式,在任务执行的每一步都对当前已有的执行记录进行判断,一旦检测到决定性错误,立即发出警报并指出错误步骤和负责智能体,为干预留出窗口。 Q2:AFTRAJ-2K数据集是怎么保证标注质量的? A:对于成功轨迹,研究团队使用了三层过滤机制,确保每一步都真正安全。对于失败轨迹,分为两类来源:一类是在安全轨迹上人为注入错误、精确记录注入位置;另一类是自然失败轨迹,通过"5个独立提议者+3轮独立验证"流程确定决定性错误步骤,只有在四项严格标准上都通过多数验证的候选步骤才被接受为标注结果,比简单多数投票更为保守。 Q3:AgentForesight-7B只有7亿参数,为什么能超过更大的专有模型? A:主要原因是专门化训练。AgentForesight-7B的整个训练流程——包括数据集构建、两阶段强化学习方案、三轴奖励设计——都围绕"在前缀受限条件下进行在线审计"这一特定任务精心设计。而更大的专有模型是通用模型,没有针对这个特定任务进行专门训练,因此在这个特定场景下反而不如经过专门优化的小模型表现好。
马斯克开源𝕏最新算法!全网开发者逐行拆解
新智元报道 编辑:好困 【新智元导读】马斯克又搞大事!𝕏把社交平台绝对不会公开的两样东西「广告」和「审查」,连同一个能直接跑的推荐模型,一口气全推上了GitHub。6亿人每天刷到什么,现在是Grok说了算。 就在刚刚,马斯克把𝕏最新版的算法给开源了! 老马的官宣只有一句话,但瞬间就引来了超2700万网友的围观。 之所以这么炸,是因为社交平台有两样东西是绝不能给外人看的: 第一,广告注入系统,也就是「印钞机」。 第二,内容审查管线,也就是「生死簿」。 而𝕏把这两样的源码,连同一个3GB大小的推荐模型,一口气全放到了GitHub上! 仓库地址:https://github.com/xai-org/x-algorithm 不是,𝕏连广告代码都给了? 1月19日,𝕏第一次把推荐算法开源。 当时公开的是Phoenix排名模型和Thunder信息流引擎,也就是是「你打开For You看到什么」的决策逻辑。 但广告系统的代码,一个字都没有。 这回,全给了。 新增的home-mixer/ads/目录里,有四个相关的Rust文件。 partition_organic_blender.rs,负责把广告和自然内容混在一起 safe_gap_blender.rs,负责控制两条广告之间至少隔几条自然帖子 ads_brand_safety_hydrator.rs + ads_brand_safety_vf_hydrator.rs,负责管品牌安全,确保广告不会出现在暴力或色情内容旁边 注意这里的关键词,blender,混合器。 也就是说,广告不是硬插的,是跟你发的帖子、你关注的人发的帖子一起排队、一起打分、然后按规则混合的。 你刷到的每一条广告,都是「赢」了旁边那几条自然内容才出现在那个位置的。 有个审帖工具,名字叫「deluxe」 另一个从未公开过的组件是grox/目录。 它专管帖子发出之后、进入推荐之前的那道「审查流水线」。 六个分类器各管一摊: spam.py,负责垃圾内容检测 post_safety_screen_deluxe.py,负责安全审查(「豪华版」这个命名,很𝕏) safety_ptos.py,负责平台服务条款策略检查 banger_initial_screen.py,负责爆款初筛,判断一条帖子是否「够炸」 reply_ranking.py,负责回复排序 classifier.py,负责通用内容分类 这里最有意思的是banger_initial_screen。banger,爆款。 也就是说,𝕏的算法里专门有一个分类器在判断「这条帖子炸不炸」,炸的优先往前排。 整套Grox管线用Python写成,跟Rust写的推荐系统主体形成了分层。 其中,Rust跑毫秒级排序,Python管「这条内容该不该存在」。 配套的还有Kafka数据加载器、ASR语音识别处理、帖子摘要生成器,以及一个调度引擎把这些任务编排成不同的「plan」跑起来。 3GB模型给你,拿去直接跑 技术圈最兴奋的可能是第三个变化。 以前开源推荐算法,你看得到逻辑但跑不起来。没有模型权重,代码就是一堆空壳。 这回𝕏直接塞了一个预训练好的mini Phoenix模型: Mini Phoenix Model├── 嵌入维度: 256├── 注意力头: 4├── Transformer层数: 2├── 模型体积: ~3 GB(Git LFS分发)└── 推理入口: python run_pipeline.py(检索→排序,一行跑通) 一行命令,从检索到排序的完整推理流程就能跑通,pipeline结构跟生产环境一模一样。 当然,mini模型的参数规模远小于线上那个。 但这已经是社交平台历史上,第一次有人把「能跑的模型」和「生产级代码」打包在一起给出来。 一条帖子的生死,15个概率说了算 广告、审查、模型是这次最炸的三个新组件。但它们各自填进了推荐pipeline的具体位置。 1月那一版,pipeline六步里大部分只有骨架代码。 这次补全之后,每一步都有了完整的Rust或Python实现。 从2个候选源到7个以上,从0个用户画像hydrator到17个。 直接把整条pipeline从「能看」变成了「能跑」。 整条pipeline的灵魂在第5步打分。 Phoenix的Grok Transformer给每条帖子打分时,会同时预测15种用户行为的概率。 最终得分的评判如下: Final Score = Σ (weight_i × P(action_i)) 正向行为 → 正权重(加分)负向行为 → 负权重(重扣) 15道考试,11道加分题,4道送命题。 你的帖子每一条都要走这么一遍。 We have eliminated every single hand-engineered feature and most heuristics from the system。 所有手工规则全砍了,100%靠Transformer端到端学出来。 打分机制里还有一个设计叫Candidate Isolation,候选隔离。 Transformer推理的时候,候选帖子之间互相「看不见」。 每条帖子只能看到用户的历史行为,看不到同一批里有什么其他帖子。 为什么要这么做? 因为如果候选帖子互相影响,同一条帖子跟50条候选一起送进去和跟500条一起送进去,得分会不一样。 而𝕏通过注意力掩码把这个依赖彻底切断,每条帖子的分数独立、稳定、可缓存。 换句话说,这15种预测,不是在猜「这个人喜欢什么」,是在判断你会做什么、不会做什么、以及做完之后会不会后悔。 你的For You,现在是一本打开的书 如今,全球主流社交平台里,𝕏是唯一一个把推荐算法、广告系统和内容审查管线都摊在GitHub上的。 你的For You怎么排序,广告怎么混进来,哪些内容会被干掉,现在都有一份Rust和Python写成的答案。 而且这套推荐系统已经100%切换到Grok Transformer驱动,手工规则全砍。 也就是说,xAI的模型能力已经从聊天机器人,渗透到了6亿人每天的信息消费决策里。 推荐系统,可能是当下最有实权的AI应用场景。谁控制了排序,谁就控制了注意力。 有兴趣的可以git clone下来跑一把。 3GB模型,一行命令,你就能看到那15个概率是怎么决定你每天刷到什么的。
奥特曼亲推!400万周活Codex杀入移动端,码农不用再死守电脑了
新智元报道 编辑:元宇 【新智元导读】400万周活的Codex,被OpenAI装进手机了!OpenAI官宣,Codex进入ChatGPT手机App,开发者离开电脑,也可以用手机随时审批命令、调整方向,指挥智能体继续跑活。 程序员把任务扔给Codex,自己就可以出门喝咖啡了? 刚刚,OpenAI把Codex装进了手机:Codex已进入ChatGPT手机App预览版,面向iOS和Android全量开放,覆盖所有套餐,包括免费版和Go用户。 OpenAI官方预告语说,用户期待这项功能已经很久了。奥特曼也发帖亲推:这是ChatGPT移动应用中的Codex! 从此,开发者变身24小时AI监工:离开电脑,也可以通过手机看进度、审diff(代码变更对比)、批命令,智能体在电脑、devbox或远程环境里继续跑。 https://openai.com/index/work-with-codex-from-anywhere/ 正如OpenAI官方博客所言,「你可以随时随地和Codex一起工作」:移动端Codex的推出,呼应了AI编程长时任务带来的需求。 过去,写代码是人坐在机器前输入指令的过程。现在,Codex每周有超过400万名开发者在使用,Codex处理的已经是长达数小时乃至数天的任务。 智能体在跑,人在别处,异步审批正逐渐成为常态。当智能体跑到岔路口,需要一个判断,而你在咖啡馆、在通勤、在开会,这正是Codex移动端要解决的问题:让你在任何地方都能给智能体一个指令,让它能继续跑任务。 手机是遥控器 开发环境一直在电脑里 很多人看到「Codex进手机」,第一反应是:以后可以在手机上写代码了? 并非如此。 OpenAI的产品逻辑是这样的:Codex继续运行在你的电脑、Mac mini、公司devbox,或者公司远程开发环境里。文件、凭证、权限、本地配置,这些东西并不会搬到手机上。 ChatGPT手机端菜单已出现Codex入口 手机端能做的,是作为控制面板:查看所有活跃线程、审查智能体的输出、批准它申请执行的命令、切换使用的模型、开启一个新任务。 与此同时,智能体的实时状态会推送到手机上,包括截图、终端输出、diff、测试结果,以及需要人工介入的审批请求。 底层是一套安全中继层(secure relay layer)。它让你的主机可以跨设备被访问,但不直接暴露在公网上。 设置流程也相对直接:在macOS Codex App里开启远程访问,扫二维码,ChatGPT手机App完成连接。 咖啡店、地铁、午餐桌、多任务监督 四个正在被改写的场景 场景一,咖啡店里审diff。 早上派下去的几个任务,到点查一下进度,diff一目了然。某段改动方向不对,在手机上敲两句注释回过去,智能体收到就接着调整。 开发者人不在工位,代码却没停下来。一杯咖啡的时间,三个PR的进展全部回顾完,必要的反馈都已经发出去。 场景二,通勤路上改方向。 智能体跑到一半卡在某个不熟的API上,主动给开发者发问询。地铁里看一眼,回复「用X库的Y方法」,智能体拿到答案继续跑。 决策的颗粒度变细了:开发者不再亲自写代码,但持续在校准方向。一段30分钟的通勤,原来是无法转化成产出的纯消耗时间,现在能消化掉两到三个智能体的关键决策点。 场景三,午餐时塞个新想法。 吃饭刷动态时冒出一个产品idea,掏出手机派给智能体「先做个原型出来」。等下午回工位,已经有可看的提交记录在等着。从想法到代码的转化路径被压短了,原来需要一个晚上,现在压缩到一顿饭。 场景四,多任务并行监督。 同时三四个智能体在不同任务上跑,开发者用手机切换审阅。工作方式从「一次写一个项目」换成了「一次监督一组工程」。一个人手里同时挂着四五条线,每条线都在推进。每个智能体独立工作,开发者只在关键节点出现。 四个场景指向同一件事:开发者的输入从「代码」换成了「判断」。 手机够用,是因为输入的内容本来就不需要键盘和大屏。两句注释、一个方法名、一个「继续」或「重做」,这些是手机最擅长的输入形态。 手机批代码,风险也需知道 在手机上审批智能体任务,也可能带来更高的错误风险。 小屏幕、多任务场景下,注意力质量很难匹配开发决策的要求。 这并非小题大做。Codex在手机上等待批准的,往往并非普通的操作:shell命令要不要执行、两条重构路径走哪一条、一个权限申请批不批。 这些判断在桌面IDE前可以放大窗口、对照上下文、反复确认。在通勤途中,很可能就是瞥一眼、划一下。 OpenAI在安全设计上做了一些应对:Hooks支持扫描提示词中的敏感信息、运行命令验证器;企业用户有权限管理和审计日志;Codex默认沙箱运行,需要更高权限时会主动申请。 但工具的设计再完善,移动端审批本质上也是在把关键决策点搬进了碎片化注意力的场景。 如何平衡便利性和严谨性之间的矛盾,仍是一个有待解决的问题。 开发者从踢球的人变成了场边教练 手机审批只是表象。 OpenAI在2月的Codex App发布中写过一句话:核心挑战已经从「智能体能做什么」,转变成「人如何在更大规模上指挥和监督智能体」。 手机端是这句话的一个落地,背后是整套工作流的重塑,有三层东西同时在被解构。 第一层,时间。 过去,开发者的产出很大程度上受限于在场时间:人离开键盘,代码推进也往往随之暂停。现在,Codex可以在主机、devbox或远程开发环境中持续运行,开发者不必始终守在屏幕前,只需要在关键节点介入判断、审批和纠偏。 当一个开发者手里同时挂着多个智能体任务时,工作流的瓶颈会从「亲自敲代码」转向「拆解任务、判断方向、审查质量」。 这并不等于线性获得数倍人工编码时长,但确实会把原本容易空转的等待时间利用起来,也让单个开发者能够管理更多并行任务。 产能的天花板,正在被重新定义。 第二层,空间。 决策可以发生在任何有4G信号的地方,但空间被解构并不等于「程序员变自由了」,决策密度反而在上升:原来一天写6小时代码,现在每隔半小时就要回应一次智能体的问询。 开发者不被工位绑住,却被智能体的进度条绑住。智能体越能干、跑得越快,开发者要做判断的频次就越高。 第三层,注意力结构。 过去写代码要进入flow状态,连续输出几十分钟乃至几小时。现在的模式是碎片化决策:给智能体一段方向,等结果,再校准,再派下一步。 开发者从「亲自下场踢球的球员」,变成了「场边的教练」。球员靠训练量堆能力,教练靠判断、经验、阅读比赛。两件事的核心能力并不相同。 这套新工作流里,受益最大的是三类人。 独立开发者:一个人也能并行四五个项目,资源杠杆被放到极致。精力上限的瓶颈被智能体打开,新的瓶颈转移到判断力和方向感。 小团队:把智能体当低成本的「虚拟工程师」,三五个人加上一组智能体,能撑起的业务量级在过去需要约20人的团队。 大厂工程师:从重复编码里抽出的精力,转去做架构设计、跨团队对齐、码审查这些智能体还不太擅长的事。资深工程师的价值被放大,初级工程师面临的挑战会更现实。 开发者的能力门槛没有变低,只是技能权重换了。 「写代码」在工作占比里的权重在下降,「定义任务、监督质量、判断方向」的权重在上升。 能拿这套工作流跑出5倍产能的人,会比只会埋头写代码的人值钱很多。 这一步棋 OpenAI已经布局了三个月 Codex的移动端并非突发动作。回头看,这是一条清晰的产品线。 2026年2月,OpenAI推出Codex macOS App。官方当时的定位是「agent command center(智能体指挥中心)」,设计目标是管理多个智能体并行运行、处理长任务、支持diff审查和工作树隔离(worktree isolation),让不同智能体可以在同一个代码库的不同副本上工作而互不干扰。 2026年2月2日,OpenAI发布Codex macOS App。https://openai.com/zh-HansCN/index/introducing-the-codex-app/ 2026年3月,Codex App更新Windows版本。 2026年4月,智能体获得在桌面后台持续运行的能力。 2026年5月初,OpenAI推出Codex Chrome扩展,允许智能体在真实浏览器会话中工作。 5月14日,手机端。 每一步都在扩大控制面。桌面App是起点,跨系统是纵深,移动端是触角,Chrome扩展是感知。 这次的企业能力也同步发布。 Remote SSH(远程SSH连接)正式GA(进入通用可用状态),Codex可以直连公司的受管远程环境,访问其中的依赖、凭证和安全策略。 Hooks也进入GA,支持扫描提示词中的敏感信息、运行验证器、记录会话日志,或者针对特定代码仓库定制Codex行为。 此外还有程序化访问token(programmatic access token),可以从ChatGPT工作区设置中签发,用于CI流水线、发布工作流和内部自动化。以及HIPAA合规本地环境支持,面向医疗机构开放。 目标群体已经不只是个人开发者,Codex在朝着团队级、企业级工作流走。 Anthropic先到 OpenAI在追 Anthropic早在2月就做了类似的事,OpenAI这次是在快速补课。 2026年2月,也就是OpenAI推出Codex macOS App的同一个月,Anthropic已经发布了Claude Code的Remote Control功能,允许用户从远端监控和介入Claude Code正在执行的任务。 据TechCrunch报道,这与OpenAI这次的Codex移动端方向高度相似。 这场仗的战场,已经从「谁的模型更能写代码」转移到了「谁能锁住开发者的工作流入口」。 GitHub Copilot式的代码补全只是一个功能,用完即走。 Claude Code和Codex争的是另一个层面的东西:开发者日常工作的调度中心。谁的工具深入开发者的项目、线程、凭证、任务队列,谁就能在工作流里扎根。 5月13日,也就是Codex手机端宣布前一天,奥特曼宣布:任何切换到Codex的公司,可以获得两个月免费使用,攻势直指Anthropic。 时间点并非巧合。 就在更早一些,有报道指出Anthropic因需求持续攀升而上调了部分定价。OpenAI顺势打出补贴牌,攻势明显。 这是两家公司之间的一个惯常模式。Anthropic涨价,OpenAI降价。每一次都像是在问同一个问题:开发者,你最终要用谁的工具? 这次Codex进手机,是OpenAI与Claude Code Remote Control的一次正面对决。 AI编程的战场,已经从开发者的工位,烧到了口袋。
OpenAI把ChatGPT接进银行,它知道你攒了多少钱,但碰不了一分
新智元报道 编辑:元宇 【新智元导读】OpenAI刚把ChatGPT接入了银行账户。目前该功能以预览版形式面向美国ChatGPT Pro用户开放,可以通过Plaid连上12000家金融机构的账户,获得消费分析和理财规划辅助。从此,聊天框旁边,多了一个能帮你看每月账户流水的大模型。 OpenAI开始让ChatGPT读你的银行账户数据了。 刚刚,OpenAI推出了ChatGPT个人理财功能预览版。 用户授权后,可通过Plaid在ChatGPT中连接超过12000家金融机构账户,并基于余额、交易、投资和负债等数据,获得消费分析、预算梳理和长期财务规划辅助。 OpenAI官方披露,每月已经有2亿人在ChatGPT里聊钱:聊预算、聊投资、聊买不买得起房。实际上,用户早已把ChatGPT当理财顾问用了,OpenAI这次只是把数据通道补上了。 以前你问ChatGPT「我该怎么存钱」,它给出的都是教科书式通用建议: 盯住餐饮和订阅、48小时购买原则、自动转账到独立储蓄账户、留一个低消费默认、增加一点收入、每周只跟踪一个数字…… 这听起来都对,但实际上和自己的财务状况没什么关系。 现在,通过个人理财功能问同样的问题,ChatGPT可以直接调取你2月到5月的真实账单——餐饮约1620美元、购物约1250美元、交通约1450美元、订阅约420美元,并基于这些数据,生成专属于你的个性化理财方案: 餐饮每月封顶450、购物每月封顶300、交通每月封顶400、每周买菜目标125-150美元、自动转500美元到储蓄账户,目标每月多攒705美元。 说的是你自己的钱,给出的也是为你量身定做的建议,这正是「通用问答」和「个人理财助理」之间的区别。 同一个问题,连接账户前后的回答对比。左:通用储蓄建议;右:ChatGPT读取真实消费分类数据后给出针对性方案。 这也是通用AI助手,首次以ChatGPT这种用户规模进入「钱包级」敏感数据场景。从此,聊天框旁边,多了一个能看见你工资流水、信用卡账单、订阅扣费、负债余额的大模型。 这次发布,OpenAI同时上线了个人理财功能的web端和iOS端App,账户同步完成后,仪表盘会直接呈现投资组合表现、消费分类、订阅项目和待付款项。 OpenAI官方,也为这个功能划了边界:它不是专业财务建议的替代品,也不替用户做决定。 12000家金融机构,一个授权 每月超过2亿人向ChatGPT提出财务相关问题,问答能力是ChatGPT本来就有的能力。 这次个人理财功能最大的改变在于数据接入权,通过Plaid,这次功能覆盖超过12000家金融机构。 进入个人理财功能预览版的入口操作很简单: 打开ChatGPT侧栏的「Finances」(财务)选项,点「Get started」(开始使用),或直接在对话框输入「@Finances, connect my accounts」(@财务,连接我的账户)。 ChatGPT个人理财功能连接流程:从侧栏Finances入口发起,经Plaid授权,American Express、Charles Schwab、Robinhood等账户逐一同步完成。 之后ChatGPT会引导你通过Plaid完成账户授权,几分钟后同步完成。 很多人看到这里的第一反应可能是:OpenAI直接接入银行了?并非如此。 还要通过一个关键中间层:Plaid(金融数据连接服务)。 用户会按Plaid/银行的授权流程完成登录验证;在需要输入银行用户名和密码的场景下,Plaid称不会把这些登录凭证分享给OpenAI这类应用。 也就是说,OpenAI拿到的是结构化的财务数据,拿不到你的银行密码。 通过Plaid,这次个人理财功覆盖的金融机构包括Schwab、Fidelity、Chase、Robinhood、American Express、Capital One等。 同步完成后,你会看到一个仪表盘:投资组合表现、消费分类、订阅项目、即将到期的账单。 然后可以直接提问,问题可以很具体:「我5年内能在芝加哥买房吗」「我有哪些订阅可以取消」「我的消费结构哪里出了问题」。 ChatGPT结合你的真实账户数据回答,而不是给一套通用模板。 目前,该功能面向美国Pro用户开放,支持网页端和iOS。 OpenAI的计划是先积累早期反馈,之后扩展到Plus用户,最终目标是面向所有人。 OpenAI把自己锁在了「只读模式」 边界比功能更值得关注。 在这次Plaid账户连接预览版中,OpenAI把权限限制在「只读」范围内。 ChatGPT可以访问账户的余额、交易记录、投资持仓、债务负债,但它不能查看完整账号、不能更改账户任何信息、不能转账、不能下单、不能进行投资操作。 也就是说,它知道你有多少钱,但碰不了一分。 这样的设计并非技术限制造成的,主要原因还是安全可控的考虑。 在高敏感场景里,「只读」是建立信任最快的路。第一步让AI可以读数据,提供理财建议;信任建立起来之后,才是第二步「帮你操作」。 数据保护机制上,OpenAI也推出了配套措施: 账户断开后,已同步的财务数据会在30天内从OpenAI系统删除;临时对话不接入金融账户。 此外,ChatGPT还会从你的描述里提炼「财务记忆」,比如「我在攒钱买车」「我欠XX多少钱」,这些记忆可以在财务页面单独查看和删除等。 GPT-5.5模型敢做金融的底气 底座模型方面,连接金融账户的对话默认调用GPT-5.5 Thinking,Pro用户可以调用更高一档的GPT-5.5 Pro。 OpenAI为此专门做了一套内部个人理财基准测试,邀请超过50位来自主流金融机构的专业人士共同设计评估维度,评分是响应质量与准确性的加权综合。 OpenAI内部个人理财基准测试:GPT-5.5 Pro以82.5分居首,默认调用的GPT-5.5 Thinking得79分,同系列Instant模型得分59.4分。 在OpenAI内部的个人理财基准测试中,GPT-5.5 Thinking得79分(满分100),GPT-5.5 Pro得82.5分。 横向对比:GPT-5.4 Thinking只得76.6分,GPT-5.5 Instant和5.3 Instant分别是65.1和59.4分。 这次个人理财功能默认选Thinking,而不是Instant,主要原因是多变量上下文推理: 既要算清楚收入、支出、余额、债务、目标、时机,还要在不确定时说清假设、还需要哪些信息,这正是Thinking类模型的长处。 更值得注意的是,GPT-5.5正在成为OpenAI垂直化的通用底座。 健康场景、金融场景,两个高敏感行业,OpenAI都没有做专门的微调版,而是直接用通用旗舰模型来做。 从问答入口到数据入口 理财只是入口,数据才是目的。 表面上看,是一个「AI私人理财助手」的产品发布。但OpenAI的野心,远不止于理财。 OpenAI的逻辑是:从通用问答,到高敏感垂直数据场景,再到行动闭环。 据TechCrunch报道,就在这个功能发布前约一个月,OpenAI收购了个人理财初创公司Hiro的团队。 Hiro是一家个人理财初创公司,此前专注于帮助用户做个性化预算规划和消费行为分析,这套能力直接沉淀进了这次ChatGPT理财功能的体验设计里。 与Intuit的合作也在推进中,根据双方联合公告,未来用户可以在ChatGPT里直接完成股票出售的税务影响估算、信用卡申请的批准概率测算,然后跳转到Intuit完成操作。 接入Intuit之后,ChatGPT的理财建议将从「分析」延伸到「执行」,用户不只是听AI说「你该怎么报税」,而是可以在对话里直接完成税务估算,然后一键跳转到TurboTax提交申报。 这就是OpenAI想建的闭环:「问答入口」先让你问,「数据入口」让它看到你的真实情况,最终「行动入口」让它帮你执行。 这三个层级的商业价值,完全不在一个量级。 「问答」可以被任何竞争对手复制。「读账户+帮执行」,护城河就厚得多了。 每月有超过2亿用户向ChatGPT咨询财务问题,以前这2亿个问题没有数据支撑。 现在,愿意连接账户的那部分用户,开始提供真实的财务数据作为对话上下文。这个飞轮一旦转起来,个性化的深度是通用AI难以想象的。 当然,最核心的问题是:最终一切还要看用户数据说话。目前,这项功能仅对美国Pro用户开放,每月订阅费200美元。 OpenAI的计划是先从这批用户收集反馈,改进后扩展到Plus用户,最终目标是面向所有人。 当一个AI能看到你全部的收支流水,知道你每个月在什么地方花了多少钱,你对它说实话的概率,会不会比对一个人类理财顾问更高? 面对人类理财顾问,很多人会美化自己的消费习惯;但当面对AI,人们可能会更诚实。 如果真是这样,AI更能看清你的财务问题,就不只是一个效率问题了。
走进数采工厂:深聊机器人数据荒漠、四层金字塔与种树人
作者:硅谷101 当Scaling Law让大语言模型一路狂飙,用万亿参数涌现一代又一代更强大的智能之际,机器人领域却被数据荒漠所困,让具身智能的泛化性和自主性进展迟缓。 为什么AI能用的数据,机器人用不了?机器人的四层数据金字塔是如何运作的?每一层的进展和技术困境分别是什么,以及,我们如何才能解决机器人的数据难题呢? 这篇文章继续我们的“机器人专辑”,之前我们已经讲过了灵巧手、机器人闭源模型和开源模型,这一期我们来聊聊这个领域一个非常核心的部分:数据。 为此,我们飞到上海,走进了机器人数采工厂,甚至有机会亲自尝试了一下“遥操作采集员”这份工作。除此之外,我们也跟智元、Sharpa等机器人公司们一起深入聊了聊,当前机器人数据的技术路线以及未来发展。 (本文为视频改写,欢迎大家收看以下视频) 01 稀缺的机器人数据 真实缺口有多大? 首先我们来回答一个问题:什么是机器人数据?它跟AI大语言模型,以及图片和视频模型的数据有什么不同呢? 大语言模型是靠“吃掉互联网”变聪明的。GPT-4的训练数据量以万亿token计,相当于把人类有记录的知识积累全部摄入。 简单来说,AI生文、生图以及生声音、生视频的模型参数都可以在互联网上找到。大语言模型用的是“世界的文本语言”,包括文本、代码以及标注过的结构化文本,来帮助AI理解和生成“语言序列”。类似的,图像模型用的是“世界的瞬间截图”,声音模型用的是“世界的震动信号”,而视频模型用的是“世界的连续变化”,而这些数据,都大量存在互联网上。 而机器人需要的数据是具身本体在真实物理世界里,和具体物体发生具体交互时产生的多维度传感器信号:视觉、力觉、关节位置、电机控制量,全部精确同步,时间戳对齐,才构成一条有用的训练轨迹。 这些信息从来没有被系统性地记录过,也没有任何理由会被被动产生。 姚卯青 智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 机器人完整的数据,包括各种传感器所带来的数据,有视频,还有力触觉传感器等。它的输出是对身体上每一个电机关节的控制量,能够控制全身多达几十个自由度的关节协调配合,去完成具体的任务。 它的难点就在于这些数据天然是不存在互联网上的,它需要我们以某种方式去采集,无论是在真实环境里采集,还是在虚拟世界里采集,都需要先布设机器人、搭建场景,再引入遥操人员来控制机器人采集这类数据。 张凯峰 Sharpa研究科学家、学术负责人 我觉得数据最大的难点在于我们没有办法采集到机器人自己在干活的数据,我们能采集到的其实是人在操作的数据,比如动作捕捉(MOCAP data),比如YouTube数据。所以要做好teleoperation(遥操)、让机器人自己去操作其实比较困难,主要原因是机器操作员是感受不到机器人的感受。 这就是整个行业数据困境的根源:每一条高质量数据都必须从零开始生产。我们来用几个数字,试图展示一下这个缺口有多大。 谷歌DeepMind在研发机器人模型RT系列第一代时,调动了13台机器人,在办公室厨房环境里持续采集了整整17个月,才积累了约13万条操作轨迹、覆盖700多项技能。 为了训练RT-2,谷歌联合了全球34所研究机构,把60个已有数据集全部合并,加上来自22种机器人平台的真机数据,才凑出了Open X-Embodiment,一个包含超过100万条操作轨迹的开源数据集。 这已经被认为是目前全球最大的跨机构真机数据集,但即便如此,它涵盖的527项技能和对应的场景,和现实世界的需求之间,依然是以数量级计的差距。 面对如此难获得的机器人数据,怎么办呢?如今,行业摸索出了四条并行路线。它们的质量从低到高排列,构成一个金字塔,每一层都有自己的优势、上限和真实代价,接下来我们来一层一层给大家拆解。 02 数据金字塔顶层 准确但昂贵的真机数据 金字塔的顶层,就是遥操数据,又被称为“真机数据”。操作员通过外骨骼或遥操系统,实时控制机器人在真实场景里完成操作,机器人所有传感器全程录制。这层数据信息最完整,真实的物理接触、真实的不确定性、真实的失败和恢复,是今天让机器人真正能在现实场景落地的核心原材料。 我们也正好有机会来到上海,走进智元机器人的数据采集工厂,看看真机数据是怎么采集的。 姚卯青 智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 我们这里有200台机器,每台机器至少配一个采集员,有些任务还会配备一位同事来搭配布置场景。” 但你以为遥操员是一个很简单的工作吗?答案是:并不是。反正我们在现场试了一下,发现这个工作还是很有门槛的。 陈茜 硅谷101联合创始人 一个数据采集员,他需要什么样的资质才能把这个数据采集好呢? 姚卯青 智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 我觉得最重要的是天赋,好的数据采集员和差的数据采集员,效率可能相差3倍。我认为一个有天赋的数据采集员,首先是协调性非常好、空间感特别强的人。因为在采集数据的过程中,其实是在隔空控制另外一个身体,没有直观的触觉反馈,只能通过肉眼来闭环。机器人手臂和人手臂的构型也不一样,人能达到的很多姿态,机器人未必能够到,所以还要预判机器人怎样才能更高效地够到目标,再去设计自己的动作轨迹。其次是对空间的精度判断要很准,如果空间感差,明明想让机器人去抓,结果抓过了,或够不到,或一夹就滑,这种情况都非常常见。还有就是体力要好,一天下来其实非常辛苦。 智元机器人采集员 有些人是站着采的,有些人坐着采,两种感觉不一样。 陈茜 硅谷101联合创始人 从刚入门的一个采集员到你这样的金牌采集员需要多长时间? 智元机器人采集员 入职需要一周培训时间,培训完先入门,之后任务难度逐级递加。 姚卯青 智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 即使是有天赋的采集员,从零基础到九成功力,大概也要一个月。Zero to hero(从平凡到英雄),要一个月吧。 对于一个专业的金牌数据采集员来说,我刚才失败了N次的机器人摆放字母的任务,他一次就搞定了,而这样的数据采集,为的就是机器人的精确控制能力。但就算是专家水平的遥操员,也不是每一条都可以被算作是有效数据的。 陈茜 硅谷101联合创始人 人类遥操数据的成功率是多少?任务难易程度不一样可能也会影响,我很好奇这个效率怎么算? 姚卯青 智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 一个专业遥操员,8小时工作大概能平均产出2到3小时的有效数据。因为中间必然会涉及两个采集之间的场景布置、数据上传,以及操作失败后的丢弃和重试。 陈茜 硅谷101联合创始人 所以就大概1/4。 所以,真机数据的优势是准确,更容易直接部署、后期调参成本也更低,但它的代价也非常直白:贵,并且慢,不容易指数级扩张。 数采工厂涉及到硬件成本、场地成本、人工标注和监督成本,以及时间成本,与互联网数据相比,规模完全不是一个量级。 智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 我们今年真机产能有200万小时,对应着接近2000台机器人和背后规模相当的采集员团队。 陈茜 硅谷101联合创始人 这个规模会越来越大吗? 姚卯青 智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 真机今年差不多稳定在这个水平,当然也会根据市场的动态需求相应扩产。 不可否认,人力成本我相信一定会是将来竞争力和效率里非常重要的一环。这也是为什么中国发展起了大量的数据采集,而美国相对进展比较缓慢,此前特斯拉招聘采集员的薪酬就是50美元一小时。如果是100万小时,今天放在全球就一定是碾压式的存在了。 陈茜 硅谷101联合创始人 但100万小时就能解决问题了吗? 姚卯青 智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 我觉得在一些特定领域100万小时应该可以达到非常好的效果了。今年我们接触了很多有数据需求的客户,作为觅蜂的话,我们也在看很多客户的需求,提出100万小时需求的单个客户已经非常多了。这只是第一步,大家到了100万一定会想1000万。但即使是1亿小时,对于大型人工智能公司每年的基础设施投入来讲,也还是一个非常可控的部分。 顺便说一句,智元正在将真机数据做成一站式的物理AI数据服务平台,想要解决的就是当前机器人行业面临的真机交互数据荒漠的问题。 觅蜂科技,押注的是构建物理AI数据基础设施,实现真机遥操、无本体采集、仿真数据全范式覆盖,并打通硬件、软件、平台、运营的全链路。觅蜂科技2026年真机遥操产能接近200万小时,同时规划采集约800万小时的Human-Centric数据,背后是将近2000台机器人和对应规模的采集团队,在中国国内以及东南亚多地同步运作。可以看到,这就是机器人行业中的“石油业务”,而数据生态正在迅速崛起,并且需求量非常大。 03 金字塔第二层 仿真合成数据 金字塔从上往下的第二层,就是“仿真合成数据”这条规模效应最极致的路线,这也是黄仁勋的英伟达重点押注的路线。 顺便说个小八卦,听说黄仁勋的一儿一女都在英伟达的Physical AI仿真部门,可见老黄对这一块有多看重。 简单来说,这不是从真实世界采集,而是在虚拟环境里“生成出来”的数据。与一条一条训出来的真机数据做个对比:英伟达Isaac Lab可以在单台GPU上并行运行成千上万个虚拟机器人同时训练。规模可以是无限的,你想要多少数据,就有多少数据。 比如说,机器人公司Sharpa在2026年CES上超火出圈的乒乓球机器人,就是花了40个小时用纯仿真数据训练出了0.2秒量级的击球反应速度,这就是这条路线的一个具体案例。 仿真还能做一件真机采集做不到的事:生成现实中极难遇到的边缘场景。机器人在仿真里可以反复摔倒、反复失败,所有失败都成为数据,而不造成任何真实损失。 此外,Sharpa的研究科学家还告诉我们,仿真技术让“触觉”这种真机更难采集的数据有了新的突破。 张凯峰 Sharpa研究科学家、学术负责人 我们最近跟英伟达合作了一个触觉仿真工具叫Tacmap,它做了这样一件事:对于传统视触觉而言,你需要在simulation(仿真)里建模视触觉指尖,但你没办法在simulation(仿真)里安装摄像头去观察marker(标记)点的形变。所以我们提出了Tacmap。 它用物体与指尖穿膜的深度图作为介质,在仿真里可以高效获取这个deformation map(形变图),并且具有良好的物理特性。在现实环境中,我们也通过类似方式获取deformation map(形变图),通过大量数据采集训练了一个翻译模型叫translation model,将raw image(原始图像)翻译成deformation map(形变图)。基于这个deformation map(形变图),我们实现了一些技能的Sim-to-Real(从仿真到现实),能够完成一些精细化操作。 当然,这个路线有一个巨大的漏洞,就是嘉宾刚才提到的Sim-to-Real Gap,字面意思是“仿真到现实的鸿沟”。问题的本质是:机器人在虚拟环境里练得再好,放到真实世界里往往会出问题。为什么会这样呢? 因为仿真环境是人用代码构建的物理世界的近似,但真实世界的物理复杂得多。 举一个最简单的例子:机器人在仿真里学会了抓一个塑料杯子,仿真里这个杯子的重量、摩擦系数、形变方式都是固定的参数。但真实世界里,湿手拿杯子和干手拿杯子的摩擦系数不一样,杯子里有没有水重量也不一样,光滑桌面和粗糙桌面上的杯子滑动方式不一样。这些细节,仿真里要么没建模,要么建模不够精确。 总的来说,运动学层面的问题,包括关节怎么弯、手臂走什么轨迹,相对容易在仿真里做好,放到真机上效果也还行。但真正难的是动力学层面,比如物体之间接触时力怎么传递、软性材料怎么形变、液体怎么流动。这些现象对今天的物理引擎来说还很难完整复现。 结果就是:机器人在仿真里练了一万次叠衣服,放到真实的毛衣面前,因为布料的柔软程度和仿真里的参数对不上,动作就会出错。这不是模型不够聪明,是它从来没有经历过真实的物理接触。 目前,行业中的解决办法包括:域随机化(不去做一个“完美仿真”,而是做“很多不一样的仿真”,逼模型学会忽略差异、抓住本质),还有把仿真做得更好更真(这也是英伟达主要在做的事情),以及用少量的真机数据去微调。但张凯峰认为,最终还需要一个更创新的解决之道。 张凯峰 Sharpa研究科学家、学术负责人 现在很难解决的一个动力学的Sim-to-Real Gap(从仿真到现实的鸿沟)是环境的dynamics(动力学),也就是说你很难对齐这个物理世界的环境和现实世界的环境的迁移,也就是我们所说的transition model(状态转移模型),所以这是我觉得是目前还需要一些科学方法上的创新。 除了Sim-to-real,Real-to-sim Gap(从现实到仿真的鸿沟)也是目前行业中的核心挑战,这个词和Sim-to-real是反过来的,意思是你没办法把真实世界准确“搬进”仿真里。 因为现实世界太复杂了,咱们的真实环境中有无限的细节、噪音和不规则的事件,还有很多难以观测的参数。所以仿真世界,其实没有那么好建。 04 金字塔第三层 动捕数据 我们继续往机器人的数据金字塔下面走,到第三层,动作捕捉数据。动作捕捉数据集,被称为MOCAP。这个派系是用光学设备或视觉算法追踪人手的运动轨迹,比纯视频多了“怎么动”的信息维度。 动捕数据的本质是记录“人是怎么动的”,然后再把这个动作“映射”到机器人上。比如说,机器人算法公司Physical Intelligence的π0系列就大量使用了这类数据。π0.5在大约400小时移动操作数据和大规模网络数据的基础上,实现了在真实家庭环境里完成长程任务的能力。 它的优点是:数据质量高,尤其在运动结构上,能大幅减少无效数据,对复杂动作特别有效。大家看到的很酷炫的很多机器人跳舞,武术等等任务都是用到了动作捕捉的数据收集,这是纯强化学习很难达到的效果。 但这个路线除了成本贵和数据覆盖有限之外,还有一个很关键的劣势就是:人毕竟和机器人的结构不一样,这就是Embodiment Gap(具身鸿沟)。 张凯峰 Sharpa研究科学家、学术负责人 一方面,视觉上看到的是人的手,而不是机器人的手,所以存在视觉上的gap(差异)。第二个问题是state(状态)上的gap(差异),通过动捕或其他方式得到的state(状态)其实不够准确,会有自遮挡的问题,也会有被物体遮挡的问题,所以得到的动作也是不准确的。 Embodiment Gap的意思是,人的身体和机器人的身体之间,有一道操作语义上的沟壑。人手在操作时依赖皮肤上密布的触觉感受器,每抓一个物体,神经系统都在实时根据触觉反馈调整力度。机器人没有这套系统,所以即使动作轨迹被精确复制,完成任务的能力也不会自动跟上。 除了Embodiment Gap,还有另外一个没有克服的难题,叫做Functional Retargeting。它的意思是,机器人只是在模仿动作的形状,而不是理解这个动作要完成什么。 张凯峰 Sharpa研究科学家、学术负责人 这意味着你把人的动作映射到机器人动作上之后,它只是做了运动学层面的对应,并没有真正实现操作本身在语义上的对应。 也就是说,动捕数据会出现比如说关节角度超限、力矩不够、平衡失败等问题,这就让这个层级的数据在一定程度上,和第四层的视频数据一起,被认为是“低质量数据”。 05 金字塔最底层 互联网视频 从YouTube到抖音,人类完成各种任务的视频海量存在。这是今天具身智能训练里唯一真正“不缺”的原材料。但它能教会机器人什么? 姚卯青 智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 更多是让机器人的大脑模型学习一种通用的表征,比如简单认知以及对物理规律有粗浅的认知,但它还只停留在认知阶段。 姚卯青用了一个有趣的比喻:看再多别人打乒乓球的比赛视频,你第一天拿起球拍,也接不住球。视频给机器人建立了关于物理世界的基础认知,知道乒乓球是什么形状,知道打球大概是什么动作,但从“知道”到“会做”之间,隔着一道鸿沟。视频里根本没有动作信号,只有结果。 互联网上的海量视频数据,也被Sharpa称之为最低质量的数据。 张凯峰 Sharpa研究科学家、学术负责人 YouTube videos最大的劣势是它没有力和触觉信息,优势是量非常大,能给我们提供一些有用的信息:一是世界是怎么变化的,比如我们常常讲World Models(世界模型),就是利用这类in the wild(自然场景下)的数据来训练World Models(世界模型);二是能给我们一些操作信息,比如affordance(预设用途)是什么,这对操作来讲也非常关键。 再进一步聊视频作为机器人数据之前,我们引入两个关键的概念,分别是Egocentric和Human-Centric。这两个分类是视频数据中被认为对机器人最有用的数据。 Egocentric的意思是“自我中心数据”,也就是“以机器人的视角看出去”,看到桌子、杯子、自己的机械臂、甚至还有遮挡、接触和动态变化这样和行动绑定的“第一视角视频”,并能直接用于决策的数据,被称为Egocentric。 为什么这个视角很重要呢,是因为机器人从摄像头,特别是人形机器人,看到的视角就是这样的。 苹果在2025年5月发布了一个Egocentric的数据集名为EgoDex:用Apple Vision Pro采集了829小时第一人称视角视频,每一帧都配有手部每个关节的精确3D追踪数据,覆盖系鞋带、折叠衣物等194种桌面操作任务,数据集完全开源,希望推动机器人灵巧操作研究。 最近,我们刚才提到的觅蜂科技也推出了MEgo系列无本体数据采集设备MEgo Gripper和MEgo View,搭配MEgo Engine一站式数据治理服务平台,试图降低物理AI数据采集对实体机器人本体的依赖,让高质量的第一视角数据走向轻量化、规模化和全场景化。 另外一个词,Human-Centric数据的意思是围绕“人类行为、意图、偏好或示范”来构建,用来让机器人学习人类想要的行为方式。比如说人类抓杯子,人类开门,人类折叠衣服这类“人直接做给机器人看”的视频能让具身智能理解“人想达到什么目标”,以及人类标准中的“正确做法”。而Human-Centric数据可以是第一视角,也可以是第三视角。 我们总结一下,Egocentric是第一人称视角视频,但任务不一定和人相关。而Human-Centric是人类意图的视频。这两者相交集的区域就是Egocentric+Human-Centric,指的是“人类在第一视角下完成任务的数据”,这被视为是视频数据里,最有价值的部分。 比如说,英伟达在今年3月推出的EgoScale,就使用超过20000小时的人类视频进行预训练,涵盖数千个独特的任务和环境。精确的骨骼手部追踪使模型能够提取并重新定位21个人体运动关键点,从而构建统一的机器人动作空间。 所以,虽然YouTube data被机器人专家们各种嫌弃,但因为它的海量存在和低成本效应,如果某家公司通过某种技术突破让这些互联网视频变得“更可用”、能大幅提升机器人表现,那将有巨大的前景,而这也正是目前各大公司押注的重点。 特斯拉在2025年6月做了一次重要的策略调整:把此前依赖动作捕捉套装和VR头显的采集方式,换成了摄像机头盔,让工人戴着装有5个摄像头的装备录制日常操作视频,再用这些视频训练Optimus,公司内部表示这样能“更快规模化”。 顺便说一句,自动驾驶就是Egocentric的数据,而且FSD也是用视频数据驱动汽车这个物理本体的案例,所以Optimus会在视频数据路线上再次押注,这也非常符合马斯克的第一性原理。 而同时,初创公司们也在如何将“低质量数据”变得更可用这个路线上,也有着非常积极的尝试。 在今年年初,Sharpa发布CraftNet,他们用一套触觉反射层(System 0)做补偿:机器人上层策略只需给出粗糙的动作意图,底层触觉感知系统根据实时力反馈自动完成精细调整。这个设计从硬件层降低了对上层数据精度的要求,使低质量动作捕捉和视频数据也可以被利用起来。 张凯峰 Sharpa研究科学家、学术负责人张凯峰 因为有了System 0,所以我们可以达到一个点石成金的效果,能够把大量的低质量数据用起来。System 1只需要给出粗糙的动作意图和手势,就能够实现fine manipulation(精细操作)的能力。 说完了机器人数据的四层金字塔结构,各自的优劣势以及各层级正在发生的进展,就会发现鱼与熊掌不可兼得的真理,真的是有道理的。最精确最高质量的真机数据是最少最难获取的,而最容易获取的视频数据又是质量最低最不可用的数据。 所以,行业现在的做法是:把他们混合起来用,能不能又平衡数据质量,又能平衡一下成本呢?那么这个混合的配方又是如何的呢? 06 各家公司的混搭配方 数据与成本如何取舍? 我们在业界跟很多机器人公司聊,目前普遍的共识是,这个四层金字塔代表着数据的不同来源,并且也要适配不同的具身本体和模型,没有一个统一标准,每个公司会有自己的配方和天平。 陈茜 硅谷101联合创始人 它到最后可能是一个整合的solution(解决方案)?它们各自的比例大概是什么样子? 姚卯青 智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 对,它会是一个整合的solution(解决方案)。现在很难说什么样的比例是黄金配方,因为这不是一个简单配比然后达成单一目标的问题。首先在技术路线上还有很多路径在探索,并没有归一到一种确定的范式。其次,训练机器人模型的目标也不是唯一的:有些情况是让机器人在某个特定场景干到极致,比如工业场景中人的节拍效率和100%的成功率;有些场景更看重泛化性,成功率98%、99%也可以接受,甚至允许人在过程中做一些干预、接管兜底,但对泛化性要求很高。面向不同目标,用到的数据比例也会不一样。 对Sharpa来说,答案也很类似,不同的任务他们采取了不同的数据策略。 张凯峰 Sharpa研究科学家、学术负责人 我们的乒乓球机器人是在仿真里面训练的,大概是训练了40小时左右,我们的发牌机器人用的是imitation(模仿学习)的方式来训练的,它大概是用到了两三百小时的teleoperation data(远程操作数据)以及一些Egocentric的数据。 张凯峰也给了我们一个很平均的估算,在训练较为复杂的任务中,各层数据之间的轨迹数量比大约是,遥操作数据:动作捕捉数据=1:100,动作捕捉数据:互联网视频≈1:100。换算下来,遥操作数据在整个数据池里大约是万分之一的存在。但就是这万分之一,往往是最终决定模型能否在真实场景落地的关键。 张凯峰 Sharpa研究科学家、学术负责人 非要我选一个更重要的点,我会选数据质量,因为只有高质量数据才能训练出有用的模型。但如果数量很难规模化,我们就需要做折中,就像我刚才讲的数据金字塔方式,把每一部分数据都利用起来:既能理解环境的变化,也能理解操作的语义,最终帮我们完成操作任务。 07 数据的“捷径” 硅谷路线 以上我们聊到了智元这样的中国机器人公司如何处理数据问题:太贵、太慢,就直接把它做成工厂,利用人力成本和效率优势来打造护城河。但硅谷几家最受关注的机器人公司,却不得不走数据的“捷径路线”。 7.1 PI:让机器人在真实试错中自我进化 比如说Physical Intelligence的数据策略就靠精度加迭代。他们在旧金山Dandelion Chocolate工厂部署了一台机器人整天打包巧克力盒子,同时在办公室提供咖啡服务,员工在Slack里发“我要一杯拿铁”,机器人就去做。创始人Sergey Levine的哲学是:看当机器人不得不在真实世界完成任务时会发生什么,以及这类部署的数据能如何继续改善系统。 在这个基础上,PI试图让机器人在真实部署里通过强化学习持续自我改进。 2025年11月发布的π0.6,用一套叫RECAP的方法,在折叠衣物、装纸箱、做浓缩咖啡等任务上,把最难任务的吞吐量提升了一倍以上,失败率降低了约一半。2026年3月发布的RLT方法,引入了一个特殊的输出token,作为VLA模型与轻量级强化学习策略之间的紧凑接口,只需几小时真实操作练习,机器人在精细操作任务上的速度就能提升三倍,某些动作甚至超过人类遥操员。 这条强化学习路线的吸引力在于:机器人自己产生自己的训练数据,绕过了人工采集。但它有三个今天还没有好答案的真实问题。 第一是奖励函数。衣服叠得“够好”的标准很难量化,定义不准机器人就会找捷径,比如把衣服揉成一团塞进角落,因为这样“占用空间最小”,满足了某个错误的优化目标。 第二是安全边界。机器人在客户生产线上试错,每次失败都有现实代价:损坏产品、影响节拍、甚至伤到工人。 第三是数据归属。强化学习数据是机器人用客户的物理空间和物理资产试错产生的,所有权比遥操作数据更加模糊,遥操作好歹有明确的人工生产主体,但强化学习没有。 如今PI在π0.6上验证的场景,是相对结构化的任务,在受控实验环境里运行了13小时。距离真实工厂大规模部署、在陌生场景里稳定运行,还有相当的距离。 除了强化学习路线,PI同时在探索用我们上面提到的Egocentric视频补充训练数据。PI在2025年12月发布的研究显示,一旦机器人基础模型积累了足够的真实操作经验,加入第一人称人类视频后,各个泛化任务的平均成功率接近翻倍。 7.2 Figure AI:把最大的房东变成数据采集场 2025年9月,Figure AI与全球最大另类资产管理公司Brookfield签署战略合作。Brookfield管理着超过10万套住宅、5亿平方英尺的商业办公空间和1.6亿平方英尺的物流空间。 Figure的计划:在这些真实的家和写字楼里,让人戴着摄像头拍视频,用这些视频训练Helix模型,目标是建成“全球规模最大、最多样化的人形机器人预训练数据集”。Brookfield同时跟投了Figure超10亿美元的C轮融资。 Figure随后发布了初步结果:Helix模型在只用第一人称人类视频训练、没有任何机器人数据的情况下,已经能根据自然语言指令在杂乱的真实房间里导航移动。 7.3 Sunday Robotics:众包做家务视频 还有一家更小的创业公司Sunday Robotics,走的路更极端:直接付钱让普通人在家里录自己做家务的视频,然后用这些视频训练机器人,把“数据采集员”变成众包经济的工作。 如果我们看看不同机器人公司如何押注数据路线,我们会发现,不同的市场因为生态不同做出了不同的决策:整个硅谷在往视频数据靠,减少对遥操作的依赖,押注可以被动规模化的采集方式。这和中国公司的方向形成了差异化。 但这两种选择可能也无所谓对错,因为我们还在行业的初期,任何的尝试都是有意义的,特别是对于数据来说,开源更是一件广受欢迎和好评的事。 08 种树人和数据飞轮 开源百万条数据换来的是什么? 2024年,智元做了一件让行业困惑的决定:把自己辛苦采集的百万条遥操数据,打包成AgiBot World数据集,免费向全球开放。 但这背后有一个被大多数报道忽略的行业困境。2023年到2024年,具身智能公司大量涌现,但整个行业面临一个根本性的认知危机:没有公共的数据基准,就无法判断一个模型的训练方法对不对。谷歌的RT系列和开源模型OpenVLA在学术界引发了广泛关注,开创了VLA这个范式,但因为训练数据全是学术级的数据集,在实际场景里的效果依然有限,导致这个范式的真实潜力长期得不到验证。 姚卯青 智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 这件事一定得有人迈出第一步,工业界的人得迈出第一步,否则谁也无法真正训练出高质量的模型,也没有一个公允的benchmark(基准测试)数据集来做评测。面对这个数据荒漠,我们算是种下了第一棵树,希望将来能变成一片森林。 而这棵树发芽了。 2025年3月,英伟达在GTC大会发布第一代具身基础模型GROOT N1。而GROOT N1训练所用真实世界数据里,约80%来自AgiBot World。 而开源的连锁效应还不止于此。越来越多的学术团队在用了AgiBot World之后,转而采购智元的机器人本体做研发,因为在同一款本体上采集的数据,在这款本体上训练出来的模型效果更好。 也就是说,数据开源带来了生态,生态带来了硬件销量,硬件销量产生更多数据。 同时我们也看到,机器人的数据工厂在建,开源生态在形成,下一个问题是:具身智能能否形成真正的数据飞轮? 姚卯青 智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 数据飞轮绝对会存在。具身智能跟大语言模型一样,数据飞轮的核心是:模型部署之后,在用户的使用过程中持续接收到反馈,利用这些反馈不断提升能力,最终变成用户体验的提升。机器人现在其实更需要这样的飞轮,也更会催生这样的飞轮。语言模型容错度比较高,说错几个字、有些似是而非,用户还能接受。但机器人如果是在工厂打螺丝,毫米级的精度,差一点可能就不行了,一定需要在现实部署中不断遇到失败场景,把这些数据采集回来持续提升,才能达到进工厂接近人类节拍的百小时、千小时MTBF(平均故障间隔)级别。 陈茜 硅谷101联合创始人 这样的一个数据飞轮,类比大语言模型的scaling law(缩放定律),它们是一回事吗?还是有区别的? 姚卯青 智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 基本上还是一回事。数据飞轮就是要在真正实地部署的形态下持续收集数据。这套我们现在已经在所有机器人产品上作为标配搭售了,在用户许可的情况下,会像自动驾驶的功能一样,收集那些高优的数据。 陈茜 硅谷101联合创始人 部署的机器人收集到的数据,大概有多少比例可以回流回来再给你们进行训练? 姚卯青 智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 大概在5%以内。因为大部分时间这些数据对我们来说没有提升意义,因为都是成功的,属于已经会的东西。 陈茜 硅谷101联合创始人 所以你们只需要失败的。 姚卯青 智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO 对,要的是还不会的。不然天天这么多机器人在跑,全世界的存储都存不下这些实时数据,大家都是触发一些高价值的数据。 但飞轮能转,不代表转速能达到预期。这里有一个比飞轮更基础的问题:具身智能的scaling law(缩放定律)是否成立? 在语言模型里,这个问题有明确的答案:数据翻倍、模型变大,能力就会涌现。但机器人行业,目前还没有答案。 张凯峰 Sharpa研究科学家、学术负责人 我们需要看到:随着数据量增加、模型规模变大,能够有智能的涌现,能够实现任务级的泛化能力。我认为现在还没有看到有任务级别的泛化,我们现在能看到的泛化往往是物体层面的——见过很多种类的物体,能够实现物体层面的泛化,也能实现环境层面的泛化,但任务层级的泛化,还没有。 这里就是关键区别:物体泛化(见过类似物体就能处理)和任务泛化(从没见过这类任务也能举一反三),是两个完全不同量级的能力。前者今天已经在一定程度上实现,后者还没有可信的证据。而这个证据,是整个机器人行业走向下一步进化的钥匙。而在机器人大规模部署之前,我们可能都不会有答案。 PI的创始人Sergey Levine教授在他的Substack上写道:在美国有约1万家麦当劳,一旦每家麦当劳各放一台机器人,每天工作两小时,一年就能产生1000万小时的具身智能训练数据,比现有全球积累的总量还要多几个数量级。 在今年3月底,智元率先在产量上突破了10000台具身机器人。我们距离找到这把机器人的数据钥匙,是否更近了呢?我们拭目以待。
突发!OpenAI大规模重组,总裁Brockman夺权挂帅
新智元报道 编辑:Aeneas 【新智元导读】OpenAI深夜大地震了,ChatGPT、Codex和API三大王牌紧急合并,总裁亲自挂帅!追兵Anthropic的估值已经飙至9000亿,IPO前生死一战,超级应用要来了。 就在刚刚,周六早上的科技圈又曝出重磅消息。 OpenAI官方毫无预兆地宣布了公司历史上在IPO前夕最大规模、最剧烈的一次组织架构大重组。 ChatGPT、Codex以及开发者生态的命脉——API,三大核心产品线被全部打碎,原地合并为一个统一的产品组织! 更让人震惊的是,一度隐居幕后的OpenAI联合创始人兼总裁、那个曾经因为奥特曼被罢免而愤然辞职的技术战神Greg Brockman,正式被推向台前,全面接管产品战略! 表面上,这是一次OpenAI为了Agent时代的战略聚焦。 但实质上,这明显是一场惊心动魄的「硅谷权游」:ChatGPT的开国元老被调离、核心高管接连离职、AGI掌门人因病无限期休假…… 现在,OpenAI的围剿者们已经虎视眈眈。 Anthropic刚刚敲定300亿美元融资,估值飙升至9000亿美元,完成了对OpenAI的史诗级反超;谷歌更是在下周的I/O大会前磨刀霍霍。 9亿周活用户命悬一线,地表最强AI帝国正迎来属于它的生死存亡之秋! 突然被换掉的掌门人,与走向台前的影子国王 这次调整最让人大跌眼镜的,是OpenAI对核心功臣的挥刀。 ChatGPT「生父」被调离 如果要评选OpenAI过去两年里风头最劲的功臣,Nick Turley绝对榜上有名。 作为ChatGPT自上线以来的全权负责人,Nick Turley亲手把ChatGPT从一个无人问津的「全家桶赠品」,喂养成了今天坐拥9亿周活跃用户的全球第一大超级应用。 然而,在这次的权力洗牌中,这位功勋卓著的ChatGPT「生父」却被一纸调令,直接从最核心、最吸睛的消费者产品线移开,去主管相对沉闷的「企业用户」方向。 「他不再负责任何消费者产品。」外媒WIRED用这句话,冷酷地宣告了一位ChatGPT元老在C端大本营的谢幕。 接替他消费者产品一把手位置的,是前Instagram副总裁Ashley Alexander。 这位原本在OpenAI负责医疗健康应用的女将,直接空降到了流量的最核心。 战神归位:Brockman的「垂帘听政」结束了 如果说Nick Turley的调离是「大将换防」,那么Greg Brockman的亲自挂帅,则是OpenAI最高权力层的惊天巨变。 作为OpenAI的联合创始人兼总裁,Brockman在技术圈一直是个狠角色。 他能在奥特曼被董事会清洗时扔下铁饭碗同进退,也能在回归后默默在后台死磕AI基础设施。 前段时间,OpenAI名义上的「AGI部署CEO」Fidji Simo因为严重的慢性疾病复发,自4月初开始持续休假,归期未定。Brockman此前只是代管产品。 但就在这个周五,OpenAI直接向全体员工发布备忘录:Brockman的「代管」正式转正。 他将全面、长期地正式接管OpenAI的所有产品战略! 那个在技术后台修路造桥的「影子国王」,终于被逼到了聚光灯下。 从此,他不仅要管算力、管芯片、管Blackwell的供应链,现在还要管9亿人每天在ChatGPT里聊什么,成为真正的实际掌权者。 三线合一!奥特曼的惊天豪赌:「超级应用」降临 为什么要在这个节骨眼上把三大产品线生生捏在一起? 在流出的内部备忘录中,Brockman用一种极具行业煽动性的语言给出了答案。 「我们正在巩固我们的产品工作,以便以最大的专注力向Agentic Future(智能体时代)进军,在消费者和企业端全面取胜!」 史上第一次,OpenAI高层如此明确地承认:OpenAI原有的产品线,已经到了不得不变的臃肿期。 从「三头马车」到「铁板一块」 在重组之前,OpenAI内部的三大产品线几乎是各自为战的。 ChatGPT: 负责貌美如花、搞定C端流量,吸引9亿周活用户; Codex: 负责闷声发大财、死磕编程和代码生成,是程序员的神器; API: 负责向全世界的开发者抽税,构建生态护城河。 但在Brockman眼里,这种割裂是不可接受的。随着AI能力的进化,这三个东西正在自然收敛。 现在的ChatGPT如果不会写代码、不会自动跑API,那它就是一个聊天花瓶;Codex如果没有ChatGPT的交互界面,就无法变成小白也能用的生产力工具。 因此,现在三大团队原地解散,合体为全新的核心产品与平台团队。而这个巨无霸团队的掌舵人,正是Codex的原负责人——Thibault Sottiaux。 曾经,他把Codex打造成OpenAI历史上增长最快的王牌产品而立下赫赫战功;如今,他成了Brockman麾下的头号大将。 终极王牌:代号「Super App」的桌面吞噬者 伴随着这次重组,OpenAI真正的大招也终于浮出水面。 Thibault Sottiaux目前正在秘密主导开发一款内部被称为「超级应用」的终极武器。 这绝不仅仅是一个网页版的ChatGPT升级,而是一个要把ChatGPT、Codex编程智能体、以及OpenAI尚未发布的「Atlas网页浏览器」三合一的统一桌面端应用! 这意味着,OpenAI要彻底跳出「聊天框」的限制。 从此,这个超级应用长在你的电脑桌面上,它有自己的浏览器(Atlas),能自己看网页;它有最强的代码执行能力(Codex),能自己写脚本;它有ChatGPT的大脑,懂你的意图。 它不需要你复制粘贴,它能「自主代替用户执行复杂的数字任务」。 这才是奥特曼和Brockman眼中的「Agentic Future」——智能体时代! 高管空心化:狂欢背后的失血与隐忧 这个新闻看起来,似乎是一次很积极的「主动出击」。 但如果仔细阅读OpenAI最近的人事变动名单,你就会发现这样一个可怕的事实:OpenAI的高管层,快要被掏空了。 就在这次重组发生的前一个月,OpenAI内部掀起了一场海啸般的人事震荡。 上个月,OpenAI离职了一批神仙大佬。 Kevin Weil,OpenAI科学家AI工作空间负责人,离职! Bill Peebles,大名鼎鼎的Sora的联合负责人、核心大牛,离职! Srinivas Narayanan,企业应用首席技术官,离职! 更不用说,那个本该运筹帷幄的「AGI部署CEO」Fidji Simo,目前还躺在病床上,只能在病房里隔空跟Brockman对对方案。 所以,这一次大重组的底层逻辑,并不是因为OpenAI兵强马壮,而是因为他们已经无人可用了。 在连续失去多位技术副总裁、CTO和项目负责人后,OpenAI的战线拉得太长了——又要搞Sora视频,又要搞SearchGPT搜索,又要搞Orion大模型,还要搞硬件芯片。 Brockman这次把ChatGPT、Codex和API捏成一团,本质上是一次断臂式的收缩。 把有限的精锐部队合并到同一个战场,用一个通吃C端和B端的「超级应用」,来掩盖内部高管流失的窘境。 估值被反超!追兵已至,资本市场的「致命30秒」 让奥特曼和Brockman如此焦虑、甚至不惜在IPO前夕进行如此剧烈重组的,还有外部那让人喘不过气来的竞争压力。 硅谷的AI王座,在这个星期刚刚易主了。 Anthropic的「背刺」:9000亿美元的巨无霸诞生 就在本周,OpenAI最致命的宿敌、由前员工出走创立的Anthropic,悄然敲定了一笔颠覆行业格局的新融资。 在这轮由顶级财团领投的300亿美元巨额融资中,Anthropic的估值被直接推向了令人窒息的9000亿美元! 9000亿美元是什么概念?它一举超越了OpenAI在非公开市场的最新估值,成为了全球估值最高的独立AI独角兽! 更糟糕的是,Anthropic在编程领域对OpenAI实施了精确的降维打击。Claude系列模型在长文本和代码生成上,把OpenAI压得抬不起头。 技术人员在疯狂逃向Claude,资本在疯狂涌向Anthropic。OpenAI如果再守着那个只会聊天的ChatGPT网页,它的帝国大厦在上市前夜就会崩塌。 5月,Anthropic的年度经常性收入已经飙升至450亿美元,短短5个月内营收增长了500%。这条陡峭的营收曲线,在整个科技商业史上都找不到先例! 谷歌下周开大,留给OpenAI的时间不多了 除了背后的刺客Anthropic,正前方的泰坦巨兽——谷歌,也在死死盯着OpenAI。 下周,Google I/O年度开发者大会就将正式开幕。据硅谷线报,劈柴已经准备好了一箩筐针对ChatGPT的全新AI产品。 去年OpenAI靠在Google I/O前一天发布GPT-4o截胡了谷歌;而今年,高管空心的OpenAI已经没有余力再去搞一场发布会来「截胡」了。 唯一的办法,就是赶在谷歌开大招之前,把自己的组织架构调整好,告诉华尔街:别看Anthropic估值高,我们已经在搞三合一的Super App了。 终局之战:IPO前夜的疯狂自救 根据WIRED的独家起底,这次重组背后,还有一个全硅谷公开的秘密:OpenAI计划在今年年内正式推进IPO。 对于任何一家准备上市的超级独角兽来说,资本市场最忌讳的就是「故事线不清晰」和「高管内斗内耗」。 在上市的关键窗口期,如果OpenAI的招股书上写着:我们有ChatGPT团队、有独立的Codex团队、有API团队,三个团队天天为了算力资源抢得不可开交,那华尔街的分析师会毫不犹豫地给估值狠狠打折。 通过这次重组,奥特曼向资本市场讲了一个极其性感的全新故事。 「我们没有杂乱的产品,我们只有统一的底层能力。我们即将推出一个能统治所有桌面端、拥有9亿周活、能自动帮你干活的超级Agent。」 让Brockman这位在硅谷声望极高的创始人亲自挂帅产品,也是在给摇摇欲坠的投资人信心:看,虽然有人离职,但公司的技术灵魂依然在第一线开荒。 从那个在旧金山公寓里成立的非营利性实验室,到今天为了IPO疯狂重组的商业帝国,OpenAI正在经历它诞生以来最惊险的一段航程。 Brockman的走上前台,是临危受命,也是背水一战。 当ChatGPT、Codex和Atlas浏览器在不久的将来融合成那个恐怖的「Super App」时,我们会看到通往AGI的终极钥匙吗? 硅谷的这场AI王座之争,才刚刚进入最血腥的白刃战阶段。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。