行业分类:
加载中...
头条分类:
加载中...
“人肉”带车入境,美国人为中国制造拼了
最近一段时间,美国网络上正出现越来越多的视频,教美国人如何从墨西哥买车——而且,不仅仅是普通的网络博主在制作这些内容,连一些美国的汽车专家也在鼓励这种做法。 为何生活在汽车大国的美国人,开始对跨国去墨西哥买车有了浓厚兴趣呢? 因为物美价廉的中国品牌汽车目前正在墨西哥市场大受欢迎。在让当地人欲罢不能的同时,也让隔壁因美国保护主义限制政策而无法直接购买中国车的美国消费者羡慕不已…… 美国《华尔街日报》在近日的一篇深度报道中就直观地展现了中国车在墨西哥有多受欢迎,以及这让美国消费者有多么眼馋。 在报道开篇第一句话中,这家美国媒体就流露出了这种情绪:“此地距离美国边界仅 5 英里,一条繁华的商业街上,摆满了目前被美国市场封禁的、风头正劲的中国汽车品牌。” 根据这家美国媒体的介绍,由于功能丰富、外形时髦、价格还特别亲民,性价比极高,中国品牌的汽车不仅占据了墨西哥汽车总销量的四分之一,还让不少多年使用其他品牌汽车的车主也开始改换“阵营”。 (截图来自《华尔街日报》的报道) 一名生活在墨西哥和美国边境,平时要开车去美国读书的21岁墨西哥车主就表示,他购买的3万美元左右的中国新能源混动SUV,不仅性能完全碾压同价位的其他品牌汽车,而且还能让他在驾车时一展歌喉,边开边唱卡拉OK。 他还吐槽说,其他传统品牌同等价位的汽车,在质量和性能上甚至还不如以前他买过的老款。 一位墨西哥的车商则表示,他最近又卖给一户墨西哥家庭两辆中国品牌的入门级车,供这家的两个女孩驾车去美国读大学用,每辆车售价1.7万美元。这位车商认为,如果美国允许中国车在美国销售,中国车将迅速成为爆款。 尽管由于美国的贸易保护主义政策,中国车无法进入美国销售,但在亲眼目睹了中国品牌将优秀的性能、拉风的造型、丰富的功能以及亲民的价格这一“不可能三角”有机结合在一起后,美国消费者已经坐不住了。 《华尔街日报》的报道就提到,在美国与墨西哥接壤的边境城市埃尔帕索,有美国当地人就在追问本地汽车经销商为什么不卖物美价廉的中国车。耿直哥亦检索发现,在美国的网络上,越来越多的博主乃至专家,都开始在视频里向美国人传授如何通过合法途径去墨西哥买中国车的攻略。 虽然近些年美国国内对于中国品牌汽车迅速崛起的情绪相当复杂,美国的一些政客更是不断向中方泼脏水,抛出诸如“不公平补贴”等错误说法,但美国一些汽车业的从业者清醒地指出,问题的根子在于美国车企自己的发展策略。 《华尔街日报》的报道就提到了这一点。从该报的采访和分析来看,美国消费者其实很在乎车子的价格和性价比,但美国车企更看重短期的利润率,所以把发展的重点放在了门槛更高、更昂贵的车型上,冷落了入门市场。而中国品牌则正好可以填补这一空缺。 同时,美国汽车工业的傲慢,也令他们轻视了中国汽车工业的潜力和后劲。《华尔街日报》特别提到,20年前当中国的一家车企通过与美国车企的合作在美国汽车展上推出了一款中国制造的汽车后,美国一家汽车行业媒体曾嘲笑说这辆车“太过时了,甚至不可救药”。而10多年前,美国电动车品牌特斯拉的老板埃隆·马斯克,亦曾对当时刚起步的中国新能源车品牌投以不屑的眼光。 但《华尔街日报》表示,中国却一直在努力,一方面持续投资汽车工业,不断推进技术升级和完善供应链,另一方面也在学习美国汽车工业的先进经验与理念,从而实现了从量变到质变的腾飞。 如今,该报称,中国不仅在新能源车上拥有优势,也在混合动力和油车上逐渐追上美国车企。曾担任福特、克莱斯勒、宝马及通用汽车高管的鲍勃・卢茨就对《华尔街日报》表示,他前些年曾经购买过一款由通用汽车出口至美国的中国产的别克SUV,当时该车的做工与装配精度、非常小的路噪,以及车辆整体 “如丝般顺滑、细腻精致的质感”,都让他大为震撼。 “我当时就想:‘天呐,如果他们在中国能造出这样的别克,那他们显然已经掌握了打造顶级汽车的能力。’”卢茨说。 而在最近的北京国际汽车展上,多家美国媒体对参展的中国汽车的密集报道、欣赏和推崇,更是与20年前中国车被美国媒体嘲笑的那一幕,形成了一种极具戏剧性的反差。一位名叫伊森·罗伯逊的美国博主甚至以399美元一位的价格组了一个国际观展团,为无法在美国亲身感受中国车的美国游客,以及来自澳大利亚、新西兰等其他国家的游客当起了“导购”。此事亦吸引了路透社等国际媒体的报道。罗伯逊在接受这些媒体采访时说,很多美国网友在网上看了他的介绍后,都对于美国为什么禁止价格亲民、造型酷炫、还配有大量先进科技的中国车进入美国,感到“难以置信”。 最后,《华尔街日报》表示,美国如今不仅有越来越多的消费者渴望成为中国品牌车的车主——有民调显示这一比例比10年前增加了一倍,达到了30%,而且美国也有企业仍然希望实现破冰,让中国车能够进入美国。在此次北京的国际汽车展上,有美国媒体记者还注意到,中国车企展出的不少宽大的车型,也很对美国人的胃口。更别提,中国车企在墨西哥销售的车型中,亦有不少美国人青睐的皮卡等车型。 然而,美国的一些政客显然不希望中国车企为美国消费者带来更具性价比的选择。他们反而准备将保护主义的油门踩到底,进一步让美国的汽车工业与中国“脱钩”,企图“封杀”中国生产的汽车零部件和软件代码。但不少美国行业专家已经清醒地意识到,这不仅保护不了美国的工业和安全,还会让美国车变得更加昂贵,且难以跟上时代。 而当美国人无法买到自己心仪的汽车时,这对美国建立在汽车上的现代社会和工业文明意味着什么,已经不言而喻了。 审核 | 卢长银 编辑 | 王晓娇 校对 | 向歆悦
追觅CEO俞浩回应“全员开号”:否认微商化,称为AI时代能力训练
凤凰网科技讯 5月1日,昨晚追觅科技CEO俞浩针对近期备受争议的“要求全体员工开通社交媒体账号”一事作出正面回应。他明确表示,此举核心目的在于锻炼员工的复合能力,助力团队在AI时代保持竞争优势,并宣布已向首批达成目标的员工兑现了现金奖励。 根据内部通知,俞浩要求公司共计两万多名员工均需在各大社媒平台开通账号,并规定每人每天投入15分钟拍摄视频,每日发布3条内容,主要围绕产品卖点、核心技术及创新点进行推广。俞浩认为,技术人员虽擅长处理复杂参数,但在通俗化表达和用户沟通上普遍存在短板。通过运营个人账号,员工可以学习如何“讲人话”,将深奥的技术转化为大众易懂的语言,并在互动中获取反馈。 为了配合该计划的推进,追觅科技设立了明确的激励机制:员工真实粉丝数达到1万、5万和10万时,将分别获得1万元、5万元及10万元的现金奖励。俞浩通过社交平台透露,目前已有两名员工因粉丝数破万,各自领到了1万元奖金。 针对外界对于“全员营销”及“微商化”的质疑,俞浩反驳称,AI时代单一能力极易被取代,掌握跨领域能力的人才才能更有效地驾驭复杂系统。他强调,公司并非单纯奖励高粉丝量,而是看重员工在原有专业技能上叠加的表达与互动能力。他呼吁外界不要急于否定这一看似不合理的要求,认为这是提升企业整体竞争力的必要尝试。
太抓马了!马斯克OpenAI开庭,硅谷巨富互揭老底像极了村口吵架
听雨 发自 凹非寺量子位 | 公众号 QbitAI 马斯克和奥特曼这场世纪庭审,瓜也太多了… 连着三天吃都吃不完的程度。 马斯克这边,公开承认xAI蒸馏了OpenAI的模型来训练Grok。 上午刚说完「我不对人大喊」,下午当庭大喊。 律师Savitt追问捐款:承诺10亿,到账3800万,兑现不足4%。 马斯克急了,当庭大声说: 「没有我,OpenAI就不存在!我贡献了我的声誉!我给这个公司起了名字!这些都是有价值的!」 随后被迫承认:「在严格的货币意义上,我捐了3800万美元。」 呃…老马你口风变得有点快啊… 但OpenAI这边黑料也不少,最炸的一条当属Brockman的日记。 2017年,他一边当面向马斯克保证「OpenAI会坚守非营利」,一边在私人日记里写: 「如果三个月后我们转成B公司(Benefit Corporation),那就是一个谎言。」 同一本日记里还算了一笔账:「在财务上,什么能让我身家达到10亿?」 嘴上说使命,手上算身家,这就是硅谷兄弟情??? 所以你看,这场官司两边都不干净。 不过目前风向还是对马斯克更不利。他在证人席上坐了三天,原本是去证明OpenAI「偷了一个慈善机构」。 结果庭审进行到第五个小时,有旁听记者在笔记本里写下了这样一句话: 「我这辈子从未如此同情过山姆·奥特曼。」 究竟是谁偷了谁? 马斯克之所以费这么老大劲起诉OpenAI,就是为了证明一件事: 「他们偷了一个非营利组织」。 2015年,马斯克出钱出名联合创立了OpenAI,一家立志不赚钱、为全人类开发AI的非营利机构。 现在他说,自己就是个「被愚弄的傻瓜」,捐了3800万美元的「免费资金」。 结果被奥特曼和Brockman转头拿去造了一个估值8500亿美元的营利公司。 现在,他索赔1500亿美元,要求法院阻止OpenAI在今年下半年IPO上市。 同时还要求罢免奥特曼在OpenAI非营利董事会的董事职务,并解除奥特曼和Brockman在OpenAI的职务。 马斯克在庭上反复用一个比喻来描述OpenAI的问题:「the tail is wagging the dog」(尾巴在摇狗)。 啥意思呢? OpenAI最初的设计,是「非营利使命」这条狗,带着「营利子公司」这条尾巴——后者只是为了融资续命,服务于前者。 但现在反过来了。 营利子公司吸走了几乎所有的人才、资金、资源,ChatGPT的品牌价值、OpenAI的名气,全在为商业利益服务。 「非营利」只剩一个法律上的空壳,偶尔拿出来当招牌用一用。 同时,马斯克拿出了一条2022年的短信,这是他认为自己被骗的关键时间点。 微软那年宣布投资100亿,OpenAI估值一夜飙到200亿。 马斯克发消息给奥特曼:「这感觉像是诱饵调包(bait and switch)。」 意思是:当年你们用「非营利、为全人类」把我吸引进来,等公司做起来,才发现那件事从来不是你们真正想做的。 奥特曼回复:「我同意,感觉确实不好。」 这条短信被马斯克律师在庭上重点展示——奥特曼自己都说「感觉确实不好」,这不就是承认吗? 但是OpenAI律师William Savitt拿出来的邮件,把故事讲成了另一个版本: 你自己2015年就想搞营利部门,2017年还偷偷注册了营利公司,现在来装什么受害者? 2015年,OpenAI还没正式宣布,马斯克就在内部邮件里提议要不要加一个营利实体。 2016年,他给自己公司同事写邮件说「把OpenAI设成非营利可能是个错误」。 2017年,他指示高级顾问偷偷以「OpenAI」名义注册了一家营利性公司,同时要求4个董事席位加51%股权——其他所有创始人加在一起只有3席。 被拒之后,马斯克切断资助,把OpenAI的核心研究员Andrej Karpathy直接挖去了特斯拉。 对此马斯克在庭上声称:Karpathy本来就想离开OpenAI,我觉得人们有权利选择去哪里工作。。 2018年,马斯克给其他创始人发邮件,说OpenAI「注定失败」,解决方案是并入特斯拉。 再次被拒后,马斯克退出了董事会。 还有法庭上公开的一批短信,让这个质疑更难反驳。 2024年12月,扎克伯格主动给马斯克发消息:「Meta已致函加州总检察长,支持你对OpenAI的起诉。」 两个平时互相嘲讽的人,因为共同的竞争对手站到了同一条线上。 2025年2月,马斯克给扎克伯格发消息:「你愿不愿意跟我和其他一些人一起,联合竞标OpenAI的知识产权?」 扎克伯格说:「要不要打个电话聊聊?」 马斯克说:「明天早上打。」 小扎最终没有加入。七天后,马斯克独自出价974亿美元,要收购OpenAI。 在证人席上,马斯克宣誓说,他出这个价,是为了「阻止他们窃取慈善机构」。 但短信记录显示,他第一个念头是拉上Meta一起来联合竞标。 所以究竟是拯救慈善,还是抢夺资产? Savitt的总结只有一句话:「他只支持非营利,前提是他自己在掌控。」 证人席三天,马斯克六次失态 值得玩味的是,OpenAI的首席律师William Savitt,是个非常会激怒马斯克的人。 Savitt是谁? 他曾经是马斯克的律师,帮他打过特斯拉的官司;后来又帮Twitter高管打赢了强制马斯克收购Twitter的官司。 结果现在,他站到了对面。没有人比他更了解怎么对付这个证人。 老马啊老马,你今天真是碰上对手了… Savitt的策略不是用新证据攻击,而是专门用马斯克自己说过的话,来追杀马斯克今天的证词。 老熟人果真一击必杀,Savitt的盘问持续了两天,马斯克失态了六次。 现场陪审员互相使眼色,有人揉头,法官在某个时刻忍不住当庭笑场。 第1次:承认离开的真正原因。 马斯克一直对外说,他2018年离开OpenAI董事会,是为了专注SpaceX和特斯拉,避免利益冲突。 Savitt不信,反复追问。马斯克的己方律师当庭反对,但法官允许继续。 最终马斯克被逼到角落,承认:他提出要掌握OpenAI的多数控制权,被其他创始人拒绝,然后他走了。 走,是因为没拿到他想要的,不是因为利益冲突。 第2次:「AI安全救世主」人设碰壁。 马斯克起诉的核心叙事之一,是他深切关心AI安全,而OpenAI背离了这个使命。 Savitt直接把xAI的安全记录拿出来摆在陪审团面前—— Grok曾经生成大量有害内容,xAI在安全测试和信息披露上的做法,跟马斯克在庭上标榜的「AI安全」相去甚远。 救世主的人设,对着自家产品有点说不过去啊… 第3次:自己说的话,前后对不上。 这是整场盘问最激烈的时刻,也是庭审里气氛最剑拔弩张的一段。 事情的起点是一份2018年的术语表(term sheet)。 庭审当天,马斯克说他读了这份文件的开头部分,大致了解了内容。 Savitt随即播放了马斯克庭前证词的视频录像。 视频里的马斯克,被问到同一个问题,全程没有提过任何「读了开头」的说法。 两个版本的马斯克,就这样同时出现在陪审团面前。 马斯克急着解释:「我说的是没有仔细看,不是没读!」 这段争执持续了好几分钟,是马斯克在整场庭审中情绪最激动的时候之一。 第4次:骂人是「管理风格」。 Savitt拿出证据,马斯克曾骂OpenAI的安全团队是「jackasses(蠢货)」。 马斯克的回应出人意料地淡定:这是他的「管理风格」。 他说自己的原则是「Don’t be a jackass(别做蠢货)」,所以骂人jackass是在提醒对方改正,不算骂人。 嗯…现场陪审团的表情此刻应该是非常精彩。 第5次:不知道safety card,但xAI在发。 马斯克全程以AI安全捍卫者自居出庭。Savitt问他,知不知道「safety card」是什么。 马斯克说,不太确定。 Savitt解释:这是AI公司随模型发布的安全说明文件,用于披露模型能力、风险和安全测试结果,是行业基本的透明度标准。 马斯克的xAI,正在给Grok发safety card。 哈?? 老马你起诉OpenAI不够安全,结果你不知道自己公司在用的安全文件叫什么名字??? 第6次:上午刚说完自己不会大喊,下午就大喊。 上午,马斯克在主询中主动说了一句话:「我不会失去冷静,我不对人大喊。」 下午,Savitt继续追问术语表的事,两人争执升级。 马斯克当庭大喊:「我说的是没有仔细看!我读了标题!」 法官当场笑场,陪审员集体抬头。这句话和上午那句话,中间才隔了不到四个小时。 但是这还没完,更大的爆点还在后头。 马斯克公开承认了xAI蒸馏OpenAI模型来训练Grok。 Savitt问:xAI有没有用蒸馏技术从OpenAI模型提取知识,来训练Grok? 马斯克先打太极:「AI公司普遍都会互相蒸馏。」 Savitt追问:那是还是不是? 马斯克:「部分有。」 Yes or No…答案是or?? OpenAI这边…也不干净 说了这么多马斯克的失态,但OpenAI也并非清白无可指摘。 首当其冲的就是Brockman的日记。 这本私人日记是在诉讼发现阶段被挖出来的,背景是2017年。 当时OpenAI烧钱烧得很凶,内部开始讨论要不要从非营利转成营利结构来融更多钱。 马斯克是最大金主,但他的条件是:要转营利可以,但我要控制权——51%股权、4个董事席位。 Brockman和奥特曼不想接受这个条件,但又不敢直接告诉马斯克「我们不打算守住非营利了」。 所以他们的策略是:当面继续安抚马斯克、保证坚守非营利,私下另想出路。 Brockman在日记里写道:「这是我们摆脱马斯克的唯一机会。」 意思是,如果趁这次重组,把马斯克的条件拒掉,就能把他排除在公司未来的控制权之外,从此不用再受他制约。 同时,他其实也不确定马斯克适不适合当自己的老板,所以写下——「他是我会选的’光荣领袖’吗?」 日记里还有一条:「在财务上,什么能让我身家达到10亿?接受马斯克的条件会摧毁两件事:我们的选择权……以及经济回报。」 这本日记被法官在今年1月的裁定中直接引用,作为「证据充分、应当开庭」的依据之一。 Brockman很快就要走上证人席,当庭解释这本日记。 第二,奥特曼曾对马斯克说:「你是我的英雄」。 2023年2月,两人已经开始公开互撕。 但奥特曼私信马斯克写道: 「你是我的英雄……没有你我不认为OpenAI能成……但你公开攻击OpenAI真的让我很受伤。」 所以,奥特曼承认了马斯克的关键贡献,同时也暴露了自己在私下还在软化马斯克、公开却继续推进营利化的两面性。 还有更多证据浮出水面: 2015年10月,奥特曼发了一封邮件给马斯克,汇报OpenAI的筹备进展。 最后列出「对你的具体要求」:第一条,能否在未来5年内捐3000万美元? 马斯克的回复只有一句话:「我们来谈治理结构。这很关键。我不想资助一个最终走向错误方向的东西。」 这封邮件现在成了法庭证据。 马斯克说它证明了他当时就强调过「方向」;OpenAI说它证明了奥特曼主动向马斯克募款,形成了法律意义上的慈善信托关系。 马斯克的律师同一天还向法官递交了一份法庭简报: 论点很清晰:加州法律规定,只要有人主动向你募捐,你接受了,这笔钱就必须用于募捐时声明的目的。 奥特曼2015年主动要钱、2020年再次要钱,马斯克都给了。 后来OpenAI搞营利化,违反的不只是道义承诺,而是法律义务。 官司还没结束,好戏还在后头 第一周结束,马斯克的证词落幕,攻守即将易位。 接下来还有重磅证人登场: 奥特曼下周登台,将是真正的正面对决,也是这场庭审最受期待的时刻。 在本周的三场庭审上,奥特曼坐在被告席面无表情,一言不发。 但等上了证人席,他会做何表现? 其次是Greg Brockman,他要当庭解释自己写过的日记。 还有微软CEO纳德拉,马斯克指控微软「协助OpenAI背叛慈善信托」——没有微软的钱,OpenAI没办法完成这次营利化转型,所以微软也是共谋。 签下130亿美元赌注的人,将要在奥克兰法庭向9个陪审员解释整个安排。 最后是希冯·齐利斯,她具有三重身份——前OpenAI董事、马斯克四个孩子的母亲、OpenAI方指控的内部信息泄露者。 所以硅谷连环宫斗剧究竟结局如何? 吃瓜已经迫不及待了…(搓手手
OpenAI总裁布罗克曼:AI帮你编写的代码占比已从二成猛增至八成
IT之家 5 月 1 日消息,据《商业内幕》5 月 1 日(今天)下午报道,OpenAI 总裁、联合创始人格雷格 · 布罗克曼表示,AI 编程工具最近几个月进步明显,已经不只是软件工程师手边的辅助工具。 在近期的一场红杉资本对谈中,布罗克曼说:“光是去年 12 月,智能体编程工具能帮你写的代码比例就从 20% 升到了 80%。这意味着,它们已经从配角变成了主角。” 他认为,创业者应该主动拥抱 AI 工具,因为这类工具正在快速迭代。以 OpenAI 的代码生成平台 Codex 为例,它最近已经从一个主要服务软件工程师的工具,变成可以支持“任何使用电脑工作的人”的工具。 不过,布罗克曼也强调,OpenAI 仍会确保所有被合并的代码都由人类负责。谈到 AI 生成代码,他表示:“这种审慎态度很重要,不能只是说‘哦,直接盲目使用它’,也不能说‘我们完全不想用它’。我认为这两个极端都不太对。” 据IT之家了解,越来越多科技公司高管正在强调,AI 已经能生成公司代码中的相当大一部分。 上个月,谷歌 CEO 桑达尔 · 皮查伊表示,谷歌内部目前 75% 的新代码由 AI 生成,再交由人类工程师审核。 这一比例近年上升很快:2024 年还是 25%,去年已经升至 50%。 Meta 也在推进类似方向。其预计在负责构建和维护核心创意体验的 creation 组织中,65% 的工程师提交的代码里,将有超过 75% 由 AI 辅助完成。 Anthropic CEO 达里奥 · 阿莫代伊也曾预测 AI 写代码的比例会继续提高。阿莫代伊去年在一场会议上说:“我认为三到六个月内,我们就会达到 AI 编写 90% 代码的阶段。然后,12 个月后,我们可能会进入一个 AI 基本上编写所有代码的世界。” 阿莫代伊今年早些时候还在博客中写道:“由于 AI 现在已经在 Anthropic 编写大量代码,因此实际上,它已经显著加快了我们构建下一代 AI 系统的进展速度。”
iPhone不care AI
苹果公司又双叒赚麻了。 北京时间5月1日凌晨,苹果发布2026财年第二季度(自然年2026年第一季度)业绩。 报告期内,苹果总营收达1112亿美元,同比增长16.6%,超出市场预期;净利润296亿美元,同比增长19.4%。 iPhone和服务分别是苹果的营收和利润支柱,其业绩大体决定了整个公司的表现。 上季度,iPhone销售额达570亿美元,同比增长22%,依然是公司的半壁江山。1112亿美元的营收,也创下了苹果在第一季度的新纪录。 同一时期,苹果服务业务收入达310亿美元,同比增长16%,同样创下单季度新高。这块业务的毛利润率高达76.7%,助推整个公司的毛利润率突破49%。 十天前,当库克宣布交棒特努斯时,不少人认为,苹果第一季度的业绩一定很不错,才敢在财报发布前夕公布换帅消息。 如今,最新季报的强劲业绩证明了这一点。 对于第二季度,苹果管理层的业绩指引是营收同比增长14%~17%,远远超出9.1%的分析师平均预期。 面对这份财报,二级市场投资者热情高涨。 在周四的美股盘后交易中,苹果股价一度上涨4%,随后收窄至不到2%。苹果最新市值为3.98万亿美元,比微软高了近1万亿,但与英伟达相比,仍有1万亿的差距。 苹果最新财报,再一次给外界吃了定心丸: 这仍然是一家非常赚钱、现金流强劲的顶级公司,增速也远高于市场平均水平。相比其他大型科技股,苹果依然是最稳健的长期选择,几乎没有之一。 这种稳健,也是库克时代的黄金余晖。 过去十五年的大多数时间里,苹果季报的结构和逻辑与本次财报相去无几,无非是具体数额大小而已。即便在某些季度出现波动,也会在接下来的一两个季度里迅速修复,回到库克设定的航道上。 然而,还有四个月,库克时代就将落幕,特努斯将成为苹果这艘巨轮的新一任船长。变革时刻即将到来,人们却无法从最新财报中看到革故鼎新的明确信号;倘若细品,反而是传承压倒突破,守制多于创新。 最新季报解答了一个外界关心的问题:iPhone老矣,尚能饭否?答案依然是肯定的——即便iPhone 17被不少人批评缺乏新意,它依然是这个星球上最受欢迎的智能终端。 但它也带来了几个新问题:苹果AI,到底要怎样逆天改命?特努斯上任后,究竟要如何带领公司步入下一个发展周期? 在这份灿烂的财报中,苹果解答了旧时代的旧问题,而对于新时代的新问题,苹果不仅没有答案,甚至都没有把问题放在明面上。 在连续多个季度被iPhone强劲销量打脸后,就算是最顽固的“果黑”也必须承认,永远不要低估iPhone。 第一季度包含了新年和春节假期,通常被认为是手机销售淡季。根据市场调研公司Omdia的数据,上季度国内手机整体出货量下滑1%。 但苹果的销量依然凶猛:单季度出货1310万部iPhone,同比猛增42%。 今天发布的财报也印证了这一点。上季度iPhone的热销,推动苹果大中华区收入同比增长28%,增速冠绝全球。美洲(12%)、欧洲(15%)、日本(15%)及亚太其他地区(25%)也都实现了两位数百分比的增长。 在财报电话会议上,库克宣称:“iPhone 17 系列已成为我们历史上最受欢迎的产品线。” 已经不记得,这是第几次库克做出类似的表述。 过去几代iPhone挤牙膏式的更新饱受争议,却几乎没有影响到这款手机的持续热销,而这也让库克和苹果有了继续挤牙膏的底气。 反而是那些试图有所突破的产品,比如去年发布的iPhone Air,更早时候库克力挺、特努斯主导的Vision Pro,都遭遇了口碑和销量的双重惨败。而苹果素来对失败产品缺乏耐心,卖得不好就得靠边站。 在本次财报电话会议上,库克超过50次提及iPhone,其中只有一次提到iPhone Air。“在迄今为止最纤薄iPhone上体验专业级性能”的平淡评语,也与对iPhone 17系列的溢美之辞形成鲜明对比。 沿着挤牙膏老路走得太久的库克,甚至还试图把牙膏吸回去。 此前有市场传闻称,苹果将在明年春天发布iPhone 18和18e,售价与iPhone 17系列相同,但屏幕和SoC(片上系统)两大核心硬件都会倒退——“等等党”终归一无所有。 库克之所以这么盘算,是因为苹果要全力押注今年9月的两款高端机型:iPhone 18 Pro/Pro Max,以及万众期待的折叠屏iPhone。 把同一代机型拆成两次发布,苹果的目的很明确——今年只卖高端机型。它赌的是新一代iPhone依然锐不可当,而消费者——尤其是中国大陆消费者——依然慷慨解囊。 对于舍得花钱的果粉而言,价格似乎并不是大问题。一个例证是,去年第四季度,iPhone Pro与Pro Max已占据美国市场iPhone销量的52%,2024年则为39%。 但动辄上万的新iPhone,并不是普通人能够消费得起。更何况,全球消费者都在捂紧口袋。经济实惠才是永远的刚需。 苹果自己也能感受到这一点。 库克在电话会议上说,上个季度卖得好的除了iPhone 17 Pro Max,还有更亲民的iPhone 17;把苹果本价格打下来的MacBook Neo也“异常火爆,需求远超预期”。 对于将在9月接任CEO的特努斯而言,新iPhone既是一份大礼,也是空前挑战。 库克把老iPhone的潜能已经挖掘到极致,不出意外的话,iPhone 18 Pro Max依然会受到热捧。但与此同时,没人告诉特努斯,该怎么包装和兜售折叠屏iPhone。掏出一万五买手机,哪怕是果粉,也得掂量一番。 产品创新上,特努斯已经在Vision Pro跌过一跤。如今,折叠屏iPhone将是这位新CEO的首场大考,不容有失。 iPhone是苹果财报的铠甲,而AI是软肋。 与以往财报相比,苹果本次业绩发布的AI浓度不升反降。谷歌、微软、亚马逊、Meta等公司恨不得“言必称AI”,苹果却显得有些羞羞答答,遮遮掩掩。 在电话会议上,库克只有5次谈及Apple Intelligence,相当于iPhone出现频率的1/10。 库克表示:“Apple Intelligence已融入我们平台的核心,由苹果芯片驱动,从底层架构开始设计,旨在提供快速、个性化且私密的智能体验。”他还列举了Apple Intelligence的一些应用场景,包括视觉智能、照片清理、实时翻译等。 硬件方面,库克宣称Mac mini和Mac Studio都是AI和智能助手工具的绝佳平台,用户对它们的认可速度远超预期。他并没有提及OpenClaw和“养虾”浪潮的影响。 库克透露,苹果与谷歌的合作进展顺利。“我们对目前的状况很满意,同时也对我们独立开展的工作感到满意。”他说。 1月中旬,苹果与谷歌达成协议,下一代苹果基础模型将基于谷歌Gemini大模型和云技术构建,并为今年即将上线的个性化Siri提供核心技术支持。为此,苹果每年将向谷歌支付约 10 亿美元的授权费用。 此外,苹果CFO凯文·帕雷克称,AI是公司非常重要的投资领域,“我们将在产品路线图之外,逐步加大对人工智能的投入。” 这几乎是本次业绩发布关于AI的全部内容了。库克和管理层没有公布任何具体数字、计划和目标,干货含量比上个季度还要少。 库克和管理层对于AI三缄其口,多少有点儿无可奈何。 过去四个月,全球AI行业继续狂飙突进,大大小小的公司争相发布新技术、新产品,模型、应用和硬件都有许多突破。但在这场划时代的跃迁中,苹果究竟干什么了?恐怕没有几个人说得清楚。 苹果不是不想聊AI,而是实在没有什么可聊的成绩。 对于中国果粉来说,唯一的小惊喜,发生在第一季度的最后一天。 3月31日凌晨,国内不少iPhone用户注意到,手机系统设置新增“Apple智能与Siri”选项,打开即可开启全新的AI功能。然而,短短几个小时后,剧情大反转——苹果悄悄关闭了AI选项。 知名苹果爆料记者马克·古尔曼认为,这是一场乌龙,苹果尚未得到AI功能入华许可。 本次财报,苹果并没有公布Apple Intelligence入华的新进展。但这一切很快就会变得不再重要了——还有一个多月,苹果就要举行一年一度的WWDC了。 届时,全面升级的苹果AI将深入融合到iOS的方方面面。代号为“Campos”的AI聊天机器人也有望亮相,9月正式推出。Campos背靠苹果基础模型v11,性能远超Siri,将成为iOS 27的核心新功能。 此外,根据爆料,iOS 27将引入Extensions(扩展)系统,可以通过App Store接入第三方Chatbot,比如Claude、Gemini、Perplexity 等。比如,通过接入Claude,苹果AI可以间接具备强大的编程能力。而在国内市场,倘若苹果AI能够接入豆包,那么iPhone用户将可以在AI聊天中完成抖音购物。 在财报电话会议上,库克表示,欢迎开发者参加WWDC 2026,“我们迫不及待分享努力成果,从AI的进步,到令人兴奋的新软件和开发者工具。这将是精彩纷呈的一周。” 倘若库克能够在卸任CEO之前,带领苹果打一场AI翻身仗,那么毫无疑问,这将是他留给特努斯最具价值的“遗产”之一。 电话会议上,苹果现任CEO库克,与下一任CEO特努斯进行了一番“商业互吹”。 库克宣称,特努斯是“这个星球上我最信任的人”,是一位杰出的工程师、一位深思熟虑的思想家、一位品格卓越的人,也是一位天生的领导者,他能够带领苹果走向未来。 他表示,在接下来的几个月里,两人将紧密合作,确保过渡过程平稳顺利。“我非常期待在9月1日正式就任执行董事长一职。” 特努斯随后回应称,库克是“有史以来最伟大的商业领袖之一,蒂姆的信任和信心对我意义非凡。” 但外界最关注的,显然不是两人的互相吹捧,而是特努斯对苹果帝国的构想和规划。 库克无疑是顶尖的企业管理者,但也常常被批评缺乏创新力和冒险精神。正因为如此,当50岁的特努斯走上前台时,外界普遍期待这位少帅能够摒弃保守,创造一番生机勃勃、万物竞发的新气象。 令人略感遗憾的是,在此次电话会上,特努斯不仅语焉不详,还透露出“沿着库克路线走下去”的信号。 在给库克公开点赞之后,特努斯表示,库克任期内的一大特点是公司在财务决策方面展现出的深思熟虑、审慎和严谨。 “我想让你们知道,我和凯文(苹果CFO)计划在我9月正式接任CEO后,继续秉持这些原则。”特努斯说。 涉及财务时谨小慎微尚可理解,但对于产品、技术等,特努斯同样不置一词,只是表示“正如蒂姆所说,我们未来有着令人振奋的发展蓝图”,而自己不会透露路线图的细节。 他表示,“这是我在苹果公司25年职业生涯中最激动人心的时刻,因为在这里,我参与了产品和服务的开发。我们面前有太多机遇,我对未来充满信心”。 在不久前的公司全员会上,特努斯表示,苹果即将“再次改变世界”,而AI将创造几乎无限的潜力,不断解锁新的可能性,从而为公司的产品和服务开辟全新机遇。 与彼时的豪言壮志相比,特努斯在财报会上的发言低调了许多。在尚未正式卸任的库克面前,特努斯显然降低了腔调。 这也折射出特努斯的性格:温和谨慎、克制有礼。 正如不少人所说,特努斯在许多方面很像库克,而非个性张扬的乔布斯。库克多年来对他信任有加,最终将其推上接班人的宝座,也和这种性格的贴合不无关系。 但真正的问题是,一个“年轻版库克”,能否带领苹果穿越AI时代的惊涛骇浪? 短期来看,苹果几乎不需要做出改变——依靠iPhone这套黄金铠甲,再加上印钞机一般的软件业务,苹果业绩还会坚挺很长一段时间。 可以说,特努斯完全能够以不变应万变。 但把时间拉长到十五年甚至更久,苹果显然需要一场变革。它的成功与移动互联网的全球普及相辅相成,但如今,移动互联网红利已经消耗殆尽,时代的焦点已经迁移到了AI,苹果却还没能占据一席之地。 这也是特努斯真正的主线任务:带领苹果从移动互联网的王者,转型为AI时代的巨人。 在掌舵苹果的最后几年里,库克没能完成这场转型,甚至还在一定程度上耽误了转型。身心俱疲的库克选择在此时急流勇退,顺便扫除了旧部、请来了强力外援,尽可能给特努斯铺路。 上一个十五年,库克给苹果披上了iPhone的铠甲;下一个十五年,特努斯则需要补齐AI这块软肋。但在最新财报中,苹果依然铠甲闪耀,却没能给出填补软肋的具体方案,最多只是“未来可期”。 那么,沿着库克路线走下去,特努斯能打赢这场前所未有的AI战役吗?或许,无论是苹果、公众还是特努斯自己,都需要更长时间才能看清答案。
6000亿砸进AI!谷歌微软Meta亚马逊四巨头财报同日亮相,AI商业化真的来了
北京时间4月30日凌晨,科技史上极为罕见的一幕发生了——谷歌、微软、Meta、亚马逊四大科技巨头同日公布2026年第一季度财报,全球投资者屏息以待。 这一次,市场得到的不只是一份财报,而是整个AI产业命运走向的集体答卷。 四家巨头,同一赛场,各有胜负 先看数字。谷歌母公司Alphabet第一季度总营收1098.96亿美元,同比增长22%,净利润625.78亿美元,同比暴增81%。谷歌云单季营收更是一举突破200亿美元大关,同比增速高达63%,把对手Azure的42%和AWS的28%远远甩在身后。 微软交出了829亿美元的季度营收,同比增长18.3%,超出市场预期。其中最亮眼的数据是AI年化收入超过370亿美元,同比增长123%。这意味着微软在AI这条赛道上的商业变现,已经跑出了真实可见的增速。 Meta方面,营收563.1亿美元,同比增长33%,创下2021年以来最快增速。AI优化的广告系统直接推动广告转化率提升4.3%,净利润267.7亿美元,同比增长61%。 亚马逊总营收1815亿美元,AWS云业务376亿美元,同比增长28%,创三年最快增速。 四家加在一起,这一个季度的营收规模已经接近全球许多中等体量国家的GDP之和。 7250亿:一个让人头皮发麻的数字 财报里还有一个数字,让华尔街同时感到兴奋和不安——四家公司2026年AI基础设施资本支出合计指引,接近7250亿美元。 这是什么概念?2024年,这四家合计才花了2450亿美元。两年时间,这个数字增长了近三倍,超过了以色列全年的GDP。 Meta的资本支出上调幅度最为激进,从2025年的720亿美元直接跳到1150至1350亿美元,增幅高达87%。财报发布后,Meta股价盘后重挫近7%,投资者对这笔钱究竟什么时候能回来,充满疑虑。 谷歌则更从容一些,因为它已经找到了让AI直接带来收入的路径——搜索业务被AI激活,查询量创历史新高;广告收入同比增长19%;云服务积压订单高达4600亿美元,这意味着钱已经在路上了。 相比之下,微软的处境有点微妙。AI年化收入超370亿美元,数字好看,但未来云合同账簿里,来自合作伙伴OpenAI的部分占到45%左右,客户集中度风险不容忽视。 亚马逊CEO安迪·贾西在股东信里说得很直白:本轮大规模资本支出的大部分,将在2027至2028年才开始变现。投资者需要有耐心。 谷歌独赢,背后是什么逻辑 财报发布后,Alphabet股价盘后涨了7%,其余三家反应冷淡甚至下跌。谷歌为什么能独占鳌头? 摩根士丹利和花旗的分析师给出了相似的判断:AI投资回报的第一信号,不是资本支出规模,而是营收加速。能同时做到"投入扩大+收入同步加速"的企业,基本面更扎实。 这一轮,谷歌和Meta都达到了这个标准。谷歌云的63%增速不是靠拼价格打出来的,而是企业客户在AI基础设施上的刚性需求推动的。Gemini企业版付费月活用户环比增长40%,说明AI商业化路径已经在谷歌内部跑通。 一个有意思的细节是:谷歌本季度付费订阅新增了2500万用户,YouTube Premium和Google One的订阅总数达到3.5亿。AI功能正在成为用户愿意掏钱的理由,这才是真正的商业化信号。 微软的隐患:OpenAI依赖症 微软的数字很亮眼,但有一个隐患值得关注。未来云合同账簿合计6250亿美元,这是全球最大规模的企业软件订单池之一。但其中大约45%来自OpenAI。 一旦OpenAI选择在其他平台上跑更多工作负载,或者开发出自己的云基础设施,微软的AI营收增速可能面临结构性压力。这不是危言耸听,这是华尔街已经在盯着的风险。 当然,微软和OpenAI的绑定程度远不止于此。Copilot深度嵌入Office 365,M365 AI功能已成为企业客户续费时的核心驱动力。短期内,这条护城河还在。 AI商业化,从"将来时"变成了"现在时" 如果说2024年还在争论"AI什么时候能赚钱",那么2026年第一季度的这四份财报给出了答案:钱,已经开始回来了。 谷歌云63%的增速、微软AI年化370亿美元的收入、Meta广告转化率的提升、亚马逊AWS三年最快增速——这些数据拼在一起,画出的不是泡沫,而是产业级别的真实增长。 当然,7250亿美元的资本支出意味着这场AI军备竞赛还远没有结束。英伟达、AMD的芯片,数以百万计的服务器,遍布全球的数据中心——这些钱还在持续流入。 下一个问题是:中间层的企业,那些依靠AI API做应用的公司们,能在这场浪潮里站稳脚跟吗?四巨头的财报告诉我们,AI的基础设施战争已经进入收割期。应用层的战争,才刚刚开始。
扎克伯格致Meta员工:公司追踪电脑操作,是因为你们更聪明
IT之家 5 月 1 日消息,科技媒体 The Information 今天(5 月 1 日)发布博文,报道称在本周四举办的全员会议上,Meta 公司执行官马克 · 扎克伯格(Mark Zuckerberg)表示,利用员工的计算机操作活动,来训练其 AI 模型,可以让公司在激烈的 AI 竞争中占据优势。 扎克伯格在全员会议上指出:“总的来说,我们公司员工的平均智力水平,要比通过这些承包商找到的普通员工的智力水平高得多”。 IT之家本月报道,Meta 公司为加速 AI 融入工作流,推出名为“模型能力倡议”(MCI)的内部追踪系统,全面记录员工的鼠标移动、击键、快捷键及屏幕操作,内部已将该项目更名为“智能体转型加速器”。 在备忘录中,Meta 首席技术官 Andrew Bosworth 描绘了未来图景:AI 智能体将承担大部分工作,人类仅负责指导与审核。然而,这种模式意味着人类工作正转化为可能取代自身岗位的训练数据。 该计划最引人争议的细节在于,员工完全无法选择退出追踪。这让原本可能被定位为自愿贡献的行为,变成了在 Meta 工作的强制要求。正如媒体所指,员工实质上被告知正在训练将取代自身的系统,他们沦为 Meta 的无偿数据劳动力,引发了关于员工同意权和职场信任的严重担忧。 Meta 一名发言人给出了如下声明: 如果我们要打造能帮助人们用电脑完成日常事务的智能助手,我们的模型就需要人们实际使用电脑的真实案例 —— 比如鼠标移动、点击按钮、操作下拉菜单等行为。 为此,我们将推出一款内部工具,在特定应用中采集这类操作输入,以助力模型训练。我们已设置相应保护措施以保障敏感内容安全,且这些数据不会被用于其他任何用途。
苹果:AI缺位、存储涨价,照样“稳稳幸福”?
文 | 海豚研究 苹果 (AAPL.O) 北京时间 2026 年 5 月 1 日上午,美股盘后发布 2026 财年第二季度财报(截至 2026 年 3 月),要点如下: 1、整体业绩:本季度苹果实现营收 1112 亿美元,同比增长 16.6%,好于市场预期(1097 亿美元)。公司本季度收入端的增长,主要受 iPhone 和软件服务业务增长的带动。 公司毛利率 49.3%,同比增加 2.2pct,好于市场预期(48.5%)。其中软件服务业务毛利率提升至 76.7%,硬件端毛利率为 38.7%(同比提升 2.8pct)。本季度硬件毛利率的提升,主要受 iPhone17 系列销量增加和美元兑人民币贬值等因素的共同影响。 2、iPhone:本季度公司 iPhone 业务实现营收 570 亿美元,同比增长 21.7%,符合市场预期(570 亿美元)。本季度手机业务的增长,主要受 iPhone17 系列在中国地区热销和美元兑人民币贬值的带动。对于本季度,海豚君估算 iPhone 整体出货量同比增长 5.5%,出货均价同比上涨 15.3%。 3、iPhone 以外其他硬件:都有不同幅度的增长表现。公司本季度 iPad 业务实现 8% 的同比增长,主要得益于 M5 Pro、A16 机型增长的带动;公司本季度推出了 MacBook Neo,起售价降至 599 美元,覆盖了更多的消费群体,带动本季度 Mac 业务重回增长。 4、软件服务:公司软件服务本季度收入达到 310 亿美元,好于市场预期(304 亿美元),同比增长 16%。凭借 76.7% 的高毛利率,公司软件业务以 28% 的收入占比,产生了公司 43% 的毛利润。 5、分地区收入:其中美洲地区依然是公司基本盘,收入占比维持在 4 成以上,本季度实现 12% 的同比增长;大中华区是本季度表现最好的地区,在 iPhone17 256G 也能享受到国补政策的情况下,带动 iPhone 在中国大陆地区本季度出货量同比增长 33%(据 IDC 数据)。 海豚君整体观点:iPhone 17 爆火,关注新 Siri 能否补齐 AI 短板 苹果公司本季度业绩整体相当不错,其中收入端和毛利率的表现都好于市场预期,这主要是受 iPhone17 系列和美元兑人民币贬值的带动。 ①收入端增长:主要是由 iPhone17 系列热销的带动。本季度 iPhone 业务同比增长 22%,尤其是 iPhone 在中国市场的出货量同增表现达到了 33%。虽然 iPhone17 系列创新不多,但该机型在中国市场获得了明显的成功。iPhone17 256G 在享受国补政策的同时,抢占了安卓品牌在中国市场的份额; ②毛利率提升:在存储涨价的逆风之下,公司硬件端毛利率同比再次提升,主要得益于 iPhone 出货量增长的规模效应、美元兑人民币贬值等因素的带动。由于公司的 iPhone 等产品主要针对于中高端市场,存储涨价带来的成本端影响比竞争对手相对较小,公司也能相对更好地消化这部分的压力。 在本季度数据之外,公司管理层还给出了下季度指引:公司下季度营收同比增长 14-17%,对应 1071-1100 亿美元;预计下季度的毛利率为 47.5-48.5%。iPhone 业务依然是下季度增长的主要推动力。即使面临着存储大幅涨价的压力,但公司依然给出了还不错的毛利率指引,体现了公司优秀的供应链管理能力。 在苹果公司本次财报之外,市场还关注于以下几方面: a)更换 CEO:苹果官宣将进行高层换届,蒂姆・库克将于 9 月 1 日卸任 CEO 转任执行董事长,由硬件工程高级副总裁约翰・特努斯接任 CEO。 新任 CEO 特努斯为硬件工程背景,契合下一代智能手机与 AI 终端的竞争需求。库克则留任执行董事长,保障全球政策事务衔接,战略平稳过渡。 市场普遍认为公司的本次换届是经过长期考虑后的安排,人事调整不会导致苹果战略方向出现重大改变。苹果公司仍会注重硬件与服务业务的战略平衡,凭借垂直整合、供应链优势维持产品与服务增长。后续可以关注公司管理层在交流会中的具体表态。 b)中国市场的回升:公司本季度业绩回升,主要来自于中国市场 iPhone 销量提升的带动。拆分来看,本季度中国市场 iPhone 出货量同比增长达到 33%,而在其他市场(中国以外)的出货量同比基本持平。 iPhone17 系列在中国市场表现很好,一方面是因为 “存储涨价” 对 iPhone 的影响相对较小,另一方面 iPhone17 256G 能享受国补政策对安卓类品牌带来明显竞争压力。本季度 iPhone 在中国市场的份额达到 19%,同比提升了 5.3pct。 c)应对 “存储涨价” 的举措:①签订长期内存采购协议锁定成本。利用规模优势锁定优惠内存合约价 + 提前备货库存缓冲;②自研基带的同时,并压降其他非内存零部件成本;③产品结构优化或适当提价的方式,提升公司的产品均价。结合公司给出的下季度毛利率指引来看,公司还是有能力通过供应链的管控,来缓解存储涨价带来的冲击。 在 iPhone17 系列高增长的带动下,苹果公司的短期业绩是相当不错的。至于存储涨价的影响,市场也能看到公司可以通过长协订单、供应链管理、产品结构调整等方式对成本端的压力进行稀释或消化, 然而近期 “出色” 的业绩表现,并不能打消市场对公司高增长持续性的质疑,这也使得公司的估值依然维持在传统区间之内。在当前 AI 及大模型持续推进的情况下,市场更期待苹果公司在 AI 或新 Siri 领域的创新突破,这才是中长期的成长性看点。 苹果公司坐拥着庞大的硬件用户基数,这给公司带来了相对充足的 “缓冲准备期”。但如果公司迟迟不能在 AI 领域突破的话,也可能面临其他玩家的竞争。近期市场已经传出,Open AI 计划将推出一款跳出传统 “App 模式” 的 AI 智能手机。 整体来看,苹果公司短期业绩是很不错的,主要体现了 iPhone17 的热销表现和公司优秀的供应链管理能力,依然具有相对明显的 “壁垒” 优势。而在 “稳健” 的表现背后,市场更期待的是公司的创新和突破,这样才能向上突破传统估值区间。近期管理层的变更,也是公司 “寻求变化” 的一个表现,可以关注下管理层对后续的经营展望和战略规划。 海豚君对苹果财报的具体分析,详见下文: 一、苹果的基本盘,依然 “很强”! 1.1 收入端:2026 财年第二季度(即 1Q26)苹果公司实现营收 1112 亿美元,同比增长 16.6%,好于市场预期(1097 亿美元)。公司本季度各项业务都有不同幅度的增长,尤其是受益于 iPhone 业务增长提速的带动。 从硬件和软件两方面看: ①苹果公司本季度硬件业务的增速为 16.7%。本季度硬件业务增长提速,主要是由 iPhone 业务增长的带动。在 iPhone17 系列热销的带动下,iPhone 业务的增速连续两个季度维持在 20% 以上; ②苹果公司本季度软件业务的增速为 16.3%,维持两位数增长。此前谷歌诉讼案的落地,释放了公司软件业务的风险。随着 AI 应用接入更多模型,即使在 APP Store 个位数增长的情况下,公司软件业务的增长动能仍有望持续。 从各地区来看:收入同比都有不同幅度增长。美洲地区、欧洲地区和大中华区是公司最主要的三大收入来源。具体来看,美洲地区的收入占比维持在 4 成以上,本季度增长 12%;欧洲地区本季度增速维持在 14.7%。 大中华区是本季度表现最好的地区,本季度增速达到了 28%。这是因为 iPhone17 256G 也能享受国补政策,直接带动本季度 iPhone 在中国大陆地区销量同比增长 33%。 1.2 毛利率:2026 财年第二季度(即 1Q26)苹果公司毛利率 49.3%,同比提升 2.2pct,好于市场预期(48.5%)。公司毛利率的提升,主要是受硬件业务毛利率和软件业务的双重拉动。 海豚君拆分软硬件毛利率来看:苹果公司本季度软件毛利率继续提升至 76.7%;硬件端的毛利率同比提升至 38.7%,主要是受益于 iPhone17 系列热销带来的规模效应、关税成本下降、美元兑人民币贬值的影响。 1.3 经营利润:2026 财年第二季度(即 1Q26)苹果公司经营利润 359 亿美元,同比增长 21%。苹果公司本季度经营利润的增长,是受收入增长和毛利率提升的共同带动。 本季度苹果公司的经营费用率为 17%,同比提升 1pct。主要是公司加大了对产品和服务两方面研发端的投入,本季度研发费用同比增长 23%。 资本开支上,相比于巨头动辄数百亿的季度投入,苹果单季资本开支仅仅 19.7 亿美元,还同比大幅下滑 36%。在各家大厂对 AI 加大投入的情况下,苹果公司的资本开支维持较低的水平。 不过苹果在 AI 并非没有投入,而是由于公司没有对外数据中心业务,芯片自研,对应的 AI 芯片的研发投入,不是在外购芯片形成的资本开支上,而是自研芯片带来的研发费用上,公司研发费用的增长确实正在提速,只是这个增长后的体量,相比于云服务商的芯片购买,仍然是小巫见大巫。 二、iPhone:中国市场热销,实现逆势增长 2026 财年第二季度(即 1Q26)iPhone 业务收入 570 亿美元,同比增长 21.7%,符合市场预期(570 亿美元)。公司 iPhone 业务本季度的同比增长,主要得益于 iPhone17 系列在中国的热销以及美元兑人民币贬值的带动。 海豚君具体从量和价关系来看,来看本季度 iPhone 业务增长的主要来源: 1)iPhone 出货量:根据 IDC 的数据,2026 年第一季度全球智能手机市场同比下滑 5%。苹果本季度全球出货量同比增长 5.5% 左右,公司的出货量表现好于整体市场。 公司本季度出货量增长,主要来自于 iPhone17 系列在中国大陆市场的销量带动。在 iPhone17 256G 价格可以享受国补政策的带动下,本季度 iPhone 在中国大陆地区的销量同比增长 33%(中国区市场整体同比下滑 3.6%),是该市场中表现最好的。 2)iPhone 出货均价:结合 iPhone 业务收入和出货量测算,本季度 iPhone 出货均价为 933 美元左右,同比增长 15%。受 iPhone17 系列和美元兑人民币贬值的影响,中国地区的收入和产品销售价格都享受到汇率端的利好。 三、iPhone 以外其他硬件:重回增长 3.1Mac 业务 2026 财年第二季度(即 1Q26)Mac 业务收入 84 亿美元,同比增长 5.7%,好于市场预期(81 亿美元)。 根据 IDC 的报告,本季度全球 PC 市场出货量同比增长 3.8%,而苹果公司本季度 PC 出货量同比增长 12.7%,公司表现好于整体市场。结合公司及行业数据,海豚君推测本季度公司 Mac 的出货均价为 1355 美元,同比下滑 6%。 公司本季度发布了 MacBook Neo(起售价降至 599 美元、开拓更广泛的用户人群)、M5 版 MacBook Air、M5 Pro/M5 Max 版 MacBook Pro 等产品,尤其是 MacBook Neo 的市场反应相当不错。 3.2 iPad 业务 2026 财年第二季度(即 1Q26)iPad 业务收入 69 亿美元,同比增长 8%,好于市场一致预期(66.5 亿美元),主要得益于 M5 Pro、A16 机型增长的带动。 本季度销售的 iPad 一半多都是新用户,iPad 在新兴市场(印度、墨西哥、泰国等)都实现了双位数增长。 3.3 可穿戴等其他硬件 2026 财年第二季度(即 1Q26)可穿戴等其他硬件业务收入 79 亿美元,同比增长 5%,略好于市场预期(77 亿美元),增长主要是受可穿戴业务和配件类业务的带动。 四、软件服务:“生态壁垒” 稳固,期待新 Siri 2026 财年第二季度(即 1Q26)软件服务收入 310 亿美元,同比增长 16%,好于市场一致预期(304 亿美元)。即使在美国 App Store 允许外部链接的情况下,苹果软件服务收入维持着两位数的增长,体现了苹果软件生态的壁垒。 在本季中软件服务毛利率为 76.7%,持续提升。凭借高毛利率,公司软件业务本季度以 28% 的收入占比,产生了公司 43% 的毛利润。 本季度公司软件服务业务在发达市场与新兴市场都创历史新高,同时在广告、音乐、支付、云服务等领域也都创了营收历史纪录。Apple App Store 搜索结果新增广告位,并将于今夏在美加 Apple Maps 上线广告(聚焦本地商家)。 当前 Apple Intelligence 已集成视觉智能、实时翻译等数十项能力。对于市场关注的新 Siri,公司明确表示将在今年内推出。 苹果公司认为 AI 不是独立功能而是基于芯片和端侧 AI 处理的能力,并强调隐私优先,结合公司当前研发增速同比增速显著快于公司整体增速,其中AI 投入是额外增量部分。 此前谷歌诉讼案的落地,是对苹果软件业务的风险释放。结合苹果公司对生态的把控能力看,即便 App Store 个位数增长为常态,但也不会影响服务业务的整体两位数增长的表现。 在公司采购了 “Gemini” 的服务之后,苹果在软件方面又深化和谷歌的合作。谷歌 Gemini 将为苹果提供万亿级的参数模型和技术支持,而底层计算还将完全依托设备端计算以及苹果私有云来完成。如果年内推出的新 Siri 有 “亮眼” 的表现,在给公司 AI 赋能的同时,也将给带来更多的成长性看点。
他用AI办了个音乐节,主题:别读博
邓思邈 发自 凹非寺 量子位 | 公众号 QbitAI 一个博士生连续做了6小时实验后,凌晨3点才吃上晚饭—— 他打开了一首AI生成的歌,开始单曲循环。 听着歌词里的“被抢一作”“延毕”“审稿不通过”“创新点都没有”“科研理想”,他又哭又笑,眼泪止不住地往下流。 那些他在组会上咽下去、在导师面前没敢说出口的话,无奈、恐惧、焦虑、疲惫……全在这首歌里。他突然感觉自己被看见了,被理解了。 就这么一边听着歌,一边把实验做下去。直到窗外泛白,他才记起来自己一夜没睡觉。 他不是一个人。 就是这样42首歌组成的“不读博音乐节”系列,在B站上收获超5000万次播放,376.4万次点赞。 自动播放 △参考文献:少女时代.《Gee》EP, 2009. 为了用AI做出这样一首满意的歌,作者抽卡次数多的时候可以生成100多个版本。 没人知道他的真实身份,但却有3000多封信写给他表达感谢: 你不是站在岸上呼喊的人,而是会跳下水,和我们一起感受在水里挣扎浮沉的感受。 接下来,你将会看到一个被迫停下来的科研人,在停下来的时候,做出了让别人得以喘息的东西。 他创作出这些歌词和旋律,原本是为了治愈自己,结果治愈了别人,而别人的回应又反过来治愈了他。 写歌的人自己也在水里 写出这些歌的人,网名叫“馄饨皮茄总”。 △图片为AI生成 是在读博士生?博士毕业了?博士后?还是大学青椒? 说实话,我也不知道,他也不敢告诉我。 我只知道他是一名科研工作者,他写下的每一个字,他自己或多或少都亲眼目睹过、亲身经历过。 而这些情绪和作品的集中爆发,发生在一个他不得不从现实中抽离的时间点。 去年七月,他出了一场意外事故,左臂严重骨折,手术之后连正常生活都难以为继,更别提回学校做科研。 但他竟然告诉我,至今他都非常怀念胳膊不能用的那三个月,是他最幸福的时光。 父母把他安置在自家开的月子中心的单间里,有人每天送饭,从睁眼到闭眼,他就坐在桌前创作,不需要操心任何家务。 唯一受伤的是左臂,右手能用来操作电脑,大段空白的时间完全由他自己支配。 在那之前,他一直处于一种快节奏持续高压、不停工作的状态,每天被实验任务、研究任务和各种deadline推着往前走。 △图片为AI生成 那种生活里,一个人很容易忽视自己内心真实的感受是什么,甚至来不及问。 直到骨折之后,他才第一次被允许停下来,尝试用一种旁观者的视角去客观看待自己,去审视那些长期被压抑、被忽视的感受。 科研进度被迫停滞了,但新的东西生长了出来。 去年7月18日那天晚上,观看《歌手》直播,他听着那个熟悉的旋律(原曲出自某冷门女歌手),脑子里突然闪过了另一套歌词的模样。 歌词里写的不是爱情,而是一个博士生面对一次次拒稿时的心酸和疲惫,是审稿人不断否定和打压之后的委屈,是学术梦想一点点碎掉的失落,还有明明已经崩溃、却还是要硬着头皮继续做下去的那种无奈的释怀。 他当天晚上就开始写,第二天中午就写完了。 他未曾预料过这首歌会大火,当时他以为只会有几千次观看,几百个点赞。结果视频一发出去48小时,播放量当即突破了5万。 来自听众的鼓励和正反馈源源不断,于是他开始了平均两到三天一更的节奏,更一条火一条,每天睁开眼都是999+,那种感觉“真的像做梦一样”。 那段时间里他每天早上5、6点起床,晚上9点多就睡觉,或许也正是因为作息健康、精力充沛,去年8月他一口气发了12首作品。 他更没有想到的一点是,这些歌同时在治愈他自己,缝合他的伤痛。 科研完全停摆的那几个月里,他和外面的世界几乎完全切断了联系,出不了门,见不到人。 但每天打开手机,后台都会涌进无数条私信和评论。茄总说: 我不会觉得和这个世界脱节。这个世界在用另一种方式给我反馈。 那些歌词,是他与自我进行的对话,就像是把自己长期压着的情绪拆开来、放大、反复表达的过程。写完之后,他反倒觉得轻松了很多。 他会选择用音乐来表达,很大程度上只是因为一件事:喜欢。 没有音乐科班背景,不识谱,也不会乐器。但音乐几乎贯穿了他所有的日常,恨不得一天24小时把耳机挂在耳朵上—— 做实验、跑代码的时候也要放BGM,他觉得只有这样才能撑过那些枯燥的时间。 最初他动手写歌的想法其实很朴素,如果能把这些迷茫、困惑和不甘心做成歌,那以后一个人搞科研的时候,至少可以当作背景音乐播放给自己听。 近五年里,他看了30多场演唱会,从陈奕迅、邓紫棋,到Taylor Swift,再到IU、BLACKPINK,他理解那种被音乐裹住、情绪一下子打开的感觉。 音乐于他,是爱好,也是一种排解苦闷的出口。他说音乐会让人感到生活无时无刻都充满旋律,“它会成为你人生当中的一种伴奏。” 用搞科研的方法论去“搞抽象” 他一开始并没有刻意去总结什么方法。 只是写着写着,处理音乐的方式,就不自觉带上了科研训练留下的痕迹。 只不过研究对象换成了音乐旋律、情绪和人。 第一步,先选歌。 他有一套“选歌三要素”:我听过他的歌,我不讨厌他的歌,我身边的人也都听过他的歌。 在此基础上,还有一个独家的选题库可供参考。 通过逐条读取留言区或私信评论,他主动记录下粉丝的点歌需求,进行歌曲的呼声权重排序,目前已经统计整理了上千条数据。 在他看来,听人劝,才能让别人更喜欢你。 盲目蹭新歌热度不是他想要的,因为那样做出来的作品,往往也与他歌词原本想要表达的主题内核不搭。 这还没完,这段视频所选取的画面,必须得是现场Live,因为音乐现场比录制的MV更沉浸,适合用来释放情绪。 △图片为北京鸟巢五月天演唱会现场 他选素材也有一套标准—— 只选两类现场:舞台美学设计在线、歌手当场情绪符合他填的歌词。同时面部特写还不能太多,否则口型不好处理。 所以他会把这首歌市面上能找到的所有Live版本,挨个看一遍,再做决定。 他拒绝用AI生成歌手演唱画面或对口型,哪怕技术上已经可行。 实在碰到没办法对口型的情况,他会选择把那个画面瞬间切换,对准台下的听众,或者来一个远景镜头。 曾经因为找不到满足要求的视频素材,他不得不放弃一首非常想改编的歌,因为画质是他的底线,1080P以下的素材不能用——“这是对观众的不负责”。 当歌曲敲定好之后,第二步进入填词阶段,茄总把它比作写“八股文”或命题作文。 你不是在充满自由的情况下去创作,它有着非常明确的规则、格式和方向在引导你。 他会对着原曲,记录下每一句歌词的字数、断句、重音位置,甚至连原唱在哪里停顿都要打上标记。 最关键的一点在于,改编后的歌词句尾的韵脚发音严格与原词对齐,这是为了确保画面中歌手口型能够自然“对上”,不让观众感到出戏。 原曲的音乐风格,也会对他的填词产生影响。 如果原曲是忧伤的情歌,那二创的歌词就可以用来表达科研人的心酸疲惫、无人认可的悲伤;如果原曲节奏很欢快,他就会在歌词中加入更多自嘲、搞笑、抽象的元素,以乐景衬哀情。 他发现观众特别喜欢看外语歌被改编成中文,但发音依然顺滑贴切的感觉,这背后与一个叫“空耳”的小技巧分不开。 例如,文章开头少女时代的《Gee》,大家耳熟能详的那句“Gee Gee Gee Gee / baby baby baby”,被他改编成了“记记记记 / 背背背”和“寄寄寄寄 / 悲悲悲”; Michael Jackson的那首《Beat It》的“Just Beat It”,被他改成了“Just 避雷”。 自动播放 △参考文献:迈克尔·杰克逊.《Beat It》EP, 1983. 他还从电影里学了一个技巧:打破第四面墙。 仔细看你会发现,他的歌词里经常会突然冒出来一句直接和观众互动的话,就像是歌手突然抬起头,对着屏幕前的人开口。 填词的工作,大部分时间都是一气呵成写完的,AI基本帮不上什么忙,因为“写词需要人脑主动去思考,需要温度,这是AI给不了的。” 第三步,才到了重头戏,也就是用AI模型生成音乐。 这项工作会占到他总工程量至少一半的时间,甚至有时候能到70%。 在他看来,AI充满幻觉,没有哪一个模型能做到100%稳定不翻车。 突然的升调、降调,咬字发音不清晰,甚至完全改变歌词旋律……诸如此类的情况时有发生。 所以他的应对策略是“赛马”,同时动用Suno、MiniMax Music这样的商业闭源模型,也包括HeartMuLa、ACE-Step这样的开源模型,对同一段内容进行反复“抽卡”。 然后从这些模型生成的歌曲片段里面优中选优。 他会听每一个版本,挑出表现最好的段落,再拼接成完整作品。 抽卡次数多的情况,同一首歌他甚至会反复修改,做出100多个版本。相当于他要把这首歌重听100多遍,可以说是近乎强迫症般的审美坚持…… 他对自己的要求只有一条:我不能糊弄粉丝,也不能糊弄我自己。 AI擅长模仿和复制,但不擅长举一反三,它生成的歌很难摆脱原唱的影子,“尤其是当你想添加一些自己想法的时候”。 所以茄总具体改了什么地方? 改配乐,请看弹幕: 改咬字和发音。AI如果念不准某个中文字的发音,就把它改成英文里的同音词,或是笔画更少、发音相近的中文字。 改调(Key)。他会为了YOASOBI《群青》里一个不那么燃的结尾升华,去某鱼花钱找真人歌手录制降调后的Demo,再用AI过一遍,只为了增添那一点点“悲情现实主义”的质感。 自动播放 △参考文献:YOASOBI.《群青》EP, 2020. 如此一番“折腾”下来,你最终听到的是一个好听耐听的版本,这也是茄总放在第一位的衡量标准。 他从不刻意追求对原唱音色的“神还原”。 相反,他希望自己的改编版本,在好听程度和情感表达效果上,能做到让听众暂时忘记这是一首抽象的二创。 “我”的含量很高,作品本身散发出一种主体性,这是他想要的,他也做到了。 △图片为AI生成 但有些问题,到今天他也没有解决。 茄总在改编过程中发现,AI至今都无法处理密集、复杂的和声叠唱。比如在多声道音频面前,模型会失去辨别力,把几个人的声音误认为是同一个人发出的,从而失去了原本的层次感。 这是他目前唯一真正放弃的遗憾。其他的所有较劲,都指向同一件事—— 他想把这些歌做得足够好,好到对得起听歌的人。 那群听歌的人 截至去年年末,茄总在后台收到了3000多封粉丝来信。 那是B站推出的年终总结功能,用户可以给自己的“年度挚爱UP主”写一封信。 很多人提到会在做实验时循环播放他的歌,也有人在读博读不下去时反复回来听,甚至有人打算把他写进论文致谢。 这群人需要他的歌,不是因为这些歌能解决任何实质性问题。 事实上,也没有人因为他的歌,真正改变了人生走向。 来这里听歌的人,要么是看完视频庆幸自己当初没选择读博;要么就是觉得——这说的就是我现在的感受。 大家其实是在寻找一种共鸣和归属感。 他们的父母、亲朋好友未必能切身体会他们做科研时的感受和处境,于是需要一个互联网嘴替帮他们发声,从中找到一种精神解脱,然后接着继续苦中作乐。 而且这种状态,并不只是发生在网络世界。 茄总有一个同样在搞科研的朋友,从小唱歌就非常好听,自己也创作过很多歌,但从来没敢发出来,只是私下发给他听。 有一天他们打视频电话,聊到这件事,朋友叹了口气,说已经很久很久没有写过新歌了,因为没有时间。 读博最残忍的一点,是它会把人放进一种长期不确定的封闭环境里。 你不确定自己的实验失败多少次才能成功,不确定费尽千辛万苦写出的paper会不会被拒,不确定还需要多久才能达到毕业要求。 全世界和你做同一个细分方向研究的,可能不超过10个人。 你的父母不理解,你的朋友不理解,尤其是当实验失败、论文被拒、导师也未必能给出有效的帮助的时候。 人在这种处境里,很容易开始怀疑自己,觉得自己一无是处,然后这种自我否定会慢慢积累,甚至变成长期的内耗,慢慢侵蚀进身体里。 更深的困境在于,很多人拼命内卷,最后却发现自己追逐的那个研究方向根本没有意义。 真正有价值的想法早就被人做过了,剩下的大多是跟风的热点、边角料的题材,或者为了满足考核指标硬凑出来的伪命题。 他们不是不努力,但他们自己也搞不清楚,这些努力到底值不值得。包括茄总他自己在内,也是拧巴的曲中人之一。 纯粹靠好奇心驱动的研究,是极少数人才能享受的奢侈品——它需要更高的容错率,也需要更多的资源支持。 绝大多数普通科研工作者只能被绩效和KPI牵着走,什么热点火就做什么,被迫生产出那些可以快速发表、可以拿到经费的东西。 大多数人在踏进“围城”之前,也没有想清楚自己到底该不该、适不适合读博。 很多人要么是出于科研信仰,要么是把学历当投资。但茄总发现,这两种理由都不牢靠。 因为科研信仰会在一篇篇灌水的paper面前慢慢磨损;投资的回报又从来不是稳定的,“绝大部分资质平庸的博士生,毕业之后还是拿不到985和211的教职,也拿不到大厂顶尖的人才计划offer”。 作为同路人,茄总想通过这些歌,把没有摆在明面上的代价讲清楚。很多人只看到读博的好处,但从来没想清楚这背后隐藏着什么。 如果把个体经验拉回到整体层面,这群听歌的人,其实是一个正在持续扩张的群体。 根据国家统计局数据,全国在学研究生人数(含硕士和博士)从2023年的388.3万,到2024年的409.5万,再到2025年的430万,三年连续攀升。 那些听歌的人终究会离开这条路,但还会有新的人走进来,带着同样的疲惫,同样找不到人说话,同样在评论区戒读…… 没有人会读一辈子读博士,但是每年都会有新人读博士。 One more thing 今年年初,茄总重新回归科研生活。视频更新的频率不得不回到一周一更,甚至是一月一更。 有人会私信关心他:是不是手头在赶什么paper?是不是论文马上要提交了? 他们替他想好了理由,因为他们自己也是这样过来的。 但茄总依旧没有断更,当然也不会停更。 让他真正下定决心要把这个系列做下去的那个时刻,发生在去年中秋节。 那天他上传视频的时间比平时晚了很多,快到深夜11点才发出去。 他以为没什么人会看,结果不到一个小时,评论区涌进来很多人,给他点赞,留言祝他中秋快乐。 就是那一刻,他突然意识到,“我要守护这个群体。” 曾经,他在工位独自肝到深夜。现在,因为这些歌,他和无数素未谋面的陌生人之间,建立了某种真实的连接。 他想了很久,该对这群人说些什么。 还在考虑要不要读博的人:先想清楚你愿意为它付出什么代价,而不只是你想从中得到什么好处。 正在读博的朋友:不要因为实验失败、文章被拒而否定自己,你的身心健康比任何一篇paper都更重要,都更值得被珍惜。 已经博士毕业的朋友:你能走到今天真的很不容易,接下来的人生,请不必再用同一套标准去证明自己。 他一直觉得自己歌词里写的那个人,是一个有血有肉的普通人。 不是只会坐在原地叹气,更不是什么loser,而是那种在学术生涯里遭受了很多挫折、却还是在积极乐观往前走的人。 你应该认识这样的人。 或者,你就是。
智谱公布“降智”的秘密:Scaling不可避免的痛
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI Scaling即正义?智谱挠了挠头—— 很痛苦,而且压力山大…… 智谱最新发布的一篇技术博客,画风稍微有点不一样: 没有过去的硬核技术输出,反而大倒苦水从GLM-5以来的各种花式踩坑,官方称之为「Scaling Pain」。 我们的推理基础设施正承受着前所未有的压力,每天都要服务数亿次Coding Agent调用。 过去几周,一些用户在使用GLM-5系列模型执行复杂Coding Agent任务时,遭遇多种异常,比如乱码、复读和罕见字符生成。 而且这些问题在标准推理环境中压根复现不出来!!! 排查数周,团队终于揪出真凶,彻底戳破Scaling Laws路上的隐形Bug。 不仅详细总结了自身遭遇的昂贵教训,还给出了一套极具实操性的避坑指南。 简单来说,如果屏幕前的你正打算给自己的Agent加码,那么这篇来自一线实战的经验总结,建议先反复阅读背诵~ 定位关键Bug 事情是酱紫的—— 自从GLM-5发布以来,智谱通过观察用户的大规模Coding Agent推理过程,发现了三类异常现象: 乱码输出:内容杂乱无意义; 重复生成:模型不断重复输出相同内容; 生僻字:出现异常字符。 这引起了团队工程师的警觉,于是说干就干,先是通过本地回放用户反馈,重复运行相同请求数百次,结果始终无法触发异常。 换言之,模型本身并非根本原因。 在进一步模拟在线环境后,团队尝试调整PD分离比例并持续提高系统负载,异常现象终于得以复现,在每10000个请求中大约能复现出3-5个异常输出。 这说明,异常现象很有可能出自高负载下的推理状态管理,指向底层推理链路。 但同时也引出了另一个问题,线下的复现率仍低于用户线上反馈的频率,这就意味着现有的检测方法存在遗漏或触发条件尚未完全覆盖。 于是智谱团队继续对异常输出的检测方法进行优化。他们发现投机采样(Speculative Decoding)指标可作为异常检测的重要参考。 投机采样原本用于提升模型推理性能,它先由小模型生成草稿(draft tokens),再由大模型验证是否接受这些token,最终能够在不改变输出分布的情况下提升decode效率。 而在GLM-5的三类异常中,乱码和生僻字的spec_accept_length非常低,也就是说目标模型的KV缓存状态与草稿模型之间存在明显不匹配。 复读则拥有过高的spec_accept_length,表明损坏的KV缓存可能导致注意力模式退化,将生成过程推向高置信度的重复循环。 基于以上观察,智谱总结出了一套在线异常监控策略: 当spec_accept_length持续低于1.4且生成长度超过128 token,或者spec_accept_rate超过0.96,系统就会主动中止当前生成,并将请求重新交回给负载均衡器。 紧接着,智谱开始进一步解析异常原因: PD分离架构下的KV Cache竞态 团队通过分析请求生命周期和推理引擎中的PD分离执行时序,将问题归因于请求生命周期与KV Cache回收与复用时序之间的不一致,从而引发的KV Cache复用冲突。 为了消除这类竞态情况,研究人员在推理引擎中引入了更为严格的时序约束,会在请求终止和KV Cache写入完成之间建立显式同步。 具体来说,在发出中止指令后,解码阶段会向预填充阶段发送通知。预填充阶段只有在满足以下任一条件时才会返回安全回收信号:未启动任何RDMA写入,或所有先前发出的写入操作已完全完成。而解码阶段只有在收到此确认后才会回收并重用相应的 KV Cache槽位。 该机制将确保KV Cache写入不会跨越内存复用边界,从而避免跨请求的KV Cache损坏。 最终修复该bug后,异常输出的发生率从约万分之十几下降至万分之三以下。 HiCache加载时序缺失 此外,当KV Cache换入与计算重叠时,当前实现未能保证数据在使用前已完成加载,导致可能出现未就绪KV Cache被访问的情况。 为解决这一问题,团队重构了HiCache读取流程,同时引入数据加载与计算之间的显式同步约束。 在启动Indexer算子之前,先插入一个Load Stream同步点,确保相应级别的Indexer缓存已完全加载。Forward Stream只有在数据准备就绪后才会进行计算,从而消除了read-before-ready的问题。 应用此修复后,在相同的工作负载条件下,由执行时序不一致引起的异常被消除,系统终于得以稳定。 Prefill侧优化 事实上,这两种Bug都指向了同一个常见的系统瓶颈: 在长上下文的Coding Agent Serving任务中,Prefill阶段已经成为影响系统性能的主要因素。 于是为了缓解Prefill阶段在高并发下的内存和带宽压力,团队另外设计了KV Cache分层存储方案——LayerSplit。 在该方案中,每个GPU只存储部分层的KV Cache,显著降低了每个GPU的内存占用。然后在执行Attention计算前,将对应层的KV Cache广播给其他相关rank。 为了降低通信开销,还进一步设计有KV Cache广播与indexer计算的重叠机制,将通信延迟隐藏在计算过程中。这样唯一的额外通信开销就来自Indexer Cache的广播,其大小仅为KV Cache的八分之一,整体通信成本可以忽略不计。 团队将LayerSplit和GLM-5.1结合发现,在Cache命中率达到90%、请求长度在40k到120k区间内时,系统吞吐量提高了10%到132%,且随着上下文长度的增加,收益也随之增长。 总体而言,该优化显著提升了系统在Coding Agent场景下的处理能力。 同时智谱也认为,当智能真正进入高并发、长上下文的Coding Agent场景后,维护推理基础设施的输出质量变得至关重要。未来大规模AI需要的不仅是Scaling Law推动的能力增长,还必须有等量级的系统工程支撑。
国产GPU就是牛!摩尔线程全链路适配DeepSeek-V4
快科技5月1日消息,摩尔线程的旗舰级AI训推一体智算卡MTT S5000,搭配自研的MUSA软件栈,基于SGLang开源推理框架,成功完成了DeepSeek-V4的完整运行验证。 至此,摩尔线程已构建起从硬件架构核心计算引擎承接、热点算子支持,再到端到端部署验证的系统化适配链路,证明国产GPU可以实现前沿大模型的“框架级兼容、开箱即落地”。 随着大模型架构持续演进,DeepSeek-V4等先进模型对底层精度能力、算子覆盖、编译优化、并行通信和推理效率提出了严苛要求。 摩尔线程充分发挥S5000原生FP8算力、MUSA对CUDA深度兼容、TileLang MUSA编译器对TileLang生态完美支持等优势,结合TileKernels开源库复用,基于TileLang快捷开发自定义算子等手段,快速打通了DeepSeek-V4推理适配链路。 值得注意的是,TileLang-MUSA已正式进入TileLang官方主线,实现了对DeepSeek-V4最新发布TileLang算子库TileKernels的Day-0无缝支持。 这意味着,MUSA平台已具备承载前沿LLM算子生态的工程基础,为后续先进开源模型适配提供了直接复用的算子通路。 ▼ TileKernels算子库开源地址: https://github.com/tile-ai/tilelang-musa/tree/main/tilekernels'>https://github.com/tile-ai/tilelang-musa/tree/main/tilekernels'>https://github.com/tile-ai/tilelang-musa/tree/main/tilekernels ▼ TileLang-MUSA开源地址: https://github.com/tile-ai/tilelang-musa 三层技术路径完成DeepSeek-V4工程化适配 本次适配验证了一条新模型快速推理部署的系统化工程路径: 通过MUSA对CUDA的全栈兼容,实现核心主流AI框架快速适配,复用开源 TileKernels算子替代标准融合模式,并借助AI Agent基于TileLang完成模型特异性算子的快速开发与验证。 首先,MUSA软件栈提供了FlashMLA、DeepGEMM、DeepEP等DeepSeek开源仓库的兼容实现,使得推理依赖的Attention、FP8 GEMM、MoE dispatch/combine等关键计算、通信算子能够在S5000上快速适配。 其次,面向SwiGLU + FP8 quant等标准融合模式,S5000可直接复用DeepSeek TileKernels原生算子实现Day 0开箱适配,通过摩尔线程MATE开源算子库在layout、dtype、scale contract及接口层面与DeepGEMM深度兼容,消除热点算子的格式、接口对齐开销。 得益于MUSA对AI软件生态良好的兼容性,DeepSeek-V4在MUSA平台上可实现从核心算子适配,到端到端拉起,再到系统级性能调优的工程级加速。 最后,针对DeepSeek-V4高度特异化的计算负载,摩尔线程借助AI Agent实现TileLang Kernel自动生成及调试,围绕算子语义分析、接口适配、Kernel实现与正确性及精度验证等环节提升开发效率,完成RMSNorm、RoPE、Compress、Topk等多个核心自定义算子快速开发、集成。 该方案在保证计算语义零偏差的前提下,显著压缩了Kernel级开发及适配周期,并进一步释放关键算子的性能,例如,RMSNorm等带宽瓶颈算子带宽利用率可达80%。 原生FP8支持增强混合精度推理 上述三层路径快速打通,得益于摩尔线程S5000 原生FP8算力底座支撑,完整承接前沿混合精度模型推理需求,在保持模型精度的同时,实现高吞吐、低显存占用与显存带宽的高效利用。 该能力深度对齐DeepSeek V4等先进MoE模型的精度演进范式,确保DeepGEMM、FlashMLA、DeepEP等核心算子在MUSA平台上快速适配。 围绕原生FP8能力,摩尔线程已完成涵盖激活量化(SwiGLU FP8 quant)、MoE路由(routing)、注意力预处理(attention-prep)、缓存管理(FlashMLA cache store / paged metadata)及解码压缩(compressor decode/prefill)在内的关键模块适配,并通过多层回归测试,完成关键路径正确性与稳定性的验证。 FlashMLA DSA极致优化,释放长上下文推理性能 在完整模型链路适配的基础上,摩尔线程在S5000上针对FlashMLA DSA的Prefill(预填充)与Decode(解码)场景开展了专项优化,采用了一致的底层优化逻辑: 紧密围绕DeepSeek-V4 KV Cache的数据组织模式,直接完成稀疏KV读取、Cache Layout解析、Attention计算及结果写回,有效消除了额外的缓存重排(Rearrangement)开销,同步支持Original + Extra双路KV Cache机制及动态Top-k长度,通过TileLang对DSA算子进行深度优化,显著提升了长上下文与稀疏注意力场景下的计算效率,最终DSA Prefill及Decode算子BF16 Tensor算力利用率可达50%,未来还会继续推进优化。 四层验证体系,确保生产级稳定和确定性 围绕完整推理链路,摩尔线程建立了覆盖MUSA Kernel验证、算子级精度对齐、优化路径选择、端到端场景回归四层验证体系,确保关键算子在实际运行中的正确性及稳定性。 当前,摩尔线程基于DeepSeek-V4的工作已进入性能调优、长上下文能力完善与生产级稳定性验证阶段。 ▼ DeepSeek-V4推理服务部署指南: https://blog.mthreads.com/blog/AI/2026-04-30-DeepSeek-V4%20%E6%8E%A8%E7%90%86%E6%9C%8D%E5%8A%A1%E9%83%A8%E7%BD%B2%E6%8C%87%E5%8D%97/ 【本文结束】如需转载请务必注明出处:快科技 责任编辑:上方文Q
云深处科技已完成科创板上市辅导:“杭州六小龙”将再迎PO进展
核心产品业务已覆盖50个国家和地区,落地1200余个行业场景。 作者|Stone Jin 据IPO早知道消息,中信建投证券于4月16日向浙江证监局递交了《关于杭州云深处科技股份有限公司首次公开发行股票并上市辅导工作完成报告》。 换言之,云深处科技已完成科创板上市辅导、择日将正式递交招股说明书——根据《辅导工作完成报告》,云深处科技本次上市辅导总共仅有一期,自2025年12月23日至2026年4月16日,相关问题仅涉及劳动关系签订以及内控制度体系的搭建。 这也意味着,云深处科技将成为“杭州六小龙”中又一家取得实质性IPO进展的企业——4月16日,群核科技正式登陆港交所并随之成为“杭州六小龙第一股”;3月20日,宇树科技的科创板IPO申请获受理;另据外媒报道,强脑科技已向港交所秘交招股书。 成立于2017年的云深处科技聚焦具身智能技术创新与行业应用,是专注于四足机器人、人形机器人及核心零部件的研发、生产、销售和服务的国家级高新技术企业。其坚持自主创新,构建了“感知-决策-执行”全链路技术体系,其核心的多模态环境感知、跨场景具身导航、AI驱动的感控融合运动控制等新技术,已在多个新场景中应用落地。 值得一提的是,云深处科技坚持“场景定义产品”,自主研发的绝影系列四足机器人率先在全球实现变电站全自主巡检,整体识别准确率达96.5%,目前该解决方案已落地国家电网、南方电网等超100座变电站。 此外,云深处科技的产品还广泛应用于应急消防、安防巡逻、工业运维等领域。当前,核心产品业务已覆盖50个国家和地区,落地1200余个行业场景,并在2025年斩获全球四足机器人行业应用市占率第一。 另据云深处科技创始人兼首席执行官朱秋国稍早前介绍,云深处科技正致力于打造标准化“机器人+”综合解决方案,通过开放平台与技术接口,联合行业伙伴开发垂直场景应用,降低行业应用门槛与集成成本。在这一基础上,云深处科技正全力推动从技术研发向规模量产的跨越,建设柔性自动化产线,为全球化布局提供产能支撑。同时,企业携手国际合作伙伴,将中国复杂场景打磨的成熟解决方案推向世界,参与全球产业价值链重构,助力中国具身智能产业抢占全球先机。
永别了,终端!OpenAI疯狂升级Codex,接管Mac人类全程0操作围观
新智元报道 编辑:Aeneas KingHZ 【新智元导读】OpenAI刚刚投下了一枚重磅炸弹:原本作为程序员「副驾驶」的Codex迎来史诗级更新,正式从代码工具进化为通用个人助理,奥特曼亲自下场带货。开发者实测后惊呼:Codex接管整台Mac,人类全程0操作围观,太炸裂了! OpenAI重大更新! OpenAI的智能体Codex,这次直接硬刚Claude Cowork。 Codex是OpenAI的旗舰代码生成模型,支持GitHub Copilot等产品,已成为全球开发者不可或缺的AI助手。这次的更新,非常重磅。 YouTube创作者Mike Russell发布了一条实测视频,效果炸裂。 他把自己的Mac完全交给了OpenAI最新升级的Codex,让GPT-5.5操控Adobe Audition修复音频、用Photoshop做封面、再用Adobe Firefly生成AI视频。 从头到尾,人类全程零操作。 这不是Demo,不是PPT,是一个真实创作者把自己的生产力工具链完整交给AI跑了一遍。 OpenAI联创、总裁Greg Brockman直接喊话:「Codex人人可用,计算机任务全可做!」 是的,一个写代码的工具,突然要抢所有人的键盘了。 AI大V歸藏表示,一下午,一句话,Codex就帮自己开发了一个完整的游戏。 最让人惊讶的是Codex处理素材的方式:他提供了一个包含上千张图片的素材包,并未说明筛选方法。 Codex却自动将每个文件夹内的图片整合成一张总览图,附带文件名。 这样一来,只看一张图就能掌握全部素材风格,选中后再直接调用文件即可。这个操作实在令人震惊,让他直呼Codex太牛了! 网友直呼,Codex终于迎来自己的「Claude Code高光时刻」——一个复杂的完整的Mac应用,集成了摄像头、麦克风、录屏,它一次就搞定了。 用过Codex的网友,根本停不下来! Codex变了:从代码助手到电脑管家 总之,过去大家对Codex的认知很清晰——就是一个写代码的工具。它能帮你补全函数、调试bug、生成脚本,是程序员的副驾驶。 这次升级直接把边界炸开了。 OpenAI官方公告里最核心的一句话:Codex现在支持Slack集成和Google Workspace全家桶集成。翻译成人话就是——它不光能写代码,还能读你的邮件、回你的Slack消息、操作你的Google Docs和Sheets。 这句话,让OpenAI的野心藏不住了:它不再把Codex定位为开发者工具,而是——通用电脑操控agent。 就在昨天,Codex就忽然官宣了一大波更新。 它能跨Slack、Gmail、Calendar自动总结变化、做数据分析、辅助决策。 可以组织研究材料、制作电子表格和演示文稿。 可析数据导出、标记更改的内容,起草解读报告。 还能根据标准对比多个选择、跟踪权衡取舍。 OpenAI联创Greg Brockman,这位习惯了20年黑屏命令行终端、视代码如生命的顶级黑客,公开宣布:我彻底爱上了Codex App,它已经取代了我用了20年的终端。 开发者懂的都懂,这是什么分量。 如此强大的更新,让奥特曼直接发帖直呼:「Codex正在经历ChatGPT时刻!」 继昨天的这一大波更新之后,今天凌晨,OpenAI Codex核心成员Tibo在X上发帖称「Feeling codexy today」,预示着Codex又将迎来史诗级更新。 此帖一出,程序员圈瞬间沸腾了! 果然,没过多久,OpenAI又开始放出新的case了。 使用Codex处理日常工作,从未如此轻松。你可以选择你的角色,连接每天使用的应用,并尝试推荐的提示词。 无论是调研与规划,还是文档、演示文稿、电子表格等,Codex都能提供帮助。 Codex会根据你的角色推荐有用的插件,并指导你连接各种应用程序,比如SlackHQ、GoogleWorkspace、Microsoft365等等。 它如同你的私人助理,可以汇总来自不同应用程序和文档的数据,规划下一步,起草工作,组织研究,或创建项目计划。 你可以一目了然地看到正在发生的事情,包括任务进度、使用的文件和工具以及接下来要做的事情。 从草稿到成稿,你可以在Codex中随着内容逐步成形进行审阅。打开文件,提出修改意见,并在同一个对话线程中不断优化和调整。 开发者大V表示,Codex和Claude Code非常不一样。 如果限额即将结束,那就可以执行一个长时间任务,即使限额已经结束,Codex都会继续执行这个任务,直到任务完成。 这个帖子直接被奥特曼转发。 Tibo还表示,在良好的用户体验和优化利润率之间,OpenAI选择了前者。 甚至,OpenAI专门放出一个官方博客指南,介绍如何在日常工作中使用Codex。 Claude Code头号粉丝转向Codex,奥特曼鼓掌 就在Codex升级的同一天,另一场好戏开演了。 在X上,有用户说出自己的心声:Claude Code生成质量在最近三周内明显下滑了,准确率暴跌,因此她90%的时间都在用Codex,感觉非常满意。 奥特曼很快出现,以星战梗回应道:「欢迎加入光明面!」 果然,又有更多开发者站出来表示,真的不喜欢用Claude,因为它很笨拙,用户界面也总是不对劲,bug也很多。 这一次,开发者自己用脚投了票。 Codex实测太疯狂了! Codex App开发人员Andrew Ambrosino直言:「Codex 搞定一切!」 这次更新,Codex为当前任务自动适配动态UI,体验更佳: 幻灯片和表格体验更佳 支持在浏览器、工件和代码中直接标注 上手更简单 整体设计更简洁 性能全面提升 在Codex应用内浏览器中还添加了设备工具栏,让构建和测试响应式应用变得更加便捷—— 浏览器使用的速度(在主观测试中约提升30%)。 不过,「大家好才是真的好」,全网第一波实测已经来了。让我们一睹为快吧! 接管整台Mac,人类全场0操作围观 Mike Russell的实测才是这次升级最直观的证明。 他给Codex下了三个任务: 任务一:音频修复。 一段录音有明显的背景噪声和齿音问题。Codex自动打开Adobe Audition,识别噪声特征,应用降噪滤波,调整EQ参数,导出成品。 Russell事后回听评价:「专业级修复,比我手动调得还干净。」 任务二:播客封面设计。 Codex打开Photoshop,根据播客主题自动选择配色方案、排版标题文字、调整图层混合模式,输出一张可以直接上传的封面图。 任务三:AI视频生成。 Codex调用Adobe Firefly,根据文字描述生成视频素材片段,自动拼接、加转场。 三个任务,跨三个Adobe专业软件,全自动完成。 Russell在视频里反复强调一个细节:他全程没碰鼠标,没碰键盘,甚至没有切换过窗口。Codex自己在操作系统层面完成了所有软件间的切换和协调。 「这不是AI在帮我工作,」Russell说,「这是AI在替我工作。」 Codex这次升级打中的不是程序员,是所有依赖电脑工作的人。 当AI能操控你的整台电脑,「会不会用软件」这个技能本身就在贬值。 当然,Russell的实测并非完美。 Firefly生成的视频素材有几帧出现了明显的画面抖动,Codex没有自动识别并修正。Photoshop封面的文字排版在第一次尝试时出现了字体大小不一致的问题,Codex自己发现后做了第二次调整才过关。 Russell的总结很实在:「它不是100分,大概85到90分。但问题是——达到这个水平它用了8分钟,我自己做要2个小时。」 85分乘以8分钟,和100分乘以2小时。大多数场景下,前者赢。 Codex帮你0成本无限次拍摄 网友Matthew Berman直接介绍如何用Codex无限次的拍摄产品,一个网络连接就能转化为完整的电商照片: 以前: 一套电商产品图要5,000 - 25,000美元,耗时4周。 现在:输入一个 URL,10 分钟出片,成本为0。 他把整套系统封装成了 「品牌商拍工具包(Brand Shoot Kit)」。 它如何把一个网页链接变成一整套电商摄影库? 只需以下 7 个 Agent(智能体)技能: 人类的键盘,终于要淘汰了? 以往,全面用手动方式调试UI的方式,往往非常消耗心力。 每次都要一点一点地检查AI有没有破坏其他不相关的部分,这种压力是无声的。 但如果我们能把运行时的UI行为测试也交给AI去做,那人类这边的负担就能得到合理减轻。 现在,Codex终于带来了希望! 显然,Codex,已经能用鼠标逐一检查UI界面或行为是否正常——整个过程完全自动化。 网友感叹:「这感觉就像是「人们一直期待AI能做到的事情」终于到来了。」「我感觉我们正在逐渐接近下一个重大转变的临界点。」 在视频最后,Russell说了这样一句话:「当AI能操控你的整台电脑,会不会用软件这个技能本身就在贬值。」 这次,Codex打中的不是程序员,毕竟程序员早就习惯了AI写代码。 这次打中的是所有依赖电脑工作的人——做PPT的、写邮件的、剪音频的、修图的、做报表的。 以前的逻辑是,人学会用工具,工具放大人的能力。现在的逻辑开始变了:AI学会用工具,人只需要说清楚自己要什么。 可以说,Codex不是在升级功能,它是在重新定义「使用电脑」这件事本身。 在Russell的45分钟实测里,那台Mac上发生的一切——鼠标自己在动、软件自己在切换、音频自己在渲染——这个画面大概会成为2026年最具象化的一幕。 以前人类用鼠标调用软件,现在AI用API调用软件。 下一步呢?不可想象。
拒绝“出厂即巅峰”!具身训练系统再进化:LWD让机器人自主开启“打怪练级”
智东西 作者 | 江宇 编辑 | 漠影 当前具身智能的发展,正卡在一个越来越明确的瓶颈上:数据规模与真实世界经验的不足。 过去几年,VLA等大模型让机器人在“预训练阶段”取得了显著进展,但一旦进入真实部署环境,问题随之暴露——面对复杂、多变的物理世界,模型能力很难持续提升,依然高度依赖人工标注数据和重复训练。 这也意味着,具身智能尚未真正进入“规模化增长”的阶段。 仅依赖实验室数据或仿真环境,很难支撑机器人能力的持续演进;真正能够带来跃迁的,仍然是来自真实世界、持续积累的高质量交互数据。但问题在于:这些数据从哪里来? 现阶段,大量训练数据仍依赖人工示教或遥操作采集,规模有限、成本高昂,且难以覆盖开放环境中的复杂长尾场景。 要让数据规模真正“滚动起来”,唯一可行的路径,是让机器人走出实验室,在真实场景中长期运行,并将交互经验持续回流。 也正是在这一背景下,上海创智学院和智元具身研究中心联合发布了最新成果罗剑岚团队提出LWD(Learning While Deploying)大规模强化学习训练系统。该工作由创智学院导师,智元首席科学家罗剑岚团队完成。尝试将“部署”本身转化为学习过程的一部分。 这项工作并不聚焦单一算法突破,更给出了一种更具工程可行性的方案——通过在真实世界中持续运行机器人,并将其行为数据统一回流与更新,让每一台机器人既是任务执行者,也是持续产生学习信号的数据源,从而推动通用策略在部署过程中不断进化。 一、让数据飞轮在物理世界自主狂奔 传统模仿学习范式下,非完美的运行轨迹往往被视为“废数据”直接丢弃,机器人只能从成功的人类演示中刻板地模仿。 LWD的核心颠覆在于,它构建了一个由真实世界强化学习驱动的闭环数据飞轮。 在这个飞轮中,机器人集群在真实任务中自主执行并积累异构的交互经验,无论是完美的成功轨迹、试错后的自我恢复、还是人类为了覆盖边界情况而引导的失败案例,都会被统一输送至云端的共享重放缓冲区。 强化学习机制使得这些在传统视角下的“失败”或“意外”数据,全部转化为了指导模型规避错误、优化价值评估的宝贵经验。 随着集群部署规模的扩大和运行时间的累积,数据飞轮的转速不断提升,云端持续更新的强策略又会定期下发给机器人,形成真正的自主造血闭环。 二、强化学习算法深层进化:在嘈杂数据中,精准捕捉“进步”信号 将强化学习应用于真实世界部署的大规模机器人集群,面临着极端的算法挑战。 不同机器人在不同任务中产生的数据极其庞杂,包含着完全不同的指令、长短不一的操作过程,以及非常稀疏的奖励反馈。 为了在这些充满噪声的“异质数据”中稳定提取有用的学习信号,LWD创新性地引入了分布隐式价值学习(DIVL)算法。 简单来说,以往的算法像是在给机器人的表现打一个固定的“平均分”,但在复杂环境中这种打分极不准确;而DIVL则让机器人学会去理解表现的“概率分布”,它不再只看一个点,而是观察整个可能性的区间。 这让机器人在很少得到明确奖励的情况下,也能精准判断哪些动作风险更高、哪些动作更值得尝试,从而有效解决了评价不准、容易过度乐观的老大难问题。 与此同时,针对VLA模型通过多步去噪产生动作的特点,传统的更新方式计算量大且容易跑偏。 LWD结合了Q-learning with Adjoint Matching(QAM),为模型找到了一条数学上的“进化捷径”,让复杂的策略更新不再需要推倒重来,而是通过局部调整就能实现快速迭代,保证了机器人在大规模部署时的学习效率。 三、炼就“通才策略”:挑战5分钟长程复杂操作的极限成功率 为了验证这套训练框架的实战表现,研究团队在智元G1双臂机器人集群上进行了大规模的真实世界部署测试。 测试涵盖了八项极具挑战性的多模态操作任务,包括四类考验语义识别与泛化的商超货架动态补货任务,以及泡功夫茶、榨果汁、调酒、装鞋入盒等四类长程连贯操作任务。 评测任务示意图。(A)调制鸡尾酒;(B)冲泡功夫茶;(C)制作果汁;(D)装鞋入盒;(E)商超补货。 在这些持续时间长达5到8分钟、包含数十个接触丰富且存在长程依赖的物理交互任务中,LWD展现出了压倒性的优势。 各任务逐步成功率的实验结果 实验数据显示,经过在线真实经验积累后,LWD训练出的单一通用策略在所有任务上的平均成功率达到了惊人的0.95,远超纯行为克隆(0.76)以及先进的离线强化学习基线如RECAP(0.86)和 Dagger-SOP(0.82)。 八项真实世界操作任务的主要结果,涵盖四类商超补货任务和四类长程任务。结果显示,LWD(在线)取得了最高的整体平均成绩,并在四项长程任务中全部获得最高分,同时在商超补货任务中也保持在最优或接近最优水平。 调制鸡尾酒 尤其在最考验中间错误恢复与长期信用分配的长程任务中,LWD在线更新后的成功率实现了极大幅度的跃升,证明了基于物理世界经验的持续学习是突破复杂操作天花板的有效路径。 图中展示了功夫茶任务中一次成功执行(左)和一次失败执行(右)的价值曲线。结果表明,所学习到的价值能够对任务完成进度提供有意义的表征。 结语:把“部署”变成能力增长起点,让机器人在真实世界持续进化 在具身智能的产业化进程中,LWD推动的不仅是算法框架的升级,更是机器人能力迭代方式的一次重要转向。 长久以来,业界习惯将“部署”视为模型训练的终点,而LWD的提出证明了,自主改进应当成为通用机器人策略的基本属性。 学习不应是“出厂即封存的静态能力”,而必须成为部署之后在真实世界里一直延续的进化过程。 只有赋予机器人从海量无序的真实物理交互中自主提取“养分”、持续自我进化的能力,其才能真正打破被人工标注数据框定的舒适区,在千行百业的复杂、开放场景中长久地释放商业价值。
DeepSeek首次有了视觉能力,技术论文却被它连夜删掉了
作者|孙芮 邮箱|sunrui@pingwest.com DeepSeek做了件罕见的事情:在终于开始灰测多模态能力后,它放出了一篇解释背后技术的论文,但这篇论文却在发布没多久就又被悄悄撤掉。 4月29日,DeepSeek研究员陈小康在X发布一条推文——现在,我们可以看见你了。配图中,DeepSeek 标志性的鲸鱼 logo 摘下眼罩,露出了眼睛。 过去,DeepSeek 最被外界熟知的是它在文本、代码和推理任务上的能力。但真实世界里的问题,并不总是以文字形式出现。它们可能是一张照片、一页论文图表、一个网页截图、一份复杂表格,也可能是一个需要理解空间关系和视觉细节的现实场景。 对 DeepSeek 来说,视觉能力是让它的推理能力从文本世界延伸到真实世界的关键一步。但这次灰测的视觉能力,很快被使用者们感觉到不同:它和其他模型给语言模型底座增加多模态功能不同,更像是一个单独的模型,且不是以附庸形式定位,而是有某种原生的思考和推理能力。 就在大家好奇心增加的时候,DeepSeek发布了一篇解释它追求的视觉能力的论文:《Thinking with Visual Primitives》。 Primitives是图形学和几何里的常用术语,Visual Primitves可以理解为那些用来描述几何信息图形空间信息的最基本元素,也可以称为视觉基元。从这个题目就可以看出,DeepSeek眼里此刻最重要的“多模态”能力,依然是围绕推理和思考,它要让模型能在原生层面用图形的基础语言做更准确的思考。 这并不是所有主流模型厂商在多模态领域的方向,这让人意外,但这个想法非常有趣。DeepSeek再次给基础研究提供了新的思路。 但更加让人意外的是,这篇论文很快就被撤下了,没有给出任何解释,也不确定是否会再次发布。 所以,DeepSeek这次的视觉能力到底是怎样的?我们结合实测、它的研究员的分享,以及这篇“消失”的论文的内容,来尝试解释一下它的做法。 01 当DeepSeek 的视觉能力,开始进入真实场景 目前DeepSeek的视觉模式还在灰度测试,逐步向用户开放中。 从 X 上已经试用到这一功能的用户反馈来看,DeepSeek 的视觉能力并不只是识别图片里有什么,更重要的是,它会尝试把图像中的信息和已有的世界知识联系起来。 有用户在X上表示DeepSeek视觉模式的世界知识非常丰富,思考过程也很有趣。他在公司附近拍了一张照片,发给DeepSeek。在DeepSeek的思考过程中可以看到,它几乎知道我公司附近的每一栋楼,并尽量搜索正确的那栋。并且这个过程中没有用到联网搜索能力。 还有用户表示DeepSeek的网页复刻还原能力非常好。这对设计师和产品经理来说,它可以让视觉稿更快变成可演示的原型。以前从 Figma、截图或参考网页到可点击 demo,中间需要设计师标注、开发切图、工程师实现。现在模型能直接读懂页面,并生成接近真实效果的网页,让想法验证的周期大幅变短。 我实际测试了DeepSeek的视觉理解能力。我发送了一张迷宫图让它解答。 DeepSeek的思考过程十分严谨,它用的是反向推理的方法,从终点出发,逐步反向追踪,走到起点。为了验证解法的可行性,DeepSeek这一路径用正向的方式走了一遍,然后它又核算了一遍,再输出最终答案。整个过程中,DeepSeek推理了四遍路径的可行性。 02 多模态模型的难题,不只是看不清 陈小康在30号发布的推文中给了更详细的解释:传统的思维链(CoT)主要停留在语言空间里,但视觉推理需要更多能力。通过把点和框作为认知锚点,我们的模型弥合了“指代鸿沟”(Reference Gap),模拟了人类在视觉推理中常用的“指向—推理”协同机制。 通过DeepSeek发布的报告,我们可以看到他们针对视觉理解提出了一个新的推理框架,就是使用视觉基元进行思考(Thinking with Visual Primitives)。 什么是使用视觉基元进行思考呢? 简单来说,就是让模型在看图推理时,不再只依赖自然语言描述,而是把图像中的点、边界框、路径坐标等空间标记,也作为推理过程的一部分。 以往多模态模型面对一张图片时,通常会用语言来组织思考。比如它会说“左边那个人”“右上角的物体”“中间那条路”。但问题在于,这些描述在人类看来很自然,对模型来说却并不总是精确。尤其在一张复杂图片里,如果有很多相似的人、物体或区域,“左边那个”“旁边那个”很容易变得模糊,模型也可能在推理过程中把对象搞混。 DeepSeek 在报告中把这个问题称为“指代鸿沟”。也就是说,模型不是完全看不见,而是看见之后,很难在连续的视觉空间中稳定地指向自己正在讨论的对象。 视觉基元要解决的正是这个问题。所谓视觉基元,可以理解为模型在图像中的“手指”。当模型数一张合照里有多少人时,它可以先用边界框把每个人标出来,再进行统计;当模型判断两个物体的位置关系时,它可以先框出相关物体,再比较它们的相对位置;当模型走迷宫或追踪一条线时,它可以用一串点记录路径,而不是只用语言说“往左、再往右”。 这样一来,模型的推理就不再悬浮在文字里,而是被锚定到图像中的具体位置。这也是 DeepSeek 使用视觉基元进行思考最重要的变化,多模态模型的能力不只是看得更清楚,还要指得更准确。 03 DeepSeek 怎么做视觉推理 陈小康指出,目前DeepSeek的视觉模型主要处理三类任务:计数、空间推理和拓扑推理。 DeepSeek 的做法不是简单让模型看更高分辨率的图片,而是让模型在推理过程中使用点、框、路径坐标这些“视觉基元”,把每一步判断都落到图像中的具体位置上。 在计数任务上,DeepSeek 主要使用的是边界框。 报告中说,多模态大语言模型一直很难做到准确计数,尤其是在密集场景中。人类在数东西时,通常会采用一种“系统扫描和累加”的方式,比如从左到右一个个点着数。但语言模型在对象数量较多时,很难建立精确的对象对应关系。为了解决这个问题,DeepSeek 使用边界框作为视觉基元,为每个被计数对象提供明确的视觉锚点。 也就是说,模型不是直接凭感觉回答“有多少个”,而是先把目标对象找出来、框出来,再基于这些框进行统计。比如数一张合照里有多少人,模型会先框出图中的每个人,再计算总数。对于更复杂的细粒度计数,比如“有几只熊在地面上”,模型还会先找出所有熊,再逐一判断它们是在树上还是在地面,最后得出答案。 报告中还把计数分成了两类:一类是粗粒度计数,比如数“狗”“人”“车”这类普通对象;另一类是细粒度计数,比如数“白色的狗”“左边的狗”“站在地上的熊”。后者不仅要求模型识别对象,还要判断颜色、位置、状态等附加条件。DeepSeek 在这里采用的是“定位—验证—统计”的流程,让模型先找到候选对象,再逐个判断是否符合问题条件。 在空间推理任务上,DeepSeek 也是先让模型用视觉基元锚定对象,再进行关系判断。 报告中说,空间推理和一般视觉问答被放在同一个类别里处理,因为这类任务的共同难点是:如果只用语言描述,模型很容易出现指代模糊和语义漂移。比如“灰色金属物体”“旁边那个小物体”“同样大小的紫色橡胶物体”,这些说法如果不落到具体图像区域上,模型在推理过程中很容易把对象搞混。 所以 DeepSeek 的方法是,让模型先把关键对象框出来,再根据这些具体对象进行多步推理。报告中的例子是,模型需要判断图中是否存在一个紫色橡胶物体,和灰色金属物体大小相同。模型会先定位灰色金属球,判断它是小物体;然后再逐一检查其他小物体,看它们的颜色、材质、大小是否匹配。最后模型得出结论:图中没有符合条件的紫色橡胶物体。 在拓扑推理任务上,DeepSeek 主要使用的是点。 拓扑推理关心的不是某个物体是什么,而是路径、连通性和结构关系。比如迷宫里从起点能不能走到终点,一堆交错的线条中,某一条线最终连到哪个图标。这类任务对多模态模型尤其困难,因为它要求模型持续跟踪路径,而不是看一眼就回答。 报告中说,纯语言的思维链很难准确描述不规则形状的轨迹,因此使用点作为认知单元的视觉基元,特别适合处理这类问题。 在迷宫导航任务中,DeepSeek 会让模型先找到起点和终点,然后像做深度优先搜索一样探索路径。模型每走到一个关键位置,就用点坐标记录下来;如果遇到死路,就回退到前一个岔路口,再尝试另一条路径。报告中提到,模型需要理解空间连通性和可达性,也就是判断哪里有路、哪里被墙挡住、哪条路径最终能到达终点。 在线条追踪任务中,模型也会用一串点来表示自己沿着哪条线走。报告中说,这类任务的核心挑战是交叉点消歧:当两条线交叉时,模型必须根据局部几何连续性判断哪一条才是目标线的延续,而不是被另一条线带走。为了防止模型只是靠颜色猜,DeepSeek 还设计了所有线条颜色和粗细都一样的样本,迫使模型真正根据曲线连续性来追踪路径。 04 视觉基元并不是终点 不过,使用视觉基元进行思考,并不意味着视觉推理问题已经被彻底解决。它最大的优势,是让模型的视觉推理变得更稳定,也更容易被验证。 这会带来两个直接好处。 一是减少幻觉。模型如果要判断“这里有没有紫色橡胶物体”,就不能只凭语义猜测,而要先在图中找出候选物体,再逐一排除。二是提高可解释性。比如模型说一张图里有 25 个人,如果它同时框出了这 25 个人,用户就能判断它有没有漏数、重复数,或者把其他物体误认成人。 这也是为什么 DeepSeek 的视觉模式在网页复刻、迷宫求解、复杂图像问答这类场景中会显得更有用。网页复刻需要模型理解页面里的模块、层级和布局关系;迷宫求解需要模型持续追踪路径;复杂图像问答则要求模型在多个视觉线索之间来回比对。它们共同需要的不是一句笼统的图片描述,而是模型能够稳定地“看图说话”。 另一个优势是效率。报告中提到,DeepSeek 并不是简单依赖大量视觉 token 来弥补视觉能力,而是通过更高效的视觉 token 压缩架构,让模型在较低图像 token 消耗下仍然保持较强的推理能力。报告中说,对于 800×800 的输入图像,其模型在 KV cache 中只保留大约 90 个条目,却能在计数和空间推理等基准上取得有竞争力的表现。 DeepSeek 想走的路线,并不是无限提高分辨率、堆更多图像 token,而是让模型更有效地使用视觉信息。 但这套方法也有局限,报告中提到这类方式有三部分的局限。 首先是受输入分辨率限制,模型在细粒度场景下的表现仍然不够理想,有时会输出不够精确的视觉基元。也就是说,如果图像里的目标非常小、细节非常密,或者需要识别的区域边界很模糊,点和框本身也可能标得不准。视觉基元能改善指代问题,但它不能完全替代感知能力。模型首先要看清楚,才谈得上指得准。 第二个局限,这种能力目前还依赖显式触发。报告中说,当前使用视觉基元进行思考的能力需要通过明确触发词来激活,未来希望模型能够根据具体上下文,自主判断是否调用这一机制。 这意味着,现在模型未必会在每个需要的场景里自动使用这项能力。用户如果只是普通地问“这张图里有多少人”“这条路能不能走通”,模型可能仍然用普通语言推理,而不是主动输出点、框或路径。真正理想的状态应该是,模型自己判断这个问题是否需要精确视觉定位。如果是计数、路径、空间关系这类任务,它就自动拿出“手指”;如果只是描述画面氛围,就不必调用这套机制。 第三个局限,是拓扑推理仍然很难。报告中说,使用点作为视觉基元来解决复杂拓扑推理问题,仍然是一项艰巨挑战,目前模型的跨场景泛化能力也有限。 这不难理解。点可以告诉模型“我现在走到哪里”,但点本身并不直接表示“这里和那里是否连通”。在迷宫里,两个点看起来很近,中间可能隔着一堵墙;在交错线条中,两条线可能在视觉上相交,但实际并不是同一条路径的延续。模型不仅要标点,还要持续判断连通关系、路径方向和局部几何连续性。只要中间某一步走错,后面的推理就可能全部偏掉。 所以,视觉基元让模型开始能够在图像中定位、比较和追踪。但要真正处理开放世界里的复杂视觉问题,还需要更强的感知能力、更稳定的自主调用机制,以及更好的跨场景泛化能力。 在视觉理解层面,DeepSeek 给出的答案是,让图像不再只是输入材料,而是成为模型推理过程的一部分。模型不只是看见世界,而是开始学会在世界中找到锚点。 这不像是一个附带的研究,更像是DeepSeek对视觉的最重要的一个不同的理解。因此这次罕见的删除论文行为也引起不少遐想,有人认为它对于开源模型来说“太强大”了,以至于不适合发表。真相如何可能要等DeepSeek自己给出解释了。
DeepSeek连夜删掉的新论文,到底说了什么
昨晚 DeepSeek 多模态研究员陈小康在 X 上发了一条推,并公布了DeepSeek 关于多模态技术的新论文《Thinking with Visual Primitives》,表示「Excited to release」。 今天一早,推文删了,GitHub 上的论文也撤了。 但 APPSO 在它消失之前把全文读完了。读完之后觉得,这篇论文被撤可能不是因为内容有问题。 恰恰相反,它可能透露了太多了。 前天我们刚实测完 DeepSeek 的识图模式,让它数手指,它思考了一通,自己吐槽「我真的是数晕了」,然后答错了。当时以为是灰测阶段的小问题。 这篇论文告诉我们,数手指数晕这件事,背后藏着一个 GPT、Claude、Gemini 集体没解好的技术瓶颈。 而 DeepSeek 给出的解法,说出来几乎有点可笑的朴素:给 AI 装一根手指。 陈小康在那条推文里写道: 「Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the "point-to-reason" synergy humans use.」 「传统的思维链停留在语言空间里,但视觉推理需要更多。通过使用点和框作为认知锚点,我们的模型弥合了「引用鸿沟」,模拟了人类「边指边想」的协同机制。」 看得清和指得准,是两回事 目前所有多模态大模型做图像推理,本质都是把看到的画面转化成文字,然后在文字空间里做思维链推理。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash,全是这个路子。 过去两年,OpenAI、Google、Anthropic 的改进方向集中在一个问题:怎么让模型看得更清楚。高分辨率裁切、动态分块、把图片放大再塞进去。DeepSeek 管这个叫 Perception Gap,感知鸿沟。 但这篇论文指出了另一个瓶颈:Reference Gap,引用鸿沟。模型看清了,但在推理过程中没法精确指向图中的某个东西。 你可以这样理解:一张图里 25 个人密密麻麻站在一起,你用语言去描述「左边第三排穿蓝色球衣那个人旁边的那个」,描述本身就是模糊的。模型数着数着就丢了上下文,忘了刚才数到谁。 人类怎么解决这个问题?够原始的:伸出手指,指一个数一个。 284B 参数的模型,装上了一根手指 DeepSeek 的方案:让模型在思考过程中直接输出图片上的坐标。 想象一下,模型看到一张图里有很多人,它的思维链不再是「我看到左边有个穿蓝衣服的人」,而是「我看到这个人」然后附上一个框的坐标,把人圈出来。每数一个人就圈一个框,圈完之后数框的数量就行了。 两种坐标格式:一种是框(bounding box),画个矩形把物体圈住,适合标定物体位置;一种是点(point),在图上戳一个位置,适合追踪路径和走迷宫。DeepSeek 管这两种东西叫「视觉原语」,最小的思维单元。 关键变化在这里:以前模型输出坐标是作为最终答案(「目标在这里」),现在坐标嵌入了思考过程本身。坐标是草稿纸上的标记,不是答卷上的答案。 把一张图压缩 7056 倍,然后还能数清楚里面有几个人 模型底座是 DeepSeek-V4-Flash,一个 284B 参数的 MoE 模型。MoE 的意思是:模型脑子很大,但每次回答问题只调用一小部分神经元来干活,推理时只激活 13B 参数。类似于一个百人团队,每个任务只派 5 个人上场。 视觉编码器这边,做了三级压缩。打个比方:你有一张照片要发给朋友,网速很慢。第一步,你把照片切成小方格备用;第二步,每 9 个小方格合并成 1 个(3×3 压缩);第三步,再在传输时进一步精简掉冗余信息(KV Cache 压缩 4 倍)。 实际数字:一张 756×756 的图,57 万像素,一路压下去变成 81 个信息单元。压缩比 7,056 倍。 我看到这个数字的第一反应是:这还能看清东西?但论文里的结果说明,确实能。不光能看清,还能精确数出图里有 25 个人。 对比一下:同样 800×800 的图,Gemini-3-Flash 消耗约 1100 个 token 来表示这张图,Claude-Sonnet-4.6 约 870 个,GPT-5.4 约 740 个。DeepSeek 在最终计算时只用 90 个信息单元。别人用一千多个格子来记住一张图,DeepSeek 用 90 个格子就够了,然后腾出来的算力全拿去「指」。 4000 万条训练数据怎么攒出来的 DeepSeek 从 Huggingface 等平台把所有带「目标检测」标签的数据集都爬了下来,初筛得到 97,984 个数据源。 然后做了两轮筛选。 第一轮查标签质量。用 AI 自动审核三类问题:标签是无意义的数字编号(类别名叫「0」「1」的那种)、标签是私人实体(「MyRoommate」)、标签是模糊缩写(工业检测里的「OK」「NG」,一个苹果「OK」和一个电路板「OK」长得完全不一样,AI 学不了)。这轮砍掉 56%,剩 43,141 个。 第二轮查框的质量。三个标准:漏标太多的(标了一半就不标了)、框画歪了切掉物体一半的、框大到把整张图都框住的(说明原始数据是图片分类硬转成的检测数据,没有定位信息)。再砍 27%,剩 31,701 个。 最后按类别采样、去重,产出超过 4000 万高质量样本。 DeepSeek 选择先把框的数据做大,点的数据后面再补。原因也简单:你让 AI 标一个框,答案基本唯一(把物体刚好圈住);但让 AI 标一个点,物体上哪个位置都算对,没有唯一正确答案,训练信号太模糊。而且框本身就包含了两个点(左上角和右下角),学会画框之后标点就是降维操作。 怎么把「指」这个能力教给模型 后训练的策略是「先分头练,再合并」。 DeepSeek 先拿框的数据训练一个专门画框的专家模型,再拿点的数据训练一个专门标点的专家模型。分开训练是因为数据量还不够大,两种能力混在一起容易互相干扰。 然后对两个专家分别做强化学习。怎么判断模型「画对了框」或「走对了路」?DeepSeek 设计了一套多维度的打分系统:格式对不对(坐标语法正确吗)、逻辑通不通(思考过程有没有自相矛盾)、答案准不准(最终结果和标准答案差多少)。 强化学习的数据筛选也有讲究:先让模型做 N 遍同一道题,全做对的题太简单没训练价值,全做错的题太难学不到东西,只留「有对有错」的题来练。 最后一步是把两个专家的能力合到一个模型里。具体做法:让统一模型照着两个专家的输出去学,类似于一个学生同时跟两个老师学不同科目。 给了它手指之后,它是怎么数数的 数 25 个人 给模型一张足球队合照,问「图里有多少人?」 思考过程:先判断「这是团队合照,要数所有人,包括球员和教练」。然后一次性输出 25 个框坐标,每个人身上圈一个框。接着按排数统计:前排坐着 4 个 + 中排 9 个 + 后排 8 个 + 左侧 2 个教练 + 右侧 2 个教练 = 25。 「地上的熊有几只?」 图中有三只熊。模型逐一给每只画框并判断位置:第一只,在树干上垂直攀爬,排除;第二只,在岩石边缘走动,算;第三只,在碎木和泥土间,算。答案:2 只。 不是先数出三只再减一只,而是对每只都做了「是不是在地面上」的判断,每个判断背后都有一个具体坐标锚定。它真的在逐个检查,不是在猜。 多跳空间推理 一个 3D 渲染场景里有一堆彩色几何体。问题:「存不存在一个紫色橡胶物体跟灰色金属物体一样大?」 模型先框出灰色金属球体,确认是个小号物体。然后逐一框出场景里其他小号物体:棕色金属圆柱、蓝色金属方块、蓝色橡胶方块、黄色橡胶圆柱……六个物体逐个查,颜色、材质、大小三个属性一一核对。结论:不存在紫色橡胶的。 六次定位,六次判断。每一步都有坐标锚着,不会出现「等等刚才查到哪了」的情况。 论文中更多案例参考: 迷宫导航:别人掷硬币,DeepSeek 真的在搜索 论文测了四种任务,迷宫是差距拉得最开的一个。 任务很直接:给一张迷宫图,问从起点到终点有没有路,有的话画出来。迷宫有三种形状,方格的、圆环的、蜂巢的。 模型走迷宫的方式跟你小时候用铅笔在纸上画一样:选一条岔路走到头,走不通就退回来试另一条。区别是它每走一步都在图上标一个坐标点,留下记录。 论文里展示了一个圆形迷宫的完整过程:模型先标出起点和终点的位置,然后开始探索。走了 18 步,中间两次钻进死胡同又退出来,最后绕出了一条通路,把整条路径的坐标点串起来输出。 DeepSeek 还设计了一批陷阱迷宫:乍一看有路,但中间某段被偷偷堵住了。这种迷宫考的是耐心,模型不能只看起点附近的走势就下结论,得老老实实把能走的路都试一遍才能确认走不通。 准确率对比: - DeepSeek:66.9% - GPT-5.4:50.6% - Claude-Sonnet-4.6:48.9% - Gemini-3-Flash:49.4% - Qwen3-VL:49.6% 迷宫只有两种答案:有路,或者没路。随机猜正好 50%。GPT、Claude、Gemini、Qwen 全在 50% 附近晃,跟掷硬币没什么区别。DeepSeek 的 66.9% 不算高,但它确实是在一步步走的,不是在蒙。 路径追踪:大家来找茬的终极版本 这个任务更直观:一堆线缠在一起,每条线从一个标记通向另一个标记。你的耳机线从口袋里掏出来是什么样,画面就是什么样。题目问你:C 这条线通向哪个终点? 模型的做法是沿着线一路输出坐标点,像手指划过纸面。线弯得厉害的地方点标得密,直线段标得疏。人用眼睛追一根线的时候也是这样,弯道处慢下来,直线处一扫而过。 论文还加了一个加难版测试:所有线颜色粗细都一样。不能靠颜色区分是哪根线了,只能靠曲线本身的走势连续性来判断交叉口该跟着哪条走。 - DeepSeek:56.7% - GPT-5.4:46.5% - Claude-Sonnet-4.6:30.6% - Gemini-3-Flash:41.4% Claude 的 30.6% 有点出乎意料。终点一般有四五个选项,随机猜也该有 20% 出头,30.6% 只比瞎猜强一点点。可能它在这类纯空间追踪任务上,语言推理的惯性反而帮了倒忙。 怎么教 AI 走迷宫不作弊 迷宫的训练有一个现实问题:如果只看最终答对没答对来给分,模型很快就学精了,与其费劲搜索还可能答错,不如直接猜一个,反正认真走了答错跟没走答错,分数一样是零。 DeepSeek 的解决办法是把过程也算进分数。每一步合法的探索都给分,穿墙扣分,走得越远越好。哪怕最后没到终点,只要认真搜索了大部分区域,也能拿到不错的成绩。这样一来,模型就没有偷懒的动力了。 不可解迷宫的要求更高:不能光说一句「走不通」,还得证明你确实把能到的地方都走遍了。搜索覆盖率也算分。 一个彩蛋,三个局限 后训练数据里没有中文。但模型能用中文做视觉原语推理。 给它一张咖啡机的照片,用中文问「怎么做拿铁」,它用中文标注了蒸汽棒、奶壶、咖啡豆、拿铁按钮的位置坐标,然后给出操作步骤。多语言能力是从基座模型那里继承的,视觉原语的训练没有把它破坏掉。 它还能把看图和世界知识结合起来:给一张金门大桥的照片问「这附近有 NBA 球队吗?」它先框出金门大桥,推理出这是旧金山,然后回答金州勇士队。 能理解幽默:一块水果切面上的天然斑点恰好组成了一张忧郁猫脸的模样,模型能指出相似点在哪里并解释为什么好笑。 能做密室逃脱指导:框出高处的钥匙、地板上的椅子、带锁的门,建议「把椅子搬到钥匙下方 → 踩上去拿钥匙 → 去开门」。 论文很坦诚地写了目前做不到的事。 输入分辨率有限制。ViT 输出被卡在 81 到 384 个视觉信息单元之间,遇到很精细的场景(比如数手指这种),坐标精度还不够。这可能就是前天实测时数手指翻车的直接原因。 目前需要特定触发词才能激活视觉原语模式。模型还不能自己判断「这道题我该伸手指来做」,得有人提醒它。 拓扑推理的泛化能力有限。在训练过的迷宫类型上效果好,换一种新的空间结构就可能掉链子。陈小康在那条已删推文里也说了: 「We're still in the early stages; generalization in complex topological reasoning tasks isn't perfect yet, but we're committed to solving it.」 「我们还在早期阶段,复杂拓扑推理任务的泛化还不完善,但我们会持续解决。」 前天实测时,DeepSeek 识图模式展现的那些能力(追问发布者身份、联想鲸鱼 logo 含义、自我纠正、给自己开「小型答辩会」),和这篇论文描述的思维方式一脉相承。它在脑中建立视觉锚点,围绕锚点做推理,碰到矛盾就回溯修正。 而数手指数晕了,就是 Reference Gap 的活体演示。手指交叉重叠的画面里,纯靠语言描述去区分「从左数第三根」和「从右数第二根」,跟你自己不伸手指去数一群挤在一起的人一个道理,注定混乱。 这篇论文指向的方向是:多模态推理的下一步进化在锚定机制上。DeepSeek 用 90 个信息单元就打平了别人用上千 token 的效果,省下来的算力全拿去让模型「一边想一边指」。 分辨率军备竞赛可以缓一缓了,教会模型伸出手指,比给它配一副更贵的眼镜管用。 这只鲸鱼开了眼之后,还长出了手指。66.9% 的迷宫准确率离完美还远,但至少它在认真走,不像隔壁那几位在掷硬币。
杭州一35岁AI质检项目主管被“AI取代”裁员后,获赔26万
文 | 失业君小编 图 | cottonbro studio “你的岗位被AI取代了。” 杭州某科技公司35岁的项目主管小周听到这句话的时候,大概整个人都懵了。他过去几年的工作,就是给AI大模型当“质检员”,判断AI跟用户对话生成的答案是否正确。讽刺的是,这个因AI而生的岗位,最终又被AI“吃掉”了。 公司给小周开出的条件很直接:从主管降为普通岗位,月薪从2.5万砍到1.5万。小周不接受,公司便直接发了解除劳动合同的通知。理由听上去似乎“很有道理”:AI技术升级了,原来的活AI自己就能干,你的岗位不存在了。 然而,仲裁机构和法院都没惯着这家公司。杭州中院认定企业构成违法解除劳动合同,判决按2N标准支付赔偿金,合计26万余元。 判决一出来,打工人集体沸腾。但冷静下来想想,这个案子真正触动人心的,其实就三个字:凭什么? 第一个“凭什么”:AI来了,你就敢随便裁人? 很多老板可能想当然地认为:技术升级了,岗位消失了,解除劳动合同不是天经地义吗? 法律可不这么看。 《劳动合同法》第四十条第三项确实规定了“客观情况发生重大变化”时企业可以解约的路径,但这个“客观情况”的门槛非常高。按照北京市高院和仲裁委的权威解释,它必须具备“不可抗性”和“不可预见性”,典型情形是自然灾害、政策法规调整等超出企业常规经营决策范围的变化。 引入AI技术是什么?是企业为了提升效率、降低成本做出的主动商业选择。说白了,这是你自己拍板决定的,不是天灾,不是政策禁令,完全是你的经营策略。各地仲裁机构和法院对这一点已经有了高度共识:企业主动引入AI属于自主经营决策,不具备法定“客观情况”的不可抗性和不可预见性。企业因技术升级撤销岗位,实质是把正常的技术迭代风险转嫁给劳动者。 说得再直白一点:你想省钱可以有,但省下来的成本你不能全让员工一个人扛。 更何况,这家公司的调岗方案堪称“羞辱式”的,薪资砍掉40%,主管降为普通岗。法院直言,这样大幅下降的调岗方案,不能认定为合理的协商方案。公司所谓的“协商”,不过是走个过场,骨子里打的算盘恐怕就是逼你主动走人。 第二个“凭什么”:35岁,就该为AI腾地方? 这个案子之所以在网上炸了锅,“AI替岗”是引信,但“35岁”才是火药桶。 当事员工刚好35岁。35岁,在当下的职场文化里几乎是一个黑色幽默般的数字。很多大厂招聘明目张胆卡35岁的线,很多公司“优化人员”时也专门盯着这个年龄段。哪怕你的工作能力没有任何问题,哪怕你刚刚还在给AI做质检、是正儿八经的技术岗位,一句“成本太高了”就能判你出局。 而这一次,公司又多了一张新牌:AI! “不是我们要裁你,是AI要取代你啊。”这句话的杀伤力,比“降本增效”狠得多。 因为它暗示的不是你这个人不行,是你这个人种不行了。这种话术一旦被纵容,AI就成了企业清退老员工的万能借口:不是35岁不好用,是AI比你便宜;不是老员工经验不值钱,是机器不用交社保。 杭州中院这次判决最硬气的地方,就是把这种“甩锅式裁员”直接定性为了违法。承办法官说得很清楚:公司解约并非经营不善、裁撤业务,仅以AI的成本优势为由,不属于客观情况重大变化。法院用判决告诉企业:技术革新不是你们随意处置劳动者的遮羞布。 第三个“凭什么”:技术向善的底线由谁来守? 有管理学者说得犀利:用AI来裁员,说明企业领导层缺乏想象力,看不到技术背后的无限可能。真正有远见的企业,应当优先考虑对劳动者进行培训,使其适应更高阶的岗位。 这话说得好听,但现实往往不是这么回事。 小周的遭遇绝非孤例。近年来,上海、北京、广东等多地都出现了因“AI替岗”引发的劳动争议,停车场收费员、数据分析师、平面设计师、内容审核员……被AI冲击的岗位名单越来越长。2025年杭州全市法院新收劳动人事争议案件同比激增61.68%,竞业限制、技术引发的调岗降薪等新型纠纷不断增多。人社部已经明确表示将出台应对人工智能影响促就业的专门文件。 法律层面的“定音锤”已经落下:杭州中院在“五一”劳动节前夕专门召开新闻发布会公布这批典型案例,释放的信号极其清晰:企业将AI当作裁员的“挡箭牌”,可能触碰法律红线。 但当AI替岗从个案变成浪潮,法律能够做到的,终究是守住底线,而不是替所有人兜底。 法律守住的到底是什么? 26万赔偿金,对于年入30万的小周来说不算一笔巨款。这个判决真正的分量,不在于那串数字,而在于它在一个技术狂飙的时代,给所有打工人一个确定性的回答—— 技术怎么变都行,但人不是耗材。 企业可以追求效率、拥抱AI、转型升级,这些都没问题。问题是,你享用了技术红利,就得承担相应的社会责任。协商变更合同、提供技能培训、进行内部岗位调剂,这些才是面对变化的正道。简单粗暴地把人扫地出门,既不合规,也是一种管理上的懒惰。 法律的红线已经划好了。接下来,就看企业的人性,跟不跟得上了。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。