行业分类:
加载中...
头条分类:
加载中...
哈啰回应“全面失控”称其系统性污名化,已就涉企不实信息向主管部门举报
IT之家 6 月 9 日消息,针对钛媒体今日发布《困兽哈啰,全面失控》的报道,哈啰方面回应新浪称,文章通篇大量使用匿名信源、传闻表述、主观推断和片面材料,对哈啰进行系统性污名化,已明显超出正常舆论监督范畴。 哈啰方面强调,文章中涉及所谓“多套数据”、恶性竞争、行业灰产等内容,很多没有可核验的证据、监管结论或司法认定,却被当作事实呈现。特别是所谓财务和经营数据不一致的说法,已经触及企业信用底线,会实质影响企业融资、合作信心和员工稳定。 IT之家附哈啰回应原文: 2026 年 6 月 9 日,钛媒体发布《困兽哈啰,全面失控 | 钛媒体深度》一文。该文以“困兽”“全面失控”“站在悬崖边缘”“加速失控”等极端定性词汇作为标题和导语,将一家正常经营、依法纳税、持续服务城市公共出行的企业,恶意塑造成“经营失控、监管失控、竞争失序、安全失控”的负面样本。文章通篇大量使用匿名信源、传闻表述、主观推断和片面材料,对哈啰进行系统性污名化,已明显超出正常舆论监督范畴。 文章中涉及所谓“多套数据”、恶性竞争、行业灰产等内容,很多没有可核验的证据、监管结论或司法认定,却被当作事实呈现。特别是所谓财务和经营数据不一致的说法,已经触及企业信用底线,会实质影响企业融资、合作信心和员工稳定。 共享两轮行业确实经历过从快速发展到规范治理的过程,也曾存在第三方扣车、恶意移车、灰色收费等行业灰产。但哈啰在很多灰产问题中本身也是受害者。早在 2022 年,上海广播电视台看看新闻 Knews、《新闻透视》栏目等媒体就曾通过暗访调查揭露,上海部分街镇第三方清运公司存在恶意查扣共享单车、甚至将停放在白线内的合规车辆一并拖走,并以此向哈啰、美团等单车企业收取高额“赎车费”的灰色链条。 哈啰目前经营、纳税、用工和城市运营均保持正常,并持续配合各地主管部门推进共享两轮行业规范治理。公开资料显示,哈啰曾累计为近 40 万人提供全职或零工运维岗位,并带动上下游生态伙伴创造大量就业。哈啰的正常经营,不只关系企业自身,也关系一线劳动者、合作伙伴、供应链企业和城市出行服务秩序。 针对该文涉嫌传播涉企不实信息、恶意集纳负面内容、损害企业商誉等问题,我们已向有关主管部门提交举报,并将依法维护企业合法权益。我司尊重媒体依法开展舆论监督,也愿意接受基于事实、客观、公正的批评建议。我们希望媒体朋友能够基于事实、证据和行业全貌看待这件事,而不是让未经证实的传闻伤害一家正常经营、持续服务社会的企业。
我以为被英伟达吊打的AMD,在数据中心赚麻了…
提到 AI 时代的最大赢家,差友们的第一反应,肯定是英伟达吧? 毕竟老黄这两年靠着给 AI 厂商"卖铲子",营收和市值都"遥遥领先"。而这一切,都得益于 20 年前老黄力排众议,坚持 CUDA 生态——这一把,真让他赌对了。 但你可能想不到,还有一家公司,左手拿着性能干不过英伟达的显卡,右手攥着 "过时" 的 4nm 工艺,居然也在 AI 竞争里赚得盆满钵满。 而它就是——A M D! 等会,这是怎么做到的? 前段时间,托尼受邀参加了AMD的AI开发者大会,回来后,我对这个问题有了一些答案。 不过这事儿嘛。。。得从十多年前苏妈靠锐龙翻身那会儿说起。 锐龙诞生之前,AMD 的处理器一直活在 "i3 默秒全" 的阴影里。 直到 Zen 架构横空出世——在 "硅仙人" 吉姆·凯勒的带领下,初代锐龙 IPC 性能实打实提升了 52%,8 核 16 线程的规格,更是在那个 4 核称王的年代震撼全场,也拉开了芯片厂之间 "核战争" 的序幕。 到了 2020 年的 Zen 3系列,AMD 终于一雪前耻:单核、多核性能双双干翻了英特尔同期旗舰。 而 AMD 的这场胜利,也逐渐从消费市场蔓延到数据中心 B 端。说到数据中心,很多人现在的第一反应,应该是老黄和他的 GPU 的天下。 但其实,从早期虚拟机、云服务,到如今的 AI,都离不开 CPU 的协调调度。 所谓数据中心,其实就是一个超级物流中心,本质是百万级的 "小快递" 同时配送。 即使单核 CPU 再快,面对百万小件,那也是分身乏术;而多核 CPU,就像雇了一支庞大的“司机车队”同时出发,还能通过“拼车”(虚拟化)服务更多客户,把效率拉满。 也就是说,到了数据中心这边,别管这那的,我就要那个核多的超大杯。 尤其是现在 AI 智能体兴起,工具调用、任务编排,还得靠 CPU 来干活。以至于前段时间的 GTC ( GPU 技术大会 )上,老黄也掏出属于英伟达的 CPU 来。 可这事儿呢,反倒是 AMD 的老本行了。在锐龙处理器证明了 Zen 架构的实力之后,AMD 的下一步,便是剑指数据中心。 十年前,数据中心的 x86 处理器,还是英特尔的一言堂:2016 年至强 Broadwell 最高 24 核,2017 年至强 Skylake-SP 最高 28 核。 可就在同年,AMD 开始爆种,掏出了 32 核的初代 EPYC 处理器。 而在接下来的十年里,AMD 把 EPYC 的核心数一路堆到了 256 核 512 线程!英特尔也被迫跟进,做出了 128 个大核、288 个小核的产品…… 谁说英特尔不会堆核心?这不是挺会的嘛。 所以朋友们,不是英特尔突然有了良心,只是因为苏妈来过。。。 当然,光靠"便宜大碗"给家人们谋福利还不够,AMD 还祭出了杀手锏—— 3D V-Cache。 所谓 3D V-Cache,指的是在CPU上加一块大容量缓存。像是最早的 5800X3D,把 L3 缓存加到了 96M,对比普通版翻了 3 倍。 缓存大,对于打游戏来说,意味着帧数更高、更稳定。 但缓存大可不只对游戏有用,在数据中心同样能大杀四方。无论是需要超低延迟的金融交易,还是仿真计算、有限元分析这类重计算任务,都能靠 3D V-Cache 获得夸张的性能提升。 就拿 EPYC 9684X 来说,96 核心塞了足足 1152MB 三级缓存,相比竞品(至强 8490H)的优势几乎达到了 3 倍。 这些功能特性方面的投入,让 AMD 在今年彻底收到了回报。事到如今,哪个数据中心会不喜欢 AMD 的 EPYC 处理器呢? 这种喜欢,在市场份额上就体现得非常真实:2019 年之前,Intel 在数据中心的份额一度高达 97%;可随着 EPYC 的崛起,这个数字在 2025 年降到了 70% 左右。 换句话说,AMD 只用了短短 6 年,就从零拿下了 30% 的市场份额。 看来真香定律,在数据中心这也是能成立的。。。 靠着向数据中心卖 CPU,AMD 再也不会像曾经一样风雨飘摇,大厦将倾了。 当然了,大家也都知道,AMD 除了 CPU,也做显卡生意的,然而 AMD 的显卡 —— 也就是 GPU 业务,这两年过的则是。。。 其实在 2018 年之前,AMD 还是能跟英伟达掰掰手腕的。2006 年收购的 ATi(也就是如今 AMD 的图形部门),市场表现一直透着一股 "神鬼二相性":神的时候王牌对王牌,旗舰卡甚至能小胜英伟达;鬼的时候呢,旗舰卡只能勉强和老黄的中端卡过过招。 可转折点,在于老黄的神之一手:2018年,老黄开始在消费级 GPU 当中集成 RT Core 和 Tensor Core,并且同步推出了光线追踪和 DLSS 超分技术,如今这两项技术,每个臭打游戏的差友,应该都不会陌生。 可正是这两项颠覆传统光栅化渲染的技术,让 AMD 一下子陷入了被动:在这之后,两年后的 6000 系、四年后的 7000 系显卡,都没能拿出像样的光追和超分支持。 直到 2025 年 9000 系显卡的发布,AMD 才算有了不错的光追表现。而 A 卡的超分超帧技术——FSR,早期更是用传统算法糊弄。FSR 能用,但效果跟 N 卡的 DLSS 差着一截。同样,直到随着 9000 系一同推出的 FSR4,才是真正基于 AI 的超分技术,能和 DLSS 在画面表现上掰掰手腕了。 换句话说,AMD 在图形技术方面,花了 7 年时间才追上老黄的布局。 到了服务器端,剧情就更是大家熟悉的味道了:对 AI 支持最好、坐拥 CUDA 生态的 N 卡直接卖爆。AMD 这边确实没老黄那么有前瞻性,对标 CUDA 的 ROCm 直到 2016 年才出现,各类算法的支持和优化功底,也没 CUDA 那么深厚。 总结下来就是:无论是光追、超分超帧,还是大模型时代的软硬件支持,又或者是硬件性能,AMD 的 GPU 确实不是英伟达的对手。 也正因如此,很长一段时间里,AMD 的 GPU 都是靠"性价比"这一招,吃着老黄看不上的订单。 而 AMD 维持性价比优势的方法其实挺简单:又不是什么芯片都得用 2nm 先进制程,更便宜的 4nm,甚至 5nm 工艺其实也够用了嘛。 成本更低,卖的自然也可以更便宜。 而倒有点“无心插柳”的感觉:随着智能体引爆了市场对 CPU 和 GPU 的混合需求,AMD 正好是左口袋 CPU、右口袋 GPU,都能掏出东西来。 既然两边都能自研,那就可以整点不一样的花活了。于是,AMD 尝试偷师苹果,把更大规模的 CPU 和 GPU 都塞进同一块芯片,再把内存也整合进去。 AI Max+ 395 应运而生。这颗 U 在一颗芯片里,塞入了 16 核 CPU 和 40CU 的 “核显”,性能堪比独显的同时,又可以共享系统内存,用超大内存直接跑大模型。 曾经这个活只有苹果能干,可一台大内存的 Mac Studio 动辄三五万,而一台 395 的小主机只要一万多。虽然依旧不便宜,但对于那些重度使用大模型、同时又有隐私顾虑的小伙伴来说,这个价钱其实……挺划算的。 当然了,AMD 如今的问题也不少。 就拿 AI Max+ 395来说,生态短板依旧明显。托尼有同事一直用它跑本地大模型:面对主流的 LLM 模型,AMD 的兼容性没啥问题;可一旦想试试图片或者视频生成模型,又或者想进行模型微调,就不好说了。 面对生态劣势,一方面 AMD 把 ROCm 开源,想要借社区的力量来实现对 CUDA 的"弯道超车"。 另一方面,在这次 AMD AI 开发者大会上,苏妈给出了一个更适合 AMD 的答案——围绕性价比,构建一套属于自己的 AI 生态。 具体来说就是:开发者可以在 AI Max+ 395 这类终端上快速实现想法,再用 AMD 显卡的工作站做微调测试,最后在数据中心用 AMD GPU 完成生产部署。整套流程都跑在 AMD 的软件生态里,迁移起来自然顺畅得多。 理论归理论,实际用起来怎么样? 大会上给出了答案:单台 AI Max+ 395 最大支持 128GB 统一内存,能把 Qwen 122B 模型跑在本地; 4 台 395 互联,还能搞定更大更复杂的任务。同时,AMD 还宣布了与魔搭社区的合作,每人有 100 小时的云端算力体验时间——好不好用,自己试试就知道。 不论是拿下"过时"产能,在硬件上坚持性价比;还是上个月结束的 AI 开发者大会,如今 AMD 的种种动作,也是在尝试打造属于自己的软硬件生态。 今年 AMD AI 开发者大会,选在了对 AI 开源贡献最大的中国,足以见得 AMD 对生态的重视。 当补齐生态这块最短的板之后,即使 AMD 顶着"落后"工艺,性能也比不过的双重 Debuff,恐怕也能在市场杀出属于自己的一片天。 撰文:洛洛 & 米罗 编辑:米罗 美编:素描 图片、资料来源: AMD官网 2026 AMD AI开发者大会 2026 GTC How Chip Giant AMD Finally Caught Intel Mercuy Research
仅4B大小可端侧部署!卡帕西预言的"认知模型"被国产做出来了
好家伙,卡帕西又说对了! 几个月前,这位OpenAI创始成员在访谈中抛出了一个判断:“推理模型要变天了!” 仅需10亿参数,就能构建起非常优秀的「认知核心」——一个剥离了海量事实记忆、只保留思考算法的智能单元。 结果万万没想到,如今有这样一支中国团队已经率先实践。 小冰之父李笛集结微软小冰原班人马,带着仅成立半年的AI初创公司Nextie(明日新程),刚刚推出了行业首个认知模型「新程Alpha」。 何为首个?事实上,明日新程对认知模型的押注和卡帕西几乎是同一时期给出。 在去年12月的奇绩创坛Demo Day上,明日新程首度公开亮相就明确提出: AI进化终点不是更大的单体大模型,认知模型才是下一周期行业趋势。 凭借敏锐的行业嗅觉,他们愣是提前卡位、极限抢跑,于是有了今天的新程Alpha。 特别的是,这个模型只有区区4B参数,在动辄千亿万亿、模型参数卷到飞起的大模型里,可谓一股清流。 但就是这么个轻量级选手,却把很多推理大模型做不到的事情做成了:以下克上,不仅搞定了模型算力的痛,最终效果还能比肩第一梯队的GPT-5.4。 这下再也不用月底为Token账单发愁了。(doge) 算力成本立省100%,从烧显卡变成了交电费,而且直接端侧能跑。 那么问题来了,为啥这个认知模型可以以小搏大?和主流的知识型推理模型又有什么本质不同?量子位深入挖了挖。 认知模型成行业新共识 卡帕西的这场访谈,核心其实就一句话:知识不等同于智能。 现有的推理模型正集体陷入「Scaling困境」,行业默认参数越大、知识越多,模型就越聪明。 结果呢?那些拥有庞大知识库的模型,看似能解决复杂的数学和编程问题,却总是在细节处频频被网友捉虫,比如“200元取钱”这类逻辑陷阱,甚至说strawberry中有几个“r”这样的简单问题。 由Claude生成 单靠死记硬背,模型是学不会深度思考的,尤其是在长程任务中,稍有不慎还会导致错误滚雪球似的指数级放大。模型认知负担越来越重,Token账单也越来越离谱。 比如最近亚马逊员工疯狂用AI,用到公司都不得不紧急关停内部AI排行榜。倒不是因为效果不够好,是算力用得太吓人了,预算再高也架不住这种烧法。 养龙虾更是如此,每个月我的会员额度都在和钱包打架,扛不住啊扛不住…… 而这,几乎是今年大厂的普遍真实写照。 看着手里的账单,于是行业内开始复盘,或许问题的核心压根不在知识多少上,而是模型到底会不会组织知识。 前者是拥有知识,后者是运用知识。知识本身已经不再是最稀缺的资源,如何建立知识之间的关系才是关键。 这就引出了认知模型的概念。 传统的知识型推理模型还是在已有知识中找答案,但认知模型不一样,它具备自主思考和规划能力,能够把单一场景下的思维策略泛化到另一个不相关领域。 这就好比某九段围棋选手,如果只会死记硬背棋谱,那他最多只能算是棋痴,但好巧不巧,他是真的懂棋,能够掌握棋局背后的博弈本质,哪怕让他换赛道去打扑克,也能拿到世界冠军。 所以更进一步说,真正的认知核心应该能被剥离出来——轻量、可泛化、低成本。 这不仅是一家之言,OpenAI、谷歌DeepMind近来都在明显加强对多智能体协作、长期规划、世界模型和群体智能等方向的投入。 究其根本,都是对提升模型底层认知能力与协作能力的探索。 传递出的信号也很明确:推理模型下一步朝哪里进化?认知模型。 行业首个认知模型,4B参数比肩GPT-5.4 为此,Nextie做了件很「笨」的事。 团队硬是一口气梳理了从1800年到2020年,跨越220年的人类学术论文,试图从中归纳总结出群体智能的演化脉络,先学习咱们老祖先是怎么做的。 随处可得的互联网数据垃圾倒是不吃了,转头把人类学术老底挖得一干二净。 不过这一套下来,麻烦是麻烦,但确实行之有效。 在深度拆解人类社会是如何通过辩论、反思、挑战、投票,做出更好的决策后,团队提出了五个评估维度,用以判断群体智能的有效性,包括视角完备性、隐含诉求满足度、辩证深度、落地实操性和决策可解释性。 就是这套方法论,让新程Alpha在群体智能任务中,以4B参数规模等效于GPT5.4等大模型的输出效果。 相对的,Nextie也很「聪明」。与其把精力浪费在重复造模型上,他们选择在已有的开源推理模型上做强化学习,解耦知识与认知。 通俗讲,就是凝练模型的认知核心,让模型真正学会如何思考,训练的目标就是强化模型的泛化和抽象能力,做到不同场景举一反三。 其中,4B大小的参数量,刚刚好是一个黄金尺寸。 大到足以承载复杂的思考算法,小到可以在苹果MacBook、具身智能设备等端侧直接部署,实现低成本运行。 光说不练假把式,数据反映得很直观:在群体智能任务上,4B的新程Alpha效果不输GPT-5.4这些大参数模型。 换言之,参数量并不构成长期壁垒,认知架构才是,而且潜力无穷。 这也意味着三个层面的范式转移。 第一,Harness多智能体决策场景下的质量提升。 在Harness等多智能体系统中,认知模型自带视角多样性和思辨buff,能够为Agent提供统一的规划推演能力。 以前是多个智能体并行工作,现在有了认知模型,多个Agent就能协同思考,从而显著提升复杂决策任务中的质量一致性。 第二,算力成本断崖式下降。 这可能是用户最直观的感受,4B参数端侧能跑,省下来的可不只是一点点,直接是一整个数量级的差距。 举个例子,如果用常见推理大模型让机器人做家务,家庭压根用不起,稍微思考一下就是海量Token,还不如请一个真人保姆。4B的认知模型则是把价格打下来了,日常场景第一次变得经济可行。 模型本身是在做减法,减掉非必要的云端部署开销,人人都能在本地设备里随时调用,只需消耗几格电池而已。 第三,Proactive场景彻底解锁。 以往Agent都是被动等命令(Reactive),需要等待用户下指令才能动,大部分时间都是闲置中。还是因为成本的压力,很难放手让主动行动(Proactive)形成规模化。 但新程Alpha够便宜,运行7x24小时也不用心疼,这下Agent终于可以不间断自主规划与执行,能够执行更多更复杂的任务。 小冰之父再出手,思路不变技术升级 再来看背后操刀的团队——Nextie,不可不谓之大胆。 在全球尚无成熟先例的前提下,敢于做首个认知模型,几乎是反商业常识的。 但如果我们把视线拉远,深究团队的来时路,便会发现这个决定其实每一步都有迹可循。 Nextie是一家非常年轻的初创公司,去年12月才刚刚成立。公司虽新,核心成员们却个个都是身经百战的AI老兵,经验相当丰富。 掌舵Nextie的,是「小冰之父」李笛,也是微软亚洲工程院前常务副院长,把小冰从零带到独立公司的核心推动者,长期负责小冰整体技术与产品方向。 站在他身边的,一个是曾敏,小冰联合创始人、微软前首席研发总监,负责过小冰开放域对话系统的整体设计与大规模稳定运行。 另一个是王文斓,小冰前大模型与算法负责人、英特尔前架构师/技术委员会委员,长期负责小冰大模型与算法体系。 他们从小冰再到Nextie,其实一直在问同一个问题:智能体如何能够更好地完成协作? 小冰时代解决的是「一个智能体怎么聊天」,底层铺就的是工程化、产品化和大规模用户验证,而Nextie更像是从一个小冰升级成一群小冰,也就是「一群智能体怎么聊天」,地基就是上一轮小冰时代的经验,一步步往上盖楼。 比如在2023年初,李笛团队就推出了“小冰链”(X-CoTA),验证了思考过程透明化的价值所在。小冰链仅使用了GPT-3约2%的参数量,便实现了透明思维链构建,并能够在推理过程中实时获取外部信息、做出行动决策。 这恰恰是多智能协作的前提条件,先让每个Agent的思考过程可观测、可追溯。 然后在2023年底,团队就用3.6B的开源模型rinna(日本小冰)击败了Meta的65B Llama,登顶日本Hugging Face排行榜。 参数量足足差了将近20倍,结果照赢。可以说小参数+高质量架构路线一直是小冰团队的拿手好戏。 到了去年底,李笛带队创立Nextie,终于得以复用以上全部技术积累,重仓布局Harness群体多智能体赛道,更是在今年先后推出团子多Agent平台和新程Alpha,群体智能与认知模型两只靴子同时落地。 说白了,它们正是Harness多智能体最为关键的一体两面,既让Agent长脑子,又让Agent会合作,二者之间互为引擎、层层递进,共同构成了Nextie的先发优势。 其实Harness这个概念直到今年才被彻底点燃,意为模型的约束系统。 2月OpenAI发布报告 《Harness engineering: leveraging Codex in an agent-first world》,用3人5个月、AI写100万行代码的实例,将Harness置于Agent工程的C位,Harness瞬间出圈。 趁热打铁,OpenAI还在3月份投资了一家多智能体协作与群体智能公司Isara,公司估值直接飙升至6.5亿美元,进一步反映出资本市场对该方向的关注。 从某种意义上说,Harness群体多智能体正在成为继大模型、Agent后的新焦点,而在这一波新浪潮中,Nextie的实力放眼全球都有目共睹。 IDI(智能深度评测)显示,Nextie在这个领域的布局更深。 资本也给出了相同的判断。在成立四个多月时,就连续完成两轮融资,其中天使轮由创新工场、Atypical Ventures联合领投,奇绩创坛跟投。 李开复、陆奇两大AI圈顶级风向标投资人更是罕见同框押注。Nextie表示,当前资金储备已够未来三到五年持续创新所需。 但Nextie并非赶上了趋势,而是早有预备下的延期兑现。 用李笛的话来说就是: 自2022年以来,我们一直在准备这个时刻。 而Nextie的下一程,已然出发—— 继新程Alpha之后,泛化能力更强的8B认知模型,正在加速训练上桌~
最先把AI OS带给14亿人的,居然是微信?
微信的 AI,终于动了。 就在苹果 WWDC 的同一天,微信做了一件可能比苹果更重要的事,发布了一份朴实无华的公告:《关于开发者接入微信 AI 生态的指引》。 从今天起,小程序开发者可以给出授权,让微信 AI 完成读取、操作和调用小程序的功能。 微信给了两种接入方式,一「自动模式」,门槛几乎为零,开发者打开一个开关,平台自己读源码、分析页面、搞懂小程序能干什么,然后 AI 就能直接上手操作,一行代码不用写。 另一种叫「开发模式」,开发者自己开发定制化的 Skill,通过审核后被 AI 调用。两种可以同时开启。美团已经宣布接入。 这不能只是理解成又一个新功能上线,而是要看到,微信正在把它的整个生态——数百万小程序、微信支付、服务通知、公众号——变成 AI 的执行层。 扒一扒 Skill 文档,微信 AI 是怎么调小程序的 微信开放文档里公开了小程序接入 AI 的 Skill 技术规范,仔细看,里面藏着很多设计细节。 官方 skill 文档指路👇🏻: https://developers.weixin.qq.com/miniprogram/dev/ai/best-practices.html 从架构上看,做过 AI 开发的人会立刻认出来,本质上就是 MCP。mcp.json 声明每个原子接口的功能和参数,SKILL.md 描述整个业务流程怎么跑,这和 Claude、Cursor、VS Code 里的 MCP+Skills 架构几乎一模一样。微信没有另起炉灶,直接采用了行业正在收敛的标准。 在指导方案里,微信给了一套很清晰的「注意力权重」体系。AI 在决定调用哪个接口、生成什么参数的时候,最优先看的是接口返回的 content(五星),其次是 mcp.json 里的接口 description(四星)和参数 description(四星),SKILL.md 排最后(三星)。这意味着开发者写在哪里比写了什么更重要——同样的一条规则,写在接口返回里和写在 SKILL.md 里,AI 给的权重完全不同。 接口返回层面有一条核心规范:「事实+动作」两段式。先告诉 AI「发生了什么」,再告诉它「下一步做什么」。如果只写动作不写事实,AI 可能把「展示卡片」理解成「准备调下一个接口」而跳过用户确认。这是一个踩过很多坑之后才会总结出来的规则。 第四,参数传递优先用 ID 而非自然语言。以图中的「咖啡点单」场景为例子,用户提出需求后,AI理解模糊意图以及选项、改规格、处理支付,全程不出对话框。 这套设计透露的信号是:微信已经在实战中跑过足够多的 case,知道 AI 调用外部服务的坑在哪里,并且把这些经验固化成了开发者规范。 实际上,如果对比同样以「生态」著称的微信小程序和苹果应用,微信对自家生态有一种「上帝视角」,这是一切实现的前提。 怎么比苹果 AI 还重要 今年苹果在 WWDC 上发布的新版 Siri AI,尽管底层接入了 Google Gemini,Shortcuts 支持自然语言创建,却没有引起太多讨论。 细看就会发现差距:苹果做的是让 AI 在 iOS 系统内协调一些原生功能,一旦涉及到第三方应用、那些装在你手机上的 App,它就会捉襟见肘。 比如饿了么,它的代码跑在饿了么自己的服务器上,苹果读不了。Siri 想调用饿了么,必须饿了么的工程师主动来对接 App Intents 这套接口,一个一个谈、一个一个接,中间耗时耗力。 而微信做的是让 AI 直接操作数百万个第三方服务,因为小程序不一样。每一个小程序的代码,从开发者提交、到微信审核、到最后在用户手机上运行,全程都在微信的技术体系里。微信在审核阶段就能把代码扫一遍,自动分析「这个小程序有哪些页面,能干什么事,输入输出是什么」。 所以「自动模式」才能成立——开发者一行代码不用写,开个开关,微信自己就能把你的小程序翻译成 AI 可以调用的工具。微信的基础架构天然支持这样做,它拥有「上帝视角」,能够基于中心化实现调度。 这个架构优势,苹果没有,Google 也没有。 同样值得注意的,还有前阵子传出来,微信正在与华为、荣耀、小米、OPPO、vivo 合作推出 A2A(Agent-to-Agent)助手能力,用户可以通过手机语音助理直接发起微信音视频通话或发消息。 对内,微信 AI 可以调用数百万小程序;对外,手机厂商的 AI 助理可以调用微信。微信正在成为 AI 时代的超级连接器,让所有 AI 都能接入的服务中枢。 「微信 OS」的旧预言 小程序推出的时候,很多人戏称微信要做「微信 OS」。当时这更像是一个修辞——小程序替代了一部分 App 的功能,但本质上还是一个「轻应用平台」。 更偶然的是,当时设计的中心化审核机制,是出于控制质量和安全。但九年后,这个当初被批评为「管控过度」的设计,意外地成了 AI 时代的基础设施优势。分布式的 App 生态(苹果/Android)当时看起来更「自由」,现在反而成了 AI 接入的障碍。 一个旧的预言,由于新时代的技术——AI——的出现,有了颠覆性的变化。 之前写 OpenClaw 和飞书的时候,我提过一个判断:IM 是 AI Agent 最天然的入口,因为对话本身就是人与 AI 最自然的交互方式,而 IM 自带的服务生态(机器人、支付、小程序)让 AI 不只能「聊」还能「做」。飞书已经在往这个方向走,上线了 Bot API 增强和 AI Agent 节点。 不过,飞书是企业协作工具,覆盖的是办公场景。微信有着截然不同的广度——14.32 亿月活,数百个细分领域的小程序,从点外卖到挂号到买机票到缴水电费,几乎覆盖了一个人日常生活的全部服务需求。 如果微信 AI 真的能流畅地调用这些小程序完成任务,那么正如预言说的,它成了个用自然语言操作的操作系统。 用户说一句「帮我订明天下午三点从北京到上海的高铁」,AI 拆解意图,调用 12306 小程序查票、选座、微信支付完成下单,全程不出微信。这条链路理论上今天就可以跑通。 当然,理论和现实之间还有距离。AI 调用涉及支付场景的服务,容错率接近零——点错一杯咖啡是小事,买错一张机票就是大事。底层模型的准确性要求远高于对话场景。这也是全球 AI Agent 落地面临的共同瓶颈:从「能聊天」到「能办事」,中间隔的不是技术指标,是信任。 但微信至少做对了一件事:它没有从零搭建服务网络。这些年来,ChatGPT 在做的事是先有一个聪明的脑子,再一个一个去接 Shopify、DoorDash、Stripe,每一个都是从零建立的连接,到今天交易相关查询的占比还不到 3%。 真正将要发生的变化,对大多数用户来说,可能是悄无声息的。某一天你在微信里敲打一句「帮我订今晚九点去上海的票」,然后它就订好了,你甚至不知道背后调了哪个小程序,走了什么支付流程。 这种「无感知的完成」,才是AI Agent真正成熟的标志,微信离这一步,比任何人都近。
AI造假骗单坑哭无数商家 微信警告:后果比你想得严重
快科技6月9日消息,如今不少人动起了歪心思,借助AI工具造假骗取电商退款,这种行为已经让大量商家苦不堪言。 微信提醒,受害的看似只是个别商家,但最终增加的运营成本、风控成本和售后成本,很可能都会转嫁到商品价格之中,由整个消费市场共同承担。 此前闹得沸沸扬扬的榴莲退款事件相信很多人都有所耳闻。买家谎称收到的榴莲全部变质,平台很快自动完成退款。 卖家察觉到不对劲,驱车往返一千六百多公里前往对方所在地取证,最终找到被吃完果肉的包装,揭穿了这场骗局。涉事买家最终被行政拘留7天,非法所得也被全数追回。 类似的案例还有不少,有人用AI合成死蟹视频索要退款,同样受到了拘留和罚款的处罚。 现在AI门槛越来越低,简单操作就能做出商品破损、衣物脏污的假图片和视频,甚至还能伪造聊天记录来索赔。很多订单金额不高,商家考虑到维权耗时耗力,往往只能自认倒霉。 更让人无奈的是,这类造假行为已经形成了灰色产业链。网络上有人公然售卖所谓退款技巧,收取学费教学如何利用AI骗退款,还有团伙分工合作,批量注册账号、制作虚假证据、集中申诉骗赔。 长此以往,商家的经营成本不断增加,这些成本最后还是会分摊到所有消费者身上。 大家一定要清楚,造假薅羊毛并不是无伤大雅的小聪明,这本质就是诈骗。 AI只是一种普通工具,关键在于使用的人。网购追求实惠无可厚非,但不能丢掉诚信。
比亚迪副总李柯:中国电动车渗透率将接近80% 竞争将转向辅助驾驶
凤凰网科技讯 6月9日,据CNBC报道,在中国电动汽车销量增速放缓之际,比亚迪高管预计中国电动车市场仍将继续扩大。 李柯 比亚迪执行副总裁李柯周一对CNBC表示:“随着各种创新技术不断推向市场,中国市场的电动车渗透率很快将提升至接近80%。” 得益于政策支持和丰富的车型选择,中国混合动力及纯电动汽车的渗透率在短短几年内快速增长。据中国乘联会数据,2024年中国新能源汽车已占新车销量的一半以上,上月更是达到创纪录的62.9%。相比之下,国际能源署上月表示,美国电动车渗透率仍仅维持在10%左右,全球平均水平约为25%。 比亚迪对中国国内市场依然保持乐观,这要归功于电池技术的进步。李柯表示,受益于比亚迪快速充电技术的推动,目前国内市场对比亚迪电动车的需求约为公司现有交付能力的两倍。比亚迪的快速充电技术仅需5分钟即可将电池充至70%的电量。 展望未来,李柯预计下一阶段的竞争将很可能集中在辅助驾驶功能上。今年5月28日,比亚迪扩大了针对“L2+”级辅助驾驶用户的保险覆盖范围。李柯表示,此举有望将客户对辅助驾驶功能的使用率提高5个百分点,达到至少95%。该公司还发布了自研辅助驾驶芯片。 尽管比亚迪已雇佣约7000名工程师从事半导体开发,但李柯表示,现阶段比亚迪仍将主要采用英伟达的辅助驾驶芯片组。根据比亚迪2025年年报,公司员工总数超过86.96万人,而半导体研发工程师仅占其中很小的一部分。 随着比亚迪在国内市场的增长面临挑战,该公司转而依靠出口市场来提振销量。李柯表示,比亚迪的目标是在本地生产75%的欧洲汽车销量。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
永久免费!美团AI浏览器来了,10多个顶级模型帮你干活,还附送Agent外挂
智东西 作者 | ZeR0 编辑 | 漠影 智东西6月9日报道,今日,美团GN06(原光年之外)团队正式发布AI浏览器Tabbit V1.0,并承诺核心功能将永久免费开放。 Tabbit自3月2日开放公测至今,正好是100天,每周迭代,共迭代12个版本,收获了大量用户好评,比如“Windows上最好看的浏览器”、“特别务实的工具产品”、“低门槛且安全稳定地用到头部模型的方式”等等。 GN06负责人刘炯透露,这一百天来,Tabbit活得非常健康。 这款AI浏览器,既继承了传统浏览器的使用习惯,又将“大模型问答+搜索+Agent”能力打包。 它能根据用户指令执行复杂Agent任务,操作网页,生成PDF、PPT、Excel、Word,兼容主流Agent Skill和MCP工具,还能随心调用妙招广场里的300多款现成Agent技能,化身一个能帮用户干活的全能助手。 值得一提的是,Tabbit不仅支持调用10多款国内头部大模型(包括DeepSeek、LongCat、GLM、Kimi、MiniMax、Doubao、Qwen等),而且具备多选模型功能,可以让5个模型同页面同时回答同一个问题,并能让AI做对比总结。 在Tabbit中,唤起AI非常方便,可以打开新标签页对话框直接提问,也可以从右上角“Chat”打开侧边栏对话框,亦能在网页中划词、截图精准提问。 而且用户在历史对话中反复提到的偏好、背景、重要信息,Tabbit都会记住,主动适配用户的习惯。 比如,Tabbit能做这些事: 参照10份资料,几轮对话生成一份匹配院校、专业的高考专业推荐方案。 一个网课视频链接 + 一句话,3分钟生成一份带核心概念、定理、方法和自测题的资料。 随手搓个网页小游戏。 核实链接的信息来源、拆解话术套路。 在PDF上直接划词看释义、例句和词根,读到哪儿问到哪儿。 根据上传素材和读屏信息,生成大纲和PPT。 刘炯谈道,Tabbit的slogan是:工作交给Tabbit,时间留给自己。 本周,Tabbit将陆续推送V1.0的更新,并承诺标准版永久免费。 一周的免费额度,大约能使用最新AI模型,进行1000次对话、生成50张配图、让Agent自动跑完10个任务,或是写100篇万字总结/千字撰写。 如果免费额度都用完了,用户可继续使用一个不限量的高性价比模型。 后续,Tabbit还将提供10倍用量的专业版,一周9.9元,以及更多核心功能。 “一杯瑞幸美式的价格,就能让超过10个国内顶级模型为你打工。”刘炯说。 手机上也能体验Tabbit的尝鲜测试版了,iOS和安卓版已上线,鸿蒙版正在开发,功能逐步完善中,暂时不支持收藏夹同步和点外卖。 对于此前参与公测的用户,Tabbit会赠送专属「先锋探索用户」纪念卡,并根据注册时间和使用天数赠送专业版权益。 一、重构浏览器背后:AI时代的绝佳入口 为什么要做一款AI浏览器? 刘炯解释道,传统浏览器的壳子已经定型,但网页本身的复杂度在疯狂提升。今天,白领平均每周有超过66个小时花在浏览器里,办公、协作、文档、会议、邮件、数据分析等任务全在浏览器里完成。 在他看来,浏览器非但没有过时,反而因为AI变得更加重要。AI生成的应用、文档、工具,落地载体都是网页。 如今市面上已经有龙虾、Codex等桌面智能体工具,还要AI浏览器干什么? 当前我们使用AI工具的方式,通常很割裂,需要打开多个软件,在这个窗口查资料,再切换到另一个窗口问AI,复制粘贴、上传文件等操作都会额外消耗注意力和时间,并且存在信息损耗。 而AI浏览器天然掌握着你打开的标签页、收藏的文章、正在浏览的网页,这些核心上下文都不需要搬运。AI始终在旁边,与人共享环境,知道你在看什么,并能直接基于你在浏览器中的上下文行动。 这使得AI能更好地理解和更高效地参与你的工作。 不过很多用户对现有浏览器已经养成了习惯,书签、插件都在现有浏览器中,凭什么换一个新的浏览器呢? 对此,Tabbit在传统地址栏、收藏夹、历史记录、标签页、标签组的基础上,升级全意图输入、个人知识库、记忆来源、AI感知和操作、进行中的事项等功能,基于用户既有浏览器习惯,升级背后的智能。 它的收藏夹功能不只是存一个URL链接,而是会保存整个网页的内容,即便网页失效也能看,AI在后续对话中可以直接引用文章的全文内容。 二、模型、个性化、体验全面进化:通用Agent能力升级,妙招生态壮大 相比之前的公测版本,Tabbit V1.0的模型、个性化、体验全面进化。 1、模型:接入10多款顶尖模型,可选多模型同时执行任务 Tabbit支持自由切换十余款国内领先AI模型(MiniMax M3、DeepSeek-V4、Kimi K2.6、GLM-5.1、Doubao-Seed-2.0、Qwen3.5、LongCat-Flash等),以便用户按需选择。 “添加引用”选项里有所有已打开标签页。输入@,可引用当前打开的标签页、标签组、收藏夹或上传本地文件,将网页内容作为上下文参与AI任务。 刘炯演示了在小红书里搜索“WWDC”,通过调用“小红书评论导出”妙招,抓取和整理一篇帖子里的评论。 接着输入“整理csv文件的内容成为一个markdown格式的材料,分析核心观点”,Tabbit就会调用AI完成任务。 “更多模式”选项中,“多选模型”功能支持同时选5个模型来同台PK,对比回答同一个问题。 还能对这些模型的回答做分析总结。 2、个性化:可控记忆与复用妙招,提升Agent任务完成率 Agent任务模式拥有更强能力、更多场景,并增强了安全性。 (1)运行环境(Harness)升级:页面快照、截图、DOM理解及执行;自研浏览器操作工具集;多步任务规划及过程干预;网页脚本生成全面增强。 (2)能编辑,也能交付:在线文档、多维表格处理类任务成功率提升22%;生成PDF /PPT/Excel/Word等;多源信息研究;兼容主流Agent Skill/MCP生态。 (3)云端执行,不污染电脑本地:Agent编排及代码运行在云端,本地文件及文件夹按授权访问,不会在你的电脑上安装一堆乱七八糟的东西或创建一堆文件。 在美团自己的Benchmark中,从Tabbit V0.23到V1.0,网页操作的任务成功率从61%提升到70%,总评分从65.0提升到94.3。 据刘炯分享,Tabbit拥有用户完整的上下文,在传统浏览器拥有的网页、收藏、Chat对话、任务对话基础上,补齐了云端MCP、本地目录、记忆这三块上下文拼图。 Beta技术预览版具备长期记忆,能将对话里的有效信息沉淀成可追溯、可召回、可更新的记忆,让回答更贴合你的习惯。 它能将长对话总结压缩,并支持跨对话记忆召回,历史对话里稳定出现的偏好、背景、计划和重要结论,在新对话里都接得上。 其记忆是可调整的。如果记忆不准确、过期或不完整,用户可以纠正,让它明确记住或忘掉某条记忆。 同时,用户可将高频用到的提示词、脚本、任务、方法、工作流,存为“妙招”,在以后需要用到时一键调用。 刘炯现场演示打开小红书网页,加载一个妙招,直接把小红书首页所有广告和推广内容隐藏了。 还有一个“爆改Excel”的妙招,一键把小红书界面改成了Excel表格样式。 刘炯开玩笑说,这是个“摸鱼神器”,老板走过来看到你在认真做一个表格,其实你是在刷小红书。 另一个妙招是给微信公众号文章生成目录。只要打开一篇公众号文章,它旁边就会自动出现一个章节目录,方便你快速跳转到相应内容。 只要一句话描述需求,AI帮你执行任务,调教好、保存下来就是你自己的妙招。 “智能代理”功能支持执行复杂需求,任务执行完成后,点击对话底部的“保存为妙招”,即可将复杂的执行流程固化,下次直接复用。 Tabbit还做了一个妙招广场,上面分享的300多款现成妙招,都可以一键添加。 里面已经有很多实用的妙招,比如关闭网页弹窗、导出B站字幕、高速播放视频…… 从6月8日开始,美团启动Tabbit妙招大赛,扶持妙招创作者。优秀妙招将进入Skill广场,获得曝光、奖金、认证和长期创作者激励。 3、体验:清爽UI设计,智能标签整理 传统浏览器往往会打开密密麻麻的标签页,加上书签栏、插件栏、各种工具栏,网页内容只占了屏幕的一半多一点,选中文字时还会弹出各种快捷操作小图标,导致满屏看着像家门口贴的小广告,很乱。 Tabbit的设计理念则是极简,让你将更多注意力放在网页本身,使用很久也不会觉得烦。 在用户体验方面,Tabbit V1.0重点做了四点优化: (1)毛玻璃分层设计,弱化标签栏、书签栏等非内容区域,突出网页主题,提供多套配色主题,减少视觉干扰。 (2)提供垂直标签栏+标签智能整理功能,将用户工作区和Agent工作区区隔,可以让AI一键整理标签页,随时开启AI对话。 (3)过去100天进行了上百项易用性更新,核心功能都可以直接通过对话设置。 (4)紧跟Chromium最新内核版本,版本迭代速度远超传统浏览器,提供更兼容、更安全、更流畅的体验。 三、怎么用Tabbit提升生产力?三位用户现身说法 一位大四学生、一位HR、一位建筑工程师,三位非AI重度用户分享了他们使用Tabbit的故事。 他们都经历了相似的过程,起初不确定能用AI做什么,试试看后,发现好像可以做一些事情,然后学着给更好的上下文,把任务自动化,获得越来越好的结果,并且解放了大量时间。 1、写毕业论文 一位艺术类专业的大四女生,在距离毕业论文答辩还有一个月时,用Tabbit从零开始动笔,结果不但顺利通过答辩,还获得了四位导师一致好评,评上了优秀论文。 这位女生选的研究方法叫fsQCA,是一个她完全不懂的量化研究方法,分析数据要用的软件全是英文的。 她分享了自己的具体做法: 第一步,她并没有让AI直接帮忙写论文,而是先让它用通俗语言解释fsQCA到底是什么,建立起一个整体认知框架,然后带着问题去读文献,遇到不懂的,就在文献页面点右上角召唤出AI。AI能看到她正在读的内容,所以可以直接针对当前文献回答问题。 第二步是构建论文骨架,好方法是先分类再整合。她用标签组把文献分成了三类——功能属性、传播策略、研究方法,每收集到一篇文献就收藏进对应的标签组。 整理完之后,她在对话框里直接@三个标签组,让AI帮她提炼核心观点、分析研究空白、找切入点。这样一来,不需要复制粘贴任何东西,AI直接就能读取她整理好的那些网页。 第三步是数据分析,遇到完全不会用的软件,她在不懂的地方随时截个图问AI,AI因为理解她的上下文,知道她是在论文语境下做数据分析,给出来的指导都是分步骤的、针对性的。 最后的论文答辩大纲和PPT也是请Tabbit帮忙设计的。 她总结了自己的感受:其他AI对她而言像一个回答问题的助手,Tabbit则更像一个一起学习工作的伙伴。 2、理清招聘需求 第二个案例也很有意思。 一位HR起初用Tabbit时,把它当聊天机器人来用,觉得让它根据标准筛选简历,还不如自己搜得快。后来,他就“真香”了。 有一次,他要招聘一位“海外增长策略专家”,但需求还不清楚。如果用传统方式,搜海外增长、增长策略、客户增长等关键词,会搜出来一大堆简历。 所以他试图让AI先给够上下文。@不同的页面、业务目标、组织现状、人才盘点的原始材料,让这些信息直接作为AI的上下文。AI理清招人需求后,找人的路径就变得清晰了。 他也总结了几个技巧: 一是给够上下文。要告诉AI你是谁、你在做什么、你为什么要看这份资料、你希望它关注什么。 二是让AI反问你。很多时候不是AI不行,是自己没想清楚。比如跟AI说,基于我们刚才聊的,先不要给我答案,先问我5个问题。这些问题一旦回答出来,也就迫使自己把事情想得更清楚。 三是多模型讨论。同时让多个模型回答一个问题,提供不同视角,然后对比,还可以让模型互相质疑其他模型给出观点的漏洞。 3、整理庞杂数据 第三个案例是一位建筑工程师用Tabbit整理数据。他们公司每个月要从全国公共资源交易平台上筛选设计类中标项目,涉及几十个核心城市,每次要人工处理几千条记录,不同城市的表格格式还不一样,这种工作重复、枯燥、低效,但又不得不做。 接触到Tabbit之后,他先尝试写一个妙招,将整套流程全自动化,结果跑到100步就报错了,因为流程太复杂,把浏览器自动化的上限用完了。 这时,他把报错截图直接丢给AI,让AI帮他分析问题出在哪。AI告诉他,前期的填表和筛选占用了大量步骤,到关键的数据获取环节已经没有余量了。 AI建议他把复杂任务拆分成两个独立的妙招:第一个妙招只筛选并打开所有符合条件的网页,第二个妙招再从这些已经打开的页面里提取数据、整理成Excel。 两个妙招串联起来,原来需要4人天的苦差事,现在只需设置城市关键词就能自动完成,这种工作流程还能复用到更多的业务场景中。 他总结了四条经验:一是不要一次追求完美,先关注主干;二是一个妙招聚焦一件小事;三是关注执行日志,卡点可能藏在细节里;四是执行完一定要复盘,把改进沉淀回妙招里,让“一次性的便利变成可复用的能力”。 结语:浏览器不止是被动浏览,借助AI帮助用户主动探索世界 刘炯总结道,Tabbit浏览器提供了基础AI能力、先进模型和个性化能力,能在里面能拼出什么,完全取决于用户自己,每个人都能从中探索到乐趣。 IE浏览器的全称是Internet Explorer,即因特网探索者,最早做浏览器的一批人将浏览器视作是人类连接网络、连接世界、探索未知的一扇窗户。 刘炯希望浏览器不是一个被动的浏览工具,而是一个借助AI,帮助用户主动探索世界的平台。
长鑫之后中国又一家存储芯片制造商要上市:紫光国芯已完成IPO辅导
快科技6月9日消息,长鑫之后,中国又一家存储芯片制造商要上市了。 此前,国内DRAM龙头长鑫科技已于2026年5月27日科创板IPO成功过会,拟募资295亿元,是科创板史上第二大IPO项目,目前已进入证监会注册环节,预计今年第三季度正式挂牌上市。 证监会官网IPO辅导公示系统显示,西安紫光国芯半导体股份有限公司与辅导券商中信建投,已正式向陕西证监局提交辅导工作完成报告。该公司于2026年1月6日提交辅导备案,整个辅导工作历时5个月。 作为新紫光集团存储板块的战略支柱企业,紫光国芯成立于2006年,前身为英飞凌西安存储事业部,传承至今已有20年的DRAM技术积累。这也让它成为国内少有的能够提供全系列、全品类DRAM存储产品,并具备完整芯片设计能力的企业。 目前公司核心业务覆盖存储颗粒、KGD芯片、模组系统、堆叠大带宽DRAM及CXL主控芯片,同时提供集成电路设计服务,已有20余款芯片和40余款模组产品实现全球量产销售。 股权结构方面,北京紫光存储科技有限公司持有紫光国芯59.63%的股份,为控股股东。成都高投集团旗下成都高新倍特启新股权投资合伙企业已于5月19日完成对紫光国芯的战略投资,进一步夯实了公司的资本实力。 财务数据显示,紫光国芯2025年经营业绩显著改善,全年营业收入达18.3亿元,同比增长54.79%;净利润1.12亿元,较上年同期成功实现扭亏为盈。 此外,公司还是国家高新技术企业、国家企业技术中心和国家知识产权优势企业,承担着多个国家级重大研发专项。 长鑫科技与紫光国芯相继进入上市关键阶段,标志着中国存储芯片产业已从技术突破期逐步迈入规模化发展阶段,将为国产存储替代进程提供更坚实的资本支撑。
折叠屏玩法大升级!vivo X Fold6首发一屏四用:4个App同时抢票/比价
快科技6月9日消息,vivo将在本月推出全新一代大折叠屏旗舰vivo X Fold6,这款机型首发vivo全新打造的并行模式功能,实现一屏四用,单块大屏最多可以同时运行4个独立App,彻底打破了传统折叠屏的多任务上限。 vivo产品经理韩伯啸专门介绍了这个功能的核心逻辑,在vivo X Fold6的并行模式下,所有打开的应用窗口都平铺显示,不存在后台休眠的副窗口,四个应用全都是前台可直接操作的主角。 用户可以在大屏上同时打开4个不同的AI助手,让它们各自生成一套方案直接放在一起比稿,也可以同时用4个App抢票、4个购物App打开同一款商品实时比价,效率提升非常直观。 韩伯啸特别强调,想要做好这样的多任务体验难度远超外界想象,完全不是把四个窗口简单排布在屏幕上这么简单。这是四个可以同时操作的独立应用,全部要在前台流畅运行,不能出现任意一个后台暂停的情况。 这项能力需要从安卓底层框架重新做定制优化,完全跳出了安卓原生框架自带的多任务限制,硬件层面还要基于多任务和AI算力需求重新做芯片层面的调度优化。 既要满足多个App同时渲染的算力需求,还要兼顾多应用同时运行时的性能负载和功耗表现,对整个系统的底层能力挑战非常大。所有的研发投入,最终都是为了打造AI体验最优的移动终端产品。 最后来看核心硬件配置,vivo X Fold6配备8.02英寸内屏,外屏尺寸为6.51英寸,搭载天玑9500旗舰芯片,后置蔡司2亿像素三摄,。 之前不少折叠屏的多任务最多只能做到分屏双用,vivo这次直接把应用数量拉到了4个,对于经常需要多线并行处理工作的商务用户来说,这款机型的实用价值将会远超普通旗舰手机。
iPhone变成AiPhone,但还不是未来的AI手机
国行用户还是没有 Apple 智能。 更新到 iOS 27 的开发者测试版本后,对国行 iPhone 来说,最大的变化是可以设置调休闹钟,外版用户则迎来了一个独立的 Siri App。 这两年,我们一直在吐槽国行 iPhone 没有 AI。 但如果今天真的要买一台手机,AI 恐怕还不是大多数人的首要考虑因素。 虽然都在说 AI 手机,但大多数手机的卖点还是在相机和电池等方面,包括苹果在 17 Pro 上的主要亮点也是后置三摄 大家会比较影像、续航、性能、外观,甚至颜色,却很少有人因为「这个 AI 特别强」而下单。 一个有点矛盾的现实是,AI 手机已经喊了两年,但什么是 AI 手机,行业和用户都还没有形成共识。 就在这个背景下,苹果这次把新版 Siri 推到了系统层。 它有了独立入口,也支持连续对话、文件上传和上下文理解。 从功能看,这些能力并不新鲜,很多用户会觉得它只是补上了 ChatGPT 两三年前就已经实现的部分。 真正值得关注的是,苹果终于给出了自己对于 AI 手机的答案。 目前,对 AI 手机而言,行业里目前存在两种理解。 一方面是手机变聪明了,从智能到人工智能。相机能够识别物体,照片能自动扩图、修改视角,搜索框里换了大模型驱动的 AI 引擎,快捷指令用简单的自然语言就能搭出来。 这些改进确实让体验变得更好,可是我们跟手机的关系似乎并没改变。这一路线增强的是功能,而第二种路线改变的是交互。 我们不用自己的操作,对着手机把想做的事情说出来,系统级的助手,会像 Codex 一样,自动启用 Computer(Phone) Use、Chrome(App) Use 的能力, 调度不同的应用,把事情做好。 过去两年我们一直在讨论,也是所有厂商都难做好的,全在第二件事上。 四种 AI 手机 问题在于,当 AI 真正开始替用户操作手机,它立刻会碰到权限、应用生态和责任归属的问题。 谁有资格代替用户执行操作?App 愿不愿意开放能力?出了问题谁负责? 于是,不同厂商开始走向完全不同的路线。 「被限制」的豆包手机 豆包手机刚出来那会儿,确实收获了很多关注。它通过系统权限拿到的能力,可以直接模拟用户点击。 一个需要 50 步点击的任务,大概能跑出八成的成功率,能力边界是当时市面上,所有打着 AI 手机旗号的产品中最宽的一个。 但它也最容易踩雷,纯粹地依靠模拟点击,一边是效率的问题,更严重的是合规的问题。 效率上,通过识屏的方式找到应用的不同按钮,然后再操作系统进行点击,这种流程被拉得极长。即便可以预先录入一套常见应用的交互方式,但 App 一旦更新,界面重新排布,就又需要再来一次,还可能失效,需要重新学习训练。 合规上,豆包手机在去年年底被微信、支付宝集体风控。豆包手机也发布声明回复,所有的权限都在系统允许的范围内操作,后续也主动收缩了操作范围。 现在就连 Codex 上的 Computer Use,都无法正常操作电脑版微信,一旦检测到非人类的点击操作,微信就会自动退出。 豆包手机的正式版还在打磨,路线也正在从纯视觉操作向接口协同演进。 国民级的超级应用选择 AI,会成为手机的重要部分 微信,就在 WWDC 前,联合五大手机厂商推出了 A2A(Agent-to-Agent)助手能力。 手机系统 AI 助手解析出用户意图后,通过加密、受控的协议向微信发起「呼叫」,微信在自己的沙盒里原生执行「发消息、打电话」这两个基础动作,系统 AI 碰不到任何聊天记录。 这更像是一种停火协议,手机厂商承认,不能绕过超级 App 的边界;微信也承认,系统级 AI 助手正在成为新的用户入口,完全堵住并不现实。 更有意思的是,微信同一天还面向小程序开发者开放了微信 AI 生态接入指引。 开发者可以授权微信 AI 接入自己的小程序,其中有两种模式,「自动模式」让平台读取源码、分析页面、直接操作;「开发模式」让开发者自主声明能力,经审核后被微信 AI 调用。 两种模式可以同时开启。微信现有超过 400 万个小程序,如果大量接入,微信 AI 调度的能力范围将远超「发消息打电话」,点外卖、打车、订票、买东西,一整个小程序生态都有机会实现。 把这两件事放在一起看,微信的策略就很清楚了,手机厂商想把微信变成自己助手能调度的一个 App,微信想把自己变成一个更大的 Agent 平台。 双方都在开放能力,但都希望把入口掌握在自己手里。 Google 争夺的不止是一部手机 再看 Android 和 iPhone,方向其实一致:AI 不再是一个 App,而是在系统里流动。 Google 在 I/O 之前的 Android Show 上直接说,Android 正在从 operating system 变成 intelligence system。 Google 的优势很明显:它既有 Android,也有 Gemini,还有搜索、Gmail、Calendar、Chrome、Google Play 和车机、手表、眼镜。它完全可以做一个跨屏的 Gemini 操作层。 从这个角度看,Google 争夺的已经不仅是一部手机上的 AI 入口,Gemini 承担的是整个 Google 生态的交互层。 当用户发出一个需求,调用的可能是搜索、地图、邮箱、浏览器,也可能是电脑、手机、车机和眼镜上的能力。 AI 手机只是这张网络里的一个节点。 Siri AI 不会是一个「ChatGPT 式」的 App 苹果选了一条更慢的路。 Siri AI 的新能力强烈依靠 App Intents。开发者要把自己的内容和动作用结构化方式交给系统,比如「我能创建一笔费用」、「我能预约会议」、「我能编辑这张图」。Siri 再用自然语言理解用户意图,调用这些动作。 苹果还把 App 内容接进 Spotlight 的语义索引,让 Siri 能理解手机里的个人上下文。这套逻辑和微信小程序的「开发模式」很像,开发者声明能力,平台负责调度。 区别是,微信只在小程序生态里做,苹果要把它放到整个 iOS App 生态里。 Craig 在 WWDC 主题演讲结束后的媒体交流会上谈到 Siri AI 时说,「我们认为 Siri 不是一个独立的聊天机器人,一个你去那里闲聊的,不整合的地方,Siri 是一个集成的、对话式的工具。」 苹果的底层模型也补了一大块。第三代 Apple Foundation Models 包括端侧模型、私有云模型和图像模型,其中端侧 AFM 3 Core 是 30 亿参数,AFM 3 Core Advanced 是 200 亿参数的稀疏模型,按任务激活 10 亿到 40 亿参数。 更复杂的任务交给 Private Cloud Compute。苹果也提到新一代 AFM 是和 Google Gemini 合作定制的,最重的云端模型还用到了 Google Cloud 上的 NVIDIA GPU。 苹果昨天发布了第三代基础大模型| 苹果终于把过去两年欠下的 AI 账补到了系统层。 它的优势是整合最深,Siri、Spotlight、App Intents、照片、信息、Safari、快捷指令,这些东西都在系统里。一次系统升级,就能改变 iPhone 用户「找东西、办事情」的默认路径。 但它的限制也很清楚,App Intents 取决于开发者适配多少,Siri AI 真实可用性还要等 beta 之后验证。 国行用户还要面对地区限制,而部分端侧大模型的能力,支持的手机产品也只有 iPhone Air 和 iPhone 17 Pro 系列。 AI 手机的天花板,不在手机里 今天各家争的,还是手机和 App 之间那一层:谁能替用户办事,谁批准,谁执行,谁担责。 从豆包、微信、Google 到苹果,虽然它们给出的答案并不相同,有的选择模拟操作,有的选择开放协议,有的选择统一调度层,也有的选择让开发者声明能力。 共同点在于,AI 手机正在从「回答问题」走向「完成任务」。 再往后看,AI 手机的天花板可能不在手机里。 端侧模型正在变小,推理芯片正在变强。 1.58-bit、2-bit 这类低比特量化不断降低模型占用,手机上能跑的模型会越来越大。现在很多端侧能力还只是修图、听写、摘要和简单问答,几年后,手机本地模型处理个人上下文、隐私任务、轻量代理工作,会变得更自然。 更大的变化,是手机会变成调度算力的入口。 我们不一定要在手机上完成所有工作,但可以用手机发起任务:让电脑里的 Codex 写代码,让云端的 Claude 做研究,让家里的设备准备环境,让车机继续导航,让眼镜把现实世界变成输入。 Googlebook 已经把这个方向摆出来了:手机里的 Android App、文件和 Gemini 能力,可以延伸到笔记本。苹果如果把 Siri AI 做扎实,后面自然会接 AirPods、Apple Watch、Vision Pro,甚至传闻中的眼镜和桌面机器人。 手机要变成什么,现在还没人说得准,但它正在从「装 App 的地方」,变成我们「随时能调动算力的入口」。
iPhone 一夜变成 AiPhone,但 AI 手机的未来不在手机里
国行用户还是没有 Apple 智能。 更新到 iOS 27 的开发者测试版本后,对国行 iPhone 来说,最大的变化是可以设置调休闹钟,外版用户则迎来了一个独立的 Siri App。 这两年,我们一直在吐槽国行 iPhone 没有 AI。 但如果今天真的要买一台手机,AI 恐怕还不是大多数人的首要考虑因素。 ▲虽然都在说 AI 手机,但大多数手机的卖点还是在相机和电池等方面,包括苹果在 17 Pro 上的主要亮点也是后置三摄 大家会比较影像、续航、性能、外观,甚至颜色,却很少有人因为「这个 AI 特别强」而下单。 一个有点矛盾的现实是,AI 手机已经喊了两年,但什么是 AI 手机,行业和用户都还没有形成共识。 就在这个背景下,苹果这次把新版 Siri 推到了系统层。 它有了独立入口,也支持连续对话、文件上传和上下文理解。 从功能看,这些能力并不新鲜,很多用户会觉得它只是补上了 ChatGPT 两三年前就已经实现的部分。 真正值得关注的是,苹果终于给出了自己对于 AI 手机的答案。 目前,对 AI 手机而言,行业里目前存在两种理解。 一方面是手机变聪明了,从智能到人工智能。相机能够识别物体,照片能自动扩图、修改视角,搜索框里换了大模型驱动的 AI 引擎,快捷指令用简单的自然语言就能搭出来。 这些改进确实让体验变得更好,可是我们跟手机的关系似乎并没改变。这一路线增强的是功能,而第二种路线改变的是交互。 我们不用自己的操作,对着手机把想做的事情说出来,系统级的助手,会像 Codex 一样,自动启用 Computer(Phone) Use、Chrome(App) Use 的能力, 调度不同的应用,把事情做好。 过去两年我们一直在讨论,也是所有厂商都难做好的,全在第二件事上。 四种 AI 手机 问题在于,当 AI 真正开始替用户操作手机,它立刻会碰到权限、应用生态和责任归属的问题。 谁有资格代替用户执行操作?App 愿不愿意开放能力?出了问题谁负责? 于是,不同厂商开始走向完全不同的路线。 「被限制」的豆包手机 豆包手机刚出来那会儿,确实收获了很多关注。它通过系统权限拿到的能力,可以直接模拟用户点击。一个需要 50 步点击的任务,大概能跑出八成的成功率,能力边界是当时市面上,所有打着 AI 手机旗号的产品中最宽的一个。 但它也最容易踩雷,纯粹的依靠模拟点击,一边是效率的问题,更严重的是合规的问题。 效率上,通过识屏的方式找到应用的不同按钮,然后再操作系统进行点击,这种流程被拉得极长。即便可以预先录入一套常见应用的交互方式,但 App 一旦更新,界面重新排布,就又需要再来一次,还可能失效,需要重新学习训练。 合规上,豆包手机在去年年底被微信、支付宝集体风控。豆包手机也发布声明回复,所有的权限都在系统允许的范围内操作,后续也主动收缩了操作范围。 应用需要确保自己的用户信息安全,无可厚非。现在就连 Codex 上的 Computer Use,都无法正常操作电脑版微信,一旦检测到非人类的点击操作,微信就会自动退出。 豆包手机的正式版还在打磨,路线也正在从纯视觉操作向接口协同演进。 国民级的超级应用选择 AI,会成为手机的重要部分 微信,就在 WWDC 前,联合五大手机厂商推出了 A2A(Agent-to-Agent)助手能力。 手机系统 AI 助手解析出用户意图后,通过加密、受控的协议向微信发起「呼叫」,微信在自己的沙盒里原生执行「发消息、打电话」这两个基础动作,系统 AI 碰不到任何聊天记录。 这更像是一种停火协议,手机厂商承认,不能绕过超级 App 的边界;微信也承认,系统级 AI 助手正在成为新的用户入口,完全堵住并不现实。 更有意思的是,微信同一天还面向小程序开发者开放了微信 AI 生态接入指引。 开发者可以授权微信 AI 接入自己的小程序,其中有两种模式,「自动模式」让平台读取源码、分析页面、直接操作;「开发模式」让开发者自主声明能力,经审核后被微信 AI 调用。 两种模式可以同时开启。微信现有超过 400 万个小程序,如果大量接入,微信 AI 调度的能力范围将远超「发消息打电话」,点外卖、打车、订票、买东西,一整个小程序生态都有机会实现。 把这两件事放在一起看,微信的策略就很清楚了,手机厂商想把微信变成自己助手能调度的一个 App,微信想把自己变成一个更大的 Agent 平台。 双方都在开放能力,但都希望把入口掌握在自己手里。 XX Intelligence 和 XX 助手 再看 Android 和 iPhone,方向其实一致:AI 不再是一个 App,而是在系统里流动。 Google 在 I/O 之前的 Android Show 上直接说,Android 正在从 operating system 变成 intelligence system。 Google 的优势很明显:它既有 Android,也有 Gemini,还有搜索、Gmail、Calendar、Chrome、Google Play 和车机、手表、眼镜。它完全可以做一个跨屏的 Gemini 操作层。 从这个角度看,Google 争夺的已经不仅是一部手机上的 AI 入口,Gemini 承担的是整个 Google 生态的交互层。 当用户发出一个需求,调用的可能是搜索、地图、邮箱、浏览器,也可能是电脑、手机、车机和眼镜上的能力。 AI 手机只是这张网络里的一个节点。 Siri AI 不会是一个「ChatGPT 式」的 App 苹果选了一条更慢的路。 Siri AI 的新能力强烈依靠 App Intents。开发者要把自己的内容和动作用结构化方式交给系统,比如「我能创建一笔费用」、「我能预约会议」、「我能编辑这张图」。Siri 再用自然语言理解用户意图,调用这些动作。 苹果还把 App 内容接进 Spotlight 的语义索引,让 Siri 能理解手机里的个人上下文。这套逻辑和微信小程序的「开发模式」很像,开发者声明能力,平台负责调度。 区别是,微信只在小程序生态里做,苹果要把它放到整个 iOS App 生态里。 ▲ Craig 在 WWDC 主题演讲结束后的媒体交流会上谈到 Siri AI 时说,「我们认为 Siri 不是一个独立的聊天机器人,一个你去那里闲聊的,不整合的地方,Siri 是一个集成的、对话式的工具。」 苹果的底层模型也补了一大块。第三代 Apple Foundation Models 包括端侧模型、私有云模型和图像模型,其中端侧 AFM 3 Core 是 30 亿参数,AFM 3 Core Advanced 是 200 亿参数的稀疏模型,按任务激活 10 亿到 40 亿参数。 更复杂的任务交给 Private Cloud Compute。苹果也提到新一代 AFM 是和 Google Gemini 合作定制的,最重的云端模型还用到了 Google Cloud 上的 NVIDIA GPU。 ▲ 苹果昨天发布了第三代基础大模型|https://machinelearning.apple.com/research/introducing-third-generation-of-apple-foundation-models 苹果终于把过去两年欠下的 AI 账补到了系统层。 它的优势是整合最深,Siri、Spotlight、App Intents、照片、信息、Safari、快捷指令,这些东西都在系统里。一次系统升级,就能改变 iPhone 用户「找东西、办事情」的默认路径。 但它的限制也很清楚,App Intents 取决于开发者适配多少,Siri AI 真实可用性还要等 beta 之后验证。 国行用户还要面对地区限制,而部分端侧大模型的能力,支持的手机产品也只有 iPhone Air 和 iPhone 17 Pro 系列。 AI 手机的天花板,不在手机里 今天各家争的,还是手机和 App 之间那一层:谁能替用户办事,谁批准,谁执行,谁担责。 从豆包、微信、Google 到苹果,虽然它们给出的答案并不相同,有的选择模拟操作,有的选择开放协议,有的选择统一调度层,也有的选择让开发者声明能力。 共同点在于,AI 手机正在从「回答问题」走向「完成任务」。 但再往后看,AI 手机的天花板可能不在手机里。 端侧模型正在变小,推理芯片正在变强。1.58-bit、2-bit 这类低比特量化不断降低模型占用,手机上能跑的模型会越来越大。现在很多端侧能力还只是修图、听写、摘要和简单问答,几年后,手机本地模型处理个人上下文、隐私任务、轻量代理工作,会变得更自然。 更大的变化,是手机会变成调度算力的入口。 我们不一定要在手机上完成所有工作,但可以用手机发起任务:让电脑里的 Codex 写代码,让云端的 Claude 做研究,让家里的设备准备环境,让车机继续导航,让眼镜把现实世界变成输入。 Googlebook 已经把这个方向摆出来了:手机里的 Android App、文件和 Gemini 能力,可以延伸到笔记本。苹果如果把 Siri AI 做扎实,后面自然会接 AirPods、Apple Watch、Vision Pro,甚至传闻中的眼镜和桌面机器人。 手机要变成什么,现在还没人说得准,但它正在从「装 App 的地方」,变成我们「随时能调动算力的入口」。
坏了,苹果 AI 真成了?|iOS 27 上手体验
几经波折之后,我们终于将手里的几台 iPhone 都更新到了 iOS 27,体验到了五年以来最重大的一次 Siri 更新。 更新之后第一眼能看到的,也是最明显的升级,就是 iOS 27 全面焕新的 app 图标: 图|YouTube @Apple 当然,说是完全焕新也不尽然—— 相比 iOS 26,新版本的图标更像是从「强调玻璃光影」进化到了「添加玻璃材质」: 除此之外,iOS 27 的整体透明度也变得更加可控了。 iOS 27 中,原本只有两级可调的 Liquid Glass 模糊程度变成了一根无级滑杆,自定义范围更大: 根据会上介绍,iOS 27 的设备支持范围最低从 7 年前的 iPhone 11 开始。 新增的玻璃调整效果对于旧处理器的性能压力如何,还要看后续的更新情况如何—— 图|YouTube @Apple 幸好 WWDC 上宣称的流畅度优化确实有效。 iOS 27 是最近几代少有的,手机降温之后就基本不会掉帧的开发者测试版了,在 iPhone Air 上的表现也称得上稳定: 说到功能性方面,iOS 27 是一个非常两极分化的版本—— 一方面,国际版 iPhone 迎来了堪称「量大管饱」的 Siri AI 更新。 全局检索、屏幕感知、连续对话等等功能给好给满,更不用提这个全新的 Siri UI 了: 另一方面,国行机型迎来了近年来字面意义上「最贫瘠」的一次更新。 除了新壁纸、透明度滑块、节假日闹钟之外,国行 iOS 27 几乎没迎来任何有实际意义的 Siri 更新。 除此之外,天气 app 在 iOS 27 中也迎来了一波卡片改版: 而在一嘴带过的 macOS 27 预览版中,我们还见到了可以随意调整比例的 iPhone 镜像: 图|X @aaronp613 至于这个宽幅布局是给谁准备的,不言自明。 总之如果你恰好使用着外版 iPhone、拥有外区 Apple ID 的话,就可以享受到这套「中间下滑 Siri,左边下滑通知,继续下滑又是 Siri」的超绝连招了。 更重要的是,新版本的 Siri 也拥有了一个属于自己的 app。 它的主界面与我们熟悉的聊天式 AI 比如豆包、千问等等如出一辙,也可以切换成类似「小 X 记忆」的画廊模式: 比较可惜的是,由于今晚尝鲜的人很多,苹果的 AI 服务器不太稳定。 这导致 Siri AI 的一些深层功能(屏幕识别、总结文章、多模态生成)成功率不高,经常会出现连接报错的情况。 然而在正常运作的时候,新 Siri AI 的端侧指令处理速度是我们体验过的最快的—— 可惜这个速度只有搭载了 A19 Pro 的 iPhone Air 与 iPhone 17 Pro 系列才能体验到。 图|YouTube @Apple 说到 iOS 27 的改版,相机是不得不看看的应用。 非常遗憾的是,iOS 27 的相机并没有像部分爆料所说那样进行专业化升级,只是在 iOS 26 的基础上小修小改—— 与拍摄相关的二级菜单收纳在快门右侧,成为一个单独的显眼图标。 顶部的常用参数则换成了居中摆放,视觉上更为平衡。 UI 设计方面的改变见仁见智,但在 iOS 27 上,UI 只是个引子—— 在相机底部的模式栏滑动,我们会发现系统相机中赫然出现了一个名为「SIRI」的模式。 切换到 SIRI 模式,就可以像之前 Visual Intelligence 那样调用 AI 识别、分析、理解和搜索画面。 由相机出发,iOS 27 上还有不少 AI 方面的更新与影像有关—— 随 iOS 26 发布的图乐园获得了更新的设计,并可借助 Private Cloud Compute 处理更复杂的生成请求。 同时,除了原有的卡通、可爱的风格外,这一代图乐园终于可以生成写实风格的图像了: 在更新到 iOS 27 后,我们第一时间上手了全新的图乐园,需要注意:它目前只能用英语描述想要生成的图片效果。 我们上传了一张实拍照片,并要求图乐园生成一张带有 90 年代胶片质感、颗粒和眩光效果的图片。 等待数十秒后,图乐园给出了一张高度贴合描述的结果:画面风格完整,质感也相当真实。 如果不是放大细看细节,甚至很难第一时间发现明显瑕疵—— 但由于前面提到的问题,图乐园生图偶尔也会失败报错。 推测也是因为短时间测试的用户太多,后续正式版的表现应该会更为顺畅。 影像的另一个 AI 大更新藏在相册中——作为每次拍完照后调整图片的第一环,相册的重要性不必多言。 这一次,苹果将升级的消除、扩图与重构集成到了 Apple Intelligence Tools 中,与风格、裁切等功能并列在一级菜单里: 其中的重头戏,还是「重构」Reframe ——苹果称它来自 Vision Pro 相关技术的积累。 原理上讲,iOS 27 的「重构」很像是 iOS 26 中 3D 照片的进阶版。 当系统能够更清楚地区分照片中的前景、主体和背景后,用户就可以用手指拖动画面的视角和景别,照片的透视关系也会随之变化。 实际体验下来,重构功能的前后其实分成了两步。 第一步是预览。iPhone 会先用端侧的空间模型理解照片层级,并生成一个可以快速拖动视角的预览版本。 这一步速度很快,几乎可以实时响应手指操作: 但预览阶段的可调整角度比较有限,如果拖动幅度稍大,画面里的主体和背景偶尔就会出现一些滑稽的拉伸。 真正的生成发生在第二步——确认视角后,iOS 就会调用云端模型补全因视角变化产生的画面空缺。 这一步目前偶尔也会出现连接失败报错的情况,但只要顺利生成,用 20 秒左右就能得到一张相当不错的新照片: 哦对了,以上所有与 AI 有关的影像功能,都暂时与国行无缘。 只能说首发体验下来,iOS 27 不愧是近十年来国行和外版割裂程度最大的一代。 毕竟我们也极少见到国行 iPhone 17 Pro Max 安装更新不到 20 分钟、美版却足足安装了快一个小时的巨大差异。 至于什么时候我们能用上满血的 Siri AI 功能,还得是克雷格的那句话—— 图|YouTube @Apple
海外机构:宇树在重走比亚迪和大疆的路
机器人前瞻(公众号:robot_pro) 编译 | 江宇 编辑 | 漠影 机器人前瞻6月9日消息,今日,海外研究机构SemiAnalysis发布长文断言,宇树科技正在复刻比亚迪与大疆曾走过的硬件打法,并将借此主导全球机器人行业。 据该机构分析,宇树的战略脉络极其清晰:通过掌握核心零部件,先以低价产品打开研究与爱好者市场,再利用规模化制造和中国本土供应链反哺产品迭代,最终逐步蚕食更大的商业场景。 此外,该机构获悉,宇树极有可能在未来几周内,迎来其第1万台人形机器人的交付里程碑。 在过去的2025年,宇树年度营收实现335.36%的同比增长,毛利率逼近60%,并正将更多制造环节纳入自有体系,计划投入近20.22亿元用于具身模型研发。 最关键的是,其定价已远低于市场上其他人形机器人产品。 据该机构测算,面向海外市场,在过去12至18个月内,宇树G1人形机器人的售价已从5万美元(约合人民币33.8万元)骤降至2.73万美元(约合人民币18.4万元),部分交易成交价甚至降至2万美元(约合人民币13.5万元)。 而即便在这一价位下,其测算毛利率依然维持在67%左右。 ▲G1 EDU ADVANCED 人形机器人(29自由度)BOM成本与毛利率测算表(图源:SemiAnalysis) 这种依托供应链生态的“降维打击”,拉开了宇树与海外竞品的差距。 仅仅在三年前,宇树仍被界定为一家四足机器人公司。 而如今,G1不仅已进入真正可用的部署阶段,宇树手中还握有三款在研新设计,其中一款将直接对标海外头部产品。 反观海外市场,尽管特斯拉早在2022年就展示了Optimus原型机,但迄今为止,它与其他海外同行的产品大多仍处于持续打磨的“半成品”状态。 ▲Optimus原型机 一、比亚迪和大疆的剧本,正在宇树身上重演 理解宇树的关键,要先看懂比亚迪和大疆。 比亚迪的核心打法是:掌握BOM(物料清单)中最昂贵、最复杂的核心部件,并围绕它建立起对手无法企及的复合成本优势。 比亚迪最早切入的是电池电芯。电池一度占电动车BOM的30%到40%,如今该占比因比亚迪的努力而下降。比亚迪1994年成立时,切入的正是日本厂商因毒性问题退出的电池电芯赛道,此后苦练近十年内功,2011年才进入电动车市场。 彼时,中国电动车市场几乎不存在。2011年10月比亚迪推出首款纯电车型e6时,全年全国电动车销量仅8159辆,占新车销量的0.04%。 此后,比亚迪不断将电芯、驱动、电机、IGBT和SiC功率模块、变速箱、底盘以及发动机等关键部件收归自研自制。其中,IGBT和SiC功率模块属于电动车电控系统中的核心功率器件,从设计到制造的门槛都很高,比亚迪也是全球少数能将这类功率器件纳入内部制造体系的车企。到2010年代末,电动车绝大多数核心部件都已产自比亚迪自家工厂。 这种正向循环让比亚迪能够用新产品打开新市场。 刀片电池是其中的一个经典案例。此前的磷酸铁锂电池(LFP)便宜、安全,但能量密度低,只适合不出远门的叉车或定点返回的公交。2020年,刀片电池通过新的封装结构,将电池包每公斤的空间利用率提升了50%,一举让磷酸铁锂电池进入乘用车主流市场。 成果立竿见影:2020年刀片电池推出前,比亚迪新能源车销量为18.9万辆;2021年直接跳到60万辆;到2025年,比亚迪不仅稳坐全球电动车头把交椅,更在纯电动车产量上超越了特斯拉。 ▲比亚迪刀片电池发布后,全球电动车销量五年(2010–2025年)增长7倍(图源:SemiAnalysis) 其成本结构几乎无法撼动,比如2023年推出的海鸥售价仅约1.1万美元(约合人民币7.4万元),其新款在国内已接近8000美元(约合人民币5.4万元)。 比亚迪还进一步向上游延伸,与华友钴业成立冶炼合资企业,并在巴西“锂谷”直接拿下锂矿开采权。 比亚迪的规模优势甚至倒逼欧美采取保护措施。 大众汽车宣布其德国工厂史上首次关闭,斯特兰蒂斯(Stellantis)下调业绩指标,都将压力归因于中国电动车。美国更是将对华电动车关税提高到100%。 如今,比亚迪已庞大到拥有自己的远洋船队,用来向全球输送其最便宜且最好的电动车。 大疆的剧本更贴近当前宇树的节奏。 2013年前后,“有用的消费级无人机”还不是一个品类。当时的领军产品Parrot AR.Drone在CES上被归入电子游戏硬件,没有防抖相机、没有GPS,只拍得出640×480像素的照片和视频。 ▲AR.Drone 2.0 想搞专业航拍,要么掏近2万美元(约合人民币13.5万元)买Draganflyer X6,要么自己到处拼凑机架、电机、飞控和云台,零件费最高超过1200美元(约合人民币8123元),还得花几十个小时组装调试,炸机是家常便饭。 大疆Phantom 1在2013年1月以679美元(约合人民币4596元)横空出世,它没内置相机、没云台、只能飞10分钟、也没有实时图传。今天看是个半成品,但当时,它把门槛降到了自组无人机的一半,还免去了组装之苦。这一下就引爆了研究者、爱好者和早期专业摄像师的市场。 ▲Phantom 1 大疆的营收从2011年的400万美元(约合人民币2707万元),飙升至2013年的1.3亿美元(约合人民币8.8亿元)。 随后,大疆开足马力,率先自研飞控这一成本高、技术难度大的核心部件。当时,即便是批量采购,第三方飞控价格仍高达200至400美元(约合人民币1353至2707元)。此后,大疆又陆续将云台、电机、电调纳入自有体系。 大疆的每一代新产品,都几乎打开了过去无法触及的市场:2014年Phantom 2 Vision+集成了三轴云台,让稳定航拍不再是好莱坞团队的特权,小公司也能用来拍房产、录婚礼、做新闻;2016年的Phantom 4带4K、28分钟续航和前向避障,又打开了巡检、测绘、应急等企业级市场。 ▲Phantom 4 从2016到2017年,大疆拿下全球消费级无人机约70%份额,竞争对手3DR、GoPro Karma、Parrot被悉数挤出局。 至此,这套打法可以归纳为:先掌控一个核心部件,用不完美但便宜的产品争取一批愿意尝鲜的早期用户,借助供应链生态快速迭代,让每一代硬件解锁并吞食下一个更大的市场。 二、宇树:先把四足机器人价格打下来,再让“它”站起来 宇树的成长路径与大疆高度相似。它选择的那个“核心部件”,是执行器。 ▲图源:Thomas Godden 2016年,前大疆员工王兴兴在硕士论文中开发出低成本四足机器人XDog,随后以此为基础创立了宇树。 ▲王兴兴硕士毕业论文 正如比亚迪看电池、大疆看飞控,宇树将目光锁定在执行器——这个驱动机器人肢体运动的集成关节,其在人形机器人BOM中占比可达50%至70%。 宇树最早也是从学术圈的四足机器人起步。 当时,大学实验室想要一个有腿的机器人平台,通常得花7万到10万美元(约合人民币47.3至67.7万元)以上。宇树2018年推出Laikago售价4.5万美元(约合人民币30.4万元);2020年A1降到1.5万美元(约合人民币10.1万元);2021年Go1 Air起售价直接杀到2700美元(约合人民币1.8万元);如今的Go2不同版本起售价约1600至2800美元(约合人民币1至1.9万元)。 ▲(图源:ZooMax) 六年时间,其入门级四足机器人价格断崖式下跌了94%到96%,这让宇树从高校走入消费者,更是进入工业部署。 更关键的是,四足机器人的规模化让宇树在人形机器人所需的执行器、控制、供应商和生产流程上,积累了多年的实战经验。 2024年宇树发布的H1人形机器人,售价约9万美元(约合人民币60.9万元)。有接近宇树的人士透露,H1本质上就是一台“用两条腿站立的四足机器人”,其弯曲膝盖和行走方式都能看到四足机器人时代技术积累的痕迹。 H1证明了四足时代的技术积累能走多远,而真正颠覆市场认知的,是接下来的G1。 ▲王兴兴与“安卓之父”安迪·鲁宾(Andy Rubin) 三、3万到5万美元的G1,开辟了人形机器人的“安卓时刻” 在2024年,市面上几乎买不到一台现成的、价格可接受的人形机器人。 Agility Robotics的Digit才刚开始向工厂部署零星几台;Apptronik的Apollo尚处商业化前夜;Figure与宝马的合作,发货量还是个位数。 ▲从左到右依次是Digit、Apollo与Figure 而特斯拉Optimus压根不对外发售。 ▲Optimus最新产品曝光 国内,优必选的Walker、傅利叶和智元的早期产品虽已出现,但在价格和规模上均未达到宇树G1的水平。 宇树G1以3万到5万美元(约合人民币20.3至33.8万元)的定价,实现了“开箱即用”,这在研究界带来了轰动性的可及性变革。任何一个研究者都能告诉你,这是一个多么巨大的跨越。此后,这一研究群体又扩散到英伟达、苹果、Meta等科技巨头,这些公司均采购了数百台G1。 ▲宇树在2025年机器人峰会上的演讲 宇树已然成为全球人形机器人AI研究的主导硬件平台。 四、中国供应链生态,是宇树疯狂迭代的“外挂” 宇树还继承了中国汽车和无人机产业极为成熟的供应链基础。 我国2024年生产了3130万辆汽车,其中40.9%是新能源车;同时,此前无人机爆发催生出的超3000家零部件供应商,已能把无刷直流电机、驱动器、编码器、电池等通用机器人所需部件的制造工艺做得非常成熟。 如今,围绕人形和四足机器人的本土供应链更是快速成形——几乎每个省都有多家适配机器人的减速器、高扭矩电机厂商,全国已有约200家人形机器人公司共同滋养并受益于这个生态系统。 当然,一切都要回归到宇树对执行器的长期投入。不过,第一代产品远非完美。 五、早期质疑:QDD执行器撑不住“真实工作” 2024年的H1和早期G1并不好用。用户一旦推进它们去做真实工作,电机就频繁过热。 早期G1在双臂完全伸展时,只能短暂承载约2公斤负载,几秒钟后就必须冷却;即便双臂弯曲,承载2至3公斤负载也只能维持约2到3分钟。之后,机器人需要冷却30分钟才能恢复功能,恢复做重活要等整整一小时。 工作5分钟、冷却1小时,显然不是合格的劳动力。 问题根源在于宇树选择了一套更激进的执行器方案:QDD,也就是准直驱。它通常由一个无刷直流电机搭配低减速比行星齿轮箱组成,减速比多在个位数到20:1之间。 ▲行星齿轮箱结构示意图(来源:Unitree电机与Power Electric齿轮箱) 传统上,工业机器人偏爱谐波减速器这类高精度、高减速比的方案,用小电机与大齿轮箱来放大扭矩。而QDD反过来,用大电机与小齿轮箱,齿轮箱放大作用很小,电机得足够强。 QDD的优势显而易见:效率更高,可达95%至98%,而谐波减速器方案通常约为85%至90%;成本也更低,最多可低80%;同时,对碰撞等外力的顺应性也更好。 但短板也很致命:电机要直接扛下大部分扭矩,导致电流大、发热剧增。因此早期不少人认为,宇树的电机根本不足以支撑真实工作的可靠性。 ▲高温运行状态 六、用两年时间,让QDD的执行器超出预期 早期的质疑很合理,但宇树赌对了,并持续迭代。 降低发热,核心是让电机所需的电流降下来。其中一个关键,是让电机每转一圈的扭矩输出更平滑。 就比如,车轮有点歪的自行车,骑起来更费劲,因为每圈你都在和额外的阻力较劲。电机也一样,齿槽转矩和扭矩波动会造成微观的抖动,额外消耗的电流全变成了热。 宇树通过优化磁体和槽形设计、斜置磁极等方式,减少了这些浪费。 另一手方案,则是提高铜线填充率,用更粗、更密的线圈降低电阻,宇树称之为“低铜耗线圈”。 有意思的是,宇树在散热上反而设计保守:大部分机身被动散热,仅主控板和髋关节有主动风冷,膝关节用均热板。在其2025年10月的一次更新中,宇树才在骨盆区域加了主动冷却。 ▲膝关节采用铜质VC均热板散热 据推测,这是宇树故意为之:与其堆散热增加成本和复杂度,不如集中精力从根源上把电流和发热降下来。 七、QDD的真正杀招:数周级别的迭代速度 选择QDD,不仅是为了省钱,更是为了极致的迭代速度。 低减速比行星齿轮箱是标准工业品,拿普通滚齿机就能造,供应商遍地都是。而谐波减速器制造工艺极其复杂,涉及多小时的金属晶粒热处理、微米级精密滚齿等,日本谐波减速器龙头哈默纳科(HarmonicDrive)花了数十年才磨透,国内龙头绿的谐波在可靠性上至今仍被认为有差距。 宇树选择QDD,绕开了这个长达数十年的工艺垂直整合大坑。结果就是,宇树搞一次新的QDD设计,几周内就能拿到执行器样品。 作为对比,一家海外人形机器人公司定制一套电机和齿轮箱子系统,因供应链环节冗长,通常要3个月以上:几周确定规格,等6到8周样品,再验证、再下单。 这带来了更低的成本和惊人的迭代速度,以至于像骨盆主动冷却这样的硬件改进,能在极短时间内上线,外界几乎未曾察觉。 八、从几分钟就“歇”到能正经干点轻活儿了 如今,迭代后的G1和执行器,已经能胜任一些轻量但实打实的工作了。 在双臂弯曲时,G1可以持续10到15分钟搬运5公斤负载,这相比早期数据,负载翻倍,持续时间是原来的5倍。哪怕双臂完全伸展,也能举起5公斤坚持约1分钟。 G1的手臂仍欠动力,自由度也不够完全拟人,重活依然会过热,但这只限制了它能做什么样的工作,而非“能不能工作”。 据估算,除研究/爱好者销售外,宇树在2025年可能已向产业试点或真实部署交付了约250台人形机器人。 有公司已部署了30台G1,多家公司部署了5到6台。这些部署大概率仍受限于具身模型能力,因此文章在测算中采用了最保守的假设:100%远程遥操作。 目前,宇树机器人主要干的就是从A点搬到B点的轻质物料搬运,比如电商领域处理小于3到5公斤的料箱,或者只是移动空箱。这些活儿并非24小时全自动,大多还是远程操控。 但搬箱子这事儿,在经济上已经快跑通了。 九、算笔账:在物流搬箱子场景,G1成本已低于人工 以Agility Robotics的一个典型物流任务为基准,可以为宇树G1算笔账。 在这个任务中,Agility的Digit机器人充当自动化系统间的“桥梁”,把自主移动机器人(AMR)上的料箱取下放到传送带。人工干这活,大部分时间在等机器到位,所以Agility公开演示的每小时66个料箱效率完全够用。 料箱重约2到4公斤,负载轻、节拍低、失败可重试、无需精细操作,简直是当前水平机器人的完美任务。 Agility采用2:1的充放电比,相当于有效利用率是人的三分之二。一些正在部署宇树机器人的现场操作人员反馈,G1在该任务上吞吐量能追平Digit。 不过G1可靠性差点意思,通常运行10到15分钟就需要冷却5到10分钟,利用率约50%到67%。 测算用了极保守的假设:完全远程操控、15%服务费(工业界通常5到10%)、2年寿命、残值为0、每天只开两班。即使这样,G1在特定任务中时薪成本也已低于30美元(约合人民币203元)的人类劳动力。 ▲G1单位小时成本vs人工成本(图源:SemiAnalysis) 当然,宇树还不是完整解决方案。相比Agility有成熟的仓库管理系统协同、功能安全体系和自主能力,宇树还有很多环节要补齐。但在合适的业务场景下,哪怕只是全遥操作,它也已经跨过了经济可行的门槛。 十、物料成本仅8976美元,制造优势筑起护城河 经过完整的设计审查,并与每个零部件的制造商逐一沟通、多方核实后,G1的BOM成本预计压至8976美元(约合人民币6.07万元)。 在我国,机器人公司的供应商坐高铁几小时就到,样品当天或次日可达,垂直迭代以周而非季度计,零部件成本仍比海外同类低20%到40%。绝大多数美国机器人初创公司也已把硬件团队放在中国,连特斯拉Optimus也从中国供应链采购。 而即使在这样一个竞争激烈的中国生态里,宇树的垂直整合程度也十分突出。 它自研自制无刷直流电机、行星减速器、激光雷达和深度相机——在不少国产人形机器人公司那里还是靠外采。其自产电机成本可低至海外同类的30%到40%,自研齿轮箱也是全球最便宜之一。 在其IPO问询回复中,宇树明确称,规模生产赋予了它上游议价权,形成了持续的成本优势。 其四足机器人毛利率就从42.36%提升至55.49%,同时成本近乎减半。 ▲(图源:SemiAnalysis) 相较之下,优必选和智元等国内竞争对手仍在制造和总装上更多依赖代工厂或设计方案供应商,据传智元还将欧洲生产外包给了塞尔维亚的敏实集团。 而宇树在招股书中计划,将齿形设计、仿真优化、材料验证和高精度加工等更多核心环节进一步内部化。即便人形机器人都还未真正进入大规模量产,宇树已凭借先发优势,建立起了结构性的成本护城河。 结语:人形机器人的“比亚迪与大疆时刻”正在到来 当许多海外厂商还在原型机阶段打磨时,宇树已经盈利地卖出了数万台四足机器人,一手创建了人形机器人市场,并开始摸到真实工作部署的门槛。 比亚迪始于电池,大疆始于飞控,而宇树抓住了执行器。 随着宇树在多机型形态上持续加速,并不断加固其制造和成本壁垒,它可能以同样的节奏,打开一个又一个此前难以想象的机器人市场。 对全球机器人产业而言,宇树的IPO或许将成为一个历史节点:人形机器人正式步入成本、供应链、规模化与劳动力替代的残酷商业竞争。 来源:SemiAnalysis
9月巅峰对决!华为Mate XT2首创U型折叠方案:对战iPhone Ultra
快科技6月9日消息,博主定焦数码透露,华为新一代三折叠屏机型Mate XT2非凡大师将在今年9月发布,上市节奏刚好和同期亮相的苹果折叠屏iPhone Ultra形成对垒。 这位博主同时爆料,华为Mate XT2将会搭载行业首创的U型折叠结构方案,和三星推出的Galaxy Z TriFold三折叠的设计逻辑有本质区别,完全走出了自己的技术路线。 据悉,三星Galaxy Z TriFold采用的是G型折叠设计,左右两块屏幕往中间方向折叠,机身外侧还额外搭配了一块外屏,这款三折叠还有非常强的操作限制。 使用的时候必须先从左侧的屏幕开始折叠,之后才能再把右侧的屏幕弯折收合。如果用户不按指定顺序,强行先弯折右侧的屏幕,设备会直接弹窗提示请展开手机,从另一侧开始折叠,机身还会持续振动提醒,用户体验的灵活度并不算高。 这次华为Mate XT 2推出的全新U型折叠设计,大概率可以实现左右两侧的屏幕同时向内弯折收合,日常使用的灵活度会高很多。 除了结构层面的创新,华为Mate XT 2还会首发搭载麒麟9050系列旗舰芯片,出厂预装最新的鸿蒙7操作系统,软硬件适配度拉满。 这次迭代的Mate XT 2在技术自由度上更进一步,刚好和苹果首款折叠屏在同一时间节点同台竞技,今年下半年的万元级旗舰市场注定会迎来前所未有的激烈碰撞,给消费者带来更多顶尖的选择。
手机市场集体大跳水!网友调侃买手机现在也和买黄金一样了
快科技6月9日消息,一年一度的618大促正在全平台火热推进,苹果等头部手机厂商接连加入降价让利的行列,各家拿出的优惠力度一个比一个有冲击力,直接把上半年购机的性价比拉到了近年新高。 不少网友调侃,现在买手机的行情都和买黄金一样价格波动剧烈,这波降价幅度大到,很多年初喊着早买早享受刚换了新机的用户,深夜刷到促销价都要忍不住失眠半宿。 拿苹果iPhone 17系列来说,官方直降千元还只是基础优惠门槛,把平台补贴、以旧换新抵扣、店铺满减这些权益全部叠满之后,iPhone 17标准版直接下探到5000元以内的价位段,原本定价更高的Pro版本,到手价也只要6000元左右就能拿下。 业内人士透露,今年上半年整个消费电子市场需求偏冷,手机行业整体出货量不及预期,不少厂商手上都积压了库存,靠降价拉动销量成了当下为数不多的能快速消化库存的选择。 除此之外,每年的9月都是各大手机品牌固定的旗舰新品发布季,赶在全新一代机型上市之前,厂商都要想方设法清空现有老款的库存,给下半年即将登场的新机型腾出足够的仓储和定价空间。 不过业内也有共识,短期的降价冲量只是大促节点的特殊营销动作,放在更长的时间周期里,手机全产业链的成本上涨趋势几乎是势不可挡的。 小米创办人雷军之前公开提到,近两年存储芯片的涨价幅度非常大,未来两年整个内存行业的供货价格还会持续走高,大家如果近期有换手机的需求,越早入手越划算。
微信发布Skill 文档,数百万小程序,一夜之间变成了 AI 的手和脚
微信的 AI,终于动了。 就在苹果 WWDC 的同一天,微信做了一件可能比苹果更重要的事,发布了一份朴实无华的公告:《关于开发者接入微信 AI 生态的指引》。 从今天起,小程序开发者可以给出授权,让微信 AI 完成读取、操作和调用小程序的功能。 微信给了两种接入方式,一「自动模式」,门槛几乎为零,开发者打开一个开关,平台自己读源码、分析页面、搞懂小程序能干什么,然后 AI 就能直接上手操作,一行代码不用写。 另一种叫「开发模式」,开发者自己开发定制化的 Skill,通过审核后被 AI 调用。两种可以同时开启。美团已经宣布接入。 这不能只是理解成又一个新功能上线,而是要看到,微信正在把它的整个生态——数百万小程序、微信支付、服务通知、公众号——变成 AI 的执行层。 扒一扒 Skill 文档,微信 AI 是怎么调小程序的 微信开放文档里公开了小程序接入 AI 的 Skill 技术规范,仔细看,里面藏着很多设计细节。 首先,架构本质上就是 MCP,做过 AI 开发的人会立刻认出来:mcp.json 声明每个原子接口的功能和参数,SKILL.md 描述整个业务流程怎么跑,这和 Claude、Cursor、VS Code 里的 MCP+Skills 架构几乎一模一样。微信没有另起炉灶,而是采用了行业正在收敛的标准。 其次,微信给了一套很清晰的「注意力权重」体系。AI 在决定调用哪个接口、生成什么参数的时候,最优先看的是接口返回的 content(五星),其次是 mcp.json 里的接口 description(四星)和参数 description(四星),SKILL.md 排最后(三星)。这意味着开发者写在哪里比写了什么更重要——同样的一条规则,写在接口返回里和写在 SKILL.md 里,AI 给的权重完全不同。 第三,接口返回有一条核心规范:「事实+动作」两段式。先告诉 AI「发生了什么」,再告诉它「下一步做什么」。如果只写动作不写事实,AI 可能把「展示卡片」理解成「准备调下一个接口」而跳过用户确认。这是一个踩过很多坑之后才会总结出来的规则。 第四,参数传递优先用 ID 而非自然语言。比如门店传 storeId 而非省市街道,饮品传 drinkId 而非饮品名称。这直接减少了 AI 的推理负担和参数歧义。 这套设计透露的信号是:微信已经在实战中跑过足够多的 case,知道 AI 调用外部服务的坑在哪里,并且把这些经验固化成了开发者规范。 实际上,如果对比同样以「生态」著称的微信小程序和苹果应用,微信对自家生态有一种「上帝视角」,这是一切实现的前提。 怎么比苹果 AI 还重要 今年苹果在 WWDC 上发布的新版 Siri AI,令人有些失望。尽管底层接入了 Google Gemini,Shortcuts 支持自然语言创建,却没有引起太多讨论。 细看就会发现差距:苹果做的是让 AI 在 iOS 系统内协调一些原生功能,一旦涉及到第三方应用、那些装在你手机上的 App,它就会捉襟见肘。 比如饿了么,它的代码跑在饿了么自己的服务器上,苹果读不了。Siri 想调用饿了么,必须饿了么的工程师主动来对接 App Intents 这套接口,一个一个谈、一个一个接,中间耗时耗力。 而微信做的是让 AI 直接操作数百万个第三方服务,因为小程序不一样。每一个小程序的代码,从开发者提交、到微信审核、到最后在用户手机上运行,全程都在微信的技术体系里。微信在审核阶段就能把代码扫一遍,自动分析「这个小程序有哪些页面,能干什么事,输入输出是什么」。 所以「自动模式」才能成立——开发者一行代码不用写,开个开关,微信自己就能把你的小程序翻译成 AI 可以调用的工具。微信的基础架构天然支持这样做,它拥有「上帝视角」,能够基于中心化实现调度。 这个架构优势,苹果没有,Google 也没有。 同样值得注意的,还有前阵子传出来,微信正在与华为、荣耀、小米、OPPO、vivo 合作推出 A2A(Agent-to-Agent)助手能力,用户可以通过手机语音助理直接发起微信音视频通话或发消息。 对内,微信 AI 可以调用数百万小程序;对外,手机厂商的 AI 助理可以调用微信。微信正在成为 AI 时代的超级连接器——不只是一个做了 AI 功能的 App,而是一个让所有 AI 都能接入的服务中枢。 「微信 OS」的旧预言 小程序推出的时候,很多人戏称微信要做「微信 OS」。当时这更像是一个修辞——小程序替代了一部分 App 的功能,但本质上还是一个「轻应用平台」。 更偶然的是,当时设计的中心化审核机制,是出于控制质量和安全。但九年后,这个当初被批评为「管控过度」的设计,意外地成了 AI 时代的基础设施优势。分布式的 App 生态(苹果/Android)当时看起来更「自由」,现在反而成了 AI 接入的障碍。 一个旧的预言,由于新时代的技术——AI——的出现,有了颠覆性的变化。 之前写 OpenClaw 和飞书的时候,我提过一个判断:IM 是 AI Agent 最天然的入口,因为对话本身就是人与 AI 最自然的交互方式,而 IM 自带的服务生态(机器人、支付、小程序)让 AI 不只能「聊」还能「做」。飞书已经在往这个方向走,上线了 Bot API 增强和 AI Agent 节点。 不过,飞书是企业协作工具,覆盖的是办公场景。微信有着截然不同的广度——14.32 亿月活,数百个细分领域的小程序,从点外卖到挂号到买机票到缴水电费,几乎覆盖了一个人日常生活的全部服务需求。 如果微信 AI 真的能流畅地调用这些小程序完成任务,那它就不再是一个聊天工具加了 AI 功能,而是一个用自然语言操作的操作系统。 用户说一句「帮我订明天下午三点从北京到上海的高铁」,AI 拆解意图,调用 12306 小程序查票、选座、微信支付完成下单,全程不出微信。这条链路理论上今天就可以跑通。 当然,理论和现实之间还有距离。AI 调用涉及支付场景的服务,容错率接近零——点错一杯咖啡是小事,买错一张机票就是大事。底层模型的准确性要求远高于对话场景。这也是全球 AI Agent 落地面临的共同瓶颈:从「能聊天」到「能办事」,中间隔的不是技术指标,是信任。 但微信至少做对了一件事:它没有从零搭建服务网络。这些年来,ChatGPT 在做的事是先有一个聪明的脑子,再一个一个去接 Shopify、DoorDash、Stripe,每一个都是从零建立的连接,到今天交易相关查询的占比还不到 3%。 真正将要发生的变化,对大多数用户来说,可能是悄无声息的。某一天你在微信里敲打一句「帮我订今晚九点去上海的票」,然后它就订好了,你甚至不知道背后调了哪个小程序,走了什么支付流程。 这种「无感知的完成」,才是AI Agent真正成熟的标志,微信离这一步,比任何人都近。
第一批 Agent 员工上岗,腾讯云想帮企业把它们安顿好
前几天,腾讯云与智慧产业事业群(CSIG)CEO 汤道生和腾讯首席 AI 科学家姚顺雨谈到「AI 下半场」时,姚顺雨提出一个判断: AI 方法论逐渐成熟后,更重要的是找到真实问题和真实场景。对企业而言,模型能力只是起点,最终买单的是场景、上下文和可运行的系统。 围绕这个判断,我们会发现它其实也是理解当下企业 AI 落地的切入点。而在这场对话之后,腾讯云也密集发布了一系列产品,恰好给企业级 AI 的进展提供了一个很好的样本。 过去企业采购云服务和 SaaS,本质是采购 IT 能力;到了 Agent 阶段,引入 AI 更像是在建设一套新的生产系统。换个偏企业管理的说法,腾讯云正在扮演企业 Agent 时代的总工程师。 它要做的,是把场景、模型、知识、安全、记忆、成本和运行体系放到同一套系统里。 沿着大会提出的三个能力看,腾讯云的思路就比较清晰了:场景连接力解决 Agent 如何真正嵌入业务流;工程驾驭力解决 Agent 如何安全、稳定、可靠地运行;模型驱动力解决模型能力、成本与规模化部署问题。 三者合在一起,构成了腾讯云推动 Agent 落地的三驾马车。 Agent 既是新入口,也是新工位 互联网历史上,技术真正改变行业,往往经历同一条路径:先出现新能力,再进入高频场景,最终融入商业系统。 Agent 也不例外。 所谓场景连接,关键不在于增加多少个 AI 入口,而在于 Agent 能否沿着企业原有业务流进入组织。 腾讯的优势在于,它既有微信、企业微信、元宝、腾讯会议这些高频触点,也有 WorkBuddy、CodeBuddy、ima.copilot 、WAND、腾讯 AI 原生营销云、腾讯云 Mall、天御风控 Agent、真人剧 Agent、DatabaseClaw 等通用和垂类 Agent 产品。 ·腾讯会议 举例而言,会议是很多企业最密集的信息入口。过去会议效率低,常常卡在三件事上:听不清、听不懂、效率低。腾讯会议这次讲的 AI 能力,正好围绕这三件事展开。 在声音层面,腾讯会议声链通过纯软件方案,让同一空间内多台电脑组成联合拾音系统,解决啸叫问题,为 AI 提供更完整的会议上下文。 跨语言沟通交给 AI 同传。它通过降低跨语言沟通成本,让参会者使用熟悉语言交流,同时兼顾音色保留和低延迟体验。 会议真正的价值,通常发生在会后。智能录制将录制、转写、纪要和待办串联起来,元宝纪要负责实时理解会议内容,「问元宝」支持会中会后自由联网追问。腾讯会议还开放 Skill、CLI、MCP 等能力,方便企业 Agent 调用会议上下文。 这意味着会议不再止于沟通,而成为后续工作的起点。课堂内容可以自动整理成学习资料,团队例会也能自动生成纪要、检查待办并发送邮件。Agent 进入沟通流,本质上是在把大量非结构化信息转化为可调用、可追踪、可复用的工作资产。 ·MAGIC AI 原生营销云 如果说沟通场景解决的是组织内部信息如何更顺畅地流动,那么增长场景面对的则是另一个更直接的问题:企业如何更高效地找到客户、理解客户,并持续创造增长。 MAGIC AI 原生营销云的核心,不是增加几个 AI 功能,而是让 Agent 贯穿营销全链路。从机会挖掘、内容生成到用户互动和数据分析。过去一个活动上线往往需要多角色协作和数周准备,如今则希望把重复沟通、配置和复盘纳入统一系统,实现从营销工具集合,到智能营销平台的系统性进化。发布会上将其概括为四大能力:知客户、懂运营、会决策、能执行。 知客户,是理解客户状态和互动历史;懂运营,是沉淀企业营销经验和规则;会决策,是针对人群、商品和渠道生成更优策略;能执行,则是在权限和审批框架下推动营销活动落地。 ·AI 原生云 Mall 营销之后,品牌和零售企业更要经营数字交易阵地,背后涉及商品管理、会员运营、活动配置、导购服务和售后经营等大量工作。AI 原生云 Mall 的强大之处,在于让 Agent 进入品牌经营过程。 云 Mall 2.0 的关键词是千亿底座、AI 原生和让经营自己跑起来。通过「千亿级交易底座+Agent 能力体系」双轮驱动,从「交易承载」全面跃迁至「智能经营」。 千亿底座强调交易稳定性和安全性,经过大规模交易场景验证;AI 原生则体现在 1+7 的 Agent 架构上:一个经营分析 Agent 负责洞察问题,七个执行 Agent 覆盖商品、内容、会员、营销、分销、门店和导购等环节,关键操作仍保留人工审批。 更值得关注的是 Agent 协作。比如发现商品滞销后,云 Mall 可以调用营销云完成策划、内容生成和投放,再将结果回流分析。未来电商运营不只是单个 Agent 工作,而是多个 Agent、多个系统之间的协同。 ·天御风控 Agent 天御风控 Agent 则对应风险控制场景,覆盖注册登录、营销活动、支付诈骗、黄牛刷单等业务,通过微信、企业微信、网页等入口接入,承担实时分析、风险判断和持续监控等工作。 ·腾讯云 WAND 此外,内容生产同样是场景连接力的重要部分。 腾讯云 WAND 面向电商、短剧、漫剧、短视频、赛事直播等场景,把生成、理解、处理和编码放进一套能力体系里。WAND-Create 负责电商图、短剧、漫剧等内容生成,强调业务可用性和风格可控;WAND-EraseVibe、WAND-Enhance、WAND-Codec 分别处理无痕擦除、画质增强和编码压缩。 赛事直播场景中,WAND 提供一站式 AI 制播方案 — 一场比赛进来,AI 自动完成解说生成、精彩集锦生成、横屏转竖屏、多语种字幕、画质增强和实时转码分发。 ·真人剧 Agent 真人剧 Agent,则推进到更复杂的叙事生产。 相比普通营销内容,真人剧涉及角色、剧情、场景、分镜、表演、后期和分发等完整链路。发布会上展示的「祝英台开着赛车来到发布会现场」Demo,全程无需演员、摄像机和实地取景,体现的是 AI 对真人内容生产成本的重构能力,而不只是视觉噱头。 短剧正在走向工业化生产。真人剧 Agent 面向短剧生产与出海、品牌营销和平台集成三类需求,覆盖剧本创作、选角定妆、场景生成、分镜脚本、拍摄剪辑和二创等环节。 它还能自动生成符合物理逻辑的一致性场景图,减少 AI 视频常见的场景跑偏问题,并通过人脸融合和口型驱动降低多语言翻译与角色本地化成本。 影视剧本质上是一套复杂协作系统。Agent 要做的不只是生成内容,还要理解角色关系、剧情走向、场景限制和制作流程,在创意表达与工业化生产之间建立连接。 早期电影从舞台记录走向镜头语言,经历了剪辑、特写、声音和特效等技术演进,最终形成完整工业体系。今天 AI 进入真人剧,也可能从加速单个环节开始,逐步影响剧本开发、素材管理和内容分发。 数字剪辑、CG、虚拟拍摄曾改变电影工业的生产方式。今天的 AI 也类似,它未必替代创作者,未必替代所有表达判断,却正在重塑内容生产效率。 把这些产品放在一起看,腾讯云的场景连接力就变得愈加具象化:会议连接组织上下文,营销云连接客户增长,云 Mall 连接交易经营,天御连接风险控制,WAND 和真人剧 Agent 连接内容生产等等。Agent 沿着这些高频业务流进入企业,才能获得真实反馈并创造价值。 想长期上岗的 Agent,得先学会守规矩 过去二十多年,视频、游戏、电商、移动办公等产业的发展,都离不开云计算提供的弹性资源和基础设施。 到了 AI 时代,云的角色进一步升级。企业部署 Agent,不只是调用模型,而是在搭建一套包含算力、上下文、工具调用、权限、记忆、监控和审计的运行体系。 Agent 时代总工程师最重要的工作,是把这些制度、边界和基础设施设计好。从这个角度看,工程驾驭力解决的不是单点功能问题,而是 Agent 能否进入生产环境、能否长期运行的问题。 首先是知识。企业知识通常分散在文档、会议、IM、制度、培训材料、业务系统和专家经验中。Agent 要真正服务企业,需要先把这些分散信息沉淀为可理解、可调用、可追溯的知识底座。 ·腾讯乐享 比如腾讯乐享强调 AI 原生的 Agentic 知识库,让企业知识从静态资料变成可执行的工作台。它可以统一纳管多格式、多来源知识,通过 AI 巡检、AI 评审和权限管理提升知识质量,并与 WorkBuddy 等工作空间连接,让知识可以直接进入任务执行。 ·ima 同步亮相的 ima 更偏向 Agent 时代的知识引擎。 ima 知识号能够让专业知识被 AI 搜索、引用和调用。知识号已经覆盖金融、法律、教育等 20 多个行业,相关信源累计应用次数超过 1.4 亿次,并已在海关、医疗等场景形成具体使用案例。 据悉,杭州萧山海关把 500 多篇海关法律法规、公告和旅客高频问答整理到知识号里,旅客通过二维码即可提问;医院药师则把用药指南、专家共识和诊疗方案放进知识库,医生和患者可以通过拍照、语音等方式获得参考信息。 ima 知识号不只面向人阅读,也面向 Agent 调用。知识可以被阅读、被对话,也可以被封装为 Skill。ima Skill 广场让创作者把方法论和工作流变成可被 Agent 调起的能力,比如合同审查 Skill、行情分析 Skill 等。未来 MCP、API 等 Agent 时代的知识产物,也可以成为知识分享的一部分。 最近 ima 还推出了专属知识Agent——copilot,具备长期记忆、全场景感知能力,基于用户使用 ima 所产生的数据自主扩充知识体系,沉淀并支持自定义拓展skills,自动完成复杂知识工作,从工具进化为越用越懂你的伙伴。 除了个人知识工作场景,没有记忆的 Agent 也很难成为企业工作系统的一部分。它可以完成一次任务,却难以理解历史任务、组织偏好和长期目标。企业需要的是能够持续积累经验的智能体。 ·腾讯云数据库 Agent Memory 腾讯云数据库推出的 Agent Memory 将记忆分为短期记忆压缩、长期记忆沉淀和团队记忆组织化。短期记忆管理上下文和任务状态;长期记忆沉淀用户习惯与方法;团队记忆支持组织级知识共享与传承。团队记忆进一步划分为员工私有域、部门协作区和组织全局库,既保护个人知识资产,也沉淀企业级 SOP 和组织经验,避免核心知识流失。 腾讯云数据库自研符号化压缩和上下文卸载能力,可以在长任务场景下帮助 Agent 提升 30% 的任务成功率,同时节省 30% 到 60% 的 Token 成本。并通过独创的四层渐进式记忆提取方案,显著提升了 OpenClaw 的长期记忆能力。在 PersonaMem 测评数据集上,OpenClaw 原生记忆评测得分从 48% 提升到 76%。 ·AICC 可信集群 而 AICC 可信集群通过 TEE 可信集群、端到端加密和可证明安全能力,将高性能推理、安全保障与运维优化整合为一站式服务,帮助企业以更低成本快速获得可用、可解释、可审计的安全推理环境。 这些变化也指向了企业级 AI 与消费级 AI 的差异。消费级 AI 追求像人,企业级 AI 更要像组织:懂分工、守边界、能协作、可复盘、有交付。企业最终需要的 AI,要能在权限、流程和成本约束下稳定工作。 跑得通、用得起,才是企业 Agent 的成人礼 企业 Agent 面临最重要的问题,是成本。很多企业并非不知道 Agent 有价值,但一旦进入规模化阶段,很快会遇到现实约束:Token 成本难控、部署门槛高、推理调用贵、数据检索慢。模型能力不再只看效果,还要看单位任务成本、响应速度和 ROI。 因此,模型驱动力关注的不只是模型本身,还包括多模型智能路由、按用量控制成本,以及训练、部署、推理和数据检索效率。 开源 Agent 框架虽然能力丰富,但安装部署门槛较高,长期运行不稳定,成本也不容易控制。尤其是 Agent 执行任务时需要调用模型,盲目调用大模型,会让 Token 成本快速上升。 ·Lighthouse Lighthouse 的角色,是个人云端助手的云端底座。 它本身是轻量服务器产品,过去主要降低用户上云门槛;到了 Agent 场景,它进一步变成 7×24 小时在线的云端工作空间。其产品设计强调轻体验、轻应用、轻投入和轻管理,希望把云端 Agent 的部署、运行和管理复杂度降下来。 如果说 Lighthouse 解决的是 Agent 怎么跑、怎么长期在线、怎么降低部署和调用门槛,那么 CFS Turbo 解决的是 Agent 规模化运行背后的数据底座问题。 Agent 的运行不仅依赖算力,也依赖数据。长上下文、知识检索、多模态处理、模型训练和推理缓存,都对存储性能和数据流转效率提出更高要求。 ·文件存储 CFS Turbo 文件存储 CFS Turbo 定位为高性能并行文件存储,面向大模型训练、推理和 Agent 场景。它提供统一的数据平台,支持从数据注入、训练到推理和归档的全流程,并通过标准文件接口和 S3 接口减少数据搬运成本。 同时,CFS Turbo 提供冷热数据分层和元数据检索能力,在降低存储成本的同时提升海量文件检索效率,为知识库、RAG、多模态生产和模型推理提供支撑。 换句话说,前者让 Agent 更容易落地,后者让 Agent 能够规模化运行。两者共同构成企业 Agent 时代的重要基础设施。 而结合开头姚顺雨的判断,腾讯云这次发布的重点,不只是推出一批 AI 产品,而是在尝试把 Agent 从工具变成企业系统的一部分。 沟通需要 AI 协作入口,增长需要 AI 原生营销云,交易需要 AI 原生云 Mall,风控需要天御风控 Agent,内容需要 WAND 和真人剧 Agent,企业级运行需要知识库、可信集群、Agent Memory、Lighthouse 和 CFS Turbo 等基础设施。 单独看,它们是不同产品;合在一起,则更接近企业所需的 AI 生产系统。 作为企业 Agent 时代的总工程师,腾讯云的价值也逐渐浮现:既要理解企业业务流程,也要提供模型、算力、安全、记忆和系统集成能力;既要让 Agent 进入沟通、营销、交易、内容和风控等高频场景,也要保证这些 Agent 能在权限、成本和安全边界内长期工作。 热知识,企业看重的并非 Agent 本身,而是最终能够带来的业务结果。Agent 能力再强,如果进不了业务流程、接不上企业知识、无法满足安全要求、成本又难以控制,最终仍然很难形成稳定价值。 AI 下半场的竞争,最终会落到具体业务流程中。很多技术进入企业都会经历同样的过程:从看起来聪明,变成用起来可靠;从替人做事,变成与组织一起工作。 历史上的每一次技术普惠,都是从走下神坛、卷起裤管开始的。今天企业级 AI 也只有在明确产出、安全边界和商业约束中反复验证,才算真正度过从草莽走向成熟的成人礼。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。