行业分类:
加载中...
头条分类:
加载中...
BEYOND Expo 2026:机器人、智能眼镜、Agent物理AI如何落地?
文丨吕哲彤 如果说,过去两年的AI叙事更多围绕大模型、算力和应用入口展开,那么在BEYOND Expo 2026开幕式上,我们注意到,AI正一步步从数字世界走向物理世界;从屏幕、文本和云端模型,走向机器人、智能眼镜、空间计算,在现实世界中执行具体任务。 5月27日,亿邦AI受邀参加了在澳门举行的2026 BEYOND国际创新科技博览会(BEYOND Expo)。本届博览会以“AI:数实共生”为主题,聚焦人工智能从数字系统走向物理世界的产业进程,围绕具身智能、机器人、空间计算、AI Agent、开放生态和全球资本等方向展开讨论。 开幕式在澳门巴黎人酒店·巴黎人剧场举行,1000余位来自多个国家和地区的嘉宾参与,参会嘉宾涵盖企业高管、创业领袖、投资机构代表、地方政府代表、国际合作伙伴及媒体等。 开幕式的几场演讲与对谈共同指向一个问题:当AI不再只是“回答问题”,开始理解环境、调用工具并执行任务,产业需要怎样的硬件、生态和全球化能力,实现AI在真实物理世界的落地? BEYOND Expo联合创始人贺建东表示,BEYOND Expo 2026展区将汇聚近800家参展企业,既包括大型科技企业,也首次引入OPC(一人公司)等更小型的创新主体,让独立创业者和个人创作者与头部品牌同场展示。 贺建东谈到,亚洲不仅拥有AI软件和模型创新,也拥有先进制造、硬件创新和基础设施能力,能够为AI进入物理世界提供重要支撑。从芯片、硬件到物理AI,数字智能要真正走向现实世界,需要能够承载和制造它的物理基础。 ▎英伟达:物理AI需要“三台计算机”,99%的准确率还不够 英伟达机器人与边缘AI副总裁Deepu Talla发表了主题演讲。他认为,将AI应用于机器人领域是一项艰难的挑战,因为物理AI对精度的要求极高。 “对于数字AI,例如 ChatGPT或Gemini,如果模型能在总结摘要、撰写邮件等任务中达到99%的准确率,人类可以补足最后的1%;但在物理世界,机器人完成任务的整个过程中,通常没有人类来为它兜底。这对物理AI的准确率提出了极高的要求。” 在他看来,要解决这一问题,需要“三台计算机”:第一台计算机用于训练机器人大脑,承担高强度计算;第二台计算机用于在仿真环境中测试机器人大脑,这种方式更安全、更快速,也更经济;第三台计算机则部署在机器人本体的内部,作为机器人的大脑,实时处理任务。 ▎张涛:B端机器人是一场“多轮博弈” 普渡机器人创始人兼CEO张涛分享了自己的创业经历、普渡的战略选择、全球化路径,以及对具身智能和人形机器人的判断。 “普渡之前我做的机器人偏C端,而普渡我们选了B端。做C端产品如果第一款产品没有赢,后面很难再有机会;做B端有点像多轮博弈,哪怕刚开始产品不那么成功,也可以通过后续打磨,让产品越来越符合客户需求,用时间换空间。” “同时,B端竞争需要公司成为六边形战士,需要很强的技术、产品、商业化、战略和组织能力,我觉得我们在这些综合维度上赢的概率会更高。” ▎Mark Nicholas Cutis:中国企业出海,不能只靠技术 阿布扎比投资委员会(ADIC)董事总经理兼首席执行官办公室战略项目高级顾问Mark Nicholas Cutis的对谈提及了如何看待亚洲科技创新,AI对投资机构和企业的影响,以及亚洲科技公司在全球化过程中面对的机会与挑战。 Mark表示,ADIC最近梳理了112家中国机器人公司,并试图从中筛选出最值得关注的前10家。作为投资人,他们评估公司时不仅看技术是否优秀,更关注CEO是否灵活、是否真正具备商业判断和适应能力。他认为,许多中国创业者技术能力很强,但在品牌出海方面经验不足。 ”你不能因为一套打法在深圳有效,就把它原封不动地照搬到斯图加特。这是思维方式的问题。”他强调,企业出海时应尊重文化差异,与当地的合作伙伴建立信任。真正的执行力不只体现在技术层面,而是围绕愿景组织团队、坚守商业伦理,最终实现全球化落地。 ▎徐驰:智能眼镜的杀手级应用,是全天候个人AI助手 AR眼镜品牌XREAL创始人兼CEO徐驰分享的核心主题是:智能眼镜是否会成为AI融入物理现实的最终入口,并迎来类似iPhone的历史性时刻。 “我认为眼镜只需要一个杀手级应用,那就是全天候的个人智能助手。随着大模型的多模态能力和智能体变得越来越强,你未来真正需要的不是一个个天气、导航、翻译的独立App,而是眼镜里住着一个全天候陪伴你的AI助理。它用你的第一视角去洞察世界,在最懂你的基础上,主动给你提供建议。” 针对智能胸针、戒指、项链等设备也可能成为AI Agent入口的观点,徐驰认为眼镜有两大优势: 1 眼镜适合全天候佩戴,是Always-on(随时在线)设备;而手机和电脑更多是Instant-on(需要用时才会打开)。 2 眼镜能够获取用户的第一视角和注视点信息。相比胸针等设备,眼镜更能判断用户真正关注什么,从而帮助AI更准确理解用户意图。 ▎Matt White:AI行业将走向“意图工程” Linux基金会全球AI首席技术官Matt White主要谈及了开源AI、AI Agent 的系统架构、安全风险,以及中国AI生态在全球创新中的角色。 谈到开源与闭源之争,Matt认为,学术界长期以来就有开源的科学传统。虽然现在全球AI论文数量不断增加,但出于商业考虑,一些闭源机构论文中的技术细节反而越来越少。 不过,他指出,开源模型与闭源商业API之间的差距正在快速缩小。闭源和开源会像Windows与Linux一样长期共存。由于开源社区复制和迭代非常快,许多AI领域的创新很难长期保持封闭。 他还提出,行业正在从“提示词工程”(prompt engineering)走向“上下文工程”(context engineering),未来还会走向“意图工程”(intent engineering)。也就是说,人类需要更清晰地表达意图,而系统会自动处理更多上下文和执行细节。 以开幕式为起点,BEYOND Expo 2026在5月28日至30日围绕七大舞台推进多项议程,汇聚近800家国际企业参展。大会设置了BGlobal峰会、国际投融资峰会、物理AI峰会、数字AI峰会、日本科技论坛、韩国科技论坛、亚洲-欧洲科技论坛、亚洲-拉丁美洲科技论坛、SheTech女性科技峰会、Web2+3峰会、AI Beauty & Health峰会以及商务对接会、BEYOND Awards、极限速投和BEYOND HACK DAY等板块,覆盖技术展示、产业交流、跨区域合作、投融资对接、开发者生态和创新项目展示等方向。 从物理AI的技术演进,到具身智能的产业落地,再到空间计算、AI Agent、全球资本、开发者生态和跨区域合作的参与,BEYOND Expo 2026将以多个维度呈现AI从数字系统走向物理世界的产业路径。 人工智能正在从屏幕、文本和云端模型,进一步走向机器人、可穿戴设备、空间计算、产业系统和现实世界执行,这也将成为本届大会接下来多项议程持续展开的核心主线。
宇树科技IPO过会:拟募资42亿元,腾讯、阿里持股
凤凰网科技讯 6月1日,上交所上市审核委员会召开2026年第31次上市审核委员会审议会议,审议结果显示,宇树科技股份有限公司首发符合发行条件、上市条件和信息披露要求。 招股书披露,本次发行前宇树科技总股本3.64亿股,拟公开发行不低于4044.64万股,新股发行比例不低于10%。拟募资42.02亿元,用于智能机器人模型研发等项目。 宇树科技前十大股东合计持股71.50%。董事长王兴兴直接持股23.82%,为第一大股东;股权激励平台上海宇翼持股10.94%;美团系汉海信息持股7.61%,为第三大股东,美团还通过Galaxy Z、成都龙珠分别持股1.02%、1.02%,合计持股9.65%。 宁波红杉持股6.21%,为第四大股东;红杉中国旗下厦门雅恒持股0.90%,合计持股7.11%。顺为资本关联公司Astrend IV持股4.42%,为第五大股东。经纬创投通过经纬壹号、经纬叁号合计持股5.45%。 本次IPO保荐人中信证券,通过金石成长、中证投资合计持股4.49%。北京机器人产业发展投资基金、嘉兴骅茂、天津君万弘毅分别持股3.83%、3.19%、3.07%。 此外,腾讯、阿里、蚂蚁亦现身股东名单,其中,腾讯通过腾讯科技(上海)有限公司持股0.60%;阿里通过杭州灏月企业管理有限公司持股0.45%;蚂蚁通过上海云玚企业管理咨询有限公司持股0.22%。 招股书显示,在表决权差异安排下,王兴兴直接持股部分表决权比例为63.55,结合控制的上海宇翼,合计控制表决权比例为68.78%,为控股股东、实际控制人。本次发行后,其合计控制表决权比例将降至不超过65.31%。 业绩方面,2023年至2025年,营业收入从1.59亿元增至16.99亿元,复合增长率226.78%;扣非归母净利润从-1801.91万元增至5.91亿元;主营业务毛利率从44.22%升至60.13%。 公司最新披露,2026年一季度实现营业收入4.23亿元,同比增幅回落至68.49%;受研发费用、销售费用等大幅增加影响,扣非后净利润由上年同期的8483.65万元降至4025.36万元,同比下降52.55%。
BEYOND Expo 2026观察:AI硬件火爆,中东主权基金开始筛选中国公司
在大模型时代,AI产业的竞争主要集中在算法和算力上,但一旦AI从软件走向硬件,需要的产业能力就不同了:造机器人需要精密制造和成熟的零部件供应链,做AI眼镜需要光学、声学、芯片和轻量化工艺的协同。 作者:郑晨烨 封图:图虫创意 在BEYOND Expo 2026开幕式上,英伟达公司的机器人与边缘计算副总裁Deepu Talla谈及AI(人工智能)从软件走向硬件的门槛时表示,在数字世界里,AI犯错的代价很低,因为一封写错的邮件可以重写一次,一张不满意的图片也可以重新生成,但在机器人和自动驾驶这样的物理AI场景中,犯错的后果可能会很严重:机器人的一次抓取失误可能就会摔坏产品甚至对人造成伤害,一辆自动驾驶汽车判断失误一次就可能会酿成交通事故。 或者说,在物理AI场景中,由于没有“人”的兜底,准确率必须接近100%。这也是过去几年AI在文本、图像和代码领域进展很快,但在工厂、医院和道路上的落地远比预期慢的主要原因。 BEYOND Expo是亚洲规模最大的国际科技博览会之一,由澳门科技总会创办,每年在澳门举办,至今已连续举办六届,今年这一届有近800家企业参展。 经济观察报记者在展会现场注意到,今年参展密度最高的品类是机器人和AI眼镜,其中人形机器人相关参展企业超过18家,AI眼镜相关参展企业至少6家。过去一年多来,AI开始从屏幕和对话框走进机器人、眼镜这类硬件设备,不过从记者在展会现场的体验来看,大多数产品的成熟度仍有不小的提升空间。 产业趋势在变,资本的流向也在调整。阿布扎比投资委员会(ADIC,一家中东主权财富基金)董事总经理Mark Nicholas Cutis也在展会开幕式上说,ADIC已经梳理了112家中国机器人公司,正在从中筛选10家作为投资目标。另外,英伟达也在加大对AI硬件创业公司的投入,并在本届展会上带来了超过50家合作伙伴和初创企业参展。 信号很清晰,过去两年高度集中在大模型和算力上的行业资源,正在向AI硬件方向转移。 机器人和AI眼镜 每天工作10小时,制作数百杯咖啡,单杯耗时约100秒,至今没有出过一次操作失误——在北京、上海、广东、浙江等全国10余个省市,这件事正在由一台人形机器人日常完成。并且,这台机器人操作的咖啡机不是定制的,网上能买到的普通商用咖啡机都可以。 智平方在展位上展出的“爱宝智魔方”,就是完成上述工作的系统。它把一台人形机器人放进标准化的服务空间里,面对面给顾客做咖啡和冰淇淋。智平方品牌负责人戈振伟在展会现场告诉经济观察报记者,该公司计划三年内在全国部署1000台爱宝智魔方。 除了商业服务,智平方的机器人也在半导体制造、汽车制造和机场行李车回收等领域落地,并与全球第三大面板厂惠科达成了近5亿元的人形机器人订单。智平方成立于2023年,三年时间能拿到这个体量的订单,从侧面说明下游市场对人形机器人的采购需求增长很快。 AI眼镜是展会上另一个参展密度很高的品类。科大讯飞、XREAL和阿里千问都同时在这届展会上展出了AI眼镜。而在三年前,AI眼镜还是一个小众方向,参加国际科技展的通常只有Meta和几家创业公司。 眼镜能成为AI载体的核心原因是它可以全天候架在鼻梁上。由于前置的摄像头和麦克风能持续获取用户看到和听到的信息,AI可以直接在视野里给出响应,不需要用户掏手机或打开APP。对于跨语言沟通、会议记录、商务出行这类需要实时辅助的场景,AI眼镜的这个交互方式比手机更自然。 5月28日,科大讯飞在展会现场全球首发了讯飞AI眼镜:整机40克,比同类产品轻约20%;支持122种语言实时翻译,字幕直接投射在镜片上。同时,它搭载的“唇动识别降噪”功能,可以通过前置摄像头捕捉说话人的唇部动作,在多人嘈杂的环境中锁定目标声音。 科大讯飞研究院语音翻译条线总监孔常青告诉经济观察报记者,这项技术在嘈杂场景下把识别准确率提升了30%到40%。 记者在现场看到,这款眼镜内置的AI助理GlassClaw在发布会上完成了一套完整的演示——佩戴者用语音指令让它采集展会商务信息、全网搜索合作案例、生成合作方案,最后通过邮件发送给指定的人,全程没有用手机或电脑。这意味着,如果这个能力在日常使用中稳定可靠,AI眼镜就升级成了能独立执行多步骤任务的随身助手。 对此,科大讯飞穿戴设备业务部总经理林会杰在接受经济观察报记者采访时表示,AI眼镜品类正从科技发烧友向早期大众市场过渡,“未来1到2年会迎来爆发”。 但XREAL创始人徐驰的判断略有不同。他在展会开幕式上表示,AI眼镜行业尚处在初级阶段,还没迎来自己的“iPhone时刻”。他同时也表示,2007年iPhone发布时,规则由美国公司书写,中国企业只能远远看着;而在AI眼镜领域,目前已经有大量中国公司深度参与。XREAL产品覆盖40多个国家和地区,海外收入占比超过七成,和Google在AR眼镜领域的合作已持续两年多。 阿里旗下的千问AI眼镜也在展区呈现。接入千问大模型之后,该款眼镜不用等用户下达指令,AI自己即能感知环境并主动推送建议。 讯飞眼镜擅长语言翻译,XREAL擅长AR空间显示,千问眼镜则要做AI智能体入口——三者主攻方向不同,但赌的是同一件事:下一代AI随身助手的载体,大概率是一副眼镜而不是手机。 相比已经商业运营的服务机器人和即将上市的AI眼镜,人形机器人在展会上围观人数最多,但离大规模进入日常使用的距离也最远。 普渡机器人创始人张涛在展会开幕式上说,具身智能的“ChatGPT时刻”至少还要3到5年。他的逻辑是,自动驾驶车辆可以看作一个自由度较低的机器人,做好算法通常需要超过1000万小时的真机数据;人形机器人的自由度远高于汽车,需要几千万到上亿小时的数据积累,大多数公司才刚开始搭建数据体系。 张涛认为,技术指标达标只是必要条件,除此之外,具身智能还需要出现一款让普通消费者能低成本、无门槛使用的产品。他举例称,OpenAI的大模型能力在ChatGPT发布之前就很强,但直到它以聊天机器人的形式面向公众,才有了大规模用户的涌入;机器人也需要一个类似的产品形态,像买手机、买家电一样自然地进入消费者生活。 目前展会上的人形机器人,大多面向工业场景和商业展示,离这个标准还有相当距离。 亚洲的新位置 在大模型时代,AI产业的竞争主要集中在算法和算力上,但一旦AI从软件走向硬件,需要的产业能力就不同了:造机器人需要精密制造和成熟的零部件供应链,做AI眼镜需要光学、声学、芯片和轻量化工艺的协同。 半导体制造、电子元器件供应链、精密机械加工、电池技术,这些AI硬件必需的产业环节,高度集中在中国、日本和韩国。Linux基金会全球AI首席技术官Matt White在展会开幕式上也说,全球顶级AI研究者大约30万人,其中约一半在中国。 BEYOND Expo联合创始人贺建东亦表示,亚洲不只有AI软件和模型创新,还有先进制造、硬件创新和基础设施,AI要进入现实世界,需要能制造它的地方。大模型时代,竞争优势在算法和算力最强的一方,但当AI需要大规模硬件载体时,拥有制造能力和供应链密度的一方,优势会更大。 亚洲在制造端有优势,但中国AI硬件公司要把产品卖到全球,仍然面临不小的挑战。 阿布扎比投资委员会董事总经理Mark Nicholas Cutis在开幕式上说,他评估中国机器人公司时最关注的不是技术本身,而是“创始人是不是真正懂商业的人”。他认为,在高度竞争的国内市场里成长起来的中国企业家竞争力很强,但这并不意味着可以把“在深圳做事的方式直接搬到海外”。 以德国汽车工业重镇斯图加特为例,他表示,那里是奔驰和保时捷的总部所在地,商业文化和深圳截然不同,到了那样的市场必须调整节奏、尊重文化差异,并和本地伙伴建立关系。 XREAL创始人徐驰在展会开幕式上亦表示,中国企业出海做生意像打网球,如果三局全打6:0,打完收拍子走人,对方以后就不会再邀请你。他认为,全球化不能是零和博弈,必须让利和协同,让对方觉得合作有回报。他说,XREAL花了三年在硅谷、首尔、东京建本地化团队,到现在全球媒体提到XREAL不再加“Chinese”前缀,“当一个品牌不再被刻意加上国家前缀的时候,才算真正的国际化”。 普渡机器人的张涛认为,在出海策略上,企业应该“广度优先”——不是先做透某一个国家的市场,而是通过海外渠道商在全球市场并行铺开,几年下来自然会筛选出增长快、利润高的重点市场,然后再加大投入。据其介绍,从2021年起,该公司在美国、日本、韩国、德国等地建了本地办公室和本地员工团队。 张涛同时强调,参加海外展会必须连续几年都去,如果今年去了明年没去,客户就会怀疑公司出了问题。换句话说就是,在海外B端市场,信任要用时间来换。 另外,在张涛看来,未来机器人行业的生存者还必须是“六边形战士”:硬件本体、基座模型、AI智能体、商业化能力等等,每一项都不能有短板。 对于机器人产业的发展趋势,Deepu Talla认为,一旦“准确率”的问题得以解决,规模化的速度就会非常快,未来10到20年,全球可能会出现数百亿台机器人。
黄仁勋对未来十年的完整判断,今天都讲明白了
“计算就是收入、瓦特就是收入、每一个token都是收入!” 以上言论,均出自黄仁勋在GTC 2026上的演讲。其内容堪称AI时代的“时间就是金钱”。 黄仁勋表示,每瓦特产生的token越多,收入就越多。 他展示了一组数据,GitHub上的代码提交量在2026年前几个月增加了近三倍,全球3000万软件开发者创造的3万亿美元薪酬价值正在产生接近9万亿美元的生产力。 在这场GTC大会上,黄仁勋带来了许多新玩意。 最重磅的无疑是英伟达与微软联手设计的AI PC,第二样是为Agent时代打造的Vera及其完整生态,第三样是开源大模型Nemotron 3 Ultra,第四样是物理AI Cosmos 3以及基于它而诞生的参考人形机器人Isaac。 这些东西串起来,拼成了黄仁勋对未来十年计算模式的完整判断。 01 重新定义AI PC 黄仁勋说,微软与英伟达的合作将会重新定义AI PC这个概念。 黄仁勋在台上展示了RTX Spark。 RTX Spark是一台笔记本电脑,芯片叫N1X,英伟达和联发科一起做的。里面有Blackwell RTX GPU,6144个CUDA核心,第五代Tensor Core,支持FP4精度。还有定制的20核Grace CPU,通过NVLink-C2C芯片互联连接。配128GB统一内存,台积电3nm工艺,700亿个晶体管。 数字生物学、地震处理、天体物理等应用都可以运行。所有与CUDA相关的物理、生物学、基因组学、AI、计算机图形应用,以及Windows的应用,都可以运行。 这台电脑和传统笔记本最大的区别是,它能在本地跑Agent。黄仁勋说的Agent,就是能理解你说的话、能看屏幕、能读文件、能帮你干活的AI助手。以前这些AI都要连到云端才能用,现在可以直接在你的笔记本上跑。 黄仁勋说,过去40年你用电脑是启动应用、点击、输入。现在有了RTX Spark和Windows,你只需要问,电脑就会帮你完成工作。RTX Spark把英伟达 30年积累的所有技术,CUDA、RTX、AI平台,都放进了一颗芯片。本地Agent、前沿模型、创意工作流、RTX游戏,全都能在一台笔记本上跑。 这就是黄仁勋手中的个人AI电脑。 微软为RTX Spark做了深度平台优化。 实现了工作负载配置文件调度,让Windows调度器更高效地在所有20个核心上扩展工作负载。无论你是在查看邮件还是在本地运行Agent调试代码,Windows调度器都会确保你从CPU获得最佳性能和效率。 他们还启用了微软电源和热管理框架,在保持凉爽的同时最大化性能和功率。 为了实现RTX Spark上高达128GB的内存,微软提高了GPU可访问的系统内存上限,让高内存系统上的GPU可用内存增加,从而能够加载更大的本地AI模型或渲染更复杂的项目。 他们还增强了Windows在统一内存系统上管理共享内存区域页面大小的方式,确保在重负载工作负载下有更大的内存页面可用,同时让开发者能够灵活优化CPU和GPU之间的内存工作负载需求。 微软CEO萨提亚·纳德拉说,他们的目标是用Windows把无限的智能送到每个家庭、每张办公桌。。 OpenClaw和Hermes Agent这些开源Agent项目在GitHub和OpenRouter上的数据已经创了纪录,但一直没能大规模普及,原因是没法在用户的主力电脑上安全、私密地跑Agent。 英伟达和微软合作解决了这个问题。他们做了新的Windows安全原语和英伟达 OpenShell运行时,确保Agent在用户完全掌控下安全运行。 新的Windows提供身份、隔离、策略和端到端安全能力,用来原生构建和运行Agent。 英伟达OpenShell提供了一些自定义功能,比如让用户限制Agent能做什么,以及不能做什么,根据用户的隐私策略智能地把查询路由到本地模型,在发送到云端模型的查询中隐藏个人信息。 Hermes Agent和OpenClaw在他们的新Windows应用里用了这套安全和隐私层。这些应用让用户可以轻松安全地访问设备端Agent,这些Agent能在Windows应用里执行任务,推理跨应用工作流,生成图像和视频,写插件和应用代码,语义搜索本地文件。 黄仁勋现场演示了一个在RTX Spark上本地运行的Agent怎么帮他设计房子。Agent运行Open Shell沙盒,连接Hermes编排系统和云端Claude Sonnet。 它选地点,读概念草图、风格情绪板、文字需求和设计意图。Agent用笔记本上的工具,打开Rhino为场地建模,塑造地形、退界和建筑外壳,提出建筑形式,针对成本、舒适性和质量优化。 形式定好后,Agent生成内部布局、墙体和流线,房间成形。它随时调整,自动放置门窗和结构元素,自己发现和修正错误。批准后,Agent从Rhino导出模型,导入Blender,材质和对象属性完整转移。 它调材质,选镜头,Blender渲染房子。Agent用Flux模型生成多个视角和光照条件。 整个过程全部都由Agent自己完成。 这就是黄仁勋说的“新的PC”。以前你用电脑是打开软件、点鼠标、敲键盘。现在你可以直接告诉Agent你要干什么,它自己去操作各种软件完成任务。 RTX Spark不只是为Agent设计的,它也是一台完整的创作和游戏电脑。 你可以在上面通过OptiX和DLSS渲染超大的90GB 3D场景,用Blackwell解码器编辑12K 4:2:2视频,跑1200亿参数、100万token上下文的大语言模型,玩1440p分辨率、超过100帧的AAA游戏,支持光线追踪、DLSS和Reflex。 RTX Spark还会支持新的RTX能力,包括DLSS 4.5光线重建,用第二代transformer模型,会出现在Blender 5.3和几十款游戏里。还有RTX Video 4倍帧生成,会出现在ComfyUI里。 RTX Spark是笔记本。不过黄仁勋也宣布推出桌面和工作站版本DGX Spark。 768GB内存,可以跑万亿参数的大模型,20 petaflops算力,每秒8TB内存带宽,放在办公桌上。如果你是大语言模型开发者或Agent开发者,可以在本地训练和测试模型,需要部署时再把模型放到云端。 黄仁勋说,想想15到20年前的电话。今天的手机,打电话不是最常用的功能。手机的意义完全不同了。PC也会经历类似变化。十年后的PC不会只是用来打开软件、点鼠标的工具。 ASUS、Dell、HP、Lenovo、微软Surface和MSI今年秋季会推出RTX Spark驱动的超薄Windows笔记本和紧凑型台式PC,全天候电池续航和优质显示屏。Acer和GIGABYTE的型号随后推出。黄仁勋没说具体价格。 02 Vera Rubin和AI工厂 随后,黄仁勋宣布,Vera Rubin已经全面投入生产。 Vera Rubin是是一套五机架规模的AI超级计算机系统,专门为跑Agent设计。 第一种是Vera Rubin NVL72,负责提示理解、上下文处理、推理和规划,这是Agent的“大脑”。 第二种是Vera CPU机架,单个液冷机架里装256颗Vera CPU,负责协调模型、管理内存、调用工具。 第三种是Groq 3 LPX机架,256个 Groq 3 LPU横跨16个托架,每秒40PB的SRAM 带宽,提供超低延迟的 Token 生成。NVL72负责高吞吐,Groq LPU负责低延迟。 第四种是Vera BlueField-4 STX 存储机架,这是Agent保存记忆的地方,负责存储处理、加速和片上安全。 第五种是 NVIDIA Spectrum-X Ethernet CPO 网络机架,配备共封装光学技术的以太网交换机,200Gb/s SerDes,和台积电合作做芯片级封装和超高功率磷化铟激光模块。 Vera Rubin由七颗新芯片组成。台积电3nm制程,CoWoS-L封装技术,HBM内存来自Micron、SK hynix和Samsung。一块Vera Rubin计算板上有万亿级晶体管和超过18000个元件。 整个机架包含18个计算托盘、9个热插拔NVLink交换托盘、高效液冷歧管和汇流排。液冷汇流排可以承载超过5000安培电流,相当于20台电动汽车全速加速时的电流。总共130万个元件构成第三代MGX机架设计。 和上一代Grace Blackwell相比,Vera Rubin在处理Agent任务时的吞吐量提升了10倍。 黄仁勋说,他们为Vera Rubin创造的供应链规模是Grace Blackwell的两倍。 以前组装一个Grace Blackwell机架需要两小时,现在Vera Rubin只需要五分钟。原因是设计改了。过去机架里有很多线缆和软管,现在用PCB中板直接连接两侧,不再需要线缆、软管和风扇。全部液冷,模块化设计,热插拔。 黄仁勋说,以前做Hopper时,最重要的工作是预训练。到Grace Blackwell,重点是推理。 “很多人说推理很简单,但推理就是钱。” 模型越来越复杂,要在高响应速度、快速交互和高吞吐下同时完成推理很困难。这就是NVLink 72的意义。 黄仁勋说,今天英伟达的token成本比竞争对手低一个数量级,因为他们做了协同设计,理解了推理的计算模式。 现在到了Agent时代,Agent不只是生成答案,它要观察、推理、规划、用工具,管理大量上下文,处理工作记忆和长期记忆,衍生出专家子Agent。Vera Rubin就是为这种工作才诞生的。 Vera Rubin平台引入了英伟达 Spectrum-X以太网光子学,这是世界上第一个基于共封装光学技术的交换机,有200Gb/s SerDes,如今已经投产。 共封装光学是什么? 传统网络交换机用可插拔收发器,收发器插在交换机外面,需要额外的功率、散热和空间。共封装光学把光学模块直接封装在交换机芯片上,和台积电合作做芯片级封装。 这带来三个好处。第一是能效提升5倍,因为光学模块和芯片之间的距离缩短了,信号损耗更小。第二是AI正常运行时间延长5倍,因为减少了可插拔部件的故障点。第三是部署时间缩短三分之一,因为简化了设计,为计算释放了更多功率。 CoreWeave、Lambda和Oracle Cloud Infrastructure是首批采用共封装光学网络的合作伙伴。Lambda在博客中展示了英伟达首批共封装光学样品的开箱。黄仁勋说,通过简化设计为计算释放更多功率,英伟达共封装光学网络为百万GPU AI工厂提供了基础架构。 Vera Rubin平台还集成了英伟达BlueField-4 DPU。 BlueField-4有高达800Gb/s速度的软件定义网络和内置多租户隔离。借助英伟达 BlueField-4 Advanced Secure Trusted Resource Architecture,客户可以简化网络操作,改善租户隔离,在百万GPU AI集群中获得更大控制。 AI工厂越来越多地在Agent工作流中处理专有数据、受监管内容和关键任务模型。这需要针对共享或云环境中自主Agent定制的基础设施安全性,因为基础设施不能被隐式信任。 Vera Rubin平台设计了全栈英伟达机密计算,用于机架规模的可信执行环境。Vera Rubin NVL72把Vera CPU、Rubin GPU、英伟达 NVLink网络和安全功能结合到统一平台中,在高速互连之间加密数据。这提供硬件级认证,确保系统防篡改。 在POD规模提供这种级别的保护还需要可编程软件层,能在整个系统中执行、编排和调整安全策略。英伟达DOCA软件平台在每个Vera Rubin平台机架和AI工厂层提供安全性,通过直接在BlueField-4硅中执行的能力保护数据、Agent、上下文内存和AI推理。 DOCA能做什么。它实现多租户网络隔离、零信任策略执行、运行时威胁检测和高达800Gb/s速度的端到端加密,这些都不占用主机CPU资源,所以企业可以放心扩展AI工厂。 英伟达DSX平台为Vera Rubin AI工厂提供完整的设计和运营基础。DSX统一了参考设计、仿真、基础设施软件、设施和生态系统技术,帮助构建和运营针对最低token成本优化的节能AI工厂。 DSX是什么。黄仁勋说,全球在建设AI工厂,这是大规模基础设施建设。AI工厂复杂度高,芯片、机架、网络、电力、冷却、电网,每一层都必须从端到端一起设计,因为计算就是收入。英伟达 DSX就是蓝图,是建设和运营AI工厂的参考设计,目标是高效率和高盈利能力。 DSX为Vera Rubin POD架构构建,对齐堆栈的每一层,从硅和系统到生命周期管理和多租户操作,加快部署,提高规模运营可靠性和弹性。 Dell Technologies、HPE、Lenovo和Supermicro以及ASUS、Foxconn、GIGABYTE、Pegatron、Quanta Cloud Technology、Wistron和Wiwynn在采用英伟达 DSX来加速Vera Rubin的AI工厂建设。 DSX包含三个部分。第一是DSX Sim。Omniverse Blueprint合作伙伴可以在第一台机架到场前就设计并验证一座英伟达 Rubin AI工厂。他们可以规划布局,模拟电力和冷却,设计网络,在数字孪生中验证每次集成测试和每次变更。第二是DSX OS。工厂通电后,DSX OS接管运营,提供监控和修复基础设施,把已安装系统变成多租户、弹性、AI就绪容量。第三是DSX Max-Q。 DSX Max-Q是什么。今天的AI工厂常常把电力过度配置40%,因为担心峰值负载。DSX Max-Q可以让运营商在相同电力预算下部署更多GPU。它有几个技术。温液冷却可以在45摄氏度下运行,用更少的水和能源,把更多能源留给计算。动态电力分配可以把机架电力导向需要工作的地方,回收闲置瓦特。机架内部的电力平滑机制可以削平峰值电流和电涌。 贯穿整座工厂,AIAgent工作团队会通过DSX Max-Q持续协调,平衡冷却、电力和工作负载需求。DSX AI工厂还是弹性能量资产,可以和电网协同工作。DSX Flex能读实时电网信号,在电网需要缓解压力时动态调整工厂电力。 黄仁勋说,到本十年结束前会有100GW的AI工厂上线。由英伟达 DSX运营的AI工厂会以最高效率生产最低成本的token。 Vera Rubin什么时候可以买到。生产出货从今年秋季开始。 黄仁勋说,过去英伟达是一家GPU公司。这些年来他们演进成系统公司。现在看到的是英伟达最复杂的系统。 最终客户和合作伙伴不是想买一台计算机,他们想建设AI工厂。 正因如此英伟达在再次转型。技术现在延伸到基础设施尺度。 合作伙伴包括发电、冷却、电网供应商和工业基础设施公司。他们在努力构建完整的堆栈,就像为GPU、Grace Blackwell、NVLink 72做的那样。现在他们在构建完整的基础设施系统,让客户可以建设AI基础设施。 每个千兆瓦级AI工厂投入都从200亿、300亿美元开始,很快会达到每千兆瓦800亿到1000亿美元。1000亿美元投入AI工厂,它必须第一次就能工作,而且必须立刻成功。 资本成本高,复杂度也高。就像设计芯片时会先在计算机里模拟芯片、再模拟整个系统一样,现在也把AI工厂建在Omniverse里。可以在数字世界里建造这些系统,在现实世界动工前就完成验证。 RTX是GPU,DGX是系统,现在DSX是基础设施。 它包括系统和软件,让英伟达能和公司合作,把它们变成AI云。比如CoreWeave,最近它的价值已经达到数百亿美元,在增长。 这些公司服务各自区域,也服务全球客户。AI会无处不在,每家公司都会由AI驱动,每个地区都会建设自己的AI能力。它们需要完整的计算栈,硬件、软件、库,还有和第三方生态、第三方开发者连接的能力。 帮客户建设和部署AI工厂很重要。原因是计算就是收入,现在计算就是利润。没有收入、没有利润就会变成亏损。黄仁勋说,这就是为什么英伟达是重要伙伴。他们创造完整基础设施,把每件东西连接起来,进行了验证,确保正常运转。 time to first token更快,推理启动更快,从推理转向训练也更快。每瓦产生的token比较多。因为把一切都整合起来,从头设计、模拟整个系统,进行协同设计。可靠性也很重要。大型数据中心有数百万条电缆和无数活动部件,要让这些计算机和谐工作很困难。英伟达长期运行超大规模系统,这些经验很重要。 最后是产品寿命。 几年前Hopper时代的AI已经和今天完全不同。六年前Ampere时代还在谈CNN,后来谈Transformer,再后来谈专家混合,现在谈Agent系统。每隔几个月软件行业就会出现新技术。 如果架构不灵活,生态系统不丰富,资产寿命就不会长。因为全球软件开发者都在用英伟达 CUDA,所以英伟达 CUDA生态的资产寿命会更长。也可以从成本的另一面理解,如果资产寿命长,总拥有成本就低。这就是差异。 黄仁勋说,买得越多,赚得越多。 全球的工厂和员工都在拼命工作,因为全世界都想赚钱。大家已经意识到,有用的AI到来了,可盈利的AI到来了,计算需求高得惊人,需求本身就是限制。 03 各种大模型 黄仁勋今天还发布了开源大模型Nemotron 3 Ultra。 Nemotron是 英伟达为世界构建的专用开源模型,专门为Agent工作负载设计。 和其他开源模型不同,Nemotron不只给你模型,还给你训练模型所用的数据。 Nemotron针对长时间推理、长时间运行的工具任务、工具使用和任务解决进行训练,是世界上最大的长时程推理模型之一。模型、训练脚本和数据都对你开源。黄仁勋说,这是开源模型的最佳形态,让你可以拿走它,继续添加数据,让它变得更好,并成为你自己的模型。 Nemotron 3 Ultra主要有三个优势,第一是速度快近五倍。 它是世界上第一批基于混合架构的模型之一,结合了状态空间模型SSM与专家混合MoE。这种架构速度极快。黄仁勋说,更快意味着你能用相同成本思考更久。 第二是降低约30%运行成本。 第三是完全开源,包括模型、训练脚本和数据。 那么Nemotron 3 Ultra到底是干嘛用的呢?黄仁勋说了这么一个案例。 他说英伟达现在做芯片太复杂了,要靠工程师一行行查、一轮轮跑验证,太慢也太贵。 因为每颗AI芯片里有海量的晶体管,每条线路、每个逻辑门都必须严丝合缝,只要一个小错误,就可能让整颗芯片延期几个月。 所以英伟达和Cadence做了一个“芯片设计AI助手团队”。 这个团队是一组会干活的Agent。 它能读芯片设计规格,写或修改RTL代码,自动生成测试用例,调用Cadence的仿真工具Xcelium跑模拟,再用Jasper做形式化验证。发现Bug后,它还能定位问题、改代码、再跑一遍验证。 这里面大概是这样分工: Codex像项目经理,负责调度整个流程。 Nemotron像技术大脑,负责推理、判断、推进验证循环。 Cadence工具栈像专业仪器,负责真正跑芯片仿真和验证。 Open Shell像安全沙箱,确保Agent在受控环境里工作,不乱改、不乱跑。 一堆专家子Agent则分别负责写RTL、建测试平台、跑回归测试、调试Bug。 以前芯片验证要工程师手动反复做,周期可能是几周;现在英伟达想让AI Agent自动接管一部分流程,把“写代码、跑仿真、找Bug、修Bug、再验证”变成自动循环,把芯片设计验证从几周压到几小时。 与此同时,黄仁勋搬出了英伟达最前沿的物理AI Cosmos 3。 黄仁勋说,语言模型领域有很多人在做,而在物理AI方面,我们绝对是全球最强之一。“我为我们的团队感到骄傲。” 黄仁勋说:“对于语言模型,我们可以使用互联网上的英语和各种语言文本训练,因为这些内容来自人类写作和阅读。但要为机器人构建数据,数据必须来自感知,来自机器人的视角。而世界上大多数视频数据都是第三人称视角,不是第一人称视角。因此,对Agent系统、机器人系统、物理AI来说,数据是最难解决的问题。” 英伟达想解决一个问题:机器人太缺训练数据了。 训练语言模型,可以用互联网上的文字;但训练机器人不一样。机器人要学会走路、抓东西、开车、避障、在工厂里干活,它需要理解真实世界里的空间、动作、物体和物理规律。 可问题是,真实世界的数据很难收集。你不可能让机器人在现实里无限试错,因为太慢、太贵,也可能有危险。 所以黄仁勋的思路是,先让人远程操控机器人,给它做示范。 再用Omniverse做仿真,在虚拟世界里生成更多训练场景。 再把普通视频里的第三人称视角,转换成机器人自己的第一人称视角。 最后,用Cosmos这种世界模型,让AI自己理解和生成物理世界的数据。 Cosmos可以理解视频里发生了什么,也可以根据文字、图片、视频生成符合物理规律的新视频。比如你给它一个场景,它可以预测下一秒会发生什么;你让它模拟机器人抓杯子,它可以生成这个动作过程;你让它训练自动驾驶,它可以制造各种道路情况。 所以黄仁勋才说“计算就是数据”,以前数据只能从现实世界采集,现在可以用计算生成。只要模型足够强,计算机就能模拟真实世界,给机器人制造大量训练材料。 这对物理AI很重要,因为机器人需要的不是会聊天的AI,而是懂现实世界怎么运转的AI。 基于此,英伟达做了一个“人形机器人标准套件”,叫Isaac GR00T。 为什么要做这个?因为做人形机器人太难了。一个机器人身上有很多电机、传感器、控制系统,还要有训练数据、仿真环境、操作系统、AI模型和部署工具。以前每个研究团队都要从零开始拼这些东西,光搭环境就可能花几个月,真正研究还没开始,人已经累半死。 所以英伟达说:我们直接给大家做一个参考平台。 这个平台不只是一个机器人硬件,而是一整套东西: 有机器人本体;有运行机器人的Jetson Thor计算平台;有AI模型;有仿真工具Isaac Lab;有远程操作工具Isaac Teleop;有Omniverse和Cosmos来生成合成数据;有训练和评估环境;有Isaac ROS负责部署到真实机器人上。 你可以把它理解成机器人界的“开发样机+操作系统+训练工具包”。 研究者拿到GR00T之后,不用从零开始造机器人、搭仿真、接传感器、写底层系统,而是可以直接开始训练机器人做任务。比如让机器人学会抓东西、搬运、走路、在工厂里工作。你可以用英伟达的全套组件,也可以只用其中一部分,把自己的模型、传感器或控制系统换进去。 黄仁勋说它有25个身体自由度,每只手31个自由度,身高大约6英尺,体重150磅,就是想说明它是一个接近真人尺寸、能做复杂动作的人形机器人参考设计。
小红书拿到世界杯版权后的第一把火:严禁非法赌球 违规直接封号
快科技6月1日消息,今日,小红书正式发布专项治理公告,在赛事周期内集中整治平台内各类非法赌球行为,明确所有违规账号将被从严处置。 此次整治旨在净化社区环境,守护用户财产安全,引导大家文明理性观赛,平台共划定了四大重点整治方向: 1.发布或展示赌球引流信息 在笔记、评论、直播等内容场景及账号资料中,直接发布或通过截图、水印、黑话、谐音等隐蔽方式,展示赌博网站、平台链接及邀请码,诱导用户站外参赌; 2.借世界杯话题诱导参与赌球或非法竞猜 以比分预测、赔率分析、教授技巧等为包装,或打着“带单”“包赔”“内部消息”等旗号,诱导用户通过私信、加群、添加站外联系方式或线下参与非法竞猜活动; 3.寻求、宣扬或传播非法赌球渠道 发布寻求赌球平台或竞猜群组的信息;通过晒盈利截图、分享投注经历、宣扬“上岸回血”等方式,刺激或诱导他人参与赌博。 4.线上售卖彩票或提供出票服务 在平台内发布线上售彩、代打代购、合买出票等信息,或引导用户转账购彩。任何形式的网络赌博、非法竞猜及相关引流行为均涉嫌违法违规,平台将依据规则对相关内容和账号进行处置,包括但不限于下架违规内容,限制使用私信、群聊等功能,封禁传播违法赌球信息的账号等。 数据显示,小红书平台的足球兴趣用户规模已突破1亿,近一年来,足球相关内容的互动量同比实现翻倍增长。
闲鱼惊现博物馆镇馆之宝,回应称AI误识别图片
原标题:闲鱼二手平台惊现陕西历史博物馆镇馆之宝,回应称AI误识别图片、不会自动上传用户照片 IT之家 6 月 1 日消息,二手交易平台闲鱼因将用户手机内照片“自动上架”一事在近日引发广泛关注。有江苏网友发现其闲鱼账号的待售主页被自动挂出了一件陕西历史博物馆的镇馆之宝“唐鎏金舞马衔杯纹皮囊式银壶”的照片,并标价 6000 元。 6 月 1 日,据新黄河大鱼财经报道,针对上述情况,闲鱼方面有关负责人回应记者称,经核查,相关商品系 AI 将图片识别为普通文玩商品,并生成建议标题、描述等信息,目前相关链接已由用户主动下架。 闲鱼方面表示,平台将始终严守法律底线,坚决反对并积极配合国家机关打击文物违法交易。目前,闲鱼已接入国家文物局“中国被盗(丢失)文物信息发布平台”,可对 820 条国家级被盗文物数据进行智能比对;同时已对收藏领域 72 个高敏类目提升发布门槛,要求卖家明确勾选是否具备来源凭证。 对于相关产品体验问题给大家带来的困扰,闲鱼方面深表歉意。后续将尽快加强商品上架提醒和用户确认,避免类似误会再次发生。 据上游新闻此前报道,5 月 30 日,江苏网友顾女士的闲鱼 App 账号的待售主页上,赫然挂着一件陕西历史博物馆的镇馆之宝:唐鎏金舞马衔杯纹皮囊式银壶,标价 6000 元。更令顾女士震惊的是,这场售卖全程由平台 AI 自动配文、定价并发布,作为账号主人的她毫不知情。 顾女士最初怀疑是闲鱼私自读取了手机相册,将照片“偷”去上架。询问平台客服后,对方告知,或是因为这张照片曾被上传至“闲鱼空间”,从而触发了商品上架功能。 另据界面新闻报道,闲鱼客服人员表示:“闲鱼空间是您个人的专属区域,存放通过闲鱼相机发布的照片和商品信息。您可以在闲鱼号中找到‘空间’tab,空间商品上传时默认为宝贝公开可见,照片可能会被推荐到首页或搜索结果中,供其他用户浏览,买家可直接购买。” 该人士表示,照片需要用户主动上传,不操作不会自动上传。后续可在“我发布的”的页面中统一管理。“当其他用户对您的公开照片点赞或评论时,会收到通知。可以在消息 tab‘互动消息’中查看和回复。” 上游新闻报道称,从识别图片到商品正式挂卖的整个链条中,平台未弹出任何明确的“即将上架售卖”等二次确认弹窗,也未有功能验证该件物品是否真实存在于卖家手中。 IT之家最新测试发现,打开闲鱼空间后,只有一个“添加照片”按钮,点击之后会弹出上传照片或拍照功能,用户拍照之后 AI 会自动识别商品,智能生成商品描述并给出参考价格。 如果是选择相册里的照片,目前闲鱼 App 底部会明确提示“发布宝贝”。用户也可以选择“只晒不卖”“仅自己可见”。
AI硬件普及门槛是什么?在澳门Beyond,讯飞、XREAL们给出了答案
所有科技展会都在谈 AI,但在很多时候,AI 仍然停留在大模型、App、办公软件、智能体和云服务里。它足够热闹,也足够抽象,离普通人的真实生活仍然隔着一层屏幕。 5 月 27 日,BEYOND Expo 2026 在澳门正式开幕。 对大家来说,BEYOND Expo 的名声可能还不像 CES、MWC 那样如雷贯耳,但过去几年,它已经成了一个对于亚洲科技产业越来越难绕开的观察窗口。 澳门街头,图片来源:雷科技 本届 BEYOND Expo 2026 在 5 月 27 日至 30 日举行,主题是「AI: Digital to Physical(AI:数实共生)」,覆盖人工智能、机器人、AR/VR/XR、智能出行、医疗健康、消费科技等方向,超过 1200 家科技企业。 比起某一类产品,Beyond Expo 2026 实际上更关心的是这一轮 AI 技术如何从模型、软件、云端,继续进入终端、产业和真实世界,更冷静和理性。 这也是雷科技今年受邀作为官方合作媒体来到现场报道的重要原因。过去几年,我们持续关注 AI 眼镜、机器人、智能硬件、云计算和大模型应用的变化,而 BEYOND Expo 2026 刚好把这些线索放在了同一个展场里。 科大讯飞、乐奇 Rokid、智元机器人、清闲、阿里云、字节、zdeer 左点等,会在这里展示各自围绕 AI 和智能硬件的最新进展。更确切地说,今年 BEYOND Expo 也把议题推到了更具体的问题上,这一点从首日的开幕式和媒体日活动也能看到。 XREAL、普渡畅谈「物理AI」: iPhone 时刻还要等等 开幕式上,两场创始人对话很能代表这届 BEYOND Expo 的气质。一场来自 XREAL 创始人徐驰,另一场来自普渡机器人创始人张涛。一个讲 AI 眼镜,一个讲机器人,看起来是两条不同赛道,底层问题却高度一致:AI 进入物理世界之后,真正的门槛到底在哪里? 徐驰提到了 XREAL 与 Google 的合作。 右为徐驰,图片来源:雷科技 2024 年 Apple Vision Pro 发布之后,整个行业都看到一个现实问题:头显确实代表了一种未来,但它太贵,也太重。于是行业开始寻找一种更轻、更便宜的替代方案,用更低成本实现接近 Vision Pro 的核心体验。XREAL 在轻量化 AR 眼镜上积累多年,正是在这样的背景下进入 Google 的合作视野。 按照徐驰的说法,演示前谷歌的软件原型一度出现问题,排练时间也不够。XREAL 直接派工程师飞到美国,周一一起解决问题,周二彻底搞定,周三排练,周四 Demo 成功。 全球化不是把产品卖到海外那么简单,也不是把发布会开到国外那么简单。真正进入全球顶级科技公司的合作链条,靠的是技术积累、工程响应、产品交付和一次次现场解决问题的能力。 徐驰对 AI 眼镜的判断也很直接。他认为眼镜就是 AI 最好的载体,虽然手机、电脑、戒指、耳机都可以接入 AI,但眼镜有两个独特优势:它可以全天候陪伴,也可以通过第一视角,甚至是注视点理解用户正在关注什么。 简单来说,眼镜里的 AI 不只是听见用户说了什么,还能看见用户看见了什么,甚至理解用户为什么看向那里,这也是今天 AI 眼镜最大的想象力。 不过徐驰也没有把话说满。如果把 iPhone 诞生看作 1.0,他认为今天智能眼镜行业还在 0.x 的阶段。AI 眼镜确实可能成为下一代终端,但它现在依然要先解决佩戴、续航、发热、显示、交互和内容生态这些非常硬的问题。 另一边,普渡机器人创始人张涛的对话,则更像是给当前机器人热潮泼了一盆冷水。过去一年,人形机器人、具身智能、机器人跳舞、机器人跑步几乎占满了科技展会的聚光灯。但张涛的判断很明确: 人形机器人或者说具身智能的 ChatGPT 时刻还没有到。 右为张涛,图片来源:雷科技 理由是数据。 自动驾驶要做好算法,往往需要 1000 万小时以上的真机数据,而机器人比自动驾驶复杂得多。机器人面对的是更多自由度、更复杂环境和更多长尾任务,可能需要大几千万到上亿小时真机数据,再叠加合成数据、互联网数据和人类视频数据。 而现在,很多机器人公司才刚开始搭建自己的数据基础设施,距离真正的泛化能力还有距离。 更重要的是,他对 ChatGPT 时刻的定义不是实验室效果,而是用户能不能无心理负担地用起来。ChatGPT 之所以成为现象级产品,不只是模型足够强,还因为它用一个聊天工具把大模型交到了普通人手里。 机器人也一样,真正的节点不会来自舞台表演,而是出现一类普通客户能低成本部署、普通用户能自然使用的产品。 热闹和可用之间有一段很长的路。张涛提到,普渡从送餐机器人起步,后来扩展到清洁、配送、工业仓储搬运、人形和四足机器人。它做人形机器人,也不是因为人形更性感,而是因为在一些长尾场景里,专用机器人很难覆盖所有复杂任务。 比如一栋楼或一个仓库的清洁,地面可以交给专用清洁机器人,但台面、立面、栏杆和刁钻角落,可能需要更通用的人形机器人去处理。 从这个角度看,XREAL 和普渡其实在讲同一件事:AI 进入物理世界之后,拼的不是概念,而是产品定义、工程能力和真实场景。眼镜要先戴得住,机器人要先干得动。只有这两件事成立,后面的 AI 才有意义。 AI 硬件爆发的真正门槛不在技术, 在产品力 相比开幕式上的演讲和对话,媒体日更像是 BEYOND Expo 的另一面。这里没有那么多行业的判断,更多是一个个具体产品摆在眼前。它们有些还很早期,有些已经进入量产和销售阶段,但这些产品的共同点是都在试图把 AI、传感器、算法和硬件结合起来,塞进一个更具体的场景里。 VOCCI AI 戒指就把 AI 硬件做得更「轻」。 图片来源:雷科技 现在提到智能戒指,很多人第一反应是 Oura 或 Galaxy Ring 这类健康监测设备,记录睡眠、心率和运动数据。但 VOCCI 的重点更偏 AI 笔记,核心是语音记录、转写和总结。它想解决的是人在会议、采访、商务沟通或突然产生灵感时,能不能不用掏出手机,也能完成一次记录。 这个方向很有想象力,因为它把 AI 的入口变得很自然。戒指始终戴在手上,比手机更近,比录音笔更轻,也比眼镜更不挑人,续航也能做到更长。 造物时代 MAKERA 的消费级桌面 CNC,则是另一种方向。它看起来没有飞行相机那么容易出片,也不像机器人那么自带话题,但它的价值非常清楚:把过去属于工厂、工程师和专业创客的精密加工能力,放到普通人的桌面上。 图片来源:雷科技 过去几年,以拓竹为代表的消费级 3D 打印已经让很多人理解了什么叫桌面制造。但 3D 打印更像是加法制造,一层层把材料堆起来。桌面 CNC 则是减法制造,把一块材料切削、雕刻、加工成想要的形状。MAKERA 想做的事情,就是用更自动化的软件、更友好的流程和更小型化的设备,降低 CNC 的使用门槛。 GEMO AI 智能水光仪代表的是另一个正在升温的方向:AI 美容设备。过去家用美容仪最大的问题是用户不知道怎么用、适不适合自己用、不同肤质该用什么方案。GEMO 的思路,是用 AI 识别、方案推荐和参数调节,把部分专业护理流程转化为家庭设备里的可执行方案。 图片来源:雷科技 这个方向天然有吸引力,事实上现场就有很多女性被它吸引。一方面,很多消费者希望把更多美容护理搬回家;另一方面,AI 可以把复杂流程「封装」成更简单的交互。 不过,美容和医美相关设备不能只看宣传里的智能推荐,真正要看的,是识别是否准确,参数是否安全,耗材和方案是否有验证,普通用户在家误用时有没有保护机制。AI 在这里可以降低门槛,但不能替代安全边界。 还有一款还在开发中的 AI 银龄眼镜,也值得单独一提。相比面向年轻人的 AI 眼镜,面向老年人的 AI 银龄眼镜的需求可能更现实,老人需要看清、听清、记住、导航、提醒、求助,也需要和家人保持连接。 甚至,这一款还与腾讯混元有合作。 图片来源:雷科技 AI 眼镜在这里,更多的定位是一种辅助生活的工具。当然,这个方向也更难。老年用户对复杂交互的容忍度更低,对佩戴舒适度、续航、误识别、售后和价格更敏感。对他们来说,一个 AI 功能偶尔炫酷没有太大意义,关键是紧急时刻能不能可靠工作,日常使用会不会添麻烦。 但 AI 银龄眼镜能不能成立,不取决于它接入了哪个大模型,而取决于它能不能把模型能力收敛成老人真正用得上的几个场景。 同样的,在 Beyond Expo 正式发布的讯飞 AI 眼镜,是一款 40g 全功能 AI 显示眼镜,核心聚焦多场景 AI 翻译、智能提词、会议记录、AI 智能助手。 图片来源:雷科技 讯飞没有先把故事讲到遥远的空间计算,也没有急着替代手机,而是把第一代产品压在了最熟悉也最刚需的商务场景上,满足翻译、会议记录、办公等需求。 这很关键。因为今天不管是 AI 眼镜还是其他 AI 硬件,最重要的问题就是回答它们要解决什么? 从现场体验来看,讯飞 AI 有一条相对清晰的产品思路:用轻量化解决佩戴门槛,用显示解决低头问题,用多模态降噪解决真实沟通噪声,用翻译解决刚需,再用 GlassClaw 解决办公场景的各种痛点、痒点。 而从 AI 戒指到 AI 眼镜,更多 AI 硬件创业者或许都想明白了 AI 硬件不是简单的「AI + 硬件」,仍然需要「以终为始」,以用户需求为目标,AI 则是实现目标的「时代利器」。 当然,我们也能看到一些产品,比如洗鞋机、按摩放松棒、电刺激眼罩、桌面二次元养成箱、游戏音效外置声卡、智能烹饪调味箱、智能儿童桌面游戏化绘本、氮气咖啡机、亲密关系智能伴侣硬件、模块化灵巧手……要么只是 Demo,要么还没想清楚真正的用户。 图片来源:雷科技 写在最后 AI 离开屏幕之后,到底能为现实世界做什么?这个答案现在还远远称不上清晰。AI 眼镜还没到 iPhone 时刻,具身智能还没有迎来 ChatGPT 时刻,很多 AI 硬件也仍然处在早期探索阶段。它们有想象力,有新奇感,也有短板和现实的体验门槛。 但这也正是 BEYOND Expo 的价值。它不是只把成熟答案摆出来,而是把一批正在寻找答案的人和产品放到一起。创始人在台上谈终局,创业团队在展台上交出样机,媒体和观众则在现场判断这些东西到底有没有必要存在。 AI 从 Digital 走向 Physical,不会因为一句主题口号就自然发生。它需要更好的硬件、更低的门槛、更明确的场景,也需要一次次不那么完美但足够真实的产品试错。至少在澳门的第一天,我们已经看到了这些试错正在发生。
宇树过会,王兴兴身家或超140亿
人形机器人终于要闯进A股了。 6月1日消息,上交所上市审核委员会召开2026年第31次上市审核委员会审议会议,审议结果显示,宇树科技股份有限公司首发符合发行条件、上市条件和信息披露要求。这意味着,宇树距离上市更进一步了。 根据宇树招股书(上会稿),本次宇树IPO拟募资42.02亿元。若按不低于10%公开募股比例,其初始发行市值将达到420亿元。募资资金将用于智能机器人模型研发、机器人本体研发等4个项目,其中一半用于机器人模型研发。 作为备受关注的人形机器人公司,宇树科技IPO进程相当高效,今年3月20日宇树IPO获受理,6月1日过会,从获受理到顺利过会仅用时73天,相较长鑫科技的148天缩短了一半时间。 若后续上市进程顺利,宇树将成为A股第一家人形机器人公司。根据王兴兴直接及间接持股33.36%,王兴兴个人身家或超140亿元。 1 今年是宇树成立第十年,也是王兴兴在机器人赛道走过的第十年。选择这条路,既是王兴兴的兴趣爱好,也离不开他的商业远见。 1990年,王兴兴出生于浙江余姚的一个普通家庭,从小就梦想成为一个科学家,读书时的偶像是牛顿、爱因斯坦。初中时他就尝试自制微型涡轮喷气式发动机,大一时用200元造出了一个小型人形机器人。 2016年,从上海大学硕士毕业的王兴兴入职了大疆,不过几个月后,王兴兴就辞职创业,成立了宇树科技。 浙江宁波人历来会做生意,后来王兴兴在接受《扬声》采访时也提到过这一点:“浙江宁波这边做生意的思想,还是更加深入一些。” 王兴兴看得很清楚,像汽车这种更为成熟的行业,一个学生想去做完全不可能。一个新兴领域,是年轻人值得尝试的一个领域,成熟度没那么高,竞争没那么激烈。 四足机器人就这样成了王兴兴创业的首选。早在研究生期间,王兴兴便凭借四足机器人原型机XDog,在上海一场赛事中获得二等奖及8万元奖金。后来,XDog成为宇树机器狗的雏形,这8万元也成了王兴兴创业的启动资金。 然而,刚创业时,王兴兴极为焦虑,刚把工作给辞了,投资人的钱还没到位,手头上没有资金。公司成立两三个月后,才跟家里人说。 为了拿到投资,王兴兴在深圳待了一个月,最后才谈下了尹方鸣200万元的投资。在之后的几年里,尹方鸣陆续将自己的股权转让了出去。 创业之路当然不易,尤其是拉投资这件事。2017年乌镇世界互联网大会上,王兴兴带着四足机器狗原型Laikago,在雷军、王兴等互联网企业家面前表演。结果机器狗在门槛边被绊倒,当场死机,场面一度尴尬。 王兴兴自然没能拿到在场互联网企业家的投资。直到四年后,宇树才拿到了雷军的顺为资本的投资。2021年,顺为资本领投宇树机器人的A轮融资,之后又跟投一轮。 2026年3月,雷军还在小米发布会上现场感谢王兴兴,“谢谢你在五年前给了我们一个投资宇树的机会。” 虽然雷军是第一个投资王兴兴的互联网企业家,但是背后的最大赢家却是美团创始人王兴。过去几年,雷军将持有的部分股份陆续转让,其中一部分转让给了美团,最终美团成了宇树最大的外部股东,持股9.6488%,而雷军关联公司Astrend IV持股4.4245%。 从四足到人形,宇树的每一步都踏在了关键节点上。 很早之前,王兴兴就意识到人形机器人赛道还不成熟,所以聚焦于四足机器人,在四足机器人领域有近70%的全球市场份额。直到2023年AI技术的快速发展,王兴兴才下场做人形机器人。 当时下场做人形机器人的创业者并不少,比如彭志辉在2023年初创立智元。宇树和智元发布各自第一款人形机器人的时间仅相差三天。 但王兴兴却走得比其他人都快,一是因为有四足机器人的经验,再者他遇到了自己的贵人张艺谋。 2024年年中,张艺谋团队找到王兴兴,合作项目《澳门2049》,要求人形机器人全自动跳舞。这次合作让央视春晚导演组注意到他,最终才有了2025年春晚上由张艺谋执导的《秧bot》,宇树机器人转手绢的名场面传遍全国。 这一年春晚让宇树迅速出圈。2025年,宇树人形机器人出货量超过5500台,营收达16.99亿元,同比增长333.42%;净利润为2.78亿元,同比增长192.63%。 春晚过后,王兴兴还和任正非、王传福、雷军等企业家一起出席了2月份的民营企业座谈会,成为那场座谈会上最年轻的企业家。 宇树的发展也被按下了加速键。在融资方面,引入了腾讯、阿里等互联网巨头。同时也加速了科创板上市步伐,2025年7月,宇树启动上市辅导,四个月后辅导完成;2026年3月,宇树IPO申请获得受理。5月25日,宇树向上交所递交科创板IPO上会稿,于6月1日过会。 2 在人形机器人赛道,宇树毫无疑问是佼佼者。首先,它实现了大规模量产,2025年出货量为全球第一;其次,宇树实现了盈利,2025年净利润达2.78亿元。 但是要知道,人形机器人赛道竞争正变得激烈,生意已经没有那么好做了。正如王兴兴当初的判断:如果一个行业有很强的竞争对手,你再去做,成功率肯定低很多。 即便宇树已经是领军者,这条赛道也还远未成熟,但是他的竞争对手已经不少了。《2025年人形机器人市场研究报告》显示,2025年,中国人形机器人整机企业数量超过140家。 如今的赛道里挤满了各行各业的翘楚:有来自智能驾驶领域的人,有来自互联网大厂的人,还有高校教授下场创业。他们带着昔日光环,拿到数亿元大额融资。目前,行业内已有十数家估值破百亿的独角兽。此外,理想、小鹏、小米等车企也带着资金、技术和资源下场造人形机器人。 2026年的春晚,宇树不再是唯一亮相的机器人,与它同台演出的还有另外三家。这一年,宇树从春晚获得的红利已不如去年那样明显。 宇树招股书显示,2026年一季度,宇树营收为4.2亿元,同比增长68.49%,而上年同期同比增长为332.64%;净利润为5001万元,相较上年同期的9560万元,同比下降47.69%。 图源:宇树招股书 也就是说,通过春晚,宇树的机器人确实卖出去很多,但增量已不及2025年一季度。对于营收增速放缓,宇树在招股书中解释称,是由于营收基数已大幅提升、行业热度逐步缓和及市场竞争日趋激烈。 而这份“增收不增利”的背后,则是销售费用大增导致。宇树解释,利润指标的下滑主要系一季度研发费用、销售费用等期间费用同比增幅较大所致。其中,研发费用同比增加3832万元,销售费用也因为登上央视春晚等平台而明显增加。 作为一家机器人公司,研发投入增长实属正常。真正值得关注的是上春晚等销售费用的增长,这意味着宇树虽然获得了满堂彩,但是付出的代价也更大了。而随着未来更多人形机器人走向大众视野,这种趋势可能会持续加重。 以智元机器人为例,2026年3月底,智元已经实现第10000台机器人量产下线。这意味着,智元从5000台到10000台量产,仅用了3个多月。其创始人邓泰华甚至喊出今年要实现数万台量产,以及明年实现百亿营收的计划。 此外,还有来自海外同行的竞争。要知道,宇树有四成营收来自于海外。以特斯拉为例,特斯拉的第三代人形机器人Optimus将在2026年夏季启动生产。这将是一个不容忽视的对手。 这些都是宇树不得不去面对的问题。 放在整个行业中来看,宇树也还有很长的路要走。目前,全球最大的人形机器人公司Figure AI估值约为390亿美元,若按照宇树420亿元人民币估值来看,宇树估值尚不及前者1/6。 原因之一自然有市场因素;另一方面则是技术的投入,Figure AI自研具身智能大模型,机器人已经实现自主决策来干活,而非依赖摇操,这一点宇树并没有做到很好。 过去几年,宇树的研发投入并不高。2023年至2025年,宇树研发费用累计约2.6亿元。仅2025年这一费用约为1.4亿元,占营收8.53%。和同行相比,这一研发费用率明显偏低。2025年,优必选、越疆、云深处等企业研发费用率在23%至26%之间,是宇树费用率的3倍。 王兴兴也曾说过,“我们公司对AI的投入还是比较克制的,因为确实太烧钱了,我们还是相对来说克制一些。” 但是,具身智能的核心竞争力是具身智能模型。行业内,一些尚未大规模量产的公司,之所以估值破百亿、两百亿,正是因为在“大脑”层面取得了突破。因此,具身智能模型的进展,也是未来估值能否被进一步拉高的关键因素。 3 王兴兴显然已经意识到了这一点。最近一年,在多个场合,王兴兴都表达了具身智能的重要性。 今年1月《扬声》的访谈中,王兴兴就说:“谁能把机器人用的大模型做出来,谁就是全世界最厉害的 AI 公司和机器人公司,我觉得完全足够拿诺贝尔奖。” 宇树也已经开始加大在具身智能模型上的投入。在WMA模型与VLA模型上,去年9和今年1月,宇树开源发布了通用WMA模型“UnifoLM-WMA-0”与通用VLA模型“UnifoLM-VLA-0”。 就在一周前,宇树又发布了WVLA2.0具身智能大模型,在外部干扰环境下,机器人无需远程操控,全自主运行完成了物品归置、分类收纳等操作。 未来,宇树对具身智能大模型的投入也将会加大。招股书显示,宇树拟募资42亿元,其中一半将用于具身智能大模型的研发。 显然,偏“硬件”的宇树,正在加速补上“具身智能”这块短板。 不过,要实现真正的通用智能,还需要时间。让人形机器人真正走进人类生活,仍有很长一段距离,这是宇树无法绕过的关卡,也是宇树的终极目标。 过去十年,宇树一路走来,我们发现王兴兴始终遵循一条重要的原则:在合适的时机做合适的事情。 创业之初,他选择了一个国内尚处空白的新兴领域四足机器人,带着宇树做到了全球市场份额的第一。有了基本盘后,时机也成熟了,王兴兴切入人形机器人赛道,将产品卖给高校、科研机构等,通过量产撑起了营收。如今,人形机器人已是宇树的第一收入来源;更重要的是,宇树也赚钱了,人形机器人的毛利率高达62.91%。 或许,这一切源于一个浙江人的创业观。王兴兴曾在采访时直言:创业本身就是个生意,不能只靠烧投资人的钱,生意跑起来,公司基本不会死掉。 如今,王兴兴让宇树的生意跑起来了,甚至即将敲响上交所的锣声。但是IPO不是终点,接下来,宇树要面临的新考验是:如何在真实环境中解决一个真实问题? 这也是王兴兴的梦想。在招股书《致投资者的声明》结尾处,王兴兴写道:“让我们一起实现人类最终极的梦想AGI!”
一场黑客松,看见AI重塑一家万人公司
AI向下扎根,创新向上生长 文|白 鸽 编|王一粟 当Workday的CTO Peter Bailis辞去高管头衔,转身加入Anthropic做一名工程师(MTS)时,硅谷震动的不只是人事圈,而是一条被重新定义的职业天梯。 过去一年,从Instagram联合创始人Mike Krieger到Tesla前AI总监 Andrej Karpathy,一批已经证明过自己的技术领导者,正集体放弃管理半径,只为离模型更近一点。 这不仅是个人选择,更是一场组织范式的革命,在AI时代,“管多少人”正在让位于“调用多强的智能”,公司组织架构的底层逻辑,也正在被重写。 国外的OpenAI、Anthropic,国内的DeepSeek、月之暗面等,凭借少数公司成员,就能撬动老牌巨头的市值。 与此同时,国内大厂也纷纷成立独立的AI组织部门,直接汇报至最高领导者,如字节跳动的Seed部门、阿里的ATH事业部等。 那么,从硅谷的CTO降级潮,到国内大厂的独立部门与虚拟组织,AI正在逼迫每一家公司回答同一个问题:AI如何变成一种组织级创新能力?以及AI原生组织,到底应该是什么样的? 5月27日,蚂蚁技术日上,我们或许找到了一个可以参考的样本。 现场黑客松活动上,一个运维、一个产品、一个算法,三个来自不同部门、平时几乎没有交集的人,凑在一起,只用48小时,就把一个“开会隔空翻PPT太酷了”的念头,变成了可以在Mac上直接运行的手势控制系统。 放在几年前,这种“非业务刚需、非技术团队主导、非官方安排” 的想法,连进入开发队列的机会都微乎其微。 但在2026年的蚂蚁,它不仅发生了,还成了最普遍的景象。没有人命令他们,没有KPI压着,就是一群普通人,看见工作里的真问题,拿起AI工具,自己动手解决。 527技术日更像是一个观察窗口:当AI从工具变成基础设施,一家拥有二十年历史的大型技术组织,正在经历怎样的基因重组? 最懂问题的人 开始参与解决问题 这一波AI浪潮中,我们不难发现,创新不再只从正式研发链路里长出来,它会从更靠近真实问题的地方冒出来。 2025年9月,月之暗面的几位工程师随手启动内部项目Ensoul,想让代码文件在命令行里“活”过来,这就是我们后来知道的Kimi智能助理。风靡全球的OpenClaw(龙虾智能体),更是只出自一个人之手。 这恰好是传统大公司创新链路最难的地方。一般来说,大公司的创新,往往是自上而下,战略定方向、业务提需求、产品写方案、研发排期开发、测试验收上线。 整体链条长、门槛高、离一线远,最后能落地的,往往是“必须做”,而不一定是“最该做”。 走进蚂蚁黑客松的赛场,最先感受到的是一种“错位感”。 按照传统剧本,这里应该是算法工程师和架构师们炫技的修罗场。但在今年蚂蚁黑客松的现场,会发现许多面孔并不属于研发序列。 比如,一个团队3个人,2个人一行代码没写过,用“上班搭子骗来了”啥都能干的开发主理人,一起做出了一款猫咪照护助手。甚至有非技术型选手1人参赛,独自用AI研发出了一款面向渐冻症患者的普惠型个性化表达辅助系统。 事实上,在黑客松的组队名单里,我们看到了大量跨部门、跨职能的临时小队,其中也包含大量非技术型人员,带着自己创作的AI应用产品来参赛。 现场选手被问到“跨团队自由协作和过去有什么不同”时,给出了最真实的回答:“以前固定班组,视角很窄;现在不同岗位、不同技术方向凑一起,能从完全不同的角度做成一件事。” “我是做算法的,以前根本不了解工程怎么用AI,这次彻底打开了。” 这段话,恰好点破了蚂蚁在组织层面正在发生的变化,AI降低了“创造”的门槛,也打通了“协作”的边界。 据蚂蚁官方数据显示,此次黑客松大赛中,共有1122人报名,其中非技术同学占比约18%。这组数字背后,是AI正在让更多人参与创造,它不是让人人都成工程师,而是只要有想法、能说清需求,运维、运营、产品、业务…… 每个人都可以在自己最痛、最痒、最有体感的地方,动手解决问题。 从特区到小单元 AI原生组织骨架正在萌芽 AI时代,一家公司的创新能力,或许将不再只取决于人员数量,而是取决于人才密度✖️算力密度。 以大模型创业公司来看,DeepSeek核心团队约百人,月之暗面长期维持100多人,OpenAI虽已达数千人规模,但其核心研究层仍保持小团队Pod化。 “这是一个人人都可以成为CTO的时代,只要有Token,就可以管理大规模的技术团队。”蚂蚁集团CTO何征宇如此说道。 现如今,越来越多的科技巨头都在尝试推行AI Builder Pods,即小型跨职能团队,拥有高度自治权。 “我们的产品上线其实也是用特区的模式去发展的。”蚂蚁集团Homi产品工程师对光锥智能说道,“从春节前后开始搭建,三月十九号发布第一个版本。” Homi是面向蚂蚁集团内部员工的AI办公平台,其目标也很简单,就是让非技术同学也能用自然语言搭Agent,自动处理工作流。 而其提到的特区模式,就是将产品、研发、测试角色融合,所有人直接使用大模型编写代码、设计功能、调试系统,工作流程高度打平。 简单来说,就是产品经理也要亲自上手,用大模型对产品进行开发和测试,产品写前端、研发做交互、所有人都是AI工程师,用“特区模式” 快速迭代。 而Homi背后的团队,只有10余人,却做成了一个服务集团两万多人的平台,覆盖文档写作、研发分析、数据复盘、项目管理等多个场景,并为员工带来了真实提效。 据介绍,线下支付商家运营的同学,用Homi搭了两个skill:一个做政府消费券活动复盘,一个ODPS SQL查询报告,以前要BI同学花大半天才能出的数据报表,现在问一句就出来,“提效能达到90%以上。以前他要动手做,现在只要出需求。” 一般来说,传统模式下,支撑全公司办公场景,往往需要几十甚至上百人的产研团队,而AI时代,小团队+AI引擎+通用架构,就能托起规模化创新。 而这其实并不是蚂蚁集团内部的个例。 以WeaveFox为例,团队从2023年下半年开始围绕AI应用制作和智能研发持续突破,并将相关成果不断转化为产品能力,陆续孵化出包括WeaveFox-Vibe在内的一系列产品。其中,WeaveFox-Vibe面向非研发者,帮助他们通过自然语言完成AI应用创作,目前访问用户过万。 对于这样一款面向集团全员,已形成大量用户基础的产品,让人意外的是其背后的组织方式:在AI能力的加持下,团队采用小单元模式迭代,同时探索新的复合型人才模型:技术实现+产品+技术架构三位一体。 过去由不同角色分工完成的工作,如今可以由工程师以全栈方式推进,团队成员有机会从单一职能走向更完整的产品视角。比如一个想法提出后,当天就能完成原型验证,拿到反馈后继续优化,有时候一天甚至能够完成三四轮迭代,持续验证方案可行性、校准产品判断。在这个过程中,产品在进化,团队也在成长。 可以看到,对于AI时代的公司组织来说,小团队(如3~5人)也能高效运作,无需专职PD或设计师,降低组织复杂度,更适合AI驱动的敏捷创新模式。 不过,蚂蚁集团内部也有像GPASS端边云一体可信连接框架这样的产品团队,该团队主要聚焦把支付宝支付、生活服务推向AI眼镜,覆盖千问、小米、Rokid、雷鸟、华为等主流眼镜品牌。 “目前项目中95%的代码,都是通过AI生成。后续希望能实现100%代码由AI来写。”GPASS技术架构师表示。 三个项目,三种规模,指向同一个结论:AI不是替代人,而是重组人与组织的关系——岗位边界消融、专业壁垒降低、小团队能办大事、非技术人能做创新。 这直接回应行业疑问:AI时代,大厂还需要庞大研发团队吗? 答案是:不需要堆人,而要堆“智能密度”。 目前,蚂蚁集团推出了AI Token政策,鼓励员工在研发和办公场景拥抱AI,每天给每人提供高额度的Token使用量,员工也可以通过各种渠道购买Token,公司也会给予报销。 Token在这里变成了一种新的组织资源。更重要的是,这种免费的Token使用,并不限于技术人员,集团所有人员,包括非技术人员,都可以直接使用。 可以看到,在蚂蚁集团,以特区、全栈工程师、小单元作战的AI原生组织形态,也正在萌芽,其也证明了,超大型组织,同样可以拆分成无数灵活、高效、创新的小单元。 这种“特区模式”,或许正是大厂应对AI时代的最优解:小团队、全栈化、去层级、快迭代。 最后,我们需要再次厘清一个误区。 当我们谈论“人人Building”时,绝不是鼓吹技术虚无主义,也不是预言工程师的消亡。相反,在蚂蚁的实践中,我们看到的是对工程师价值的重新确认。 AI可以生成代码,但无法定义问题;AI可以优化流程,但无法理解人心;AI可以加速迭代,但无法替代对技术方向的判断和对用户体验的匠心。 AI不是万能的。它不会自动带来创新,也不会自动解决组织惰性。所有的改变,都始于一个个具体的人,在具体场景中,做出的具体尝试。 正是这些微小的、具体的、甚至带着些许笨拙的瞬间,构成了AI时代组织进化的真实纹理。 每一个员工面对问题时,第一反应不再是“这事归谁管”,而是“我能不能试着做一下”。 这或许才是AI时代,一个组织最宝贵的资产。
存储风暴继续:2030年硬盘出货容量或暴涨3倍,AI贡献占比过半
智东西 编译 | 佳扬 编辑 | 云鹏 智东西6月1日消息,据福布斯报道,2030年,硬盘出货容量将实现约3倍增长,AI带来的额外硬盘容量需求将占总出货量的58%。 以上数据来源于存储分析师Thomas Coughlin对全球硬盘容量出货趋势的分析。 在当前AI浪潮到来之前,全球存储市场已经经历过一次剧烈波动。2021年,受疫情期间远程办公、云服务和数字化需求激增影响,存储需求出现大幅增长。然而随后两年,数据中心运营商开始消化此前积累的大量库存,导致2022年至2023年市场需求明显下滑。 进入2024年和2025年后,随着库存逐步恢复正常水平,市场需求重新回升。但此次复苏与以往不同,除了传统存储需求恢复外,大规模AI训练基础设施建设正在带来新的增量需求。 为量化这一影响,Thomas Coughlin对2011年至2019年的全球硬盘容量出货数据进行了拟合,并以此建立基准增长模型,再将实际和预测数据与历史趋势进行比较,从而估算AI所带来的额外需求。 硬盘出货容量趋势(来源:福布斯) 根据分析结果,如果不考虑AI数据中心建设,2026年全球HDD容量需求预计约为1654EB。而AI基础设施建设带来的新增需求预计将达到363EB,这意味着AI相关需求将占2026年全球硬盘总容量出货量的约18%。如果当前增长趋势持续,到2030年,超过一半的新出货硬盘容量将服务于AI相关应用。 在AI工作流程中,采用NAND闪存的SSD(固态硬盘)用作主存储,为HBM内存提供支持,用于存储即时AI训练或推理的数据。机械硬盘的读写性能较低,但价格要便宜得多,通常用作辅助存储,用于保存较旧的训练数据、训练日志以及AI训练或推理过程中创建的其他内容。因此,AI对HDD存储的需求与SSD存储的需求大致相当,但由于HDD需要存储随着时间推移而不断增长的旧数据,其需求倍数更高。目前,超过85%的数据中心数据存储在HDD上。 研究指出,未来硬盘市场增长的主要驱动力并非出货数量增加,而是单盘容量的持续提升。预测显示,2025年至2030年间,单块硬盘平均容量将提升约2.7倍; 到2030年,硬盘出货数量仅比2025年增加约13%;相比2022年水平,2030年的硬盘出货量甚至仍将低约19%。 希捷(Seagate)首席执行官Dave Mosley近期说,公司当前的重点并非扩建生产线,而是提升单盘存储密度。其核心路径是推进HAMR(热辅助磁记录)技术,通过提高单碟存储密度来实现容量增长。按照希捷的规划,到2030年,硬盘出货容量有望实现约3倍增长,这与本次研究预测的2.7倍平均容量增长基本一致。 莫斯利认为,将大量资源投入建设新工厂可能会拖慢技术创新速度,而提升存储密度则能够更有效地满足未来市场需求。 综合分析显示,未来几年AI基础设施建设将持续推动存储容量需求增长,而这种增长主要体现为更高容量硬盘的部署,而非硬盘数量的大幅扩张。 结语:AI持续改变存储市场 AI带来的存储需求,改变了HBM、高性能固态硬盘和机械硬盘的供需市场。过去两年,受AI服务器需求带动,HBM供不应求,三星和SK海力士等存储厂商从中受益,市值大幅增长。 如今,随着AI训练和推理产生的数据越来越多,承担海量数据存储任务的机械硬盘需求也在快速提升。未来几年,AI将继续成为推动整个存储产业增长的重要动力,存储产业链各环节都将持续受益。
矩阵超智携MATRIX-3亮相澳门BEYOND国际科技创新博览会
上证报中国证券网讯(记者 黎灵希)5月27日至30日,2026澳门BEYOND国际科技创新博览会在澳门威尼斯人金光会展中心举办。通用人形机器人企业矩阵超智携旗下全能旗舰机型MATRIX-3参展,集中展示公司在具身智能、运动控制、精密操作、工程化量产等领域的核心突破。 展会现场,MATRIX-3进行了双足行走、灵活转向等步态展示,充分展现自研仿生超能直线关节与运动控制算法的高稳定性与高可靠性。同时,MATRIX-3现场完成模型橙子、水果等物品的抓握、夹持、旋转等,依托27维自由度灵巧手实现微米级操作精度,可广泛适配高端制造、商业服务、物流分拣、医疗辅助及家庭服务等多元场景。 据悉,MATRIX-3身高1.7米、体重65公斤,搭载WAVE物理基座大模型、仿生超能直线关节、27维自由度灵巧手、3D针织仿生安全皮肤四大核心技术,具备4小时持续作业能力、双臂15kg负载能力与零样本泛化智能,可快速落地多场景实用化作业。 资料显示,矩阵超智由前特斯拉中国设计研究中心创始领导者张海星领衔,团队具备全球顶尖人形机器人研发与工程化经验。公司此前正式发布MATRIX-3全能旗舰机型,并启用上海张江MFH超智工厂,以全链路自主生产推动产业化落地。 目前,矩阵超智已具备年内5000台交付能力,2027年将冲刺10万台级量产规模,以规模化效应持续降低成本,推动人形机器人从科技展品走向通用劳动力。 矩阵超智表示,本次亮相是MATRIX-3面向国际市场的重要展示,进一步夯实矩阵超智在全球人形机器人赛道的领先地位,推动技术合作、场景拓展与生态共建。未来,公司将持续以第一性原理推进技术创新与工程落地,依托中国完整产业链优势,开放行业伙伴计划与RAAS生态体系,让中国智造的具身智能成为服务全球、走进千家万户的通用智能体。
世界模型赛道,VAST 选了一条还没有人走过的路
今年除了 Agent 赛道,世界模型也成为 AI 行业新的必争之地,前段时间李飞飞和杨立昆相继宣布获得 10 亿美元融资,世界模型也走到了一个十字路口。 APPSO 曾分析过当前世界模型的五大门派,它们有着不同的技术路线,如杨立昆的 JEPA 派,是做抽象表征预测;李飞飞的空间智能派,用 World Labs 的 Marble 在做显式 3D 重建;DeepMind 的学习型仿真派,推出 Genie 实现可交互虚拟环境等。 ▲ 图片由 AI 生成 这些早在 ChatGPT 出现前的 AI 学者,甚至是 AI 教父/教母,都在说大语言模型的文本训练范式已到瓶颈,AI 要理解物理世界必须靠世界模型,但到底要做什么样的「世界模型」,没有一个达成共识的定义。 这几天,AI 公司 VAST 完成了 A+ 及 A++ 轮的融资,合计金额近 2 亿美元。而在今年三月初,VAST 才完成了 5000 万美元的 A 轮融资。 提到 VAST,可能会有点陌生,但是 Tripo 3D 生成是不是很耳熟?我们之前分享的 Seedance 2.0 x GPT Image 2 两大模型的组合玩法,就曾多次提到过利用 Tripo AI 将 GPT Image 2 生成的多视角图片,转成一个 3D 模型。 ▲ Tripo 是 VAST 旗下的通用 3D 大模型 VAST 首席科学家曹炎培表示,从第一天开始,VAST 真正在做的,就是解锁下一代互动内容的底层基础设施,也是为通用人工智能打造专属世界底座。 这件事被拆成了两步,第一步完成 「造万物」;第二步实现动态 「造世界」,为用户和智能体提供可演化、可试错的完整虚拟环境。 造万物,是用 AI 3D 生成那些符合管线标准的资产;造世界,才是世界模型要干的事,理解空间尺度、状态演化,从而支持多人交互。 单纯的 3D 静态资产撑不起一个可交互的世界,曹炎培认为,资产只是「世界底层的状态」,离一个会运转的世界还差着一整套规则。 和五大门派都不一样的地方在于,过去的世界模型把状态和画面压在一个模型里一起预测,VAST 把这两件事拆开,底层单独维护一个世界状态,上层按需渲染画面。 这样做的好处是,状态独立存在,物体离开镜头不会消失;一个状态可以同时给多个人渲染不同视角,多人交互并发自然成立;用户对世界的改变会真实留在状态里,下一个进来的人看到同样的结果。 VAST 推出的 Project Eden,正是用这套逻辑把世界模型重做了一遍。它也成为全球首个允许对世界状态进行独立维护与确定性控制的世界模型。 那问题也来了,世界模型的状态和画面为什么要拆开,又为什么是 VAST 先采取这样的方式? 画面流畅不等于世界在运转 视频生成做得更流畅,可以叫世界模型。静态 3D 场景能走动,叫世界模型。能控制视角,也能叫世界模型。 世界模型这个词,似乎什么都能往里装了。 Google Genie 的演示视频里,玩家在里面操控一个角色,往前走,画面跟着生成。但可能一转身,背后的场景就改变了,或者出现从没存在过的东西,因为 Genie 是靠最近几帧的记忆猜我们身后有什么。 ▲ Genie 这一类世界模型,本质上是生成了一段视觉上连贯的视频 我们把这一类称为视频生成派,在他们的技术实现里,世界模型就是预测下一帧,给模型喂动作输入,让它生成接下来的画面,反复接龙,就能模拟一个世界。 曹炎培管这种叫「一镜到底」,空间、事件、视角、外观全被压进一段自回归视频的历史帧里。镜头一移开,那个位置的状态没人保管,等你回头,模型只能靠 Transformer 里的 KV cache 重新幻想一遍。 说白了,它记住的不是世界,是几帧画面。 而另一类是李飞飞的 World Labs、腾讯的 HY World,可以被称为空间智能派,能够导出可复用的 3D 资产是这类模型最常见的特征。 他们尝试先把三维空间构建出来,让 AI 真正理解几何和物理关系,再谈其他。 例如,World Labs 的 Marble 能生成一段有限范围的世界,我们可以在里面自由游览。在这个生成的固定世界里,视角一致性解决了,因为 3D 资产是静态的。但同时,这个世界也丢失了时间维度,场景永远停在生成那一刻,没有物理变化,没有事件发生,没有因果关系。 ▲ 生成的世界是固定的,灯不会随着时间的流逝熄灭,天也不会亮 我们能走进去,但什么都改变不了,也没有什么会因为我们的行为而变化。 对 VAST 来说,世界模型不能只是去生成像素,也不能只是一个静态空间。 一个可交互的世界模型,必须有一个跨时间持续存在、能被多视角同时观察和查询的底层状态,而且这个状态是在不断被更新的。 像做大世界游戏一样做世界模型 既然无法把空间、事件、视角等状态压缩进单一的视觉信息里,那就彻底把它们拆开。 就像我们玩的大世界游戏一样,游戏的服务器会维护着一套世界状态,谁在哪里、什么东西被打坏了、哪个宝箱被开启了。我们的电脑屏幕只是基于这套状态,结合本地文件夹里上百 G 的游戏文件,做一次实时渲染。 地图数据和画面渲染是两套完全分开的系统,有人进入我们的大世界,大家还是共享同一个静态文件的底层世界,各自的画面只是不同视角的渲染结果。 VAST Project Eden 做的,就是把这套逻辑用生成式 AI 重写一遍。他们放弃了传统模型大一统的黑盒逻辑,设计了一套「状态与渲染原生解耦」的三层算法结构。 底层是结构化状态,管的是这个世界里有什么、发生了什么——场景几何、物体身份、事件逻辑,完全独立于任何相机视角。当玩家在世界模型里做出任何行为动作,系统首先更新的就是这套底层状态。 中间是转换层,它会根据「当前是谁在观察、从哪个视角观察」,把世界状态转换成一组局部条件信息。像是做了这个动作之后,这个视角下能看到哪些物体、它们的大致空间关系、当前发生了哪些事件变化等。 上层才是生成式渲染,基于这些条件,把画面真正「画」出来,补足光照、材质、动态细节。 这么一分拆,视频模型的职责就只剩一件事:当一个高质量的渲染器。它不用记住整个世界,也不用猜某个物体还在不在,那些都交给底层状态。它擅长的本来就是画得好看,现在让它专心画得好看就行。 当世界模型开始维护一个持续存在的底层状态后,训练数据也跟着变了。 在 Project Eden 的定义里,真正适合训练世界模型的数据,得同时包含两层信息:底层的推演状态,和高质量的视觉画面。两层对不齐,就不算「原生数据」。 数据从哪来? VAST 利用 Tripo 长期积累的 3D 基础模型能力,对海量的互联网 2D 视频进行反向解构,恢复深度、相机位姿、几何轨迹等信息,重新还原背后的空间状态。 曹炎培直言,如果没有这套 3D 理解和生成能力,「我们可能都没法开始做世界模型」。 另一方面,从游戏引擎中找到物体坐标、碰撞关系、动作输入等合成数据,形成「状态-结果」的完全对应数据,模型便能学到,一个动作发生之后,世界状态会如何演化。 互联网视频负责泛化和广度,引擎数据负责精准和控制,缺了哪一头都不成立。 这或许是未来的 AI 世界 当世界状态成为一个持续存在的独立系统后,这种架构层面的差异,在能力层面直接体现出来。 最明显的变化就是环境持久化。用户在 Project Eden 里进入一个场景,往前走或是做出其他动作,都是在原有的场景上进行活动。底层状态一直在那里,从没消失过,不需要从历史帧重建。 这件事听起来平淡,对视频生成路线却是一道至今难以迈过的坎。 多人共享同一个世界,也是同样的道理。两个玩家进入同一个底层状态,玩家 A 推动箱子到达了点位,玩家 B 看到的也是同步的箱子位置。在这套解耦架构里,多个玩家共享的是同一个世界底座,状态只有一份,渲染各算各的。 根据一些 Demo 的表现,VAST 已经跑通了两个玩家共同推箱子、两辆赛车在同一赛道竞速(不同屏幕)的场景。在纯视频框架下,几乎没有办法做这件事,它必须依靠一个唯一的全局状态。 打靶的例子更能说明问题。当玩家用水枪发射,系统可以确定性地判断当前朝向和靶子的相对位置,精确计算是否击中,记录得分,这个结果永久留在状态里。 同样一件事丢给视频生成,它能生成一段「水柱击中靶子」的画面,却无法把这个结果可靠地存下来。 视频生成模型擅长的是像不像,不是对不对。世界模型要的恰恰是后者,曹炎培说,一个模型如果没法对动作做出正确的预测和推演,「也很难叫它世界模型」。 还有动作类型的泛化。以往大多数世界模型能支持的动作,说白了就是上下左右加跳跃,方向键能做的那几种。 在 Project Eden 的 Demo 里还有赶羊、灭火、划船这类动作。这背后同样是解耦架构带来的训练效率优势,状态推演只需要学「给定这个动作,下一个状态是什么」,不用同时学「这个过程看起来怎样」,比搅在一起学省力得多。 这些能力拼在一起,才像一个真正在运转的世界,而不是一段画质很高的动态视频。 Eden 的架构,为世界模型提供了新可能 虽然 Project Eden 只是 VAST 团队提出的一次世界模型研究预览,但其背后的架构选择,为行业提供了一条值得长期关注的探索方向。 世界模型这个词现在人人都在说,但说的不是同一件事。谁能做持久化、谁能做多人、谁能高效拓展,除了有算力和融资量的因素,路线本身也在筛选玩家。 纯视频路线的世界模型,消耗的算力可能是生成一段 Sora 视频的成百倍,结局可能会像 Sora 一样在商业上此路不通。 但如果状态维护放云端,画面渲染做到端侧,像本地图形渲染一样,用户不必为每一帧付费,事情就不一样了。 VAST 提到他们现有的 3D 生成技术积累,恰好是训练世界模型数据的核心来源。用 3D 基础模型能力对海量互联网视频进行反向解构,提取深度和几何轨迹,把普通视频转化成带状态标注的训练数据。 而随着 Project Eden 的推进,在未来,随着多人并发问题在工程层面进一步解决,它或许还将颠覆现有的传统 DCC 工具,如 Blender,与类似 UE、Unity 等游戏引擎。 世界模型将不再按单次生成收费,是作为基础设施在内容分发、运行时进行,类似游戏引擎或云服务商的座席模式。 一方面,它是一个 AI 原生的沙盒平台,用户只需要通过自然语言或简易动作,就能一键创作出可供多人共享的、具备物理逻辑的互动数字世界,极大地降低了内容创作的门槛。 VAST 想做的,是把造世界这件事的门槛,压到拍照那么低。类似于 UGC 互动内容平台,生成的世界也可能像短视频一样进入我们的生活,成为新的互动娱乐生态。 另一方面针对科研和产业,它能够提供具备完整物理规则、长时序一致性、且可自由干预的仿真环境,能成为适配具身智能训练与性能评测的高质量仿真基座。 世界模型,就这样越来越接近一个真正持续运转的世界底座。 曹炎培在内部把路线划成三个里程碑: 第一步,验证状态推演和画面呈现真能完美解耦,Project Eden 放出的 Demo 就是在交这份答卷; 第二步,攻克状态预测的泛化,让模型对「弹指打碎一面墙」这种泛化的动作也能推演出自洽的结果; 第三步,才是多人并发和推理成本这些工程上的硬骨头。至于真正的商业化,他预计是一件非常中长期的事。 与最早人们还会争论 AI 生成的图片/视频像不像,到现在 AI 可以一次性直出,海报、宣传视频,AI 都能搞定这件事一样,世界模型大概也在这条路上,从谁的画面更真实,变成谁的世界能够持续运转、更稳定承载多人交互,以及沉淀越来越多用户创造的内容。 从预测下一帧像素,到推演下一个状态,世界模型的终点开始清晰了。
英伟达“重新发明”PC,雷军听到号角了吗?
AI PC的战场上,又多了一个重量级玩家。 5月30日,英伟达、微软、Arm几乎同时在社交平台预热“A new era of PC”,坐标指向台北电脑展。 今天,英伟达正式发布了RTX Spark,一款面向个人AI Agent的新型Windows PC超级芯片。微软也同步发布博客,称双方推出了由NVIDIA RTX Spark加速的新一代Windows PC,面向开发者、创作者和高端用户,为新一波Agent应用而设计。 首批RTX Spark设备包括Microsoft Surface Laptop Ultra、Dell XPS 16、Lenovo Yoga Pro 9N、HP OmniBook X14/Ultra 16、Asus ProArt P14/P16、MSI Prestige N16 Flip AI等,预计今年秋季上市。 过去,PC更多是英特尔、AMD和整机厂的主场;而现在,英伟达、微软和Arm一起站到台前,让AI PC不再只是一个联网调用云端模型的终端,开始变成承载本地AI计算和系统级Agent的工作台。 资本市场已经提前开始为这轮AI硬件重估定价。据路透社报道,戴尔将2027财年AI服务器收入预期从500亿美元上调至约600亿美元,第一财季营收438亿美元,同比增长88%,盘后股价一度上涨约39%。 同样反应热烈的还有联想。5月22日发布超预期财报后,联想股价跳涨15%。财报显示,公司第四财季收入超过预期,PC销售强劲,基础设施方案业务收入增长37%。到5月底,据财经媒体统计,联想股价在AI服务器和AI PC叙事推动下单月涨幅一度超过100%,成为AI硬件重估里最典型的PC厂商样本之一。 AI服务器让联想、戴尔这样的传统PC厂商重新被资本市场看见;英伟达、微软和Arm联手押注Windows PC,则把这轮AI硬件重估进一步推向个人电脑。 另一边,手机增长正在经历寒冬。 IDC最新预测显示,2026年全球智能手机出货量将同比下降13.9%,降至10.9亿部。这可能成为智能手机史上最严重的一次年度收缩,比IDC今年2月给出的12.9%跌幅更加悲观。与此同时,智能手机平均售价预计升至550美元,比2025年高出约100美元。手机市场正在出现一个很尴尬的组合:卖得更少,卖得更贵。 卖得更贵,主要因为成本压力已经传导到了手机厂商身上。小米2026年一季度净利润同比下降43%,主要受到内存芯片等零部件成本上升和国内竞争加剧影响;其中智能手机出货量同比下降19%至3380万台,手机收入同比下降12.5%至443亿元,手机毛利率也从去年同期的12.4%降至10.1%。 端侧AI体验确实需要更大的内存、更强的算力和更高的存储配置。问题在于,成本已经先行,AI带来的换机拉力却还没能得到证明,手机厂商一边要为AI配置买单,一边还没完全拿到AI溢价。 对小米、华为这类全生态公司来说,手机之外的下一块主屏,正在指向PC。 01 英伟达、微软、Arm联手,把AI PC推上主桌 过去几年,AI硬件的主桌一直摆在数据中心。英伟达2027财年一季度数据中心收入达到752亿美元,同比增长92%;戴尔也把全年AI服务器收入预期上调至600亿美元;HBM市场则被预计将在2026年翻倍至760亿美元。GPU、AI服务器、HBM,才是资本市场最熟悉的AI硬件关键词。PC更多像一个访问入口,用户打开浏览器,调用云端模型,本地设备本身并没有承担太多AI计算。 但在Agent时代,PC的角色发生了变化。 在之前的文章里,我们写过Googlebook。谷歌已经意识到,Agent时代,PC正在变成AI工作流的主战场。手机适合随时调用AI,但电脑更适合让AI真正进入文件、浏览器、应用和系统操作里。 微软、英伟达和Arm三家联手下场,意味着AI PC正在从单家公司的产品叙事,变成一场更大的产业合流。 对英伟达来说,这是AI算力从数据中心向个人电脑的延伸。英伟达几乎吃遍了AI基建最核心的红利,云厂商、模型公司、企业客户都在抢GPU,AI服务器让英伟达成了整个AI时代最典型的卖铲人。 但Agent要进入个人工作流,算力不能只堆在数据中心。越来越多的本地Agent任务,需要PC具备更强的本地能力,尤其是对隐私、延迟和连续运行有要求的场景,电脑本身必须具备更强的本地执行力。 英伟达正式入局PC芯片,带来的不只是处理器,还有GPU、AI计算、驱动、开发者生态和本地模型能力。它过去在数据中心吃到了AI基建红利,现在要继续把这套能力放进个人电脑里。 按照英伟达的说法,RTX Spark最高可提供1 petaflop AI算力和128GB统一内存,足够支撑更复杂的端侧Agent任务。同时,英伟达还会把OpenShell运行时带到Windows上,并结合微软新的Agent安全机制,让Agent在本地运行时仍然处于用户可控的安全环境里。Hermes Agent、OpenClaw等应用也会接入这套能力。 而对微软来说,这是Windows AI体验继续往前走的一步。Copilot+ PC已经把AI电脑的概念打了出来,但目前很多AI PC体验仍然偏轻。要让Copilot从云端问答进一步进入Windows本地工作流,微软需要更强的芯片、更统一的硬件平台,以及更能打动开发者和高端用户的设备。 Arm同样需要这个机会,让Windows PC市场的破圈成为可能。Windows on Arm并不是新故事,微软和高通已经为此推进了很多年,骁龙X Elite也曾被寄予厚望。但Windows用户对Arm PC一直有顾虑,性能强度、软件兼容、游戏生态、开发工具……这些问题直接影响Windows on Arm的普及。 英伟达进入之后,Arm PC的叙事不再只围绕低功耗和长续航。The Verge报道称,首批确认的RTX Spark设备包括Microsoft Surface Laptop Ultra、Dell XPS 16、Lenovo Yoga Pro 9N、Asus ProArt P14/P16、HP OmniBook X14/Ultra 16、MSI Prestige N16 Flip AI等。英伟达也强调Adobe、Blender、DaVinci Resolve、Maxon等创作软件已经支持或优化Arm平台,微软和游戏厂商也在推进Windows on Arm的游戏兼容。 英伟达要把AI算力带到PC,微软要把Windows变成Agent时代的工作入口,Arm要借此打进高性能个人电脑市场。三方的利益,在AI PC上形成了交集。 三方同时站到PC前台,同时也意味着AI PC不再只是整机厂往笔记本里塞一个AI功能,芯片架构、GPU能力、操作系统、开发者生态、应用兼容和本地模型能力,都要一起往前推。 Agent时代,PC正在重新靠近AI产业链的核心位置。过去它是云端AI的访问终端,而现在,它正在变成Agent工作的本地入口。 02 手机厂商需要下一块主屏 相比AI PC的升温,手机厂商正在经历另一种境遇。 手机不仅仅是一门硬件生意,更是用户和品牌之间最高频的连接点。它代表着入口、账号、支付、内容消费和系统服务,几乎是整个IoT生态的遥控器。小米讲“人车家全生态”,华为讲鸿蒙生态,OPPO、vivo也都在围绕手机延展耳机、手表、平板、车机和系统服务。 一旦手机增长放缓,受影响的不仅仅是手机业务本身,还有整套生态的增长。 小米的财报已经把这种压力写得很清楚:2026年一季度,小米收入同比下降10.9%至991亿元,经调整净利润同比下降43.1%;智能手机出货量同比下降19.0%至3380万台,手机收入同比下降12.5%至443亿元,手机毛利率也从去年同期的12.4%降至10.1%。 这组数据背后,是AI+手机(在原有智能手机框架里叠加AI能力)的现实困境。端侧AI体验需要更大的内存、更强的算力和更高的存储配置,而这些东西都会进入BOM成本。手机厂商要讲AI,就必须给配置加码;配置加上去,成本也跟着上去。 但目前看来,用户对AI功能的感知并没有那么直接,至少还没能强到明显拉动换机需求。 OPPO、vivo的压力没有完整财报那么透明,但调价动作已经很说明问题。 3月以来,OPPO、一加、vivo、iQOO等品牌陆续调整了部分机型的价格。相关报道提到,涨价原因主要指向存储和半导体成本上涨,部分机型涨幅达到500至1000元。 这类涨价最容易影响中端机和大存储版本。旗舰机还能靠影像、屏幕、芯片和品牌溢价消化一部分成本,但中端机的用户对涨价更加敏感。过去国产安卓厂商最擅长的打法,是在1999元、2499元、2999元这些价格带里把配置塞满,内存和存储一涨,这套打法就会承受较大的成本压力。 在Agent时代,传统手机厂商变得有些尴尬。 手机仍然是最大众、使用最高频的屏幕。豆包手机2.0已传出推进消息,中兴在业绩说明会上提到,正与字节跳动等生态伙伴推进新一代豆包AI手机的研发与认证;OpenAI的手机传闻也在升温,郭明錤称OpenAI正在与联发科、高通合作开发智能手机处理器,并可能将AI手机量产时间提前到2027年上半年(最初爆料为2028年)。 AI公司仍然盯着手机这块入口,但对OPPO、vivo这类传统手机厂商来说,AI+手机先带来了配置和成本压力。 它们要讲AI,要跟上系统级助手、端侧模型和跨应用操作这些新功能,可这些功能落到硬件上,就是更大的内存、更高的存储、更强的芯片,以及更复杂的软件适配。成本先上去了,但用户愿不愿意为这些功能多付钱,答案还不够明确。 小米的情况又比OPPO、vivo更复杂一些,它的手机业务同样承压,但它不是只把AI放进手机。雷军此前宣布,未来三年小米将在AI领域投入至少600亿元,这一表态发生在MiMo-V2-Pro发布之后,最新的MiMo-V2.5-Pro也在Agent和本地工作流能力上继续加强。 手机并不是不再重要,但它更擅长承接随身、生活化的AI需求,比如拍照、语音、翻译、支付和智能家居控制。真正复杂、连续的Agent任务,则更容易发生在PC上。 过去手机厂商做PC,更多是补产品线、办公场景以及多屏协同,电脑像手机生态的外围设备,用来让手机、平板、手表之间的体验更完整。但到了Agent时代,PC变成了承接长任务、复杂文件和多应用协作的重要工作台。 对小米来说,AI PC可以把手机、汽车、家电、IoT和MiMo模型接到更完整的工作流里。用户在手机上发起需求,在PC上处理复杂任务,在车和家里延续服务,这套场景更接近“人车家全生态”的完整形态。 华为甚至更适合承接这套逻辑:华为本来就有手机、MateBook、平板、鸿蒙、车机和办公协同,根据报道,鸿蒙电脑已经把AI能力放到了系统层,接入了盘古大模型和DeepSeek。AI PC如果进一步成熟,将成为鸿蒙生态里更重要的工作入口,把手机、平板、车机和办公场景串得更紧。 手机仍然是最广泛的个人入口,但在Agent时代,只有手机还不够。对小米、华为这类全生态公司来说,PC正在成为手机之外更关键的生产力入口。 03 AI正在重新定义每一块屏幕 AI硬件的分化,表面上是服务器厂商和PC厂商获利、手机厂商承压,但往深了看,重点是AI正在重新分配每一块屏幕的价值。 移动互联网时代手机是绝对中心,它吃掉了相机、音乐播放器、导航、钱包,也吃掉了大量电脑时间。在移动互联网时代,谁掌握手机,谁就掌握用户的入口。 但Agent时代,入口不能只看使用频率。 手机依然是最随身的设备,适合唤醒AI、处理碎片化需求;汽车会承载移动空间里的智能,适合导航和出行服务;家电负责生活场景,适合围绕家庭环境、安全和日常服务做家生态。 而PC的价值,则回到了工作流的中心。它是最适合处理复杂任务的屏幕,连接文件、浏览器、企业系统和本地数据,也拥有更大的显示空间和更稳定的任务运行环境。 AI PC重新上桌的根本原因就在于此,不是因为PC突然重新流行,也不是因为笔记本需要一个新的营销词。真正发生变化的是,AI从“回答问题”走向“执行任务”之后,需要更适合承载Agent的办公设备,让Agent更好地进入工作流。 在很长一段时间里,做生态的核心是把设备串起来。手机、平板、手表、耳机之间能互联互通,就足够讲一个完整故事。 但Agent时代的需求不再只是把手机里的照片传到电脑上,或者让手表提醒电脑开会;现在用户真正想要的是,AI能理解他的任务,调用合适的设备和应用,把事情推进下去。 PC不再只是生态里的一块屏幕,更是任务真正发生的地方。 对小米、华为这样的全生态公司来说,AI PC的价值也不只是多卖一类硬件。它更像是生态从生活场景进入生产力场景的接口。 没有PC,全生态更多停留在生活入口,手机控制家电、汽车连接手机、手表记录身体数据、耳机接入语音助手。有了AI PC,全生态才更容易进入工作入口,资料整理、代码修改、设计创作、企业协同,都可以被纳入同一套AI系统里。 这一轮AI硬件重估不会平均分给所有终端,谁能进入AI工作流,谁才有更高的定价权。只能承接成本的厂商注定先被供应链挤压。 手机仍然重要,但它很难独自完成全生态公司的下一轮增长,对小米、华为来说,AI PC不是手机之外的一条可有可无的副线,是走向生产力场景的必经之路。 往远了看,未来比拼的不会只是手机电脑卖了多少台、车卖了多少辆,还有谁能把这些设备组织成一套真正可执行的AI工作流。 手机负责感知和连接,汽车负责移动和空间,家电负责生活和环境,PC负责工作和执行。谁能把这几块屏幕串起来,谁才更接近Agent时代的生态入口。
华为发布 nova 16 系列:2 亿主摄,红枫影像,还有十年的答案
6 月 1 日,华为在成都举行了 nova 16 系列及全场景新品发布会,带来了 4 款 nova 16 系列新机,以及更多全新产品。 转眼间,华为 nova 这颗「新星」,也已经燃烧了十年。 十年时间,足以让一款手机彻底改变模样。在华为 nova 16 系列身上,我们自然能看到属于今天华为的全新表达,但细看之下,你依然能够发现十年前那台初代 nova 留下的影子。 华为 nova 16 系列:2 亿主摄,红枫影像 华为 nova 16 系列一共包含 4 款手机: 华为 nova 16z 华为 nova 16 华为 nova 16 Pro 华为 nova 16 Ultra 有意思的是,nova 系列没有跟随 Mate 和 Pura 的步伐,推出「Pro Max」机型,继续保留了「Ultra」的后缀。 这次华为 nova 16 系列显得很有诚意,除了「线上机」nova 16z,另外三款 nova 16 都搭载了麒麟 9010S、7000mAh 电池、100W 有线快充和畅连/运营商北斗卫星消息支持。 先来看看主打的华为 nova 16 Pro 版本,这次提供了 4 款配色:晴空蓝、幻彩贝母、天际白和星空黑,背板采用丝绒 AG 玻璃。 华为 nova 16 Pro 的影像配置,颇有「越级」的意思: 主摄:2 亿像素 F1.8 光圈 RYYB 镜头,1/1.28 大底 长焦:5000 万像素F2.6 光圈 RYYB 潜望长焦镜头 超广角:5000 万超广角微距 红枫原色镜头 这个 2 亿像素的主摄,是 Pura 90 Pro 都无缘的配置,1/1.28 的传感器尺寸,也让这颗镜头的可用性更强,不会过于受到环境光条件的制约。 自拍也是华为 nova 系列的特色,这次 nova 16 Pro 将「红枫影像」也引入了前置镜头,与 5000 万像素的主镜头配合使用,能更好把握各种环境下的皮肤色准。 硬件配置给足,影像玩法也没有落下:魔法移图,利用 AI 实现更自然的抠图合成;3D 动态,将静态 2D 图转化成 3D 视角;以及当下很火的实况拼图。 华为 nova 16 Pro 还搭载了「nova 史上最亮屏幕」,尺寸为 6.84 英寸,支持 6000nits 峰值亮度,以及 1-120Hz LTPO 自适应动态刷新率。 系统方面,华为 nova 16 Pro 搭载 HarmonyOS 6.1 系统,支持能将课堂板书跨设备同步的「全景智记6」、课程表导入和小艺深度解题等非常适合学生用户的功能。 超大杯华为 nova 16 Ultra 则提供天际白、星空黑、晴空蓝三种配色,背板采用素皮 + 玻璃拼接背板和一体成型工艺,配置和 nova 16 Pro 接近,主要在影像、充电和卫星通信上有所区分。 华为 nova 16 Ultra 搭载全系 RYYB 影像,主摄同为 2 亿像素 1/1.28 大底摄像头,升级集中在另外两个镜头: 长焦:5000 万像素 RYYB F2.2 大光圈镜头,光圈更大 超广角:5000 万像素 RYYB 超广角微距镜头 前置摄像头:5000 万像素 F2.0光圈镜头+ 红枫原色镜头,光圈更大 华为 nova 16 Ultra 也是 nova 16 系列中唯一一台支持无线充电的设备,最高 50W 华为无线超级快充,和 7.5W 无线反向充电。 在畅连和运营商北斗卫星短信的基础上, 华为 nova 16 Ultra 还增加了天通卫星通信的能力,能够实现无网语音电话。 华为 nova 16 堪称史上最好的 nova 数字旗舰,在电池、芯片和快充的配置上都看齐两个大杯。 影像配置上,华为 nova 16 仅搭载两颗 5000 万像素的主摄和 RYBB 潜望长焦镜头,以及一个红枫原色镜头,对比 Pro 版本少了一个超广角镜头。 华为 nova 16z 主打线上渠道,搭载麒麟 8020 芯片,影像配置为 5000 万像素主摄 + 1200 万像素 RYYB 长焦镜头,电池大小为 6000mAh。 在元器件涨价的潮流下,华为 nova 16 系列也不能避免涨价,每个版本对比上一代基本上涨 300 到 500 元不等。 nova 16 系列手机版本较多,我们将售价集中列出,方便大家对比观看,发布会现场并未给出产品的运行内存信息: 华为 nova 16z,256GB 起步,起售价 2699 元 华为 nova 16,256GB 起步,起售价 2999 元 华为 nova 16 Pro,256GB 起步,起售价 3899 元 华为 nova 16 Ultra,256GB 起步,起售价 4699 元 其他新品:超大杯平板、耳夹耳机升级款 这场发布会的主角是华为 nova 16 系列,属于中高端次旗舰系列,平板新品华为 MatePad Pro Max,则属于华为旗舰平板的集大成之作。 华为 MatePad Pro Max 屏幕尺寸为 13.2 英寸,厚度仅有 4.7mm,重量为 499 克,是目前全球最轻薄的大尺寸平板。 值得一提的是,华为 MatePad Pro Max 采用了一块超窄边框全面 OLED 屏幕,并且为无刘海设计,屏占比高达 94%,支持最高 144Hz 刷新率和 1600nits 亮度。 华为 MatePad Pro Max 还支持「鸿蒙双桌面」的特性,可以在平板界面和 PC 界面之间切换,满足不同的使用场景。 华为 MatePad Pro Max 悦享版搭载麒麟 T93 处理器,起步配置为 12GB + 256GB,售价 5999 元;T93 Pro 处理器版本起步配置 12GB +256GB,售价 6199 元。 和华为 MatePad Pro Max 一同推出的,还有华为第一方专业音乐编创软件「音悦家」,支持作曲、录音、编曲、混音、导出的全链路音乐创作,亮点为中国传统乐器音色的高精度还原,6 月开启华为 MatePad Pro Max 公测,未来还将在更多设备上推出。 口碑和销量都不错的华为 FreeClip 耳机也推出小改款——华为 FreeClip 2 典藏版,充电仓采用全新珠宝盒设计,耳机 C 桥升级鎏光云感材质,支持耳机作为相机快门交互,售价 1499 元。 华为 AI 眼镜也推出了全新的「钛丝半框光学镜方形款」,钛银灰配色,价格为 2499 元。 发布会的最后,华为也预热了今年的华为开发者大会 HDC 2026,将于 6 月 12 日-14 日,在松山湖举办,届时将分享更多关于鸿蒙系统生态的最新进展。 nova 十年,变与不变 华为 nova 16 系列有一个看似与产品无关,却颇具象征意义的变化:代言人从易烊千玺换成了时代少年团。 巧合的是,双方恰好有着「师兄弟」的关系。他们所代表的受众群体高度重叠,只是在年龄层和成长阶段上有所延续与更替。 这种代言人的接力,某种程度上也是 nova 品牌十年发展的缩影:年轻人始终在变,一代又一代新的面孔不断登场;但表达年轻化的初心,却始终没变。 最早的 nova,解决的是消费者人群之间的区隔问题。当时的华为,已经有了商务旗舰 Mate 和影像旗舰 P 两个高端系列,以及荣耀作为性价比路线。 在这之间就空出了一个「中高端」的次旗舰定位,一个主要面向青年群体品牌,于是 nova 系列应运而生,门槛比 Mate 和 P 更低,外观设计也更偏向年轻时尚,卖点主打性价比和自拍。 初代华为 nova 到了华为「黑科技」频出的时期,nova 还有了另一重职责——将这些前沿的技术探索,进行包装,下放给更多人群。 像是华为 nova 4 的「极点全面屏」、nova 5 的夜景自拍以及 nova 9 Pro 的 100 瓦快充,这些卖点本质上都是来自 Mate 和 P 系列的技术,借由 nova 触达更多大众消费者。 而在 2023 年,华为进入全新阶段之后,负责走量的 nova 系列,职责进一步升级。 它不再只是新技术的展示窗口,更成为华为核心技术规模化普及的重要通道,让折叠屏、卫星通信、麒麟芯片和原生鸿蒙走出旗舰机,触达更多对手机可能不太了解的用户。 华为 nova Flip 华为 nova 16 系列依旧如此,我们能看到 Pura 90 系列的 2 亿像素镜头探索,以及 RYYB 红枫原色镜头;更深层次,则是麒麟 9010S 芯片和 HarmonyOS 6.1 的全链路软硬结合,使其「华为手机」的地位毋庸置疑。 但从初代华为 nova 到 nova 16,这个品牌,又好像从未改变。 它依旧是华为最「青春」的产品系列,瞄准年轻和女性的核心用户群体,主打时尚潮流的质感设计,希望称为年轻人的第一台 nova 手机。 在这些品牌底色之下,它传达的理念,结合华为的现状来看,非但没有改变,反而历久弥新: 把最先进的技术,用最年轻的方式讲出来。
内存疯涨!安卓Ultra迈入万元时代:定价看齐iPhone 18 Pro Max
快科技6月1日消息,据行业人士爆料,国内多家主流手机品牌接下来的迭代旗舰产品线,都会新增Pro Max版本,而且这个全新段位会成为各家接下来主推的核心旗舰机型。 定位比Pro Max版还要高一级的Ultra影像旗舰,会直接瞄准万元以上的价格段发力。这也意味着安卓阵营最顶尖的产品定价,将会直接追平同期发布的iPhone 18 Pro Max,整个安卓超高端手机市场的准入门槛被直接抬升到了新的层级。 此前小米集团总裁卢伟冰就公开表示,受到内存成本大幅上涨的影响,今年下半年国产直板旗舰手机的价格很有可能会突破万元大关。 知名市调机构Counterpoint Research的最新报告也印证了上游的涨价趋势,2026年第一季度全球通用存储芯片的价格环比上涨幅度达到80%到90%,创下了近十年以来的历史新高,成本压力直接从芯片端传导到了整个消费电子终端。 不少业内分析师表示,这一轮存储芯片涨价潮什么时候才能彻底收尾,核心取决于全球范围内的AI算力投资热度什么时候降温。如果AI相关的大额资本开支节奏逐步放缓,通用存储芯片的供需失衡关系才有可能得到实质性缓解,终端硬件的成本压力才会逐步松绑。 过去多年国产旗舰长期卡在四千到六千元的价格区间,接下来国产旗舰的产品力和定价体系,都会和苹果旗舰手机看齐。
任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率
1492 年,哥伦布驶向大西洋深处。远洋航行当然需要速度,但真正决定船队能否抵达彼岸的,是淡水、食物、船体、桅杆和帆索能否撑过漫长风暴。改写跨洋贸易的,正是这种并不浪漫的工程逻辑。 后来,荷兰人设计出「福禄特」商船:造价更低、船员更少、货舱更大,能在大西洋航线上稳定往返。远洋航行由此从冒险家的孤勇,变成一门可复制、可计算、可扩张的生意。 今天的 AI 模型竞争,也走到了类似的十字路口。 过去,人们谈模型,习惯谈参数、榜单和峰值能力,但 APPSO 在使用 Claude Code、Codex 这类 coding agent 之后,明显感觉到当 AI Agent 开始走向生产环境,真正在乎的问题变得有些不一样了:能不能持续处理高频请求,能不能稳定调用工具,能不能理解复杂界面,能不能嵌入企业既有流程并长期运转。 这些问题的答案,往往不在跑分榜单里。 最近,阶跃星辰正式发布并开源 Step 3.7 Flash。作为面向生产级 Agent 的新一代 Flash 模型,它主要服务 Agent、Coding、Search 与多模态工作流。 它出现的时机,恰好踩在这个路口上。生产级 Agent 要的早就不只是快和便宜,更重要的是够可靠、够好用、够容易部署,还能在真实工作流里一天天产出结果。 Flash 模型,不再是旗舰的平替 过去,Flash 模型常被当成旗舰模型的轻量版,卖点无非就是快和便宜。但当 Agent 成为工作流的核心,Flash 模型的角色就变了。 如果模型在多轮任务中容易偏离目标,无论是企业还是个人都很难放心采用。相反,一个模型若能在速度、成本、工具调用、多模态理解和生态兼容之间取得平衡,才有机会成为 Agent 系统真正可依赖的基础能力。 某种意义上,Agent 时代要的 Flash 模型,已经从「更快的小模型」升级成了「生产效率最高的基座模型」。 它既要够得着旗舰模型的能力上限,又要扛得住大规模 Agent 调用的效率压力。Step 3.7 Flash 的定位,正是后者——新一代 Agentic 基座模型。 而生产级 Agent 的第一道门槛,是理解真实工作环境。 大量 Agent 任务分布在复杂界面、办公文档、图表系统、浏览器页面、专业软件和内部工具之间。只擅长文本问答的 Agent,很难真正处理这些任务。 Step 3.7 Flash 重点强化的,正是原生多模态理解与执行能力。 它可以理解 UI、图表、文档、图片和应用界面,也可以在复杂视觉问题中自主裁剪、放大、重读图像。遇到信息不确定的情况,模型还能主动发起搜索,并对文本和图像信息进行交叉验证。 这里有个反直觉的设计思路。对一个 11B 激活的 Flash 模型来说,把海量视觉知识硬塞进权重是不划算的。阶跃反其道而行:权重里只留最核心的推理引擎,把感知边界和世界知识外推到推理阶段,靠极快的速度,用「多看几眼、多查几遍」去换「参数本来不够用」的那部分能力。 低延迟和高吞吐,到这里就不只是部署时的优势,直接变成了能力本身的一部分,巧妙且机智。 比如在这个驾驶舱操作的演示中,用户只输入「如何起飞」,模型就会自动框选驾驶舱区域,识别仪表、按钮和关键操作信息,理解当前界面的操作逻辑,并生成分步骤教程。 这里的重点不止在于它能识别一张驾驶舱图片,更关键的是,它能把一个密集、陌生、强依赖上下文的视觉环境,转换成一个人可以照着做的任务指引。 能看懂,和能教你动手,难度系数完全不一样。 我们还把 Step 3.7 Flash 接入了一套手机 GUI Agent 流程,并用一台 vivo 手机完成演示。 手机通过 USB 连接 Mac,打开 ADB 调试授权后,终端就可以获取手机当前截图,并通过 scrcpy 同步显示手机画面。随后,脚本把这张截图发送给 Step 3.7 Flash,让模型判断屏幕里正在发生什么。 比如我们让 Step 3.7 Flash 看了一眼手机里的微信读书热搜榜。它不只是把页面上的字读出来,还能理解榜单结构:哪些是书名,哪些是封面,当前排名是多少,有多少人在读,推荐值又对应哪本书。 这类能力的意义在于,Agent 面对的是真实 App,而不是整理干净的截图。它要先看懂页面,才有可能继续帮用户找书、比对热度、整理榜单,甚至执行下一步操作。 我们又把它放到美团小判官这样的页面里,让它处理一条商家申诉场景。页面里同时有用户评价、图片证据、商户回复,以及「用户更有理」「商家更有理」这样的处理按钮。 对模型来说,这已经不是简单的 OCR,它是在理解一段业务流程:谁在投诉、争议点是什么、证据是什么、平台接下来允许做什么。多模态 Agent 要进入真实工作流,遇到的往往就是这种混合了文本、图片、判断和操作入口的界面。 换到 Blender 场景里,用户输入「怎么删除这个方块」,模型会识别 Blender 的界面结构、图层、工具栏和当前编辑状态,再给出删除指定方块的操作步骤。 再看应用界面设计分析。当用户要求模型说明「这些设计有什么有趣之处」,模型会识别不同图片中的信息内容,理解设计元素之间的关系,并生成专业分析。 Step 3.7 Flash 另一项关键能力,是联网与视觉搜索增强。 Agent 在真实业务里碰到的问题,往往牵扯动态信息、外部资料、多源证据,还有一堆残缺的输入。模型要是只啃自己肚子里那点知识,时效性和准确性上很容易翻车。 「瑞石楼」这个演示就很典型。模型先从用户上传的图片里读出可见的线索,围绕这些线索生成检索词,用网页抓取工具去外面查资料,最后把图里的视觉信息和网上的文字信息拼成一个完整回答。 搜索到这里,已经不是返回一串网页链接那么简单,模型是围着任务目标,主动去找、去筛、去对、去组织证据。这正是 Search Agent 和 Research Agent 真正需要的干活方式。 官方提到,Step 3.7 Flash 在 SimpleVQA Search、V* (Python) 等复杂视觉任务 Benchmark 上,展现出接近更大规模旗舰模型的表现。这也意味着模型能够在信息不充分的情况下继续推进任务,并减少未经验证的回答。 让 40 个 Agent 同时开工,这才是大模型下场干活的正确姿势 Agent 与普通聊天机器人的区别,在于调用密度更高。 一次普通问答往往只有一轮交互,而 Agent 完成任务时,需要反复观察环境、调用工具和读取结果。Coding Agent 要读代码、改文件、运行命令;Search Agent 要检索、核对和整理信息;办公 Agent 要处理表格、文档和邮件。 调用次数一旦大幅增加,模型速度和成本就会成为系统级问题。 Step 3.7 Flash 采用稀疏 MoE 架构,总参数为 196B 加 1.8B ViT,激活参数仅 11B,最高生成速度可达 400 Tokens/s。对于高频 Agent、Coding Agent、Search Agent、多模态 Agent 和企业知识工作 Agent,这意味着同样时间内可以完成更多轮观察、调用和推理。 比如,Step 3.7 Flash 可以构建 Agent 集群,让 40 个不同身份的虚拟 persona 扮演产品评测团,对一个产品问题进行并行判断,并实时汇总它们对 5 个 MVP 方向的偏好。 批量跑 Agent 的价值,就在这里了。 过去一个模型做一次分析,成本和延迟都还能忍。可一旦企业同时跑几十个 Agent,分别扮演用户、专家、销售、产品、运营、客服,吞吐能力立马成了前提。速度不够,反馈就慢;价格太高,规模化根本无法成立。 类似地,Agent 并行实时构建大型知识图谱,同样属于高频、多步骤任务。模型价值不仅体现在生成速度,更体现在单位时间内完成更多观察、检索和推理。 再看信息整理。我丢给它一句「我要写一篇自动驾驶的综述,分头去查技术路线、政策法规、市场格局、代表公司四个方向」。 这类任务看似只是汇总资料,实际运行时会触发多轮搜索、来源核对、内容归类和结构化输出。任务链条越长,调用次数越密,模型吞吐的差距就越容易被放大。 Step 3.7 Flash 给我的直观感受是快,但快的同时质量没有打折——从全网搜集四个方向的资料各自归到对应板块,技术路线讲得清楚,政策法规和市场格局的信息也分得开,没有出现把不同方向揉成一团的情况,结构化输出该有的层级都在。 值得一提的是,Step 3.7 Flash 完成任务的性价比极高,尤其是对 Agent 这种高频任务形态更友好。 一次 Agent 任务往往包含拆解、检索、读网页、调工具、比对结果和整理输出,调用次数远高于普通问答。单次成本差异,放到完整任务链里会被迅速放大。 官方数据显示,开启 Advisor Mode 后,Step 3.7 Flash 的编程能力达到 Claude Opus 4.6 的 97%,但每个任务成本大约只有后者的九分之一。 也正因为如此,Step 3.7 Flash 的价值不能只用「快」来概括。放到 Agent 工作负载里看,它同时解决了三件事:高吞吐减少等待,更低任务成本支撑规模化运行,接近头部模型的编程能力则让它有机会进入真实工作流,承担持续、复杂的任务。 此外,Agent 要进入生产系统,关键还在于稳定调用工具。Step 3.7 Flash 在高可靠工具调用与编排上做了优化。官方称,它可以在长程多轮 Agent 工作流中稳定调用 API、浏览器、终端、Office 工具和外部系统,并保持任务轨迹一致,降低任务偏移和执行失败的概率。 官方披露了几组数据。Step 3.7 Flash 在考察多工具协同的 Toolathlon 上达到 49.5%,在考察真实环境下日常自主任务执行的 ClawEval 1.1 上达到 67.1%,在横跨 44 种职业任务的 GDPval 上达到 45.8%。在 τ²-bench Telecom 的低、中、高三档推理难度下,通过率均超过 98%。 当然,Agent 生产化还有一个容易被低估的条件:模型必须适配工作流。模型通常被放进一套 harness 里,周围有提示词模板、工具协议、浏览器环境、文件系统、代码执行器、评测集、权限系统和业务流程。 对此,Step 3.7 Flash 针对 Claude Code、Kilo Code、Roo Code、OpenCode、Hermes Agent、OpenClaw 等主流 Coding 和 Agent 工具做了兼容优化,也面向 MCP、Skills 等工具调用协议和开发链路进行适配。 开发者因此可以更容易地把模型放进已有 Agent 框架中,而不必重新改造整套流程。对企业来说,适配价值不言而喻:模型越容易进入既有系统,试用和部署周期越短,工程成本越低。 目前,Step 3.7 Flash 已在 Kilo Code、Nous Research、Lemonade 等 Agent 与开发者生态项目中完成接入验证。阶跃星辰也在与 Fireworks AI、DeepInfra、Modal Labs 等 AI 基础设施与推理平台推进适配,后续还会接入 OpenRouter、ZenMux 等海外模型聚合与开发者平台。 ▲ https://huggingface.co/stepfun-ai/Step-3.7-Flash 截至目前,官方还提供关于 Step 3.7 Flash 的 Model Page、GitHub、Hugging Face、ModelScope、国内开放平台 API、海外开放平台 API、Studio 在线体验,以及阶跃 AI App 入口。 这些入口意味着,它同时面向开发者试用、企业 API 接入和开源生态使用。更重要的是,Step 3.7 Flash 支持云端和本地部署。官方还提供了端侧多精度版本,面向个人工作站和本地环境进行优化。 海外开发者的实测反馈,也补上了官方数据之外的视角。有人在本地 MoE 测试中对比 DeepSeek V4 Flash、Step 3.7Flash 和 Minimax M2.7,Step 3.7 Flash 在 agg@64 下运行速度超越其它模型,达到 2123.13 tok/s; 也有开发者提到,自己用 Gemini 3.5 Flash 写代码后,再让 Step 3.7 Flash 检查,能找出 7 个以上小 bug 和错误。无论是指向本地吞吐,还是指向代码排错,都切实地说明 Step 3.7 Flash 已经开始进入真实开发流程,并被开发者当成可以长期使用的生产力工具。 基座模型,就该为 Agent 而生 体验完 Step 3.7 Flash,APPSO 发现它比起追求某个维度的跑分,更强调工程实用性。 多模态、联网搜索、工具调用、框架兼容、本地部署、低成本、高吞吐。这些单拎出来都不算新鲜,可它们凑在一起,恰好补上了 Agent 在生产环境里最需要的短板。 这条路径并不花哨,但很适合 Agent 当前所处的阶段。我们过去问一个模型,问的是它够不够聪明。可 Agent 时代,真正该问的是另一个问题:这个模型,是为谁设计的。 这两个提问背后的出发点就不一样。 一个是模型为人优化,意味着它默认面对的是一个会读、会等、会自己脑补的人类。你问一句,它答一句,慢几秒没关系,偶尔含糊也能靠你补上。 但 Agent 不会,Agent 要在观察、调用、推理、纠错的循环里连轴转,它一天发出的请求,可能比一个人一年说的话还多。它不会替模型打圆场,模型跑偏了,它就跟着跑偏。 为人优化的模型,未必适合 Agent 。这也是为什么 Flash 这个词,在 Agent 时代有了新的含义。它不再只是旗舰的廉价替身,而要从头按 Agent 的脾气重新设计了一遍。 Step 3.7 Flash 这些特点恰好对应了这个逻辑。 原生多模态,是因为 Agent 得先看见任务现场;400 Tokens/s,是因为高频调用经不起慢;工具调用的稳定性,是因为长程任务断一环就全断;harness 适配,是因为模型再强,进不去现成的系统也白搭。 它不是冲着榜单去的,是冲着「Agent 究竟怎么高效、高性价比干活」去的。从 Step 3.5 Flash 到 Step 3.7 Flash,阶跃星辰一路强化的,其实都是同一件事:让模型为 Agent 而生,推动 Agent 进入规模化商用。 这也会成为模型今后一个重要的进化路线,Step 3.7 Flash 也还不是终点。但它让我们看到了一个变化:评判 Agent 时代的模型,不该只盯着它有多聪明,而要看它愿不愿意把那些琐碎的工程账,一笔一笔算明白。 1492 年真正改变世界的,其实不是哥伦布那一次惊险的横渡。反而是后来那些福禄特商船能一趟趟稳稳地出海、返航、装货,然后再出发。冒险家负责抵达彼岸,商船负责让彼岸变成航线。 模型竞争走到 Agent 这个阶段,道理也类似。真正拉开距离的,不只是跑分上的惊艳,更是那些能让 Agent 反复出发、可靠抵达,并把能力沉淀成航线的模型。
英伟达掀桌,Windows 终于迎来真 AI PC
Windows PC 阵营,已经很久没有遇到真正有分量的闯入者了。 ▲Windows 用户 belike 过去四十年,这个市场的基本分工相对稳定:微软定义操作系统和软件入口,Intel 与 AMD 长期把守 x86 处理器平台,英伟达则从图形计算出发,后来又把 AI 加速推到更高的位置。 而就在黄仁勋刚刚结束的 2026 年 COMPUTEX 主题演讲上,英伟达沿着 AI 基础设施这条主线,进入更多产业的核心环节。 除了 GPU 、AI 工厂、物理 AI 等老生常态的话题,还有被微软和 ARM 提前预热、打着「A new era of PC」旗号的 RTX Spark。所有产品背后,都围绕同一个关键词展开: Agent、Agent,还是 Agent。 联手微软,英伟达要重新定义个人 PC 在 Agent(智能体)叙事里,PC 被放到了一个新位置。 四十年来,Windows、开放 BIOS、芯片组、驱动、多媒体 API 一起塑造了个人计算。Windows 95 让 PC 从企业设备变成消费电子产品,几乎每个人都需要一台电脑。 现在,微软和英伟达将重新定义 AI PC ,目标是要让 PC 原生运行智能体,让个人电脑从传统应用入口变成个人 AI 平台。 今天推出的英伟达 RTX Spark 处理器是这套新 PC 体系的核心。 它搭载 Blackwell RTX GPU,FP4 AI 性能达到 1 petaflop;CPU 部分是与联发科合作定制的 20 核 Grace CPU;内存为 128 GB 统一内存,并通过 NVLink C2C 提供 600 GB/s 带宽。软件层面,完整栈包括 CUDA、TensorRT、NVFP4、RTX Ray Tracing、DLSS、Reflex 和 G-SYNC。 在产品形态上,英伟达把 RTX Spark 放进了更接近主流 Windows PC 的尺寸里: 笔记本厚度可做到 14 毫米,重量约 3 磅,覆盖 14 英寸到 16 英寸机型;机身采用精密加工铝合金,屏幕部分则配备色彩准确的 tandem OLED,并支持 NVIDIA G-SYNC,既服务创意工作,也兼顾游戏和高帧率视觉体验。 换言之,RTX Spark 面向的场景不只是端侧语音助手或轻量办公场景,它试图把部分数据中心 AI 能力、游戏图形能力和专业创作能力,放进个人电脑形态里。 黄仁勋说,这台电脑要运行「所有东西」。传统 Windows 应用要能跑,CUDA 软件栈要能跑,图形工作流、数字生物、地震处理、天体物理、基因组学和 AI 应用也要继续运行,它既可以连接本地模型,也可以连接云端模型。 在现场演示视频中,用户给出场地、草图、风格参考和需求后,运行在 RTX Spark 上的智能体会调用 Rhino 完成建筑与室内方案设计,并导入 Blender 结合 Flux 2 生成多角度渲染图,过程中用户可随时修改。 演示传递的信号不言而喻,PC 将从人手动操作软件转向智能体围绕目标调度工具,而典型案例是,Adobe Photoshop、Premiere 等应用也正为 RTX Spark 优化,并通过 MCP 接入本地智能体,成为自动化工作流的一部分。 RTX Spark 只是新 PC 产品线的起点。黄仁勋还展示了三种形态:笔记本、台式机和工作站。它们共同兼容 Windows、CUDA 和 AI 软件栈,面向的使用场景各不相同。 笔记本对应移动办公、游戏和创作。 它可以本地运行 Nemotron 3 Ultra,也可以连接 Claude、Codex 或其他云端模型。台式机更像家庭里的个人 AI 主机,可以 24 小时运行智能体,连接笔记本、显示器、摄像头、安防系统、家电和其他设备。 工作站面向模型开发者和智能体开发者。 DGX Station for Windows 配备 748 GB 内存、20 petaflops 算力和 8 TB 每秒内存带宽,可以在桌面环境中运行万亿参数模型。开发者可以在本地完成模型开发、调试和测试,再部署到云端。 黄仁勋把这一变化类比为手机变成智能手机,打电话已经不再是今天智能手机最重要的功能。他认为,10 年后的 PC 也会经历类似变化。它会从打开应用、点击和输入的工具,变成家庭和个人工作流里的 AI 超级计算机。 而我们能感受到最直接的变化,大概就是未来的 Windows 电脑,或许会是一台真正的 AI Agent 电脑。 对于想在本地跑 LLM、又需要大内存和较强 AI 算力的人来说,RTX Spark 的出现,可能会成为除 Mac 之外的另一个选项。 有用 AI 时代到来,一切为 Agent 而生 如果把过去两年的行业变化归纳为一句话,那就是有用的 AI (useful AI)已经到来。而 Agentic AI 的第一批应用场景,正是软件开发。 全球有 3000 万到 4000 万职业开发者,GitHub commit 数量也在持续增长:2023 年约 3 亿,2024 年约 4 亿,2025 年前几个月达到 5 亿,2026 年前几个月接近翻了三倍。 黄仁勋借此反驳了「AI 会减少就业岗位」的说法。在他看来,AI 提高了工程师的产出,企业反而更愿意招聘更多工程师。究其原因,同样的人力成本可以创造更高生产力,软件开发的价值也会继续扩大。 更深层的变化发生在应用形态上。 过去的软件由应用、代码和操作系统组成,但智能体时代的计算方式则换了一套流程:用户给出目标,模型理解意图,运行环境调度流程,工具执行任务,记忆系统保存上下文,最后产出结果。 整个过程包含观察、理解、推理、规划、行动和工具调用。 在这个框架下,LLM 只是 Agentic 系统中的「思考模块」。完整的智能体还需要 harness,也就是调度和编排层;需要浏览器、电子表格、数据库、编译器、CAD 软件和数据处理引擎等工具;也需要短期记忆、长期记忆和运行环境。而这种 LLM+harness=Agent,再加工具、记忆和运行环境的模式将会是未来十年的应用基础。 智能体成为新的应用形态后,支撑智能体运行的计算底座也要重新设计。 发布会上,黄仁勋宣布,英伟达下一代 AI 超级芯片平台 Vera Rubin 已进入全面投产阶段。它是英伟达迄今规模最大的 POD 级平台之一,也是面向 Agentic AI 设计的新一代 AI 工厂核心系统。 Vera Rubin 由 Rubin GPU、Vera CPU、NVLink 72、BlueField、ConnectX 9、Spectrum X 以太网、存储处理系统、安全处理系统和完整软件栈共同组成,目标是支撑 AI 工厂级别的系统运行。 它面向的是智能体从输入到执行的完整流程。 智能体处理提示词、理解上下文、推理规划、调用工具、访问数据库、运行代码和检索长期记忆时,会同时牵动 GPU、CPU、网络、内存、存储和安全系统,因此 Rubin GPU 负责主要计算,Vera CPU 负责调度和数据管线,BlueField 4 处理安全隔离与存储,Spectrum X 负责大规模联网。 Vera Rubin 之后,黄仁勋还单独讲了 Vera CPU。 在他看来,过去的 CPU 主要服务于人类用户和传统云计算租赁,计算资源按核心、按时间出租,响应速度以秒为单位衡量。但智能体的运行节奏完全不同: 它们会频繁调用工具、访问数据库、运行代码、检索记忆,每一步都要求更低延迟。 这也让 CPU 在 AI 工厂里的角色变得更关键。智能体数量越多,工具调用和数据流转越频繁,CPU 越容易成为瓶颈。尤其是 GPU 已经成为 AI 工厂最昂贵的资产,CPU 的延迟和吞吐会直接影响 GPU 利用率,最终影响 Token 产出。 Vera CPU 的设计逻辑正在于此。 过去 CPU 为人服务,Vera CPU 则面向数量远多于人类的智能体。它采用自研 Olympus Core,重点放在单线程性能、核心间带宽、总带宽和能效。它有神经分支预测器、10 路解码引擎、大型乱序执行引擎和先进预取机制。内存部分采用 LPDDR5X,并支持多错误校正。 这颗 CPU 包含 88 个 Olympus 核心,使用单片网格结构连接,没有把核心分散到多个 chiplet 上。这样的设计减少了跨芯片通信带来的延迟。它支持 PCI Express Gen 6,内部通信能力达到 3.6 TB 每秒,内存带宽达到 1.2 TB 每秒。 相比 x86 CPU,Vera 在部分场景中峰值内存延迟降低 40%,智能体 sandbox 性能达到 1.8 倍,SQL 性能达到 3 倍,实时流处理性能达到 6 倍。 Agent 是新的工作负载,CPU 的角色也随之变化。它不再只是云计算里可出租的通用核心,而是 AI 工厂里调度模型、工具、内存、数据库和安全系统的关键部件。 现在买电脑,是用来打造 AI 工厂 黄仁勋反复强调,AI 的商业逻辑已经改变。过去算力常被视为成本,现在 token 是可以带来收入的单位。只要 token 能产生收入,算力就成了生产能力。 想用 Token 赚钱,就来看看英伟达的 AI 工厂。NVIDIA DSX 是构建并运营 AI 工厂的蓝图与参考设计,基于 Omniverse,用数字孪生提前模拟 AI 工厂的布局、电力、冷却、网络和系统集成。 黄仁勋提到,未来 1 GW 级 AI 工厂的投资可能达到 500 亿、600 亿美元,甚至进一步上升到 800 亿至 1000 亿美元。资本成本越高,系统上线速度、吞吐效率、可靠性和生命周期越关键。 RTX 面向我们的 GPU,DGX 面向我们的系统,而如今,DSX 则构成了整个基础设施的核心。 而 NVIDIA DSX 这套生态系统囊括了一大批的云服务公司和 AI 基础设施企业,包括 CoreWeave、Nebius、Nscale、Naver Cloud 等,以及服务的客户包括 Cursor、World Labs、Revolut、Shopify、Google 等等,帮助所有的企业用户用 Token 来获得收入。 硬件之外,企业如何真正用上智能体,是另一条线。 黄仁勋把企业构建智能体所需能力分为四类:模型、调度系统、工具与技能、运行环境。对应到产品上,就是 Nemotron、OpenShelf、CUDA X libraries 和 AI 平台。 Nemotron 3 Ultra 是此次发布的新开放模型。它采用 SSM 状态空间模型与 MoE 混合专家架构,目标是让模型跑得更快、推理成本更低。 按照现场说法,相比其他开放模型如 Kimi K2.6、Qwen 3.5 和智谱 GLM 5.1,它速度提升 5 倍,整体运行成本降低约 30%。 黄仁勋还提到,Nemotron 3 Ultra 模型、训练脚本和训练数据都会开放,企业可以在此基础上加入自己的行业数据和专有知识。 演讲尾声,黄仁勋把全场内容重新收回到一个核心模式:模型、harness、工具、技能和运行环境。 这套模式可以运行在云端,也可以运行在企业本地;可以运行在 PC 上,也可以运行在汽车、机器人、卫星、通信基站、工厂和边缘设备上。不同场景会使用不同模型、不同 harness、不同工具和不同 runtime,但计算模式是相同的。 云端需要 Vera Rubin 和 AI 工厂。PC 需要 RTX Spark 和 Windows 智能体平台。企业需要 Nemotron、OpenShelf 和 CUDA X 工具链。汽车需要 Alpamayo、Hyperion 和自动驾驶 runtime。人形机器人需要 Isaac Groot、Thor、仿真和数据生成系统。 当我们把整场演讲连起来看,将近两个小时的超长发布,黄仁勋讲的主题已经超出常规新品发布。 AI PC 和 RTX Spark 面向个人设备,把智能体带到用户桌面和家庭。Vera Rubin 面向数据中心,承接大规模智能体负载。Vera CPU 解决智能体调用工具和访问数据时的延迟问题。 DSX 面向 AI 工厂建设,把电力、冷却、网络和运维也纳入系统设计。Nemotron、OpenShelf 和 CUDA X libraries 面向企业智能体开发。Cosmos 3 把智能体推进物理世界。Alpamayo 2 和 Hyperion 面向自动驾驶,Isaac Groot 则把人形机器人也放进同一套平台逻辑。 NVIDIA 过去最核心的身份是 GPU 供应商,后来变成系统公司,现在又试图成为 AI 基础设施公司。 黄仁勋在这场大会想讲清楚的,也正是这件事:AI 竞争已经从模型扩展到一整套计算体系,覆盖个人电脑、企业软件、数据中心和物理设备。 文|莫崇宇、张子豪

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。