行业分类:
加载中...
头条分类:
加载中...
智元发布XYZ三大曲线:欢迎来到具身智能生产力新时代
摘要: 智元首次明确规划具身智能XYZ三大曲线,而到Z曲线所在普惠期,具身智能的市场规模会远超手机和汽车,成为最大的单品工业品产业。这是一场让全人类都可能兴奋起来的生产力革命战役。 凤凰网科技 出品 作者|Dale 编辑|董雨晴 4月17日,智元机器人APC2026合作伙伴大会在上海开幕。大会开幕前夕,就有不少行业人士打听,如何才能到现场参与,这场一票难求的聚会,已被行业视作不可错过的趋势风向标。 智元向来是机器人赛道的指引者。凤凰网科技在现场了解到,这次大会,他们打出了“共启具身智能生产力新时代”的旗号,向万亿级市场规模正式发起冲锋。 智元机器人创始人、董事长、CEO邓泰华在现场发表了一场重要的主题演讲,首次向业界发布具身智能产业XYZ曲线与生产力实现框架,系统阐述具身智能产业从开发态迈向部署态的演进路径,正式推出四大本体新品、六大AI模型、七大生产力解决方案,并首次公开AIMA(AI Machine Architecture)全栈生态技术体系,宣告在"一体三智"技术架构下,全面开启具身智能生产力新时代。 部署态到底是什么,三大曲线如何把行业拉向全新的产业阶段?具身智能赛道是否能迎来真正的拐点?这场大会已然解答清楚。 XYZ曲线首次亮相,这是智元定义的具身智能产业发展框架 从去年机器人走红出圈以来,讨论声就极度二元。一方面惊叹于运控能力的提升,从舞蹈、武术,再到格斗、长跑,机器人看起来已经无所不能。 但在真实的需求场景中,人们呼声不断,机器人何时能进家?机器人能够多大程度改变生产力? 中信证券研究报告也显示,随着头部厂商相继获得亿元级订单,2025年已是具身智能商业化的关键节点,但在商业化向规模化落地的进程中,阶段性瓶颈与下游工厂的订单审慎态度依然存在。而在OEM、供应链及科技巨头的协同推进下,机器替代人力的效率提升、供应链产能布局及多维技术赋能正加速产业升级。 "未来有竞争力头部的具身智能公司,都会实现一体三智。因为只有实现了一体三智,机器人才能够像人一样,不仅四肢发达,还能头脑灵活;不仅能说会道,还能干活利索,所以基于目标架构以终为始,来持续构建能力。"邓泰华在大会现场直接给出了解答,并为行业描绘了一副更为可观的蓝图。 邓泰华所规划的三大曲线——X曲线、Y曲线和Z曲线,分别对应着开发尝鲜期(2022年-2025年)、部署成长期(2026年-2030年)以及部署普及期(2030年)。其中,开发尝鲜期是让机器人可以像人一样动起来,主要应用于科研教育市场的技术开发以及文娱商演场景。第一波曲线带动了过去三年产业的快速发展,但因科研市场总空间有限,X曲线已近天花板,边际效益逐步趋缓,需要第二增长曲线。 Y曲线是数据飞轮带来的智能突破,让机器人像人一样干活,当机器人能自主干活独立创造价值,就不再是开发工具或表演工具,而是生产力,产业天花板真正被打开。今年,智元机器人万台下线,硬件一致性、规模化交付能力达到行业顶尖水平,交互智能与作业智能规模化落地,部署态数据飞轮驱动生产力持续逼近人类水平。 当更多机器人部署形成了部署态的数据飞轮后,将迎来量变到质变的Z曲线,届时机器人能通过物理世界的图灵测试,具身智能GPT时刻到来——机器人在制造、物流、服务等重点领域的生产力全面超越人类,学习效率和进化速度极度领先,群体智能开始涌现,释放万亿级市场潜力。技术特征包括:统一模型架构与训练范式(三智一体端到端)、零样本物理世界泛化(zero shot)、自监督可进化(self evolution)。 当前所处的2026年被邓泰华判断为部署态元年,“具身智能正式从‘开发态'迈入‘部署态',从‘能动'走向‘会干'。当机器人能自主干活、独立创造价值,它就成为物理AI世界真正的生产力。这个产业的价值,会随着机器人干活能力的提升,落地场景的不断丰富,带动部署规模的持续增加。” 根据智元的定义,“部署态”要求人形机器人彻底告别实验室演示与单点炫技,进入真实产业场景中稳定、连续、规模化、商业化落地的成熟状态。它以万台级量产为基础,以标准化解决方案为载体,实现机器人在工业产线等场景7×24小时无人干预稳定作业,可快速复制、可规模化交付、可产生真实商业价值。 从卓越的本体,跃迁到复杂多场景的生产力,意味着产值的巨大攀升。 “未来长期看,这个空间有机会达到单车价格乘以手机数量,甚至超过手机的数量,会成为未来最大的单品工业品领域。”邓泰华表示。 在这个万亿级的市场之中,智元又扮演着怎样的角色?从其秀出的肌肉来看,其价值和壁垒已不是单点,而是体系化、产业化的作战逻辑。 作为具身智能落地范式的“一体三智”,包括可靠本体、运动智能、交互智能与作业智能四层,目前全球同时具备这四层全栈能力,并完成万台量产验证的公司,智元是唯一一家。而在AI底层大模型、垂直行业应用层面积累的大量Know-How(技术诀窍),和全球首个标准化供应链生态已构成智元坚固的护城河。 万台出货本质是为真实场景落地,进工厂上岗 如果回看过往三年智元的发展脉络,就会发现其此次大会的路线规划不是空想,而是基于现实实践所得。 根据市场研究机构Omdia发布的《2026通用具身智能机器人报告》,2025年智元人形机器人全年出货量超过5168台,占全球39%的市场份额,在出货量和市场份额两项指标上均位居全球第一。今年3月,智元第10000台通用具身机器人正式量产下线,预计2026年出货量有望达数万台。 在拼过万台量产竞赛,走过跳舞炫技,机器人将去往何方? 智元联合创始人、总裁兼CTO彭志辉在现场阐述了具身智能生产力的拐点,并不是因为某一项技术突然突破,而是智能大模型、可靠本体、数据飞轮——这三件事,第一次在同一个时间窗口里同时成熟。大模型解决了理解世界的问题,机器人本体跨越了可靠执行的门槛,真实部署开始形成数据飞轮。 就在大会召开前两天,智元旗下人形机器人精灵G2刚在龙旗科技南昌平板制造工厂,进行了一场长达8小时的真实产线作业直播,面向全球公开验证具身智能3C精密制造产线的规模化落地成果。 直播数据显示:两台机器人8小时连续作业零重大异常,单道工序仅需18至20秒,每小时可完成310件产品,一台机器人即可承担双工序工作量;支持7×24小时不间断双班运行,无需人工干预即可持续稳定生产。 智元为了突破当前的产业上限,在构建技术生态的同时也会重点构建供应商伙伴体系,智元称之为AGIBOT A链,“随着部署态的落地,高质量规模化的交付是一个核心的诉求,我们的A链第一个就是高质量”邓泰华表示。因为只有所有的供应商伙伴高质量的交付,才能形成整个系统高质量的交付。 “对客户来说,只有机器人真正解决了交互能力、稳定性、多语言等问题,才会主动扩大采购规模”,在智元看来,尽管从结果上,智元的量产实力最强,但其本身不认为这是一场竞赛,而是考虑到真实场景落地后的必然结果。 本次大会上,智元顺势发布了七大生产力解决方案:面向 3C 电子、汽车零部件、物流仓储、电力巡检、精密装配、商业服务、教育科研等多元真实场景,以标准化、可复制、可快速落地的体系化方案,打通从机器人硬件、AI 大模型、部署工具到现场运维的全链路能力,让具身智能真正走出实验室、进入产业一线稳定作业。 这些通往最后一公里的细化解决方案,可有力推动行业从技术演示向规模化部署态跨越。此次大会上发布的四大本体新品:远征A3、灵犀X3、精灵G2 Air以及酷拓D2,均已指向进入生产场景的生产力单元。 行业需要一个标准定义者 2026年一季度国内具身智能赛道披露融资已超50起,累计融资额约200亿元,同比增长近60%,创下历史新高。一级市场仍在用真金白银下注。 但与此同时,行业也在翘首以盼,众多百亿估值新星诞生背后,谁能带领行业开启新的周期? 过往经验显示,新行业和新技术落地前,往往都是先投入科研后定义标准,才能够实现规模化、产业化。在无人机赛道这个标准定义者的角色是大疆,在新能源车赛道则是特斯拉,而在具身智能赛道,智元想担当这个领头角色。 从业绩表现上看,智元有足够底气支撑。 据邓泰华在现场公布的核心进展:智元成立三年营收从30万元增至超10亿元,年增速达20倍,成为国内最快突破10亿营收的机器人及AI企业。2026年公司目标营收实现数倍增长,一季度已实现良好开局。 这些数字,对当前的具身智能赛道也是一种沉默的鼓励。 另据披露,智元仍在坚持饱和研发投入,以规模摊薄单位研发成本,亏损率持续收窄。目前其已拥有全球400余家商业合作伙伴,开源体系行业领先,年内将正式成立CVC,而所投早期企业年化估值增长达到了17倍。 在宏伟的构想下,智元在旗下成立了多个子公司,包括业界首个机器人租赁平台擎天租,目前平台租赁订单已跃居全球第一;全球顶尖的一站式物理AI数据服务平台觅蜂,全品类高质量数据生产能力;全球唯一全场景灵巧手量产商临界点,季度销售量刷新行业记录;具身商用清洁机器人厂商智鼎,目前在工业场景综合销量第一;智能四足机器人酷拓,有业界最全四足产品系列;参股的上市公司上纬新材,将聚焦消费级个人机器人。 但万亿级的大市场,只靠智元一家还不够,而是需要全球的生态伙伴共同完成,智元选择用开源生态,吸纳外部参与者。 智元此次发布的AIMA具身智能生态技术体系,作为“部署态”的另一核心支点,采用“1+3+X”架构,包含一个统一开源操作系统“灵渠Link-UOS”、三大核心开发平台以及X个具身智能体框架,覆盖商用、工业、家庭等场景,面向全球开发者与生态伙伴全面开放。 智元同时发布了RaaS(机器人即服务)商业模式和“蜂巢数据共创行动”,也是全球首个物理AI数据网络,预计2026年内实现千万小时级数据产能,2030年达百亿小时规模。 凡此种种直击算法、数据等当前具身智能赛道的战略核心。 随着智元此次为具身智能赛道规划的阶段路线图浮出水面,以XYZ发展框架为引线,将为行业提供极其清晰的发展指引。 在商业史上,真正的范式转移从不以技术演示为标志,而以成本曲线与部署规模的交汇为号角。智元的野心显而易见,做具身智能赛道的标准定义者,引领全行业向万亿时代进发。但这仅仅是开始,成本、可靠性、客户复购意愿,在真正推动具身智能落地之前,还存在诸多难点。 “具身智能这个产业也是我工作二十多年来多个产业里面最让人兴奋和激动的产业。这个产业有着最快的产业爆发速度、也有最大的产业发展空间,也是未来生产力发展最有意义的事业。”就如邓泰华在大会一开场所说,亲身参与到这场巨大的生产力变革中,无论成功与否,本身已是一件极具价值的事情。
一句话,AI 直接给我建了个能跑能跳的吉卜力3D小镇
这周的大模型热点除了 Anthropic 刚刚发布的 Opus 4.7,世界模型成了另一块角力的阵地。 短短几天内,AI 圈几乎是连珠炮式地发布了一系列重磅世界模型。 先是李飞飞的 World Labs 开源了 Spark 2.0,紧接着腾讯在昨天正式发布并开源了混元 3D 世界模型 2.0(HY-World 2.0)。 ▲腾讯混元 3D 世界模型 2.0 阿里也马不停蹄,新成立的 ATH 旗下创新事业部团队,刚刚才官宣了 HappyHorse,立刻又发布世界模型 HappyOyster。 ▲阿里 HappyOyster 官网截图 最容易忽略的还有英伟达 Lyra 2.0,没有发布会和新闻稿,旗下的空间智能实验室直接甩出一篇论文,「可探索的生成式 3D 世界。」 ▲英伟达研究博客 这种密集程度让人产生一种错觉,那些生图生视频模型是不是都弱爆了。现在的 AI 已经从「生成一张图、一段视频」的平面阶段,大步来到「构建一个世界」的 3D 空间时代。 不仅技术端在狂飙,资本市场也给出了强烈的回应。 今天,群核科技正式登陆港交所。这家空间智能公司一直致力于推动 AI 进入物理世界。它的成功上市,标志着「世界模型第一股」的正式诞生,也向外界释放了一个明确信号:世界模型,真的开始火了。 而在热闹之余,我们也发现虽然这些公司都叫世界模型,但是路线完全不同,只能生成视频的像是一个 Demo 产品;能生成 3D 资产的看似可以融入开发设计的工作流;还有在论文里的未来工作畅想,希望用于机器人的训练。 目前,腾讯混元 3D 世界模型 2.0 已经开放了申请。我们第一时间进去体验了一波,试图从中找到一个答案:这些被认为是 AI 下一阶段的世界模型,到底能解决真实世界的哪些问题? 从看电影到开始游戏 此前我们聊世界模型,大多像在聊一个「更长、更懂物理规律、一致性保持更强的视频」。但这次体验混元 2.0,最直接的冲击力在于,它生成的不再是 MP4,而是真正的 3D 资产文件。 在体验中,我用简单的提示词输入了「吉卜力风格的山间小镇,黄昏」。在几分钟的计算后,出现在屏幕上的画面像是一个大世界游戏。 点击下载,混元 3D 提供了全景图、Splats 的 .spz 文件和 .ply 文件,以及 Collider mesh 一共四种 3D 资产文件格式。 四种文件类型涵盖了 Mesh(三角面片网格)、3DGS(3D 高斯泼溅)、点云等多种格式的 3D 资产文件,这些文件可以直接导入 Unity、Unreal Engine,游戏开发者拿到手之后可以继续编辑、调整、搭建关卡。 ▲所生成的世界同样可以保存为全景图片,原图约 20MB。 在世界生成任务上,除了常见的文生世界,混元 3D 同样支持图生世界。我们找了一张《拯救计划》电影截图,Rocky 最后在波江座人给他搭建的世界里漫步,让混元来还原整个波江座。 ▲由于电影截图里就有显示一个外壳包围着 Rocky 居住的海边,所以混元生成的世界也有一块「黑影」 当使用 Unsplash 上下载的高清雪山图片时,混元 3D 世界模型 2.0 生成的雪景,画质和真实感都更强。 ▲全景图和导演模式下的角色漫游 无论是上传图片还是文字提示词,应用内都有相关的指引,例如上传的图片分辨率不能小于 512*512,避免画面出现人物,不要有动物/人物特写,避免使用纯色、纯纹理图片;以及天空、星空等画面占比较大图片也不适合等。 而文本提示词,最好是场景类别(沙漠、海面、房间等)+ 场景特征(物体、天空等视觉描述)+ 风格(可选,卡通/写实/油画风格等)。 混元 3D 世界模型 2.0 的风格化控制表现也很好,从官网已有的世界案例能看到,无论是温馨的绘本风还是写实的游戏风,它对语义的解析非常精准;墙壁的纹理、地牢的阴影和光感都极具沉浸感。 除了能生成可用的 3D 资产,混元 2.0 真正让我感到「世界」属性的,是它的角色模式。 现在我们可以直接操控一个角色在刚刚生成的场景里行走、加速、跳跃、转弯、探索,整个过程就像是在玩一个大世界游戏。同时,它自带物理碰撞,角色不会穿墙而过,也不会掉出地图边缘。 这种即刻生成、即刻可玩的体验,确实在模糊了 AI 生成与游戏引擎之间的边界,随着能生成世界的范围不断扩大,角色的探索或许会更有意思。 实时生世界时,我们能直接控制角色的行动,混元 3D 模型会自动生成对应的世界,单次生成的时长是一分钟。 对比之前的混元 3D 模型,这次的 2.0 版本在一句话/一张图生世界任务上,不仅支持下载 3D 资产文件,推出了全新的角色模式,而且在画面精细度和真实感方面,也从底层的模型架构进行了重新设计。 ▲混元世界模型 2.0 多模态世界架构 新的模型架构,打通了「理解、生成、重建」的闭环。 HY-Pano-2.0: 不需要专业的相机参数,普通图片就能映射出 360° 全景。 空间 Agent 技术: 像给 AI 装上了导航,它能智能规划漫游轨迹,确保护理和视觉上的衔接不会穿帮。 HY-WorldMirror 2.0: 保证了即使是在大幅度的视角变换下,物体侧面和背面的完整度依然在线。 在世界重建任务上,混元世界模型 2.0 输入多张图或视频流,就能做到重建真实场景。 在过去,我们想要构建/重建一个可互动的 3D 世界,需要成体系的团队和数月的打磨;而现在,通过混元 2.0 这样的工具,只需要一个创意。 并且,这个创意,无论是以文字、图片还是视频的形式呈现,它都可以生成一个拖进 Unity 的原型,哪怕质量还需要调整,哪怕很多细节还要人工修改,但整个设计的工作流,AI 也开始在发力了。 疯狂的世界模型周,疯狂的 AI 当我们再把视线从混元 3D 世界模型 2.0 的资产生成、角色模式、世界重建,拉回本周连发的其他几个世界模型,我们会发现,这些不同在不同维度突围的世界模型,正共同拼凑出世界模型更明确的样子。 阿里 HappyOyster 目前还在主打漫游和导演模式,让我们用自然语言随时介入世界演化,改写剧情走向和角色动作。 英伟达 Lyra 2.0 用一张图就能生成长达 90 米的连贯 3D 环境,它生成的场景甚至能直接丢进 Isaac Sim 给机器人做物理训练。 李飞飞 Spark 2.0 打通「交付最后一公里」,前面那些模型都在解决怎么造世界,而 Spark 2.0 已经开始解决怎么给人看。它通过独创的流式加载和虚拟内存技术,把上亿个 3DGS 粒子的超大世界,硬生生塞进了普通手机的网页浏览器里。 ▲World Lab 生成界面,提示词:吉卜力风格的山间小镇,黄昏 看着这些各显神通的世界模型界面,一个现实的结论是:很明显,世界模型还没迎来它的 ChatGPT 时刻。 四家公司这一周的密集发布更像是在为这个时刻做准备,画面质量、交互能力、资产格式、交付方式、仿真精度,每个都在朝着自己的方向优化。但把这些块拼成一个「让普通人愿意每天打开」的产品,还没有模型做到。 在过去两年里,随着 AI Coding 重塑代码开发、Nano Banana 等模型颠覆平面设计,前端工程师和平面设计师们已经经历了「xxx is DEAD」。现在,这朵雪花大概是要飘到 3D 设计的护城河上。 随着更多模型厂商的下场,3D 设计的工作流也会慢慢从 AI 辅助走向 AI 主导。到那时,生成并体验一个 3D 互动世界,将会像今天我们在手机上刷短视频一样流畅、低成本且理所当然。 毕竟,在所有的科幻叙事里,没有任何人会抗拒自己成为「造物主」,去自定义一个新世界。
裸奔27年没被发现,这次藏不住了
4月8日,美国财政部长斯科特·贝森特与美联储主席杰罗姆·鲍威尔在财政部总部召开了一场事先未公开的紧急会议。 受邀者名单几乎囊括了整个美国金融业的权力中枢:花旗集团的简·弗雷泽、摩根士丹利的泰德·皮克、美国银行的布莱恩·莫伊尼汉、富国银行的查理·沙夫,以及高盛的戴维·所罗门。 这场会议没有公布议程,没有预先通报,摩根大通CEO杰米·戴蒙都没来得及出席,甚至各银行的发言人也拒绝置评。 如此紧急的高规格会议,难道是在讨论美伊交战对金融业的冲击?是油价大涨推动通胀加剧? 都不是,这次会议的核心议题只有一个:Anthropic一天前发布的Claude Mythos Preview模型,以及它可能对整个金融体系构成的生存级威胁。 毕竟如今的金融,高度依赖数字系统,数字安全出问题,等于从根子上毁灭金融运转。 这不是夸张,尤其是国家安全的关键时刻,数字系统更有可能受到攻击。 更直观的例子是六天后伊朗的报道,说伊朗中部伊斯法罕省遭到美国袭击期间,伊朗境内大量通信设备突然失灵,操作系统崩溃。 毫无意外,出故障的通信设备全部来自美国的思科、飞塔和朱尼珀等品牌。 攻击别人的数字系统,美国是行家里手。面对新的数字安全威胁,美国同样非常敏感,所以美国财政和货币政策的最高操盘手被迫放下身段直面技术变革。 因为这次AI正在彻底颠覆安全防护领域的底层逻辑,而旧有的防御体系,正在以肉眼可见的速度崩塌。 "Mythos"时刻: 从辅助工具到自主猎手 Anthropic推出的Claude Mythos Preview,是一个专门针对网络安全与漏洞挖掘场景训练的大模型。 与此前主打通用能力的Opus系列不同,Mythos被设计为能够在没有任何人类干预的情况下,自主发现并利用各大主流操作系统和Web浏览器中的复杂漏洞。 数据揭示了这种设计哲学的激进程度。 在针对Firefox JavaScript引擎的数百次真实漏洞利用测试中,Mythos Preview成功开发出有效利用代码181次,成功率高达72.4%。作为对比,Anthropic此前最强模型Opus 4.6的成功率接近于零。 这种代际跃迁不仅体现在成功率上,更体现在发现漏洞的深度与隐蔽性上。 Mythos找出了OpenBSD中潜藏了27年的远程崩溃漏洞——这个以极高安全性著称、被广泛用于服务器和网络设备的操作系统,自1995年创立以来从未被触发过这一隐患。 它还在FFmpeg,这个由全球几乎所有主流视频平台和播放器依赖的开源音视频处理工具库中发现了一个存在了16年的漏洞。 更具讽刺意味的是,该漏洞此前已被自动化测试工具运行了逾500万次,从未发出警报。 在谷歌OSS-Fuzz corpus,一个已累计帮助修复超过8800个安全漏洞的开源软件持续测试平台上, Mythos Preview也去内部测试踢馆,触发了595次低级别崩溃,并在10个完全打过补丁的目标上实现了最高级别的完全控制流劫持。 二十多年平稳运行的网络系统,在Mythos面前,简直形同裸奔。 攻守易位: 分钟级渗透与小时级防御的错位 Mythos揭示了一个令人不安的新现实:AI驱动的攻击速度,已经与传统防御体系的响应能力形成了致命的速度差。 传统网络安全依赖人工分析与静态规则匹配,漏洞挖掘与攻击响应的周期以小时乃至天为单位。 而新一代AI模型可实现分钟级全链路渗透——从自主挖掘零日漏洞到生成攻击代码、构造攻击链路,全程无需人工干预。 这种速度差与传统安全产品能力的断层,正在重构整个行业的游戏规则。传统"告警-分析-处置"的防御流程在分钟级攻击面前完全无法适配。 不甘落后的OpenAI,在4月14日推出专为防御性网络安全用例微调的新模型GPT-5.4-Cyber,它进一步降低了防御性网络安全工作的拒绝边界,允许安全专业人员在无需访问源代码的情况下分析编译软件的安全性。 尽管OpenAI采取了严格的分级访问策略,仅对经过审查的安全供应商开放,但这也增加了该模型被恶意利用的可能。 AI在数字安全领域的军备竞赛已经打响,但一点战斗力流出去就会是毁天灭地级别的效应。 Anthropic显然意识到了危险性。 鉴于Mythos Preview在漏洞挖掘和利用方面的"攻击性",该模型目前暂不对公众开放。取而代之的是Project Glasswing——一个由科技巨头组成的防御者联盟。 其创始成员包括亚马逊(AWS)、苹果、博通、思科、CrowdStrike、谷歌、摩根大通、Linux基金会、微软、英伟达和Palo Alto Networks。这些合作伙伴将在模型更广泛普及之前,利用Mythos审查和修复其核心代码库。 类似地,OpenAI也收紧权限,GPT-5.4-Cyber目前仅对经过严格审查的安全供应商、组织和研究人员开放,个人用户和企业需要通过OpenAI的“网络受信任访问”进行身份验证后,才能申请更高层级的访问权限。 华盛顿惊魂: 从市场风险到系统性风险 监管层对Mythos的反应速度,揭示了技术风险向系统性风险传导的紧迫性。 贝森特与鲍威尔选择直接对话CEO级别,而非技术或合规层面,本身就传递出强烈的警示信号:这已经是关乎整个金融体系稳定性的宏观审慎议题。 监管层担忧的是,一旦Mythos或同类模型落入恶意行为者手中,其攻击面几乎覆盖所有数字基础设施,从操作系统到浏览器,从支付网关到清算系统。 摩根大通首席信息安全官帕特·奥佩特表示,该行将以"严格、独立的方式"评估这一工具在金融关键基础设施防御中的应用价值。 但具有讽刺意味的是,就在华盛顿会议召开前后,摩根大通和高盛的CEO们已经在财报电话会议上证实,正在内部测试Mythos模型。 这种"边测试边恐慌"的矛盾心态,折射出金融行业面对技术颠覆时的典型困境:既恐惧新技术的破坏力,又渴望率先掌握这种破坏力以构建新的护城河。 据彭博报道,美国财政部的技术团队也正在寻求获取Mythos的访问权限,以便主动排查政府网络中的未知漏洞。这种从"监管者"到"防御者"的身份转换,标志着AI安全已经从合规议题升级为国家安全基础设施。 这还是掌握这种强大AI工具的美国的反应,其他还没掌握类似工具的国家又该怎么办? 中国也要发展自己的AI网络安全利器。 据IDC预测,中国网络安全相关智能体收入的市场规模,在未来五年的复合年均增长率将高达106.5%,并在2030年达到593.5亿元人民币。 ☉数据来源:IDC 这种爆发式增长暗示着,Mythos所代表的技术能力,不可能被永久禁锢在Glasswing的象牙塔内,中国AI厂商应该会迅速作出反应,迎头赶上。 如果不能快速赶上美国AI安全领域的最新进展,中国也将面对文章开头伊朗通信设备失灵的类似事件。 只不过伊朗受制于通信设备,我们会受制于AI。 AI安全不到位,瞬间在虚拟空间被抓出陈年漏洞,瘫痪整个运转所需的网络系统,这些事情,都很有可能在未来发生。 做这些事情的,甚至未必是敌对国家,而完全有可能是掌握先进AI安全工具的蠢人灵机一动。
山东隐形冠军单季爆赚57亿,但命脉握在别人手中
摘要: 当AI还在苦寻商业模式时,一家中国公司靠着AI算力“收费站”狂赚真金白银:单季净利57亿、股价两年暴涨超5.5倍,它不是AI最赚钱的玩家,却是全球AI军备竞赛里第一个把钱收走的隐形冠军。 凤凰网科技《风眼观察》出品 作者|路春锋 编辑|董雨晴 “全村的希望” 就在AI市场还苦于没有稳定的造血能力之时,一家中国AI产业链公司用一份炸裂的一季报,撕开了市场沉闷的口子。 4月16日晚,中际旭创2026年Q1财报出炉:营收194.96亿元,同比暴增192.12%;归母净利润57.35亿元,同比狂涨262.28%。 单季净利57亿是什么概念?相当于其2025年全年净利的53%,也就是说他一个季度赚完了去年半年的钱。 一边是大盘原地踏步,存量资金博弈,赚钱效应有限;另一边是单季狂揽57亿、股价2025年以来上涨超550%。这种极致的割裂,像极了两个世界:有人在泥潭里挣扎,有人借算力焦虑掘金。 关于业绩大幅上涨,一季报中解释为:“受益于终端客户对算力基础设施的强劲投入,公司产品出货持续增长。” 图|源自企业财报 而在同一天披露的机构交流纪要中,管理层将业绩大增归功于:“1.6T和800G等高端产品比重提升、硅光模块进一步渗透和良率提升等。” 并且提到:“预计全年800G和1.6T需求都将有较大增长,后面几个季度公司有望保持出货量持续提升的趋势。” 所谓800G/1.6T光模块,是AI算力集群中的“高速数据线”,负责在GPU服务器与数据中心之间,实现超高速的光电信号转换。其中,800G光模块是当前AI大模型训练与推理的主流标配;1.6T光模块则是下一代超高端产品,代表行业技术顶端。 值得注意的是,中际旭创的800G/1.6T光模块,是英伟达、谷歌等巨头的“独家供血包”。 可以说,它赚的不是传统光通信行业的薄利,而是AI算力霸权争夺的入场费。 也难怪不少散户直呼,中际旭创是“全村的希望”。4月17日,中际旭创盘中大涨5%,市值直逼9445亿元。 但需要注意的是,中际旭创单季利润虽有57亿,但估值已严重透支,即使按照2026年最乐观的300亿净利润预期,动态PE仍在30倍左右,市净率更高达32倍。 此外,其龙头地位也不是高枕无忧,新易盛2025年净利润增速预计高达231%至249%,明显高于中际旭创的109%。未来随着800G和1.6T光模块从“稀缺品”向“大路货”演进,价格战几乎是不可避免的,届时其又该如何保证利润? 另据LightCounting预测2026年光模块行业产能足以支撑销量翻倍,但这一产能将超出客户实际需求,产能过剩的阴影已经开始浮现。 中际旭创不是吃肉最多的,却是“最先收钱的” 很多人把中际旭创的暴涨,归结为“蹭AI风口”或者“靠英伟达喂饭”。 但这两种解释,都回答不了一个问题:为什么同样站在AI风口上的上百家光模块厂商,只有它率先大赚? 一个更接近事实的答案是:中际旭创不是最强的,但它卡在了AI产业链里“最先收钱”的位置。 从技术路径看,AI产业链的上游是以英伟达为代表的GPU算力芯片,中游是服务器与交换机等系统集成,往下才是数据中心和AI应用。 但从资金和订单节奏看,顺序却不是这样。云厂商如亚马逊、微软等,一旦启动数据中心建设(即一个专门用来训练和运行AI的“超级大脑工厂”),最先锁定的反而是高速光模块,因为没有这一层的互联能力,算力就无法真正运行。 简单说,建AI超级数据中心就像是搭建工厂:GPU是工人、服务器是工位/工作台,光模块就是是工人之间的高速对讲机。 工人再多、工作台再大,如果对讲太慢,大家各干各的,也根本没法协作。 所以云厂商真要开工建机房时,GPU可以分批交付、服务器可以延后部署,但光模块必须提前验证和备货,这使得在同一轮AI资本开支中,光模块厂商往往更早拿到订单、更早确认收入。 而在全球市场中,中国厂商占据了800G等高端光模块超过70%的市场份额,其中,中际旭创稳居第一,新易盛位列第二,来自美国的Coherent高意排第三。 更重要的是,当前高端光模块订单非常集中,据LightCounting、Omdia等机构统计,亚马逊云科技(AWS)、谷歌(Google)、元宇宙(Meta)、微软(Microsoft)4家占据了近7成订单。这意味着,行业本质是寡头买方市场。 在这种结构下,盈利逻辑就变了:不是谁技术最好,而是谁先绑定了寡头客户,谁能在资本开支启动的第一时间锁定订单、形成持续供货关系,谁就能赚到大钱。 而中际旭创做对了三件事:一是提前量产800G。大概在2024年前后,当时行业仍在从400G向800G切换阶段时,中际旭创已经完成了800G光模块的批量出货切入,直接卡在AI数据中心从“试点建设”转向“规模扩容”的起点上。 其二是绑定北美云厂。它的核心客户集中在亚马逊、微软、谷歌等超大规模云计算厂商,这类客户的特点是资本开支高度集中、采购确定性强,一旦进入名单就具备持续放量属性。 第三点就是它踩中了AI算力基础设施加速扩张、800G光模块供需趋紧的窗口期。2024年以来,行业从“需求驱动”转向“供给约束”,产能成为核心变量;中际旭创通过提前扩产与交付能力提升,在普遍交付受限的环境中放大出货规模,将周期上行直接转化为收入弹性。 可以说,中际旭创是拿到了AI基础设施中最确定、最爆发、最规模化的一段订单。 但也要看到,它赚到的,并不是AI产业链里“最肥”的钱。 因为AI产业链是分层的,GPU才是最大的蛋糕,而目前这块仍旧被英伟达把控;服务器是超微电脑的天下,网络芯片环节有博通、Marvell。 直接点说,AI这场军备竞赛里,英伟达在卖武器,云厂在烧钱,而中际旭创是第一个开始收过路费的人。 此外,需要注意的是,其核心芯片依赖海外供应商,90%以上的收入来自境外市场,前五大客户贡献了超过75%的营收。这意味着公司的命运高度系于英伟达、谷歌、亚马逊等少数北美巨头的资本开支节奏。一旦大客户砍单、转向自研光互联方案或引入更多供应商,业绩将面临断崖式下跌。 当全球大厂都在比拼算力规模、争抢模型高地时,中际旭创凭借高速互联环节,成了整条产业链上最先落袋为安的那一个,但这种赚钱能力能持续多久,目前还要打上问号。如果AI的泡沫破裂,它又该如何续写业绩? (题图为AI生成)
美国AI巨头赤裸裸双标 指控中国企业蒸馏后坦承自己蒸馏其他模型
快科技4月17日消息,在AI领域中美是竞争最激烈的,美国公司目前在顶级模型上领先,但技术优势并不大,所以他们也很担心随时被赶超,为此千方百计想打压中国的AI企业。 其中对中国AI打压最疯狂的当属Anthropic,该公司前不久甚至专门发文攻击中国AI企业,指控他们蒸馏了自己的大模型以提高能力。 然而他们自己是怎么做的呢?昨晚发布了Claude Opus 4.7大模型之后,他们在对应的文档中也谈到了这个大模型的模型训练原则,原文是这么说的: Claude Opus 4.7 was trained on a proprietary mix of publicly available information from the internet, public and private datasets, and synthetic data generated by other models。 意思是Opus 4.7的在互联网上公开信息、公开/私有数据集以及其他大模型的合成数据基础上训练的,这意味着Opus 4.7也用了其他大模型的数据。 当然Anthropic不会透露他们蒸馏了谁家的数据,毕竟万一涉及到某家中国企业就很丢脸了。 在AI行业,蒸馏本来是一件很正常也很常规的事,全球的大模型训练恐怕都少不了这个做法,使用互联网上的数据更是基操,Anthropic前几年甚至因为大量下载盗版书籍还陷入了法律官司,被判赔几亿美元。 只不过他们现在做到了领先地位,就开始把蒸馏当借口去打击别的企业,甚至还跟谷歌、OpenAI等美国AI公司抱团,成立反蒸馏联盟。 甚至还联合美国的政客推出法案,要把蒸馏美国AI企业的公司列为制裁目标,可以说无所不用其极,简直疯狂。
AI已替代65%编码工作,Snap裁员16%、年省5亿美元
编译 | 高远瞩 编辑 | 漠影 智东西4月17日消息,Snap公司4月15日宣布将裁减约1000名员工,占全职员工的16%,同时取消超过300个空缺职位。这家Snapchat母公司正借助人工智能大幅削减成本,成为最新一家以AI为由进行大规模裁员的科技公司。 受此消息影响,Snap股价当日上涨约5.8%,但该股今年迄今已累计下跌约31%。就在几周前,艾瑞尼克资本管理公司(Irenic Capital Management)向Snap施压,要求优化投资组合并提升业绩,该机构持有公司约2.5%的股份。 一、AI生成超65%新代码,年化开支削减5亿美元 Snap首席执行官埃文·斯皮格尔表示,人工智能的进步正在帮助公司简化运营,并以更小的团队运作。目前AI已生成超过65%的新代码,公司将关键工作分配给专注的团队和AI智能体。他预计到今年下半年,公司年化开支将削减超过5亿美元,主要得益于此次裁员以及降低运营成本和股权激励支出的努力。 监管文件显示,截至去年12月,Snap全职员工总数约为5261人。公司预计此次裁员将产生9500万至1.3亿美元的相关费用,主要计入第二季度。 此前几周,持有Snap约2.5%股份的激进投资者艾瑞尼克资本管理公司曾向公司施压,明确要求其剥离或关闭持续烧钱的AR眼镜业务Spectacles。该业务据称已投入超过35亿美元,每年亏损约5亿美元,Snap一直大力投资该部门,并计划今年推出该产品。 AJ贝尔投资总监拉斯·莫尔德表示:“削减成本可能在短期内安抚激进投资者,并让长期受苦的股东得到一些缓解,但这是否真的能让公司留下一个可防御的商业模式和竞争地位,目前仍不清楚。” 二、业绩预期超华尔街,与Perplexity协议仍存变数 Snap预计第一季度营收将增长约12%,达到约15.3亿美元,基本符合华尔街预期。调整后的核心利润预计约为2.33亿美元,高于华尔街预期的1.868亿美元。公司将于5月6日公布季度业绩。 当被问及初步业绩是否包含去年宣布与Perplexity达成的4亿美元协议所产生的收入时,公司拒绝置评。 Snap曾在2月表示,双方“尚未就更大范围推广的路径达成一致”。咨询公司Madison and Wall认为,Snap近几个季度的表现仍逊于竞争对手,且这一趋势不会逆转。 结语:AI裁员潮持续,专家质疑“人工智能粉饰裁员” Snap的裁员是过去一年科技行业AI裁员潮的最新案例。据Layoffs.fyi数据,今年迄今已有80家科技公司裁减了约71440个工作岗位。微软、亚马逊、甲骨文、Block等公司已裁撤数万岗位,同时声称AI可以让企业以更少人力完成更多工作。 然而,部分专家和前员工指责企业进行“人工智能粉饰裁员”,试图向投资者和市场摆姿态。风险投资家马克·安德森也认为,与AI相关的裁员常被用作企业此前人员冗余的借口。 与此同时,OpenAI和Anthropic等顶级AI公司愈发担心自身形象,已提出四天工作制等方案以应对AI对劳动力市场的负面影响。Snap能否借AI真正走出困境,仍需时间检验。
世界模型五大门派,围攻光明顶
春节后,图灵奖得主杨立昆的新公司 AMI 拿了 10.3 亿美元融资,创下欧洲 AI 公司种子轮纪录; AMI 拿钱几周前,李飞飞创办的 World Labs 也宣布了 10 亿美元融资; 本周早些时候,极佳视界获得数十亿元融资,估值超百亿; 昨天,阿里巴巴发布了世界模型「快乐生蚝」HappyOyster; 今天,群核科技在港交所敲钟。 这些公司,共同竞逐同一赛道:世界模型。 杨立昆曾经放话说:「大语言模型在通往超级智能的路上是条死胡同。」乍一听上去否认了大语言模型的价值,但限定条件是实现 AGI,细想还是有些道理。 可以这么简单理解:ChatGPT 能写代码能做题,却搞不清物理世界的基本规律——你让它描述「苹果落地」,它说得头头是道;但你问它苹果为什么会落地,它其实是在背课文,它并不一定真正理解重力。 问题的根源在于:大语言模型的训练数据是互联网文本,而真实世界是三维的、连续的、充满物理规律的。 这就是世界模型成为科研精英接下来攻关方向的原因。 不过,大家都在谈世界模型,但没人对这几个字的含义达成一致。有视频预测的路线,有的在建 3D 场景,有的在搭仿真平台,还有直接从神经科学出发的方向…… Meta 的研究科学家 Zhuokai Zhao,在 X 账号上分享了自己认为的世界模型「五大门派」。 这五大门派,分别都是什么呢? 本文基于 Zhao 的推文,参考了多方资料展开研究和扩写,希望对于有兴趣了解世界模型的你有所帮助。 JEPA 派:杨立昆的「抽象哲学」 JEPA 全称是 Joint-Embedding Predictive Architecture(联合嵌入预测架构)。它是杨立昆等人提出的一种新型 AI 架构。 简单来说,JEPA 的核心思想是:让 AI 像人类一样通过「观察」来学习世界的运行规律,而不是通过死记硬背像素或单词:AI 不用记住每片叶子的位置,它只需要知道风会吹落树叶。 在杨立昆看来,像 Sora 这种模型,本质是在「逐像素预测下一帧」。他认为这在物理上不可能——在充满随机性的世界里,你不可能精确预测每片树叶的飘落轨迹。 JEPA 的解法是:与其预测像素,不如在抽象的「表征空间」里做预测。 具体做法是先用编码器把视频转成抽象的数学表示,然后在这个空间 (latent space) 里预测「会发生什么」。比如预测「球会滚下桌子」这一更加「长期」和符合物理规律的结果,而非重复地预测球滚落的每一帧画面。 V-JEPA 2 目前是这个路线的代表作。该模型有 12 亿参数,基于 100 万小时无标签视频预训练。最惊人的是,它仅需 62 小时机器人数据,就能实现零样本规划动作。在陌生环境处理陌生物体,成功率能达到 65-80%。 对比传统机器人学习方法,可能需要数千小时示范数据,V-JEPA 2 对数据需求极致压缩。 杨立昆的原话是:如果表征足够好,你就不需要为每个任务从头训练。 不过,在创立了 AMI 公司之后,这位图灵奖得主科研大佬也要在现实面前低头。他说,AMI 的商业化产品可能要几年后才能看到。 这是一笔长线投资,但资本愿意赌。AMI 已经得到了第一轮 10 多亿美元的融资,投资方包括你知道的几乎所有业界和跨界大佬。 空间智能派:李飞飞的「建筑师」路线 如果说 JEPA 关注「时间预测」,另一位 AI 基础研究大佬李飞飞创立的 World Labs,则是盯上了另一个维度:「空间重建」。 这两条路线的分歧,从底层逻辑就开始了。 JEPA 认为智能的核心是在抽象层面预测「接下来会发生什么」,所以它不在乎像素级的细节,追求的是高效的因果推理。 李飞飞的出发点不一样。她认为,真正的智能需要对三维世界有显式的理解,包括几何结构、深度关系、物体之间的相对位置。 换个方式讲:JEPA 想教 AI 理解「球会从桌子上滚下去」这个规律,而 World Labs 想教 AI 理解「桌子有多高、球在桌子的什么位置、地板和桌子的距离是多少」。 前者关心事件的逻辑链条,后者关心空间的物理结构。 这种差异直接决定了产品形态。World Labs 2025 年 11 月发布了首款产品 Marble。输入一段文字描述、一张照片、一段视频,甚至一个粗糙的 3D 草图,Marble 输出的不是一段视频,而是一个可编辑、可导航、可导出的 3D 世界。 你可以在里面旋转视角、移动物体、改变光照条件,还能把结果导出为高斯溅射 (Gaussian Splat)、三角网格 (mesh)或视频格式,直接拖进 Unreal Engine 或 Unity 里用。 这里还有个容易被忽略的技术细节:很多视频生成模型能做出好看的画面,但本质上是在逐帧「编故事」,前后帧之间没有一个统一的 3D 结构做支撑。 而 Marble 生成的 3D 场景具备「空间一致性」。底层维护着一个真实的空间表示,所以转身回来,世界还是那个世界。 World Labs 的团队配置也很值得一提:联合创始人 Ben Mildenhall 是 NeRF(Neural Radiance Fields)的发明者重新定义了计算机视觉领域对 3D 重建的认知;另一位联创 Christoph Lassner 是 3D 图形方面的专家。 这个团队的知识结构,决定了 World Labs 从一开始就在走一条「显式 3D」的路线,而不是从 2D 视频里「暗示」三维关系。 2026 年 2 月,World Labs 宣布完成 10 亿美元融资,投资方包括 NVIDIA、AMD 和 Autodesk。 刚才提到的产品 Marble,也已经面向普通用户和商业场景推出,影视工作室、游戏开发者都在用它。 不过,Marble 目前也有明显的局限。生成的 3D 世界在走几步之后会开始出现视觉变形,出现所谓的「幻觉」。 这跟 JEPA 路线追求的「理解物理规律」形成了对比:World Labs 擅长重建空间的「样子」,但对空间中「会发生什么」的理解还比较薄弱。 李飞飞本人也坦承 Marble 只是第一步。她把最终目标定义为「空间智能」,意思是 AI 不光能看懂一个场景的结构,还能在里面做推理、做规划、做交互。这条路还很长,但方向很明确:从三维空间的显式建模出发,逐步加入物理和因果的理解。 学习型仿真派:DeepMind「造梦师」 DeepMind 的 Genie 3,可能是目前最接近「魔法」的世界模型思路。 谷歌的路线跟前两派又有了区别。它做的事情,比「理解世界」和「重建空间」都更往前,也更直接:制造出一个足够真实,而且可以实时交互的虚拟环境,让 AI 直接在里面练出真本事。 输入一句「在暴风雨中的威尼斯运河划船」,它就能生成一个 720p、24fps 的 3D环境。你可以控制角色在里面移动、操作道具、甚至修改天气。 你打碎一个花瓶,碎片会留在地上。你走开再走回来,碎片还在那里。也就是说,Genie 3 的「持久性」,从环境持久性进一步细化到了「对象持久性」(object permanence)。 但这对计算架构提出了很高的要求。DeepMind 的研究主管 Shlomi Fruchter 说,要实现实时交互,模型需要每秒多次回溯查询一分钟前的信息。 这样的 Genie 3,很像是一个运行中的游戏引擎。但这种情况经过自媒体的夸张加工,形成了一种常见的误解,也即 Genie 3 是游戏引擎的替代品。 其实并非如此,它没有真正硬编码的物理引擎,所有的行为都是模型从训练数据中「学」到的。 这既是优势也是劣势。优势在于它的灵活性:模型自己能推断出物理属性和碰撞规则,;劣势在于它的物理模拟仍然不如传统引擎(硬编码)精确。 至于持久性,受制于前面提到的计算架构限制和算力压力,目前 Genie 3 只能维持几分钟的连贯性,之后画面就开始走样——这对于游戏是不可接受的。 到此为止,DeepMind 也只是解决了「造出环境」,训练 AI 呢?那就要用到谷歌研发的另一个东西 Dreamer 了。 DreamerV4 于 2025 10 月发表,是一个无需跟真实环境交互,完全在「想象」中学习的世界模型框架。 它成为第一个纯靠离线数据就在 Minecraft 里挖到钻石的 AI 。要知道,从零开始挖到钻石需要连续做出超过两万次精确的鼠标和键盘操作,包括砍树、造工具、挖矿、冶炼,中间还要躲避怪物和处理各种突发情况。 之前 OpenAI 的 VPT 模型要完成类似任务,需要 27 万小时的标注视频加上 19.4 万小时的在线强化学习。DreamerV4 用的数据量只有它的百分之一。 DeepMind 目前在推动将「生成的环境」和「虚拟的智能体」进行结合,在完全虚拟但又完整闭环的环境里进行训练。 谷歌这条路线的核心赌注是:像素级别的生成虽然不等于物理理解,但如果生成的环境足够真实、足够多样化,在里面训练出来的智能体就有可能泛化到现实世界。这是一个还没有被证明的假设,也是这条路线最大的风险所在。 卖水卖铲子:英伟达作为基建供应商 前面三条路线各有各的技术理想,但都面临同一个现实问题:世界模型训练需要极其庞大的数据量和算力。谁来提供这些基础条件? 英伟达的 Cosmos 平台就是在回答这个问题。它的定位很清楚:你们都在造世界模型?我来提供造世界模型的工具…… Cosmos 包含几个核心组件。首先是数据处理管线 Cosmos Curator,能在 14 天内处理 2000 万小时视频,加速世界模型的训练;而传统 CPU 方案处理这么多数据需要 3 年以上。 其次是视觉 Tokenizer,就像大语言模型把文字切分成「词元」(token) 来处理,世界模型需要把视频帧切分成某种可计算的表征。Cosmos 的 Tokenizer 压缩率比业界方案高 8 倍,支持多种视频比例和时长,能处理从机器人第一视角到自动驾驶鱼眼镜头的各种格式。 最后是最关键的三种预训练模型家族:负责预测环境未来状态的预测模型 Cosmos Predict、将模拟迁移到真实的仿真模型 Cosmos Transfer,以及负责让机器人做规划的推理模型 Cosmos Reason。这些预训练模型都通过开放许可证发布,开发者可以免费下载。 自从 2025 年 1 月在 CES 上发布后,Cosmos 迭代飞速,目前仿真模型和推理模型已经进化到第二代,Predict 到了 2.5 代。小鹏在用 Cosmos 做自动驾驶仿真,Figure AI 等硅谷头部机器人公司也在用它生成训练数据。 背后还是英伟达的老套路:用免费开放软件来锁定硬件生态。用 Cosmos 来训练世界模型,最后还是需要英伟达的 H、Jetson 等平台,以及 CUDA 生态。 黄仁勋在 CES 上的原话是:世界基础模型之于物理 AI,就像大语言模型之于生成式 AI。 他押注的是,世界模型会像大语言模型一样,变成一个巨大,且对世界带来显著变革的赛道,而英伟达要确保的,是不管谁最终胜出,手里拿着的都是 N 家的铲子。 主动推断派:来自神经科学的「异端」 并不是所有人都在走深度学习的主流路线来实现世界模型。这个赛道上还有「异端」: 代表公司 Verses 的首席科学家卡尔·弗里斯顿 (Karl Friston) 来自于神经科学领域,他是「自由能原理」的提出者,知名度极高,Google Scholar 引用量在神经科学领域排名很靠前。 这个理论的大意是:所有生物系统的行为,本质上都在做一件事情,即不断生成对外界的预测,然后采取行动来减少预测和现实之间的偏差。 这跟主流 AI 的思路有什么区别? 强化学习,也即当今主流方向,其核心逻辑是「奖励最大化」:给 AI 设一个目标,让它试错以找到最优策略。Friston 的主动推断框架,追求的却是「减少意外」。 如果非要简化形容:一个是逐利,一个是避险。 一个直观的比喻:强化学习像是一个被胡萝卜引导的驴子,朝着奖励的方向走。主动推断像是一个在陌生城市里的旅行者,不断修正自己对这座城市的心理地图,让自己对下一个路口的预期尽量准确。前者是被目标驱动的,后者是被好奇心和不确定性驱动的。 基于这个理论, Verses 开发了 AXIOM 框架。 它有两大特点:首先是对象中心化,即世界由离散对象组成,每个对象有属性、有关系。 深度学习通常把一个场景处理为一个高维向量,不会显式区分场景里的具体物体。而 AXIOM 把世界建模为离散对象组成的结构,每个对象有属性、有和其他对象的关系。 这种处理方式,可以说更接近人类的认知方式:我们看一个房间,不是在处理像素矩阵,而是在识别「椅子在桌子旁边、窗帘是拉开的」这些结构化的关系。 其次是贝叶斯推理:用概率分布表示信念,通过消息传递更新,而非梯度下降。 举个例子,基于 AXIOM 框架,一个在仓库里工作的机器人,面对一个从未见过的物体时,应该知道自己「不确定这是什么」,而不是盲目地去拟合,猜测该物体可能是一个自己知道的什么东西,然后去执行有可能是错误的策略。 去年 6 月,Verses 宣布在雅达利游戏的 Gameworld 10K 基准测试中超越了 DeepMind 开发的 DreamerV3,训练数据量远少于后者,完成游戏的所用步数只有 1/8。 更激进的是,AXIOM不需要预训练。你把机械臂的关节换成陌生物体,它能实时重新规划——因为它在在线推理,而非执行固定策略。 Verses 的商业化产品叫 Genius,目标客户主要是金融、机器人和智慧城市领域,比如可以用主动推断模型来对市场不确定性进行建模。这家公司也被 Gartner 写进了关于 AI、空间 AI 和物理 AI 的研报中。 AI 学界的知名大喷子,纽约大学教授 Gary Marcus 曾经说,很多搞机器学习的人对在模型里放入任何先验结构有一种「暴力的厌恶」(意即总认为从零搭建的机器系统能够 somehow 涌现出真正的智能),但 Verses 没有这个毛病。 毕竟,生物智能的进化花了几十亿年打磨,所做的事情并不是梯度下降。 尽管如此,Verses 的主动推理路线,短期内很难成为主流。但 Friston 的理论在神经科学界有深厚积累。如果世界模型真的需要更接近生物智能的原理,这一派可能会后来居上。 写在最后 五条路线,从多个侧面回答同一个问题:世界模型到底是什么,该如何实现?他们之间并不是非此即彼的逻辑,更像是同一块拼图的不同碎片。 门派 代表 核心优势 主要挑战 JEPA AMI 数据效率极高,抽象表征 商业化周期长 空间智能 World Labs 可编辑3D,设计/游戏刚需 物理动态性较弱 学习型仿真 DeepMind 交互性强,训练成本低 像素生成≠物理理解 基础设施 英伟达 全栈平台,生态锁定 依赖硬件销售 主动推断 Verses 实时适应,可解释性强 生态兼容性差 世界模型突然爆发,不是偶然。 大语言模型遇到瓶颈,边际收益在递减,幻觉、推理能力、多模态理解仍是硬伤。资本需要新故事;具身智能崛起。人形机器人、自动驾驶、工业自动化都需要AI与物理世界交互。纯文本训练的模型解决不了这个问题。 另外,高质量物理交互数据也十分稀缺且昂贵。世界模型可以在仿真中生成无限数据,被这些世界模型研究者认为是终极解法。 杨立昆曾断言,五年后没有人会再用今天这样的大语言模型。虽然说的很夸张,但对趋势的观察不无道理: AI 已经读完了万卷书,接下来该行千里路了。而世界模型会成为它的眼镜和四肢。 至于五大门派谁能胜出,答案可能并不重要。长期来看,融合或许是唯一的出路。毕竟,真正的智能大概不会只有一种形态。 文|杜晨
RNA预测超95%专家,OpenAI发布生命科学大模型
编译 | 高远瞩 编辑 | 漠影 智东西4月17日消息,新药研发平均耗时10到15年,这是生命科学领域长期面临的困境。如今,OpenAI将目光投向这一赛道。4月16日,OpenAI发布了其首个行业专用高级推理模型GPT-Rosalind,专为生物学、药物发现和转化医学定制,试图用AI的力量大幅压缩早期研发周期,提高整个管线的成功率。 该模型得名于DNA双螺旋结构的关键贡献者罗莎琳德·富兰克林,已作为研究预览版登陆ChatGPT、Codex及API,目前仅向符合条件的美国企业客户开放,且预览期内不消耗现有额度。 与此同时,OpenAI还开源了Codex生命科学研究插件,免费连接超50个公共数据库与生物信息学工具,并已与安进(Amgen)、莫德纳(Moderna)、洛斯阿拉莫斯(Los Alamos)国家实验室等机构达成首批合作。 一、行业专用模型:OpenAI为何选中生命科学? OpenAI将生命科学作为行业专用模型的切入口,背后有清晰的战略逻辑。 一款新药从靶点发现到监管批准平均需要10到15年,而早期发现阶段的任何效率提升,都会在下游产生复合效应——更优的靶点选择、更强的生物学假设、更高质量的实验设计,最终提高整个研发管线的成功率。然而,科学家的工作流长期被大量文献、专业数据库、实验数据和不断演化的假设所拖累,耗时、碎片化且难以规模化。 GPT-Rosalind 在化学、实验设计与分析等关键任务上的得分均明显优于前代模型 GPT-Rosalind针对科学工作流进行了深度优化,将工具使用能力与化学、蛋白质工程、基因组学的理解相结合,支持证据整合、假设生成、实验规划等多步研究任务。 OpenAI表示,该模型不仅让现有工作更高效,更能帮助科学家探索更多可能性、发现被忽略的联系,并更快地得出更好的假设。 二、RNA预测超95%人类专家,多项基准领先 在性能评估中,GPT-Rosalind在生物信息学基准BixBench上,取得了已发布模型中的最高分。 GPT-Rosalind 在 BixBench 上的表现全面超越 Gemini、Grok 及 GPT 系列前代模型 在涵盖文献检索、序列操作、实验方案设计等11项任务的LABBench2基准中,GPT-Rosalind有6项任务优于OpenAI最新的通用旗舰模型GPT-5.4,其中最显著的提升来自分子克隆实验设计(CloningQA)。 更为关键的验证来自与AI基因疗法公司Dyno Therapeutics的合作。双方使用未公开、无污染的RNA序列,评估模型在序列到功能预测和序列生成上的表现。历史数据中,AI生物学领域的人类专家共有57个得分。 当直接在Codex应用中评估时,GPT-Rosalind在十次提交中的最佳结果:序列功能预测排名高于95%的人类专家,序列生成排名约为84%的人类专家。 三、开源插件+顶级合作:打造生命科学AI生态 除了模型本身,OpenAI还同步在GitHub上开源了Codex生命科学研究插件。该插件集成了超过50个公共多组学数据库、文献源和生物信息学工具,涵盖人类遗传学、功能基因组学、蛋白质结构、生物化学、临床证据等方向。插件对所有用户免费,不限于GPT-Rosalind,普通模型也可使用,为科研人员提供了一个灵活、可复用的工作流编排层。 OpenAI Codex 的「Life Science: Research」插件,提供覆盖多领域的生命科学研究工作流,支持路由、证据合成与并行子代理分析 在生态合作方面,OpenAI已与安进(Amgen)、莫德纳(Moderna)、艾伦研究所(Allen Institute)、赛默飞世尔科技(Thermo Fisher Scientific)等机构合作,将GPT-Rosalind嵌入实际研发工作中。 安进公司AI与数据高级副总裁Sean Bruich表示:“生命科学领域每一步都要求精准,问题极其复杂,风险极高。与OpenAI的合作让我们能以创新的方式应用其最先进的能力,加速药物送达患者。” 此外,OpenAI正与洛斯阿拉莫斯国家实验室探索AI引导的蛋白质和催化剂设计,包括在保持或改善关键功能的前提下修改生物结构。 结语:OpenAI入场垂直赛道,前路仍待破局 GPT-Rosalind在RNA预测等任务上表现亮眼,其开源插件也以免费的形式降低了科研工具的使用门槛。 但其争议同样不容忽视:该模型目前仅面向美国企业客户,技术普惠性受限;在LABBench2的11项任务中仍有5项未超越通用模型,性能优势尚不全面。此外,该模型以罗莎琳德·富兰克林命名,被批评是在消费一位曾遭受不公的女科学家,而非真正的致敬。 在安全层面,OpenAI虽强调通过信任访问机制(trusted access)防范生物技术滥用,但批评者认为,任何强大的生物学推理模型都可能被恶意用于设计危险病原体或毒素,而目前缺乏独立的第三方安全评估来验证这一制度的有效性。 就在GPT-Rosalind发布前两天,OpenAI推出了面向防御性网络安全的GPT-5.4-Cyber,竞争对手Anthropic也发布了前沿AI模型Mythos。 AI巨头正加速向行业垂直模型赛道渗透,但生命科学领域的特殊性决定了,从技术突破到最终成药,中间仍隔着漫长的临床验证和监管审批。开源插件或许能降低科研的工作门槛,但技术公平性、安全性验证等问题,仍是其走向广泛落地前必须直面的大山。
橘子海乐队指控华为侵权!要求七日内致歉并赔偿
鞭牛士 4月17日,独立摇滚乐队橘子海通过官方微博及经纪公司发布严正声明,直指华为终端在Pura 90系列手机营销中,未经授权大规模使用 “橘子海” 概念进行商业推广。 橘子海乐队在微博长文中表示,年初华为曾就新品手机营销内容与其接洽合作,乐队当时对大厂的审美与创作者尊重表示认可,后续得知项目更换内容方向与艺人后也表示理解。 但随着华为Pura 90系列官宣发布,乐队发现该机型主打配色命名为 “橘子海”,并以 “一起去看橘子海” 等为核心宣传语,在全国多地商圈、地铁、户外大屏及线下门店开展大规模营销推广,甚至在官宣海报中搭配了乐队代表作相关元素。 随后,橘子海乐队经纪公司发布严正声明并直接艾特华为官方。 经纪公司声明中表示,近日,华为终端就其旗舰产品 Pura 90系列手机开展大规模商业推广活动,将“橘子海”作为该系列主推配色的核心品牌概念,配以“看惯了人山人海,就去看橘子海”“一起去看橘子海”等宣传语,在多个自媒体平台、全国多地核心商圈、地铁站点、户外大屏同步铺设。 与此同时,华为终端更以“橘子海”主题对旗下品牌门店进行整体改造,将“橘子海”概念的商业使用规模扩张至线下实体空间。 声明称:“以上行为,严重侵犯了橘子海乐队的合法权益。” 声明称,公司代表橘子海乐队明确提出以下要求: 第一,华为终端有限公司应立即停止一切以“橘子海”为宣传主题的商业推广活动,包括但不限于户外广告、线上宣传物料及品牌门店相关设计的进一步铺设与使用; 第二,华为终端应向橘子海乐队公开致歉,并承认上述使用行为系未经授权; 第三,华为终端应与我方就乐队因此遭受的名誉损失及经济损失进行协商赔偿; 声明强调,上述要求若未能在本声明发布之日起七个工作日内得到华为终端方面的正式回应,公司将依法通过司法途径追究华为终端故意侵权责任。 截至发稿,华为终端尚未就此事作出公开回应。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。