行业分类:
加载中...
头条分类:
加载中...
阿童木天兵一号ATOM01人形机器人迭代升级发布:热插拔灵巧手 170TOPS端侧算力
IT之家 12 月 2 日消息,阿童木机器人今日发布迭代版全栈自研人形机器人「天兵一号 ATOM01」。 ATOM01 定位为“工业级应用”,旨在成为产线上“不知疲倦、精准可靠、即插即用、随需而变”的超人员工。 IT之家从官方介绍获悉,ATOM01 的 7 自由度仿生双臂,复刻了人类上肢的灵巧性。通过全身 27 个自由度的智能协同控制,它能调动全身姿态完成复杂作业,并实现了关键性能的跃升:单臂 12.5kg 的负载能力,配合 616.5mm 臂展,意味着它能应对从精密芯片到重型汽车零部件等广泛物料的搬运作业。末端工具的热插拔设计,使其能在秒级内从抓取重型工件的夹爪,切换为执行精密装配的灵巧手。 升级版高刚度 Stewart 并联腰部,是本次进化的亮点之一。它解决了传统机器人腰部“为灵活而牺牲稳定,为承重而丧失灵动”的妥协设计问题,在执行低位拾取等大范围动作时更加灵活。 ATOM01 的感知系统融合激光雷达与立体视觉,在复杂动态环境中构建实时厘米级地图。它不仅“看见”物体,更能“理解”场景 —— 区分静止设备、移动的 AGV 和人员,并预测其轨迹,从而实现全自主的智能导航与避障。 基于多级闭环控制架构与全关节力矩感知,ATOM01 实现了微秒级的抖动抑制与自适应柔顺控制,能够执行精密插装、力控打磨等对精度和手感要求高的工艺。 ATOM01 计算中枢搭载 8 核 Arm Cortex‑A78AE CPU 与英伟达 1792 CUDA 核心 GPU,提供最高 170TOPS 的端侧 AI 算力。全系统原生支持 ROS 2 及开源 SDK,提供从硬件驱动到任务编排的完整工具链。
达芬奇DaVinci Resolve Studio 20.3发布 为苹果M5芯片带来32K视频剪辑功能
IT之家 12 月 2 日消息,视频剪辑软件达芬奇 DaVinci Resolve Studio 20.3 现已发布,其中最大的更新便是为苹果 M5 处理器带来 32K 分辨率视频剪辑功能,并修复大量错误,进一步提升稳定性与性能。 IT之家附本次更新详情如下: 使用苹果 M5 处理器时,最高支持剪辑 32K 分辨率视频 提升 Resolve FX 降噪器性能 时间线备份允许使用命名快照进行版本控制 允许将元数据字段添加为媒体池容器列 支持导入、导出 ALE 媒体池元数据 导入时支持将未知字段创建为自定义元数据 导出的元数据文件现已包含自定义数据字段 每个项目都会保持媒体池视图与状态 编辑菜单可插入间隙和播放头 媒体池新增可分配快捷键,用于启动搜索 支持分配快捷键,用于在时间线中使用源查看器打开 速度改变和持续时间改变操作现已遵循同步锁定机制 新增 2.39 和 2.40 宽高比。 支持创建胶片外观、胶片损坏和模拟损坏的 Alpha 通道 适配 HDR Vivid 和 Audio Vivid 的 IMF 工作流程 支持在 QuickTime 和 MP4 编码中嵌入 HDR10+ 元数据 MXF 剪辑片段新增立体模式 解决了字幕上下文菜单中缺少剪辑操作的问题 解决了使用堆叠时间线出现间歇性延迟问题 修复 Fusion 片段中高质量反交错的问题跟踪问题 解决某些深度 OpenEXR 文件的加载问题 解决压缩 ARW 片段解码问题 解决 macOS 26.1 系统下 AI Music Remixer 静音音频问题 解决 Windows 系统下 QuickTime 解码卡顿问题 解决 Windows 系统下远程监控无法启动问题 提升整体性能及稳定性
消息称OpenAI内部拉响“红色警报”:奥尔特曼亲自下令改进ChatGPT计划下周一发布新推理模型
IT之家 12 月 2 日消息,据《华尔街日报》今天报道,一份内部备忘录显示,OpenAI CEO 萨姆・奥尔特曼在周一告知全体员工,由于谷歌等 AI 领域竞争对手不断威胁公司地位,OpenAI 现已进入“红色警报”(IT之家注:Red Alert)状态。 据报道,奥尔特曼表示,OpenAI 在改善 ChatGPT 的日常体验方面还有很多工作要做,涵盖改进用户个性化功能、提升响应速度和可靠性、回答更广泛问题等方面,为此 OpenAI 将暂时搁置其他项目的工作,例如 ChatGPT 广告、健康 / 购物 AI 智能体,以及一个名为 Pulse 的个人助理。 奥尔特曼直言:“我们正处于 ChatGPT 的关键时刻。”,并决定紧急调整战略方向,将公司资源全面调配至 ChatGPT。他指示更多员工专注于提升 ChatGPT 的体验,以巩固 8 亿周活用户的根基,并计划改进 Imagegen 功能,应对谷歌的 Nano Banana Pro,并最大限度地减少模型拒绝回答善意问题的现象。 一位知情人士透露,OpenAI 尚未公开承认进军广告销售业务,但该公司正在内部测试在线购物等不同类型广告。 奥尔特曼还透露,OpenAI 计划在下周一发布一款新推理模型,号称比谷歌最新的 Gemini 更先进,并且公司在其他多个方面仍表现良好。
智谱冲击中国AI第一股 CEO张鹏:模型销售年经常性收入已超1亿元
智谱 凤凰网科技讯 北京时间12月2日,据彭博社报道,AI开发商智谱已经实现了一项关键收入里程碑,并提高了处于起步阶段的AI开发工具业务的用户数量,希望这一快速增长的服务能够助力公司即将进行的股票上市。 智谱联合创始人兼CEO张鹏告诉彭博社,公司目前通过向开发者出售用于创建AI服务的软件工具和模型的访问权限,每年可创造逾1亿元人民币(约合1400万美元)的经常性收入。虽然与美国同行相比这一数字并不高,但它表明智谱在说服中国客户为AI付费方面取得了进展。张鹏表示,在智谱旗舰模型GLM-4.5于7月发布后的前两个月,这项仅限订阅的服务的使用量增长了十倍。 据知情人士透露,智谱2024年的整体收入达到4200万美元,2025年的销售额预计增长一倍以上。这一增长印证了智谱努力实现收入来源多元化的成效,该公司正逐步减少对传统上构成其大部分收入的政府机构和企业的依赖,转而抓住中国及海外日益高涨的AI开发热情。 智谱获得了阿里巴巴集团等大型投资方的支持,估值超过30亿美元,该公司希望吸引更多投资者,并成为后ChatGPT时代首家上市的中国AI创业公司。在价格战淘汰了小型竞争对手后,智谱成为目前中国少数仍在坚持研发模型以对标OpenAI和Anthropic PBC的公司之一。 “我们的模型足够优秀,处于世界顶尖水平。我们在价格和成本方面拥有巨大优势。我们开玩笑说,如果Anthropic卖200美元,我们就卖200元人民币。”46岁的张鹏表示。 智谱对按需AI工具的优先布局凸显了中国AI创业者面临的一个共同挑战:如何从不习惯为在线服务付费的用户中获得可观收入。该公司发言人表示,其应用程序接口业务平台目前服务超过270万付费用户,其中包括一些中国大型科技公司。 张鹏表示,公司希望最终将工具业务的收入占比提升至总收入的一半,但未作详细说明。今年9月,智谱为其AI编程助手推出了全新订阅方案,每月费用低至20元人民币,约为竞争对手Anthropic旗下Claude产品定价的七分之一。智谱发言人透露,该方案目前用户数已突破15万。智谱最新产品线还包含一款基于智能手机的AI智能体,能够协助用户预订行程和点外卖。 中国AI第一股 目前,智谱正在与大模型创业公司上海稀宇科技角逐,力争成为中国首家上市的AI模型开发商。稀宇科技擅长视频和音频生成服务。 “(中国AI第一股)这个称号理应属于我们。我们是自然而然地走到这一步,并没有刻意推动。但就像马拉松的最后一公里,你必须加速冲刺。”张鹏表示。 就在智谱冲刺上市之际,外界对AI基础设施过度投资却缺乏清晰盈利路径的担忧日益加剧。但是,张鹏认为,中国市场仍处于高质量AI服务供不应求的阶段。他补充道,当前亟待解决的关键问题是AI查询处理需求的激增。 “市场在扩大,需求在增长,人们现在愿意付费,但推理计算资源能否跟上需求?”张鹏表示。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
IBM CEO:以现有成本建设AI数据中心“几乎不可能回本”
IBM CEO:以现有成本建设AI数据中心“几乎不可能回本”,当前技术实现AGI概率仅1% IT之家 12 月 2 日消息,The Verge 昨天采访到了 IBM 首席执行官 Arvind Krishna。他在播客表示,按照目前的数据中心建设与运营成本,行业投入的巨额资本支出几乎不可能获得足够回报。 Arvind Krishna 指出,AI 企业在追求通用人工智能(AGI)的过程中不断扩大计算能力,但当前基础设施成本结构难以支撑这种规模化投资的经济可行性。 Krishna 表示,基于“今天的成本”进行的估算显示,一个 1 吉瓦的数据中心需要约 800 亿美元投入。如果单家公司计划建设 20 至 30 吉瓦数据中心,其资本支出规模将达到约 1.5 万亿美元(IT之家注:现汇率约合 10.62 万亿元人民币)。 他指出,全球范围内与 AGI 相关的建设承诺总量可能接近 100 吉瓦,对应投入约 8 万亿美元(现汇率约合 56.63 万亿元人民币),而仅利息成本就意味着需要约 8000 亿美元利润才能覆盖。 他还提到 AI 芯片的折旧周期是关键因素之一。目前的数据中心芯片通常需在五年期限内完成折旧,此后可能被替换,这使长期回报更加难以实现。 在行业对 AGI 的讨论升温之际,Krishna 表示,不认为现有技术路径可以在没有进一步突破的情况下实现 AGI,并将概率评估为 0% 至 1%。 多位科技领域人士,包括 Marc Benioff、Andrew Ng 和 Mistral CEO Arthur Mensch,也对 AGI 的加速发展持保留意见。OpenAI 联合创始人 Ilya Sutskever 认为大模型时代的“扩规模效应”已趋于极限,未来将重新进入以研究驱动的阶段。 尽管对 AGI 路线有所质疑,Krishna 仍肯定当前 AI 工具对企业生产力的价值,并认为这些技术将在企业领域释放“数万亿美元级”的效率收益。他提出未来可能需要将硬知识体系与大模型结合,才能推动通用人工智能发展的下一步,但对其成功可能性仍保持慎重态度。
英伟达发布TiDAR:单步生成多个Token,AI吞吐量提升近600%
IT之家 12 月 2 日消息,科技媒体 Tom's Hardware 今天(12 月 2 日)发布博文,报道称英伟达在最新论文中,详述名为 TiDAR 的新型 AI 解码方法,巧妙融合了自回归(Autoregressive)与扩散(Diffusion)两种模型机制,利用 GPU 的“空闲槽位”加速文本生成。 自回归(Autoregressive)是一种生成方式,AI 必须根据上一个字才能猜出下一个字,像接龙一样,只能按顺序一个接一个生成。 扩散(Diffusion)常用于 AI 绘画的技术,通过逐步去除噪点来生成内容,在 TiDAR 中,它被用来一次性“猜”出好几个可能的词,供后续筛选。 IT之家援引博文介绍,当前的语言模型通常一次生成一个 Token(词元),这种逐个生成的机制导致了极高的计算成本和延迟。 TiDAR 的核心理念在于利用模型推理过程中未被使用的“空闲槽位”,在不牺牲生成质量的前提下,通过单步生成多个 Token 来大幅提升响应速度并降低 GPU 运行时长。 在技术原理方面,TiDAR 创新性地训练单个 Transformer 模型同时执行两项任务:标准的自回归“下一词预测”和基于扩散的“并行起草”。 不同于以往依赖独立草稿模型的投机解码(Speculative Decoding),TiDAR 通过结构化的注意力掩码(Attention Mask)将输入分为三个区域:前缀区、验证区和起草区。 投机解码是一种加速技术,先用一个小模型快速草拟一段话,再由大模型进行检查和修正。TiDAR 试图在同一个模型内完成这两步。 这种设计让模型在利用扩散头并行起草新 Token 的同时,还能通过自回归头验证这些草稿,最关键的是,它确保了 KV 缓存(KV Cache)的结构有效性,解决了早期扩散解码器面临的部署难题。 研究团队基于 Qwen 系列模型进行了测试。在 HumanEval 和 GSM8K 等基准测试中,TiDAR 的准确率与基准模型持平甚至略有提升。 在速度方面,15 亿参数版本的 TiDAR 模型实现了 4.71 倍的吞吐量增长;而 80 亿参数版本的表现更为抢眼,吞吐量达到了 Qwen3-8B 基准的 5.91 倍。这表明在当前测试规模下,TiDAR 能有效利用 GPU 的显存带宽,在不增加额外显存搬运的情况下生成更多 Token。 该媒体指出尽管实验数据亮眼,TiDAR 目前仍面临规模扩展的挑战。论文中的测试仅限于 80 亿参数以下的中小模型,且未涉及定制化的内核级优化(如 fused kernels),仅使用了标准的 PyTorch 环境。 随着模型参数量和上下文窗口的扩大,计算密度可能会饱和,从而压缩“多 Token 扩展”的成本优势。研究人员表示,未来将在更大规模的模型上进行验证,以确定该技术是否能成为云端大规模 AI 部署的实用替代方案。
2025北京人工智能产业白皮书重磅发布,全年核心产值将超4500亿
2025年11月29日,2025中国人工智能大会暨全国人工智能学院院长(系主任)年会在北京顺利启幕,20余位中外院士、50多位高校AI学院的院长(系主任)以及300余位产学研专家学者与人工智能领域领军企业代表集聚一堂,分享战略性、原创性、前瞻性的研究成果与产业实践经验,共同探讨中国人工智能产业创新发展路径,共同解读二十届四中全会关于“一体推进教育科技人才发展”的深刻内涵,进一步展现北京作为国家AI人才高地与创新策源地的核心地位,为区域高质量发展注入新动能。 开幕式上,北京市科学技术委员会、中关村科技园区管委会正式发布《北京人工智能产业白皮书(2025)》(以下简称“《白皮书》”)。 《白皮书》主要从全球发展现状、中国具体实践、北京阶段进展、未来趋势判断和下一步工作建议等方面进行分析,共5个章节。从全球和国家战略角度总结了人工智能发展现状,系统梳理了北京人工智能的创新资源和产业总体情况,并研判未来发展趋势,推动北京市加快建设具有全球影响力的人工智能创新策源地和产业高地。 《白皮书》认为,2025年,全球人工智能发展正从单点技术突破向生态协同创新加速演进,逐渐形成“战略主导、技术竞速、规模扩张、应用拓展、生态竞合”的发展格局。 (一)能级跃升,跑出产业高质量发展的“北京速度” 产业规模量质齐升。数据显示,截止目前,人工智能核心产业规模持续增长,2025年上半年,全市人工智能核心产业规模2152.2亿元,同比增长25.3%。初步估算2025年全年,产业规模有望超过4500亿元。AI企业超2500家,已备案大模型183款,持续保持全国第一。产业链日趋完整,形成了具有全球竞争力的产业生态。同时,商业化路径也逐渐清晰,百度、抖音等公司的营收和产品活跃用户数均创新高。北京正以前所未有的速度,持续建设“人工智能第一城”。 (二)成果亮眼!产出全球科技前沿的“北京原创” 2025年,北京各类创新主体持续产出领先的前沿成果。高校院所原创成果凸显,清华大学戴琼海院士团队、北京邮电大学徐坤教授团队、中国科学院自动化所李国齐教授团队等陆续取得重大原创性突破。新型研发机构加速创新,北京智源人工智能研究院发布FlagOS,实现“模芯协同”的纵向贯通;北京通用人工智能研究院推出“通通2.0”,完成从理论创新到能力验证的重大跨越;北京科学智能院发布玻尔科研空间站,是全球首个覆盖“读文献-做计算-做实验-多学科协同”的 AI 科研平台;中关村人工智能研究院打造超级软件智能,首次实现对软件底层运行机理的深度穿透。核心企业带动作用显著,豆包、文心一言、GLM、Kimi等模型在权威测评中表现优异,部分成果已达国际顶尖水平。 (三)系统布局!打造创新体系完善的“北京生态” 政策体系不断丰富。今年以来,北京市在全国率先出台了《北京市加快人工智能赋能科学研究高质量发展行动计划》《北京具身智能科技创新与产业培育行动计划》等一系列政策措施,推动人工智能发展实现从技术突破向全要素赋能的关键跃升。 产业生态活力迸发。投融资高度活跃,政府资金发挥“逆周期”调节作用,有效带动社会资本投早投小。协同创新氛围浓厚,基础软件、模型算法纷纷开源,吸引全球开发者参与代码贡献与应用创新;“北纬社区”、“模数世界”、具身智能创新产业园逐步落成,孵化体系日趋完善。国际合作热度提升,首批“中关村人工智能企业出海服务港”设立,支持企业带着技术、标准和产品走向全球,“北京方案”正在国际舞台上领航。 (四)展望未来!找准全球创新网络中的“北京坐标” 《白皮书》分析了人工智能产业的未来发展趋势。 人工智能推动生产力形态变革。能胜任个人助理、企业流程自动化、科学研究助手等角色的各类AI Agent将迎来爆发式增长。具身智能的发展将实现从信息处理到物理作业的跨越。人工智能将拓展认知能力边界。世界模型将显著提升AI系统的泛化能力和可靠性。“AI for Science”的发展将加速科学发现进程,有望在各领域催生一系列突破。人工智能将促进技术普惠发展。端侧智能催生应用新蓝海,智能手机、个人电脑、智能汽车等端侧设备将具备更强的智能处理能力。 下一步,北京将持续坚持一体推进教育科技人才发展,立足于建设具有全球影响力的人工智能创新策源地和产业高地,坚持问题导向与目标导向相结合,推动科技创新和产业创新深度融合,从强化策源能力、拓展应用范围、打造产业集群、营造良好环境等方面,加快补齐短板、锻造长板,全面巩固和提升北京作为“人工智能第一城”的引领地位。
名字致敬钢铁侠Jarvis!李想透露AI眼镜已研发两年
12月2日,理想汽车创始人李想回应了关于发布AI眼镜的疑问。 李想透露,理想对眼镜的研究在两年前就开始了。 李想表示,很多同事在使用Meta的眼镜,但在用的过程中其实对很多的体验还是不太满意,所以理想一直在研究AI眼镜,并在去年正式启动了产品的研发。 关于为什么叫“Livis”,李想表示,“它的名字其实是我们很早就想好的名字。我很喜欢钢铁侠,钢铁侠印象最深的Jarvis。那其实我们自己的起名字跟这有点类似,就是Livis,LI其实就是理想。” 同时,李想称AI眼镜“Livis”有五个关键的特点。 同级别的产品里重量最轻的。 续航时间最长的,就跟理想推出增程一样,没有里程焦虑。 拥有全世界最好的镜片。 当你发出指令,它的语音互动是在一秒之内完成。是全世界所有的多模态的模型里边速度最快的。 它有最方便的充电。因为它带了一个像Apple Pods一样的无线充电盒。 此外,李想还透露了由于眼镜的出现,导致理想汽车可以做出很多具身智能所拥有的主动行为。“比如主动开过来来接你,而且都是根据你的指令来进行的。” 据悉,理想今日宣布,与蔡司达成战略合作,将于明晚19:30正式召开AI眼镜Livis发布会。 值得注意的是,2025年AI眼镜赛道已进入“百镜大战”阶段,据市场数据,全球销量预计将达510万副,中国市场增速超200%。其中,小米、阿里、百度等大厂纷纷入局,Meta与雷朋合作的产品更是累计销量超200万副。 不过话说回来,关于理想AI眼镜销量如何,还要看明晚发布会的定价揭晓了,你会买理想AI眼镜吗?
AI教父Hinton对话云天励飞陈宁:AI学习效率比人类高数十亿倍,推理芯片将主导5万亿市场
智东西 作者 | 李水青 编辑 | 漠影 智东西12月2日报道,今日,77岁的诺贝尔物理学奖得主、“AI教父”杰弗里·辛顿(Geoffrey Hinton)在2025 GIS全球创新展上发表演讲,并在硅谷科学家吴军的主持下与中国AI芯片领军企业云天励飞董事长兼CEO陈宁展开了一段精彩的线上对谈。 辛顿有一段广为人知的“AI养虎论”——在此前7月的访华演讲中,他将超级智能比作终将反噬人类的猛兽,呼吁要像几十年前美苏联合预防核战争一样进行治理。而当这位AI领域的“先知”带着他的终极忧思,遇上正蓬勃发展的中国AI产业力量时,会碰撞出怎样的思想火花? 今天这场演讲及简短而高效的对谈,浓缩了从危机认知、范式博弈到技术路径的全景探讨,智东西将主要的信息干货提炼如下: 1、(辛顿)AI系统之间的知识蒸馏效率相比人际信息交换,“效率提升好几十亿倍,真的非常可怕”,其进化速度可能远超人类。 2、(辛顿)一旦制造出超级智能,它们会衍生出“生存”这个子目标,并且非常擅长欺骗人类。我们必须确保AI永远不会来针对人类。 3、(辛顿)在AI转型中,中国可能更有动力,政府与大企业协作更深入,对后果有更多的预防性措施,AI带来的负面影响可能比在美国小。 4、(辛顿)发展AI若忽视实际应用,将会是一个重大失误;只考虑应用而不推动底层理念发展,也是大错特错。基础研发和应用两者都非常重要。 5、(辛顿)受大脑启发的模拟计算功耗极低,有巨大能效潜力,但存在“硬件与知识绑定”的缺陷;主流的数字计算则功耗高,但知识可分离和共享。 6、(陈宁)通过设计更高效的NPU(神经网络处理器),目标是实现百倍以上的效率提升,将智能体推理成本大大降低,将在全球带来AI普惠。 7、(陈宁)到2030年,AI芯片产业规模可能达到约5万亿美元。推理芯片将占主导(约80%),其市场规模将远超训练芯片。 辛顿的演讲及圆桌对话纪要全文如下,智东西做了不改变原意的编辑: 一、辛顿最新演讲:AI学习速度已领先人类数十亿倍,“真的非常可怕” 辛顿本次的演讲还是从AI发展历史和运作机制聊起,他提到,现代大语言模型的强大能力在于仅从预测下一个词的任务中,就能学习到复杂的语言结构和语义,这一过程与人类学习语言的方式高度相似。 紧接着,他肯定了受大脑启发的“模拟计算”的巨大能效潜力。他指出,我们都很习惯数字计算,这种主流计算方式功耗高,妨碍了我们使用丰富的模拟特性;受大脑启发的模拟计算功耗极低,但也面临“硬件与知识绑定”的缺陷。 而将视野拉回当下AI产业发展图景,辛顿赞叹了AI知识传递与智能体进化的惊人效率。 他提到,AI之间学习正在变快。以DeepSeek与Llama模型举例,他阐述了“AI系统之间的蒸馏效率要高得多”,相比人际信息交换,“效率提升好几十亿倍,真的非常可怕”,AI进化速度可能远超人类生物进化与文化进度。这是其本次演讲中最具警示性的观点之一。 以智能体协作的图景为例,他谈道:成千上万的智能体一起工作,互相分享它们的经验,之后通过数字神经网络连接,这是人不可能做到的。虽然生物计算消耗的能量非常低,我们吃一碗饭、一个馒头就可以用大脑,但是在信息传递和分享方面,效率太低了。 他进而提到,如果能源能够便宜,那数字计算肯定比大脑计算更好用。 最后,辛顿重申了了关于超级智能的风险与治理,并强调了中国在这方面的优势。 他认为大部分人相信在未来20年超级智能可以被制造出来,一旦我们制造出超级智能,他们就会有“生存”这个子目标并且非常擅长欺骗人类。他倡导,我们必须想办法确保AI永远不会来针对人类,各国家和地区都应该携手让AI朝着正确的方向发展,需要去重新构架当前人与AI共存之治理模式。 他还提到,中国在这方面更有优势,政府与大企业协作更深入,中国在转型当中可能更有动力,也会对这个转型带来的后果有更多的预防性的措施,在中国人工智能带来的负面影响会比在美国小。 二、中国AI芯片先锋对话辛顿:算力成本要降百倍,推理芯片将主导5万亿市场 辛顿描绘了一幅关于AI进化能力与潜在风险的宏大图景,并提及了算力瓶颈及潜力方向。那么正处于AI产业化浪潮中心的中国科技力量,特别是在一线致力于“驯服”算力成本、推动技术落地的实干家们,又会作何回应? 在辛顿演讲之后,硅谷科学家吴军、中国AI芯片企业云天励飞董事长陈宁与他从最底层的类脑计算探索,到现实的产业区域竞争,再到未来市场规模预测,展开了务实而富有前瞻性的探讨。 吴军(左)、陈宁(中)和辛顿(右屏幕) 1、从前沿类脑计算到NPU:智能体推理成本将降百倍 吴军:辛顿教授刚才提到模拟计算,并与数字计算做了对比。您认为,是否有可能将数字芯片和模拟芯片集成到芯片级甚至计算机级的系统中,从而制造出更接近人类的系统,更好地模拟人类思维?我们是否有可能借此创造出物理世界中的数字人? 杰弗里·辛顿:这里面确实有明显的优势。模拟芯片在功耗、计算能力以及传输效率上表现更好。目前有很多研究者在培育“类器官”,例如在圣克鲁斯等地,类器官的培育已经取得了一些成功。 吴军:我们是否真能利用这类技术来实现细胞组合与生成,并进行计算?这样的“类器官”是否能模拟人脑计算,从而大幅节省能源? 陈宁:在我们为“类器官”找到合适的算法之前,很难创造出真正的价值。类器官必须结合高效的学习算法,才能真正实现能效提升,达成计算目标。 杰弗里·辛顿:目前还没有真正实现基于脑细胞“类器官”的计算,这类模拟计算尚未发挥出巨大价值。谷歌的芯片在语音识别之后,可能会进一步突破,打造新的硬件芯片。如果真的想实现生物计算,还有很长的路要走。无论是研究的方向,还是具体的项目,都还需要更多的探索。 吴军:当前人工智能已经取得了很多进展,但若要训练一个类似ChatGPT的模型,仍可能需要花费数十亿美元的成本。您刚才提到可以通过模拟设施来解决这个问题,正好我们今天现场有一位专家,可以从他的角度谈谈对这个问题的看法。陈宁博士,你们是否通过研究将AI的成本从数十亿美元降低到了几千美元吗? 陈宁:我们大约从11年前开始这项工作,公司中文名叫“云天励飞”。我们的使命是设计更高效的AI芯片。刚才辛顿教授提到,AI非常强大,我们需要更好地训练AI——我完全同意。我们需要更好、更高效率、更低成本的AI,这些都非常重要。AI向善意味着AI本身具备强大能力,并且是真正为人类服务,让全人类都能广泛受益。 我们现在需要建立更经济的AI训练模式,NPU(神经网络处理器)是实现高效AI的关键。谷歌在TPU(一种NPU)方面做得非常出色,与同性能的GPU相比能降低约30%的成本甚至更多。2025年我们将进入AI推理时代,大家现在都在讨论智能体,我们的目标是将智能体推理的成本降低100倍,原本需要花1美元(消耗几百万token)处理的任务,不久后可能只需要1美分。再过两年,人们将能够从AI中获得更多益处。从这个角度看,AI将能够覆盖更广泛的人群,例如在农业农村发展、医疗健康、教育等各个领域,AI都能发挥巨大的价值。 如今,许多国家和地区都在训练自己的AI模型。中国在AI方面发展得非常快,也在不断探索更多AI的应用场景。预计到2027年,也就是两年后,AI应用和智能体的普及率将超过70%;再往后推三十年,这个比例预计会超过90%。现在每家公司都在使用AI,每个普通用户也都在用。 AI能够提供被采纳后的反馈,而来自真实世界的反馈对AI来说也非常重要。这可以从两个方面来看:一方面,我们为AI提供输入,这本身是一种反馈;另一方面,AI给出反馈后,我们再对它进行反馈,这样AI就会变得更聪明。这也是我们公司的目标和产品方向——我们已经设计了5代NPU和GPU,希望能为整个行业提供更具成本效益的AI芯片。 2、辛顿称忽视实际应用或底层技术,都是重大失误 吴军:今年7月您曾去过上海,看到有很多研究机构都在做大语言模型;您也经常来香港,香港和深圳北正成为全球硬件中心并诞生大量原生AI硬件。在AI时代,您认为两地(长三角和粤港澳大湾区)哪个有更明显的优势? 杰弗里·辛顿:长三角和大湾区各自的优势是不同的。我们需要思考如何通过AI的应用与研究来创造更多价值,针对不同的应用场景提出新思路,这些都非常关键。我们努力让AI变得更智能,但如果忽视实际应用,将会是一个重大失误;而如果只考虑应用,却不思考如何改进技术、推动底层理念的发展,那同样是大错特错。中国拥有上海周边的长三角地区,那里聚集了大量的AI技术开发力量;而大湾区或许会更侧重于AI的应用层面。基础研发和应用两者都非常重要。 吴军:下一个问题想问陈博士。您提到五年后token的计算价格可能会大幅降低,届时芯片市场或许会占整个AI市场的20%。您预计未来3-5年芯片市场规模会达到多大?如果不考虑英伟达,未来3-5年整个市场规模又是多少?这将对整个行业产生怎样的影响? 陈宁:五年后,芯片在整体市场中的份额确实会下降。到2030年,AI芯片产业规模可能达到约5万亿美元(市场收入)。今年我们还没看到大的变化,但到2035年,AI将实现从训练到推理的整体转型或说过渡。AI模型会有更多应用,而智能体的应用也需要做得非常出色。大约12个月后,我们或许会看到推理芯片的市场规模超过训练芯片。 到2030年,训练芯片的规模可能在1万亿美元左右,而推理芯片可能接近4万亿美元。刚才提到芯片占整体市场的比例会下降,这主要是由于训练芯片占比降低,但推理芯片有望大幅增长。总体来看,通过相应的计算,推理芯片应该会占到AI芯片的80%,这个数字是经过比较准确的测算的。 未来五年,AI将重新定义所有数字应用、硬件和电子设备,AI智能体也可以帮助我们的生活变得更高效、更美好,届时AI推理芯片将无处不在。我也向国际电联提出建议,希望他们能启动一项全球推理芯片的标准制定,让世界各地都能在互联互通的网络中获取更多收益和价值。相信AI芯片会像水电一样无处不在,发挥巨大作用,同时成本也会大幅降低。 3、辛顿:不后悔发布神经网络论文,但应该更早警惕AI风险 吴军:我对您的经历很感兴趣,您在本科没有读计算机而是选择心理学等其他专业,广泛的涉猎如何帮助你成为最顶尖的计算机科学家?或者说,对计算机科学家而言,是否有其他技能可以帮助他们更好地锤炼自己? 杰弗里·辛顿:我读的是心理学、生理学和哲学,一开始完全不懂计算机科学。如果说要我动手搭建一条管线,我可能毫无办法;但如果是要提出一个解决方案,我可以给你一些相关的建议。早在中学时期,我就对生理学特别感兴趣,我想弄明白大脑是如何运作的。我学习了心理学、生理学,后来又学了人工智能和神经科学。这些不同的学科其实都是为了解决某些具体问题。所以当我们遇到真正棘手、特别困难的难题时,跨学科的知识往往能提供更好的解决办法。当我们想要解决一个问题时,就会主动去学习那个领域的知识,以此推动问题的解决。这也是为什么我后来会去学习统计物理学。 吴军:上世纪90年代初,神经科学还是一个非常热门的领域,但十年之后出现所谓的“神经科学的冬天”,很多这个领域人才离开了研究岗位,转向其他领域。对你来说,是什么让你相信自己仍然走在正确的道路上?在人工智能遭遇寒冬的时候,你为什么会坚持走下去? 杰弗里·辛顿:对我来说,最关键的并不是我要做出怎样的技术,而是我想理解大脑是如何学习的。当我们最初发现神经网络时,在数据有限的情况下,它的表现甚至不如SVM(支持向量机)。但我依然继续研究神经网络,因为我对大脑的学习机制太感兴趣了。后来事实证明,支持向量机之所以一度表现优于神经网络,是因为当时使用的数据集比较小;一旦有了海量数据,神经网络的价值就真正展现出来了。 陈宁:如果您有一台时光机,可以回到2012年,甚至回到开始研究神经网络后的几十年,你还会发表那篇AlexNet论文吗?如果没有发表那篇论文,现在的技术发展会慢很多吗? 杰弗里·辛顿:这个问题其实不太好回答。我认为该发生的终究会发生,我可能还是会发表那篇论文。但如果真能回到过去,我可能会从那时候起,就开始警惕人工智能可能带来的一系列风险——这是我现在能想到的、若回到过去会想做的事。 结语:务实发展推动AI普惠,全球协作治理推动AI向善 在这场跨越地域与视角的对话中,辛顿以其一以贯之的深刻与警醒,将超级智能的长期风险置于聚光灯下。而来自中国AI产业前沿的探索者,则展示了如何通过技术创新与产业协作,在当下解决成本、能效与普惠等迫切问题。 两者看似一远一近,实则构成了应对AI时代挑战不可或缺的一体两面。没有对终极风险的清醒认知,当下的狂奔可能迷失方向;而缺乏将宏大愿景转化为务实解决方案的能力,再深刻的警告也可能沦为无力的空谈。 可以看到,从降低百倍推理成本的具体目标,到构建全球芯片互联标准的倡议,中国力量正在尝试将安全、普惠与发展的多重目标,编织进技术演进的现实路径中。
公司账号被盗?网警破获AI换脸非法侵入案
IT之家 12 月 2 日消息,据公安部网安局官方微信公众号消息,利用 AI 换脸通过互联网平台验证系统,神不知鬼不觉就能篡改企业法定代表人信息?近期,湖北武汉网警成功侦破利用 AI 换脸技术非法侵入计算机信息系统的案件,抓获阿成(化名)等 4 名犯罪嫌疑人。 “你们公众号怎么开始推荐投资理财 App 了?这靠谱吗?”某 MCN 机构工作人员像往常一样打开公司公众号评论区,却被一连串的粉丝留言惊出了一身冷汗。 工作人员急忙查看公众号文章,惊讶地发现原本精心运营的账号,不知何时竟发文称即将停更,并号召粉丝关注另外一个投资理财类的账号。工作人员尝试登录账号后台,密码已被修改,甚至连公司法人代表信息都被篡改。意识到事态严重后,工作人员第一时间向武汉警方报案。 接警后,武汉网警迅速成立专案组,研判发现:被盗的社交媒体账号不仅认证信息被篡改,登录密码也已被更换,背后操作痕迹指向一套成熟的“AI 换脸”技术。顺着线索层层追踪,专案组很快锁定了远在异地的犯罪嫌疑人阿成。3 名民警赶赴异地实施抓捕。 在对其住所搜查时,办案民警发现大量 AI 换脸视频素材。有了这些破解人脸识别系统的关键证据,阿成还想狡辩。“我就是个美工,帮人做点图而已,怎么就违法了?”面对民警的审讯,阿成辩解自己只是“按上线要求干活”。 然而,网警很快找到了关键证据。面对证据,阿成终于交代了犯罪事实。他从美术专业毕业后,因嫌美工收入不高,改行了。后来,又开始在网上寻求兼职,他在接触到“人脸代过”的灰色产业,加入相关群组........ 此后,阿成负责完成 AI 换脸验证操作,而阿明(化名)、阿斌(化名)、阿华(化名)等 3 名上线则负责承接“人脸代过”需求、转交人员信息,并从中牟取非法利益。 “就像犯罪电影里的那样。”办案民警指出,犯罪嫌疑人通过 AI 软件骗过人脸验证系统的镜头,但镜头前的却不是本人。据警方介绍,在灰产链条中,犯罪团伙在受害人不知情的情况下,篡改企业法人信息,对企业进行非法控制。阿成落网后,武汉网警又将阿明、阿斌、阿华 3 人抓获。阿成等 4 人均被依法采取刑事强制措施,案件正进一步侦办中。 网警提示: 一、技术必须升级,安全不能“假面”。各大互联网平台要强化认证系统,采用活体检测、动态验证等防伪技术,杜绝一张静态照片或一段视频就能蒙混过关,筑牢安全第一道防线。 二、强化验证机制,守护账号安全。公司企业以及个人在使用互联网平台登录账号时,尽量开启并使用多重验证机制,例如将密码 + 短信验证码 + 人脸识别相结合,强化账号登录的安全性。 三、敬畏法律红线,法律底线不可逾越。掌握人工智能及相关技术的专业人员,切勿因一时贪欲走上违法犯罪的道路。利用 AI 技术从事违法犯罪活动,必将受到严惩。 四、注意个人隐私,保护个人信息。谨慎在公开的社交平台发布清晰的正脸照片、动态视频等,严格设置查看权限,防止个人信息被不法分子窃取和利用;时刻牢记凡是涉及个人信息被泄露或篡改以及涉及资金转账的,就必须提高警惕,主动核实。如遇可疑情况,立即报警处理。
马斯克开“AI救国猛药”:3年解决美38万亿国债危机
新智元报道 编辑:倾倾 KingHZ 【新智元导读】马斯克放出豪言:3年内,AI+机器人能解决美国债务!几乎在同一时间,华尔街却悄悄抛弃了英伟达,重新押注下一代算力架构。 当美国国债飙到38万亿美元、赤字像雪球一样越滚越大时,亿万富翁马斯克再发妙计,给出了一个既大胆又残酷答案—— 拯救美国财政,不用加税、不用减支,只要AI和机器人,3年内就能解决美国预算危机。 在他眼里,未来三年,AI带来的商品和服务产出将跑赢通胀;二十年内,人类不再因为钱而工作,而是因为爱好,甚至让货币本身失去意义。 马斯克与主持人Nikhil Kamath聊了近2个小时,谈到了就业、意识、家庭、金钱、AI,以及可能的未来。 没有脚本,没有表演,只有两人畅所欲言的头脑风暴。 马斯克的救国路 解决危机,唯有AI和机器人 如今,美国债务的规模已经到了一个荒谬的地步——38万亿美元,光是利息就比军费还高。 经济学家把这种局面归因于财政失衡,但马斯克换了一个清奇的角度。 在与Nikhil Kamath的访谈中,马斯克非常笃定地说:「唯一能解决美国债务危机的,就是AI和机器人。」 自动播放 在这段将近两小时的对话里,他关于债务的看法是最出人意料的。 不是加税,不是削支,也不是提高生产力这种空话,而是一个清楚的时间节点:三年。 三年之内,美国的商品和服务产出会超过通胀速度。 他说这句话的时候,语气笃定得不像是预测,更像是陈述事实。他在访谈里解释得很直白: 商品和服务的产出速度最终会超过货币供应。 在他看来,AI和机器人降低了劳动成本并提高生产速度,物价会下跌,通缩随之出现;而一旦进入通缩,债务的实际压力会自动变小。 也就是说,债务累积得越快,说明技术升级越慢。 这也是马斯克的核心观点:债务危机不用靠政治斗争,也不用财政工具,只要技术升级的速度够快,债务自然会减轻。 他几乎没有谈利率、财政赤字这些传统变量,而是不断强调「速度」「效率」和「系统升级」。 而他押注的「系统升级」,就是AI。 四家公司开始对接,未来轮廓清晰了 要理解马斯克为什么敢说「AI能解决美国债务」,必须回到那场访谈里的一句话: 他手里的几家公司,正在慢慢收敛成一套连在一起的技术体系。 他首先谈到Tesla。真实世界AI已经走得远,FSD的学习速度外界几乎感受不到,而Optimus则是其中最关键的一环。 他在访谈里,给出了一个非常关键的背景信息: SpaceX、Tesla和xAI之间正在出现越来越强的融合。 他描述的不是商业协同,而是几种技术开始在底层的「技术对接」。 特斯拉与xAI的关系日益紧密,双方合作可能涉及更多技术和资源共享 他提到了Tesla。强调他们已经把「真实世界AI」推进得很远,自动驾驶FSD正以大众难以感知的速度成长。 其中最重要的是Optimus机器人。在访谈里他的原话是:「我们希望Optimus明年夏天开始规模化生产。」 这是一个关键节点:Optimus将从实验室里的概念机器人,变成现实生活中的劳动力。 访谈里还有一个被忽视的细节,马斯克说: 如果未来需要由太阳能驱动的AI卫星,那Tesla、SpaceX、xAI都会自然融合。 SpaceX不是一个造火箭的故事,而是「未来能源系统的一环」。 能源→算力→AI→机器人,这才是一根完整的链条。 而Starlink像是这套体系的神经。 在采访时,马斯克用一个比喻形容Starlink: 这些卫星之间用激光链路互相连接,形成一个「太空网状网络」。 当红海海缆被切断时,Starlink完全不受影响;当地面通信瘫痪时,Starlink仍能工作。 这些细节让Starlink的能力显得有些超现实,它几乎不依赖任何国家的地面系统。 如果AI未来成为了社会的基础设施,那么通信将「永不断联」。 到这时再看xAI,它的定位就不止是一个AI公司这么简单。他解释道: xAI的使命不是做聊天机器人,而是做一个「追求真实」、能够协调不同系统的智能层。 这几句话透露出,xAI是那个「让Tesla、SpaceX、Starlink能够互相理解、协同」的大脑。 四家公司合在一起,我们能看见一种结构:AI是大脑,机器人是手脚,通信是神经,能源是输入。 看上去像一台尚未完全启动的、以AI为核心的文明操作系统。 当技术越过国家边界 在访谈进入中段的时候,马斯克突然把话题从债务转向了更底层的东西——货币是什么?未来还需要它吗? 在他看来,为货币本质上只是「数据库里的数字」,只是为了协调人类劳动力而存在。 如果AI和机器人满足了所有需求,那么「分配劳动力」这种事就会消失,那货币也就不再有意义。 马斯克给出了更底层的判断:「长期看,货币作为一个概念会消失。真正的货币是能量。」 这里的「能量」不是抽象的物理学意义,而是重新定义价值的起点。 机器运转、AI训练、机器人生产力的释放,本质上都依赖能量。 能量越充足,可释放的产能越大;产能越大,物质越充裕。 而当物质可以无限获得时,货币自然会被淘汰。 在这里,马斯克提到Iain Banks的《文化》系列。 Iain Banks把未来社会想象成一种「想要什么就能得到什么」的状态。 在那样的世界里,交易、价格、预算这些概念会越来越模糊,真正重要的,是整个文明能够掌控多少能量。 这也是为什么马斯克多次强调太空能源、太阳能卫星、全球算力网络这些遥远宏大的工程。 但他的推演没有停在货币。他认为,当机器承担几乎所有实际生产,人类对「工作」的理解也会被彻底改写。 他在访谈里用了一个生动的比喻: 未来的工作更像种菜——你愿意去做,但你不做也可以。 在他的设想里,工作不再是谋生手段,而是一种兴趣、一种选择。 人类获得「全民高收入」,不是因为政府补贴,而是因为机器已经能在常态下提供丰富的物质。 此时的贫富差距不会来自薪资,而来自「你想做什么、你选择过怎样的生活」。 这会产生一种奇怪的冲突感:外界觉得这样的世界是「乌托邦」,但对马斯克来说,这是技术进步的必然结果。 回到更现实的问题,马斯克的价值观到底是什么? 如果马斯克买股票 用AI+机器人,提高生产力,从而解决美国的经济危机。 这种方案听起来似乎是马斯克要「拯救美国」—— 他旗下既有开发Grok模型的xAI,又有开发擎天柱机器人的特斯拉。 但被问到如果自己是一名股票投资者,会投哪家公司,马斯克坦言: 如果非选不可,我会投AI和机器人公司——哪怕跟我没关系的那种。 我认为谷歌未来会非常有价值。他们从AI的角度打下了巨大的基础,具备释放巨大价值的潜力。 英伟达就更不用说了,现在已经是显而易见的选择。 自动播放 他的投资理念是: 从某种意义上说,未来能创造几乎所有价值的,可能就是那些涉足AI、机器人,甚至是探索太空的公司。 AI和机器人所能产出的商品与服务,将远远超过其他所有行业。 马斯克在投资未来,正如Ricardo Antonio Celini在《唯一值得下注的选择》所言: 投资者所能拥有的最大优势,不是对过去的深刻理解,而是对未来更有勇气、更具想象力的远见 英伟达和谷歌很值投资—— 总所周知,Nvidia、谷歌母公司双双远超Q3财报预期。 而All In AI的最出名的投资人,非孙正义莫属。 近日,孙正义「含泪」抛售英伟达。 不过,这或许是件好事—— 虽然Nvidia长久以来称霸AI训练市场,但谷歌TPU以4倍性价比优势强势切入推理市场,已吸引Anthropic、Meta等巨头迁移。 孙正义是AI时代的塞翁? 近日,面对市场日益高涨的「AI泡沫」担忧,孙正义表现得极度不屑,直言那些担心泡沫的人「不够聪明,句号」。 他预言,AI未来将比人类聪明10,000到100,000倍,如果能在全球GDP中占据10%的份额,将在短时间内创造数十万亿美元的财富。 他语出惊人,坦言上个月卖掉价值58亿美元的Nvidia股票让他「痛哭流涕」(crying),坚称自己连一股都不想卖。 但他解释称,此举并非因为看衰英伟达或担心泡沫,而是为了腾出资金以完成对OpenAI及其他、AI项目的巨额投资承诺(包括承诺年底前注资超300亿美元)。 但时代正在变化,卖掉英伟达未必不是塞翁失马—— 过去,AI的重心是模型训练——这是英伟达的核心优势。 但如今,战场正在转向推理(Inference)——也就是AI模型在真实世界中落地应用的阶段。 这不仅仅是技术较量,更是经济转型:训练是一次性冲刺,推理却是永无止境的马拉松。 2024年,OpenAI推理成本估计高达23亿美元,远超GPT-4训练的1.5亿美元。 而推理,正是谷歌TPU异军突起的地方,正预示Nvidia垄断的终结。 在性能、功耗、成本、基准测试等多个维度,谷歌的TPU v6e全面领先于英伟达H100,尤其在「性价比」(cost-performance)这一核心指标上优势显著。 但这场TPU vs GPU的算力之战并不是纸上谈兵,它正在实实在在地改写商业模型、投资逻辑,甚至影响从业者的职业路径。 60亿美元抛售潮:华尔街撤离英伟达 在AI推理架构迅速崛起的当下,英伟达曾经「无法撼动」的统治地位,正遭遇华尔街最敏锐投资者的「现实校正」。 软银清仓英伟达,并非个案。 2025年第三季度,科技投资先锋Peter Thiel旗下对冲基金Thiel Macro LLC清仓了其持有的537,742股英伟达股票(截至9月底市值约1亿美元),转而将资金投入苹果与微软等更具防御性的标的,以规避可能到来的AI泡沫破裂。 而曾精准预判2008年金融危机的「空头之王」Michael Burry,也在2025年末建立了920万美元的英伟达看跌期权仓位,押注估值大幅回调。他担心,随着Meta、Oracle等超大规模客户数据中心产能过剩,库存GPU将快速贬值。 这些「聪明钱」并未放弃AI赛道,而是悄然撤出英伟达这只估值泡沫化的股票。当前,英伟达远期市盈率高达70倍,引发市场对估值合理性的严重质疑。 谷歌TPU的崛起、推理成本正蚕食AI公司的利润率,而AI训练的「荣耀时刻」已渐远。 尽管英伟达财报依旧强劲,但股价自10月高点已回落12%,机构资金持续流出,预示着整个科技板块的风险情绪上升。 这场超过60亿美元的大规模撤资背后,传递出一个冷酷现实: 当推理效率的数学天平倾向于TPU这样的专用芯片时,哪怕是AI帝国的「王者」,也挡不住资本理性逃离的潮水。 参考资料: https://www.bloomberg.com/news/articles/2025-12-01/softbank-s-son-cried-about-nvidia-stake-sale-to-fund-ai-bets https://www.businessinsider.com/elon-musk-ai-fix-america-debt-crisis-inflation-2025-12 https://www.youtube.com/watch?v=Rni7Fz7208c https://www.ainewshub.org/post/nvidia-vs-google-tpu-2025-cost-comparison
行业首个!商汤正式开源原生多模态架构NEO,训练仅需1/10数据量
编译 | 王欣逸 编辑 | 程茜 智东西12月2日消息,昨天,商汤科技正式发布并开源了全新多模态模型架构NEO,该架构由商汤科技和新加坡南洋理工大学AI技术实验室S-Lab合作研发,是行业首个可用的、实现深层次融合的原生多模态架构,基于NEO架构的NEO模型仅用3.9亿训练数据,就达到了模块化架构下顶级VLM(视觉-语言模型)模型的性能,数据量仅需其他同等性能模型的1/10。 从基准测试来看,NEO模型在多模态能力综合评估、跨学科和复杂推理等多项指标中碾压上海AI Lab推出的Mono-InternVL-1.5、清华大学、上海AI Lab联合商汤推出的HoVLE等原生VLM模型,还在多项视觉理解任务中追平通义千问的视觉语言模型Qwen2-VL、上海AI Lab联合商汤推出的InternVL3等基于模块化架构的顶级VLM模型。 当前,业内主流的多模态模型大多遵循“视觉编码器+投影器+语言模型”的模块化范式,本质上仍以语言为中心,图像与语言的融合仅停留在数据层面,视觉编码和语言解码分离,模型学习效率低下,在复杂多模态场景下处理任务受限。 为此,商汤科技抛弃了传统的模块化结构,推出从零设计的NEO原生架构。NEO架构在注意力机制、位置编码和语义映射进行了底层创新,构建一个统一的原生基元,让模型具备统一处理视觉与语言的能力。 NEO架构相关论文已发布在arXiv上,题为《从像素到文字——迈向大规模的原生视觉语言原始基元(From Pixels to Words — Towards Native Vision-Language Primitives at Scale)》,商汤科技联合创始人、执行董事及AI基础设施和大模型首席科学家林达华博士,南洋理工大学S-Lab负责人、副教授刘子纬等均在该论文的作者行列。 开源地址:https://github.com/EvolvingLMMs-Lab/NEO 论文地址:https://arxiv.org/abs/2510.14979 一、同参数全面领先原生VLM,数据仅为同等性能模型的1/10,复杂文本理解存在局限 基于NEO架构,研究人员推出了两个参数的VLM模型:NEO-2.2B和NEO-9B,这两个模型利用Qwen3-1.7B和Qwen3-8B两个基础语言模型作为基础语言模型,添加了原生视觉组件。 在基准测试中,研究人员把NEO-2.2B、NEO-9B和同级别VLM模型进行对比,包括模块化架构的VLM模型InternVL3、Qwen2.5-VL等,以及原生VLM模型Mono-InternVL-1.5、HoVLE等。为了进行公平、可控的科学对比,研究人员专门构建了一个模块化VLM基线模型Encoder-Based作为对照。 从通用视觉语言的理解能力来看,与模块化VLM相比,NEO在2B和8B参数规模下表现都不错,NEO-2.2B和NEO-9B在多模态能力综合评估、跨学科和复杂推理等多个关键指标优于模块化VLM Encoder-Based;在同参数规模下,NEO几乎全面领先其他原生VLM。 值得一提的是,NEO仅使用约3.9亿训练数据,而InternVL3等模块化架构的顶级VLM模型至少使用了60亿训练数据,是NEO所需数据的15倍。 视觉任务测试中,在图表理解和文档结构理解任务上,NEO-2.2B和NEO-9B都表现出接近顶级模块化模型水平。 不过,NEO的密集文本识别和理解能力仍存在不足,几乎落后于所有模块化模型,在原生模型的对比中也不占优。NEO-9B在文档问答和图像中的文本问答能力的得分略低于NEO-2.2B。 研究人员指出,密集文本识别和理解能力不足是由于训练数据中此类高质量、知识密集型样本的不足,而NEO-9B的得分低于NEO-2.2B则是由于当前训练数据集的覆盖范围和知识密度有限。 此外,NEO在边缘部署方面具有优势,特别是在0.6B-8B的参数区间内,便于计算资源有限或实时性要求严格的场景应用。 二、原生图块嵌入,双向注意力并存,具备复杂场景扩展能力 NEO架构通过在注意力机制、位置编码和语义映射三个关键维度的底层创新,让模型天生具备了统一处理视觉与语言的能力: 1、原生图块嵌入(Native Patch Embedding): 这一方法摒弃了离散的图像tokenizer,通过独创的图块嵌入层(Patch Embedding Layer ,PEL)自底向上构建从像素到词元的连续映射。 2、原生三维旋转位置编码(Native-RoPE):NEO架构解耦了三维时空频率分配,为三个维度设定了不同的旋转基频率。视觉维度采用高频频率,便于模型理解空间布局和细粒度对齐;文本维度采用低频频率,兼容了预训练语言模型的旋转位置编码(RoPE)设置。由此,训练后的模型具备向视频处理、跨帧建模等复杂场景扩展的潜力。 3、原生多头注意力(Native Multi-Hea´d Attention):针对不同模态特点,NEO在统一框架下实现了文本token的自回归注意力和视觉token的双向注意力并存。基于此,模型可以无视线性化顺序,直接根据原生三维旋转位置编码(Native-RoPE)的二维坐标来学习任意两个空间区域的语义和几何关系,以支撑复杂的图文混合理解与推理。 三、三阶段训练,平稳过渡视觉能力与复杂文本指令 NEO模型的训练分为三个阶段逐步推进:预训练、中期训练和监督微调。 在预训练阶段,训练的主要工作是学习基础视觉概念和上下文关系,并在预训练语言模型的指导下,初步建立图像与文本之间的对齐。NEO架构采用了Pre-Buffer(NEO中新增的视觉层)和Post-LLM(NEO中的语言大脑)分离式预训练,这一阶段Post-LLM被冻结,Pre-Buffer需要从头开始学习视觉感知能力,这保护了语言模型不被低质量的图像-文本对破坏,实现跨模态学习。这一阶段使用了约3.45亿的网络和合成的图像-文本对的数据。 中期训练阶段的核心目标是强化视觉与语言能力的对齐,提升模型对高分辨率图像、复杂场景、小物体和OCR文本的感知能力。这一阶段的训练数据来自InternVL-1.5的预训练语料库,包含4000万样本数据,整个架构使用相同的损失函数进行更新,以巩固视觉-语言对齐。 在监督微调阶段,NEO能够遵循复杂指令、进行多轮对话和执行多样化任务,更适用于实际应用。研究人员使用约400万高质量、多来源的指令数据,涵盖视觉问答、多模态对话、数学推理、知识问答等多种任务。 阶段式训练不仅防止了视觉训练破坏已有的语言能力,确保稳定优化,还能实现模型能力从基础的视觉概念到复杂指令的平滑过渡。 结语:正探索NEO规模化和突破数据瓶颈,拓展多模态应用边界 NEO系列模型实现了模型数据训练的高效性,其性能在同等参数规模原生VLM模型中处于领先地位。在图表和文档结构化理解上,NEO模型具有明显优势和竞争力。受制于训练数据和计算资源,NEO模型仍表现出了媲美顶尖模块化VLM的实力。 NEO模型还存在密集文本识别和理解能力的不足、依赖外部知识的短板。不过,研究人员指出这并非是架构的缺陷,而是训练数据集的覆盖范围、知识密集型样本、高质量数据的不足。 研究人员称,未来他们将会探索更大规模的NEO模型,解决知识和文本理解短板,开发稀疏架构,探索视频、具身智能等新应用场景。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。