行业分类:
加载中...
头条分类:
加载中...
Xiaomi HAD增强版正式推送:三大能力全面提升
快科技11月25日消息,小米汽车副总裁李肖爽宣布,Xiaomi HAD增强版今天下午开始推送。 Xiaomi HAD增强版在广州车展发布会发布,是小米端到端辅助驾驶又一重要突破。 此次升级首次引入强化学习+世界模型的大模型训练方法,将带来三大行车能力的全面提升:纵向加减速更丝滑、横向变道更果断、路口选择更精准。 小米方面表示,无论是城市拥堵路段、复杂路口,还是高速公路,系统都能展现出更接近人类驾驶员的判断与操作水准,为用户驾乘带来切实的安心感。 首先,纵向控制的加减速更符合预期。行车过程中旁车突然加塞,这几乎是我们每天开车都会遇到的场景,即使人开也容易出现大力刹车的情况。经过强化学习训练后,大模型能更精准地预测加塞,系统不会过度反应,减速更平稳,跟车的舒适感和安心感大幅提升。 横向控制变道动作更精准果断。例如需要变换车道的场景,系统的表现更加成熟。无论是超车时的并线决策,还是遇到前方障碍物的绕行选择,系统能够精准判断安全时机,顺利完成方向控制。 路径选择决策更合理,少走错路。在复杂路口场景中,Xiaomi HAD增强版展现出了更深层的理解能力,能够提前读得懂导航,减少走错路、选错道。
波音载人航天计划遇挫,星际客机2026年Starliner-1任务降级为纯货运
IT之家 11 月 25 日消息,科技媒体 Ars Technica 今天(11 月 25 日)发布博文,报道称美国国家航空航天局(NASA)正式确认,波音“星际客机”(Starliner)飞船下次任务目标不早于 2026 年 4 月发射,将仅用于货物运输。 IT之家援引博文介绍,这次不载人任务名为 Starliner-1,设定不早于 2026 年 4 月发射。为达成这一目标,双方必须完成一系列严格的测试、认证以及任务准备工作。 波音“星际客机”飞船于 2024 年 4 月 16 日星期二在佛罗里达州卡纳维拉尔角太空部队基地 41 号航天发射场的垂直集成设施内进行吊装。图源:NASA / Kim Shiflett 这一决定是在“星际客机” 2024 年 6 月的首次载人飞行测试(CFT)中遭遇多次技术故障后做出的。当时,飞船的推进器出现问题,最终迫使 NASA 命令飞船于 2024 年 9 月无载人返回,而两名试飞宇航员则搭乘 SpaceX 的龙飞船返回地球。 NASA 商业航天项目经理史蒂夫・斯蒂奇(Steve Stich)在一份声明中表示:“NASA 与波音正持续严格测试‘星际客机’的推进系统,为明年可能进行的两次飞行做准备。”这一系列举措旨在确保飞船系统的安全性和可靠性,为后续的载人飞行扫清障碍。 为了配合任务调整,NASA 已与波音达成协议,修改了双方在 2014 年签订的商业航天合同。原合同要求波音在飞船认证后,执行六次前往国际空间站的载人飞行任务。 此次调整不仅改变了 Starliner-1 的任务性质,还直接影响了波音的长期合同。NASA 与波音同意,将原合同规定的六次强制性载人轮换任务削减至四次,另外两次则转为“可选任务”。 由于 Starliner-1 变更为货运飞行,这意味着在新的合同框架下,波音未来可能仅有三次机会使用“星际客机”为 NASA 运送宇航员往返国际空间站。相比之下,作为商业载人计划的另一家承包商,SpaceX 自 2020 年以来已成功执行了 12 次 NASA 载人任务。 截至目前,SpaceX 最新一次任务“Crew-11”已于今年 8 月发射,而下一次任务“Crew-12”计划于明年 2 月 15 日进行。 波音公司的 CST-100“星际客机”飞船从商业载人与货物处理设施(C3PF)推出,为“星际客机”载人飞行测试活动做准备。图中从左至右依次为:加拿大航天局(CSA)宇航员约书亚・库特里克、美国宇航局(NASA)宇航员苏尼塔・“苏尼”・威廉姆斯、迈克・芬克、巴里・“布奇”・威尔莫尔、斯科特・廷格尔以及日本宇宙航空研究开发机构(JAXA)宇航员结城公弥。图源:波音公司 随着 Starliner-1 任务性质的改变,原定的宇航员团队也面临不确定性。原指令长斯科特・廷格尔(Scott Tingle)本月已被任命为 NASA 宇航员办公室新任主管。 原飞行员迈克・芬克(Mike Fincke)和日本宇航员油井龟美也(Kimiya Yui)则已被调派至正在执行任务的 SpaceX Crew-11 团队。另一位原定成员、加拿大宇航员约书亚・库特里克(Joshua Kutryk)的后续安排尚待公布。
现实版“瓦力”上岗:德国月球车成功模拟寻水,助力未来登月
IT之家 11 月 25 日消息,科技媒体 Space 今天(11 月 25 日)发布博文,报道称德国航天中心(DLR)最近在科隆的“月球模拟设施”(Luna Analog Facility)中,成功进行了一场水冰搜寻演练,为未来的“阿尔忒弥斯”(Artemis)载人登月计划提供水冰探测支持。 IT之家援引博文介绍,本次水冰搜寻演练共有两台月球车参与,其中,外形酷似电影角色“瓦力”的“轻型漫游车单元 1 号”(LRU1),负责绘制模拟月球表面的地图。 它头部的全景相机不仅能捕捉可见光图像,还能探测人眼无法识别的光谱波段,从而有效搜寻特定矿物或水冰。同时,LRU1 还拖挂了一台探地雷达,用于扫描并获取月表下方的地质结构图像。 在 LRU1 完成初步勘测后,“轻型漫游车单元 2 号”(LRU2)随即跟进。它根据 LRU1 提供的地图前往指定地点,然后伸出机械臂,使用激光对有潜力的岩石样本进行光谱学分析。 以上图源:德国航天中心 这种分析通过绘制光线模式来识别物质成分。由于此前的研究已证实月球岩石的火山玻璃晶体或矿物颗粒中含有水分,因此用激光直接分析岩石,成为一种极具前景的找水方法。 DLR 的行星科学家妮可・施密茨(Nicole Schmitz)表示,在月球的严酷环境中作业,机动性至关重要,这也是采用双车协作方案的原因。她强调,“通过结合多种探测方法,为我们了解月表及其下方情况提供了优势。” 此次测试作为“极地探索者”(Polar Explorer)项目的一部分,初步结果令人鼓舞:月球车成功找到了预设的水冰。科学家们目前正在详细分析数据,为下一轮演练做准备。
自己买的车还得掏钱“买功能”,纽约州拟议法案限制车载订阅服务
IT之家 11 月 25 日消息,订阅服务已悄悄渗透进当代汽车,给消费者带来了不少困扰。许多曾作为标配随车附赠的功能,到现在却需要用户自掏腰包每月付费才能使用。 据外媒 motor1 今日报道,美国纽约州正在推动一项新法案,试图限制这种做法。纽约州议会法案 A1095 规定,汽车制造商不得对任何已安装在车辆上的硬件功能提供订阅服务。 这项法案适用于这一情境:有关功能利用的是消费者在购买或租赁时已安装在车辆上的组件和硬件;并且在激活后,无需经销商、制造商或任何第三方提供持续的支持或费用即可正常使用。 简而言之,如果汽车配备了不需要持续支持的硬件功能,制造商便不能将其设置为付费功能。法案还明确提出,其不适用于导航系统更新、娱乐信息系统、卫星广播、车载 Wi-Fi 以及远程信息服务等功能。 据IT之家了解,法案同时也对一些情形予以豁免,包括依赖软件的驾驶辅助系统或自动驾驶功能,或依赖蜂窝数据或其他数据网络来维持运行的车联网服务。 这也就意味着,各家车企力推的智能辅助驾驶系统将不受此限制。不仅如此,这一条款可能为汽车制造商提供了绕过法案的机会。 随着越来越多的汽车功能被软件控制,并且车辆功能逐渐依赖于数据网络,制造商便能更轻松地将这些功能设为付费内容。 法案已经通过州议会两院审议,目前正等待州长签署,旨在防止车企将安全功能当作奢侈品一样进行订阅收费。报道同时也认为,制造商“仍会找到办法”绕过这些规定,继续对原本包含的功能收费。
1米3宇树G1完美上篮!港科大解锁全球首个真实篮球机器人Demo
henry 发自 凹非寺 量子位 | 公众号 QbitAI 1米3的机器人小土豆,三步上篮也可以如此丝滑。 别误会,这台宇树G1暂时还不准备参加NBA选秀,但它刚解锁的 “现实世界打篮球” 技能,离上“村BA”首发应该不远了。 自动播放 据悉,这是全球首个能在真实场景中完成篮球动作的机器人demo,来自香港科技大学的研究团队。 虽然团队还没公开完整的技术细节,但结合他们此前让机器人“打篮球”的工作,这次很可能是在之前研究的基础上,进一步改良而来。 接下来,让我们一窥究竟。 SkillMimic-v2 首先是被收录于SIGGRAPH 2025的SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations。 SkillMimic-V2旨在解决交互演示强化学习(RLID)中演示轨迹稀疏、含噪且覆盖不足的难题。 其通过引入拼接轨迹图(STG)与状态转移场(STF)、自适应轨迹采样(ATS)等技术,成功地在低质量数据条件下,训练出了兼具鲁棒恢复能力与技能迁移能力的复杂交互策略 。 当前,通过动作捕捉等方式收集的数据往往存在以下缺陷: 稀疏性 (Sparse):演示数据仅覆盖了有限的技能变体,缺乏技能之间的过渡轨迹。 不连贯性 (Disconnected):不同的技能片段是独立的,缺乏自然的连接。 噪声 (Noisy):数据中包含物理上不可行的状态或误差(例如手与物体的穿模、接触位置偏差),这在精细操作任务中会导致严重的训练失败。 这些有缺陷的数据无法捕捉到技能变体和转换的完整频谱。 不过,相比直接去收集更好的数据,研究认为尽管演示数据是稀疏和嘈杂的,但存在无限的物理可行轨迹 。 这些潜在的轨迹天然地能够桥接不同的技能,或者从演示状态的邻域中涌现出来。 这就形成了一个连续的、可能的技能变体和转换空间,从而可以利用这些不完美的演示数据,训练出平滑、鲁棒的策略。 基于以上认识,研究提出三个关键步骤发现并学习这些潜在轨迹: 拼接轨迹图 (Stitched Trajectory Graph, STG):为了解决技能间的连接问题(如从运球切换到投篮),算法在不同演示轨迹之间寻找相似状态。如果在两个不同技能的轨迹中发现相似状态,就建立一条连接,并用掩码标记中间的过渡帧。这构建了一个宏观的图结构,允许策略学习未在原始数据中出现的技能转换。 状态转移场 (State Transition Field, STF):训练时不只从参考轨迹的特定点开始,而是从其邻域内随机采样状态初始化。对于邻域内的任意采样状态,计算其与参考轨迹中所有状态的相似度,找到最佳匹配目标。如果起点与目标点距离较远,算法会插入N个掩码状态(Masked States)。这些状态不计算奖励,仅作为时间缓冲,迫使RL策略学习如何从偏离状态“归位”到参考轨迹,从而形成一个具有恢复能力的“场” 。 自适应轨迹采样 (Adaptive Trajectory Sampling, ATS):根据当前策略在某段轨迹上的表现(奖励值)动态调整采样概率。奖励越低(越难学)的片段,被采样的概率越高。这解决了长序列中因局部失败导致整个链条断裂的问题。 由此,技能转换和泛化能力能够远超最初不包含任何技能转换或错误恢复的稀疏演示,实现更高效地技能学习与泛化性。 比如,在仿真环境(Isaac Gym)中,机器人可以在受到干扰时,仍可以完成上篮动作。 还能实现运球-投篮间的技能转换。 自动播放 实验表明,相比此前的SOTA (SkillMimic)方法,SkillMimic-V2在困难技能(如 Layup)上的成功率从0提升到了91.5%。技能转换成功率 (TSR) 更是从2.1%飙升至94.9%。 SkillMimic 接下来是SkillMimic-V2的前作——SkillMimic: Learning Basketball Interaction Skills from Demonstrations,这篇论文入选了CVPR 2025 Highlight。 SkillMimic旨在解决物理模拟人-物交互(HOI)中传统方法依赖繁琐手工奖励设计且难以在统一框架下掌握多样化技能的难题。 其通过引入统一HOI模仿奖励与接触图(Contact Graph)、分层技能复用等技术,成功地在单一奖励配置下,训练出了兼具精准接触控制与长程任务组合能力的通用交互策略。 研究pipeline包含三个部分: 首先,采集真实篮球运动技能,构建一个庞大的人机交互(HOI)运动数据集。 其次,训练一个技能策略,通过模仿相应的HOI数据来学习交互技能,设计了一个统一的HOI模仿奖励机制,用于模仿各种不同的HOI状态转换。 最后,是训练一个高级控制器(HLC),用于复用已学习的技能来处理复杂任务,同时使用极其简单的任务奖励。 其中,SkillMimic方法的关键在于: 统一的HOI模仿奖励(Unified HOI Imitation Reward):放弃针对每种技能单独设计奖励,而是设计一套通用的奖励配置,通过模仿HOI数据集来学习所有技能 。 分层学习架构(Hierarchical Solution):低层:交互技能策略(IS Policy):通过SkillMimic框架学习各种基础交互技能(如运球、上篮)。高层:高级控制器(HLC):训练一个高级策略来复用和组合已习得的IS策略,以完成长程复杂任务(如连续得分)。 数据驱动:构建了两个数据集BallPlay-V(基于视频估算)和BallPlay-M(基于光学动捕,精度更高),包含约35分钟的多样化篮球交互数据 。 实验表明,SkillMimic能够使用同一套配置学会多种风格的篮球技能(运球、上篮、投篮等),成功率显著高于DeepMimic和AMP。 在演示中,我们可以看到,仿真环境的机器人能够实现绕圈运球等高级技能。 自动播放 PhysHOI 如果追溯SkillMimic作者的工作,就会发现早在2023年,论文PhysHOI: Physics-Based Imitation of Dynamic Human-Object Interaction就试图让仿真中的机器人能够根据演示学习篮球技能。 为实现这一点,PhysHOI在当时提出了一种基于物理仿真的动态人-物交互(HOI)模仿学习框架。 简单来说,给定参考的HOI数据,将当前的模拟HOI状态与参考HOI状态一起输入策略模型。 策略输出动作,并通过物理模拟器生成下一步的模拟HOI状态,然后将运动学奖励与接触-抓取(CG)奖励加权结合,并优化策略以最大化期望回报。 重复上述过程直至收敛,即可复现参考数据中的HOI技能。 除此之外,为防止运动学模仿奖励陷入最优解,研究还引入了接触图(Contact Graph)—— 给定一个HOI帧,接触图节点包含所有身体部位和物体。每条边都是一个二元接触标签,表示接触与否。为了简化计算,还可以将多个身体部位聚合到一个节点中,形成聚合接触图。 同时,为了弥补HOI场景的不足,研究还引入了全身篮球技巧的BallPlay数据集。 在实验中,PhysHOI在不同大小的篮球操作上表现出了鲁棒性。 自动播放 One more thing 值得一提的是,在PhysHOI、SkillMimic 、SkillMimic-v2三篇工作中,王荫槐都担任了核心角色,网友调侃他是“篮球科研第一人”。 王荫槐是香港科技大学的博士二年级学生,导师为谭平教授。 在此之前,他硕士就读于北京大学,本科毕业于西安电子科技大学,并于IDEA Research、宇树科技以及上海人工智能实验室等机构进行实习。 从2023年在仿真环境的小试牛刀,到这次直接让机器人在真实环境中打球,得益于机器人本体的发展,这速度真是很快了! 参考链接 [1]https://x.com/NliGjvJbycSeD6t/status/1991536374097559785 [2]https://wyhuai.github.io/info/ [3]https://ingrid789.github.io/SkillMimicV2/ [4]https://wyhuai.github.io/physhoi-page/[5]https://ingrid789.github.io/SkillMimic/
惠普宣布裁员6000人 将更多使用AI节省成本
惠普 凤凰网科技讯 北京时间11月26日,据彭博社报道,惠普公司周二宣布,将通过采用更多AI工具的方式在2028财年前裁员4000人至6000人。 惠普预计,到2028财年结束时,公司可通过裁员每年总体节省10亿美元。惠普CEO恩里克·洛雷斯(Enrique Lores)在接受采访时表示,节省的资金将来自惠普在产品开发、客户支持、销售和制造等领域应用AI工具。他表示:“这是我们必须采取的措施,以确保公司保持竞争力。” 惠普周二在声明中表示,裁员将产生约6.5亿美元的重组费用,其中约2.5亿美元计入在2025年11月1日开始的2026财年。截至2024年10月,公司员工总数约为5.8万人。 三年前,惠普曾宣布另一项成本削减计划,同样计划削减4000个至6000个岗位。当时,惠普员工总量约为6.1万人。惠普表示,该计划让公司总体节省了22亿美元。 对于本财年,惠普预计调整后的每股收益为2.90美元至3.20美元,低于分析师平均预估的3.32美元。对于截至明年1月的财季,惠普预计调整后每股收益为0.73美元至0.81美元,市场普遍预期为0.78美元。 惠普股价周二在纽约股市常规交易时段报收于24.32美元后,盘后下跌约4%。在财报发布前,该股今年已累计下跌25%。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
谷歌芯片威胁引发担忧 英伟达市值蒸发8000亿、带跌一票公司
英伟达 凤凰网科技讯 北京时间11月26日,据《金融时报》报道,由于市场担心谷歌在AI领域正占据上风,一直被投资者看好的英伟达股价周二遭遇下跌,市值缩水1150亿美元(约合8147亿元人民币)。 英伟达周二在早盘交易中一度下跌超7%,最终收跌2.6%。此次下跌还波及到了多家与英伟达相关的企业。 英伟达重要合作伙伴、服务器制造商Super Micro Computer股价下跌2.5%。甲骨文则下跌1.6%,该公司已承诺斥资数十亿美元采购英伟达高性能系统。 英伟达持股6%的数据中心运营商CoreWeave股价下跌3.1%,其AI云服务竞争对手Nebius也下跌3.3%。 自从不到一个月前突破5万亿美元市值峰值以来,英伟达市值已缩水逾7000亿美元。其在AI芯片领域的主要竞争对手AMD周二下跌4.1%。 英伟达股价从高位滑落 相比之下,谷歌母公司Alphabet股价周二上涨1.6%,创下历史新高,距离4万亿美元市值里程碑更近了一步。 投资者将此次下跌归因于市场对谷歌自主研发的AI专用芯片张量处理单元(TPU)的追捧。谷歌上周发布了其最新大语言模型Gemini 3,该模型被认为已超越OpenAI的ChatGPT。值得注意的是,谷歌模型训练采用TPU芯片,而非支撑OpenAI模型的英伟达芯片。 琼斯交易公司的迈克·奥罗克(Mike O’Rourke)指出,Gemini 3的发布“可能被证明是比DeepSeek冲击更微妙、但更重要的事件”。他指的是,DeepSeek今年1月发布的大模型一鸣惊人,曾引发英伟达等美国科技股大幅抛售。“市场正在形成共识:谷歌已成为当之无愧的AI领导者。”他表示。 野村证券策略师查理·麦克埃利戈特(Charlie McElligott)同样将Gemini 3的影响比作DeepSeek冲击。他在致客户报告中称,Alphabet的最新模型已“重排AI格局棋盘”,将市场推向“新的DeepSeek时刻”。 科技网站The Information在周一晚间报道称,谷歌正向Meta等潜在客户推介在他们的数据中心使用TPU,替代英伟达芯片的方案。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
一本新书的猛料,让ASML陷入国际舆论漩涡,多次下场“对线”
芯片,已愈发成为地缘政治中最紧绷的那根弦。全球半导体光刻机领域的霸主、荷兰ASML公司,正陷入一场国际舆论风暴。 这一切都源于一本名为《世界上最重要的机器》(De belangrijkste machine ter wereld)在11月正式出版。 该书由前彭博记者迪德里克·巴兹尔(Diederik Baazil)和卡甘·科克(Cagan Koc)撰写,其中最吸引眼球的内容是,有关这家公司如何深度卷入地缘政治,甚至曾提议“为美国监控中国客户”的内容。 当地时间11月20日,ASML官网发布公告明确表示,公司不认可该书内容,并提及,在书籍出版前已书面告知了对方“书中陈述极不准确且损害了公司声誉,将保留采取进一步行动的权利”。 ASML明确表示,“任何关于ASML向任何政府提议代表其行动的消息源引用,不仅存在事实错误,而且具有严重的误导性,任何声称ASML会有意且自愿地违反与荷兰、美国或其他政府的任何协议的说法也是如此。ASML遵守所有适用于其业务活动的法律法规,并在相关出口管制法规的范围内运作。” 但这无法阻止该书内容得到进一步广泛传播。书中的内容,以及在媒体报道和社交场域上引起的相关争议,持续发酵,甚至愈演愈烈。 这不禁令人好奇,这本掀起轩然大波的书籍究竟写了什么? 出版该书的普罗米修斯出版社官网信息显示,《世界上最重要的机器》是一部“关于一家荷兰企业的政治惊悚片”,正如该书的副标题那样耸动:“ASML如何卷入一场国际权力斗争”。 新书作者巴齐尔是彭博社驻荷兰海牙的记者,目前为《阿姆斯特丹绿报》和《金融日报》撰稿。另一位作者科奇,则在彭博社工作超过九年,于2022年至2025年4月担任彭博社荷兰分社的负责人。 拥有全球最知名,也是最擅长爆料内幕的新闻机构之一的彭博社背景,加上作者深耕荷兰在地新闻的等经历,在诸多权威履历背书之下,无怪乎其内容引发媒体纷纷转载。 值得一提的是,书中开篇的声明部分明确提及,该书“披露了大量原本可能被保密的信息”,作者采用的独家最新消息源(包括中美ASML谈判的参与者和知情者),且在交叉验证可靠后才引用。ASML未参与书籍撰写,亦未签署授权,作者独立引用了ASML的消息来源。 我们简要翻阅了书籍的部分章节,以及,追踪了一些媒体对该事件报道。 在不到300页的篇幅里,书中先是阐述了ASML的光刻技术对AI、自动驾驶、新一代武器等的重要性。在“技术决定了谁拥有动力”的视点下,作者认为,ASML决定着未来世界舞台的最高话语权。 随后,以“美国禁止ASML向中国出售其设备,这引发了一场技术战争”为起点,《世界上最重要的机器》围绕“中国和美国为该公司展开激烈争夺,荷兰和ASML则一步步走上火线”展开了故事。 而这其中,被媒体纷纷引用报道的一段故事是,2023年,荷美达成协议限制向中国销售DUV光刻机后,ASML数度打破协议规定向中国销售产品,这引发荷兰和美国高层不满。 书中称,在面对荷兰、美国政府的施压过程中,时任ASML首席执行官的皮特·温宁克(Peter Wennink)指出,应让公司产品继续进入中国,并向中国客户提供服务,同时,提议由ASML工程师帮助获取中国公司内部发展的情报,并且让ASML的工程师频繁出入中国晶圆厂维护机器,与中国工程师互动,得以掌握内部真实情况。 作者援引了一名美国高级政府官员的话,称“ASML可以成为华盛顿在中国的耳目”。显然,这是一项非同寻常的建议,作者形容其是“一家荷兰私营企业似乎愿意向美国政府提供敏感信息,以换取宽松的政策待遇。” 不过,时任美国总统国家安全事务助理杰克·沙利文(Jake Sullivan)拒绝了该提议,“他不愿给中国机会填补在芯片制造领域的差距”。 近期,荷兰安世半导体引发的新一轮地缘争端,更是为这本书及其内容的关注度加了一把猛火。ASML发言人已数次回应荷兰财经大报《金融日报》(Het Financieele Dagblad)等媒体,称公司从未提出过类似提议。而已经退休的温宁克则拒绝回应任何相关。(作者|胡珈萌,编辑|李程程)
32岁带领千问冲上全球前3,北大校友、阿里最年轻P10林俊旸亲手组建“机器人军团”,AI下一战是物理世界
他是阿里巴巴最年轻的P10级技术负责人,也是全球最强开源模型之一——通义千问(Qwen)的核心推动者。他就是年仅 32 岁的AI界领军人物——林俊旸。从北大课堂到达摩院实验室,从算法代码到开源生态,他用十年时间完成了从“让机器懂语言”到“让智能走进世界”的跃迁。 2025 年春,当全行业仍在争论“开源还是闭源”“Agent 还是模型”“具身智能(Embodied Intelligence)是否为下一战场”时,林俊旸已带领团队悄然开启新一轮进化——让智能从虚拟世界走向真实世界,从理解语言到学会行动。 与许多“算法天才”不同,他的成长路径是一条更不寻常但极具逻辑的路线:北大本科学计算机,研究生却选择语言学与应用语言学——不是逃离理工,而是试图回答一个更难的问题:“要让机器懂人类语言、理解人类意图,它首先要学会什么?”正是这段语言学训练,为他后来在大模型语义理解、多模态对齐,以及人机协同智能方向的突破,打下了别人少见的底层逻辑。 2019年毕业后,他没有选择学术,而是进入阿里达摩院智能计算实验室,加入仍处于初期的多模态预训练项目M6。一年后,通义千问立项,他成为核心架构成员;2022年正式升任技术负责人;2024年带队开源Qwen系列,在全球模型排行榜上与GPT、Claude正面交锋;2025年,他又亲自宣布组建机器人与具身智能团队,试图让模型走出屏幕,去“看世界、动手、行动”。 图片来源:DataFun 2023 从语言学到大模型:一次词汇测试中的AI启蒙 公开资料显示,他在本科阶段主修计算机科学,打下了扎实的算法与编程基础。但在硕士阶段,他选择进入北大外国语学院攻读语言学及应用语言学相关方向。虽然他本人从未在公开采访中解释过为何跨入语言学领域,但不少业内人士认为,这并不是“离开技术”,而是将语言视为理解智能的入口——机器如果要懂人,它首先要懂语言背后的结构、语义和意图。 从那时起,他的研究兴趣逐渐从“语言是什么”转向“语言如何被机器理解”。在硕士期间,他参与多维度文本分类、注意力机制建模等项目,并申请了国家发明专利(CN109582789B),这是他首次将语言理论转化为可计算框架的尝试。外界据此推测,他后来在大模型时代迅速成为核心研发力量,正是源于这种“语言逻辑 + 工程实现”并存的底层思维方式。这段兼具理论与工程的积累,使他在2019年硕士毕业时,果断放弃语言学学术道路,转而投身人工智能研发的前沿领域。 图片来源:林俊旸领英 入局多模态:达摩院的技术筑基与赛马突围 毕业后的林俊旸径直加入阿里巴巴达摩院,正式开启职业生涯,担任高级算法工程师。当时的人工智能领域正处于技术爆发的前夜。2020年,OpenAI发布GPT-3引发全球热议后,阿里巴巴迅速启动内部大模型研发的“赛马机制”,同步推进两条技术路线:主攻文本的AliceMind,以及侧重多模态融合的M6。凭借“语言学+技术”的复合背景,林俊旸被分配至周靖人领导的智能计算实验室,成为M6模型团队的核心开发者。 这支团队在成立初期规模极小,仅由几位资深工程师和实习生组成,却承担着国内少有的技术挑战——如何让模型同时理解文本、图像等多模态信息,并实现高效训练与落地。林俊旸主导的模型效率优化模块成为关键突破点。他带领小组攻克了大参数模型训练中的资源调度与收敛难题,为M6的快速迭代奠定了基础。 2021年,M6模型迎来三次重要跃迁:1月首发时达到百亿参数规模,5月跃升至万亿级,10月再度突破至十万亿参数,成为当时国内参数规模最大的多模态预训练模型。而支撑这一系列跃迁的核心架构优化,正出自林俊旸团队之手。 2022年,阿里启动AI资源整合,AliceMind团队在内部赛马中出局,M6技术路线被正式确立为集团通用大模型的核心方向。凭借在模型架构设计与工程落地中的突出表现,林俊旸在阿里实现了快速晋升,从核心开发者升任项目主管,主导研发了通用统一多模态预训练模型OFA(One-For-All,一体化多模态预训练框架)与中文预训练模型Chinese CLIP(中文视觉-文本匹配模型),进一步强化了阿里在多模态领域的技术壁垒。而这段早期经历让他切身领悟到“技术需与场景共生”的重要性,也为他后来主导通义千问系列的研发打下了坚实基础。 图片来源:林俊旸领英 掌舵通义:从旗舰模型到开源生态的战略跃迁 2022年底,阿里巴巴将达摩院的语言、视觉等AI团队整体并入阿里云,成立通义实验室。林俊旸被正式任命为通义千问系列大模型的技术负责人,全面负责核心模型研发与战略规划。他接手时面对的挑战颇具代表性:如何把实验室阶段的技术成果转化为真正可规模落地的商业产品,打破“技术先进却难以应用”的困局。 2023年4月,阿里云正式发布“通义千问”。其底层架构融合了林俊旸主导优化的多模态技术,这也是他在阿里多年来研究积累的成果。但他并未满足于此。两年后,在他的推动下,阿里推出Qwen3系列开源模型。旗舰版本Qwen3-Max拥有超万亿参数和36T预训练数据,在GPQA、LiveCodeBench等权威评测中超越GPT-5、Claude Opus 4,跻身全球前三。 林俊旸在社交平台上写道,团队为此花费近一年时间,攻克了三项核心难题:“让强化学习框架能稳定支撑长时序推理,平衡跨领域数据分布以避免模型偏科,并强化多语言能力以服务全球开发者。”如果说“开源”是通义千问在大模型竞争中撕开的关键突破口,那么截至2025年10月的一组数据,正印证了这步棋的深远影响——阿里已累计开源300余个通义系列模型,从小参数到超大模型全覆盖,囊括文本、图像、视频等多模态能力;下载量突破6亿次,衍生模型超过17万个,中国企业大模型选用率达17.7%,稳居市场首位。 图片来源:新浪科技 这些成果的背后,是林俊旸主导的“全尺寸覆盖策略”。他深知,大模型的意义不仅在于“做大”,更在于“用好”。针对机器人、手机等算力受限的终端场景,他带领团队在2025年10月推出Qwen3-VL系列,专门设计了4B和8B两个轻量化版本。令人意外的是,这些“小模型”的空间理解能力并不逊色于大模型,一经推出便成为具身智能公司争相采用的核心基座,解决了“终端场景用不起大模型”的长期痛点。 在林俊旸看来,开源并非单纯的代码共享,而是一种面向未来的生态策略。当同行仍在权衡“是否该闭源保密”时,通义千问已通过全尺寸模型布局,把技术的“种子”撒向机器人、移动端等不同场景。随着越来越多企业基于通义进行二次开发,“用通义、改通义”正在成为行业习惯。一条独特的生态护城河也在悄然形成——它不是靠技术垄断维系,而是通过让更多人受益,实现技术生态的自我循环与生长。 真正让外界认识林俊旸的,是2024年的通义千问(Qwen)。那一年,随着多版本模型相继开源、阿里内部AI团队的重组,以及GitHub风波引发的舆论关注,这位原本低调的技术负责人突然站到了聚光灯下。当Qwen项目代码因误标被GitHub“下架”引发外界质疑时,林俊旸亲自出面回应:“团队没有跑路,我们还在,只是组织账号被误标记。”这句话,比任何公关声明更能说明问题——冷静、克制、真实。 图片来源:X 如今,随着AI行业从“大模型竞速”进入“生态与Agent能力”竞争的新阶段,林俊旸依然站在变革的中心。他牵头整合行业生态资源,聚焦Agent的人机协同能力打磨,将多年沉淀的人文思维与技术经验融入其中,让Agent更贴合真实场景下人的需求。他的经历不仅是个人的成长史,也映照出新一代中国技术人的选择:在喧嚣的浪潮中,以长期专注和清晰目标,走出一条稳健、独立的道路。 跨界物理世界:具身智能的闭环布局与生态构建 2025年10月8日,阿里Qwen团队核心负责人林俊旸在社交媒体上发布了一条简短动态:“已在Qwen内部亲手组建机器人与具身智能小组。”没有隆重的发布会,也没有冗长的技术白皮书,这一句话,足以在科技圈引发震动。它意味着阿里AI战略正式转向——从深耕多年的虚拟智能,迈向以“行动智能”为核心的物理世界。 图片来源:华尔街见闻 这一步并非仓促决定。自2019年加入阿里巴巴达摩院以来,林俊旸一直站在公司AI研发的最前沿,主导了从语言模型训练框架到多模态系统优化的多个关键项目,是通义千问(Qwen)体系的重要推动者之一。他长期专注于模型架构、跨模态理解与推理能力等前沿方向,其多篇论文发表于自然语言处理顶级会议(ACL、EMNLP、COLING等),并在学术界获得广泛引用。其中,《Scaling Laws for Multimodal Models》在Google Scholar上的引用量已超过千次,成为多模态模型效率研究的重要参考文献。 正是这种从算法到底层应用的长期积累,让林俊旸在通义千问取得阶段性成果后,将目光从“让机器理解文字”转向“让机器理解世界”。在他看来,具身智能是语言模型走出屏幕、进入现实的必然方向。正如他在一次内部会议中所说:“当语言模型真正具备感知与行动能力时,智能的边界才算被重新定义。” 外界普遍认为,林俊旸此举标志着阿里在大模型竞争格局趋稳后的一次主动求变;但对他本人而言,这更像是科研路径的自然延伸——从语言理解到具身智能,从虚拟语义空间到真实世界的动作学习,他始终在追问同一个问题:AI的“智能”,究竟能走多远? 林俊旸清楚地看到,行业正处在从“工具”迈向“Agent”的关键节点。“多模态基础模型不再只是被动的回答系统,而正在成长为能调用工具、依托记忆、通过强化学习完成复杂推理的基础Agent。”他曾在内部总结道,“这样的智能,不该困在屏幕里,它必须走向物理世界——去动手,去行动。”也正是这种对技术趋势的敏锐判断,成为阿里叩开“行动智能”时代大门的底层逻辑。 林俊旸的布局,从一开始就带着“软硬协同、生态闭环”的清晰蓝图,每一步都踩在技术与产业的衔接点上。要让AI在物理世界“行动”,首先得解决“怎么想”的问题。林俊旸主导下的Qwen3系列,正在经历一场“具身化改造”,目标是成为机器人的“核心决策中枢”: •Qwen3-Max:化身“任务指挥官”。重点强化“复杂任务分解能力”,面对“拆快递—分类物品—摆放收纳”这类需要多步骤衔接的现实场景,它能像人类一样拆解目标、规划流程,确保机器人每一步操作都有明确指令,避免“卡壳”; •Qwen3-VL:升级“立体视觉中枢”。专攻3D空间感知与动态物体追踪技术——当机器人面对杂乱的桌面、移动的物体时,它能精准定位每一件物品的坐标,预判物体运动轨迹,就像给机器人装上了一双“能看懂空间的眼睛”,完美匹配“视觉大脑”的核心需求。 林俊旸的这套布局之所以能让阿里在短时间内跻身具身智能赛道的核心玩家,关键在于他抓住了行业最真实的痛点。在正式组建团队前,林俊旸带队走访了三十多家具身智能企业,一个意外的发现让他迅速确定了方向:几乎所有公司都在使用Qwen-VL模型做后训练。这意味着,阿里凭借Qwen系列积累的技术优势,已经在行业生态中占据了“入口”位置——当这些企业需要进一步提升具身化能力时,阿里自然成为首选合作伙伴。 更重要的是,林俊旸并没有停留在算法层面的突破,而是亲自推动阿里构建出独特的“具身智能生态闭环”。他主导将Qwen模型的能力延伸至阿里内部的真实业务场景——从淘宝的物流分拣、菜鸟的仓储配送,到制造业生产线上的自动协作机器人——这些场景每天都在持续生成来自物理世界的高价值数据。 按照林俊旸的规划,这些数据会被汇入阿里云,为Qwen3模型的训练与优化提供“养料”;经过更新的通义大脑再反向指挥机器人执行任务;而机器人完成任务后的反馈,又会重新进入模型训练体系,形成一个自我进化的“智能飞轮”。这套机制让阿里从具身智能的“探索者”迅速成长为“核心玩家”,也让林俊旸在公司内部的技术布局中确立了关键地位。从主导Qwen系列研发,到开辟“行动智能”的新方向,他始终坚持“技术先行、生态驱动”的理念,推动阿里完成了从虚拟智能到现实行动的跨越。对他来说,这不只是一次技术升级,更是一次认知转变——让模型真正“走进现实”,去理解、感知并改变物理世界。 Agent时代的“创新-约束”平衡挑战 当AI从“工具”进化为能自主决策的“Agent”,林俊旸深知,技术跑得越快,越需要伦理的“刹车系统”。这既是行业共性挑战,也是他带领通义千问迈向未来必须解答的命题——如何让具身智能在“行动自由”与“安全可控”之间找到平衡点。 他认为,“让机器变聪明”并不难,难的是“让它做正确的事”。为此,他主导团队建立了一套贯穿模型研发全流程的安全机制:在模型训练阶段引入人类偏好数据,确保行为决策不过界;在高风险领域(如医疗、工业)接入专家知识库,为机器人划定“禁区”;所有物理世界的操作都能被追溯,做到可解释、可问责。 而隐私同样是他关注的重点。“技术没有边界,但应用必须有底线”是他常挂在嘴边的一句话。林俊旸推动阿里在菜鸟、盒马等内部场景中采用“联邦学习+数据脱敏”方案,让模型在学习数据的同时不触碰个人或企业的隐私信息。所有新模型必须通过团队内部“AI伦理委员会”的一系列安全测试才能上线。林俊旸始终认为伦理并不是创新的障碍,而是智能走向成熟的前提。 对林俊旸而言,AI的未来不是做出更大的模型,而是让它更“可用”。做大的不是参数,而是可用性;赢下的不是竞速,而是生态。当智能真正能“看见、伸手、行动”时,现实世界将成为它最好的测试场。让机器能动手,去行动——这正是智能拥抱真实世界的第一步。
谷歌TPU引爆“新DeepSeek时刻”,华尔街开始抛弃英伟达?
财联社11月26日讯(编辑 赵昊)周二(11月25日)美股早盘,英伟达股价大幅走低,日内一度跌超7%报169.55美元,较上月录得的历史高位回落了逾20%。 英伟达的合作伙伴、服务器制造商超微电脑跌3.2%,承诺购买英伟达系统的甲骨文跌2%,数据中心运营商CoreWeave跌3.7%——英伟达持有该公司6%的股份。 分析认为,投资者将这一轮下跌,归因于市场对谷歌母公司Alphabet自研AI芯片——张量处理单元(TPU)的强烈兴趣。日内,谷歌A一度涨超3%,市值逼近4万亿美元关口。 上周,谷歌发布了最新的大语言模型Gemini 3,多位业内权威人士认为其已经“超越”了OpenAI的GPT模型。该模型是使用 TPU进行训练的,而不是英伟达芯片。 Jones Trading首席市场策略师Mike O'Rourke表示,Gemini 3的发布对英伟达来说可能会成为一个较隐秘的、却更具有颠覆性的“DeepSeek式冲击”。 今年1月,DeepSeek发布两款性能比肩GPT-4o的大模型,以超低成本实现了性能领先,这一度引起了市场对图形处理单元(GPU)需求的怀疑,导致英伟达1月27日当天暴跌16.97%。 野村证券策略师Charlie McElligott也将Gemini 3的影响比作 DeepSeek冲击。他在给客户的报告中写道,Alphabet的最新模型已经“重置了AI领域的棋盘格局”,并把市场带入了一个“新的DeepSeek时刻”。 前一天有消息称,谷歌正在向包括Meta在内的潜在客户推销 TPU,建议他们在自己的数据中心中使用谷歌的芯片,代替英伟达的产品。 Meta与OpenAI一样,都是英伟达的主要客户。Seaport分析师Jay Goldberg表示:“其实很多公司之前就已经在考虑采用TPU了,现在可能有更多的人在考虑这一选项。” 财联社先前报道提到,谷歌云内部高管透露,扩大TPU的市场采用率,有望帮助公司抢占英伟达年收入份额的10%。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。