行业分类:
加载中...
头条分类:
加载中...
中国宇树机器人春晚炸场引外国网民破防,美国制裁宇树机器人,美媒一句话让特朗普下不来台
除夕夜的央视春晚舞台,灯光聚焦处,一群特殊的“武者”静立如松。 鼓点骤起,二十多台宇树科技的人形机器人阵列排开,与河南塔沟武术学校的少年们同台而立。 下一秒,机械臂划出刚劲的弧线,马步、冲拳、腾跃,动作整齐划一,力道精准。 这还不是高潮。 节目中段,领头的机器人一个助跑,蹬墙借力,身体在空中完成两周半的翻转,随后稳稳落地,厘米不差。 紧接着是连续的花式翻桌跑酷,机器人在高低错落的障碍间穿梭跳跃,最快跑位速度达到每秒4米。 节目尾声,身高近1.8米的H2型号机器人以“剑宗大师”形象压轴,手持长剑完成一套张弛有度的剑法,最后牵起少年武者的手,共同抱拳行礼。 这场名为《武BOT》的表演,在2026年2月16日晚上8点,通过直播信号传遍了全球。 海外社交媒体瞬间被点燃。 YouTube上的直播切片在几小时内播放量突破30万,推特相关话题下挤满了各种语言的惊叹。 “来自未来的功夫”、“这确定不是CG特效? ”、“中国机器人已经进化到这个程度了? ”类似的评论刷满了屏幕。 一些科技博主开始逐帧分析机器人的动作细节:空翻高度超过3米,落地时躯干有极细微的起伏模拟呼吸收势,多机协同变阵时几乎看不到延迟。 更让业内震惊的是,宇树科技事后证实,这场包含高难度武术动作和复杂队形变换的表演,全程没有外部遥控,依靠的是机器人自带的3D激光雷达和AI融合定位算法自主完成。 也就是说,几十台机器人在舞台上自己“看”路,自己“想”怎么走位,自己调整动作。 大洋彼岸的反应,比网友的惊叹要复杂得多,也迅速得多。 就在这场全球瞩目的春晚表演进入最后彩排阶段时,当地时间2026年2月13日,美国国防部官网悄然更新了所谓的“1260H中国军事企业清单”。 这份清单新增了包括宇树科技、阿里巴巴、百度、比亚迪等在内的78家中国企业。 戏剧性的是,清单发布后不到一小时就被紧急撤回,官方未作任何解释。 次日,2月14日,五角大楼原封不动地重新发布了这份清单。 这一“闪现撤回”的操作,被外界解读为美国内部激烈博弈的缩影。 清单的制裁核心很明确:禁止美国联邦政府及其承包商采购这些企业的产品与服务;禁止美国投资者买卖或持有这些企业的证券;并通过“污名化”效应,迫使全球供应链企业减少与它们的合作。 美国国防部给出的理由,并非宇树科技直接生产军用装备,而是其作为国家级“专精特新小巨人”企业,接受了政府产业支持,且其机器人技术“具备军民两用潜力”。 五角大楼的报告中,将春晚机器人表演的每一个技术点,都对应到了潜在的军事应用上:集群控制技术可用于构建战场“蜂群”无人机编队;高动态运动能力和精准落点控制,能让机器人在崎岖地形执行侦察或物资运输;AI环境感知与实时避障,则适用于城市巷战等复杂环境。 报告特别指出,节目中机器人展示的“醉拳摔倒后自主起身”能力,背后是先进的模型预测控制算法,这能保障单兵机器人在炮火覆盖等极端条件下的稳定运行。 一边是春晚舞台上自信满满的科技汇演,另一边是紧随其后的紧急制裁清单。 这种时间上的紧密衔接,很难用巧合来解释。 它更像是一种基于技术焦虑的“条件反射”。 而真正刺痛美国神经的,或许还不是那场武术表演,而是摆在桌面上的、冷冰冰的全球产业数据。 这里有一组让很多人感到意外的数字:在刚刚过去的2025年,全球人形机器人出货量接近1.8万台,同比暴涨超过500%。 其中,中国厂商的出货量占比达到了惊人的约90%。 也就是说,全球每卖出10台人形机器人,有9台产自中国。 更具体的头部格局是:中国的宇树科技和智元机器人两家企业,各自的出货量都达到了约5000台,两家合计就拿下了全球接近60%的市场份额。 相比之下,国际厂商大多仍停留在试点测试阶段。 备受瞩目的特斯拉Optimus人形机器人,在2025年正式启动了量产,但同期的实际交付量,根据多家市场机构的观测,仅在150台左右。 这个三位数与五千台的对比,清晰地勾勒出当前赛道产业化落地的真实图景:中国公司不仅在技术上实现了突破,更在规模化量产和商业交付上,取得了显著的领先。 这种领先并非一日之功。 宇树科技成立于2016年,从浙大校园起步,最初以消费级四足机器狗打开市场。 其Go1、Go2系列产品凭借高性价比,迅速在全球市场占据超60%的份额,累计销量超过15万台。 正是通过在消费级市场积累的技术和资金,宇树得以向更高端、更复杂的人形机器人领域迭代。 #烟火赴新年#其核心策略是“全栈自研”:高扭矩关节电机、行星减速器、力控传感器、运动控制器,整机国产化率超过90%。 自研的M107电机,单关节最大扭矩达到360牛·米,功率密度对标国际顶尖水平。 这意味着,从最核心的“关节”开始,宇树就不依赖海外供应链。 这也正是面对美国制裁时,宇树被认为“卡不住”的底气所在。 它的主要市场在国内和欧洲、东南亚,美国市场营收占比不足5%,政府采购禁令的影响微乎其微。 美国的制裁,在某种意义上,成了中国机器人技术实力的一个“反向认证”。 它标志着美国对华科技打压进入了新阶段:从“实体清单”式的技术封锁,转向“军事清单”式的身份污名化与资本切断;从针对“已涉军”技术,转向遏制“可涉军”的民用前沿技术。 人形机器人,作为具身智能的终极形态之一,被普遍认为是继个人电脑、智能手机之后的下一代通用计算平台,是AI从虚拟世界走向物理世界的关键入口。 谁掌握了它的核心技术和量产能力,谁就可能在未来的制造业、服务业乃至更广泛的领域掌握话语权。 显然,美国不愿拱手相让。 在将宇树科技列入清单的同时,特朗普政府正在积极酝酿一项国家级的机器人战略。多方信息显示,一项名为“机器人行政令”的政策可能在2026年正式推出。 该行政令的核心框架被预测包括:为工厂部署人形机器人提供设备成本30%的税收抵免;设立数十亿美元的“物理AI研发基金”,重点攻克高扭矩电机、固态电池等核心部件;以及对来自中国等“享受政府补贴”的机器人产品加征25%至35%的关税,以保护本土市场。 其战略目标直指2030年:通过机器人自动化让美国制造业成本降低20%,本土工厂产能提升30%,并占据全球人形机器人市场份额的40%以上。 特斯拉的Optimus被寄予厚望,计划在2026年底启动年产100万台的生产线。 这就形成了一个清晰的竞争闭环。 中国通过企业在消费市场和研发上的快速迭代,在产品和成本上建立了优势,并通过春晚这样的顶级舞台展示了技术肌肉。 美国则试图通过国家力量和政策杠杆,扭转在产业化进度上的落后,并直接制裁最具威胁的竞争对手,试图延缓其发展速度。 制裁宇树,只是这场漫长竞赛中的一个战术动作。 回过头看春晚的《武BOT》节目,它的意义早已超越了一场单纯的文艺表演。从2025年11月启动筹备,到除夕夜直播,三个多月里,宇树团队拆解了无数技术模块:升级群控平台、优化定位算法、测试新型运动控制算法、与武术演员团队线下磨合、在实景场地反复联排。 他们要解决高速运动中的精准定位问题,防止机器人在空翻后“跑飞”;要确保几十台机器在复杂灯光和声场下,依然能保持毫秒级的协同误差;还要让机械动作体现出武术的“劲力”与“神韵”,而非僵硬的程序摆动。 最终呈现的,是一场零失误的直播。 这无异于一次在极端复杂环境下的高规格技术压力测试,并且通过了。 当机器人在舞台上流畅地打出一套醉拳,甚至故意设计出踉跄摔倒再自主起身的桥段时,它所展示的,不仅是平衡与控制算法,更是一种应对不确定性的“鲁棒性”。 这种能力,正是未来智能体融入真实世界所必需的。 无论是工厂里应对突发状况的巡检机器人,还是家庭中提供服务的陪伴机器人,乃至更多我们尚未想象到的场景,都需要这种坚实的底层技术支撑。 2026年2月,从杭州的春晚排练厅到华盛顿的五角大楼,一场关于机器人未来的隔空对话已经完成。 对话的载体,是二十多台翻腾跳跃的钢铁之躯,和一份写满企业名字的制裁清单。 对话的内容,无关表演是否精彩,而关乎下一个时代的产业主导权,将握在谁的手中。 全球的观众,在惊叹于科技之美的同时,也亲眼目睹了大国科技竞争进入深水区的一个标志性切面。 技术本身没有国籍,但技术的开发者和竞赛的跑道,却有清晰的来处与方向。 当机器的“拳风”掠过春晚的舞台,它所搅动的,远不止是除夕夜的欢声笑语。
开年,深圳首个百亿独角兽诞生
作者/杨继云 报道/投资界PEdaily 马年首个百亿具身独角兽诞生了。 投资界获悉,今日(2月23日),生产力型通用智能机器人公司智平方(AI² Robotics)宣布完成超10亿元B轮系列融资,投资方颇为豪华:中车资本、百度战投、沄柏资本、国泰海通、多家特斯拉生态链龙头企业及地方基金等。 至此,智平方在一年内累计完成12轮融资,估值超百亿人民币,也成为这一波深圳首个百亿具身智能独角兽。如此节奏背后,是投资人之间难得的共识:某种程度上,智平方是当前“最像特斯拉”的中国机器人创业公司,正如本轮融资罕见地集体出现了特斯拉生态伙伴的身影。 这番盛况,无疑是中国具身智能爆发最生动的写照。中国机器人正在走向历史更深处,诸神之战,悄然打响。 80后博士,缔造百亿估值 “最像特斯拉机器人” 智平方的故事,始于80后博士郭彦东。 早年他在北京邮电大学完成本科和硕士学业,2013年从美国普渡大学电子与计算机工程学院博士毕业,师从美国工程院院士Jan Allebach和Charles Bouman教授。后来,郭彦东入选国家级创新领军人才,同时也是香港科技大学(广州)的兼职教授。 智平方创始人兼CEO郭彦东 创业之前,郭彦东的职业履历亮眼——曾在微软西雅图总部担任研究员,回国后担任小鹏汽车和OPPO的首席科学家与研发高管,主导的各式智能系统在数十万台智能汽车、数亿台消费电子终端、机器人、微软MaaS投入使用。这样的经历,让他更倾向于“技术创新与产业落地的双向兼顾”,是行业稀缺的“AI+智能硬件”专家。 时间来到2023年初,郭彦东在深圳南山区创办了智平方,要做拥有“具身智能大脑”的新一代机器人。 过往多年的研发与管理实践让他意识到,通用人工智能的未来不在于单纯的算法突破,而在于让智能机器人真正走进真实场景,承担“人类不愿从事、不能从事”的工作。而具身智能的核心竞争,在于大模型的原创能力与持续迭代效率。 因此,智平方定位为AGI原生的通用智能机器人企业,与特斯拉相同,是行业稀缺的生产力型通用智能机器人研发、生产与服务提供商,聚焦生产力型通用智能机器人(非表演)这一颠覆性的智能终端品类。 当多数具身企业仍停留在实验室原型研发,要么偏重算法,要么主攻硬件落地时,郭彦东则带领团队跳出“单一维度突破”的误区,确立了“全栈自研、算法驱动硬件”的技术路线,自成立就坚持端到端大模型的技术范式——2023年时,全球创业团队仅有特斯拉机器人与智平方选择了这条鲜有人走的技术路线。这一幕,投资人看在眼里。 此后,在行业尚未形成共识前率先布局VLA架构(而非套用开源),智平方原创研发全球首个全域全身VLA大模型GOVLA,实现从桌面到开放环境、从单臂到全身协同、从简单执行到长程推理的跨越式突破,并不断迭代—— GOVLA 0.0(RoboMamba),在模型规模仅为谷歌同类模型1/20的情况下,性能提升超过80%,获得图灵奖得主Yann LeCun关注; 进一步推出的快慢系统深度融合的最强开源模型GOVLA 0.5(FiS-VLA),成为业内首个“异构输入+异步频率”双系统VLA模型,并开创性地提出“双系统感知协同训练策略”, 重新定义了机器人“又快又聪明”的可能性; 目前,智平方已研发出更为强大的 GOVLA 1.0 版本,夯实“全球基础模型龙头”地位。 这背后离不开长期高压投入。投资界获悉,智平方自成立即搭建千卡级算力集群,并构建自有训练加速体系——更高效的数据利用率,意味着更快的模型进化速度,也意味着更难被追赶的技术代差。 仅仅在2025年,团队有数十篇论文被顶级会议收录,仅NeurIPS就达6篇,在世界模型、多模态理解与VLA方向持续获得国际认可。摩根斯坦利也在同年的机器人产业深度报告中,将智平方列为具身基础模型的代表企业。 外界可能不知道,智平方创办至今吸引众多来自微软、谷歌、OPPO、小鹏、Momenta等行业头部企业,以及清华、北大、中科院、CMU、伯克利等顶尖学府的科学家与工程专家加入,目前拥有5位斯坦福全球前2%科学家加盟,堪称科学家密度最高的机器人创业团队之一。 凶猛融资背后 他们拿下超级订单 乘着具身智能的东风,智平方留给创投圈深刻印象。 2023年8月的天使轮融资中,SEE Fund、清智资本、国投创盈联手出资。2025年,智平方迎来融资爆发期,短短半年完成多轮数亿级融资——先是1月宣布完成数亿元Pre-A轮战略融资,由达晨财智与敦鸿资产联合领投,基石资本跟投;随后3月完成新一轮过亿元Pre A+轮融资,投资方包括敦鸿资产、云启资本和国投创盈等财务与产业基金等。 行至2025下半年,智平方先后完成由国中资本领投和普华资本领投两轮融资,达晨财智、基石资本、南山战新投等身影浮现;后来,公司完成由深创投领投的新一轮A系列融资,其中深创投押注超过亿元,老股东敦鸿资产、国投创盈持续加码,同时吸引了华熙生物和一家大型零售企业以产业资本身份加入。 而马年开年,B轮系列融资正式出炉,投资方涵盖了互联网和AI巨头、头部央企、特斯拉生态链龙头、头部PE与券商系等顶级资本——一种声音认为,持续加注、融资火爆的背后,是投资人在智平方身上看到的鲜明“特斯拉基因”,以及让通用智能机器人提供真实服务的“生产力”型稀缺产品路线 如此迅猛的融资速度,离不开商业场景落地和真实交付。 据了解,智平方围绕GOVLA打造的AlphaBot(爱宝)系列机器人,已在两年内完成三代迭代,最新AlphaBot 2采用轮式双臂结构,核心部件无故障运行时间超5万小时,达到工业级可靠性标准。 2025年9月,智平方自有产线启用,随后完成产能爬坡,已具备年产千台级的能力。依托自建产线,智平方去年12月已实现单月百台级AlphaBot 2的真实交付。据悉,公司将在2026年将产能规划至万台规模。 积累了业内稀缺的硬件量产经验后,智平方够像特斯拉一样深刻理解供应链与生态体系,重视量产与工艺——在最恰当的时间构建自有生产体系,为规模化交付的一致性和时效性提供了保障。 商业化路径逐渐清晰。目前,在工业柔性制造领域,爱宝已进入汽车制造、半导体、生物科技与半导体显示面板(惠科)等高端场景,承担分拣、转运、贴标与辅助装配任务。 智平方爱宝作为“干活”机器人代表登上《新闻联播》 值得一提的是,智平方与全球第三大面板厂商惠科签订的3年1000台订单,因交付计划与场景清晰,被摩根士丹利认定为全球生产力型机器人最大的单一订单。 而在公共服务领域,爱宝已在复杂开放环境运行,例如在核心交通枢纽等为乘客提供贴心服务。 此外,智平方在新零售领域推出全球首个模块化具身智能服务空间“智魔方”,已陆续在北京、深圳、上海、无锡、常州等城市常态化运营,机器人每日持续工作10小时以上,日均制作咖啡与冰淇淋数百杯,稳定制作0失误。 正是这些海量而丰富的数据,能让大模型能够直接从复杂的真实世界中高效学习,从而显著提升其泛化能力。由此,中国具身智能商业化一幕席卷而来。 分水岭 有人开始出局 此时此刻,中国具身智能正迎来最好时代。 这里融资火爆,竞相斗艳。正如刚刚过去的马年春晚,多家机器人公司相继亮相,他们合作身份各不相同,却暗自较量着——不再只是跳舞、表演,还要比“脑子”、比协作、比落地。这场春晚,成为中国具身智能行业的一场正面卡位战。 而在春晚开播两小时里,京东机器人搜索量环比增长超300%,订单量暴涨150%。 另一边,我们正在目睹具身智能排队IPO,宇树科技、智元机器人、银河通用等身影浮现。 这些热闹只是表象,另一场竞赛已经打响——真正的头部玩家需要有跳出资本“输血”支撑的能力,最终走向机器人公司存活的核心命脉,订单。 资本层面乐于见到更高层面对产业的支持,但这些公司也需要更努力地做出商业化,匹配市场给予的估值。 虽然中国机器人军团开始横扫全球,但依旧是那个朴素的道理:谁能真正商业化落地,获得稳定的订单,谁才有可能笑到最后。 分水岭即将到来。
智谱GLM-5技术全公开!完全适配华为等国产芯片 美国网友酸了
GLM-5是怎么炼成的? 现在,它背后的论文终于完全公开了。 论文的名字也很直接:告别Vibe Coding,迈入智能体工程(Agentic Engineering)。 也正如我们之前实测的那般,它可以自己连续跑代码超过24小时、700次工具调用、800次上下文切换,从零直接手搓一个Game Boy Advance(GBA)模拟器。 一言蔽之,GLM-5把开源AI拽进了长任务时代。 外国网友直呼“GLM-5是最好的开源模型”: 并且还认为“极大拉小了和Claude Opus 4.6之间的距离”: 除此之外,资本市场的表现也是可以从侧面印证一家大模型公司的实力。 毕竟春节期间,智谱股价飙升的程度,毋庸置疑,大家有目共睹。 现如今,这份长达40页的论文,彻底揭开了它背后的一切技术秘密。亮点如下: 架构方面: 在上一代经过验证的ARC(智能体、推理与编程)能力和MoE之上,引入DeepSeek同款稀疏注意力(DSA);成本大幅打下来了的同时,长上下文能力却一点没丢。 后训练方面: 全新构建的异步强化学习基础设施,把生成和训练解耦,加上独创的异步智能体RL算法,让效率大幅提升。 芯片适配方面: GLM-5完成了与华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦以及燧原等国产芯片的全栈适配。 这也让不少网友在看完论文之后直呼: 在成本效率方面,美国的AI赶不上中国。 接下来,就让我们一起深入扒一扒这篇让外国网友羡慕的技术论文。 GLM-5的三大关键技术 在深入技术之前,我们需要先理解GLM-5在技术发展当下所面临的难题,即大模型需要真正开始干复杂的难活儿了。 因为在GLM-4.5时代,智谱已经证明了将ARC能力融合进单一MoE架构是完全可行的。 但当模型真正投入到复杂的软件工程、长周期多轮对话的真实业务中时,算力成本和真实环境适应性成为了老大难的问题。 △GLM-5 的整体训练流程 GLM-5要解决的就是这些瓶颈。因此,它在核心技术方面祭出了三把板斧。 第一板斧:引入DeepSeek同款稀疏注意力机制 在Transformer架构中,传统的密集注意力计算复杂度是随着上下文长度呈平方级(O(N2))增长的。 当上下文窗口扩展至200K甚至更长时,计算成本将变得极其昂贵,这成为限制智能体处理复杂任务的主要瓶颈。 GLM-5的解法是引入DSA这个动态稀疏注意力机制,它的核心理念是用动态的细粒度选择机制替换传统的密集注意力。与固定的滑动窗口模式不同,DSA 会“审视”内容,动态决定哪些Token是重要的。 然而,直接训练一个基于DSA的超大模型无异于走钢丝,很容易因为稀疏化带来的信息丢失而导致梯度爆炸或模型崩塌。 因此,GLM-5团队采取了一种极其巧妙的继续预训练策略,主要包含两个步骤: 稠密预热(Dense Warm-up):模型并非一上来就搞稀疏。在预训练的初始阶段,模型依然使用相对稠密的注意力机制(类似于MLA的变体),让模型先看全所有的信息,建立起全局的、稳固的语义表征能力。这就好比一个人在学习速读之前,必须先扎扎实实地精读。 平滑过渡与稀疏训练(Sparse Training):当模型具备了良好的基础后,开始逐步提高稀疏度。DSA的核心逻辑是:在计算当前Token的注意力时,不再关注历史上的所有Token,而是通过一个动态的路由机制(Routing Mechanism),只挑选出与之最相关的Top-K个Token进行计算。 △MLA与DSA训练的SFT损失曲线对比 根据技术报告披露的数据,这一板斧砍下去,效果是立竿见影的: KV Cache开销骤降75%:这意味着同样的显卡,现在可以支撑4倍以上的并发请求,或者处理长达4倍的上下文。推理速度提升3倍:注意力计算的FLOPS被大幅削减,首字响应时间(TTFT)和每秒生成Token数(TPS)都达到了行业顶尖水平。长文本能力几乎无损:这是最令人不可思议的一点。在著名的大海捞针以及诸如RULER等长文本复杂推理评测中,引入DSA的GLM-5与全稠密模型相比,性能下降微乎其微(小于0.5%)。第二板斧:异步多任务强化学习 如果说DSA解决的是推理成本问题,那么GLM-5的第二板斧,解决的就是训练效率问题,尤其是决定模型最终智商的后训练阶段。 当前业界主流的强化学习对齐算法依然是PPO(近端策略优化)。 标准的PPO是一个高度同步的过程,涉及到四个模型,即Actor生成模型、Reference参考模型、Critic评论家模型、Reward奖励模型在多台GPU上的协同。 这种“走一步,停一下”的同步机制,导致整个集群的GPU利用率经常徘徊在20%-30%左右,大部分算力都浪费在等待网络通信和进程同步上了。 为了打破这个瓶颈,智谱基于4.5时代的Slime框架,为GLM-5从底层重写了一套异步强化学习基础设施(Asynchronous RL Infrastructure)。 它的核心设计是将训练引擎和推理引擎解耦到不同的GPU设备上。推理引擎持续生成轨迹,一旦生成数量达到预定阈值,这批数据就被发送到训练引擎更新模型。为减少策略滞后并保持训练的近似同策略性,推理引擎的模型权重会定期与训练侧同步。 这种完全异步的训练范式,通过减少Agent rollout期间的“气泡”时间,显著提升了GPU利用率和训练效率。 但要支撑这种异步架构,还有几个关键技术难题需要解决: 第一,Token-in-Token-out(TITO)代替Text-in-Text-out。 在RL rollout设置中,TITO意味着训练流程直接消费推理引擎生成的精确tokenization和解码token流来构建学习轨迹。相比之下,Text-in-Text-out将rollout引擎视为返回最终文本的黑箱,训练器需要重新tokenization重建轨迹。 这个看似微小的选择实际上影响巨大:重新tokenization可能在token边界、空白处理、截断或特殊token放置上引入细微不匹配,从而影响对单个token采样概率的估计。GLM-5实现了一个TITO网关,拦截rollout任务的所有生成请求并记录每个轨迹的tokenID和元数据,将繁琐的tokenID处理从下游Agent rollout逻辑中隔离出来。 第二,直接双侧重要性采样解决离策略偏差。 在异步设置中,rollout引擎可能在单个轨迹生成过程中经历多次更新,这使得追踪历史训练侧模型的精确行为概率在计算上不可行——维护多个历史模型权重显然不现实。 研究团队采用简化方案:将rollout期间生成的对数概率作为直接行为代理,通过计算重要性采样比rt(θ) = πθ/πrollout,丢弃传统的πθ_old,消除单独旧策略推理的计算开销。同时采用双侧校准token级掩码策略,将信任域限制在[1-ε_l, 1+ε_h],对落在此区间之外的token完全屏蔽梯度计算。 第三,DP感知路由加速长上下文推理。 在多轮Agent工作负载中,来自相同rollout的顺序请求共享相同前缀。研究团队提出通过一致性哈希将每个rollout ID映射到固定数据并行(DP)rank,并结合哈希空间上的轻量级动态负载重新平衡。这避免了冗余的预填充计算,无需跨DP rank的KV同步,随着rollout长度增加,预填充成本仍与增量token成正比。 这套异步RL基础设施支撑了GLM-5在多领域的混合RL训练:数学、科学、代码和工具集成推理(TIR)。数据来源包括开源数据集、与外部标注供应商共同构建的STEM问题、Codeforces及TACO等代表性数据集。训练中为各领域分配专属裁判模型或评估系统生成二元结果奖励,四个领域的整体混合大致保持平衡。 第三板斧:投喂真实世界数据 传统SFT数据往往依赖标准答案,但真实世界是复杂多变的。 为了让模型具备真正的工程能力,GLM-5的第三板斧,就是构建大量可验证的真实世界环境数据。 整个SFT语料库涵盖三大类别:通用对话、推理、编程与Agent。 值得注意的是,GLM-5在SFT阶段将最大上下文长度扩展至202752个token,并支持三种不同的思考特征: 交错思考:模型在每次响应和工具调用前进行思考,提升指令遵循和生成质量;保留思考:在Coding Agent场景中,模型自动在多轮对话中保留所有思考块,复用已有推理而非重新推导,减少信息丢失和不一致性;轮级思考:支持在会话中对每轮推理进行精细控制,轻量级请求可禁用思考降低延迟,复杂任务可启用思考提升精度和稳定性。 为了支持Agent RL,研究团队还构建了大规模的、可验证的可执行环境: 软件工程环境:基于真实世界的Issue-PR对,采用RepoLaunch框架自动分析仓库安装和依赖设置,构建可执行环境并生成测试命令。最终跨数千个仓库、涵盖9种编程语言(Python、Java、Go、C、C++、JavaScript、TypeScript、PHP、Ruby),构建了超过10000个可验证环境。 终端环境:采用三阶段Agent数据合成流程——任务草稿生成、具体任务实现、迭代任务优化。从种子任务出发,利用LLM生成可验证的终端任务草稿,由构建Agent在Harbor格式中实例化为具体任务(结构化任务描述、Docker化执行环境、测试脚本),再由精炼Agent迭代优化。整体流程产出数千个多样化终端环境,Docker构建精度超过90%。 搜索任务:构建Web知识图谱,以低至中频实体为种子节点扩展多跳邻域,将每个子图转化为隐式编码多实体关系链的问题。再经过三阶段过滤(删除无工具推理模型能答对的、过滤早期Agent能几步解决的、双向验证拒绝非唯一答案或不一致证据的),最终获得高质量、高难度的多跳问答对。 PPT生成:采用多层级奖励机制——第1级关注静态标记属性(定位、间距、颜色、字体等),第2级评估运行时渲染属性(元素宽高、边界框等),第3级引入视觉感知特征(异常空白模式等)。最终生成的页面中严格符合16:9宽高比的比例从40%提升至92%,页面溢出显著减少。 大模型的测试也更难了 技术的进步最终需要经受评测的检验。 GLM-5的论文不仅展示了其在传统榜单上的成绩,更揭示了一个趋势:大模型的测试正在变得更难、更贴近真实。 在Humanity’s Last Exam(HLE)、SWE-bench Verified、BrowseComp等关键榜单上,数据显示,GLM-5在SWE-bench Verified上得分77.8%,在开源模型中达到SOTA,优于Gemini 3 Pro,并与Claude Opus 4.5相当。 在HLE(含工具)测试中,GLM-5得分50.4,优于Claude Opus 4.5和Gemini 3 Pro。 在Artificial Analysis Intelligence Index v4.0中,GLM-5得到50分,成为新的开源SOTA模型,这是开放权重模型首次在该指数中达到50分。 然而,智谱团队认为,传统的SWE-bench已经不够看了。 因为它是一个静态、公开且发布超过2年的测试集,模型可能存在记忆效应。 为此,GLM-5团队推出了CC-Bench-V2,一个完全自动化的、模拟真实软件开发的评测集,涵盖前端、后端和长程任务。 在前端评估中,团队引入了Agent-as-a-Judge技术,通过GUI Agent模拟用户交互,验证生成项目的功能正确性。 结果显示,GLM-5的构建成功率(BSR)达到98.0%,在检查项成功率(CSR)上与Claude Opus 4.5具备竞争力。 在后端评估中,GLM-5在真实开源项目上的Pass@1达到25.8%,与Claude Opus 4.5相当,显著领先于GLM-4.7。 更值得一提的是长程任务评估。CC-Bench-V2通过挖掘已合并的Pull Request构建多步链式任务,评估模型在增量开发中的上下文跟踪与规划能力。 虽然GLM-5在此项上较GLM-4.7有显著提升,但与Claude Opus 4.5仍有差距。团队坦言,这是因为链式任务中错误会累积放大,缩小这一差距需要在长上下文一致性和长程自纠错方面继续突破。 这一系列评测结果释放了两个明确信号: 第一,GLM-5 是开源界的第一个“全站工程师”,让 AI 能自主执行超长、超复杂的任务; 第二,通过单体MoE架构统一Agent、推理与代码能力的可行性得到了验证,同时证明了RL在复杂代码生成中的巨大潜力。这对闭源模型而言,无疑是一种巨大的冲击。 One More Thing 在论文的最后,团队透露了一个有趣的彩蛋——Pony Alpha实验。 在论文公开前,GLM-5曾以Pony Alpha为代号,匿名发布在OpenRouter平台上。隐去品牌信息后,模型凭借卓越的性能在社区引发轰动。 初步统计显示,25%的用户推测它是Claude Sonnet 5,20%认为是Grok的新版本,仅有部分用户猜中了GLM-5。 这次匿名测试打破了先入为主的地缘偏见,让社区的认可回归到了“好用与否”这一最纯粹的技术本质。 最终确认Pony Alpha真身即是GLM-5,这对团队是一次巨大的鼓舞,也有力回击了长期以来外界对中国本土模型技术水准的质疑。 不仅如此,这次GLM-5论文公布之后,在海外已经有不少人当教程来学习了。
中国也有了世界第一的模型,他的名字叫Seedance 2.0
Seedance2.0的火,已经烧了好几天了。 抖音b站到处都是二创视频,微博科技榜一下子上了四个热搜。 就连我前天随手写了一篇关于Seedance 2.0的纯文字,都10万+了。 我的偶像冯骥更是发微博说,AIGC的童年时代,结束了。 (这里我必须得小小的秀一下,我跟偶像的微博互关嘿嘿嘿。。。) 而回到这篇稿子,我说实话,我写的也是踉踉跄跄。 刚写完一半,啪的一下,真人被ban掉了,所有的case都要重新换,重新跑的时候,啪的一下,又是因为太火,字节服务器直接爆炸,现在已经平均20分钟出一个视频了。 而今天,豆包上的Seedance 2.0也开始内测。 我都不敢想,正式放开的时候,以豆包的用户量级,字节的服务器会烧成啥样。 太火了,真的太火了,有一种去年DeepSeek R1无限重试的感觉了。。 去年DS,今年SD,真的,每年春节,都不让我们好好休息。 但总算,在一片狼藉中,花了2天多的时间,把这篇稿子写完了。 这次我就不评测模型能力了,因为没啥必要,这就是全世界的No.1,无可争议的No.1,很多老外现在都在X上疯狂求魔法,求Seedance 2.0的使用权限。 现在我单纯去评测能力,什么一致性是不是更强了、输出是不是更高清了,就像三体人打来了,我们还在评测他们的智子是不是不锈钢的、有没有声控能力一样,非常荒谬。 其实我也挺焦虑的,很多人可能不知道,我除了是AI媒体博主之外,我还有另一份工作,就是做AI影视工业化,做的不是那种AI短剧或者AI漫剧之类的,是电影和电视剧。 昨天我发了一条感想,我说: “周六晚上,我把它发给了一些影视圈的朋友和剧组,我说这次可能是真的变天了。我也很焦虑,因为我们所谓的AI影视工业化,在顷刻间,灰飞烟灭。 ” 然后有朋友评论说: "工业化灰飞烟灭"可能说早了。 我是这么回复的: 回头看这一年半的时间,认识了很多很好的伙伴,但是回头看,看我们这一路技术更迭,真的就是一声叹息。 只有你亲身被干过被替代过,看着自己拼命搭建的一切化为泡影,那种感觉你才懂。 就像一个国家正在进行一场浩大的战争,皇帝将他手下所有的士兵将卒都派遣到了这场战争之中,前线,无数精神饱满满腔热血的重装盔甲士兵,骑着战马,手持长矛,全副武装开始前进,所有人,都想努力的打赢这场战争。 他们一路所向披靡,踏进了对方的城墙,却发现没有一兵一卒,城市中心,只有一个巨大的金属铁球,它叫,核弹。 那一瞬间,核弹,被引爆了。 那一瞬间,以整个城市为中点,这个由几百万人口后期所供给的精锐部队,在原来的大陆上所向披靡的部队,在万分之一秒之间,被瞬间气化,消失的无影无踪。 你问我是什么感觉?我就是那个被气化的部队中的一员,我能有什么感觉呢,我知道,我消失的那一瞬间,我可能都不知道到底发生了什么。 时代的列车滚滚向前,它不会等待任何人。 面对此情此景我也只能说,既然前路不可逆,就走下去。 所以,我的心情是复杂的,兴奋又焦虑,真的还挺矛盾的。 这篇文章,我也不做评测了,我就想,抛砖引玉,给大家看一下,在现在,Seedance 2.0,还可以玩的有趣的玩法。 希望大家搭上新时代的列车,好好享受沿途风景。 坐稳扶好,我们现在,发车。 01 导演思维 这次其实Seedance 2.0爆掉,有一个很大的原因,是因为它的导演思维。 过去我们玩的AI视频,其实很多时候,卡点有两个,一个是故事,一个是分镜。 这两个东西,让普通人做出来的AI视频,跟专业的人做出来的AI视频,差距非常的大。 剧本是编剧意志的体现,而分镜,就是把剧本视觉化的最核心的要素。 比如剧本里写了一句话:"小明推开门,看到屋里一片狼藉,他愣住了。" 这句话,导演可以有无数种拍法。 你可以先给一个小明推门的中景,然后切一个屋里的全景展示狼藉,再切回小明的特写表情。 你也可以用一个长镜头,跟着小明的视角推进去,让观众跟小明一起发现屋里的情况。 你还可以先给屋里的狼藉,再给门把手转动的特写,再给小明的脚步,最后才给小明的脸。 过去,AI视频,几乎是没有办法帮你解决分镜难题的,我们几乎用的都是图生视频的工作流,也就是一张图,对应着一个4s的片段,然后把各种片段剪辑在一起,成为一个片子。 这是2024年初做的一个AI片子当时的协同文档,真就是这样的。 你会看到,AI最核心的能力,其实是把你的分镜图,给动态化,仅此而已。 而后来,Sora2把分镜这个事给彻底下放,你只需要一张图,一段话,AI可以帮你把分镜补足,成为一个还不错的小故事,但是那个分镜,其实也是一通乱切,没有章法。 但是Seedance 2.0,却几乎解决了分镜的问题,在镜头的美感上,领先了Sora一个世代,而且能直出声音和BGM,虽然我经常会手动用Prompt把BGM给关掉。 比如这个case: 主要就是写了些剧情和对话,分镜全部是它自己解决的。 视频长这样。 自动播放 说实话,这个质量,在电视剧领域,已经可以以假乱真了,甚至比一些垃垃圾古装拍的还要好。 人物极其自然,台词功底也够,每一次切镜,都有意义。 而另一个故事,更是能让你完美的感受到,什么叫导演思维。 我的Prompt只有一个简简单单的小故事: 他苦练二十年,终于站上了世界武术大赛的决赛舞台。面对泰国拳王,全场屏息。裁判一声令下,他气沉丹田,使出毕生绝学—— 跪下来喊了一声"爸"。拳王愣住了。一拳,他赢了。 而让我们看看,Seedance 2.0的最终视频,和它给出来的分镜。 实在是太离谱了。 自动播放 这玩意,它真的懂戏。。。 它知道什么时候该给特写来强调情绪,什么时候该拉镜头来交代环境,什么时候该用慢一点来制造张力,什么时候该快切来加速节奏。 这些东西,以前是需要专业导演才能把控的。 现在,AI能做了。 而且它还能直出声音和BGM。 连剪辑的活都干了,太离谱了。 02 分镜复刻 在影视行业里,因为分镜特别重要,所以一直有一个学习方法,叫做拉片。 也就是让大家学习镜头调度、学习排布、学习情绪用户的。 所以,学习优秀大师、优秀作品的镜头调度,很重要。 而在过去,我们想模仿一个这个类型的作品,很难。 但是现在,因为Seedance 2.0支持了视频参考,所以这事,他就变得非常简单了起来。 比如这个《天气之子》的这一段分镜,我很喜欢。 而我们现在,只需要把这段视频扔进去,让他进行参考,给我生成一段新的故事,就非常的方便。 而且不止是剧情和故事的分镜,甚至你在广告片里,也可以用上,比如我直接用一段车的分镜和运镜,再加上大疆的一张图,来给它复刻一个。 现在,人人都能一张图,拍出百万大片了。。。 这块单独说一下,如果你用的豆包内测版,现在还不支持上传视频参考,估计豆包用户量级实在太大了,还得在等等。 03 经典二创 人类对于自己IP爱的最深的情感,那就是给他们做二创。 在以往,我们想做二创,还挺难的,比如你想给《姬霓太美》做一个二创,那可能真的得手搓一个MV,或者从0开始,做一个视频。 所以,过去的二创,往往集中于本子、图片上。 但现在不一样了。 我这两天刷抖音和B站,发现二创已经彻底疯了。 抽象和高燃并存。 比如我在X上看到的这个,燃爆了。 自动播放 而且全是我的菜。 这些东西,放在一年前,你想都不敢想,那时候的AI虽然也挺牛逼的,但是还是做不出来这种级别的运镜。 而且如果你对一个你喜欢的故事的结局不满意的话,你也可以,自己修改。 比如《怪奇物语》第五季的最后,我真的很希望很希望小十一能回来。 那,我们就可以自己,复刻一个。 她真的,就回来了。 自动播放 真的,不仅可以搞温情,而且,抽象的东西满天飞。 比如这个男人,他可以进入到鬼灭之刃的世界里,来一场酣畅淋漓的战斗 自动播放 感觉比鬼灭本刃会好看。。。 一句话直出,真就创意无限。 04 编辑现实 既然可以参考视频了,那自然,还有一个很特别的功能,就是编辑现实。 对影视后期来说,究极有用。 在过去,我们都听过一句话,甚至可以说是一句真理。 视频是没办法P的。 但是现在,谁说视频不能P? 比如,我就随手拍了一个10秒钟的挥手的视频,再在seedance里,加一点Prompt: 一个非常现实的宝可梦召唤的视频,就做好了。 自动播放 真的,各种物理规律啥的,还真的相当的酷。 然后我还拍了我们凌晨1点的公司过道。 直接用Prompt换下风格,瞬间变成里世界。 这个视频后面有高能预警,点开的时候一定注意。 自动播放 这效果,稳定到爆炸,还做个鬼的后期特效。 05 素材生成vlog 一个非常神奇的玩法,甚至对剪映,感觉都能有一点冲击。 就是我们日常不是拍了很多的素材吗,那比如,我就想把这些素材,非常简单的生成一个vlog,按照过去,你可能就得套模板了。 但是在AI的世界里,你真的,直接说就行。 就比如我们前几天团队,我们的一个小朋友就拍了点照片,我们直接扔给Seedance 2.0。 然后就能直出一个还挺好玩的vlog,所有的图片都会动起来,还会自动识别图片是什么,给加上小装饰,还挺有意思的。 06 带货广告 这个玩法,可能是最能直接变现的。 做过电商的朋友应该都知道,拍产品视频是一件很麻烦的事情。 你需要找场地、找模特、找摄影师、找灯光师,折腾一天可能就拍几十秒的素材,还不一定能用。 而且每个产品都要单独拍,成本非常高。 但现在,Seedance 2.0给了一个新的可能。 你可以用AI来生成产品展示视频。 我试了一下,效果出乎意料的好。 就比如这个产品,一个非常神奇的面霜。 我们就可以,让一个AI模特来讲解。 自动播放 我真的觉得,比很多真人要自然、要好看、要舒服。 还要个鬼的真人啊。 甚至,你还可以让伏地魔,在美国超级碗,代言鼻炎特效药。 自动播放 最后一幕,我就问你神圣不神圣吧。 07 主体迁移 这个功能,说实话,是让我觉得最效果最离谱的一个功能。 但也确实是对于影视行业非常有用的一个功能。 你可以把你自己的照片,迁移到另一个视频的某个主体身上,完成一模一样的动作和口型复刻。 也就是我们传言中的,动作捕捉。 只不过现在动捕不需要穿戴那么多复杂的设备了,直接一个视频,一个照片,迁移一切。 比如最近因为Seedance 2.0而爆掉的一个运镜视频。 真的就是完美复刻,给你还原的一模一样,甚至遮挡关系给你还原了。 说真的,我从来没见过如此之离谱的,动作迁移。 在整个迁移和复刻能力上,应该就是全球目前最好的了。 08 写在最后 写到这里,这篇文章差不多该收尾了。 这些差不多就是Seedacne 2.0的部分玩法,抛砖引玉。 在真人出镜需要验证的背景下,应该短期内都不会放开真人参考了,都会用类似于豆包分身视频的这种方式,可能是C端用户很长一段时间的主流玩法。 等到大年三十当年,豆包在春晚上,给大家秀一下Seedance 2.0的效果,当所有人涌入豆包,开始试一试创作,试一试AI视频。 整个社会对于AI视频的认知,又可能会被往前加速一大截。 回头看几年,真的是太魔幻了。 这个视频,应该能很好的诠释,AI进化的速度。 自动播放 我自己的心情也很复杂。 作为一个AI媒体博主,我当然兴奋,这是一个划时代的产品,它给了我无数的选题,无数的内容可以写。 但作为一个做AI影视工业化的人,我又很焦虑。 我们这一年半在剧组里花了很多心血搭建的工作流、积累的经验,可能在这一次更新里,付诸东流。 这种感觉很难形容。 就像你辛辛苦苦爬了一座山,快要到山顶了,突然发现有人开了一条缆车直达山顶,而且票价还特别便宜。 你会觉得自己之前的努力很傻吗? 会的。 但你能怎么办呢? 只能调整心态,接受现实,然后想办法利用这条缆车去更高的地方。 我前天的短文里说,时代的列车滚滚向前,它不会等待任何人。 这句话听起来有点丧,但我觉得它也是一种激励。 既然列车不等人,那就赶紧跑,赶紧跳上去。 不管你之前是做什么的,不管你之前积累了什么,现在都要重新开始学习,重新适应新的工具和新的规则。 这是这个时代给所有人的挑战,也是机会。 我看到有人在评论区说,感觉自己要失业了。 我想说,不要这么悲观。 每一次技术革命,都会消灭一些工作,也会创造一些新的工作。 汽车消灭了马车夫,但创造了司机、汽车修理工、加油站员工。 电脑消灭了打字员,但创造了程序员、设计师、自媒体人。 AI会消灭一些工作,但也一定会创造一些新的工作。 关键是,你要成为那个能抓住新机会的人,而不是被淘汰的那个。 保持好奇心,保持学习,保持对新事物的敏感。 Seedance 2.0发布了,你就去玩它,去研究它,去思考它能用来做什么。 不要等着别人教你,不要等着市场成熟,不要等着一切都清晰了再行动。 等你想清楚的时候,已经不会再有机会了。 希望这篇文章,这几个玩法,能给大家一些启发。 也希望大家能在这个疯狂的时代里,找到自己的位置。 最后,借用冯骥老师的那句话作为结尾吧: AIGC的童年时代,结束了。 欢迎来到。 AIGC的,青年时代。
总理座谈会上的年轻人,春节暴涨超千亿
去年底因为参加总理座谈会而备受瞩目的闫俊杰,真正是度过了一个马上暴富的春节: 腊月25至正月初五,他创立的上海稀宇极智科技有限公司(MiniMax),股价从500多元飙升至近千元,市值也拉升到超过3000亿港元。 一个春节,暴涨超千亿。 闫俊杰和大多数AI创业者一样,是天才,也是超级学霸。 1989年出生于河南一座小县城的他,在中国科学院自动化所完成博士学业,之后又在清华大学计算机系从事博士后研究。 2015年,闫俊杰加入了当时的AI领军企业商汤科技,并快速晋升为公司副总裁、研究院副院长及智慧城市事业群CTO,参与和主导了商汤深度学习工具链及通用智能技术体系搭建,并发表顶级会议和期刊论文100余篇,成为业内公认的顶级专家。 ▲图源:2021世界人工智能大会 2021年底,已是商汤副总裁的闫俊杰决定辞职,创业成立MiniMax。 彼时的商汤科技即将港股上市,以闫俊杰的职级,如果不辞职很可能成为亿万富翁。 放弃既得的大好钱程,冒险重新开始,是因为闫俊杰对AI的发展有了新的思考。 当时的AI炒得火热,大量资金涌入,发展却远不及预期。也就应用于人脸识别、语音识别领域,创造的社会价值不高,甚至被调侃为人工智障。 核心问题在于AI不够通用。当时行业用虚拟模型解决客户的问题,每做一个模型就要训练一次。 一旦客户有多个问题,就得训练多个模型,直接导致成本高、周期长、效率低。 能否摆脱这种为每个任务专门定制模型的路径,面向更广泛人群的需求,开发一个通用的模型,让AI像水电一样普及,融入并改变人们的生活呢? 比如,一款能回答大家各种问题的模型,一款能帮助大家写作的模型……闫俊杰认为,这是有可能的。 更进一步思考后,他开始为这种可能性感到兴奋,感到时不我待,希望自己可以亲手将它做出来。 于是,他做出让很多人意外的决定,于2021年底成立了MiniMax‌,毅然决然地希望做出自己的通用大模型。 现在回头看,他的这一时间选择可谓是相当美妙: 就在2022年底,OpenAI发布的ChatGPT爆火全球,也让通用大模型成为全球科技浪潮的暴风口。 MiniMax的创立顺应了大势,但其发展,相当程度上却都是逆行业而行。 当大模型爆火后,大多数AI公司都集中资源先精一项。MiniMax却从一开始就无视文本、语音、视频的界限,坚持全模态自研,想实现全精通。 这种“不聚焦”的战略,很可能贪多嚼不烂,让许多投资者忧心忡忡。但闫俊杰认为,只有全模态才能逼近人类智能交互能力。 在目标用户上,大多数AI公司深耕面向企业或组织的B端。MiniMax却双拳出击,不仅深抓B端,更发布了众多面向个人消费者的C端产品,诸如Talkie、海螺AI、MiniMax Agent等。 而且从创业伊始,闫俊杰就将主要精力侧重到具备付费习惯的海外市场。一些产品甚至是“海外先行,国内跟进”,比如2023年6月,AI社交应用Talkie登陆欧美市场,火了之后才推出国内版“星野”。 在技术路线上,闫俊杰更是孤注一掷,豪赌未来。 2023年下半年,他力排众议,坚持从行业常用的Dense架构,转向混合专家系统的MoE架构。而且不是小幅调整,是全力转向,几乎投入了公司所有的算力资源。 Dense架构的核心特征是每次计算都‌全员参与,这种方式效率低且‌资源消耗大,但也有结构简单、训练稳定的优点。 MoE架构的预训练难度更高,但能显著降低算力消耗和使用成本,实现更高的效率。 当时,大多数公司都选择了更简单、稳定的Dense架构。但闫俊杰认为,未来的发展会对算力和资源消耗提出更大要求。只有在算力和消耗上省下成本,才会更有竞争力。 “不管有钱的大厂,还是没有钱的创业公司,(中国公司)在算力层面的投入可能要比美国公司小1-2个数量级。这是接下来两三年内非常确定的事情。” 如何用更少的资金和算力追上美国,成为了最迫切的事情,闫俊杰反复思考后的答案就是,转向MoE架构。 “你会发现这不是选择,而是你能够想到的唯一一条路,只有那一条路可以通向你的目标。当时只能这样,如果做不出来就完了。” 这是一场豪赌,失败了就会出局。后来的经历也是相当艰险,连续两次转型,结果都失败了,如果第三次继续失败,公司很可能走向终局。 好在第三次成功了,公司不但活了下来,而且提前走到了正确的道路上,赢得了先机。 如闫俊杰所料,AI大爆发之后,MoE架构的技术路线逐渐成为行业主流。 抢先布局的MiniMax,在2024年1月上线了国内首个MoE大模型abab,不但引领了国内行业,而且仅以累计5亿美元的投资,约行业龙头OpenAI花销的百分之一,就跻身世界AI的第一梯队。 闫俊杰另两个反向而行——C端产品和“全模态”,也都获得了成功。 如今,MiniMax已经跑出了多个畅销全球的C端产品,拥有超2亿个人用户,覆盖200多个国家及地区。 其中,主打视频生成的海螺AI,全球用户数突破4000万,其生成的高质量视频连马斯克都点赞过。专注于AI角色陪伴与虚拟社交的Talkie,更是在全球爆火,用户数达到惊人的1.47亿名。 ▲图源:海螺AI 而且这些应用的用户大多来自海外,尤其是美国,堪称真正的“国际明星”。 在MiniMax的营收中,已有超过70%为海外市场贡献。 多模态的坚持,则让MiniMax成为“全球唯四全模态进入第一梯队”的大模型企业。它的语音模型Speech-02、视频模型Hailuo-02、文本模型MiniMax M2,都在权威评测中达到全球顶尖水平。 这也就意味着,它可以最大限度地争取用户。无论是语音、视频、文本,甚至是音乐,它都能够满足需求。更关键的是,多模态可以融合,成就全能AI。 这些综合起来,共同筑成了MiniMax的王座。 2024年,仅仅成立三年的MiniMax,年营收达到2.14亿元,同比增长782.2%。 卓越的表现,不仅让MiniMax与月之暗面、智谱AI、阶跃星辰、百川智能、零一万物并称为中国大模型“六小虎”,而且还是估值最高的小虎,受到了腾讯、IDG、高瓴创投、米哈游等资本的狂热追捧。 2025年初,MiniMax满怀信心,上线了拥有4560亿参数的开源大模型MiniMax-01,期望以此巩固技术领先优势。 然而,一个巨大的挑战席卷而来。 MiniMax-01上线没几天,整个国内乃至世界AI圈都迎来了一件王炸级事件: DeepSeek-R1横空出世,凭借推理模型的革命性技术爆火出圈,而且完全开源。 几乎是一夜之间,全球AI都在讨论,甚至畏惧着DeepSeek这家此前堪称默默无闻的公司,腾讯、百度等巨头,乃至各行各业也都纷纷接入其模型。 对于国家来说,这是国运级的科技成果。但对于很多大模型初创企业来说,这就是天塌了。 王者已现且气势如虹的压力之下,一众还在为大模型准备的初创公司,要么弃赛,要么接入,要么转行,继续坚持做自己的模型被认为是最危险的选择。 但闫俊杰选择了继续坚持做自己的模型。 很多人以为MiniMax会就此坠入深谷,闫俊杰也感觉大山压肩,但他化压力为动力,最困难时刻最大力度爆发,集中一切力量,继续孤注一掷,研发新一代的推理模型。 半年之后,格局再次被扭转了。 当年6月17日,MiniMax上线了自主研发的MiniMax-M1,不但赢得了“全球首个开源大规模混合架构的推理模型”的占位,还凭借支持100万Tokens的上下文输入(8倍于DeepSeek-R1),以及卓越的长文本理解等关键能力,在DeepSeek-R1之外,打出了自己的优势,也赢得不少赞誉。 虎口脱险般的闫俊杰,还发了一条意味深长的朋友圈: “第一次感觉到大山不是不能翻越。” 而这还不是全部。之后的4天,MiniMax以“日更”的方式,陆续发布了全新视频生成大模型Hailuo 02、通用智能体产品MiniMax Agent、视频创作智能体Hailuo Video Agent、音色设计产品Voice Design。 5天时间,5款重磅模型和产品,MiniMax不仅重新坐上了牌桌,还吸引了“教主”黄仁勋的注意。 ▲图源:腾讯科技 当年7月,英伟达CEO黄仁勋在北京链博会上公开称赞MiniMax,将其与阿里巴巴、百度等企业并称为“世界级”产品开发者。 链博会结束不久,黄仁勋又单独和闫俊杰会面,深入交谈了约两个小时。 此后的MiniMax,开始好消息连连,并在2026年1月9日,于港交所正式挂牌上市,上市首日股价大幅上涨近110%,市值超1000亿港元。 如今更是突破了3000亿港元,远高于老东家商汤科技,与另一家公司智谱AI并称为“大模型双雄”。 闫俊杰的身上,有一个巨大的反差点。 他总是满脸笑容,说话慢条斯理,但内心杀伐果断。当整个AI圈都在追逐 DAU(日活跃用户数)时,他依然信奉技术驱动,专注在大模型的研发上。 2025年前三季度,MiniMax实现营业收入3.75亿元,但研发投入高达12.63亿元,是同期营收的3倍多。这种专注,不仅让他们挺过了DeepSeek的冲击,还找到了引领世界的创新点。 在去年10月发布的文本大模型MiniMax-M2中,他们首创了“交错思维”机制,让推理模型在做事前,先停下来思考一下。 这种“行动—停下来思考—再行动”的循环,显著提升了推理模型的可靠性。在全球权威测评榜单Artificial Analysis 中,MiniMax-M2的总分位列开源第一,国内外的大模型都迅速学习,补齐了类似能力。 对比DeepSeek用极致的工程优化榨干每一分算力,MiniMax更加剑走偏锋,以算法突破和机制创新撬动无限可能。 而让人震惊的是,这个世界级的AI新贵,员工总数才385人(截至2025年9月)。而且团队中没有“硅谷天才”坐镇,很多人都是第一份工作。 ▲闫俊杰参加《罗永浩的十字路口》 AI圈不都在高薪挖天才吗?为什么闫俊杰不挖呢? 因为他坚信AI不是玄学,完全可以用第一性原理拆解成若干个明确的工程,诸如算法的设计、训练效率的优化、数据链路的搭建。 只要找到正确的科学方法,根本就不用所谓的天才,普通人也能创造出非凡价值。这种人才观念,又为公司省下了一大笔资金。 与此同时,闫俊杰也陷入了恐惧。因为当大模型可以被量化,也就意味着它会不断进步,最终必然超越人类。当做出成功的模型时,他会感到不安。 而战胜恐惧的,是公司会议室墙上的一行字——Intelligence with Everyone。这是闫俊杰创业的初衷,让尖端AI“为人所用、与人同行”。 早期投资人黄明明评价,“闫俊杰是一个‘狠人’,在资源等方方面面有限的情况下,他还是专注在模型研发上。只有这样的企业家可能才能走得更远,走到终局。” AI是中国不能输掉的一场比赛。 面对美国的算力优势,这个出生在河南小县城,在资源匮乏的环境中成长起来的俊杰,正在用有限的资源打造世界顶尖的AI公司。 “如果未来全球只有五家AI公司,至少有两家中国公司,至少第二名是中国公司。” 这是闫俊杰的希望,更是他的长期目标。 [1]《总理今年首场座谈会,这9人成为“座上宾”!继梁文锋之后,他作为AI大模型企业代表参会》华夏时报 [2]《85后河南小伙闫俊杰,参加总理座谈会的三大看点》河南省教育厅 [3]《上海AI独角兽,连放大招》财经天下weekly [4]《对话MiniMax闫俊杰:AGI不是大杀器,是普通人每天用的产品》晚点LatePost [5]《“狠人”闫俊杰,闯关IPO》中国企业家杂志 [6]《最“佛系”的创始人,最“凶猛”的上市:MiniMax为何被资本市场选中?》凤凰网财经 [7]《MiniMax闫俊杰对话黄明明:AGI,只有一条最难但唯一的道路》中国
史上最贵iPhone或将到来:9月上市!苹果首款折叠屏
快科技2月23日消息,据博主“刹那数码”透露,苹果打算在今年7月正式开启iPhone Fold以及iPhone 18 Pro系列的大规模量产,两款机型会同步发售,在9月上市。 iPhone Fold是苹果史上第一款折叠屏手机,预计美国市场起售价预计1800-2500美元,换算人民币约1.3万-1.8万元,成为史上最贵iPhone。 虽然苹果官方目前依然守口如瓶,但供应链已经将其扒了个底朝天,连详细的机身数据都已经出炉。 整体来说,iPhone Fold采用了与华为Pura X类似的阔折叠比例,不过尺寸明显要更大一些。 采用主流的内外双屏设计,背部还集成有双摄,横向排列的方式类似iPhone Air。 据爆料,iPhone Fold折叠后机身83.8mm*120.6mm*9.6mm,外屏约5.49英寸,屏幕分辨率2088×1422,相比当前iPhone机型更宽但更矮,单手握持时宽度略超常规机型,但高度缩短便于操控。 展开状态机身尺寸为167.6*120.6mm*4.8mm,内屏约7.76英寸,分辨率2713×1920像素,接近iPad mini,但整体比iPad mini更小巧。 内屏前置摄像头完全集成于屏幕之下,没有任何刘海、打孔等开口,首次实现真正的全面屏效果。 据爆料,苹果还打造了非常强大的铰链,通过内置金属应力分散板实现“近乎无折痕”的内屏效果,同时支持自修复涂层技术,提升抗刮性。 处理器预计为A20系列,搭配LPDDR5X内存与UFS 4.0存储,性能对标同期iPhone Pro机型;搭配苹果第二代自研C2基带,无物理SIM卡槽(仅支持eSIM)。 配备iPhone史上最大容量电池,采用高密度电芯,同时通过精简显示驱动等核心组件进一步提升能效,续航能力大幅升级。
保密保了个寂寞:三星S26 Ultra还没发布,阿联酋博主都已经买到了
离三星的Galaxy Unpacked发布会还有3天,Galaxy S26 Ultra将在发布会上正式亮相,但三星的保密工作实在是做得太烂,该Unpacked都已经被提前Unpacked了。昨天不仅爆出了带有手机核心参数的宣传海报,甚至有一个阿联酋博主称自己已经在线下买到了手机,目前库库发了不少帖子。 博主的“军火展示” 这位阿联酋博主名叫@Sahil Karoul,他说阿联酋一般在新品上市的3~4天后才有货,这一次竟然破天荒地看到商家们在没发布前就开始做预热,活这么多年也是头一回,有些胆大的店甚至都提前开卖了。一开始他还跟网友说手机要价太高,卖家开价12000迪拉姆(阿联酋货币,约合人民币2.26万元),先等降价了再说,结果2小时后他就买下来了,到手价格是预计零售价2倍多。 他选的是一台白色版三星S26 Ultra真机,这部包装上印着“韩国制造”的手机,却是从“神秘”的非洲渠道来的,拥有24个月的保修期。而且交货也不在店里,有一个人在大马路上跟他碰头,直接从白色手提袋里就这么掏出了手机。 这老哥还很有意思,他发的如何买到这部手机的视频是用即梦做的开头:他在沙漠里捡了个神灯,然后从里面蹦出个神明,说可以帮他实现一个愿望,他便说给我一部三星S26 Ultra。中国的AI实在是太好用了bro! 回去以后他拍了不少视频,比如自带防窥功能的屏幕,还吐槽这部2026年的旗舰手机,配的S Pen竟然不支持蓝牙功能。他顺便也给手机跑了个分,显示成绩还不错。作为2026年科技圈最 “毫无悬念” 的旗舰机型,其实也没有什么很新的东西可以展示,无非就是抢先其他人买到了手机然后赶紧赚流量。 他最新发布的消息说,拿到手机还没有满24小时,目前价格就已经跌去了1/3,差不多7500块钱蒸发了,博主这一波不知道是不是亏麻了。
华为Mate 80 Pro(麒麟9030Pro)部分规格开放购买,6999元
IT之家 2 月 23 日消息,华为官网显示,Mate 80 Pro 手机的 16GB 规格部分配色 / 版本已开放购买(16GB+1TB 版本暂未放开),定价 6999 元,预计 2026 年 3 月 15 日前完成发货。 官网信息显示,华为 Mate 80 Pro 手机 16GB 规格搭载麒麟 9030 Pro 处理器,整机性能对比 HarmonyOS 4.3 出厂版本的 Mate 70 Pro(16GB 规格)最高提升 42%。 IT之家查询获悉,不只华为官网,目前京东等平台也放开购买权限,同样预计 3 月 15 日前发货(华为官网仅开放晨曦金和云杉绿配色,京东平台全配色可选)。 华为 Mate 80 系列手机重点参数配置差异如下: 型号 Mate 80 Mate 80 Pro Mate 80 Pro Max Mate 80 RS I 非凡大师 颜色 云杉绿、雪域白、曜石黑、晨曦金 极光青、极昼金、极地银、极夜黑 槿紫、玄黑、皓白 系统 HarmonyOS 6.0 芯片 麒麟 9020 12GB:麒麟 903016GB:麒麟 9030 Pro 麒麟 9030 Pro 防护 IP68、IP69 电池 典型 5750 mAh额定 5620 mAh 典型 5750 mAh额定 5620 mAh 典型 6000 mAh额定 5870 mAh 典型 6000 mAh额定 5870 mAh 充电 66W 有线超级快充5W 有线反向充电50W 无线超级快充无线反向充电 100W 有线超级快充18W 有线反向充电80W 无线超级快充无线反向充电 100W 有线超级快充18W 有线反向充电80W 无线超级快充无线反向充电 100W 有线超级快充18W 有线反向充电80W 无线超级快充无线反向充电 相机 5000 万像素超光变摄像头4000 万像素超广角摄像头1200 万像素潜望式长焦摄像头第二代红枫原色摄像头 5000 万像素超聚光摄像头4000 万像素超广角摄像头4800 万像素微距长焦摄像头第二代红枫原色摄像头 5000 万像素超高动态摄像头4000 万像素超广角摄像头5000 万像素微距长焦摄像头5000 万像素超长焦摄像头第二代红枫原色摄像头 5000 万像素超高动态摄像头4000 万像素超广角摄像头5000 万像素微距长焦摄像头5000 万像素超长焦摄像头第二代红枫原色摄像头 安全 3D 深感摄像头 + 侧边指纹 屏幕 分辨率:FHD+ 2832×1280 像素尺寸:6.75 英寸直面屏第二代昆仑玻璃1-120 Hz LTPO 自适应刷新率 分辨率:FHD+ 2832×1280 像素尺寸:6.75 英寸直面屏第二代昆仑玻璃1-120 Hz LTPO 自适应刷新率 分辨率:FHD+ 2848×1320 像素尺寸:6.9 英寸直面屏第二代昆仑玻璃1-120 Hz LTPO 自适应刷新率 分辨率:FHD+ 2832×1320 像素尺寸:6.9 英寸直面屏第三代玄武钢化昆仑玻璃1-120 Hz LTPO 自适应刷新率 卫星通信 畅连北斗卫星消息运营商北斗卫星短信 畅连北斗卫星消息运营商北斗卫星短信 天通卫星通信畅连北斗卫星消息运营商北斗卫星短信 天通卫星通信畅连北斗卫星消息运营商北斗卫星短信 星闪 支持 支持 支持 支持
国产手机品牌内测硬件级防窥屏:再也不怕偷看了 安全感拉满
快科技2月23日消息,当前不少用户热衷于给自己的手机屏幕贴上一层防窥膜,核心诉求是保护隐私,防止他人随意窥见屏幕内容。相关数据显示,防窥膜已发展成为一个庞大产业,包含防窥膜在内的钢化膜市场规模已达到数百亿元。 防窥膜主要采用百叶窗原理,通过在屏幕层中加入防窥层来收窄可视范围。但这种方式在保护隐私的同时,也会大幅降低屏幕的清晰度,甚至导致用户需要调高亮度来观看。长期使用这种膜,不仅影响手机的使用体验,还会加重眼睛的疲劳感,进而威胁用眼健康。 为了从根本上解决护眼与隐私的矛盾,国内手机厂商正在测试硬件级防窥屏,预计将在今年9月至10月发布的迭代旗舰机上率先应用。 与传统的防窥膜完全不同,硬件级防窥屏是从显示底层来解决隐私问题。当用户开启防窥模式后,屏幕的折射率会发生改变。此时,第一折射层表面雕刻的微观光栅会瞬间化身为一道道微观的百叶窗,强行改变那些大角度向外折射的光线。 在这种模式下,坐在你身边的旁观者将无法看清屏幕上的任何内容。而对于正对着手机的用户来说,由于视线与光栅平行,画面显示依然清晰通透。这种狭窄的有效可视角度,在完美保护隐私的同时,也确保了手机屏幕原有的色彩与亮度表现。 随着国产手机厂商的跟进,这种既安全又护眼的屏幕体验,很快就会覆盖到更多主流消费群体。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。