行业分类:
加载中...
头条分类:
加载中...
硬刚GPT-Image-2!国产AI生图“天花板”又被捅破了?
允中 发自 凹非寺 量子位 | 公众号 QbitAI 这两天,大家伙朋友圈是不是被GPT-Image-2刷屏了? 文字渲染精准、高密度的信息图,复杂布局和美学UI一次到位,真实感爆棚。 连社交媒体截图、高考试卷都能近乎一比一还原,这完全颠覆了曾经以往的文生图模型,彻底解决了文字、信息图这些长期以来的痛点问题。 大家看完的第一反应,几乎都是:设计师真要失业了…… 而就在刚刚,兔展智能甩出一张王炸:UniWorld-V2.5,居然直接“重现”了GPT-Image-2的某些惊艳Cases。 不废话,咱直接上疗效。 同样一套提示词,我们看看生成结果对比: 提示词:生成一个篆书碑刻拓片,内容是“由兔展智能首席科学家袁粒领导团队研发” △GPT-Image-2生成 △Nano-Banana-2生成 △UniWorld-V2.5生成 可以说,在InfoGraph、文字密集、图文交错等此前被公认为“AI生图天花板”的场景上,UniWorld-V2.5的完成度已经对齐GPT-Image-2,并显著超越其他国内外主流文生图模型。 更重要的是,UniWorld-V2.5需要输入的prompt非常简短,不需要像之前一样提供极其复杂和详细的prompt。 你只需要一句话,即可生成多样、复杂的视觉信息图,背后是一整套完整的视觉生成系统在做支撑。 接下来,我们一起见证更多场景奇迹。 高考数学卷:最难的中文测试,它过了 以前,AI生图最令人崩溃的场景是这样的: 结构化排版+高密度中文+复杂多样数学公式+曲线图+立体图,同时出现在一张图里。 几乎所有文生图模型,在这个场景下表现都很不稳定,甚至根本无从下手。 UniWorld-V2.5则表示:这只是基本功。 直接上地狱级测试,提示词: 生成一张2025年高考数学理科试卷。 △2025年高考数学理科试卷(由UniWorld-V2.5生成) 一张图里同时包含:选择题、填空题、解答题、函数图像、几何证明…… 密密麻麻一整页,格式规范,字迹清晰,连答题线和页码都一个不落。 这已经不是“像不像”的问题,而是“能不能直接拿去给学生考试”的问题。 与此类似的,对中文排布要求很高的场景“简历生成”,效果也同样可圈可点: △马斯克个人中文简历(由UniWorld-V2.5生成) 这种⽂字密集⽣成能⼒,此前的主流模型⼏乎⽆法做到。 在中文密集文字和复杂排版领域,这是前所未有的降维打击。 GUI布局:超真实的APP界面生成,也过了 想要AI生成一个真实感的社交媒体APP界面? 传统模型生成的界面要么布局错乱,要么文字胡言乱语。 给UniWorld-V2.5布置作业,让它一句话生成一套完整、可乱真的社交媒体界面及布局。 1、抖音直播带货 主播、商品弹窗、价格、实时弹幕、打赏特效,细节真实到“细思极恐”。 △马斯克直播卖茅台(由UniWorld-V2.5生成) △直播带货界面生成效果(由UniWorld-V2.5生成) 2、小红书探店 咖啡馆照片、店名、推荐指数、评论、点赞、导航栏,一个不落,调性精准。 △小红书上海咖啡馆探店界面(由UniWorld-V2.5生成) 3、微博热搜 热点头条、热度值、标签、按键等,全都可以直接生成,直接以假乱真。 △微博热搜界面(由UniWorld-V2.5生成) 4、YouTube视频页 博主信息、播放量、推荐列表、评论区,UI细节精准到让人分不清真假。 △YouTube视频页面(由UniWorld-V2.5生成) 这哪里是“生图”啊?这简直是“赛博截图”。 这么看来,UniWorld-V2.5理解的不是像素,而是产品逻辑和用户场景本身。 InfoGraph信息图:AI生图的终极考场,很惊喜 高密集、复杂的信息图是公认的AI生图“无人区”。 它要求模型同时理解数据、图表、文字排版和逻辑关系,信息密度越高,难度越大。 让UniWorld-V2.5尝试露一手,它交出的作业是这样的: 人体前侧解剖系统全图: 太阳系全貌信息图: 绿叶解剖信息图: 肌肉、骨骼、内脏等细节可视化呈现,中英文混排清晰,数据图表严谨。 它不是在“画”一张看起来像的图,而是在理解并构建一个完整的信息体系。 这种能力才是模型真正的技术护城河,标志着它从一个“生图工具”向“会思考、懂设计的视觉生成系统”的跨越。 海报与设计:考察商业级完成度 让它试着画一张Air Jordan 1产品宣传海报。 鞋的质感、中文文案、版式层次、品牌调性……看这商业级完成度: △Air Jordan 1产品宣传海报(由UniWorld-V2.5生成) 来一张苹果手机的宣传海报。 字体、排版、风格,专业摄影风格图片,美学和质感可以说是拉满了: △苹果手机宣传海报(由UniWorld-V2.5生成) 国产视觉AI的突围:在OpenAI与Google的身影前“抢跑” UniWorld-V2.5的横空出世绝非偶然,它背后站着一位视觉AI深水区的“领跑者”: 兔展智能。 深圳兔展智能科技有限公司,由董少灵在北京大学宿舍于2014年发明最早的H5工具而创立。 后来到了2022年,其与北京大学年轻一代视觉AI领军人才袁粒等二次创业。 公司总部位于深圳,已服务超4100万家企业⽤户。 截至目前,兔展智能已获深创投、腾讯、龙岗⾦控、嘉道资本、中国风投、青岛人工智能基金、招商局创投等头部机构投资,完成F轮融资。 它还是国家⾼新技术企业、国家级专精特新“⼩巨⼈”企业、⼤湾区最具潜⼒独角兽、⼴东省⾸个“AI国家级⾼技能⼈才培训基地”。 兔展智能的UniWorld系列模型,为什么能做到“理解即生成”? 因为它的技术底座早已遥遥领先: 自研“兔灵”大模型:广东省首个完成备案的视觉空间智能大模型,在视觉理解、压缩重建等核心领域实现多项SOTA(业界最佳) 技术突破; 开源第一:其开源的Open-Sora Plan是全球最早的开源视频生成模型之一,曾连续多日登顶GitHub全球趋势榜榜首,单模型超过2600万次下载,2024年视觉大模型代码引用量全球第一,被字节、腾讯、华为等大厂广泛采用; 架构创新:UniWorld系列是国内最早实现“理解、生成、编辑”统一架构的视觉空间智能模型。其中,UniWorld-V1早于Nano Banana三个月推出,UniWorld-V2在权威评测(GEdit-Bench)中综合性能超越OpenAI的GPT-Image-1,多项关键指标亦一度优于谷歌的Nano Banana系列模型,并入选2025年西丽湖论坛深圳市七大科技关键成果、广东省人工智能与机器人科技进步一等奖第一名; 国际领跑:其推出的Video LLaVA模型成为Google Gemini Pro技术报告中作为对比基准的视觉理解模型,标志着技术获得国际顶级认可。LLaVA-CoT模型则在行业内首次提出视觉慢思考架构,让模型能够进行自主、系统化地多阶段推理,突破了传统视觉模型单步响应的局限,该研究成果被ICCV 2025会议收录(计算机视觉领域的三大顶会之一),获得同行评审的权威认可; 国产生态:与华为昇腾深度合作,是昇腾910C芯片全球首个大规模用户,打造了行业最早100%基于昇腾架构的视觉生成模型Open-Sora Plan V1.5,突破了算子适配、大规模训练等一系列“卡脖子”问题。这不仅是一次技术胜利,更是为中国AI基础设施的自主可控,提供了一个完整的可行范本。 值得⼀提的,是UniWorld系列发布的历史时间线: UniWorld V1⽐Nano Banana早发布整整3个⽉,且同步开源; UniWorld V2在Nano Banana Pro发布之前,已是⾏业第⼀; UniWorld V2.5,是这条路上的最新⼀站,突破了高密集文字、信息图、图文交错、结构化生成等一系列领域难题。 面向高度结构化且依赖复杂世界知识推理的生成任务,传统的一句话出图范式已难以支撑。 区别于传统prompt-to-image的范式,团队将超过80%的token预算用于意图理解、推理与布局规划,相当于引入资深的“总设计师”来全程指挥和全局控制。 这从源头上保证了生成的质量,也体现了理解与生成统一的多模态范式优势。 其中,兔展智能首席科学家、北京大学袁粒老师,及其博士生晏志远等人,深度参与了核心能力的设计与实现,是V2.5关键突破的重要贡献者。 兔展智能一直围绕着让人类叙事更生动高效的使命,投入到最前沿的视觉智能创新。 据悉,兔展智能也将在不久之后,推出视觉空间智能路线为基础的世界模型。 站在世界舞台的国产模型,等你免费体验 AI生图的上限,远比我们想象的要高。 UniWorld-V2.5的发布,用实力证明了在中文语境和超复杂逻辑场景下,国产模型已经具备了站在世界舞台中央的底气。 设计行业的“一句话出图”,过去是由GPT-Image-2引发的焦虑。 现在,这个能力在国内坚实落地了,而且是以自主可控、可微调、国产算力的形式落地的。 品牌方、内容平台、电商商家、医疗科普机构、教育出版机构,任何需要大规模生产视觉内容的场景,过去需要设计团队花数小时完成的工作,现在仅需要一句自然语言。 更重要的是这件事的示范意义: 在多模态图像生成这条赛道上,中国不再只能是跟跑。 一个从北京大学走出来、深耕视觉大模型4年的团队,今天交出了这份答卷。
量化公司,正在批量生产AI独角兽创始人
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 啊?!原来你们这群搞AI的,几年前都在华尔街玩量化……还师出同门。 震惊了,最近𝕏上疯传一份Hudson River Trading首届实习生名单。 人也不多,就10个。但仔细一看吓一跳,个顶个都是老熟人: Alexandr Wang:Scale AI联合创始人/CEO Jesse Zhang:Decagon联合创始人/CEO Scott Wu:Cognition联合创始人/CEO Jeffrey Yan:Hyperliquid创始人/CEO 几乎如今AI初创圈的半壁江山都在这儿了,阵容豪华程度堪比当年的PayPal Mafia。 而如今,真是江山代有才人出,只不过这一届的Godfather变成了量化。 不仅如此,Scott Wu本人还现身评论区,坦言他们这群人其实早在HRT之前就已经因为奥赛结识…… 除了前面提及的四位,还有Perplexity联创Johnny Ho、Pika创始人兼CEO Demi Guo,以及Cognition联创Steven Hao等。 奥赛→量化实习生→AI创业,原来大神都是这样练成的。 也难怪有网友说: 现在就为我未出生的孩子报名所有奥赛。作为一个未婚的亚洲男人,这可以算作提前规划。 妥妥地赢在起跑线~(doge) 华尔街上的硅谷黄埔军校 要不还得说华尔街的眼光毒辣,这招实习生一招一个准。 首批就招10个人,4个已经是硅谷新贵,其余人也是各自行业的佼佼者。 单论这人才转化的爆率,对标谷歌、Meta这些专产AI大神的硅谷公司,都有过之而无不及。 Alexandr Wang 先看最近风头正盛的亚历山大王。 亚历山大王是典型的奥赛天才出身,中学时期就连闯数学、物理、计算机三大领域竞赛。 连续两年入围美国计算机奥林匹克竞赛决赛,并在2013年进入数学奥林匹克夏令营,2014年加入美国物理国家队。 MIT辍学创业Scale AI的同年,他加入HRT负责算法开发。随后在YC扶持下,和Lucy Guo一起联合创立数据标注公司Scale AI。 公司早期专注自动驾驶数据标注,并在后续逐渐扩展到多模态数据处理,并服务OpenAI、Meta等大模型公司。2021年公司估值就已突破73亿美元,也让亚历山大王一举成为最有前景的AI独角兽CEO之一。 在去年6月,Meta完成对Scale AI的收购投资,亚历山大王随即加入Meta领导超级智能实验室,并在几天前刚刚交卷首个大模型——Muse Spark。 Muse Spark主打原生多模态,作为Meta迄今为止最强大的模型,一经发布,就火速拉升Meta股价7%,一度涨幅超过近10%。 在第三方测评中,Muse Spark也同样表现优异,成功带领Meta回到行业第一梯队。 Scott Wu Scott Wu堪称美国信息学奥赛的扛把子。 总共获得过三枚IOI金牌,其中2014年更是以600/600的满分成绩排名全球第一,是IOI历史上极少数获得满分的选手之一。 Scott Wu的商业嗅觉相当敏锐,在哈佛大二期间就参与创办了AI驱动的社交平台Lunchclub,旨在通过算法匹配专业人士进行午餐交流。这也让他入选了2020年福布斯30岁以下精英榜。 2023年,他作为创始人一手建立了Cognition,次年3月发布了世界上第一位AI软件工程师Devin。 不同于GitHub Copilot的编程助手定位,Devin能够自主规划复杂的工程任务,完成代码编写、调试bug、部署等全栈操作。 在SWE-bench上,Devin表现断层领先,能够独立解决13.86%的GitHub真实问题,远超当时最强的顶尖模型GPT-4等。 Devin更是一举将背后的公司Cognition推向了资本市场的巅峰,公司在成立不到一年的时间内,就估值飙升到102亿美元。 目前得益于对Windsurf的战略收购,年化收入(ARR)已突破1亿美元大关。 Jeffrey Yan 不同于Alexandr Wang和Scott Wu完全转投AI,Jeffrey Yan则继续在AI金融深度挖掘。 他在18岁就获得了物理奥赛金牌,并在青少年奥林匹克夏令营认识了小他两岁的Scott Wu。 据他回忆,HRT首期实习生项目是在他大三那年的冬天,彼时的HRT已经是世界上最成功的量化交易公司之一。 实习项目为一个耗时三周的竞赛,而在每一轮中,Scott Wu都会和他包揽前两名。在哈佛硕士毕业之后,Jeffrey Yan还全职加入过HRT,负责美股算法开发。 选择量化,是因为他认为交易是现实世界中最纯粹的真人博弈: 你是对的,还是错的,市场会给出最终的答案。全世界最聪明的人都在和你竞争,人们共同创造一个流动高效的金融市场。 而离开量化,则是因为他希望能创造出更多价值,比如用AI革新金融根本。 他创办了去中心化交易平台Hyperliquid,自2023年以来,累计交易量已超过4万亿美元,占据市场37%的份额,目前也是全球人均利润最高的初创公司之一。 Jesse Zhang Jesse Zhang不仅是硅谷目前最活跃的AI创业者之一,也是一名眼光独到的天使投资人。 高中时期曾两次入选美国数学奥林匹克训练营以及进入美国物理国家队,在2015年他还入围了被誉为“少年诺贝尔奖”的Intel科学天才奖决赛。 三年读完哈佛本科后,Jesse Zhang先后在HRT、谷歌实习工作,并在2017年创建游戏社交初创公司Lowkey,公司在2021年被《宝可梦Go》开发商Niantic收购。 2023年他再度创业AI客服智能体公司Decagon,短短三年不到公司估值就达到45亿美元。 与此同时,他还连续投中了包括Pika、Cursor、Lovable、Cognition等在内的30多家明星AI初创公司,并入选2026年福布斯AI领域30位30岁以下精英榜单。 Johnny Ho Johnny Ho是和Scott Wu齐名的IOI大神,同样三次获得IOI金牌,并在2012年拿下满分,位列全球第一。 在哈佛毕业后,他曾在华尔街顶级高频交易公司Tower Research Capital工作多年,担任量化交易员,负责开发高频交易模型和策略。 在2022年,他和Aravind Srinivas、Denis Yarats、Andy Konwinski等人共同创立了Perplexity,并担任CSO。 Perplexity目前是全球AI搜索领军企业,月活跃用户超1亿,在去年底完成E轮融资后公司总估值约200亿美元,截止到今年4月,ARR已突破5亿美元。 在2月份,Perplexity刚刚推出龙虾旗舰产品Perplexity Computer,支持19种模型的调用,不仅能回答问题,而且能像人类操作电脑一样自主执行任务,操作内容几乎囊括日常所需的全部场景。 Demi Guo Demi Guo出生于杭州,年少时期跟随家人移居美国,随后摘得2015年IOI银牌。 在哈佛本硕和斯坦福博士期间,她先后在Quora、微软、HRT、谷歌、Meta、Epic工作实习,并曾在红杉资本中国、创新工场等多家公司担任风险投资实习生。 2023年,她和Chenlin Meng、Karli Chen共同创业AI视频生成公司Pika,三年时间Pika已经迅速成长为行业第一梯队,全球用户规模超1600万,并收获了Quora创始人 Adam D’Angelo、GitHub前CEO Nat Friedman等明星投资人的青睐。 Steven Hao Steven Hao同样也是IOI金牌选手出身,MIT本科期间曾在全球顶级量化交易公司Jane Street和The D. E. Shaw Group实习。 2018年开始,他正式加入亚历山大王的Scale AI担任软件工程师,在工作四年之后选择辞职创业,和Scott Wu一起创办了Cognition。 事实上,Cognition的另一位联创Walden Yan也同样是IOI金牌得主,公司成员也绝大多数都是竞赛出身,所以网友也经常戏称Cognition是IOI金牌梦之队,仅有10人左右的小团队,却拥有数10枚IOI金牌。 ……. 而这群人还只是这份名单上的冰山一角,具体名单有多长,我们还无从得知。 但显而易见的是,他们身上都高频折射出同一条成长路径: 奥赛出身、量化实习、AI创业。 其中,量化背景正在成为这批硅谷新贵最独树一帜的特征。 AI上岸第一站:量化 说到量化和AI的合流,最典型的莫过于DeepSeek。 幻方量化的确是行业绕不开的坐标,作为国内头部量化机构,它率先将量化思维,正式带入国内AI行业的视野之中。 也让许多人第一次意识到,原来搞AI的和搞量化的,本质可以都是同一批人。 首先,量化和AI之间底层逻辑高度同频。 它们的核心都是在大规模随机数据中寻找确定的范式,都是在追求可复现和可验证的稳定支点。 简单来说,就是在不确定中寻找确定。 其次,二者的技术栈也紧密重合。 从早期的线性模型,到后来的LSTM,再到如今的Transformer,两边都在共用同一套序列建模的技术演进,只是量化是用看K线图的方式理解Token序列。 在数据处理上,都涉及监督学习与强化学习范式,并需要应对大规模数据噪声。 而这些顶级量化私募,和头部AI实验室一样,都是算力吞金兽,同样遵循Scaling Laws原则,同样需要长期维护大规模的GPU集群。 也正因如此,它们在招聘人才时,争抢的都是同一批人。 奥赛金牌、顶级名校、编程大牛,在两边都是炙手可热的存在。AI公司喜欢去量化机构挖算法工程人才,量化巨头也热衷于高薪吸引AI顶级工程师。 AI与量化之间的行业界限正在变得模糊,量化训练已成为AI创业人才培养的一条隐性路径。 但这个趋势,放眼国内还不太明显。 国内有量化出身的AI创业者吗?答案是肯定的,但并非主流。 绝大多数国内AI创业者还是遵循着一条稳定的工程化成长管道:先拥有扎实的高质量学术背景,然后进入成熟的头部大厂深耕AI核心技术,积累产业经验后再出走创业。 这样一套下来,国内这些AI创始人更懂得如何进行产品落地和完成商业闭环,创业容错率也相对较高。 但实则两种路径并无高下之分,只是在不同环境下,各自选择了最切实的发展方式。 无论如何,我们都在亲眼见证新生代技术领袖崛起的过程,这就已然足够。 19岁的亚历山大王曾立下flag,他们这群人要做下一个PayPal Mafia。 现在看来,应如是。
字节养的“虾”与1500亿账本背后
文 | 方棱镜 这大概是字节跳动有史以来最分裂的几天了。 4月20日,“字节跳动2025年净利润同比下滑超70%”的话题冲上热搜。评论区炸了——字节怎么突然不行了? 抖音集团副总裁李亮很快回应:净利润下滑是国际会计准则的数字,包含优先股和期权成本变动,不反映运营实质。剔除这些会计因素后,字节总体营收和利润仍然是增长的。 那利润到底去哪了?据多家媒体报道,2025年三、四季度,字节大幅增加了AI算力采购、模型研发和数据中心基础设施的资本支出,全年资本开支超过1500亿元人民币,其中约900亿砸向AI算力采购。而2026年,这个数字预计还将进一步攀升至1600亿元。 一边是All in AI的巨额投入,一边是短期利润被拖累的现实。可以看出,字节在用真金白银押注一个确定性:AI是下一代基础设施。 作为一个每天都在跟文字、跟内容打交道的人,看着这些新闻,忽然有种很微妙的感受。连字节这样的巨头都在为AI“消耗”当下,我们这些普通职场人,凭什么还站在原地等? 字节烧掉的钱,换来了什么? 还是先聊聊字节。2026年刚开年,字节的AI动态就密集得像在赶工期。 2月14日,豆包大模型2.0正式发布。这是自2024年5月豆包首次亮相以来的第一次跨代升级。新版本强化了高效推理、多模态理解与复杂指令执行能力。旗舰版豆包2.0 Pro在IMO、CMO数学奥赛和ICPC编程竞赛中直接拿下了金牌成绩,数学和推理能力达到世界顶尖水平。在被称为“人类的最后考试”的HLE-text基准测试中,豆包2.0 Pro以54.2分超越了Gemini 3 Pro和GPT 5.2。 几乎同一时间,字节的视频模型Seedance 2.0和图像模型Seedream 5.0 Lite也相继发布。三款核心模型密集上线,构成了字节在春节前夕的全线AI布局。 这些模型不只是拿来“聊天”和“生图生视频”的。字节CEO梁汝波在2026年开年全员会上把新一年的关键词定为“勇攀高峰”,短期内的“高峰”就是豆包和豆包海外版Dola。他还表示在做好To C助手的同时,To B的MaaS(模型即服务)业务也有很大机会。 MaaS业务确实在爆发。IDC数据显示,2025年上半年,火山引擎在中国公有云大模型调用量市场份额高达49.2%。豆包大模型日均Token处理量已经超过120万亿,较两年前增长约1000倍。越来越多的企业和开发者,正在把自己的业务流程“搬”到AI计算上。 到了4月初,字节的即梦AI上线了一款叫Octo小章鱼的协作型AI叙事创作工具。从故事大纲梳理、剧本分镜生成到成片输出,小章鱼试图把创作者从繁琐的执行中解放出来,只保留审美和判断。虽然内测期表现有些欠缺,但这怎么不算是影像创作者的专属Agent呢? 另一个更早出现且更通用的Agent来自开源社区。2025年11月发布的AI智能体框架OpenClaw(被国内用户亲切地称为“小龙虾”),到2026年3月GitHub星标数突破28万,成为GitHub历史上获星最多的软件项目。它让AI从“只说不做”变成了“能动手”——一句话指令,AI就能操控电脑、整理文件、运营社媒。火山引擎、阿里云、腾讯云、百度智能云全部在抢着接入部署。 这些动态指向同一个底层规律,就是计算成本会越来越低,人力成本不会。因为芯片越做越快,电费越来越便宜,算力每18个月翻倍……而人,始终要吃饭。我们看到的无论是豆包2.0把智力问题变成可计算、MaaS让企业业务流程上云,还是OpenClaw让AI动手干活,本质上都是把更多人类工作,转化成计算可以处理的问题。 这也是我特别想和大家说的——只要某个问题能被“计算化”,也就是变成计算能解决的事,那不管现在多贵、多低效,未来一定会变得极其便宜。AI就是那座桥,把以前算不了的问题,变成能算的问题。字节掏出1500亿,现在看很贵,但它赌的就是“赚回未来”的趋势。 AI正在重新定义什么能力更值钱 这个趋势不是遥远的概念,它已经在现实中撕开了口子,渗入生活和工作的方方面面。 3月“AI大厂月薪3万疯抢文科生”冲上了热搜。360创始人周鸿祎大视频称:“AI公司开始大量招文科生,占比从5%涨到30%”。英伟达CEO黄仁勋同样强调过语言能力的重要性。打开招聘软件,AI叙事设计师、AI伦理研究员等岗位要求里写的是中文、编剧、社会学、新闻学等文科专业。 似乎当“执行”可以被计算化,判断力、表达力、共情力这些“文科生技能”反而成了稀缺品。谁能更懂人、更能把模糊的需求翻译成清晰的指令,谁就能在这场变革中拿到更高的议价权。 4月中旬,一个叫“同事.skill”的概念引起热议。简单说,就是把一个同事的飞书消息、钉钉文档、邮件、截图等资料打包,就能把他的经验封装成一个AI“技能包”。有媒体报道了一个真实的职场场景:自从公司的skill库搭建起来后,每天都有几个skill入库。越来越多人的经验正在被拆解、标准化,随时可能被skill取代。 这是不是有点让人后脊发凉?我们引以为傲的“经验”和“手艺”,正变成可以被AI一键调用的模块。公司算账的逻辑也跟着变,既然效率翻了几倍,还要那么多人干什么? 到了4月20日,“爱奇艺疯了”又登顶微博热搜。爱奇艺宣布推出AI艺人库计划,声称已有100多名艺人入驻,可以利用他们的数字分身制作AI剧集。消息一出,张若昀、于和伟等多位艺人紧急发声,明确表示“未签署任何AI相关授权”。 这场争议的核心矛盾其实很典型。当AI可以用你的数字分身去工作、去创作、去创造价值,那“你”的边界在哪里?谁拥有你“数字劳动力”的支配权? 这三件事,其实拼出了“计算化”的三个层次:能力价值的重估、经验模块的封装、劳动力边界的重塑。那些已经跑在前面的人,也不是说技术就有多厉害,而是率先读懂了这套规则,并开始主动参与其中。 观望的人,窗口期还有多长? 你可能会想:我等工具更成熟、更开箱即用再上手不行吗? 一个残酷的事实,是技术迭代从不等待观望者。脉脉平台发布的春招报道显示,近半数岗位明确要求具备AI相关能力,AI岗位数量同比增长约12倍,而人才供需比仅为0.97,市场供不应求。那些主动拥抱AI的人,正在抢占薪酬和岗位的头部。 有人乐观地说“怎么也得5到10年才需要面对被替代”。但字节的1500亿账本摆在那儿呢!巨头在用真金白银缩短这个时间窗口。就像周鸿祎说的,一个大学毕业生经过半年培训,一个人一天就能产出好几集短剧。等“未来”来了,你的价值在哪了? 最扎心的还不是替代,而是“时滞”。替代来得快,一套系统上线半年就能砍掉一批岗位,但新岗位的创造是渐进的、分散的。中间的这段空窗期,才是真正让人焦虑的地方。 那怎么办?我的体会是三步:第一,别把AI当对手,当工具;第二,别光焦虑,先拿一个最小的任务试试;第三,认清一个转变——人的价值正在从“执行”转移到“判断”。 未来比的不是你多会写代码、多会作图,而是你能否提出好问题、做出正确的判断、构建有价值的连接。 万物皆可计算化,这是加入AI的第一步 说到底,很多人用AI的思路是“等”——等一个开箱即用的工具,等它足够成熟,然后拿来解决问题。解决不了就继续等下一版。这是消费者的心态。 但真正跑在前面的人,用的是另一种思路:主动把自己的工作“计算化”。 不是等着AI来替代你,而是你自己去拆解工作流程,看看哪些环节可以转化成计算问题,然后想办法让AI去跑。哪怕没有现成工具,你也可以用AI编程、智能体配置,拼一个适合自己的自动化流程。 这个门槛已经低到不需要你懂代码了。你要花时间去想:我的工作里,哪些是可以被计算的? 字节愿意用1500亿去赌这个未来。因为计算成本终局是无限下降,AI必然会拓宽“可计算问题”的边界。那么,我们作为个体的新价值,就不在于跟AI抢饭碗,而在于成为那个定义“什么问题值得被计算化”的人。 回到那个让我们焦灼的问题:技术进化这么快,人该怎么办? 答案不是恐慌,也不是盲目乐观地等上5到10年。而是换一种姿态,思考如何把模糊的需求、碎片的工作、隐性的经验,翻译成计算可以处理的指令?你能在AI能力和你自己的专业判断之间,搭起多少座桥? 假如AI是台电脑,那你的“计算化”能力就是这台电脑的芯片。
这一次,梁文锋和杨植麟隔空握手
真是热闹的一周。 周一,Kimi刚发完Kimi K2.6;周五,万众瞩目的DeepSeek V4就来了。 这种感觉很熟悉。 过去一年,这两家公司不是前后脚发模型,就是前后脚发技术论文,不是你把市场热度点着了,就是我把技术讨论接过去了。 更早之前,说起中国开源模型,几乎条件反射地想到DeepSeek。 尤其是DeepSeek发布R1之后,这家公司不仅凭一己之力改写了全球市场对中国AI的印象,而且唤醒了其他中国的AI创业团队的“信心”。 于是,我们看到,更多的中国AI创业团队开始做出非常竞争力的模型,带来非常有影响力的技术研究成果。 2025年7月,被《自然》杂志称为“又一个DeepSeek时刻”的Kimi K2模型,在底层架构上首次大规模验证了二阶优化器 Muon,同时采用了 DeepSeek验证过的 MLA注意力机制。 到了2026年4月,DeepSeek V4在架构上也跟进 Kimi K2采用 Muon优化器,取代过去已经使用了10年的Adam优化器。 这可能是开源最大的价值:让中国公司共享技术,加速追赶美国的闭源巨头。 它们是中国目前唯二,总参数超过万亿、已权重公开的中国模型。也是最有国际影响力的中国AI模型代表。全球市值最高的英伟达公司在展示下一代芯片性能时,用的模型正是来自 DeepSeek 和Kimi。 不仅如此,他们也都在挑战深度学习网络的底层架构,DeepSeek有mHC残差连接,Kimi有引发硅谷核心技术圈讨论的“注意力残差”。 虽然说DeepSeek V4和Kimi K2.6在同一周发布,但其实两个模型各有技术侧重点。 V4的核心突破在于百万上下文的成本重构,它通过全新的混合注意力机制,将单token推理的计算量压缩到V3.2的27%,KV Cache降至10%。 这套方案结合了压缩稀疏注意力和重度压缩注意力,让百万级上下文从技术演示变成了可以普及的基础设施。 V4同时针对agent场景做了专项优化,后训练阶段把agent作为独立方向单独训练,工具调用格式从JSON换成带特殊token的XML结构,跨轮次推理痕迹在工具调用场景下完整保留。 DeepSeek还自建了名为DSec的沙箱平台,单集群可并发管理数十万个沙箱实例,用来支撑agent强化学习训练和评测。 K2.6的方向则更偏向长程编码和agent集群。它在Kimi Code Bench内部评测中得分68.2,比K2.5的57.4提升约20%。 最高可支持300个子agent并行完成4000个协作步骤。 2025年2月,Kimi 发布 Moonlight系列模型,首次将二阶优化器Muon应用于480亿参数的大模型,验证了新一代优化器的效果。 2025年4月,Kimi-VL模型发布,在Moonlight模型的技术上,引入MoonViT视觉编码器,为之后的多模态理解模型打下基础。 2025年7月,Kimi首次将Muon优化器扩展到万亿参数的规模,推出 K2 开源模型。 2025年10月,Kimi发布Kimi Linear,这是Kimi提出的一种线性注意力架构,核心目标是在保住长上下文能力的同时,把大模型处理超长文本的计算和显存成本降下来。 这说明杨植麟已经不满足于只做模型了,他想对模型的底层架构动手。 随后,Kimi发布并开源支持图片和视频理解的万亿参数模型Kimi K2.5。 2026年3月,Kimi发布注意力残差的论文,继续对Transformer的底层结构下手。 这篇论文在X上收获了马斯克本人的称赞。 在然后就到了前几天的K2.6,这是一个围绕长周期编码、agent执行、工程任务能力的模型。 从产品定位的演变可以看出,Kimi正在从消费级对话产品往生产力工具转型。 2026年3月,杨植麟在英伟达GTC大会上发表演讲,系统介绍Kimi技术路线,他用三个关键词概括Kimi的Scaling策略:Token效率、长上下文、agent集群。 他表示,要推动大模型智能上限的持续突破,必须对优化器、注意力机制及残差连接等底层基石进行重构。 当前的Scaling已经不再是单纯的资源堆砌,而是要在计算效率、长程记忆和自动化协作上同时寻找规模效应。 一家公司最怕的是,只有媒体在讨论你,开发者却不用你。 但Kimi不一样,无论是在OpenRouter上还是绝大多数agent工具的默认接口里, K2.5和K2.6都是主流选项。 截止发稿,Kimi和DeepSeek都出现在OpenRouter的TOP3模型里,在AA的榜单上,K2.6甚至暂时占得先机。 而在K2.6这里,模型继续强化agent、长任务、编码能力,也是同一个信号。杨植麟真正押注的,就是生产力场景。 这也是Kimi这一年最关键的变化。 它不再只是告诉用户“我能帮你读更长的文件”,而是在回答更底层的问题,模型怎样才能在更长时间、更复杂任务、更高工具调用密度下保持稳定? 长上下文解决的是记忆和信息承载;线性注意力解决的是成本和扩展性;agent集群解决的是复杂任务拆解;编程能力解决的是模型的理解和执行。 它们看起来是几条不同产品线,其实背后指向同一个方向,Kimi想把Kimi从一个好用的聊天窗口,变成可以承接真实工作的基础模型。 4月,杨植麟受邀参加总理主持的经济形势专家和企业家座谈会,作为唯一的大模型创业者代表发言。这个1993年出生的年轻人,成为座谈会上最年轻的参会者。 一个月前,他刚在2026中关村论坛年会全体会议上发表演讲,系统阐述了中国AI团队如何通过底层架构的“推倒重建”,打破沿用十年的行业技术标准。 显然,Kimi已经从一家创业公司,变成了代表中国AI技术路线的符号之一。 Kimi这一年的成长路径,和DeepSeek的路径有明显差异。两家公司的技术选择不同,但也正因如此,才让中国开源模型有了更多可能性。 过去我们写这两家公司,容易写成“谁的模型好”、“谁才是下一个OpenAI”。 但这其实是个误区。 DeepSeek和Kimi,不该被简单理解成“谁赢谁输”。它们更像中国开源模型对外竞争的两条腿。不存在谁取代谁,而是应该互相刺激互相促进。 DeepSeek和Kimi相继证明了一件事,做前沿模型不一定需要无限的资源,关键在于算法创新和工程优化。它们在模型算法、工程效率、开源路线和降低推理成本上的贡献,仍然是中国AI过去一年最重要的技术事件之一。 它们彼此竞争,但也彼此抬高了中国开源模型的上限。 真正重要的不是它们谁先到终点,而是它们把中国模型的竞争维度拆开了。 过去我们评价一家模型公司,很容易只看榜单、参数、价格、发布会声量。 但模型公司真正的护城河,已经不再是“模型聪不聪明”、“模型性能如何”这些事了。现在围绕模型的叙事,是它能不能形成一整套技术路线。 DeepSeek把第一件事做得很彻底。它让外界看到,中国公司可以用更高的工程效率,把模型训练和推理成本打下来,可以把技术报告写到足够透明,可以把权重开放到足够激进。 它建立的是一种开源信任。开发者愿意研究它、复现它、部署它,是因为它不只是给了一个API,而是把模型背后的方法论也拿了出来。 Kimi补上的是另一块。 Kimi最早被用户记住,是因为长文本和聊天产品,但K2.6之后,它讲的已经不是一个更会聊天的助手,而是模型如何进入真实工作流。 长程编码、Agent集群、工具调用、长周期任务,这些能力没有“霸榜”那么直观,但它们决定模型能不能从“被试用”走向“被依赖”。 如果说DeepSeek解决的是模型够不够强、够不够便宜、够不够开放的问题,Kimi更关心的是模型能不能真的替人完成复杂任务。 所以这两家公司放在一起看,意义反而更大。 作为观察者和用户,我们肯定希望都存在,这样产业才能发展。 中国AI真正值得兴奋的,不是终于出了一个DeepSeek。 而是在DeepSeek的带动下,Kimi们依然能靠自己成长为一座座大山。 这说明中国AI公司已经开始在不同维度上找到自己的位置,不再是简单模仿,是真正的在探索自己独有的那条技术路线。 DeepSeek和Kimi的技术互相赋能,也说明了一件事,开源生态的价值在于协作。 现在的问题不是DeepSeek和Kimi谁更强,而是它们能不能继续保持这种竞争关系,继续在技术上互相刺激。 中国开源模型要真正在全球站稳脚跟,需要的不是一家独大,而是多家公司在不同方向上都做到世界级水平。DeepSeek和Kimi的存在,让这个可能性变得更大。
DeepSeek-V4报告亮了!V4发布延迟的秘密,终于曝光了
DeepSeek-V4的技术报告,简直诚实得令人震惊。V4发布延迟的秘密,被正式透露了!这颗大雷的背后,究竟是指谁?研究者们已经纷纷展开了猜测。并且,论文中用硬核工程暴力重构Agent的操作,也让社区直呼:国产之光,实至名归。 昨天,是名副其实的AI圈「春晚」。 DeepSeek-V4的技术报告一出,近60页的篇幅,从架构到训练到后训练全部摊开。 484天,对这个团队来说不寻常。V3从V2到发布只用了不到8个月。V4为什么多花了将近一倍的时间? 认真研读完这篇报告,我们发现了背后可能的原因,以及这家「国产之光」令人震撼的工程底色实。 可以说,DeepSeek-V4真正令人深思的,不是它堆了多少算力,而是它在Agent训练、工程底座、以及处理「训练震荡」时的那种近乎残酷的理性和透明。 今天,我们直接拆开V4的引擎盖,看看里面藏着哪些不为人知的硬核细节。 33T Token + 万亿参数 难度直接拉满 距离V3发布整整484天,V4才以「preview version」的姿态上线。 论文里虽然没有解释这个时间跨度,但有一段内容或许能提供线索。 V3用了14.8T token做预训练,V4直接翻倍,V4-Flash训了32T,V4-Pro训了33T。参数量同样大幅扩张,V4-Pro总参数1.6T,V4-Flash也有284B。 数据翻倍、参数翻倍,训练稳定性的难度也跟着上了一个量级。 报告里非常诚实:DeepSeek明确点名了「训练稳定性挑战」。 谷歌DeepMind研究者Susan Zhang表扬说:这种透明的做法值得称赞。这个说法还得到了龙虾之父的转发 在超大规模集群上,当参数量和训练数据达到某个临界点时,硬件的细微误差会被无限放大。 论文里,「stability」这个词出现了十余次。 放在一篇技术报告里,这个频率本身就是信号。正常情况下,稳定性是默认前提,不值得反复提。反复提,说明它确实是个问题。 具体来看,DeepSeek发现MoE层中的数值异常值(outlier)会通过路由机制不断放大,形成恶性循环,最终触发loss spike,训练曲线突然飙升。 团队祭出的主要补救措施是两招。 第一招叫Anticipatory Routing。它本质上就是在路由阶段使用稍早版本的参数,把骨干网络和路由网络的更新解耦,打破两者之间的恶性循环。 第二招是SwiGLU Clamping。它直接把SwiGLU的数值范围钳制在[-10, 10]以内,从源头压制异常值,虽然暴力但很有效。 当前大模型训练已进入硬件底层、编译器栈、以及数学架构三位一体的无人区 论文里有个细节很耐琢磨。 Anticipatory Routing和SwiGLU Clamping,DeepSeek确认「显著有效」,但紧跟一句「底层机理仍是open question」。 连Q/KV归一化这种已经被广泛验证的基础操作,论文的措辞都只敢写「may improve training stability」。 一个「may」字,足以说明在万亿参数MoE的训练里,没有什么是百分百靠得住的。 从15T到33T,数据量翻倍带来的不是线性增长的困难,而是指数级放大的系统性风险。 每一层网络、每一个梯度更新、每一次通信同步,都在更大的规模下被放大成潜在的崩溃点。 而DeepSeek选择把这些全写进论文里,这在业内几乎没有先例。 硬件的锅,还是软件的锅? 所以,技术报告中明确提出的「训练稳定性挑战」,指的到底是谁家的硬件? 虽然论文里没有明确点名任何硬件平台,但已经有嗅觉敏锐的人开始猜测了。 有观点直接指出:所谓「训练稳定性挑战」,很可能就是算力平台的问题。而且不只是DeepSeek一家踩坑,各大厂商都遇到过。 xAI在一次发布会上,Macrohard项目的负责人曾隐晦提到,英伟达最新的芯片给他们造成了「不小的麻烦」,不得不重新开发硬件适配程序。这或许也解释了xAI进度突然放缓的原因之一。 不过,这件事当然没那么简单。 大型算力集群涉及的变量太多:芯片本身、互连架构、散热系统、电力供应、驱动版本、编译栈适配。训练不稳定未必等于芯片级缺陷,也可能是系统集成层的问题。 不过,目前还没有任何官方文件给出答案。 一切都还在猜测之中。 Agent训练体系 工程能力让人肃然起敬 如果说V4的预训练是在和硬件博弈,那么它的Post-training则展现了教科书级别的工程审美。 可以说,Agent能力的工程化路径,是V4论文里最值得细读的部分。 以往我们认为Agent能力是「教」出来的,但DeepSeek认为,Agent能力应该是「长」出来的。 拒绝「硬迁移」,预训练阶段的「血脉注入」 行业内大部分的做法是,先训一个对话模型,再硬迁移成Agent。DeepSeek看来,这太低效了。 在V4的mid-training阶段,他们就注入了海量的Agentic Data。 这意味着,模型在基础学习阶段,就已经见过长任务链、环境反馈和文件修改模式。它还没学会写诗,就已经见过了Linux命令行的报错。 这就是一种地基层面的设计。 独创的Specialist Training(专家特训法) 另一大亮点,就是DeepSeek独创的专家特训法。 V4没有直接练一个全能战士,而是先练出了数学专家、代码专家、Agent专家、指令跟随专家。 这种分阶段的Specialist Training保证了每个领域的上限被拉到最高。 最后,再通过OPD(Multi-teacher On-Policy Distillation,多教师在线策略蒸馏),将这些专家的灵魂聚合成一个统一的模型。 这里工程上的难度在于,同时加载十多个万亿参数级的教师模型做在线推理不现实。 V4的方案是不缓存教师的logits(显存装不下),只缓存教师最后一层的隐藏状态,训练时按需通过prediction head重建logits。 然后,按教师索引排序训练样本,确保每个教师的prediction head只加载一次。KL散度计算则用TileLang编写的专用kernel加速。 告别传统Reward Model 另外,对于「难以验证(hard-to-verify)」的任务,传统的标量奖励模型(Scalar Reward Model)已经力不从心。 对此,DeepSeek选择引入了Generative Reward Model (GRM)。 它不再简单地给一个0到1的分数,而是根据预设的Rubric(评估准则)生成详细的评估报告。 更关键的是,DeepSeek对GRM本身也做了RL优化,让actor网络同时充当生成式奖励模型,评判能力和生成能力在同一个模型中联合优化。 把Agent做成一套分布式系统 不仅如此,DeepSeek还为V4专门自研了一套底座。 DSec:生产级沙箱集群 为了训练Agent的实操能力,DeepSeek搭建了一个名为DSec的平台。 3FS分布式文件系统,确保了数据的极速存取;数十万并发Sandbox实例,则意味着V4在训练时,同时有几十万台「虚拟电脑」在跑代码、测Bug。 MegaMoE:通信计算一体化 在MoE层,DeepSeek把通信和计算融合进单个pipeline kernel,专家按wave调度,通信延迟完全隐藏在计算之下。 结果就是,通用场景加速1.5到1.73倍,RL rollout等延迟敏感场景最高1.96倍。 自研DSML:拒绝转义失败 工具调用方面,DeepSeek干脆自己设计了一套类似XML的DSL(领域特定语言)。 这套协议简单高效,直接把工具调用的成功率从「看运气」提升到了「工业级稳健」。 Reasoning Effort分模式训练 还有一个精细的设计,就是V4支持不同的思考模式。 Non-think模式是简单的工具选择,秒回。High/Max则针对长文档、重构、复杂Bug,拉满推理算力。 这种「能省则省,该狠则狠」的策略,也是V4成本能做到Claude 1/4的关键。 社区的很多研究者读完这部分后,膜拜得五体投地:「DeepSeek的工程能力,依旧扎实得让人没话说」。 Interleaved Thinking升级 V3.2在每个新用户消息到来时会丢弃之前的思考痕迹,V4在Tool-Calling场景下保留了完整的跨轮次推理历史,让Agent在长时程任务中维持连贯的推理链。 普通对话场景仍每轮清空,保持上下文精简。 硬币的另一面,是94%的幻觉率 Artificial Analysis的实测给出了一个更立体的画面。 跑完Intelligence Index的全量基准测试,V4 Pro只花了1071美金,比Claude Opus 4.7的4811美金便宜了四倍多。 Agent能力方面,V4 Pro Max在GDPval-AA实测(面向真实工作任务的Agent基准)中拿到了1554分,全面领先一众开源模型。 然而,天下没有免费的午餐。 Aritificial Analysis的报告里也非常坦诚地指出了这种做法的代价:V4 pro在AA-Ominiscience上的幻觉率高达94%。 这揭示了一个结构性困境:要在有限算力预算下逼近顶级性能,就不得不在某些维度上做取舍。 DeepSeek选择把筹码全压在推理和Agent能力上,代价,就是知识都准确性。 为什么我们依然对DeepSeek充满敬意? 在这次V4的报告中,有人看到了「训练不稳」的尴尬,有人看到了「幻觉严重」的短板。 但在我们看来,这份报告最动人的地方在于透明。 他们敢于承认硬件适配阵痛,敢于披露那些看似「补丁」的解决方案,更敢于展示自己如何用最硬核的工程能力,在几十万个沙箱里一点点磨出Agent的灵魂。 从V3的Multi-head Latent Attention到V4的OPD蒸馏和DSec沙箱,DeepSeek正在用一种近乎偏执的「工程主义」,探索着大模型通往AGI的另一条路径—— 如果架构还没完美,那就用工程把墙砌厚;如果算力不够便宜,那就用算法把效率榨干。 DeepSeek-V4也许不是最完美的终局,但它绝对是目前最真实的、最充满活力的「中国AI现场」。
字节也入局了,世界模型到底是一门怎样的生意?
这两天,世界模型这个概念非常火爆。 腾讯、阿里相继入局之后,现在好了,字节也算是“半入局”了。 字节正式发布了Seed3D 2.0,这是3D生成模型,你给它文字、图片、多视角图,甚至视频,它帮你生成3D模型。 Seed3D 2.0的第一个优势,是它把几何精度往生产级推了一步。 过去的3D生成,最大问题不是不够惊艳,是不够可靠。边缘发软、薄壁结构断裂、材质只在单一光照下好看,放进游戏引擎、仿真系统或机器人训练环境里,很快露馅。 Seed3D 2.0用两阶段DiT先搭整体结构,再补高精度细节,让锐边、曲面、复杂拓扑和薄结构更稳定。 第二个优势在材质。 别的模型追求的是RGB贴图,以达到视觉效果相似。但Seed3D 2.0追求的是统一生成PBR材质,让金属、粗糙度、反光边界在不同光照下保持物理一致。 这意味着生成结果不只是截图好看,而是更接近可进入真实渲染管线的资产。 更关键的是,Seed3D 2.0它现在不光是能生成3D物体,它还在生成的同时考虑这样一个问题“我生成的物体能不能放进接下来的场景,比如游戏建模、训练机器人这些”。 所以它支持部件级拆分、关节建模、URDF 输出,也能做场景组合和空间布局推理。 一个椅子不只是一个整体模型,而可以被拆成座面、靠背和底座。一个物体不只是摆在那里,而可以进入仿真、交互和运动系统。 所以它的真正优点,其实是把3D生成从内容生产工具,往具身智能、工业仿真和游戏资产基础设施推进了一步。 因此,虽然字节并没有大大方方承认Seed3D 2.0是世界模型,但从某种意义上来说,它算是半个世界模型。 关键点在于,Seed3D 2.0能理解物体的空间结构、部件关系和可操作性,这就是世界模型的特点。 不过Seed3D 2.0不能持续预测世界演化,也不理解力、碰撞、摩擦、破坏、流体等物理过程,这就是为啥它只算是半个。 01 世界模型大战 关于世界模型这件事,得先从李飞飞开始讲起。 4月14日,李飞飞的世界模型公司World Labs发布了Spark 2.0,它是一个Web端的3D高斯溅射渲染引擎。 这个东西的作用是什么?就是让你即使是用手机的浏览器,也能流畅地打开那些包含上亿个粒子的3D世界。 过去做3D场景,要么用传统的三角网格,文件巨大、加载慢;要么就是视频,看完就没了。 3D高斯溅射是个新路子,用数百万个半透明的椭球体来表示场景,渲染效果接近照片级,但问题是数据量太大。一个稍微复杂点的场景就能有几千万个splats,普通设备根本跑不动。 Spark 2.0的核心突破在三个地方。 第一是LoD系统,也就是细节层次技术。它会预先生成不同分辨率的数据,你离得近就显示高精度,离得远就自动降低细节。 第二是渐进式流式传输,场景不是一次性加载,而是边走边下载,就像看流媒体视频一样。 第三是虚拟内存管理,在GPU里划出一块固定的内存池,最多容纳1600万个splats,然后不断地把需要的数据块换进换出。 这套技术最早是World Labs为自己的产品Marble开发的。 Marble是个AI生成3D世界的工具,能根据文字或图片生成可以进入的3D场景。Spark 2.0解决的就是“最后一公里”的问题,它让生成的世界可以被分享、被嵌入网页、被任何人在任何设备上访问。 几乎在同一时间,英伟达发布了Lyra 2.0。 Lyra 2.0和李飞飞的World Labs虽说都是世界模型,不过前者想要解决的是长距离、大范围3D世界生成的一致性问题。 现有的视频生成模型有两个致命缺陷。 第一个叫“空间遗忘”,就是镜头走远了再回来,模型已经忘记之前那个地方长什么样,只能重新编一个,结果前后对不上。 第二个叫“时间漂移”,自回归生成的过程中,微小的误差会不断累积,生成几百帧之后,颜色、结构都开始变形。 Lyra 2.0的解决方案是维护一个空间记忆系统。 每生成一帧,就把它的3D几何信息存下来。下次要生成新视角时,先从记忆里检索出相关的历史帧,建立3D对应关系,然后再让生成模型补充细节。这样既保证了空间一致性,又能利用生成模型的想象力。 更关键的是,Lyra 2.0还用了一个叫“自增强历史训练”的技巧。 传统训练用的都是干净的真实数据,但实际使用时,模型看到的是自己之前生成的、可能有瑕疵的画面。Lyra 2.0在训练时故意喂给模型一些带有退化的历史帧,教它学会纠正漂移,而不是放大错误。 不过,英伟达做这个不是为了让你生成视频,Lyra 2.0的使用场景是机器人和自动驾驶。 真实世界的训练数据太贵、太危险,很多极端场景根本采集不到。如果能用AI生成足够真实、足够一致的虚拟环境,就可以在里面反复训练、测试,然后再部署到现实中。Lyra 2.0生成的世界可以直接导出为3DGS或mesh,接入Isaac Sim这样的仿真平台。 就在李飞飞发布Spark 2.0的第二天,腾讯正式发布并开源了HY-World 2.0。 腾讯的路线和前两家都不一样,它要做的是真正的3D资产生成。 什么叫3D资产?就是那些可以导入Blender、Unity、Unreal Engine的mesh文件和3DGS文件,可以被编辑、被复用、被二次开发的东西。 HY-World 2.0的工作流程分四步。 第一步是全景图生成,用HY-Pano 2.0模型把文字或单张图片扩展成360度全景。第二步是轨迹规划,用WorldNav算法分析全景图的几何和语义信息,自动规划出合理的相机运动路径。第三步是世界扩展,沿着规划好的轨迹,用WorldStereo 2.0模型生成多个关键帧视角,这些视角之间要保持空间一致性。第四步是世界组合,用WorldMirror 2.0把所有关键帧整合成统一的3DGS场景,再优化转换成高质量mesh。 这套流程里最难的是WorldStereo 2.0。 它要做的是新视角生成,也就是给定一个起始视角和相机运动参数,生成目标视角的画面。难点在于既要精确跟随相机控制,又要保持视觉细节,还要和之前生成的区域在几何上完美衔接。 腾讯的解决方案是引入记忆机制,让模型记住已经生成的区域的几何和外观特征,生成新区域时参考这些记忆,避免出现“穿帮”。 腾讯做这个的目的很明确,就是服务游戏和虚拟内容产业。传统的游戏场景制作需要美术、建模、贴图、灯光多个环节,一个高质量场景可能要几个人做几周。如果能用AI直接生成可编辑的3D资产,整个生产流程就被重构了。而且腾讯强调的是“可编辑”,生成出来的不是一段视频,而是可以在引擎里继续调整、继续开发的真实资产。 就在腾讯发布的几个小时后,阿里也扔出了自己的世界模型产品Happy Oyster。 现在好了,4家完全都是不同的,阿里想做的是实时交互的世界生成。 Happy Oyster有两个核心模式。第一个叫Wandering,漫游模式。你给它一句话或一张图,它就生成一个具备物理一致性的完整空间,然后你可以用第一人称视角在里面自由移动,用WASD键控制方向,用鼠标控制镜头。场景会随着你的移动不断延展,物体位置稳定,光照跟随视角变化。目前支持最长1分钟的连续实时控制。 第二个模式叫Directing,导演模式。这个更有意思,它不是生成完就结束,而是让你在生成过程中持续介入。视频播放到任意时刻,你都可以用文字、语音或图像指令来改变剧情、切换镜头、指挥角色。系统会实时响应,场景随之变化,然后继续往下演化。 阿里把Happy Oyster定位为“世界模拟器”。 传统的文生视频是输入prompt、等待渲染、得到成片,这是被动的。世界模拟器是主动的,它在持续地模拟世界的演化,用户可以随时介入、随时改变。这种交互方式更接近游戏,而不是看电影。 不过Happy Oyster的输出是音视频流,不是3D资产。它的优势在于互动体验和生成速度,而不是可以导出到游戏引擎。这也反映了阿里的产品思路,它瞄准的是内容创作、互动娱乐、虚拟直播这些场景,而不是游戏开发的底层工具链。 这个时间窗口里,国内还有两家公司值得一提。 群核科技在2025年发布了空间生成模型SpatialGen和Aholo空间智能开放平台,瞄准的是室内设计和具身智能场景。极佳视界的GigaWorld-1在3月底的WorldArena评测中拿下全球第一,这是一个专门面向机器人训练的具身世界模型。 02 为什么都在这个时间点发 这不是简单的撞车。这几家公司,无论是产品成熟度、技术路线、目标场景,那真是能都不一样的地方全都不一样,所以不可能碰巧在同一时间准备好。 更合理的解释是,大家都在等一个信号,而李飞飞的Spark 2.0就是那个发令枪。 过去两年,AI圈的主旋律是大语言模型。 从GPT-4到Claude,从Gemini到DeepSeek,模型越来越大,上下文越来越长,推理能力越来越强。 但到了2026年初,这条路开始有点难走了。各家的差距在快速缩小。继续讲“我的模型比你强5%”已经很难激起市场兴趣。 agent是去年的热点,但现在也进入了拥挤区。各家都在做能调用工具、能执行任务的AI助手,技术框架大同小异,真正的差异化越来越难。 市场需要一个新故事,一个足够大、足够性感、能够承载下一轮想象空间的新叙事。 世界模型就是这个新故事,听起来比视频生成更接近AGI。 更重要的是,世界模型是个足够宽泛的概念,可以把内容创作、游戏开发、机器人训练、自动驾驶、工业仿真、数字孪生这些完全不同的场景都装进去。 从技术层面看,世界模型的时机也确实到了。 过去两年,几条关键技术线开始汇合。 视频扩散模型提供了生成高质量动态画面的能力,3D高斯溅射提供了高效的3D表示方法,NeRF和三维重建技术提供了从2D到3D的转换路径,实时渲染技术提供了在消费级设备上打开大规模场景的可能,多模态理解让AI能够同时处理文字、图像、视频输入,物理仿真平台提供了训练和验证的环境。 这些技术单独看都不是新东西,但它们现在“熟了”。 视频模型的质量已经足够好,3DGS的渲染速度已经足够快,多模态模型的理解能力已经足够强。 当这些技术组合在一起,世界模型从概念变成了可以落地的产品。 事实上,李飞飞早在2025年6月16日旧金山的YC AI Startup School炉边谈话里,就已经把这条技术线索讲得很清楚。 她回顾了自己从ImageNet一路走来的历程,说最早推动数据驱动视觉方法时,很多人还不相信大规模数据会改变AI;2012年卷积神经网络的爆发让她第一次强烈意识到,视觉模型不会停留在分类和识别,而是会继续走向图像描述、视觉叙事,最后一路走到生成模型。 按这个脉络看,今天的世界模型不是突然冒出来的新概念,而是计算机视觉沿着“理解世界”这条主线自然演化到更高维度的结果。 更关键的是,她当时强调的核心词不是视频生成,也不是3D内容生产,而是空间智能。 她的判断很直接,如果AI想真正接近AGI,就不能只在语言里做概率预测,也不能只对二维像素做模式匹配,它必须理解三维空间、几何结构、物体关系和物理规律,知道世界是怎么被组织起来、又会如何随着时间变化。 这也是为什么空间智能看起来像下一个前沿,或者我换一种方式来表达:世界模型就是整个行业长期低估、一直没真正啃下来的硬骨头。 从这个角度再看最近这一波世界模型热潮,很多事情就更容易理解了。 大家争的表面上是渲染、生成、交互和资产化,底层争的其实都是谁更接近“让机器理解真实世界”这件事 。语言当然重要,但语言本质上是人类压缩过的符号系统。 三维世界却是连续的、动态的,充满遮挡、视角变化和物理约束。建模语言已经很难,建模空间往往更难。所以李飞飞当时那句话的分量很重,空间智能不是一个新标签,它是AI真正走向现实的物理世界之前必须补上的一课。 但光有技术还不够,还需要有人来定义标准。 谁先发布,谁就有机会影响行业对“世界模型”这个词的理解。李飞飞的World Labs在学术界和产业界都有巨大影响力,她发布Spark 2.0,等于是给世界模型这个赛道敲响了开场锣。其他公司如果不跟进,就会在这个新叙事里失去话语权。 所以腾讯、阿里、英伟达、字节都在最近发产品。不是因为产品刚好做完,而是因为这个时间窗口太关键了。 晚一周发布,市场的注意力可能就被其他热点带走了;早一周发布,又没有李飞飞这个“发令枪”来引爆话题。 同时,大厂们也都在抢夺定义权。世界模型现在还是个模糊的概念,到底什么算世界模型、世界模型应该输出什么格式、应该用什么方式交互、应该接入什么样的工具链,这些都还没有定论。 谁先占据某个关键位置,谁就有机会把自己的标准变成行业标准。 World Labs抢的是Web分发入口。如果未来所有的3D世界都通过Spark这样的渲染器在浏览器里打开,那World Labs就掌握了分发渠道。 腾讯抢的是3D资产生产入口,如果游戏公司都用HY-World 2.0来生成场景原型,那腾讯就掌握了内容生产工具。 阿里抢的是实时交互入口,如果互动内容都用Happy Oyster这样的世界模拟器来制作,那阿里就掌握了新的内容形态。 字节抢的是3D造物入口,如果未来游戏、机器人、工业仿真里的物体模型,都通过Seed3D 2.0从文字、图片或视频直接生成,并且自带几何、PBR 材质、部件拆分和关节结构,那字节就掌握了现实物体进入数字世界的第一道入口。 英伟达抢的是仿真训练入口,如果机器人公司都用Lyra 2.0生成的环境来训练模型,那英伟达就掌握了物理AI的基础设施。 所以本质上,是大家在通过不同的产品,抢占世界模型生态里的不同层级。 谁定义了世界的生成格式,谁定义了世界的渲染方式,谁定义了世界的交互范式,谁定义了世界进入仿真的路径,谁就可能成为下一代空间AI平台。 03 世界模型对企业的意义 还有一点,那就是世界模型不是一个孤立的技术,要把它放在企业实际的生产上,才能看清楚这个技术到底是用来干嘛的。 对World Labs来说,世界模型是一个完整的产品闭环。Marble负责生成3D世界,Spark负责渲染和分发。李飞飞的野心不是做一个工具,而是做一个平台。 未来如果有人想分享一个3D场景,不是发一个几个GB的文件让你下载,而是发一个链接,你在手机浏览器里点开就能进入。这个体验类似于你现在分享抖音视频,你并不是真的把视频下载下来,你只需要把那个二维码发给你的小伙伴,他就能扫码直达视频原始网页。 这个商业模式的关键在于降低门槛。 传统的3D内容创作需要专业软件、高性能硬件、复杂的技术知识。 Marble把创作门槛降到了“输入一句话”,Spark又把观看门槛降到了“点开一个链接”。当创作和消费的门槛都足够低,3D内容才可能像图片和视频一样成为互联网的基础设施。 对腾讯来说,世界模型是游戏和虚拟内容产业的生产力工具。腾讯是全球最大的游戏公司,它的核心资产是游戏IP和内容生产能力。HY-World 2.0瞄准的就是内容生产环节。 传统游戏开发,一个高质量的3A游戏场景动辄就需要几十个美术人员做几个月。 即使是那种小规模的独立游戏,场景制作也是最耗时的环节之一。如果AI能生成可编辑的3D资产,美术团队就可以从重复性的建模工作中解放出来,把精力放在创意设计和细节打磨上。 更重要的是,HY-World 2.0生成的是真正的3D资产,不是视频。视频只能看,资产可以用。你可以在Unity里调整光照,可以在Blender里修改模型,可以在Unreal里添加物理效果。 这种可编辑性是腾讯强调的核心价值,因为游戏开发需要的不是成品,而是可以继续加工的半成品。 对阿里来说,世界模型是内容形态的创新。阿里这几年在内容领域投入很大,从优酷到大麦,从直播到短视频,一直在寻找新的内容载体。Happy Oyster代表的是一种新的内容形态,介于视频和游戏之间。 传统视频是线性的,你只能从头看到尾。游戏是开放的,但制作成本高、门槛高。Happy Oyster想做的是“可交互的视频”或者“低门槛的游戏”。用户不需要学习复杂的操作,只需要用自然语言说出自己的想法,场景就会响应。这种体验可能适合互动剧、品牌营销、虚拟陪伴、教育培训这些场景。 阿里的商业逻辑是流量和变现。如果Happy Oyster能够创造出一种新的内容消费方式,就可能带来新的流量入口和变现模式。比如虚拟直播间,主播可以实时改变场景、召唤道具、创造剧情,观众的参与感会比传统直播强得多。再比如品牌营销,用户可以在虚拟世界里探索产品、体验场景,这种沉浸式的互动比传统广告更有吸引力。 开头我就提到了,Seed3D 2.0生成的是带几何结构、PBR 材质、部件拆分、关节关系的3D资产。换句话说,它生成的是“可以继续编辑、渲染、放进引擎、甚至接入仿真的东西”。 这对字节尤其重要。字节的优势一直是内容分发和创作者生态,他们的所有产品,都是在降低内容生产门槛。用剪映降低视频剪辑门槛、用抖音降低视频分发的门槛,再用Seedance降低视频生成的门槛。 Seed3D 2.0降低的是3D资产生产的门槛。 未来如果短视频创作者想做一个3D商品展示,不需要找建模师。电商商家想把商品变成可旋转、可互动的模型,不需要重做一套 3D 流程。游戏团队想快速生成道具原型,也可以直接从图片或视频开始。 所以,对字节来说,Seed3D 2.0的战略价值不是“我也有一个世界模型”,而是当内容互联网从二维视频走向三维空间,字节要继续掌握最低门槛、最高频的内容生产入口。 世界模型最终的竞争不会停留在模型能力上,而是会延伸到生态层面。 谁的输出格式被更多工具支持,谁的渲染器被更多开发者使用,谁的API被更多应用接入,谁能和Unity、Unreal、Isaac、浏览器这些关键平台深度整合,谁就有机会成为这个领域的标准制定者。
假冒DeepSeek!全国首例AI混淆案宣判:罚款5000元
快科技4月25日消息,北京市朝阳区市场监管局近日查办全国首起仿冒混淆DeepSeek案件,对涉事公司处以罚款5000元。 涉事的是北京奥蓝德信息科技有限公司。这家公司运营着一个网站,专门推广一款名为DeepSeek本地部署工具的软件。 然而,这家公司和DeepSeek官方没有任何关系。经执法机关查明,无论是奥蓝德公司本身,还是这款软件的开发主体,均与深度求索公司无任何关联关系。 奥蓝德在涉案软件的下载页面、收费页面、安装页面等多处,直接使用DeepSeek字样及官方图标。 此外,这家公司还砸钱投了竞价排名广告,在百度等搜索引擎上利用DeepSeek的知名度截流,用户搜DeepSeek第一个看到的可能就是这个山寨货。 北京市朝阳区市场监管局依托数字取证技术,运用区块链取证手段固定了全部违法证据,以说理式执法文书向当事人详细阐明了违法情形与处罚裁量权衡。 执法机关最终认定,奥蓝德利用用户信息壁垒,借助DeepSeek字样搭便车、赚取流量热度的行为,责令其立即停止违法行为并处罚款5000元。 这并非孤例。市场监管总局同期公布的五起AI领域不正当竞争典型案例中,杭州一家公司同样因混淆DeepSeek商标被罚款3万元,另有多起涉及ChatGPT的碰瓷案件被查处。 全国首张 AI 混淆罚单的落地,为 AI 领域商业竞争划定了清晰红线,针对 AI 热点搭便车的监管正式进入常态化执法。
东方甄选主播明明和天权将离职,俞敏洪:挽留但尊重选择
4月24日晚,东方甄选人力资源部在东方甄选App社区发文: “我们怀着遗憾和不舍的心情,和大家同步一则消息:主播明明和天权即将告别东方甄选。俞老师和他们进行了诚挚沟通和挽留,但最终尊重他们的选择。公司也尊重和理解他们的个人职业规划与发展选择。 在此,谨向明明和天权两位优秀主播在任职期间,为东方甄选倾注的全部心血、付出的不懈努力,以及留下的无数温暖回忆,致以最诚挚的感谢和最美好的祝福! 愿明明和天权未来在各自热爱的领域中继续绽放光芒。聚散终有时,温情无止境。 无论未来行至何方,都盼你们常回来看看——若遇风雨,我们始终在身后守候。 家门常开,欢迎归来。” 此前,俞敏洪在直播中回应称“在跟明明和天权交流沟通工作,俩人正在休假中”。 公开信息显示,明明,真名石明,出生于陕西商洛,毕业于西安交通大学。原新东方物理老师,后入职东方甄选担任主播。2024年6月22日,明明在直播中用“山河破碎”形容贵州地貌引发争议,于6月29日公开道歉。 天权,本科毕业于伯克利大学,研究生毕业于哥伦比亚大学。2023年12月15日晚,天权疑似在直播时模仿孙东旭摔手机等,引发争议。12月16日,东方甄选宣布天权停播三个月。同日,天权向网友致歉。 此外,近日,东方甄选主播林林在社交平台发文“电影落幕 身心俱损 分叉路口 终有一别”,确认离职。林林也将账号名字由“东方林林”改成了“林林ProMax”。
古尔曼深度揭秘:苹果6条新产品线同时开工,接班人2年前已敲定
编译 | 刘煜 编辑 | 陈骏达 智东西4月24日消息,4月22日美国科技播客节目TBPN放出了对彭博社记者马克・古尔曼(Mark Gurman)的访谈,他透露,苹果在两年前就已敲定约翰·特纳斯(John Ternus)成为新一任CEO。苹果CEO蒂姆・库克(Tim Cook)近期卸任,是因为库克觉得时机已经成熟了。谈及折叠手机,古尔曼排斥道:“别跟我聊三折叠。”他吐槽:“它们做工松散,极易损坏。” 谈到苹果未来产品规划,古尔曼称苹果正在同步研发六大全新产品,包括AI智能耳机、智能眼镜、便携穿戴设备、智能显示屏、家用智能灯具、家用安防摄像头。他称,苹果至少十年内不会推出消费级人形机器人。 采访中,他提到了苹果最近面临人才流失风险的处境。他说道:“苹果的薪资待遇比不上OpenAI、Meta这类科技企业。最近这段时间,这些企业拆解苹果硬件工程团队,从各个部门疯狂招人,开出高额薪资待遇。” 谈及库克的接班人特纳斯,古尔曼评价道:“他拥有库克不具备的产品嗅觉,决策层面更擅长把控产品核心方向。”他猜测,特纳斯可能会获得一百万股股权激励。按美股最新收盘价计算,这一数字约为2.73亿美元(约合人民币18.66亿元)。 谈及苹果将iPhone的钛金属换回铝金属的决定,古尔曼称:“它(钛金属)在与热相关的性能方面真的很差。我们已经了解铝20年了,它是制造消费电子产品的一种极好的材料。所以他们换回了最初做法。” 他还在采访中透露,苹果的双折叠机型预计九月发布,这也是特纳斯上任后首款重磅全新产品。 采访的核心内容如下: 1、iPhone折叠机型:iPhone折叠机型与华为新款手机(Pura X)类似的是,它们的屏幕比例都和iPad相像,但也会存在黑边。 2、特纳斯薪资:古尔曼预计特纳斯将获得的薪酬或与库克最初上任时类似。 3、关于特纳斯与AI:特纳斯围绕全新AI平台重组了苹果硬件工程部门,该平台将用于优化产品研发流程与整体产品质量。 4、技术层面的潜在风险:苹果暂时不会受到安卓手机等产品威胁,隐藏威胁是OpenAI和Meta等公司的生态级创新突破。 5、iPhone换回铝金属:钛金属对于苹果只能是一个好的营销点,但散热性能方面比不了铝金属。 以下是对古尔曼采访编译: 一、2年前已敲定特纳斯继任苹果CEO,苹果6大新品正在研发 主持人1:你长期预判苹果人事变动,此次库克卸任、特纳斯接班,是否符合你的时间预期?官宣节点是否超出预料? 古尔曼:几周前我发布了特纳斯深度人物专访,一切人事变动早有铺垫。 苹果内部从去年年底开始加速推进权力交接,计划在品牌五十周年庆典后官宣人事调整。五十周年系列活动,既是该公司品牌里程碑纪念,也是库克任期的告别仪式。整体规划筹备长达数月,两年前就开始布局。 2024年初,库克正式敲定特纳斯为唯一继任人选,五年前将其纳入核心高管团队、任命硬件工程高级副总裁,就是定向培养的关键一步。 主持人1:你曝光了多份内部备忘录,能否聊聊苹果员工的内部反馈?管理层沟通铺垫充分,外界毫无意外,内部整体态度偏向乐观,但此前不少前员工负面评价特纳斯,是否影响内部士气? 部分媒体采访前员工,他们吐槽特纳斯决策温和、缺乏强硬魄力,不过这类评价并未影响他的最终任命。 古尔曼:他拥有库克不具备的产品嗅觉,决策层面更擅长把控产品核心方向。 库克任职期间,专注统筹整体运营,将产品研发全权下放给高管团队。而特纳斯上任后,会延续过往习惯,深度参与产品全流程研发设计,供应链、生产、采购、苹果售后等运营琐事,全部交由萨比赫・汗(Sabih Khan)、普丽娅·巴拉苏布拉马尼安(Priya Balasubramaniam)等运营负责人打理。 特纳斯会精准聚焦核心赛道,全身心投入硬件研发与产品创新。最直观的体现就是硬件部门的人事任命:他提拔汤姆・梅里亚布(Tom Marieb)接手硬件工程团队,此人并非激进创新者,却是硬件落地、品控管理领域的顶尖执行人才。 这份任命的核心用意十分明确:特纳斯将亲自担任苹果的产品愿景核心,亲自把控新品方向与设计理念。 主持人1:对比乔布斯的创新魄力、库克的稳健运营,特纳斯时代的苹果,会走向极致聚焦,还是重启多元创新、布局全新前沿项目? 古尔曼:特纳斯会延续常规硬件迭代节奏,稳定更新iPhone、iPad、Mac、手表、耳机等核心产品线。但相较于库克,他必须加速全新品类落地。 库克任期内,爆款新品仅有AirPods、Apple Watch,且核心研发团队源自乔布斯时代;2016年后,再无现象级全新爆款产品。Vision Pro战略遇冷、市场表现低迷,是库克时代的一大遗憾。 苹果已规划长期空间计算路线,未来将推出轻量化AR眼镜,对标Meta的无屏智能眼镜,预计2027年陆续落地。 目前六大全新产品品类正在同步研发:AI智能耳机、智能眼镜、便携穿戴设备、智能显示屏、家用智能灯具、家用安防摄像头。 二、人形机器人技术尚在探索,苹果可能遭受Meta、OpenAI等企业的智能硬件威胁 主持人1:外界热议苹果人形机器人布局,家用智能灯具是否为机器人赛道的前置探索?苹果是否会入局人形机器人? 古尔曼:苹果确实在探索人形机器人相关技术,但暂无全面落地计划,至少十年内不会推出消费级人形机器人。 该公司已组建大规模机器人研发团队,一年前特纳斯正式接管机器人硬件部门,整合原有AI团队资源。同时研发大型机械臂设备,未来将用于工厂自动化生产、线下门店智能仓储补货,落地周期约五年。 此外,小型家用移动机器人也在研发测试中,对标亚马逊Astro,但短期不会量产上市。 主持人2:聊聊供应链核心风险,供应链是库克时代的核心优势,而特纳斯缺乏相关经验,未来五年他的核心发力方向会避开供应链,聚焦产品创新吗? 古尔曼:没错,特纳斯不会深度介入供应链管理。今早全员内部会议上,他明确表态:每位管理者都要聚焦核心擅长领域。 库克深耕运营、财务、销售,全权放权产品;特纳斯的核心使命,是带领苹果重回硬件创新赛道。供应链、生产制造、渠道销售已有成熟顶尖团队操盘,无需新任CEO分心,产品迭代与技术突破,才是他的核心考核目标。 主持人1:安卓阵营折叠屏、隐私屏等特色功能持续迭代,差异化优势明显,是否会倒逼苹果加速创新、抢占市场? 古尔曼:现阶段安卓小众创新功能,尚未形成足够吸引力,无法撬动苹果核心用户换机。iPhone用户留存率极高,跨阵营换机数据持续净流入,即便苹果AI功能落后,依旧不影响产品市场竞争力。 真正的潜在风险,来自Meta、OpenAI等企业的生态级创新突破,一旦对手推出颠覆性智能硬件,才会冲击苹果生态壁垒。 特纳斯仅担任五年硬件高级副总裁,他虽高管任期不长,但全职深耕苹果二十五年,硬件研发底蕴深厚。特纳斯的贡献是让苹果硬件在速度和电池寿命方面表现更佳,质量更高。 他非常关注苹果产品的耐用性、寿命和可靠性。我认为,他们选择让来自英特尔的产品质量和可靠性专家梅里亚布,而不是一个产品设计师作为特纳斯的硬件工程继任者,这是有意义的。 三、iPhone换回铝材质,因为钛金属散热不行 主持人1:我拿到了新iPhone,它立刻就被磕碰了。当时为什么考虑把它设计成“一次性产品”?但是这对于散热更好,对于无线连接更好,尽管无法让颜色像以前那样牢固地附着在材料上。所以它会刮掉。这是苹果目前的取舍吗? 古尔曼:是的,每种材料都有权衡。像钛金属很轻,看起来很酷,可以进行喷砂处理,你知道,这看起来有趣,并给了苹果一个很好的营销点。比如,“哦,买个钛金属手机”——好像有人关心他们手机的材料似的。 但是,它在与散热相关的性能方面真的很差。我们已经了解铝20年了,它是制造消费电子产品的一种极好的材料。所以他们回归了基本做法。 去年年底他们确实在讨论细分产品线,一方面是超薄iPhone Air,另一方面是尽可能推进iPhone Pro,让它的性能更强。他们的目标就是尽可能多地将性能和功能塞进这些iPhone Pro中。而对于所有需要更少功能的人,他们可以选择更薄更轻的iPhone Air。 而且我认为大家会持续看到特纳斯推动这一方向,全力打造极致强悍、性能顶尖的MacBook Pro,同时引导其余用户选择MacBook Neo与MacBook Air。并且我认为,他在性能与产品品质方面留下的理念,是非常值得重视的一点。 四、特纳斯围绕AI重组了苹果硬件工程部门,面临OpenAI等高薪挖角难题 主持人1:特纳斯曾以任何形式公开发表过有关AI的言论吗? 古尔曼:他在今天早上与员工的全体会议上谈到了AI。他说:“我格外期待在当下接任这一职位,因为我可以明确告诉大家,苹果即将再度改变世界。” 他称:“苹果未来有着宏大的发展规划。毫不夸张地讲,这是我职业生涯里,在苹果打造产品与服务的最振奋人心的一段时期。AI,将创造近乎无限的潜力。我们会不断解锁全新的技术可能,为旗下产品和服务开辟全新机遇,我也十分期待这一切能为用户带来怎样的改变。” 本月早些时候,他围绕全新AI平台重组了苹果硬件工程部门,该平台将用于优化产品研发流程与整体产品质量。 主持人1:我看到了网友Bubble Boy的留言,想听听你的看法:随着特纳斯接手苹果,这家公司即将成为全球硬件工程师的朝圣之地。苹果本来难道不是吗?在硬件人才招聘方面,苹果还有向上突破的空间吗?你觉得这会给企业文化带来实质性的改变吗? 古尔曼:我的看法是,苹果的薪资待遇比不上OpenAI、Meta这类科技企业。最近这段时间,苹果正遭到OpenAI、Meta等一众公司的大肆挖角。这些企业拆分苹果硬件工程团队,从各个部门疯狂招人,开出高额薪资待遇。 这也是特纳斯过去一年多以来一直在着手解决的一大难题。 但不可否认,苹果本就是硬件领域的顶尖殿堂,是所有企业都想挖人的目标,也是从业者学习消费级硬件研发制造的标杆。所以说实话,我大体认同这位网友的观点。 五、折叠屏iPhone预计9月发布,屏幕比例类似华为新款手机 主持人1:好,我想了解一下,折叠屏iPhone的目前进展如何? 古尔曼:这款机型预计9月发布,也是特纳斯上任后首款重磅全新产品,非常值得期待。 我们之前聊过这个话题,我早就用腻了传统直板手机。这种同质化的外观设计,已经持续了二十年。我想要折叠屏、更大尺寸的屏幕。 主持人2:确实很让人期待。(主持人1)想要报纸大小的手机。 主持人1:我在中国见过那些,那是三折叠对吧。 古尔曼:但苹果这款是双折叠设计,别跟我聊三折叠。 主持人2:那你说说三折叠差在哪?看着明明很不错。 古尔曼:它们做工松散,极易损坏。 好吧,当他们以苹果的品控标准,做三折叠产品的时候,那就太好了。但现在市面上的折叠手机,开合时能明显听到屏幕嘎吱作响,中间还有一道明显折痕,开合手感生硬,拇指很难发力打开。 我希望苹果能彻底解决这些问题。花两千美元买一台手机,我完全不能接受开合异响,不能有类似踩在木地板上的杂音。我想要开合顺滑、反应迅速、手感轻盈,而不是像搬重物一样笨重。 主持人2:不过折叠屏的观影体验依旧会有局限,当下主流视频分为9:16竖屏与16:9宽屏。折叠屏展开后多为方形屏幕,并不适配常规观影场景。 古尔曼:不,苹果的观影体验不一样,苹果的手机就像新款华为手机(Pura X)一样,屏幕比例与iPad类似。 主持人1:即便如此,播放影片时还是会存在黑边。 古尔曼:确实,黑边问题无法避免。不管是横屏竖屏切换、观看院线电影,还是刷社交软件,都没法做到全屏显示,都会出现黑边。 主持人1:长期以来,影视内容制作都以超宽画幅为主。不管是昆汀式宽屏电影,还是短视频竖屏内容,在折叠屏上播放大多都会出现两侧黑边。但在办公文档、电视投屏这类场景中——(被打断) 古尔曼:折叠屏的显示效果会十分棒。 六、预计特纳斯将获100万股股权激励,库克卸任因为时机成熟 主持人2:你觉得特纳斯全新的薪酬福利方案会是什么标准? 古尔曼:当年因为库克的薪资问题,网友曾多次计划前往库比蒂诺总部抗议,要求削减他的薪酬。 我只是单纯猜测,他大概率会获得一百万股股权激励,十年分期授予,待遇规格很高。 我这么判断是有依据的,当年苹果任命库克为CEO时,给出的就是十年分期授予100万股股票的方案。所以我推测标准会保持一致,当然这只是猜测,没有实锤。 库克早年年薪一度达到一亿美元,引发全网哗然,之后他被迫降薪至四千万美元左右。舆论风波平息后,薪资又回调到七八千万美元每年。 主持人2:我们当初一直理性看待库克的薪酬体系。那几年我睡得很安稳。 古尔曼:我猜大概有100万股吧。或许会是50万股,我不知道,但我知道他们给了库克一百万股。你们现在就这么看好特纳斯了? 主持人1:没错,我们同时看好库克与特纳斯两位领导者。 古尔曼:那现在你们两个都得到了。 主持人1:为什么苹果CEO的退休年龄定在65岁?巴菲特年逾九旬,依旧能执掌万亿规模企业。CEO 这份工作,难道体力消耗更大?需要频繁出差?还是常年在华盛顿应酬奔波所致?如果身体条件允许,为何不能再多任职十年? 古尔曼:我不认为离职和社交应酬有关系。为什么他不再待10年?他需要给新任接班人一些时间适应。 库克为什么说要辞职?他说他辞职是因为时机成熟了,而特纳斯已经准备好了。苹果公司的财务状况处于非常有利的位置,苹果的发展规划清晰完善。 至于主动卸任的深层原因,可以去看我往期的深度分析文章。
镜识科技Bolt人形机器人奔跑速度提升至11米/秒
快科技4月25日消息,杭州镜识科技MirrorMe发布最新视频,其全尺寸人形机器人Bolt在室内环境中成功跑出11米/秒(约39.6公里/小时)的惊人速度,再次刷新全球人形机器人速度纪录。 Bolt命名灵感源自牙买加短跑传奇“飞人”博尔特 (Usain Bolt),而博尔特的百米世界纪录是9.58秒(约10.44米/秒),Bolt机器人已超越这一人类极限。 其采用全尺寸人体工学设计,身高175-177厘米,体重75公斤,与普通成年男性体型相近,外观线条流畅,无外露元器件,兼具美感与实用性,脚掌设计有可弯折自由度,能有效缓解高速奔跑时的地面冲击。 采用独创垂直电机轴设计,将电机轴与关节轴垂直布置,通过90度换向结构传动,充分利用腿部狭长空间,把电机隐藏于腿部内部,减少空气阻力同时提升关节响应速度。 配备新型高扭矩密度电机,在毫米级空间内实现高密度动力输出,搭配高强度合金+碳纤维轻量化材料,在75公斤体重限制下实现强劲动力与高效能耗平衡。 全新毫秒级平衡运动控制算法实现实时姿态调整,确保高速运动中稳定,使其能以9.5米/秒的速度持续奔跑超1分钟,远超人类顶尖运动员耐力极限。 除室内11米/秒的峰值速度外,Bolt在室外百米测试中也已达到10米/秒的稳定速度,此前行业领军企业波士顿动力等的人形机器人速度仅停留在3.3-4.0米/秒区间,Bolt的突破几乎将基准提升3倍。
DeepSeek V4一发布,黄仁勋的预言成真了
"一旦DeepSeek率先在华为平台上发布,对美国而言将是灾难性的结果"。 这里的"我国"指美国 这不是托尼说的,而是英伟达黄仁勋在某个播客上的原话。如今DeepSeek V4的出现,让老黄的预言成真了? 作为大家苦等了一年多的 DeepSeek 大版本迭代,只看性能差友们可能会略有失望。但 DeepSeek V4 是真便宜,价格对比国外模型直接腰斩属于是。 关于模型的具体内容,在白天的文章中已经提到,就不重复了。 但托尼觉得,随着这次发布,意义更重大的,是深度求索选择在华为昇腾平台上进行首发,结合下午的直播,这意味着 DeepSeek 完成了在国产硬件上的训练适配。 根据网友爆料,这次最先支持国产硬件训练的是 DeepSeek V4 Flash 的后训练过程,基于国产硬件的预训练也有望在今年下半年实现。 换句话说,从今天开始,大家嚷嚷了很久的 AI 全流程使用国产硬件,一下子就实现了! 大家可以把华为的昇腾平台理解为连 AI 芯片都是国产的 AI 计算平台。 假如一年以前有人跟我说,纯国产的AI平台能够支撑一款旗舰模型的全链路研发,托尼我也不敢相信。 但现在它就是成了,这对于国产AI的发展影响是很深远的。 之前老黄没少拿这个事儿游说美国政府 让自己卖货 ,按照老黄的意思,在 AI 军备竞赛中,从底层的电力,冷却,消防这些基础设施,到芯片、服务器等算力设施,再到软件生态和模型的架构演进,这些要素都缺一不可,样样都赢才能赢麻到最后。 AI 是一块“五层蛋糕” - NVIDIA 博客- 英伟达 而咱们的优势,无疑是祖国强大的基建能力,以及充足的人才储备。这些能让我们打造出很多高性价比的模型。 但不得不承认,我们的芯片制程离世界顶端,确实有些差距。好在 AI 需要的芯片,打的是规模战、集群战。所以工程师们想了些办法,来解决制程上的不足。 一来,虽然制程工艺有限制,但芯片可以在不计成本的情况下,通过暴力堆规模,来提升算力。而在配套的内存上,国产也有自研 HBM(高带宽内存),来保证带宽没有瓶颈。 二来,虽然单颗芯片性能有限,但架不住量大管饱啊,把大量的芯片利用起来,组合成一个"计算中心",塞进机柜里,其实就是这两年火热的超节点。 超节点的概念就是英伟达提出的,老黄也做了相应的布局,NVL72 系统把 72 个Blackwell GPU 集成到一个液冷机柜中,达成了约 180 PFLOPs 的 FP16 算力。 而国产芯片们想要堆出近似算力,就需要拿出更多的芯片。所以去年华为昇腾拿出了 384 超节点,通过 12 个机柜,每个机柜 32 张卡,硬是堆出 300 PFLOPs 算力,接近 NVL72 的两倍了。而今年差评更是在 MWC 现场看到了华为最新的 Atlas 950,也就是 8192 卡互联的超节点。 可最严重的一环,其实是生态。 托尼不得不承认,老黄是真有远见的。20年前,英伟达就开始为了 CUDA 生态埋伏笔,甚至牺牲掉了 GeForce 游戏显卡的利润,导致有一段时间差点在和 ATi/AMD 的竞争中死掉。 但英伟达成功熬到了黎明。所以差友们能看到,现在几乎所有 AI 相关的基础模型和优化都基于 CUDA 来运转、后起的 GPU、TPU 等 AI 计算生态都要向它低头。 甚至包括之前 DeepSeek 亲手打造的护城河之一:PTX 底层语言优化,也是为了把NVIDIA GPU 的性能榨干,让模型效率更高,从而让 DeepSeek 模型更有性价比。 也因此,对于国内来说,在制裁的大背景下,不论是华为昇腾的 CANN,还是摩尔线程的 MUSA,目前还要做对 CUDA 的兼容性支持,来让开发者能更快适应自家芯片。 但咱们也不能一直活在别人屋檐下。构建属于自己的软件生态,迫在眉睫。所以最近几年托尼也开始看到像 TileLang 这类由中国主导的生态项目,尝试在不同的方向构建出属于自己的护城河。 就是这些项目对于 CUDA 生态来说,并没有什么伤筋动骨的攻击性。 直到这次的 DeepSeek V4 更进一步,直接拒绝了英伟达和AMD的提前适配,而是选择华为昇腾和国产 CANN 软件生态。 也就是说,这次DeepSeek想要表达的其实是:不用美国的芯片和技术,我们自己也能做出足够先进的大模型。 托尼不得不感慨深度求索的这波操作:一方面是真的争气,另一方面,其实也是在把 DeepSeek 变成一个标杆,向其他国产大模型喊话:全国产链路已经跑通了,你们都可以来试试。 除此之外呢?还有什么理由让国产模型拥抱国产 AI 硬件生态吗? 最近一个月大家应该有感知,大模型的能力越来越强,强到已经不只是能对话的程度了。 前段时间 Anthropic 发布的 Mythos 模型,就号称"强到不敢直接发布",而是首先交给苹果、英伟达、微软等巨头,用来检测安全漏洞,加强网络防御。 也就是说,AI 已经不仅仅是一个对话窗口,一个效率工具,一个智能助手。未来甚至现在的模型,已经进化到可以在网络安全层面进行攻防了。这意味着 AI 已经从普通人使用的工具,成长为国家之间攻防的矛与盾。 不论如何,从硬件到软件,从模型到生态,全链路国产化,是必须要做的。这样才能真正不被英伟达等国外公司卡脖子。 当英伟达的GPU不再是唯一选择,当CUDA 护城河不再牢固,当咱们的AI人才越来越多,生态越来越繁荣,产业界的底气自然也会越来越足。 回头看DeepSeek V4发布通告的结束语:不诱于誉,不恐于诽,率道而行,端然正己,这不仅是对国内AI公司应当脚踏实地的宣言,更是对国产AI硬件生态,这么多年一步一步走过来的肯定。 老黄的预言,或许已经成为现实。
四面楚歌!OpenAI的至暗时刻可能才刚开始
奥特曼与AI在美国的公共形象,正从日本动漫中那个拯救世界的咸蛋超人奥特曼,逐渐变成了同一动漫中的大反派:龙虾人。 撰文丨张明扬 很少有人想到,2022年底的“ChatGPT时刻”刚刚过去了三年多,曾经风光无限的OpenAI便已左支右绌,进退维谷。 你甚至不敢说这是至暗时刻,因为谷底可能还没到来。 01 最近,围绕OpenAI的负面新闻多得令人顾此失彼。 4月18日,OpenAI爆发史上最严重人事地震,三大核心高管(首席产品官Kevin Weil、Sora之父Bill Peebles、企业应用CTO Srinivas Narayanan)同一天官宣离职。 高管离职潮的背后,是OpenAI正在进行的业务全面收缩。 3月底,OpenAI宣布关停视频生成模型Sora——这个曾经让整个好莱坞为之战栗的产品;4月中旬,“OpenAI for Science”项目解散,1月底刚刚上线的免费AI原生科研协作空间Prism不再作为独立应用运营。 图/图虫创意 与此同时,OpenAI与其创始人萨姆.奥特曼还官司缠身。 一场官司正诉诸公堂。马斯克公开指控OpenAI背离了成立伊始非营利性质的承诺,骗取其当年3800万美元原始捐赠,不仅要求OpenAI与微软支付高达千亿美元的天价赔款,更要求即刻解除奥特曼在 OpenAI的一切职务。 还有一起诉讼隐而未发。前一段亚马逊宣布战略入股OpenAI,并达成云服务采购协议,微软认定OpenAI违背了双方此前订立的独家云合作协议,正密筹酝酿、伺机发难。 从万众追捧到四面楚歌,OpenAI只用了三年多。很多人问,OpenAI究竟怎么了,最近不是还刚刚传出将于年内上市吗? 02 先谈谈舆情。 4月10日凌晨,AI界出了一个耸人听闻的大新闻:有人向萨姆·奥特曼的旧金山豪宅投掷了燃烧弹,引发火灾。 奥特曼在第一时间作出了回应: 我对那些反技术的情绪感同身受,显然技术并不总是对每个人都有利。 很显然,奥特曼对美国社会当下的反AI情绪是心知肚明的,他除了笼统的说一句“我相信技术进步能为你我的家人创造一个无比美好的未来”,也不敢直接挑战公众情绪。 因为他知道,电价上涨与裁员潮这两口大锅,辩无可辩。 尤其是裁员,令美国人对AI的态度正急剧转向负面。 3月底,美国公布了一份民调,70%的美国人认为AI的发展将减少就业机会;55%的美国人认为AI在日常生活中的弊端将超过益处,比去年4月激增了11个百分点。 图/图虫创意 尽管OpenAI目前尚未大规模裁员,但美国科技大厂从来都不缺此类新闻。 近日,Meta宣布计划于5月20日实施今年首轮大规模裁员,预计裁减约8000名员工,占其全球员工总数的10%;据说这只是第一阶段,公司预计在2026年下半年继续推进后续裁员,可能裁减至少20%员工,具体细节将依据“人工智能能力的发展”调整。 3月底,甲骨文也宣布裁掉了3万人,据说这是在过去一年间,科技行业单次裁员规模最大的一次。而理由呢,还是AI,为了给all in AI腾出现金流。 可以说,奥特曼与AI在美国的公共形象,正从日本动漫中那个拯救世界的咸蛋超人奥特曼,逐渐变成了同一动漫中的大反派:龙虾人。 尽管这一波反AI舆情潮并不是单单朝着OpenAI去的,但谁让你成名最早、最有名呢,所以也就成了众矢之的。更何况,OpenAI还有着独属于自己的“舆情”。 2月底,就在Anthropic拒绝美国国防部合同要求的几小时后,OpenAI宣布与五角大楼达成协议,此举招致了民间大量对OpenAI的恶评,大概就是“见利忘义”的意思。 有人说,舆情虽然来势汹汹,但与OpenAI当下的窘境恐怕并没有直接关系。 当然有。举一个例子,OpenAI雄心勃勃的“星际之门”数据中心扩张计划,正在新墨西哥州、密歇根州、威斯康星州等全美各地遭到抵制与诉讼,你说有影响吗? 03 当然,OpenAI与奥特曼目前最直接的挑战是:缺钱。 以上说的关停Sora搞战略收缩,乃至冒着违约风险与亚马逊达成战略入股协议,背后的原因其实都因为缺钱。人穷志短,事急从权,也就做不到事事体面了。 3月最后一天,OpenAI刚刚宣布完成了一轮规模达1220亿美元的融资,预计最早将于今年四季度上市,这大概率是上市前的最后一次融资了。 这笔钱当然看上去很大,但这里要补充一个背景:OpenAI预计2026年亏损约140亿美元,最早要到2030年才能实现现金流转正。 OpenAI前两年在巅峰时刻时铺的摊子太大了,资本支出计划也太激进了,什么业务都想碰, “星际之门”据说总预算最高攀升到1.4万亿美元。可以说,即使人类商业史上,这也是极其罕见的花钱强度与速度。 在这里,我们可以稍稍回忆一下,OpenAI已经多久没有因为ChatGPT的升级(不过,OpenAI刚刚发布了号称最强模型GPT-5.5),或是又实现了什么逆天的新功能而出圈了,最劲爆的新闻不是丑闻,就是又花了多少钱,又准备融多烧钱。 这第一个号称要改变人类的科技公司,真的正常吗? 图/图虫创意 当然,这里也要特别致敬奥特曼,他真是太难了。 看到奥特曼的窘境,谷歌DeepMind的掌舵人哈萨比斯想必很庆幸自己当初的明智抉择。早在2014年,哈萨比斯就将DeepMind卖身给了谷歌,哈萨比斯当时说:他已经厌倦了四处奔波,试图向那些不懂的有钱人证明有史以来最伟大事业的合理性。 而Gemini现在的后发制人,一个重要原因就是哈萨比斯背后有谷歌的生态体系,有谷歌几乎用之不竭的资金和算力。 哈萨比斯厌倦的事情,就是奥特曼正在干的事情。 目前来看,只有如期上市成功,奥特曼和OpenAI才能缓过这口气,在相当一段长的时间里不必再担心资金断供。 04 不过,OpenAI当下最核心的危机还是:Anthropic几乎不可阻挡的赶超。 4月中旬,在旧金山举行的HumanX大会上,很多参会者惊讶的发现,人人都在谈论Anthropic和旗下的大模型Claude,而OpenAI和ChatGPT则被视作已步入下行线。 美国AI三巨头中,OpenAI原本是遥遥领先,但先是去年谷歌Gemini完成了一次史诗式的大逆转,声势直逼OpenAI;最近一个更爆炸性的新闻是,Anthropic旗下的Claude正在更全面的超越OpenAI。 这还不单是技术上的所谓超越,毕竟,三巨头这一多年来不断地互相声称互相超越,很多时候只是不同的口径而已。更有说服力的是技术以外的数据。 其一是营收。就在4月初,Anthropic宣布年化收入突破300亿美元,超过了OpenAI的250亿美元;要知道,2025年底时,这个数字还只是90亿美元;而一年多前,Anthropic的年化收入更是只有10亿美元。 今年2月,Anthropic曾披露有超过500家企业客户的年化支出均超过100万美元;而如今,数字已超过1000家,在不到两个月的时间里实现了翻倍。 图/图虫创意 当然,按照OpenAI的说法,双方在计算营收时采取的口径不一样,如果采取相同的统计口径,OpenAI仍然是领先者。 但有一点是肯定的,Anthropic目前这个营收增速是远高于OpenAI的。 其二,市场估值。根据最新报道,Anthropic目前在私募二级市场的估值已突破10000亿美元,一举超过OpenAI(目前估值在8800亿美元左右)。 更惊人的是,今年2月,Anthropic的估值还“只有”3800亿美元。 据彭博社报道,Anthropic的商业化速度远超市场预期,尤其在企业客户端的渗透率快速提升,这也是投资者愿意给予更高估值的主要原因。有一个数据是,OpenAI在企业AI支出中的份额从50%降至27%,而Anthropic升至40%。 我们再稍稍回忆一下,今年以来,资本市场上关于AI的大部分舆情旋风,从“AI杀死软件”,到“AI颠覆一切”,其主角几乎都是Anthropic。 这两天还有新闻说,还不单是OpenAI,谷歌也被Anthropic逼急了。谷歌内部已经悄悄集结了一支由研究人员和工程师组成的“攻坚队”,由联合创始人谢尔盖·布林亲自带队,追赶被Anthropic拉开的编程能力差距。 一个更让OpenAI寝食难安的消息是,Anthropic可能将在今年10月上市,谁能够阻挡一个不缺钱的Anthropic。 OpenAI与Anthropic之争,胜败犹未可知,但我们知道的是,赢家一定是AI。 *题图来源于图虫创意
GPT-5.5实测:更聪明,也更爱“说谎”
文 | AIX财经(AIXcaijing)作者| 王璐,编辑| 魏佳 4月23日,OpenAI发布新一代旗舰模型GPT-5.5,并在其官网写道,是其迄今为止最智能、最直观易用的模型,也是在计算机上完成工作的新方式的下一步。 这一发布迅速引发行业关注,不仅因为它号称在智能体任务上实现突破,更因其在多项基准测试中展现出的“统治力”。根据第三方评测机构Artificial Analysis公布的综合智能指数榜单,OpenAI凭借GPT-5.5系列在前六名中独占四席,该机构认为,“GPT-5.5让OpenAI重回AI领域的第一位,打破了与Anthropic和谷歌的三方平局。” 但与高性能一同被曝光的,还有高幻觉率。在Artificial Analysis的私有基准测试AA-Omniscience中,GPT-5.5的幻觉率高达86%,远高于Claude Opus 4.7的36%。 这意味着,当这个目前“最聪明”的AI大脑面对不确定或未知的问题时,选择“坦言不知”的概率极低,反而更倾向于“自信地虚构”一个答案。而这种高幻觉率一旦放在需要高可靠性的工作场景中,很可能导致分析偏差、决策失误甚至财务损失。 最强的AI也是最危险的“说谎者”?面对高幻觉率,GPT-5.5究竟能否在实际应用中可靠地完成复杂的知识任务?为了回答这些关键问题,我们对GPT-5.5进行了实测,从处理家庭账本到编写实时对战游戏,测试其应对长上下文、复杂逻辑的知识工作与编程实战能力。 此次测试不仅关乎一个模型的性能,更关乎AI技术进入深水区后,我们如何在拥抱其强大能力的同时,应对其潜在风险。 01. 知识能力:它真的像职场人一样会干活 根据官方发布的基准测试结果,GPT-5.5在几乎所有核心指标上都超越了前代GPT-5.4,在知识工作领域表现尤为突出。 在一项覆盖44个职业的GDPval测试中,GPT-5.5取得了84.9%的得分,不仅超过了83.0%的真实职场人员水平,也高于Claude Opus 4.7的80.3%和Gemini 3.1 Pro的67.3%。该测试模拟了金融分析师、市场经理、软件工程师等多种白领职业的日常工作,要求模型完成信息整合、分析推理、决策建议与报告生成等综合性任务。 此外,GPT-5.5在其他多个实用场景的测试中也表现不错。在模拟复杂客服对话的测试中,无需特别指导就能达到98.0%的准确率;在让AI像真人一样操作电脑完成任务的测试中,得分78.7%;在需要结合图像、文字理解并调用工具解决问题的测试中,分别拿到83.2%和75.3%的分数。这些成绩说明,GPT-5.5正在逐步打通“看、说、做”等一系列能力。 OpenAI还用内部的实际案例证明了它的生产力价值。其财务团队用它审核了24771份K-1税表、总计71637页文件,并称这套流程比上一年提前了两周完成。这说明GPT-5.5是能够直接融入工作流程、切实提升效率的生产力工具。 这些能力在真实生活中用起来怎么样?我们设计了一个贴近家庭的测试来验证。 我们给GPT-5.5多条格式凌乱的单月开支数据,让其扮演家庭数据分析师,完成整理数据、计算总支出、分析各支付方式占比、分类统计开销等任务,并最终生成一份给家人看的建议报告。 这个测试场景设计得虽然简单,却很能看出AI是否真的“好用”。因为家庭记账是很多人的日常,但记录常常是随手写、格式乱,“乱七八糟”的记账数据要求AI不能只会处理整齐的表格,还得能“看懂”手写式的记录、理解每笔钱是什么意思,并把相似项目归到一起。 而算总账、分析钱花在哪儿、给出节省建议,其实对应着一套完整的思考过程,GPT-5.5需要先把信息理清楚,再从里面看出门道、提出可行的办法,最终让它“写报告”,则是要求它会用人能听懂、能接受的方式来汇报工作。 测试结果显示,它准确合并了“外卖-午餐”和“外卖-晚餐”,而且主动提示“支付宝自动扣”应统一计入“支付宝”统计,展现出了理解混乱账目和用户真实意图的能力。 GPT-5.5自主梳理表格并给出分析 在分析中,它通过计算占比,指出“网购”(衣物、书籍)类目支出较高,且多为非急需品,因此建议为这类消费设置预算,给出的建议具体可行。最后生成的报告也充满人情味,那句“稍微管住网购的小冲动,咱们家的开支就能更轻松一些”,符合“给家人看”的沟通要求,语气亲切,建议接地气。 这个简单的测试,相当于在生活场景中还原了上述GDPval测试所考察的核心能力,目前的结果也说明它的专业能力能用到实际生活中。 02. 编程能力:从初级到复杂,它没添乱 除了在日常知识任务中表现可靠,在编程这类对精准性要求更高的“硬功夫”上,GPT-5.5同样展现了不错的进步。 在一项考验“智能体”的基准测试(Terminal-Bench 2.0)中,它拿到了82.7%的高分。这个测试模拟了在命令行里执行一连串复杂操作,就像让AI自己完成一个多步骤的运维任务。它的成绩不仅比自家上一代(GPT-5.4的75.1%)高,也明显超过了竞争对手Claude Opus 4.7(69.4%)。这说明它在需要记住步骤、自己调试、坚持完成长时间任务时,表现更好。 其次,在处理超长内容方面也有进步。在一项针对50万到100万字符超长文本的检索测试中,它的得分达到74.0%,是上一代(36.6%)的两倍还多。这意味着让它分析一本厚书、浏览庞大的代码仓库时,它更不容易“看漏”或“记混”,找信息更准、思路也更连贯。 而且多项测试结果显示,在执行相同的编程任务时,GPT-5.5消耗的token数量显著少于GPT-5.4。就连代码编辑器Cursor的联合创始人Michael Truell也评价说,它比上一代更聪明、更有韧性,调用工具更可靠,面对复杂长期任务时能坚持更久。 简单来说,在编程这类复杂操作场景下,上述数据说明,GPT-5.5不仅更强,而且更稳、更省资源,适合处理那些步骤多、耗时长的实际开发任务。 为了验证它真实的编程能力,我们用一个具体的开发任务进行了测试,从零开始构建并逐步升级一款连连看游戏,并硬性规定其必须使用给到的12种不同的emoji表情。 首先,我们让GPT-5.5生成一个完整可运行的连连看游戏。 这需要它理解开发者的文字需求、设计界面、管理游戏状态,并自主实现核心的路径搜索算法。结果它在几分钟之内便顺利完成了。 GPT-5.5生成的连连看小游戏 接着,我们提高难度,要求它在游戏中加入一个“重绘”道具。 这个道具的功能是:玩家使用时,能消耗“连击”能量,把棋盘上与最后一次消除相同类型的图标全部随机刷新一次。 要实现这一点,GPT-5.5必须做两件事,一是修改游戏背后的数据规则来支持这个新功能;二是确保刷新后的棋盘布局仍然是“有解”的,不会让玩家卡关。最终,GPT-5.5成功写好了这部分代码。 之后,我们继续让其为游戏加入完整的用户系统,包括登录、积分记录和排行榜展示。 这一步主要考验的是,GPT-5.5能否将新功能平滑地接入现有框架,同时保持游戏原有的核心玩法和逻辑不被破坏。 它再一次顺利完成了任务,并且在代码迭代过程中表现得相当克制,没有进行过度重构,也没有引入不必要的变化。 GPT-5.5执行对游戏细节的调整指令 最后,我们将难度推至更高阶的实时对战模式,让两名玩家能在不同浏览器中实时竞争消除。 这其中涉及棋盘状态同步、操作冲突裁决和网络延迟处理等一系列典型的多人在线难题。面对这样一个集成度高、实时性强的复杂挑战,GPT-5.5依然做到了准确交付。 这个从简到繁的测试表明,GPT-5.5在真实编程任务中,既能处理复杂逻辑与架构设计,也能精准响应开发者需求,且不随意重构或引入其他代码,甚至当我们要求回退到上一版本时,它也能稳定恢复到之前的状态。 03. 高幻觉率:能用,但不敢放手 尽管在实测中表现惊艳,但结合公开数据来看,GPT-5.5依然没有超过市场太大预期,而且存在不可忽视的风险。 来看一组对比数据。 在Artificial Analysis的私有基准测试AA-Omniscience中,GPT-5.5的幻觉率高达86%,而Claude Opus 4.7仅为36%。这意味着在该测试所设定的、专门探测模型知识边界的场景下,当GPT-5.5面对不确定的答案时,其“坦言不知”的概率远低于对手,更倾向于生成一个可能错误的回答。 需要注意的是,这86%并不意味着模型在大多数日常问答中都会产生幻觉,而是其在触及知识盲区时的特定行为倾向。一位从业者解释,这可能是因为GPT-5.5的事实知识覆盖面更强,但不确定性也更偏激进,对于不确定的问题会猜答案。但在将其用于需要高可靠性的任务时,这一指标仍需引起高度警惕。 当GPT-5.5被部署到“自主工作”场景中时,这种高幻觉倾向可能会引发风险。 比如在数据分析与报告生成任务中,它可能自信地引用不存在的数据、编造统计趋势,或基于错误事实提出决策建议,导致用户做出偏离实际的商业判断。而在编程与调试环节,它提供的代码方案也许看起来合理,却可能无法运行,甚至暗藏安全漏洞,大幅增加后期排查与修复的成本。 而且,这类幻觉往往以高度自信、逻辑自洽的形式呈现。对于缺乏相关专业背景的用户而言,这种“确定性”输出极具欺骗性,需要提高警惕。 除了技术层面的隐忧,OpenAI此次的商业策略也显露出明确的意图:先用生态锁定用户,再用涨价收割市场。 一方面,GPT-5.5首发时并未同步开放API,仅限自家ChatGPT和Codex使用,初步将用户锁定在其应用生态内。另一方面,GPT-5.5的定价相比上一代有了明显上涨。根据官方公布的数据,GPT-5.5每处理100万tokens,输入收费5美元,输出收费30美元。而上一代的GPT-5.4,输入和输出价格分别为2.5美元和15美元,这意味着新一代的价格直接翻了一倍。 如果与当前的主要竞争对手对比,Anthropic最强的模型Opus 4.7定价为每百万tokens输入5美元、输出25美元。可以看出,GPT-5.5在输入价格上与对手持平,但在输出价格上则高出20%。 尽管OpenAI解释称,token使用效率的提升可对冲价格上涨,使用户实际成本无明显增加,但具体性价比仍需业界进一步验证。 对于这一模型,资深Agent从业者赵江杰评价道,这次GPT-5.5的发布并未形成断档领先,不如对社区热传的“Spud”模型预期的大幅提升期望那么大,但在agentic和coding能力上仍然继续保持头部顶尖位置,agentic能力提升的同时也在推动基模厂商提升模型迭代效率,OpenAI的下一代突破模型(GPT-6)很可能也在路上了。 总之,对普通用户而言,GPT-5.5或许值得尝鲜,但不应视其为绝对可靠的工具,对企业用户来说,在将其接入核心工作流前,则必须慎重,一旦出现那86%的“自信错误”,该由谁来兜底?
早报|小米YU7 GT定档五月底/罗福莉:中美顶尖模型代差仅两三个月/餐馆反向抹零被立案调查
DeepSeek V4 开源,华为昇腾首发,性能比肩顶级闭源 Google 拟向 Anthropic 投资最高 400 亿美元 Intel 发布一季度财报:营收增长 7%,AI 需求拉动 CPU 与封装业务 Apple Music 副总裁:AI 音乐投稿泛滥,但几乎没人听 阿联酋要让 AI Agent 接管一半政府工作 小米罗福莉:AGI 两年内实现,中美顶尖模型代差仅两三个月 小米 YU7 GT 定档五月底:续航 705 km,新增「车厘子红」配色 宝马 16 款新车亮相北京车展,新世代 i3 续航破 1000 公里 腾势 Z 电动超跑亮相北京车展 全新理想 L9 Livis 亮相北京车展,5 月 15 日上市 45.68 万元起,蔚来 ES8 玄金特别版亮相北京车展 乐道 L80 发布会定档 4 月 28 日 火山引擎发布新一代汽车 AI 解决方案 阶跃星辰发布语音新模型 StepAudio 2.5 ASR Keep 发布 9.0 版本,自研运动大模型 Keepace.ai 同步亮相 美团外卖「防疲劳」机制实施满一年:超 99% 骑手未触发强制下线 餐馆「反向抹零」被立案调查 耐克将裁员 1400 人 《绵羊侦探团》定档 5 月 16 日 周末也值得一看的新闻 DeepSeek V4 开源,华为昇腾首发,性能比肩顶级闭源 昨天,DeepSeek 正式发布并开源了 V4 系列模型预览版,推出 DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 两款产品,双双标配百万 token 上下文,API 服务同步上线。 V4-Pro 参数量达 1.6T(49B 激活参数),V4-Flash 参数量为 284B(13B 激活参数)。两款模型均以 AI Agent 能力为核心升级方向,已针对 Claude Code、OpenCode、CodeBuddy 等主流产品完成专项适配。V4-Pro-Max 的性能表现尤为突出: LiveCodeBench Pass@1 达 93.5,Codeforces Rating 达 3206,均为参测模型最高,目前在 Codeforces 人类选手排行榜位列第 23 名; SWE Verified Resolved 达 80.6,与 Claude Opus 4.6 Max 的 80.8 基本持平; IMOAnswerBench Pass@1 为 89.8,仅次于 GPT-5.4 的 91.4; BrowseComp Pass@1 达 83.4,MCPAtlas Public Pass@1 达 73.6,处于参测模型前列。 DeepSeek 官方表示,V4-Pro-Max 已「稳坐最佳开源模型宝座」,在编程基准上达到顶级水平,并在推理与 Agentic 任务上显著缩小与领先闭源模型的差距;V4-Flash-Max 则在给予充足思考预算时,可实现与 Pro 版本相当的推理表现。 值得注意的是,英伟达不再是唯一选项。DeepSeek 将 V4 的早期访问权限独家开放给国产芯片厂商,华为昇腾成为首发平台 —— 这是顶级开源大模型首次完整跑通国产算力,也是国产模型在「去英伟达化」上迈出的重要一步。 而就在上周,黄仁勋在播客访谈里说了一句话:「如果当初 DeepSeek 先在华为平台上发布,那对我们来说非常可怕。」 发布当日,各大云服务厂商迅速跟进: PPIO 成为业内首批上线 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 的 AI 云平台,开发者注册后即可直接调用,无需自行部署; 华为云 MaaS 平台同步首发适配,已提供一键调用 DeepSeek-V4-Flash API 的 Tokens 服务; 中国联通的联通云与联通元景平台也在发布当天完成集成,并在 CodingPlan 订阅套餐中直接内置了 V4 模型; 天数智芯、寒武纪均完成了对两个版本的 Day 0 级适配,寒武纪的适配代码已开源至 GitHub 社区。 Google 拟向 Anthropic 投资最高 400 亿美元 据彭博社报道,Google 计划向 Anthropic 投资最高 400 亿美元。根据 Anthropic 方面的说法,Google 将以 3500 亿美元的估值立即注入 100 亿美元现金,若 Anthropic 达成特定业绩目标,另外 300 亿美元将随后跟进。 在算力层面,Google Cloud 将在未来五年内为 Anthropic 提供 5 吉瓦的算力资源,后续或有更多吉瓦的容量跟进。这是本月早些时候 Anthropic、Google 与博通三方协议的进一步扩展。 Intel 发布一季度财报:营收增长 7%,AI 需求拉动 CPU 与封装业务 昨日,Intel 发布 2026 财年第一季度财报。 第一季度营收 136 亿美元,同比增长 7%,连续六个季度实现高于预期的营收表现。按通用会计准则每股收益为 -0.73 美元,非通用会计准则每股收益为 0.29 美元,单季度经营现金流达 11 亿美元。 业务层面,Intel 推出基于 Intel 18A 制程的第三代酷睿 Ultra 系列处理器,首次将该制程引入主流市场,同步发布至强 600、酷睿 Ultra 200S Plus 及 200HX Plus 等多款新品。 英特尔与 Google 达成为期多年合作,将在 Google 工作负载优化实例中持续部署至强处理器,并共同开发定制 ASIC 基础设施处理器(IPU);至强 6 处理器同时确认进入英伟达 DGX Rubin NVL8 系统,担任主控 CPU。 代工业务方面,英特尔扩大了马来西亚槟城工厂封装测试产能,并回购爱尔兰 Fab 34 晶圆厂合资企业中 49% 的少数股权权益。 展望今年第二季度,英特尔预计营收为 138 亿至 148 亿美元,非通用会计准则每股收益预计为 0.20 美元。 Apple Music 副总裁:AI 音乐投稿泛滥,但几乎没人听 据 AppleInsider 报道,Apple Music 正面临 AI 生成音乐大量涌入的挑战,但听众对此并不买账。 Apple Music 副总裁 Oliver Schusser 在日前的采访中透露,目前提交至该平台的全部音乐中,超过三分之一属于「100% AI 生成」的内容,然而 AI 音乐在 Apple Music 上的实际播放占比却不到 0.5%。 AI 音乐在 Apple Music 上的收听率真的非常低,四舍五入不到 0.5%。 Schusser 透露,苹果已开发了一套内部检测系统,可精准识别提交内容的 AI 模型来源,同时要求唱片公司和分发商主动披露 AI 使用情况。在反欺诈方面,苹果的反欺诈处罚机制已使平台欺诈行为累计减少约 60%。 阿联酋要让 AI Agent 接管一半政府工作 昨天,阿联酋副总统兼总理、迪拜酋长穆罕默德 · 本 · 拉希德 X 上宣布,该国正式启动一项全新政府运作模式 —— 未来两年内,阿联酋 50% 的政府部门、服务和运营将全面由 Agentic AI 驱动。 穆罕默德强调「AI 不再是工具。」这种 AI 智能体将被定位为政府的「执行伙伴」,核心目标指向三个维度:提升公共服务质量、加速决策流程、全面提高行政效率。 为此,阿联酋政府制定了严格的时间表和可量化评估标准。两年窗口期内,政府绩效将按三项指标进行衡量 —— AI 采用速度、实施质量以及在重塑政府工作流程中对 AI 的运用熟练度。 穆罕默德表示,每位联邦雇员都将接受 AI 相关培训,阿联酋方面称此举意在构建「全球最强的 AI 驱动型政府能力」之一。 小米罗福莉:AGI 两年内实现,中美顶尖模型代差仅两三个月 近日,小米大模型团队负责人罗福莉在接受「语言即世界」访谈时,就当前大模型竞争格局、AI 智能体范式转变及 AGI 进程给出了一系列具体判断。 罗福莉预计,AGI 将在两年内实现。她估计当前进度已完成约 20%,今年有望推进至 60% 到 70%。 罗福莉表示,目前国内已有包括 Kimi、MiMo 在内的多家公司具备 1T 参数以上的基座模型,中美两国在预训练阶段的差距「基本上已经没有」。 她认为,国内团队在预训练结构上反而存在一定优势,只要对 Agent 范式的反应速度足够快,国内顶尖模型与 Claude Opus 4.6 等国际前沿模型之间的代差,实际上只有两三个月。 「接下来两三个月会非常精彩」,她说,这一窗口期将是对各家团队整体研究水平、技术敏捷度以及拥抱新范式能力的关键考验。 罗福莉同时指出,大模型竞争已从预训练主导的 Chat 时代,全面转向后训练主导的 Agent 时代。 1T 参数规模是当前实现接近顶尖 Agent 水平的「入场券」,而算力分配逻辑也随之逆转 —— 顶尖团队的预训练与后训练算力投入比例已从过去的 5:1,收窄至今年的 1:1。 小米 YU7 GT 定档五月底:续航 705 km,新增「车厘子红」配色 在昨日开幕的 2026 北京车展上,小米集团董事长兼 CEO 雷军正式宣布,小米 YU7 GT 将于今年 5 月底发布。 雷军将其定位为「适合长途旅行的高性能 SUV」,并提前披露了部分核心参数:最大马力 1003 PS,最高时速 300 km/h,CLTC 续航里程达 705 km,新增配色命名为「车厘子红」。 发布会上,雷军还公布了小米汽车的最新交付数据。截至 4 月 23 日,小米汽车 24 个月累计交付量已超过 65.5 万台;新一代小米 SU7 锁单数超过 6 万台,已交付超过 2.6 万台。 宝马 16 款新车亮相北京车展,新世代 i3 续航破 1000 公里 昨日,宝马集团在 2026 北京车展上携 BMW、MINI、BMW Motorrad 三大品牌共 16 款首发车型亮相,全新 BMW 7 系、新世代 BMW iX3 长轴距版、新世代 BMW i3 长轴距版三款车型首次面向公众展示。 全新 BMW 7 系:搭载 BMW 全景 iDrive 系统,提供超过 500 种外观涂装及 50 余项中国专属数字化功能;纯电动 BMW i7 搭载大圆柱电池,CLTC 续航近 800 公里,计划明年在中国上市; 新世代 BMW iX3 长轴距版:基于 NCAR 平台,搭载 800V 高压架构与第六代 BMW eDrive,轴距超 3 米,CLTC 续航突破 900 公里,今年第四季度正式上市; 新世代 BMW i3 长轴距版:同平台同架构,CLTC 续航超 1000 km。两款新世代车型均标配 BMW 驾控超级大脑(Heart of Joy)中央计算单元及全场景 L2 级领航驾驶辅助系统。 本土化方面,中国版新世代操作系统 X 有 70% 源代码由中国团队开发,系统集成阿里巴巴 + DeepSeek AI 引擎、高德沉浸式导航及华为鸿蒙生态(数字钥匙、HiCar、MyBMW App)。宝马还与 Momenta 合作,计划于明年底前在多款车型上推出中国专属 L2 级点到点领航驾驶辅助系统。 此外,全球限量 70 台的 BMW Speedtop 概念车迎来中国首展,BMW M3 40 周年限量版轿车与旅行车在华各限量 20 台。 MINI 带来全球首发的 MINI X VAGABUND 创意展车,BMW Motorrad 则携全新 R 1300 RT 与 R 12 G/S 亮相。今年宝马集团计划在中国推出约 20 款全新或改款车型,明年全球将有 40 款车型应用新世代设计与科技。 腾势 Z 电动超跑亮相北京车展 据 Auto 鹏友报道,昨日,腾势汽车「全球首款智能电动超跑」腾势 Z 在北京车展全球首秀。该车由比亚迪全球设计总监沃尔夫冈·艾格领衔打造,以「Pure Emotion」为设计理念,提供硬顶、敞篷和赛道三款版本。性能与配置方面: 超过 1000 匹马力,零百加速进入 2 秒以内; 搭载易三方整车智能控制平台,支持精准扭矩矢量控制; 「云辇-M」智能磁流变悬架,毫秒级阻尼调节; 中国首款全栈自研线控转向系统; 天神之眼高阶智驾系统。 全新理想 L9 Livis 亮相北京车展,5 月 15 日上市 全新理想 L9 Livis 昨天在北京车展正式亮相,定位为「具身智能旗舰 SUV」。官方确认将于 5 月 15 日上市并开启交付。 外观方面,新车首次以 UWB 雷达替代超声波雷达取消车身开孔,并采用短前悬、长后悬比例搭配 22 英寸轮毂,钻石棱线从 A 柱延伸至 D 柱,尾部为宽肩正梯形造型; 新车搭载 800V 主动悬架与全线控底盘(含线控转向、后轮转向、线控机械制动),单轮举升力标称超 10000 牛,支持悬架弹跳与主动抬升车轮两种脱困模式,官方称为全球首个应用于全尺寸 SUV 的同类方案; 车门采用半隐藏式机械结构,支持电动与手动开启,断电状态下可手动拉开,四门均配备电吸防夹条。 理想汽车还透露,全新 L9 Livis 将同步搭载新一代内饰、智能座舱、5C 增程系统以及马赫 100 芯片,完整规格将于 5 月 15 日发布时一并揭晓。 45.68 万元起,蔚来 ES8 玄金特别版亮相北京车展 蔚来昨天在北京车展正式发布全新 ES8 玄金特别版,售价 45.6 万元;以 BaaS 电池租用方式购买,售价降至 34.8 万元。 玄金特别版以 6 座签名版为配置基础,外观采用极夜黑车色,搭配专属黑铬外饰套件、全新 22 英寸锻造玄金星耀轮圈与曙光金卡钳,并标配行李架导轨。 内饰方面,该版本首发全新雅丹橙内饰主题,同时提供苏木红内饰主题供选择。全新 ES8 所有版型同步开放雅丹橙内饰主题选装,选装价格为 8000 元。 乐道 L80 发布会定档 4 月 28 日 昨天,蔚来创始人、董事长兼 CEO 李斌在蔚来新闻发布会上宣布,旗下品牌乐道的新车 L80 将于 4 月 28 日举办产品技术发布会,并同步开启预售,届时该车型也将在北京车展现场及全国门店同期展出。 李斌将乐道 L80 定位为「全球首款双舱超级大五座 SUV」,并称其为中国市场装载空间最大的大五座 SUV。官方表示,L80 将「全面刷新大五座 SUV 的出行体验」,并推动大五座 SUV 市场加快向纯电转变。 火山引擎发布新一代汽车 AI 解决方案 昨天,火山引擎在北京车展开幕首日发布了基于 Agentic AI 架构的新一代汽车 AI 解决方案,包含 AI 座舱套件方案与豆包座舱助手方案两大产品线。 AI 座舱套件方案支持车企按需灵活接入;豆包座舱助手方案为完整产品级交付,并与豆包 APP 互联互通,计划今年内量产上车。 新方案以单一 AI 大脑取代上一代「意图分域 + 多 Agent 协同」架构,融合对话推理、目标驱动、学习成长三大引擎,打通车控、智驾、导航、座舱等功能域。 发布会上,火山引擎总裁谭待还公布了最新数据:搭载豆包大模型的智能汽车已超 700 万辆,覆盖超 50 个品牌、145 个车型,搭载量稳居行业第一,日均完成超 3000 万次座舱交互。 车展期间,梅赛德斯-奔驰纯电 GLC、上汽奥迪 E7X、上汽大众 ID. ERA 9X、奇瑞星途 EX7、一汽红旗 HS6 PHEV、别克至境 E7、荣威「家越」等多款搭载豆包大模型的新车也将同步亮相。 阶跃星辰发布语音新模型 StepAudio 2.5 ASR 阶跃星辰昨日正式发布新一代自动语音识别模型 StepAudio 2.5 ASR,主打速度与精度兼得,并率先将 LLM 推理加速技术引入语音识别领域。 推理速度提升 400%、时延降低 60%、推理成本直降 80%; 推理峰值达 500 tokens/s,约 5 分钟音视频可极速完成转写; 复用 LLM 原生 32K 上下文窗口,单次支持最长 30 分钟完整音频转写,告别传统「切片-转写-拼接」方案的上下文断裂问题; 在 5 个权威中文及英文开源测试集上,字错误率与词错误率均优于同类模型,长音频场景下精度无明显衰减。 Keep 发布 9.0 版本,自研运动大模型 Keepace.ai 同步亮相 运动健身 App「Keep」正式发布 9.0 版本,并同步公布了其自研运动健康大模型 Keepace.ai,正式启动 AI 战略的产品化进程。 课程方面,平台海量精品课程向用户免费开放,内容品类持续扩充,并由专业团队负责审核; 工具方面,App 界面大幅精简,运动页内嵌 AI 语音陪跑功能,AI 教练「卡卡」作为常驻入口,支持用户通过拍照记录饮食与生理信息,并具备评估多项身体指标的能力; 数据分析方面,新版本打通运动、饮食与睡眠的多维数据,覆盖计划、执行与复盘的全周期,为用户提供专业洞察与长期纠偏建议。 Keepace.ai 的命名取自 Keep Pace(保持配速)与 Keep Ace(保持王牌)的双重含义。该模型融合了 Keep 平台十年积累的亿级运动数据资产,主要聚焦训练课程生成、运动知识问答与运动数据解读共三大核心场景。 区别于通用大模型,Keepace.ai 针对运动健康场景的精准度要求进行了专项优化,系统会深度结合用户伤病史,基于动作、个体状态执行动态风险排查,并综合体能水平、疲劳状态及器械条件输出颗粒度更细的定制建议。 Keep 表示,随着 Keepace.ai 的持续迭代,今年上半年将陆续落地更丰富的「AI 全家桶」产品,以深化 AI 驱动的运动健康生态体系。 美团外卖「防疲劳」机制实施满一年:超 99% 骑手未触发强制下线 据第一财经报道,美团于昨日公布了「防疲劳」机制实施一年以来的多项数据。 全国骑手每天平均跑单时间在 5~6 小时范围内,日均仅 0.54% 的骑手触发强制下线,超过 99% 的骑手跑单时长未达到 12 小时上限。 美团「防疲劳」机制于 2021 年开始试点,并于 2024 年末在全国正式实施「单日有单时长 8 小时提醒休息、12 小时强制下线」规则。 在订单淡季,被弹窗提醒和强制下线的骑手占比分别较旺季低 23% 和 57%; 从地理维度看,北京、上海、深圳等一二线城市的强制下线骑手占比居全国前列,显著高于全国平均水平。 在收入层面,美团此前披露,2025 年上半年全国高频骑手月均收入为 6949 至 10201 元,北上广深等高线城市的「乐跑」熟练骑手群体月收入可达 12826 元。 第一财经采访的北京骑手张强表示,其日均实际接单时长约 8 小时,月收入在 1 万元左右,整体未受「防疲劳」机制明显影响,并对该机制持支持态度。不过,也有骑手反映,部分同行因经济压力在被强制下线后转至其他平台继续接单。 美团表示,今年将在连续跑单 4 小时、连续多日跑单等关键节点为骑手推送休息强提醒,但会将最终选择权交给骑手。 餐馆「反向抹零」被立案调查 据央视新闻报道,近期,广东佛山顺德区一家餐饮店因「反向抹零」多收消费者 0.1 元,被当地市场监管部门正式立案调查。 消费者在该店就餐,应付金额 156.9 元,商家收银系统自动向上取整,实收 157 元。 在接到 12315 热线投诉后,龙江市场监督管理所随即现场核查并调取后台交易流水,确认商家计价逻辑违规,责令其整改系统设置,并依法立案查处。案件目前仍在进一步处理中。 「反向抹零」并非个案。山西省市场监督管理局价格监督检查处处长官廉指出,从消费维权数据来看,此类投诉已覆盖餐饮、商超、农贸市场等多个行业。 耐克将裁员 1400 人 据路透社、CNBC 报道,耐克(Nike)昨日宣布将裁减约 1400 个岗位,裁员规模占全球员工总数的不到 2%,主要集中在技术部门,波及北美、亚洲及欧洲地区。 此次裁员是耐克今年以来的第二轮大规模裁员。今年 1 月,耐克已以加速推进自动化为由,削减了 775 个职位,主要涉及美国境内的配送中心岗位。此前去年夏天,耐克亦完成了一轮波及不到 1% 企业员工的裁员调整。 耐克首席运营官 Venkatesh Alagirisamy 在内部备忘录中表示,此次裁员是耐克「Win Now」战略的组成部分,旨在整合供应链、重塑技术团队,并将技术运营集中于比弗顿总部与耐克印度技术中心两个核心中心。 这不是一个新方向,而是现有工作的下一阶段。 《绵羊侦探团》定档 5 月 16 日 昨天,动画电影《绵羊侦探团》宣布定档 5 月 16 日,并同步发布官方海报。 影片由《小黄人大眼萌》系列导演凯尔 · 巴尔达执导,讲述牧羊人乔治离奇死亡、留下 3000 万美元遗嘱后,一群热爱推理小说的绵羊侦探走出牧场、展开调查的故事。 是周末啊! One Fun Thing|雷军 2026 北京车展「串门」蔚小理,还送 T 恤 昨天,2026 北京车展开幕首日,小米集团 CEO 雷军上午完成小米汽车发布会后,下午开启「逛展模式」,先后现身理想、蔚来、小鹏等品牌展台。 在理想展台,雷军向理想 CEO 李想赠送了一件印有「听我讲完」字样的 T 恤。这四个字源自李想 2013 年参加真人秀时因情绪激动喊出的名场面,此后演变为网络热梗。 雷军现场调侃称,上次介绍理想 L6 时大家说李想「应付了半个小时」,这次「真的听他讲完了」。 在蔚来展台,雷军则向蔚来 CEO 李斌送上印有「一起加电」的 T 恤,并对蔚来的充电桩给予好评。李斌随后在微博发文致谢,称「这个 T 恤上的字,大家都非常熟悉」。 雷军上午发布会还透露,截至 4 月 23 日,小米汽车累计交付已超 65.5 万辆,并预告高性能版本 YU7 GT 将于 5 月底发布,最大马力 1003 匹,续航 705 公里,定位跑车级 SUV。 周末看什么|《迈克尔 · 杰克逊:巨星之路》正式上映 迈克尔 · 杰克逊官方授权传记音乐电影《迈克尔·杰克逊:巨星之路》昨日正式登陆全国院线。 主演贾法尔 · 杰克逊作为杰克逊家族成员,历经两年深耕舞步、声线与内心世界,以近乎「复刻」的表演诠释天王神韵。 影片精准还原多个标志性舞台时刻:摩城 25 周年首秀「月球漫步」、《Thriller》先锋僵尸群舞、1988 年温布利球场《Bad》巅峰演出,白袜黑皮鞋、水晶手套等经典造型悉数重现。 科尔曼·多明戈饰演严厉父亲乔 · 杰克逊,尼娅 · 朗诠释温柔母亲凯瑟琳,共同勾勒出天王背后的家庭羁绊与成长阵痛。 影片融合 30 首经典金曲,并获 IMAX 与杜比全景声加持。执行制片人莉迪亚 · 西尔弗曼表示,影片旨在呈现「活生生的迈克尔」,让观众看见天才背后的挣扎与初心。 买书不读指南|《燃烧的龙舌兰》 《燃烧的龙舌兰》是旅行作家班卓(本名刘华)的最新游记,记录了作者于 2010 年末独自前往墨西哥的旅行经历。 作者从恰帕斯州圣克里斯托瓦尔出发,途经玛雅村落、龙舌兰农场与嬉皮士聚会,一路走入陌生人的日常生活,与其劳作、交谈、相处。 旅途中,她与偶遇的同伴深入彩虹森林,徒步荒寂的深夜沼泽,品尝致幻的神圣蘑菇,并潜入海底与海龟、鹰鳐共游。「理解生命的渴望」是驱动这段旅途的核心动力。 它书写肤色、语言、阶层与性别所制造的隔阂,同时记录人如何跨越这些差异尝试彼此靠近,以观察者姿态深入异质文化,在追问与对话中呈现「众生相」,并将记忆、孤独、爱情、理想等命题编织进具体的行旅叙事之中。 游戏推荐|《失落星船:马拉松》 《失落星船:马拉松》由《光环》和《命运》的原班人马打造,支持 PS5、Xbox 和 PC 平台。游戏延续了原作《马拉松》系列的宇宙背景,以超人类主义与永生不死为主题,构建了一个诡异而独特的科幻世界观。 玩家扮演「疾行者」,在 UESC「马拉松」号飞船残骸与周边区域中执行搜刮、撤离任务,与 NPC 敌人及其他玩家小队展开高风险对抗。 游戏采用英雄射击与撤离射击相结合的设计,提供「刺客」「救援」「毁灭者」「侦查」等多种定位各异的疾行者角色,每名角色携带预设能力,可与队友形成战术配合。 核心玩法围绕搜刮、装备成长与角色技能树展开,玩家在每局对战中积累材料、完成任务、解锁升级,即便撤离失败也能保留部分成长进度。 IGN 评测人 Travis Northup 在文章中给出 9 分(奇佳)的成绩,高度肯定了本作对 Bungie 标志性射击手感的传承,以及其深度成长系统与终局内容的设计质量。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。