行业分类:
加载中...
头条分类:
加载中...
国产大模型高考出分了:裸分683,选清华还是北大?
量子位 | 公众号 QbitAI 这两天啊,各地高考的成绩终于是陆续公布了。 现在,也是时候揭晓全球第一梯队的大模型们的“高考成绩”了—— 我们先来看下整体的情况(该测试由字节跳动Seed团队官方发布): 按照传统文理分科计分方式,Gemini的理科总成绩655分,在所有选手里排名第一。豆包的文科总成绩683分,排名第一,理科总成绩是648分,排名第二。 再来看下各个细分科目的成绩情况: 除了数学、化学和生物之外,豆包的成绩依旧是名列前茅,6个科目均是第一。 不过其它AI选手的表现也是比较不错,可以说是达到了优秀学生的水准。 比较遗憾的选手就要属O3,因为它在语文写作上跑了题,因此语文成绩仅95分,拉低了整体的分数。 若是从填报志愿角度来看,因为这套测试采用的是山东省的试卷,根据过往经验判断,3门自选科目的赋分相比原始分会有一定程度的提高,尤其是在化学、物理等难度较大的科目上。本次除化学成绩相对稍低外,豆包的其余科目组合的赋分成绩最高能超过690分,有望冲刺清华、北大。 (赋分规则:将考生选考科目的原始成绩按照一定比例划分等级,然后将等级转换为等级分计入高考总分) 好,那现在的豆包面临的抉择是:上清华还是上北大? 大模型参加高考,分数怎么判? 在看完成绩之后,或许很多小伙伴都有疑惑,这个评测成绩到底是怎么来的。 别急,我们这就对评测标准逐条解析。 首先在卷子的选择上,由于目前网络流出的高考真题都是非官方的,而山东是少数传出全套考卷的高考大省;因此主科(即语文、数学、英语)采用的是今年的全国一卷,副科采用的则是山东卷,满分共计750分。 其次在评测方式上,都是通过API测试,不会联网查询,评分过程也是参考高考判卷方式,就是为了检验模型自身的泛化能力: 选择题、填空题 采用机评(自动评估)加人工质检的方式; 开放题 实行双评制,由两位具有联考阅卷经验的重点高中教师匿名评阅,并设置多轮质检环节。 在给模型打分的时候,采用的是 “3门主科(语文数学英语)+3门综合科(理综或文综)” 的总分计算方式,给五个模型排了个名次。 值得一提的是,整个评测过程中,模型们并没有用任何提示词优化技巧来提高模型的表现,例如要求某个模型回答得更详细一些,或者刻意说明是高考等等。 最后,就是在这样一个公平公正的环境之下,从刚才我们展示的结果来看,Gemini、豆包相对其他AI来说取得了较优的成绩。 细分科目表现分析 了解完评测标准之后,我们继续深入解读一下AI选手们在各个科目上的表现。 由于深度思考的大火,大模型们在数学这样强推理科目上的能力明显要比去年好很多(此前大部分均不及格),基本上都能达到140分的成绩。 不过在一道不算难的单选题(全国一卷第6题)上,国内外的大模型们却都栽了跟头: 这道题大模型们给出的答案是这样的: 豆包:C;Gemini:B;Claude:C;O3:C;DeepSeek:C。 但这道题的正解应该是A,因此大模型们在此全军覆没。 之所如此,主要是因为题目里有方框、虚线、箭头和汉字混在一起的图,模型认不准图像,说明它们在 “看图说话” 这块还有进步空间。 以及在更难的压轴大题上,很多大模型也没完全拿下,经常漏写证明过程,或者推导不严谨被扣分,说明在细节上还需加强。 到做语文选择题和阅读题这两个版块,大模型们几乎是 “学霸本霸”,得分率超高。 不过在作文写作过程也暴露出了一些问题,例如写作过于刻板、文字冰冷,文章字数不达标(不足800字或超过1200字)、立意不对,形式上还经常会出现惯用的小标题。 在英语测试过程中,大模型们几乎挑不出毛病,唯一扣分点是在写作上,比如用词不够精准、句式稍显单调,但整体已经很接近完美。 对于理综,遇到带图的题目大模型们还是会犯难,不过豆包和Gemini这俩模型在看图像和理解图的能力上会比其他模型强一些。 例如下面这道题中,正确答案应当是C,大模型们的作答是这样的: 豆包:C;Gemini:C;Claude:D;O3:D;DeepSeek:D。 最后在文综方面,大模型的地域差别就显现得比较明显,国外的大模型做政治、历史题时,经常搞不懂题目在考啥,对中国的知识点不太 “感冒”。 而对于地理题,最头疼的便是分析统计图和地形图,得从图里精准提取信息再分析。 以上就是对于本次评测的全面分析了。 除了今年国内的高考之外,这几位“参赛选手”还参加了印度理工学院的第二阶段入学考试——JEE Advanced。 这场考试每年有数百万人参与第一阶段考试,其中前25万考生可晋级第二阶段。它分为两场,每场时长3小时,同时对数学、物理、化学三科进行考察。 题目以图片形式呈现,重点考查模型的多模态处理能力与推理泛化能力。所有题目均为客观题,每道题进行5次采样,并严格按照JEE考试规则评分——答对得分、答错扣分,不涉及格式评分标准。 与全印度人类考生成绩对比显示,第一名得分332分,第十名得分317分。 值得注意的是,豆包与Gemini已具备进入全印度前10的实力:Gemini在物理和化学科目中表现突出,而豆包在数学科目5次采样中实现全对。 怎么做到的? 相比去年一本线上下的水平,整体来看,大模型们在今年高考题上的表现均有明显的进步。 那么它们到底是如何提升能力的?我们不妨以拿下单科第一最多的豆包为例来了解一下。 豆包大模型1.6系列,是字节跳动Seed团队推出的兼具多模态能力与深度推理的新一代通用模型。 团队让它能力提升的技术亮点,我们可以归结为三招。 第一招:多模态融合与256K长上下文能力构建 Seed1.6延续了Seed1.5在稀疏MoE(混合专家模型)领域的技术积累,采用23B激活参数与230B总参数规模进行预训练。其预训练过程通过三个阶段实现多模态能力融合与长上下文支持: 第一阶段:纯文本预训练 以网页、书籍、论文、代码等数据为训练基础,通过规则与模型结合的数据清洗、过滤、去重及采样策略,提升数据质量与知识密度。 第二阶段:多模态混合持续训练(MMCT) 进一步强化文本数据的知识与推理密度,增加学科、代码、推理类数据占比,同时引入视觉模态数据,与高质量文本混合训练。 第三阶段:长上下文持续训练(LongCT) 通过不同长度的长文数据逐步扩展模型序列长度,将最大支持长度从32K提升至256K。 通过模型架构、训练算法及Infra的持续优化,Seed1.6 base模型在参数量规模接近的情况下,性能较Seed1.5 base实现显著提升,为后续后训练工作奠定基础。 这一招的发力,就对诸如高考语文阅读理解、英语完形填空和理科综合应用题等的作答上起到了提高准确率的作用,因为它们往往涉及长文本且看重上下文理解。 第二招:多模态融合的深度思考能力 Seed1.6-Thinking 延续Seed1.5-Thinking的多阶段RFT(强化反馈训练)与RL(强化学习)迭代优化方法,每轮RL以上一轮RFT为起点,通过多维度奖励模型筛选最优回答。相较于前代,其升级点包括: 拓展训练算力,扩大高质量数据规模(涵盖 Math、Code、Puzzle 等领域); 提升复杂问题的思考长度,深度融合VLM能力,赋予模型清晰的视觉理解能力; 引入parallel decoding技术,无需额外训练即可扩展模型能力 —— 例如在高难度测试集Beyond AIME中,推理成绩提升8分,代码任务表现也显著优化。 这种能力直接对应高考中涉及图表、公式的题目,如数学几何证明、物理电路图分析、地理等高线判读等;可以快速定位关键参数并推导出解题路径,避免因单一模态信息缺失导致的误判。 第三招:AutoCoT解决过度思考问题 深度思考依赖Long CoT(长思维链)增强推理能力,但易导致 “过度思考”—— 生成大量无效token,增加推理负担。 为此,Seed1.6-AutoCoT提出 “动态思考能力”,提供全思考、不思考、自适应思考三种模式,并通过RL训练中引入新奖励函数(惩罚过度思考、奖励恰当思考),实现CoT长度的动态压缩。 在实际测试中: 中等难度任务(如 MMLU、MMLU pro)中,CoT 触发率与任务难度正相关(MMLU 触发率37%,MMLU pro触发率70%); 复杂任务(如AIME)中,CoT触发率达100%,效果与Seed1.6-FullCoT相当,验证了自适应思考对Long CoT推理优势的保留。 以上就是豆包能够在今年高考全科目评测中脱颖而出的原因了。 不过除此之外,还有一些影响因素值得说道说道。 正如我们刚才提到的,化学和生物的题目中读图题占比较大,但因非官方发布的图片清晰度不足,会导致多数大模型的表现不佳;不过Gemini2.5-Pro-0605的多模态能力较突出,尤其在化学领域。 不过最近,字节Seed团队在使用了更清晰的高考真题图片后,以图文结合的方式重新测试了对图片理解要求较高的生物和化学科目,结果显示Seed1.6-Thinking的总分提升了近30分(理科总分达676)。 图文交织输入示例 这说明,全模态推理(结合文本与图像)能显著释放模型潜力,是未来值得深入探索的方向。 那么你对于这次大模型们的battle结果有何看法?欢迎大家拿真题去实测后,在评论区留言你的感受。
不是耳机也不可穿戴,OpenAI首款硬件究竟是什么?
‍‍‍上周,OpenAI曾发布与其收购的人工智能硬件公司io相关的宣传材料,但随后这些宣传已从网站和YouTube页面撤下。这与收购计划本身无关,真正原因是另一家人工智能公司iyO提出商标诉讼,称二者名称和产品相似,可能会误导消费者。 那么,io和iyO究竟有多相似呢? iyO公司致力于打造一款无屏幕的语音控制音频计算机。它最初是谷歌 “登月计划” 实验室的项目,2021年分拆独立,去年推出了旗舰产品,定制的人工智能耳机。 相比之下,io正在研发的产品依旧十分神秘。 01. 无显示屏,非穿戴式,绝非入耳式 知名科技分析师Ming-Chi Kuo称,OpenAI与io合作的设备 “不具备显示功能”,可以戴在脖子上,像已停产的Humane AI胸针。 不过,商标诉讼案中的文件显示,二者可能存在关键差异。io的联合创始人兼首席产品官Evans Hankey在给法庭的声明中表示:“io目前并无推出定制耳机产品的计划。” 另一位联合创始人Tang Tan也在声明中表示,io产品的原型 “既非入耳式设备,也不是可穿戴设备”。 02. 然而,io曾深入测试入耳式设计 Tan补充道,该产品距离最终定型、宣传和上市“至少还需一年”,所以目前关于其非入耳式的说法可能会改变。实际上,他表示在设计原型时,io考虑了各种类型的设备,包括桌面和移动设备、无线和有线设备、可穿戴和便携式设备。 证据表明,io最认真考虑过的设备类型是入耳式。 io工程师Marwan Rammah在一份声明中称,2023年公司成立后的几个月里,他们购买了至少30种不同耳机,目的是“了解音频产品的现状”。Rammah还表示,他建议从名为The Ear Project的公司购买三维耳朵扫描数据库,iyO也曾使用过该数据库。 近期,在收购前夕,io和OpenAI都与iyO的管理层会面,以进一步了解其产品。Tan在声明中称,他本不愿参加会议,因为怀疑iyO的产品只是“概念产品”,但又不想接触任何机密信息,以免出现相似之处时引发法律纠纷。 03. 既非手机,也非眼镜 据《华尔街日报》获取的一段泄露会议录音,OpenAI首席执行官Sam Altman告诉员工,这款人工智能设备体积较小,可放在桌面或装进口袋。它能“很好地感知用户的周围环境和生活”,消费者使用它的频率会与使用iPhone和MacBook Pro相当。 Altman还称,这款设备既不是手机,也不是眼镜,且不太可能是可穿戴设备,其目的是让用户减少对屏幕的依赖。 OpenAI于上月底收购了io,并指定其联合创始人、前苹果首席设计官Jony Ive负责领导即将开展的硬件项目设计。 据《纽约时报》报道,Ive和Altman两年前就已决定打造一款人工智能驱动的硬件设备。他们的共同愿景是“开发一款利用人工智能的产品,创造一种对社交干扰比iPhone更小的计算体验”。 据彭博社科技内幕人士Mark Gurman称,这一合作让苹果公司颇为不安,因为在人工智能创新方面,苹果已落后。 目前,苹果最具雄心的人工智能硬件项目——增强现实且AI驱动的眼镜 ,预计将于2026年底推出。不过,苹果仍处于开发智能手表和AirPods的早期阶段,这些设备带有内置摄像头,旨在支持人工智能相关功能。 原文来源于: 1.https://www.techrepublic.com/article/news-openai-io-ai-device/
战事升级,美团的答案藏在即时零售里
聚焦优势资源打决胜战役 作者丨瀚星 你最近一次网购30卷纸巾、10支牙膏、5箱啤酒是在什么时候? 囤货,正成为离我们越来越远的古早购物模式。 过去十余年,电商大促培养出“非折扣不买”的消费习惯,不少用户会刻意延迟刚需采购,等待促销节点集中囤货。 但随着用户购物习惯的演变,越来越多的即时性消费正在回归。 知名市场监测和数据分析公司尼尔森IQ发布的《2024年度网络购物者调研》显示,选择“随时立刻补货、不等折扣”的消费者占比达到29%,较上一年增长9%。小型家庭结构的消费者采购模式,由一次性大额采购、囤货,逐渐转向按需补货,即避免浪费、购买适量的小包装、随时立刻补货的模式。 占据即时零售市场最大份额的美团,对消费趋势的变化有着清晰的认知。 6月23日,美团宣布:将全面拓展即时零售,推动零售新业态的提质升级,主要有四项措施,包括:全面拓展即时零售品牌闪购的品类,加码自营生鲜食杂配送业务小象超市,社区团购业务美团优选转型升级,以及积极拓展海外市场。 这四个动作本质上是一回事:美团要聚焦优势资源打决胜战役。 毕竟,相比于外卖的存量竞争,在即时零售上的主动进攻才是决胜局的关键。 京东入场,淘宝亮相,美团保持不分心,没有高调喊口号,也没有参与内卷。什么事情该做,什么事情不该做,美团想得很清楚。 就在美团发布公告的同一天,阿里巴巴也宣布将饿了么、飞猪并入中国电商事业群,整合资源,完成“从电商平台走向大消费平台的战略升级”。 那么,巨头们不约而同地全面聚焦即时零售,还给行业传达出什么信号? 美团看到了最好的时机 美团闪购和小象超市是此次美团战略升级的两大核心业务支点。 2018年,美团成立闪购部门,希望将餐饮即时配送能力应用在更多品类上。经过7年发展,闪购已经搭建起了成熟的供给和履约体系。美团的数字化能力联合百万本地实体商家,把消费者购物体验从“等几天快递”变成时效更高的“30分钟送达”。 截至目前,美团闪购与零售商品牌商已在全国建设了超3万家闪电仓。 对当下的消费者而言,外卖早已不单单指一顿饭、一杯奶茶,还可以是数码配件、母婴用品、服饰、宠物用品、小家电,“外卖点手机”也已不是什么新鲜事。艾瑞咨询数据显示,2021-2026年,即时零售消费电子市场规模的年复合增长率预计达到68.5%,2026年规模将超过千亿元。 平台数据显示,在今年618期间(5月27日-6月18日),超过1亿用户使用了美团闪购,手机成交额翻倍,智能设备增长超6倍,白酒增长超10倍,另外还有60多个品类的商品成交额增长翻倍,近850个品牌成交额翻倍。 在此次战略升级中,美团闪购将在品牌升级基础上,继续拓展品类,联合零售商品牌商进一步拓展门店和闪电仓,提供更丰富的3C家电、生鲜食品、酒水饮料和快消日百供给。 美团闪购是对美团本地核心商业业态的升级和补充,小象超市则是走另一条道路:通过自营前置仓的模式,将产地生鲜和日用百货做到30分钟送达。 目前,小象超市已在全国20个城市开设了近千个前置仓。据美团数据,小象超市今年农产品销售额预计将超过200亿元。 结合第三方市场数据来看,小象超市的GMV规模和覆盖城市数,已经超过了叮咚买菜、朴朴超市等前置仓主要玩家,跻身行业第一梯队。 相比于美团闪购的平台式运营,小象超市的自营模式做得更重,因此很难在短时间内大范围地铺开。在此次业务升级中,美团重点提及将加码小象超市,扩大覆盖区域,未来将逐步拓展到所有的一二线城市。 为辅助小象超市在二线城市的拓展,社区团购业务美团优选将同步进行转型升级。经过多年投入,美团优选已在全国搭建了较成熟的供应链和仓配网络。将优选和小象的供应链打通,可以实现1+1>2的效果。 在过去很长一段时间,美团在即时零售上都以“快”著称,这也是它最深的护城河。但随着即时性需求的爆发和市场环境的变化,仅做到快已经不能满足当下消费者的全部需求。 下一步,美团要同时做到“多快好省”。 在“好”的角度,各平台都是标品,线上线下一盘货,暂时难分高下。因此,“多”和“省”成为制胜关键。 美团的计划,是通过拓展品类、丰富供给实现万物到家,再通过整合供应链资源、优化履约模式,更高效地运营,提供给消费者更有性价比的商品,从而拿下更多的零售市场份额。 供需逻辑改变,线下实体“逆袭” 即时零售不仅是消费端的需求,同时也是供给端的机会。 十多年的电商发展,让零售份额大量地向线上倾斜,而这一趋势在2020年开始发生变化。前一年,实物商品网上零售额增速首次降至20%以下,2020年又进一步下滑至15%以下。传统电商进入了存量竞争阶段。 同样在2020年,即时性需求开始爆发。据艾瑞咨询,这一年有83%的消费者通过平台型电商进行即时零售消费,71%使用垂直自营模式即时零售电商,64%选择传统商超自营模式,超过60%的订单被送往住宅区。 即时零售消费者最常购买的品类是水果蔬菜、休闲零食、乳制品等,也恰好是短保易腐、不便长途运输或消费者想尽快使用的品类。 2020年之后,需求端的热情不减,即时零售逐渐成为一种新的生活方式,供给端也在积极拥抱。 不同于传统电商模式,即时零售是一种对线下商家更友好的线上化方式,商家既能借助平台的力量实现数字化转型,又能获得流量拓宽销售渠道。 此前,本地实体零售商最大的竞争对手是“全国货一盘棋”的传统电商,异地供货一定程度上挤占了本地商家的市场空间。与此同时,在零售行业多级经销商的体系下,本地商家也很难在商品价格上具备竞争力。 但在即时零售领域,供需的逻辑发生了变化。 例如,在价格差距不是十分明显的情况下,外卖30分钟就能把一包纸巾送到家,而传统电商要等1到2天,大部分消费者会选择前者,这让“就近供货”的本地零售商受益。 本地零售商的核心客群受地理位置限制,一般是方圆1公里内的居民。而即时零售相当于为这些实体门店开辟了一条线上通道,将经营范围由原本的1公里拓展到5公里。 此外,本地品牌多以鲜食为主,具有需求与供给双重本地化的特征,即时零售能够更快地连接起本地的供需双方,提高配送时效,减轻叠加耗损,保证食物的新鲜度。 从当前的发展来看,商超、连锁、KA、门店等本地实体零售商,是即时零售发展的主要受益者。 这离不开美团长达7年的即时零售探索,美团一直在探索一种线上线下融合发展的零售新模式,让线下实体可以充分参与分享线上的数字红利。 打破内卷,向外寻求可能性 即时零售不仅仅是美团的机会,也是传统电商平台的机遇。 中金公司研究报告显示,2021年前后,服饰、美妆等对时效性要求不高、可用快递网络完成履约的品类,或者家电等商品单价足以覆盖复杂物流作业的品类,已基本被传统电商巨头分割。 2025年年初,电商巨头们率先在即时零售的战场上点燃烽火。 2月初,京东大举进军外卖,既是对新业务的拓展,同时也寄希望于外卖带动主站零售业务的增长,从而在即时零售的市场上多分一杯羹。 两个多月后,淘宝与饿了么联手杀入即时零售战场。 近期,据晚点LatePost报道,多多买菜开始在上海等一线城市试验自建商品仓库,最快将于8月上线即时配送服务。 同一天,淘宝和美团官宣业务调整、战略升级。 当多家巨头踏入同一片战场,内卷成为不可避免的话题。从去年的电商低价大战到今年年初的外卖战火重燃,市场担心,即时零售是否会再次掀起一场零售行业的内卷。 今年以来,美团多次表态要推动行业理性竞争,并在近期密集推出多项“反内卷”举措,如公开算法、开启骑手恳谈会改进配送规则、取消“超时扣款”、全面上线骑手“防疲劳机制”、投入10亿助力金补贴餐饮商家等。 即时零售本质上是一个与外卖相似的四方市场,美团希望不仅让消费者、商家和平台受益,也能让骑手受益。 此外,消化供给过剩带来的内卷不仅要有措施,还要合理疏导,“走出去”是一个更好的选择,美团也在积极探索海外市场。 新一轮调整后,美团还将重点拓展国际市场,向海外输出“即时零售”这一中国创新模式。小象超市的海外品牌Keemart出海首站定在沙特阿拉伯,覆盖AI Yasmin和Granada等区域。 Keemart将复用国内前置仓模式,但采用本地合作+前置仓的轻资产运营模式,借力美团外卖业务Keeta的骑手网络和用户基础,通过Keeta已有的基础降低冷启动成本,形成生态协同,近期测试完成后,将向其他地区扩展。 在零售行业中,多和快、好和省一直都是两对反义词,多就不能快,好就不能省。 美团凭借其在“快”方面的深厚护城河,长期占据优势,但也因此在品类丰富度和供应链深度上受到一定限制,毕竟高效的配送需要大量的资源投入和“重”资产运营。 但在即时零售这个新战场上,美团通过持续的投入、业务模式的调整与创新,正在努力克服这些固有矛盾,寻求一种在“丰富性、速度、品质与成本”之间的最优解。 这不仅标志着美团自身商业模式的进化,更深层地看,也为零售业如何更好地满足消费者不断升级的即时性、个性化需求,描绘了一幅更为清晰的未来图景。 封面来源丨网络
谁说拼多多非押注即时零售不可?
即时零售,不是拼多多战略布局中的必选项。 文 | 佘宗明 即时零售牌桌上不存在「三缺一」,可总有吃瓜群「媒」乐见即时零售战局像晋西北那样乱成一锅粥——他们俨然比拼多多更希望看到拼多多加入战团。 前两天,晚点LatePost披露,多多买菜正在上海等一线城市试验自建商品仓库、最快将于今年8 月上线即时配送服务。 这是多多买菜对既有履约时效优化动作的延续,拼多多方面对此的口径是「不能代表公司战略方向」「无意加入即时零售大战」。 饶是如此,许多人仍将其视作拼多多将在即时零售领域下一盘大棋的信号,渲染拼多多正「全面杀入即时零售万亿市场」。 但这可能是会错了意。我从接近拼多多的人士和拼多多合作伙伴处得知,拼多多并没有拿出之前在电商主站、百亿补贴、多多买菜(社区团购)、Temu(全球化)四场战役中的投入力度来应对即时零售,多多买菜推即时配送服务远未上升到「战略」层面——这跟美团、阿里、京东将即时零售提到战略高度有着明显区别。 不排除多多买菜有意将社区团购领域积累的生鲜供应链优势外溢以覆盖部分即时性需求,但这不等于拼多多就要对即时零售进行战略级押注。拼多多明确「不会涉足餐饮外卖」,且没有高调吆喝,就是佐证:要知道,餐饮外卖本是即时零售的最佳切口;高调是平台强化「万物皆可外卖」心智的必要手段。 那,拼多多该不该将即时零售作为发展棋盘中的战略落子? 如果是从电商行业看拼多多,被「再不入场就晚了」的追逐风口思维推着走,那答案当然是「该」。 可若是从拼多多看拼多多,从其自身优势特点出发,就免不了得思考一个问题:拼多多真有必要全面布局即时零售吗? 在我看来,即时零售不是拼多多战略布局中的必选项——哪怕很多人说即时零售是「零售业的下一个增长曲线」,拼多多也不必随风起舞。 01 首先,即时零售是某些平台激活组织活力的「手术刀」,但拼多多用不着。 京东推出外卖后又宣布进军酒旅市场;美团全面拓展闪购品类、重金加码小象超市、推动优选转型升级;阿里将饿了么、飞猪并入阿里中国电商事业群……近段时间以来,京东、美团、阿里接连祭出大动作,共同所指就是在即时零售上加码。 ▲晚点LatePost梳理了几家企业的商品供给、仓配、DAU情况。 结合三家企业的组织结构调整看不难发现,即时零售正成为它们架构重整的重要契机。 2023年12月,刘强东曾在内网反思京东「现在组织庞大臃肿低效」;前段时间,阿里离职员工发万字长文谈阿里病灶获马云回复,帖中说到阿里「战略不清」的问题……问题指向了大厂病,问题背后的问题则是战略迷失。 在此情形下,以新业务为锚点来校准发展战略、重塑组织活力,是很常见的做法。 阿里将本地生活服务跟淘系资源打通,以生态协同形成更强的综合作战能力,摆脱过往「大而全」架构带来的反应迟缓顽疾;京东推动仓储、配送、营销等多部门协同作战,避免条块分割的掣肘……都是有的放矢。 可以说,即时零售成了以新业务撬动旧痼疾解决、以外部竞争带动内部问题治理的切入点。 但以架构极简人效高闻名的拼多多,还不存在通过即时零售重构组织体系的紧迫性。 拼多多是个「科层味」没那么浓的企业,其组织管理模式被业界归结为「集权式扁平化管理」,决策链条短、响应速度快,擅长集中资源打「歼灭战」。 在现有架构可以支撑核心业务高效运转的背景下,拼多多以即时零售为引线来牵引组织架构调整的需求并没有那么急切。 02 其次,即时零售是大厂挖掘流量红利的「洛阳铲」,而拼多多有低流量成本优势。 几天前,刘强东在小范围分享会上曾说过:做餐饮外卖业务虽然亏钱,但40%的消费者会交叉购买电商产品,其投入比去抖音、腾讯买流量划算。 刘强东说的「高频打低频」模式——用亏钱的高频买卖(餐饮外卖)为低频高利润业务(酒旅、3C等)导流,正是美团阿里京东们布局即时零售的核心逻辑。 美团全面拓展闪购品类,实现从高频到低频的业务拓展;阿里跟京东将即时零售、电商、酒旅置于「大消费」的盘子里,推动流量多向转化……就是基于这点。 这里面,撬动流量杠杆、突破流量瓶颈,成了发力即时零售的重要目的。 而拼多多就凭着独特商业模式与强大流量聚合能力,在电商领域形成了显著的低成本流量优势。 从电商角度看,高性价比永远是最有效的流量获取秘诀。「多快好省」,用户总是在「省」和其他要素间寻求最优解。 拼多多就用卖家零佣金+超短链模式+供需两侧补贴等托起的「高性价比」特点加上拼团、砍价等「社交裂变」玩法,获得了大量免费流量。 时至今日,其用户的购物频次、停留时间、复购率都处于行业领先水平。 即时零售能提升用户活跃度是不假,但鉴于履约的高成本跟生鲜、日用品等核心品类的低毛利率倒挂,在流量池相对充裕的情况下,拼多多将资源用在优化现有流量的变现效率上,未尝不是更优选择。 03 更重要的是,即时零售瞄准的主要是一二线城市的「时间敏感型」消费者,很难覆盖众多的占总人口绝大多数的「价格敏感型」消费者——这正是拼多多的主要用户群体。 作为以即时配送体系为基础、以「线上下单,线下30分钟送达」为特征的高时效性到家消费业态,即时零售是应消费者「即买即得」的即时满足需求而生。 可履约成本占订单金额超20%的情况决定了,即时零售得建立在「高履约成本+高用户付费意愿」的基础上。它就像是零售领域的奢侈品,面向的主力客群是部分愿意为商品更快送达支付更高价格的高线城市消费者。 但需要看到的是,国内消费者的金字塔结构并未发生根本性变化,处在塔基的低线城市和农村地区消费者仍是「基本盘」。 现实就摆在那:在渐次完善的流通基础设施与社会履约体系将商品配送时效差距变为「半小时」跟「一两天」之别的当下,大多数消费者对「9.9包邮」的敏感度远超「半小时达」,「价格再便宜10%」对他们的吸引力高于「配送速度再快几小时」。 数据就显示,即时零售订单主要来自于一线新一线城市,在下沉市场的渗透率仍很低。 ▲图片由豆包AI生成。 事实上,阿里淘鲜达、京东秒送早就在即时零售上有布局,但此前进展缓慢。 晚点LatePost就将原因总结为:1小时送达当然比两天送达更好,但消费者通常并不愿意为此多花几十几百元,今天拼多多、淘宝下单,通常2-3天就能送到家,物流体验已经很好。经过几年投入,目前被验证的即时零售品类还是以生鲜、酒水、医药、鲜花等为主,并没有太多人买其他东西。「补贴结束后,即时零售到底能被多少消费者接受,还需要验证。」 从用户体验维度看,即时零售被视作「定义下一代购物体验」,很正常;但从整体需求层面看,即时零售兴起是不是「小众需求的出圈化」,仍待观察。 回归零售本质,零售总是围绕「多快好省」等维度展开。即时零售是对「快」的极端强化,但这不影响「省」依旧是更广泛的需求。 拼多多此前已凭借C2M模式压缩流通环节、用分布式供应链替代中心化仓储、以爆款逻辑提升单品规模效应,在「省」上建立了相对优势。 哈佛大学教授、「竞争战略之父」迈克尔·波特曾提出三种基本竞争战略:成本领先战略、差异化战略、集中化战略。 拼多多不需要抢占每个风口,在巨头们纷纷扎进即时零售深海之时,它可以延续昔日从电商板结化格局中杀出来的错位竞争打法,继续用性价比优势照拂大多数消费者对「省」的需求,而非用高履约成本去满足少数消费者对极致的「快」的需要。 04 在讨论拼多多是否该聚焦即时零售时,还有个不能忽视的维度是全球化。 即时零售,从国内看,属于增量拓展——它在满足「随时购物,即时收货」需求中做大了消费蛋糕;从外部看,仍是存量挖掘——平台免不了为抢夺用户而卷。 既然底层逻辑都是寻找新增量,那就不必将视线限于国内。跟高度依赖本地化资源与履约能力的「重资产」赛道即时零售比,全球化业务兴许对应着更广袤的市场。 过去几年里,多多跨境在海外市场异军突起,用户规模直逼亚马逊。截至2024年底,多多跨境已覆盖全球超过150个国家和地区,月活超2亿,年销售额突破100亿美元,这些都是其全球化拓展能力的最直观注解。 在全球化过程中,拼多多可以复用现有供应链管理、成本控制和精细化运营能力,用在国内跑通的「拼团+预售」玩法、直连工厂和C2M小单快反和模式适配海外市场,获得确定性回报。 尽管眼下「关税墙」横亘,但在「一带一路」与RCEP框架下,中国跨境电商仍有可待发掘的红利,多多跨境在「中国制造的全球化突围战」中依旧可扮演带头冲锋者角色。 对拼多多来说,在全球化拓展连着「星辰大海」图景的情况下,与其为了即时零售而削足适履、分散精力,不如继续将全球化放在更高的战略优先级,在优势点上做压强式投入。 毕竟,从终局思维看,重要的不是赢下即时零售战事,而是在新蓝海里找到新增量。 若是将即时零售看成二维世界的巨头必争之地,那全球化兴许就是三维世界的垦荒之所。即时零售是零售形态变革,将中国供应链效能输出全球则是另一种变革。 就此看,拼多多该做的是拼多多自己,而非另一个美团、阿里、京东——它可以保持战略定力、善用自身优势,走在自己的时区里,按自己的节奏来,而不是跟风趋时随大流。
阿里2025财年致股东信:聚焦 “用户为先、AI 驱动”,开启AI时代新征程
凤凰网科技讯 6月26日,阿里巴巴集团今日发布2025财年股东信,详述了过去一年以“用户为先,AI驱动”为核心战略的业务进展与未来规划。股东信显示,电商与“AI+云”已成为驱动集团增长的两大核心引擎。 在国内电商领域,淘天集团持续聚焦用户增长与体验提升,优化商家经营环境,致力于构建消费者、商家与平台三方共赢的生态,并观察到平台信任度与业务增长的同步提升。海外电商方面,受益于强劲的跨境业务表现,阿里国际数字商业集团收入保持快速增长,公司正加强重点市场的本地化供给,并对下一财年实现单季度整体盈利充满信心。 AI战略被阿里巴巴视为未来十年重塑行业的最大变量与核心驱动力。作为承载此战略的关键业务,阿里云在旺盛的AI需求推动下表现亮眼:公共云收入加速增长,AI相关产品收入连续七个季度实现三位数增长,全年收入达到两位数增幅。在大模型领域,阿里巴巴强调基础研究与创新,其通义Qwen3模型在多份全球权威评测中表现领先。截至2025年4月底,通义系列开源模型已超200款,全球下载量突破3亿次,衍生模型超10万个,成为全球最大的开源模型家族。 资本管理方面,阿里巴巴通过核心业务创造了强劲现金流,并通过提升经营效率使包括虎鲸文娱、高德在内的多项亏损业务逐步转向盈利。公司有序退出高奢零售、银泰百货等非核心资产以回笼资金,更聚焦于核心及AI领域投资。股东回报上,2025财年派发股息46亿美元,并回购了价值119亿美元的集团股份,使总股本净减少51%。 面向未来,阿里巴巴宣布将围绕AI战略核心,在三个领域加大投入:AI和云计算基础设施建设、AI基础模型与原生应用、现有业务的AI转型升级。尤为引人注目的是,公司承诺未来三年在云和AI硬件基础设施上的投入总额,将超过过去十年的总和。阿里巴巴认为自身在云计算市场(尤其中国及亚太)的地位,结合其AI技术积累,具备将“AI+云”打造成第二增长曲线的独特优势。股东信结尾强调,阿里巴巴将以“从零开始”的创业心态,迎接AI技术浪潮带来的全新机遇。
两大AI巨头接连胜诉 美法官:用书籍训练AI属“合理使用”
Meta 凤凰网科技讯 北京时间6月26日,据《金融时报》报道,美国联邦法院周三裁定,Meta利用数百万本书籍训练其AI模型属于“合理使用”,这对依赖受版权保护材料开发AI的科技公司而言是一场胜利。 该案由大约12名作者提起,包括塔-内希西·科茨(Ta-Nehisi Coates)和理查德·卡德雷(Richard Kadrey)。他们指控Meta在未经授权的情况下使用他们的书籍来训练其AI系统,侵犯了他们的版权。 旧金山联邦地区法官文斯·查布里亚(Vince Chhabria)裁定,Meta对这些作品的使用受到版权法中的“合理使用”条款保护。Meta辩称,这些作品被用于开发“变革性”技术,因此无论其获取方式如何,都属于合理使用。 合法吗? 本周一,AI公司Anthropic也赢得了一场版权诉讼。旧金山另一名联邦法官裁定,Anthropic在未经批准的情况下使用书籍来训练其AI系统的行为在美国版权法下是合法的。 Anthropic也胜诉了 Anthropic使用合法购买的实体书(经过拆分并手动扫描)来训练其Claude模型。法院裁定这属于“合理使用”。不过,法官补充说,关于Anthropic以数字方式对数百万本书籍进行盗版以训练AI模型的问题,还需要另行开庭审理。 然而,在Meta案件中,查布里亚法官表示,在“许多情况下”,未经授权使用受版权保护的作品来训练AI是非法的。 查布里亚法官表示:“这一裁决并不意味着Meta使用受版权保护的材料来训练其语言模型就是合法的。它仅表明原告提出的论点错误,没能提出有力的证据来支持其立场。” Meta发言人对此回应称,公司对法官的裁决表示赞赏,并称“合理使用”是构建“变革性”AI技术的重要法律框架。 截至发稿,原告作者的律师尚未就此置评。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
AI Infra工程师们如何应对大模型流水线里的“暗涌”?
作者 | AICon 全球人工智能开发与应用大会 策划 | 罗燕珊 编辑 | 宇琪 Infra 虽然是看不见的“底座”,但它却承担着支撑整个大模型系统运行的重量。那么,Infra 工程师在日常工作中会遇到哪些真实需求与故障类型?开源 Infra 和国产卡适配训练推进过程中,又会遇到哪些难点和挑战呢? 近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了华为昇腾技术专家 ZOMI 酱、蚂蚁集团高级专家马介悦和 SGLang 核心开发者尹良升一起,在 AICon全球人工智能开发与应用大会2025 北京站即将召开之际,共同探讨大模型 Infra 工程师的实战日常。 部分精彩观点如下: 并行策略兼容性体现的是代码实现的耦合度挑战,而工程流水线管理则关乎功能开发全周期的资源分配与风险控制。 高效的工程化实践离不开强大的性能剖析和监控系统支持,仅靠人工排查效率低下。 充分利用异构硬件特性、实现跨类型资源的智能调度与混部,已成为 AI 基础设施演进的重要方向。 在 6 月 27-28 日将于北京举办的 AICon 全球人工智能开发与应用大会上,我们特别设置了 【 AI 基础设施与生态构建 】 专题。该专题将聚焦 AI 软硬件及生态系统的建设,讨论如何打造高效的 AI 开发与应用环境。 查看大会日程解锁更多精彩内容: https://aicon.infoq.cn/2025/beijing/schedule 以下内容基于直播速记整理,经 InfoQ 删减。 完整直播回放可查看:https://www.infoq.cn/video/kx2h235pHrE7fENMaxlH 大模型工程中的高频问题 ZOMI:你们应该都经常接到“线上告急”吧——比如训练挂了、推理跑不动……最近你们最常遇到的用户需求,或者说大家最常抱怨的问题是什么? 有没有一些“听得最多”的关键词? 马介悦: 根据我的经验,线上训练过程中会遇到各种问题,包括稳定性问题、业务算法或程序本身的缺陷,或者训练框架本身的问题。例如训练任务中断(“跑挂”)就很常见,特别是在千卡或万卡级别的大规模集群上。GPU 本身存在一定的错误率,对于一个万卡集群来说,每天出现不同的 GPU 故障几乎是必然的。 训练是一个同步过程,任何单卡故障都可能导致整个训练停滞或失败,因此这种现象很普遍。我近期专注于解决这类稳定性问题,早期遇到此类问题时,若缺乏自动化运维系统,只能依赖人工响应报警,由运维工程师手动重启相关任务。然而我们发现,即使重启任务,也常常会再次中断。这可能是硬件本身存在问题,或者由于集群涉及环节众多。 从宏观角度看,问题可能源自底层网络系统、交换机、光模块、计算节点本身,节点上的每块 GPU 都是一个潜在故障点,此外还包括内存、CPU 宕机等风险。例如,GPU 经常出现 ECC 错误,导致 CUDA 报错、进程退出。如果运维工程师无法准确定位故障机器,任务重启后运行一段时间很可能再次中断,这种情况令人非常困扰。 早期尝试过使用二分法等运维手段,或通过错误日志、带外管理(out-of-band)方法来定位故障机器,但当时的准确率不高。这可能导致误判,错误更换机器后任务重启仍会失败,问题非常棘手,以上主要涉及硬件或底层基础设施问题。 此外,对于“跑飞”,我理解为 loss 异常飙升,其成因更为复杂,可能源于算法本身缺陷、并行框架问题或数据错误等,排查需要 Infra 工程师与业务工程师协作,难度较大。还有其他类型的问题,例如任务启动后无法完成第一个训练步,这通常与业务代码相关。作为 Infra 工程师,我们也需要协助客户排查此类问题。常见原因包括 Python 使用不当、库引用错误、软件包版本冲突、环境配置问题或 CUDA 驱动故障等。 尹良升: 我们主要面向合作公司或科研机构提供代码和开源更新,协助他们实现最佳性能和最佳的可用性,而非直接接触真实的线上推理环境部署。因此,当高校、科研机构或公司在进行模型部署或大规模线下推理的工作流出现问题时,我们往往是首先接到反馈的一方。这种情况下,我听到最多的关键词主要来自两个方面。 第一方面是运行时错误。这类错误可能源于我们代码中未发现的 bug,也可能是用户在部署过程中的配置错误所致。例如,某些用户错误调整了 GPU 显存分配参数,便可能导致显存分配溢出(OOM)错误。此时,需要熟悉社区代码的工程师与一线部署人员深入沟通,精确定位问题代码行,分析是哪个配置参数设置不当,进而找到解决方案以消除部署时的运行时错误。 第二方面是性能问题。用户在部署时,即使使用相同的硬件卡和部署策略,也可能发现其性能无法匹配我们官方的测试报告,进而质疑报告数据的真实性或怀疑我们进行了选择性测试(cherry pick)。实际上,用户复现结果与官方数据存在差异的原因是多方面的。常见原因包括配置问题、软件版本差异,以及测试数据集未能完全一致地迁移到用户环境所导致的数据偏差。 此外,线上推理流程的各个环节出现问题也可能导致性能不符合预期。从接收请求(request)、首次预填充(prefill)到每个解码(decode)步骤,任一阶段的异常都可能引起延迟(latency)偏高。同样,分配给 KV cache 的内存(GPU memory)分配不足也会导致推理的批次(batch size)降低从而吞吐量(throughput)未达预期。解决这类问题,需要深入代码层面,具体分析问题环节,进行点对点的优化或配置修正。综合来看,性能问题和运行时错误确实是用户反馈中最常提及的两类紧急问题。 ZOMI: 我个人更关注训练环节。在昇腾工作期间,主要聚焦于服务大客户的推理集群。遇到的问题首先是如何应对训练任务中断。在万卡甚至十万卡级别的集群中,硬件故障不可避免,特别是在持续训练两个月的大型模型任务中。其次是如何处理损失函数异常飙升。这需要判断是不同硬件差异、算法本身缺陷、客户代码错误,还是分布式并行处理时出现了问题。因此,解决这些问题往往需要 Infra 团队与算法团队进行更紧密的合作。 ZOMI:如果把大模型的工程流程当作一条流水线,你们觉得哪一段最容易出问题?是资源调度、作业调优,还是并行策略不兼容? 尹良升: 针对并行策略不兼容的问题,我以 SGLang 社区上个月复现 DeepSeek Blog 的实践为例。我们采用了名为“Multi Token Prediction”(MTP,推测解码)的策略来有效降低 token 输出延迟。然而,在初始实现中,MTP 与包括“Data-Parallel Attention”(数据并行注意力机制)在内的多个功能存在兼容性问题。这种不兼容性通常并非源于策略设计本身,而是代码实现过程中的兼容性与解耦不足所致:为快速交付新功能,可能暂时忽略了与现有功能的兼容性。 实际部署中,往往需要同时启用 MTP、DP Attention、大规模张量并行(EP)等多项功能才能达到“满血版”最优性能。但实现功能间的完全兼容需经历代码重构与解耦过程,从初步实现到最终兼容存在较长的阵痛期。这既不可避免,也高度考验工程师的代码能力与全局设计观。 若从工程流水线角度讨论资源调度与作业调优,此处我理解为推理引擎的功能开发流程而非训练资源调度,核心在于新功能开发的科学管理。开发关键功能需经过充分调研与实验验证,一个功能最终合并到主分支往往涉及大量代码和严格测试。若验证表明功能未达预期效果,前期投入可能付诸东流。因此,流水线中需重点关注功能的前期可行性验证、开发阶段的合理规划以及最终测试策略的设计,这些环节是保障效率与质量的关键,也容易产生问题。并行策略兼容性体现的是代码实现的耦合度挑战,而工程流水线管理则关乎功能开发全周期的资源分配与风险控制。 ZOMI: 在版本迭代过程中,当 Roadmap 规划的新特性因算法演进需求必须上线时,常会遇到其与旧有算法或并行策略不兼容的情况。然而,新特性无法放弃,旧特性也不能直接移除。因此,确实需要经历多个版本的持续迭代与磨合,逐步排查和解决其中的细节问题与分支冲突,仅依赖 CI 流水线持续集成进行保障可能不够充分。我们的处理方式通常是:将冲突特性暂时分置于不同版本或允许独立启用,并在后续版本中进行整合维护。请问你们也是采用类似策略吗? 尹良升: 是的。这里可分为两种开发逻辑:一种是敏捷交付优先:确保每个新特性快速交付,同时保证不影响现有功能的正常启用。另一种是渐进式重构:若新功能并非紧急需求,且强行集成可能对现有代码造成较大破坏,则选择将该功能拆解为多个 PR,分步骤进行重构。确保每个中间步骤都保持代码库的完整可用状态,最终通过最后一个 PR 实现新功能与旧特性的完全兼容。具体采用哪种方式,需根据功能需求的紧迫性以及不同方案的实现难度综合评估。 马介悦: 工程化可分为研发流程与部署上线两方面。研发环节,如代码开发、功能交付与传统系统软件开发差异不大,都依赖严格的代码审查、门禁(gatekeeping)、自动化测试和用例覆盖。核心在于门禁流水线的设计,例如每个 PR 合并前必须通过完整的门禁流水线测试。但关键挑战在于性能“门禁”常受资源限制:线上可能使用万卡规模训练,但 CI 流水线通常仅能在 8 卡或更小规模运行,导致许多大规模问题在 PR 阶段无法暴露。对此,目前尚无完美解决方案,只能在问题于线上大规模复现后由工程师介入处理。 另一个研发痛点是:若单次版本更新包含过多新功能,一旦导致机器浮点运算利用率(MFU)下降,难以定位具体是哪个 PR 引入的问题。目前主要依赖二分法或逐版本回退测试来排查,工程师间的代码审查在此环节至关重要。此外,研发和线上环节都需重视性能剖析(profiling)——即便小规模无法复现问题,也应记录火焰图和时间线,为后续分析 MFU 退化提供依据,帮助诊断并行切分是否合理。 关于部署上线,其流程基于云原生:首先通过 Kubernetes 以 Pod 形式分配资源;随后由 DLRover 启动训练,并在训练前执行预检和组网检测,确保硬件无故障、环境无异常、通信(如 NCCL)连接正常。预检通过后,训练主导权移交至框架。训练中核心监控指标是 MFU,它反映集群算力利用率。MFU 下降通常意味着并行切分(如 TP/EP/PP/DP)策略存在问题,导致计算流中出现等待“bubble”,这需在研发阶段通过大量实验优化模型切分策略。 MFU 下降也可能由稳定性问题引发,例如训练卡死(hang)。卡死成因复杂,硬件、算法、框架均可能,且硬件问题有时不会触发进程报错退出,仅表现为指标异常。虽然业界已有多种检测卡死的方法,如通过业务指标、metrics 或 DLRover 的 xprof timer 等性能剖析工具,但定位卡死的根本原因比检测现象更困难。若有强大的底层基础设施团队能快速识别并驱逐故障机,问题较易解决;否则需综合日志、metrics 和性能剖析数据进行深度诊断。 类似问题还包括“straggler”场景:训练步耗时逐渐增加。监测到该现象相对简单,但定位根因(硬件、网络、数据集或切分策略问题)则需复杂的综合判断逻辑。 综上,高效的工程化实践离不开强大的性能剖析和监控系统支持,仅靠人工排查效率低下。常用工具包括 PyTorch Profiler、GPU 监控系统、各公司自研监控组件,以及 DLRover 的 xprof timer 等。其核心是记录底层 CUDA 算子执行时间、Python 进程调用栈等信息,生成时间线和火焰图,为 SRE 和研发人员提供关键的排障依据。 推理部署如何 “压榨每一分显存”? ZOMI:现在大家都在卷“大模型低成本”,你们觉得在哪些环节最有“优化价值”?是推理时的缓存策略?训练时的容错调度? 尹良升: 我认为当前降低大模型成本是行业共识。从推理部署角度看,随着大模型普及,其使用量将激增,最终会像可随时调用的 API 一样融入生活。因此,将大模型的推理成本压至最低至关重要。 从推理角度降低大模型成本,我认为主要有三个方面。首先,今年 3 月 DeepSeek 官方博客展示了其通过大规模卡群部署及 PD 分离节点策略,成功将 API 价格压至前所未有的低点。这启示我们,从系统层面看,特定的部署方式能有效降低成本。例如,采用稀疏 MoE 架构时,每次推理仅激活少量参数。若使用大量专家并行,等效于单卡承载的模型权重显著减少。这带来一个直观优势:模型权重在卡间分布更稀疏且未大量复制,因此占用显存减少,释放出的显存便可容纳更大的 KV 缓存,是大模型推理降成本的核心直觉之一。 它引出的关键点在于:模型架构设计需与最终上线部署进行联合设计。在模型设计或训练阶段就需考虑未来推理性能,例如设计更多专家数并利用其架构特性,如 MoE 天然适合数据并行,因其不同专家的权重可直接存于不同 GPU 上。这种前期与后期的协同设计,可能是实现大模型成本持续下降最重要且基础的一步。 其次,在推理时的缓存策略方面,当前普遍做法是将每轮对话后的 KV 缓存转储至 CPU 内存或文件系统,因为非 GPU 内存相对廉价且可视为资源富余。因此,如何高效加载 KV 缓存、设计显存到内存间 KV 缓存的驱逐策略,涉及内存管理与多级缓存管理策略,仍有优化空间。在多轮对话场景下,用户可能间隔数十秒才复用 KV 缓存;但在 Agent 工作流中,触发由既定逻辑或者工作流控制,其 KV 缓存的驱逐策略便截然不同。针对特定工作流定制调度策略,包括 KV 缓存的驱逐与重加载,是当前热门研究方向,也是降低推理成本的重要途径。 第三点涉及如何提高 GPU 的极限利用率。当前主要依赖 GPU 计算,若 CPU 资源管理不当,会阻塞 GPU 运行,导致 GPU 出现空闲,无法时刻满载。这源于推理流设计或实现上的缺陷,引入了不必要的同步。解决此问题需要工程与算法的协同优化,例如 DeepSeek 采用“双批次重叠”策略,将计算与通信阶段错开以掩盖通信开销并提升 GPU 利用率。又如 SGLang 框架,通过 Overlap Scheduling,延迟 token 调度完全隐藏了 CPU 开销。这些都是提升资源利用率、压榨 GPU 推理性能的关键创新点。 第三点核心在于优化调度开销。传统流程(调度批次 ->启动内核 ->执行计算)中,调度和启动内核作为 CPU 密集型任务易阻塞后续流程。SGLang 中的 Overlap Scheduling 重新设计工作流,允许 GPU 执行当前批次时,CPU 并行准备下一批次,消除 CPU 准备阶段的 GPU 闲置。虽然这提升了 GPU 利用效率,但也面临兼容性挑战,如与 MTP 的整合,这正是功能迭代中不可避免的“阵痛期”。 马介悦: 我想从硬件角度再谈一点:英伟达 GPU 的领先很大程度上得益于其 NVLink/NVSwitch 机制,它极大提升了单机节点内的 GPU 通信效率。相比之下,跨节点通信,无论使用 InfiniBand 还是 RoCE,其性能较 NVSwitch 存在约一个数量级的差距。 因此,提升性价比的关键在于:将大量节点整合到大型机柜内。这不仅能节省交换机等模块的成本(虽然 GPU 仍是训练集群的主要成本,但网络成本占比已不容忽视),更重要的是,通过 NVLink 的“拉远”互联技术,能够将跨节点通信带宽提升至接近节点内水平。传统架构中,节点内走高速 NVLink,节点间走相对低速的 InfiniBand/RoCE,存在性能降级。大型机柜方案则通过统一的总线级互联技术消除这一断层,显著提升整体并行性能。我们的实践也验证了这一点:仅更换为类似 Cloud Matrix 的硬件架构,实测性能提升便非常可观。 所以,成本优化不仅关乎价格,更需关注性价比,即同等模型 MFU 下的单位成本。大型集成硬件初期投入可能更高,但如果能大幅提升 MFU,其长期效益仍是显著的。 开源项目背后的挑战: 写代码之外的难题 ZOMI:两位都是在做 Infra 开源项目,你们觉得除了写代码之外,最难的是什么? 是社区运营?用户反馈?还是版本节奏管理? 马介悦:DLRover 自 2023 年开源以来,我们的目标是将其发展为更庞大的社区,吸引更多伙伴参与。就个人体会而言,这需要平衡公司繁重工作与社区投入,唯有对开源的热爱才能兼顾二者。 DLRover 最初定位为容错系统,在 PyTorch 生态基础上强化了对作业任务管理、资源调度、容错及弹性优化能力。后续我们进一步集成了更多训练框架相关组件,包括自研的训练框架抽象层,以及基于 CUDA 算子与 Python 构建的性能剖析工具。 当前主要挑战在于项目刚加入基金会,如何有效运营技术监督委员会,并在国内外提升影响力。这需要从零开始,投入大量精力进行线上线下推广及交流活动。随着社区日益活跃、参与者增多,我们将把舞台让给新加入的成员,使其在项目中发挥作用,而我们则转向幕后提供支持。总结而言,运营开源社区是辛苦的工作,唯有依靠对开源的热爱方能持续投入。 尹良升: 开源的本质是“众人拾柴火焰高”,开源项目的核心在于其开放性:代码应被更多人使用,同时我们应始终欢迎潜在开发者贡献力量,共同改进代码。以 SGLang 社区为例,其从开源起步,如今已成为全球部署规模最大的推理引擎。最关键的挑战在于:如何在项目维护者与社区用户之间构建良性循环——用户信任社区并提供反馈,社区则吸纳更多构建者,驱动版本迭代与项目进化。这种良性互动超越了纯粹的工程能力,是开源项目可持续发展的核心难点,也是其保持活力、长盛不衰的基础。 ZOMI: 在华为负责 Mind 系列开源组件的经历让我深有感触。起初仅开源了 MindSpore Core,但面临一个普遍认知:华为开源项目仅支持昇腾硬件,且易用性不足。打造一个如 SGLang 或 vLLM 般成功的开源项目极具挑战,其难度远超代码本身,涉及社区运营、用户反馈机制等复杂因素。 观众:现在有很多 GPU 共享和虚拟化方案,这块的技术趋势是怎样的呢? 马介悦: 关于 GPU 虚拟化,我只能浅谈一二,因其高度依赖厂商支持。例如英伟达的 MIG(Multi-Instance GPU)技术需要其官方提供。在 MIG 出现前,GPU 虚拟化相当繁琐,存在多种实现层面。最基础的是软件层面虚拟化:通过 Hook CUDA 调用,追踪 kernel 发起速率、执行时间等信息,并基于此实现简单的复用策略。此类方案通常需对接 CUDA Forward-Compatibility Runtime。 但软件虚拟化与 CPU 硬件辅助虚拟化(如 Intel VT-x/AMD-V)的成熟度尚有差距。硬件层面的支持更深入,AMD 早期在云渲染时代已提供相关虚拟化能力(主要服务于虚拟机场景),但当前大模型训练领域采用 AMD GPU 的案例极少,故暂不展开讨论。 在英伟达生态中,MIG 是较成熟的方案。它基于 SR-IOV(Single Root I/O Virtualization)技术实现设备级虚拟化,本质是将物理 GPU 划分为多个虚拟实例(呈现为独立的 PCIe 设备),可同时供给容器或虚拟机使用。虚拟化的核心价值(性能、隔离性、安全性)在 SR-IOV 这一成熟技术框架下均可较好实现,只要厂商遵循规范支持即可。用户更关心的可能是具体配置细节,例如每块 MIG 实例可分配的 SM 算力比例等资源配额——这与网卡等设备的虚拟化配置思路类似,期待厂商提供更灵活的管控能力。 ZOMI: 早期,不同厂商的 GPU 集群通常独立部署,实现异构融合极具挑战性,众多国家级项目也面临困难。然而,随着技术演进,特别是推理环节预填充与解码分离架构的成熟,异构部署的可行性显著提升。计算需求的分化是关键:预填充阶段依赖高算力芯片,而解码阶段更看重显存容量与高效的 KV 缓存管理能力,这使得为不同阶段匹配最优硬件成为可能。这一趋势正加速渗透至微调、后训练乃至训练环节。例如在增量学习场景中,高频次推理任务与单次训练任务对资源的差异化需求,为高效的资源共享与分割创造了条件。此外,CPU 与 GPU 的混合部署技术也日益成熟。综合来看,充分利用异构硬件特性、实现跨类型资源的智能调度与混部,已成为 AI 基础设施演进的重要方向。 观众:尹老师选择 SGLang 而非 vLLM 的原因是什么? 尹良升: 因为当前开源社区热度较高的推理引擎,除了半开源的 TensorRT,便是 SGLang 和 vLLM。首先,开源项目的进步离不开竞争与相互学习,这种良性互动带来危机感,推动整个社区共同前进。TensorRT、SGLang、vLLM 以及 lmdeploy 等社区目前正处于协同并进的状态。 至于用户选择 SGLang 而非 vLLM 的理由,这更多是见仁见智的问题。从 SGLang 的 0.1 到最近的 0.4 版本,我们与 vLLM 在功能交付上各有侧重。我们的设计理念存在根本差异:例如,从初始版本至今,SGLang 始终围绕“GPU 显存前缀共享(prefix share)”为核心进行优化,再到后续实现的“零开销调度器(Zero Overhead Scheduler)”。这些独特设计使我们在特定场景下可能具备性能优势。同时,我们社区的开发风格是笃定解决用户的核心痛点——例如近期版本支持 DeepSeek 的大规模张量并行,目标直指降低用户部署的过高成本。 用户的选择自由毋庸置疑,但如果需要给出一个选择 SGLang 的理由,可能是我们在某些方面能提供更低的部署成本或更友好的上手体验。这本质上是用户与开源社区建立信任的过程。我们也鼓励大家尝试不同引擎,积极反馈使用体验,这将帮助我们持续交付新功能,共同推动推理成本优化。
小米 YU7 首测:当一台性能猛兽,开启了顾家模式
当你们看到这篇文章的时候,小米 YU7 已经正式上市了: 超长续航后驱版:25.35 万元; 四驱 Pro 版:27.99 万元; 四驱 Max 版:32.99 万元。 在 2025 年的今天,如果你想为家庭选购一台纯电 SUV,你的选择可能已经多到让人眼花缭乱。那么,小米这样的「跨界玩家」,究竟能给我们带来什么不一样的东西? 带着这个疑问,我们最近开着这台顶配版的小米 YU7 Max,跑了一次小长途,试图在真实的驾驶中寻找答案。 当然,我们也记录了它的全程能耗表现。不过,这个问题的答案,我们打算留到文章的最后再揭晓。 现在,让我们先从动态体验开始。 当 YU7 的底盘,有了「芝士蛋糕」的质感 小米 YU7 整个座舱体验的「皇冠」,无疑是那块在预售发布会上官宣的「小米天际屏」。 需要强调的是,它不是一块屏幕,而是通过三组 Mini-LED 光源,在前风挡下方投射出的一条长达 1.1 米、亮度高达 1200 尼特的信息光带。 那么,它的实际体验到底怎么样? 首先,不同于普通的 HUD,因为它自带一个黑色的显示背景,所以即便在阳光充足的条件下,其显示内容依旧非常清晰。 其次,它的信息布局也很合理。关键的行车信息,如车速、挡位、续航等,会始终保持在驾驶员的视野正前方;而导航、盲区影像等辅助信息,则只在需要时才会出现,毫不打扰。 它的体验和之前一些车型上那种长条状的「带鱼屏」是完全不同的。因为是投影,它的视觉焦点在更远处,你的眼睛不需要在观察路面和近处屏幕之间上下来回切换焦距,读取信息更加方便,长时间驾驶下来眼睛也不会那么累。 这一切流畅的体验,都离不开背后那套持续进化的澎湃 OS。你可以在车机上自定义天际屏的显示模块,每一个模块都有相当细腻的动画效果。 比较有趣的是萌宠模块,里面的小宠物会在你激烈驾驶的时候左摇右摆,只不过,紧握方向盘的你,这个时候恐怕没有精力去看它。 开上这台小米 YU7,我们脑海里浮现的第一个问题,竟然来自于它的轮胎。 在官方参数公布后,网络上不乏质疑之声:作为一款高性能 SUV,为何胎宽仅有 245mm?这个「脚」对于它强悍的动力来说,是不是太小了? 小米官方对此的解释,是为了优先保证续航——要知道,YU7 超长续航后驱版 835 公里的 CLTC 续航,是目前中大型纯电 SUV 里的第一名。当然,你也可以选装 21 英寸轮毂,并将后轮加宽到 275 毫米,来换取更极致的抓地力。 这个看似简单的选择,恰恰从一开始就揭示了 YU7 与 SU7 在产品定位上的根本不同。 如果说,小米 SU7 存在的核心是为了在赛道上不断突破、树立小米汽车的性能标杆;那么 YU7 这位新成员,则显然更想做一台舒适、节能、适合每天陪伴在你身边的「日常伙伴」。 这种「日常感」,首先就体现在它经过精心调校的底盘上。 YU7 全系标配了 CDC 连续可变阻尼减振器,Pro 和 Max 版本还配有双腔空气悬架,这套硬件组合让它在路上行驶时,对路面细碎颠簸的过滤非常彻底,相比 SU7 那种时刻紧绷的战斗姿态,多了一份难得的从容与柔和。 但需要强调的是,它始终是一台小米,那份根植于品牌基因里的运动感并未消失。 所以即便你开得快一些,在弯道中,它的侧向支撑依然相当到位。那种感觉很奇妙,就像是你一拳打在了一个厚实的芝士蛋糕上,能清晰地感受到力量的传递,但整个过程又被一种非常绵柔、极富韧性的阻尼感所包裹。 这种在舒适与操控之间取得的精妙平衡感,我们认为,是 YU7 作为一台家用 SUV,在动态体验层面最成功、也最核心的亮点。而这一点,也非常契合它的外观和座舱设计理念。 当座舱开始「玩装修」,小米的野心不止于车 当我们将 YU7 停下,拉开车门,它在座舱内所呈现的巧思,则揭示了小米的另一重野心。 它的豪华感,首先来自那些触手可及的大面积 Nappa 真皮和软包覆,官方宣称其用料达到了「婴儿可直接触碰」的母婴级标准。前排的两张零重力座椅坐垫厚实,包裹感与支撑性都属上乘,在长途驾驶中确实能有效缓解疲劳。 但小米的野心,显然不止于堆砌这些常规的豪华物料。他们似乎想从根本上改变人与车内空间的关系,让你像装修自己的家一样,来随心所欲地定义你的车。 这个颇具前瞻性的理念,主要通过两个核心设计来实现。 ▲ 磁吸蓝牙按键 第一个,是它的「磁吸生态」。YU7 在全车预留了多达 16 个磁吸点位,你可以把一个能自定义功能的蓝牙按键,吸在任何你最顺手的地方;也可以把一个设计精巧的磁吸纸巾盒,牢牢固定在仪表台上;下方还可以储存一个磁吸墨镜盒。 这些虽然是小细节,但确实能巧妙地解决许多日常用车中的零碎痛点。实际上,YU7 的车厢还有很多这样的用心设计,比如说小米在它的门板里藏了一把雨伞,又在后排座椅下方设计了一个储物抽屉。 说到后排,由于 YU7 的造型和比例与目前市面上的主流 SUV 存在较大差距,因此网络上有不少对于 YU7 后排空间的质疑。 但爱范儿在实际体验过后发现,无论是纵向还是垂向空间,YU7 后排的表现都是比较优秀的,均要优于特斯拉 Model Y,这很大程度上得益于后备箱出让的空间。 好消息是,后备箱出让的空间,可以在 141L 的前备箱里找补回来,而且还支持电动开关。 至于后排的配置亮点,首先要介绍的是放倒角度达到了 135°的座椅靠背——这是一项全系标配的配置。与此同时,小米在后排乘客的前方设置的了一个可以取下的控制屏,座椅、空调、音乐、导航等内容均可在此调节。 此外,小米还给 YU7 配上了冰箱和新一代的 EC 智能调光天幕,暗态更黑。 美中不足的是,YU7 的后排座椅只支持加热,不支持通风。 前面提到 YU7 有两个核心的座舱设计,第一个,是它的磁吸生态,而第二个,就是后备箱上方的「百变磁吸轨道」。 这不仅仅是一条简单的滑轨,其内部集成了 120W 的供电能力,还提供了一个国际通用的 1/4 英寸螺丝接口。这意味着,你可以轻松地将你的运动相机,甚至是小型投影仪,稳固地安装在这里。这种前所未有的开放性和拓展性,值得一个大大的肯定。 小米汽车,进入第二阶段 所以,在深度体验了两天之后,我们再来回答开篇提出的那个问题: 小米 YU7,到底是一台什么样的车? 爱范儿和董车会认为,它的出现,首先标志着小米汽车的进化。 如果说,一年前横空出世的 SU7,是小米凭借其强大的工程能力和互联网思维,向整个汽车行业「秀肌肉」、展示其技术功底、并成功树立起品牌高度的「开山之作」;那么今天的 YU7,则是小米在赢得掌声与立稳脚跟之后,真正开始走向大众、拥抱主流家庭用户的「攻坚利器」。 相比 SU7 在性能与操控上的极致与锋芒毕露,YU7 显然做出了更多贴近日常、注重实用和全家舒适的取舍。 从更从容柔和的底盘调校,到对后排乘客的细致关照,再到「晕车舒缓模式」这类对家庭场景的细腻洞察,无一不在说明,小米正在努力读懂并满足更广大用户的真实需求。 当然,小米的独特优势——「人-车-家」全生态的无缝体验,在 YU7 上得到了更进一步的体现。 比如,你可以用最新发布的小米 AI 眼镜,在旅途中随手拍下沿途的风景,照片会即时同步到你的小米手机里。而当你回到车上,便能立刻在 YU7 的中控大屏上,与家人一同回顾和分享刚刚记录下的美好瞬间。 这种跨越多终端设备的无缝流转,正是小米生态独有的、其他车企难以复制的「魔法」。 最后,我们来揭晓大家关心的能耗。 经过我们这次全程 150 多公里,包含了三成城市拥堵、七成高速巡航以及山路驾驶的综合路段试驾,这台接近 2.5 吨、拥有 690 马力的双电机四驱版小米 YU7 Max,其最终的表显平均能耗,定格在了 24.0kWh/100km。 对于一台拥有如此庞大身形和强悍性能的中大型 SUV 来说,这个能耗表现虽不算低,但仔细考量后,我们认为这一数据仍在合理区间内,也在我们对这类高性能车型能耗的预估范畴之中。 现在,关于小米 YU7 的所有信息,几乎都已悉数呈现在我们面前。 所以,你觉得 25.35 万元的起售价,合适吗?
拿下工业、矿产能源头部客户订单 人形机器人公司“灵宝CASBOT”获近亿元融资
基于“分层端到端+强化学习”的技术路线。 作者|黄楠 编辑|彭孝秋 硬氪获悉,人形机器人品牌「灵宝CASBOT」近日完成近亿元级天使+融资,投资方包括蓝思科技、天津佳益以及老股东国投创合、河南资产跟投。融资资金将主要用于加速推进产品量产、技术研发迭代以及市场拓展。 「灵宝CASBOT」成立于2023年8月,专注通用人形机器人与具身智能的落地应用,是中关村高新技术企业。团队核心成员曾深度参与重大科技项目,如微靶精密装配系统研发、四足机器人环境感知与自主跟随、C919大飞机高锁螺母柔顺装配机器人等,在精密装配、柔性操作、视觉伺服等领域拥有逾20年的技术积累和产业经验。 目前,「灵宝CASBOT」已推出两款双足人形机器人,分别是多场景落地的通用类脑智能机器人CASBOT 01、以及第二代全尺寸双足人形机器人CASBOT 02。具体到产品定位与应用场景方面,灵宝CASBOT 01与02存在显著差异。 CASBOT 01作为第一代产品,身高179cm,体重约60kg,整机拥有52个自由度,算力达550T,作业续航时间超过4小时。其主要应用于室外复杂环境,面向特定用户群体与专业需求,通过在结构、性能等方面进行特殊优化,以满足特种作业需求。 灵宝CASBOT 01人形机器人(图源/企业) 对比之下,今年6月发布的CASBOT 02则定位为双足轻量化机型。这款机器人的身高约163cm,体重约55kg,搭载275tops大算力芯片;同时,硬件端配备有RGBD相机、IMU传感器及麦克风阵列,通过视觉与听觉的双重感知,令机器人具备人脸追踪与声纹识别技术,可实现“专属跟随”与“听声辨人”,即使是嘈杂环境下也能稳定识别用户指令,提升交互沉浸感,适用于多种人机交互场景,覆盖用户群体更广泛。 面向科技馆、展厅、商场、4S店等场景交互娱乐、教育科研及个人技术爱好者打造,CASBOT 02可担任导览讲解、迎宾接待、互动展示等角色,并支持未来多场景多模态的应用场景拓展。 在技术架构层面,“大脑侧”「灵宝CASBOT」选择分层端到端模型,集各类型模型所长,同时规避它们的不足。通过强化学习后训练,提高动态环境适应性、鲁棒性等。 其核心突破在于,针对具身智能机器人在精细化作业场景中面临的环境干扰、人工干预等动态挑战,凭借强化学习机制实现模型的实时自适应优化。通过实时采集作业数据,如力传感器反馈、视觉误差信号等,以闭环训练方式持续优化运动控制策略,使机器人在螺丝拧紧、工件分拣等任务中,能自主调整动作精度与轨迹规划。 左图为CASBOT 01,右图为CASBOT 02(图源/企业) 「灵宝CASBOT」联合创始人&COO张淼告诉硬氪,这种 “分层端到端+强化学习后训练” 的技术组合,既保留了分层架构对任务拆解的逻辑优势,又通过强化学习为模型提供动态进化能力,继而形成从感知到执行的全链条智能闭环,更匹配工业质检、井下作业等场景对人形机器人鲁棒性的严格要求。 当前在商业化方面,「灵宝CASBOT」将目标场景对准了工业和矿产能源两大行业。张淼指出,工业和能源领域的场景集中度高,客户需求明确且稳定,相比商业服务、教育等领域,更契合现阶段具身智能机器人的商业化发展需求。 在此之前,「灵宝CASBOT」已在应急救援、井下作业、工业制造等场景中持续积累行业Know-how,客户资源具有明显优势。 通过聚焦上述两大刚需场景,一方面可快速提升机器人出货量,借助规模化效应实现成本优化;另一方面,部署在工业和矿业场景中的机器人作为数据采集载体,能够持续收集半结构化作业数据,为具身智能模型的迭代升级提供支撑,形成 “产品落地 - 数据反哺 - 技术优化” 的良性循环,加速商业化进程与技术迭代创新。 ,灵宝CASBOT人形机器人落地演示图(图源/企业) 以工业场景为例,许多工厂面临着招工难与柔性制造转型压力,在3C、鞋服等行业的小批量多品类生产模式要求下,传统工业机器人难以适配非结构化场景。比如质检工序中,需模拟人工双手协同操作,通过双臂抓取工件、配合视觉系统多角度翻转检测,再精准放置回产线,单臂单手机器人无法满足这类手眼脑协作需求。 而在引入「灵宝CASBOT」具身智能机器人后,其五指灵巧手可以模仿人手在操作中的灵活性,在螺丝拧紧、排线插拔等工序中实现快速学习、可泛化的长时序灵巧操作,更契合柔性制造的快速换产要求。 灵宝CASBOT灵巧手(图源/企业) 硬氪了解到,依托多年来在工业与矿业能源领域的技术积累、行业洞察及能耗优化经验,「灵宝CASBOT」已同招金集团、中矿集团、中信重工等行业头部企业达成深度合作。包括瞄准矿山井下具身机器人、矿山综合安全巡检等领域成立具身智能公司,聚焦特种场景研发特种人形机器人等。 除上述两大核心领域外,面向商业服务与教育等多元化场景,「灵宝 CASBOT」正系统性推出纯标准化产品体系,通过模块化架构设计,帮助客户实现快速部署与灵活适配。 未来,「灵宝CASBOT」将围绕人形机器人在多场景下的应用展开深入研究,以推动具身智能技术在更多领域落地应用。 投资方评论: 蓝思科技表示,灵宝CASBOT在具身智能机器人领域展现了卓越的创新能力与务实的落地能力。团队对工业制造场景有着深刻的理解,其产品高度契合柔性生产、成本控制等客户核心需求,面向工业场景需求的VLA技术路线能有效应对真实制造环境的复杂性,自主研发的系列化灵巧手产品实现了亚毫米级的精密操作和柔性抓取、填补行业关键空白。蓝思科技将开放自身在消费电子、智能汽车、智能家居家电等领域的丰富场景,与灵宝CASBOT紧密协同,加速具身智能机器人在全球工业领域的规模化应用与真实落地。同时,蓝思科技也将为灵宝CASBOT机器人的量产提供关键零部件和整机组装,助力质量管控、成本管控等。双方将共同推动智能制造的升级,重新定义人机协作的未来。 天津佳益表示,灵宝CASBOT已在矿业场景建立差异化优势,与招金集团、中矿集团、中信重工等产业巨头达成深度合作。我们认为这是将技术优势转化为持续商业增长的高效引擎。在激烈的行业竞争格局下,我们选择坚定支持真正懂技术、懂产业、懂商业本质的团队。
特斯拉无人出租“翻车”了?运营首日就遭调查
特斯拉无人出租“翻车”了?上线两日多次违反交规,运营首日就遭调查 作者 | 郭月 编辑 | 志豪 车东西6月25日消息,日前,特斯拉正式在美国得克萨斯州奥斯汀市上线其Robotaxi无人驾驶出租车服务,这期间不少海外用户进行了体验。 一方面,多名用户表示特斯拉无人出租车驾驶表现丝滑,有人实测后发现该车不只礼让行人,甚至还礼让“孔雀”,有人甚至还点评说“平稳到有点无聊”。 ▲海外用户体验特斯拉Robotaxi 另一方面,特斯拉的无人出租车也曝光出一些问题:如整车异常摇晃、压线驶入对向车道、无障碍物情况下误判刹停,多次违规超速驶过路口等。 ▲Robotaxi因非车道内的静止警车猛刹 彭博社报道称,当地时间6月23日,美国国家公路交通安全管理局(NHTSA)要求特斯拉就无人驾驶出租车(Robotaxi)出现的相关问题提供更多信息。 ▲NHTSA对特斯拉无人出租车展开调查 目前,NHTSA正在审查特斯拉就其自动驾驶出租车在恶劣天气下的安全性等问题所做出的回答。而特斯拉已告知NHTSA,其关于自动驾驶出租车安全性的回答属于商业机密,不应公开。 一、两天接连超速逆行 特斯拉无人出租“栽跟头” 特斯拉在开启其Robotaxi试点服务时还是比较谨慎的,仅在奥斯汀南部的部分路段开放,或有35辆车上线,首批体验用户仅限于受邀的约20名网红或特斯拉粉丝。 ▲特斯拉Robotaxi的运营区域与Waymo对比(图源网络) 无人出租车内没有驾驶员,但是特斯拉还为每辆车配备了一名安全员,安全员坐在副驾驶位,进一步保障驾驶安全。 ▲特斯拉Robotaxi体验场景 尽管如此,特斯拉Robotaxi在运营两天内依旧出现了不少问题,车东西从这两天海外用户以及监管机构的反馈中,对于特斯拉Robotaxi曝光出的一些问题,进行了一番梳理。 表现1:方向盘“画龙”,车辆左右晃动,行驶中多次踩双黄线,甚至试图驶入逆向车道,引发其他车辆鸣笛警告。 ▲Robotaxi转向混乱短暂驶入对向车道 案例:根据播客博主Rob Maurer发布的一则近20分钟的体验视频,其乘坐Robotaxi汽车过程中,车身出现怪异晃动,短暂驶入错误车道,引发其他车辆鸣笛示警,而几秒后又迅速回归正常车道。 虽然这种危险行为最终被纠正,但目前并不确定是特斯拉的远程操作员操作,还是其FSD系统所为。 表现2:车辆因远处非车道内的静止警车突然急刹,前方无障碍物时出现非必要减速。 ▲Robotaxi因非车道内静止警车而刹停 案例:一位YouTube博主的实测视频记录了车辆在正常行驶状态下的两次突然减速、刹车,值得注意的是,车辆面前并无任何障碍物,仅在车道外停有一辆警车。 表现3:Robotaxi多次出现超速违规,例如在限速20英里/小时(约合32公里/小时)路段以35英里/小时(约合56公里/小时)行驶。 案例:特斯拉投资者索耶·梅里特 (Sawyer Merritt)分享的一段视频显示,这辆自动驾驶汽车在经过多个限速30英里/小时(约合48公里/小时)的标志时,时速达到了40英里/小时(约合64公里/小时)。 ▲Robotaxi多次出现超速现象 YouTuber兼特斯拉投资者Herbert Ong也在直播中发现,他的车在限速35英里/小时(约合56公里/小时)的区域以39英里/小时(约合63公里/小时)的速度行驶。 Ong点评说:“限速是35英里/小时,现在开到39英里/小时,这很完美。” ▲网友发帖Robotaxi多次超速 二、安全机制存疑 面临监管与公众信任危机 尽管每辆车配备车内安全员和远程操作员,但危险操作仍频繁发生。 而这些不看好特斯拉无人出租车的声音,也为部分特斯拉批判者提供了武器,他们坚称,特斯拉的自动驾驶能力尚未达到上路安全标准。 车东西在搜集海外用户的评测信息中发现,目前存在较大争议的主要有两方面,其一就是远程监控是否有效,其二就是纯视觉传感器方案是否安全。 ▲特斯拉团队监测Robotaxi的运行情况 特斯拉Robotaxi试点前,一个自称以科技安全为名的公共倡导组织“黎明计划”(The Dawn Project),于6月14日在奥斯汀策划了场抗议活动。 该组织公开演示,一辆搭载FSD系统(版本13.2.9)的特斯拉Model Y,在开启自动驾驶模式下,不仅无视伸出停车标志的校车,还直接碾过放置在车前的儿童体型假人。该组织直接指出特斯拉系统存在“致命缺陷”。 而从开启试点后的海外民众反映来看,一些网友也对特斯拉无人出租车的技术方案产生质疑。 ▲特斯拉Robotaxi技术团队 当前,Waymo的无人驾驶出租车所有车辆均配备了包括激光雷达、360度摄像头、雷达等在内的昂贵传感器,所有传感数据均由车载计算设备实时处理。 相比之下,特斯拉则采用了以摄像头为核心的纯视觉感知系统,通过神经网络的协同工作来实现自动驾驶,一些人士指出,过度依赖摄像头,可能会存在风险。 ▲提供Robotaxi服务的特斯拉Model Y 据彭博社消息,目前,美国国家公路交通安全管理局(NHTSA)已将此问题视为重大隐患,并已着手对特斯拉展开调查。 全球领先的独立嵌入式OS和开发工具供应商Green Hills Software首席执行官兼Dawn项目创始人Dan O’Dowd直接在X社交平台上呼吁,立刻停止这项危险服务。 ▲大佬呼吁暂停特斯拉Robotaxi服务 结语:特斯拉正加速自动驾驶商业化 从特斯拉Robotaxi的奥斯汀首秀暴露出的误刹车、超速、车道偏离等问题来看,特斯拉无人出租车在感知判断、精准控制及规则遵守等能力方面,还有提升的空间。 尽管特斯拉通过“安全员+远程监控”双层保险试图降低风险,但实测视频和前期安全测试争议,可能会加剧公众对无人出租车服务的担忧,其商业化进程可能会受到影响。 必须要承认,特斯拉的无人出租车仍处于成长阶段,它的推出不仅代表了技术突破,更有望为全球出行行业带来系统性重构,加快催化自动驾驶商业化竞赛。
一天15k星,代码生成碾压Claude,连Cursor都慌了 谷歌Gemini CLI杀疯了
编辑 | Tina 今天,谷歌正式发布了 Gemini CLI ,这是其 AI 助手在终端环境下的一个版本。这款工具的亮点在于其非常慷慨的免费使用配额:它支持每分钟 60 次、每天 1,000 次的模型调用。 免费配额“开挂”, 逼疯 Claude? 继 2 月的 Claude Code 和 4 月的 OpenAI Codex CLI 之后,谷歌也在 6 月推出了 Gemini CLI。至此,三大 AI 实验室都已发布了各自的“终端智能体”工具——这类 CLI 工具可以读取、修改文件,并在终端中代表用户执行命令。 估计不少人原本以为这类终端工具会一直是一个小众方向,但现在看来这是低估了它的潜力——不少开发者每月在 Claude Code 上的花费高达数百美元 甚至是数千美元,说明这个“小众市场”其实比预想中大得多、也重要得多。 相对 Claude Code,谷歌在价格方面可谓“豪横”: 使用个人 Google 账号登录,即可免费获得 Gemini Code Assist 许可。这将解锁 Gemini 2.5 Pro 模型和百万 token 上下文窗口。在此次预览期间,谷歌提供业界最宽松的调用配额:每分钟最多 60 次、每天最多 1000 次请求,全部免费。 目前来看,社区对 Gemini CLI 的关注重点集中在其超大免费配额上。评论者直言:“太夸张了,这会给 Anthropic 带来巨大压力。”“确实如此——如果这些调用限制是真的而且免费,那终于有真正的竞争了。” 与 Claude Code 不同,Gemini CLI 和 OpenAI Codex CLI 一样是开源的(使用 Apache 2.0 许可)。并且 Gemini CLI 在不到一天的时间里,获得了 15.1k 星。 Gemini CLI 提供的功能包括代码编写、问题调试、项目管理、文档查询以及代码解释。它还连接了 MCP(模型上下文协议)服务器,具备 Agentic AI 能力。 CLI 工具的优势在于,它可以与任何编辑器或 IDE 搭配使用,而不局限于特定插件支持的工具;同时还支持多实例并发运行。部分开发者也认为,命令行交互效率更高。 Gemini CLI 支持 Mac、Linux(包括 ChromeOS)和 Windows 平台。与 Claude Code 或 Codex 不同的是,Windows 上为原生实现,无需依赖 Windows 子系统(WSL)。开发者可以通过在项目根目录添加一个名为 gemini.md 的文本文件来自定义上下文和参数。谷歌高级工程师 Tayor Mullen 表示,当 CLI 检测到“值得长期保存的细节”时,也会自动将其写入该文件。 因为整体开源,所以我们还可以看到它的 system prompt。 一如既往,这份系统提示词不仅定义了工具行为,也是一份非常精炼准确的使用文档。比如它对代码注释的原则是: 注释: 请谨慎添加注释,重点说明“为什么”要这么做,尤其是处理复杂逻辑时,而不是解释“做了什么”。只有在确实能提升可读性或用户明确要求时,才添加高价值注释。请勿修改与你更改无关的注释,也绝不要通过注释与用户交流或说明你的更改。 系统默认使用的技术栈也颇有参考价值。 如果用户没有指定技术偏好,默认建议如下: Web 前端: React(JavaScript/TypeScript)+ Bootstrap CSS,结合 Material Design 设计规范; 后端 API: Node.js + Express.js 或 Python + FastAPI; 全栈应用: Next.js(React/Node.js)+ Bootstrap + Material Design,或 Python(Django/Flask)+ React/Vue.js 前端; 命令行工具(CLI): Python 或 Go; 移动 App: Compose Multiplatform(Kotlin)或 Flutter(Dart),用于跨平台开发;也支持 Jetpack Compose(Android)或 SwiftUI(iOS)原生开发; 3D 游戏: HTML/CSS/JavaScript + Three.js; 2D 游戏: HTML/CSS/JavaScript。 胜过专用, Gemini CLI 靠什么? Gemini CLI 接入的是谷歌最先进的编码与推理模型 Gemini 2.5 Pro,具备代码理解、文件操作、命令执行和动态故障排查等能力,全面提升命令行的使用体验。用户可以通过自然语言编写代码、调试问题,并优化工作流程。 不仅如此,Gemini CLI 还能基于 MCP 调用其他谷歌服务,在终端中生成图像或视频,实现从编码到创作的一体化体验。 在发布会上展示的一体化演示和背后的技术理念,其实揭示了 Gemini CLI 的关键定位——它不仅是一个写代码的工具,而是一个连接多模态智能、打通编码与创作的“终端智能体”。这一理念也体现在背后所依赖的 Gemini 2.5 Pro 模型选择上。 值得注意的是,Gemini 2.5 Pro 本身并不是为代码任务特别训练的“代码专用模型”,而是一个覆盖更广泛能力边界的通用模型。那么,为何谷歌没有像某些竞争对手那样,专门为 Gemini CLI 打造一个定制化的代码模型?在一场深度访谈中,产品负责人 Connie Fan 和研究负责人 Danny Tarlow 分享了他们的思考。 Connie Fan 表示,虽然特定任务确实可以从专用模型中受益,例如 Cursor 训练的代码补全模型“在非常窄的用例里做得非常好”,但她强调,对于大多数现实世界中的开发任务而言,编码需求往往不局限于代码本身。 例如她提到的一个经典“vibe check”请求:“帮我做一个泰勒·斯威夫特歌曲排行榜 app”——这就需要模型不仅懂代码,还要理解上下文、具备常识,甚至有些 UI/UX 审美。“这些常识背后其实是用户真实的编程需求”,她总结说,“大多数通用任务,并不能从一个纯代码模型中受益。” Danny Tarlow 则进一步指出:“代码专用模型到底意味着什么?‘代码’已经不仅仅是代码本身,它涵盖了软件开发过程中的各种环节,涉及多种信息源,有些专属于代码,有些则不是。如果只强化代码能力而削弱其他能力,反而会限制模型的表现。我们更倾向于通用模型上的协同发展,寻求不同能力之间的融合和平衡,打造一个‘通才型’模型,这才是更优的发展路径。” 实际上,现在已经有越来越多开发者开始注意到 Gemini 2.5 Pro 在代码生成和理解方面的显著提升。 在 Claude 长期占据主导的讨论氛围中,不少人也开始发出“Gemini 要逆袭了吗?”、“Google 要翻盘了吗?”的声音。社交媒体上,有用户分享了一些开发体验:在一个约 50 万行代码规模的项目中,使用 Claude Code 生成的代码质量“远远不如 CLI + Gemini 2.5 Pro”,要达到同等效果,Claude 需要开发者全程盯着。 还有开发者表示,在 Trae 上使用 Gemini 2.5 Pro 编程的完成率已经大幅超过 Claude 3.7。也有开发者表示 Gemini 修复 bug 的速度明显快于 Claude Code。 一个 3D 渲染的处理问题,让 Claude Code 修了两个小时的 bug 还没解决,结果问 Gemini 2.5 Pro,只用了 5 分钟就搞定了。感觉对于那些看起来难度比较高的问题,可以先让 Gemini 写好详细的说明书,然后再让 Claude Code 按照它来实现,这种组合用法可能会挺不错的。 这些反馈表明,过去一年,谷歌在代码能力上的提升已经进入“质变期”。 Gemini 编码产品负责人 Connie Fan 表示,Gemini 2.5 Pro 之所以能获得良好口碑,关键在于两个方面的系统性演进:“数据”和“方法论”。 从数据的角度看,“代码仓库上下文”变得非常关键。现在模型的目标不再只是做简单的代码补全,而是要理解并修改分布在多个文件、涉及多个模块的大型代码库:“模型要能完成那些你如果花一小时坐下来,在熟悉的代码库上下文中亲自去做的复杂改动。” 为了让模型真正理解这些上下文,谷歌也开始系统性地挖掘内部工程师资源。 其中还包括 Jeff Dean 这样的一些人,“他们代表了一种‘能力新等级’的标准,”Connie 直言,“我们拥有世界上最聪明、最出色、有时也最有主见的十几万工程师。”借助他们在不同语言、技术栈、经验水平上的反馈,谷歌能够覆盖更广泛的使用场景,提升模型在“专业开发者细腻口味”上的匹配能力。“我们过去其实并没有很好地利用这一点,但现在我们开始真正这样做了,而且效果非常惊人。” 从研究角度看,Gemini 团队并未将全部筹码押在“单一大上下文窗口”的方案上,而是探索双路线:一方面持续扩展上下文长度,另一方面发展具有自主搜索、推理能力的 agentic 编程模型,模型以代理的形式与用户交互,甚至具备一定程度的自主性。 正如研究负责人 Danny Tarlow 所描述: “如果我们把你(人类开发者)丢进一个大代码库里,你会怎么做?你会用代码搜索、看文件结构、点来点去,读点代码再搜索其他信息。agentic 模型就模仿了这种方式。” 更有趣的是,当模型成功处理一个百万行代码库时,用户会感受到一种“魔法般”的惊喜。而这正是 Gemini 2.5 Pro 所在意的方向:不仅是模拟人类的工作方式,更是突破人类经验限制,发展出“非人类”的全新解法。 正因如此,不少开发者开始转而重视起谷歌在这场 AI 编程竞赛中的回归。Gemini 是否“翻盘”尚未可知,但“赶超”的信号,正在越来越清晰。
一台观察人类DNA的AI“显微镜” 谷歌AlphaGenome问世
谷歌Alpha家族再添新成员。 作者 | 李水青 编辑 | 心缘 智东西6月25日报道,今天,谷歌DeepMind推出AlphaGenome,一款能帮助人们快速预测基因变化影响的AI模型。 AlphaGenome就像一台“观察人类DNA的AI显微镜”,以长达100万个碱基对的长DNA序列作为输入,预测数千种表征其调控活性的分子特性,在超20项广泛的基因组预测基准中实现了最先进的性能。 与已有的DNA序列模型相比,AlphaGenome具有几个独特的特点:支持高分辨率的长序列上下文、综合多模态预测、高效变异评分和新颖的剪接连接模型。 当下,谷歌通过AlphaGenome API提供AlphaGenome预览版,供非商业研究使用,并计划在未来发布该模型。 纪念斯隆·凯特琳癌症中心的博士Caleb Lareau说:“这是该领域的一个里程碑。我们首次拥有一个能够统一远程上下文、基础精度和各种基因组任务的尖端性能的单一模型。” 论文地址: https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf 01 . 百万DNA序列输入 预测数千种分子特性 AlphaGenome模型以长达100万个碱基对的长DNA序列作为输入,预测数千种表征其调控活性的分子特性。它还可以通过比较突变序列与未突变序列的预测结果来评估遗传变异或突变的影响。 预测的属性包括基因在不同细胞类型和组织中的起始和终止位置、基因剪接的位置、产生的RNA数量,以及哪些DNA碱基可接近、彼此靠近或与某些蛋白质结合。训练数据来源于大型公共联盟,包括ENCODE、GTEx、4D Nucleome和FANTOM5,这些联盟通过实验测量了这些属性,涵盖了数百种人类和小鼠细胞类型和组织中基因调控的重要模式。 动画显示AlphaGenome将一百万个DNA字母作为输入,并预测不同组织和细胞类型的不同分子特性。AlphaGenome架构使用卷积层初步检测基因组序列中的短模式,使用转换器在序列的所有位置传递信息,最后使用一系列层将检测到的模式转化为不同模态的预测。在训练过程中,此计算分布在单个序列的多个互连张量处理单元(TPU)上。 该模型以谷歌之前的基因组学模型Enformer为基础,并与AlphaMissense相辅相成,后者专门对蛋白质编码区内变异的影响进行分类。这些区域覆盖了基因组的2%。其余98%的区域称为非编码区,对调控基因活动至关重要,并包含许多与疾病相关的变异。AlphaGenome为解读这些广泛的序列及其内部的变异提供了一个新的视角。 02 . 高分辨率的长序列上下文 综合多模态预测 与已有的DNA序列模型相比,AlphaGenome具有几个独特的特点: 1、高分辨率的长序列上下文 谷歌的模型分析多达一百万个DNA碱基,并以单个碱基的分辨率进行预测。长序列上下文对于覆盖远处调控基因的区域至关重要,而碱基分辨率对于捕捉精细的生物学细节至关重要。 先前的模型必须在序列长度和分辨率之间做出权衡,这限制了它们能够联合建模并准确预测的模态范围。谷歌的技术进步解决了这一限制,且无需显著增加训练资源——训练单个AlphaGenome模型(未进行数据蒸馏)耗时4小时,且所需的计算预算仅为训练原始Enformer模型的一半。 2、综合多模态预测 通过解锁长输入序列的高分辨率预测,AlphaGenome能够预测最多样化的模态。由此,AlphaGenome为科学家提供了有关基因调控复杂步骤的更全面的信息。 3、高效变异评分 除了预测各种分子特性外,AlphaGenome还能在一秒钟内高效地评估基因变异对所有这些特性的影响。它通过对比突变序列和未突变序列的预测,并针对不同模式使用不同的方法高效地总结这种对比来实现这一点。 4、新颖的剪接连接模型 许多罕见遗传疾病,例如脊髓性肌萎缩症和某些形式的囊性纤维化,都可能由RNA剪接错误引起。RNA剪接是指RNA分子的部分被移除,或“剪接掉”,然后剩余的末端重新连接在一起的过程。AlphaGenome首次能够直接从序列中明确模拟这些连接的位置和表达水平,从而更深入地了解遗传变异对RNA剪接的影响。 03 . 超20项基准测试中表现最佳 AlphaGenome在广泛的基因组预测基准中实现了最先进的性能,例如预测DNA分子的哪些部分将会靠近,遗传变异是否会增加或减少基因的表达,或者它是否会改变基因的剪接模式。 下方条形图显示了AlphaGenome在选定的DNA序列和变异效应任务上的相对改进,并与每个类别中当前最佳方法的结果进行了比较。 在对单个DNA序列进行预测时,AlphaGenome在24项评估中,有22项的表现优于市面上已有的最佳模型。在预测变异的调控效应时,它在26项评估中,有24项的表现与最佳外部模型相当甚至超过了最佳外部模型。 本次比较涵盖了针对特定任务的模型。AlphaGenome是唯一能够联合预测所有评估模态的模型,彰显了其通用性。 04 . 统一模型 更快地生成和测试假设 AlphaGenome的通用性使科学家能够通过单个API调用同时探索一个变异对多种模式的影响。这意味着科学家可以更快地生成和测试假设,而无需使用多个模型来研究不同的模式。 此外,AlphaGenome的出色表现表明,它已经在基因调控的背景下学习到了相对通用的DNA序列表征。这为更广泛的研究社区奠定了坚实的基础。一旦该模型全面发布,科学家们将能够在自己的数据集上对其进行调整和微调,以更好地解决他们独特的研究问题。 最后,这种方法为未来提供了一个灵活且可扩展的架构。通过扩展训练数据,AlphaGenome的功能可以得到扩展,从而获得更好的性能,覆盖更多物种,或包含更多模态,使模型更加全面。 05 . 助力疾病理解、基础研究等 AlphaGenome的预测能力可以帮助多种研究途径: 1、疾病理解:通过更准确地预测基因突变,AlphaGenome可以帮助研究人员更精准地查明疾病的潜在病因,并更好地解释与某些性状相关的变异的功能影响,从而可能发现新的治疗靶点。我们认为该模型尤其适用于研究可能产生巨大影响的罕见变异,例如导致罕见孟德尔遗传病的变异。 2、合成生物学:它的预测可用于指导具有特定调节功能的合成DNA的设计——例如,仅激活神经细胞中的基因,而不是肌肉细胞中的基因。 3、基础研究:它可以通过协助绘制基因组的关键功能元素并定义其作用,识别调节特定细胞类型功能的最重要DNA指令,加速我们对基因组的理解。 例如,谷歌使用AlphaGenome研究了一种癌症相关突变的潜在机制。在一项针对T细胞急性淋巴细胞白血病(T-ALL)患者的现有研究中,研究人员观察到基因组特定位置的突变。利用AlphaGenome,他们预测这些突变会通过引入MYB DNA结合基序来激活附近的TAL1基因,这复制了已知的疾病机制,并凸显了AlphaGenome将特定非编码变异与疾病基因关联起来的能力。 伦敦大学学院Marc Mansour教授说:“AlphaGenome将成为该领域的一个强大工具。确定不同非编码变异之间的相关性可能极具挑战性,尤其是在大规模研究的情况下。该工具将提供关键的线索,帮助我们更好地理解癌症等疾病。” 06 . 结语:AI基因预测重要一步 AlphaGenome标志着AI基因预测向前迈出了重要一步,但仍有其局限性。 与其他基于序列的模型一样,准确捕捉极远距离调控元件的影响(如那些相距超过10万 DNA 碱基的调控元件)仍然是一个尚未解决的挑战。 同时,谷歌尚未设计或验证AlphaGenome用于个人基因组预测。虽然AlphaGenome可以预测分子结果,但它并不能全面展现基因变异如何导致复杂的性状或疾病。
小米 AI 眼镜全汇总:年轻人的第一幅智能眼镜,终于要上头了
本周四(6 月 26 日),小米在「人车家全生态发布会」上正式发布了旗下首款使用小米商标的 AI 智能眼镜产品,为小米「人、车、家」生态再添一步棋。 根据小米在发布会上的展示,小米 AI 眼镜定位「面向下一个世代的个人智能设备」,是一款基于语音和触控操作、不包含显示功能的智能眼镜,支持语音通话和拍照录像。 对于一款智能眼镜来说,好不好看是第一要义,毕竟与 AR 头显、VR 手柄之类的配件不同,智能眼镜是具有非常强烈配饰属性的产品。好消息是,小米 AI 眼镜也的确是将工业设计放在优先位置的: 小米 AI 眼镜采用了较为保守的 D 型方框设计,整体造型接近经典的威灵顿式镜框(Wellington Frame),与上周 Meta 与欧克利合作的 Oakley Meta HSTN 的圆框型相比,小米的选择更加适合亚洲人脸型,搭配最大可以 12 度外翻的转轴,有效避免了以往智能眼镜眼镜腿粗厚导致的夹头问题。 亨利·卡维尔版本的《超人》在伪装成克拉克·肯特时,选择的就是威灵顿风格镜框 在造型与颜色方面,小米 AI 眼镜只有一种可选的框型与三种配色:黑色、玳瑁棕与鹦鹉绿,其中后两种是烟熏色风格的半透明镜架,与「透明探索版」的小米 8 有异曲同工之妙—— 对于眼镜来说至关重要的重量方面,小米 AI 眼镜在裸框无镜片的情况下重量约为 40 克。而在最重的情况下,搭配玻璃镜片后的整体重量约在 50~60 克,如果需要全天佩戴的话还是应该尽量选择树脂镜片。 好消息是,小米也的确考虑到了需要处方眼镜的人群,并没有推出一款纯平光镜。小米 AI 眼镜既可以当作裸框去线下直接验光配镜,也可以在小米有品 app 里面定制处方镜片,镜片供应商为上海明月眼镜。 有趣的是,除了平光镜片、处方镜片和墨镜片之外,小米这次还给智能眼镜带来另一个新的选择:电致变色镜片。 与波音 787 上面的可变色舷窗原理类似,电致变色镜片的透明度可以通过施加不同的电压进行调整,反应速度比一般的紫外线光致变色镜片要灵敏的多: 本次的小米 AI 眼镜共包含两款搭配电致变色镜片的版本,分为单色款和多色款。通过在镜腿侧边滑动控制,单色款电变镜片可以调节四档遮光度,多色款则可以在黑色、粉色、蓝色和紫色之间切换。 第一人称相机 如果说现阶段智能眼镜最独树一帜的功能是什么,那毫无疑问是能够拍摄和录制第一人称视角的照片与视频,实现 100% 的解放双手: 作为直接与 Meta 对标的功能,小米自然也将主要的精力放在了相机上。根据发布会的介绍,小米 AI 眼镜配备了一块 1200 万像素的 IMX681 传感器,与雷鸟 V3 上面使用的是同一颗,最高可以录制 2304×1728 分辨率的 2K 30 帧视频,并且支持 EIS 电子防抖。 此外,小米 AI 眼镜上还有一个四麦克风阵列,借助于骨传导麦克风以及抗风噪设计,可以满足从轻度运动到城市街拍的各种使用场景。与 Ray-Ban Meta 类似,小米 AI 眼镜也选择了镜头居左、指示灯居右的布局,快门键位于右侧镜腿上。 小米 AI 眼镜并不是一个独立的 POV 相机,而是澎湃生态中的一环。根据小米的介绍,小米 AI 眼镜支持在微信和 QQ 的视频通话中,可以借助 HyperOS 的相机流转功能替代手机摄像头,真正实现「换位观察」: 更精彩的是,这套玩法并不仅限于视频通话,小米 AI 眼镜是可以用来直播的。 发布会上,小米宣布和哔哩哔哩、抖音、快手和小红书达成了合作,实现了在直播中直接采集小米 AI 眼镜拍摄的画面,省去了以往用运动相机直播推流时要用到的一大堆设备,现在只需要带一部手机、一根数据线和一副眼镜就可以光速开播了。 随身 AI 设备 除了拍照录像,小米 AI 眼镜还有一个角色:实时的小爱同学伴侣。有了小爱同学打底,小米 AI 眼镜的智能化精确识别能力应该是完全不用担心的: 而在翻译方面,小米 AI 眼镜自然也支持了同声传译功能,目前支持中文与英、法、日、韩、德、意、葡、西、俄、印尼语共计十种语言互译,是目前市场上能够买到的智能眼镜产品中支持翻译语言最多的。 除此之外,小米 AI 眼镜也可以配合手机上的录音 app,实现会议中的无感录音和人位录音,回放的时候临场感更强,录音时的打扰性也比手机更低。不过小米 AI 眼镜的同传暂时不支持外语间互译,这个情况在推出国际版时可能会得到改善。 一副全天候智能眼镜 对于智能眼镜来说,除了一颗好的摄像头和优秀的算法之外,续航也是必须要重视的指标。 根据发布会上的介绍,小米 AI 眼镜使用的是高通 AR1 处理器,这是一颗带 NPU 单元和双 ISP(图像处理器)的低功耗芯片,是高通智能穿戴设备处理器中的旗舰。而面对音乐等低功耗场景,小米还搭配了来自恒玄科技的 BES2700H 蓝牙音频处理器,组成了类似 Vision Pro 的「一机双芯」配置。 小米 AI 眼镜使用的是与小米 15 Pro 上相同的高密度硅负极电池技术,纯蓝牙通话或音乐的续航为 7~8 小时左右,在压力更大的混合使用场景(通话+视频+拍照+小爱对话+识图问答)中也达到了约 8.6 小时的典型续航,基本满足普通用户一整天的使用需求,0~100% 充电时长约为 50 分钟。 当然,在直播这样的高功耗场景下,小米 AI 眼镜也支持使用 USB-C 线缆直接供电,接口位于右侧镜腿末端。只不过从发布会上公布的信息来看,这枚接口应该只能用于充电,不具备数据传输和 DAC 功能,也就不支持有线音乐播放了。 小米 AI 智能眼镜的售价为 1999 元,电致变色款分别为 2699 和 2999 元。如果你有医疗镜片的需求,小米与全国近 400 家眼镜门店达成了合作,可以携带小米 AI 眼镜线下验光、现场配镜。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。