行业分类:
加载中...
头条分类:
加载中...
你的快递,是无人车送的
经济观察报 记者 任晓宁 周悦 11月18日下午4点半,新疆博尔塔拉蒙古自治州精河县,气温已降至-7℃。中通网点老板兰树新从加厚羽绒服中掏出手机,打开新石器的App,点击发车按钮,一台白色无人车缓缓驶出仓库,踏上当天的投递路线。 这台车没有驾驶舱,高度只到成年人肩膀。外观看起来就是一个大铁箱,全靠前方两只大眼睛似的激光雷达辨认物体和路线。它每天固定跑8个驿站,配送500多件包裹。兰树新粗略算过,光油费和人力成本,一天就能省下200元,如果单日投递量能达到1000件,一年能回本。 在精河这样地广人稀的县,无人车尤其能发挥作用——当地面积是北京市朝阳区的24倍,人口却只有朝阳区的1/24,有的村子离网点60公里,一趟往往只送两三件快递,跑一趟很不划算,无人车则填补了这一段司机不愿意跑、网点又不能放弃的“亏本地带”。 最初上路时,兰树新专门骑着电瓶车一路跟着,眼看它在空无一人的戈壁滩上缓慢前行,遇到行人会自动播报“请保持两米距离”,碰上障碍物会自动刹停,直到驿站老板手动解锁。“它比我驾车规范。”兰树新说。后来他不再跟着了,只用手机查看运行状态,打算再买两台。 兰树新的尝试不是个例。近两年,无人车应用正在加速落地。国家邮政局数据显示,截至2024年底,无人配送车的应用已超6000台。这一数量远超同为自动驾驶技术应用领域的无人出租车——该领域内头部企业的运营总量为3000台。 快递物流行业对无人配送车的应用最为广泛。今年,中通已投入近3000台无人车;极兔超过1000台;顺丰约1800台;邮政则在10月宣布,将在未来3年—4年集中采购7000台。 新石器和九识智能两家头部无人车企业在今年获得多轮、数亿元大额融资,迈入独角兽行列。其中,新石器完成10亿元C+轮融资、超6亿美元D轮融资,截至发稿前,后者仍是中国自动驾驶领域最大的一笔私募融资;九识智能则在今年完成两次B轮融资,总计达4亿美元。 降低亏损、补充人力 使用无人车送快递的省份不止在新疆。在甘肃,同样可以看到它们穿梭于村镇的身影。 早在2023年,极兔速递嘉峪关市网点负责人郭海英就开始关注无人车。2024年初便购买了第一台,裸车及5年服务费共计15万元,这是一笔不小的投入。用了一个月后,她果断买了第二台、第三台。2025年,她直接在直播间下单了第四台,而这时,裸车加上服务费已降至不到10万元,总价比一年前便宜了三分之一。 便宜、有用,是郭海英不断复购的原因。相比大货车要凑够1500件包裹才发车,无人车装满600件即可出发,一天能跑三四趟。无需司机、不挑时间、不怕辛苦,哪怕是最偏远的村庄,它也能精准识别路线,准时送达。 如今,在郭海英管理的网点,所有农村件都由无人车发货。每天,4台无人车从嘉峪关市快递物流园发车,覆盖该市3个乡镇6个驿站。以往,因为路程远,快递送至最远一个村子,往返一趟需要5个多小时,并且件量也少、很不划算。现在,用无人车配送,即使包裹装不满一车,跑一趟也只需几块钱电费,远低于传统车辆的油耗。 郭海英算了一笔账,使用无人车一年能省2.5万元油费、2万元保险与保养费用以及2万元人力成本,回本指日可待。 而驿站侧也发生了变化,过去村民取件时间不确定,快递员常需全天守候,农村快递员难以招到合适的人。现在村里有自助快递柜,无人车到了,驿站的人再上班把快递放进快递柜里,每天只需两小时,村里的小卖部老板就能兼任。 在敦煌,快递网点还面临另一个难题——招不到人。敦煌市极兔速递网点负责人刘军曾开出每月6000元的工资,依然没人愿意送快递。当地人大多从事旅游工作,旅游收入丰厚,自然不愿意送快递。现在,3台无人车承担了这一网点40%以上的派送任务,员工只需装卸即可,降低了用工门槛。 无人车的使用并不局限于西北地区。在深圳、青岛等地,无人车也在逐步成为城市物流网络的重要组成部分。 在山东青岛市,新石器部署的车辆已突破1200台,使得青岛成为全球无人驾驶车辆最密集的城市之一。今年7月,滴滴送货与新石器在青岛启动试点合作,在平台上开通“无人配送”选项,用户可通过滴滴App下单,系统则按需调用无人车定点派送。 这一试点聚焦于“司机不便接单”的细分场景:高温、高峰期、夜间和一些偏远位置的任务,无人车成为运力补位。例如,青岛一处食材供应链仓库,每晚11点到凌晨3点之间,要给4所学校配送新鲜蔬菜。夜班司机很难找,配送时效难以保障,现在,无人车解决了这个问题,可以按固定线路准时发车、按时抵达。 另据10月深圳市发布的《功能型无人车运行与发展报告》,深圳已开放1257条无人车行驶路线,全市投放的798台功能型无人车中,超过一半是无人物流车。其中,顺丰目前运营135台无人车,主要服务于封闭园区内最后一公里的配送、楼宇的最后100米配送、网点到下级站点的最后3公里配送、场地到网点的线路运输、短驳运输等场景。顺丰官方数据显示,在刚刚过去的10月份,无人车配送订单量达到68万单,环比增长55%。 多样化落地场景背后,是无人车技术的持续演进。 九识智能联合创始人、COO张旭琛告诉经济观察报,九识智能几乎每年都会对车型做一次完整迭代,包括传感器布局、结构细节和整车适配能力,使无人车能够更稳定地应对不同地区的气候与路况。从2023年底起,九识智能陆续在-30℃、冰雪覆盖期长的辽宁阜新等地投放车辆,开展常态化运营。截至2024年上半年,这批无人车已在极寒环境下连续运行超过半年,出厂即可在-30℃至60℃的温度区间内工作。 硬件之外,九识智能的软件也保持高频更新节奏。张旭琛表示,自动驾驶算法基本维持“月更”。针对北方常见的风沙、雾雪等天气,其软件可以通过大量实路数据不断优化识别模型,让车辆在能见度低、反射干扰多的情况下仍能保持稳定避障。目前,九识智能在全国累计部署的1.5万多台无人车正在不同气候带的真实道路上持续运行,回传的数据会用于下一轮算法训练与车型改进。 解决路权难题,才能顺利运营 无人车其实已不是新鲜事。早在2018年,新石器就推出过无人配送车,但彼时价格高、政策不明朗,很难真正跑起来。而真正的突破,也往往来自于一线的尝试。 酒泉市极兔快递负责人毛建东,是西北地区最早“吃螃蟹”的人。2023年,他花了22万元购买了第一台无人车。 与真人驾驶的汽车一样,无人车也需要牌照。毛建东称,他曾和酒泉市政府多次沟通,安排特定工作团队负责无人配送车的日常调度、故障处理和安全巡查,对无人配送车的运行过程进行实时监控和管理,并向政府部门提交承诺书,保证无人车出事故后能找到人,此后,无人车才正式运行。 新疆精河县的兰树新也经历了类似的过程。购入首台无人车后,他与厂家团队一同采集路况,定制行驶路线,同时也与当地邮政、交通、公安等部门连续召开研讨会,观摩与测试持续了近一个月,才最终获准上路。 随着西北多个县市相继出现无人车,宁夏、青海等地的快递网点也开始观望。今年下半年,极兔速递甘青宁区域公共事务负责人黄金银组织了两场无人车发车仪式,青海、宁夏都有快递公司前来观摩,他们都在考虑能不能使用无人车。但能否真正落地,最终仍取决于当地政府是否开放路权。 截至2025年上半年,全国已有上百个城市开放无人配送车辆路权,但分布极不均衡。 以甘肃为例,14个地级市中,酒泉、张掖、嘉峪关、敦煌等少数地区已经开放。这些允许上路的城市有一些共同点:地广人稀、山地较少、交通路况好。此外,政府对无人车上路持积极态度。例如,嘉峪关市政府去年印发《嘉峪关市促进邮政快递业高质量发展若干措施(试行)》,对邮政快递企业购置无人车、无人值守智能化设备等且投资额达100万元以上的,按投资额的5%予以一次性补助,单个企业最高不超过20万元。 政策放行是第一步,真正让这项技术“跑上路”的,更多的是一线快递员、站点经营者的探索。为了让无人车尽可能安全,经营者们在车身上贴上了自己手机号码,以便行人遇到问题时可以联系到人。设计快递运输路线时,他们会避开繁华路段,不走商圈,不走学校……不好停车的地方也尽量不跑,同时避开早晚高峰期。 “不能因为某一家的车不守规矩,影响了全市的无人车上路。”郭海英说,谨慎且规范使用无人车,这是快递老板们心照不宣的规矩。 在各地政策差异极大的情形下,无人车企业也希望推动制度制定及一线试点。 新石器一方面参与国家与地方层面的无人配送车技术标准和路测细则制定,另一方面组建了本地化对接团队,配合交通、市场监管等部门调整备案材料与车辆参数。面向中通、圆通等加盟制快递体系,新石器采用总部认证与区域试点的方式,以便不同站点可自行决定是否引入无人车。 张旭琛介绍,无人配送车进入网点后,最先接触它们的是快递员、共配中心和驿站员工,他们能直接感知到操作难度与配送效率。只需经过简单培训,网点员工就可通过手机App完成运营、调度等核心操作;一旦出现异常,5公里范围内可找到维修点与备件支撑。 例如,在四川大凉山,当地快递网点在使用无人车运输快递的同时,发现还能顺路帮助果农送水果,便主动推进,解决路权难题。九识智能随即优化了产品和线路规划,使车辆更适配山地路况,最终促成了落地。 硬件成本下探、企业探索新模式 今年9月,新石器和九识智能先后宣布已实现1万台车下线交付,1万台的交付量是无人车从试验走向规模化应用的关键里程碑。 无人车能在快递行业普及,一个主要原因是降价。2018年,一辆用于末端配送的无人车(含服务费)价格高达百万元;到2019至2021年,降至20万—30万元。进入2025年,价格进一步下探。新石器的主力车型裸车定价区间在4万—7万元左右。 新石器相关负责人告诉经济观察报,这背后是多重因素共同作用的结果。一方面,激光雷达、摄像头等核心硬件成本降价,为整车大幅降价提供了可能。早期,由于激光雷达和自动驾驶计算平台等核心模块依赖外采,一辆无人车硬件成本一度超过30万元,而目前已降至约7万元。随着技术日趋成熟,无人车对高精度硬件的依赖程度有所降低,整车成本空间被进一步打开。 另一方面,规模化生产带来的制造成本摊薄也同样关键。新石器将无人车顶部的自动驾驶模块与底部的车体结构模块做了高度标准化,可在多款车型之间通用;其无人车工厂全面采用了自动化标定设备,大幅度缩短了传感器标定时间,产线节奏显著提升,最快10分钟可下线一台车。 在此基础上,自研的新一代计算平台开始替代昂贵的进口模块。前述新石器相关负责人称,相比成本高峰期,核心部件成本已下降了约七成,配套L4级无图自动驾驶技术方案,使综合成本进一步降低了50%以上。 另一条推进普及的路径,则来自商业模式创新。去年,九识智能首次采用“低硬件价格+软件订阅”模式。以最新推出的E6车型为例,裸车与完全自动驾驶服务月费,按5年计算总成本为12.78万元,相当于一二线城市快递员的年薪。张旭琛表示,上一代整车包含五年服务的打包方案超过20万元,新的模式加上免息金融方案,降低了客户的一次性投入,使得更多用户愿意尝试。 隐忧与期待 无人车在快递行业逐渐受到了认可,但对其忧虑也从未消弭。 最主要的担忧是交通事故。虽然与全国上千万辆货车相比,1万辆左右的无人车只是极小部分。但作为一个新鲜事物,一旦发生事故,无人车很可能会引起轩然大波。 按照一般推理,无人车如果发生事故,交通执法部门可以很方便地找到快递网点经营者,交涉理赔等事宜。接受经济观察报采访的几位快递经营者,目前还没有遇到大型事故。只有甘肃嘉峪关的郭海英谈到,无人车出现过小的碰撞,说是出于路人的好奇心,想试试一下无人车的刹车功能,就开车急速转弯,导致无人车发生了追尾。而这起事故是路人全责,无人车不需要承担责任。 在法律层面,无人车的事故鉴定仍是模糊的。多位受访者提到,若未来出现造成人身伤亡的严重事故,责任究竟由车辆所有者、运营方、算法方还是实际调度方承担,尚并无明确界定。如果出现身亡事故,刑事责任如何判定?这也是一个全世界都面临的新问题。 在制度并未完全跟上的情况下,各快递网点更多采取的是“经验性安全措施”:尽可能减慢无人车的行驶速度,在下雨、下雪天给车装上防滑链,防止类似事故发生。 尽管存在顾虑,快递从业者对无人车的长期趋势是乐观的。郭海英从事快递行业十多年,一开始是用双手分发快递,后来货量增大,她便引入了分拣框,再后来引入机械分发设备,再后来引入自助快递柜……她亲眼见证着快递行业因装备升级而效率提升,这使她相信:快递无人车是不可逆的趋势。 在使用过程中,无人车仍有一些短板也被一线集中反馈出来。其中最典型的是续航不足。无人车每天晚上充满电,白天通常只能完成3趟,第四趟往往因电量不足被迫折返。一些车型标称续航180公里,但实际续航也就约100公里。此外,无人车的车轮毂比较窄,防滑能力不好;车体也比较薄,稍有磕碰,车身上就坑坑洼洼。 与这些现实问题并行的,是更明确的政策信号。今年以来,商务部等8部门发布《加快数智供应链发展专项行动计划》,将无人配送车纳入重点推广设备;交通运输部《“人工智能+交通运输”实施意见》已完成征求意见,或将对自动驾驶物流给予更明确的支持。国家邮政局提出“加快推动无人车、无人机、智能云仓在行业规模化应用”的目标。从地方实践看,核心城市正陆续出台示范运营、路测管理和商业化使用细则,路权审批也将趋于常态化。 总体而言,无人车既给快递行业带来了新的运力组织方式,也带来了责任认定等难题。业内已经普遍形成了这样的共识:无人车上路不是终点,而是规模化应用的起点。
罗福莉首个小米成果!开源具身大模型
正式入职小米还不到10天,罗福莉的首篇论文,这就来了! 在这篇出自MiMo团队(主打空间智能)的研究中,罗福莉作为团队负责人担任核心作者,小米智驾团队首席科学家陈龙则作为项目负责人。 而这项研究最亮眼的地方,恰恰是具身智能与自动驾驶的跨界融合。 针对自驾与具身操作场景的知识迁移难题,MiMo团队提出并开源了全球首个打通这两大领域的跨具身(X - Embodied)基座模型——MiMo-Embodied。 在实测效果上,MiMo-Embodied在自动驾驶与具身智能共计29个Benchmark上全部霸榜! 无论是开车的环境感知、规划,还是机器人的拿取、导航,主打一个我全都要。 具身与智驾,小米全都要! 如上所说,小米这次开源的MiMo-Embodied是业界首个开源的、成功融合了自动驾驶与具身智能(Embodied AI)两大领域的统一多模态基础模型。 它基于MiMo-VL架构,通过构建涵盖通用视觉、具身任务及驾驶场景的高质量数据集,并采用包含思维链(CoT)和强化学习(RL)的渐进式四阶段训练策略,有效打破了室内操作与户外驾驶之间的领域鸿沟。 最终,该模型在任务规划、空间理解、环境感知及驾驶规划等29个基准测试中,均超越了现有的专用模型及通用模型,实现了跨领域的最先进(SOTA)性能。 接下来,我们具体来看。 在以往具身/自驾的VLM领域中,往往存在以下问题: 一方面是缺乏统一的具身VLM(Unified Embodied VLM)。 现有的视觉语言模型(VLMs)大多专注于单一领域(仅室内任务或仅户外驾驶),缺乏能够连接这两个领域的统一模型。限制了模型在动态环境中与物理世界有效交互的能力。 而这,也带来了领域差距与迁移困难。 具身智能侧重于室内操作,而自动驾驶侧重于户外道路,两者存在显著的领域差距(Domain Gap),阻碍了能力的跨领域迁移 。 另一方面则是评估体系缺失, 即缺乏全面的跨具身能力评估体系来衡量模型在两个领域的综合表现。 为了解决这些挑战, MiMo-Embodied试图将自动驾驶和具身智能的任务合并到一个统一的VLM中,以整合模型的跨具身能力。 如上图所示,MiMo-Embodied架构由以下三个部分组成: 用于编码视觉输入的 Vision Transformer (ViT):模型使用ViT来编码各种类型的视觉输入,包括单张图像、多张图像和视频。这使得模型能够提取复杂的模式和关系。 一个投影器(projector): 使用多层感知机(MLP)作为投影器(Projector),将视觉Token映射到与大语言模型对齐的潜在空间。 负责文本理解和推理的LLM:LLM作为核心组件,负责理解文本指令并结合视觉信息进行推理,生成连贯且上下文相关的响应。 由此,通过无缝集成视觉和文本领域,MiMo-Embodied增强了多样化多模态推理任务和应用的潜力。 接下来,为了实现跨领域的统一能力,论文提出了一套系统的数据构建和分阶段训练策略: 首先在数据方面,训练数据涵盖了通用多模态理解、具身 AI(功能性预测、规划、空间理解)和自动驾驶(感知、预测、规划)三个维度的多模态数据: 通用数据: 基于MiMo-VL语料库,包含图像、视频、长文本等,长文档和合成推理数据,确保广泛覆盖感知、推理和交互能力。 具身智能数据: 涵盖可供性预测(Affordance Prediction)、高层任务规划和空间理解,整合了如 PixMo-Points, RoboAfford, RoboRefIt等数据集。 自动驾驶数据: 涵盖环境感知、状态预测和驾驶规划,整合了 CODA-LM, DriveLM, nuScenes-QA等数据集。 基于上述构建的数据集,研究又开发了一种四阶段训练策略。 基于MiMo-VL,研究引入了具身智能和自动驾驶方面的专门监督,最终通过思维链微调和强化学习实现高级推理能力 。 这一策略有助于模型建立在先前获得的能力之上,从而在具身交互和自动驾驶领域实现稳健的性能。 阶段1:具身智能监督微调 (Embodied AI Supervised Fine-tuning):结合通用数据和具身数据,建立核心的视觉语言理解、具身推理能力。 阶段2:自动驾驶监督微调 (Autonomous Driving Supervised Fine-tuning): 在阶段1的基础上,加入大量自动驾驶数据。重点训练多视角空间推理、视频时间一致性和复杂交通场景分析 。 阶段3:思维链推理微调 (CoT Supervised Fine-tuning): 使用包含明确推理步骤的数据进行微调。这增强了模型处理复杂多步问题的能力,例如风险评估和行为合理性解释。 阶段4:强化学习微调 (RL Fine-Tuning): 使用 GRPO (Group Relative Policy Optimization) 算法。通过针对正确性(如选择题匹配、IoU计算)设计奖励信号,进一步优化模型的精确度和可靠性。 实验测试 为了验证MiMo-Embodied的性能,研究分别在定性和定量两层面进行评估,定量比较涉及针对具身智能和自动驾驶的各种既定学术和行业基准的客观评估,从而能够与领先模型进行直接的实证比较。 定性评估则展示了MiMo-Embodied在现实世界任务中的实际效能,突出了其在复杂机器人和自动驾驶场景中的部署,并提供了其将习得能力转化为有效性能的具体证据 。 基准测试上的定量比较 首先,在具身能力方面,研究在三个核心领域进行了全面评估:可供性预测、任务规划和空间理解。 结果表明,MiMo-Embodied 取得了具有竞争力的结果,与通用多模态模型和专用具身模型相比,在可供性预测和空间理解方面表现出特别的优势。 其次,在自动驾驶能力方面,研究在感知能力、预测能力和规划能力上进行了评估。包含在4种数据类型上的12个基准测试中的性能,涉及其理解复杂交通场景、预测动态道路智能体行为以及生成安全高效驾驶建议的能力。 实验结果显示,MiMo-Embodied在所有感知基准测试、预测、规划中均取得了强劲的性能,在全景语义理解任务中展示了最先进的结果,同时在具有挑战性的局部感知场景中也表现出卓越的鲁棒性。 现实世界任务的定性评估 首先,为了验证MiMo-Embodied 在复杂交互环境中的实际效用,研究评估了其在两个基本下游应用中的性能:具身导航和操作。 在具身导航中,相较于GPT-4o、Qwen2.5-VL和RoboBrain-2.0,MiMo-Embodied展现出在多样化家庭场景中增强的对象定位能力和一致的性能。 在操作任务中,MiMo-Embodied同样展现出强大的可供性和空间推理能力。 在自动驾驶能力上,研究首先在NAVSIM上确定性能以进行标准化比较,然后在一个包含多样化真实世界驾驶场景的大规模专有数据集上测试模型的能力。 实验结果表明MiMo-Embodied可以处理多样化的自动驾驶情况并完成具有挑战性的任务,包括交叉路口转弯、弯道掉头、跟车和变道超车。 在每种情况下,模型都应感知道路上下文,整合自车状态和导航意图,并做出连贯的决策。 此外,MiMo-Embodied在所有评估类别中始终优于基线。值得注意的是,在转弯、绕开障碍物和变道等复杂、交互式操作中,性能提升最为显著。 在最后,论文表示还将基于MiMo-Embodied模型的能力,探索具身智能视觉-语言-动作(VLA)模型,以增强复杂环境中的交互,通过自然语言理解实现更直观的任务执行。 One more thing 这篇论文,是罗福莉于11月12日正式官宣加盟小米、出任MiMo团队负责人后,发布的第一篇论文。 作为业界备受关注的95后AI才女,她本科毕业于北京师范大学,硕士在北京大学继续深耕。 硕士毕业后,她加入阿里巴巴达摩院担任机器智能实验室研究员,主导开发多语言预训练模型 VECO,并推动核心项目AliceMind的开源落地。 2022 年,罗福莉加入DeepSeek母公司幻方量化,后续任职DeepSeek深度学习研究员,深度参与 DeepSeek-V2等标杆模型的研发工作。 而本论文的Project Leader(项目负责人)陈龙,也于今年正式入职小米,担任智能驾驶首席科学家。 在此之前,陈龙曾任职于英国AI独角兽公司Wayve,主导新一代端到端自动驾驶VLA模型的研发。 更早前,他还以研究工程师身份加入Lyft,牵头车队学习项目,通过大规模众包车队数据完成自动驾驶车辆机器学习规划器的预训练。
18个月月收33万刀!起底“AI套壳”生意经:是昙花一现还是隐形金矿?
原文 | Nowfal 编译 | 王启隆 出品丨AI 科技大本营(ID:rgznai100) 在科技行业的舆论场中,常能听到一句带着几分轻蔑的评价:“这不就是个套壳 AI 吗?” 对于那些正在绞尽脑汁试图构建新事物的开发者而言,这句话听起来格外刺耳。它宛如一盆冷水,径直泼在刚刚燃起的创新火苗之上。这句话背后的潜台词极具杀伤力:这意味着缺乏核心技术,意味着只是在巨人的地基上搭建积木,意味着随时可能被推倒的脆弱性。 然而,反击的声音同样响亮,且逻辑坚硬得令人无法反驳。 Perplexity 的首席执行官 Aravind Srinivas 曾直言不讳:“世上万物皆是套壳(Everything is a wrapper)。OpenAI 套的是英伟达的算力和 Azure 的云服务;Netflix 套的是 AWS 的基础设施;就连市值高达 3200 亿美元的 Salesforce,归根结底也不过是 Oracle 数据库的一个高级外壳。”你 此言确实切中肯綮。但在深入这场关于“定义”的口水战之前,有必要先厘清公众口中的这个“AI 套壳”(AI Wrapper)究竟是何种物种。 简而言之,这往往是一个被贴上“投机取巧”标签的产品形态。开发者并不自行训练庞大的基础模型,而是直接调用现成的 API(如 OpenAI 的接口),在此基础上覆盖一层轻薄的用户界面,以提供某种特定的功能,其开发过程通常极少涉及复杂的底层技术攻坚。 最为典型的案例,莫过于那些允许用户“与 PDF 对话”的应用程序。在 ChatGPT 问世早期,官方尚未提供直接处理文档的功能,这类应用因此迅速蹿红。用户只需上传一篇晦涩难懂的论文或报告,AI 便能迅速生成摘要并回答相关问题。这种需求真实而迫切,解决方案也显得痛快淋漓。 然而,问题恰恰在于,这种“痛快”来得过于容易。 关于 AI 套壳的争论,往往忽略了一个更宏大的命题。 套壳本身并非原罪,真正的分水岭在于:被构建出来的产物,究竟是一个随时可被替代的“功能”,还是一个能够站稳脚跟的“产品”。 部分套壳应用注定只能是昙花一现的过客,一旦巨头们回过神来,将这些功能整合进自身的生态套件,它们便会迅速凋零。但同样存在一些应用,能够在巨人的夹缝中生根发芽,甚至长成参天大树。“套壳”这个标签,实则掩盖了真正值得关注的核心:它究竟是功能还是产品?它所处的市场细分究竟有多广阔? 昙花一现的功能,还是屹立不倒的产品? 不妨先审视那个让用户与 PDF 对话的早期案例。 这类工具解决的问题极为具体且狭窄:读不懂文档,寻求 AI 辅助。它并不负责创造新的文档,也不涉及对既有内容的编辑,通常更不会记录用户的阅读习惯以优化后续体验。它本质上是一个一次性的工具,用完即走,缺乏粘性。 严格来说,这只能被定义为一种“能力”,而非一个完整的端到端解决方案。它更应作为文档阅读器内的一个按钮,或是旗舰办公软件中的一个插件而存在。 这便是危险所在。当 OpenAI、Anthropic 或 Google 等基础模型构建者,决定将这种“能力”直接原生植入其系统时,那些独立存在的套壳工具瞬间便失去了存在的根基。这属于典型的“功能型”宿命——极易被复制,缺乏业务闭环,更无护城河与长期防御力可言。 不过,商业世界从不缺乏例外。即便最终会被平台吞噬,但在巨头们尚未腾出手的这段时间窗口内,这些功能型应用依然能创造出惊人的财富,成为有趣的独立商业案例。 数据足以说明为何开发者们前赴后继:PDF.ai 的月经常性收入(MRR)曾达到 50 万美元;PhotoAI 也有 7.7 万美元;Chatbase 约为 7 万美元;InteriorAI 则为 5.3 万美元。而 Jenni AI 更是令人咋舌,短短 18 个月内,其月经常性收入从 2000 美元飙升至 33.3 万美元。 这笔财富固然诱人,但这种商业模式更像是淘金热中的捡拾金块,而非开采金矿。一旦地表的金块被捡拾殆尽,生意便也随之终结。 在巨人的卧榻之侧求生 有些套壳应用做得足够厚重,甚至进化成了真正的产品,切入了一个体量巨大的市场。此时,它们面临的不再是“像不像套壳”的嘲讽,而是实打实的生存威胁。 这里存在两只拦路虎:一是模型访问权的掌控,二是分发渠道的垄断。 首先看模型访问权。代码助手领域便是最典型的战场。 诸如 Cursor 之类的工具,实际上已将“套壳”这一概念推向了极致。它不仅仅是简单调用 API,而是将 AI 深度集成到了集成开发环境(IDE)之中。它能够读取整个代码库,编辑文件,生成代码,回滚更改,甚至运行编码代理,在某种程度上彻底重塑了 AI 时代的开发者体验。 这个市场足以支撑起巨大的想象空间。在全球市值最高的五家科技巨头中,软件开发人员约占员工总数的 30%。哪怕开发工具仅能提升些微的生产力,释放出的价值都将以数十亿美元计。这使得该领域成为了模型构建者和拥有分发渠道的巨头们的必争之地。 然而,Cursor 们的命门在于,它们在很大程度上依赖于外部。它们必须仰仗 OpenAI、Anthropic 和 Google 的模型接口生存,直到开源模型或自研模型在质量上能与前沿闭源模型匹敌。 开发者论坛中充斥着付费用户关于“速率限制”的抱怨。在实际开发项目中,开发者常常会遭遇 Claude 额度耗尽的窘境。即便用户更偏爱 Cursor 的界面设计与交互逻辑,为了推进项目进度,也不得不转而使用 Claude 官方提供的工具(并支付高昂费用以避开限制)。界面或许更优,但对模型的访问权限往往起到了决定性作用。 这种依赖不仅仅关乎额度,更关乎战略层面的生死。OpenAI 首席执行官 Sam Altman 曾提出过一个著名的观点:正确的战略应假设模型将持续改进。 “构建 AI 创业公司有两种策略。一种是假设模型不会变得更好;另一种是假设模型将以同样的速度持续进化。世界上 95% 的人似乎都应该押注于后者,但许多初创公司却是基于前者建立的。当我们完成本职工作,模型能力升级时,那些赌错方向的公司将被无情碾压。” 这种碾压是全方位的。从知识辅导、健康医疗到创意表达、购物,乃至写作助手、法律助手等每一个巨大的细分市场,只要有利可图,模型厂商就有动力亲自下场。 流量与渠道的残酷绞杀 除了模型厂商的直接竞争,分发渠道则是悬在头顶的第二把利剑。即便模型构建者暂且按兵不动,初创公司仍需面对另一个严峻的拷问:能否在拥有现成产品和庞大分发渠道的巨头添加 AI 功能之前,抢先建立起足够庞大的用户群? 这正是微软 Teams 对战 Slack 这一经典商业案例的现代回响。 挑战在于,必须在微软将 Copilot 嵌入 Excel 或 PowerPoint,在 Google 将 Gemini 编织进 Workspace,或在 Adobe 将 AI 整合进其创意套件之前,建立起忠诚的客户群。 一个独立的电子表格或演示文稿 AI 套壳工具,不仅要克服功能上的同质化,更要对抗巨头的捆绑销售优势、分发渠道优势以及用户高昂的切换成本。 这种来自巨头的渠道竞争,在医疗和法律等其他大型市场同样适用。在这些领域,监管的摩擦和对“记录系统”(System of Record)的控制权,往往有利于像 Epic Systems 这样的老牌企业。例如,一个无法将数据写入电子健康记录(EHR)的临床笔记生成器,迟早会撞上 Epic 的分发壁垒。 当然,商业竞争中总有例外。 首先,速度本身就是一种武器。 像 Cursor 这样的工具,虽然缺乏对核心依赖(模型访问)的控制,但其惊人的增长速度使其成为了极具吸引力的收购目标。Windsurf 获得了 Google 24 亿美元的收购许可交易;Gamma 在一年左右达到了 5000 万美元的收入;Lovable 在短短六个月内达到了 5000 万美元的收入;Galileo AI 被 Google 收购。快速的市场占有率,往往能为企业在被碾压前赢得退出的机会。 其次,卓越的执行力偶尔能战胜结构性优势。 Midjourney 凭借过硬的产品质量,说服了 Meta 使用其服务,尽管 Meta 拥有大得多的预算和分发能力。 最后,基础模型可能会因避险而放弃某些市场。 医疗和法律领域的监管负担,或 AI 伴侣及成人内容可能带来的声誉损害,为那些愿意面对极端监管审查或争议的经营者留出了机会。机会依然巨大,但竞争(或收购)随时可能敲门。 缝隙中的微光:独立开发者的金矿 并非每一个市场缺口都会引来模型构建者或科技巨头的觊觎。在商业生态的长尾部分,存在着大量对于风险投资规模而言太小,但足以支撑数百万美元业务的工作需求。 这些利基市场是精打细算、追求精益运营的创始人的乐园。 不妨设想那些占星术、显化或梦境解释的 AI 应用。一个解梦 AI,允许用户每天早上记录梦境,生成基于梦境的 AI 视频,维护某种梦境日记,并随着时间推移揭示某种心理模式,这便解决了一个完整的工作闭环。 用户当然可以将梦境讲述给 ChatGPT,它甚至能保存历史记录。但一个专用的应用程序可以构建特定的字段(如反复出现的人物、地点、事物、主题等)来结构化地捕捉梦境,并能以通用聊天机器人无法做到的方式与睡眠跟踪数据集成。 这样一个利基市场,小到足以避开大模型的战略雷达,却又大到足以维持一个盈利丰厚的独立业务。 当模型构建者和传统巨头纷纷入局,这场“套壳”辩论中的现有玩家面临着战略抉择。那些能够在模型构建者的竞争风暴中幸存下来的企业,往往具备两个关键特征。 第一,即便不拥有模型,也必须拥有结果的主导权。 那些已经嵌入用户工作流的应用程序(如 Gmail/日历、Sheets、EHR/EMR、Figma)无需培养新的用户习惯。从零开始构建这些平台,远比在现有平台上添加 AI 能力要困难得多。 当这些应用程序将操作直接输送到专有的记录系统中(控制日历事件、提交索赔、创建采购订单等)时,“完成”这一动作就发生在巨头的环境内部。此时,AI 只是现有工作流的一个输入,而非替代品。 第二,成功的幸存者将从客户使用中构建专有数据。 用户的每一次修正、每一个边缘案例的处理、每一次批准以及所有的人类反馈,都将转化为训练数据,随着时间的推移不断打磨产品——这是前沿通用模型无法触及的宝贵资产。 Cursor 虽然并非传统巨头,且依赖外部模型,但它正计划通过捕捉开发者的行为模式来竞争。正如其 CEO Michael Truell 在采访中所言:捕捉用户数据并反馈给产品,这才是真正的可持续优势。 这种动态与 90 年代末和 2000 年代初的搜索大战有着异曲同工之妙:只有通过用户的点击和交互行为,才能真正理解用户的意图,从而优化产品。 回首这场关于 AI 套壳的争论,批评者与捍卫者各有理据,却也都失之偏颇。 批评者是对的,许多缺乏防御性的套壳应用终将随着平台功能的吞噬而灰飞烟灭。 捍卫者也是对的,每一家成功的软件公司,本质上都在“包裹”着某些底层技术。 但真正的洞见往往隐藏在两者之间。 即便一个新的应用程序始于“套壳”,只要它能栖息于用户实际工作的场景之中,能够将数据写入专有的记录系统,能够构建专有数据并从使用中不断学习进化,或者在巨头捆绑该功能之前抢先占领分发渠道,它便具备了长久的生命力。 更为重要的是,那些在竞争逼近时仍能迅速迭代、持续交付解决用户痛点功能的“套壳”产品,将极难被击败。正是这些特质,划清了昙花一现的“功能”与基业长青的“产品”之间的界限。
谷歌重回铁王座!Gemini 3吊打GPT-5,奥特曼发信承认技不如人
【新智元导读】两年时间,谷歌从被OpenAI按在地上摩擦,到用Gemini 3.0 Pro把「落后」两个字彻底撕碎,狠狠甩了奥特曼一脸。AI江湖的王座,谷歌终于还是坐实了! 最近谷歌的Nano Banana Pro和Gemini 3,大家都玩嗨了吧~ 就连奥特曼都在全员信中承认,谷歌已经「反超」。 可以说,年底这波大招,成功地「让谷歌再次伟大」! 尤其是Nano Banana Pro展现了生成式AI技术的重大突破。 网友用Nano Banana Pro制作的梗图 所有人都赞不绝口,很多大佬都成了自来水,比如Shopify的CEO直夸Nano Banana Pro简直疯狂! 谷歌这把王座,基本是坐稳了。 回看这个11月,全球科技格局经历了一场剧烈的板块漂移,准确地说,是在谷歌和OpenAI之间。 两家产品都是密集发布,GPT-5.1、Gemini 3,你方唱罢我登场。 在经历了长达三年的被动防御战,谷歌以一种近乎挑衅的自信姿态重回人工智能霸主的地位! 上个月,作为对手的奥特曼告诉OpenAI的同事们: 谷歌最近在AI方面的进展可能会「给我们公司带来一些暂时的经济阻力」。 所以,谷歌的Gemini 3和Nano Banana Pro为何能够突然断层一样领先? 是因为自研TPU带来的算力扩充,还是谷歌掌握了全新的AI技术?或许都有,但在社区的讨论中,一种最可能的底层原因开始浮出水面。 谷歌的创始人放弃在私人小岛度假,并且重回AI第一线,重启「创始人模式」。 谢尔盖效应:创始人模式拯救谷歌,并带来Gemini 3.0 身价千亿创始人 亲自下场修配置 如果说劈柴是谷歌AI转型的执行者,那么联合创始人谢尔盖·布林(Sergey Brin)的回归则是这场变革的精神图腾。 据外媒报道,布林早已重返谷歌山景城总部。 他并没有选择坐在高管套房里,而是直接入驻了被称为「Building 43」的工程中心。 X的网友将布林的回归定义为:谷歌在一年内从「远远落后」到「轻松称霸」。 这个观点引发了社区广泛的讨论! 网友迅速从嗨到不行的状态立马上升到哲学层面:谷歌怎么一下子能做出两个这么厉害的产品? 一个观点是,谷歌在技术上从未落后,但是谷歌得了一个病:「大公司病」。 OpenAI作为创业公司,加上奥特曼的激进战略,OpenAI一直敢于发布产品,即使市场认为这个产品并不完美。 而布林的回归和影响力,正是打破了谷歌的这种僵局。 这充分展示了强大领导力的重要性。 甚至有网友认为,如果不是创始人打通了谷歌部门之间的壁垒,Gemini 3或者Nano Banana Pro并不会以「全面出击」的方式上线。 作为谷歌的创始人和图腾人物,谢尔盖放弃退休后在私人小岛享受生活。 而是脚踏实地的重返硅谷,拯救谷歌。 布林的回归不是为了发表愿景演讲,而是为了写代码。 据说,他回到谷歌后提交了多年来的第一个CL(Changelist,谷歌内部的代码修改请求),这一行为在工程师内部产生了地震般的效应: 如果身价千亿的创始人都在修补配置文件,那么任何产品经理都没有理由以「流程」为借口阻碍发布。 布林的存在直接催化了Gemini 3项目的加速,他专注于解决模型在长逻辑链推理上的「长尾问题」,这是之前职业经理人们因追求短期指标而忽视的领域。 很多网友表达了类似的看法。 谷歌太强,也太大,它得了大公司病,到处是繁文缛节。 但布林的回归,让谷歌再次成为一家AI时代的「创业公司」。 创始人的回归,不仅重塑了文化。 有网友说,谷歌将所有人工智能相关工作整合到哈萨比斯旗下的DeepMind也是至关重要的一步棋。 这里就有人问了,创始人虽然具有图腾般的象征和号召力,但是他有实权吗? 最有名的独立开发者levelsio给出了答案: 谢尔盖·布林与拉里·佩奇仍共同持有Alphabet的股份。 更重要的是,他们共同持有87.4%的B类投票股,这赋予了他们51.4%的总投票权 想象一下,当谷歌的官僚体系(他们确实存在不少)试图阻碍你时,有谢尔盖站在你这边——只需给他发条消息,就能获得通行许可。 这相当于获得了一张创新的通行证:你可以自由创造任何产品、发布任何功能、推出任何项目,几乎不受限制。 这让谷歌重新像一家小型初创公司那样运作,我认为这正是他们再次取胜的原因。 虽然这波谷歌有望重夺王座,但是在此前面对OpenAI时,谷歌一度掉以轻心。 拉响红色警报 AI部门紧急重组 起初,ChatGPT刚出来时,谷歌并没有放在眼里—— 这不就是我们自己玩过的LaMDA吗? 那个内部跑过、甚至把一个工程师忽悠到以为它有意识、但死活没敢放出来的生成式AI聊天机器人。 谁也没想到,ChatGPT眨眼间就成了史上增长最快的消费级产品,甚至还能替代搜索引擎拿来查资料、做研究。 这时谷歌才反应过来:坏了,真要出大事了。 虽然没人正式喊,但公司里实质上已经「code red」了。 于是,谷歌赶紧把自家两个最强的AI实验室缝在了一起——谷歌DeepMind由此诞生。 从追赶到碾压,谷歌王者归来 这次合并把DeepMind在强化学习、神经科学启发AI上的深厚积累,和谷歌Brain在大规模机器学习系统上的优势完美结合,直接加速了顶级模型的研发。 Gemini正是合并之后,第一个落地的大项目。 它从设计之初,便坚定地走上了原生多模态路线,而不是在单模态模型上后期缝补,从而彻底避开了GPT-4等竞品的后天短板。 同时,也完全由谷歌自研的TPU进行训练。 2023年12月6日,第一代Gemini正式发布。 Gemini 1.0共有三大版本:Gemini Ultra、Gemini Pro、Gemini Nano,其中Pro和Ultra支持最长32k token上下文。 作为当时谷歌最强大的模型,Gemini Ultra在MMLU拿下90.0%,数学(MATH 53.4%)和视觉问答等多项榜单碾压GPT-4。 2024年2月15日,Gemini 1.5发布。 上下文窗口直接拉到100万token(Pro),性能追平甚至超Gemini 1.0 Ultra,但算力需求更低。同时,新增Gemini 1.5 Pro和Gemini 1.5 Flash。 2024年6月,谷歌再次将Pro的上下文窗口,提到了惊人的200万token。 2024年9月24日,Gemini 1.5 Pro-002和Flash-002上线,更成熟、更便宜。 2024年12月11日,Gemini 2.0亮相,主打「agentic」能力,原生支持实时音视频流,新推出Multimodal Live API。 2025年2月,谷歌带来了更快Flash-Lite和Pro Experimental,并且还新增了Thinking Mode——推理过程完全可见。 2025年3月25日,Gemini 2.5以Pro Experimental首秀。 谷歌称,这是迄今最聪明的模型,内置超强推理、编程、多模态复杂任务能力无敌。 2025年6月17日,2.5 Pro与Flash全面开放,支持企业级高吞吐。 2025年10月7日,Gemini 2.5 Computer Use上线,专攻浏览器操控,在手机UI控制上也极具潜力,把整条产品线的智能体能力又拉高一个台阶。 2025年11月18日,全新亮相的Gemini 3.0 Pro和Gemini 3.0 Deep Think,直接成了2025年11月最猛的现役模型。 一上线,Gemini 3.0 Pro就在20个基准测试里狂砍19胜,把一众大模型按在地上摩擦。 尤其是在Humanity's Last Exam上,它凭借着41%的准确率把OpenAI的GPT-5 Pro(31.64%)打得满地找牙。 模型核心设计原则 正如前面提到的,Gemini全系列从零开始联合训练,原生多模态,训练数据直接覆盖文本、图像、音频、视频,能轻松处理各种模态混排输入输出。 这种天生多模态设计彻底甩开后期改造的老路子,自然涌现出了跨模态推理能力,比如边看视频边回答文本问题。 架构采用仅解码器Transformer,加入多查询注意力等优化,优先保证泛化能力而非堆砌专用编码器。 效率方面,第一代采用分层设计(Ultra极致能力、Pro平衡、Nano/Flash低延迟设备端)+ 混合专家(MoE)稀疏激活,只点亮当前输入需要的子网络,训练推理都省算力。 Gemini 1.5及2.5则进一步用稀疏MoE Transformer,把上下文窗口标配做到100万token,几小时视频也能轻松吃下。 CEO也有功劳? 除了创始人回归,谷歌本身内部的快速迭代。 很多人也忽略现在CEO 劈柴的能力。 正如很多人在3年前将谷歌的落后归咎于劈柴,却不敢承认,正是劈柴让谷歌重回正轨,并完成对OpenAI的超越。 劈柴在2015年接任CEO时,被视为硅谷最完美的职业经理人:温和、外交手腕高超、善于达成共识。 在移动互联网的红利期,这些特质确保了谷歌这艘巨轮的平稳航行。 然而,当2022年AI军备竞赛爆发,这种「和平时期」的领导风格迅速成为众矢之的。 但今天外媒BI的一篇文章,深入分析了劈柴在谷歌这波逆袭中扮演的重要角色。 像Gemini 3这样强大的产品需要多年时间、大量技术研究和底层架构才能实现。 谷歌在这方面已深耕许久,正是因为劈柴推动公司转向「AI优先」理念也已近十年。 如今这些努力终于结出硕果。 背景故事: 2017年,谷歌的汉堡emoji把奶酪放在肉饼下面,瞬间全网炸锅。这直接引发了一场又好笑又撕裂的互联网大战,大家疯狂争论「正确」的汉堡该怎么叠。 皮查伊当时发推调侃:你们要是能统一意见,我就放下手头一切马上修。结果大家真的统一了,Android没几天就更新,把奶酪挪到了肉饼上面。 现在看来,Gemini 3.0也完美遵守了这个「正确顺序」。 算力不够用 容量必须每6个月翻一番 谷歌这波成功,除了在战略和文化上,被「创始人模式」带飞了一波。 但千万不要忽略最根本的原因,谷歌的算力! 即使布林给所有谷歌工程师都打了「鸡血」,没有算力一切都白搭。 这就要归功于谷歌的TPU了。 本月早些时候的全体员工大会上,谷歌AI基础设施负责人Amin Vahdat直接说:公司必须每六个月就把服务容量翻一倍,才能满足人工智能服务的需求。 据CNBC报道,这位谷歌Cloud副总裁还放了幻灯片,上面写着未来4-5年要实现「1000倍」扩展。 支撑这1000倍增长的核心,是谷歌在2025年发布的第七代张量处理单元(TPU),代号「Ironwood」。 这款芯片不仅是硬件的迭代,更是谷歌垂直整合战略的巅峰之作。 千倍扩展的难题 目前AI最大的瓶颈就是英伟达GPU产能跟不上。 几天前英伟达财报电话会上还说AI芯片「卖到断货」,数据中心收入单季暴增100亿美元。 芯片和其他基础设施限制直接影响谷歌新AI功能上线。 11月6日的全体大会上,劈柴举了上个月刚升级的视频生成工具Veo的例子: 「Veo刚出来的时候多令人兴奋啊,如果能在Gemini App里放开给更多人用,用户量肯定爆,但我们就是给不了——算力根本不够。」 虽然哪家AI公司都缺算力,但是相比OpenAI,谷歌TPU正是他们制胜的法宝。 谷歌的「1000倍」算力扩张揭示了一个残酷的现实:AI行业正在经历剧烈的阶级分化。 地主阶级: 拥有吉瓦级数据中心和自研芯片的巨头,比如谷歌。他们制定规则,出租算力,收取租金。 佃农阶级: 依赖巨头基础设施构建应用的初创公司。无论他们的模型多优秀,最终的利润大头都将流向基础设施提供商。 因此,这也是为何OpenAI也想要做芯片的根本原因。 从年初的Gemini 2.5到年底的Gemini 3,如果单从版本号来看,谷歌的行动可以说缓慢至极。 关于GPT-5和Gemini 2.5谁更好用的话题也是经久不衰。 但是随着Gemini 3、Nano Banana Pro的出世,所有人都突然回过神来,谷歌还是那个谷歌,谷歌还是SOTA! 这里面既有创始人放弃私人小岛重回一线的魄力,也有谷歌TPU多年来的厚积薄发。 作为AI领域唯一一家技术全栈的科技公司,让我们期待一下2026年,Gemini 4甚至Gemini 5能否让我们看到AGI的曙光。
谷歌搜索AI模式不再“纯净”,首批赞助广告已出现
IT之家 11 月 22 日消息,科技媒体 Android Authority 昨日(11 月 21 日)发布博文,报道称谷歌已迈出 AI 商业化探索的最新一步,在其搜索服务的“AI 模式”中测试广告功能。 用户格雷格・斯特林(Greg Sterling)在 X 平台发帖,在谷歌的实验性功能平台 Labs 中,进行本地服务查询时率先注意到了广告。 随后,另一位用户布罗迪・克拉克(Brodie Clark)证实,即使在非 Labs 的常规环境中,进行基于服务的查询时也能复现这一情况。这一发现迅速引发了科技圈的关注,标志着此前完全无广告的 AI 搜索体验开始发生改变。 根据已有的截图和用户描述,AI 模式中的广告形式较为清晰。这些广告内容为避免干扰核心信息,被统一放置在 AI 生成回答的底部。同时,每条广告都会带有一个明确的“赞助”(Sponsored)标签,以便用户区分广告与自然的 AI 生成结果。 谷歌发言人表示,目前用户看到的广告属于一项测试,该计划最早在 2025 年 5 月的 Google Marketing Live 活动上就已对外宣布。 该媒体指出,鉴于搜索业务是谷歌最核心的收入来源,将广告整合进新兴的 AI 功能中,是其商业化战略中意料之内的一步。谷歌官方暂未透露关于此项测试及后续推广的更多细节。 IT之家在 AI 模式下以“IT之家”关键词搜索,暂未发现有广告出现:
毫无预兆的,Gartner给大模型开发平台排了座次
文 | 阑夕 千呼万唤始出来,Gartner发布了针对AI应用开发平台的2025年度全球报告,并启用了「魔力象限」(Magic Quadrant)这么一个经典的分类统计法。 在读这份报告之前,不妨先对Gartner做些了解,毕竟,这是一家长期入围标普500的咨询机构,数十年来行业里耳熟能详的那些IT概念——ERP、CRM、大数据——都是由它发明出来的。 就连Gartner的美股代码,都直截了当的设定为「IT」,足见它在业界的江湖地位,以及举手投足的权威度。 「魔力象限」是Gartner代表性的两大分析工具之一,另一个是「技术成熟度曲线」,它们共同构成了Gartner判断企业生态位和产业大趋势的底层逻辑,你们会在各种报告里看到类似的图谱。 作为一家「发报告的」公司,Gartner年赚超过60亿美金,在全球拥有2万多名员工,靠的就是这块金字招牌,非但厂商无法干预排名,连500强集团都会基于Gartner的分析结果来挑选供应商。 而这次的「魔力象限」,终于轮到了AI浪潮里的最核心基建之一:大模型开发平台。 Gartner解释了为何要制作这份的理由——使用AI构建软件已经成为了当代工程师的标配技能,而完善成熟的大模型开发平台,能在最大程度上解决「术业有专攻」的需求,把AI自然嵌入新的开发流程里。 所以达标的大模型开发平台——其实都长在原生的AI云上——必须具备六大硬性条件,即对话助手、智能体调用、多模态功能、支持代码框架、自带基础模型、防护栏。 而在完整筛选下来之后,全球总共只有11个平台能够满足要求——像是甲骨文、英伟达、Meta都无法入围——Gartner将它们放在熟悉的那四个象限里,直观呈现出了市场格局的明确分布: △ 图片来源于火山引擎官网 毫不意外地,全球三大云厂商悉数列为「领导者」象限,兼具长期战略和短期落地的叠加优势,加上一向因为「扮猪吃老虎」而被低估的IBM,组合成了AI云的第一阵营。 这是需要客观承认差距的地方,毕竟去年仅是AWS一家的收入,就超过了中国整个公有云市场的全部产值,就企业级市场的消费规模来说,国产云厂商还有很长一段路要走。 所幸的是。这条路也正开始越走越快、越走越顺了。 到了「挑战者」象限,几乎就由中国公司占满了,火山引擎、阿里云、腾讯云三箭齐发,死咬着「领导者」的象限,其中按点位来看,火山引擎几乎紧挨着象限边界,是国内云厂商里排名第一的身影。 Gartner对「挑战者」的定义是,它们具有强大的项目执行能力,能够跻身成熟市场里的主流供应商,但可能缺乏高价值主张的愿景,如果战略有所突破,「挑战者」最有机会转化为「领导者」。 相比之下,剩下的「远见者」和「细分者」两大象限就显得捉襟见肘了,有点还没有完成升级的剩余玩家味道,前者只有CoreWeave一家,虽然业绩不错,但从挖矿投机商「撞大运」赶上这波AI大浪、靠着提前囤卡拿到了大笔订单,但基本没有更大的想象空间了,只能在存量市场里巩固优势。 而OpenAI的上榜本身就已经很意外了,它在基础模型和消费级应用等领域的成就毋庸置疑,但AI云⋯⋯只能说在Gartner看来,OpenAI很有自建SaaS的野心,而它那高达1万亿美金的数据中心交易构想,也确实需要云业务作为回报路径,所以把OpenAI孤零零的放进了「远见者」象限,并对它实现使命的能力保持有限怀疑。 就这样,一曲英雄曲,道尽江湖事,靠着横竖两条线,Gartner把虽然是云服务行业里的新面孔、增长势头却空前生猛的AI MaaS产业,剖析得干干净净,一目了然。 说回国产云厂商的位置,其实火山引擎能够领跑,某种意义上同时叠加了偶然性和必然性。 偶然性在于,自从2022年末ChatGPT上线创造的大模型周期,实际上给了云厂商一次重新洗牌的机会,作为成立时间最晚的火山引擎,这也恰好提供了去增量市场图谋发展的门票。 必然性则是,深植技术基因的公司,一定不会错过技术爆发的机遇,回归同一起跑线并不能影响赛果,真正重要的,还是得看奔跑的具体表现,只有经历了市场检验,火山引擎的禀赋才被全面发掘出来。 就像Gartner在这份报告里写的,受访团队普遍认为将AI能力「内化」到工程系统里,是最优先的考虑事项,从而推动了一个年增长率超过30%的大模型开发平台市场出现。 而这类平台的「好用」与否,取决于上限和下限的组合关系: 上线体现在模型的智能水平和处理效率,太笨的AI,自然无法担当大任,下限体现在用AI开发出来的应用能不能快速落地,门槛要足够低,开发者才有用武之地。 于是,豆包大模型家族和火山方舟服务平台的搭配,直接把火山引擎带到了这场新型工业革命的风口尖上,在视线范围内技压群雄。 △ 图注:2025年豆包大模型里程碑事件 豆包的本事可能知道的人更多一些,作为App的它已经是中国排名第一的原生AI产品,而在开发者市场,豆包大模型也是以一己之力把Tokens价格打入「厘时代」的那个角色,并以全模态、全尺寸的满功率优势,成为了国内使用量最大、应用场景最丰富的大模型。 在接入豆包大模型之后,火山方舟又提供了最优秀的调用环境,时至今日,AI应用的开发早已不是写一个对话助手出来就可以了的市场需求,大量的复杂任务、协作链路以及Agentic AI化的趋势,都让「有好模型」远远不够,「用好模型」才是开发平台的核心竞争力。 Gartner在设计火山引擎的报告篇章里,特意点出了去年开源的强化学习框架veRL,在短短一年时间里就变成了全球产业界和学术界最受欢迎的技术路线之一,「集成到火山方舟后,支持通过低代码的工作流来为客户提供先进的强化学习能力。」 除此之外,火山方舟推出的PromptPilot、Responses API、Viking记忆库等产品都在为开发者「上强度」,可以最大限度的发挥模型潜能,同时并不需要承担过高的适应成本。 工欲善其事,必先利其器,事与器都齐全了,才好全力以赴,火山引擎杀出重围领跑「挑战者」象限的秘诀,就在这里。 如果说大模型带领开发者脱离了手搓代码的过去,那么大模型开发平台就是在让开发者送上一个独立管理整座软件工厂的未来。 在2025年Gartner的调查统计里,高达73%的受访团队表示更愿意把工作环境配置到MaaS平台而非单一AI工具里,毕竟在一个智能体已经学会自主调用工具、跨系统合作的时代,没有企业愿意用生产稳定性去赌一个GitHub星标的活跃度。 再者,时至今日的AI开发流程已经已经超出了单个模型所能掌控的范围,就像OpenAI带着GPT-5孤零零的坐在「远见者」象限,正是整个行业最诚实的写照: 拥有最前沿的模型,不等于拥有企业级交付能力,用户既要一个外挂的大脑,还要一套能为大脑提供指挥躯体行动支持的神经系统。 所以火山引擎才会以如此快的速度坐上全球领先、中国第一的交椅,根据IDC的报告显示,今年上半年,火山引擎占到了中国公有云几乎一半的市场份额,每两个Tokens中就有一个是由火山引擎吞吐的。 卡(算力)、钱(采购)、人(客户)都在流入,还是在今年上半年,中国MaaS市场的同比增速达到421.2%,虽然存在基数较低的影响,但如此猛烈的爆发性,仍然在为AI产品的商业化供给丰沛可见的燃料。 近一年来,MCP和A2A协议的推出标志着大模型行业也提前进入了互联互通时代,协议的本质是权力的让渡——供应商必须放弃封闭生态的幻想,承认客户不会把所有鸡蛋放在一个篮子里。 就像Google捐出A2A,表面上是开源精神,实际上是战略阳谋——当智能体可以跨平台协作,拥有最丰富工具链和操作系统的玩家自然成为事实标准,生态位的竞争先于技术路线的分歧。 在Gartner的预测里,未来的平台格局还会进一步分化: 「领导者」继续堆砌全栈能力,用规模换取持续创新;「挑战者」必须把场景打穿打透,用深度对抗广度;「远见者」需要证明商业化能力,把技术领先转化为市场份额;「细分者」要么被收购,要么在垂直领域活成隐形冠军。 无论如何,技术的浪潮不会停止,但商业的本质不变:为企业创造可衡量、可持续、可控制的价值,那些能在创新与成本之间找到平衡的玩家,才会是最后的赢家。
杭州发“AI开源政策包”!千万级补贴、“喂饭级”场景清单、中国最大开源社区“大本营”就位
智东西 作者 | 李水青 编辑 | 心缘 智东西11月22日杭州报道,今日,中国云谷AI+产业生态创新空间和“魔搭社区”(杭州)开发者中心正式启用。杭州市“AI开源政策包”和杭州市AI场景开放示范“两张清单”在现场发布,新政策推出了“单家企业每年最高补助1000万元”等多项支持。 一系列举措标志着杭州在AI开源生态领域再下一城。尤其是“AI开源政策包”和“两张清单”,对广大AI创业者和开发者来说,如同提供了一份“真金白银的创业护航计划”,以及一张攻略详细的“场景寻宝图”。 首先来看由杭州市经信局发布的杭州市“AI开源政策包”,分为市级政策和区级政策两大部分。 (杭州)市级政策主要内容如下: 1、推动优质开源项目纳入杭州创新产业目录、首版次软件目录。 2、鼓励软件企业面向操作系统、数据库、云计算、大数据、AI、区块链等领域发布基础性、前瞻性的自主技术开源项目,对在开放原子开源基金会托管的孵化期开源项目,给予一次性100万元奖励。 3、每年遴选优秀开源项目和基于开源项目开发的优质原创软件产品给予最高50万元奖励。 4、对模型下载量靠前、模型性能排名持续领先、社区贡献度高的开发企业,按照贡献模型、算子等不同类别,给予最高100万元分档奖励。 5、鼓励政府、国企、事业单位优先使用基于开源大模型的AI解决方案。 7、每年安排一定额度智能券和算力券,支持魔搭社区面向开发者提供免费算力。 8、支持魔搭社区(杭州)开发者中心创建AI产业生态创新空间,最高可获得200万元支持。 9、支持建设开源社区等产业生态的共性平台,按年度对外投入收入的情况给予最高200万元支持。 (西湖)区级政策主要内容如下: 1、对入驻企业办公用房租赁和装修费用给予最高400万元补贴。 2、对有成长性且达到规模以上的AI企业进行阶梯式补助,最高500万元。 3、经省级及以上部门认定的AI领域公共技术服务平台给予每年最高500万元的资金支持。 4、对入驻园区的AI人才给予最高20万元补助。对园区内高层次人才创办的AI企业、平台,给予企业员工住房补贴名额。 5、对购买或租用智能算力服务开展大模型训练、推理、应用探索的企业,给予每家企业每年最高1000万元的支持。 6、对园区内企业进入国内有关重点开源社区版本代码贡献排名前列的,给予最高500万元奖励。 不仅“给资金”,还“给场景”。由杭州市发改委发布的新一批杭州AI+场景“两张清单”——292项场景机会清单和362项场景能力清单,覆盖了城市治理、社会民生、产业升级三大核心场景,充分体现了杭州“饭喂到嘴边”的营商风格。 场景机会清单为33页,覆盖292项机会场景,包括“湖滨步行街AI黑科技首发街区”、“隐患排查AI大模型”、“人防工程巡检机器人、智算中心巡检机器人”等覆盖各个区、各个行业的机会场景。 292项场景机会截图(部分截图) 完整场景机会清单地址: https://hzscene.cn/ai_opportunity_list.pdf 场景能力清单为47页,覆盖362项场景能力,包括“具身智能与AI配方生成打样流程”、“环境AI助手(EnvAI Assistant)—多源感知与智能管控平台”、“AI资金智能分析装备”、“Souleasy EDU 智慧教学助理”等。 362项场景能力清单(部分截图) 完整场景能力清单地址: https://hzscene.cn/ai_scene_ability_list.pdf 为促进“两张清单”有效转化为合作项目,杭州将构建两个对接机制:一是供需的高效对接,包括组织数贸会、云栖大会、“AI+”产业发展与场景开放对接大会等举措;二是要素精准对接,发挥“杭州E站平台”金融赋能作用对接“投、贷、补、担、保”的全生命周期金融服务。 会上正式启用的“魔搭社区”(杭州)开发者中心,是魔搭社区的首个线下实体空间,首期面积超过1万平方米,通过设置多功能场景,以及引入数据要素服务、应用场景对接、AI硬件开发、模型创新与服务、产品发布与用户验证、具身智能数据采集与训练、开源学习等8个公共服务平台,助开发者实现创意落地的全流程闭环。除了上述进展,共建AI教科人一体化发展高地合作签约同期完成,AI“百模大战”比赛也随之开启。 “魔搭社区”(杭州)开发者中心正式启用 “魔搭社区”(杭州)开发者中心的启用标志杭州在构建AI开源生态上迈出重要一步。阿里云智能集团研发副总裁、大数据和智能实验室负责人叶杰平在此次大会中谈道,魔搭社区秉承“模型即服务”(MaaS,Model as a Service)的理念,将AI模型变为直接可用的服务。 自2022年11月成立至今,魔搭社区汇聚了超12万个开源模型、5500+MCP服务和调试工具,服务了全球超2000万开发者,成为国内最大、全球第二的模型开源社区。经过三年多的发展,包括DeepSeek、腾讯、阶跃星辰、MiniMax、Kimi、上海人工智能实验室等推出的业界头部模型均在魔搭社区率先开源。 以开源生态建设为发展主线,杭州正加快打造具有全球竞争力和影响力的AI创新高地。今年6月,杭州市发布了《杭州市人民政府关于印发杭州市加快建设人工智能创新高地实施方案(2025年版)的通知》,提到到2025年底要实现“全市AI核心产业营业收入超3900亿元”、“全市投向AI的产业基金组建规模突破1000亿元”等目标,并提出了“最高补助5000万”的AI政策20条。(《年营收超3900亿!杭州发重磅AI政策20条:最高补助5000万》) 官方数据显示,2024年杭州市AI核心产业规模达3553亿,目前拥有AI规模以上核心产业企业767家,大模型50款;杭州培育的通义千问和DeepSeek两大基础模型综合性能长期位列全球第一阵营,通义千问衍生模型数量超18万个。
沈向洋:黄仁勋与英伟达受全球追捧,灵巧手是人类最后尊严
作者 | 许丽思 编辑 | 漠影 智东西11月22日报道,今天,一年一度的IDEA大会在深圳举行。这场人工智能盛会由IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋发起,深入探讨了关于AI发展、AI Agent、具身智能、低空经济等前沿技术与热点议题。 沈向洋进行了近3个小时主题演讲,期间发布了多个IDEA研究院创新成果,包括企业决策智能体、数据分析智能体、药物计算发现平台、金融大模型、GPU原生渲染器、视觉大模型、低空管理与服务操作系统等。 想要理解人工智能演进,沈向洋强调,需要在算力、算法和数据之外,增加两个考虑维度:交互与载体。如今,谈大模型总绕不开英伟达CEO黄仁勋,沈向洋打趣说,“黄仁勋每天醒来都在笑,整个世界的人在给他捐钱。。” 在具身智能方面,沈向洋对格外看重灵巧手,强调,“人手的魔法在于它手既能搬箱子,也能穿针引线。所以,灵巧手可以说是人类在人工智能面前,最后的尊严。”他还提到去年与黄仁勋的对谈时,黄仁勋说,“具身智能是粤港澳大湾区非凡的机遇。” 据了解,IDEA大会于2021年首度举行,汇聚产学研企界领袖,致力构建一个凝聚数字经济多方力量的国际化平台,是粤港澳大湾区最具影响力的科技盛会之一。 一、AI发展路线五大维度:算力算法与数据之外,还要关注交互和载体 除了广为人知的了算力、算法、数据这三要素之外,沈向洋提出,未来理解AI的演进还必须加入两个维度:交互和载体。 1、算法范式 算法是AI发展的核心支撑。AI的算法演进有三个阶段:监督学习构筑表达与生成能力,强化学习引入因果与执行,自主学习迈向高层认知。技术本身从Transformer架构出发,向更高效、更稳健的体系演化;从自回归到扩散,再到混合式生成方法,这些变化共同推动智能的表达边界不断拓展。 2、智能载体 AI的载体发展遵循从抽象到具体、从虚拟到物理的扩展路径:从早期的语言模型,逐步演进到涵盖声音、图像、视频甚至4D内容的多模态模型;在此基础上,融入物理世界规律的世界模型成为新方向,而当世界模型落地到机器人、自动驾驶车辆、飞行器等物理实体时,便形成了具身模型。 “从载体的这个维度来看,AI很快就会帮助我们从理解这个世界,走向改变这个世界。”沈向洋说。 3、交互范式 过去七八十年,计算机科学的一条主线就是人机交互方式的演进:从命令行,到图形界面,到互联网搜索,再到推荐系统。AI的到来,则带来了自然语言和多模态的交互。 早期的第一代大模型,更像问一句答一句的搜索;而近两年的推理模型则让对话成为一个持续迭代的过程:你问、它答,你再追问、它再推理,过程越来越像真实的科研活动。 在他看来,“探索世界就应该是Search less,research more。”未来,AI会越来越多地主动提出问题、主动执行任务,但在人机系统中,人仍需在关键节点做决策、做最终判断,以确保AI的行为不偏离边界。 4、计算架构 GPU从2006年作为通用并行计算系统起步,从打游戏到“挖矿”再到支撑大模型训练,如今已成为基础设施。但当前算力需求呈现新变化:推理需求已经远超训练,端侧芯片和强化学习专用芯片的需求也迅速上升。强化学习芯片必须支持高速交互和大规模并行,推理芯片则要做到低功耗、高吞吐。 GPU刺激了深度学习的第一波爆发,但能耗与成本也不断攀升。随着应用多样化,推理、端侧、强化学习等专用芯片不断涌现;未来光子、量子、类脑等也可能在特定领域带来性能跃升。 5、数据 在智能演进的三个阶段,数据扮演不同的角色:在模拟世界阶段,数据是静态教材;在探索世界阶段,数据是动态反馈;在归纳世界阶段,数据是验证假设的证据。 当我们转向强化学习、探索世界时,模型需要的就不再是静态数据,而是带反馈的动态数据。沈向洋用一个朴素的类比强调这一点:“就像骑自行车这件事,你光看书的话不可能会学会骑自行车的。” 从人类数据枯竭到合成数据兴起,再到AI主动探索并获取实验数据,这一过程代表着数据从限制模型能力的约束,逐步转变为推动AI主动学习的工具。 在沈向洋看来,未来AI最强大的能力之一,是能够自己提出假设,并自己收集证据来提升智能水平。在这个过程中,数据和智能是相互推动的。 二、发布金融大模型、GPU渲染引擎等,下个月开源MoonBit agent SDK 合成数据已经成为大模型训练的刚需要素,尤其在小语种、隐私敏感行业、小样本场景等长尾领域,数据稀缺更是主要瓶颈。 成立于2025年的DataArc数创弧光,专注大模型合成数据技术,是IDEA研究院成立以来孵化速度最快的项目,成立不足一年已完成两轮融资。本届大会上,DataArc发布了SynData开源框架。 在沈向洋看来,除了数据层面的机会,模型层面也远不止超大模型这一条路,各类垂直应用场景同样蕴含巨大空间。金融,就是其中的典型代表。 本次大会发布的Quant 5.0,是一个基于金融时间序列的底座大模型。 传统金融投资面临行情预判精度不足、风险管控难度较大的挑战,Quant 5.0融合AI技术,凭借大参数算力支撑及高频数据训练,可支持三类任务:对未来收益和走势的预测,服务投资决策;为交易所、监管机构及机构投资者提供风控能力;为监管与决策提供市场模拟和压力测试工具。 由于Quant 5.0是通用时间序列底座模型,它可以轻松迁移到其他市场、其他资产类别以及其他交易策略上,并通过Agent方式实现策略自动化部署。 现场发布了国内首个提供公共服务的工业级AI驱动GPU渲染引擎SMARAY,在保证高质量渲染效果的前提下,其渲染效率较传统渲染器提升数十至数百倍,且可兼容主流动画特效建模软件,无需改变现有工作流 。 目前,SMARAY已获《流浪地球2》视效制作方More VFX、《哪吒》系列出品方光线动画等头部影视团队项目实践验证。 另外,现场还介绍了IDEA研究院的MoonBit团队的最新成果。MoonBit是IDEA研究院自研的AI时代新编程语言,今年,MoonBit从支持多后端的编程语言,逐步演进为涵盖AI原生工具集的全栈工具链,覆盖WebAssembly边缘计算、C/LLVM系统编程、JavaScript前端开发等全场景,构建起集开发者工具链与智能体开发生态于一体的开发者平台。 今年,MoonBit也开放了全球首个语言原生的智能体开发环境MoonBit Pilot,智能辅助生成MoonBit工具包,可快速扩展MoonBit生态。 下个月,IDEA研究院将正式开源用MoonBit编程语言开发的智能体平台MoonBit agent SDK,支持使用多种编程语言。 截至目前,MoonBit社区用户已从早期的500人、去年的2.6万人,增长到十万级规模;全球贡献代码行数超过1000万行,生态库约3000个。 三、从个体、公司到治理、创新,AI Agent带来了哪些影响? AI Agent是大模型落地的重要产品载体,也是人工智能行业从业者多年来关注的核心方向。进入2025年,全球尤其是中国的AI Agent创新全面爆发。沈向洋从四个层面来梳理AI Agent的影响:个体、公司、治理与创新。 1、个体 AI Agent带来了生产力的巨大提升,彻底改变了传统工作模式,一个人加上一堆AI Agent,就会成为所谓的超级个体。这种生产力的飞跃直接推动了生产关系、组织机构、分工形式与协同方式的变革,而成为超级个体的关键在于是否愿意学习和运用AI Agent。 同时,沈向洋觉得,未来CEO可能不再是单纯的Chief Executive Officer,而更像Chief Entertaining Officer,个体与组织的关系将被重新定义。 2、企业决策 沈向洋判断,未来越来越多企业将成为“AI Native公司”,从组织结构到业务流程,从供应链到市场拓展,都围绕AI重新设计。 为此,IDEA研究院推出了KAIROS决策智能体,核心就是让AI真正进入企业的决策链路。 其能通过三大能力打造“决策-执行-反馈”闭环:一是借助通用大模型语言理解能力,结合企业数据与经验,精准解读业务需求;二是针对复杂决策提供更优的端到端优化方案;三是通过自动编程、代码生成实现模型自适应演变,降低维护成本。 落地场景中,KAIROS应用覆盖物流、仓储、港口、零售等多场景,可支撑规划类、调度类、预测类等全类型决策。 3、政府治理 在政府治理体系中,统计部门是一类关键角色。长期以来,统计局的工作人员需要“肩挑手扛”:去各处找数据、整材料,为领导写报告。而大模型的发展,正在推动这项流程走向自动化和智能化。 IDEA研究院去年发布的“经济超脑1.0”已能看懂数据、理解背后逻辑,而升级后的“经济超脑2.0”,能够构建全流程自动化数据分析体系,依托Agents驱动的智能框架,实现效率提升10-30倍,关联模糊需求与业务指标、自动拆解宏观分析需求,让数据分析回路从被动调试升级为主动修正,推动实现数据驱动的智能化决策,释放数据资产价值以形成更优政策建议。 4、科学创新 AI Agent对未来创新的影响,是沈向洋最为看重的。 去年,IDEA研究院已发布分子、抗体、反应、药物文献四大化学大模型;今年取得更大突破,研发的LightUnity模型用于创新药发现。 在此基础上,IDEA研究院发布Mozi平台,以“Agent+Toolbox”模式,结合多智能体架构、专家工具箱与自动化流程,解决传统药物早期计算发现中工具误导、研发黑箱、工作流瓶颈等痛点。 四、举办全球灵巧手+即时配送赛事,推出全新视觉大模型 不久前,传闻特斯拉人形机器人因手部“难产”而被迫缩减生产计划。沈向洋表示,在具身智能的众多攻关点里,灵巧手是技术复杂度的珠峰。 他,今年的深圳智能机器人灵巧手大赛,是国内首个将灵巧手技术与即时配送场景结合的赛事。从取包裹、拆包裹、折纸箱、到按电梯,以场景为旗帜,以需求为标尺,牵引技术前进的方向。 在具身智能技术发展中,视觉感知是人工智能与物理世界交互的核心基础,更是赋能“感知-决策-执行”闭环的关键支撑。一年前,DINO-X视觉大模型诞生,以开放世界检测能力,“让机器看懂物理世界”。 今年IDEA大会上,DINO-X Grasp发布,实现世界开集2D认知理解、物体级抓取位姿预测、物体级3D形状感知,打造“更强”具身大脑。 沈向洋总结,过去一年,IDEA研究院在具身智能方面,新成立了三个中心: 福田实验室:这是由粤港澳大湾区数字经济研究院(IDEA)与腾讯合作共建的省级实验室,旨在通过跨领域合作提升技术研发能力,聚焦人居环境具身智能领域的研究。福田实验室联合腾讯Robotics X实验室推出的Tairos具身智能开放平台,是一款以模块化方式提供大模型、开发工具与数据服务的具身智能软件平台。 国际先进技术应用推进中心(深圳):聚焦人工智能、具身智能、低空经济等重点领域,依托粤港澳大湾区数字经济研究院建设的先进技术应用推广平台。 深港高等研究交流中心(SHARE):旨在依托深圳与香港的区位优势和大湾区的优质科研教育资源,搭建跨学科科研合作与国际交流平台。中心聚焦人工智能赋能的前沿科学问题,推动其在生物医药、材料科学、低空经济、无线通信、具身智能等关键领域的应用与突破。 会上,孵化自IDEA研究院的视觉大模型企业视启未来还宣布完成近亿元天使轮融资,该团队创始人兼CEO张磊曾任微软总部及亚洲研究院首席研究员。 低空经济方面,大会发布的OpenSILAS 2.0,通过可进化框架解构六大核心技术,依据城市与空域复杂度构建产品矩阵,实现“规划—运行—监管—服务”全环节管理与全流程服务,以分级化、模块化提供可落地扩展方案。 结语:“攀登珠峰”VS“修公路”,要走适合自己的AI发展之路 回到沈向洋反复提到的智能演进曲线,今天看到的,不只是一个个炫目的模型和 Demo,而是新一轮技术范式刚刚起步的信号。算力、算法、数据在加速迭代,交互和载体在重塑人机边界,AI 正从“问一句答一句”的工具,走向能与人类协同推理、共创知识的长期伙伴。 当被问及关于中美AI发展的差距时,沈向洋觉得,AI发展至少可以理解为两个维度:一条是“攀登珠峰”,以巨额投入追求最强模型;另一条是“修公路”,让更多人和更多场景用得上AI,让模型在更大范围内规模化应用,在每件事情上,都要走适合自己的发展之路。 未来,随着技术迭代与场景深耕的双向赋能,AI将更深刻地融入千行百业,开启智能社会的全新阶段。
澳大利亚将禁止机舱内使用充电宝:不会给予任何豁免
快科技11月22日消息,据媒体报道,澳大利亚几家主要航空公司宣布,将于下月开始陆续禁止在航班上使用充电宝或为充电宝充电,以降低机舱内火灾风险。 同时强调,这些安全措施将适用于所有国内和国际航班,且不会给予任何豁免。 澳洲航空公司及其旗下的澳航支线、捷星航空宣布将于12月15日起实施禁令,而维珍澳大利亚航空公司的禁令将从12月1日起执行。 根据新规,旅客在机舱内只能使用座位上的电源或USB接口为手机、电脑、耳机等电子设备充电,但不能为充电宝充电,也不能使用充电宝为电子设备充电。 航空公司还要求旅客必须把充电宝放在身边、前方座位下方或前方座椅口袋内等易于拿取的位置。 澳航系列航空公司和维珍航空还宣布,没有任何充电宝可以豁免,有医疗需求的乘客仍可携带电池驱动的医疗设备登机,但不能在机上为电池充电。 目前国内依然维持着3C标识的新版规定,“自6月28日起,禁止携带没有3C标识、3C标识不清晰、被召回型号或批次的充电宝乘坐国内航班。” 根据民航局规定,旅客为个人自用内含锂或锂离子电池芯或电池的便携式电子装置(手表、计算器、照相机、手机、手提电脑、便携式摄像机等)应作为手提行李携带登机,并且锂金属电池的锂含量不得超过2克,锂离子电池的额定能量值不得超过100Wh(瓦特小时)。 超过100Wh但不超过160Wh的,经航空公司批准后可以装在交运行李或手提行李中的设备上。超过160Wh的锂电池严禁携带。
不同颜色的USB接口都有什么含义 你知道吗
USB接口大家都用了很多年了,对它也是无比熟悉了……了吧?你有没有注意到这个接口居然还有好几种颜色? 从常见的黑色、白色,到特殊的蓝色、红色,再到相对小众的黄色、紫色、绿色,这些颜色并非单纯的装饰,而是代表着不同的含义。 白色USB接口通常是早期的USB1.0/1.1,理论传输速率仅为12Mbps,早已经被淘汰。虽然速度太低,但是相对于PS/2设备真正的实现了热插拔和即插即用。 最常见的是黑色USB接口,多对应USB2.0标准,理论传输速率为480Mbps,属于低速接口,因此常用来连接键盘、鼠标、游戏手柄等设备,供电输出通常在5V/0.5A左右,仅能满足小型设备的基础供电,目前在台式机主板上仍有服役。 蓝色USB接口是USB3.0的标志性设计,接口旁边通常印有“SS”标识,此时理论传输速率达到5Gbps,通常用于移动硬盘、U盘等设备,供电输出达到5V/0.9A,能为早期的一些手机、平板电脑充电。 蓝绿色/浅绿色是USB3.1的颜色,但并不常见,尤其是现在改名叫USB3.2 Gen1后倒是经常使用USB3.0的蓝色接口,理论传输速度最高达到10Gbps,部分还支持USB PD快充协议,充电功率可达60W以上,甚至能为轻薄笔记本供电。 红色USB接口通常为更高速的USB3.2 Gen2标准,传输速率高达20Gbps,因此常用于现在主流的移动固态硬盘PSSD,支持USB PD快充协议,甚至还支持关机状态下充电。 上述颜色的基本都是为数据传输功能,还有一些比较另类的颜色,主要是和供电有关系了。 黄色USB接口的核心特性是“关机充电”,常见于一些笔记本、显示器上,通常基于USB2.0或USB3.0标准,但供电设计更特殊,即使处于关机、休眠状态,依然能保持5V/2A左右的输出,旁边往往还有充电的符号标识,可给手机、耳机充电。 绿色USB接口通常被用于高通的QC快充接口,通常只能在充电器上看到;橙色USB接口通常被用于PD快充接口,和绿色一样基本只能在充电器上看到;紫色USB就比较罕见了,通常出现在华为的充电器上。 USB接口的颜色可以说是快速识别性能的“视觉语言”,但并不是标准和推荐的方法,USB3.0规范中也没有规定USB接口必须使用什么颜色,厂商们使用其他颜色可能只是为了更直观地和2.0接口作区分,而且通常比较任性,例如很多主板的USB3.0接口就是黑色,有的USB3.2 Gen2也可能是蓝色,而有的主板用橙色USB只是说明该接口是用来升级BIOS。 因此不要光看接口的颜色,还要看旁边的标识,大家学废了么?
谷歌攻破苹果壁垒!AirDrop原生互联来了,米OV狂喜
终于,谷歌也要“兼容”苹果了。 如果你是雷科技的忠实读者,那么估计已经看到过好几篇类似的文章了,毕竟在谷歌之前OPPO、小米、vivo等品牌都已经做过类似的宣传,甚至还作为一度作为主要卖点来宣传。 不过,若是你以为这又是一次类似的三方兼容,那就错了,因为谷歌这次在安卓系统里实现的是真正的“兼容”,而非利用三方软件的“强制兼容”。估计有人要嘀咕了:“有区别吗?不都是兼容?”答案是有且很大。 苹果这次要被谷歌亲自“强兼”了? 老实说,虽然此前就有消息称谷歌正在安卓系统上尝试攻破苹果的隔空传送等功能,但是一直也只是传闻而已。更何况作为手机操作系统的“另一极”,而且谷歌出手撮合安卓和苹果,总有一种谷歌把自己给“绿”了的感觉。 图源:推特 不过,当谷歌在昨天发布的系统更新公告里,明确写着“Pixel 10、Pixel 10 Pro、Pixel 10 Pro XL及Pixel 10 Fold新增‘快速分享’功能”时,小雷就知道该来的总会来的。这个功能的描述并不复杂,就是以上机型可以直接发现附近开启了airdrop的苹果设备,不管是iPhone、iPad还是MacBook。 在发现airdrop设备后,只需要简单的蓝牙配对后就可以像苹果设备一样,借助Wi-Fi网络快速传输照片、视频以及文档等内容,据称传输速度与苹果设备之间互传时几乎一样。 而且,这个互联并不需要下载第三方应用,使用起来的体验也更接近原生airdrop,这可比国内厂商折腾的那套互联方案方便多了。因为不管是小米、OPPO还是vivo,实质上都是用一套“自研跨端互传软件”实现的跨生态互传,而非真正的“兼容”airdrop。 喜欢折腾手机的朋友,估计都用过Local Transmission,或者茄子快传一类的互传软件,米OV的“airdrop”其实与这类软件没有区别,只不过是做了系统级的适配,将其与系统自带的互传功能融合,这时候只要在苹果端下载支持私有协议的软件,那么就可以借助软件的中转进行文件传输。 这也是为什么在其中一家提出互传兼容的概念后,其余厂商可以在短时间内跟上,因为软件级兼容并不需要对苹果端的算法、软件进行破解,只需要让自己的互传软件上架app store就行了。 图源:app store 当然,后续的更多适配,比如AirPods、Live Photo等还是下了不少功夫的,不过这些适配更多是对文件格式的兼容,也没有过度涉及算法层面的破解。如果要说与谷歌破解airdrop最接近的功能,其实是适配AirPods,解决了AAC解码器和蓝牙稳定性等问题,在很大程度上保证了AirPods连接安卓手机的体验。 作为对比,谷歌的“兼容”一直难产,就是因为他们选择了最难的方式:破解airdrop并反向兼容,实质上就是让苹果设备误以为对面是“自己人”,进而开放了airdrop的互传权限。 因为无法解决Apple ID的认证问题,所以只有在“对所有人开放10分钟”的模式下,谷歌的破解版airdrop才能发现苹果设备并建立连接,不过也比其他的第三方软件适配要来得方便。 可以说是安卓生态距离苹果生态最近的一次。 苹果的封闭生态一夜被攻破了? 不过该功能目前仅适配谷歌Pixel系列的最新型号,其余型号的适配还要等待后续的更新,只是从谷歌的描述来看,可以知道这个功能的破解并不依赖于新一代芯片或是特殊硬件,只需要破解算法并匹配硬件的握手协议即可。 如果说苹果对此前米OV的“软件级兼容”还能接受的话,谷歌的“系统级兼容”还能否让苹果睁一只眼闭一只眼就不好说了。因为谷歌是有能力在整个安卓生态中推动功能普及的,一旦谷歌将破解airdrop的能力嵌入安卓系统,那么也意味着其他所有安卓手机都将具备相同的能力,这可就不是小小的Pixel用户量可以相比的。 图源:雷科技 谷歌此举可以说是真正在挑战苹果的生态优势,对于用户来说,这是第一次能在不借助第三方App、不登录云服务的情况下,从安卓直接把照片、视频等内容发到隔壁的iPhone里,而传输速度、延迟、稳定性也明显优于过去那些“能用但不稳”的方式。 更重要的是,这是安卓官方第一次站在生态层级与苹果正面对齐,让安卓厂商无需再自建各家的互传联盟,这也意味着小米、OPPO、vivo等国产品牌的互联生态有了统一的基础(不过考虑到生态维护等问题,真正的互联互通阻力其实并不在算法和系统上)。 你可以认为,谷歌真正在打算用一个统一的底层标准,将安卓与其他的生态链接在一起,这套标准并不只适用于苹果端,同样会可以被用在其他操作系统上,比如Windows,比如鸿蒙OS。 不过,看到这里估计就有不少人要好奇了,苹果会反制吗?毕竟苹果在生态策略上最核心的一条原则,就是尽可能把最佳体验锁在自己的设备内部,让用户因“生态协同体验”而持续留在iPhone体系里。 图源:苹果 AirDrop、Handoff、iMessage 这种能力,本质上都是苹果封闭策略的支点,谷歌的做法如果被苹果视为“破坏封闭生态”,苹果未来极有可能通过协议层限制、设备验证机制、传输权限校验等方式进行反向封堵,从而保证iOS与Mac体系依然是体验最佳的“闭环”。 类似的情况在过去并非没有发生过,苹果其实曾多次对第三方互联方案进行限制,因此谷歌能推动这套功能走多远,现在还很难下结论,或许苹果如今又有了不一样的想法也说不定呢? 互融才是未来,米OV之间也要打通? 但无论苹果是否会限制,雷科技认为生态互通注定会成为智能设备发展的趋势,因为在过去十年里行业已经证明,大部分用户并没有兴趣研究各种协议和格式。他们更希望手机、平板、电脑、耳机之间可以互通有无,自己不需要为了更好地体验而被绑死在某个品牌上。 而且,类似的需求在AI时代其实更加突显,因为在许多AI生态的宣传里,跨端协同将成为体验升级的重要一环,如果谷歌能够以此为契机串联起不同的生态,那么无疑将让用户的AI体验得到显著提升。 比如将安卓旗舰派上的照片从安卓传到iPhone后,可以用iPhone自动生成回忆影片,或者直接远程投送到Windows、MacBook上进行剪辑和编辑,再或者把录音在安卓上打开但在Mac上自动转文字、AI总结,以此来充分利用各个AI生态的各自强势能力。 图源:苹果 如果这个想法实现,那么移动端的用户就能享受到真正无感的设备互联,将极大地提升用户体验,也将让安卓成为整个移动生态的新核心。因此,有网友认为谷歌此次的跨平台突破,某种意义上是在推动整个行业朝“设备平权”的方向演进,这比简单实现一个传输功能要更有价值。 而在安卓这边也是如此,如果能够让米OV的互联生态“被动”打通,那么是否会倒逼品牌推出更具有竞争力的周边设备呢?毕竟在基础体验都能得到保障的情况下,更具性价比的配置、更流畅的UI就成为在市场中胜出的关键。 不管怎么说,当安卓系统第一次以“原生形态”触及苹果生态的核心能力,两大系统之间的隔阂终于真正开始出现松动迹象,对于消费者,这意味着未来不再需要为一个封闭生态付出额外成本,而且可以得到很多额外的支持和体验。 但是对于苹果而言,这也意味着生态隔离墙第一次在系统级出现裂隙,甚至这道裂隙还有进一步扩大的迹象,苹果是否会将其重新封上,就看谷歌与苹果的博弈了。不过,至少从目前来看,苹果似乎还没有什么动作,也许一个移动生态融合的时代真的要到来了。
谷歌再向苹果iPhone发起营销攻势:Pixel才是创新源头
IT之家 11 月 22 日消息,科技媒体 Appleinsider 昨日(11 月 21 日)发布博文,报道称谷歌发布了一则全新广告,再次向苹果 iPhone 发起营销攻势。 IT之家援引博文介绍,这则广告巧妙地借用了知名音乐剧《Wicked》(魔法坏女巫)的创意,将自家的 Pixel Pro 10 手机塑造成苹果 iPhone 17 Pro 诸多新功能的“幕后启发者”,以此强调其创新领先地位。 在这部长达 60 秒的广告片中,两款手机被赋予了角色。其中,紫色的 iPhone 17 Pro 化身为剧中善良的“好女巫”Glinda,而绿色的 Pixel Pro 10 则扮演了被误解的“坏女巫”Elphaba。广告借用原作剧情,描绘了 iPhone 对 Pixel 的“感激之情”,并直言 Pixel 的创新功能为自己带来了启发。 通过这段歌舞,谷歌传递出其核心信息:Pixel 手机是许多创新功能的首创者,而 iPhone 则扮演了模仿与跟随的角色。在广告中,谷歌具体列举了三项其声称由 Pixel 率先推出的功能: 首先是“通话筛选”(screening phone calls),该功能可以帮助用户过滤骚扰电话。 其次是“移除照片中多余图像”(removing unwanted images from photos),即用户熟知的“魔术橡皮擦”功能。 最后,广告还提到了构建一个可以进行真实对话的 AI 助手。 谷歌暗示,这些如今广为人知的功能,均由其引领,之后才被 iPhone 所采纳。 该媒体认为这种“碰瓷式”营销已成为谷歌的常规操作。例如,谷歌曾在 2023 年推出过一个名为《永远的好手机》的系列广告,以幽默方式描绘 iPhone 14 Pro 与 Pixel 手机化解竞争、成为朋友的故事。这些广告通常聚焦于功能对比,或直接批评 iPhone 在某些方面(如对话式 AI)的缺失。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。