行业分类:
加载中...
头条分类:
加载中...
英伟达推Cosmos世界基础模型,为加速物理AI造利器,Omniverse朋友圈再更新
作者 | ZeR0 编辑 | 漠影 智东西3月19日报道,英伟达今日宣布推出全新NVIDIA Cosmos世界基础模型(WFM)的重大更新,该模型引入了开放式、可完全定制的物理AI开发推理模型,可实现物理AI的预测、可控世界生成和推理,让开发者以前所未有的方式控制世界生成。 1X、Agility Robotics、Figure AI、Foretellix、Skild AI、Uber是首批采用Cosmos的企业,可更快、更大规模地为物理AI生成更丰富的训练数据。 英伟达创始人兼CEO黄仁勋认为,Cosmos世界基础模型是物理AI的一项重大突破,为物理AI带来了一个开放式、可完全定制的推理模型,给机器人和物理工业领域的突破性发展带来了机遇。 同时,NVIDIA Omniverse物理AI操作系统正扩展至更多行业和伙伴。 Accenture、Ansys、Cadence、Databricks、Dematic、Hexagon、Omron、SAP、Schneider Electric With ETAP、西门子将Omniverse与领先的软件工具连接。 Foxconn、通用汽车、现代汽车集团、凯傲集团、梅赛德斯-奔驰、Pegatron、Schaeffler都在采用Omniverse进行工业AI转型。 英伟达还推出了两款由NVIDIA Omniverse和Cosmos平台提供支持的新蓝图,为开发者提供用于机器人和自动驾驶汽车后训练的大规模可控合成数据生成引擎。 四款全新蓝图正在助力机器人工厂和大规模合成数据生成。 一、发布三款Cosmos世界基础模型,加速物理AI的数据管理和后训练 新发布的Cosmos世界基础模型有三款:Cosmos Transfer,用于合成数据生成;Cosmos Predict,用于智能世界生成;Cosmos Reason,用于物理AI的多模态推理。 Cosmos Transfer能够吸收结构化视频输入,如分割图、深度图、激光雷达扫描、姿态估计图和轨迹图等,以生成可控、逼真的视频输出。 该模型可简化感知AI训练,将Omniverse中创建的3D仿真或真值转换为逼真视频,用于大规模可控合成数据生成。 Agility Robotics将是最早采用Cosmos Transfer和Omniverse进行大规模合成数据生成,用以训练其机器人模型的公司之一。Agility Robotics首席技术官Pras Velagapudi认为,Cosmos为其提供了一个在真实世界可采集的数据之外,扩展逼真训练数据的机会。 用于自动驾驶汽车仿真的NVIDIA Omniverse蓝图借助Cosmos Transfer放大基于物理传感器数据的变化。借助该蓝图,Foretellix可以通过为不同驾驶数据集改变天气和光照等条件来丰富行为场景。Parallel Domain也正在使用该蓝图将类似的变更应用于他们的传感器仿真。 用于合成操作运动生成的NVIDIA GR00T蓝图结合了Omniverse和Cosmos Transfer,可大规模生成多样化数据集,利用OpenUSD驱动的仿真,将数据采集和增强时间从数天缩短到数小时。 此前在今年1月CES上宣布的Cosmos Predict世界基础模型,能够通过文本、图像和视频等多模态输入生成虚拟世界状态。 新的Cosmos Predict模型将支持多帧生成,在给定开始和结束输入图像的情况下,预测中间行为或运动轨迹。这些模型专为后训练而打造,可使用英伟达开放的物理AI数据集进行定制。 借助英伟达Grace Blackwell NVL72系统及其庞大的英伟达NVLink域的推理计算能力,开发者可以实现实时世界生成。 1X正在使用Cosmos Predict和Cosmos Transfer来训练其新型人形机器人NEO Gamma。机器人大脑开发商Skild AI正在利用Cosmos Transfer增强其机器人的合成数据集。 Nexar和Oxa正在使用Cosmos Predict来升级其自动驾驶系统。 Cosmos Reason是一个开放式、可完全定制的世界基础模型,具有时空感知能力,它使用思维链推理来理解视频数据,并能够预测交互结果,如一个人走进人行道或一个盒子从架子上掉下来。 开发者可以使用Cosmos Reason来提升物理AI数据标注和管理,增强现有世界基础模型或创建新的视觉语言动作模型。 他们还可以对其进行后训练,构建高级规划器,以指导物理AI如何完成所需操作。 Cosmos世界基础模型可在英伟达API目录中预览,现已列入谷歌云上的Vertex AI Model Garden 中。 Cosmos Predict和Cosmos Transfer在Hugging Face和GitHub上公开提供。Cosmos Reason开放抢先体验。 基于其下游任务,开发者可以在NVIDIA DGX Cloud上使用原生PyTorch脚本或NVIDIA NeMo框架对Cosmos世界基础模型进行后训练。 Cosmos开发者还可以使用DGX Cloud上的NVIDIA NeMo Curator来加速数据处理和管理。 Linker Vision 和 Milestone Systems正将其用于管理海量视频数据,训练用于视觉智能体的大视觉语言模型,这些智能体基于英伟达AI蓝图进行视频搜索和总结。Virtual Incision正在探索将其部署在未来的手术机器人中,而Uber和Waabi正在推动自动驾驶汽车的开发。 根据英伟达可信AI原则,英伟达在所有Cosmos世界基础模型中都采用开放式护栏。 此外,英伟达正与谷歌DeepMind合作,将SynthID集成到水印中,帮助识别Cosmos世界基础模型NVIDIA NIM微服务的AI生成结果。 二、Omniverse扩展至更多企业,推动工业AI转型 数字化对于立足于物理世界的行业来说具有挑战性。来自传统系统的海量数字和物理世界数据形成了多个孤岛。NVIDIA Omniverse是一个基于OpenUSD构建的操作系统,可帮助开发者统一物理世界的数据和应用。 英伟达今日宣布Ansys、Databricks、Dematic、Omron、SAP、Schneider Electric with ETAP、西门子等领先的工业软件和服务提供商正在将NVIDIA Omniverse平台集成到他们的解决方案中,利用物理AI加速工业数字化。 英伟达Omniverse和仿真技术副总裁Rev Lebaredian谈道,Omniverse是一个将全球物理数据与物理AI领域连接起来的操作系统,借助Omniverse,全球工业软件、数据和专业服务领导者正在以前所未有的速度统一工业生态系统并构建新应用,助力各行业高速推动新一代AI发展。 Ansys、Cadence、Hexagon、Omron、Rockwell Automation、西门子正在将Omniverse数据互操作性和可视化技术集成到其领先的工业软件、仿真和自动化解决方案中,以加速产品开发和优化制造流程。 物理AI方面,Alphabet旗下公司Intrinsic正在使用Flowstate助力Omniverse工作流和英伟达机器人基础模型从数字孪生过渡到硬件部署。Databricks正在将NVIDIA Omniverse与Databricks数据智能平台集成,这将实现物理AI的大规模合成数据生成。 美国大型汽车制造商通用汽车宣布采用Omniverse来增强其工厂和培训平台,以用于材料处理、运输和精密焊接等运营。在制造生命周期的另一端,联合利华宣布采用Omniverse和物理精确的数字孪生来简化和优化其产品的营销内容创作。 为了简化基于OpenUSD的应用的开发、部署和横向扩展,NVIDIA Omniverse现已在AWS Marketplace上的配备NVIDIA GPU的EC2 G6e实例中提供。微软Azure Marketplace现已在 NVIDIA A10 GPU上提供预配置的Omniverse实例和Omniverse Kit App Streaming,使开发者能够轻松开发和流式传输自定义Omniverse应用。 这些基于云的英伟达Omniverse开发者工具和服务预计将在今年晚些时候发布,这些工具将在配备英伟达GPU的Oracle云基础设施计算裸机实例上提供,以及谷歌云上新发布的NVIDIA RTX PRO Blackwell服务器版。 在GTC上,英伟达与Destney Research和Intrinsic一起推出了用于机器人的OpenUSD资产结构工作流。这种新结构和数据工作流使用OpenUSD内部的优秀实践来统一机器人工作流,为所有数据源提供通用语言。 三、四款全新蓝图,助力机器人设施和大规模合成数据生成 与Cosmos世界基础模型相连接的新NVIDIA Omniverse蓝图现已推出,可实现用于物理AI开发的机器人就绪设施和大规模合成数据生成。 4款全新蓝图助力机器人设施和大规模合成数据生成。 Mega是一个用于在工业数字孪生中大规模测试多机器人机群的Omniverse蓝图,现已在 build.nvidia.com上发布预览版。 还有一款由NVIDIA Metropolis平台提供支持的用于视频搜索和总结的NVIDIA AI蓝图,能够构建可监控整个设施活动的AI智能体。 制造业领导者正在使用这些蓝图,通过物理AI优化其工业运营。 在汽车制造领域,Schaeffler和Accenture开始采用Mega来测试和模拟用于材料处理自动化的 Agility Robotics Digit车队。 现代汽车集团正使用该蓝图在装配线上模拟波士顿动力Atlas机器人,梅赛德斯-奔驰正使用它来模拟Apptronik的Apollo人形机器人,以优化车辆装配操作。 在电子制造业领域,Pegatron正在使用Mega开发基于物理AI的NVIDIA Metropolis视频分析智能体,以改善工厂运营和工人安全性。富士康正在使用该蓝图,在其制造设施中对工业机械手、人形机器人和移动机器人进行模拟,以支持NVIDIA Blackwell平台。 Foxconn核心子公司Fii首席执行官Brand Cheng说:“借助NVIDIA Omniverse和Mega,我们正在测试和训练人形机器人,以便在我们的领先工厂中运行,进入下一波物理AI热潮。” 在仓库和供应链解决方案方面,凯傲集团、Dematic和Accenture宣布将集成Mega以推动新一代AI赋能自动化发展。idealworks正在将Mega集成到其车队管理软件中,以模拟、测试和优化机器人机群。SAP客户和合作伙伴可以使用Omniverse为仓库管理场景开发自己的虚拟环境。 借助面向AI工厂数字孪生的新Omniverse蓝图,数据中心工程师可设计和模拟AI工厂布局、冷却和电气,从而最大限度地提高利用率和效率。 Cadence Reality数字孪生平台和Schneider Electric with ETAP是最先将其仿真软件与蓝图集成的公司,而Vertiv和Schneider Electric正在为其电力和冷却装置提供Omniverse SimReady 3D模型,以加速AI工厂数字孪生的开发。 用于合成操作运动生成的NVIDIA Isaac GR00T蓝图现已面向机器人开发者开放,可实现 Omniverse和Cosmos的大规模合成数据生成。 该蓝图可帮助人类开发者将数据采集时间从数小时缩短到数分钟,从而快速推进机器人开发。 结语:迈向物理AI之门 在GTC主题演讲中,黄仁勋谈到自2012年AlexNet神经网络问世以来的四次AI浪潮,从感知AI、生成式AI、代理型AI(AI智能体)走向物理AI。 从世界基础模型到Omniverse平台,都是英伟达为辅助模拟现实世界的物理特性和优化虚拟世界训练开发所锻造的利器。这些不断丰富和优化的模型和软件工具,正使更多机器人、自动驾驶、工业AI开发者从中受益。
Meta杨立昆:人类将是未来AI的主人,而不是被其毁灭
杨立昆 凤凰网科技讯 3月19日,商业内幕报道,Meta首席人工智能科学家杨立昆表示,超级AI即将到来,但至少目前它不会取代人类。 杨立昆周二在GTC大会上表示:“嗯,在某些时候AI可能会取代人类,但我认为人们不会接受这种情况,对吧?我的意思是,我们与未来的AI系统的基本关系是,我们将成为它们的老板。我们会有一群超级聪明、出色的AI员工为我们工作。我不知道你们怎么想,但我喜欢和比我聪明的人一起工作。这是世界上最棒的事情。” 包括OpenAI的山姆・奥特曼和xAI的马斯克在内的人工智能行业领袖,常常将超级AI的出现描述为人类的关键时刻,在这个时刻,科学创新将蓬勃发展,但也可能导致一场足以让人类灭绝的灾难。 杨立昆此前就曾反对过人工智能的“末日论”。 在2024年的一条X帖子中,杨立昆称超级AI接管人类的想法是“科幻小说里的老套情节”,是“一种荒谬的情景,与我们所知道的一切事物的运作方式背道而驰”。 他在帖子中写道:“超级AI的出现不会是一个突然发生的事件。如今,我们还远没有一个能实现超级AI的蓝图。在某个时候,我们会想出一种架构,引领我们实现超级AI。” 杨立昆在GTC上表示,存在AI被滥用和不可靠的风险,但解决办法是“开发更好的AI”。 他说:“解决这个问题的办法是开发更好的AI。这些系统也许要有常识,具备推理能力,能检查答案是否正确,并且能够评估自己答案的可靠性,而目前的情况还不完全是这样。但坦率地说,我不相信会出现那种灾难性的情景。”(作者/陈俊熹) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
DeepSeek真帮黄仁勋了,你们怎么不信呢?
北京时间3月19日凌晨,站在圣何塞GTC大会的舞台上,连黄仁勋自己都调侃:GTC是AI届的超级碗。 几周以来,外界已经对黄仁勋在GTC的演讲万分期待。这个演讲可不好做,在DeepSeek的冲击之下,英伟达今年的股价已经下跌了12%。 这不再是发布新产品,高喊AI就是未来就可以完成任务的演讲,今年,黄仁勋需要回答很多问题。 而这场持续了两个半小时的演讲也的确和往年有很大的不同,黄仁勋在一开始就花了很长的时间去解释为什么推理时代缩放定律没有死、为什么英伟达依然非常重要。 而后,他不仅拿出了Blackwell的超大杯产品,还透露了下一代芯片,甚至下下代架构,时间一直蔓延到2028年。压轴出场的,则和黄仁勋勾画的AI发展路线图中的最后一站“物理AI”相关。 黄仁勋拯救了英伟达股价吗?至少从当日来看,截至收盘英伟达股价跌了3.43%,总市值缩水至2.82万亿美元。 到底是市场还需要几天时间消化,还是黄仁勋“游说”失败,还得等等看。 演讲要点: 1、发布超大杯Blackwell Ultra,性能提升1.5倍。 2、下一代AI“超级芯片”Vera Rubin,计划2026年底推出,并透露下下代芯片架构为Feynman,计划2028年推出。 3、AI工厂的操作系统Dynamo,推理框架,资源利用最大化,搭配Blackwell强上加强。 4、推出“AI超级电脑”DGX Spark、DGX Station,提高本地运行大型AI模型的能力。 5、宣布网络组件的最新动作,推出Spectrum X和Quantum X交换机。 4、发布首个开放式人性机器人基础模型Isaac GROOT N1;并宣布与谷歌DeepMind和迪士尼研究院合作开发Newton开源物理引擎。 01现场“开课”, 黄仁勋:你们真的都搞错了 自从号称训练只用了几百万美元的DeepSeek推理模型问世,世界就没有停止对英伟达的质疑。 起先,黄仁勋不语。然后,他开始发声,在采访中和财报会议上表示推理时代仍然需要大量计算,仍然需要英伟达的力量。 这次,他终于把这点摊开揉碎地说明了一番。 在发布会上,老黄拿出例子,让Llama3.3(LLM的代表)和DeepSeek R1(推理模型的代表)回答同一个问题: “在我的婚礼上,需要7个人围坐同一桌。我的父母和岳父岳母不能挨着坐。此外,我妻子坚称她在我左手边的话,拍照更好看。同时,我需要坐在伴郎身边。我们怎么安排座位?如果我们邀请牧师和我们坐一起呢?” 看完这个问题,大部分人可能已经头大了。要回答它,不仅要识别其中包含多少个不同的需求,还要同时满足所有需求。有意思的是,最后又有一个进一步的问题,需要先回答主问题再补充这个问题的答案。 Llama 3.3非常简单粗暴,回答得很快,只用了439个tokens。但是,它的回答并不正确,未能满足所有要求。快、省但对于提问的人来说无用。 DeepSeek R1则反复思考,尝试了很多可能,反复检验答案,最终消耗了8559个tokens,才最终给出了答案。时间久,消耗大,但是给出的答案准确。 而每一个token生成的背后,都是整个模型的加载。推理模型更复杂,也就需要更多地计算。DeepSeek R1的参数规模达到6800亿,下一代有可能达到数万亿参数规模。 两相对比,DeepSeek R1比Llama 3.3多生成了20倍的tokens,计算需求高出150倍。 “大模型推理是一种极限计算。”老黄表示。 通过这个对比,老黄很直观地告诉大家:推理模型也许预训练的时候消耗少,但推理起来可是实打实的吸金兽啊。英伟达GTC的官方博文中,把Tokens视为AI的语言和货币。 “去年,关于扩展定律Scaling Law,全世界几乎都预测错了。”老黄在台上再次强调。他进一步指出,如今扩展定律从一个变成了三个:预训练、后训练(微调)和推理。 那英伟达在推理时代要做什么呢?两方面:一方面,让芯片能在单位时间内处理更多tokens,另一方面,让单位算力的成本和能耗降低。 黄仁勋此前就在财报会议上表示,Blackwell就是为推理而生的,这次演讲中在说清楚推理模型为什么需要更多算力之后,黄仁勋也拿出图表,展开讲了讲这一点。 以Blackwell和Hopper做对比,都是1兆瓦功耗,Hopper数据中心每秒生成250万tokens。Blackwell数据中心提高了25倍,如果是推理模型,则比Hopper好40倍。 这让图表中出现了一个向上鼓的曲线,这个曲线正是黄仁勋想让各位AI制造商关注的“赚钱要点”。 黄仁勋称,成本是AI输出的token,收益就是用户获得的token。如果纵轴是前者,横轴是后者,横轴扩张更多时——也就是收益比成本扩张更多时——一个漂亮的利润弧线就出现了。 为了强调Blackwell是为推理而生这一点,老黄甚至不惜“拉踩”Hopper,称:“当Blackwell开始大量出货的时候,就算你送Hopper,别人基本也不会要的。” 以前老黄总说,(英伟达AI芯片)买得越多越省钱,现在他更进一步,告诉大家,买得越多越赚钱。 02 软硬兼施, Blackwell超大杯与“AI工厂操作系统”Dynamo 花了40分钟讲明白为什么英伟达依然能打,为什么说Blackwell是为推理而生之后,黄仁勋当然还得说说新产品。 首先是Blackwell Ultra,专为AI推理时代而打造,Ultra的后缀大家也不陌生了,超大杯。 “我们专为这一刻设计了Blackwell Ultra,一个多功能平台,(利用它)可以高效地进行预训练、后训练和推理。” 其中GB300 NVL72在一个机架规模设计中连接了72个Blackwell Ultra芯片,并包含36个基于Arm Neoverse的Grace CPU。较上一代性能提升1.5倍,与Hopper相比收入潜力提高50倍。还是以DeepSeek R1为例,老款Hopper运行这个模型时每秒只能处理100 tokens,而GB300 NVL72每秒能处理1000 tokens。 这意味着用户获得回答的速度大大提高。 而HGX B300 NVL16系统相比于Hopper一代,推理速度提升11倍,计算能力提升7倍,内存大4倍。 英伟达一直都有软硬兼施的策略,此前也针对自家的芯片做了不少优化(不过,DeepSeek的开源周展示的一些优化甚至比英伟达还强),这次黄仁勋也同步官宣了开源推理框架Dynamo。 黄仁勋将之称为“AI工厂的操作系统”。这样说可能有点抽象,具体来说,Dynamo像一个交通指挥官,帮助GPU之间实现更好的通信。对思考和生成可以进行独立优化,高效利用资源。如此一来,(还是回到演讲开头强调的token问题上)每秒就能产生更多token了。 不过,黄仁勋也表示,Hopper虽然也可以用Dynamo优化,但是效果不会那么明显。 为推理而生的Blackwell再加上为推理优化而生的Dynamo,就是强上加强,DeepSeek R1的吞吐量一下提高30倍。 03 下一代更好 2028年还不够远,黄仁勋勾勒AI发展路径图 除了现在,黄仁勋当然还得谈到未来。 英伟达下一代AI芯片Vera Rubin首次走到台前,黄仁勋介绍,该名称来源于天文学家Vera Rubin(以暗物质研究著称)。 其中CPU Vera内容容量是前代的4倍多,内存带宽是前代的2倍多,而GPU Rubin讲配备299GB的HRM4。 用老黄的话说就是“几乎所有细节都是新的”。 这一代Grace Blackwell(GB)将在今年下半年发货,Vera Rubin将在2026年下半年发货。 黄仁勋也预告了Vera Rubin的超大杯,Rubin Ultra,对比GB300性能提升13倍,预计2027年下半年发货。 除此之外,连Vera Rubin之后的下一代AI芯片架构也被揭露,它被命名为Feynman,这个名字同样取自于一位科学家,对量子计算领域有突出和贡献的Richard Phillips Feynman。黄仁勋预告,Feynman甲沟将于2028年登场。 此外,值得注意的是,在演讲一开始,黄仁勋给出了AI的发展路线图,从2012年深度学习突破的起点AlexNet开始,经历Perception AI(感知AI,这个阶段AI主要用于理解数据,如识别语音、图片等)、Generative AI(生成式AI,也就是现阶段的以ChatGPT为代表的技术)。 接下来,已经看到苗头的是Agentic AI(代理AI),从简单的数据生成到执行任务。 而最终,AI的终极目标是Physical AI(物理AI),实现从软件到硬件、从虚拟到现实的跨越。让AI具备物理行动能力,如机器人和自动驾驶技术的发展。 英伟达作为AI计算的核心玩家,显然希望引领这一进程。 对物理AI这部分的具体展开,在黄仁勋的此次演讲中占比并不算高,但作为压轴出现,足见其重要程度。 舞台上出现了《星球大战》中的小机器人Blue,它在舞台上走来走去、摇头晃脑,看起来充满好奇心,不得不说看起来就非常灵动。 这个机器人搭载了英伟达Isaac GR00T N1,号称是全球首个开源且完全可定制的人性机器人基础模型。模型包含双系统架构,一个系统负责快思考,另一个负责慢思考。据英伟达介绍,该模型能轻松掌握抓取、移动等复杂人物。 与此同时,黄仁勋还宣布正在与谷歌DeepMind和迪士尼研究院合作下一代开源仿真物理模型Newton,专为机器人开发而生。 “通用性机器人的时代已经到来。” 04 老黄委屈, 英伟达推出好产品还远远不够 英伟达的高速增长也一直伴随着“泡沫”担忧,很长的一段时间,这家公司不断推出新的产品,但市场波动时有发生。很多次财报发布时,明明业绩全线飘红,黄仁勋也大表信心,股价还是会抖三抖。 “我们发了新东西,但人们立刻就会说,好,然后呢?这放在任何公司身上都不是正常都。” 这次,黄仁勋很少见地在GTC的舞台上倒了点苦水:“这不是买个笔记本电脑”。他表示,这既需要计划,也需要资源和人,规划是以几年为计的。 也许这也解释了为什么黄仁勋这次演讲持续了两个半小时(去年不到两小时),为什么他一口气掏出这么多成果,为什么AI芯片连2028年的下下代都透底了,为什么在最后拿出了AI发展路径的最后一站“物理AI”的最新成果。 老黄这次该讲的、能讲的都讲了,尽力了。 至于人们还会不会问“然后呢”,他也管不了了。
理想MindVLA 想要重新定义自动驾驶,给每辆车都配个专职司机
我们希望 MindVLA 能为自动驾驶车赋予类似人类的认知和适应能力,将其转变为能够思考的智能体。就像 iPhone 重新定义了手机,MindVLA 也将重新定义自动驾驶。 3月份的新车和新技术铺天盖地,各家车企你追我赶,让人目不暇接,甚至产生了新品一经发布就已落后的错觉。 这不,就在近日,理想在 NVDIA GTC 2025 上分享了自家 MindVLA 技术的最新进展,声称要「像 iPhone 4 重新定义手机一样,重新定义自动驾驶」。 撇开复杂的技术原理和实现方式不谈,理想 MindVLA 技术的最大价值在于将车辆用户体验提升到了全新的高度。 分享会上,理想用一句话总结了新智驾系统的能力——这套全新的智驾系统将成为每个人的专职司机。 这位专职司机能做到哪些事情呢?我想到了以下几个场景:早上从车库把车开到家门口接我,省去我下楼去地库取车的麻烦;到公司门口放我下车后,自动寻找车位停好,不用我四处找车位;当我要去商场或咖啡厅时,自动寻找合适的目的地,无需我手动选择导航。最关键的是,它能定位到我所在的位置,自动来接我。 理想将这些场景概括为三个词——「听得懂」、「看得见」、「找得到」。 「听得懂」意味着用户可以通过语音指令改变车辆的路线和行为。这不仅将车机的语音互动从空调、座椅等座舱功能扩展到了具体的驾驶操作,更让用户成为副驾驶,能够”教导”车机向左转、向右转或加快速度。 「看得见」指的是 MindVLA 具备出色的通识能力,可以识别周边的商店招牌和标志性地点。理想举例说明:当用户在陌生地点找不到车辆时,只需拍摄一张周边环境的照片发送给车辆,搭载 MindVLA 的车辆就能识别照片中的位置,自动找到用户。 「找得到」主要应用于停车和园区漫游场景。最典型的例子是在地库寻找车位时,用户只需对车辆说:「去找个车位停好」,车辆就会自主搜寻可用车位,而且整个过程无需依赖地图或导航信息。 「专职司机」看起来在园区和地库场景表现的不错,那么理想如何确保它在公开道路上也游刃有余呢? 众所周知,国内的道路情况十分复杂,除了到处乱窜的电动车和高强度的人车博弈外,还有以下几个特点。 一是公交车道的广泛使用。这些车道的标识方式和使用规则极为多样,包括地面文字标识、空中指示牌和路边标牌。不同区域会用不同的文字形式说明时段限制,且经常会出现新增的公交车道,或因施工导致的标识模糊。 二是近年来各大城市出现的动态可调车道和潮汐车道,以及为充分利用路口空间而设置的待转区、待行区。这些区域的使用时机由各类信号灯或 LED 文字牌控制,且设备每天都可能面临新增、故障或维护情况。 因此在中国,自动驾驶系统不仅要应对复杂的人车互动,还需要具备文字理解能力、常识判断和强大的逻辑推理能力。 特斯拉近期推送的 FSD 就因在这些场景中表现欠佳而饱受批评。 为应对这些挑战,理想采用了双系统框架作为解决方案。 简单来说,理想将模型分为两个系统:快思考(系统 1)和慢思考(系统 2)。 车端通过端到端模型实现快系统。这是一个单一模型,可直接将传感器输入转换为驾驶轨迹输出,类似于人类的直觉反应。该系统通过模仿人类驾驶行为来应对各种场景,完全基于数据驱动,无需人为设定规则,也不依赖任何高精地图或先验信息。它具有极高的训练和执行效率。 慢系统则依托于一个 2.2B 参数规模的视觉语言大模型(VLM)。在需要文字理解、常识判断和逻辑推理的场景中,VLM通过思维链(Chain of Thought, COT)进行深入分析,作出驾驶决策,并指导快系统执行。 端到端模型(系统 1)和 VLM 模型(系统 2)各自运行在一颗 OrinX 芯片上。 简而言之,通过这样的技术架构,搭载 MindVLA 功能的理想汽车不再仅仅是一个驾驶工具,而是一个能够与用户沟通并理解用户意图的智能体。 智能体或个性化生成式智驾方案已经成为各家车企和供应商对未来技术路线的共识。极氪和卓驭昨天也在各自的技术发布会上不约而同地提到了相关内容。 由于目前还没有搭载这类系统的实车上市,我们无法评估其实际使用效果。不过根据各家的计划表,这些系统有望在今年内实现量产。届时,董车会将第一时间为大家进行实测体验。
元宝“粘”不过豆包
陷入腾讯元宝与DeepSeek组合竞争压力下的豆包,又从抖音那里借了把力。 字母榜(ID:wujicaijing)观察到,近期豆包内测了一项新功能,即在原有的对话内容下面,用户继续上滑屏幕,会出现基于用户兴趣和对话推荐的内容流,堪比在豆包内再造了一个微缩版“抖音”。在此之前,豆包在生成答案中就会向用户提供抖音短视频特色内容。 对于上述新功能,豆包相关负责人回应称,是一个“很小流量的实验,主要是帮助理解用户需求。” 但来自抖音内容生态的加持,无疑是当下豆包增强用户粘性、对抗腾讯元宝+DeepSeek竞争的重要手段之一。 自2月13日接入DeepSeek-R1满血版以来,腾讯元宝与豆包上演了多番排名争夺战:2月20日,在中国区苹果应用商店免费APP下载排行榜上,腾讯元宝首次挤进前三,位居豆包之下;两天之后的2月22日,元宝就赶超豆包升至第二名,并在3月3日力压DeepSeek,首度登顶。 好景不长。仅过了一周左右,到3月9日,元宝排名就再次滑落至DeepSeek和豆包后面,位列第三。目前,被豆包赶超的元宝,排名进一步下滑至第四位。 城头变幻大王旗的背后,则凸显出综合类AI原生APP因在用户粘性上不足,使得大部分APP都面临高卸载率的难题。 除了借助内容增强用户粘性之外,通过投流拉新去稳固市场份额,正成为另一种对抗高卸载率的手段。相比豆包,腾讯元宝更坚定地选择了后者。 近期,腾讯元宝被发现开始将广告打到了乡镇市场,通过刷墙广告吸引下沉用户下载使用。但在产品缺失独特性之下,留住用户的难题仍有待元宝和豆包们破解。 它们需要直面的一大拷问便是,在当前的免费策略之下,如何让普通用户建立起对自家APP的产品忠诚度。毕竟,未来一旦出现比DeepSeek体验更好的模型,或者DeepSeek解决了自身的服务卡顿难题,用户难免会用脚投票。 路透社爆料称,DeepSeek内部正在加速推出R2模型,该模型原计划在5月初发布,但现在官方希望能尽早发布。“大模型就像核武器,大公司无论如何都得有。因为如果模型能力出现重大突破而你没有跟上,那你的用户还会被抢走。”这是傅盛对当代AI应用竞争的判断。 大厂显然也是这么做的。在接入DeepSeek之外,腾讯元宝紧接着便上线了自研的腾讯混元T1推理模型,并预告其自研的快思考模型Turbo S也将很快全量登陆元宝。 迟迟不想在豆包中接入DeepSeek的字节,则在2月25日被曝出正在豆包中小范围测试自研的深度思考型推理模型。字母榜获悉的最新消息是,3月18日豆包APP开始全量上线深度思考功能。 在做出上述决定的同一天,据极客公园介绍,3月18日上午,字节豆包大模型部门(Seed)召开了一场全员会,并在模型研究和模型应用上达成新共识——模型应用长期要贴着模型能力去做。 1 如果说豆包让外界在2024年得以一窥大厂做AI应用的优势,那么元宝则让外界在2025年又重新见识了下大厂的金钱魔力。 赶着DeepSeek服务繁忙的窗口期,背靠云资源的腾讯元宝,攫取到了最多的DeepSeek红利。QuestMobile向《财经》提供的数据显示,截至3月4日,DeepSeek、豆包、元宝的日活跃用户分别是4885万、2947万、797万。与2月1日用户量相比,DeepSeek增长60%,豆包增长91%,元宝增长3365%。 除了吃到DeepSeek外溢的红利之外,腾讯元宝还多管齐下,不仅得到了微信、QQ等腾讯系产品的导流,还超越豆包、Kimi们,成为新晋投流王。AppGrowing数据显示,2025年1月1日-3月13日,豆包、元宝、Kimi的投放金额分别是0.9亿元、7.1亿元、1.5亿元,变化主要发生在接入DeepSeek之后的2月份以后。 但无论是接入DeepSeek,还是大手笔投流,这都只是腾讯AI to C大业的万里长征第一步。如何让新增用户留存下来,并能继续吸引新用户下载,是对腾讯元宝的新考验。 在投流上保持平稳的豆包,再次对元宝完成排名反超的事实,也进一步佐证着AI应用并非简单靠投流拉新就能敲定胜局。 在去年下半年开启重磅投流之后,豆包还做了一件事,就是深耕与抖音这一超级APP的内容联动,在一众AI助手应用中寻求差异化策略。 表现在用户体验上,当豆包给出生成答案时,往往还附带一到多条来自抖音的短视频内容。值得注意的是,豆包作为中转站的存在,还曲线实现了不用跳转打开抖音,即可在微信中刷抖音的新式“互联互通”。 具体操作上,当把和豆包的对话分享到微信后,用户即可在微信内直接打开观看对话内容中的短视频,且还支持无限上滑刷新。 如今,豆包内出现基于用户兴趣和对话推荐的内容流,无疑是豆包在与抖音内容联动方式上的更进一步。 通过基于算法推荐精准匹配的内容,豆包也有了诱惑着用户每天花费大量时间泡在其中的小心思,并最终达成增强自家产品用户粘性的目的。 在内容联动方面,腾讯元宝不是没有动过心思。背靠微信,腾讯元宝一度打出了用户可以独家调用微信公众号内容的举措,并允许用户从微信内直接导入文件,但目前实际体验下来,元宝与微信内容生态的融合和打通做得还不够精确,在调用公众号文章上时不时会出现错误。 2 内容联动之外,在产品设计和功能丰富度上,现在的元宝,也有不少课要补。 当用户看到一束花或者一个物品,想要让大模型告诉你它是什么时,豆包拍照后可以直接引导你选择这是什么,在不用输入提示词的情况下就能给出答案。反观元宝,拍照后并没有相应的引导词,有时候还需要手动输入一段描述提示词,才能得到想要的答案,在便捷性上暂时有所不足。 而在决定一款AI助手好不好玩的智能体开发上,尽管元宝在智能体绝对数量上占据优势,但在爆款智能体打造上,却不及豆包。 过去的2024年,头部综合类AI原生APP中的智能体数量超过102000个,一举超过小程序数量(MAU大于1万,7000+),仅次于APP数量(MAU大于1万,127000+),有望成为新的流量分发中心。 QuestMobile数据显示,其中通义、讯飞、腾讯元宝占据智能体数量TOP3,但是流量均不足500万;相较而言,没能挤进前三的豆包,在智能体流量上却做到了第一。以春节热门电影《哪吒之魔童闹海》为例,豆包快速跟进推出了石矶娘娘角色扮演类智能体,元宝则未有相应动作。 导致元宝和豆包出现不同产品设计和运营思路差异背后,或许也跟两家公司对AI to C应用的态度有关系。 接入DeepSeek之前,腾讯对C端应用并不上心。2022年11月ChatGPT发布之后,百度、阿里等国内大厂相继在2023年三四月份推出自研大模型,并配套上线自家的AI助手产品。 但腾讯比晚了一步的字节还慢了些。在字节对外亮相云雀大模型(豆包大模型前身)后的一个月,即2023年9月份,腾讯才正式上线了自研的混元大模型,官方AI助手腾讯元宝,更是直到去年5月才上线。 在过去两年的大模型发展进程中,不论是自研大模型的上线时间,还是AI助手的发布节奏,腾讯都成了科技大厂中最不着急的一家。 表现在AI助手产品功能更新上,去年12月份,豆包就上线了拍照问答功能。直到3周前的2月底,元宝才支持上传及拍照识图。 DeepSeek,成了腾讯元宝产品上新的加速器。2月中旬以后,元宝的版本更新从过去的月更压缩到周更,并进一步提速至当前的日更模式。 3  即便在产品设计和功能丰富度上追赶上豆包的步伐,元宝还需要解决更加头疼的问题,即如何留住用户。 上述难题也不是元宝一家的困境。QuestMobile数据显示,截至去年12月,全网整体月人均时长达到171.7小时,而AI应用月人均使用时长只有132.8分钟,后者差了前者60倍。 较短的使用时长,也导致当下大部分AI助手类APP卸载率都超过20%。即便强如豆包,坐拥行业最低卸载率(17.7%),和最高月人均使用次数(41.7次),也难逃内部商业化拷问。 去年12月,据智能涌现爆料,字节内部有管理层提出,类似ChatGPT这种基于文本的对话类产品,大概率不是最理想的产品形态:一方面付费订阅模式在中国不太可能走通;另一方面时长和轮次太低,又导致潜在的广告空间较小,这都构成了豆包的隐形天花板。 当时,有字节管理层提议,需要找到更低门槛、更“多模态”的产品形式,剪映和即梦可能是比豆包更合适的长期发展对象。 说到底,这跟AI助手类产品尚未各自建起一套新的账号体系有关。在粘住用户上,各家AI助手都暂未表现出独特性:用户这次用豆包,下次换元宝、Kimi,并不会对生成结果造成太大影响。 基于账号体系带来的强用户粘性和社群归属感,腾讯凭借微信,字节凭借抖音,各自做到了跨领域为旗下新产品引流,最新的受益对象便是元宝和豆包。 但DeepSeek的意外崛起,让外界看到了AI助手跑通规模效应的可能性,没有一家大厂敢冒着丢失先发优势的风险,继续等待下去。 这也能部分解释,在依然无法看清AI超级应用产品形态和商业前景的情况下,为什么腾讯、字节们,都开始明确传递出加码C端应用的意愿。 更重要的是,还有更多大厂盯上了AI应用的超级入口,并开始行动起来。 去年12月底,将通义应用从阿里云分拆,并入阿里智能信息事业群后,阿里在AI to C上动作不断,最近的动作是将夸克重要性再次提升,定位阿里的AI旗舰应用,并隐隐有了要跟腾讯一争“投流王”新称号的迹象。 根据AppGrowing数据,去年四季度的AI应用投放排行榜中,通义千问还在20名开外。但从2月底开始,通义千问逐渐加大广告端投入,3月6日发布开源推理模型QwQ-32B后,投放量级更是一路攀升,目前已经进入投放TOP10。 这场AI助手的新一代入口争夺战,已经不再以单个公司意志为转移。不管愿不愿意,身在其中的大厂,都只能继续打下去,直到决出胜负为止。 参考资料: 《字节大模型全员会,朱文佳和吴永辉一起聊了方向、组织和开源》极客公园 《对话傅盛:AI时代的超级应用是什么?》财经杂志 《烧钱做大豆包元宝,字节腾讯为什么这么做?》财经杂志 《引DeepSeek入室,马化腾敢,张一鸣敢吗?》字母榜 《字节内部判断AI对话类产品天花板可能不高,提升剪映即梦优先级》智能涌现
小红书为点点开放新入口,上线深度思考模式
直面AI(ID:faceaibang)获悉,今日小红书今日为旗下AI搜索产品“点点”开放了新入口,位于消息页面,且支持深度思考模式。 在小红书“点点ai”官方账号,点击个人资料页里的“点点”可进入对话。与点点完成一轮对话后,后续就可以在消息界面找到点点ai的入口。 去年8月,小红书推出AI搜索助手“点点”。不同于其他互联网公司的AI搜索产品做的皆是泛搜索,点点主打的是生活搜索,比如旅游攻略、吃喝玩乐灵感、生活难题等,内容源更侧重小红书笔记。 12月,点点内测接入小红书App,被内测到的用户可在小红书搜索框使用AI搜索新功能——“问点点”。今年年初,产品内测范围扩大;2月下旬,点点上线深度思考功能,宣传语是“DeepSeek X小红书=点点”,不过深度思考模式仅支持在点点App中使用。 就在各平台纷纷接入DeepSeek或其他大模型之际,3月初,小红书此前在App中内测的AI搜索“问点点”功能下线,用户使用小红书搜索框,仅能使用“搜搜薯”功能。即用户小红书搜索“国产剧”“美剧”“短剧”或是“北京景点”等攻略型内容,会得到一个集合页面,页面则会收录平台用户的帖子和评论。 随着支持深度思考模式的点点的入口重新在小红书上线,小红书正式上线支持深度思考模式的AI搜索功能。 用户进入与点点的对话页面,可自动勾选“深度思考”模式,提出问题后,点点会显示“已精选小红书等内容”,推理过程中则会显示其答案引用了平台笔记,比如“笔记2和笔记4提到了……” 从入口量级来看,产品的搜索框权重更高。《2024小红书搜索推广白皮书》显示,平台70%的月活跃用户存在搜索行为,88%的搜索行为为用户主动发起。 另外,消息页面的点点功能尚无法置顶,若用户收到其他群消息或私信,点点位置会自动下移。 目前来看,点点入口更像是小红书搜索功能的补充。用户可自由选择在主搜索框搜索,通过笔记获得信息,也可选择通过消息页面的点点,获得结构化的答案。 在各个平台都在增加AI搜索功能、深度思考模式的当下,小红书也需要补充深度思考模式,但对小红书这样的内容社区平台来说,笔记仍是其核心内容供给。 当然,小红书AI搜索策略也仍在不断调整中。目前消息入口的点点功能,暂未上线历史记录功能。一位小红书运营人员表示,该功能会在下个版本上线。 AI搜索与内容平台颇为适配。搜索是第一批被DeepSeek冲击最大、但同时也获益最大的产品,而内容平台、社区平台的重要场景之一就是搜索。内容平台做AI搜索的优势是他们躺在内容的富矿上,微信、知乎、小红书等平台在图文内容时代,生产出了众多高质量内容,平台有大量内容可供大模型检索。 此前,超级APP们皆为DeepSeek或自家大模型产品开通了超级入口。 腾讯此前已经为微信接入DeepSeek,还曾在“九宫格”内为腾讯元宝限时开放下载入口。不过目前该入口已经下线。 另据Tech星球报道,抖音App于近期测试接入豆包App的AI能力,并且在抖音App内为豆包App开放了两个超级入口,一个位于短视频界面,与点赞、评论、转发等功能处于同一竖列;另外一个入口则位于抖音App的消息列表内。后者入口与点点的新入口类似。 随着内容平台纷纷接入大模型搜索,内容平台正经历一轮产品迭代。
腾讯2024年财报公布:元宝日活增长超20倍,AI战略加速,研发投入707亿创新高
编辑 | Panken 智东西3月19日报道,今日,腾讯公布2024年四季度及年度财报,年度营收同比增长8%,达6603亿元。其中,ToB板块(金融科技及企业服务)实现营收2120亿元,占腾讯总营收的32%。 财报显示,2024年腾讯研发投入创下历史新高,达到707亿元。自2018年公布研发投入以来,其累计总额已达3403亿元。 伴随投入加码,腾讯AI战略加速落地:通过“自研+开源”多模型策略推动业务全面提效与重塑:自研腾讯混元大模型接入700+内部场景,驱动多业务增长;同时,积极拥抱先进开源生态,为用户和客户提供最佳的AI体验。 其中,AI原生应用腾讯元宝自2025年2月至3月的DAU(日活)激增超20倍。腾讯混元大模型于2023年发布以来快速迭代,最新推出的腾讯混元快思考模型Turbo S显著提升响应速度,首字时延降低44%,并已应用于腾讯元宝等腾讯内部产品。 此外,腾讯云、腾讯会议、腾讯文档等系列产品也在AI的推动下加速产品力升级与服务提效,比如腾讯会议推出的AI小助手、智能录制、多语种实时翻译等,AI相关功能月活用户达1500万。 腾讯董事会主席兼首席执行官马化腾谈道:数月前,我们重组了AI团队以聚焦于快速的产品创新及深度的模型研发、增加了AI相关的资本开支、并加大了我们对原生AI产品的研发和营销力度。我们相信这些加码的投资,会通过提升广告业务的效率及游戏的生命周期而带来持续的回报,并随着我们个人AI应用的加速普及和更多企业采用我们的AI服务,创造更长远的价值。 同日,在腾讯全球数字生态大会上海峰会上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生也强调:“一切从用户需求出发,是腾讯的产品价值观。腾讯将立足打造‘好用的AI’,把前沿的AI技术,转化成有实效、有温度、可进化的智能产品和解决方案,助力大众美好生活,推动实体产业创新突破。” 一、自研混元大模型加速迭代,开源模型总Star数超2.3万 腾讯财报显示,腾讯全链路自研大模型——腾讯混元大模型在2024年持续加速发展,并于2024年9月推出旗舰大模型“混元Turbo”。进入2025年以来,混元进一步快速迭代,相继推出腾讯混元深度思考模型Thinker(T1)和自研快思考模型Turbo S。其中,混元Turbo S响应速度显著提升,首字时延降低44%,并已应用于腾讯元宝等腾讯内部产品。 自上线以来,腾讯混元也全面拥抱开源,开源模型已覆盖文本、图像、视频和3D生成等多个模态,GitHub上总Star数量超2.3万,多次登顶趋势榜。其中较早开源的混元DiT文生图模型,在国内外衍生模型数量多达1600多个。 3月18日发布的《中文大模型测评基准SuperCLUE 3月报告》中,腾讯混元位列基础模型国内第二,综合实力稳居国内大模型第一梯队。同时,在海外最新发布的大模型竞技场chatbot arena中,腾讯混元首次上榜,进入全球Top 15,获官方推荐。 二、腾讯元宝35天更新20次,日活增长超20倍 AI应用端的进展也在加速。 据披露,腾讯AI原生应用“腾讯元宝”DAU在2月至3月增长超20倍。这背后,受益于多模型策略,即自研腾讯混元大模型和拥抱DeepSeek等开源模型的驱动,腾讯元宝得以给用户提供稳定流畅的深度推理体验。 过去35天,腾讯元宝的电脑、手机双端共发布30次版本更新。 2月,腾讯元宝接入Deepseek-R1满血版、上线混元T1推理模型,双模型均支持深度思考和快思考,并支持理解图片、读微信文件等功能。 进入3月,元宝进一步发力用户体验,加速融入腾讯生态。手机版新增了历史对话检索、朗读倍速调节、对话接力等功能,提升日常使用便捷性。电脑版则推出大字体、深色模式、拖拽上传文件和截图提问等功能,助力工作学习场景使用更高效。 从2月13日至3月19日,腾讯元宝35天版本更新共30次,其中电脑版更新15次、手机版更新15次。关键更新包括: 2月13日,接入Deepseek-R1满血版; 2月17日,上线推理模型混元T1; 2月17日,支持读微信文件; 2月18日,紧急支持微信搜索; 2月21日,支持混元和DeepSeek理解图片; 2月23日,支持语音输入; 2月25日,支持一键将对话导出为长图; 2月28日,正式上线电脑版; 3月1日,混元Turbo S灰度上线元宝; 3月4日,支持检索历史对话; 3月6日,支持折起/展开思考过程; 3月7日,支持通过对话链接“接着聊”; 3月8日,朗读支持续播、倍速与暂停; 3月12日,电脑版支持大字体、拖拽上传; 3月12日,支持停止生成回答,可重新编辑再提问; 3月13日,支持上传和导出腾讯文档; 3月17日,支持深色模式; 3月18日,电脑版上线截图提问等多项功能。 借助腾讯云智算力支撑与海量的运维经验,确保了用户使用过程流畅 “不卡顿”。同时,叠加积累多年的多模态能力,元宝能够对用户发送的图片给出分析与理解。 此外,在内容和检索这两个关键环节,腾讯元宝利用了全网最优质的微信公众号内容,以及强大的“联网搜索”能力,确保了检索和生成结果的质量和时效性。 最近,腾讯元宝和腾讯文档也正式打通。用户可直接上传腾讯文档到腾讯元宝,让AI辅助总结、提炼要点,也能一键导出腾讯元宝对话到腾讯文档,随时修改、分享或继续创作。 腾讯方面表示,未来会持续打磨腾讯元宝的产品能力,不断提升用户体验。 三、AI多模型策略驱动,腾讯云产品力跃升 AI对于腾讯业务的提效也在2024年开始显现。 2024年第四季度,腾讯会议的收入同比增长超过40%。腾讯会议之外,腾讯内部已有超过700个业务场景接入混元大模型并积极拥抱开源大模型。 在ToB场景中,腾讯云TI平台、腾讯云高性能服务HAI、CloudStudio、大模型知识引擎等腾讯云产品均支持DeepSeek和腾讯混元大模型的“多模调用”,腾讯云提升产品能力的同时也为开发者及企业客户提供多种快速部署应用的方式。 同时,腾讯云还打造了私有云部署工具箱,助力企业在私有云场景下解决模型部署的算力适配、模型加载、推理加速等问题。 比如腾讯云大模型知识引擎,支持企业基于混元大模型、DeepSeek等模型,并结合自身的私域知识库,通过拖拉拽的方式分钟级快捷搭建企业应用,开发过程稳定高效。 经过腾讯云的部署优化,在使用DeepSeek模型时大模型知识引擎吐字速率较使用开源推理引擎提升84%,成本降低46%。 代码智能补全和生成的数字化工具“腾讯云AI代码助手”,则已经在腾讯内部落地超过1年,有80%的腾讯程序员日常使用实现开发提效,目前约33%的代码由AI生成,编码阶段效率提升达到42%。 三、大模型落地30多个行业,助力实体产业创新提效 研发加码、模型升级、产品力提升,也让腾讯云得以为企业客户打造好用的AI服务,提供从算力、模型部署、场景落地的全链路支持,缩短从模型到应用的距离。 目前,腾讯云基于“腾讯混元大模型+开源模型”的多模方案已在政务、教育、医疗、金融、传媒、出行、文旅等30多个行业落地,助力深圳宝安政务、深圳医保、上海徐汇城运中心、上海文广集团、深圳大学、瑞金医院、上海医药、荣耀、重庆农业银行等客户创新提效。 比如在政务领域,深圳宝安政务大模型率先通过腾讯云大模型知识引擎接入“腾讯混元+开源模型”,结合私有化部署的宝安区专属知识库,为政务管理、企业服务及民生体验进一步提效,为城市数字化治理打开新智慧。目前,宝安政务知识库已覆盖全区14个领域、20个行业3万余条政务服务知识,并整合了60多种原子能力,可结合业务场景需要快速部署智能应用,已经在民生诉求、企业服务、政务办公、社会治理等31个业务场景展开落地。 在医疗领域,基于混元大模型的能力,腾讯携手迈瑞联合打造了全球首个ICU重症医疗大模型—启元重症大模型,已经在国内部分医院临床应用试点。腾讯云基于“混元+开源模型”方案能力,助力深圳医保提升1700万市民医保服务效率。 结语:腾讯将积极拥抱开源模型 腾讯方面表示,将持续加码自研模型升级、积极拥抱开源模型。 “自研+开源”的多模型策略背后,一方面基于腾讯长期以来坚持技术普惠的理念,另一方面也得益于腾讯在用户与产业多端的场景与生态优势,为AI技术的落地提供了广阔空间。
iPhone 17系列已知信息汇总 或将重回巅峰
今年iPhone 17系列有望成为变化最大的一代iPhone。目前,有关iPhone 17系列的消息不少,但都比较碎片化,接下来咱们就来汇总一下目前iPhone 17系列的已知信息。 ·外观设计革新 首先最大的变化可能就是新增的iPhone 17 Air机型?,它将取代原有Plus机型,主打轻薄设计,机身厚度仅 5.5-6mm?,应该会成为史上最薄的iPhone?。同时该系列配备 ?6.6 英寸大屏?,但可能因轻薄设计牺牲部分配置,如单后置摄像头、单扬声器?。 其次,Pro系列的材质与背部面板设计可能会采用新材料。其机身框架从钛金属改为铝合金材质?,以达到减轻重量并降低成本?的目的。而且后盖将采用 ?“半铝半玻璃”双色拼接设计?:上半部分为铝合金(整合相机模组),下半部分为玻璃(支持 MagSafe 充电)?。 其三,iPhone 17系列摄像头模组设计与以往不同。根据此前曝出的机模信息可以看到,iPhone 17标准版后置双摄或改为细长椭圆形模组?,打破传统方形设计?。Pro系列?的三摄模组尺寸增大,可能采用横向长方形排列?或保持三角形布局,但整体会更紧凑?。 ·全系告别60Hz屏幕 iPhone 17系列在屏幕方面或将全系升级120Hz LTPO屏幕?,标准版也不再是60Hz刷新率,缩小了与安卓阵营的差距。而且iPhone 17系列?标准版屏幕尺寸或将从6.1英寸升级到6.3英寸,与Pro系列保持一致。 此外,Pro系列?还可能采用Metalens超透镜技术?,以缩小Face ID模组面积,这也让灵动岛缺口变得更小?。 ·性能与硬件升级 性能与硬件升级是板上钉钉的事情,全新的A19系列芯片将被iPhone 17系列所使用。 其中,标准版和Air可能会搭载A19芯片?,Pro系列会搭载A19 Pro芯片?,均基于台积电3nm N3P工艺打造,AI算力和能效显著提升?。另外?Pro系列内存将升级至12GB?,标准版和Air或将继续保持8GB。内存容量升级主要在于优化多任务处理能力与本地大模型运行?速度。 ·散热系统革新? iPhone 17系列或将采用蒸汽冷却腔?来取代传统散热片,以提升持续性能与游戏体验?。 ·影像系统升级 iPhone 17 Pro系列的长焦镜头可能会迎来升级?,像素提升至4800万,与主摄和超广角统一像素,以提升变焦画质?。另外还可能会使用机械光圈技术?,也就是类似安卓手机的可变光圈,并用于Pro系列主摄?。 此外,iPhone 17前置镜头将迎来全面升级?,像素统一升级到2400万。 ·其它升级 除了上述这些主要升级点之外,iPhone 17系列或将搭载苹果自研Sinope 5G基带,搭载自研的整合了蓝牙和Wi-Fi 7的Proxima芯片。此外有传言称Pro系列可能合并多功能按键与音量键,采用电容触控技术实现多样化操作。 ·价格与发布时间 关于iPhone 17系列的价格与发布时间暂未有具体消息,不过肯定是9月份发售,且起步价格应该不会上涨。
1秒钟生成3D模型!腾讯混元甩出5款开源3D模型,自研架构加速效果超30倍
作者 | 陈骏达 编辑 | 心缘 智东西3月19日报道,今天,持续2天的混元3D开源日活动收官,腾讯混元一次性开源了5款全新的3D生成模型。其中,运用了腾讯自研3D生成加速框架FlashVDM的3款模型,实现了秒级3D资产生成,较今年早些时候开源的Hunyuan3D-2版本提速30倍左右。 ▲左侧的Hunyuan3D-2 Turbo正高速生成3D模型 除了生成速度的提升之外,本次腾讯混元开源的3D模型还在贴图细节、材质表达上有明显提升。基于物理渲染(PBR)功能背后的模型从测试版升级到正式版,能让3D模型在渲染过程中更加真实,符合物理规律。 ▲腾讯混元3D模型开源页面 面向创作者,腾讯自研的3D AI创作引擎迎来升级。新增的多视图输入功能可提升创作过程中的可控性,模型3D智能减面功能则可以降低模型的渲染压力。这一引擎还可以作为插件,直接在3D编辑工具Blender中生成3D资产。 现在,这一创作引擎已经支持了更多主流3D格式,可直接3D打印,也可将3D生成结果作为视频和动图分享,满足不同类型用户的使用需求。 体验链接:https://3d.hunyuan.tencent.com/ 开源地址:https://huggingface.co/spaces/tencent 一、半秒钟生成3D模型,计算量暴砍超95% 本次开源活动中最大的亮点便是实现秒级3D资产生成的3款Turbo加速版模型,包括Hunyuan3D-2 Turbo、Hunyuan3D-2mini Turbo及Hunyuan3D-2mv Turbo。 这3款模型均采用了腾讯自研的FlashVDM通用加速架构,主要适用于在端侧快速生成3D资产,Hunyuan3D-2mv Turbo进一步支持了多视图输入。FlashVDM这一架构不仅能用于混元3D模型,也兼容大部分其他3D生成模型。 采用FlashVDM加速架构的模型,能将显存占用降低到5GB以内,生成时间缩短到1秒以内,兼容MacOS、Windows等操作系统,英伟达4050、3050、2060、1070等显卡均可以快速运行,若设备没有配备显卡,也可以在搭载M1等CPU的设备上流畅运行,获得比较合理的运行速度。 这一加速究竟是如何实现的呢?混元团队分享,3D模型的生成就好比堆积木,VAE解码是将画面分为多个积木,而将积木组装起来的流程便是DiT采样,上述两个环节占据了生成过程中超过99%的计算负载。 目前,主流3D生成模型采用Vecset架构。以采用这一架构的Hunyuan3D-2为例,生成一个3D模型大约需要半分钟。经过FlashVDM加速后,Hunyuan3D-2的生成耗时最短可以达到1秒钟,而Hunyuan3D-2 mini模型生成耗时最短可达半秒钟。 在DiT环节,FlashVDM的渐进式流蒸馏技术将标准版模型几十个推理步骤浓缩至个位数。在VAE环节,层次化体素解码技术将体素查询量减少了95%,动态KV选取降低30%,在与高效网络设计的结合后,计算量还可以进一步降低。 加速并未对模型的生成效果带来明显影响。在专业创作者的盲测中,仅用5-8步实现模型生成的Turbo模型,与未经加速的原版模型相比,可比率达到90%左右。 混元团队也分享了他们开发FlashVDM的原因。一方面,艺术家对3D模型的生成质量和可控性有一定要求,但在创作过程中,艺术家也需要有即时的反馈,才能快速迭代设计。在复杂场景中,如果能将单个模型的速度从30秒-60秒降低到1秒,将会极大地节约创作时间。 二、随手拍可生成3D手办,支持3D打印主流格式 腾讯混元3D AI创作引擎在开源日中迎来一系列升级。Web端多视图功能背后的模型Hunyuan3D-2mv,轻量版模型Hunyuan3D-2mini相应开源,而完整版的Hunyuan3D-2已经于今年稍早时候开源。 首先是多视图功能,这一功能支持用户上传2-4张标准视角图片,从而生成高精度、高质量的3D模型。 多视图模型提升了用户对生成结果的可控性,针对游戏制作、3D UGC创作等场景,可以大幅降低3D设计师从多视图原画到三维模型的制作成本。 在直播活动的实测中,测试人员用手机摄像头拍摄了随意放置在纸杯上的腾讯企鹅公仔,并上传正反面照片,模型在1分钟之后便给出了这一场景的3D建模。 ▲左图、右图为手机实拍,中间为3D模型 腾讯混元3D AI创作引擎还引入了3D智能减面能力。在建模过程中,AI模型可能会将一些画面刻画得过于细致,切分为成千上万个三角面,这会给后续3D资产的渲染带来很大压力。 3D智能减面可以自适应生成几百至数千面的三角面,进一步提升几何边缘平滑度,生成结果可在低面片的基础上最大化体现模型细节,让模型布线更加规整,以降低渲染难度,提升模型可用率及生产效率。 实测中,在生成桌子这类几何结构较为简单的模型上,智能减面极大地减少了模型的三角面数量。而在生成下方的的青龙3D模型时,智能减面会在细节丰富的部位保留更多面数,在细节不多的部位自动减少面数,实现了成本和效果的平衡。 此次升级还实现了PBR(基于物理渲染技术)的材质生成效果提升,通过物理特性模拟技术,赋予模型更真实的颜色与材质表达。 兼容性上,除通用OBJ、GLB、FBX外,腾讯混元3D AI创作引擎现在可输出STL、USDZ、GiF、MP4等主流格式,无缝连接3D打印工具,也可支持模型快速预览及移动端实时交互,满足不同业务场景对3D模型格式的使用要求。 结语:多款模型获创作者好评,未来将持续升级 据腾讯混元团队分享,他们未来还将进一步提升模型和加速框架的性能。FlashVDM目前仅支持对3D模型生成的加速,而未来将加入对纹理生成的支持,从模型到纹理的生成管线总耗时有望控制在10秒钟以内,AI编辑功能也在研发过程中。 在腾讯混元3D开源日的直播过程中,有不少网友对混元3D模型的表现和开源决策表达了赞赏。相信无论是动漫创作者、游戏开发者等创意人士,还是3D模型的开发者,都能本次开源的模型中受益。
粉碎摩尔定律后,黄仁勋又要打破 Scaling Law 的墙
显卡销冠 他又出手了 刚刚击破摩尔定律的英伟达,却要撞上 scaling laws 的墙? 相当一部分评论家和分析师是这么认为的。即便你不同意,也不能怪他们,毕竟在英特尔的身上,大家刚刚目睹了摩尔定律似乎「失效」了。 在最近两次财报电话会议(25Q3、Q4)中,每次都有不止一位分析师向英伟达 C-level 抛出同一类问题:神经网络的 scaling law 是否不再起到作用了? 他们真正想问的是:英伟达还能否续写连续两个财年的疯狂增长? 这就是在业界甚嚣尘上的 scaling law 撞墙猜测。简而言之,机器学习的 scaling law 的指的是随着模型大小(参数量)、数据集、训练成本这三大要素的提升,大模型的性能也会有所提升(具体细节不展开)。 而许多分析师看到 DeepSeek 震惊世界的成果之后,得出一种新的猜测,认为进一步训练天量参数和超大数据集的大语言模型的意义没那么大了,蒸馏现有超大模型的性能也很不错,完全事半功倍。 而放在英伟达的语境下,考虑到它是 GPT 技术催生和领导的大语言模型爆发的最大受益者,最近连续几个季度的收入又过分严重依赖数据中心;现在大模型的蒸馏新玩法出现,似乎不再需要那么多 Hopper、Blackwell,以及英伟达早已画好路线图的新架构显卡,进而直接导致英伟达图形计算方案产品的市场需求从高位滑落,最近两个财年的疯长神话不再续写。 CEO 黄仁勋理解这种「恐慌」,毕竟公司股票在过去一年里给太多人赚了太多钱。但他不理解人们为什么会有 scaling law 不再适用的想法。 在和软银创始人孙正义的谈话中,黄仁勋提到,只要投入足够的计算资源,采用更复杂的算法,AI 的智能水平还能够继续提升。上一财务季度的电话会议里,黄仁勋又提出了一个关于 scaling law 的新思考框架,具体来说有三个部分:预训练 scaling、后训练 scaling、推理 (包括模型推理 inference 和思维推理 reason)scaling。 而在今天的英伟达 Geforce 技术大会(GTC)上,他进一步阐释了这个新的 scaling law 框架: 通过 DeepSeek,人们用上了能够推理 (reason),具有思维链的 AI。这和 ChatGPT 有本质的区别。ChatGPT 回答很多复杂问题的时候答案都是错的,因为答案是一次性生成的,token 是一个接一个吐出来的。 而现在 AI 能够推理,每个 token 都返回到上一步重新处理,一次又一次的重复,最终形成一个思维链 (chain of thought)」 「我们不只是 token 吞吐量提升了 10 倍,同时也需要 10 倍更快的计算(注:中和更多 token 消耗的时间)。最后的结果是,我们需要 10 x 10 = 100 倍更多的算力!」 事实上在黄仁勋看来,任何人如果理解计算机科学领域的最基本悖论——延迟和吞吐量——就不会说出 scaling law 不再适用那些话。 在基于强化学习,具有思维链 (chain of thoughts) 能力的大模型的推理过程中,每个新 token 都会在产生之后不断地被送回上一步重新处理,用黄仁勋自己的比喻叫做「token 的自我怀疑」。他说,「如果你想要聪明的 AI,你就需要高效率地生成 token。如果你花了太长的时间去生成这些 token,你的客户最后就不用你了。所以你的 token 速度很重要。」 为了证明自己的观点,黄仁勋拿出传统大语言模型代表 Llama 3.3 70B 和 DeepSeek R1 671B(37B 激活),让它们回答同一个复杂问题。 前者生成了 439 个 token,但给出的答案根本没法用,黄仁勋说「400 多个 token 白白浪费了」。后者打开了标志性的「深度思考」模式,结果生成了高达 8559 个 token,得到的答案令人满意。 但和所用算力相比,答案满意与否已经没那么重要了: 具有思维链的 R1 推理模型的 token 吞吐量是传统模型 20 倍,现场演示的用时也比传统模型长了两倍,即便如此都要用到 150 倍的算力。如果换做消费级使用场景下,想要在足够快、能留住用户的时间窗口内,输出经过深思熟虑的可靠结果,需要的算力只会成倍增加。 怎么训练的模型也不太重要了。模型想要在真正的商业和消费应用中高效地进行推理/思考,同样需要大量的算力。早在之前的财报会上黄仁勋就说过,人们目前看得见和用得上的消费级产品,比如搜索、生成、推荐功能,还只是大模型能力的九牛一毛。未来的推理/思考型模型将要消耗掉的算力,将令人难以置信。 他不得不在自己的主场 GTC 上,完整展现自己对于这件事的「思维链」,甚至在台上疯狂做数学题,算 token 秒速、单机架功耗,再把它们合到一起算出每兆瓦秒 token 吞吐性能,推导出新架构产品能让客户多赚多少钱。发布会两个多小时的观感,70% 说服分析师,30% 面向开发者和企业伙伴。 黄仁勋的技术前瞻性的确独一无二,特别是带领公司研发 CUDA 技术走上 GPGPU 道路,使得基于图形计算架构的通用加速计算成为可能。而我们也看到了早年的这些决策,在最近两年里以数据中心业务的形态贡献了英伟达高达 90% 的收入,帮助公司实现高达 56% 的净利润。 但归根结底,黄仁勋是图形加速计算布道者,更是显卡销冠。他需要继续不遗余力地抬高英伟达驱动的 GPU 数据中心——2025 年已经换了一个新名字,叫做 AI 工厂——在企业客户心目中的价值认知和必要性心智,才能续写英伟达的股价神话。 本届 GTC 上发布了很多核弹级的新 AI 加速计算方案,软硬兼施,包括最新 Blackwell Ultra 架构 + NVLink72 互联技术的服务器机架产品和超算集群产品、Dynamo 分布式推理大模型环境部署软件、AI 超算单机 DGX Spark/Station、数字-光纤调制解调模组等、Groot N1 人形机器人基础模型等。 这些产品和技术的意义很大,对于不同规模场景的企业建设自己的 AI 工厂,训练自己垂直领域的独家超大模型和机器人,能带来很可观的效能提升,最终带来更高的收入。 但现场黄仁勋反复采用的一种叙事逻辑,有些耐人寻味: 英伟达在大量的企业级 AI 大模型训练和部署展示中,一而再、再而三地强调大量预先模拟和测试的必要性。 具体来说,未来的千行百业在应用 AI 技术的过程中,需要做大量的、反复的模拟和测试工作。比如一个在工厂流水线工作的机器人,在真人教会他如何摆弄工具之前或者同时,他可以在大模型里跑成百上千次模拟,包括动作模拟、物理引擎模拟,甚至 GPU 虚拟出的不同环境场景下的重复模拟。 而这些模拟测试的内容,毫无意外,也是在英伟达图形计算方案驱动的服务器里进行的。英伟达的 Omniverse 机器人 AI 操作系统和 Cosmos 真实世界基础大模型,正是专为这些模拟测试背后的大模型训练和部署工作而生的。 也就是说,在英伟达看来,不止训练大模型,部署和推理大模型,在现实世界的千行百业应用大模型之前,还要进行大量的训练-推理-再训练-再推理……不断循环往复的强化学习过程。每多强化一点,需要的算力都呈指数级提升。 黄仁勋打的大概就是这个算盘:从 Hopper 架构升级到 Blackwell,token 吞吐效率已经几何提升,转换到客户的每 token 收入翻了 40 倍。而如果再升级到 2027 年的 Rubin 架构,甚至 2028 年的 Feynman 架构,想都不敢想。 The more you buy, the more you save? The more you buy, the more you(we) make! 好在黄仁勋还算有良心,直接把这些未来 2-3 年内的新架构的命名、技术细节、预估提升水平都提前告诉好大家了。这样客户在筹划修建自己的 AI 数据中心的时候,可以充分考虑预算、需要性能、工期等客观因素,来准确地选购自己需要的英伟达显卡。 毋庸置疑的是,英伟达需要持续炒热 GPU 架构革新的意义,加快新架构发布的节奏,甚至在几乎一己之力打破了英特尔的摩尔定律之后,又创造了自己每年一升级的 tick-tock 规则。 只有客户的心智被规训成「永远认为自己需要更好的显卡」,就像每年总忍不住换新 iPhone 那样,英伟达才能有希望保持收入继续增长,即便最近两年的增速已经如此疯狂。 就像大会开场前的暖场对谈里所说的:在任何经济里,卖水的永远会成功。 最后,有一个疑惑萦绕在脑海里: 顺着英伟达的逻辑,总有一天,而且应该不会太久,这个世界上被用于训练和优化所有大模型的数据,全都来自于别的大模型甚至这个大模型自己。
iPhone 17 Air 爆料:苹果首款超薄无端口手机,也是 iPhone 家族变革开端
偏科的 iPhone 时间来到三月距离一年一度的苹果秋季发布会还有半年,但按照往年节奏,iPhone 17 系列的设计验证测试(DVT)与量产验证(PVT)已进入关键阶段。 此时,关于新机的爆料逐渐浮出水面,信息的准确度也显著提升,iPhone 17 系列的轮廓正变得愈发清晰。 不过有些不同的是,今年的焦点并非惯例中的 iPhone 17 或 17 Pro,而是一个全新的角色——iPhone 17 Air。 自 iPhone 6 系列推出大屏手机以来,苹果是第一次重新审视 Plus 机型,并且将产品设计的方向从大屏转移到了超薄上——究竟 iPhone 17 Air 会是一款什么样的手机,目前已经有足够多的信息能够帮助我们窥探这款新 iPhone 的样貌。 超薄的 iPhone 17 Air,会弯吗? 既然「超薄」作为最大的卖点,iPhone 17 Air 的机身厚度也是最受关注的地方。 根据彭博社 Mark Gurman 爆料,iPhone 17 Air 将比 iPhone 16 Pro 薄约两毫米,iPhone 16 Pro 的厚度为 8.25 毫米,那么 iPhone 17 Air 的厚度大约在 6.25 毫米左右。 但还有一些爆料的信息显示,iPhone 17 Air 也许会更薄。 天风国际证券的分析师郭明錤认为 iPhone 17 Air 的厚度将只有 5.5 毫米,与最后一代 iPod nano 的厚度几乎一致;而苹果分析师 Jeff Pu 则同意 iPhone 17 Air 的厚度会在 6 毫米左右。 考虑到这么多年 iPhone 影像模组凸出的传统,或许这两个尺寸只是游标卡尺卡在不同位置所致,换言之,机身最薄处可能在 5.5 毫米,而最厚的地方约 6.25 毫米。 作为对比,iPhone 历史上最薄的产品是 11 年前的 iPhone 6,最薄处厚度为 6.9 毫米,今年将发布的另一台超薄手机——三星 Galaxy S25 Edge 的最薄处厚度则为 5.84 毫米。 薄是卖点,也是麻烦。 iPhone 17 Air 的尺寸选择,曾是苹果内部的一大焦点。 在设计初期,苹果曾考虑两种方案:一是 6.9 英寸,与 Pro Max 和 Plus 机型看齐;二是 6.6 英寸,介于 Pro 与 Pro Max 之间,提供新的尺寸选项。 之所以在尺寸上反复权衡,是因为苹果在「薄」这个字上面,实在是已经吃过太多亏了。 2014 年,iPhone 6 和 iPhone 6 Plus 的发布,让苹果第一次在「薄」这条路上踩到了陷阱。 相比前代,这两款机型采用了更薄的铝合金机身,屏幕尺寸也明显增大。 发布不久后,就有部分用户发现 iPhone 6 Plus 在口袋里使用一段时间后,会出现机身弯折的现象。 虽然苹果最初否认问题的普遍性,但 2018 年的一份集体诉讼案件报告揭露了一个关键事实:苹果在 iPhone 6 系列发布前的内部测试中,已发现 iPhone 6 的弯折概率是 iPhone 5s 的 3.3 倍,而 iPhone 6 Plus 由于机身更大,弯折概率高达 7.2 倍。 在之后的 iPhone 6s 系列上,苹果一改之前采用的铝 6063—T6 合金,使用常见于航空航天和高端自行车制造的铝 7075 合金,抗弯折强度显著提高,大幅减少了 iPhone 6 的弯折问题。 但教训并未止步于 iPhone。 2018 年,苹果推出全面屏 iPad Pro,更纤薄的设计带来了更好的手感和便携性,却也让机身的刚性大幅下降。用户陆续反馈 iPad Pro 在日常使用中容易弯曲,甚至有部分设备出厂时就已略有弯折。 苹果仍然维持一贯的态度,声称轻微弯折「属于正常现象,不影响使用」。 直到 M4 iPad Pro 这一代,苹果才在「全球最薄 iPad」上彻底加强了机身强度,为这一问题画上了句号。 苹果硬件主管 John Ternus 曾在接受采访时表示,新款 iPad Pro 具有新的内部结构,其中新的金属盖位于主板的顶部,沿着设备中部分布,在中间形成了一个「肋骨」支撑着 iPad。 这个设计不仅极大提升了产品的坚固程度,也更有助于散热。有了保持超薄机身的同时加强结构强度的产品经验,相信 iPhone 17 Air 也不会像 iPhone 6 那样弱不禁风。 从最新流出的 CAD 图来看,iPhone 17 Air 的显示屏尺寸最终从 6.9 英寸缩小到了 6.6 英寸。在苹果看来,5 毫米厚度区间内,6.6 英寸是更合理的折中方案,在保证轻薄的同时降低弯折风险。 图片来自 X 用户 @Sonny Dickson 同时,iPhone 17 Air 可能是钛合金含量最高的 iPhone,通过更高比例的钛金属边框提升机身刚性,进一步防止因超薄设计导致的结构性弯折问题。 苹果对「薄」的执念从未改变,但 iPhone 17 Air 选择的每一步,都透露出他们在轻薄与强度之间的谨慎权衡。 iPhone 17 Air 配置大改 ,是偏科生还是特长生? 从多个信源爆料来看,好消息是,非 Pro 版本的 iPhone 也终于要上高刷了,坏消息是,上的是 iPhone 17 Air。 彭博社爆料称,iPhone 17 Air 将配备一些过往 Pro 系列 iPhone 才有的高端功能,比如支持 1Hz 至 120Hz 的自适应刷新率的 ProMotion 屏幕——但也会有一些低端 iPhone 才会见到的配置,比如单摄像头。 在外观设计上,iPhone 17 Air 依然采用灵动岛。尽管此前有传言称,iPhone 17 系列可能会引入超透镜(Metalens)技术,从而缩小灵动岛,但天风国际证券分析师郭明錤认为,当前技术仍未成熟,灵动岛的尺寸缩小或许还需要等待,iPhone 17 Air 仍将保持原有的开孔设计。 影像系统方面,iPhone 17 Air 将采用单摄方案——目前在售的 iPhone 里,仅有 iPhone 16e 是单摄像头设计。唯一的好消息是,这颗摄像头可能与 iPhone 17 标准版的主摄保持规格上的一致,可以拍摄 4800 万像素的照片,同时支持两倍无损的数码变焦,配置还是比 iPhone 16e 的要好些。 摄像头被安置在机身背部顶部的横向条形突起模组中——一侧为摄像头,另一侧容纳了闪光灯与麦克风。值得注意的是,单摄像头的设计意味着 iPhone 17 Air 可能无法拍摄空间视频或空间照片。 尽管 Vision Pro 已具备将普通照片转换为空间照片的能力,但对于视频内容,目前仍然无能为力。换句话说,如果 iPhone 17 Air 仍坚持单摄方案,那么在 Vision Pro 的空间体验上,它或许会有所局限。 此外,iPhone 17 Air 将搭载与 iPhone 17 标准版一样的 A19 处理器,同时配备 8GB 内存,以满足 Apple Intelligence 的使用需求,在轻薄设计与性能之间寻求最佳平衡。 因为超薄设计而一并缩水的配置,还有扬声器和实体 SIM 卡槽。 X 用户 @Majin Bu 公布的 CAD 图不仅泄露了 iPhone 17 Air 的尺寸,同时也泄露了全系列手机的底部开孔情况。 从图片上看,Pro 和 Pro Max 机型每侧的开孔数量相同,而 iPhone 17 Air 的底部开孔则减少到每侧只有 2 个。 图片来自 X 用户 @Majin Bu 而在此之前,已经有相关爆料称 iPhone 17 Air 不再采用双扬声器设计,仅在机身顶部配备扬声器,以便在有限的机身空间内为电池及其他关键元件让路。结合 CAD 图片来看,底部开孔很可能仅用于麦克风。这意味着 iPhone 17 Air 的外放音质将会受损。 与此同时,实体 SIM 卡槽也将在 iPhone 17 Air 身上消失。 图片来自 X 用户 @Sonny Dickson 目前,苹果已在美国市场推出完全取消 SIM 卡槽的 iPhone 机型,而在其他地区,iPhone 至少保留了一个实体 SIM 卡槽。而为了让超薄设计落地,iPhone 17 Air 可能会全面摒弃实体 SIM 卡的设计。 最后,是关于 USB-C 接口的取舍。 在许多折叠屏手机上,我们已经看到机身厚度逐步逼近 USB-C 接口的物理极限。而在 iPhone 17 Air 的设计过程中,苹果同样曾认真考虑彻底砍掉 USB-C 接口,以释放更多内部空间,实现更极致的轻薄设计。 刚出现没多久的 USB-C 差点与大家告别 如果 USB-C 接口被移除,苹果目前唯一可行的充电方案便是 MagSafe 磁吸充电。不过,MagSafe 仍面临诸多挑战,包括充电发热、功率受限,以及部分国家和地区的无线充电频段限制,距离完全成熟的体验仍有一定差距。 所以在最新爆料中,Mark Gurman 表示苹果最终决定保留 USB-C 接口,但这并不意味着苹果已完全放弃「无端口化」的设想,苹果高管对 iPhone 17 Air 相当重视: iPhone 17 Air 代表了苹果大变的开始,如果这款新 iPhone 成功,苹果打算再次尝试制造无端口 iPhone,并陆续应用到更多机型上。 显然,iPhone 17 Air 看上去像是偏科生,实则是苹果眼中的特长生。 iPhone 家族求变第一步,也是决定性一步 早在 iPhone 16e 发布之前,苹果官方对于 iPhone 的宣传口径就已经悄然变化——从 iPhone 变成了 iPhone 家族(iPhone family)。 在 iPhone 17 Air 之前,iPhone 只有数字系列和 Pro 系列两条产品线,相同产品线的配置基本一致,只有尺寸不同—— 比如 iPhone 12 mini、iPhone 12 跟 iPhone 12 Plus,只有屏幕尺寸大小和电池容量不同,但其他配置都保持同一规格。 而 iPhone 17 Air 不同,它以约 899 美元的价格取代了销量低迷的 Plus 机型,定价介于标准版与 Pro 之间,这个区间既不会撼动标准版的核心市场,也不会侵蚀 Pro 系列的高端定位,反而为苹果提供了更大的试验空间,去探索更加激进的产品形态。 低端与高端、妥协与突破并存的矛盾组合,造就了在 iPhone 家族中独树一帜的 Air。 与产品本身同样值得探讨的,是 iPhone 17 Air 的定位——苹果为何要在 iPhone 17 这个代际,推出这样一款充满矛盾的机型? 折叠屏的探索已被提上日程——前不久,业内消息称苹果计划在 2026 年推出折叠屏 iPhone,爱范儿此前也对苹果提速折叠屏 iPhone 的可能性做过详细分析。 就像 iPhone X 在推出前,苹果就已在 AppleWatch 上广泛测试 OLED 技术那样,iPhone 17 Air 在超薄机身、结构调整、接口裁撤上的尝试,很可能正是苹果的一场技术实验,为折叠 iPhone 铺路。 另一方面,还是老生常谈的问题,Apple Intelligence 和 Vision Pro 的表现不及预期,苹果未来很多年都还需要让 iPhone 来挑大梁——但 iPhone 单薄的产品线已经不足以满足市场的需求,苹果亟待一场变革。 iPhone 17 Air 可能是另一个革命的火种。 文 | 周奕旨
16天闪电融资超16亿!大模型独角兽暴风吸金,已集齐成都+珠海+杭州+北京四城投资
作者 | ZeR0 编辑 | 漠影 智东西3月19日报道,清华系AI大模型独角兽智谱又双叒融资了!今日,在四川省人工智能产业链产品发布会,成都高新区宣布战略投资智谱超亿元。 成都高新区将与智谱共同打造四川省首个基座大模型“智谱诸葛大模型”。智谱诸葛大模型全国总部项目总投资额3亿元,将建设智谱诸葛大模型研发中心。 其还将打造智谱成都Z计划生态孵化平台,对成都市人工智能及具身智能行业项目进行投资及产业协同。项目预计3年内累计赋能企业不低于500家,5年内争取不低于1000家企业。 这是4个月内第四个地方政府国资押注智谱,也是本月智谱官宣的第三笔地方政府战略投资。 此前在去年12月17日,智谱完成30亿元融资,引入北京海淀中关村科学城等多家战投及国资机构;今年3月3日,智谱完成超10亿元战略融资,参与投资方包括杭州城投产业基金、上城资本等;3月13日,珠海最大的综合型国有企业集团珠海华发集团宣布战略投资智谱,金额为5亿元。 智谱不仅是国内估值率先超过200亿的大模型创企,也是当前估值最高的大模型公司之一。该公司透露2025年将是其开源年,很快会发布全新大模型(包括基座、推理、多模态、Agent)并将其开源。 智谱诸葛大模型研发中心将针对诸葛大模型及其迭代衍生模型进行研发,进行B端垂类模型研发及业务运营工作;建设智谱产业应用西部赋能平台、西部创新中心,搭建大模型服务MaaS平台,立足成都高新区、面向全国企业“人工智能+”转型升级提供赋能服务,积极引进生态伙伴在成都落地。 智谱诸葛大模型专门针对四川的特色产业和实际场景需求来设计。该模型基于全自研GLM技术架构,深度融合了四川本地产业数据和政务需求。在回答政策、民生、消费等问题时,诸葛大模型几乎不会出现“答非所问”或“已读乱回”的情况,其提供的信息更可信、更可靠。 此外,以基座模型为基础,诸葛大模型目前覆盖文旅、民生、教育、政务、金融五大核心场景,打造各类Agent功能。 作为成都建设国家新一代人工智能创新发展试验区和国家人工智能创新应用先导区的主要承载地,成都高新区已聚集500余家人工智能相关企业,其中链主企业6家,专精特新企业超130家。 截至2025年1月,72个深度合成算法完成备案,已基本构建起覆盖基础层、技术层到应用层的人工智能产业创新发展体系。 去年11月,《成都高新技术产业开发区加快数字经济产业重点领域高质量发展若干政策》启动申报,人工智能被放在首位,对推动关键技术攻关的企业给予最高1000万元的研发补助。为进一步支持人工智能(机器人)产业高质量发展,成都高新区即将出台人工智能专项政策。 在即将出台的人工智能专项政策中,成都高新区将对符合条件的人工智能优秀人才给予最高50万元奖励。此外,成都高新区还将发布《成都高新区急需紧缺人才和高端人才(人工智能类人才)目录》,进一步优化人工智能人才队伍建设。 成都高新区已设立100亿元人工智能产业母基金,储备总规模超70亿元子基金。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。