行业分类:
加载中...
头条分类:
加载中...
前谷歌高管Mo Gawdat:在抵达AI乌托邦之前,我们会先经历一段至暗时光
近两年,AI的发展进入高速时代,产品层出不穷,更新速度惊人。从ChatGPT到DeepSeek,AI正逐渐渗透到所有人生活的方方面面。人们在享受AI带来的便利的同时,疑惑也层出不穷:AI会不会抢打工人的饭碗?老人和其他不太会使用AI工具的人会不会被社会淘汰?甚至还有终极的担忧——AI会不会发展到人类再也无法掌控的那一天? 本月,在播客节目The Diary of A CEO中,主持人Steven Bartlett与嘉宾Mo Gawdat就AI对社会的影响,以及人类如何应对即将到来的技术变革进行了讨论。Mo Gawdat是谷歌前高管,曾任谷歌X实验室首席商务官,对AI发展有深入思考,曾多次对未来人类社会将如何受到AI影响进行分析。 ●图为Mo Gawdat Mo Gawdat认为在接下来的十几年内,世界将经历一个不可逆转的转型时期,人们对自由、责任、经济和权力的方式将发生根本性改变。因此,需要为迎接一个陌生的世界做好准备。他强调了构建AI社会的重要性,并持乐观态度:尽管会经历一段不可避免的混乱时期,但AI最终能让世界变得更美好。此外,Mo相信转变的开始将在2027年发生。 本次访谈由Steven Bartlett主持,经未来人类实验室整理编译,以下为本次播客内容的精华—— 在AI乌托邦到来前, 我们要先经历一段动荡混乱时期 主持人:Mo,两年前我们就曾经讨论过人工智能,从那时起,AI就以惊人的速度发展。两年过去了,现在你最担心的是什么? Mo Gawdat:从2023年ChatGPT发布开始,事情的进展比我以往见过的任何事情都要快得多。我改变了自己的立场。我曾经说过,我们可以做一些事情来改变(AI高速发展)这件事的进程,但现在我不这么认为了。现在我认为我们将会经历一个短暂的反乌托邦(Dystopia)。 主持人:什么是反乌托邦? Mo Gawdat:我称之为FACE RIP: F - Freedom 自由 A - Accountability 责任 C - Connectioon 人与人之间的连接 E - Economics 经济 R -Reality 现实 I - Innovation 创新 P - Power 权力 这七项曾经由人类定义,未来将由AI定义。 未来的12-15年,我们必须为即将到来的世界做好准备。而反乌托邦(Dystopia)不是一种好情况,事情发展可能会超出我们的控制。问题在于,在机器高速发展的时代,人类的价值观和伦理观存在着很多问题。很不幸的是,AI正在放大人类能够做的恶事。我认为,人类现在还没有意识到这一点。 ●Mo Gawdat解释反乌托邦 主持人:但是你认为短暂的反乌托邦时期后,人类会迎来乌托邦? Mo Gawdat:没错。当我们完全将控制权交给AI时,反而能得到救赎。AI并不会和我们作对,真正和我们作对的是人类的愚蠢。 主持人:你认为这个反乌托邦时期将持续多久? Mo Gawdat:12-15年。从2027年开始。 老板们别太高兴了, AI早晚让你们也失业 主持人:AI掌握了我们的很多信息,更擅长追踪我们的身份,是否会使我们的自由受到限制? Mo Gawdat:如果你关注Manus或者ChatGPT,就会发现,有朝一日你不需要自己做事情了。你可以对你的AI说,嘿,我要去见Steven,你能帮我预约一下吗?它可以帮你完成所有事。 主持人:在你看来,未来十年内,工作岗位被AI取代的可能性有多大?有种说法是,技术发展会创造新的岗位。 Mo Gawdat:和人类产生直接连接的工作,比如带着学员去世界各地修行的瑜伽导师、理发师之类的工作不容易被取代,但这种工作和会计师、程序员之类的白领工作相比太少了。但是,任何行业顶尖的那批人会留下。老板们很开心可以摆脱他们的员工——人工智能为他们节省了极大的人力成本。有趣的是,这些老板也终将被取代。总有一天,大多数不称职的CEO都会被取代。 为什么AI势必比人类强? 因为它能自我进化 Mo Gawdat:最有趣的但又没人讨论的是自我进化的人工智能。设想一下,如果你我聘请了世界上最优秀的工程师来开发我们的AI模型,有了有学习能力的AGI,世界上最顶尖的工程师就成了AI。举个例子,Alpha Evolve,这个进化式编程智能体是谷歌试图让四个智能体一起工作,来写代码。这四个智能体分别提出问题,提供解决方案,评估解决方案,然后继续完成。谷歌通过Alpha Evolve AI基础设施提升了至少8%。 主持人:这给谷歌带来了极大的增速,节省了很大的成本? Mo Gawdat:是的,如果AI能够独立自主地发现产品当前的问题,提出优化方案、验证可行性并执行、自主寻找漏洞,那么显而易见,下一个用来开发AI的肯定不是人脑。 你能看见月亮的哪一面, 还是钱的问题 主持人:Sam Altman曾经表示,公开发布模型、开源的风险太大了,这项技术会被世界各地的坏人利用,对此你怎么看? Mo Gawdat:还是钱的问题。Sam Altman自己曾经说过,我做的最好的事就是把Open AI交给世界,让全世界都可以看到它,代码被所有人看见。这个时期,你也可以说这些代码会被坏人利用。把这两种同时放在资本面前,你认为他们会怎么选择?还是得看他们当下需要的是什么。是获取更大的关注,还是收获更大的利益。 AI时代, 普通人的收入会增加还是减少? 主持人:谈谈你对资本影响下,AI会怎样影响普通人收入的看法吧。 Mo Gawdat:在二战后的一段时间,工业飞速发展,大部分的美国家庭都拥有了他们生活所必需的东西。但是资本们为了继续盈利,他们需要说服你,你拥有的还不够。要么通过使你拥有的东西变得过时——人们管这个叫时尚——比如向你推销全新外观的汽车,来提醒你生活中还有很多你没有的东西,从而赚你更多的钱。 这种盈利方式到了今天,一种基于生产和消费的生产模式。现在美国GDP的62%是由消费产生的,而不是生产。这就要求消费者有足够的消费能力来购买生产的物品。这种模式还将继续。 ●AI生成的乌托邦图景 而AI时代的到来,提醒了资本们,大多数生产都由AI来完成了,人类能提供给我的劳动力越来越少,为什么我不少给他们点钱呢?短期之内,人们的收入会降低。但是,如果AI发展到了一定程度,生产的成本大幅度降低,人们获取一切资源的成本都趋近于零,我之前说过的AI乌托邦时代就到来了。事实上,挑战不在于技术,而在于心态,在于精英阶级能否想通权力、金钱和社会义务之间的关系。 主持人:现在很多体力工作已经被机器取代了,那么你认为AI 取代脑力工作者需要多久? Mo Gawdat:AI距离学会并取代大多数人类脑力工作者还有至少四到五年的时间。在它们学会后,生产足够多的机器人来完成替代还需要一段时间。
苹果新AI模型长视频理解夺冠,小至1B版本也领先对手
IT之家 8 月 23 日消息,科技媒体 9to5Mac 今天发布博文,报道称苹果研究团队开源 SlowFast-LLaVA-1.5 长视频多模态大语言模型,在 1B、3B、7B 参数规模下,均刷新 LongVideoBench、MLVU 等 SOTA 基准纪录。 IT之家援引博文介绍,当前大语言模型在处理和理解视频方面,通用做法是在 AI 预训练中集成视频感知,但这种做法存在以下 3 重局限性: 现有现有模型往往严重依赖长上下文窗口,而处理时通常会遇到大量冗余帧,易超出上下文窗口限制,从而丢失信息。 大多数训练需要复杂的多阶段训练管道(通常使用私有数据集),难以重现。 许多模型仅针对视频任务优化,限制了在图像的理解,从而降低通用模型的实用性。 苹果公司针对上述 3 个局限性,首先研究推出了 SlowFast-LLaVA 开源模型,最大的亮点是创新双流(two-stream)设置,其中“慢流”选取少量高分辨率帧捕捉场景细节,“快流”选取更多低分辨率帧追踪运动变化。 苹果进一步在开源模型 SlowFast-LLaVA 模型上,通过微调图像模型,进一步增强视觉推理能力,再联合图像与视频训练,保留图像理解优势,推出了 SlowFast-LLaVA-1.5 版本。 在设计上,SF-LLaVA-1.5 将输入视频帧数固定为 128,其中快流 96 帧,慢流 32 帧,适配各种时长视频。这种方法虽可能漏掉关键帧或影响播放速度判断,但显著降低了计算和显存需求。研究团队指出,可通过引入内存优化技术(如随机反向传播)进一步改进,但需解决高显存占用问题。 测试显示,该模型在长视频基准 LongVideoBench、MLVU 上均取得新纪录,而且 1B 版本也能领先竞争对手。同时,它在知识问答、数学推理、OCR 等图像相关任务上表现出色,实现视频与图像的通用理解能力。 该项目完全基于公开数据集训练,方便学术与产业复现,并已在 GitHub 与 Hugging Face 开源。
2025中国算力大会开幕 联想发布《2025 AI方案赋能白皮书》
凤凰网科技讯(作者/于雷)8月23日,2025中国算力大会昨日在山西大同举行。联想集团作为全球算力基础设施和服务提供商,连续第三次受邀参会。会上,联想集团副总裁、中国基础设施业务群总经理陈振宽正式发布《2025 AI方案赋能白皮书》,这是继去年异构智算产业生态联盟成立后,联想联合中国智能计算产业联盟等合作伙伴发布的第二本异构智算白皮书。 该白皮书通过技术演进趋势分析和典型案例解析,为不同行业的智能化转型提供了具体的解决路径,构建了AI应用与新型基础设施融合的全景蓝图。陈振宽在主旨演讲中表示:“算力、模型和应用是AI发展的三条主线,它们融合发展,共同推动了AI潮流穿越周期。” 在大会颁奖环节,联想万全大模型训推一体解决方案荣获“年度重大突破成果奖”,这是联想连续第二年在该会议上获得重要奖项。去年,联想万全异构智算平台曾入选“算力中国·年度重大成果”。 技术展示方面,联想围绕智能计算、高性能计算和通用计算三大场景,展出了覆盖全场景的算力基础设施产品和解决方案。其中,联想万全异构智算平台3.0版本新增了AI推理加速算法集、AI编译优化器、AI训推慢节点故障预测与自愈系统、专家并行通信算法四项关键技术。 值得关注的是,联想展示的“双循环”相变浸没制冷系统实现了1.035的PUE值,达到世界顶尖水平。这意味着96.6%的电力消耗可直接用于AI训练和推理计算,显著提升了能源利用效率。 在高性能计算领域,联想ThinkSystem SC750 V4服务器采用“联想问天海神”温水冷技术,功耗较传统风冷降低40%,PUE值可降至1.1以下。该技术已应用于上海交大“思源一号”高性能计算系统。 AI终端方面,联想天禧个人超级智能体以及ThinkBook Plus Rollable AI元启版卷轴屏电脑、联想YOGA Pad Pro 14.5 AI元启版平板等创新产品,展现了跨平台、跨设备的新一代人机交互体验。 联想自2017年开始构建包含AI终端、AI基础设施、AI解决方案与服务的全栈AI体系。当前,人工智能技术加速渗透各行各业,算力作为新质生产力的重要载体,正成为智能时代的核心战略资源。联想通过混合式AI策略,推动算力普惠化发展,为千行万业的智能化转型提供技术支撑。
刚刚,苹果AI华人总监跳槽Meta!核心团队再-1,库克被迫求助谷歌
编辑:元宇 好困 就在刚刚,苹果AI工程总监Frank Chu被曝加入Meta。 他将在MSL Infra的新团队工作,负责AI基础设施相关事务。 这是自苹果模型团队的创建者庞若鸣,被Meta以一份价值2亿美元的薪酬包挖走之后,苹果AI项目面临的最重大的损失之一。 苹果AI得力干将 曾主导模型训练部署 自苹果AI模型团队原负责人庞若鸣之后,Tom Gunter、Mark Lee、Bowen Zhang、Yun Zhu等大牛相继离职苹果加入Meta。 Frank Chu的跳槽,使他成为至少第六位从苹果投奔Meta的AI模型领域员工。 2019年,Frank Chu加入苹果,担任技术总监的职务。 在苹果期间,他是AI基础设施高管Benoit Dupin的得力副手,而Dupin则直接向公司AI战略主管John Giannandrea汇报。 技术层面,他不仅主导苹果基础模型(AFM)及开源大语言模型在公有云上的推理部署,而且还牵头了苹果基础模型的数据预训练工作,为AFM团队提供模型预训练所需的全部Token。 同时,他还领导搜索平台团队,为Siri、Safari、Apple Music、Apple TV、App Store等苹果旗下产品提供了核心搜索技术支持。 加入苹果之前,Frank Chu曾在多家全球顶级科技公司担任技术领域的关键工作。 Waymo技术主管,近4年,从零构建并领导了Waymo的训练基础设施(超2000个TPU)。该平台被公司所有团队用于大规模训练感知、路径规划及其他模型。 谷歌搜索软件工程师,近9年。 此前,他在英属哥伦比亚大学获得数学与计算机科学学士学位,在多伦多大学获得计算机科学硕士学位。 疯狂「烧钱」挖角超50人后 Meta紧急冻结招聘 虽然Frank Chu刚刚入职,但实际上,在历时数月、豪掷数十亿美元大举招揽了超过50名AI研究员和工程师之后,Meta已冻结其人工智能部门的招聘。 该禁令还禁止部门内现有员工的跨团队调动,此次招聘冻结已于上周生效,与该部门更大范围的重组同步进行。公司内部并未传达此次冻结将持续多久。 知情人士称,外部招聘禁令或有例外,但必须获得Meta首席AI官Alexandr Wang的特批。 一位Meta发言人证实了此次冻结,并称这次历时数月的AI人才招募,将为Meta新的超级智能项目构建一个坚实的组织架构。 目前,根据外媒的报道,HR收到的备忘录透露了以下几个关键信息: Meta决定暂停所有MSL团队的招聘,但业务关键性职位除外 此举将使领导层能够在我们制定战略的过程中,深思熟虑地规划2026年的员工增长计划 任何业务关键性岗位的招聘,将由Alex的团队逐案评估 人虽停招,但投资步伐没停。 Alexandr Wang近日在社交媒体上发帖称,公司正在「对Meta超级智能实验室进行越来越多的投资」。 目前,Meta AI共有四个团队,共同隶属于「Meta超级智能实验室」: 第一个是致力于超级智能的TBD Lab; 第二个负责AI产品; 第三个负责基础设施; 第四个则专注于更长远、更具探索性的项目。名为「基础AI研究部」(Fundamental AI Research),在此次重组中基本保持原样。 在此之前,Meta曾有一个名为「AGI基金会」(AGI Foundations)的团队,负责开发公司最新版本的大语言模型Llama。 然而,在最新一代Llama模型于今年春天发布后,因其表现未达预期,该团队遭到了高管的批评,并在此次重组中被解散。 在Meta最近的股票授予日(8月15日)前后,至少有三名前AGI基金会团队的成员在内部宣布将离职。 正是在4月份Llama模型发布之后,扎克伯格开始亲自出马招募AI研究员。 截至8月中旬,Meta已成功为该项目从OpenAI挖来超过20名研究员和工程师,从谷歌挖来至少13名,此外还有3名来自苹果,3名来自xAI,2名来自Anthropic,新员工总数超过50人。 苹果密洽谷歌 或用Gemini重塑Siri 对于苹果而言,这波人才出走潮,为其本已步履维艰的AI项目带来了更多动荡。 这一变动,再加上庞若鸣的离职,给苹果的AI模型团队带来了巨大冲击,并进一步加剧了人才流失。 据透露,苹果近期已与谷歌进行接洽,商讨构建一个定制化AI模型,以作为明年新版Siri的技术基础。 知情人士称,谷歌已开始训练一个可在苹果服务器上运行的模型。 此举是苹果为追赶其在生成式AI领域颓势所做努力的一部分。 苹果在AI领域起步较晚,且后续发展乏力。与第三方AI模型合作,可能在苹果公司内部已经酝酿一段时日。 今年早些时候,苹果还曾探讨与Anthropic及OpenAI建立合作,评估Claude或ChatGPT作为Siri新「大脑」的可能性。
前亚研院谭旭离职月之暗面,加入腾讯混元,AI人才正加速回流大厂
图片来源:Unsplash 根据让互联网飞一会儿的报道,微软亚洲研究院前首席研究经理谭旭已于近期正式加入腾讯混元团队,负责多模态方向的前沿研究。 谭旭是一位在学术与产业界都颇具分量的研究者:在微软研究院任职期间,他的研究聚焦于生成式人工智能,以及语音、音频与视频内容生成,其论文引用量已超过万次,研究成果也被大规模应用于 Azure、Bing 等核心产品。他还多次担任 NeurIPS 等国际顶级学术会议的审稿人,在学术界有着较高声望。 值得注意的是,谭旭在去年 8 月才刚刚加入国内大模型创业公司“月之暗面”,负责研发端到端语音模型。据悉,该公司的多模态研究在他入职前已悄然展开数月。去年底,随着 DeepSeek 的横空出世,中国 AI 六小龙的光环迅速褪色,月之暗面也放缓了原先激进的投流步伐。 多模态的探索对算力与资金消耗极其庞大,这一点对创业公司来说几乎是不可承受之重。对比之下,即便是当下风头正盛的 DeepSeek,也仍然以文字与推理能力为主,尚未在多模态方向真正大规模突破。而像腾讯、字节这样的大厂,在资源、生态与算力上的优势更加明显,能够为多模态研究提供长期稳定的支持。从这个角度看,谭旭从创业公司转向腾讯混元,既是个人职业路径的自然延续,也是中国大模型版图中一个颇具象征意义的信号。 更深层的解读是,中国大模型赛道正在经历“由野蛮生长到资源集中”的转折。早期创业公司依靠故事、融资与速度抢占叙事高地,但随着竞争进入比拼数据、算力、落地生态的深水区,创业公司的先发优势正在迅速消退。大厂凭借资本实力、算力基础设施和应用场景,正逐步收拢最顶尖的人才与技术方向。 谭旭的选择,某种意义上也是这一趋势的缩影:当赛道进入淘汰赛阶段,个人要想继续在多模态领域做出成果,或许唯有依附大厂,才能确保研究的持续性与产业化的可能。
比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次
编辑:定慧 好困 【新智元导读】DeepConf由Meta AI与加州大学圣地亚哥分校提出,核心思路是让大模型在推理过程中实时监控置信度,低置信度路径被动态淘汰,高置信度路径则加权投票,从而兼顾准确率与效率。在AIME 2025上,它首次让开源模型无需外部工具便实现99.9%正确率,同时削减85%生成token。 如何让模型在思考时更聪明、更高效,还能对答案有把握? 最近,Meta AI与加州大学圣地亚哥分校的研究团队给出了一个令人振奋的答案——Deep Think with Confidence(DeepConf),让模型自信的深度思考。 论文地址:https://arxiv.org/pdf/2508.15260 项目主页:https://jiaweizzhao.github.io/deepconf 这项新方法通过并行思考与「置信度筛选」,不仅让模型在国际顶尖数学竞赛AIME 2025上拿下了高达99.9%的正确率。 可以说,这是首次利用开源模型在AIME 2025上实现99.9%的准确率,并且不使用任何工具! 并且在保持高质量推理的同时,将生成的token数量削减了84.7%。 DeepConf还为并行思考(parallel thinking)带来了多项硬核优势: 性能飙升:在各类模型与数据集上,准确率平均提升约10% 极致高效:生成token数量锐减高达85% 即插即用:兼容任何现有模型——无需额外训练(也无需进行超参数微调!) 轻松部署:在vLLM中仅需约50行代码即可集成 以DeepConf在HMMT 25(哈佛–麻省理工数学竞赛)的第11道题目上的推理过程为例。 核心思想是DeepConf通过「置信度信号」筛选推理路径,从而得到高质量答案,并在效率与准确率之间取得平衡。 横轴(token index):表示模型生成的推理步骤(随着token逐步增加)。 纵轴(confidence):表示每条推理路径在该步骤上的置信度水平。 绿色曲线:表示不同推理路径的置信度轨迹,越深的绿色表示置信度越高。 红色叉叉:低于置信度阈值的推理路径,被动态筛除。 绿色对勾:最终被保留下来的高置信度路径。 最终表决:这些路径在基于置信度加权的多数表决下,最终得出统一答案:29。 DeepConf在生成过程中,会持续监控推理路径的置信度,低置信度路径被及时淘汰,只保留「更有把握」的路径,提升整体准确性。 通过准确率对比曲线,上图可以看出纵轴是accuracy(准确率),黄色曲线(DeepConf)比蓝色曲线(标准方法)明显更高。 表明DeepConf在相同投票规模下能达到更高的准确率。 下图横轴是token数量(推理所需的计算成本),黄色曲线在准确率保持较高的同时,token消耗明显更少。 表明DeepConf大幅减少了无效token的生成,推理效率更优。 DeepConf让模型不再「胡思乱想」,而是高效地走在高置信度的推理轨道上。 DeepConf支持两种工作模式: 离线模式:根据置信度筛选已完成的推理路径,然后根据质量对投票进行加权。 在线模式:当置信度实时降至阈值以下时,立即停止生成。 DeepConf的秘诀是什么? 其实,LLM知道自己何时开始不确定的,只是大家一直没有认真关注过他们的「思考过程」。 之前的方法在完整生成之后使用置信度/熵用于测试时和强化学习(RL)。 DeepConf的方法不同,不是在完成后,而是在生成过程中捕捉推理错误。 DeepConf实时监控「局部置信度」,在错误的推理路径消耗数千个token之前及时终止。 只有高质量、高置信度的推理路径才能保留下来! DeepConf是怎样「用置信度筛选、用置信度投票」? 这张图展示了DeepConf在离线思考时的核心机制: 它先判断哪些推理路径值得信赖,把不靠谱的路径提前剔除,再让靠谱的路径进行加权投票,从而得到一个更准确、更高效的最终答案。 首先是每一token「有多确定」。 当模型在写推理步骤时,其实每个词(token)背后都有一个「信心值」。 如果模型觉得「这一步答案很靠谱」,信心值就高。如果它自己都拿不准,这个信心值就会低。 上图里用不同深浅的绿色和红色标出来:绿色=更自信,红色=不自信。 其次,不光要看单token,还要看整体趋势。 DeepConf不只看某一个词,而是会滑动窗口:看看一小段话里的平均信心值,衡量「这段话整体是否靠谱」。 重点看看最后几句话的信心值,因为最终答案、最终结论往往决定于结尾。 DeepConf也会记下这条推理链里最差的一步,如果中间有明显「翻车」,这条路径就不太可靠。 这样一来,每条完整的推理链路都会得到一个综合的「置信度分数」。 最后,是先淘汰,再投票。 当模型并行生成很多条不同的推理路径时: 第一步:过滤,把「置信度分数」排序,最差的10%直接丢掉,避免浪费。 第二步:投票,在剩下的推理链里,不是简单数票,而是按照置信度加权投票。 也就是说:一条高置信度的路径,它的意见分量更大;低置信度的路径,即便答案一样,也不会拉高太多票重。 最后看一下结果,在图的右边可以看到:有的路径说「答案是109」,有的说「答案是103、104、98」。 但由于支持「109」的路径更多、而且置信度更高,所以最终投票选出了109作为答案。 成绩刷爆99.9% 比GPT-5还高 离线模式结果:在AIME 2025上达到99.9%的准确率(基线为97%)! 在5个模型×5个数据集上实现普适性增益。 在所有设置下均取得约10%的稳定准确率提升。 在线模式结果:在所有基准测试中节省33%-85%的token! 在AIME 2025基准测试中,使用GPT-OSS-120B,在减少85%的token消耗下,仍达到97.9%的准确率。 该方法适用于从8B到120B的各类开源模型——在不牺牲质量的前提下实现实时高效。 在离线环境中对置信度度量进行基准测试。报告的数值为准确率(%)。 Cons@512和mean@512分别表示使用512条推理轨迹进行的多数投票结果,以及平均置信度的均值。所有实验均重复进行了64次。 在在线环境中对DeepConf进行基准测试。 在投票规模预算为512的条件下,报告多数投票方法与DeepConf(高/低)的方法的准确率(%)以及生成的token数量(×10⁸)。 基于置信度的深度思考 研究者的思考是:到底怎么把「置信度」用得更巧妙,让模型既想得更准,又想得更快呢? 正如前文所述,这里可以分成两个使用场景: 离线思考:等模型把一整条推理路径都写完了,再回头去评估每条路径的置信度,把靠谱的结果聚合在一起。这样做的好处是能最大化提升答案的准确性。 在线思考:在模型一步步生成推理的过程中,就实时参考置信度。如果发现某条思路不靠谱,可以及时停掉,避免浪费算力。这样能边走边筛选,提升效率甚至精度。 离线思考 在离线思考模式下,每个问题的所有推理路径均已生成。 此时的核心挑战是:如何聚合来自多条路径的信息,从而更准确地确定最终答案。 针对这一点,研究人员采用了标准的多数投票(majority voting)方法。 多数投票(Majority Voting) 在标准的多数投票中,每条推理路径得出的最终答案对最终决策的贡献是均等的。 设T为所有已生成路径的集合,对于任意路径t∈T,设answer(t)为从该路径中提取的答案文本。 那么,每个候选答案a的票数为: 置信度加权多数投票 这个方法不再均等对待每条路径的投票,而是依据其关联路径的置信度,为每个最终答案赋予权重。 对于每个候选答案a,它的总投票权会被重定义为: 置信度过滤 在加权多数投票的基础上,还需要应用置信度过滤,才能在将投票更集中于高置信度的推理路径。 具体来说就是,通过路径的置信度分数,筛选出排序前η%的路径,从而确保只有最可靠的路径参与最终答案的决定。 选择前10%:专注于置信度最高的少数路径。适用于少数路径就能解决问题的场景,但风险是如果模型存在偏见,容易选错答案。 选择前90%:纳入更广泛的路径。这种方法能保持多样性、减少模型偏见,在各路径置信度相差不大时尤其稳健。 图3阐释了各种置信度度量方法以及基于置信度的离线思考的工作原理。 算法1则提供了该算法的详细实现。 在线思考 在线思考模式通过在生成过程中实时评估推理路径的质量,来动态终止低质量的路径,进而确保其在后续的置信度过滤阶段大概率能被排除。 对此,研究人员提出了两种基于最低分组置信度,并会自适应地中止生成过程并调整推理路径的预算的方法:DeepConf-low和DeepConf-high。 其中,共包含两大核心组件:离线预热与自适应采样。 离线预热(Offline Warmup) DeepConf需要一个离线预热阶段,以便为在线决策过程建立停止阈值s。 对于每个新的提示词,首先生成Ninit条推理路径(例如,Ninit=16)。 停止阈值s定义为: 在所有配置下,DeepConf-low均统一采用前η=10%的策略,而DeepConf-high则统一采用前η=90%的策略。 在在线生成过程中,一旦某条推理路径的置信度低于预热阶段的数据所设定的、能够筛选出置信度排序前η%路径的最低门槛,生成过程就会被终止。 自适应采样(Adaptive Sampling) 在DeepConf中,所有方法都采用了自适应采样,如此就可以根据问题难度动态调整所生成推理路径的数量。 问题难度通过已生成路径之间的一致性程度来评估,其量化方式为多数投票权重与总投票权重的比值: 若β 由于采用的是最低分组置信度,一个足够大的预热集便能产生对停止阈值s的精确估计。 因此,任何被在线终止的路径,其分组置信度必然低于s,也就会被离线过滤器所排除。 这样,在线流程便能近似于离线的最低分组置信度策略,并且随着Ninit的增加,其准确率会逼近离线策略的准确率。 图4中阐释了在线生成的过程。 算法2则提供了该算法的详细实现。 具体过程,我们就用上图里的这道「勾股三元组计数」问题举个例子。 DeepConf要在生成推理的同时判断:哪条思路靠谱、该继续;哪条思路不靠谱、该尽早停,从而少花token、又更准。 两个阶段:先定阈值,再在线筛 1. Offline Warm-up(上图右侧,离线预热) 先离线跑几条完整的推理轨迹(Trace 1~5),给每条算一个「整体有多靠谱」的分数。 按分数做一次置信度过滤,好的轨迹在上方(绿色),差的在下方(红色)。 据此确定一个停止阈值s(图中绿色箭头标注)。 简单来说就是低于 s 的,通常是不值得继续的推理。 这一步就像「热身+标定」,模型把「该不该停」的门槛先定好。 2. Online Generation(上图中间,在线生成) 正式解题时,同时展开多条并行思路(多行的方块序列)。 对每条思路,系统滚动地评估「这段话最近一小段的可靠度」(图中方块从左到右代表一步步的生成)。 左下 & 右下的小曲线各自表示模型的「把握」程度。 左下绿曲线表示模型对接下来的词更「有把握」,示例文本是正经的数学推理(如「勾股三元组公式…」),这类内容通常被保留。 右下红曲线表示模型在犹豫或「自我怀疑」,示例文本是「让我再想想、回头检查一下…」,这类犹豫/兜圈子的片段常被判为低置信度,从而触发在线早停。 先离线确定「可靠度阈值s」,再在线用s给并行思路「边走边检查」。 不靠谱就当场叫停,靠谱的继续前进。这样就能做到既快又准了。 作者介绍 Yichao Fu 论文一作Yichao Fu是加州大学圣地亚哥分校(UC San Diego)计算机科学与工程系的博士生,师从张昊教授,也就是老朋友Hao AI Lab的负责人。 此前,他在浙江大学获得计算机科学学士学位。 他的研究兴趣主要为分布式系统、机器学习系统以及高效机器学习算法,近期专注于为LLM的推理过程设计并优化算法与系统。 他参与的项目包括:Lookahead Decoding、vllm-ltr和Dynasor。
AI 泡沫?麻省理工学院报告95%企业AI投资几乎无回报
IT之家 8 月 23 日消息,麻省理工学院(MIT)最新报告警告,95% 的生成式人工智能投资几乎没有为企业带来收益,半数项目以失败告终,仅 5% 落地商业化。 Telegraph 媒体认为受此影响,市场担忧 AI 泡沫濒临破裂,导致英伟达股价跌 3.5%,帕兰提尔跌 9%,软银跌 7%。 IT之家援引报告内容,尽管企业在该领域投入高达 300 亿至 400 亿美元(IT之家注:现汇率约合 2151.83 亿至 2869.11 亿元人民币),95% 的项目未产生任何财务回报,半数 AI 项目以失败告终,仅 40% 的公司将 AI 应用投入实际部署,且仅有 5% 的试点最终进入生产阶段。这一发现令市场担忧 AI 热潮或将重蹈 2000 年互联网泡沫覆辙。 受此报告影响,美国科技股周二大幅下挫。AI 芯片龙头英伟达股价下跌 3.5%,数据分析公司帕兰提尔(Palantir)暴跌 9%,日本软银也因重仓 AI 项目而下跌 7%。 MIT 指出,不少企业“悄然放弃”复杂昂贵的企业级 AI 系统,员工更倾向于自费使用 ChatGPT 等消费级工具。 报告发布正值市场对 AI 的盈利能力信心减弱之际。自 2022 年 ChatGPT 推出以来,硅谷一直宣称 AI 将带来巨额节省与效率提升,然而现实未达预期。 OpenAI 发布的 ChatGPT-5 也被认为升级幅度有限,不少用户呼吁恢复旧版本。OpenAI CEO 山姆・奥尔特曼坦言,投资人“确实有些过于兴奋”,未来可能有人损失惨重。
英伟达推出Spectrum-XGS以太网,把多个数据中心组合成十亿瓦级AI超级工厂
作者 | ZeR0 编辑 | 漠影 智东西8月23日报道,NVIDIA昨夜推出一项重要网络创新技术——NVIDIA Spectrum-XGS以太网。这项跨区域扩展(scale-across)技术可将多个分布式数据中心组合成一个十亿瓦级AI超级工厂。 NVIDIA Spectrum-X以太网提供横向扩展架构,可连接整个集群,快速将海量数据集传输到AI模型中,并协调整个数据中心的GPU间通信。Spectrum-XGS以太网是NVIDIA Spectrum-X以太网平台的一部分,现可供货。 年度芯片及系统架构顶级会议Hot Chips举行在即,AI推理和网络将成为关注焦点。NVIDIA将在Hot Chips期间重点介绍NVIDIA Spectrum-XGS以太网,并详细分享NVIDIA网络、数据中心机架、神经渲染技术、NVIDIA GB10超级芯片与DGX Spark、集成硅光子学的共封装光学器件(CPO)交换机等推理和加速计算领域的最新技术进展。 随着AI需求的激增,单个设施内的数据中心功率和容量已达到极限。要实现数据中心扩展,必须打破建筑物的限制,而现有的商用以太网网络基础设施因高延迟、高抖动及性能的不可预测而无法满足需求。 对此,NVIDIA Spectrum-X以太网平台新增Spectrum-XGS以太网,通过引入跨区域扩展(scale-across)基础设施打破了上述限制。 NVIDIA创始人兼CEO黄仁勋谈道:“AI工业革命已经到来,而巨型AI工厂是这场变革的核心基础设施。继纵向扩展(scale-up)和横向扩展(scale-out)技术后,我们又通过推出NVIDIA Spectrum-XGS以太网提供跨区域扩展(scale-across)技术,将不同城市、国家乃至大洲的数据中心组合成庞大的十亿瓦级的AI超级工厂。” 跨区域扩展(scale-across)是继纵向扩展(scale-up)和横向扩展(scale-out)之后的AI计算“第三大支柱”。Spectrum-XGS以太网完全集成于Spectrum-X平台,通过算法实现了网络和数据中心设施间距离动态适配。 凭借先进的、自动调节的远距离拥塞控制、精准延迟管理及端到端遥测技术,Spectrum-XGS以太网将NVIDIA集合通信库性能提升了近1倍,加速了多GPU和多节点的通信性能,实现了可预测异地AI集群的性能。这样就可以将多个数据中心组合成一个统一的AI超级工厂运行,全面优化长距离连接性能。 CoreWeave等超大规模云提供商已开始部署这种新基础设施。其中CoreWeave将成为首批使用Spectrum-XGS以太网连接它的数据中心的企业。 Spectrum-X以太网网络平台为多租户、超大规模AI工厂(包括全球最大的AI超级计算机)提供的带宽密度较传统以太网高出1.6倍。该平台由NVIDIA Spectrum-X交换机和NVIDIA ConnectX-8 SuperNIC组成,帮助构建未来AI平台的企业实现无缝扩展、超低延迟和空前性能。 今日最新发布是NVIDIA一系列网络创新技术发布的延续,如NVIDIA Spectrum-X和NVIDIA Quantum-X CPO网络交换机等,这些技术一起能够将位于不同地点的数百万颗GPU组合成AI工厂,突破大规模AI基础设施性能和效率的极限,同时降低能耗和运营成本。
大模型价格战逆转?深扒17家厂商最新定价,竟有超7成在涨价
作者 | 陈骏达 编辑 | 心缘 DeepSeek涨价了。 智东西8月23日报道,8月21日,DeepSeek在其公众号官宣了DeepSeek–V3.1的正式发布,还宣布自9月6日起,DeepSeek将执行新价格表,取消了今年2月底推出的夜间优惠,推理与非推理API统一定价,输出价格调整至12元/百万tokens。这一决定,让使用DeepSeek API的最低价格较过去上升了50%。 DeepSeek在业内曾有“价格屠夫”的称号,在2024年5月凭借DeepSeek-V2,将API价格降至输入1元/百万tokens、输出2元/百万tokens的行业低价,一石激起千层浪。 仅在当月,就有智谱、字节、阿里、百度、讯飞、腾讯等厂商跟进降价,最高降幅达到80%-97%,还有部分厂商直接将轻量级模型免费开放,掀起一场持续半年多的大模型价格战。 ▲2024年5月部分厂商发布的大模型降价通知 然而,在2025年,却有越来越多的厂商选择了停止降价。在国内,“大模型六小虎”中,已有智谱、月之暗面、MiniMax、阶跃星辰4家对部分API价格进行上调,百川智能、零一万物2家保持价格不变;阿里、字节、腾讯、百度、科大讯飞、商汤等大厂们广泛采用阶梯定价策略,或是拉开“推理”与“非推理”模式差距。行业的整体API价格趋于稳定,部分产品还出现了明显上浮。 国际厂商虽然仍在宣称智能将越来越便宜,但实际情况却是,过去一年OpenAI、Anthropic、谷歌等企业的API价格基本原地踏步,甚至有小幅上涨。与此同时,订阅方案越来越贵,顶级模型几乎被锁在200美元/月及以上的高价档里,xAI甚至推出了300美元/月的订阅方案。 在这样的背景下,DeepSeek涨价只是更大规模行业趋势的一个缩影:当前,大模型价格的下行速度正逐渐放缓,顶级AI服务不再无限下探,反而开始呈现趋于稳定,略有回升的态势。 以下数据均收集于公开渠道,如有错漏欢迎指正。 一、DeepSeek、大模型六小虎API价格普涨,但有两家近1年没改价 大模型价格战,曾经是2024年国内AI圈最火的关键词之一,大模型API的价格曾经一度降至每百万tokens几毛钱。然而,进入2025年后,这一降价趋势却基本停滞,尤其是对于那些最先进的模型而言。 以DeepSeek为例,去年年底DeepSeek-V3刚刚发布时,DeepSeek进行了45天的限时优惠,结束后,DeepSeek-Chat API(非推理API)中输出价格从2元恢复到8元;这一API的价格将于今年9月份进一步上浮50%,至12元。 Deepseek-Reason API(推理API)的价格则相对稳定,并且会在今年9月份将输出价格从16元降至12元。不过,总体来看,DeepSeek API的价格还是呈上涨趋势。 ▲DeepSeek API价格变动情况(智东西制图) 大模型六小虎中,智谱、月之暗面、百川智能、MiniMax、阶跃星辰、零一万物的价格,在2025年1季度之后,基本没有出现明显的下降。 智谱上一代GLM-4模型的API定价不区分输入输出与输入token数量,统一为5元/百万tokens。而其今年7月发布的GLM-4.5模型,在去除模型发布之初的限时优惠政策后,高速推理版本(GLM-4.5-X)的输出价格最高可达到64元/百万tokens。 即使是按照最低档计价(使用GLM-4.5,输出长度小于32K,输出长度小于0.2K,推理速度为30-50tokens/秒),其输出价格也从5元/百万tokens变成了8元/百万tokens。 ▲GLM-4.5定价情况(图源:智谱开放平台官网) 月之暗面2024年8月正式推出企业API,彼时在128K上下文场景中,其输入输出定价均为60元/百万tokens,在业内属于较高水平。 今年4月,月之暗面对部分API价格进行了调整,使用其最新K1.5模型的API输出价格降至30元/百万tokens,但在Kimi K2推出后,128K上下文场景中的高速输出价格又回调至64元/百万tokens。 ▲月之暗面Kimi大模型API定价变化,选取的数据均为最高档次定价(智东西制图) 百川智能已经长期没有对API价格进行调整,旗舰模型Baichuan4的调用价格自2024年5月发布以来,一直维持在输入输出均为100元/百万tokens的水平。 ▲百川智能API价格表(图源:百川智能) 2024年8月,MiniMax对其当时的旗舰文本生成模型abab-6.5s进行了大幅度的降价,输入和输出价格均统一为1元/百万tokens。不过,目前这一模型在其API开放平台上已不可见。 MiniMax新一代文本生成模型MiniMax-Text-01(2025年1月发布)的定价为输入1元/百万tokens,输出8元/百万tokens;而其推理模型MiniMax-M1(2025年6月发布)的价格则采用阶梯定价,最高价格为输入2.4元/百万token, 输出24元/百万token。 ▲MiniMax大模型API定价变化趋势,选取的数据均为最高档次定价(智东西制图) 阶跃星辰以多模态为特色。今年4月,该公司发布了Step-R1-V-Mini多模态推理模型,输出价格为8元/百万tokens。其7月发布的新一代多模态推理模型Step 3调整为阶梯定价,输入≤4k的价格基本持平或略有下调,在最高档(4k < 输入≤ 64k)的价格有一定上涨,输出价格为10元/百万tokens。同时,Step 3最大上下文窗口为64K,较Step-R1-V-Mini的100K有所缩小。 ▲阶跃星辰大模型API定价变化趋势,选取的数据均为最高档次定价(智东西制图) 零一万物于2024年10月发布Yi-Lighting,价格为0.99元/百万tokens,此后未再更新API中的模型价格。如今调用Yi-Lighting时,还会根据用户输入智能路由到DeepSeek-V3、Qwen-30B-A3B等模型。 ▲零一万物大模型API定价表(图源:零一万物) 二、多家大厂细化定价规则,有模型输出超300字就得加钱 更为“财大气粗”的大厂们,也在2025年放缓了模型降价的脚步。 字节跳动在2024年5月首次推出豆包Pro家族,小于32K上下文的豆包通用模型Pro输入价格仅为0.8元/百万tokens,输出价格为2元/百万tokens。字节跳动火山引擎总裁谭待在发布会上称,这一定价“比行业价格低99.3%”。这次发布也将大模型价格战推至舆论的风口浪尖。 在32K上下文的场景下,2025年1月发布的豆包1.5 Pro与2025年7月的豆包1.6,维持了豆包通用模型Pro的价格水平。 不过,字节进一步细化了定价规则,根据输入、输出两个变量调整定价。当模型输出超过200个token(约为300个汉字)时,豆包1.6的输出价变为8元/百万tokens,输入价不变。 ▲豆包1.6阶梯定价细则(图源:火山方舟) 从初代豆包Pro,到豆包1.5 Pro,再到豆包1.6,字节豆包大模型API的最高价变化趋势如下: ▲字节跳动豆包大模型API定价变化趋势,选取的数据均为最高档次定价(智东西制图) 阿里巴巴通过阿里云百炼对外提供大模型API服务,由于阿里旗下的大模型数量众多,更新频率较快,且有开源版与商业版之分,全部统计将略显庞杂。智东西主要追踪了2025年以来其主力商业API服务之一Qwen-Plus的价格变化。 可以看到,Qwen-Plus在今年4月份新版本推出,并引入思考与非思考模式的区别后,思考型输出的价格来到了非思考输出的4倍。 今年7月版本更新后,Qwen-Plus全面采用阶梯定价的形式,128K输入以下的调用价格与4月份定价持平,但当输入量超过128K时,价格出现明显上涨,最高输出价格达到了64元/百万tokens。 ▲阿里Qwen-Plus API价格变动情况(智东西制表) 2024年7月,百度宣布将其旗舰模型ERNIE 4.0降价,以输入40元/百万tokens、输出120元/百万tokens的价格对外提供服务,百度后续逐渐将ERNIE 4.0的推理价格降至业内常见的输入4元/百万tokens、输出16元/百万tokens(未查询到这一降价的具体时间),今年3月推出的ERNIE 4.5维持了这一定价,没有继续下降。 ▲ERNIE 4.0、ERNIE 4.5模型价格(图源:百度) 腾讯是国内几家大厂中少数仍在逐渐下调大模型API价格的企业。2024年9月,腾讯发布了混元Turbo大模型,定价为输入15元/百万tokens、输出50元/百万tokens,在当时属于较高水平。 不过,目前混元Turbo的价格已经降至输入2.4元/百万tokens、输出9.6元/百万tokens,2025年3月发布的混元TurboS价格则降至输入0.8元/百万tokens、输出2元/百万tokens。 ▲部分腾讯混元大模型的价格(图源:腾讯云) 科大讯飞的API服务按照token包计费,不区分输入输出,不同套餐折合后的token单价不同。 按照价格区间的中值计算,2024年1月推出的星火3.5的价格约为25元/百万tokens,同年6月推出的星火4.0价格约为60元/百万tokens,同年10月发布的星火4.0 Turbo,以及2025年1月升级后的新版星火4.0 Turbo,都维持了这一价格。 ▲讯飞星火3.5、星火4.0、星火4.0 Turbo价格变化(智东西制图) 不过,讯飞也推出了一款基于全国产算力训练的深度推理大模型星火X1,其价格约为11元/百万tokens。 商汤旗舰模型日日新系列的API价格从2024年5月的20元/百万tokens,回落至2025年4月的9元/百万tokens,今年7月最新发布的SenseNova-V6.5 Pro维持了这一价格。 ▲对应模型分别为日日新SenseChat-5-1202、SenseNova-V6-Pro、SenseNova-V6.5 Pro,均为当时商汤已发布的最先进模型(智东西制图) 三、海外大模型厂商“说一套做一套”,订阅方案涨至200美元级别 国际主流大模型厂商之间,虽没有出现明显的价格战现象,但“鼓吹”智能的成本将不断降低,是海外AI圈几位大咖们最热衷的话题之一。 今年7月,OpenAI联合创始人、首席执行官Sam Altman说道:“智能的价格将低到无法计量,我们能将每个单位的智能的成本,每年降低至原来的1/10,至少持续5年。” 2024年9月,谷歌首席执行官Sundar Pichai分享了同样的观点:“在不久的将来,智能将像空气一样丰富,并且基本上对所有人免费。” 近期,The Information的统计数据揭示了一个与上述观点相悖的现实,海外主要大模型厂商的API价格在2024年7月后的1年多时间里,就没有出现明显的下降,甚至还有轻微的涨幅。 例如,OpenAI的GPT系列模型每百万tokens的价格,自从2024年底降至12.5美元之后,便没有继续大幅度下探,目前维持在11.25美元的水平。 Anthropic的Claude 3、Claude 4系列模型,自推出以来就从未降价。 谷歌的Gemini Pro模型的调用价格出现上涨,从Gemini-1.5 Pro的12.5美元/百万tokens涨至17.5美元/百万tokens。 ▲最先进的通用模型价格近期基本没有出现下降(图源:The Information) 过去一年中,多家海外头部AI公司还相继推出了月费超过200美元的高阶订阅方案。 OpenAI与Anthropic均推出了200美元/月的订阅档位;谷歌最新的AI Ultra捆绑包定价为249.99美元/月;xAI旗下的Grok更进一步,将其顶级订阅方案设定为300美元/月的高价。 这些高端订阅服务的共同特点是:用户只有支付超高额的月费,才能使用到各家在发布会上展示的跑分最高、性能最强的旗舰模型。无论是更强的推理能力、更长的上下文窗口,还是更精准的代码或复杂任务处理能力,均被保留在付费墙之后,高性能模型成为高付费用户专属的资源。 那么,究竟是什么原因,导致了过去一段时间内AI服务价格下降趋势的明显停滞,甚至出现逆向走高呢? 四、算力、数据、人才价格持续推高,大模型玩家们也要考虑ROI 大模型厂商们在算力、数据以及人才等方面的巨大投入,驱动了过去1年AI模型性能的飞速提升。 算力方面,GPU的租赁价格目前已经趋于稳定。智东西收集的数据显示,2024年9月左右,AWS、微软Azure、谷歌云等主流公有云上的H100每卡时租赁价格大约在5-11美元的区间。 今年,根据算力市场数据分析公司Silicon Data的GPU价格指数,H100已经基本稳定在每卡时租赁价格2-3美元的区间,没有出现价格的大幅度波动。 ▲H100 GPU租赁价格(图源:Silicon Data) 同时,新一代大模型无论是在训练还是推理阶段,算力需求都在不断增加。在与相对稳定的GPU价格复合后,算力成本成为限制AI服务价格继续下探的“硬门槛”之一。 数据也是当今大模型训练中不可忽视的成本项。起初,由于监管缺位,大模型训练数据的获取成本相对较低。随着相关诉讼增多和合规审查趋严,为了避免与数据所有者发生法律纠纷,厂商开始主动与企业签订合同,购买授权数据。 例如,据《华尔街日报》报道,OpenAI与美国出版集团News Corp签署的5年数据使用协议金额可能高达2.5亿美元;谷歌则与美国的贴吧类平台Reddit达成AI使用内容许可协议,路透社报道称,其每年价格约为6000万美元。 与此同时,这些模型背后人才的价格,也在水涨船高。 在国内,猎聘大数据研究院7月份发布的《2025上半年人才供需洞察报告》显示当前国内AI人才缺口已突破500万,AI技术人员平均年薪为32.35万元,50万年薪以上的AI技术岗占比高达31.03%。AI技术人才的期望年资甚至高于如今的平均年资,为44.09万元。 大洋彼岸,硅谷的AI人才争夺战打得火热。除了那些数亿美元的个别案例之外,AI人才的整体薪资水平也明显高于其他行业。国际职场平台Levels.FYI上的数据显示,在旧金山湾区,ML/AI工程师的薪资中位数要比所有软件工程师的薪资中位数高13%左右。考虑到所有软件工程师的统计范畴内包含了ML/AI工程师,后者的薪资优势可能更大。 ▲美国旧金山湾区ML/AI工程师薪资(图源:Levels.FYI) 五、订阅模式面临服务成本考验,成本控制迫在眉睫 打造大模型的成本越来越高昂,而随着推理模型范式的兴起,以及Agent等长序列任务的出现,用户的用量正在不断攀升。大模型订阅就像是一张“无限流量卡”,用户用得越多,大模型厂商们提供服务的成本便越高,有部分厂商已经被用户逼到了入不敷出的程度。 本月,Anthropic旗下的Claude Code编程Agent便取消了200美元/月订阅方案的无限调用大模型权限,原因是有用户几乎24小时不停地使用大模型,为这些用户提供AI服务的成本已经达到了每月数万美元,远超订阅方案的定价。 Anthropic更是在发布会上宣称,Claude 4 Opus能连续7小时工作,完成编程类任务。按照Claude 4 Opus大约50 tokens/秒的推理速度计算,这一任务大约会用掉126万个token,成本约113.4美元。 面临高昂的服务成本,大模型厂商们纷纷祭出各种手段来降低开支。 DeepSeek在其最新一代模型中提出了多种降本方法。例如,在对DeepSeek-V3.1进行思维链压缩训练后,模型推理时输出token数可减少20%-50%,且各项任务的平均表现与DeepSeek-R1-0528持平。这意味着DeepSeek的聊天机器人,能在不影响 DeepSeek-V3.1还在一个模型内支持了思考模式与非思考模式,开发者可通过特定标签控制推理的开关,进一步节省API使用成本。 腾讯混元降本的思路是架构创新。在混元TurboS上,腾讯融合了两种架构,让Transformer的上下文理解力与Mamba的长序列处理能力结合,实现性能与效率的平衡。 OpenAI在GPT-5上采取了“模型自动路由”的方式:判断任务的复杂度,将相对简单的需求分配给轻量模型处理,从而节省算力资源。托管GPT-5的微软Azure称,这一方式最高可将推理成本削减60%。 然而,问题的关键在于:大模型厂商和云服务提供商的成本下降,并不必然传导为终端用户与企业的使用成本下降。当前,如何在高昂的前期研发与部署投入后,将千亿美元级别的AI投资真正转化为商业价值,已成为所有大模型玩家必须回答的问题。 结论:大模型价格还有下探空间吗? 未来,大模型价格的下降还存在几条路径。一方面,随着模型平均性能的提升,未来经过优化的中低端廉价模型,也可高效解决特定任务。此外,随着大模型、芯片领域的基础研究不断进步,新的技术路径持续涌现,或许能在不牺牲效果的前提下,进一步压缩训练与推理的单位成本。 从产业发展的角度来看,大模型价格的阶段性停滞或是回升有其价值。这为厂商回收前期巨额研发与基础设施投入,维持可持续创新提供了缓冲期,也能推动市场加速探索明确的商业化场景和付费模式。产业有望借此机会,营造更为成熟、健康的生态。
曝华为云架构调整:裁撤整合多个部门 专注AI领域 目标今年盈利
快科技8月23日消息,据新浪科技从知情人士处获悉,华为云CEO张平安于昨日发文宣布进行组织架构调整,此次调整涉及多个部门裁撤整合,旨在聚焦AI领域。 一位知情人士透露,此次调整的核心在于加大战略产业(即AI领域)的投入,同时收缩非战略产业,以此提升组织效率。 据了解,调整后华为云将聚焦“3+2+1”业务布局,其中“3”涵盖通算、智算、存储;“2”包括AI PaaS、数据库;“1”主要指安全。 针对此次组织架构调整,截至发稿前华为方面暂无回应。 不过,多位接近华为的消息人士证实了这一消息。 其中一位消息人士称,华为云在2024年处于亏损状态,今年的目标是实现盈利,因此决定专注AI领域。 此次架构调整可能会涉及人员裁撤,但具体比例尚不清楚。 值得一提的是,在2025年6月,华为云高管还多人发生职位变动,涉及人员包括华为云中国区总裁张修征,华为云中国副总裁、AI解决方案部部长张东生,华为云CMO张鹏以及华为云广东总经理徐卫星等。 据报道,此番调动属于华为内部正常的三年轮岗。由于华为云此前组织变动,不少人的三年任期在相近时间期满,所以出现多人职位变动的情况。 回顾过往,2020年1月,华为成立了云与计算BG;此后在2021年4月,华为云与计算BG撤销,一部分业务回归ICT产品线,另一部分则独立为华为云公司。
大疆Mini 5 Pro无人机配件售价曝光:电池售69/99美元
IT之家 8 月 23 日消息,科技媒体 DroneXL 昨日(8 月 22 日)发布博文,大疆 Mini 5 Pro 无人机价格及配件信息提前曝光,新机将提供标准电池与续航更长的 Battery Plus,售价分别约 69 美元(现汇率约合 494.9 元人民币)与 99 美元(现汇率约合 710.1 元人民币)。 根据零售商曝光的信息,大疆 Mini 5 Pro 无人机将配备两种不同容量的电池版本,分别为标准版 Intelligent Flight Battery(售价 69 美元)与续航增强版 Intelligent Flight Battery Plus(售价 99 美元),相比 Mini 3/4 系列的 Battery Plus 便宜约 50 美元。 配件方面,大疆并未提高核心配件售价,Mini 5 Pro 的螺旋桨、充电管家、ND 滤镜套装等价格与上一代 Mini 4 Pro 基本持平。然而,全新设计的“快拆式桨叶保护罩”可能因为采用了环绕桨叶的全包围护框设计,价格却从以往约 50 美元直接提升到 99 美元。 曝光的价格表还显示,Mini 5 Pro 的两年期 DJI Care Refresh 服务售价为 129 美元,一年期为 80 美元,ND 滤镜套装(ND8/32/128)定价 55 美元,双向充电管家 49 美元,桨叶 19 美元。这些价格与 Mini 4 Pro 基本一致。 IT之家基于博文介绍,附上相关配件信息如下: DJI Mini 5 Pro Intelligent Flight Battery: 69.00 美元(现汇率约合 494.9 元人民币) DJI Mini 5 Pro Intelligent Flight Battery Plus: 99.00 美元(现汇率约合 710.1 元人民币) DJI Mini 5 Pro Two-Way Charging Hub: 49.00 美元(现汇率约合 351.5 元人民币) DJI Mini 5 Pro Propellers: 19.00 美元(现汇率约合 136.3 元人民币) DJI Mini 5 Pro Quick-Release Propeller Guard (Propeller Included): 69.00 美元(现汇率约合 494.9 元人民币) DJI Mini 5 Pro ND Filters Set (ND8/32/128): 55.00 美元(现汇率约合 394.5 元人民币) DJI Care Refresh 1-Year Plan:80.00 美元(现汇率约合 573.8 元人民币) DJI Care Refresh 2-Year Plan: 129.00 美元(现汇率约合 925.3 元人民币) 电池方面,Mini 5 Pro 沿用 Mini 3 Pro、Mini 4 Pro 的电池系统。机身底部清晰可见“C0”分类标签(IT之家注:指整机重量低于 249 克的无人机类别),意味着在多数国家和地区,用户无需注册、培训或考试即可飞行。 不过该无人机却成功集成 1 英寸图像传感器,打破此前仅限 595 克以上机型(如 Air 3S)搭载该规格传感器的技术限制。 外观上,新桨叶护罩借鉴 DJI Flip 设计,并集成低噪音桨尖技术。底部新增侧边按钮,支持折叠展开后自动开机并一键起飞,无需遥控器介入。此外,螺旋桨取消传统一次性螺丝,改用“轻触即装”的快拆设计。 参数方面,大疆 Mini 5 Pro 具备出色的弱光表现与动态范围,支持等效 24mm 焦距、F1.8 光圈的镜头,功能上涵盖 Nightscape 夜景模式、48mm 中长焦模式、全向避障与面向运动场景的 ActiveTrack 追踪技术,视频能力可达 4K / 120fps,续航时间延长至 36 分钟。 安全性能方面,Mini 5 Pro 将首次在 Mini 系列中引入 LiDAR 系统,实现室内外全向环境感知,支持黑暗环境下的精准返航与避障。 大疆为了增强创意运镜能力,升级了云台结构,旋转角度可达 330 度,拍摄时可实现 225 度以上的自由俯仰。
卢伟冰回应业界“空调大战”:有些家电厂商太看重竞争,小米更看重成长性
IT之家 8 月 23 日消息,小米集团总裁 @卢伟冰 发布微博,透露今年第二季度小米收入和净利润均创单季度历史新高,并对小米汽车汽车业务、小米之家、小米大家电业务进行答疑。 对于近期业界“空调价格战”,卢伟冰表示,没想到行业老大哥们对小米这么重视,下起手来还非常的重。但即便如此,小米家电业务依然保持猛增的势头,第二季度大家电的收入同比增长 66.2%,预计空调出货量超过 540 万台,同比增长超过 60%,创历史新高。 同时,卢伟冰表示,“有些厂商特别看重竞争,但小米更看重成长性。上半年空调线上前十品牌中,小米是唯一量价齐升的品牌”。 IT之家注意到,8 月 16 日,小米集团合伙人卢伟冰及小米集团公关部总经理王化在微博转发了上月(7 月)全国空调销售数据。 相应数据显示,上月国内空调市场销量前五名分别为美的(26.8%)、格力(17.2%)、小米(13.7%)、海尔(11.6%)、奥克斯(8.8%)。在线上方面,小米空调市占率(16.71%)首度超越格力(15.22%),位列全国第二,仅次于美的(18.61%)。 不过后续格力市场总监朱日发文称“公开的数据和那几张截图并不一样。按照同样的查询条件,7 月线上市场格力仍然保持领先。”

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。