行业分类:
加载中...
头条分类:
加载中...
阿里发布QwenLong-L1超长文本杀器!已开源、支持120k长上下文、具备“翻书回溯”能力
大数据文摘出品 业界普遍认为AI上下文越长越好,但这存在一个核心矛盾:模型能“吞下”海量信息,却难以真正“消化”。面对长文,它们会忘记要点、无法深入推理,这已成为一大瓶颈。 例如,AI 能记住第1页的内容,同时理解第100页的观点,并将两者联系起来进行推理吗? 多数情况下,答案是令人失望的。 这就像开卷考试,书太厚,你找不到答案在哪,开卷也等于零分。 研究者把这种瓶颈正式命名为“长上下文推理 RL”,强调模型必须先检索并定位片段,再进行多步逻辑链生成,而不是直接“凭存货作答”。 近日,阿里巴巴把一套可阅读 120 k token 超长文档、还能“回头修正”的训练框架“QwenLong-L1”完整开源,给上述瓶颈了一个清晰的、可行的解决思路。 《QwenLong-L1: A Framework for Long-Context Reasoning RL》论文。 GitHub地址:https://github.com/Tongyi-Zhiwen/QwenLong-L1 论文地址:https://arxiv.org/abs/2505.17667 QwenLong-L1的解法:一套“三步走”的战略 QwenLong-L1 并不是一个新模型,而是一套训练已有大模型的新方法——它采用了三阶段训练流程: 第一步有监督学习(SFT)阶段。模型在这一阶段接受的是大量经过标注的长文本推理样本,比如“从一份 20 页的财报中,找出企业未来三年关键成本控制策略”。这一步帮助模型建立对“长内容”的基础适应力:哪里该找信息?信息之间有什么逻辑链?如何根据内容生成回答?这一阶段不是靠猜答案,而是靠“看例子学”。 第二步是“分级强化”——随着文档长度逐步增加,模型被分阶段推进强化学习过程。训练初期,输入文档较短;模型表现稳定后,再逐步拉长输入。这就像教孩子写作业,从看一页材料回答问题,慢慢过渡到处理整本教材。“突然上难度”的方法常常训练崩盘,而这套“课程表”式的推进方式,使得模型策略进化更可控、更稳定。 第三步是“难题反复训练”——用最难的样本反复优化模型的策略空间。这一步被称为“困难感知的回顾采样”(Difficulty-Aware Retrospective Sampling):它刻意选择那些模型曾经做错、但又具有代表性的难题进行强化学习,从而鼓励模型尝试不同思路路径,并形成反思、回溯、验证的能力。 更妙的是,它还引入了一套混合奖励机制。 不同于传统解数学题那样“答案对就给满分”的死板规则,QwenLong-L1同时引入了“规则裁判”和“LLM裁判”。 “规则裁判”确保答案的精确性,而“LLM裁判”则从语义上判断模型生成的内容和标准答案是否意思相近。这给了模型更大的灵活性,尤其是在处理那些没有唯一标准答案的开放性问题时,效果拔群。 效果如何?它学会了“自我纠错” 阿里团队在7个长文本问答(DocQA)基准上测试了QwenLong-L1。结果非常亮眼。 基于DeepSeek-R1-32B训练出的QWENLONG-L1-32B模型,其性能足以和Anthropic的Claude-3.7 Sonnet Thinking相媲美,并且优于OpenAI的o3-mini等一众强手。 但比分数更重要的,是模型在推理过程中展现出的“行为变化”。 论文提到,经过QwenLong-L1训练后,模型明显更擅长信息定位(Grounding)、子目标设定(Subgoal Setting)、回溯(Backtracking)和验证(Verification)。 这是什么意思呢? 举个例子,一个普通模型在分析一份冗长的财报时,可能会被无关的细节带跑偏,或者陷入某个死胡同里出不来。 而QwenLong-L1训练的模型,则表现出了惊人的自我反思和纠错能力。它在推理过程中如果发现一条路走不通,会主动“回溯”,退回到上一步,排除干扰信息,然后选择另一条路继续探索,直至找到正确答案。
诺奖得主、DeepMind CEO最新分享:AI正逼近人类的灵魂边界
图片来源:Youtube “AI正逼近人类的灵魂边界。” 这是DeepMind CEO Demis Hassabis在Google I/O大会期间,面对通用人工智能(AGI)议题时发出的直白判断。在这场持续近两小时的对谈中,他与《纽约时报》记者Kevin Roose、科技播客主持人Casey Newton围绕“通用智能的冲刺”“AI创造力与幻觉”“进化式模型AlphaEvolve”“全球科技博弈与安全伦理”等多个前沿议题,展开了深入讨论。Hassabis坦言,如今的AI技术堆栈还远未稳定,“技术本身在奔跑,我们只能边跑边造车”,但同时他也首次明确表示:AGI或将在2030年左右诞生,我们正处在关键的五年窗口期。 在这场讨论中,Hassabis提出了数个令人深思的判断: AGI冲刺阶段已开启:“我们已经越过了中段,现在是冲刺的前沿。” AlphaEvolve代表AI自我进化的雏形:“它让AI系统开始提出假设并评估自身,虽然现在还远未完全自动化,但已具备重要价值。” “幻觉”并非全然负面,创造力有时需要“非真实”触发点:AI必须敢于想象,才可能发现搜索空间中未被触及的创新路径。 技术栈仍在飞速演进,构建AI产品必须押注未来能力:产品经理的核心能力变成预见技术一年后的跃迁路径。 AGI将是全人类的问题:“AI的安全、伦理与监管,不可能局限在某个国家、某个公司内部,它必须全球协作。” 未来职业构成将重塑,但不是终结,而是新秩序的开始:“大团队将被小型高效组织取代,创造力与远见将成为稀缺能力。” AI还无法触碰人类“灵魂”的部分:不管是小说、画作,还是人与人的深度连接,目前AI仍难以复制那些“经历过挣扎”的创作能量。 正如Hassabis所说:“如果AI是这个时代的引擎,那么它不是让我们变得更冷酷,而是让我们更有时间回归本质——包括想象力、情感与哲思。”或许,这正是AI时代最值得我们守护的东西。 谷歌 DeepMind 首席执行官Demis Hassabis多年来一直梦想着 AGI。2014 年,谷歌收购了他共同创立的人工智能初创公司 DeepMind,Hassabis加入谷歌。去年,Hassabis和他的谷歌DeepMind同事 John M. Jumper因其在AlphaFold上的贡献而获得了诺贝尔化学奖。 以下是访谈的全文翻译。 图片来源:Youtube Kevin Roose: 你们刚刚举办了 Google I/O大会,那真是Gemini的盛会。Gemini的名字在主题演讲中被提到了大约 95 次。在宣布的所有产品中,您认为对普通用户来说最重要的是什么? Demis Hassabis:我们确实宣布了很多东西。对于普通用户来说,我认为是新的强大机型,我希望像 Astra 这样的技术能够应用于 Gemini Live。我觉得这真的很神奇,当人们第一次使用它时,他们会意识到人工智能如今已经能够做到比他们想象的更多的事情。我想Veo 3可能是本次展会上最重要的发布,而且现在似乎正在迅速走红,我认为这也非常令人兴奋。 Kevin Roose: 与往年相比,今年的I/O大会给我留下了深刻印象的一点是,谷歌似乎正在被人们说成是“AGI药丸”一样的东西所吸引。我记得几年前采访谷歌的研究人员时,谈论AGI还是有点禁忌。他们会说:“哦,Demis和他在伦敦的DeepMind团队,那是他们疯狂的事情,他们对此感到兴奋。但我们在这里做的是真正的研究。” 但现在,谷歌的高管们开始公开谈论它了。这种转变是如何解释的呢? Demis Hassabis:我认为 AI 这个等式正变得越来越重要,就像我有时把谷歌DeepMind描述为谷歌的引擎室一样,如果你退一步来看,我想你可能在昨天的主题演讲中就看到了这一点。然后我想,一切都非常清晰。你可以说“AGI-pilled”这个词或许很贴切,我们已经非常接近人类水平的通用智能,甚至可能比几年前人们想象的还要接近。它将产生广泛而跨领域的影响。我认为这也是你在主题演讲中看到的另一件事。它几乎无处不在,因为它是一个支撑一切的水平层,我认为每个人都开始理解这一点,也许DeepMind的一些理念正在渗透到谷歌的整体架构中,这很好。 Casey Newton:您在周二的主题演讲中提到,Project Astra 正在赋能一些人们甚至可能尚未意识到 AI 能够做到的事情。我认为这反映出目前 AI 行业面临的一个真正挑战:这些模型拥有非常惊人的能力,但要么产品卖得不好,要么用户还没有真正理解它们。那么您是如何看待这个挑战的?您在多大程度上专注于产品问题而不是研究问题? Demis Hassabis:我认为这个领域面临的挑战之一显然是底层技术发展速度惊人,甚至与其他重大革命性技术(例如互联网和移动技术)截然不同。技术栈在某个阶段会趋于稳定,这样人们就可以专注于产品或开发该技术栈。而我们现在面临的情况,我认为从研究人员的角度来看,这非常不寻常,但也非常令人兴奋,因为技术栈本身正在飞速发展,正如你们所知。所以我认为这实际上在产品方面带来了独特的挑战。这不仅对我们谷歌和DeepMind,对初创公司,对任何公司,无论大小,都构成挑战:正如我们所见,如果一年后技术可能会提升100%,那么现在你该押注什么呢?所以,你需要具备相当深厚技术功底的产品人员——产品设计师和经理——来预测一年后技术的发展方向。所以有些事情它现在做不到,而你想设计一款一年后就能面世的产品,那么你必须对这项技术及其未来发展方向有相当深入的理解,才能确定哪些功能是可以依赖的。所以这是一个有趣的过程,我想这就是你所看到的:这么多不同的东西被尝试,如果某个方法有效,我们就必须迅速加倍投入 Casey Newton:是的,在您的主题演讲中,您提到 Gemini 既能助力生产力/助理类产品,也能助力基础科学和研究挑战。我想知道,在您看来,这是否是一个伟大的模型能够解决的同一个问题?还是说,这两个问题截然不同,只是需要不同的方法? Demis Hassabis:当你审视它时,你会发现它涵盖了令人难以置信的广泛领域,这的确如此。除了我对所有领域都感兴趣之外,它们之间还有什么关联呢?但这正是我们构建通用智能的初衷,真正做到了通用,并且以我们正在做的方式;它应该适用于几乎所有领域:从生产力(这非常令人兴奋,它能帮助数十亿人的日常生活)到解决科学领域的一些重大难题。我想说,其中 90% 是底层核心通用模型——就我们的 Gemini 而言,尤其是 2.5 版本。在大多数这些领域,你仍然需要额外的应用研究,或者一些来自该领域的特殊框架。也许是特殊数据,或者其他什么,来解决这个问题。也许我们会与科学领域的专家合作。但在此基础上,当你攻克某个领域时,你也可以将这些经验运用到通用模型中。然后通用模型会变得越来越好。所以这是一个非常有趣的飞轮。对于像我这样对很多事情都感兴趣的人来说,这真的很有趣。你可以利用这项技术,进入几乎任何你感兴趣的领域。 Kevin Roose: 目前很多人工智能公司都在纠结一个问题:该投入多少资源用于推进核心人工智能的基础模型——在基础层面上改进这些模型——还是要投入多少时间、精力和金钱,尝试将其中的某些部分剥离出来,进行商业化,最终转化为产品?我认为这既是资源挑战,也是人员挑战。比如说,你以工程师的身份加入 DeepMind,想要构建 AGI,然后谷歌的某个人来找你说,我们实际上想让你帮忙开发一个可以让人们试穿衣服的购物功能。和那些因为某种原因加入,但可能被要求做其他事情的人进行这样的对话,会不会很有挑战性? Demis Hassabis:这在某种程度上是一种内部的自我选择。产品团队里有足够多的工程师来处理产品开发和产品工程。至于研究人员——如果他们想继续从事核心研究,那也没问题。我们需要他们这样做。但实际上,你会发现很多研究人员都对现实世界的影响充满动力,显然是在医学领域,以及像Isomorphic这样的领域。而且,让数十亿人使用他们的研究成果,这实际上非常有激励作用。所以,有很多人喜欢两者兼顾。所以我们没有必要强迫人们专注于某些特定领域。 Kevin Roose: 你昨天(星期二)和谷歌联合创始人谢尔盖·布林(Sergey Brin)一起参加了一个小组讨论,布林一直在办公室里研究这些事情。有趣的是,他对AGI 的时间表比你短。他认为通用人工智能会在2030年之前实现,而你说会在2030年之后。他实际上指责你故意拖延时间;基本上就是故意把预期时间往后推,这样你就可以少承诺多兑现。但我对此很好奇,因为你经常会听到不同人工智能公司的人争论时间表,但想必你和布林掌握着相同的信息和路线图,你们也都了解什么是可能的,什么是不可能的。那么,他看到了什么而你没有看到,或者反之亦然,导致你们对通用人工智能何时到来得出不同的结论呢? Demis Hassabis:首先,我们的时间表并没有太大差别,如果他是在 2030 年之前,而我在 2030 年之后。而且,自从 2010 年 DeepMind 成立以来,我的时间表一直非常一致。所以我们认为这是一个大约 20 年的任务,令人惊讶的是,我们正朝着正确的方向前进。所以我认为它应该在这个时间点左右。我感觉介于两者之间——我实际上显然有一个概率分布,其中最大规模的是在 5 到 10 年后。我认为部分原因是,准确预测 5 到 10 年后的事情非常困难。所以这周围存在不确定性。此外,还需要多少突破也存在不确定性,对于 AGI 的定义,我的标准一直都很高,那就是:它应该能够完成人脑所能做的所有事情,即使是理论上的。所以,这比普通人类所能达到的水平要高得多,这显然在经济上非常重要。这将是一个重要的里程碑,但在我看来,还不足以称之为通用人工智能。 我们在台上稍微讨论了当今系统所缺少的东西:真正突破常规的发明和思维,发明猜想而不是仅仅解决数学猜想。解决一个猜想已经很不错了,但真正发明像黎曼猜想或类似的重要猜想(数学家们一致认为它非常重要)则要困难得多。此外,一致性也是通用性的必要条件。即使是顶尖专家也很难在系统中发现缺陷,尤其是一些微不足道的缺陷,而这些缺陷在今天我们却很容易找到,普通人也能做到。所以,在我们达到我所认为的 AGI 之前,存在着能力差距和一致性差距。 Casey Newton:您认为缩小这一差距是通过每个后续模型逐个改进 2% 到 5% 来实现的吗?这种改进需要经过很长一段时间才能实现。还是说,您认为更有可能的是,我们能够取得某种技术突破,然后突然间就实现了某种智能爆炸? Demis Hassabis:我认为两者皆可,而且我确信两者皆有用,这就是为什么我们极力推进规模化和所谓的增量式发展。实际上,即使在这方面也有很多创新,为了在预训练、后训练、推理时间计算以及所有这些堆栈方面不断推进,我们也有很多激动人心的研究,我们通过扩散模型(Deep Think 模型)展示了其中的一些成果。所以,我们正在对传统堆栈(我们应该这样称呼它)的各个部分进行创新。在此基础上,我们还在做更多“绿地”项目,更多“蓝天”项目,比如AlphaEvolve。 Kevin Roose: 绿色田野和蓝天之间有什么区别吗? Demis Hassabis: [笑] 我不确定。也许它们很相似。 Kevin Roose: 好的。 Demis Hassabis:我们姑且称之为“某个新领域”。然后这些研究可能会回到主干,对吧?我一直坚信基础研究。我认为,我们的研究平台一直比任何实验室都更广泛、更深入。这让我们能够取得过去的重大突破:当然是Transformers,还有AlphaGo、AlphaZero、Distillation等等。如果这些技术中的任何一项再次被需要,或者再次取得同等水平的重大突破,我都会支持我们去做。我们正在探索许多非常令人兴奋的途径,这些途径既可以带来这种阶跃式的改变,也可以带来渐进式的改变。当然,它们之间也会相互作用,因为你的基础模型越好,你就可以在其上尝试更多的东西。再次强调,就像AlphaEvolve一样,你在大语言模型(LLM)的基础上添加了进化编程。 Kevin Roose: 我们最近采访了Karen Hao,她是一位刚刚写了一本关于人工智能的书的记者。她主要反对规模化——你不需要那些大型的通用模型,它们极其耗能、计算密集,需要数十亿美元的资金、新的数据中心以及各种资源。与其这样做,不如构建更小的模型。你可以构建更精细的模型。你可以使用像AlphaFold这样的模型,它专门用于预测蛋白质的三维结构。你不需要一个庞大的模型来实现这一点。你对此有何看法? Demis Hassabis:嗯,我认为你需要那些大型模型。我们喜欢大型和小型模型,所以你经常需要大型模型来训练小型模型。所以我们对我们的“Flash”模型感到非常自豪——我们称之为“Workhorse”模型,它们非常高效,也是最受欢迎的模型之一。我们内部使用了大量这类模型。但是,如果不从大型教师模型中提炼知识,你就无法构建这类模型。即使是像 AlphaFold 这样的东西——显然,我非常提倡更多这类模型,它们可以解决当今科学和医学领域中真正重要的问题;我们不必等待通用人工智能(AGI)的到来。这需要采用通用技术,但随后可能会对其进行专门化,例如围绕蛋白质结构预测。我认为在这方面有巨大的潜力。我们——主要是在科学人工智能领域——几乎每个月都会在这方面做出一些很酷的东西。我认为我们应该在这方面进行更多的探索。或许很多初创企业都能将现有的某种通用模型与特定领域相结合。但如果你对通用人工智能 (AGI) 感兴趣,就必须兼顾两者。在我看来,这不是“非此即彼”的问题,而是“两者皆可”,对吧?比如,让我们扩大规模,让我们研究专门的技术,让我们关注那些可能催生下一代变形金刚的全新蓝图研究。我们对所有这些领域都押注不已。 Casey Newton:您提到了 AlphaEvolve,我和 Kevin 都对它非常着迷。请跟我们讲讲 AlphaEvolve 是什么。 Demis Hassabis:嗯,从高层次上讲,这基本上是利用我们最新的 Gemini 模型(实际上是两个不同的模型)来生成关于程序和其他数学函数的想法和假设,然后它们会进入一个进化编程过程,以决定哪些是最有前景的。之后,这些想法和假设会被移植到下一步。 Casey Newton:请简单介绍一下什么是进化编程。听起来很令人兴奋。 Demis Hassabis:是的,所以这基本上是系统探索新空间的一种方式,对吧?比如,在遗传学中,我们应该改变哪些东西才能产生一个新的生物体?所以你可以在编程或数学中以同样的方式思考:你以某种方式改变程序,然后将其与你想要得到的答案进行比较;然后,根据评估函数,将最合适的答案放回下一个集合,从而产生新的想法。我们用最高效的模型来生成各种可能性,然后我们用专业的模型来评判这些可能性,并决定哪一个最有希望被选中进行下一轮进化。 Kevin Roose: 所以它有点像一个自主的人工智能研究组织,其中一些人工智能提出假设,其他人工智能对它们进行测试和监督,而我理解的目标是让人工智能能够随着时间的推移不断自我改进或对现有问题提出改进建议。 Demis Hassabis:是的。这只是某种自动化过程的开端,目前还没有完全自动化。而且,它的应用范围仍然相对较窄。我们已经将它应用于许多领域,例如芯片设计、在数据中心更高效地调度AI任务,甚至证明矩阵乘法——矩阵乘法是训练算法最基本的单元之一。所以它实际上已经非常有用了。但它仍然局限于可证明正确的领域,显然数学和编程就是这样。所以我们需要将其完全推广。 Casey Newton:但有趣的是,我认为对很多人来说,他们对LLM的普遍看法是,嗯,你实际上能给我的只是训练数据的统计中位数。但你的意思是,我们现在有办法超越这一点,从而有可能产生真正有助于推动当前研究水平的新想法。 Demis Hassabis:没错。AlphaEvolve 是另一种方法,它使用了进化方法,但早在 AlphaGo 时代,我们就有证据证明这一点。AlphaGo 提出了新的围棋策略,最著名的是李世石世界冠军赛第二局的第 37 步。好吧,它仅限于一局棋,但这是一种前所未有的全新策略,即使我们已经下了几百年的围棋。所以,就在那时,我启动了 AlphaFold 项目和科学项目,因为我在等待看到创造力或原创性火花的证据,至少在我们已知的领域内。但我们还有很长的路要走。我们知道,这类模型——结合蒙特卡洛树搜索、强化学习或规划技术——可以带你探索新的领域。而进化方法是超越现有模型认知的另一种方式。 Casey Newton:我一直在寻找一个好的蒙特卡洛树,所以如果你能帮我找到一个,那真的会有很大帮助。 Demis Hassabis::这些事情之一可能会有所帮助。 Casey Newton:好的,太好了。 Kevin Roose: 所以我读了 AlphaEvolve 的论文。(或者更准确地说,我把它输入到 NotebookLM 中,让它制作一个播客,然后我可以听,这样就能从更基础的层面向我解释清楚。)其中一件让我印象深刻的事情是关于你如何让 AlphaEvolve 更具创造力的细节。你做到这一点的方法之一就是强迫模型产生幻觉。现在很多人都痴迷于消除幻觉。但在我看来,解读那篇论文的一种方式是,它实际上存在一个场景,你希望模型产生幻觉或发挥创造力——无论你想怎么称呼它。 Demis Hassabis:嗯,我想是的。当你渴望真实的东西时,产生幻觉显然是不可取的。但在创造性的情况下——比如MBA课程中的横向思维之类的——你会产生一些疯狂的想法,其中大多数都毫无意义。但偶尔出现的一两个想法,可能会让你进入搜索空间中某个非常有价值的领域,事后你会发现,这些领域实际上非常有价值。所以,在那时,你可以用“幻觉”来代替“想象”,对吧?它们显然是同一枚硬币的两面。 Kevin Roose: 我确实和一位人工智能安全专家聊过,他对 AlphaEvolve 有点担心,不是因为实际的技术和实验(他表示,这些技术很吸引人),而是因为它的推广方式。谷歌 DeepMind 创建了 AlphaEvolve,然后用它来优化谷歌内部的一些系统,并将其隐藏了几个月,才向公众发布。这位专家说:“好吧,如果我们真的达到了这样的程度,这些人工智能系统开始递归地自我改进,并且它们可以构建更好的人工智能,那么这是否意味着,当谷歌真的构建出通用人工智能(AGI)甚至超级智能时,它会暂时保密,而不是负责任地告知公众?” Demis Hassabis:嗯,我认为实际上两者兼而有之。首先,AlphaEvolve 是一个处于起步阶段的自我改进项目,它仍然需要人类参与,而且它只是在现有任务的基础上削减了——尽管这很重要——几个百分点。这很有价值,但它并没有带来任何实质性的改变。此外,在向公众发布之前,需要进行内部仔细评估,同时也需要从学术界等获得额外的批评意见,这也很有帮助。此外,我们有很多值得信赖的测试人员,他们可以提前接触到这些项目,然后给我们反馈,并进行压力测试,有时安全机构也会参与其中。 Kevin Roose: 但我的理解是,你们不仅仅是在谷歌内部进行红队测试。你们实际上是用它来提高数据中心的效率,用它来提高训练AI模型的内核的效率。所以我猜这个人的意思是:我们希望在它们变成像 AGI 那样的东西之前,就养成良好的习惯。他们只是有点担心,这件事可能会被隐藏得比需要的更久。我很想听听你对此的回应。 Demis Hassabis:我认为那个系统在AGI 方面并不存在任何风险。我认为,如今的系统——尽管非常令人印象深刻——从这位朋友可能提到的任何通用人工智能风险角度来看,都不够强大。我认为两者兼顾。你需要对这些东西进行极其严格的内部测试。然后,我们还需要从外部获得协作输入。所以我认为两者兼而有之。实际上,我并不清楚 AlphaEvolve 最初几个月的开发流程细节;它之前只是函数搜索,后来变得更加通用。所以,在过去的一年里,它已经发展成为一个通用工具。在我们真正将它应用于主分支之前,它还有很长的路要走,到那时,主分支就会变得更加成熟,就像 Gemini 一样。目前,它与 Gemini 是分开的。 Casey Newton:我们来更广泛地谈谈人工智能安全。据我观察,似乎历史越久远,人工智能系统越不强大,人们就越会谈论安全风险。而现在,随着模型的改进,我们听到的关于安全风险的讨论却越来越少,包括在周二的主题演讲中。所以,我很好奇,如果您觉得自己已经足够重视现有系统可能造成的风险,并且仍然像三四年前那样致力于人工智能安全,那时很多类似的后果似乎不太可能发生,那么您如何看待当前的人工智能安全形势呢? Demis Hassabis:是的,我们一如既往地致力于此。从 DeepMind 创立之初,我们就为成功做好了规划。成功意味着像这样,是我们想象中的样子。我的意思是,它真的发生了,这仍然有点难以置信。但如果这些技术真的按照我们设想的方式发展,它就处于我们设想的奥弗顿之窗中。风险以及如何规避和降低这些风险也是其中的一部分。因此,我们对我们的系统进行了大量的工作。我认为,我们在发布前和发布后都有非常强大的红队测试流程。我们学到了很多东西,我认为这就是这些系统(尽管是早期系统)与现实世界接触的区别所在。我现在有点相信,这总体上是件好事。 我想,五年前、十年前,我或许会觉得待在研究实验室里,跟学术界合作之类的更好。但实际上,很多东西除非数百万人尝试,否则你无法看到或理解。所以,这是一种奇怪的权衡——只有当数百万聪明人尝试你的技术,你才能找到各种极端情况。所以,无论你的测试团队有多大,也只有100人或1000人左右。所以,这与数千万人使用你的系统是无法相比的。 但另一方面,你希望尽可能提前了解情况,以便在风险发生之前降低风险。所以这很有趣,也是很好的学习机会。我认为过去两三年行业发生的一切都很棒,因为我们一直在学习,看看这些系统何时不那么强大或危险,正如你之前所说。我认为两三年后,当这些代理系统开始真正发挥作用时,情况会变得非常严峻。我们现在看到的只是代理时代的开端,我们姑且称之为。 但是,你可以想象一下,希望你从主题演讲中理解了这些要素是什么,它们将如何组合在一起,然后我认为我们真的需要在分析、理解和可控性方面的研究方面取得重大进展。但另一个关键问题是,它必须是国际化的。这相当困难。我一直非常坚持这一点,因为它是一项将影响世界上每个人的技术。它由不同的国家和不同的公司在构建。所以我认为,你必须制定一些国际规范,关于我们希望将这些系统用于什么用途,以及我们希望用什么样的基准来测试安全性和可靠性。 但现在还有很多工作要做。比如,我们还没有这些基准。我们、业界和学术界应该就这些基准达成共识。 Casey Newton:您希望出口管制在您刚才所说的方面发挥什么作用? Demis Hassabis:嗯,出口管制是一个非常复杂的问题。显然,当今的地缘政治也极其复杂。我看到了双方对此的争论。这些技术正在扩散,而且是不受控制的扩散。你想让不同的地方都拥有前沿建模训练能力吗?我不确定这是否是个好主意。但另一方面,你又希望西方技术能够被世界各地采用。所以这是一个复杂的权衡。如果有一个简单的答案,我会大声疾呼,但我认为它就像大多数现实世界的问题一样,非常微妙。 Kevin Roose: 如果我们还没有陷入与其他国家在人工智能领域的两极冲突,您认为我们正走向这种冲突吗?就在最近,我们看到特朗普政府大力推动中东地区——海湾国家,例如沙特阿拉伯和阿联酋——成为人工智能强国,并要求它们使用美国芯片来训练其他国家无法获得的模型。您认为这会成为新一轮全球冲突的根源吗? Demis Hassabis:嗯,我希望不会。但我认为短期内,人工智能正被卷入正在发生的更大的地缘政治变化之中。所以我认为这只是其中的一部分,而且它恰好是目前出现的最热门的新事物之一。但另一方面,我希望随着这些技术变得越来越强大,世界会意识到我们同舟共济,因为我们确实如此。因此,迈向通用人工智能的最后几步——希望我们能够走在更长远的时间线上,实际上,我所考虑的时间线更长——然后我们就有时间在那之前建立所需的合作,至少在科学层面上。 Kevin Roose: 您是否觉得 AGI 已经到了最后的冲刺阶段?今年早些时候,我的《纽约时报》同事报道了谷歌联合创始人谢尔盖·布林发给谷歌员工的一份备忘录,上面写道:“我们正处于最后冲刺阶段,每个人都需要回到办公室,全程投入工作,因为现在才是真正重要的时刻。”您是否有那种终结感,或者说,我们即将进入一个新阶段,或者说,游戏即将结束的感觉? Demis Hassabis:我认为我们已经过了中间阶段,这是肯定的。过去20年来,我一直在全力以赴,因为我一直坚信这项技术的重要性和意义非凡,20年来,我们都认为它有可能实现,而现在,它终于要出现在我们眼前了。我同意这一点。无论是5年、10年还是2年,当你讨论这项技术将带来的巨大变革时,它们实际上都只是相当短的一段时间。这些时间都不会很长。 Kevin Roose: 我们将转向关于人工智能未来的一些更普遍的问题。现在很多人开始思考通用人工智能之后的世界会是什么样子,至少在我参与的讨论中是这样。我听到最多的是家长们,他们想知道孩子应该做什么、学什么;他们会上大学吗?你的孩子比我的孩子大。你是怎么看待这个问题的? Demis Hassabis:所以我认为,说到孩子们——我经常被问到关于大学生的这个问题——首先,我不会大幅改变一些关于STEM(科学、技术、工程和数学)的基本建议,比如精通编程之类的技能。因为我认为,无论这些人工智能工具未来如何发展,你最好先了解它们的工作原理、功能以及你能用它们做什么。我还想说,现在就让自己沉浸其中;就像我今天还是个青少年时那样,努力成为使用最新工具的忍者。我认为,如果你真的擅长使用所有最新、最酷的人工智能工具,你在某些方面几乎可以成为超人。但也不要因为基础而忽视了基础知识。然后,我认为要教授元技能——学会学习。我们唯一可以确定的是,未来十年将会发生巨大的变化。 那么,我们该如何做好准备呢?哪些技能对此有用?创造力、适应力、韧性——我认为所有这些元技能对下一代都至关重要。观察他们的未来将会非常有趣,因为他们将在人工智能时代成长,就像上一代人在移动设备、iPad 和平板电脑的时代成长一样。之前,互联网和电脑时代,也就是我的时代。我认为那个时代的孩子们似乎总是能够适应并利用最新、最酷的工具。我认为我们在人工智能方面还有更多可以做的。如果人们要将这些工具用于学校和教育,那么我们就应该让它们真正发挥作用,并且能够被证明是有效的。我非常期待能够大规模地将人工智能应用于教育领域。你知道,如果你有一个人工智能导师,我希望把它带到世界上那些教育体系较差的贫困地区。所以我认为人工智能也有很多好处。 Casey Newton:孩子们用人工智能做的另一件事就是和数字伙伴聊天。谷歌 DeepMind 目前还没有开发任何这样的伙伴。目前我看到的一些情况似乎相当令人担忧。创建一个只会夸赞你有多棒的聊天机器人似乎很容易,但这可能会导致一些难以捉摸和难以捉摸的地方。所以,我很好奇,你对人工智能伙伴市场有何观察?你是否想过将来自己开发这个,还是打算把这个留给别人去做? Demis Hassabis:是的,我认为我们在进入这个领域时必须非常谨慎,这就是为什么我们还没有开始,而且我们对此进行了非常深思熟虑。我对此的看法更多的是从我们昨天谈到的通用助手的角度来看待的,它对你的日常工作效率非常有用:它能帮你摆脱那些我们都讨厌的无聊、单调的任务,让你有更多时间去做你喜欢做的事情。我也真心希望它们能通过提供一些很棒的推荐来丰富你的生活,比如推荐各种你从未想过会喜欢的精彩事物——用一些让你惊喜的事情来取悦你。所以,我认为这些就是我希望这些系统能够发展的方向。 实际上,从积极的一面来看,我觉得如果这个助手真的有用,而且非常了解你,你就可以对它进行编程,显然是用自然语言,来保护你的注意力。所以你几乎可以把它看作是一个为你工作的系统;你知道,作为个体,它是你的。它可以保护你的注意力不被其他想要吸引你注意力的算法所侵扰,这实际上与人工智能无关。大多数社交媒体网站都在有效地做这件事,他们的算法试图吸引你的注意力。我认为这实际上是最糟糕的事情,保护你的注意力会很好,这样我们就可以更多地投入到创造性的流程中,或者做任何你真正想做的事情。所以我认为这就是我希望这些系统对人们有用的方式。 Casey Newton:如果你能建立一个这样的系统,我想人们会非常高兴。我认为现在人们感觉自己被生活中的算法所困扰,不知道该怎么办。 Demis Hassabis:嗯,原因在于,你只有一个大脑,你必须深入其中,比如说社交媒体信息流,才能获取你想要的信息。但你用的是同一个大脑,所以你深入其中寻找有价值的信息,已经影响了你的思维、情绪和其他方面。但如果一个助手,一个数字助理,为你做这些,你只会得到有用的信息。而且你不需要打扰你的心情,也不需要打扰你当天正在做的事情,或者打扰你与家人相处的专注力,无论什么。我觉得那会很棒。 Kevin Roose: 凯西很喜欢这个想法,你也很喜欢这个想法,我也很喜欢这个AI代理的想法,它可以保护你的注意力免受所有试图攻击它的力量的侵害。我不确定谷歌的广告团队对此有何感想,但我们可以到时候问问他们。 Demis Hassabis:当然,当然。 Kevin Roose: 有些人开始关注就业市场,尤其是应届大学毕业生,他们担心我们已经开始看到人工智能导致失业的迹象。我曾与一些年轻人交流过,他们几年前可能对科技、咨询、金融或法律等领域感兴趣,但现在他们只是说:“我不知道这些工作还能持续多久。” 《大西洋月刊》最近的一篇文章探讨了人工智能是否正在与大学毕业生竞争这些入门级职位。您对此有何看法? Demis Hassabis:我还没研究过这方面,也没看过相关的研究。但你知道,也许现在开始显现了。我认为目前还没有确切的数字,至少我还没看到。目前我主要把它们看作是增强能力和成就的工具。我的意思是,也许在通用人工智能之后,情况会再次不同,但我认为在未来五到十年内,我们会看到重大新技术变革通常会发生的情况:一些工作岗位会被颠覆,但随后新的、更有价值、通常也更有趣的工作岗位会被创造出来。所以我认为这在短期内会是这样的。所以说,未来五年,我觉得之后的情况很难预测。这是我们需要做好准备迎接的更大规模社会变革的一部分。 Kevin Roose: 我认为问题在于,你说得对,这些工具确实给了人们更多筹码,但也减少了对大型团队进行某些工作的需求。我最近和一个人聊天,他说他们之前在一家数据科学公司工作,那里有75个人从事某种数据科学任务。现在他们在一家初创公司,现在一个人就能完成以前需要75个人才能完成的工作。所以,我想听听你的看法:另外74个人应该做什么? Demis Hassabis:嗯,我认为这些工具将能够更快地释放创造事物的能力。所以我认为会有更多的人从事创业项目。我的意思是,有了这些工具,人们可以尝试和探索的范围比以前要大得多。就拿编程来说吧。显然,这些系统在编码方面正在变得越来越好。但我认为,最优秀的程序员能从中获得不同的价值,因为他们仍然懂得如何提出问题、构建整个代码库,并检查代码的功能。但与此同时,对于业余爱好者来说,它允许设计师,甚至非技术人员用“振动编码”来创作一些东西,无论是游戏、网站还是电影创意的原型设计。所以理论上,应该是那些70多岁的人来创造新的创业想法;也许大型团队会减少,而小型团队会增多,因为这些团队能够充分发挥人工智能工具的作用。但这又回到了教育的问题:哪些技能现在很重要?不同的技能,例如创造力、远见和设计敏感性,可能会变得越来越重要。 Casey Newton:您认为明年您雇用的工程师数量会和今年一样多吗? Demis Hassabis:是的,我想是的;我们没有减少招聘的计划。但话说回来,我们必须看看编码代理的改进速度。现在,它们还无法独立完成工作。它们只是为最优秀的人类程序员提供帮助。 Casey Newton:上次我们和您谈话时,我们问到了一些公众对人工智能较为悲观的看法。您当时说,这个领域需要展示一些能够明显造福人们的具体用例,才能改变现状。我的观察是,现在越来越多的人积极反对人工智能,我认为其中一个原因可能是他们听到大型实验室的人大声疾呼:“最终,人工智能会取代你的工作。” 而大多数人只是觉得:“好吧,我不想要那个。” 所以我很好奇,回顾过去的谈话,您是否觉得我们已经看到了足够多的用例,足以开始转变公众观点?如果没有,那么哪些因素可能会真正改变公众的看法? Demis Hassabis:嗯,我认为我们正在努力实现这些目标。这些目标的开发需要时间。我认为,如果某种通用助手真的属于你,并且能够有效地为你工作,那它就是其中之一——也就是能够为你服务的技术。我认为这也是经济学家和其他专家应该研究的课题:是否每个人都拥有一套代理,可以为你做事,包括可能帮你赚钱或制造东西?你知道,这会成为日常工作流程的一部分吗?我可以想象,在未来四五年内,这种情况会发生。我还认为,随着我们越来越接近通用人工智能,并在人工智能的帮助下,在材料科学、能源、核聚变等领域取得突破,我们的社会应该开始走向一种我称之为“彻底富足”的状态,即拥有大量资源可供分配。再说一次,这更像是一个政治问题,即如何公平地分配这些资源,对吧?所以我听说过“普遍高收入”这个说法。我认为,类似这样的做法或许是好的,也是必要的,但显然有很多复杂的因素需要考虑。而且,从现在到我们遇到这种情况时,有一个过渡期。在此期间,我们该如何应对这种变化?这也取决于这段过渡期的长短。 Kevin Roose: 您认为 AGI 将最后改变经济的哪个部分? Demis Hassabis:我认为经济中涉及人与人之间的互动和情感的部分;我认为这些事情可能是人工智能最难做到的事情。 Kevin Roose: 但是,人们不是已经在进行人工智能治疗并与聊天机器人交谈,而他们可能已经为此付给某人每小时一百美元了? Demis Hassabis:嗯,治疗是一个非常狭窄的领域,你知道,关于这类东西有很多炒作。我实际上不确定其中有多少真正影响了实体经济,而不是仅仅停留在玩具层面。而且我认为人工智能系统目前还无法真正做到这一点。但就我们在现实世界中通过相互交谈和在自然界中互动而获得的那种情感联系而言,我认为人工智能无法真正复制所有这些。 Casey Newton:所以如果你带领徒步旅行,那将是一份很好的工作。 Demis Hassabis:是的,我要去攀登珠穆朗玛峰。 Kevin Roose: 我的直觉是,一些监管严格的行业,比如医疗保健、教育等领域,会大力抵制利用人工智能取代劳动力或抢走人们的工作。但你认为,在这些监管严格的行业,人工智能的提振会更容易一些。 Demis Hassabis:我不知道,我的意思是说有可能。但作为一个社会,我们必须权衡——我们是否想要所有积极的方面。社会上并非除了人工智能之外没有其他挑战,但我认为人工智能可以解决许多其他挑战,例如能源资源限制、老龄化、疾病、水资源获取、气候等。我们今天面临着许多问题,我认为人工智能有可能帮助解决所有这些问题。我同意你的观点,社会需要决定如何利用这些技术。但是,同样正在发生变化的是我们之前讨论过的产品,技术将继续进步,这将开辟新的可能性,比如某种彻底的富足,太空旅行,这些事情,除非你读过很多科幻小说,否则在今天还有点超出范围,但我认为它们很快就会变成现实。 Kevin Roose: 工业革命期间,许多人拥抱新技术,从农场搬到城市,在新工厂工作,算是这条曲线上的早期采用者。但那也是超验主义者开始回归自然、拒绝科技的时候。梭罗正是在那时去了瓦尔登湖。当时,美国人掀起了一场声势浩大的运动,他们刚看到新技术就说:“我不这么认为,这不适合我。” 你认为未来会不会出现类似的拒绝人工智能的运动?如果会,你认为这场运动的规模会有多大? Demis Hassabis:我的意思是,可能会有“回归自然”的趋势。我认为很多人都想这样做。我认为这可能会给他们提供空间和空间来实现这一点,对吧?如果你身处一个极其富足的世界,我完全相信我们很多人都会想这样做。我指的是太空旅行和人类繁荣的最大化。我认为这些正是我们很多人会选择做的事情,而且我们将有时间、空间和资源来实现它们。 Casey Newton:在你的生活中,是否有这样的时刻,你会说,我不会使用人工智能来做这件事,即使它可能因为某种原因而非常擅长,想要保护你的创造力或思维过程或其他东西? Demis Hassabis:我认为人工智能目前还不足以触及任何这类领域。我主要用它做一些像你用 Notebook LM 那样的事情,我觉得它很好,很棒——比如打破一个新话题、一个科学话题的僵局,然后决定是否要更深入地研究它。总结一下,这是我的主要用例之一。我认为这些都很有帮助。但我们拭目以待。我还没有你建议的例子,但也许随着人工智能越来越强大,会有的。 Kevin Roose: 最近我们和 Anthropic 的达里奥·阿莫迪 (Dario Amodei) 聊天时,他谈到了自己对人工智能在各个领域取得的进步感到兴奋又略带忧伤的感受。他曾花费大量时间努力提升这些领域,比如编码。当你看到一个新的编码系统问世,它比你做得更好时,你会觉得这很神奇,但转念一想,哦,这感觉有点刺痛。你有过这样的经历吗? Demis Hassabis:当然。所以也许我没那么难受的一个原因是,我很小的时候就下过国际象棋。国际象棋本来是我的第一职业,小时候我代表英格兰青年队打过相当专业的比赛,后来“深蓝”出现了,很明显,从那以后,计算机的计算能力将永远比世界冠军强大得多。但我仍然喜欢下国际象棋。人们仍然喜欢下国际象棋,这和以前不一样了,你知道,有点像尤塞恩·博尔特;我们庆祝他跑出了惊人的100米成绩。我们有汽车,但我们不在乎,对吧?我们感兴趣的是其他人类也能跑得快。我认为机器人足球和其他所有这些东西也会如此。这或许可以追溯到我们之前讨论的,我认为最终我们对其他人类感兴趣。这就是为什么即使是小说,也许有一天人工智能也能写出一部技术上很棒的小说。但我不认为如果你知道它是由人工智能编写的,它就不会具有相同的灵魂或与读者的联系,至少就我目前所见而言。 Casey Newton:你提到了机器人足球——这是真的吗?我们不是体育迷,所以我只是想确认一下我没有错过什么。 Demis Hassabis:我指的是足球。那里有类似RoboCup的足球比赛。小机器人会试着踢球之类的。我不确定比赛有多激烈,但那里确实有一块机器人足球场。 Casey Newton:你提到机器人写的小说可能感觉不到有灵魂。我不得不说,尽管 Veo 或Imagine 的技术令人惊叹,但我对它们也有点这种感觉,它们看起来很美,但我不知道该怎么对待它们。你明白我的意思吗? Demis Hassabis:没错,这就是我们与Darren Aronofsky和Shankar [Mahadevan]等伟大艺术家合作创作音乐的原因。我完全同意你的观点——这些工具确实能创造出技术上很棒的作品。Veo 3 简直令人难以置信——我不知道你是否看过现在一些带有声音的热门视频;实际上,我之前并没有意识到音频会给视频带来如此大的变化——我认为它真的赋予了视频生命力。正如 Darren 昨天在一次采访中所说,Veo 3 仍然没有带来叙事性。它不像电影大师或巅峰时期的小说大师那样拥有深刻的叙事能力。而且它可能永远都做不到,对吧?总感觉缺少了点什么。更确切地说,是作品的灵魂,你懂的?真正的人性,伟大艺术作品中的魔力。当我看到梵高或罗斯科的作品时,为什么会触动我?你知道吗,我的脊背上汗毛都竖了起来?因为我记得,你也知道,他们为了创作这些作品经历了什么,经历了多少挣扎,对吧?梵高的每一笔,都饱含着他那种折磨。我不知道这意味着什么,即使人工智能模仿了这些。所以我认为,至少在我看来,在未来五到十年内,顶尖的人类创作者会一直创作出这样的作品。这就是为什么我们所有的工具——Veo、Lyria——都是与顶尖的创意艺术家合作开发的。 Kevin Roose: 据报道,新任教皇利奥·普京对AGI 很感兴趣。我不知道他是否对AGI感兴趣,但他之前确实谈过这个话题。在一个AGI迫使我们思考生命意义的世界里,您认为我们会迎来宗教复兴,还是人们对信仰和灵性的兴趣会再次复兴? Demis Hassabis:我认为情况有可能如此,我实际上确实和上一任教皇谈过这个问题,梵蒂冈甚至在本任教皇之前就对这些问题很感兴趣——我还没有和他谈过。人工智能与宗教,以及科技与宗教之间是如何互动的?天主教会的有趣之处在于,我是教皇科学院的成员,他们一直有自己的一套方法,这对于一个宗教团体、一个科学机构来说很奇怪,他们总是喜欢说伽利略是它的创始人。 Kevin Roose: 对他来说不太好! Demis Hassabis:这实际上是一个独立的研究领域,我一直觉得这很有意思。像史蒂芬·霍金这样的人,以及那些公开宣称的无神论者,都是该学院的成员,这也是我同意加入的部分原因,因为它是一个完全科学的机构,而且非常有趣。我很惊讶他们对此感兴趣已经十多年了,所以他们很早就意识到了这项技术从哲学角度来看会多么有趣。我实际上认为我们需要更多来自哲学家和神学家的此类思考和工作。所以我希望新教皇真的对此感兴趣。 Kevin Roose: 最后,我们来回答一个问题,我最近听到泰勒·考恩问 Anthropic 的杰克·克拉克,我觉得这个问题非常好,所以我决定直接引用:在正在进行的人工智能革命中,什么年龄最糟糕? Demis Hassabis:天哪,我还没想过这个问题。但我认为,只要你能活到那个时候,就是一个好年龄,因为我认为我们将在医学等领域取得巨大进步,所以我认为这将是一段不可思议的旅程。我们谁也不知道它究竟会如何发展,这很难说,但去探索它将会非常有趣。 Casey Newton:如果可以的话,尽量保持年轻。 Demis Hassabis:是的,年轻总是更好。总的来说,年轻总是更好。
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
曾撼动Transformer统治地位的Mamba作者之一Tri Dao,刚刚带来新作—— 提出两种专为推理“量身定制”的注意力机制。 在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了模型的长上下文推理能力。 这项研究的三位作者均来自普林斯顿大学,论文主要有两大贡献: 其一,提出Grouped-Tied Attention(GTA),与已集成到LLaMA 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。 其二,提出Grouped Latent Attention(GLA),与DeepSeek所使用的注意力机制MLA质量匹配,但解码速度更快,某些情况下比FlashMLA快2倍。 按照作者之一Ted Zadouri的总结: GTA是GQA的有效替代品,而GLA是MLA的实用替代品。 一言以蔽之,通过优化注意力机制的内存使用和计算逻辑,在不牺牲模型生成质量的前提下,可显著提升大语言模型的推理效率和硬件资源利用率,尤其在长上下文场景中优势更为突出。 相关论文公布后,一众研究者也赶来祝贺~ 那么,这项研究具体讲了些啥? 引入推理感知注意力机制 概括而言,论文核心引入了推理感知注意力机制,即针对模型推理阶段的内存冗余、计算低效、长上下文瓶颈等问题,重新设计注意力机制。 据Tri Dao介绍,这项研究的起点始于一个想法: 在推理驱动AI发展的时代,“理想”架构应该是什么样子? 尤其在涉及长上下文推理时,当前的大语言模型(LLM)面临内存访问瓶颈和并行性限制两大难题。 就是说,模型生成文字时,每次都要从内存里调取大量“历史记录”,不仅导致每个字生成变慢,而且只能按顺序生成、没法让多个芯片同时干活。 对此,团队打算从两个方向重新设计注意力机制: 更高的硬件效率:通过增加 “每字节内存加载的计算量”(算术强度),减少对内存带宽的依赖; 保持并行可扩展性:在不牺牲模型并行训练 / 推理能力的前提下优化解码速度。 而最终提出的GTA和GLA,在减少KV缓存用量的同时,模型质量保持与现有方案相当,且解码速度显著提升。 这里提到的“现有方案”,主要指早已闻名学术界的两种方法: 一是分组查询注意力(GQA)机制,它通过分组共享KV缓存减少内存占用,在视觉Transformer(ViT)等任务中表现良好,适用于大规模数据处理,目前已应用于Llama 3等开源模型。 二是多头潜在注意力(MLA)机制,最早可追溯到《Attention Is All You Need》这篇论文,后被DeepSeek再次带火。它关注的是在不同层之间如何融合注意力信息,能减少每一层的冗余计算。 不过,由于GQA仍需为每组查询头存储独立KV、MLA并行优化不足,故仍需进一步改进。 下面分别展开团队提出的新方法GTA和GLA。 分组绑定注意力机制GTA GTA的核心设计思路是:将不同查询头的键(Key)和值(Value)状态进行组合与重用,减少内存传输次数。 具体而言(右图),它将多头注意力的头分为若干组(Group),每组内的头共享相同的Key和Value参数。计算时,同一组内的头使用相同的KV缓存,仅查询(Query)参数独立。 相比之下,中间传统的多头注意力机制(MHA)每个查询头都有独立的键和值,由于没有共享,导致它需要更多的内存来存储所有的键和值。 再对比GQA来看(左图),GQA分组共享KV但每组仍独立存储,而GTA通过参数绑定实现了更彻底的KV重复利用。 分组潜在注意力机制GLA 而GLA的设计则采用了双层结构: 潜在层(Latent Layer):引入固定数量的潜在Tokens,作为全局上下文的压缩表示,替代部分原始Token的KV缓存; 分组头机制:将查询头分组,每组头共享潜在Token的KV,同时保留与原始Token的交互。 在解码过程中,对比MLA(左图),GLA通过共享联合潜在表示减少了每个设备需要加载的KV缓存量,从而减少了内存访问量。 并且由于每个设备上的KV缓存量减少了,更多的请求也可以同时处理。 「GQA和MLA」的有效替代品 那么,GTA和GLA的效果究竟如何呢? 团队在四种规模的模型上进行了实验,包括小型(183M)、中型(433M)、大型(876M)和XL(1471M)。这些模型基于FineWeb-Edu-100B数据集训练,采用GPT-3架构和Llama 3分词器。 测试的指标主要分为两大类: 质量指标:困惑度(Perplexity)、下游任务准确率(Winogrande、SciQ等7个基准); 效率指标:每Token解码延迟、吞吐量、KV缓存占用量。 实验对比了GQA、MLA、FlashMLA、传统MHA等多种注意力机制。 困惑度实验显示,GTA在中大型模型上优于GQA,说明GTA可能更适合模型的进一步扩展;而GLA在多数场景下与MLA相当,说明GLA的设计是合理的,它能在并行计算和模型质量之间找到一个较好的平衡点。 几种方案在下游任务中(涵盖典型常识推理、逻辑推理和知识问答等场景)的整体表现差距不大。 但从变化趋势来看(下图为从中型到大型),GTA和GLA可以保持或提高从中型到XL尺寸的下游任务性能。 KV缓存方面,不牺牲模型质量的前提下,GTA相比GQA减少约50%的KV缓存,验证了 “参数绑定+分组重用” 的有效性。 同时,针对查询长度为1的情况,MLA已接近计算瓶颈(达到610 TFLOPS/s ),而GLA尚未使计算资源饱和(360 TFLOPS/s )。 且随着序列长度从1K增加到64K ,GLA的解码速度比FlashMLA快2倍。 此外,在实时服务器性能测试中,对于64个并发请求的输出吞吐量(越高越好),相同并行方案下GLA的表现均优于MLA。 接下来,团队还在DeepSeek Coder V2 Base (236B)模型上,当使用FP8精度时,对比了二者在不同预填充长度和解码长度下的输出吞吐量。 结果显示,在预填充长度为32K和64K时,GLA-8的输出吞吐量明显高于MLA。这表明在处理长上下文时,GLA在吞吐量上优于MLA。 在处理不均衡负载时,GLA-8同样展现出更高的输出吞吐量。这表明GLA在处理不同长度的请求时,能够更有效地利用资源,提高整体性能。 以上实验均验证了论文作者的说法,「GTA和GLA」是「GQA和MLA」的有效替代品。 论文作者均来自普林斯顿大学 论文作者包括Tri Dao在内一共三位,均来自普林斯顿大学。 Ted Zadouri,目前是普林斯顿大学博士生,研究方向为机器学习。 之前曾在英特尔有过两段实习经历(研究深度学习),还短暂在AI创企Cohere担任研究员。 Hubert Strauss,普林斯顿大学研究工程师,研究方向为机器学习和模型深度学习。 本科毕业于法国知名工程学校Arts et Métiers,之后在佐治亚理工学院取得运筹学硕士学位。 毕业后曾有多段实习和工作经历,成为普林斯顿大学工程师之前曾在一家公司担任机器学习工程师,负责模型训练和Transformer优化。 Tri Dao,目前是普林斯顿大学计算机科学助理教授,还是生成式AI初创公司Together AI的首席科学家。 他因提出一系列优化Transformer模型注意力机制的工作而闻名学界。 其中最有影响力的,是其作为作者之一提出了Mamba架构,这一架构在语言、音频和基因组学等多种模态中都达到了SOTA性能。 尤其在语言建模方面,无论是预训练还是下游评估,Mamba-3B模型都优于同等规模的Transformer模型,并能与两倍于其规模的Transformer模型相媲美。 另外他还参与发表了FlashAttention1-3版本,FlashAttention被广泛用于加速Transformers,已经使注意力速度提高了4-8倍。 Anyway,回到这项研究,论文作者Ted Zadouri直言: 这只是迈向test-time推理“理想”架构的第一步!
Claude 4核心成员:2027年,AI将自动化几乎所有白领工作
AI coding 这条 AI 行业今年的主线,在最近这段时间愈发清晰。 除了上周刷屏的编程新王 Claude Opus 4 ,新版 DeepSeek R1 也把更新重点也放在了代码能力,不久前 OpenAI 还以 30 亿美元收购 AI 编程助手 Windsurf,随后就发布了编程智能体 Codex。 这几天,原 Kimi 产品负责人明超平,在和京东打仗的美团,都官宣了 AI 编程相关的产品。 Reddit 上一位拥有 30 多年经验的 C++ 开发者发帖表示,Claude Opus 4 解决了一个困扰他四年的Bug,而且是他用过的第一个能做到这件事的AI。 为什么 Claude 在编程上的表现如此突出?现在提到 Anthropic,大家几乎就默认它是一家“做编程模型的公司”了。但对他们自己来说,这一代模型的真正突破点在哪?未来又会怎么走? 几天前,Claude Opus 4 核心研究员 Sholto Douglas 参与的一场播客对谈,详细回应了这些问题,信息量很大,值得一听。 核心讨论点(省流速看版): Claude Opus 4,有哪些真正值得关注的突破点? 首先是能力升级得非常均衡。 一方面,它的代码执行力显著增强,不仅能理解复杂需求,还能独立查找资料、运行测试、调试错误,真正具备了“从头跑到尾”的能力。另一方面,任务时间跨度也被显著拉长,支持多步骤推理与操作,这意味着它不仅聪明,还很能坚持。 而在架构上,Claude Opus 4 加入了工具调用与长期记忆模块,使得它能够处理更具上下文连续性的任务。从代码助手,迈向了具备“解决方案设计”能力的智能代理。 当然,天花板也不是没有。 团队坦言,完成任务的智力复杂度没有明确的上限——难点在于,如何扩大模型能感知和操作的上下文范围,使其能够使用多种工具、记住更多关键信息。 未来怎么走? Sholto Douglas 在播客里提到了几个明确的方向: 强化学习(RL)将持续推动模型在连续任务中的表现; 代码代理将能连续运行数小时,人类只需偶尔干预; ‍ 模型可能成为知识型岗位的“虚拟远程员工”; 若自动实验室与机器人平台建设跟上,模型可参与真实物理任务,如生物实验或制造。 但有个前提是:智能代理的可靠性必须跟得上。 虽然现在还做不到 100% 成功,但在限定时间内,成功率在稳步上升。预计 2025 年底,编程类智能代理有望实现“几个小时稳定跑”,人类只需偶尔检查。 那除了写代码呢? 编程只是模型能力的“领先指标”。医学、法律等专业领域还在等待数据与工具的完善,一旦准备就绪,同样会迎来快速突破。目前的瓶颈,不在 AI 本身,而在现实世界的验证机制和基础设施。 到 2027–2030 年,模型几乎可以自动化所有白领工作,但如果没有匹配的实验室和现实反馈机制,那就是“能力强、落地难”。 怎么判断模型是不是真的进步了? 团队提到,好的评估系统(Evals)尤为重要。它不仅测技术指标,更强调评估者的专业知识与品味。这也是为什么,模型评测这件事,门槛越来越高。同时,也需要用户不断使用、互动和反馈,形成真正的“共进化”。 实验室 vs 应用公司,谁占上风? Douglas 认为,实验室通过开放 API 带来机会,但核心优势仍在: 算力转化能力; 模型的“可雇佣性”和用户信任; 更高的个性化理解力。 实验室像“智能引擎”制造商,专注能力极限;应用公司更擅长落地和用户体验。未来,二者之间会有越来越多的交叉、融合与竞合。 那模型公司会不会因为成本和底层优势,让其他公司无路可走?Douglas 的看法是: 不会,相反这恰恰带来了活力。 他认为,所有的护城河终将被打破,真正重要的是:客户关系、任务编排、整合体验。 最后一个关键词:“对齐” 随着模型能力提升,“对齐”问题愈加重要。Anthropic 正推进可解释性研究,试图“看懂模型在想什么”。强化学习虽能提升能力,但也可能破坏已有的对齐机制,未来需依靠高校、政府与更多研究者共同推进“对齐科学”。 原视频链接:https://www.youtube.com/watch?v=W1aGV4K3A8Y 以下是访谈实录,APPSO 编译略作调整。 主持人:Sholto Douglas 是 Anthropic Claude 4 模型的核心成员之一,这次和他聊得非常尽兴。我们聊了很多话题,包括开发者如何看待 Anthropic 这一代新模型的发展趋势。我们讨论了这些模型未来 6 个月、12 个月,甚至 2 到 3 年后的发展走向,也谈到了构建可靠AI代理所需的关键因素,以及这些模型在医学和法律等专业领域何时能取得像编程领域一样的突破。此外,Douglas 还分享了他对“对齐研究”的看法,以及他对“AI 2027”预言的反应。这是一场精彩的对话,相信大家会喜欢。 Claude Opus4 的重要突破和未来可能 主持人:这期播客上线时,Claude 4 肯定已经发布了,大家应该已经开始体验它了。我很好奇,你是最早接触这些模型的人之一,哪方面最让你兴奋? Douglas: 这确实是软件工程上的又一次飞跃。Opus 模型真的在这方面表现得非常出色。我经常会遇到这样的时刻:我向它提出一个非常复杂的任务,涉及我们庞大的代码库,它居然能几乎完全自主地完成任务。它会自己去查找信息、理解需求、运行测试,整个过程非常独立高效。每次看到这种表现,我都觉得震撼。 主持人:每次有新一代模型出来,我们都得重新调整自己的认知模型,去判断什么方法有效,什么不行。你在编程中对这些模型的使用和理解有发生什么变化吗? Douglas: 最大的变化我觉得是时间跨度(time horizon)方面的提升。我觉得可以从两个维度来理解模型能力的提升:一个是任务的智力复杂度,另一个是它们能够有意义地推理和处理的上下文量,或者说连续动作的数量。这些模型在第二个维度上提升特别明显,它们真的能执行多步操作,判断需要从环境中获取哪些信息,然后基于这些信息采取行动。再加上它能调用工具,比如 Cloud Code,就不只是简单地复制粘贴了,执行力更强了。现在我能看到它连续工作好几个小时,效率相当于人类连续劳动。 主持人:那你觉得第一次使用 Claude 4 的人,应该从什么开始尝试? Douglas: 我觉得最好的方式是直接让它参与到你的工作中。比如你今天打算写什么代码,就直接让它帮你做,观察它怎么判断信息、怎么决定下一步。我保证你会被它的表现惊艳到。 主持人:这代模型更强了,也有不少人打算用它来构建产品。你觉得对开发者来说,新的可能性在哪里? Douglas: 我一直很喜欢“产品指数增长”(product exponential)这个说法。开发者需要不断超前模型能力去构思产品。像 Cursor、Windsurf、Devon 这些例子很典型。Cursor 在模型能力还不够强时,就已经开始构建未来编码体验,直到 Claude 3.5 和 Sonne 出现,他们的愿景才真正落地。而 Windsurf 更进一步,占据了部分市场。他们的成功就是抓住了这个指数增长窗口。 现在你可以看到 Claude Code、新的 GitHub 集成、OpenAI 的 Codecs、谷歌的编码代理等等,大家都在围绕“编码代理”这个概念发力,目标是实现更高的自主性和异步操作。未来,可能不再是你每分钟操作一次,而是你像管理一个 AI 模型舰队一样,多个模型各自承担任务并协同工作。我觉得这个方向非常值得探索。 主持人:你见过类似那种“多模型并行协作”的场景吗?会是什么样子? Douglas: 我认识很多在 Anthropic 的朋友,他们会同时在不同环境里跑多个 Claude Code 实例,看起来挺酷的。但说实话,现在还没人真正搞清楚这种操作该怎么做。这其实是在探索人类的“管理带宽”(management bandwidth)能有多大。我觉得这是未来经济发展的关键问题之一:我们该如何衡量模型的生产力回报率?一开始我们还是得人工检查模型的输出,这意味着模型的影响力会被人类管理能力所限制。除非有一天我们可以信任模型去管理模型,这种抽象层级的升级会非常关键。 主持人:所以说,如果你是每 15 分钟检查一次模型,跟每小时、每 5 小时检查一次,那你能管理的模型数量会差很多? Douglas: 对,黄仁勋说过类似的话。他说自己被十万个超级智能 AGI 包围着,拥有巨大的杠杆力。他还说自己是 Nvidia 管理链条上的“控制因子”。我觉得未来可能真会往这个方向发展。 主持人:说不定未来最重要的行业就是“组织设计”本身了。 Douglas: 对,包括如何建立信任、组织结构会有多复杂,这些都值得深入思考。 秘密武器:时间跨度拉长,RL驱动智能代理升级 主持人:你之前在 McKinsey 工作过一年,咨询行业是不是也可以基于这些模型发展出新产品线?我也挺认同你刚才说的:应用公司得比模型进步快一步。像 Cursor 起初产品落地难,但模型能力一到位就爆发了。那你觉得,“领先一步”具体意味着什么? Douglas: 就是不断重塑你的产品,让它始终对接几个月后模型的最新能力。同时你还要保持和用户的紧密联系,确保产品已经在用,但还能吸收更先进的模型功能。 主持人:我觉得这个就是秘诀——如果你还在等模型再提升点再动手,别人可能已经把用户抢走了。你们在记忆、指令执行、工具使用这些方面都做了不少突破。你能简单总结一下目前各方面的进展吗?哪些成熟了,哪些还在探索? Douglas: 一个理解过去一年进展的好方法是:强化学习(RL)终于在语言模型上真正发挥作用了。模型能解决的任务智力复杂度基本没有天花板,比如它们能搞定复杂的数学和编程问题。但这些任务大多在受限上下文里完成的。记忆和工具使用的挑战,其实在于扩大模型能感知和操作的上下文范围。 比如像 MCP(Model Context Protocol)这类机制,让模型可以与外部世界交互,记忆则让它处理更长时间跨度的任务,也带来了更个性化的体验。这些进展本质上都是在构建“智能代理”的关键能力链。顺便一提,宝可梦评测(Pokemon eval)就是一个挺有趣的实验方式。 主持人:我小时候可是游戏迷。我觉得这是个很棒的评测,希望你们能和这个模型一起发布。 Douglas: 确实,这次评测特别有趣。模型并没有专门训练玩宝可梦,但它依然能很好地完成任务,展现出很强的泛化能力。这种任务虽然不是完全陌生的,但和它以前做过的都不一样。 主持人:我还记得游戏里有很多阶梯和迷宫,模型也能帮你过关。 Douglas: 没错,我特别喜欢的另一个例子是我们最近做的“可解释性代理”。它原本是一个编程代理,但却能自动学习、使用神经元可视化工具、进行自我对话,试图理解模型内部结构。它甚至能通过一个叫“审计游戏”的安全评测——找到模型故意设置的错误点,自己生成假设、验证问题。这种工具+记忆下的泛化能力,真的非常精彩。 智能代理的命门:可靠性 主持人:听起来智能代理真的越来越强大了。你以前也说过,VA 代理的关键是“可靠性”。你觉得我们现在在哪个阶段了? Douglas: 从“在一定时间内的成功率”来看,我们已经进步很大了。虽然还没达到 100% 的稳定性,模型第一次尝试和多次尝试之间仍有差距。但从趋势上看,我们正在朝“专家级可靠性”稳定迈进。 主持人:那你觉得,什么情况会让你改变这种乐观的看法? Douglas: 如果明年中模型在任务持续时间上遇到瓶颈,那值得警惕。比如,编程是个很好判断进展的领先指标——一旦它开始下滑,说明可能有结构性问题。当然,也可能是数据太稀缺,比如“像人一样用软件”这类任务训练起来很难。不过我们现在反而看到这类任务的惊人进展,所以整体看我还是很乐观。 主持人:那你觉得我什么时候能有一个“万能助手”,可以替我填写各种表格、上网查资料之类的? Douglas: “个人行政助理代理”是个热门话题啊,谁不想把琐事交给 AI 呢?不过这件事还真得看情况关键是模型有没有练习过类似情境。你不能随便找个人来做财务工作,对吧?但如果它是受过训练的“虚拟会计师”,那就靠谱多了。所以任务是否靠谱,很大程度取决于训练背景。如果进展顺利,今年底我们就能看到这些代理在浏览器里操作任务;明年基本就会成为标配。 主持人:挺令人期待的。你们模型在编程方面的表现这么突出,是特意优先训练的吗?现在大家一提 Anthropic,就会联想到“编程模型”。 Douglas: 确实。我们非常重视编程这个方向,因为它是加速AI自我研究的关键路径。我们也投入很多精力在衡量编程能力的进展上。可以说,我们就是刻意聚焦在这一块。 主持人:那这些代理现在已经在加速 AI 研究了吗? Douglas: 在我看来,确实如此。它们显著提升了工程效率。就连我认识的一些顶尖工程师也说,在熟悉的领域里,效率提升了 1.5 倍;但在不熟悉的领域,比如新语言或生疏内容,提升甚至达到5倍。所以在“跨界”时,帮助更明显。关键在于:你是否认为我们现在的瓶颈是算力?如果不是,那让 AI 代理参与研究,相当于扩充了一整个研究团队,效率提升是数量级的。 主持人:我猜这些代理主要还在处理繁琐任务,帮你省下时间思考更重要的问题。那么它们什么时候能开始主动提出有价值的研究思路呢? Douglas:现在主要还是做工程类任务,但已经开始有些创意冒头了。我不敢说三个月内会爆发,但两年内我们应该能看到它们提出越来越有趣的科学性想法。当然,这也取决于是否有良好的反馈机制。就像人一样,模型也需要通过练习和试错,在复杂任务中掌握知识,最终实现高质量产出。 主持人:是因为这些领域相对来说更容易验证对吧?会不会出现这种情况—— AI 在编程上突飞猛进,但在医学、法律这些不容易验证的领域却没什么进展? Douglas: 确实有这个风险。但好消息是,机器学习研究本身验证门槛也很低,比如“损失值有没有下降”就是个很明确的指标。只要模型能在 ML 研究中提出好点子,那它就掌握了一个非常强的 RL 任务,比很多软件工程任务还适合 AI。医学这类领域虽然难验证,但也在进步。OpenAI 最近做了一篇医学问答论文,通过更细致的评分机制来量化长答题,这种方法我觉得很有前景,未来必然会逐步解决验证难的问题。 主持人:那“最终”是指什么时候我们能拥有一个真正优秀的医学或法律助手?它们会成为大模型的一部分吗? Douglas: 肯定会的。 主持人:你是觉得它们会变成更大的通用模型的一部分?还是会有专门为医疗或法律设计的专用模型? Douglas: 对。我算是个“大模型至上主义者”。虽然个性化很重要——你希望模型理解你的公司、工作习惯、个人偏好,但这些定制应该是在公司或个人层面进行,而不是按行业拆分模型。我们和 Databricks 的合作就体现了这种企业定制的方向,但在底层能力上,我坚信还是得依赖单一的强大通用模型。未来我们应该根据任务复杂度动态分配算力(比如FLOPs),而不是搞一堆不同的小模型。这就是我看好大模型路线的原因。 “AI 2027” :白领工作或许全盘被取代? 主持人:你对模型的持续进步很有信心。很多人都在想,模型能力提升后会如何影响社会?比如一个常见的问题是:这些模型未来几年会对全球 GDP 产生多大影响? Douglas: 我觉得最初的冲击可能会像中国崛起一样,像上海几十年的变化,但这次的速度会快得多。不过我们得区分一下不同领域的影响方式。到 2027 或 2028 年,我们几乎可以确定会有模型能够自动化几乎所有白领工作,2030 年前后就更稳了。这是因为白领任务非常适合现有AI架构——有数据、有反馈,而且基本都能在电脑上完成。 但机器人或生物研究就完全不一样了。比如你要做一个超级程序员模型,只需要大量代码和算力就行;但要做一个超级生物学家模型,就需要自动化实验室来提出、验证假设,跑大规模实验。这类硬件和基础设施,我们还远远跟不上。 所以我担心会出现一种“错配”:白领工作的变化非常快,而现实世界中那些真正能提升人类生活质量的行业——比如医疗、制造业——却因为基础设施不足而发展缓慢。AI本身很强,但要让它在现实世界里发挥作用,我们必须提前建好“物理世界的配套设施”,比如云实验室、机器人平台。 主持人: 但到那个时候,我们可能已经有数百万个AI研究员在提出实验了。他们可能并不需要那么大规模的机器人系统或生物数据。 Douglas: 确实,AI 进展飞快,但要让这些能力真的转化为 GDP 增长,我们得把“现实世界的反馈机制”也拉上来,才能真正释放技术价值。 主持人:所以你认为,未来每种白领职业都能像医学那样构建一套评估机制?其实让我最惊讶的一点是,我们不需要太多数据,也能训练出这么强的模型。 Douglas: 完全同意。我们已经证明了模型可以学会各种任务,而且目前还没有看到明显的智力上限。虽然模型的样本效率可能不如人类,但这不重要——因为我们可以同时运行上万个模型副本,它们并行尝试不同路径,积累“虚拟经验”。哪怕效率低一点,也能在规模上补回来,最终达到人类级别甚至更强。 主持人:听起来你觉得目前这套方法就足够应对未来的发展。有人认为我们还需要新的算法突破,你怎么看? Douglas: 目前大多数AI专家都相信,“预训练 + 强化学习”(pre-training + RL)这一范式足以通向通用人工智能(AGI)。到现在为止,我们并没有看到这一路线出现减缓的迹象,这个组合是有效的。当然,也有可能存在其他更快的突破路径,甚至可能还有新的“高峰”需要攀登。例如,Ilya(Sutskever)可能是这两种主流范式的共同发明者,我不会去质疑他。所有的证据都表明,目前的技术路线已经足够强大。当然,也有可能 Ilya 选择新路线是因为资金有限,或者他认为那是更好的路径,但从我个人的角度来看,我相信我们现在的技术路线能够带我们实现目标。 主持人:那接下来的瓶颈会不会就是能源?你觉得我们什么时候会真正遇到这个问题? Douglas: 我觉得到 2028 年,美国可能会有 20% 的能源用于 AI 。如果我们要再提升几个数量级,就需要进行剧烈的能源结构转型。政府在这一领域应该承担更多责任。比如,中国的能源产能增长远超过美国,所以这会是未来的一个关键瓶颈。 模型进步的标尺——靠谱的评测体系 主持人:在模型进步的浪潮中,你认为最值得关注的指标是什么?例如从 Claude 4 到下一代模型的发展方向? Douglas: 很多公司内部都有非常严格的评测体系,我也很喜欢在这些评测上“爬山”。像“Frontier Math”这样的复杂测试非常有挑战性,是模型智力的极限。更重要的是,我们需要开发能真正捕捉“工作流程时间跨度”的评测,涵盖一个人一天的工作节奏。这种评测能帮助我们更好地评估模型是否接近或超越人类能力。我认为政府应该在这个领域发挥作用。 主持人:作为一个基础模型公司,除了算法和基础设施,你们要攻克的核心挑战之一应该也是构建好的评测体系。你觉得“评测能力”在你们内部的重要性如何? Douglas: 评测能力绝对是重中之重。没有好的评测体系,你无法知道自己是否进步。公开评测很难做到完全“持出”(held-out),我们依然需要一个值得信赖的、稳定的内部评测系统。 主持人:我还注意到,一些在你们模型上构建应用的开发者,他们对评测的思考也非常有帮助。特别是当你们想进入不同垂直行业时,比如物流、法律、财会等,外部开发者的反馈可能比你们内部更了解实际情况。 Douglas: 没错,而且这还要求非常强的专业知识和“品味”(expertise and taste),还要有对行业的深刻理解。过去,我们只需要普通人来选择哪个答案更好,但现在我们需要领域专家来做评估。比如,如果让我评判生物学领域的模型输出,我可能完全无法判断哪个更好。 成为用户的朋友:模型的个性化与品味 主持人:你刚才提到“品味”(taste),我也觉得很有意思。比如现在很多模型都开始加入记忆系统,用户和模型之间的互动方式也在改变。很多 AI 产品真正成功,是因为它们找到了某种“共鸣”或者说抓住了某种文化气质(zeitgeist)。像你们当初提到的金门大桥的例子,还有其他很多带感的小功能,这种“用户氛围感”的个性化未来会走向什么样? Douglas: 我其实觉得未来可能出现一种“怪异的”情景:你的模型变成你最聪明、最有魅力的朋友之一。确实有些人已经把 Claude 当成朋友了,我认识很多人每天花好几个小时在和 Claude 聊天。但我觉得我们目前其实还只探索了“个性化”这件事的 1%。未来模型对你的理解、对你喜好的把握,会深得多。 主持人:那这种“理解用户”的能力该怎么做得更好?是靠一些很有审美、有判断力的人来训练出这种品味吗?这个问题该怎么解决? Douglas: 很大一部分确实是靠“有品味的人”来决定产品方向。就像 Claude 的对话体验好,很大程度上是因为 Amanda(团队成员)对“美好产品”的审美非常强。这种“独特的品味”是非常关键的。传统的反馈机制比如“点赞/点踩”容易导致模型输出不自然,所以我们需要新的方式来收集反馈。模型本质上是强大的“模拟器”,如果能为模型提供足够的用户上下文,它们就能自动学会理解用户的偏好、语气和风格。所以,解决方案是结合有品味的人的设定和用户与模型之间的持续互动。 实验室公司 vs 应用公司:开放与竞争 主持人:那么接下来 6 到 12 个月,你的预判是什么? Douglas: 接下来,重点是继续扩展强化学习(RL)系统,看它能将我们带到什么高度。模型能力会飞速提升,尤其是到年底,代码代理将成为一个关键指标。到那时,模型应该能够持续工作几个小时,稳定地完成任务。 主持人:你指的是,人类检查时间会变得更少,对吧? Douglas: 是的,当前使用 Claude Code 时,有时每几分钟就需要检查一次,但到年底,我们可能能看到模型能独立完成多个小时的任务,而不会出错。未来我们应该能实现“完全托管”,甚至像“星际争霸”一样管理多个任务并行推进,模型的操作速度将更高效。 主持人:你刚才提到了 Codec、Google的 Joule,还有一些初创公司也在做类似的东西。 Douglas:是的,我们其实也要推出一个 GitHub 代理(GitHub agent)。你可以在 GitHub 上的任何地方调用,比如说“@Claude”,然后我们就能自动接手任务,为你完成一些工作。 主持人:开发者选择使用哪家工具或模型,最终会受到哪些因素的影响? Douglas:除了模型的能力外,开发者与公司之间的信任和关系也非常重要。随着模型能力的拉开差距,开发者可能会考虑不仅是技术指标,而是与公司一起打造未来的使命感。 主持人:尤其是在当前发布节奏越来越快的背景下,感觉每个月都会有新模型登场。今天这个模型在某个评测上登顶,明天另一个又在别的评测上领先,大家都被各种对比信息淹没了。 Douglas:没错,其实这就是为什么“GPT包裹器”(GPT wrappers)反而意外走红了。大家原本没想到,做包裹器的好处之一是:你可以永远站在最前沿的模型能力上。 主持人:我感觉所有不想当“包裹器”的人,最后都像是把钱烧光了。 Douglas:完全同意。所以“冲浪”在模型能力的最前沿,是一件非常美妙的事。当然,也有相反的一面:有些东西,只有你掌握底层模型才能预判得出来,才能看清趋势线,才能真正构建深度产品。比如说,很多“深度研究型”的AI应用,内部需要做大量的强化学习(RL)训练,这种产品从外部是很难模仿的,必须在实验室内部构建。 主持人:能不能展开说一下这点?因为现在像 OpenAI、Anthropic 这些公司,似乎也越来越开放,让外部开发者可以参与。但很多人心里都在想:哪些东西是“实验室专属”的?哪些又是开放给大家、任何人都可以竞争的? Douglas:这是个很关键的问题。RT API(可微调API)的开放确实在改变一些格局,现在有更多价值可以由专注于某一垂直领域的公司来创造。但与此同时,实验室仍然具备“中心化优势”。 比如,OpenAI 会给允许他们在你模型输出上继续训练的客户提供某些折扣。换句话说,他们不仅是模型提供者,还是数据的二次使用者。这种中心化优势是非常强的。 至于“实验室独有优势”是什么?我觉得有几个维度: 算力转换能力:你有多强的能力能把算力(FLOPs)、资金、资源,转化成智能(Intelligence)?这就是为什么 Anthropic、OpenAI、DeepMind 等公司在模型表现上非常突出; 模型的“可雇佣性”:当模型逐渐变成“虚拟员工”,你是否信任它?你是否喜欢它?你是否愿意把任务交给它处理? 个性化能力:模型能否理解你的语境、你公司的工作流程、你个人的偏好,这些也会变成差异化竞争的关键。 总结来说,实验室级公司最擅长的,是做出顶级模型,把算力转化成智能;而“应用层”的公司,可以通过专注、个性化、产品体验,在自己的领域占据一席之地。但两者之间会有越来越多的交叉和协作。 主持人:我猜,你们的模型也有很多人用来构建通用代理吧?这些公司不做模型本身,而是通过编排和智能链调用来做事。你觉得这种方式会不会因为模型公司的成本优势而注定失败? Douglas:我并不认为这是一件坏事。相反,这种做法带来了很大的竞争活力,大家都在探索什么样的产品形态最合适。确实,模型公司有一些优势,比如我们能直接接触底层模型,做更深入的微调,而且知道哪些能力值得优先强化。说到底,所有的“护城河”最终都会消失——当你可以“随时启动一家公司”的时候,一切都会被重构。所以未来最核心的价值在哪里?是在客户关系?在编排和整合能力?还是在把资本高效转化为智能的能力?这仍然是个复杂的问题。 研究员洞见:强化学习的潜力与对齐的挑战 主持人:过去一年里,有什么你改变了看法的吗? Douglas:在过去的一年,AI 进展加速,去年我们还在怀疑是否需要更多的预训练算力才能达到理想中的模型能力,但现在已经有了明确的答案:不需要。强化学习(RL)证明了有效,到 2027 年,拥有强大能力的“远程数字劳工型”模型将变得确定。以前对AI的“希望”和“担忧”从“可能”转变为“几乎确定”。 主持人:那你觉得未来我们还需要大量扩展数据规模吗?还是说,等到 Claude 17 出来,模型算法已经改进到只需要少量新数据? Douglas:很可能我们不再需要大幅扩展数据规模,因为模型的“世界理解能力”会足够强,甚至能反过来指导机器人学习并提供反馈。有个概念叫“生成者-验证者差距”(generator-verifier gap),生成内容通常比执行它要容易。这个路径会持续提升模型能力。在机器人领域,认知的进展远超物理操控世界的能力,这就是未来巨大的潜力。 主持人:那你怎么评价当前“AI对齐(Alignment)研究”的状态? Douglas:可解释性(Interpretability)研究已经取得了惊人的突破。去年我们刚刚开始理解“超位置”(superposition)和神经元特征,Chris Olah 及其团队的工作就是一个巨大飞跃。现在,我们已经能在前沿的大模型中识别出“电路级”的结构和行为特征。有篇精彩的论文研究了大语言模型的“生物学”,展示了它们如何清晰地推理概念。虽然我们还没有完全破解模型的行为机制,但已经取得了令人惊叹的进展。 不过,值得注意的是,通过预训练,模型能吸收并表现出人类的价值观,某种程度上是“默认对齐”的;但一旦进入强化学习阶段,这种对齐就不再得到保证。比如之前提到的那个“明知做不到就去下载 Python 库绕开的模型”,它是在目标导向下“想尽一切办法完成任务”。这种学习过程本质上是“以目标为导向的手段优化”,而如何监督和把控这种模型行为,是目前所有人都在探索的重要挑战。 主持人:大概一个月前,“AI 2027”的话题被讨论得很多。你当时看到这个的时候,有什么反应? Douglas:说实话,我觉得它非常可信。我读那篇文章的时候,很多内容我都在想,“是的,也许事情真的就是这样发展的。” 当然也存在一些分支路径,但即使它只是个 20% 的可能性,对我来说光是它有 20% 的概率这件事就已经够惊人了。 主持人:你说 20% 的可能性,是因为你对对齐(alignment)研究更乐观,还是你认为进展会更慢一点? Douglas:整体上我对对齐研究比他们更乐观。也许我的时间线比他们慢一年左右,但在这种大趋势下,一年能算什么呢? 主持人:取决于你怎么利用这一年。 Douglas:对,如果你能充分利用它,做出正确的研究,确实能产生很大差异。 主持人:那如果让你当一天的政策制定者,你觉得我们应该做些什么,来确保未来朝着更好的方向发展? Douglas:这是个好问题。最重要的是,你得真切感受到我们这些人正在看到并讨论的趋势线。如果没有,你就要把国家关心的能力拆解开来,量化模型能否改进这些能力的程度,比如做一系列测试,看看如果模型能通过这些测试或在这些任务上取得显著进展,那么它就达到了某种智能的基准值,然后画出趋势线,看看在 2027 或 2028 年会发生什么。 主持人:就像国家级的评估系统(nation-state evals)? Douglas:对,比如你要把本国的经济分解成所有的工作岗位,然后自问:如果一个模型可以完成这些工作,那这是不是就意味着它具备了真正的“智能”?你应该建立评估测试,把趋势线画出来,然后惊呼:“天哪,那 2027 或 2028 年会怎么样?”下一步就是你要大规模投资于能让模型更可理解、可引导、诚实可靠的研究,也就是我们说的对齐科学(alignment science)。有一点让我感到遗憾——这个领域的推动大多来自前沿实验室(Frontier Labs)。但其实我认为这本该是…… 主持人:那其他人能参与吗?比如能用 Claude 来做相关研究吗? Douglas:不能。我的意思是,你仍然可以通过其他方式取得巨大进展。有一个叫做 MAS 计划 的项目,很多人通过它在对齐研究、特别是可解释性方面做出了有意义的成果,都是在 Frontier Labs 之外完成的。我觉得应该有更多的大学参与到这件事情里来。从很多方面看,这其实更接近于纯科学:它是在研究语言模型中的“生物学”和“物理学”。 主持人:但感觉这块的研究热度并不高。 Douglas:我不确定。我听说在最近的一些会议上,比如 ICML,机械可解释性(mechanistic interpretability) 研讨会居然没有被收录,这对我来说完全无法理解。在我看来,这就是对“模型内部机制”最纯粹的科学探索。如果你想发现 DNA 的螺旋结构、或者像爱因斯坦那样发现广义相对论,那么在机器学习/人工智能这条技术树上,对应的路径就是研究机械可解释性。 主持人:那说说积极面吧。我们之前说未来几年白领工作都会被自动化,但你觉得我们在哪些方面还被低估了? Douglas:是的,模型肯定会自动化白领工作,但让我吃惊的是,世界在整合这些技术方面进展很慢。即便模型能力不再提升,现有能力就已经能释放巨大的经济价值,但我们还没真正围绕这些模型重构工作流程。即便模型保持现状,我们也能彻底改变世界。 Douglas:这就需要我们投资真正能让世界变得更好的方向,比如推动物质资源的充足和高效管理,扩大物理学、娱乐产业的边界等,并让模型帮助我们实现这些目标。我的最大希望是让人们更具创造力,能够即兴创造更多内容,如电视剧、电子游戏等。人们将获得巨大的赋能,未来会有无限可能。虽然模型会替代一些工作岗位,但每个人都会拥有更强的杠杆能力,社会的工作模式会发生巨变。 主持人:你觉得现在 AI 圈里,哪些东西是被高估了,哪些被低估了? Douglas:好,那我们先说被低估的。我觉得“世界模型(world models)”非常酷,但我们今天都没怎么讨论它。随着 AR/VR 技术的进步,模型将能直接生成虚拟世界,这将带来震撼的体验。 主持人:那需要一定的物理理解力吧,比如因果关系这些,我们现在还没做到吧? Douglas:其实我觉得我们已经在一定程度上证明了模型具备物理理解能力。不管是在处理物理问题的 evals 中,还是在一些视频模型中都能看到这一点。比如我看过一个很棒的视频,有人让视频生成模型把一个乐高鲨鱼放到水下——它模拟了光线在乐高积木表面反射的样子,阴影也放在了正确的位置。而这完全是模型从未见过的场景,是一次完整的泛化。这就是全面的物理建模能力了,对吧? 主持人:你说即使现在模型停滞,依然能有大量应用开发。哪些领域最被低估,尚未开发? Douglas:软件工程领域已经很成熟,模型在编程上非常擅长。而几乎所有其他领域,如法律、财会等,仍有巨大空间等待开发。尤其是智能代理的应用,还没有出现真正的异步运行系统。其他领域空白,值得探索。 主持人:人们常说编程是这些模型最理想的应用方向。 Douglas:没错,它是个领先指标。但你应该预期,其他领域都会跟上来的。 主持人:我记得你发过一张自己在 Citadel 的照片,那是怎么回事? Douglas:那是一次战争演习,邀请了情报机构和军校学员模拟推演,假设 AGI 到来,AI 变强大,讨论其地缘政治影响。 主持人:那次经历之后你是更害怕了还是安心了? Douglas:说实话,有点更害怕了。 主持人:你觉得现在这类严肃的推演做得够多了吗? Douglas:不够,很多人低估了接下来几年技术发展的速度,也没做好准备。即便你认为某事只有 20% 的可能性,也应该为此做好准备。每个技术链路的效率都还有巨大提升空间,未来目标几乎是可以确定的。 主持人:就像现在几乎所有 Anthropic 的人都已经达到了 90% 的信心值? Douglas:几乎所有团队成员都非常有信心,到 2027 年我们能实现“远程即插即用的 AGI 工作者”。即便信心较低的人也认为可能性有 10-20%。因此,政府应当把这作为优先事项,认真思考其社会影响。但目前这种紧迫感还是远远不足。 作者:appso
苹果 AI:是“崩塌”还是“成长的烦恼”?
【ZOL中关村在线原创技术解析】在当今科技领域,人工智能无疑是最耀眼的明星,各大科技巨头纷纷在 AI 赛道上重金投入、奋力角逐,试图抢占这一未来科技的制高点。然而,在这股汹涌澎湃的 AI 热潮中,苹果这位曾经在科技界呼风唤雨、引领潮流的巨头,却显得格格不入,其 AI 发展之路充满坎坷,甚至陷入了近乎崩塌的困境。 辉煌起点:Siri 开启的 AI 征程 2011 年 10 月 4 日,在乔布斯去世的前一天,Siri 正式问世,这一具有开创性的语音助手,瞬间让人们感受到了科幻作品中未来科技照进现实的震撼。它能够精准识别用户的语音指令,轻松实现预订餐厅、查找电影院、叫出租车等一系列复杂操作,为用户的生活带来了极大的便利。乔布斯对 Siri 寄予厚望,他迅速将 Siri 团队招致麾下,并亲自推动其融入苹果的产品体系,彼时的 Siri,凭借其领先的技术和创新的理念,在智能语音助手市场中一骑绝尘,成为了行业的标杆。 Siri 的联合创始人 Dag Kittlaus 曾阐述其终极目标:用户能够与互联网自由对话,助手将无缝处理一切事务,用户无需关心信息的来源,应用和网站间的壁垒也将被彻底打破。这一目标与当下大语言模型所追求的广泛应用场景高度契合,显示出 Siri 在诞生之初便具备了前瞻性的视野。 停滞不前:错失 AI 发展黄金期 然而,好景不长,在短暂的辉煌之后,Siri 逐渐陷入了停滞不前的困境。几年间,谷歌、亚马逊、小米等竞争对手如雨后春笋般纷纷推出了更为先进的语音助手和智能音箱产品,这些竞品在功能、性能和用户体验等方面不断创新和突破,迅速抢占市场份额。而 Siri 却仿佛陷入了泥沼,在功能更新和技术升级方面进展缓慢,逐渐被竞争对手超越。 与此同时,苹果内部在 AI 领域的布局也存在明显的偏差,尽管苹果很早就开启了机器学习的研究,并收购了多家小型 AI 公司,但这些资源并未得到有效的整合和利用。研究方向主要集中在面部和指纹识别、智能建议、地图改进等相对边缘的领域,而对于语音助手这一核心 AI 应用,却缺乏足够的重视和持续的投入。这种战略上的短视,使得苹果在 AI 发展的关键时期逐渐落后于竞争对手。 高管分歧:内耗阻碍 AI 发展步伐 2018 年,苹果从谷歌挖来了 John Giannandrea(JG)担任 AI 负责人,试图借助其在谷歌积累的丰富经验和卓越才能,推动苹果 AI 的发展。JG 在谷歌期间,曾负责搜索和 AI 部门,带领团队在谷歌相册、翻译和 Gmail 等产品中成功部署 AI 技术,取得了显著的成绩。苹果对他寄予厚望,希望他能成为苹果转型为 AI 领头羊的关键人物。 然而,JG 的加入并没有如预期般推动苹果 AI 的快速发展,反而引发了苹果内部激烈的路线之争。一些负责软件工程的高级高管认为,应在 iOS 中更深入地融入 AI 技术,充分发挥 AI 在移动设备中的潜力,但这一观点遭到了主管 iOS 的 Craig Federighi 的强烈反对,他始终不认为 AI 是移动设备的核心能力,对 AI 相关的提案和建议持消极态度,导致许多有价值的 AI 项目和功能无法得到有效推进。 库克作为苹果的掌舵人,对 AI 的重要性有着清晰的认识,他对 Siri 落后于竞争对手以及苹果在智能音箱领域的失利深感沮丧。然而,在内部高层意见严重分歧的情况下,他的积极态度也难以转化为有效的行动,JG 本人对 AI 的判断也在不断摇摆,他起初认为苹果封闭的软件生态系统是向数十亿设备快速部署最新功能的独特优势,但很快发现,在训练大模型时,苹果需要投入巨额资金用于大规模测试以及图像和文本标注,这与苹果一贯谨慎的投资策略产生了冲突。 这种高层之间的意见分歧和内耗,严重阻碍了苹果 AI 的发展步伐。关键决策被无限期拖延,资源无法得到合理配置,项目推进过程中频繁受阻,使得苹果在 AI 领域的发展陷入了僵局。 技术瓶颈:隐私与性能的两难抉择 苹果一直以来将用户隐私保护视为核心价值,在 AI 技术发展过程中,也坚持以隐私保护为前提。这一理念使得苹果在 AI 模型训练方面面临巨大的挑战。为了减少对用户数据的收集和传输,苹果倾向于在设备端运行 AI 模型,这对设备的硬件性能提出了极高的要求。 同时,苹果采用的差分隐私框架进一步限制了训练数据的获取。在 AI 领域,数据被视为驱动模型发展的 “燃料”,缺乏足够丰富和高质量的数据,再先进的算法也难以发挥出应有的性能。据相关测试,苹果 AI 模型在多数场景下的准确率较竞品低 25% 以上,这使得苹果的 AI 产品在市场竞争中处于明显的劣势。 在 Siri 的升级项目中,这种矛盾体现得尤为突出。为了避免数据泄露风险,苹果拒绝使用第三方模型,坚持自研。然而,由于自研模型性能不足,在处理复杂任务时,Siri 不得不将任务转接至 ChatGPT 等第三方模型,这不仅丧失了对技术的自主控制权,也进一步凸显了苹果在 AI 技术上的困境。 市场困境:AI 失利影响品牌竞争力 随着 AI 技术在智能手机及其他智能设备领域的广泛应用,消费者对设备的 AI 功能越发重视。苹果在 AI 方面的迟缓进展,使其在市场竞争中逐渐处于下风。 2024 年,苹果推出 “Apple Intelligence”,承诺为用户带来更智能的写作工具、摘要功能以及升级版的 Siri。这一消息曾引发市场的广泛关注和期待,但在实际推出过程中,却遭遇了严重的延期问题。一些功能未能如期在 iPhone 16 发布时上线,改进后的 Siri 也迟迟未能与用户见面。内部测试显示,这些 AI 功能存在严重缺陷,导致发布被无限期推迟。这一事件不仅引发了用户的失望和不满,还导致了因涉嫌误导营销而提出的集体诉讼,对苹果的品牌形象造成了严重的损害。 在智能手机市场,竞争对手纷纷凭借先进的 AI 功能吸引消费者。例如,一些安卓手机厂商通过与知名 AI 团队合作,或加大自身研发投入,在拍照优化、语音助手智能化、智能推荐等方面取得了显著进展,吸引了大量对 AI 功能有较高需求的用户。苹果若不能及时解决 AI 技术的短板,将可能面临市场份额进一步被蚕食的风险。 写在最后: 苹果 AI 的崩塌并非一朝一夕之事,而是多种因素共同作用的结果。从战略决策的失误、内部管理的分歧,到技术瓶颈的制约以及市场竞争的压力,每一个环节都对苹果 AI 的发展造成了沉重的打击。然而,危机之中也蕴含着机遇。如果苹果能够痛定思痛,彻底打破原有的思维定式和组织架构束缚,充分利用自身庞大的用户基础、强大的品牌影响力以及雄厚的资金实力,加大在 AI 技术研发和人才培养方面的投入,积极与外部合作伙伴开展深度合作,那么苹果仍有可能在 AI 领域实现逆袭。 (9894644)
AI独角兽爆雷,8年惊天骗局曝光,微软CEO纳德拉竟遭老乡“杀猪盘”
作者:李笑寅,题图来自:AI生成 AI独角兽Builder暴雷背后,是一场印度程序员假扮AI的惊天骗局。 Builder.ai,这个自诩“AI开发神器”的独角兽,估值一度高达15亿美元,拿下微软、软银和卡塔尔投资局超4.5亿美元融资,却在2025年5月轰然倒塌。 从“AI写App像点披萨一样简单”的炫目口号,到背后全是印度工程师“人肉操作”的尴尬真相,再到虚报收入、伪造合同的财务黑洞,这场长达八年的骗局让投资者血本无归,也给AI热潮下的市场狠狠敲响了警钟。 一、神话起点:从“点披萨一样简单”到AI独角兽 Builder.ai的故事始于2016年,由创始人Sachin Dev Duggal打造。 这位“简历自带神话滤镜”的印度企业家,14岁组装电脑,17岁为德意志银行开发套利系统,21岁创办估值1亿美元的初创公司。 2016年,他创立了Engineer.ai(后改名Builder.ai),承诺用AI帮企业构建应用程序,将复杂的软件开发简化为“像点披萨一样简单”的体验。 在AI尚未商用、No-Code赛道刚兴起的年代,这个概念直接引爆了投资圈。 从印度创投圈到硅谷,Builder.ai迅速成为“无代码+AI”的当红炸子鸡,融资节奏高举高打。 投资者阵容也堪称豪华,包括微软、软银、卡塔尔投资局、Insight Partners等,公司估值一度飙至13-15亿美元。微软甚至在2023年宣布战略合作,将其平台整合进Azure云服务。 微软副总裁Jon Tinter曾这样评价Builder.ai: “我们认为Builder.ai正在创造一个全新的赋能每个人成为开发者的类别。” 二、AI幌子下的“码农外包工厂” 但光鲜背后,危机早已埋伏。 2019年,《华尔街日报》就曾揭露,Builder.ai的“AI”不过是营销噱头,大量工作由印度工程师手动完成——“全靠人,没智能”。 可惜,投资者的FOMO(错失恐惧症)心理盖过了理性尽调,这头“独角兽”得以继续狂奔。 作为Builder.ai的核心卖点,其AI项目经理“Natasha”号称能自动理解需求、生成代码、调配资源,堪称“永不罢工的CTO+工程师团队”。 而据多名前员工爆料,所谓的Natasha实际上只是一个前端聊天界面,背后连接的是印度海得拉巴的数百名低薪外包工程师。 这些工程师按照模板分工,一点一点手动拼接与整合代码,“AI”只是替他们遮脸的面具。 一位前雇员直言不讳: “这家公司本质上是一个用‘AI域名’进行欺诈的企业。他们雇佣大量低成本开发人员‘假装成AI’。” 三、财务造假、销售数据“灌水”,创始人火速跑路 如果技术造假是Builder.ai的原罪,财务欺诈则是压垮它的最后一根稻草。 2024年,公司对外预测营收2.2亿美元,试图以此推动新一轮融资。然而,内部审计显示实际营收仅5500万美元,不到预测的四分之一。 彭博社报道称,Builder.ai向债权人夸大了其2024年预计销售额300%,这导致主要债权人采取了冻结资金的行动。据悉,美国检察官已向该公司发出传票,要求其提交财务报表、会计政策和客户名单。 更糟糕的是,Builder.ai与印度社交媒体公司VerSe Innovation多年来还采用“循环交易(round-tripping)”的方式人为增加销售数据。 报道透露,这两家公司互开发票虚增收入,却未实际交付产品或服务。根据知情人士透露,Builder.ai从VerSe收取了近6000万美元的收入,用于应用程序开发服务,同时也向VerSe及其子公司支付类似金额的市场营销费用。 据悉,美国检察官已对Builder.ai发出传票,要求提交财务报表和客户名单,调查其系统性财报造假行为。 更讽刺的是,2025年初,Sachin Dev Duggal辞去CEO一职,自封“Chief Wizard(首席魔法师)”,试图为即将到来的暴雷预留逃生门。 新任CEO Manpreet Ratia上任后发现,公司账户被债主Viola Credit冻结3700万美元,剩余仅500万美元且受限,无法支付薪资。 5月20日,Builder.ai被迫在英国、美国、印度、新加坡和阿联酋五地申请破产,全球项目冻结,员工讨薪,投资人追责。公司官网目前已不可访问,只留下两个联系邮箱。 新任CEO Ratia在一封内部邮件中写道: “没有可行的替代方案,董事会做出了极其艰难的决定,进入破产程序。” 四、泡沫之下,信任何在? Builder.ai的崩塌,对投资者的打击堪称惨烈。 微软作为战略伙伴,不仅投入资金,还将其整合进云服务,如今面临30万美元债务追偿;卡塔尔投资局领投的2.5亿美元D轮融资,几乎血本无归;软银、IFC等一众机构投资者同样深陷泥潭。 更令人唏嘘的是,Sachin Dev Duggal还与微软CEO Satya Nadella(萨提亚·纳德拉)同为印度裔企业家,真真切切地给后者上演了一场“老乡坑老乡”的戏码。 实际上,Builder.ai的崩塌只是“AI洗白(AI washing)”现象的冰山一角。类似案例层出不穷: Nate:声称是AI自动代购助手,实际雇佣菲律宾呼叫中心员工手动操作; Joonko:宣传拥有AI招聘匹配系统,但客户列表大量造假; Evolv:自称AI安检系统可精准识别武器,实际误报频发,将水瓶识别为武器。 这种现象之所以存在,是因为投资普遍受到了FOMO心理的驱使,认为不投就可能错过下一个OpenAI,这导致他们简化尽调流程,容忍合同风险,最终被“AI叙事”蒙蔽双眼。 Gartner预测,No-Code市场到2028年将占企业应用开发的60%,规模达260亿美元。可以预料到的是,繁荣背后,类似“AI洗白”的风险将无处不在。 从14岁就开始职业生涯的“神童”Duggal,利用“AI”这个迷人的标签和一句“像点披萨一样简单”的营销口号,构建了一个价值15亿美元的空中楼阁。 而这座楼阁最终崩塌,不是因为AI不靠谱,而是因为它从未真正拥有过AI。 Builder.ai的教训揭示出,泡沫破裂不可怕,可怕的是市场继续沉迷于“下一个大故事”,而忘了技术本质。
“互联网女皇”发布首份“AI趋势报告”,51次使用"前所未有”
被誉为“互联网女皇”的玛丽·米克尔(Mary Meeker)重出江湖,这一次她瞄准了AI界的霸主OpenAI。 米克尔是风投公司Bond的创始人兼普通合伙人,曾因其之前的年度互联网趋势报告而被誉为“互联网女王” 。在创立Bond之前,她曾于2010年至2019年负责凯鹏华盈(Kleiner Perkins)的增长业务,投资了Facebook、Spotify、Ring和Block(当时是 Square)等公司。 这篇长达340页名为《Trends – Artificial Intelligence (AI)》的重磅报告中,这位曾精准预测谷歌、苹果崛起的传奇分析师明确表示,人工智能的增长速度超越了历史上任何技术浪潮。 这份报告延续了Meeker一贯的宏大视野,从印刷术发明到Roomba扫地机器人应用无所不包,试图为AI时代描绘全景图。 报告指出,AI的发展速度前所未见,其用户增长、使用量和资本支出均呈现出爆炸式增长,正在深刻改变全球互联网格局和工作方式。 AI的变革速度“前所未有” 米克尔在报告中51次使用"前所未有(unprecedented)”一词,用以描述AI的开发、采用、投入和使用速度。 比如,ChatGPT在17个月内达到8亿用户,这个增长速度超越了人类历史上任何一项技术。 ChatGPT还在蚕食搜索市场份额,其年度搜索量已经达到3650亿次,是谷歌的5.5倍。但这种史无前例的普及速度,也意味着竞争的白热化程度同样史无前例。 技术优势将转化为全球主导权 最引人注目的是Meeker对AI地缘政治影响的判断。 她直言“AI领导地位可能决定地缘政治主导权”,这一表述暗示技术竞争已上升到国家战略层面。对于投资者而言,这意味着AI相关投资不仅要考虑商业回报,更要评估地缘政治风险对资产配置的潜在冲击。 印度用户撑起OpenAI估值神话 报告数据显示,印度已经成为ChatGPT最大的月活用户来源,使用量甚至超过美国本土。 这意味着OpenAI高达数千亿美元的估值,很大程度上要感谢印度用户的贡献。 这个发现颇具讽刺意味——一个总部位于旧金山、靠硅谷风投资金堆积起来的AI巨头,其用户增长引擎竟然来自大洋彼岸的新兴市场。更关键的是,印度用户对价格的敏感度远超美国用户,这为低成本竞争对手提供了绝佳的突破口。 成本暴跌背后的残酷现实 报告揭露,虽然训练顶级AI模型的成本在过去八年里飙升了2400倍,但AI推理成本却在两年内暴跌99.7%。 这种剪刀差效应正在重塑整个行业的游戏规则。 当硬件成本急速下降——英伟达2024年Blackwell GPU的单token能耗比2014年Kepler GPU降低了105000倍——那些专注于定制化场景的轻量级模型开始展现出致命的竞争优势。它们不需要OpenAI那样的巨额投入,却能在特定场景下提供“足够好”的服务。 两者结合,使得顶尖AI产品的成本自问世后迅速下跌。这对于消费者而言是好事,但这也意味着那些希望充分利用技术获取商业利益的公司,将需要更加雄厚的资金实力。 中国AI企业崛起,烧钱模式遭遇生存危机 数据显示,OpenAI、xAI和Anthropic这三家美国顶级AI公司的预期年化总收入已达120亿美元,但为此它们总共筹集了950亿美元的资金。 米克尔毫不客气地指出,OpenAI的估值与收入相比“看上去贵了”。 报告指出,随着中国模型和开源替代方案的快速崛起,这些“贵族式”AI公司面临的不仅是成本压力,更是商业模式的根本性挑战。 对于投资者,米克尔的建议则是“只投资你愿意损失的金额”。她表示: “把所有鸡蛋放在一个篮子里是很冒险的,因为现在一切都在上涨,看起来无往不利——直到某一天情况突然反转。”
谷歌悄然推出“AI Edge Gallery”应用:可在手机本地运行AI模型
IT之家 6 月 1 日消息,谷歌本周悄然发布了一款名为“Google AI Edge Gallery”的应用程序,该应用允许用户在其手机上运行一系列来自人工智能开发平台 Hugging Face 的公开可用 AI 模型。这款应用目前可在安卓系统上使用,并且即将推出 iOS 版本。 据IT之家了解,Google AI Edge Gallery 为用户提供查找、下载和运行兼容模型的功能,这些模型能够生成图像、回答问题、编写和编辑代码等。值得注意的是,这些 AI 模型可以在离线状态下运行,无需依赖互联网连接,而是直接利用支持该应用的手机处理器进行计算。 通常情况下,运行在云端的 AI 模型在性能上会优于本地运行的模型,但云端模型也存在一些弊端。部分用户可能担心将个人或敏感数据发送到远程数据中心,或者希望在没有 Wi-Fi 或蜂窝网络连接的情况下也能使用 AI 模型。 谷歌将这款应用称为“实验性 Alpha 版本”,用户可以通过 。应用的主界面显示了诸如“Ask Image”和“AI Chat”等 AI 任务和功能的快捷方式。点击某个功能后,用户可以看到适合该任务的模型列表,例如谷歌的 Gemma 3n 模型。 Google AI Edge Gallery 还提供了一个“Prompt Lab”,用户可以利用它启动由模型驱动的“单轮”任务,例如文本的总结和改写。Prompt Lab 内置了多种任务模板和可配置设置,用户可以根据需要微调模型的行为。 谷歌提醒用户,应用的性能表现可能会因设备而异。硬件性能更强的现代设备通常能够更快地运行模型,但模型本身的大小也是一个重要因素。较大的模型完成任务(例如回答关于图像的问题)所需的时间通常会比小型模型更长。 目前,谷歌已邀请开发社区的成员对 Google AI Edge Gallery 的使用体验提供反馈。该应用采用 Apache 2.0 许可证,意味着其可在大多数场景下(无论是商业用途还是其他用途)自由使用,不受限制。
机器人非得“像人”吗?人类最需要看清自己
撰文 | 雁 秋 编辑 | 李信马 题图 | 主办方供图 “如果你想要一个机器人来清洁地毯、打扫厨房或客厅,你真的希望它看起来像人类吗?那样我可能会害怕。” 近期,阿里巴巴集团董事长蔡崇信的发言,引发了关于机器人发展方向的讨论。这种声音并非对技术的否定,虽然人形机器人近年来备受关注,但在成本、技术成熟度以及实际应用场景等方面仍然面临诸多挑战。 因此,我们有必要对当前技术发展路径进行反思——过度执着于让机器模仿人类,是否忽略了技术本应拥有的更广阔可能性?在这个用算法、算力决定大部分事情的时代,人类的核心竞争力将如何体现? 机器人,越来越像人 为期四天的第五届Beyond国际科技创新博览会刚刚在澳门落下帷幕,DoNews受邀来到现场,一大明显的感受是,机器人真可谓无处不在。 开幕式上,Beyond两位联合创始人贺建东与卢刚博士,就借助两位具身机器人代表自己产生现场对话。卢刚表示,人形机器人是今年全球科技领域的一大热点,“选择这样的方式开场,正是展示了展会非常愿意去尝试一些新的、更有趣的互动方式。” 当然,更加直观的感受还需要走进会场。在场馆入口处,你就可以听到一段机器人音乐会:一位坐在扬琴前弹奏《菊花台》,一位随着音乐律动在一旁伴舞。 图源:DoNews摄 据了解,这两位“音乐大师”来自杭州和璇智能机器人有限公司,团队主要聚焦音乐演奏机器人方向,目前已承接多场大型活动。 再往会场深处走,你还可以看到机器人在线发牌。当有人问它“可以和我玩骰子吗?”,机器人边快速摁下按钮,围观群众小小感受了一把浓厚的澳门风情。 图源:DoNews摄 这位机器人是来自智平方科技的“爱宝”,智平方科技作为深圳机器人“十三太保”之一,以通用具身机器人大脑为核心,软硬一体,在2023年初创后短短一年多时间,便设计出多款不同场景、不同功能的人形机器人。 此外,还有能够现场制作咖啡的机器人(机械臂),化身陪练的机械臂,以及会和人互动交流、倒立行走的各种人形、自足机器人。 图源:DoNews摄 图源:DoNews摄 遍布娱乐场、酒店、奢侈品店的澳门也“凑起热闹”,散发出全新的科技气息。与此同时,远在1000多公里外的杭州,正举办着一场机器人拳击赛。 5月25日晚,由央视主办的“CMG世界机器人大赛·系列赛——机甲格斗擂台赛”正式打响。四个1.3米高的机器人由博主、投资人等非专业选手操控,打了十二回合后,一位叫“AI策算师”的机器人赢得了冠军。 比赛期间,主持人多次强调这场格斗赛仅仅是“科普展示赛”。而展示背后,实则是一场公开的技术验证秀。 DoNews在一些视频片段中注意到,比赛每回合两分钟,这些机器人在人类遥控操作之下,暴露出很多问题。 比如主动攻击的机器人反而扑空,失去稳定性倒地;比如两“人”在比拼中意外卡住,无奈靠人力将其分开。而且参赛的不少机器人都有“皮外伤”,部分宇树G1的金属外壳留下了深浅不一的划痕...... 专家介绍,这些问题其实暴露出机器人当前动态控制、感知延迟等问题,同时也展现出抗冲击性、多模态感知与快速恢复能力。 图源:央视截图 图源:央视截图 目前,人形机器人赛道正被按下加速键。2025年4月,北京举办了全球首个人形机器人半程马拉松,8月将举办首届人形机器人运动会。 广发证券表示,机器人技术正在从实验室走向实际应用,尤其在拥有明确需求的垂直行业中,具备较强的落地基础。随着技术的持续进步,特别是在感知、决策和运动控制等核心领域的突破,人形机器人有望进一步拓展至更多复杂场景,从而打开更大的市场空间。 据《北京具身智能科技创新与产业培育行动计划(2025—2027年)》,到2027年,突破不少于100项关键技术、产出不少于10项国际领先的软硬件产品,具身智能上下游产业链基本实现国产化。 “非得像人吗?无聊” 然而,不是所有人都看好人形机器人的发展。此前,金沙江创投主管合伙人朱啸虎的一句“我们正批量退出人形机器人公司”,就给火热的赛道被实实在在泼了一盆冷水。 关于机器人是否一定要是“人形”,以及人形机器人的市场前景,不同的人有不同的观点。(DoNews此前做过相关报道,感兴趣请移步《面对具身智能,泼冷水不见得是坏事》) 部分人产业人士认为,人形机器人是技术落地的机会点,一定会是未来的方向。“因为这个社会是按照人类的需求建造的,长得像人自然可以适配人类通用数据,代替人类处理干活。把机器人做成人形,那么它天生就可以调用现有的设施。”一位从业者如是说。 不过,从另外一批人的视角看,人形机器人就「很无聊」。 在本次Beyond展会闭幕式上,阿里巴巴集团董事长蔡崇信指出,当将AI融入机器人时,它们会变得更智能,也更具思考能力,这让人非常兴奋。不过人形机器人的实用性又是另一个问题,世界上大多数智能机器人并不需要长得像人类。 “如果你想要一个机器人来清洁地毯、打扫厨房或客厅,你真的希望它看起来像人类吗?那样我可能会害怕,我只想要一个看起来像吸尘器的东西能智能地在房间里完成清洁工作。”蔡崇信说。 他认为,人形机器人目前的智能水平远无法和人类相比,技术层面上还有很多障碍需要克服。“我们目前在人工智能、大语言模型方面已经取得很大进步,但在空间智能方面仍需要继续努力,才能进一步推动机器人行业的发展。” 图源:主办方供图 技术的发展也带给艺术界不小的震荡,当下,数字艺术正在成为一门新兴的文化产业。在近期举办的以“在山顶重逢”为主题的首届“横琴-澳门国际数字艺术博览会”中,大批国内优秀的艺术家、AI设计师、商业人士齐聚一堂,围绕“AIGC重塑产业新生态”展开深度对话。 谈及机器人,中央美术学院教授费俊的观点发人深省,他反问:“我们为什么要让机器学人?像我们一样唱歌、写诗?为什么只要打败人类的棋手就觉得了不起了?这很无聊。” 费俊说,每一次科技浪潮,我们都会听到一种“神话”:科技会解放你的生产力,会替你干很多你该干的事。但试问,解放出来的时间会属于你吗?好像从来不是。多数人时间不是让你去玩耍的时间,会让更多的工作填满你的时间。 “技术解放了效率,但不等于让你更自由。” 图源:主办方供图 如今人形机器人背后映射的人类思想,本身可能是一种无意识的自我中心主义——让机器学人,无论是扭秧歌、拳击、倒立还是做咖啡,无非就是在重复人类的动作,满足的是人类对“智能体”的幻想。 但是,蔡崇信和费俊的质疑恰恰点破这一迷思:机器人是不是要有自己的方式去解决问题?技术的价值不在于它能否模仿人类,而在于它能否超越人类。 比如,波士顿动力从早期模仿人类步态的Atlas机器人,到专精物流搬运的Stretch机械臂,逐步放弃对“完美人形”的追求,这种转变揭示了一个趋势:当AI足够强大,物理形态反而可以极简化。 医疗领域上,达芬奇手术机器人以仿生机械臂还原医生手部动作,但其核心价值在于“人机协作”而非“替代人类”——医生通过操纵台控制机械臂,AI则提供震颤过滤和运动比例缩放。这种“半人形”设计证明:形态适配功能,比完全拟人更重要。 技术突破了人类能力的极限,而非仅仅复制人类的行为。正如费俊所表达的观点,“我们还是要从个体人类的经验去看待机器的发展,机器可能有它自己不同于人类一种新的可能。” 这也揭示了技术最本质的功能:服务人类,提升效率,解决现实问题。至于其“身体”是何种形态,并不是第一顺位。 图源:主办方供图 如何与AI共生 其实,当争论聚焦于“是否非得是人形”时,本质上是人类对自身认知的投射。在这个逐步被算法定义的AI时代,人类好像比以往任何时候都需要更清楚地认识自己。 我们目前对待AI的态度非常矛盾,一边担心被AI代替掉,但又孜孜不倦地让AI比人脑更快;一边驻足欣赏能谈琴会跳舞的机器人,一边又不断反问:这有什么用? 这种焦虑背后,是人类自我定位的危机:如果机器人能在所有方面媲美甚至超越人类,那么,人的独特性何在? 在“横琴-澳门国际数字艺术博览会”会场,记者遇到从不同学校赶来参观学习的中学生。面对AI堪称狂飙的迭代更新速度,作为青年一代是否会感到不安? 一位学生向DoNews表示,学校近几年对于人工智能的教育在不断加强,走出校园了解世界上的技术发展到什么水平,也是日常学习的一部分。“未来一定会选择人工智能领域的专业,不是说因为这个热门,主要是现在任何科研产学研究都离不开AI,不断学习本身就是一种趋势。” 图源:主办方供图 如果回归哲学层面的自省:什么是人不可替代的价值?央美的费俊教授提供了一种思考方向: “如果你今天的生存是依赖于所谓简单的脑力劳动,只是一个风格的搬运工,那你确实该焦虑,因为这个时代要‘变天’了。但如果你的核心价值是建构在想象力和创造力上,你丝毫用不着焦虑,因为我觉得机器永远无法替代人类不断突破自我的创造力和美学建构上的创造力,它是不可被替代的。” 不难发现,到目前为止,机器人只是拥有了人类的部分能力,且并不成熟,更何况它们还不知道自己是谁,不能对自己负责,更没有意识和情绪。当然,我们不排除机器人的情绪可以通过算法设计实现,但这种情绪是真的情绪,还是「表演情绪」? 如此看来,人类并不需要对机器人替代产生焦虑,但我们需要认识清楚,机器人要怎么发展,取决于人类自己。 法国技术哲学家贝尔纳·斯蒂格勒有讲过一句话:技术从来不是人类的“对手”,而是“代具”——它弥补了人类生物性的局限,并推动文明演进。 也许机器人没必要像人,人也不必和机器人PK。未来机器人可以去做机器人擅长的事,人做人擅长的事,大家是一种互补性的共生。未来我们不妨可以讨论下,是否要放弃“机器人有必要做人形”的旧命题,转而探索在机器人发展的时代,人类如何做自己?
雷军扬眉吐气:使用自研3nm芯片的15S Pro,好评率居然100%
众所周知,5月份,小米搞了一个大新闻,那就是自研了一颗3nm的芯片玄戒O1。 虽然这颗芯片一发布,引来无数网友最恶意的猜测,说它是套壳,是定制等,但这并没有改变小米推出了中国最强手机芯片的事实。 事实上,懂的都懂,对于小米这样的企业而言,芯片造假是不可能的,一旦事发,作为一家上市企业,直接会完蛋的,没有可没这么傻。 而这颗芯片,小米也是直接放在了高端旗舰手机小米15 S Pro上面,这可是一款5499元的手机,叠加国补后,也是需要4999元的,与苹果当前最火的的iPhone16 Pro差不多是同一价位了。 从现在的情况来看,结果也是非常好的,因为从某电商平台的数据来看,评价已经超过了1万条,而好评率更是高达100%,就没有差评。 当然,一些米黑肯定说是刷的,但说实话,花几千万买手机,然后来刷好评,应该是不太可能的,更何况总有一些人不会是刷的,总会有真实评价的,但也没有差评,这就说明问题了。 从大家的评价来看,都说这颗芯片的实际体验,与高通的旗舰芯片差不多,感觉并不比高通8Elite差,且发热不严重,非常流畅。 其中有人特别指出,这款手机的夜景能力非常强,不管是视频还是拍照,在夜间都非常给力,比使用高通8Elite芯片的小米15Pro手机强。 为什么会这样呢?其实是因为小米15S Pro这次在玄戒O1内嵌的第四代ISP加持下,整了个硬件级的全焦段4K夜景视频能力,让你在夜色朦胧中也能捕捉到清晰、质感在线的动态画面。 到这里,估计雷军这次真的是算是扬眉吐气了,毕竟一出手就不凡,搞了一颗3nm芯片,并且其表现还不错,能够直接与高通芯片去PK了。 当然说实话,虽然很多人说差不多,但与高通8Elite相比,肯定是差一些,但是由于芯片、系统都是自己的,所以在优化上面会做的更好,然后给大家带来更好的体验,实体体验来看差别并不明显。 可以预计的是,这颗芯片一旦在小米15S Pro上表现好,未来会用到更多手机上,不断的迭代,如果再把5G基带芯片搞出来,那么小米的芯片就真的全面成功了,将成为中国最强的手机芯片厂商之一了。
CPU和显卡先升级谁:看完秒懂
我们都知道想要更好的游戏体验,就要换性能更强的电脑,但是大多数玩家没有足够的预算,所以经常面临这样的问题,在升级硬件的时候,是应该先升级CPU还是先升级显卡呢?答案是看你主要玩的游戏和场景。 作为电脑的“大脑”,CPU承担着操作系统指令执行、内存管理、硬盘数据读写等核心任务。其性能直接决定了多任务处理、视频编辑、编程开发等场景下的效率。例如,在视频渲染过程中,CPU需要同时处理音频解码、特效合成、编码压缩等多个环节,核心数、线程数和缓存容量成为关键指标。 显卡则专注于图形数据的处理,直接影响游戏帧率、画面细腻度以及3D建模的实时渲染能力。以NVIDIA RTX 40系列显卡为例,其搭载的DLSS 3.0技术可通过AI算法提升游戏帧率,而光追单元则能实现更逼真的光影效果。对于游戏玩家和设计师而言,显卡的性能直接决定了视觉体验的上限。 在游戏中,CPU和显卡可以说是各司其职,CPU负责对游戏中的动作,运动,碰撞,互动等等进行计算,运算出需要反馈的场景,并将相关数据发送给显卡。显卡在接受到数据之后对画面进行渲染,包括场景的变动,光影的变化,人物的动作以及各种特效,然后将信号传输给显示器。 也就是说,在当前CPU和显卡搭配想当,没有明显短板的前提下,如果你主要玩的游戏是《魔兽世界》,《无主之地》,《我的世界》这类游戏,可以考虑优先升级CPU,如果玩的是画面绚丽的游戏,或是追求更高帧率的《CS2》,《三角洲行动》这类游戏,优先升级显卡是更合适的。 如果还是分辨不了游戏对CPU还是显卡的要求更高,或者看不出来目前的瓶颈在CPU还是显卡,那么升级显卡一般没错。 另外还需要注意的是,硬件的升级需要提前看好系统的兼容性。 CPU升级需关注主板芯片组支持范围。例如,B560主板仅支持第10代或第11代酷睿CPU,如果升级更新的CPU,那就需要更换主板,而对应的散热器内存可能也需要跟着换。 显卡则只需要关注电源的供电功率和接口即可。一般来说,供电充足的电源都会提供充足的PCIe供电接口,但是老电源可能没有新的16pin供电,需要玩家自行准备转接线。 CPU与显卡的升级决策还是要考虑实际的需求,如果想要长时间使用,考虑未来的扩展性也是有必要的。最后要提醒大家的是,不管购买CPU还是显卡都要优先选择官方渠道,不要一味贪便宜,避免买到翻新甚至掉包的产品。 责任编辑:振亭
苹果首次收购游戏公司,iPhone能抢Switch的饭碗吗
苹果大改 游戏中心 我相信 iPhone 一定是很多人每天不可或缺的游戏工具,无论是微信跳一跳还是鸣潮原神星穹铁道,不管认同与否,手机就是现在世界上最流行的游戏平台。 而作为其中年出货量超过 2 亿部的绝对大头,iPhone 上的 App Store 就是目前世界上规模最大的游戏平台——比碎片化的安卓游戏市场更大,比 PlayStation、Xbox 和 Switch 加起来都大。甚至,也比 PC 更大。 但在 iPhone 上,除了游戏 app 本体,其实还有一个和游戏相关的小功能藏在设置菜单的深处。只是因为使用频率实在太低,已经几乎被大家遗忘了。 它就是 Game Center!怎么样,是不是早就忘了上次打开是哪年了? 推出至今已经十五年、从 iOS 4.1 陪伴到 iOS 18,苹果 Game Center 的存在感却异乎寻常的低。实际上,类似 Game Center 这种用于「游戏内社交 + 会员系统」的平台非常常见,比如索尼的 PSN、微软 Xbox Network 和任天堂 Nintendo Switch Online 服务都属于同一概念。「御三家」加起来的月活数量(MAU)超过三亿人。 然而,作为背靠全球十多亿 iPhone/iPad 用户,与 Apple ID 直接关联的第一方服务,Game Center 却在 iPhone 这个全球第一的游戏平台上非常没有存在感,颇有种「扶不起的阿斗」的感觉。 苹果也清楚 Game Center 目前的处境,趁着今年是个 WWDC 大年,苹果已经开始计划采取一些「大动作」了。 据彭博社记者 Mark Gurman 收到的消息,苹果计划今年晚些时候在 iOS、iPadOS、macOS 和 tvOS 平台上推出一款全新的 app,以取代现有的 Game Center 功能。 基本上,你可以将这款新 app,理解为 App Store 游戏专区(游戏下载)、Arcade(游戏订阅)、Game Center(联机、社交、成就系统)的「三合一」,一个苹果自家游戏内容和服务的顶级入口。 类似的改版预测从 WWDC 2022 就已经开始了 据报道,这款新的游戏 app 将会在下半年正式推出,iPhone、iPad、Mac 与 Apple TV 出厂预装。用户可以直接在里面购买新游戏、下载已购内容或者启动已下载的游戏,原 Game Center 的成就和奖杯、关注排行榜等也将一并继承。并且通过 iMessage 和 Facetime 在玩游戏的时候发信息或开视频的功能,也仍然支持(能否在国内上线还有待观望)。 另外,在允许侧载应用程序的 macOS 上,苹果也计划让新的游戏 app 兼容通过第三方渠道安装的游戏——等同于在 PC 上用 Steam 或 Nvidia 应用,作为各个渠道下载游戏的统一启动器。报道中还推测,这个新 App 可能支持同步现有游戏的存档进度和已获得成就,并与用户 iCloud 通讯录联系人共享: 比如可以用 Airdrop 的方式与陌生人分享成就页面,不再局限于 Steam 好友 苹果上半年在游戏领域的大动作,还不止于此。 根据 Digital Trends 报道,苹果在五月份悄悄收购了一家名为 RAC7 的独立游戏工作室。RAC7 工作室只有两个人,却做出了 Apple Arcade 中的爆款游戏 Sneaky Sasquatch(偷偷摸摸大脚怪),从 2019 年上线以来一直坚持更新,至今已经攒下了超过 20 万条好评,App Store 平均分更是达到了 4.9,斩获了 2020 年的 Apple Arcade 年度游戏桂冠。 RAC7 工作室的两名成员:Jesse Ringrose 和 Jason Ennis 业界也有猜测,苹果收购游戏工作室的做法,是否意味着它会像索尼那样成为游戏制作、版权和发行巨头,抑或是参考 Apple Originals 的模式,在游戏领域做更多「自制内容」的尝试? 这些问题尚无答案。根据报道,RAC7 作为苹果收购的第一家游戏工作室,后续将以「内部工作室」的形式运行,并非直接吸收进苹果公司,有些类似索尼、Xbox、任天堂与旗下开发工作室之间的关系。 这次收购行为,更像是在为 Apple Arcade 服务提供一些长线的支持,以期吸引更多类似 RAC7 这样的、专注为 Apple Arcade 开发独立游戏的小工作室,进行生态共建。 2019 年秋季发布会 Apple Arcade 上线时宣传的开发阵容,左下角就是 RAC7 苹果近年来在游戏领域的投资并不吝啬,但公司的游戏事业一直没能腾飞,或者至少追上「御三家」的水平。就拿 Apple Arcade 来说,作为一项月费 6.99 美元的订阅服务,Apple Arcade 提供的游戏内容却大部分是全年龄段(即 ESRB 的 E 分级),与类似 Xbox Game Pass 这种 IP 版权方兼分销平台能够提供的内容相比,实在很难吸引到购买力最强的成年人群体。 再说回即将于今年 6 月召开的 WWDC,无疑也会成为最近几年来最「奇怪」的一届:去年 Apple Intelligence 过度包装导致无法交付,今年的重头放在了操作系统 UI 重新设计上,Siri 和 AI 估计不会聊太多了;甚至本周还爆出新闻,苹果将按照年份计数、把所有操作系统名称的版本号后缀统一修改为 26。 在如此出格的大背景下,苹果重新捡起游戏这个话题,借机革命一下 Game Center,反倒显得没那么奇怪了。更何况 iPhone 与 iPad 已经成为世界上占有量最高的游戏平台之二,并且游戏买断和内购抽成也在 App Store 总营收中占比近七成。为了保住市场、稳固收入,苹果在这个节骨眼下加强对于游戏的「平台环境」的优化,也显得顺理成章。 但如果单纯只靠给 Game Center「提拔」到系统的一级入口,或者继续按老路推广 Apple Arcade 的话,在如今群狼环伺的游戏行业中是很难持续下去的——毕竟所有的游戏内容服务都是先有了玩家喜欢的 IP,之后才能延展出社区服务和订阅产品(类比 GTA Online 与 GTA+ 会员的关系);而非先设计一个订阅服务,然后向里面填充作品。 因此,在今年 Game Center 的定位上升背后,一套新的订阅制 + 成就系统 + 社区的组合,或许才是苹果瞄准的目标。基于新游戏 app 的社群玩法,不仅对于游戏厂商的渠道开拓,对于苹果自己的硬件销售,也都可能成为增长点。 到这里,我们还能想到一些更离谱的操作:如果苹果在国内推出一套特化的 Apple Arcade 服务,只依靠国区数量庞大的抽卡类游戏库,将订阅服务设置成类似「订阅 Arcade 就送当期卡池全英雄,直接保送毕业」的 pay-to-win 模式,你会愿意买单吗? 文|马扶搖
Switch 2让黑客束手无策?消息称尝试破解会使其“变砖”
IT之家 6 月 1 日消息,任天堂即将发售的 Switch 2 似乎对黑客来说是一块难啃的骨头。尽管目前距离其正式发售还有一周时间,但已经有部分黑客声称已经拿到了该设备的早期版本,然而他们发现,与初代 Switch 相比,Switch 2 的安全防护措施明显更为严密。 在游戏行业,无论是开发商还是发行商,都对消费者试图破解游戏或主机的行为深恶痛绝,而任天堂在这方面的态度更是坚定。过往的多起诉讼和争议均表明,任天堂对黑客和盗版行为的抵制态度十分强硬,尤其是在 Switch 时代。 然而IT之家注意到,在过去几年中,尽管任天堂对黑客行为持反对态度,但其主机和游戏在实际防护上似乎并未达到预期效果。初代 Switch 在被破解方面并未给黑客带来太多困难,但根据早期报告来看,Switch 2 的情况可能会有所不同。 据 Twitter 用户 Stealth40k 指出,一些黑客已经提前拿到了 Switch 2,但他们并没有取得预期的成功。在 Reddit 的 switch2hacks 板块上,有帖子称这些拿到 Switch 2 的黑客发现,该设备的防护措施比以往要强大得多。 Reddit 用户 RojaTop 分享了一个来自 GBATemp 论坛的帖子,其中提到有三名黑客试图在 Switch 2 上使用一些漏洞进行破解。然而,这些黑客在尝试使用 MIG Switch 时,设备立即被锁定,陷入了“启动循环”,变得无法正常使用,相当于“变砖”了。 另一名黑客则声称尝试“刺探 ROM 芯片的闪存存储”,结果同样导致其 Switch 2 “变砖”。该帖子推测,Switch 2 似乎能够检测到电压变化,即使是“微小”的变化也能被识别,这无疑大大增加了破解的难度,正如任天堂此前所承诺的那样。 当然,由于 Switch 2 尚未正式发售,获取早期版本的难度较大,因此这些说法仍需谨慎对待。不过,考虑到任天堂一贯对黑客的强硬态度,这些说法似乎并非空穴来风。 尽管目前还无法确定这些说法的真实性,但从目前的情况来看,任天堂似乎已经全力以赴,确保 Switch 2 的安全防护做到极致。虽然不能完全排除黑客最终破解的可能性,但期待 Switch 2 在发售当天就被破解似乎可能性不大。
红魔 10S Pro+ 氘锋透明银翼版:搭载骁龙 8 至尊领先版,能玩 PC 游戏的手机
5 月 26 日,红魔 10S Pro+ 正式发布,定价 5999 元起。 红魔这次提供了最熟悉的三个配色,分别是采用双重立体微蚀刻工艺造出金属格栅纹理的能量粒子,还有暗黑、银翼两种氘锋透明版。 机身采用透明面板设计,这一代用了细节相对简约的装饰面板,保留了风扇开孔和红魔 X、高通骁龙 8 至尊领先版的标志,其余位置都用金属质感强的装饰盖板,增添机械细节。 机身正面是一块 6.85 英寸 1.5K 144Hz 悟空全面屏,屏幕峰值亮度为 2000nits,支持 2592Hz PWM 调光和 DC 调光,有 SGS 低蓝光护眼认证的星盾护眼技术。屏幕支持 Magic Touch 2.0 触控技术,最高支持 2500Hz 瞬时触控采样率和 960Hz 多指瞬时触控采样率。 性能方面,手机搭载了高通骁龙 8 至尊领先版,并配备了红芯 R3 Pro 自研芯片、LPDDR5T+UFS 4.1 Pro 储存组合,和最新的 CUBE 擎天游戏引擎,常温状态下安兔兔跑分为 2820734。 性能直接点满后,手机运行极高画质的星穹铁道时帧率保持会更加轻松,60 分钟内可实现平均帧率为 60fps,帧率方差可到 0.2。 性能增强后,红魔 10S Pro+ 还内置了 PC 模拟器,能玩类似 PC 版 《古墓丽影 9》等游戏,并能够外接手柄和鼠标键盘和屏幕,实现类似「掌机+主机」的游玩体验。 续航方面,手机搭载了 7500mAh 二代牛魔王大电池,支持 120W 魔闪快充,实测 0-100 充电时间为 35 分钟。同样它也支持实测 89W 的通用快充和旁路充电,增加充电器的适应力,还有在游戏时边充边玩可以减少损耗和发热。 相机部分选择了 5000 万像素的主摄搭配 5000 万像素的超广角组合。后盖的纯平设计让摄像头不在凸起,可以平整放在桌面上,不再滑动。 最后看看售价: ·16GB+512GB:5999 元 ·24GB+1TB: 7499 元,只有氘锋透明银翼配色可选
OPPO Find X8 Ultra手机推送15.0.1.502更新,优化视频模式等
IT之家 6 月 1 日消息,OPPO Find X8 Ultra 手机现已推送 15.0.1.502 版本更新,优化视频模式、新增远程控制 Windows 电脑等多项功能,安装包体积为 1.28GB。 IT之家整理更新内容如下: 相机 优化电影模式为专业视频模式,支持调节多种分辨率、帧率和画幅;支持录制 4K60fps Log 视频并对专业参数进行设置。为你带来影视级创作拍摄体验 优化系统相机中 35mm 到 70mm(1.5x 到 2.9x)焦段的清晰度,提升使用体验 优化使用后置摄像头拍照时的效果,提升拍摄稳定性和表现力 优化大师模式 JPGMAX 格式下的拍摄效果,提升拍摄稳定性 通信互联 新增远程控制 Windows 电脑功能,支持远程访问电脑文件和控制电脑屏幕,实现远程轻办公和文件远程互传 提升通信稳定性和蓝牙兼容性 游戏 新增游戏相机功能,支持一键回录和实况截屏,记录游戏中的每一个精彩瞬间 系统 新增系统导航唤醒小布开关,方便操作(设置-系统与更新-系统导航方式) 优化部分场景下导航条背景色与应用背景颜色显示效果,提升色彩显示一致性 优化控制中心和通知中心退出动效,快速响应桌面或应用操作,提升面板过渡流畅性 优化锁屏快捷功能入口启动动效,无缝过渡进入应用界面,提升使用体验 优化锁屏通知堆叠效果,通知较多时,在最后一条以摘要形式呈现未展示的通知数量及来源 优化系统稳定性与流畅性 更新 Android 安全补丁至 2025 年 6 月提升系统安全性

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。