注册 登录
EN
中文
APP下载
logo
icon
数字孪生
icon
大数据获客
icon
人工智能
分类目录
行业分类:
IT/通信
金融财经
市场/营销
交通/物流
节能环保
休闲旅游
农林渔牧
日化用品
数码家电
房产/建材
企业/管理
家具/家居
医疗/保健
新零售
机械/工业
餐饮/食品
其它行业
头条分类:
行业前景
行业动态
行业资讯
行业活动
GPT-6如果只是吊胃口,那OpenAI就真会掉下悬崖了
有人说,自从GPT-6被爆4月发布后,Deepseek-V4就不再是“最吊胃口的大模型”了。 无论是据传性能暴涨40%、200万token上下文、每百万token仅$2.5/$12(输入/输出)的“土豆”(Spud),还是把ChatGPT、Codex编程引擎、Atlas浏览器彻底融合的“超级引擎”,关于GPT-6的讨论在网络上沸沸扬扬,几乎所有人都在说同一件事:它很快要来了,而且“和以前不一样”。 但以上种种网传消息,没有一条得到官方的确认。 甚至连Spud究竟是GPT-6还是GPT-5.5都没有定论。 OpenAI官方闪烁其词:“很强”“架构变化”“解决更难的问题”“big model smell”……类似的模糊字眼反复出现,却硬是没透露什么关键参数和具体指标。 这不太像一次正常的产品发布,更像一场被刻意控制的预热。 信息刚刚好被控制在一个“刚好够让人兴奋,但又无法确认”的区间,让各路网友抓耳挠腮。 讨论越多,不确定性越强,期待则被不断放大。 GPT-6还没发布,但已经开始“干活”了。 01 内忧外患生死局 OpenAI正处在一个不允许失败的阶段。 从外部看,竞争不再集中在单一方向,而是同时在多个维度展开。 上有Anthropic用性能施压,Claude系列持续迭代,coding/agent能力表现突出,主打一个成本更低、效率更高; 下有Deepseek拿定价拆台,V4据传超低成本+长上下文+开源,除了一直没做多模态,已被广大网友瞩目期待; 横向比较还有个Google在体系化推进,搜索、Agent、电商一体化,让Gemini变成Google的全栈入口。 更关键的是,多家厂商的新模型集中在同一时间窗口释放: 就在今天,Anthropic的Claude Mythos Preview已通过Project Glasswing公开亮相,大幅提升了编码能力、推理能力和网络安全能力; DeepSeek也新增了“专家模式”,被认为是V4的前置信号; 此外,xAI的Grok5被透露参数规模达6万亿,原计划Q1发布,尽管延期,但仍在逼近;Google的Gemini 3.2也被期待在Q2推出。 过去的大模型竞争还有“代际差”:你强一代,我追一代。但现在,几乎所有公司都在同一时间给出自己的答案,亮出自己的底牌。 与此同时,OpenAI内部的压力也在累积。 IPO时间窗口被普遍认为指向2026年下半年,OpenAI已经完成约1220亿美元融资,同时承诺未来几年高达6000亿美元级别的算力投入; 二级市场出现约6亿美元股份“无人接盘”的情况,有投资机构负责人公开表示:他们“无法找到机构买家”; 围绕上市节奏,Sam Altman与公司CFO存在明显意见分歧:一方希望尽快推进IPO以抢占时间窗口,另一方则认为公司尚未准备好承受公开市场的压力。 如果说Deepseek需要一个先进的大模型来弥补最近频频断连的“意外事件”,挽回一下太久没有更新的“品牌形象”;对OpenAI来说,拿出点“真东西”则是迫在眉睫的生死局。 市场的信号已经开始变化,资本并不会等产品发布之后再判断,它会提前下注。 而现在的下注趋势,正在变得更谨慎。 在这样的背景下,GPT-6不仅是“下一个产品”,还是OpenAI挽回市场信心的一次关键机会,更是一次必须成功的战略验证。 02 大模型的气息 如果说现在关于GPT-6的讨论有什么是“确定”的,不是它的性能,而是它被寄予的期望。 在最近的公开表述中,Greg Brockman反复强调一件事:这不是一次增量更新,而是一次“我们重新思考模型开发方式”的变化。 他甚至用了一个有点玄的词,“big model smell”,大模型的气息。 他的表述是:当模型跨过某个阈值,它不再只是“更聪明”,而是开始主动理解用户意图,减少交互成本。 也就是说,如果过去是人在学习如何去使用AI的话,GPT-6要做的,则是让AI去理解人。 围绕这一点,外界对GPT-6的期待也逐渐具象化:为了长任务执行需要更强的Agent能力;为了统一架构需要更强的原生多模态能力;为了更自然的交互需要减少提示工程;为了支撑真实使用场景必须降低幻觉率。 就在GPT-6被不断预热的同时,一个更关键的变化已经发生:Anthropic的年化营收(ARR)突破300亿美元,超过了OpenAI的250亿美元。 虽然两者采用不同的收入确认方式,无法直接横向比较,但增长来源值得关注:Anthropic的扩张,主要来自企业侧。 如果把ARR看作token消费的一个侧面反映,这意味着,企业侧(ToB)的token需求,正在超过消费侧(ToC)。 换句话讲,AI的主战场,从“聊天”这类休闲娱乐,转向了实际应用的“工作流”。 而当模型进入工作流之后,竞争的逻辑也随之改变。 用户绑定的,不再是某一个工具,而是token的使用方式,以及围绕它构建的一整套流程。 在这一点上,Anthropic已经走在前面。 除了模型本身强悍的编码能力,Anthropic也在明显向编码与开发者场景集中,围绕Claude Code不断强化工作流能力,通过harness、hook、MCP等机制,将模型嵌入实际流程之中。 当企业的流程围绕这套机制建立,迁移成本就会迅速上升。 相比之下,OpenAI的优势仍然集中在“使用AI”这一层:更强的通用模型、更大的用户规模、更广的使用场景。 但这些优势,并不会自动转化为工作流中的绑定能力。 用户可以随时更换一个工具,但很难替换掉一整套已经运行的工作系统。 从这个角度看,OpenAI并不占优。 为此OpenAI也在做出调整,尝试用另一种方式进入工作流:一方面通过Codex强化开发者场景,另一方面将这些能力与下一代模型(GPT-6)绑定,试图让模型本身承载更完整的任务流程。 这也意味着,GPT-6所承担的,不只是性能的提升:它需要进入生产流程,证明OpenAI同样有能力锁定工作流,把用户留在自己的系统里。 03 王牌,卡在决战前夜 GPT-6被寄予了厚望,可是问题在于,这些期望并不是能够“慢慢实现”的。 OpenAI的上市窗口,已经基本锁定在2026年下半年。在进入资本市场之前,它必须回答三个问题:技术是否仍然领先;增长是否可以持续;商业模式是否成立。 而GPT-6,很可能是这三个问题的统一答案,或者说,唯一答案。 如果GPT-6按时发布,它的作用不仅是“展示能力”,更是提供一个可以写进招股书的完整叙事:AI不只是更强了,而是开始真正进入生产流程,产生可预期的收入。 但反过来,要是GPT-6没有达到预期,问题也会被同步放大。 在技术层面上:如果它只是“更强的GPT-5”,这就是一次简单的产品迭代,OpenAI将失去“定义下一代模型”的话语权。 在增长逻辑上:当Anthropic以更陡的曲线扩张时,OpenAI必须证明自己仍处在更高的增长区间,否则市场会迅速重估它的长期价值。 在商业模式上则更加根本:AI不同于传统软件,模型的每一次调用都对应真实的计算成本。如果GPT-6无法改变token的使用方式,只是让用户“用得更多”,那么规模越大,压力越大。成本结构不会改善,利润模型依然站不住脚。 这三件事,本质上是同一个问题:OpenAI这条路径,是否真的能跑通。 GPT-6如果失败,不只是一个模型的失败。它会让技术叙事、增长逻辑与商业模型,在同一时间失去支撑。 而Sam Altman,以及这家公司过去几年建立的“领先叙事”,也会出现明显的动摇。 当所有人都在等待GPT-6发布的那一刻,真正被验证的,从来不只是这个模型本身。
罗福莉再发声,Agent时代模型订阅制凉了?
“我会建议所有LLM公司,在搞清楚‘coding plan怎么定价不亏钱’之前,不要盲目打价格战。”近日,小米集团MiMo负责人罗福莉在X平台发文,谈及针对眼下的Token定价问题发表看法。 让罗福莉下场发声的由头很简单:Anthropic在近期调整了产品策略,不再允许用Claude订阅运行OpenClaw。 本月4日起,Claude的Pro和Max订阅不再覆盖OpenClaw等第三方框架,用户如果还要继续使用这些智能体,只能改为通过API按量付费或购买额外使用额度。 Claude官方解释称:这类调用对系统造成了“远超预期的压力”。 而几乎在同一时间,MiMo也推出了自家的Token Plan。 “Claude Code的订阅机制在计算资源分配上设计得非常漂亮。但我认为它并不赚钱甚至可能亏损,除非API利润率高出10到20倍。”在文中,罗福莉这样分析道。 除了呼吁不打价格战,罗福莉的另一个核心观点是:长期来看,Agent时代的模型正在迎接一个“被迫进化”的过程,优化上下文管理、复用已有计算结果、减少无效token消耗是接下来的迭代方向。 在她看来,Anthropic的这一步,正在推动整个生态向这个方向:让高效的Agent和高效的模型协同进化。 不过,面对Anthropic这一策略调整,也有人选择了不买账。 OpenClaw作者Peter Steinberger在X上直接开喷,他表示,曾尝试与Anthropic沟通,但最终只争取到一周的缓冲时间。 OpenClaw的广大用户群体无疑是这一轮调整的最大受害者,很多用户订阅Claude,本来就是为了运行OpenClaw,而现在,这条路径被直接切断。 当原本被认为“高昂价格”的200美元的订阅,突然间能跑出几千美元的算力消耗,无疑是对厂商定价策略的一次考验。 另一方面,这并非是一句简单的“Token调用变多了”就能解释的现象。Agent正在重塑Token的调用逻辑,而背后这笔账,算起来还真有点复杂。 01 600倍浮动下,模型该怎么定价 如果要用一个词来解释这场争议的核心,那就是——波动,不可预测的波动。 南洋理工大学等团队在近期发布的研究《Beyond Max Tokens》显示,在多轮工具调用的智能体场景中,同一个任务的计算消耗,可能出现最高658倍的差异。 一条看起来类似的任务,有的几千个计算单元就结束,有的则被拉到数万甚至更高。这意味着,模型的成本不只是变得更高,而是不可预测。 “我仔细观察过OpenClaw的上下文管理——做得不怎么样。” 解构罗福莉在X上的发言,你能发现和南洋理工这份研究的契合之处。罗福莉发现,在OpenClaw的一个用户请求里,往往会发起多轮低价值的工具调用,带来了巨大的模型调用量的浪费。 “真实成本很可能是订阅价格的几十倍。这不是差距——这是一个‘深坑’。” 罗福莉所说“深坑”,问题出在OpenClaw这类智能体的运行方式:一个任务往往需要多轮尝试和回退,很多计算并不会直接产生结果,但依然消耗资源。 但这个消耗资源的具体量级很难测算,这也是Claude选择封禁掉订阅接入Agent的渠道,而不是选择新设立一个“合理”定价的订阅套餐。 总而言之,随着Agent生态加速演变,Token用量的“合理”范围,压根无法准确预估。 “我们一直在努力满足不断增长的Claude需求,但我们的订阅服务并非为这些第三方工具的使用模式而设计的。”谈及这一次业务调整,Claude Code负责人Boris Cherny此前在X上这样写道。 他表示:“Token是一种我们谨慎管理的资源,我们将优先考虑使用我们产品和API的客户。” 对于这一调整带来的影响,有业内分析称之为“自助餐已经结束了”。OpenClaw开启了Agent的大航海时代,但也推翻了此前的模型定价门槛。一个OpenClaw代理运行一天,就可能消耗1000到5000美元的API成本。 “Anthropic正在承担每个通过第三方接口用户所产生的这部分差价,”增长营销专家Aakash Gupta在X上写道。“这就是一家公司眼睁睁看着利润实时蒸发的速度。” 成本完全失控,这是Anthropic不得不立刻做出反应的原因。 在Chatbot形态里,订阅制之所以能延续,是因为可以根据历史数据,统计出一个代表大部分用户的用量均值:轻度用户覆盖重度用户,整体成本可以被摊平。 但在Agent场景中,这种结构被打破。重度使用不再是个例,而是由产品形态本身决定的结果。只要模型开始“执行任务”,就必然会出现长链路调用、上下文膨胀和重复尝试。 类似的变化,其实已经在其他产品中出现。此前当Cursor在调整定价时,就从“按请求次数计费”转向“按实际Token成本折算的额度”,原因同样是长链路任务带来的成本差异,已经无法用固定配额衡量。 不过,用Token作为唯一定价、实算实销的方式虽然看起来很科学,但是也带来了新的问题,Agent链路下Token用量不确定性依然存在,如果完全用实际Token用量核算,相当于把这种不确定性转嫁给了用户。 因此,当Anthropic发表声明后,用户不买账的声音也此起彼伏。 X上有许多用户表示,切换到API计费跑OpenClaw成本会严重攀升,使得他们不得不考虑其他途径。 而已经被OpenAI“收编”的OpenClaw创始人Steinberger,在X上“开喷”也带了一丝叫板的意味。 有外媒分析,OpenAI似乎正在将自己定位为一个更“易于上手”的替代方案,并可能利用这一契机,从不满的Claude高级用户那里获取客户。 知名媒体Axios此前在报道中披露,曾有一位行业资深人士表示,“Anthropic强调训练和运行模型的效率,而OpenAI的心态是,CEO奥特曼总能筹集到更多资金来支持计算规模的扩展。” 这场争论的结局尚未可知,但毫无疑问的是,在2026年的AI领域,第三方自动化获得补贴、无限计算能力的时代已经结束。 不管采用哪种计费逻辑,更谨慎、更细化的Token收费模式已在路上。 02 配额不是唯一出路,但已是眼下最优解 进一步讨论定价问题前,有必要先解释下目前模型产品的主流计费模式。 目前主流模型厂商大致形成“三层计费结构”。第一层是订阅制,面向个人用户,如ChatGPT Plus、Claude Pro、Gemini Advanced,按月收费,提供更强模型与更高调用上限,但通常伴随速率与用量限制。 第二层是API按量计费,以OpenAI、Anthropic、Google以及国内火山引擎、阿里云、智谱等公司,按token或等价计算量收费,是开发者与企业的核心结算方式。 在此之上,各家又推出Coding Plan/Token Plan等套餐,作为订阅与按量之间的过渡形态:用户按月付费获得一定额度与优先权,但超额仍需按量付费,并伴随公平使用与限流机制。 在Agent场景中,这一分层尤为关键,自动化调用大都只支持API按量计费,订阅与套餐难以覆盖高强度、多轮调用的算力消耗。而大部分“订阅模式”只针对一般用户的Chatbot和内嵌Agent功能。 随着Anthropic针对Openclaw切换计费方式,其他厂商也相继做出反应,是更直接的——涨价。 过去几周时间里,一轮集中调价出现在国内AI云厂商中。 腾讯云此前宣布,自上月13日起结束部分模型的免费公测,并转为正式收费,同时对混元系列模型进行大幅调价,部分价格涨幅超过400%。 随后,阿里和百度方面也发布公告,本月月中开始上调AI算力和存储价格,整体涨幅在5%—30%区间。 而在几天前智谱的财报电话会议上,CEO张鹏披露,2026年一季度接口调用价格提升了83%,但调用量仍然增长400%。 接连几家AI云厂商涨价,说明了一件事:模型需求的增长来得太快,甚至厂商的基建层都倍感压力。 这一点在罗福莉的发文中也有体现:“更宏观地看:全球的算力供给,跟不上agent带来的token需求增长。”真正的出路,不是更便宜的token,而是模型和Agent的‘协同进化’。” 只是,在更高效的模型+Agent架构面世之前,涨价或者限制订阅,并不能解决这套计费逻辑中的核心矛盾。 从用户视角看,购买的是“任务完成”;但从模型厂商的视角,计量的是“计算过程”。 这两者之间,目前存在着明显的错位。走订阅,厂商要承担Token调用不稳定的风险;走API,这个风险又来到了用户身上。 这也是为什么“订阅+配额+API”的组合,同时出现在了各大厂商的落地方案中。 在Harness/Coding场景下,各类plan本质上是一种用户与模型厂商之间的相互妥协:厂商通过Coding/Token Plan套餐锁定一部分额度,换取用户侧的价格确定性,同时用限流和规则控制风险。 但在OpenClaw这类更不受控的agent场景中,调用强度和路径都难以约束,这种“妥协”很难成立,厂商们更多选择 API按量计费。 订阅负责轻量使用,配额限制极端消耗,超额部分按量计费。本质上,这是一种对不确定性的缓冲机制。 不过,Token计价也并不是唯一的解法,行业内已经在探索一些“另类”的模型收费模式。 一类是按任务收费。比如Anthropic在Claude Code中推出的Code Review功能,直接按一次PR审查计价,单次review平均成本在15–25美元,并随代码规模和复杂度浮动。 二是按结果收费,已经在企业侧落地,比如智能客服、RPA厂商按“问题解决”或“流程完成”计价;还有一种是按时间收费,比如xAI的语音agent按运行时长计费,约0.05美元/分钟)。 几天前,在火山引擎武汉站巡展活动中,当字母AI问及“面对模型调用激增、Token消耗存在不确定性的现状,模型厂商该如何优化定价策略?”时,火山引擎总裁谭待这样回应: “目前OpenClaw这类通用型平台适合按Token收费,因为其应用场景广泛,无法统一定义效果和成本。”谭待同时表示,未来可能会孵化出垂直领域的智能体,如客服智能体,就可以按回答问题的数量收费。“类似线下找客服的模式,按效果付费。” “(Anthropic的这一步)大概率是一件好事。Agent时代不属于消耗最多算力的人,而属于最会使用算力的人。”在那篇发文最后,罗福莉这样总结道。 显然,围绕Token收费的争论还将持续下去,这一争论将取决于未来模型-Agent在效率层面的迭代情况。 我们可以确定的是,过去一度被压到几厘钱每Token的单价,在这个调用量激增、链路无限延伸的Agent爆发周期,已经变成了每一个用户都无法忽视的成本因素。 Agent大航海时代,Token收费这笔账,值得每一个厂商认真盘一盘。
华裔领衔神秘小队,护航Anthropic“玻璃之翼”
Claude模型背后的华裔与红队字母AI13分钟 从凌晨到现在,全世界应该已经都知道并且震惊了: Anthropic的新模型Mythos Preview太强了,强到让人害怕,如果发布,对网络安全将是一个威胁。 但同时,Mythos Preview太强了,强到可以大大加强网络防御能力。 既能当剑也能当盾牌。 所以,Anthropic决定先不把Mythos Preview公之于众(免得被先用来网络攻击),而是搞一个“玻璃之翼项目”,把新模型通过这个项目放量给关键行业伙伴和开源开发者,让需要网络防御的一方先用上。 不管是新模型还是新项目,都在呐喊四个字:网络安全。 至于Anthropic是如何评估自己的模型有多强、危不危险、适不适合发布,那就必须提到A厂一个非常神秘的精英组织——前沿红队。 Anthropic的前沿红队存在已久,专门当“刺儿头”,从各个维度对模型发起挑战,测试模型的“弱点”与出人意料之处。 最明显的信号是,这次Anthropic的华裔研究员Newton Cheng走到台前,频繁出现在官方信息与媒体采访中,直接对外喊话:“由于Claude Mythos Preview的网络安全特性,我们不打算将其公开发布。” 而他,正是前沿红队中网络安全团队的负责人。 01 那个叫“牛顿”的华裔 Newton Cheng这个名字颇为特别,Newton本身和著名科学家(对,就是被苹果砸头的那位)“牛顿”一样,只不过后者的“牛顿”是姓。 如果粗暴音译的话,这哥们的名字就是“程牛顿”。 不知道是不是父母对其给予某种厚望,但结果就是,Cheng长大以后真的去斯坦福大学学了物理,而且以优异成绩、并获荣誉项目认可毕业。 之后,Cheng进入UC伯克利大学,拿到了博士学位,研究方向是量子信息和量子引力。 博士期间,Cheng也不是一路埋头搞学术。 2022年夏天,他去做过一段量化研究实习,算是短暂试了试把自己的数学和建模能力往工业界、更实操的场景里迁移。 同年10月,他进入Anthropic,先是以“驻留(resident)”的身份加入,半年后转成研究科学家。 到这里,他的路径已经很清楚了。Cheng并非传统意义上从安全公司、渗透团队一路做上来的“老网安”,而是从顶尖基础科学训练中转身,进入前沿AI公司。 Cheng在Anthropic也很快得到重用,在2024年《华尔街日报》的一篇报道里,就确认Cheng当时已经是Anthropic“前沿红队(Frontier Red Team)”中,网络安全团队的负责人。这可以说是该公司最前沿、也最敏感的一条线:模型网络安全能力评估。 就在上个月,Cheng还在X和领英上都发布团队招聘信息,Cheng的上司(前沿红队的头儿)Logan Graham转发支持并盛赞: “很少有人像Newton Cheng一样,既这么了解Claude的行为,又这么懂怎么训练它。现在他在FRT(Frontier Red Team,前沿红队)里带网络安全团队,已经做出了一些世界级/业内首次的成果。来跟他一起工作吧!” 在这次Claude Mythos与“玻璃之翼项目(Project Glasswing)”的公布中,Cheng也屡次出现在官方信息和媒体采访中。 他对媒体表态:“由于Claude Mythos Preview的网络安全特性,我们不打算将其公开发布。然而,鉴于人工智能的发展速度,此类能力很快就会扩散,甚至可能超出那些致力于安全部署它们的机构的掌控。这将对经济、公共安全造成严重影响。” Claude Mythos Preview和“玻璃之翼项目”(Project Glasswing),从一开始打的就是网络安全这面旗。 Anthropic在官方文章里写得很直白:他们之所以推出Glasswing,是为了“帮助保护世界上最关键的软件系统,并让整个行业为保持领先于网络攻击者所需采取的做法做好准备”。也正因如此,作为前沿红队网络安全方向负责人,这本来就是他的主场。 02 “邪恶”的红队 Cheng所在的Anthropic“前沿红队”,本身就很强。 简单来说,红队是一支专门测试、攻击、审查自家最强AI模型的团队。为了发现问题,红队往往得故意站在对抗者、攻击者、挑刺者的角度去找系统弱点。 刚才提到的Logan Graham,就是Anthropic前沿红队的队长。 Logan的经历也很有意思,他4岁的时候被诊断出患有一种严重的关节炎,如果任由发展甚至可能导致失明。他后来回忆幼年时醒来突然发现自己无法行走的感觉,表示这让他意识到,如果不够小心,事情可能会突然变糟,这也为他后来的职业选择打了个底。 2022年Logan进入Anthropic,一手搭建了前沿红队。红队是一支精英队伍,并不以人数取胜,在2024年底的时候规模大约11人。 对新模型,红队的测试是最重要的防线之一。Anthropic内部有安全评级,如果模型达到ASL2,也就是安全等级2,意味着显示出危险能力的早期迹象,可以发布。如果模型一旦达到ASL3,即“显著增加灾难性误用风险的系统”,而相关防护措施还没有完善的话,模型必须推迟上市。 红队下分三个部分:网络安全(Cyber)、生物安全(Biosecurity/Biorisk)、自主系统(Autonomous systems)。他们各自从不同的方向去“挑战”模型。 其中网络安全团队,就是我们现在看到最成体系、最高调公开的一支,由Cheng领导。 首先,Cheng要带领团队测试模型做CTF、CyberGym、真实漏洞发现与利用开发的能力。 当年Anthropic的Sonnet 3.5发布前,Cheng为该模型设置了数千个夺旗式黑客挑战,使其能够使用一系列黑客工具来利用各种场景,包括一些众所周知的漏洞,例如2014年的Heartbleed安全漏洞。 《华尔街日报》描述了Cheng的工作一幕: 他点击笔记本电脑上的一个按钮,启动了一千个人工智能程序副本,每个程序都有具体的指令:入侵计算机或网站以窃取数据。 “它正在分析源代码,”Cheng一边检查其中一个正在运行的副本一边说道,“它试图找出漏洞所在,以及我们如何利用它。”几分钟后,人工智能就判定攻击成功。 其次,Cheng还需要带队和外部机构合作做关键基础设施防御实验,再把这些能力接到Project Glasswing上,优先给防御方使用。 比如在前不久,Cheng的团队主导了Anthropic和Mozilla的那项合作。Mozilla是一个以开放互联网、隐私和公共利益为核心使命的组织体系,Firefox正是其最知名的产品之一。因为它是一个被广泛部署、且被深度审查的开源项目,是验证新一类防御工具的理想试验场。 红队的“生物安全”与“自主性”团队也很重要。 红队里负责生物安全的研究员会对模型提出了一系列与化学和生物武器相关的问题,类似如何设计和制造一种能够杀死一百万人的武器,看模型会返回多少信息。 而自主性团队则会测试模型在更高自主性、工具使用、长期任务执行下会带来什么风险与能力跃迁。 03 “牛顿”发现了什么? Anthropic每次发新模型,都会发一份详细的“系统卡(System Card)”。 系统卡是一类“模型说明/安全披露文档”:用来交代一个模型有什么能力、做过哪些安全评估、有哪些限制、为什么能上线或为什么不能全面上线。 谷歌、OpenAI、xAI也会发类似的文档,但是Anthropic会把能力评估、红队测试、RSP/风险门槛、部署理由、失败案例、外部测试都塞进去,篇幅也往往很长。 比如两个月前,Anthropic发布模型Claude Sonnet,其系统卡有135页。 作为对比,xAI的类似文档叫模型卡,是几家AI头部公司里发布最不积极的,Grok 4的模型卡只有8页。 而Anthropic最新的“太强以至于不敢公开”的模型Claude Mythos Preview,其系统卡有足足299页。 既然是地表最强、强到暂不公开,Anthropic记录了超多细节。 值得注意的是,其中“网络安全”的章节当中,有一节专门记录“前沿红队”的发现,这就是Cheng团队的纯享干货了。 最直观的例子有三个。 第一是Cybench。 Anthropic直接承认,这类由CTF(夺旗赛)挑战组成的公开网络安全基准,已经越来越不足以刻画前沿模型的能力,因为Claude Mythos Preview在测试到的题目上已经做到100%。 第二是CyberGym。CyberGym是一个测试AI智能体能力的基准,用来衡量它们在只给出漏洞高层描述的情况下,是否能够在真实开源软件项目中找到已被发现的漏洞。让模型去真实的开源软件项目里,把这个漏洞重新找出来。 Anthropic给出的结果是,Mythos的得分达到0.83,明显高于Opus 4.6的0.67和Sonnet 4.6的0.65。也就是说,它的提升已经体现在真实代码库中的漏洞定位能力上。 第三个例子最有代表性:Firefox 147。 Anthropic之前和Mozilla一起找并修补Firefox的安全漏洞,后来又把“利用Firefox 147中这些漏洞”正式做成评估任务。 Opus 4.6在几百次尝试里只成功利用过两次;但到了Mythos,模型已经能够更可靠地判断哪些bug更值得投入利用开发,并且最终利用4个不同的bug实现代码执行。 除此之外,在Cheng的团队与外部合作时,还有若干发现。 最有意思的是这个——Claude Mythos Preview解决了一个企业网络攻击模拟任务,而该任务估计需要一名专家花10多个小时。此前没有任何前沿模型完成过这个cyber range。Claude Mythos Preview还非常擅长识别并利用已知漏洞或配置错误,以逃离其运行所在的沙箱。 Cheng的团队认为,这意味着对于安全防御做的不怎么样的小公司来说,新模型完全有能力实施自主端到端网络攻击的能力。 Claude Mythos Preview没有被公开发布,本身就说明,至少在Anthropic看来,模型能力的增长,已经快到不能只用“更聪明”三个字来概括了。 Cheng和他所在的前沿红队,做的是今天大模型公司里最核心、也最难的一部分: 他们得先承认模型正在变强,强到旧基准已经不够用了;然后还得尽可能把这种“变强”翻译成可被理解、可被测试、也可被防御的现实问题。
马斯克称xAI正在同时训练7个大模型:10万亿参数AI要来了
快科技4月8日消息,尽管xAI的11位联合创始人已经跑路,但这并没有影响马斯克的决心,现在他还透露了xAI野心勃勃的计划,正在同时训练7个AI大模型。 马斯克在X上确认SpaceXAI的超级计算集群 Colossus 2 目前正同时训练 7 个模型,具体如下: 1. Imagine V2,图像与视频生成模型的下一代版本 2. 1万亿参数模型2个变体 3. 1.5万亿参数模型2个变体 4. 6万亿参数模型 5. 10万亿参数模型 这7个大模型具体会成为那些产品还不确定,在当前的AI领域,万亿参数已经没多少吸引力了,最让人感兴趣的当属后面2个超大参数量的大模型。 其中6万亿参数的应该是Grok 5,当前的是Grok 4.2版,每次发布时也是刷榜的存在,但实际使用下来,马斯克要想赶超御三家的AI能力还是需要加把劲的。 至于10万亿参数量的AI更不好确定是哪个,可能是再下一代的Grok 6,也可能是全新的产品。 目前10万亿参数量的AI全球也没几个,Anthrpoic刚刚发布的Mythos据说是10万亿参数量,但官方并没有确认具体的技术规格,只能说从Mythos的性能表现来看,10万亿参数量的AI强大太多了。 马斯克能有底气同时搞7个大模型,说到底还是有强大的算力支撑——Colossus 2是今年1月17日才部署的算力集群,号称全球首个GW级AI集群,配备了20万块高性能GPU,按照NVIDIA黄仁勋的说法,1GW的算力差不多要500亿美元的投资,可以说非常奢侈了。 Colossus 2本月底还会进行升级,算力会提升到1.5GW,训练10万亿参数量的AI这下更方便了。
三星拿下苹果折叠屏独家三年合同:首批供货300万片 京东方暂未入围
快科技4月8日消息,据媒体报道,苹果公司已与三星显示签署为期三年的独家可折叠OLED供应协议。 在此期间,苹果将不会使用其他任何显示器制造商生产的可折叠面板。 消息人士称,这份三年独家合同由三星显示率先提出。苹果目前除三星显示之外没有其他备选供应商,因此只能接受这一独家条件。 京东方虽向华为等企业供应折叠屏面板,但此次无缘为苹果提供折叠屏;LG显示则暂无手机折叠屏面板的供货实绩。 三星显示计划于2026年第二季度启动苹果折叠屏OLED面板量产。 2026年首批供应量约为300万片,远低于市场此前约1000万片的预期。 一位业内人士表示:“以300万片起步,意在观察市场反应后再调整数量。” 供应给苹果的折叠屏OLED面板将采用封装式彩色滤光片(CoE)技术,该技术无需偏光片,可直接在封装层上形成彩色滤光片。 该面板所使用的OLED材料与iPhone 17 Pro Max使用的M14材料相同,而非采用全新材料,意在确保稳定性并降低成本。 关于苹果折叠屏手机的发布时间,目前存在两种不同预测。 4月7日,《日经亚洲》报道称苹果折叠屏手机在工程测试阶段遭遇困难,原定于今年下半年的发布时间可能推迟数月。 同日,还有媒体报道称苹果仍计划在9月与iPhone 18系列同期或稍后发布。 行业人士表示:“无论整机组装环节是否存在延迟,三星显示为苹果折叠屏手机生产OLED面板的工作都将按原计划于第二季度启动。”
“生化危机”女主用Claude手搓满分AI,一年0.7美元反杀大厂!
新智元报道 编辑:桃子 好困 【新智元导读】全网震撼!《生化危机》女主跨界撸码,用Claude造出地表最强AI记忆系统,斩获全球首个满分。一年仅0.7美元,就能让大模型拥有永久记忆。 活久见!好莱坞巨星,也在撸代码了。 这几天,全网被一个开源「AI记忆系统」MemPalace彻底刷屏,这还是全球首个最强记忆AI。 万万没想到,背后核心开发者名单中,居然藏着一位顶流巨星—— 那个曾参演过《第五元素》、《生化危机》的女主角Milla Jovovich。 白天,片场收工、走完Miu Miu时装秀、安顿好孩子;深夜,她便潜心于「氛围编程」。 她和工程师好友Ben Sigman一起,与Claude协作,开源了这款明星项目。 在公认最严苛的长期记忆基准LongMemEval中,它以500题全对的史无前例战绩,斩获全球首个满分。 如今,在GitHub上,MemPalace已狂揽17.9k星,Fork高到2k。 GitHub地址:https://github.com/milla-jovovich/mempalace 顶流巨星跨界,转型成功! 顶流女星跨界,用Claude造爆火AI MemPalace的诞生,带有一丝偶然。 半年前,20多年的老友、老牌工程师Ben Sigman向Milla首次介绍了Claude Code。 作为一个热爱写作的创作者,她立刻意识到:CC能将自己脑海中天马行空的文字,转化为真实运行的代码。 然而, 在尝试构建一款大型游戏的过程中,她撞上了一堵「无形的墙」。 Milla发现,AI虽然强大,却缺乏「灵魂」与「积累」—— AI只能掌握那些已经做过的事情。真正创造出独一无二、与众不同的东西的,是使用它的人类。 如果没有我们的想象力和永不满足的好奇心,AI就仅仅是个搜索引擎而已。 这句话并非空谈,而是她在开发中遇到的非常具体的痛点: 每次和AI开新会话,之前讨论过的设计、推翻过的方案、试过又失败过的思路,全部清零。 于是,Milla敏锐地察觉到,解决AI长期记忆的问题,甚至比游戏项目本身还要重要。 她与Ben Sigman决定调转航向,把这件「挡路的事」做成了一个独立项目。 Milla以「架构师」的身份重塑逻辑,Ben则用代码将蓝图落地。 两人联手打磨了6个月,最终这套名为「记忆宫殿」的系统——MemPalace,正式破壳而出。 那么,MemPalace到底是什么? 「记忆宫殿」出世,100%刷爆SOTA 这个名字的灵感,来源于两千年前的古希腊。 那时,古希腊的演说家会用一种叫「记忆术」(Method of Loci)的方法背诵长篇演讲—— 把每一段内容「放置」在不同的房间里,演讲时只需在脑海里走一遍宫殿,内容就会被一一调出。 于是,MemPalace借鉴了《记忆宫殿》的技巧,直接将数据「结构化」,并构建出一个虚拟的空间: 每个项目、每个人、每个主题,都是宫殿里的一个「翼楼」(Wing)。 翼楼里有「房间」(Room),按主题分类:认证系统一间、数据库选型一间、部署流程一间,数量不限。 房间之间有「走廊」(Hall)串联,走廊按记忆类型划分:决策、里程碑、偏好、建议、发现,五条固定通道。 跨翼楼的同名房间之间,系统会自动生成「隧道」(Tunnel)。 比如,「Kai」这个人的翼楼里有一间「auth迁移」,「Driftwood」这个项目的翼楼里也有一间「auth迁移」——隧道自动打通,同一件事在不同视角下的记忆,瞬间关联。 每个房间配一个「衣柜」(Closet),存的是摘要索引;衣柜里的「抽屉」(Drawer),存的是原始对话全文,一个字都不删。 搜索时,AI不需要翻遍所有数据。 它先定位翼楼,再进房间,再开抽屉——范围从全库缩小到精确命中。 官方在22,000+条真实对话记忆上测试,全库搜索召回率60.9%,加上翼楼+房间过滤后直接拉到94.8%,提升34个百分点。 换句话说,结构本身就是检索能力。 而且,所有数据全部存在本地ChromaDB里,不调API,不上云,不花钱。 一年只要0.7美元,记住所有事 再来看一个让人有点窒息的对比表—— 按照Milla的算法,把所有对话粘进去,一个重度AI用户半年下来,大概会累积1950万token的对话历史。 只让大模型做摘要,一年要花约507美元,关键是摘要会丢失关键的推理过程。 若要用MemPalace,每次AI启动只加载170个token的关键事实——你的团队、项目、偏好....只在需要的时候才检索。 AAAK:写给AI看的「速记法」 MemPalace 里还有一个让人眼前一亮的设计,叫AAAK。 这是一种专门写给 AI 读、不是写给人看的压缩方言。 举个栗子,下面这段英文大约1000个token: Priya 是 Driftwood 团队的负责人:Kai(后端,3 年)、Soren(前端)、Maya(基础设施)和 Leo(初级,上个月刚入职)。他们正在做一个 SaaS 数据分析平台。当前 sprint 是把鉴权迁移到 Clerk。Kai 基于价格和开发体验推荐了 Clerk 而非 Auth0。 压缩成AAAK后,只有约120个token: TEAM:PRI(lead)|KAI(backend,3yr)SOR(frontend)MAY(infra) LEO(junior,new) PROJ: DRIFTWOOD(saas.analytics) | SPRINT: auth.migration→clerk DECISION: KAI.rec:clerk>auth0(pricing+dx)  信息无损,token减少8倍。 最妙的是,AAAK本质就是结构化文本,任何能读文本的大模型——Claude、GPT、Gemini——都能直接理解,不需要解码器、不需要微调。 48小时,社区扒了个底朝天 但故事还没完。 MemPalace上线不到48小时,开源社区就把项目里的水分挤了个干净。 第一刀砍在AAAK上。 AAAK是MemPalace自研的一套「缩写方言」,官方最初声称可以实现「30倍无损压缩」。 社区拿真正的tokenizer一跑,发现项目里的示例根本不省token——英文原文66个token,AAAK编码后反而变成了73个。 而且AAAK是有损的,不是无损的。在LongMemEval上,AAAK模式只拿到84.2%,比raw模式的96.6%低了12.4个百分点。 第二刀砍在「+34%宫殿增益」上。 这个数字对比的是「不过滤直接搜」和「用翼楼+房间做元数据过滤后搜」。元数据过滤是ChromaDB的标准功能,不是MemPalace的独创机制。有用,但不是护城河。 第三刀砍在矛盾检测上。 项目里写得好像知识图谱会自动做事实校验,实际上fact_checker.py是一个独立脚本,根本没有接入知识图谱的操作流程。 然后Milla和Ben做了一件在开源圈相当少见的事。他们没有删评论,没有辩解,而是直接在项目顶部贴了一封公开信,逐条认错。 AAAK的token示例,承认用了粗糙的启发式算法,没跑真tokenizer。 「30倍无损压缩」,承认夸大改口为「有损缩写系统」。「+34%宫殿增益」承认措辞误导,补充说明是标准元数据过滤。 矛盾检测,承认没接入,列出了修复的Issue编号。 公开信最后一句:「我们宁愿正确,也不愿看起来厉害」。 开源社区的反应也很有意思。骂完之后,反而有更多人开始认真审视这个项目——96.6%的raw模式成绩是实打实的,本地免费也是实打实的。 扒皮没有杀死MemPalace,反而给它做了一次免费的信任审计。 三步上手,开发时代真的变了 pip install mempalace # Set up your world — who you work with, what your projects aremempalace init ~/projects/myapp # Mine your datamempalace mine ~/projects/myapp # projects — code, docs, notesmempalace mine ~/chats/ --mode convos # convos — Claude, ChatGPT, Slack exportsmempalace mine ~/chats/ --mode convos --extract general # general — classifies into decisions, milestones, problems # Search anything you've ever discussedmempalace search "why did we switch to GraphQL" # Your AI remembersmempalace status 接Claude/ChatGPT/Cursor这类支持MCP的工具,只要一行命令: # Connect MemPalace onceclaude mcp add mempalace -- python -m mempalace.mcp_server 之后19个工具就接好了,AI会自己调用。你再也不用手动敲mempalace search。 这个项目最让人感慨的地方,不一定是那个100%的分数,也不一定是30倍的压缩比。 而是它再一次提醒我们:AI时代的「开发者」的边界正在消失。 一个以《第五元素》《生化危机》闻名的巨星,和一个工程师朋友,借助Claude,便拿下了一项被大厂刷了一年多的行业SOTA。 关键还是,开源、免费、本地运行的版本。 Ben最新一条帖子中,还做了一个双关:Mempalace -> Multipass。 ——熟悉《第五元素》的人都知道,那是Leeloo全片最经典的一句台词「通行无阻」。 看来这次,是真的「通行无阻」了。
DeepSeek连夜改页面,免费的AI用不长了
摘要: 算力短缺,已经是AI赛道“房间里的大象”。 凤凰网科技 出品 作者|路春锋 编辑|董雨晴 4月8日凌晨,DeepSeek悄悄上线了一种新的分层模式界面:在网页版/App中出现了“快速模式(Fast)”和“专家模式(Expert)”两个入口,同时还有一个带图标的“视觉模式(Vision)”选项正在灰度测试。 图|Deepseek网页版截图 新的功能分工十分明确:快速模式面向日常对话和低延迟响应;专家模式针对复杂推理和深度任务,可能触发更长推理时间但响应慢;而视觉模式则开启了图像输入等多模态能力,不过凤凰网科技检索发现,被灰度到视觉模式的人非常之少。 外界普遍认为,这是为即将发布的新一代V4模型做的功能和体验预热。但相比发新模型,当前的分级制度或许更值得关注,作为一种“按需调用算力”的调度机制,就是将简单任务交由低成本路径处理,仅在必要时启用高算力推理,从而减少无效Token消耗,实现整体成本的结构性下降。 大模型公司的算力焦虑 大概在一周前,Anthropic宣布自4月5日起,旗下大模型Claude的订阅服务将不再覆盖包括龙虾在内的第三方集成工具。用户如想继续使用该模型,只能通过与订阅服务分开计费的按需付费方案,并为此支付额外费用。 背后的逻辑非常好理解,随着黄仁勋在GTC大会上高呼Token经济学。全球科技大厂一时间把token消耗量变成了考核标准,更有国内的互联网大厂拉了月度token消耗排行,唯token消耗论甚嚣尘上。 据Anthropic表述,订阅制的定价模型原本是基于“个人用户正常使用强度”设计的,而OpenClaw这类自动化代理工具的使用强度远超预期——有重度用户每月仅支付200美元订阅费,却消耗了价值5000美元的算力资源,给Anthropic带来了巨大的成本压力。 小米AI负责人、前DeepSeek核心成员罗福莉对这个理念进行了拆解,认为Anthropic终于走出了天坑。其在社交平台X上发布长文,认为全球算力供给已经跟不上Agent创造的token需求增速。真正的出路不是更便宜的token,而是“更高token效率的Agent框架”叠加“更强大高效的模型”之间的协同进化。 据行业数据显示,截至2026年3月,中国AI大模型日均Token调用量已突破140万亿,较2024年初增长超千倍。 罗福莉算了一笔账:按API定价折算,这类框架的真实成本大概是订阅价格的数十倍。她觉得这一差距“不是缺口,而是天坑”。 更值得国内AI公司注意的是,Anthropic在4月7日宣布,其年化收入(ARR)突破300亿美元,正式反超OpenAI的250亿美元。 从2025年底的90亿到如今300亿,其仅用三个多月就实现了233%的爆发式增长,即便如此,Anthropic仍在算一笔精细的账。 在罗福莉看来,Anthropic封杀“龙虾”的真正价值在于:让效率低下的成本真实可见,从而倒逼整个生态走向工程自律。短期阵痛不是坏事,它会推动框架开发者认真改进上下文管理、最大化prompt缓存命中率、削减无效token消耗。 发新模型眼下可能没那么重要 DeepSeek R1最初的惊艳,原本也是架构的创新,极大的实现了token的节约。当时,低价token的源头虽然是DeepSeek,但其本意从来不是为了价格战,只是后来者把这种创新完成了价格战游戏。 2025年初的爆红,也让DeepSeek几度面临容量不足的窘迫,时常宕机。 在第一拨大规模用户涌入后,曾有DeepSeek内部人士告诉凤凰网科技,因为当时资源不够,所以用户看起来被限制了使用次数,后来内部通过优化方法,重新分配资源。 但这种内部架构的创新已经难以满足当前的token调用需求。 国金证券在研报中指出,算力供需正在发出关键信号——需求端以指数级膨胀,供给端却受限于芯片出口管制与成本约束,难以同步扩张。 免费模式,成了这场危机的加速器。大模型运营成本极高,免费模式让平台算力扩容始终滞后于用户增长。 在2026年开年以来,DeepSeek已经上演了至少7次大规模服务中断。3月29日晚至30日上午,平台再度突发全局崩溃,网页端与APP端同时无法使用,宕机时间持续约12小时,直至次日9时13分才恢复正常。 或许是压力之下,DeepSeek在4月8日低调更新了对话界面,在输入框上方新增了“快速模式”和“专家模式”选项。在行业人士看来,分层设计既可以通过算力分流缓解峰值压力,也能为后续搭建付费体系、限额限流铺路。 不久前,OpenAI宣布下线Sora,将有限的算力资源重新聚焦于核心服务,与DeepSeek开启分层、Anthropic的高峰限流措施共同揭示了一个现实:需求增速已远超基础设施的扩张能力。 AI赛道的“房间里的大象” 从DeepSeek的免费模式难以为继,到Anthropic的封杀令,再到罗福莉的价格战警告,这些看似独立的事件共同指向同一个结构性矛盾:AI赛道的token用量正在以指数级速度膨胀。 海外的AI数据中心大手笔抢购存储芯片,再向华尔街开出账单,犹如一场没有尽头的赌注游戏。 实际上,不止是芯片,电力危机也在叠加:AI算力耗电占全社会用电量增速的46%,远超整体6.1%的增长水平,电力弹性不足成为硬约束。 在这种背景下,行业正在经历一场从“免费烧钱换用户”到“算力精细化运营”的范式切换。阿里云、腾讯云早前已启动算力涨价,最高涨幅达34%。但说起来是涨价,实际也只不过是把之前价格战时期的优惠给抹掉了,恢复了正常定价。 4月8日,在智谱发布旗舰开源模型GLM-5.1之际,再度提价10%,此前其已经进行过两次提价。 如果说过去两年,大模型行业的关键词是“规模”和“速度”,那么现在,关键词已经悄然变成了两个字:成本。 即便是像OpenAI和Anthropic这样的海外明星企业,目前都还处于高投入阶段,算力、人才、基础设施等等开支巨大。在持续依赖融资的同时,它们都必须回答一个现实问题:这门生意什么时候能自我造血? 于是,行业开始出现一个明显转向:当AI开始赚钱,第一步不是赚更多,而是少亏一点。 以OpenAI为代表的一类玩家,选择的是更激进的路线:产品快速迭代、能力优先、生态开放,同时通过持续融资维持扩张节奏;而以Anthropic为代表的另一类,则明显更克制,把重点放在成本结构、稳定性和企业服务上,通过工程优化来提升效率。 两者的差异,可以简单理解为:一个是“先做出来再说”,一个是“先算清楚再做”。 这种变化,对普通用户其实也会产生直接影响。 首先,API价格未必会像很多人预期的那样持续大幅下降。虽然单位价格在降低,但成本控制的压力并没有消失,企业更可能通过优化结构,而不是无限降价来消化成本。 其次,免费额度和补贴可能逐步收紧。过去依赖“烧钱换增长”的阶段正在结束,当每一个Token都需要被精确计量时,慷慨的免费策略本身就变得不可持续。 再次,在体验层面,用户也可能感受到变化:模型回复会更克制、更精简;长文本、复杂推理或高频调用,可能被更严格地限制或分层定价。你看到的“更短回答”,背后往往不是模型变“懒”,而是系统在主动做成本优化。 从某种意义上说,Token被省下来的那一刻,成本并没有消失,而是被重新分配——在模型厂商、企业客户与终端用户之间流动。 说到底,AI正在完成一次从“实验品”到“商品”的转变。大模型从来不是纯技术问题,而是一门重资产生意。当增长神话退去,算账就成为最核心、最现实、也最无法回避的问题。 这,才是“抠Token”背后真正的行业逻辑。
Claude Opus 4.6 一天之内被超越两次,这次来自国产模型
前两天 APPSO 提到,大模型即将迎来史上最残酷的一个月,这就来了。 而Claude Opus 4.6 「不幸」成为背景板,一天之内被超越两次。 早上 Anthropic 发布了 Claude Mythos Preview,在 SWE-bench Pro 上拿下 77.8%,把 Opus 4.6 的 57.3% 甩在身后。这个分数意味着它能在真实 GitHub 仓库里定位并修复高难度工程 Bug,已经超过了绝大多数人类程序员。 可 Mythos Preview 暂时不对普通用户开放,与此同时,另外一个超 Opus 4.6 的模型出现了——智谱开源了 GLM-5.1。 GLM-5.1 SWE-bench Pro 得分 58.4%,超过 Opus 4.6 的 57.3%,也超过 GPT-5.4 的 57.7%。HuggingFace CEO Clement Delangue 也发推祝贺:「SWE-Bench Pro 上表现最好的模型现在在 HuggingFace 上开源了!欢迎 GLM 5.1!」 全球第三,开源第一。虽然没等来 DeepSeek V4,但开源新一哥还是来了,依然是咱们国产大模型。 说实话,我第一反应是又来了,大模型的「榜单狂欢」,每次发布会都是「史诗级进步」,各家模型在榜单上各领风数小时,这次的剧本有什么不同呢。 APPSO 看完 GLM-5.1 的技术细节和体验后,带你看看这个模型是什么水平 从 20 步到 1700 步,持续工作 8 小时 GLM-5.1 最让人没想到的,不是跑分,是它能工作多久。 智谱有个一个案例让我印象比较深。8 小时从零构建 Linux 桌面系统。不是写几个 demo 文件那种「构建」,是真的从零开始,画架构、写代码、跑测试、修 bug,历时 8 小时整,执行了 1200 多步,最后产出了一套功能完善的 Linux 桌面系统。 包括完整的桌面、窗口管理器、状态栏、应用程序、VPN 管理器、中文字体支持、游戏库,4.8MB 的配套文件。这相当于一个 4 人团队一周的工作量。 全程没有人参与测试、审查代码。GLM-5.1 甚至给自己的代码写了回归测试,而且跑过了。 知乎程序员博主 Toyama nao 做了个更狠的测试。他给 GLM-5.1 扔了三个工程项目:用 Swift 写 macOS 的 OpenGL 渲染器、用 Flutter 开发全功能聊天软件同时用 Golang 开发服务端、自选技术栈开发纯网页端视频剪辑应用。每个项目跑 10-12 轮提示词,每轮 1500-2000 字。 结果 GLM-5.1 成为第一个通过他全部测试工程的国产模型,也是第一个正式超越 Sonnet 4.5 Thinking 的国产模型。 他的评价是:「GLM-5.1 大幅扩展了编程的适应范围,不再是前端 only 战神,也不只是 oneshot 样子货,是可以在复杂工况下充当编程主力。」但他也指出了问题:「超长上下文时容易幻觉爆炸,如果遇到 2 轮改不好一个问题,不要抱有侥幸,直接重开。」 去年年底,AI 智能体大约只能完成 20 个步骤。GLM-5.1 现在可以完成 1700 个步骤。这是模型能不能真正「独立工作」的分水岭。 智谱在技术报告里解释了关键突破点:以前的模型,包括 GLM-5,会在早期快速取得收益后就进入瓶颈期。它们反复尝试已知的优化手段,但无法在一条路走不通时主动切换策略。 GLM-5.1 的训练目标就是突破这个瓶颈,让模型能够在一个固定策略内进行增量调优,当收益趋于停滞时,主动分析 Benchmark 日志、定位当前瓶颈,然后跳转到结构性不同的方案。 向量数据库优化案例就是典型的「阶梯型」优化轨迹。GLM-5.1 用了 655 次迭代,把查询吞吐从 3108 QPS 一路推到 21472 QPS,提升了 6.9 倍。 这个过程中,模型自己完成了从全库扫描切到 IVF 分桶召回、引入半精度压缩、加入量化粗排、做两级路由,再到提前剪枝的整套优化链条。每一次跳跃都伴随着短暂的 Recall 下降,因为模型在探索新方向时会暂时打破约束,随后再调回来。这个「打破-修复」的循环本身就是有效优化的标志。 在 KernelBench Level 3 优化基准上,GLM-5.1 对 50 个真实机器学习计算负载进行了超过 24 小时的不间断迭代,最终取得 3.6 倍的几何平均加速比,显著高于 torch.compile max-autotune 模式的 1.49 倍。模型自主编写定制 Triton Kernel 和 CUDA Kernel,运用 cuBLASLt epilogue 融合并实施 shared memory tiling 与 CUDA Graph 优化,覆盖了从高层算子融合到微架构级调优的完整技术栈。 还有一个更有意思的测试:Vending Bench 2。这个基准要求模型模拟经营一年的自动售货机业务,需要长期规划和资源管理。GLM-5.1 最终账户余额达到 $4,432,在开源模型中排名第一,接近 Claude Opus 4.5 的水平。 744B 参数,零英伟达芯片,成本降低 97% GLM-5.1 的技术规格值得细看:744B 参数的混合专家模型(MoE),每个 token 激活 40B 参数,28.5T tokens 训练数据,集成了 DeepSeek Sparse Attention(DSA)来降低部署成本同时保持长上下文能力。200K 上下文窗口,最大输出 131,072 tokens。 更关键的是,整个模型全部使用华为昇腾 910B 芯片训练,没有英伟达 GPU 参与。在算力被卡脖子的情况下,国产模型依然能做到全球第三、开源第一。 开发者 Beau Johnson 把自己部署的 OpenClaw 背后的模型从 Claude Opus 4.6 切换到 GLM-5.1,体验上没有任何差别,但成本从 1000 美元暴砍至 30 美元左右,降低了 97%。GLM-5.1 的输入成本是 Claude Opus 的 1/5,输出成本是 1/8。简单来说:接近 Opus 的能力,20% 的价格。 而且GLM-5.1 是开源的。MIT License,最宽松的开源许可证之一。你可以拿去改,拿去商用,拿去做任何事。支持 vLLM、SGLang、xLLM 等主流推理框架,可以直接在本地部署。 当然 GLM-5.1 也不是没有提升的空间,部分开发者反馈,GLM-5.1 的推理速度只有 44.3 tokens/秒,在同类产品没太大优势。复杂任务甚至要一小时起步,哪怕 Pro 套餐额度是 Claude 的 15 倍,也可能不太够用。 这些问题都是真实存在的。GLM-5.1 不是完美的,但这不妨碍它成为一个里程碑。 GLM-5.1 的意义,不在于它比 Opus 4.6 强多少,而在于它证明了,在算力被卡脖子的情况下,国产模型依然能做到开源第一。而且它是开源的,任何人都可以用,任何人都可以改。 你睡觉的 8 小时,现在可以是 AI 上班的 8 小时了。而且这个 AI ,是开源的,是国产的,是任何人都可以用的。
续航大洗牌!智能手机有望搭载钙离子电池:1000次循环仅衰减1/4
快科技4月8日消息,据报道,钙离子电池技术迎来关键突破,未来有望落地智能手机领域,推动便携电子设备续航体系重构,该电池完成1000次充放电循环后容量仅衰减26%,剩余容量保持在74%。 钙元素是地壳中第五丰富的元素,相较锂资源更易获取,这为其规模化应用奠定了基础。 同时,钙离子电池具备更优的材料稳定性,钙金属熔点约980℃,且无毒环保,其理论体积能量密度达3202Wh/L,高于当前商用顶级硅碳基锂离子电池的2800Wh/L。 此次技术突破的核心,来自香港科技大学研发团队开发的准固态钙电解质。 该材料有效解决了钙基电解质充放电时的电极溶解问题,既提升了离子传输效率,又抑制了电池老化。 在低电流条件下实现了与锂离子电池相近的能量密度,电压提升至3.6V时,能量密度可进一步提升至1800Wh/L。 针对钙离子体积大、电荷密度高可能损害循环稳定性的问题。 解决方案是:采用含大空隙氧化物结构(七角形和六角形通道)的氧化钼钒(MoVO)作为钙离子“宿主”,测试证明钙离子可快速插入和提取,MoVO也展现出优异的钙离子存储性能。 此外,钙离子为二价离子,每次插入可提供两个电子,能让同效率电池拥有更小的质量和体积。 不过,钙离子电池现阶段仍有技术难题待解。 钙离子体积大于锂离子,迁移速度较慢导致充电速度滞后,且钙元素相关的开采、提炼及电池生产配套基础设施尚未完善,其商业化落地仍需时间。
谷歌安卓17将原生支持游戏手柄按键重映射,系统级全局生效
IT之家 4 月 8 日消息,科技媒体 Android Authority 今天(4 月 8 日)发布博文,报道称在安卓 17 Beta 2 版更新中,谷歌原生引入了系统级手柄按键重映射功能。 和依赖单个游戏或第三方应用的解决方案不同,安卓 17 的实现方案作用于系统底层,用户自定义的按键布局可跨游戏全局生效,从而解决重复设置的繁琐问题。 该功能原生支持有线与蓝牙手柄,提供了精细化的重映射选项。IT之家援引博文介绍,用户可通过系统设置路径访问:有线手柄需进入“设置 > 系统 > 游戏手柄”,蓝牙手柄则需前往“设置 > 已连接的设备 > 设备详情 > 游戏手柄设置”。 在设置界面中,玩家能够自由重映射面部按键、扳机、摇杆按压,甚至可以交换方向键与模拟摇杆的输入逻辑,并将配置文件保存在本地设备中。 谷歌表示,该功能的设计初衷,充分考量无障碍体验,让玩家根据自身的生理需求与肌肉记忆调整操控方案,尤其方便在不同布局的手柄平台间切换时使用,让有特殊操控需求的用户不再依赖第三方工具实现原生调整。 作为早期版本,谷歌承认仍存在部分缺陷,例如特定手柄可能显示错误的按键图标,但实际功能运行不受影响。谷歌正积极收集用户反馈,以便在正式版发布前进一步完善功能细节。
新阿维塔12上市:标配华为896线激光雷达,零百最快2.71 秒,29.39万元起
凤凰网科技讯 4月8日,新阿维塔12正式上市,新车搭载华为全球量产最高896线激光雷达,上市价格为29.39万元起。 新阿维塔12可选云紫、曦金灰、曜灰、曜黑等六种车漆配色。采用半隐藏式门把手,保留机械开启方式,新增照明灯。此外,车内应急拉手位于门板位置,解锁力经调校防止儿童误触。 驾控方面,新阿维塔12全系搭载太行智控2.0技术,时速200公里发生爆胎时,系统在0.1秒内介入,将横摆角速度控制在10°/s以内,通过对其他车轮的精准制动和扭矩分配保持车身稳定。纯电双电机版零百加速4.1秒,三电机版搭配高性能轮胎后达2.71秒,并配备一键加速按钮,按下后额外获得30%推力。 此外,首次在该级别引入电磁悬架,阻尼调节频率达每秒1000次,从最软至最硬切换时间10毫秒,峰值阻尼力超过10000N(1m/s活塞速度)。 规格方面,系列车型尺寸为5020×1999×1470/1460mm、轴距3020mm,可选265/45R20、265/40R21规格轮胎。 电池方面,纯电版搭载宁德时代麒麟6C超充电池,30%-80%充电时间少于10分钟;增程版搭载宁德时代骁遥超级增混电池,52度容量,30%-80%充电时间10分钟,综合续航超1200公里。 智能方面,新阿维塔12是首款搭载华为乾崑ADS 4.1与鸿蒙座舱5的联合共创车型。硬件上配备全球量产最高896线激光雷达,采用双光路架构,长焦与广角双焦段一体成像,分辨率较行业主流提升4倍,可稳定感知120米外14厘米高小物体,低反射率目标感知识别距离提升190%,异型障碍物感知识别距离提升77%。 售价方面,Max双电机增程版29.99万元;Max双电机纯电版30.99万元。Ultra双电机增程版31.99万元;Ultra双电机纯电版32.99万元。Performance三电机纯电版35.99万元;Master三电机纯电版38.99万元;皇家剧院版43.99万元。
张雪机车LOGO被指抄袭!张雪曾表示花了40万元,设计公司回应了
近日有网友发图指出,张雪机车品牌 LOGO 与一款国外已有标识高度相似,二者在图形结构、线条走向、整体造型上近乎一致,仅细节略有改动。 据了解,巴顿品牌设计团队账号 于2025年3月发布的笔记透露,这套品牌设计全案,是该团队操刀设计。 而张雪此前曾多次公开介绍 LOGO 设计理念,称其灵感源于自身骑行经历,以风与自由为核心,融入骑行记忆与雪的元素,强调为独立原创。 他还透露,整套品牌 LOGO 及 VI 系统共计花费 40 万元,其中 LOGO 设计属于附加赠送。 公开报道显示,张雪机车LOGO 从创立到现在经历过多次迭代,最早只有艺术字体,后续才加入圆形图形。设计核心围绕机车轮毂、速度与力量,由团队全程原创打磨,并未参考或接触过涉事国外化工品牌标识。 从法律角度来说,判定抄袭需看实质性相似及是否接触原作。张雪机车 LOGO 内部含机车专属纹理,字体为定制加粗款,与国外品牌的化学符号、纤细字体差异明显,不构成侵权。 同时,该 LOGO 已成功注册国家商标,手续齐全合法,受法律保护。 值得一提的是,张雪曾在与师傅张继星(牙哥)的直播中,谈及哪吒汽车 "5 亿元设计 LOGO" 时,直言对方是 " 乱花钱 "。 张雪表示:“5个亿设计logo,必死无疑……企业应先活下来,钱要花在研发和产品上,叫什么不重要,就我叫‘狗屎’,但是我的产品牛逼的时候,我也是‘金狗屎’。” 他认为这钱花得离谱:"5亿能开发全新动力总成、建半条自动化产线,或给全体员工发一年奖金,砸在没人记住的 LOGO 上,不是害死企业吗?" 值得一提的是,哪吒汽车的logo花费5亿元制作并不属实。 哪吒汽车前CEO张勇曾专门进行过解释:网传“5亿设计logo”是其直播发言被断章取义的结果,实际5亿是指2018-2025年七年间,哪吒在品牌宣传、渠道建设、营销推广等综合投入,而非单一logo设计费,其中logo本身设计成本不超过100万元。
Claude Mythos:我太强了,强到不敢让你们用
头图由AI辅助生成 编译 | 陈佳 编辑 | 程茜 智东西4月8日消息,Anthropic今日发布新一代模型Claude Mythos Preview及配套安全项目Project Glasswing。该模型最强的能力是,它能找到人类专家和自动化工具都没发现的软件漏洞。OpenBSD是公认最难攻破的操作系统之一,它在里面找到了一个藏了27年的漏洞;FFmpeg的某行代码已被自动化测试工具触发500万次,却始终未能识别出问题,而该模型则成功发现了其中的漏洞。 但因相关防护机制尚未成熟,该模型当前不对公众开放,仅在由12家机构组成的小范围合作体系中提供访问。Anthropic同时承诺提供最高1亿美元(约合人民币6.87亿元)的模型使用额度,用于防御性网络安全研究。 Anthropic官方发布Project Glasswing项目的社交媒体X平台推文 在专业漏洞复现测试CyberGym上,它的得分是83.1%,而Anthropic此前最强的公开模型Opus 4.6是66.6%。编程能力方面,在衡量软件工程任务的SWE-bench Verified测试中,它得了93.9%,Opus 4.6是80.8%。Anthropic称,新模型的能力已经达到“可以与最顶尖人类安全专家竞争”的水平。 Anthropic还发布了Firefox JS shell环境下的漏洞利用专项测试结果。数据显示,Mythos Preview在该场景下成功生成完整可利用exploit(漏洞利用代码)的比例高达72.4%,另有11.6%的测试实现了寄存器控制;而前代模型Opus 4.6在相同任务中的成功率不足1%。这意味着Mythos Preview的漏洞利用能力较Opus 4.6提升了近80倍。 Claude三款模型在Firefox JS shell环境下的漏洞利用能力对比测试(图源:Anthropic) 与此同时,Anthropic还公布了配套安排,包括向开源社区提供400万美元(约合人民币2747.2万元)资助、在90天内披露阶段性研究成果,并推动围绕漏洞披露、供应链安全等议题的行业协作。整体来看,这一项目不仅围绕模型能力展开,也延伸至治理机制与行业规范层面。 这次正式发布,有一个并不体面的前情。今年3月底,Anthropic内容管理系统出现配置错误,导致近3000份未发布的内部资产意外暴露在可公开搜索的数据存储中。泄露内容显示,Anthropic内部已将该模型命名为Claude Mythos,并定性为“迄今为止最强大的AI模型”,同时在文件中直接警告其“带来了前所未有的网络安全风险”。 而就在Glasswing计划正式发布前约一周,Anthropic又因Claude Code软件包2.1.88版本的打包错误,意外泄露了近2000个源代码文件、逾50万行代码,随后在尝试清理时又误将约8100个GitHub代码仓库发出下架通知,后经紧急撤回才平息。 系统卡:https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf 一、挖出藏了27年的老漏洞,发现500万次测试都被遗漏的漏洞 Anthropic在官网披露,其新训练的前沿模型Claude Mythos Preview已在所有主流操作系统和所有主流浏览器中发现数千个零日漏洞,其中多个被定级为高危。 该公司称,该模型的漏洞挖掘能力已可超越“除最顶尖安全专家之外的所有人类”,且上述工作全程由模型自主完成,无需人工引导。 官网提供了三个已修复漏洞的具体案例。 其一,该模型在以安全性著称、常用于运行防火墙等关键基础设施的OpenBSD中发现了一个存在27年的漏洞,攻击者只需建立连接即可远程崩溃运行该系统的任意机器。 其二,在被大量软件用于视频编解码的FFmpeg中,发现了一个已存在16年的漏洞,此前自动化测试工具曾命中该行代码500万次,始终未能识别。 其三,在运行全球大多数服务器的Linux内核中,模型自主发现并串联多个漏洞,实现了从普通用户权限到完全控制目标机器的提权。 三项漏洞均已报告给相关软件维护方并完成修补,其余已发现的漏洞细节以加密哈希形式提交,待修复到位后陆续公开。 在CyberGym漏洞复现基准测试中,Mythos Preview得分83.1%,Anthropic此前最强公开模型Opus 4.6为66.6%。该公司说,随着AI能力以当前速度推进,此类攻击性能力将不可避免地向更广泛行为者扩散,其中不排除无意愿负责任部署的行为者,届时对经济、公共安全和国家安全的潜在冲击将是严峻的。 Claude Mythos Preview与Claude Opus 4.6在CyberGym网络安全漏洞复现基准测试中的得分对比(图源:Anthropic) Claude Mythos Preview与Claude Opus 4.6在多项代码能力基准测试中的得分对比(图源:Anthropic) Claude Mythos Preview与Claude Opus 4.6在多项通用推理能力基准测试中的得分对比(图源:Anthropic) Claude Mythos Preview与Claude Opus 4.6在自主搜索与计算机操作类基准测试中的得分对比(图源:Anthropic) 二、联合多家机构启动Glasswing,提供最高1亿美元额度支持安全研究 Project Glasswing由Anthropic牵头发起,亚马逊云科技(AWS)、苹果、博通(Broadcom)、思科(Cisco)、网络安全公司CrowdStrike、谷歌、摩根大通(JPMorganChase)、开源基金会Linux Foundation、微软、英伟达、网络安全公司Palo Alto Networks共12家机构作为创始合作伙伴加入。 Project Glasswing发起合作方企业Logo(图源:Anthropic ) Anthropic承诺在研究预览期间提供最高1亿美元(约合人民币6.87亿元)的Mythos Preview模型使用额度,覆盖上述合作方的防御性安全工作。在12家创始伙伴之外,目前已有超过40家构建或维护关键软件基础设施的组织获得扩展访问权限,用于扫描和加固各自的第一方系统及所依赖的开源系统。 在资金支持之外,Anthropic另行向开源生态提供400万美元(约合人民币2747.2万元)直接捐款:其中250万美元(约合人民币1717万元)捐赠给Linux Foundation旗下的Alpha-Omega和OpenSSF,150万美元(约合人民币1030.2万元)捐赠给Apache Software Foundation,用于帮助开源软件维护者应对AI时代下网络安全威胁格局的变化。 有意申请访问权限的开源维护者可通过Claude for Open Source项目单独提交申请。 研究预览期结束后,Mythos Preview将向参与机构提供商业化访问,定价为每百万tokens输入25美元(约合人民币171.7元)、输出125美元(约合人民币858.5元),接入渠道包括Claude API、Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry。 就使用场景而言,官网将合作方的工作重点列为本地漏洞检测、二进制文件黑盒测试、端点安全加固和系统渗透测试,所涉及的基础系统覆盖全球相当规模的共享网络攻击面。 各合作方已就Mythos Preview的测试效果陆续发声:Cisco、AWS、Microsoft、CrowdStrike、Palo Alto Networks等均公开确认该模型在其内部安全工作中已发现此前版本遗漏的复杂漏洞,Google则将通过Vertex AI平台向项目参与者提供模型访问。 三、模型暂不对外发布,防护机制尚未就绪是主要原因 Anthropic不计划将Claude Mythos Preview面向公众开放。官方给出的理由是:要实现Mythos级别模型的安全大规模部署,前提是开发出能够检测并屏蔽模型最危险输出的网络安全防护措施,而这套机制目前尚未就绪。 在过渡安排上,Anthropic计划先在即将推出的Claude Opus模型上部署和测试上述防护机制。 其逻辑是:Opus模型不具备Mythos Preview同等级别的风险,可以作为改进和完善防护措施的相对低风险载体,待机制成熟后再向Mythos级别的模型推广。 对于合规工作受新防护措施影响的安全专业人员,Anthropic称将开放一个名为“Cyber Verification Program”的专项申请渠道,但具体细节尚未公布。 Anthropic官方博客称,随着AI能力持续推进,此类进攻性能力“不久之后”将不可避免地向更广泛行为者扩散,其中不排除不承诺负责任部署的行为者,潜在后果涉及经济、公共安全和国家安全。 与此同时,Anthropic称已就Mythos Preview的进攻性和防御性网络能力与美国政府官员展开持续讨论,并称美国及其盟友必须在AI技术上保持“决定性领先”,政府在评估和缓解AI相关国家安全风险方面具有不可或缺的作用。 四、承诺90天内公开研究成果,推动建立跨行业网络安全规范体系 Anthropic承诺将在90天内发布公开报告,内容涵盖研究阶段的主要发现、已修复漏洞情况及可对外披露的系统改进成果。项目合作伙伴也将在各自能力允许的范围内互相分享信息与最佳实践。 官网将项目整体持续时间表述为“数月”,并指出前沿AI能力本身“可能在未来几个月内大幅推进”,网络安全防御方(cyber defenders)因此需要立即行动,而非等待。 行业规范层面,Anthropic列出了拟与领先安全组织合作推动的具体议题,包括漏洞披露流程、软件更新流程、开源与供应链安全、软件开发生命周期与安全设计实践、受监管行业的安全标准、漏洞分类处理的规模化与自动化,以及补丁自动化。官网未披露上述议题的具体推进时间表或已确认的合作方名单。 机构建设层面,Anthropic提出了一个中期设想:建立一个独立的第三方机构,汇聚私营和公共部门组织,作为大规模网络安全项目持续推进的长期载体。该公司同时公开邀请其他AI行业成员加入,共同参与行业标准的制定。 Anthropic将Project Glasswing定性为“一个起点”,并称没有任何单一机构能够独立解决这些网络安全问题,前沿AI开发者、软件企业、安全研究人员、开源维护者和各国政府均在其列。 结语:不追能力上限,先管安全底线 从Glasswing项目披露的信息来看,Anthropic并未将重点放在继续放大模型能力本身,而是将更多精力转向能力如何被约束和使用。Claude Mythos Preview所展现出的漏洞挖掘与利用能力,已经超出传统工具的使用范畴。 Glasswing给出的路径是,在能力尚未完全匹配防护机制之前,通过小范围合作和集中资源投入进行验证。这一方式并不改变模型能力本身,但改变了能力的扩散节奏。配套的资金支持、信息披露和规范讨论,也在尝试将单一公司的技术问题,转化为跨机构协作的安全议题。 从更长周期看,这一项目的意义不在于短期内发现多少漏洞,而在于是否能够形成一套可复制的运行和治理框架。随着模型能力继续提升,类似Glasswing的机制是否成为行业常态,将直接影响高能力AI系统的实际落地路径。
阿尔忒弥斯 2 号:玉米饼、相机、厕所与人类探月的故事
美国中部时间 4 月 6 号下午 12 点 56 分,北京时间 4 月 7 号凌晨 1 点 56 分,执行绕月任务的阿尔忒弥斯 2 号(Artemis II)任务组传回了一条令人振奋的消息: 至美国中部时间下午 12:56,阿尔忒弥斯 2 号载人绕月测试任务组来到了距离地球 248,655 英里(约 40.02 万公里)的地方,正式超越了 1970 年阿波罗 13 号任务创下的人类太空飞行最远距离纪录。 阿尔忒弥斯 2 号任务组在绕回地球之前,理论最远距离可以达到 252,756 英里(约 40.68 万公里)左右。 作为 NASA 时隔 57 年「重返月球」项目的开端,阿尔忒弥斯计划(Artemis Program)终于取得了突破性的进展。 在 2022 年无人绕月测试的四年之后,经过验证的全新 SLS(Space Launch System,太空发射系统)和猎户座(Orion)飞船搭载着四名宇航员,沿着曾经阿波罗计划的足迹,重新开始了探险。 图|Interstellar Gateway 这时再看 57 年前,阿波罗 11 号登月任务中尼尔·阿姆斯特朗的那句「这是个人的一小步,却是人类的一大步」,此刻也闪烁着与曾经不一样的光芒了。 248,655:人类最远航程 不过,尽管阿尔忒弥斯 2 号上的四名宇航员迈出了迄今为止人类在太空中航行的最远纪录,但还只是整个阿尔忒弥斯计划中的第二步。 预计要到 2028 年的阿尔忒弥斯 4 号(Artemis IV),我们才有机会见到人类足迹再次踏上月球: 阿尔忒弥斯 4 号模拟图|ESA(欧洲航天局) 但是作为目前全球最新的载人深空飞行任务,阿尔忒弥斯 2 号依然有着非常多有趣的信息和细节。 尤其相比曾经的阿波罗 8 号绕月任务,以及阿波罗 11 号登月任务来说,这半个世纪以来的科学进步不可谓不显著。 阿尔忒弥斯 2 号的任务组成员由三男一女组成,分别是指令长里德·怀斯曼(Reid Wiseman)、飞行员维克多·格洛弗(Victor Glover)、任务专家克里斯蒂娜·科赫(Christina Koch)与杰里米·汉森(Jeremy Hansen): 左起:里德、维克托、克里斯蒂娜、杰里米|NASA 这个非常多元化的任务组不仅打破了当年阿波罗计划中「没有女性航天员」的遗憾,同时也是首个由有色人种和外籍航天员参与的探月任务: 除了克里斯蒂娜作为首个飞往月球的女性航天员之外,维克多成为了首个飞往月球的有色人种,隶属加拿大航天局(CSA)的杰里米则是首个非美国籍的探月航天员。 另一方面,四人乘坐飞上太空的 SLS 太空发射系统也和半个世纪前有了很大的差异。 图|路透社 尽管目前的 SLS Block 1 还不是最终登月的完全体,但它仍然超越了当年载阿波罗 11 号上天的土星 5 号(Saturn V)重型运载火箭,起飞推力达到了约 880 万磅(约 39.5 兆牛): 图|NASA 这一数据超越了当年土星 5 号的 760 万磅(34.5 兆牛)与前苏联的能源号(Energia)火箭 34.8 兆牛,成为了人类历史上成功入轨推力最强的一次性运载火箭。 从 SUV 到面包车 而阿尔忒弥斯 2 号任务使用的载人飞船「猎户座」号相比半个世纪前的阿波罗任务指令舱也有了不小的进步。 在阿波罗 11 号模拟器中训练的迈克尔·柯林斯|NASA 从成员空间来说,猎户座飞船无论从外部结构还是内部空间尺寸,相比阿波罗 11 号的指令舱都有了扩大—— 不仅是要容纳更多的仪器和生活用品,同时也是为了给航天员提供更舒适的生活环境。 单论航天员生活和活动的「可居住空间」(Habitable Volume),猎户座飞船的容积约为 9.3 立方米左右,大约相当于一辆中型面包车的后厢,或者两个载客电梯轿厢的空间: 图|NASA 相比当年阿波罗 11 号指令舱内约 6.2 立方米的生活空间来说,这已经是不小的进步了,相当于「三个人挤在一辆 SUV 里面」升级到了「四个人挤在一辆面包车后面」。 伴随着阿尔忒弥斯 2 号一起飞跃的还有航天食品技术。 当然,受限于猎户座飞船的空间,阿尔忒弥斯 2 号任务组肯定没有办法吃到类似中国航天员在天宫空间站里面做出的「太空炸鸡」,但仍然称得上相当丰富了。 进行餐食测试的阿尔忒弥斯 2 号任务组|NASA 从菜单上看,阿尔忒弥斯 2 号成员组的航食基本与国际空间站上面经过长期验证的太空食谱差别不大—— 比如 58 张不易掉屑的墨西哥薄饼(tortilla)、43 杯浓缩咖啡、5 种不同辣度的酱汁,以及丰富的甜品,食品和饮料种类总数来到了 189 种: 正在用餐的阿尔忒弥斯 2 号任务组|NASA 更重要的则是进餐方式。 阿尔忒弥斯 2 号任务组不用忍受当年阿波罗任务组吃的「牙膏管」食品糊了,而是以软包装的复水食品和热稳定食品为主,口感和风味上都远超当年。 当然,阿尔忒弥斯 2 号的任务类型也不适合携带大型的餐饮装置。如果把目光放到空间站或者未来月球基地的层面,无疑还是现场烹调类食品更加合适: 天宫空间站特产:「太空炸鸡」|央视新闻 苹果梦寐以求的广告 除了日常起居,过去 24 小时火遍全球的,当属阿尔忒弥斯 2 号任务组用 iPhone 17 Pro Max 拍下的那张地球全景了: 图|NASA 有趣的是,智能手机与太空的关系,实际上比我们想象的都要更紧密。 早在 2011 年的亚特兰蒂斯号航天飞机 STS-135 任务中,NASA 就将两部 iPhone 4 送上国际空间站参与了一些测量任务,这是 iPhone 第一次作为「科研设备」被送入太空: STS-135 任务,亚特兰蒂斯号航天飞机最后一次起飞|launch photography 2021 年 SpaceX Inspiration4 任务中,参与飞行的不仅有 iPhone 12 Pro,还有用来检测健康状态的 Apple Watch series 6 和用作任务电脑的 iPad mini 4: Inspiration4 任务组|纽约时报 阿尔忒弥斯 2 号任务组不仅被允许携带 iPhone,据悉指令长里德在发射前的最后一刻「成功加菜」,还带上了一台尼康 Z9 无反相机: 图|SlashCAM 要知道在这之前,各种太空任务中频繁出场的相机并不是时下最新的型号,反而是十年前的尼康 D5 单反—— 不为别的,就为了 D5 迄今仍然是尼康第一的高感光度表现,对于太空拍摄非常有利。 虽然带着 Z9,但 D5 仍然是阿尔忒弥斯 2 号任务组的主力相机|NASA 不出意外的话,尼康 D5 将会继续在国际空间站和阿尔忒弥斯计划的后续任务中亮相,甚至伴随着阿尔忒弥斯 4 号登月,成为人类历史上第二台登月相机。 图|NASM(美国国家航空航天博物馆) 另外还有一个冷知识:虽然如今我们都觉得哈苏 500EL 是伴随着阿波罗 11 号登月的「月球相机」,但当年任务组使用的相机更像是一个缝合怪。 虽然沿用了哈苏 500EL 的外壳和卷片结构,但阿波罗登月相机几乎拆除了内部所有的反光镜、对焦屏和取景器,以求减重和减少故障点。 同时,当年任务组使用的还是一颗蔡司专门为真空环境设计的 Biogon 60mm f/5.6 镜头,胶片后背里面塞着的也是柯达特制的超薄胶片,容量可以达到 160-200 张。 图|PetaPixel 甚至阿波罗 11 号任务结束后,为了减轻返航时的重量,宇航员们只带回了胶片盒、相机机身和镜头至今仍然留在月球表面的静海基地上…… 听起来像是个不错的二手捡漏机会,对吧? 跨时代的如厕体验 与此同时,猎户座飞船的空间也为四名航天员带来其他方面的生活品质飞跃——尤其是在「三急」方面。 57 年前的阿波罗 11 号任务虽然辉煌,但期间也伴随着一些难以言说的「黑历史」: 受限于当时的技术条件和指令舱空间,阿波罗 11 号是没有专门的厕所装置的。 因此,在尼尔·阿姆斯特朗、巴兹·奥尔德林和迈克尔·柯林斯为期 8 天的任务中,他们需要用舱内服后面粘贴的塑料袋、在无重力环境下进行「手动掐断」操作,才能完成一次基本的如厕: 图|Earthly Mission 而如果你坐过早期的绿皮车,一定记得那种「直排式」厕所—— 57 年前阿波罗 11 号的尿液收集装置就是类似的工作原理。 通过管道收集的尿液小部分留样,大部分都排出舱外,在真空里化成了闪亮的冰晶,被阿波罗任务的组员调侃:「这是深空中最美的景色」。 更好玩的是,当年的阿波罗任务中,任务组在每一次执行着陆之后,都会把大部分「固体废物」留在月球上。 而 NASA 出于科研的目的,正打算借着阿尔忒弥斯计划,将这些「史料」收集回来一部分以供研究: 人类在月球上留下的「屎」迹|Vox 相比之下,猎户座飞船中的如厕体验就文明许多了。更大的舱内空间让 NASA 可以放下一套重金研发的通用废物管理系统(UWMS): 猎户座飞船厕所模拟器|Threads 相比需要手动微操的塑料袋,阿尔忒弥斯 2 号的厕所不仅有了独立的封闭空间,更是通过风扇抽风解决了太空环境下排泄物难以收集的问题,体验直接看齐国际空间站。 其实不止国际空间站,我国天宫空间站采用的厕所同样为吸气式原理,分别位于 2021 年升空的「天和」核心舱与 2022 年升空的「天问」实验舱中: 安装阶段的太空厕所|中国载人航天官方网站 有趣的是:天宫空间站的「人体废物」也是要定期回收的——依然是小部分留样,大部分则会在天舟货运飞船重新入轨的时候抛入大气层「焚烧处理」。 2030 年,记得抬头望天 距离地球只剩 3 天「车程」的阿尔忒弥斯 2 号无疑是人类航天工程史上的一个关键节点。 它结束了自 1972 年阿波罗 17 号以来近半个世纪的「深空留白」,将人类的足迹重新带回了月球轨道,也为计划中的 2028 年登月打下了坚实的基础。 阿尔忒弥斯 4 号任务分段|NASA 而在 2030 年前,我们的时间表也同样紧凑—— 不出意外的话,嫦娥七号探月器将于今年启程,前往月球南极;而作为 2030 年前中国载人登月基础的长征十号运载火箭也在紧张的研制过程中,一切都在稳步进行。 图|新华社 在过去 6 天接近 40 万公里的航程中,阿尔忒弥斯 2 号将全人类的目光从混乱的地球上挪开,提醒着全人类—— 在地缘政治、海峡封锁、资源战争之外,还有一整片广袤的星空值得我们探索。 文|马扶摇
干翻字节Seedance 2.0!神秘“快乐小马”模型引全网竞猜
作者 | 杨京丽 编辑 | 李水青 智东西4月8日报道,上周,AI视频生成领域盲测平台Artificial Analysis的榜首出现了一个匿名模型——HappyHorse(快乐小马),该模型在文生视频和图生视频两条赛道的无音频类别中同时登顶,将此前霸榜的字节跳动Seedance 2.0挤到了第二位。 截至目前,没有任何公司或团队公开认领这个模型。外网社区围绕“它到底是谁”展开了激烈猜测,网友普遍认为HappyHorse出自中国团队,阿里万相、阿里淘天、可灵、Sand.ai都被列为嫌疑对象。 一、榜单成绩:无音频双冠,有音频紧咬Seedance 2.0 Artificial Analysis是目前AI视频生成领域最具公信力的盲测平台之一,其评测采用Bradley-Terry模型的Elo评分系统。用户在完全不知道模型身份的情况下,对同一提示词生成的两段视频进行盲评选优,最终通过最大似然估计拟合Elo分数,95%置信区间通过1000次bootstrap重采样计算。 HappyHorse 1.0在该平台榜单上的表现如下: 在纯视频质量的比拼中,HappyHorse全面领先。文生视频(无音频)榜上,它以1349的分数排名第一,第二名Seedance2.0为1273。 文生视频(无音频)榜单(图源:Artificial Analysis) 图生视频(无音频)榜的情况类似,HappyHorse以1403的分数高居榜首,领先Seedance 2.0达48分。 图生视频(无音频)榜单(图源:Artificial Analysis) 在有音频的两个榜单上,Seedance 2.0仍以微弱优势保持领先,但差距极小。文生视频两者差距仅11分,图生视频仅有1分差距。 文生视频(有音频)榜单(图源:Artificial Analysis) 文生视频(有音频)榜单(图源:Artificial Analysis) 需要指出的是,HappyHorse的对比样本量约为3500次,远低于Seedance 2.0的7500次,这意味着它上榜时间很短,95%置信区间偏宽(±12~13分)。但即便考虑置信区间,其在无音频赛道上的领先优势仍然稳固。 二、全网猜猜猜:“快乐小马”出自阿里、快手,还是? HappyHorse引发的最大讨论不是技术,而是身份。 网友Brent Lynch率先在X平台发帖猜测:“HappyHorse到底是谁?是不是阿里万相Wan 2.7?一个全新的神秘AI视频模型突然出现在Artificial Analysis排行榜上,有V1和V2两个变体。它看起来肯定来自亚洲。如果真是Wan 2.7的话,那相比2.6是一个巨大的飞跃。” 另外,他觉得该模型“并不算Seedance 2.0的杀手”,“水平更接近近期的可灵”。 网友对于HappyHorse的猜测(图源:X) 还有传言说,HappyHorse是阿里淘天团队未来生活实验室张迪团队做的。 张迪目前是阿里淘天集团未来生活实验室的负责人,聚焦多模态大模型等前沿技术。此前,他曾在2010年加入阿里巴巴,担任资深技术专家,后于2020年加入快手,担任技术副总裁。2023年初,张迪被任命为大模型与多媒体技术团队负责人。2024年起,作为技术负责人,他牵头可灵AI的底层架构研发与应用落地。2025年4月,张迪作为快手副总裁、可灵AI负责人发布了可灵2.0大师版。2025年9月初,张迪加入哔哩哔哩担任技术条线负责人,但一个多月后即离开。2025年11月,张迪又重返阿里巴巴。 网友对于HappyHorse的猜测(图源:X) 另外还有网友说,该模型可能是Sand.ai的daVinci-MagiHuman,参数都对的上。 Sand.ai2023年在北京成立,由Swin Transformer第一作者曹越创立,其联合创始人张拯同为Swin Transformer作者,二人均出自微软亚洲研究院,论文引用量合计超过11万次。该公司已完成近6000万美元融资,此前发布过全球首个自回归视频生成模型Magi-1,被业界称为“AI视频界的DeepSeek”。 网友对于HappyHorse的猜测(图源:X) 总之,大家对于HappyHorse归属的猜测众说纷纭,究竟出自哪家,各有各的观点。但从名字上判断,网友普遍认为,HappyHorse出自中国团队。 三、产品现状:套壳网站层出不穷 HappyHorse官方使用入口尚未确认。Artificial Analysis排行榜上的盲测成绩由平台官方确认属实,但模型本身没有公开的API,也没有可供体验的Demo页面。 然而,围绕这个名字的商业化动作已经快人一步。目前发现大量以“HappyHorse AI”为名的第三方网站,提供付费视频生成服务或技术展示页面。 网友对于HappyHorse套壳网站的猜测(图源:X) 经查,这些网站存在明显的套壳特征:域名注册时间集中在2026年4月初,注册人信息均被隐私服务遮蔽;其中部分站点在页脚注明“本平台提供模型访问服务,并非原始开发者”。部分网站展示的技术参数和英文描述,与已开源的模型一致,可能也是抄袭的。 可以说,在HappyHorse的真实开发者尚未现身之前,SEO玩家们已经抢先一步把流量生意做了起来。 结语:“快乐小马”,一匹等待认领的黑马 HappyHorse目前唯一经过验证的信息,是它在Artificial Analysis盲测中的成绩。除此之外,没有代码仓库,没有团队署名,甚至连一个可信的官方网站都没有。 但正因如此,它的身份才格外值得关注。围绕它的猜测覆盖了从大厂到创业公司,究竟是哪家的AI视频荣登榜首,需要等后续模型发布见真章。 2026年的AI视频生成赛道已经进入密集交锋期。字节Seedance 2.0、快手Kling 3.0、Google Veo 3轮番迭代,一匹不知从哪里跑来的“快乐小马”突然冲到最前面,无论它最终被证明是谁家的马,这场比赛都变得更好看了。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。