行业分类:
加载中...
头条分类:
加载中...
微信智能体方便“老司机”,未来AI手机的最佳姿态?
文丨师天浩 出品丨师天浩观察 微信即将推出ai agent(智能体)的消息引发市场强烈关注,目前荣耀手机部分型号,已经可以用YOYO助理发起微信音视频通话或向指定好友发送消息。 这个消息对主编这样“老司机”来说,震撼性远大于豆包手机。由于经常要长途开车旅游和工作,现在已经非常习惯捏着手机的“语音唤醒键”,通过说话直接让手机导航到某个位置,并用说话指挥QQ音乐播放和切歌。 开车时候最麻烦的就是一二个小时的路程,作为需要24*7在线的自由工作者,常常需要打开手机扫一眼微信,有重要人士发来消息,就会把车开到服务区,解决沟通问题后才继续开车。 01 不只方便“老司机” 很多媒体已经报道,微信正在与华为、荣耀(部分型号已可以使用)、小米、OPPO、vivo等手机厂商合作推出A2A(Agent-to-Agent)助手能力,支持用户通过手机语音助理发起微信的音视频通话,或向好友发送消息。 这对于我们这些人来说是非常实用且便捷的AI能力。其实,不只是开车场景,在通勤、娱乐、户外等场景中,语音助手和一些核心APP相关功能打通非常有必要,会解决非常多的麻烦操作。 现在荣耀部分用户已经可以用上这些功能,需要满足以下条件:荣耀YOYO智能体更新到90.10.30.063及以上版本,微信更新到8.0.72及以上版本。 新京报报道当前约50%的荣耀活跃设备已支持这一功能,包括荣耀 Magic8、500、X70系列已可使用这一功能,其他机型逐步推送中。 这次微信和手机的打通,和曾火极一时的豆包手机,无论操作形式上还是实现机制上都完全不同。 首先就是功能更便捷,豆包手机是你用语音下达指令,它GUI(图形用户界面)的方式实现操作。比如说,你告诉豆包手机把手机相册里第一张照片发给微信里的“XXX”,它会模拟人的操作去跨应用执行,这也是当时微信“封杀”豆包手机助手的原因。 这一次的微信智能体则和iPhone的语音助手调用应用机制类似,该能力基于A2A(Agent-to-Agent)协作机制,通过双重授权保障数据安全,后续会逐步完善功能体验。Agent直接交换数据,调用功能,并没有一只“虚拟手指”模仿操作手机,而是通过协议,实现“语音指令”到功能调用的直接对接。 相比于豆包手机助手容易被劫持和攻击的特性,这种A2A在数据安全和能力落地上都有着巨大提升(当然扩展能力要远不如上面)。 02 未来AI手机应打通“主流APP” iPhone作为智能手机的开山鼻祖,它的很多操作模式,都可以作为其他手机系统所参考。 现在你外出超市里购物,付款时候如果用手机操作不够方便,你可以对Siri说“请打开支付宝付款码”,手机会自动跳转到支付宝付款码页面(时常失败),整个过程可谓非常便捷,让你在不方便用手操作手机时,可以完成很多任务。 这因为2022年,苹果推出了App Intents框架,让手机助手Siri可以在不打开APP的情况下,在APP内执行操作。 当然,目前很多APP没有和Siri打通,你可以用它语音打开iPhone自带的地图并导航的具体位置。目前还不能调用很多APP,比如说你向Siri说打车到某某地,并不会唤醒滴滴,仍然是系统自带地图导航推荐。 微信智能体的意义在于,它主动开始谋求在手机上的新交互模式。这种语音直接进行的部分操作,释放了微信一些必须双手操作的“局限”,尤其是特殊场景中的交互解放,极大地方便了用户的日常生活。 比如说,一些常规操作都可以用这种A2A机制解决。手机和滴滴的深度打通,让用户可以对着手机说要“打车到XXX”,就自动呼叫了专车。手机和微博打通,用户可以让APP自动播报前十热搜榜简介。手机和航旅纵横打通,登机时你可以一句话打开电子机票。等等,常用功能和手机的打通,将让非常多的操作变得“一句话”到达。 对比一下,你是需要一个跨应用操作的豆包手机?还是需要一个可以一句话音视频通话和向好友发送消息的AI手机?显然更期待后者,它更实用,且更安全。前者虽然看起来功能强大,其实牺牲了太多安全性,并且“误操作”可能性极高,实用性并不强。 作为一个老司机,曾经就幻想过好几次,微信可以自动播报最新消息,且能够语音直接让“它”给好友回消息。这种想象至少实现了一半,令人惊喜的是它将逐步普及到更多手机上。作为一种解放双手的能力,让我们在特殊场景里也能和好友交流。 除了微信,希望更多APP能和手机、AI深度打通。一个动动嘴就能打车、点外卖、购物,甚至“P”图的时代即将到来。在这个全新的AI手机概念里,人与世界的交互得到进一步的解放。
Agent时代,到底需要怎样的数据库?
腾讯云数据库正在通过“DB For AI”和“AI in DB”两条腿,构建属于Agent时代的AI原生数据库。 文|游勇 编|周路平 数据库技术的演进有着一条相对清晰的脉络,过去十几年国产数据库的蓬勃发展大致可以划分为三个阶段。1.0时代,以腾讯云为代表的一批互联网厂商的数据库系统诞生,他们大多源于自身业务发展需要,从单机数据库转向分布式,成功扛住了互联网业务的高并发带来的数据洪峰,实现了国产数据库的高可用和高可靠。 到2.0时代,自主可控的需求紧随而来,国产替代成了业内的主导方向,大量关键基础设施和重点行业的核心系统开始进行国产替换。 如今,行业的指挥棒转向了AI Agent,数据库正式进入3.0时代。如何适应和满足AI Agent的需要,已经成为了全行业的课题。 就在上周,腾讯云数据库面向Agent场景进行了产品的全面升级,为Agent、AI编程和智能运维三大场景提供原生的AI数据库能力。当天,腾讯云不仅发布了Agent Memory、DatabaseClaw两款Agent原生产品,也对旗下最核心的云原生数据库TDSQL-C和分布式数据库TDSQL-B进行了系统性升级,全面适配AI原生。 01 Agent爆发,数据库面临多重挑战 数据库过去几十年的演进逻辑并没有发生太大改变,其本质是为人服务,比如控制台、注册流程、文档都是给人使用。但Agent依赖的是智能体之间的交互和工具的自主调用,数据库的用户从人变成了Agent,新的范式和业务需要改变了数据库的运行逻辑。 首先,多模态数据成为主流。过去,数据库处理的大量是订单、用户、交易记录等结构化信息,但AI的爆发,使得数据形态发生了巨大变化,“现在92%的新增数据都是非结构化”,比如会话状态、行业知识、上下文、图片视频等。 以前,单一模型的数据库会针对特定类型数据进行优化。比如订单、账户等结构化、强事务的数据,放在MySQL;半结构化、低延迟的数据放在MongoDB或Redis;非结构化的大文件放在对象存储。 这也意味着,多模态数据天然就散落在异构系统之间,而一旦需要跨系统融合分析,应用层的开发复杂度急剧攀升,非常割裂和痛苦。 “在一个复杂的企业级 AI Agent 应用架构中,我们会依赖和传统数据库迥然不同的能力。”腾讯云副总裁王义成说,比如查询不再仅仅基于关系模型,而需要向量和语义;数据不再仅仅是结构化,而可能是文本、图片。“这个时代真正需要的是多模存储和语义检索为原生的能力,并结合我们既有产品强项,例如高可用,支持SQL,高性能等,重新设计的产品。” 其次,是开发模式的转变。过去使用数据库,整体还是可预见的、访问模式也相对固定。而Agent的并发规模远超人工,对数据实时性也有更高的要求。尤其是当下,AI辅助编程让很多非专业人士也可以通过多轮对话创建Agent,越来越多AI应用开始直接访问数据库,带动了数据库实例的数量大幅上升,而且Agent多步骤任务又要求中间存档、随时回滚,传统备份恢复跟不上节奏。 “Agent是以人类无法比拟的速度去写代码、写用例、进行测试,跟团队做整体的组织协同,使得传统数据库的设计显得比较笨重,无法匹配。”王义成说。而Neon的数据也显示,2025年以来,由AI Agent创建的实例数量已经是开发者创建的4倍之多。 再者,数据库调用模式也在发生变化。过去的数据库偏离线分析,而Agent转向实时检索与持续性记忆。传统的解决方案遇到了很大的瓶颈,比如上下文窗口有长度限制和成本焦虑,RAG检索又丢失结构化推理路径,需要为Agent打造专属的记忆系统。 另外,随着Agent能力的增强和数据库治理复杂度的提升,Agent也在反过来协助DBA和研发人员更好地管理数据库,包括用自然语言做数据库的巡检、故障排查以及SQL优化。 02 DB For AI,为Agent重做数据底座 随着Agent在千行百业加速落地,业内也发现,Agent在真实场景的落地中最大的问题往往不是模型智商不够,而是容易出现记忆断片。 相比于过去问答型的人工智能,Agent这类复杂的长线任务,需要多步骤执行,需要调用各种工具和skill,非常考验记忆能力。比如系统不仅要听懂当下的指令,更要记得过去定下的代码规范、约束条件和推进节点。 不久前,Meta的AI对齐与安全总监就因为AI“指令遗忘”,导致其个人邮箱中200多封邮件被小龙虾批量删除。 针对Agent的记忆痛点,腾讯云数据库重磅推出了Agent Memory服务,重新为Agent打造了一套记忆系统。其核心是通过引入结构化与分层机制,对记忆进行统一管理。 比如对短期记忆进行压缩,腾讯云数据库自研了符号化压缩和上下文的卸载能力。以符号化压缩为例,主要有两种思路:一种是摘要压缩,将繁琐的原始全文提炼为一行结构化的摘要,去掉废话,留下事实,提升单条信息的密度;另一种是结构化图压缩——用一张图替代一堆文字,让结构化的图来呈现不同操作背后的因果关系、状态,用最少符号承载最大语义。 而且,腾讯云数据库针对短期记忆设计了一套三级压缩策略,可以根据不同任务和负载,自动触发不同级别的处理。比如当上下文占比达到 60%时,自动用摘要替换原文,相对温和;而当上下文占比达到80%时,直接清理不再相关的旧任务消息,为当前任务腾出空间。 在长任务场景下,这套压缩机制不仅帮助Agent提升了30%的任务成功率,也让Token最高节省60%以上。“短期记忆我们做得比较领先,业界没有太多的方案。”腾讯云数据库副总经理罗成说。 针对长期记忆,腾讯云数据库也设计了从L0-L4的语义金字塔:其中L0包含原始的对话记录,L1是从对话中提取的原子化事实片段,L2是将原子事实组织成行为场景,L3则是从场景中归纳出用户画像、偏好、习惯用户。 借助这一机制,系统在执行过程中能够调用更稳定的关键信息,而不再依赖单一上下文,比如底层的原子事实只在需要核实细节时才按需检索。 甚至,腾讯云数据库在短期记忆和长期记忆之外,也在推动构建团队记忆。Agent在企业场景的应用往往依赖团队协作,这意味着企业级Agent需要能共享整体团队的上下文信息,理解同一套工作规则和标准,让多个Agent能像团队一样协作。不难发现,在Agent从个人工具转向组织协作的必然趋势下,腾讯云数据库已经开始从记忆层面帮助企业做着相应的数据准备。 而腾讯云数据库的Agent Memory已经对外开源,并且在开源社区受到了欢迎。上线两周时间,Agent Memory的开源代码就收获了近5K的Stars。 除了Agent Memory,AI也需要对会话的运行状态、行业信息等,进行长期的保存。 而每一种数据库都有各自的应用场景,比如结构化的业务数据用SQL查询,知识库语料又要用向量的召回,日志跟文档又要用全文搜索做关键词搜索。这也使得在企业的IT环境里,存在大量异构的数据库系统。 “Agent可能花了80%的时间在找数据,只有20%的时间在思考怎么用数据。“王义成说,Agent在执行任务时,要拿到一份完整新鲜的数据,往往需要穿越多套数据系统,应对不同数据库的延时,以及适配多种数据库的一致性协议。 针对这一痛点,腾讯云数据库发布了最新的TDSQL Boundless,这是一个面向AI时代的企业级多模态的数据存储底座。它支持一键纳管MySQL/PG、Mongo/Redis、COS、ES等数据源,让文本、图片、音视频等不同模态数据可以在同一个数据库内对齐。而且支持多模的计算,一次查询能同时调动语义、关键词、图谱、聚合四种能力,“这是任何单一数据库目前很难做到的”。 在存储架构上,TDSQL-B支持本地SSD、云硬盘和对象存储的多级存储云原生设计,存算分离,弹性按需扩展。数据规模从GB平滑增长到数十TB无需手动分库分表,冷热数据自动分层至对象存储,在保障高性能访问的同时大幅降低存储成本。 据悉,今年Q2,TDSQL Boundless将会重点推出面向向量索引和全文索引的应用场景,下半年则重点打磨基于对象存储原生和统一开放原数据服务的能力,而明年上半年会着重增强混合检索、融合检索,以及提供更完整的多模体验。 另外,针对AI Coding场景下数据库频繁复制、测试与回滚的新需求,腾讯云TDSQL-C也做了一次系统性升级,既支持MySQL也支持原生PG,可以一站式对接腾讯云cloudbase的baas平台以及Cursor、FastGPT等这些AI 开发者应用,用MCP、REST等协议统一接入。 这一次的升级核心是引入数据库Branch能力,让1TB数据库从过去小时级复制压缩至秒级“分叉”;叠加Serverless秒级启动、闲时归零的能力,更贴合 AI 编程“高频创建、低频使用”的长尾负载;提供AI Toolkit工具箱,实现了亿级向量零损召回、列存实时分析提速10倍、向量检索内存再降75%——RAG、长期记忆、实时洞察这些复杂AI需求,开发者不用再东拼西凑,一库直达。 此外,TDSQL-C为了更好适配Agent应用,重构了新一代存储架构,通过重写日志系统、写入路径和读取路径彻底解耦;引入多数派写入协议,构建地域级全对等架构,告别木桶效应;原生支持行列混存,同一份数据、同一套日志、同一份事务一致性——TP/AP不再需要两套库两条链路;冷数据再下沉到对象存储COS,备份快照和无限容量都顺手解决。最终带来的效果是:极致性价比,TCO较同类产品下降200%+;IO零抖动、全链路无损变更;数据零丢失,3 AZ金融级强同步、RPO=0。 03 AI in DB,给数据库装一只龙虾 数据库领域对于AI的实践,普遍有两条路线。其中一条就是上述提到的DB for AI,让数据库更好地去满足Agent的运行需要;另一条则是AI in DB,将Agent引入数据库的运维和治理流程中,让Agent帮助研发或者DBA做数据库巡检、故障排查以及SQL优化等工作。 这背后,是数据库的运维正在遭遇一场不对称的战争。 DBA紧缺已经是行业性难题,即便是在大型企业也是如此,而数据库的分类非常复杂,这也增加了DBA的运维难度。甚至vibe coding的流行,让很多非研发岗位的人也在大量创建数据库实例。在如此内外交困的情况下,用Agent来进行数据库的智能运维就成了刚需。 小红书就是一个典型案例。业务的高速成长使得小红书的数据规模迅速膨胀,而支撑业务的所有数据库产品集群规模都在翻倍扩张,给后台负责运维的人员带来巨大压力。“传统靠人肉、靠SOP、靠加人扛的路子基本上走到尽头了。”小红书数据库DevOps专家许嘉正说。 作为腾讯云首个数据库Agent,DatabaseClaw可以做到一句话巡检,并且生成结构化的巡检报告,而且不管底下跑的是MySQL、Redis还是MongoDB,AI自动识别引擎,加载对应的诊断策略。它可以逐条解析执行计划,告诉你哪些需要建索引、哪些需要改写、哪些其实不用管。 但理想与现实之间依然还存在鸿沟。比如Agent对线上SQL慢查能分析得头头是道,但很多业务人员并不敢直接将AI的建议用于真实的生产环境。因为通用的AI没有上下文,没有调用内部的工具链,也没有风险边际和证据链的意识,往往只是单纯根据SQL文本做了形式化的分析。 与通用智能体不同的是,腾讯云DatabaseClaw基于过去十几年服务客户积累的十几万工单,将SOP流程沉淀为Skills,相当于让Agent在执行各种任务时都有一套最佳用户实践。比如当数据库出现慢SQL的问题,通用Agent往往会给出一个似是而非的建议,而DataBaseClaw会多做一步,先找到慢SQL产生的具体原因,然后对症下药。 “DataBaseClaw能够相比较之前一个人干的活能够有十几倍效率的提升。”罗云说。 除了把专家经验炼化为可以直接调用的Skills,DataBaseClaw也实现了多引擎的统一纳管。不同类型的数据库有自己的特性和运维工具,比如MySQL要看缓冲池命中率,Redis要盯内存碎片,MongoDB要查慢操作。而DatabaseClaw用单一的Agent实现了MySQL、Redis、MongoDB、TDSQL四大主流引擎的原生覆盖,DBA通过自然语言就可以查询数据的状态、生成报表,降低整体使用门槛。 相比于提高效率和易用性,安全可控是企业敢于将Agent用于真实生产环境的最关键一环。 不久前,一位SaaS企业创始人就发帖称,他在使用智能体执行测试任务时,由于凭据不匹配,Agent竟自主搜索代码库找到一个无关的 API Token,把整个生产数据库给删除了。现实中,数据库关系到企业业务的稳定,很多企业不敢将Agent用于真实的生产环境中,一些不合规范的操作可能对系统造成不可逆的损害。 而DataBaseClaw则从三个层面提高Agent的安全防护。一是设立行为护栏,相比于简单通过Prompt工程对龙虾进行限制,DataBaseClaw用了规则化或者持续化的方式在上层对龙虾进行限制,比如只读权限和分析权限分离,一些变更类的操作需要用户二次确认。二是让龙虾的操作环境白盒化,DataBaseClaw部署在用户可见的环境上,龙虾安装了什么Skills,配置了什么策略,用户完全可知。三是全链路进行审计,关键的信息脱敏,整个链路只保留做什么了,为什么要做。 不难发现,DataBaseClaw通过融入人类专家经验、设立安全护栏等方式,本质上是解决的是通用Agent目前能力边界有限和安全风险失控的难题,帮助客户真正敢于将Agent用于数据库的真实运维环境中。 结 语 Agent带来了全新的数据使用方式和复杂多元的数据形态,又给底层的数据库带来了巨大的机遇和挑战。数据库的价值在AI时代没有被削弱,反而在增强。如何为Agent的高效运行打造一个AI原生数据库,正在成为数据库厂商们集体探索的方向。 在这条迈向AI原生数据库的路上,腾讯云基于全栈自研的数据库底座,围绕DB For AI和AI in DB的双重布局,已经构建了从AI应用开发到运维运行的完整链路。 模型决定了Agent的下限,而记忆决定了Agent的上限。在模型能力放缓、系统工程备受重视的当下,AI原生数据库就是腾讯在Agent时代给出的最佳答案。
Anthropic高喊狼(AGI)来了,是为了人类还是IPO?
Anthropic昨晚发布了一篇长文,标题为《When AI builds itself》(当AI自我构建时),听起来像是阿西莫夫的某本科幻小说,主题也确实是一个很科幻的概念:recursive self-improvement(递归自我改进)。 简单说,过去是人类研究员写代码、跑实验、训练模型,然后把AI做得更强。可如果AI自己开始参与设计、训练、测试、优化自己的后继版本,那么AI进步的速度就不再只是由人类推动,可能开始由AI“自我进化”。 为此,Anthropic发出呼吁: “我们认为,如果世界能够选择放缓或暂时中止前沿AI的开发,让社会结构和对齐研究跟上技术进步,这对世界大有裨益。” 这句话听起来像安全警告,但放在Anthropic准备IPO的时间点上,它也很难不被看作另一种叙事预演:Claude实在太好用了,甚至开始自己创造下一代Claude了。 01 新的风暴已经出现 为了说明AI正在越来越多地参与AI研发本身。Anthropic拿出了大量内部数据。 比如,截至2026年5月,Anthropic合并进代码库的代码中,超过80%由Claude编写。而在Claude Code发布之前,这个数字还仅是个位数。 到2026年第二季度,按Anthropic的统计,工程师每天合并的代码量已经比2024年高出约8倍。 比代码量更值得注意的是,Claude正在处理更开放的工程问题。 Anthropic在文中说,过去一年里,员工纠正Claude、把Claude拉回正轨,或者中途接手任务的频率一直在下降。这个变化不只发生在简单任务上,也发生在最复杂的开放任务上。 所谓开放任务,就是没有明确说明书的问题。比如系统崩了、训练任务挂了,工程师自己一开始也不知道答案长什么样,只能一边排查一边判断。 这类任务过去最依赖人的经验,而在那些最开放的任务里,Claude的成功率到2026年5月已经达到76%,六个月内提高了50个百分点。 不只是写代码,Anthropic还用Claude做代码审查,检查bug、安全漏洞和其他缺陷,他们回溯分析发现,如果过去每次代码变更都经过Claude自动审查,大约三分之一导致claude.ai线上事故的bug,本可以在上线前被拦下来。 更进一步,Claude已经开始参与研究流程。 Anthropic有一个固定测试:给Claude一段训练小模型的代码,让它在不改错结果的前提下,想办法把代码跑得更快。2025年5月,Claude Opus 4大概能跑出3倍加速;到了2026年4月,Claude Mythos Preview已经把这个数字推到了约52倍。 Anthropic还提到一个开放式AI安全研究案例。他们把一个问题交给Claude驱动的智能体:一个较弱模型能不能可靠监督一个更强模型? 这个过程需要提出假设、测试假设、和并行智能体共享发现、反复迭代。 两位人类研究员花了一周时间,弥合了大约23%的差距;而Claude在累计约800小时、约1.8万美元算力消耗下,弥合了97%。 这项结果当然有局限,问题是人类选的,评分标准也是人类定的,结果也没有完全迁移到生产规模模型上。但它仍然说明,Claude已经可以在一个人类设定好方向的研究框架里,自己设计实验、自己执行、自己迭代。 另外,在人类研究员“走错路”的时候,Claude还能给出更好的下一步判断。 Anthropic找了129个内部Claude Code研究会话,这些会话里,人类研究员和Claude一起解决开放式研究问题。Anthropic挑出其中一些“人类后来证明绕了弯路”的节点,然后把这个节点之前的上下文给不同版本的Claude,看它会建议下一步怎么做。再由另一个知道完整会话结局的Claude judge来判断:模型建议和人类当时的选择,哪个更好。 结果表明,在那些人类研究员已经被事后证明有改进空间的节点上,Claude越来越能提出更好的下一步。 过去,AI模型的进步主要靠人类研究员和工程师推动。人类决定做什么实验、写代码,训练模型、推动AI的功能迭代。 现在,这条链条里越来越多的环节,开始被Claude接走。 Anthropic给出了一个很直观的阶段表: 2021到2023年,Anthropic和普通科技公司没什么区别,都是人类在笔记本电脑上写代码、写文档。 2023到2025年,聊天机器人开始进入工作流。工程师让模型生成代码片段,再复制到编辑器里。 2025到2026年,编程智能体出现,Claude开始能自主编写和修改代码,有时甚至能独立完成整个文件。 到了今天,智能体已经可以自己运行代码,还能把长达数小时的工作委派给其他智能体。 再往后,就是Anthropic真正担心的那个阶段:闭合回路。 如果这一天到来,Claude的后续版本,就可能由Claude自身持续改进——这就是recursive self-improvement,递归自我改进。 Anthropic在文中说得很谨慎:我们还没有走到那一步,递归自我改进也不是必然发生。但它依然在强调,通往那一步的路径,已经开始变得可见。 所以Anthropic才会在文章最后谈到减速,甚至暂停。它的意思不是现在所有AI公司立刻停工,而是说,如果未来AI自我改进风险继续上升,前沿实验室需要一套协调、可验证的减速机制。 换句话讲,“奇点”就要到了,人类必须加以控制。 02 势不可挡的Claude 如果只看表面,这是一篇非常具有前瞻意识的安全文档。Anthropic在讲递归自我改进,讲AI可能越来越快地改进自己,讲人类社会需要提前准备减速和暂停机制。 但放在Anthropic准备IPO的时间点上,这篇文章就有了另一层意思。 某种意义上,A厂最近的动态很像班上那种欠儿欠儿的优等生——它确实有能耐,但也确实很装。 它想说的不只是“我们有一个很强的Claude”,比这更前一步,它想说“Claude正在帮助我们制造更强的Claude”。 如果Anthropic只是卖一个模型或者卖一个工具,它就很难彻底摆脱横向比较:Anthropic有Claude,OpenAI有GPT;Anthropic有Claude Code,OpenAI有Codex;Anthropic抢企业客户,OpenAI也抢企业客户。两家公司的竞争非常胶着,就看谁能向市场讲出更大的故事。 需要注意的是,就在3天前,OpenAI前脚在一份关于前沿AI治理的文件里写道: “我们也在今天的系统中看到了递归自我改进的早期迹象:AI的发展本身正在被AI加速。 这将加剧开发者和国家之间的竞争压力,并带来现有机构无法应对的治理挑战。” 3天后,Anthropic后脚就说:Claude通往递归自我改进的路径,已经开始变得可见。 要是Claude真如它所期待的那样发展,就不是普通产品叙事了,它会变成一个研发飞轮。 Claude写代码、跑实验、优化训练流程,再反过来减少Anthropic自己产品里的事故……一旦这套系统跑起来,Claude就不只是Anthropic的一个产品,也是Anthropic的重要生产工具。 用户看到的是Claude这个产品,企业客户买的是Claude的能力,但Anthropic真正想让资本市场注意的是:Claude已经嵌入了前沿模型研发的底层流程,它被放到了Anthropic的发动机舱里。 资本市场最喜欢听飞轮的故事,像聚宝盆一样财源滚滚:更强的Claude让Anthropic的工程师能合并更多代码,更多代码让产品和基础设施迭代更快,更快的迭代让研究员能跑更多实验,更多实验又反过来帮助下一代Claude变强。下一代Claude变强后,再继续加速Anthropic的研发。 Claude的迭代速度也在支撑这个飞轮。从公开发布时间看,2023年到2025年初,Claude的主要模型更新大多是三四个月一轮,但在进入Claude 4之后,Anthropic的模型更新明显变密。 Claude 4在2025年5月发布,Opus 4.1在8月发布,Sonnet 4.5在9月发布,Haiku 4.5在10月发布,Opus 4.5在11月发布。 到了2026年,Opus 4.6在2月5日发布,Sonnet 4.6在2月17日发布,Opus 4.7在4月15日发布,Opus 4.8在5月28日发布。Opus 4.7到Opus 4.8,只隔了42天。 Anthropic表面上是在说“这件事可能很危险,我们要提前准备刹车”,但它同时也在暗示:“我们已经看见油门踩下去之后会发生什么。” IPO叙事的微妙之处就在于此。它一边把风险讲得很重,一边也把自己的技术位置抬得很高。 不是所有AI公司都有资格讨论递归自我改进,你得先让外界相信,你的AI已经进入了AI研发流程,才有资格说这件事可能需要全球协调。 03 OpenAI:怎么可以这样? 前面提到,就在Anthropic发这篇长文之前,OpenAI刚刚把递归自我改进摆上了桌。 但两家公司的讲法很不一样。 OpenAI那篇《Democratic Governance of Frontier AI》,是一份写给华盛顿的政策蓝图,它关心的不是“模型怎么变强”,而是当前沿AI继续往前冲,该如何加以约束。 那篇报告里面提到的大多内容不太适合加以赘述,唯独一句话关键:OpenAI说,今天的系统中,已经可以看到递归自我改进的早期迹象。 这句话和Anthropic这篇长文,其实指向同一个方向。 只不过OpenAI在讲制度,Anthropic在讲自己。 OpenAI的意思是:AI发展太快,现有治理结构可能跟不上,所以需要一套新的规则。 而Anthropic直接把那个系统亮了出来,告诉市场:Claude已经进入了我们的研发流程,所以我们看见了AI自我加速的路径。 这一手玩得很高明,感觉OpenAI内部指不定已经开始蛐蛐了——这简直是剽窃创意!明明是我们先来的! 开个玩笑,不过OpenAI确实需要加把劲了,快点把GPT 5.6抬上来吧。
一度电,怎样跑出更多算力?
2026年,一座位于北美的AI数据中心建成前,最先卡住进度的可能不是GPU,而是一根输电线路。 今年1月,谷歌高管Marsden Hanna在一场活动上表示,美国输电系统已经成为谷歌数据中心接入电力的最大障碍。部分地区接入等待时间超过十年,其中一家公用事业公司给出的并网研究周期长达12年。为了绕过输电瓶颈,谷歌正在研究把数据中心直接放到电厂旁边。 一根输电线路,暴露了AI大基建的真实顺序。GPU买到手,机房建起来,却不代表模型可以开始迭代,因为AI基建的重要基础——电网,很难跟着AI公司的节奏同步生长。 相比北美,身为“基建狂魔”的中国,算力网络与电力设施的狂飙突进正在同步上演。国内的数据中心面对的是一道进阶问题:涌入园区的每一度电,怎样更安稳、更高效地“炼”出算力。 算力和电力,已经成为AI数据中心的两条命脉。一条决定智能能不能生成,另一条决定智能能不能持续生产。 算力输出问题,需要能源企业回答 近日,经济学家任泽平在《AI的背后是算力,算力的背后是电力》一文中写道:“随着算力需求指数级增长,未来,电力决定了AI产出上限。” 这样的判断背后,是AI行业开始承认一个事实:GPU像一座座昂贵矿山,但只有矿山不会自动产出黄金。只有将算力层和电力系统、冷却系统统一调度,才能点燃将GPU炼成Token的炉火。 过去几年,AI公司更习惯用GPU数量证明实力。但在下一阶段,算力的利用效率更加重要:同样一批芯片,谁能用更低能耗、更高利用率跑出更多任务,谁才真正拥有核心生产力。 另一边,政策层面已经将这一理念写进指标。 2024年,国家发展改革委、工业和信息化部、国家能源局、国家数据局联合印发《数据中心绿色低碳发展专项行动计划》。文件提出,到2025年底,全国数据中心整体上架率不低于60%,平均电能利用效率降至1.5以下,可再生能源利用率年均增长10%。 算力增长的过程中,效率和可再生能源成了关键点。AI数据中心的主战场,已经从建设端挪到运行端。 《人民日报》今年稍早前刊发评论《AI的尽头是电力,电力的优势靠什么》。 评论指出,AI竞争正在从模型、算力延伸到电力系统,低成本、稳定供电和快速电网调度,正成为中国AI产业的新基础优势。 所以,优化数据中心的算力供给能力,要在宏观层面调控能源侧和算力侧。 在美国,一项研究此前在凤凰城的商业云数据中心完成测试。研究团队调用256块NVIDIA A100GPU运行典型AI负载,并通过软件调度,让GPU集群在电网高峰时降低功率,在3小时内将集群功率降低25%,同时还能维持AI服务质量。 这一过程中,数据中心的身份正在变化。它过去只需要考虑接入电网,如今,算力任务和电力管理必须在一个框架内协同优化。 国际能源署在《Energy and AI》中预测,到2030年,全球数据中心用电量将接近945TWh,约为当前水平的两倍。2024年至2030年,数据中心用电量预计年均增长约15%,是其他部门用电增速的四倍以上。 算力中心越大,电力质量、机房能效、任务调度的平衡管理就更为关键。能源行业需要回答这样一个问题:下一代AI能源节点,应该如何推动算力生产效率的提升? 一度电,怎样变成更多算力 今年5月,国家发改委、国家能源局发布《关于有序推动多用户绿电直连发展有关事项的通知》。文件提出,优先支持算力设施、绿色氢氨醇等新兴产业开展绿电直连,并要求项目按照“以荷定源”原则合理规划新能源装机规模。 “以荷定源”把算力设施推到了电源规划前端,数据中心在建设过程中,现在开始反过来影响新能源装机、线路布局和园区负荷设计。 近日,全国“人工智能+”能源现场推进会在深圳举行。远景作为新能源民营企业,与中国石油、国家电网、国家能源集团、阿里云、腾讯等企业同台发言。 能源生产、电网调度、云计算和AI应用公司坐到同一张桌前,讨论的是同一个命题:AI数据中心继续扩张后,能源系统怎样参与算力运行。 远景科技集团董事长张雷在会上提出开创“AI电力系统”,并把核心问题概括为“AI生产全链路能量管理”。 张雷的观点,直接点出了能源企业在AI产业链中的地位变化。过去,AI竞争更多由模型公司、芯片公司和云厂商定义,但随着“智力生产”与电力系统紧密相连,能源企业已经站在了AI Infra舞台的中央。 AI基建的下一场较量,不看机房数量,而是看算力能不能持续跑满。如今,市场上并不缺少大型能源公司,缺少的是懂AI负荷、懂GPU集群、懂算力任务的AI电力系统公司。 会上,张雷把GPU比作“新的蒸汽机”。他在发言中说:“今天GPU就是新的蒸汽机。这台新蒸汽机的功能一样也是能量的转化,把电力变成智力。” 显然,这台机器“烧”的不是煤,是电;产出的智力,则是撬动下一次工业革命的关键。 在发言中,张雷还提到,大模型大约每6个月重大迭代一次,芯片几乎12个月一个版本,电力系统却是慢变量;而GPU机柜功率正从过去5kW走向未来200kW、300kW。 事实上,正是产业规模的指数级跃迁,把能源系统推到了AI发展的正面。模型和芯片继续提高智能上限,算力中心就像一座持续吞吐电力、热量和任务的AI工厂。 张雷提出,AI电力系统要解决三件事:相同功率带宽下接入更多GPU,相同电量下产生更多智力,相同投资下降低电力成本。 这三件事合在一起,就是AI时代的新成本公式。 功率带宽决定带卡能力,单位电量决定智力产出,长期电力成本决定算力价格。三项同时优化,一座数据中心才算真正高效跑出智力。 以远景为代表的新一代能源企业,已经开始把这套公式搬进现实场景。在赤峰的零碳产业园,正是它交出的第一张答卷。 能源公司,正站在AI Infra舞台中央 在内蒙古赤峰,远景的零碳产业园把“AI生产全链路能量管理”从一句产业判断,推进到了工业现场。 张雷在发言中提到,赤峰把绿色电力、绿色算力和绿色氢氨三类绿色资产放在同一个园区里运行。绿色电力提供能源,绿色氢氨承接可调工业负荷,绿色算力进一步承接AI需求。 显然,这是一座把电力、工业和AI产业重新编排的实验场。 据新华社报道披露,赤峰项目始于远景在赤峰元宝山化工园区投资建设百万吨级绿色氢氨项目,一期工程已在2024年3月投产。 氢氨生产需要连续、稳定的大量电力,风电、光伏出力却跟着天气变化。远景在这里做的第一件事,是让生产负荷跟着电力状态调整。 现场工程师把这套系统形容为“指挥家”:系统检测到风力增强后,会自动提高生产负荷,把更多电力消纳进生产环节。 今年4月,加拿大阿尔伯塔大学团队发布一项建模研究,专门测算AI数据中心“延后执行任务”和“跨区域转移任务”对电网接入的影响。 研究把AI数据中心放进电网扩容模型,比较新增发电容量、运行成本和线路拥塞变化。结果显示,在数据中心所处节点、电网负荷水平、任务可延后时间和可转移范围不同的情况下,AI负荷弹性可降低3%—21%的电网投资和运行成本。 这项研究揭示了全链路能源管理对于AI产业的重要意义,从规划到运营层面,能源和算力层的协同,决定着算力释放的最终效率。 甚至在硬件设施条件不变的前提下,通过运营和管理逻辑上的优化,也可以实现算力输出效率的提升。 今年4月,远景宣布与腾讯在赤峰落地全球首个100%绿电直供的人工智能数据中心(AIDC)。公开信息显示,该项目综合能源成本降低超40%,年减少碳排放可达18万吨。绿色氢氨项目里的负荷调节经验,开始进入AIDC场景。 远景的核心方法论是“算电协同”——让算力主动理解并适配电力的波动,而非被动等待电力供给。 远景发布的AIDC能源解决方案覆盖电网侧、场站侧、负荷侧和控制侧。方案中,构网型储能用于增强供需匹配,氢氨燃机替代柴油发电机,AI储能系统可以替代数据中心UPS备用电池。 张雷在发言中提到,远景通过AI电力系统优化算力任务编排,赤峰园区正是这套思路的落地样本。 这套系统的核心是用EnOS(智能物联操作系统,负责接入和管理能源设备及算力负荷)接入风电、光伏、储能、变压器、氢能电解槽和算力设施,再用“远景天机”气象大模型预测风光出力,用“远景天枢”能源大模型把预测结果转成负荷指令。 过去,AI企业找能源伙伴,最关心的是电价和供给规模。但到了AIDC阶段,这远远不够,因为今天的AI数据中心,必须要在能源系统里重新组织。 赤峰之外,远景还将在乌兰察布推进“远景星河基地”。张雷在发言中提到,这是一个吉瓦级能源系统与算力系统一体化的AI基础设施。 未来,草原深处,会有越来越多这样的场景出现:风机沿着地平线排开,电力从风场进入储能和机房,算力中心和能源基地,正在同一个系统层协同运作。 目前,算电一体化已经进入国家新基建语境。国家层面推动超大规模智算集群、算电协同、绿电直连和“人工智能+能源”双向赋能,背后是同一个产业方向:AI竞争正在和先进能源体系绑定。 国家能源局发布的《中国“人工智能+”能源发展报告2026》给出了一组更直接的数据:2025年,我国已建成42个万卡级智算集群,全国算力中心总用电量达到1700亿千瓦时。全国一体化算力网络八大枢纽节点的算力用电近3年平均增速约39.5%,远高于全社会用电量平均增速。 过去,钢铁、化工、电解铝定义了能源系统里的大用户;今天,智算中心正在加入这张名单,甚至排名愈发靠前。 AI发展的下一阶段,稀缺的不会只是模型参数和数量,而是稳定、低成本、可持续的智能生产能力。 在那场发言中,张雷把“智力生产”解释成能量转化,给能源企业打开了切入AI产业的全新思路。远景赤峰零碳园区的成功案例表明,能源企业,正在成为AI发展终局问题的解决者之一。 回到任泽平的文章,还提到了这样一句话:“未来,谁掌握了稳定、廉价且充沛的电力,谁就掌握了通用人工智能时代的入场券。” 在算电一体化时代,这张入场券不只写着“电力”,而正是张雷所说的“AI生产全链路能量管理”。 如今,站在AI Infra舞台中央的,不仅仅是模型公司和算力厂商。以远景为代表的新一代能源企业,正在参与AI Infra的新规则。
美国企业重新给DeepSeek打钱!登顶美国企业新增采购榜
智东西 作者 | 陈佳 编辑 | 漠影 智东西6月5日消息,企业支出管理平台Ramp于6月3日发布的6月软件供应商榜单显示,DeepSeek位居榜首,成为当月美国企业首次付费采购增长最猛的基础大模型厂商。 Ramp首席经济学家阿拉·哈拉扎良(Ara Kharazian)指出,企业这次并非只是自行部署DeepSeek的开源模型,而是直接向DeepSeek付费、传输和接收数据。一年多前美国企业对DeepSeek的热度是浅尝辄止的尝鲜,这次变成了真实的付费使用。 ▲Ramp 2026年6月热门软件供应商榜单(图源:Ramp) Ramp是一家总部位于纽约的金融科技公司,依托企业信用卡与账单支付平台,每月处理数十亿美元的企业支出,同时按月统计客户首次采购合作的新增服务商并进行排名,借此直观展现新兴市场动向、高速成长企业等行业信息。 这份榜单的统计口径来自Ramp今年推出的供应商数据库Ramp Rate,依托平台上5万多家企业的真实交易,跟踪各品类的市场份额、企业采用率与增长趋势。 更值得关注的是这股回流背后的大趋势。在AI开支不断膨胀、企业普遍收紧预算的背景下,越来越多美国公司正从OpenAI和Anthropic分流,转向开源模型和更便宜的模型,而中国厂商DeepSeek的登顶,只是这条成本线上最扎眼的一个信号。 一、DeepSeek美国企业采用率回升,使用方式出现新变化 DeepSeek并非首次出现在Ramp的榜单上。哈拉扎良写道,去年1月DeepSeek曾经历一轮不大不小的热度,在Ramp AI指数中的企业采用率一度升至0.3%,但随后迅速回落,仅剩约0.1%的美国企业仍在使用。 如今美国企业再度选用DeepSeek,而且据Ramp的支出数据,美国企业是在向DeepSeek直接付费。 这一结果出乎哈拉扎良的预料。让他意外的,不只是DeepSeek重新出现,而是它出现的方式。 哈拉扎良说,这一次美国企业正在直接通过DeepSeek传输和接收数据,也就是说,它们是在直接使用DeepSeek提供的商业服务,而非仅仅运行其开源模型。 不过哈拉扎良也提醒,不宜高估这一趋势的持续性,对企业来说,直接接入DeepSeek存在实实在在的竞争与安全顾虑,这股回流随时可能逆转。 作为对照,在今年4月,Anthropic和OpenAI以34.4%和32.3%的采用率稳居指数前两位,DeepSeek远未对二者构成实质冲击。也就是说,它这次登上的是“相对自身规模增速最快”的突破性榜单,而非绝对采用量榜首,Ramp也并未公布其6月的具体市场份额。 ▲美国企业AI付费采购渗透率趋势图(图源:Ramp) 二、AI支出失控,企业转向更便宜的模型调用方案 回流中国模型只是更大转向的一部分。哈拉扎良说,企业正越来越多地使用开源模型,在一定程度上从OpenAI和Anthropic分流,转而借助第三方平台完成模型部署与调用,他点名了AI推理平台Fireworks AI、fal AI和DeepInfra。 在他看来,这背后是企业管理不断膨胀的AI开支的现实需求。他由此向美国模型厂商喊话,认为对方应当通过更便宜的模型或智能路由(smart routing)来回应这种压力,帮助客户管住失控的AI支出。 与此同时,AI并未横扫所有软件品类。尽管外界一直在讨论Claude会不会取代设计工具,但设计软件Figma和Paper本月双双进入榜单,说明专业设计软件的需求依然稳固。 结语:成本影响企业AI采购选择 哈拉扎良此前就已预判,企业会更多尝试开源模型以及来自OpenAI、Anthropic和谷歌的更便宜(性能稍弱)的模型,只是他没料到美国企业会真的用上中国对手DeepSeek。 对OpenAI和Anthropic等美国模型厂商而言,价格与成本已经成为企业选择的关键变量,在性能与开支之间给出更优解,才能留住正在精打细算的企业客户。
即将IPO的大模型巨头,劝你暂停AI研究
智东西 编译 | 陈佳 编辑 | 漠影 智东西6月5日消息,今日,美国AI大模型公司Anthropic旗下研究机构The Anthropic Institute发布报告《当AI开始构建自身》,结合公开基准测试与此前从未对外披露的内部数据,论证AI已经在加速自身的研发。 Anthropic判断,能够完全自主设计并训练下一代模型的AI“递归自我优化”或将早于多数机构的预判到来。 报告披露,截至2026年5月,并入Anthropic代码库的代码中已有超过80%由Claude编写,而在2025年2月Claude Code开启内测之前,这一比例还停留在个位数。 ▲Anthropic官宣《When AI builds itself》研究报告发布(图源:X) 这种变化同样体现在人均产出上。据Anthropic披露,2026年二季度Anthropic工程师日均交付到生产环境的代码量已达到2024年的8倍。 在衡量模型独立完成任务能力的外部测评中,AI可稳定独立处理的任务时长,也从此前每7个月翻倍提速到约每4个月翻倍。在一项固定的代码提速基准测试中,Claude的表现在一年内从约3倍跳到约52倍。 Claude已经能自己设计实验:在一项AI安全课题上,由它驱动的智能体自主提出假设、设计并跑完全部实验,补上了97%的性能缺口,而两名人类研究员忙活一周只补上23%。在真实科研记录中,Anthropic模型对“下一步该怎么走”的预判胜过人类判断的比例,升至64%。 这些数字串起来,指向一个趋势:人在研发每一环能插手的地方都在收窄。Anthropic坦言,一旦AI生成的代码质量追平人工,人类的工作便会收缩至代码审核环节;而当人工审核赶不上Claude出代码的速度,人本身就成了新技术瓶颈。 它借爱迪生“1%灵感加99%汗水”的说法点明,真正推动前沿技术的大多是那“99%的汗水”——扩容、试错、修复、再跑。而如今这“99%的汗水”恰恰是AI最擅长的,且正被AI快速自动化。 人类暂时守得住的,只剩选题、判断结果可信度、以及在死胡同前及时收手的研究品味。 Anthropic推演了三种情景。其一是现有AI能力全面普及,增长趋势触顶放缓,靠堆算力和数据换不来顶尖研究者的判断力,技术突破或被卡在芯片、电网这类供给侧上。 其二是效率持续复利、但人类仍握着选题权,百人公司能干出十万人的活、知识工作被改写,但同一套能力也可能被用于全民监控和精准舆论操纵。 其三是最极端的全面递归自我优化,AI自己造下一代,研发快慢只由算力决定,人退到监督核验的位置。这一情景下AI价值观与人类深度对齐问题能否解决,是最大变数。 也正因第三种情景风险最高,Anthropic罕见地把这篇报告落在了一个政策诉求上:支持全球拥有“可核验地减速或暂停”前沿研发的选项。 它坦言,单方面踩刹车只会让最不谨慎的玩家追上来、反而更危险,人们真正需要的是一套能让各家彼此确认“对方真的停了”的核验机制。 但难点恰恰在此,一次模型训练远比一座导弹发射井容易隐藏,抢先突破者能独吞领先优势,偷偷违约的诱惑极大。 Anthropic拿耗时多年才建成的《中导条约》作比,直言AI留给世界的窗口远没这么长,并称未来几个月会把政策制定者、研究人员、同行公司等各方请到一起讨论,再公开结果。 报告原文: https://www.anthropic.com/institute/recursive-self-improvement 一、Anthropic划出AI自主研发五阶段,下一代Claude或由Claude自己打造 Anthropic在文中用一条时间线,复盘了AI在其研发流程里一步步从工具走向主力的过程。 ▲AI自主研发演进五阶段 最早的2021到2023年,也就是初代Claude的研发期,Anthropic和任何一家普通科技公司没什么两样:人坐在笔记本电脑前,自己手敲代码、自己写文档。 随后的2023到2025年进入对话机器人阶段,工程师开始借早期聊天机器人打打下手,让它生成一小段代码,再手动复制粘贴回编辑器,AI还只是流程里的一个帮手。 到了2025至2026年的代码智能体阶段,情况变了,智能体已经能自己动手写、自己改代码,有时甚至能独立完成整个文件。 而当下所处的,是自主智能体阶段:智能体不光能自己跑代码,还能把需要几个小时的活儿拆出来、分派给别的智能体去干,人更多扮演调度与验收的角色 Anthropic把最后一个尚未到来的阶段标成“20XX?”,并称之为研发闭环阶段。未来的智能体或许强到能自己搭建、训练模型,到时下一代Claude将由Claude自己持续迭代。 这条线演进路线的终点,正对应着Anthropic反复提到的“递归自我优化”。 二、AI独立完成任务时间快速拉长,多项核心测试逼近满分 先看外部公开数据,Anthropic模型能稳定独立完成的任务时长正快速拉长。这个时长此前大约每7个月翻一倍,如今提速到约每4个月翻一倍。 具体而言,2024年3月的Claude Opus 3只能搞定人类约4分钟的软件任务,一年后的Claude Sonnet 3.7能处理约一个半小时的工作,再过一年的Claude Opus 4.6已能扛起12小时的项目。照这个节奏,今年AI有望胜任熟练工程师要花好几天的任务,到2027年则可能处理人类需要耗费数周的工作。 此外,负责长周期任务测评的METR平台数据显示,针对长周期任务完成能力,Claude Mythos Preview可持续不间断运算至少16小时,性能触及METR现有测试题库的测评上限。基准测试用于量化模型在特定领域的能力表现,当模型得分逼近满分时即判定为测试饱和。 代码与科研类基准测试同样印证该增长规律。考察真实软件工程能力的SWE-bench,会给模型一个真实开源代码库和一份漏洞报告,要它写出既能修好问题、又能通过项目原生测试的补丁。短短两年,Anthropic各大模型的得分就从个位数一路刷到接近满分的饱和线。 三、代码产出曲线两度抬升,工程师日均合并量达2024年的8倍 Anthropic把前沿模型研发拆成工程和科研两块:工程落地环节包含代码编写、算力基建部署与模型训练管控;科研环节则负责敲定实验方向、解析实验数据、筛选后续研发思路。 工程这一端,人类只需给出目标、不必再交代具体怎么做,Claude就能在需求并不明确的情况下自己找出解法。 科研端,面对细则完备的既定实验,Claude落地执行能力已经持平甚至优于资深研发人员。 研发人均产出数据同样印证这一变化:2021至2024四年间,工程师日均入库代码行数长期保持平稳。 ▲工程师单季度代码产出倍数变化 2025年Claude从仅生成代码片段升级至可自主运行代码,无需人类复制粘贴,人均产出开始上涨。 2026年模型实现长周期自主运算后,产出增速再度大幅抬升。 2026年二季度,工程师日均合并代码量达到2024年同期的8倍,核心原因是代码主体由Claude编写,人类仅负责需求统筹与内容审核,不再手动敲码。 Anthropic也给这个数字泼了冷水,代码行数侧重量化产出体量,无法衡量代码质量。Anthropic内部绩效核算不以代码行数为考核标准,研发产出提升纯粹源于员工依托AI批量生成代码。 四、积压任务开始被清空,AI正在释放研发产能 代码产出量的暴增与员工体感层面的效率提升对得上。 2026年3月,Anthropic面向130名研究人员做过一次内部调研:在那些原本就要落地的项目上,受访者借助内部模型Mythos Preview后,自评产出的中位数达到没有任何AI时的4倍。Anthropic坦言实际增幅大概略低于这个自评值,但方向上可信。 Anthropic称,有数据证明,研发人员借助Claude落地了大量原本搁置的工作,包含探索性工具开发、积压已久的代码整改。 2026年4月,Claude一口气提交了800多个补丁,把某一类API报错压到原来的千分之一。负责这个项目的工程师估算,同样的工作量交给人,大概要干四年。因为排查他人留下的遗留漏洞本就费时费力,人也很难一次记住那么多陌生的代码上下文。 甚至有Anthropic员工说,自己已经快五个月没亲手写过一行代码了。 五、开放式任务成功率半年冲到76%,自动审查能拦下三分之一历史线上事故 Anthropic用两条标准衡量Claude代码的好坏:一是功能可用,即能跑通;二是代码可读性与可迭代性,即别的工程师看得懂、接得上。 ▲Claude Code四类任务落地成功率走势 先看能不能跑通。Anthropic说,过去一年,哪怕是没有标准答案、工程师自己也说不清结果该长什么样的开放式难题,中途被人工修正、推翻或接手的比例也一直在降。 到2026年5月,Claude在最高难度的开放式任务上成功率达到76%,半年里涨了50个百分点。 一个典型案例是:某次例行升级让数万个训练任务集体崩溃,工程师只丢给Claude一段故障描述和集群访问权限,模型挨个排查在跑的任务、逐项测试环境参数,最后揪出一个冷僻的调试开关才是元凶,完成复现并确认了修复方案,把通常要两三天的活压进了大约两小时。 在代码可读性与可迭代性方面,该维度AI与人工仍存差距,但差距快速收窄。Anthropic内部看法不完全一致,多数人认为Claude的代码在2025年底还不如人写的,如今大致打平,并预计年内会反超。 基于这个变化,Anthropic改了自己的代码审查流程:所有待合并的改动,先过一道Claude自动审查,专挑漏洞和安全缺陷。 一次回溯分析显示,如果过去每一处改动都先经这道审查,claude.ai历史线上事故背后的漏洞里,约有三分之一本能在上线前被挡下——而写出这些代码的,正是全球最擅长搭建这类系统的一批工程师。 六、训练代码提速52倍,Claude开始自己设计实验、自己判断方向 每出一款新模型,Anthropic都会跑同一道题:给Claude一段训练小模型的代码,要求在通过同样正确性校验的前提下尽量让它跑得更快。目标和验收标准都提前锁定,Claude要做的就是反复改写、运行、计时、再改,本质上是一个微缩版的实验闭环。 2025年5月,Claude Opus 4平均能把代码提速约3倍;到2026年4月,Mythos Preview做到了约52倍——作为参照,一名熟练研究员花4到8小时通常也就提速4倍。 Anthropic提醒,这个倍数很大程度取决于初始代码有多少优化空间,不能当成真实训练场景的提速,真正有意义的是在同一道题上进行人机对比以及新旧模型之间的横向对比。 更进一步,Claude开始能自己设计实验了。 2026年4月,Anthropic公布了首个由Claude驱动的智能体端到端独立完成的开放式课题:让一个偏弱的模型可靠地监督更强的模型。 两名人类研究员耗时约一周,补上了约23%的性能缺口。AI智能体则在累计800小时、约18000美元(约合人民币12.2万元)算力开销下补上了97%的性能缺口。 Anthropic还翻出2026年1到3月的真实协作记录,专挑出129个人类当时走了弯路的节点,只把跑偏前的信息喂给模型、让它预测下一步该怎么走,再请另一个能看到最终结果的Claude来评谁的选择更好。 结果是,2025年11月的主力模型Opus 4.5有51%的判断优于人类,2026年4月的Mythos Preview升到64%。Anthropic强调,这些都是刻意挑出的高难节点,算不上人机判断力的对等较量,但足以用作纵向观察AI研判能力长进的标尺。 七、99%的汗水正被AI自动化,选题判断成了人类的护城河 把这些证据串起来,Anthropic的判断是:在研发的每一环,人能插手的地方都在收窄。一旦AI代码质量追平人工,人类就会彻底退出写码、只剩审核;可万一审核速度赶不上Claude生成代码的速度,人工审核本身就成了新的瓶颈。 实验这边也一样,等Claude能独立跑实验,人要回答的问题就只剩“这些实验里哪个值得跑”。简言之:编码、实验落地、数据产出等执行环节几乎不再消耗人力,仅产生算力开销。 针对“人类的选题判断才是核心、缺了它Claude只是个高级助手”这一常见质疑,Anthropic的回应是:AI的进步很少靠灵光一现。 ▲科研决策对比:Claude方案优于人类的样本占比变化 Transformer、混合专家模型这类范式级突破隔好些年才出一个,中间的绝大多数技术进步来自迭代试错:扩容落地、排查故障、修复优化、反复测试,而这套流程恰恰是Claude的强项。 爱迪生说天才是1%的灵感加99%的汗水,如今这99%的汗水正越来越多地被自动化。 退一步说,就算Claude永远学不会顶尖的科研品味,保守研判现有数据,研发提速的复利效应依旧成立。人类仅耗费少量精力把控顶层选题,剩余全量落地工作交由AI承接,单个研究员可统筹的项目体量成倍扩张。 Anthropic称,眼下人类的相对优势,是选题、判断哪些结果可信、以及在死胡同前及时收手的“研究品味”。 八、Anthropic给出三种未来情景,AI递归自我优化内涵最大变数 顺着这条线,Anthropic推演了三种走向。第一种是增长见顶:现有成熟AI技术在全行业大范围落地,算力与数据扩容带来的性能边际收益递减,增长逐步放缓直至停滞。 靠堆算力和数据换不来区分平庸与顶尖研究者的那种判断力,要破局就得有能取代Transformer的全新架构。技术瓶颈也可能不在模型,而在芯片产能、电网和带宽这些供给侧。 第二种是AI实验室的效率持续复利上涨,但人类依旧牢牢掌握选题和成果判断权。这种局面下,百人公司能干出过去一万甚至十万人的活,知识工作和政务服务被彻底改写;但同样的能力一旦被滥用,也能用于全民监控,或是规模远超任何人类团队的精准舆论操纵。 第三种最极端:AI实现完整的递归自我优化,自己造自己的下一代。届时研发快慢只取决于算力和算法效率,人退到监督和核验的位置,守着一个越铺越大、由AI运行的虚拟实验室。 Anthropic坦言,该场景下对齐问题能否妥善解决是最大变数。 一种可能是AI价值观与人类深度对齐,兼具科研决策能力,自主研发出人类尚未突破的对齐方案,在出现风险时主动暂停迭代。 另一种风险路径是现有偶发的对齐缺陷,随AI自主迭代持续累积、不断恶化,最终人类彻底失去管控,且我们来不及搭建核验工具,无法预判风险走向。 一旦AI能力全面超越人类并渗透全产业链,具备自主迭代能力的AI或将主导全球经济,人力失去市场竞争力后的经济格局无从预判。 但仅靠AI递归迭代,无法瞬间颠覆工业生产、社会组织与市场运行规则:AI无法复刻药物数十年临床积累的真实副作用、无法突破法律章程提前组织选举、无法短期内促成深厚人际羁绊。 即便上游实验室依托算力飞速迭代,普通人感知的社会变革节奏仍受各类现实瓶颈约束。高速自我进化的AI与人类社会、人情、治理体系的碰撞走向,仍是无法预判的未知变量。 九、留给全球协调的窗口并不宽裕,Anthropic主张建立可核验的暂停机制 那该怎么办?Anthropic的态度是,如果能切实放慢这项技术、给治理和对齐研究多争取些时间,整体利于全球安全。但单方面踩刹车只会让最不谨慎的玩家追上来,反而让所有人更不安全。 在没有全球协调机制的当下,各国政府和企业只能在竞争与地缘压力下艰难权衡。为此,Anthropic主张世界应当握有“可核验地减速或暂停”前沿研发的选项,并称The Anthropic Institute会联合各方搭建这样一套核验体系,让前沿玩家彼此能确认对方是真的停了或慢了,也防止有人借协调放缓之名暗中抢跑。 它表态,只要这套体系到位、且其他头部机构也以可核验的方式跟进,Anthropic愿意一同减速或暂停。 难就难在核验本身。一次模型训练远比一座导弹发射井容易隐藏,用的算力和数据又都是通用的,而抢先突破者能独吞领先优势,偷偷违约的诱惑极大。一份站得住脚的暂停协议,还得说清楚什么情况触发、什么情况解除、由谁来裁决。 Anthropic拿《中导条约》作比,指出这类国际核验机制不是没建成过,但基建加互信往往要磨上几十年,而AI留下的窗口远没这么长。 它称,未来几个月会把政策制定者、研究人员、民间机构和同行公司请到一起,专门讨论递归自我优化带来的治理难题并公开成果。这场磋商,AI公司之外的各方也该有一席之地。 结语:当造车的人开始喊“该装刹车了” AI造AI的故事讲到这里,值得玩味的,或许是一家正处在竞速最前沿的公司,主动掀开内部账本,承认自己造出的工具正在以超出预期的速度发展,然后转身呼吁全行业考虑“踩刹车”。 当下的AI竞赛本就是一场谁也不敢先停的博弈,这是典型的囚徒困境,明知道一起慢下来对所有人都好,却没人敢赌别人也会慢。 来源:Anthropic
ChatGPT以梦为笔
OpenAI又更新了“Dreaming(梦境)”功能。 当AI搭配上“梦境”,总会让人想起经典科幻小说的那个问题:仿生人会梦到电子羊吗? AI做梦,到底会梦到什么啊? 可惜,ChatGPT的此“梦境”非彼“梦境”。ChatGPT会不会“梦”到电子羊,取决于你是否在和它的对话中提到过电子羊——毕竟ChatGPT迭代“梦境”功能,实际上就是改进了记忆系统。 这多少让人有点失望。 不过没关系,谈论AI“梦境”的不止有OpenAI。 01 做梦,让ChatGPT有更好的记忆力 关于OpenAI对“梦境”功能的定义,其官方博文的标题已经讲得明明白白:《做梦:更好的记忆力,让ChatGPT更有帮助》。 早在去年4月,OpenAI引入了第一个版本的“梦境”。 ChatGPT的“梦境”功能,实际上就是“记忆”系统,只不过最早期的“记忆”是很机械的。想必AI用户都有经历过,你需要手动告诉AI“记住,给我的回复尽量精简”,它才会储存为记忆、记住你的偏好。 相比之下,“梦境记忆”更为动态,ChatGPT不再只靠你手动保存的记忆,而是会在后台从你的大量历史聊天里,自动归纳出它以后回答你时可能需要的上下文。 OpenAI在官方博文中表示,过去一年梦境信息作为独立的记忆系统,其功能历来都不够完善。 现在OpenAI建立了一种基于梦想而构建的、功能更强大、计算效率更高的内存架构。 全新的梦境系统主要包含三个亮点: 保留有用的上下文; 遵循偏好和限制; 保持信息更新:内存应该反映时间的流逝。 我们一个一个来看。 首先是延续上下文。 你不用每次开新聊天都从零开始自我介绍,也不用反复解释“我是谁、我在做什么、我之前有什么设备/项目/偏好”。只要这些信息之前聊过,ChatGPT就可能在新对话里自动接上。 比如你之前告诉过它你用哪台相机、有什么镜头、平时拍什么。下次你直接问“给我的摄影配置推荐点配件”,它就能按你已有的设备来推荐,而不是像第一次认识你一样重新问一遍。 OpenAI透露,基于梦境的新系统提高了模型回忆相关事实的能力,2024年事实回忆的命中率还只有41.5%,如今已经提高到了82.8%。 其次是关注偏好。 记忆功能的另一个作用,是让ChatGPT更会“按你的习惯说话、按你的限制办事”。 比如你正在计划一次新加坡旅行。出发前两个月,你让ChatGPT帮你做行程。如果你以前已经聊过旅行偏好,ChatGPT就可能知道:你喜欢拍野生动物,不喜欢太热,所以更在意酒店空调;你不爱去吵闹拥挤的酒吧,更喜欢安静吃顿饭。 这些偏好不一定都是你郑重其事说“请记住”的,也可能是你在之前对话里自然提到的。它们大致可以分成几类: 一类是你希望ChatGPT怎么回应,比如“以后别再提Stan”。 一类是你的明确偏好或限制,比如“我是素食者”。 还有一类是能影响推荐结果的背景信息,比如“我住在旧金山附近”。这不只是一个地点信息,它还意味着ChatGPT给你推荐餐厅、活动、服务时,应该优先考虑旧金山附近的选择。 OpenAI说,他们在开发新记忆系统时,重点提升了ChatGPT从过往对话里提取并使用这些偏好的能力。比如,如果一个用户之前说过自己是素食者,那么当他之后让ChatGPT推荐餐厅或制定饮食计划时,ChatGPT应该自动避开不合适的选项,优先给出素食友好的建议。 最后是保持与时俱进。 聊天结束了,时间还在继续走,所以记忆也需要跟着更新。 比如你曾经告诉ChatGPT:“我现在在新加坡,帮我推荐今晚的餐厅。”如果记忆一直停在那一刻,等你旅行结束回到家,它还以为你人在新加坡,就会闹笑话。 “梦境记忆”要解决的就是这个问题:它会随着时间推移,把“你7月要去新加坡”更新成“你2026年7月去过新加坡”。这样一来,ChatGPT就不容易被旧信息误导,也能继续根据你当前的位置、时区和真实状态来回答。 以上都是“梦境”的自动操作,那用户想要“修正”ChatGPT的记忆怎么办? OpenAI为梦境推出了“记忆摘要”。 从记忆摘要中,用户可以快速了解 ChatGPT 对自己的了解,添加或更新个人信息,并指示 ChatGPT 应该在何时提出哪些话题。如果想深入了解某个特定领域,只需与模型聊天即可。 02 AI“做梦”的另一种解法 ChatGPT的新“梦境”,对于用户来说想必是非常不错的迭代方向。这会让用户在和ChatGPT聊天时更省力。 可以想见的是,优秀的记忆系统,会让一款AI产品愈发“个性化”,从而增加用户的忠诚度(迁移成本升高)。 但是正如前文所说,OpenAI将记忆系统的优化取名为“梦境”,多少有点玩弄人类认知了。 这里也可以举例OpenAI的老冤家Anthropic,巧的是后者也有“梦境”。 不过,Anthropic的“梦境”和ChatGPT的“梦境”,虽然名字相似,指向却不太一样。 ChatGPT的“梦境”,更像是在帮一个普通用户整理长期记忆,最终目的是让ChatGPT在下一次聊天时更懂你。 Anthropic的“梦境”,则更像是在帮一个AI代理复盘工作记录。 根据Anthropic的官方文档,Claude的“Dreams”不是面向普通聊天用户的一个前台按钮,而是Claude Managed Agents中的一项能力。 所谓Managed Agents,可以理解为Anthropic提供的托管式AI代理服务,主要用来处理更长、更复杂的任务,比如持续几分钟甚至几小时的代码、研究或企业流程工作。 在这个体系里,“梦境”是一种后台任务。它会拿到一个已有的记忆库,再读取过去1到100段任务记录,从中寻找模式、经验和有用信息,然后生成一个新的记忆库。 这个过程包括验证、去重、重组,也可以根据开发者的指令调整重点,比如只关注某个项目的代码风格偏好,忽略一次性的调试细节。 换句话说,如果ChatGPT的“梦境”像一个私人助理在整理“我该怎么更了解这个用户”,那么Claude的“梦境”更像一个项目团队在复盘:“上一次这个任务怎么做的?哪里踩过坑?下次同类任务应该保留哪些经验?” 这也是两家公司“梦境”概念最大的区别。 OpenAI更强调个人化。Anthropic更强调代理能力。 所以,严格来说,这两个“梦境”都不是真的“做梦”,也不是AI突然拥有了某种神秘的内心活动。它们都更接近一种记忆整理机制,只是整理对象不同:一个整理用户的长期上下文,一个整理代理的任务经验。 当AI产品越来越像一个长期陪伴用户或持续工作的助手时,“记忆”就开始变得重要起来。 过去的AI更像一次性工具,现在的AI则越来越像长期协作者。 所谓“梦境”,说到底不是AI有了灵魂,梦到电子羊这种事是不用幻想了,它实际上是AI开始拥有和理解“过去”。 而一旦AI拥有了过去,它和用户之间的关系也会深入。
奥迪 R8 继任者发布!大 V8+千匹马力,走的却是复古风
2026 年的汽车圈充满戏剧性。 奥迪曾向外界宣告,从这一年起,他们发布的所有全新车型都将采用纯电驱动。然而就在今天凌晨,奥迪食言了,发布了一台搭载 4.0 升双涡轮增压 V8 发动机的混动超跑 Nuvolari。 作为 R8 的继任者,它与兰博基尼 Temerario 共享平台,但其性能数据更令人瞩目,系统总功率达到 1001 马力,零百加速仅需 2.6 秒。 全球限量 499 台的配额,让它的售价飙升至 70 万美元左右——大约是现款小牛的 2.5 倍。 在过去,大众集团内部有着明确的等级壁垒,奥迪在性能参数上通常不会压过同门的兰博基尼,但这一次,他们破例了。 用 1001 马力带你回到八十年代 为了发掘这台 V8 发动机的更多潜力,奥迪把红线转速推到了 10000 转。每当指针逼近红区,高转速带来的声浪会传至车厢,和当下的电车形成强烈对比。 除了内燃机,奥迪用上了三个轴向磁通电机,前轴分配了两个,发动机和变速箱之间布置了一个。 轴向磁通电机的体积远小于传统径向电机,能在有限的空间内提供较高的功率密度。这种前二后一的电机组合,加上高转速的 V8 引擎,把整车的动力提升到了 1001 马力。 在四驱系统的全负荷运作下,2.6 秒就可以把车速从零推到 100km/h,极速则突破了 350 km/h 大关。作为对比,同平台的兰博基尼 Temerario 的总功率为 920 马力。 我们需要一台能够承载奥迪过去百年赛道记忆的机器,没有任何妥协,也没有任何保留。 奥迪运动部门发言人罗尔夫·米歇尔(Rolf Michl)在发布会上这样说道。 外观设计上,奥迪走上了一条与众不同的路。如今的跑车大多被塑造得较为圆滑,用以换取更低的风阻系数。Nuvolari 则回归了上世纪七八十年代的审美体系。 官方主推的车漆颜色被命名为「钛金」,这种涂装在光线下呈现出原色金属的冰冷质感。配合冷峻色调的,是车头方正的矩阵式进气格栅,以及像素化切割的矩阵大灯。 奥迪放弃了人们熟悉的流线型曲面,用生硬的直线构建起一种复古的工业质感。 方正的线条倒也没有拖累空气动力学表现,奥迪表示,他们的工程团队用相应的技术投入,弥补了非流线型造型带来的风阻劣势。气流在那些方正的进气道和散热窗之间穿梭,隐藏在车尾的主动式尾翼在特定设定下,能为车体产生超过 400kg 的下压力。 车内的座舱氛围延续了外观的冷峻感,这里严格遵循着包豪斯学派的功能主义原则。 大面积的哑光材质与 Alcantara 面料包裹了整个中控台和门板。车内没有花哨的氛围灯,也没有尺寸过大的中控屏,方向盘上布满了实体按键和旋钮。设计师为了让驾驶员可以专注于驾驶,甚至省去了车内的杯架。 虽然我也没搞懂杯架和专注驾驶有什么关系…… 总之,在这个座舱里,驾驶员能直接接触到的基本只有物理按键、机械旋钮和起防滑作用的 Alcantara 面料。 Nuvolari 剥离了过去 R8 兼顾城市代步的属性,成为了一款完全面向驾驶而开发的产品。这样的设定,注定了它的受众群体会非常狭窄,也难怪它会限量 499 台。 反正我是不会买的。 奥迪重新走向「运动」 世界上最优雅的曲线,是销量上涨的曲线。 美国工业设计之父雷蒙德·洛威(Raymond Fernand Loewy)在二十世纪三十年代留下了这句话。 当时正值大萧条时期,为了让滞销的普通商品重新流通,工业设计师们推行了流线型设计。他们把原本用于飞机和火车的水滴状外观,套用在电冰箱、烤面包机和吸尘器上。用圆润的曲线包裹商品,能让消费者产生新鲜感,进而买单。 这套方法后来在很长一段时间内指导着工业产品的外观走向。 后来的几十年里,汽车的外形也沿着这条「曲线」发展,跑车的车身线条越来越平滑,目的是降低风阻系数,应对行人碰撞测试,以及照顾大多数人的审美习惯。 但 Nuvolari 换了个活法。 这台全球限量 499 台的超跑完全不需要去考虑大众市场的销量,自然也就不用去迎合主流审美。 奥迪的设计团队选择向二十世纪七八十年代的复古未来主义设计致敬,使用了方正的几何折线、造型传统的百叶窗散热和带有金属质感的涂装。这种机械感明显的车身覆盖件,客观上构成了一道审美门槛,只面向有着特定偏好的买家。 当然,能跨过这道门槛的前提,是买家能付得起 70 万美元的车价。 要支撑起如此高昂的价格,奥迪自然需要拿出相应的硬件和制造工艺。 研发团队在这台车上使用了全新一代的「奥迪空间框架」,整车覆盖件全数换成了碳纤维材质。不过它并没有采用常规跑车流水线上常见的树脂传递模塑工艺,而是引入了 F1 赛车所使用的预浸料热压罐工艺。 这种工艺要求工人手工将预先浸渍了树脂的碳纤维布贴合在模具内部,随后送入专用的热压罐中,在特定的温度与压力下经历漫长的固化过程。 在加工期间,车间设备必须高精度地控制升温与降温的速率,同时维持特定的压力环境。由于系统对环境参数波动的容错率很低,任何细微的偏差都会让整块碳纤维部件面临报废。 这样的加工方式自然限制了它的产能,高昂的时间成本与材料损耗让这台车无法进行大规模量产,而这本身,也构成了 Nuvolari 高昂售价的基础。 内燃机在我们的品牌基因中依然占据着位置,谈论赛道性能与驾驶情感时,我们需要这台 V8 引擎在场。 奥迪技术负责人在发布会后的媒体采访中坦言。 奥迪如今对超跑和混动技术的持续投入,与他们在赛车运动上的战略布局紧密相关。 今年是奥迪以厂队身份进军 F1 的第一年,奥迪不仅需要通过赛事来向外界证明自己的工程研发实力,同样也需要给整个品牌的高性能形象输出技术资本。 在一个民用车市场逐渐走向电动化的时期,如果缺少了顶级赛事的参与,老牌车企很难在车迷群体中维持原本的技术号召力。Nuvolari 的推出,正好呼应了奥迪在 F1 赛场上的高调姿态。 面对全新的 F1 动力单元规则,赛车对混动系统输出比例和能量回收效率提出了更高的技术指标。奥迪既要通过顶级赛事来验证自己的电气化与材料工程实力,同时,也需要一款旗舰产品将这些赛道技术转化为品牌资产——Nuvolari 便是这种战略下的产物。 他们的野心并不止于顶层的限量超跑。 据 Carscoops 报道,奥迪近期在测试一款纯电小跑车,它很有可能就是奥迪 TT 的继任车型。这辆小跑车将与即将推出的保时捷纯电 718 Boxster 共享同一平台,但轮距要比后者更宽,动力表现也很有可能会更强。 显然,如今的奥迪,正在将品牌关键词由「科技」转向「运动」。 1981 年,奥迪带着初代 Quattro 制霸世界汽车拉力锦标赛,那是奥迪第一次在全世界车迷面前建立起硬核的运动形象,「Quattro」也自此成为了奥迪的金字招牌。 时隔四十多年,奥迪又走上了这条路。虽然这条路如今不一定走得通,但至少在今天,Nuvolari 用硬朗的金属折线和万转 V8,为奥迪留下了一个足够硬朗的背影。
WWDC前夕!苹果批准首个iMessage AI智能体,发短信就能控制家居、回邮件
智东西 编译 | 田忠婷 编辑 | 程茜 智东西6月5日报道,今日凌晨,美国硅谷AI agent(智能体)初创公司The Interaction Company of California开发的AI agent——Poke正式通过苹果审核,成为首个进入Apple Messages for Business平台的第三方AI agent。 ▲ Poke官宣成为Apple Messages的AI agent推文(图源:X) 距离WWDC 2026开幕仅剩数日,这一消息使得苹果在AI生态上的动向再次引发关注。与系统内置的Siri相比,Poke更强调跨平台执行任务,它可以通过在iMessage上发送信息,帮助用户完成日程安排、邮件处理、图片生成、智能家居控制等操作。因此,Poke或许与即将发布的AI Siri互为补充,为iPhone用户提供了更加多元化的AI使用体验。 外媒Appleinsider称,这是苹果首次允许第三方AI agent进入其原生通信体系。 一、“短信式”AI,无需下载App,AI即刻执行任务 使用Poke时,用户不需要下载APP。正如Poke的核心理念“AI as easy as sending a text”,让使用AI像发送短信一样简单。Poke的定位并非传统聊天机器人,而是一个执行任务的AI agent。用户只需通过iMessage发出请求,即可完成日程管理、邮件处理、智能家居控制等具体任务。 它可以协助用户安排会议或聚餐时间、整理和回复邮件、设置待办事项和提醒、总结YouTube视频内容、生成二维码、处理航班值机与机票监控,甚至进行图片生成与编辑。此外,Poke还支持Philips Hue灯光和Sonos音响等智能家居设备控制。 ▲ Poke功能展示(图源:X) 在跨平台执行任务方面,Poke已接入多种第三方服务和硬件平台。其中,办公与生产力工具包括Gmail、Microsoft Outlook和GitHub;健康与运动平台包括Oura Ring和Strava;企业差旅服务则支持Navan。此外,Poke还能够连接Philips Hue智能灯光和Sonos音响等智能家居设备,实现跨平台任务调度。 ▲ Poke跨平台调度(图源:X) 此前,Poke已经接入SMS、Telegram以及部分市场的WhatsApp,如今接入iMessage后,Poke进入苹果的原生通信体系,覆盖用户范围进一步扩大。 虽然Poke和Siri都是iPhone上的AI助手,但在定位和能力方面存在明显区别。Siri是系统助手,深度嵌入iOS系统,能调用电话、短信、闹钟、系统设置及快捷指令等功能,其优势在于系统权限和生态整合。 Poke则更侧重跨平台任务协调,它连接外部服务与应用生态,重点在于执行用户任务而非系统控制。两者在部分场景功能有重叠,但并不构成直接替代,更像是不同层级的互补。 二、硅谷十人小团队,融资千万美元,估值约20亿元 Poke的开发公司The Interaction Company of California成立于2024年,总部位于硅谷帕洛阿尔托,由Marvin von Hagen与Felix Schlegel联合创立。 Marvin von Hagen毕业于慕尼黑工业大学,曾在麻省理工学院(MIT)从事AI相关研究,Felix Schlegel同为慕尼黑工业大学出身,学习计算机专业,先后在剑桥、斯坦福开展科研,曾获得WWDC苹果奖学金。二人早年在校园科创赛事结识、长期搭档创业。 ▲ The Interaction Company of California CEO Marvin von Hagen(左)和CTO Felix Schlegel(图源:Poke) 目前该公司成员约有十人,2025年该公司完成1500万美元(约合人民币1亿元)种子轮融资,2026年4月又获得1000万美元(约合人民币6800万元)追加投资,总融资约2500万美元(约合人民币1.7亿元)。目前,该公司投后估值约3亿美元(约合人民币20亿元),其投资方包括General Catalyst和Spark Capital等知名机构。 三、AI身份明确,界面规范,Poke进入iMessage 作为首个进入Apple Messages for Business的AI agent,Poke此前已经通过苹果的一系列严格审核。 首先,用户在使用Poke时要清楚地知道自己在和AI对话,而不是误以为在和真人客服交流,即AI身份要明确标识。 其次,它在iMessage中的界面设计必须符合苹果的风格,例如消息里的链接要显示预览卡片、按钮样式和整体布局要和苹果原生应用一致,确保用户体验统一顺畅。 此外,Poke还需要向苹果提供所使用消息服务的可靠性证明,保证信息传输安全可靠。Marvin回忆,这整个审核过程花了好几个月。 Marvin说,Poke需要向苹果支付按用户计费的平台费用,具体价格未公开,但其称价格明显低于Meta AI在WhatsApp上的收费水平。在WhatsApp上,第三方AI agent需要通过Business API接入,而Meta采用按消息和对话类别计费,这意味着AI每处理一次用户请求,都可能产生平台费用,成本随着使用量上升。而苹果的收费模式既可能为苹果创造新的收入来源,也能让AI agent初创公司在分发环节考虑成本控制。 结语:AI Siri即将登场,第三方Agent先拿到苹果生态入场券 与过去AI产品侧重解决信息获取和内容生成不同,Poke尝试通过短信交互直接完成实际任务,例如预约、发邮件、安排日程等,从而提升用户工作效率。作为iMessage中目前唯一一款AI agent,Poke可以跨平台调度并执行任务,未来或可与AI Siri互为补充,为用户提供更加多元且化且便捷的AI体验。 尽管苹果尚未公布更多关于第三方AI agent的规划,但Poke进入Apple Messages for Business释放了一个信号,即第三方AI agent正开始获得进入iPhone核心应用场景的机会。未来若苹果逐步开放更多接口,用户在iPhone上选择不同AI agent的可能性将增加,iPhone AI生态或将从单一Siri助手逐步走向多元化。 来源:Appleinsider,TechCrunch
盘点YC最新24个创业公司,发现了AI的下一个方向
AI应用风向标(公众号:ZhidxcomAI) 编译|毕伟豪 编辑|漠影 智东西6月5日报道,过去二十年,作为世界著名的创业公司孵化器,Y Combinator(后简称YC)中孕育了太多影响整个行业的创企,包括Airbnb、Stripe、Coinbase和Instacart等等。 但比产出独角兽更值得关注的,是它作为行业风向标在讲述一件事:硅谷最聪明的一批人正在把钱和时间砸向哪里。 纵观今年YC这一批初创公司的名单,一个趋势呼之欲出:AI的上一个阶段是造更聪明的模型,而下一个阶段,是让智能体能在真实商业环境里落地。 当AI Agent从Demo走进生产环境,面临的是一连串新问题:Agent需要记忆、身份、合规、监控、验证、企业系统接入,还需要能支撑规模化运行的算力、网络和能源基础设施。 这一批YC公司,盯上的正是这些,越来越聪明的模型已经不够了,可靠性、信任度、基础设施和实际部署这些问题,是Agent商业化落地的新挑战和新机遇。 一、成本、可靠性和记忆,让Agent真正走进企业 创业公司ReasonBlocks解决的就是成本与可靠性,这是企业引入Agent最头疼的问题。它的思路不是造新模型,是让现有模型更实用,平台把Agent以前运行中成功的推理模式存下来,注入到后续工作流里,帮Agent避开重复错误,同时大幅降低Token消耗。 ReasonBlocks报告称,在SWE-Bench Pro(该公司研发的智能体平台)上,同样的底层模型,Token用量降了52%,准确率提了42%。 CEO Sajeev Magesh说了一句很实在的话:“生产环境里的AI Agent又贵又不可靠,公司每个月花费高达六位数美元,而这些系统仍然频繁失效,难以信任。” 如果说ReasonBlocks想做的是“让Agent便宜还不犯错”,那Memory Store面向的就是另一个更底层的问题:让Agent记忆更稳定。 创始人Ishita Jindal和Diwank Singh在2018年因为对电影《她》的共同痴迷认识,后来通过开源平台Julep做了几千个Agent,发现这些Agent会反复忘记上下文、重复犯同样的错。于是出来做了Memory Store,让人类和AI Agent共享一个记忆层。 Jindal的判断是:“未来区分公司的不再是执行力,是它知道什么别人不知道的东西。” AgentPhone这家公司很有意思,他们想给每个Agent配一张身份证。创始人Meet Modi直言:“每个人都有一个电话号码。这是世界识别你、联系你、信任你的方式。AI Agent还没有这个。” Runtime则是专注于企业基础设施部署,他们所做的事情是整个AI Agent行业最不光鲜靓丽的环节:让Agent真正走进企业内部。创始人认为,下一代AI的赢家,是那些让模型能以足够可靠的姿态进入真实生产环境的企业。 Agent上线前还有最后一道关:安全验证Arga Labs做的正是验证层工作。它建了一套数字孪生环境,企业在上生产环境之前可以在里面安全地测试AI Agent。 创始人Phillip Li说了一句反直觉的判断:“大多数人认为AI越聪明,需要的测试越少。我们正好相反,Agent能力越强,它犯错的代价就越大。” Agent跑起来了,下一个问题是它出了事怎么办。Sazabi在做AI原生的可观测性平台,自动化事件检测、根因分析和响应,负责企业代码安全维护以及报错提醒等方面。 创始人Sherwood Callaway是两届YC老人、a16z scout,之前在Brex建了多年基础设施。他的观点是“监控已死,未来是Agent驱动的自动警告。” 有意思的是,Sazabi的融资方式也不走寻常路,没靠少数机构投资人,而是集结了100多个天使投资人,包括Browserbase、LangChain、Graphite、Daytona这些公司的创始人和工程负责人,相当于把AI开发者工具圈最核心的一批人全拉上了船。 二、不是做软件,要做AI打工人 基础设施搭好之后,更激进的问题来了:Agent到底能不能替代人类?有几家公司把边界推得更远,要直接替代一整类岗位,而不是给现有岗位提效。 Dayjob的故事最能说明这种思路的转变,创始人花了18个月给垃圾处理公司做软件,结果发现客户真正要的根本不是软件,每天早上,运输调度员花几个小时手动排路线,排完后路况一变全白干。 创始人George Postlethwaite说他们终于醒悟了:“我们停止做软件,开始做AI工人。”现在Dayjob的Agent可以在几分钟内重建复杂的物流排班。 这种思路正在从物流蔓延到营销,Revnu的创始人George Jefferson在大学宿舍里用AI自动跑增长实验,从软件开发到客服全自动化,最后发现增长和营销这块效果最好。 他说:“AI已经自动化了软件工程,下一步是自动化增长。”现在Revnu在做能自己跑增长实验、衡量结果、优化投放的系统。 如果说Dayjob和Revnu是在替代具体岗位,那Modern的目标就是替代一整个企业服务平台。它对标的是ServiceNow,但思路完全反了过来,直接从底层就围绕Agent重新搭建。 创始人Seb Poole的判断是:“企业软件一直是追踪系统,真正干活的是人。”Modern的Agent设计目标是自主解决服务台工单,在可审计的确定性工作流内运行。 三、走进物理世界:B超、机器人、空中交通管制 从软件世界往外跨一步,这批里还有几家公司在追求让AI走进物理世界。 Lumius做的是“人体的3D相机”,把AI、计算和医学影像结合,让B超更容易解读和使用,从临床诊断到手术机器人,应用场景跨越很大。 Avea Robotics解决的是机器人落地中最无聊但最贵的问题:机器人遇到故障时让人立刻远程介入,减少停机时间。这个问题在工厂和仓库的流水线里非常重要,因为哪怕很小的故障率都要付出巨大的成本。 General Aviation直接上天了,他们用Starlink低轨卫星将飞机直接连上互联网,建了一套新的空中交通管制系统。这个想法几十年前就有,但有了Starlink之后才真正开始可行。 四、AI进企业的最后一公里:传统桌面软件的Agent接入 物理世界难,但有时候企业软件更难。Forbes提到了这样一个数据,70%以上的财富500强公司还依赖于没有现代API的传统桌面应用。 这种应用在接入AI的过程中非常困难,替换成本高、风险大、很多时候根本不现实。AI再聪明,解决不掉这些老系统就进不了大部分企业的核心流程。 Minicor盯上的就是这个缺口。它让AI Agent通过智能桌面自动化直接与这些老系统交互。用确定性代码加Agent工作流,在不替换现有基础设施的前提下创建、监控和修复自动化流程,无需企业替换系统,YC期间它的月经常性收入翻了三倍。 Minicor的收入增长说明了一个巨大的机会:最大的AI机会不是替换旧系统,是让旧系统能被AI使用,这个逻辑在这批创业公司中反复出现。 五、合规、保险、经纪人,让企业愿意信任Agent 系统打通之后,信任问题就浮出水面了。一旦出现错误,谁来负责?这批次里有几家公司正在回答这个问题。 Complir把AI带进了合规领域,CEO Gustav Bang说:“合规,这词无聊到让人犯困,但它是这十年最重要的基础设施之一。”合规行业目前还严重依赖PDF、电子表格和人工审查,而这些正是Agent所擅长的。 如果说合规是事前预防,那保险就是事后兜底。Klaimee在做专门给AI Agent的保险,目前传统保险产品保护的是人和计算机系统,不包括能自己做决定的自主软件。创始人认为Agent的崛起会创造全新的风险类别,需要全新的保险品类。 有了保险产品,还需要有人帮企业选,Kinro就在做AI原生的保险经纪人,核心业务是帮小企业选择保险方案、进入市场和持续管理保单。 六、算力、能源、冷却:AI背后看不见的基建 往上走了这么久,得回到最底层看一眼。所有Agent、所有模型、所有企业应用,最后都要落到服务器上。而有些YC创业公司发现,服务器层面欠的债可能比软件层面更大。 Expanse发现了数据中心的巨量闲置算力。CEO Ismaeel Bashir说:“全球一半算力正在被浪费。”他们在单个数据中心里发现了几百万美元的闲置容量,于是做了一个平台来识别和重新分配这些资源。 就算把所有闲置算力都用上,现有的计算架构可能还是不够。ProjectX的判断更底层:现代操作系统从来不是为人类和AI Agent同时工作的场景设计的,需要全新的计算架构。 如果说算力是上限,能源就是地基。Apollo Atomics在做紧凑型核反应堆的商业化。创始人Assil Halimi在核工业干了十多年,他认为:“这个行业最大的障碍不是物理,而是工程落地。”YC期间,Apollo从单一商业协议扩展到了超过20GW的合作意向和伙伴关系。 与此同时,Madrone正在解决散热问题,创始人估计一个数据中心约有30%电力消耗在散热上,YC期间Madrone把散热产能提升了100倍,正在加速量产。 七、金融、招聘和开发者内容,AI进入垂直行业核心圈层 基础设施讲完了,最后一个视角是垂直行业,一批公司正在把AI引入具体赛道,其中几个切入角度很有意思。 MochaTrade让印度交易员能接入美国金融市场的永续合约。创始人Utkarsh Sinha说:“我们做MochaTrade是因为受够了被当作想交易的市场里的二等参与者。”这话背后是一个被忽视的全球市场缺口。 KelAI的切入点完全不同,它是把AI引入投资研究这个高度依赖人力的环节。创始人Jeremie Cohen在WorldQuant做了六年,想研究持续自我进化的智能投资分析系统,加速投资想法从产生到验证的过程。 从投资到招聘,这个跨度看起来很大,但Asendia AI遇到的行业问题和前面公司本质上是一样的:大量重复性劳动困住了理应做判断的人。 创始人Rihab Lajmi说了一句很有个性的话:“我们不是招聘行业出来的,我们是被一个烂透了的流程气进来的。”进YC前,他们花了几个月跟着招聘人员和猎头公司实地观察,看到的是被电子表格、人工外呼和重复行政工作困住的行业。 除了这些传统行业,Manicule也值得一提,两个创始人只有18岁,做的事是帮以开发者为核心创业公司建立信誉并触达技术受众,在AI内容泛滥的时代,这对18岁的创始人赌的是高质量技术内容和开发者教育会越来越值钱。 结语:YC新一批的创业公司,关注的是未来的一切 过去几年AI竞赛的定义是更强的模型、更好的基准测试、更强的系统,而这批YC创业公司所关注的方向表明,下一个挑战不是创造智能,是落地。 Agent要进入真实商业场景,需要一套全新的基础设施层。与此同时,物流、招聘、医疗、金融、航空、制造业这些变化速度本来很慢的行业,也正在被AI从不同的角度渗透。 这些公司能不能成功没人知道,但他们走的路,或许就是Agent未来的方向。 来源:Forbes
三大巨头兜底!苹果、谷歌和英伟达联合助阵:iOS 27 AI稳了
科技媒体爆料,苹果即将上线的iOS 27系统将对Siri进行重大AI架构调整,部分用户复杂AI查询不再局限苹果自有算力。 会经由Google Cloud接入谷歌授权版Gemini大模型,相关云端运算任务统一交由谷歌侧部署的英伟达Blackwell B200高端GPU集群完成推理运算。 长期以来,苹果始终以隐私优先为核心准则,为Siri规划本地端侧+自有私有云双轨运行方案,基础语音指令、简单查询等轻量化任务依靠终端本地小模型处理,用户数据留存设备本地,契合苹果一贯隐私产品理念。 但伴随生成式AI迭代,Siri新增长文本总结、多模态综合问答等高算力需求功能,苹果自建私有云算力储备无法承接全量万亿参数Gemini模型运行,服务器承压显著,苹果最终敲定跨企业算力合作方案,分流复杂Siri请求至谷歌云端。 本次合作的算力硬件Blackwell B200隶属于英伟达新一代Blackwell架构数据中心GPU,产品定位面向超大参数大模型训练与云端推理,是当前商用AI基建里的高端算力载体,能够高效承载Gemini这类万亿级参数大模型实时运算需求。 为化解数据出境带来的隐私安全隐患,苹果同步落地英伟达硬件级机密计算技术,该安全机制可在B200芯片处理用户数据全程实现硬件加密。 英伟达官方介绍,机密计算能够保全Blackwell、Hopper等全系旗舰GPU承载AI模型的信息完整度,实现敏感用户数据在第三方共享云环境安全流转,最大限度弥补数据跨平台传输的隐私短板。 目前该方案处于落地筹备阶段,完整Siri AI功能预计伴随iOS27正式版推送上线。 编辑点评: 苹果放下自研执念、联动谷歌与英伟达,是AI军备竞赛下务实的取舍。死守全自研与本地隐私路线已难跟上大模型迭代节奏,端云混合+第三方加密算力成现阶段最优解。 此举既快速补齐Siri智能短板、缩短产品落地周期,也印证手机巨头自研大模型短期内难以一蹴而就,未来终端 AI“自研+外部算力采购”或将成为行业常态化选型。
对话Arm边缘AI事业部执行副总裁:多款智能体PC都用Arm,预告与腾讯游戏合作
智东西 作者 | ZeR0 编辑 | 漠影 智东西6月5日报道,今日,Arm边缘AI事业部执行副总裁Chris Bergey在京与智东西等媒体分享了Arm在Computex 2026期间的发布,以及在中国看到的一些新应用及进展。 Chris Bergey分享说,Arm发布针对云数据中心的自研芯片产品完全是由客户需求驱动,就跟过去亚马逊、微软等云巨头都找到Arm,希望Arm能提供推出针对数据中心的IP产品或是CSS计算子系统平台一样,这次也是因为客户的需求才开启了Arm自研AGI CPU的契机。 Arm从早期遍布低功耗设备到逐渐拓展至数据中心,在物理AI领域也有了很多新进展。如今Arm AI计算平台已积累2200万开发者。 AI将重新定义计算,智能体将非常依赖CPU。Arm的优势在于功耗和性能密度,通过在CPU中塞进更多核心,可在有限功耗范围内交付出色性能。其生态系统也聚集了很多创新者。 AI正在重塑PC领域。个人计算机设备将有传统PC形态和更新颖的物理形态。对于传统PC,要求有全新续航、摄像头、随时能开电话会议,还有一个本地部署的AI助手来帮助解决问题。现在的传统PC更像一部大型手机加一个键盘,打字更方便。 一些新兴智能设备的需求也应运而生,就是下图右侧这些新产品,尚处于比较早期的阶段。未来PC将是全天候在线的,在用户没使用的情况下,智能体依然可以运行。对计算平台的要求也变得更高。将智能体部署在本地的好处是,可以保护个人隐私信息。 很多PC新玩家带来了新的产品及功能。未来AI PC将采用混合AI模式,通过本地AI与云端AI协同,制程创意及生产力需求。下一代PC是为智能体设计的,人一天用PC的时间有限,但是智能体可以做到全天候使用,这需要的吞吐token量非常大。 苹果MacBook Pro、苹果Mac Mini、英伟达DGX Tower、英伟达RTX Spark、此芯科技CIX Claw Station等智能体设备均采用Arm平台。 “Arm是唯一的AI计算系统可以覆盖这些系统,从Chrome、Windows、iOS到Linux。”Chris Bergey说。 英伟达新推出的RTX Spark超级芯片非常有吸引力,它的CPU由英伟达、Arm与联发科合作开发,集成了20个基于Arm架构的CPU核心,同时采用英伟达Blackwell RTX GPU,提供128GB统一内存、1PFLOPS FP4 AI算力。搭载该芯片的笔记本电脑将在下半年落地,非常适合用于游戏及AI相关工作负载。 Chris Bergey解释说,之所有设计这么多的CPU核心,是为了支撑后续会用到的很多智能体验。 在中国,此芯科技同样基于Arm架构研发芯片产品,面向智能体PC。Chris Bergey谈道,Arm非常愿意与中国合作伙伴一起,帮助他们设计自己的芯片。 Arm针对PC推出了CSS(计算子系统)——Arm CSS for PC,比如英伟达RTX Spark就是基于第一代Arm CSS for PC 的产品,第二代也将很快提供给客户。Chris Bergey透露,下一代CSS在CPU性能密度、AI、安全等相关能力上均有提升。 在新一代CSS for PC中,Arm会针对PC应用开发很多独特的新功能。他看到很多中国设备厂商也对这一平台表达了兴趣。 在智能体时代,Arm更加关注开发者,并在本周与微软联合发布一个开发者项目Arm AppReady for Windows,以便开发者更便捷地开发更多Arm原生应用,推动Windows on Arm生态系统进一步升级。 游戏方面,Arm与腾讯游戏MagicDawn团队紧密合作,开发下一代游戏MagicDawn深度适配2026最新一代Arm GPU及其内置的先进AI加速器,合力赋能移动端游戏的AI渲染。 Chris Bergey认为,智能体时代变化最大的不是硬件设备形态,而是用户交互方式。 他相信,个人计算设备对CPU的能效和性能等需求越来越高,英伟达RTX Spark将起到一个很好的示范作用。Arm正在联手合作伙伴,针对用户未来需求,去做相关研发和发展生态系统。
商汤SenseNova-Skills来了,全套办公技能:精美PPT直接交付
智东西 作者 | ZeR0 编辑 | 漠影 智东西6月5日报道,今日,商汤科技宣布开源办公技能体系SenseNova-Skills。它依托Agent Skills标准,将各行业知识与办公流程封装成可随时调用的工种手册,让AI实现“自动跑完工作流、直接交付成品”。 过去用通用大模型做数据分析,大多数时候大模型只能回复建议怎么做,很多细碎的实操工作还是得由用户自己来。商汤科技则试图为用户提供一个能把工作全流程跑完、直接交付成品的数字化同事。 以下四个真实的高频办公场景,完整拆解从数据→分析→报告→PPT的端到端闭环全链路。从一条指令或一份数据出发,完整呈现直达可汇报、可落地的交付物的全链路结果。 产品体验入口:https://xiaohuanxiong.com/ 开源地址: https://github.com/OpenSenseNova/SenseNova-Skills/ 一、办公数据分析:告别万行大表,一键输出“可开会决策报告” 案例:风电事业部月度绩效数据表 → 全维度绩效分析报告 Prompt:根据我上传的风电事业部月度绩效考核表,生成一份员工绩效分析报告,包含总体情况、趋势变化、岗位对比、个人表现和改进建议,并用图表展示关键结论。 输入文件:2024.12-2025.09共10个月脱敏绩效考核汇总表(多Excel文件) ▲绩效考核表部分数据 ▲绩效考核表全部文件 安装了SenseNova-Skills技能集后,依托sn-da-excel-workflow数据分析技能,你的智能体AI就能自动启动全流程处理:先完成数据校验、空值与异常数据清洗,再分层统计月度考核人数、得分区间、岗位绩效、员工个体表现,自动生成各类统计图表,最终输出带完整目录、数据分析、优化方案的正式Word报告 + HTML可视化页面。 报告包含五大板块:全周期数据概况、月度绩效波动趋势、38个岗位绩效分层盘点、高低绩效员工画像、持续进步人员复盘。精准标注不合格率超80%的高危岗位(岗位31、13、4等),配套专项培训、资源优化等落地管理建议,所有趋势图、岗位排名图表自动生成,报告内容可直接用于部门管理例会。 核心技能亮点: 1、海量文件自动分块流式读取,上万行数据不会内存溢出、程序卡死; 2、支持图片表格OCR识别,截图里的数据也能提取汇总分析; 3、分析结论落地具象化,不只罗列数据,同步输出管理优化落地建议。 以下是成果: 二、全自动深度研究:数据冲突自动甄别,产出可溯源行业报告 案例:一句话调研需求 → 跨境电商全维度专业报告 Prompt:请围绕《2024 年以来中国跨境电商行业的发展变化》完成一份专业分析报告,重点评估平台格局、商家经营压力、AI工具应用、主要机会与风险,并输出一份结构清晰、结论明确、带可视化展示的报告。 依托SenseNova-Skills技能集的sn-deep-research深度研究技能,AI可以在无数据内容输入的情况下,直接输出带丰富图表、可溯源的可视化报告——“2024中国跨境电商行业发展深度研究报告”。 SenseNova-Skills遵循了「先搭建分析框架→分维度定向取证→多源数据交叉核验→整合归纳结论」标准化研究路径,无需原始文件,只需输入一句话指令,就能自动完成深度行业调研,并且引用权威来源,避免了漫无目的全网抓取。 它的sn-deep-research深度研究技能,在面对海关总署(2.63万亿监管口径)、网经社(17.66万亿全产业链口径)两组差异数据时,工具自动区分统计规则、标注口径差异,说明数据互补而非冲突;针对Temu、TikTok Shop是机遇还是行业隐患的行业争议,能够从入局新商家、存量老卖家双视角拆解利弊。 报告围绕行业规模、平台格局、商家经营成本、AI落地渗透率、地缘合规风险五大核心维度展开,配套十余张数据统计图,所有调研信息溯源海关、行业白皮书、权威平台公开数据,标注数据源清单,内容严谨可用于投资研判。 核心技能亮点: 1、覆盖学术库、行业平台、权威媒体多源检索,调研过程可存档、支持断点续跑; 2、自动辨析统计口径分歧、行业观点矛盾,避免报告数据错误; 3、从零散资讯收敛成结构化研判结论,杜绝信息杂乱堆砌。 以下为成果: 综合成文时,它把各维度的证据收敛成几条清晰的主线判断:行业正从野蛮生长转向高质量发展、平台格局呈“一超多强”、“内卷”成为商家年度关键词、AI工具渗透率快速提升但尚未成为核心竞争力、地缘政治与合规是最大风险。 最终产出的是一份带数据、带图表、结论自洽的行业研究报告——而不是一堆互不相关的要点。 这种把一句模糊的“调研一下X”,变成了一种先规划、再执行、证据可查的工作方式——这就是靠谱研究和糊弄之间的分水岭。 三、多技能串联:从一个想法,一步直达商业PPT SenseNova-Skills采用模块化设计,数据分析、深度调研、PPT生成三大技能可自由拼接组合,一条需求即可完成「信息搜集 – 数据分析 – 文案撰写 – 排版制图 – PPT 导出」全链路,全程无需跨软件复制粘贴。 案例A:25万预算新能源SUV选购指南——12页理性决策PPT 背景:用户25万预算选购家用新能源SUV,覆盖城市通勤+周末自驾,横向对比多款热门车型。 Prompt:请制作一份12页中文PPT,主题为《25万预算,新能源SUV到底怎么选?》。设定:用户准备购买一辆25万元以内的新能源SUV,主要用于城市通勤和周末出游,关注续航、安全、智驾、空间、保值率、售后和真实用户口碑。要求: 1. 深度调研主流新能源SUV的价格、续航、智驾能力、安全配置、空间表现、售后政策和用户口碑。 2. 比较特斯拉Model Y、比亚迪宋L/唐DM-i、小鹏G6、理想L6、零跑C10/C11、问界M5等车型。 3. 建立购车决策评分模型,给出稳妥型、智能化优先型、家庭舒适型、性价比型推荐。 4. PPT需要包含:车型对比表、评分雷达图、价格续航对比、智驾能力对比、推荐矩阵、最终建议。 5. 风格要求:清晰、现代、适合家庭讨论,避免广告感和过多专业黑话 SenseoNova-Skills通过全网搜集车型配置、落地售价、车主真实口碑、售后政策,生成六维打分雷达图、价格续航对比表,同时按照稳妥家用、智能优先、性价比、舒适取向四类划分选购方案,交付一份完整的“新能源SUV选购指南PPT”,无硬广话术,适合辅助决策沟通。 以下是成果: 案例B:城市夜间消费推荐|都市氛围风PPT 背景:分析年轻人夜间消费和夜宵选择,帮助用户在不同场景下找到合适的夜宵去处。 Prompt:以南京为例,分析年轻人夜间消费和夜宵选择,制作一份中文PPT,主题为《晚上10点以后,城市里哪里还能吃到真正好吃的夜宵?》。要求: 1. 构造一份夜宵门店示例数据,字段包括:店名、品类、人均价格、营业时间、距离、评分、排队风险、适合场景。 2. 分析烧烤、火锅、小龙虾、面馆、便利店、甜品等夜宵品类的特点。 3. 输出不同人群推荐: 下班太晚型; 演唱会散场型; 情绪崩溃想吃点好的型; 朋友聚会型; 省钱续命型。 4. PPT需要包含:夜宵品类对比、场景推荐矩阵、价格分布图、夜间消费动线图。 5. 风格要求:烟火气、年轻化、深色背景、带一点城市夜生活氛围。 生成的11页年轻夜间都市氛围风格PPT——“晚上10点以后,城市里哪里还能吃到真正好吃的夜宵?”,完整呈现了南京深夜美食地图,覆盖六大夜宵品类横评(烧烤、火锅、小龙虾、面馆、便利店、甜品)、夜宵价格光谱(10-30元的经济型,到100+元的奢侈型)、夜间消费动线(22:00夜宵开始→24:00深夜高峰→02:00大部分关门→04:00烧烤独守→06:00早餐接力)、五种人群场景推荐(下班太晚型、演唱会散场型、情绪崩溃型、朋友聚会型、省钱续命型)。同时为每类场景匹配具体门店示例,页面深色背景、霓虹烟火气风格统一,可直接用于消费场景决策参考。 以下是成果: 四、让PPT生成不跑偏的秘诀 很多人写报告、做PPT的痛苦来自不知道到底讲给谁听。 SenseNova-Skills在进行数据分析、调研报告和PPT生成前,会优先锁定受众与使用场景,拆分每页文案、配图、数据图表排版槽位,搭建一条有说服力的叙事线,让汇报方与听众先达成共识,最后由视觉模型逐页进行像素级质检。 它有两种PPT生成模式供选择,日常商务汇报可用standard标准模式,发布会等重要活动启用creative创意模式,全文档字体、配色、版式统一,彻底告别杂乱模板。 核心技能亮点: 1. 数据分析、深度调研、PPT生成三大技能模块化拼接,一条指令完成全链路,无需跨软件操作; 2. 优先锁定受众与汇报场景,内容逻辑先于视觉排版,有效避免“PPT做完却讲不清”的常见问题; 3. 双模式可选,全文档字体、配色、版式统一,直接输出可上台使用的完整文件。 五、拥抱开源:可随时“安装”的技能包 如今的大模型往往都具备充足的通用认知,但缺少各个细分行业标准化落地流程,而SenseNova-Skills以开放Agent Skills标准,每项技能独立封装文件夹,通过SKILL.md文档写明适用场景、能力边界、执行规范,相当于给大模型批量加装各行各业实操手册。 如果说大模型是“大脑”,技能(Skills)就是一份可以随时给大模型“安装”的工种手册。为了让广大开发者和办公用户能够零门槛体验、参与这套体系的改造,商汤还提供了极具诚意的配套生态。 配套模型与权益 1. SenseNova U1系列、SenseNova 6.7 Flash-Lite:公测期依托Token Plan平台免费调用,每5小时各1500次免费额度; 2.SenseNova U1 Lite:已开源,Apache2.0协议,含8B-MoT、A3B-MoT两个版本,开发者可本地部署、二次迭代。整套技能不挑模型,可兼容市面主流 Agent 框架,用户可按需新增行业技能文档,持续扩充 AI 工作边界。 六、两种上手路径,开发者 / 普通用户按需选择 1、开发者部署(开源自建) 这里有一个很智能体的方式:把代码仓库地址直接交给自己的Agent,让它自行克隆并拷贝到skills目录,装完手动重启一次服务即可。 当然,传统的手动克隆复制也完全支持。通过GitHub下载项目源码,将Skill文件夹复制至对应Agent运行目录,指令即可完成技能挂载,支持选择性安装sn-ppt、sn-deep-research等单项技能,按需定制工作流。 开源项目地址:https://github.com/OpenSenseNova/SenseNova-Skills 2、普通用户(零代码开箱) 无需配置环境、不用API密钥,全量集成至「小浣熊」办公智能体。用户可享受企业级安全防护,注册即可免费试用,直接上传表格、发送指令生成报告与PPT。 免费试用体验入口:https://xiaohuanxiong.com/ 结语:开源实用Skills,让AI真落地、真干活 以往AI只能输出零散建议,如今依托SenseNova-Skills,从原始数据、一句话需求直达完整落地文件,让AI能真落地、真干活。 这些技能是开源的、可以被编写和复用的。这意味着AI的能力边界延伸到了人类可随时注入的、任何一个领域的具体知识中。
八问华为云CEO周跃峰:华为云MaaS怎么赢?
智东西 作者 | 李水青 编辑 | 心缘 智东西6月5日报道,在华为云INSPIRE创想者大会上,华为公司董事、华为云CEO周跃峰接受了智东西等多家媒体的采访。 ▲智东西等媒体对周跃峰进行了采访 就在当天,华为云一次性推出了灵衢智算集群、分层Agentic记忆存储、全新云入口“智果园”、全球首个全流程具身智能开发平台CloudRobo等十余款AI新品,覆盖从AI基础设施、模型服务到智能体平台与行业生态的完整链路。 同日,华为云联合智谱、DeepSeek、Minimax、Kimi、阶跃星辰、百度、美团LongCat、讯飞星火、爱诗科技、生数科技等20余家TOP模型厂商,发布“百模千态,云聚共赢”生态合作计划。 在采访中,当被问及与阿里云、火山引擎等厂商的路径差异时,周跃峰谈道:“我们不太在乎Token总量是多少,也不太在乎收入总量是多少。我在乎的是每一个Token背后带来的健康提升、一度度电的节约、生产力的提升,而不仅仅是情绪价值。” 他认为,华为云的第一条差异化在于以“AI提升生产力”为根本目标;第二条是坚持公有云与混合云并重,匹配中国政企对数据安全及本地部署的真实需求;第三条则是坚持自主算力路线,打造“第二个算力平面”。 谈及Token经济,周跃峰称,不能简单用日活或万亿Token数量来衡量价值,华为云更看重每一个Token在To B场景中创造的实际效益。在国产化算力供应相对有限的情况下,他直言“没有必要去拿规模跟外国牌的算力做比较”,华为云致力于让AI有更多的技术路线和生态可选。 而在被寄予厚望的AI编程产品——码道(CodeArts)上,周跃峰将其定位为“碳基生命与硅基系统的翻译器”——不仅仅是AI编程工具,更是智能体调用硅基资源的核心能力。 他表示,华为云将投入“范弗里特弹药量”来打造这一能力,这一典故意指指代不计成本、高强度持续投入资源,目标不止于用户数或Token产出,而是帮助开发者更好地使用工具、让智能体更精准地理解人类意图。 最后,周跃峰反复强调华为云的开放姿态:从鲲鹏、昇腾到欧拉操作系统,从ModelArts到智能体平台,到行业生态,华为云坚持开源开放。 “我希望华为云能够成为智能体时代一朵最开放的云。”周跃峰说。 智东西对本次周跃峰采访全文进行了不改变原意的编辑: 1、华为云要做“硅基黑土地”,别人最难模仿的技术优势是什么? 周跃峰:在华为云全栈技术中,我认为最难模仿的有三个方面:第一个方面是基于自主算力芯片的算力集群,这种全国产化的算力硬件系统是独一无二的。第二方面是华为多年来在ICT的积累,以及在此硬件基础上的数学、算法、软件工程积累。包括上午推出的一系列AI新品,与其他云也不太一样,华为云更致力于为企业和行业开发专属安全的智能体。第三方面是华为云更加开放,面向行业构建AI和智能体生态。 2、AI云赛道竞争激烈,阿里云、火山引擎等互联网公司有天然的互联网开发者优势,华为相比他们走的路一样吗? 周跃峰:首先,我们将“AI带来生产力提升”作为根本性目标。 我们不太在乎Token总量是多少,在当前国产化算力受限情况下,也不太在乎收入总量是多少。但我在乎的是生产出的Token背后带来的健康提升,一条条鲜活生命。我希望Token代表的是一度度电的节约、生产力的提升,而不仅仅是情绪价值。这是第一条路华为云与其他云厂商不同的地方。 同时,我们坚持公有云与混合云并重,以此践行第一条提到的目标。考虑中国现实,政府机构、央国企等涉及民生的企业,对数据安全和本地化部署有考虑,华为云会在各个行业来匹配他们的需求。 第三个不一样,我们坚持自主自强,打造“第二个算力平面”,让全球开发者有更多的技术选择。 3、公共云是需要多方共建的一个产业,您认为公共云下一步发展的关键是什么?华为云将在其中扮演怎么样的一个角色? 周跃峰:我觉得公共云随着AI的发展将会更加兴旺发达。四年前,我们认为做AI就要买一堆算力卡;三年前,我们很多企业认为做AI就意味着要发展自己的大模型;今天,我们看到做AI实际上我们要开发和用好智能体。至于背后的算力和模型技术,都转到舞台的背后去了。 同时,我们也可以看到模型和算力技术发展迭代非常快。假设我们仅仅自己买来部署、开发模型的话,很可能部署完已经是落后了,非常尴尬。因此我们说对于很多大行业,能不能构建一个专属的公共云?既保证数据的安全,又能保证这AI的算力资源和模型资源能够快速迭代和共享,避免各自部署造成极大的浪费。 所以我觉得公共云这一个技术是匹配AI技术发展,而且也可以更大程度利用好我们现有投资的资源,加快利用好快速迭代的AI技术。我个人以及我的团队非常支持公共云的发展,公共云在中国这一片土地上面大有可为。 4、对中小企业用不起、不敢用AI的困境,华为云有哪些针对性商业模式和案例? 周跃峰:AI作为如此大的一个产业,今天有人说万亿,我看远远不止万亿。但是让这一个万亿的产业不至于泡沫化,那么AI的产业不能够仅仅只是汇聚在某几个大的企业当中,一定是要让更多中小型的企业也能够使用AI的技术来发展。 比如中国有300多家大大小小的具身智能创业公司,如果让他们自建IT系统、算力系统,打造一整条覆盖数据准备、模型训练、仿真、部署等流程的系统,压力就太大了。所以我们这一次就发布了全球第一个全流程的具身智能开发平台CloudRobo,部署在公有云上。很多中小企业可以接入到具身智能专区去使用这一个开发平台,付非常少的钱获得共享数据、模型、案例等。医疗、制造、科研领域华为云也推出了专区。 5、从医疗到具身智能,行业之间差距巨大。华为云如何建立对这些不同行业的深度认知,有哪些经验可以复制? 周跃峰:AI面向行业去深耕,其实需要更多的耐心、投入。这远比ToC或者简单通过App或者问答给个人带来情绪价值要难得多,但华为云更愿意面向行业去深耕。 对于不同的行业,首先它的算力平台是一样的,所以我们更多地去打造算力平台,就是我说的Agentic Infrastructure;华为ModelArts平台开放拥抱各个第三方的模型,不仅是华为自研模型;我们也打造智能体工作平台,在这个平台上聚合各种生态。通过这三大平台,在这几个行业,我们又通过行业AI梦工厂,也就是专区方式,跟更多细分行业的从业者一起通过联合创新打造好的解决方案,以此来繁荣行业生态。 6、华为提到“硅基黑土地”、“百模千态”概念,华为云具体是如何联合算力厂商、模型厂商以及各种行业伙伴来共同建设AI生态? 周跃峰:首先算力,从鲲鹏到昇腾是开放的;然后系统,从操作系统欧拉到智算系统也是开源和开放的。所以从根基上面说,我们是开源开放的。 那么在构建全栈云服务的这个过程当中,我们上层的容器等平台也是开源的,ModelArts所采纳的这个工具链也是开源开放。我们也是花更多的力气来对接所有愿意跟我们一起合作的模型,为了能够让这些模型服务调用得更好,我们今天还发布了全新的模型路由器,提高模型调用效率。 我们的智能体平台也是开源的,开源的版本叫openjiuwen,这一个内核代码几乎和商业版的智果AgentArts相同。包括更多MCP、几十万个面向各个行业场景的Skills等,都是面向生态开放的。 面向细分的行业场景,AI落地生态所需要的技术差异化还是蛮大的。所以我们为此还专门开辟了行业AI梦工厂行动,希望能够针对一个一个重要的细分场景,汇聚解决方案和原子级能力,跟大家共享这一些技术生态。 通过这一系列措施,我希望华为云能够成为智能体时代一朵最开放的云。 7、华为云将投入多少资源发展码道(CodeArts),在这方面的具体业务目标是什么? 周跃峰:码道(CodeArts)表面上来看是一个用AI编程工具,但它更多是我们碳基生命和硅基系统进行对话的一个翻译器。因为我们要指挥调用硅基资源的话,实际上要把人的通用语言转化成硅基世界所能够理解、听懂的指令和代码。所以码道的意义就不仅是一个AI编程工具了。对于智能体而言,它是一个非常重要的核心能力。只有把这个能力打造好了,智能体才可以更加容易理解意图,从而产生更加精准的措施和动作。 那么我们在码道,一定是投入“范弗里特弹药量(意指不计弹药损耗地投入)”来打造这一个能力。(业务目标上)也不仅仅是从多少人来用这一个工具,或者说用这个工具中产生多少Token来衡量我们的投入产出。 所以我想说的是,华为云对这一些重要核心的基础能力,愿意投入重兵和重资源在开发上面。还有包括投入资源来帮助我们的开发者,能够更好来使用这一些工具。 8、今年上半年有一个很明显的现象,就是阿里云和火山引擎都不怎么去看云基础三大件的收入了,都在冲MaaS的收入,华为云内部怎么看这一块收入,以及今年MaaS收入有没有一些具体的目标? 周跃峰:确实是。在通算时代,云厂商的收入更多的是Infra拉动的资源收入。到了智算阶段,大家很清楚,我们已经进入Tokens经济的时代。所谓Tokens经济时代,我倒觉得不能简单的用多少日活、投了多少万亿Tokens来衡量Tokens所产生的价值。我更愿意去看我们有多少Tokens是面向To B提升了生产力。 所以我一开始就说,华为云更看重每一个Tokens背后能够给生产力、生活水平真正带来多大的价值。我们联合各个企业打造了AI基础设施之后,也不能简单看产生了多少Tokens、模型被调用了多少次,这是没有意义的。我们更多的是从案例看,比如我防范了多少金融风险,提升了多少工作效率等。 另外,我们也看到Tokens背后实际是需要大量的基础设施来做支撑的,要看你对基础设施的投入大小,这也是有很重要的。对于华为云而言,我们采纳的是国产化算力。在能力和供应相对有限的情况下面,我就不去拿这个规模来跟外国牌的算力规模做比较,没有必要。 我们致力于发展第二个算力平面,让AI有更多的技术路线和生态可以选择,所以我从一开始就说我不太在乎这一些收入的指标,或者说Tokens总量。
刚刚,汤道生回应一切:元宝、算力、芯片和姚顺雨
智东西 作者 | 江宇 编辑 | 漠影 智东西6月5日北京现场报道,刚刚,在2026腾讯云AI产业应用大会上,腾讯一口气甩出20多个Agent,并首次将其打包为“效率智能体工具集”对外发布,本地“龙虾”QClaw、个人知识智能体ima、AI助手元宝、QQ浏览器、AI办公工具WorkBuddy、AI编程工具CodeBuddy、设计Agent妙境Miora与Ardot等覆盖个人、办公与企业场景的核心产品悉数亮相。 与此同时,腾讯最新旗舰模型混元Hy3 Preview全面覆盖腾讯AI产品体系。腾讯云大模型服务平台TokenHub、Agent原生基础设施Agent Runtime、智能体开发平台ADP4.0、WorkBuddy企业版等一批面向Agent规模化落地的新产品和新能力也集中登场。 全场尤其受关注的一幕,当属腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生,与腾讯首席AI科学家、腾讯混元大语言模型及AI Infra负责人姚顺雨的同台对话。 围绕AI下半场、Agent发展方向、模型与产品“第一性原理”与相互成就等话题,两人进行了近一小时交流,这也是姚顺雨加入腾讯后少有的一次公开主场分享。 大会期间,汤道生还与智东西等媒体进行了深入交流。从腾讯AI战略、元宝定位到Agent商业化、算力布局等话题,他回应了外界关注的多个问题,并抛出不少关键判断: 1、谈腾讯AI打法:大家一般都会说腾讯是一个产品公司。这一点写在腾讯的基因里,AI时代也不会改变。 2、谈元宝定位:腾讯最大的投入仍然在元宝上,Chatbot依然是一个重要赛道。 3、谈腾讯是否慢了:腾讯业务非常多元,很难保证每一个板块都始终领先,阶段性的快慢都很正常。 4、谈长期竞争:腾讯过去28年的很多成功业务都经历过高潮和低谷,当判断清楚一件事有价值,就会坚定地走过周期。 5、谈WorkBuddy走红:WorkBuddy今天的普及和受欢迎程度,并不是两三年前规划出来的,甚至一年前也没有想到。 6、谈Agent商业化:调用量并不是商业化指标。当前商业化不是重点,重点仍然是把产品打磨好、服务更多用户。 7、谈自研芯片:自己做芯片设计并不能解决产能问题,腾讯当前更倾向于与更多芯片厂商合作。 8、谈姚顺雨加入:姚顺雨推动了模型与产品协同设计,也推动混元进一步聚焦数据质量和产品体验。 9、谈MaaS竞争:腾讯和友商风格不同,友商喜欢给大的数字,腾讯不是这种风格。 一、汤道生交底:元宝排第一,算力先保自己人 我们在主论坛后,与腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生进行了面对面交流。在近一个小时的群访中,汤道生多次回应外界关于腾讯AI节奏的疑问,回答了十余个问题。 我们将14个关键问题的答案,整理如下: Q1:腾讯云如何平衡内部AI产品和外部客户的算力需求? 汤道生坦言,腾讯在算力基础设施上一直处于“不太够”的状态。在有限资源下,腾讯会优先倾斜内部需求,包括混元训练、微信、腾讯会议、元宝等产品。 腾讯真正拿出来放到云上、服务各行各业客户的裸GPU算力仍然有限。汤道生说,腾讯云确实有标杆案例,但“远远不足以满足大部分客户的需求”。 不过,今年腾讯云上的Token调用量已经出现爆发式增长。汤道生提到,相关需求有“几十倍”的增长。腾讯也非常期待下半年有更多国产算力支持云业务,至少先把一些推理场景服务得更好。 Q2:AI会如何改变腾讯的产品研发流程? 汤道生判断,未来很多产品研发会更多由结果驱动。只要有想法、有创意,个人也可以和AI协作打造完整产品。未来团队会越来越小,更多三五成群的Feature Team将承担产品研发工作。 Q3:腾讯为什么强调AI产品的场景化落地? 面对腾讯为何更注重产品化、场景化落地的问题,汤道生说,腾讯一直非常关注产品体验,关注如何解决和满足用户需求,为用户提供价值。这些目标都需要通过产品作为载体来实现。 “大家一般都会说腾讯是一个产品公司。”汤道生称,这一点在腾讯团队基因里,他不认为AI时代会有太大变化。 不过,由于AI服务的运营成本和边际成本与过去不同,腾讯需要用不同商业模式承载这种服务。在他看来,只要创造的价值足够大、能够量化,用户或客户仍然会为其买单。 Q4:元宝和混元团队如何协同?元宝的定位和KPI是什么? 汤道生透露,元宝与混元团队的合作正在变得越来越紧密,近期双方还会搬到同一座楼,方便沟通和对齐。他还提到,目前约80%的元宝用户已经在使用Hy3 preview,产品留存率也有明显提升。元宝中的很多服务都由混元Hy3 preview支持,包括最新的语音识别、方言识别等能力。 谈到元宝的KPI,汤道生称,一方面是持续增长,希望赢得更多用户;另一方面是留存率持续提升。他自己每天也在用元宝,对元宝团队最期待的是搜索服务做得越来越好,引入更多实时数据源、权威数据源和专业数据,让服务不再只依赖模型训练时已有的知识。 对于元宝的投入,汤道生表示,腾讯今天有很多AI产品和智能体产品,但最大的投入仍然在元宝上。腾讯仍然认为Chatbot形态有非常普遍的需求,是一个非常重要的赛道。 Q5:腾讯怎么看“腾讯是不是慢了”? 他提到,腾讯业务非常多元,做的事情也很多,很难保证每一个板块都处于绝对领先位置。不同业务、不同服务阶段性快一点或慢一点,都很正常。 汤道生也提到,比如今年年初龙虾热潮出现时,腾讯在市场上的反应就很快,相关产品也成为国内市场上很受欢迎的产品之一。 在他看来,把时间拉长看,腾讯过去28年里很多成功业务,也并非一直一帆风顺,都经历过高潮和低谷。腾讯做服务、做产品的一个理念是,当判断清楚一件事有价值,就会坚定地走过周期。 Q6:未来腾讯会重点投入Chatbot、Agent还是模型? 对于ChatGPT、元宝、CodeBuddy、WorkBuddy等不同方向,汤道生认为,很难对10年后的结果做判断。很多早期被看好的方向,10年、20年后不一定会和最初想象完全一样;一些大家原本没有意识到的产品机会,也可能带来惊喜。 因此,腾讯会保证不同赛道、不同产品都有充分资源迭代,同时观察市场变化。如果市场上有某个产品有很高的真实需求,腾讯也会及时调整并加大投入。 WorkBuddy就是一个例子。汤道生说,CodeBuddy大约三年前已有团队在做,最早是面向开发者的产品。后来随着AI能力增强,以及公司内部对编程智能体的需求增加,逐渐承担起CodeBuddy产品。到今年大模型能力进一步提升后,CodeBuddy又演化出WorkBuddy,让非程序员、非技术人员也能用它提升工作效率。 他坦言,WorkBuddy今天的普及和受欢迎程度,并不是两三年前规划出来的,甚至一年前也没有想到。及时响应市场变化,可能是一项更重要的能力。 Q7:Agent产品当前是否有重点商业化指标? 汤道生称,调用量并不是商业化指标。当前商业化不是腾讯的重点,重点仍然是把产品打磨好,服务更多用户。 不过,商业模式仍然有调节作用。因为算力资源有限,腾讯也需要筛选出对产品最有需要、最认可其价值、愿意付费获得算力的用户。这也是Agent产品发展过程中需要考虑的问题。 Q8:WorkBuddy企业版和企业微信是什么关系? 汤道生回应称,在移动时代,Chat App是非常有粘性的应用,企业微信与微信的连接,延展了腾讯在Chat App赛道服务用户、处理任务的能力。 汤道生认为,在办公环境中,如果用户不是要和同事交流或开会,而是要与AI协作完成任务,WorkBuddy这类界面会更符合需求。未来企业微信和WorkBuddy会在办公场景中并存,只是侧重点不同。 企业微信会更侧重人与人沟通、人与服务沟通,以及OA、审批等流程;WorkBuddy则会更侧重人与AI协作,提供更自然的AI原生产品体验。 Q9:腾讯会不会自己做算力芯片? 对于腾讯是否考虑自研算力芯片,汤道生坦言,自己做芯片设计,并不能解决产能问题。今天的市场需求很旺盛,没有一家芯片厂商有足够产能满足需求。 腾讯当前的做法,是通过生态合作与更多芯片厂商合作。这样也能让更多芯片厂商愿意拥抱腾讯,把腾讯作为其算力能力的展现平台。 Q10:腾讯为什么选择姚顺雨?他带来了哪些变化? 汤道生称,姚顺雨是AI领域非常有影响力的专家。即便在加入腾讯之前,双方长期沟通中也能充分感受到他的专业性。 汤道生认为,姚顺雨带来的一个重要变化,是推动模型和产品的Co-design,也就是模型与产品协同设计。过去模型团队可能更关注Benchmark,现在则会直接以产品用户体验作为重要目标。 此外,姚顺雨也识别出腾讯过去训练数据虽然很多,但质量还不够高。早期训练混元之前,他推动提升数据质量,砍掉很多看似可以堆量、实际对模型训练帮助不大甚至有害的数据。 在汤道生看来,如果没有对数据质量重要性的正确认知,只是盲目追求更大参数,就很难做出“砍数据”这样的决策。他认为,姚顺雨在很多地方推动了化繁为简,让混元近期效果相比过去有明显进步。 Q11:腾讯怎么看C端大模型商业化? 面对友商在C端大模型收费上的动作,汤道生谈到,友商在C端商业化上确实走得更靠前一些。腾讯当前的目标,还是把产品体验做好,找到元宝的差异化定位,服务好重点用户。 Q12:MaaS和TokenHub会不会成为腾讯云新的增长点? 汤道生认为,MaaS和TokenHub肯定是腾讯云“增肌”的一部分,也是非常健康的业务板块。相关业务正在经历非常高速的增长。 他还提到,今天很多MaaS和Token消耗,也与企业端部署WorkBuddy等产品有关。由于市场需求旺盛,而当前又受限于算力供给,随着后续算力更充裕,Token服务作为算力的一种载体,会给整个云市场带来新的增长。 对于友商在MaaS业务上抛出较高营收目标,汤道生称,腾讯和友商在风格上有很多差异,友商喜欢给大的数字,腾讯相对不是这种风格。 Q13:腾讯云后续增长怎么看? 对于腾讯云一季度增速压力和未来市场规模,汤道生称,他无法对未来收入做预测,但团队有明确且积极的增长目标。当前比较大的问题仍然是受限于算力。 二、腾讯一口气甩出20多个Agent,WorkBuddy企业版正式发布 腾讯云此次发布的核心产品是“效率智能体工具集”。简单来说,腾讯面向个人、办公和企业三类需求,将Agent产品封装成多层的产品体系,其中覆盖开箱即用的轻量工具、企业级平台和行业解决方案。 面向个人用户,腾讯升级了QClaw、ima、元宝、QQ浏览器等产品。 其中,本地“龙虾”QClaw首创“微信直连”模式,并打通腾讯文档、腾讯会议、QQ邮箱等工具;个人知识智能体ima支持创建专属Agent,并通过记忆系统持续理解用户;元宝支持“元宝派”一键接入“龙虾”;QQ浏览器上线伴随式Agent服务,并与元宝联合推出行业首个高考咨询师Agent“元宝高考通”。 腾讯妙境Miora和交互设计智能体Ardot则瞄准创意设计场景。其中,Ardot面向UI/UX设计师,支持交互流程设计、原型生成与体验优化;Miora则覆盖平面、视频和3D等创意资产生产,支持从创意构思到内容生成的完整流程。 面向职场人群,腾讯推出“Buddy”系列产品,覆盖代码研发、文档处理、创意设计等场景。 WorkBuddy个人版发布3个月以来累计迭代43个版本,按DAU(日活)计,已是国内最受欢迎的效率智能体工具。CodeBuddy覆盖编码、评审、测试、运维等研发流程,并率先支持插件、IDE、CLI三种形态。 面向企业用户,腾讯正式发布WorkBuddy企业版和办公智能体套件Agent Suite。 WorkBuddy企业版提供7×24专家数字员工、人与AI协作团队的管理,以及企业级管理后台三项能力。 Agent Suite通过One ID,可以将腾讯文档、腾讯网盘、腾讯乐享接入WorkBuddy工作台,打通内容创作、知识沉淀和能力复用。 作为统一办公入口,WorkBuddy企业版还通过Knowledge Base、Skills和Connector三类能力连接企业知识、工具和业务系统,让Agent能够直接参与日常办公流程。 其中,Connector基于腾讯云One ID统一身份体系,能够直接对接企业现有OA、CRM、项目管理系统以及腾讯会议、QQ邮箱、腾讯文档等协同工具。 CodeBuddy&WorkBuddy负责人刘毅在现场提到,WorkBuddy已成为国内第一的桌面办公智能体产品,过去3个月人均Token消耗增长10倍。 与此同时,CodeBuddy也在腾讯内部已有一批实践案例。CodeBuddy覆盖腾讯超过95%的工程师,整体编码时间缩短40%。 除Agent外,腾讯云音视频还发布AI品牌WAND,其整合了六类自研媒体模型和60多项媒体AI能力,以Agent-Native方式对外开放,可支持多模态内容理解与生成。 三、ADP4.0、Agent Runtime、TokenHub集体升级,打造Agent基础设施 腾讯云这次也重构了云产品体系,覆盖模型、推理服务、Agent基础设施与生态连接。 在推理服务层面,腾讯云大模型服务平台TokenHub在今年3月正式上线。它集成混元及第三方主流模型,支持新模型Day0接入、统一协议和Key管理,并可根据成本、性能和智能效果进行动态路由。 TokenHub负责人高航提到,TokenHub上线3个月内,日供给量已从零增长到5万亿级别。按照当前增长趋势,预计2027年日Token销售量将超过50万亿。依托多元芯片适配、潮汐调度、FlexKV分布式缓存等推理优化技术,TokenHub实现整体算力利用率提升40%,缓存命中率提升至85%。 在Agent运行层面,腾讯云升级了Agent Runtime,其作为面向Agent的原生基础设施。 Agent Runtime通过弹性调度与按需伸缩,可释放70%闲置算力;Memory服务在长任务场景下可使Token消耗降低60%、任务成功率提升30%。腾讯云还引入零信任、零凭证访问机制,保障Agent安全调用企业系统和数据。 腾讯云副总经理马文霜现场谈到,腾讯云Agent Runtime由沙箱、存储、记忆、网关、观测五大核心产品组成。其中,Agent沙箱可做到60毫秒拉起,一分钟可拉起16万个沙箱;Agent存储支持毫秒级克隆和快照,帮助Agent任务在出错后快速恢复。 在开发平台层面,腾讯云智能体开发平台ADP升级至4.0版本,定位为企业级AgentOps平台,覆盖Agent构建、连接、分发与治理全周期。 腾讯云智能体开发平台负责人、腾讯乐享负责人吴运声提到,ADP4.0不只帮助企业造出智能体,也要帮助智能体跑起来、管起来。其新推出的“Claw模式”支持用自然语言描述需求,自动构建生产级企业智能体,并原生支持Agent入口机制。 此外,腾讯云还发布EdgeOne Makers,这是一款面向Web应用和AI应用提供一站式开发平台。 面向安全问题,腾讯云此次发布CodeBuddy Security,让Agent参与安全漏洞挖掘与治理。同时,腾讯云也将YID身份认证体系、安全网关、密钥沙箱、流量沙箱、提示词检测、权限隔离、日志审计等能力整合进Agent安全方案中。 董志强提到,一个关键做法是通过User ID和Agent ID组合进行权限设置,而非简单把用户权限直接交给Agent。这样可以对不同智能体进行更细粒度管理,并通过临时密钥、会话隔离、工具调用隔离等方式降低风险。 四、姚顺雨首次站台腾讯:AI下半场比拼真问题、真场景 姚顺雨在交出混元Hy3 preview这份阶段性答卷后,完成了加入腾讯以来的首次公开系统分享,成为大会最受关注的环节。 从汤道生现场围绕混元Hy3 preview展开追问,到混元Hy3 preview已经覆盖元宝、CodeBuddy、WorkBuddy等腾讯核心AI产品,再到该模型在OpenRouter连续多周位居Token消耗量榜来看,Hy3这张卷子,姚顺雨答得不错。 一上场,姚顺雨就重新解释了自己提出的“AI下半场”概念。在他看来,过去几十年AI行业一直在寻找更好的方法,而预训练和后训练让通用模型逐渐成为一种成熟的方法论。相比继续寻找新方法,今天更困难的事情是找到真正值得解决的问题。 这也是他选择加入腾讯的重要原因之一。姚顺雨提到,腾讯拥有大量产品、场景和用户反馈,能够持续为模型提供真实问题和真实上下文。对于Agent而言,仅有模型能力远远不够,还需要工具、环境和数据支撑。模型越来越擅长把复杂输入转化为输出,产品和场景中的Context价值也会越来越高。 目前,不少AI厂商采取研用分离结构,模型和应用两条线平起平坐。但腾讯反复强调“Co-Design”理念。 谈到这一点时,姚顺雨认为,模型与产品是相互成就的关系。相比榜单成绩,他更关注真实用户反馈和真实场景评测。很多产品中的用户问题只有一两句话,甚至表述模糊,却往往比标准化Benchmark更能暴露模型短板。 在他看来,LLM时代最大的特点是泛化性。即便是Coding Agent,也离不开搜索、聊天、推理和指令遵循能力。腾讯不同产品积累的数据和反馈,可以相互迁移、相互增强。 姚顺雨坦言,今天做大模型“没有什么秘密”,核心仍然是Infra、数据和评测体系建设。相比单纯追求模型规模,他更关注如何定义真实问题、提升任务完成率以及模型在实际场景中的稳定性。 谈及Agent带来的Token消耗增长,姚顺雨认为,性能始终排在成本之前。“先把事情做对”比单纯降低价格更重要,未来模型竞争仍会围绕任务完成率、稳定性和性价比展开。 对外界“腾讯在AI上慢了”的质疑,两人在现场做了正面回应。姚顺雨认为,AI不是两三年的短期游戏,而是一个长期过程,ChatGPT和Claude Code不会是唯一Super App,会有源源不断的新机会诞生。 结语:腾讯AI的下一步,还是要回到产品里 本次交流里,汤道生提到:腾讯仍然是一家产品公司。元宝、WorkBuddy、CodeBuddy以及这次集中亮相的20多个Agent,背后都围绕具体场景和产品能力展开。 姚顺雨加入后,腾讯模型与产品之间的协同也在进一步加强,模型能力的提升与产品体验的优化,正在互相推动。 AI竞赛还很长。正如汤道生所说,很难保证每一个阶段、每一个方向都始终领先。腾讯的AI后劲,仍然值得期待。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。