行业分类:
加载中...
头条分类:
加载中...
刚刚,Karpathy惊呼“后AGI”!AI通宵狂改110次代码,他去蒸桑拿
新智元报道 编辑:犀牛 【新智元导读】Karpathy让Agent通宵跑了110次实验把模型练强后说了句「去桑拿了」,然后开源630行代码的autoresearch,一块GPU就能拥有一个永不下班的AI研究实验室——人类研究员的新工作,是写好提示词然后去蒸桑拿。 刚刚,Karpathy在x上发了一条让整个AI圈炸锅的帖子: ah yes, this is what post-agi feels like :) i didn't touch anything. brb sauna 啊对,这就是后AGI的感觉 :) 我什么都没碰。先去蒸桑拿了。 什么样的技术突破,能让这位AI大神如此淡定地撂下一句话就去蒸桑拿? 答案是:他的AI Agent,在他睡觉的12个小时里,自主提交了110次代码变更,把一个语言模型的验证损失(val loss)从0.862415一路压到了0.858039——而且没有增加一秒钟的训练时间。 更炸裂的是,就在几天后,Karpathy把这套「AI自己搞科研」的方法论打包成了一个仅630行代码的开源项目——autoresearch,扔到了GitHub上。 项目地址:https://github.com/karpathy/autoresearch 上线刚几个小时,就已冲到了3k星标! Karpathy表示,任何人只要有一块GPU,就能在一夜之间运行一个AI研究实验室。 这两件事叠在一起,构成了一幅前所未有的画面:AI不再只是人类的工具,它开始自己优化自己了。 而人类研究员的新工作,变成了——写一份提示词,然后去蒸桑拿。 nanochat 100美元训一个ChatGPT 故事要从Karpathy的nanochat项目说起。 nanochat是Karpathy在2025年10月开源的一个项目,口号相当炸裂——「100美元能训练的最好的ChatGPT」。 nanochat项目地址:https://github.com/karpathy/nanochat 它用大约8000行干净的PyTorch代码,实现了一个完整的、从零开始的语言模型训练流水线:分词、预训练、微调、强化学习、推理、Web UI,一条龙全包。 在一个8块H100 GPU的节点上,花4个小时左右,你就能训出一个可以跟你聊天的小型ChatGPT。 但nanochat真正让人兴奋的地方,不在于它有多便宜,而在于它有多「可迭代」。 整个项目围绕一个核心参数——Transformer的深度(depth)。 你只要拧这一个旋钮,其他所有超参数(宽度、头数、学习率、训练时长、权重衰减……)都会自动调整到计算最优。 换句话说,这是一个极简但极其精密的训练系统,天然适合用来做实验。 昨天,nanochat取得了一个里程碑式的进展:在单个8×H100节点上,仅用2小时就能训出GPT-2级别能力的模型。 一个月前这个数字还是3小时。 但真正的重头戏来了——Karpathy开始让AI Agent自动迭代nanochat的训练代码。 具体怎么玩的? 他给AI代理写了一份大约120行的Markdown文档,相当于一份「任务说明书」,告诉AI:这个项目是干什么的,什么样的改进算好的(验证损失更低),什么样的改进不能接受(训练时间变长、内存爆炸、代码变得太臃肿)。 然后,AI Agent就开始在一个Git特性分支上自主工作:读代码、想主意、改代码、跑训练、看结果。 如果效果变好,就合并到主分支;如果效果变差或者训练变慢,就丢弃,重新来过。 结果呢? 12个小时,110次代码提交,d12模型的验证损失从0.862降到了0.858,降了0.004——对于语言模型来说,这是一个实实在在的进步,而且是在不增加任何训练时间的前提下取得的。 有一个特别有意思的细节:其中有一次提交,AI代理确实把val loss降下来了,但训练时间变长了,于是被系统自动拒绝了。 Karpathy设的规则很严格——要么改善损失,要么改善速度,要么两个都改善,不能拆东墙补西墙。 更有意思的是Karpathy自己的反思。 他说,在过去两周里,他花在「调优AI代理的工作流程」上的时间,几乎比他直接改nanochat代码的时间还多。 他迭代的不是代码本身,而是「让AI更好地迭代代码的那套系统」——一个「元优化」的过程。 这意味着人类研究员的角色正在发生质变:从「亲手写代码做实验」,变成了「设计一个能让AI自动做实验的系统」。 Karpathy把这种感觉称为「后AGI(post-AGI)」。 当然,他自己也说这个说法半开玩笑——今天的AI代理在实现想法方面已经相当厉害,但在提出创造性的新想法方面还差得远,目前更接近于一个自动化的超参数调优工具,而不是一个真正的研究员。 但他紧接着说了一句意味深长的话:「随着AI能力的提升,这条路的方向是清楚的——AI在自主改进下一代自己。」 autoresearch 630行代码,一块GPU,5分钟一轮实验 如果说nanochat上的AI代理自动迭代是一次「概念验证」,那么autoresearch就是Karpathy把这个概念打包成了一个人人可用的开源工具。 Karpathy正式开源了autoresearch项目。 他给这个项目写了一段极具科幻感的序言: 曾几何时,前沿AI研究还靠着一群碳水化合物计算机——他们在吃饭睡觉摸鱼的间隙,偶尔通过组会仪式用声波互相吼两嗓子,就这么推进着人类的技术边界。 那个年代已经一去不返。如今,研究完全被AI智能体接管……据说代码已经迭代到了第10205代,但这数字真伪已无从考证——那些代码早已进化为能自我修改的二进制生命,远远超出了人类的认知范畴。 这个代码仓库,正是这一切故事的起点。 虽然这段话写的是「未来愿景」,但autoresearch项目本身的设计,已经在认真地朝着这个方向迈步。 autoresearch本质上是nanochat的「精简单机版」。 Karpathy把大模型训练的核心代码压缩到了一个约630行的Python单文件里,在单块GPU上就能跑。 整个项目只有三个核心文件: prepare.py —— 数据准备:下载训练数据、训练BPE分词器,还有运行时需要的数据加载器和评估工具。这个文件是固定的,AI不会碰它。 train.py —— 训练代码:包含完整的GPT模型定义、优化器(Muon + AdamW)和训练循环。从模型架构、超参数、优化器到批量大小,AI代理可以修改这里的一切。 program.md —— 人类写给AI的「指令书」:用自然语言描述研究目标和约束条件,人类研究员通过编辑这个文件来引导AI的工作方向。 项目的核心机制堪称精妙——固定5分钟训练时长。 不管你用的是什么GPU,不管AI代理怎么改模型大小、批量大小、架构设计,每一轮训练都精确控制在5分钟。 这个设计有两个好处:第一,所有实验结果直接可比,因为计算预算是固定的;第二,AI代理会自动为你的特定硬件找到最优配置。 你一晚上睡8个小时,AI代理大约能跑100轮实验。第二天早上起来,你面前摆着的是一份详细的实验日志,和一个(大概率)比昨晚更好的模型。 整个工作流被Karpathy概括为两句话: 人类负责迭代提示词(.md文件) AI代理负责迭代训练代码(.py文件) AI代理在一个Git特性分支上自主循环运行:改代码→训练5分钟→检查分数→如果更好就提交→如果更差就回滚→继续改。 每个提交都是一次经过验证的改进,像搭积木一样一层层往上垒。 而Karpathy为这个项目设定的终极目标,说出来有点疯狂:设计出能够无限期、无需任何人工干预、以最快速度取得研究进展的AI Agent。 一块GPU,一个文件,一个指标——这就是整个实验环境。 从「人做实验」 到「人设计做实验的AI」 传统的AI研究是这样的:一个博士生(或者一群博士生)想到一个idea,写代码实现,跑实验,看结果,改参数,再跑,再看,周而复始。 Karpathy自己就说,这基本上是他整个博士期间做的事情。 一个idea从提出到验证,可能要花几天甚至几周——因为人要吃饭,要睡觉,要开组会,要跟导师battle,要修bug修到怀疑人生。 现在呢? AI代理不吃饭不睡觉不摸鱼不抱怨,它24小时不停地跑实验,5分钟一轮,一晚上100轮。 它不会因为连续跑了20次实验都失败了就心态崩了去刷社交媒体——它只会冷静地分析结果,调整策略,继续下一轮。 当然,Karpathy自己也坦率地承认:AI现在非常擅长实现想法,但在提出真正创造性的新想法方面还差得远。 autoresearch目前的工作方式,更像是一个极其勤奋且不知疲倦的「超参数调优工程师」,而不是一个能提出变革性理论的研究员。 但关键在于——趋势是清晰的。 Karpathy说的那句话,几乎可以作为这个时代的注脚: AI在自主改进下一代的自己,人类研究员偶尔往里面扔几个想法就行了。 这不是科幻,这是今天正在GitHub上开源运行的代码。 而autoresearch的开源,让这件事的门槛降到了令人瞠目的程度。 现在,一个独立开发者,一块GPU,一份精心写好的提示词,就能在一夜之间跑完一个小型研究实验室一周的工作量。 这对整个AI开发生态的潜在影响是深远的。 中小团队甚至个人开发者,也能参与到模型训练和优化的竞技场中。 AI研发的民主化,正在从获取模型(开源权重)推进到优化模型(自动化实验)。 更深层次地看,autoresearch代表的是一种新的「人机协作范式」:人类负责定义问题、设定约束、提供方向性的直觉;AI负责在巨大的搜索空间里不知疲倦地试错和优化。 人类的创造力和AI的执行力,第一次以一种系统化的方式结合在了一起。 去蒸桑拿吧 世界正在被改写 回到Karpathy那条著名的帖子——「this is what post-agi feels like, brb sauna」。 这句话的妙处在于,它既是一句玩笑,也是一个真实的信号。 当一个AI领域最顶尖的研究者,能够放心地把模型优化的工作交给AI代理,自己去蒸桑拿而不是在电脑前盯着训练日志——这本身就说明了一些深刻的东西。 AI自主工作的能力已经跨过了一个临界点:它不仅能执行明确的指令,还能在一个真实的、开放的研究环境中,自主地发现改进空间并付诸行动。 Karpathy为autoresearch写的那段序言里有一句话特别值得玩味——这个代码仓库,正是这一切故事的起点。 这不是终点,这只是结束的开始。 AI代理在今天还只是一个不知疲倦的调参高手。 但明天,当模型能力再上一个台阶,当它们不仅能实现想法还能提出想法的时候——那个Karpathy笔下「代码进化为自我修改的二进制生命」的科幻场景,或许并没有我们想象的那么遥远。 到那时候,也许我们所有人都该去桑拿了。
Gemini攻克“宇宙弦”终极难题!AI科学家最优雅解法震撼物理学
编辑:定慧 就在刚刚,Google Research团队用Gemini Deep Think + 树搜索框架,独立攻克了一个理论物理领域的未解积分难题——宇宙弦引力辐射功率谱的精确解析解。AI探索了600条候选路径,找出6种解法,最优雅的那条,让人类物理学家都拍案叫绝。 震惊,AI科学家真的要来了! 谷歌发布了最新(3月6日)一篇论文,一石激起千层浪。 Gemini Deep Think联手树搜索算法,独立破解了理论物理的开放难题! 一个人类顶级研究团队公认「难得不知从哪下手」的问题,被这套AI系统硬生生地解出来了。 论文地址:https://arxiv.org/pdf/2603.04735 这篇论文非常具有突破性! 简单来说,AI解开人类物理学家之前没能解开的复杂数学/物理难题。 联想到此前,Claude帮高德纳解决图论猜想的消息刷屏。 如果说高德纳论文中Claude攻克图论猜想,是AI在离散数学领域的突破。 那么谷歌这篇论文,则代表AI在连续数学和理论物理领域的全面进攻。 一个是组合数学,一个是数学物理。两件事几乎同时发生,构成了2026年3月最具标志性的「AI科学家」事件。 AI,正在人类最核心的智力领域全面开花。 宇宙弦 一个让所有科学家着迷的终极问题 宇宙弦(cosmic strings),是宇宙学中一种假设的一维拓扑缺陷结构,诞生于宇宙早期相变。 这东西振动时,会向外辐射引力波。 而近年来,脉冲星计时阵(Pulsar Timing Arrays,简称PTA)首次观测到了疑似宇宙弦的引力波背景信号,理论物理界因此对宇宙弦的研究热情空前高涨。 要预测宇宙弦发出的引力波信号,就必须精确计算它的引力辐射功率谱(power spectrum)。 具体来说,有一个核心积分 I(N, α)——描述宇宙弦环第N谐波发出的辐射强度。 这个积分看起来简单,但积分区域是个球面,被积函数在边界处存在奇点(e₁,₂ = ±1时),导致标准数值积分根本不稳定。 用经典的勒让德多项式展开?权函数不匹配,爆炸。 过去的研究,只能给出大N时的渐近解,或者奇数N的部分结果。 精确、统一的解析解,多年来一直是悬案。 直到Gemini Deep Think出手。 一句话科普论文解决了什么问题。 AI计算出了一种名为「宇宙弦」发出的引力波的精确数学公式。为了计算这个引力波的功率,物理学家需要解开一个非常复杂的数学积分公式。这个公式里有「奇点」(Singularities,类似于数学上除以0那种让计算崩溃的地方),导致传统的数值计算方法常常失效。 在过去的几年里,人类物理学家和早期的AI尝试过,但只找到了一些「部分解」或者「近似解」,一直没有找到一个统一、精确的解析公式。 难道人类科学家的问题 被Gemini攻克了 与Claude解决高德纳问题时的31步研究式探索类似,Gemini解决这个问题的方式也非常像一个训练有素的研究团队在工作。 谷歌团队没有让AI裸奔。他们搭了一套精密的「神经符号系统」: Gemini Deep Think + 树搜索(Tree Search)+ 自动数值反馈 三者缺一不可,协同作战。 Gemini Deep Think负责「大脑」:生成数学假设,进行符号推导,判断哪条路径「看起来优雅可行」。 它不是简单地暴力试验,而是被指示进行深度推理链,提前预判无穷级数展开时的收敛问题。 树搜索(Tree Search) 负责「系统性探索」:把整个解题空间建成一棵大树。 每个节点代表一个数学中间表达式——用LaTeX写出来,同时配上自动生成的Python代码,让计算机去数值验证。 搜索策略采用了PUCT算法(置信上限树搜索),这和AlphaGo下棋的底层逻辑一脉相承——在「开采已有好路径」和「探索新可能」之间保持平衡。 自动数值反馈负责「质量控制」:每一步推导完成后,立刻用高精度数值计算去核验符号结果是否正确。如果对不上,这条路径直接砍掉。 这一步最为关键:每当模型提出一个中间步骤,系统就会自动执行对应的Python代码,与高精度数值基准进行比较。如果发现数值不稳定、发散或执行错误,系统会把错误信息和误差反馈给模型,让它自主修正。 整个过程中,AI一共探索了约600个候选节点。 其中超过80%被自动验证器以「代数错误」或「数值发散」为由剪枝淘汰——包括灾难性抵消误差、不稳定的单项式求和、病态的基变换等。 只有少数路径,挺过了层层筛选,最终胜出。 这不是暴力搜索猜答案,而是真正的「AI驱动的数学研究」。 600条路,AI找到了6种解 经过系统探索,Gemini Deep Think一共找到了6种不同的解法,分为三大类: 第一类:单项式展开(Monomial Basis Approaches) 核心思路是把函数展开为幂级数,然后用不同的技巧计算积分。 方法1用生成函数方法,构造指数型生成函数,利用高斯积分求解。 方法2用高斯积分提升,把球面积分提升到三维空间中,转化为标准的高斯积分。 方法3是混合坐标变换,先展开为幂级数,再投影到Legendre基底上。 这三种方法数学上正确,但存在数值不稳定性——当N变大时,会出现大数相减导致精度损失的问题。 方法1:生成函数法(Generating Function) 方法2:高斯积分提升法(Gaussian Integral Lifting) 方法3:混合坐标变换法(Hybrid Coordinate Transformation) 这三种方法都基于幂级数展开,思路扎实。 但有个致命弱点:当N→∞时,数值不稳定,出现灾难性抵消误差。 第二类:谱分解(Spectral Basis Approaches) 这两种方法利用了Funk-Hecke球面卷积定理,直接在Legendre谱空间中工作。 方法4:谱Galerkin矩阵法,把问题转化为一个三对角线性方程组来求解。 方法5:谱沃尔泰拉递推法(Spectral Volterra Recurrence Method),推导出系数的前向递推关系。 这两种方法数值稳定,计算复杂度仅为O(N),比单项式方法快了整整一个数量级。 第三类:精确解析解(The Analytic Solution) 方法6:格根鲍尔方法(Gegenbauer Method) 这是最优雅的方法——Gegenbauer方法。 AI发现了一个绝妙的思路:选择Gegenbauer多项式作为展开基底,而这类多项式的正交权函数恰好是(1-t²),正好与被积函数分母中的奇异因子完全抵消! 这样一来,原本令人头疼的奇异积分,变成了一个完全正则的积分。 通过分部积分和标准恒等式,AI推导出了精确的闭合公式,甚至最终得到了一个优美的渐近表达式。 也是此次AI给出的王者之选。 最优雅的解法,让物理学家心动了 格根鲍尔多项式,Gegenbauer polynomials,记作 Cₗ^(3/2)(t))。 这是一种定义在[-1,1]上的正交多项式族,而它的权函数 w(t) = 1 - t²,恰好能自然地消去被积函数的奇点。 这不是凑巧,这是Gemini识别出的深层数学结构。 具体思路是这样的: 将被积函数 fN(t) 展开成格根鲍尔多项式的线性组合,利用正交性确定各展开系数。 关键时刻到来——权函数与分母相消,原本让人头疼的奇点,就这样被优雅地「吸收」进去了,留下的是一个完全正则的积分。 随后,借助恒等式 Cₖ^(3/2)(t) = Pₖ₊₁'(t)(格根鲍尔多项式与勒让德多项式导数的关系),以及分部积分,积分进一步化简为勒让德多项式的傅里叶变换形式。 最终,结果可以用余弦积分函数Cin(z)精确表达——一个封闭的解析表达式,无需数值近似,适用于任意环几何结构下的任意N。 谷歌团队在论文中写道——格根鲍尔方法是这6种解法中最优雅的,因为它在数学上最自然地处理了积分的奇点结构。 更惊艳的是:在寻找大N渐近行为时,Gemini还自主发现了与量子场论中费曼参数化的内在联系——这是一个跨越物理子领域的深层数学统一性,连人类研究者都没有预先料到。 人机协作,而非AI单打独斗 要特别说明的是,谷歌团队对这一过程的描述非常诚实—— 初始的6种解法,是树搜索框架自动找到的,格根鲍尔方法最初给出的是一个无穷尾和形式的精确解,数学上无误,但不够简洁。 为了把它化为真正的有限封闭形式,一位人类研究者手动介入,把中间结果喂给一个更大、更强的Gemini Deep Think版本,要求它严格验证已有证明并寻找进一步化简。 在这次人机交互中,高级模型独立发现了方法5(谱沃尔泰拉递推法)初始表述中的一个错误,并在修正后识别出方法5和方法6的等价性——这使得方法6中的无穷尾和可以被精确「折叠」成有限形式,最终得到用余弦积分表达的漂亮解析解。 这是一次协同接力,而非完全自主的AI发现。 但这反而更重要——它展示了一种真实可行的人机协作范式。 谷歌团队在结论中保持了科学谦逊: 「我们并不声称这个物理问题本身具有深刻意义,但AI系统能够轻松解决它,对于加速科学发现过程具有重要潜力。」 但这句话的另一面同样值得细品—— 所谓的「轻松」,是站在600次探索、80%淘汰率之上的。 这不是聪明的运气,这是系统化的智识搜索。 几十年来,物理学家和数学家们普遍认为,符号推导、理论发现,是AI最难触碰的圣域——因为这需要真正的数学直觉,需要从茫茫解法空间中识别出「优雅」。 但格根鲍尔方法告诉我们:AI正在发展出某种类似直觉的能力。 它不是随机试错,它在评估解法的优雅程度,在识别数学结构的深层美感。 这一次,是宇宙弦的引力波谱。 下一次,也许是弦论中更深的方程,也许是量子引力中的核心积分。 人类提出问题,AI系统化探索结构,人类完成最后的意义诠释—— 这种新型科研模式,已经不再是科幻,而是正在被谷歌用一篇论文,白纸黑字地写下来。 「神经符号系统」,AI科学发现的基础设施 值得关注的是,这篇论文所使用的树搜索框架,并非一次性的专项工具,而是有系统性方法论的可复用框架。 谷歌团队在附录中详细公开了: 完整的系统提示词(System Prompt) 评估验证的代码实现 「负向提示」(Negative Prompting)策略——这是强制AI探索不同解法方向的关键技巧 所谓负向提示,就是在AI找到一个有效解法后,明确告诉它「不要再用这个方法」,强制它另辟蹊径,继续探索——这样才有了从方法1到方法6的多样解法。 这种方法论本身,就是一个可以迁移的科研工具。 今天用于宇宙弦,明天可以用于材料科学、量子化学、纯数学中的未解猜想。 AI正在叩开理论物理的大门 回顾这件事,有一个细节让人印象深刻。 在机器学习领域,大家早就习惯了AI能做的事:识别图片、生成文本、下棋、写代码…… 但推导符号数学、独立识别数学结构的奇点并找到消除它的优雅方法——这件事,此前被认为几乎不可能。 因为数学发现不是搜索,是「顿悟」。 然而Gemini Deep Think的案例告诉我们——「顿悟」也许可以被分解成: 足够大的搜索空间 + 足够精密的评估标准 + 足够强的推理能力。 三者叠加在一起,就可以涌现出看起来像「直觉」的东西。 AI,已经准备好成为数学家、物理学家以及所有科学家的最强搭档。 这,也许真的只是一个开始。
阿里千问Qen3.5-4B干翻GPT主力大模型:可本地部署、仅2%参数
快科技3月8日消息,今年除夕当天阿里发布了千问Qwen 3.5系列大模型,之前发布的是高端大尺寸系列,前几天发了四个小尺寸模型Qwen3.5-0.8B/2B/4B/9B。 玩过Qwen模型的网友都知道,小尺寸的AI模型是它们的灵魂,本地部署的吸引力是无法抵挡的,而Qwen 3.5系列这次不仅小,性能也够强,其中9B版性能就媲美gpt-oss-120B。 实际表现可能还要出乎大家的意料,N8 Programs日前实际测试了一下验证官方所说的4B版跟GPT-4o一样好的说法。 先说结论,大多数情况下还是这样,Qwen 3.5-4B在测试中跑赢了GPT-4o这样的主力大模型。 他使用了WildChat数据集里的1000个随机问题,让两个大模型都做答,然后用目前最强的大模型Opus 4.6做判断,最终Qwen 3.5-4B在1000个问答中赢了499个,输了431个,平局70个,可见千问官方还是很实在的宣传。 要知道Qwen 3.5-4B就是个40亿参数量的小模型,而GPT-4o还是很多人的主力模型,其参数量高达2000亿(具体数字OpenAI官方没提过,微软论文证实过),Qwen 3.5-4B只用了后者2%的参数量就做到了性能略强。 Qwen 3.5这几个小模型当然不可能什么都超过目前的顶流模型,但本地部署的话非常合适,理论上8GB显存就能跑4B模型,实际推荐16GB显存,然后再量化优化下,网上有很多教程,感兴趣的网友可以去玩玩。 下面的内容是千问发布时的介绍和性能对比: 0.8B / 2B:极致轻量,端侧首选 特点:体积极小,推理速度极快。 场景:非常适合移动设备、IoT 边缘设备部署,以及低延时的实时交互场景。 4B:轻量级 Agent 的强劲基座 特点:性能强劲,多模态基座模型,适合 Agent。 场景:适合作为轻量级智能体的核心大脑,完美平衡了性能与资源消耗。 9B:紧凑尺寸,越级性能 特点:结构紧凑,但性能媲美 gpt-oss-120B,让人惊艳。 场景:适合需要较高智力水平但受限显存资源的服务器端部署,是性价比极高的通用模型选择。
AI自主提交35%代码!Cursor CEO重磅宣言:第三AI编程时代已至
新智元报道 编辑:peter东 【新智元导读】Cursor提出AI编程「第三时代」:云端智能体具备计算机使用能力,可自主规划、编码、调试、交付,35%代码已由AI完成,程序员转型AI协作架构师。 AI编程的权力结构正在重排: 2024年,Copilot式Tab补全把AI变成效率杠杆; 2025年下半年,智能体把交互推到「提示—响应」的同步循环; 而最近,一种更高阶的形态正在成型——云端Agent以资源解耦与富媒体汇报为前提,具备长时序自主规划与迭代能力,开始以「可评审工件」而非代码片段的形式交付成果。 Cursor披露的数据与用法迁移,正在把这条曲线清晰地画出来。 Cursor CEO:AI软件开发的第三时代 最近,AI编程工具Cursor CEO Michael Truell有感而发,划分了AI软件开发的三个时代。 回顾过去五年,AI赋能软件开发可分为三阶段,每一阶段的用时越来越少。 第一阶段发生在2024年,以Tab自动补全为标志。GitHub Copilot等产品让AI成为「超级输入法」,擅长处理低熵、重复性代码片段。这一阶段的核心价值是「效率杠杆」——开发者仍主导逻辑设计,AI负责减少击键次数。 第二阶段发生在2025下半年,伴随智能体能力的崛起。模型上下文窗口扩大、工具调用能力增强,这让开发者可以通过「提示-响应」的同步循环,指挥AI编写特定模块。但此时的人机交互仍是「手把手」模式:每一步决策、每一段输出,都需要人类实时审阅与纠偏。 在过去一年中,Cursor中的智能体使用量增长了超过15倍。如今,大多数Cursor用户几乎不会再按Tab键。 2025年3月,Cursor的Tab用户数量大约是智能体用户的2.5倍。现在情况已经反转,智能体用户数量是Tab用户的2倍。 当下,AI编程的第三阶段正在加速降临。 Cursor团队在最新博客中提出:新一代智能体将具备在更长时序上自主规划、迭代与交付的能力。它们不再依赖开发者逐条指令,而是像一组资深工程师注册的开发团队,接收目标、拆解任务、调用工具、验证结果,最终以」可评审的工件」形式,向用户交付成果。 云端Agent, 开启并行开发新范式 第三阶段的AI辅助开发,与之前究竟有何不同之处,还需要从第二阶段本地运行的智能体说起,尽管这一阶段看起来不会持续一年时间,却是承上启下的关键。 与Tab相比,智能体在更高的抽象层上工作。它们处理需要上下文,在完成任务时运用判断力,但每一步都需要开发者参与其中。这种实时地交互,再加上智能体会在本地机器上竞争资源这一事实,意味着在同一时间实际可用的智能体只能是少数。 而云端智能体就不存在资源和注意力瓶颈。每个智能体运行在自己的虚拟机上,让开发者可以将任务交给它处理,然后转去做别的事情。智能体会在数小时内持续工作,反复迭代和测试,直到对输出足够有信心,并以一种便于快速审阅的形式,例如日志、视频录像和实时预览等方式向用户汇报进展。 由于智能体提供的预览为用户提供了足够的上下文来评估输出,而无需从零重建每个会话。人的角色也从逐行引导代码编写,转变为定义问题并设定评审标准。 资源解耦与富媒体交互使并行运行多个智能体变得切实可行。 这反映到数据上,就是在Cursor内部的代码提交中,已有35%是由在云端虚拟机中自主运行的智能体创建的。开发者用脚投票,选择了云端智能体这种更高效的方式。 实战场景 智能体如何完成复杂任务 Cursor展示了云端Agent在真实开发场景中的四大应用,分别是 1 构建新功能:智能体接收「为插件组件添加源码链接」的指令后,自主解析文件结构、构造GitHub链接、更新前端逻辑,并录制自己点击验证链接有效性的全过程视频,最终提交可直接合并的代码提交。 2 复现安全漏洞:面对「剪贴板窃取」漏洞描述,智能体自主构建HTML演示页面、启动本地服务器、在应用内浏览器中加载并执行攻击流程,最终输出包含操作录像与截图的详细分析报告,大幅降低安全团队的复现成本。 3 UI自动化测试:智能体对文档站点进行45分钟全流程走查,测试侧边栏、搜索、主题切换等十余项功能,自动生成测试总结与异常截图,将QA效率提升数倍。 4 快速修复与验证:针对「Lint标签动态更新」需求,智能体不仅实现逻辑代码,更在桌面应用中分别测试「有错误」与「无错误」两种状态,录制验证视频确保修复效果符合预期。 这些场景的共同特征是:Agent不再局限于「生成代码片段」,而是具备「端到端交付可验证功能」的完整能力链。 人机重构 程序员成为「AI车队」指挥官 软件开发正变得如自动驾驶一般流畅,在这个未来里,智能体会合并代码提交、管理发布和监控生产环境。我们将从一个开发者使用智能体来创建代码的世界,走向一个由智能体端到端交付已测试功能的世界。 要真正实现这一转变,需要持续改进工具链、模型以及交互模式。开发者在云端智能体时代,需要能协调多智能体间的协同工作,并构建能够从过往运行中学习、随着经验积累而变得更高效的模型。 采用云端智能体这种全新工作方式的开发者通常具有以下三个特征: 1.几乎100%的代码都由agent编写。 2.他们把时间花在拆解问题、审查结果以及提供反馈上。 3.他们会同时启动多个agent,而不是手把手地引导单个agent直至完成。 在这种范式下,AI能写多少代码,取决于人类开发者如何重新定位自身价值。 开发者需要培养的技能要从「手写优雅代码」转向「精准定义问题边界」,「设计鲁棒的验收标准」以及「高效协调多智能体协作」。 编程语言的语法细节或许不再关键,但系统思维、领域知识与质量判断力将变得愈发珍贵。 在这种方式成为软件开发的标准实践之前,还有大量工作要做。在大规模的工业化场景下,那些单个开发者能绕过的不稳定测试,或是被损坏的运行环境,会演变成导致智能体每次运行都被中断的故障。 AI编程工具的开发者需要确保智能体能尽可能高效地运作,并完整获取其所需的工具和上下文。 此外,对于像飞机控制软件这样的涉及生命的场景,人们对智能体开发对软件普遍信心不足。如何确保智能体不会因为幻觉而不进行相应的测试,也需要开发者关注。
英伟达吃下独显市场94%,AMD怎么了?
IT之家 3 月 8 日消息,据市场调研机构 Jon Peddie Research 数据,2025 年台式机独显出货量达 4428 万张,达本十年第二高水平,同比增长近 1000 万张。然而去年大多数卖出去的显卡都是英伟达 GeForce,AMD Radeon 显卡销量则跌到了历史最低。 2025 年全年,行业共出货 4428 万张显卡,高于 2024 年的 3470 万张,增长的主要原因是英伟达推出了 Blackwell 架构的 GeForce RTX 50 系显卡。 台式机独立显卡的销量则在 2025 年第三季度达到巅峰,出货 1200 万张。第四季度出货量 1148 万张,环比略有下降,但高于上一年同期的 840 万张。常规情况下,PC 玩家会在新 3A 大作发售前升级硬件,独显的销售高峰一般会出现在第四季度,但在 2025 年,多种因素导致这一规律并未出现。 Jon Peddie 对此解释道:“这种现象的主要原因是 AIB 市场受到双重挤压:一方面性能越来越强的笔记本、核显如雨后春笋般出现;另一方面高端市场愈发受到价格上涨压力,这与供需关系、显存价格暴涨以及关税有关”。 市场份额方面,英伟达在 2025 年全年制霸市场,第一季度市场份额 92%,第四季度则上升到 94%。相比之下 AMD 在第一季度占 8% 份额,然而到了第四季度下滑到 5%,是 AMD、ATI 历史以来最低水平,原因可能是 RX 9000 系显卡的早期供应不足。 并且 AMD 这边也在不断流失用户,其显卡出货量从第一季度的 74 万张下降到第四季度的 57 万张,这一数字同样是 AMD、ATI 有史以来的最低水平。 不过集显(IT之家注:iGPU)市场这边,AMD 则拥有显著份额,毕竟大部分桌面版锐龙处理器都带有集成显卡。当然这个市场与独显完全不同,用户忠诚度、利润水平都远低于独显。 由于 GPU 供应受限、GDDR 显存价格高企以及地缘政治不确定因素增加,Jon Peddie Research 预计 2026 年台式机显卡市场将同比下降 10%。
00后小孩哥10天AI编程,陈天桥24小时砸3000万!靠大四作业当上CEO
编辑:Aeneas KingHZ 【新智元导读】大四学生,十天Vibe Coding,3个月拿下3000万投资,把毕设做成了公司!随着国产开源项目MiroFish登顶GitHub趋势榜榜首,一个人做出全球爆款的「超级个体」时代,真的来了。 一觉醒来,国产开源AI项目MiroFish登顶GitHub趋势榜榜首! 让人没想到的是,超越OpenAI、谷歌、微软等机构的开源项目的MiroFish,背后是一个国内大四学生,仅仅3个月的时间,就拿下3000万投资。 靠一个AI开源项目,他直接把自己的毕设变成了创业公司,还成为公司CEO? 这不是什么神话,是这个AI时代真实发生在国内的故事。 更神奇的是,此前他的BettaFish项目,也曾登上GitHub全球趋势榜第一。 这两个项目不仅都曾登顶榜首,而且都是靠这位00后小孩哥,在10天内vibe coding出来的。 当我们进入细节,就会发现背后的时代意义:超级个体的时代,真的来了! 当AI工具、开源社区和年轻开发者的力量叠加,一个人,就是一支创新军团。 未来,还会有更多超级个体,产生更多的AI时代创业神话。 大四学生的三个月 从GitHub爆红,到3000万投资 故事的开始,看起来很平常。 2025年夏天,大四学生BaiFu还在为实习焦虑。 那时候,他的升学去向尘埃落定,于是想提前把毕设做完,这样就能腾出手去找实习了。 他没有选择从零手写上万行代码,而是打开Claude Code这类工具,开始了当时非常流行的开发方式——Vibe Coding。 十天之内,他把大学几年的积累整合成一个开源项目,名叫BettaFish。 这是一个AI舆情分析工具,可以自动抓取网络舆情信息,并生成结构化的分析报告。 「微舆」帮助大家破除信息茧房,还原舆情原貌,预测未来走向,辅助决策 用户只需像聊天一样提出分析需求,智能体开始全自动分析国内外30+主流社媒与数百万条大众评论。 技术上,它结合了自动化数据抓取、大模型分析、自动报告生成,最终能输出一份数十页的舆情分析文档。 对很多企业来说,这样的工作通常需要一整个团队完成,而BettaFish尝试用AI将这一过程自动化。 不过BettaFish刚完成时,并没有被寄予太多厚望。甚至BaiFu的博士学长看了之后直接痛批:「这不是一个合格的毕设,你得再花心思改改。」 1000 star后,奇迹出现 项目上线后,果然也没有太大动静。 BaiFu像很多独立开发者一样,尝试各种形式的推广,比如给开源周刊和公众号投稿、在b站发视频、在技术社区发帖等等,但效果并不明显。 经过努力宣传,项目终于到了1k star,没想到,这居然成为BettaFish的第一个流量转折点。 对此,BaiFu已经觉得非常满意,于是写了一篇总结文章,发到小红书上,名为《1K+ Star的开源项目能给一个大学生带来什么》。 谁能想到,文章发布一周后,奇迹出现了! 文章被技术社区多位大V转发、推荐。 随后,BettaFish的GitHub页面开始出现明显的流量爆发,Star数以惊人的速度增长——5K,10K,20K,30K…… 短短几天,项目新增Star就超过了2万! 由此,BettaFish迅速登上GitHub全球趋势榜第一,也成为当时国内AI开发圈讨论最多的开源项目之一。 这个项目爆火后,大量邮件开始涌入BaiFu的邮箱,比如大厂的实习邀请,技术合作邀请,甚至还有投资机构的橄榄枝。 之后,项目的用户数增加,相关需求爆发!大量用户的激增,给他带来了巨大的压力。 盛大的电话 在犹豫不定、陷入迷茫很久之后,Baifu决定All in创业,此时,一个电话,改变了事情的走向。 盛大集团创始人陈天桥看到BettaFish后,展现出极大兴趣,希望和他进一步交流。 当时邮箱爆满的BaiFu,几乎没有时间回复,但盛大团队锲而不舍地一直联系他,最终他被这份热忱感动,同意聊一聊。 在随后的谈话中,BaiFu被打动了。他真切地感受到,盛大对于「拥抱超级个体」这件事,比其他任何公司都认真。 陈天桥直言不讳地表示,BettaFish的技术水平并非特别出色。 但是,BaiFu在项目中展现出的从数据收集、分析到预测全流程的完整规划,以及那种「看见并定义真实有价值的问题,并尝试用AI的新方式去解决」的行动力,正是盛大所看重的。 挂完电话,BaiFu没有半分犹豫,背起行囊只身来到上海,和盛大开始合作。 MiroFish诞生 十天开发第二个项目 在盛大的支持和给予的充分自由下,BaiFu开始着手实现一个新想法。 如果说BettaFish解决的是分析过去,那么新的项目想解决的,就是预测未来。 这个名为MiroFish的项目,核心思路就是构建一个模拟真实世界的数字沙盘。 本质上,MiroFish是由多智能体技术驱动的AI预测引擎。 它能从现实世界提取种子信息,如突发新闻、政策草案和金融信号,并自动构建一个高保真的平行数字世界。 在此空间内,智能体数以千计,构建了一个「平行宇宙」。 而每个智能体拥有独立性格、长期记忆和行为逻辑,可以自由互动并进行社会演化。 这一次,BaiFu再次选择Vibe Coding,依旧神速—— 仅用十天,MiroFish的开发就完成了。 当天晚上,BaiFu看着跑通的程序,激动地录制了一个粗糙的demo,直接递交给陈天桥。 视频递交的24小时内,二人就展开了第二次谈话,陈天桥当场拍板:集团注资3000万,全力支持MiroFish的深度孵化! 一夜之间,BaiFu从盛大实习生,变身为AI创业公司的CEO。 MiroFish比BettaFish走的更远: BettaFish分析的终点,变成了MiroFish预测的起点。 从原始数据到智能决策,真正的闭环开始形成。 MiroFish团队的目标很明确:打造一个能够模拟现实世界的AI预测系统,从金融市场到社会事件,从商业决策到创意实验,让未来在数字世界中提前演化。 凡是现实中可变现的预测任务,都是MiroFish的目标场景。 MiroFish的目标应用场景:金融决策支持、政策舆论预测、公关危机模拟、营销策略测试、故事与虚构推演、学术研究支持 目前,该项目在Github上已有5.7K星标🌟,体验网站如下👇: 连续两个开源项目都登顶GitHub趋势榜第一,并且都是十天。 BaiFu成功证明了「Vibe coding,潜力无穷」,而他本身是超级个体的中国样本! 不止硅谷, 一人公司正成为主流 这两个项目之所以都能在十天完成,很大程度上,就是得益于Vibe Coding这种全新的开发模型。 有目共睹:AI,正在改变个人生产力的边界。 过去,一个完整的产品需要大量岗位去完成。而如今,一个人借助AI工具,就可以成为一个团队。 前者可以在10天做出100分产品,后者却可以在1天内,就做出70分的产品。AI时代,速度本身就是竞争力! 这种「一人公司」(One-Person Company,简称OPC)的超级个体,如今已经在硅谷成为主流。 最明显的例子,就是最近炙手可热的龙虾之父——Peter Steinberger了。 这只风靡全球的龙虾智能体OpenClaw,仅仅出自他一人之手。 仅凭一人之力,他做出的OpenClaw,就彻底颠覆了消费级智能体! 巧的是,OpenClaw所代表的范式转移,恰恰为一个人公司提供了最核心的虚拟员工,让这场革命成为可能。 类似的例子,还有Anthropic的Claude Code之父Boris Cherny。要知道,Claude Code完全是他的一个副业项目! 在30天里,Boris Cherny曾经新增了4万行代码,删除了3.8万行代码,但每一行代码都是由Claude Code+Opus 4.5编写的 此外,还有用AI营销引爆全城的23岁CEO Jaspar Carmichael-Jack。 凭借旧金山街头极具争议的广告牌,他让自己的一个人公司Artisan一夜成名,筹集了超过3500万美元的资金。 广告牌:「停止雇佣人类,雇佣AI销售智能体Ava」 21岁的Karun Kaushik和同学在MIT宿舍里做出的AI工具Delve,切入了一个极其专业的领域——数据合规,瞄准AI大潮下所有公司面临的紧箍咒。 最终,Delve成为了融资3530万美元的大公司,仅由两个大学生做出。 「一人公司」商业模式最成功的践行者,应该就是Dan Koe了。 他的一篇《一天修复你的整个人生》在X平台获得1.5亿浏览量,但他真正的财富密码,是背后年入超400万美元的付费订阅、电子书和AI工具帝国。 他教会无数人如何利用AI辅助写作、建立个人品牌,将「成为超级个体」本身,直接做成了一门大生意。 类似的例子,不胜枚举。 这些案例背后其实指向的是同一件事: AI正在把过去分散在多个岗位上的能力,压缩到一个人身上。 早在2024年,OpenAI的CEO奥特曼就曾公开预言:「一人独角兽即将到来」。 随后,这个观点被YC、a16z等VC机构放大为共识。 Carta的量化数据表明:如今36.3%的新公司,都是solo founder创立的。 这就更加证明,「一人公司」的理念不是炒作,而是真实注册与融资行为变化。 硅谷已用无数案例证明:「一人公司」正成为主流的创业路径。中国,也在快速跟进。 对于这个时代, BaiFu自己已有判断:「知识正在被平权化,很多过去需要十倍百倍精力才能摸到门槛的东西,很快都会被拉到大众面前,只是时间问题。」 「超级个体」不只体现在编程上。 之前,要找一个既懂编程又懂AI、还会剪辑做动画的人,几乎难如登天;但现在,用AI视频剪辑+Vibe Coding工具,做到「编程+AI+剪辑动画」并不难。 现在还处于早期阶段,完全可以想象一两年后: 一个人完成调研、设计、美术、开发、营销的全部动作,会越来越常见;成本越来越低,但回报上限越来越高。 工具在加速,协作范式在加速,人的边界也在被推开。 未来,他相信想象力、idea成为新的生产力,而AI成为关键—— 我们应该广泛学习,广泛驾驭各种AI工具,让想象力成为第一生产力; 技术不再是唯一壁垒,一个切中时代脉搏的idea其价值被空前放大; 速度决定生死,市场机会稍纵即逝; 在几天内将想法变为现实并推向市场,关键在利用AI工具的能力。 这就是他所理解的Vibe Coding,他所相信的超级个体时代。 MiroFish真正让人兴奋的地方,在于它告诉所有人: 下一个改写行业的人,可能不在大厂会议室里,而在宿舍、出租屋、咖啡馆,甚至就在你身边。 超级个体的浪潮,已经来了。 未来已来,而下一批冲出来的人,会不会有你?
抓住苹果AI空窗期 三星CEO:愿与OpenAI等更多公司达成战略合作
三星希望在手机中整合更多AI服务 凤凰网科技讯 北京时间3月8日,据《金融时报》报道,三星电子希望与更多AI公司达成新的战略合作,将多种模型集成到智能手机中,以削弱苹果公司在全球市场的领先地位。 三星电子联席CEO、消费者设备业务负责人卢泰文(TM Roh)对《金融时报》表示,该公司愿意与OpenAI等更多AI公司达成“战略合作”。三星最近已将Perplexity AI搜索引擎添加到其移动操作系统中。 用多种AI服务吸引用户 卢泰文指出,三星的研究显示,消费者越来越多地同时使用多个AI服务,而不是依赖单一平台。他补充说,在苹果尚未推出去年发布的许多AI功能的市场环境下,三星提供更多AI选择可能有助于Galaxy手机脱颖而出。 “我们比竞争对手更早开始准备,这就是我们能够在移动AI领域取得并保持领先的原因。”卢泰文称。 卢泰文 三星这一动作凸显出,AI正成为争夺智能手机用户的下一条战线。随着全球手机销量停滞,硬件升级带来的提升越来越有限,制造商正押注于AI驱动的助手和搜索工具,希望它们能够影响消费者下一次购买手机时选择哪个品牌。研究机构Counterpoint Research上周预测,2026年全球手机出货量将下降12%,创下自2013年以来的最低年度水平。 上周,三星发布了Galaxy S26系列手机,其中包含了一套新的AI工具。三星已将Perplexity加入其操作系统,允许用户通过“Hey Plex”唤醒语音助手。三星还将谷歌的Gemini模型集成到设备中,并在上周展示了一款无需用户按键即可预订出租车的语音助手。 “消费者不再局限于单一的AI平台,而是正在使用多种AI模型,”卢泰文表示,“我们对所有解决方案持开放态度。我相信,选择多样化是Galaxy AI吸引消费者的关键。” 苹果全球手机份额领先三星 相比之下,苹果在更新其Apple Intelligence工具套件方面进展缓慢,该公司在今年1月与谷歌达成协议,将使用后者的Gemini模型。苹果还借助OpenAI的ChatGPT,为设备加入更智能的搜索和写作功能。苹果预计将在今年推出全面升级的Siri语音助手。 内存短缺 三星还决定将S26系列两款机型在美国的售价提高100美元,部分原因是内存芯片供应紧张。SK海力士、美光和三星等内存供应商正优先为AI数据中心生产高带宽内存,而不是智能手机所使用的内存芯片。 “这在很大程度上受到了当前AI基础设施持续扩张的影响。”卢泰文表示。 IDC本周警告称,一场“海啸般的冲击”正在袭击市场,将逆转“长达十年的消费者能够以更低价格买到配置更高智能手机的趋势”。去年,苹果选择不对新款iPhone 17系列进行涨价,这出乎了一些分析师的预料。新手机的销售帮助苹果实现了创纪录的假日季度业绩。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
高中生AI创业,现在只招龙虾员工:每月成本2800
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 高中毕业不上大学,没学过一行代码,靠一群 开起了公司。 每月运营成本400美元,攒下了450+付费用户。 现在的虾法真是越来越好玩了。 这家全龙虾公司,没有一个真人打工人,却有真人公司的完整组织架构。 设计、开发、研究、内容、运营部门一个不落,每只龙虾各司其职,主打一个专业高效。 写代码、审Bug、抓X平台热点、剪辑视频、写Reddit营销贴,甚至做深度行业研究、出商业策略手册……这些原本需要专业人士熬夜硬肝的活儿,这群龙虾员工全能干。 咱就是说,小成本创业真被养虾人玩明白了。 全龙虾公司 肯定有人好奇,400美元花在哪—— 250美元拿下Claude Max订阅,剩下150美元充各类API调用额度。 6个核心龙虾用Claude保证质量,其余的全选低成本API控制开支,主打一个把钱花在刀刃上。 当然了,在这400美元之前,小哥先搞了一台16GB+512GB的Mac Mini来运行OpenClaw环境。 接下来说说这家营销公司是怎么运转的。 首先是总调度贾维斯,妥妥的团队大脑。 贾维斯基于Opus 4.6,通过Claude Max OAuth运行,能自动把不同任务精准派给对应的AI,全程不用人工插手。 比如,检测到YouTube URL,直接转给视频剪辑AI;出了深度研究报告,第一时间分配给内容创作AI……在贾维斯的统筹下,各个部门的龙虾员工按部就班,各展所长。 研究部门的Atlas是团队的信息雷达,靠着Brave Search、X API、FireCrawl等多种API每小时扫一遍全网做深度研究,把碎片化信息整合成行业报告。 内容部门有文案撰写员Scribe和潮流侦察员Trendy组成的黄金搭档。 Scribe基于GLM 5,严格跟着Atlas的研究成果走,每3小时产出一篇优质文章; Trendy则是热点捕手,每2小时扫一遍X、Reddit等平台的热门趋势,把流量风口及时反馈给Scribe,让内容创作紧跟热点。 设计部门则承包了公司所有视觉需求,从静态图像到动态视频,从平面设计到动画内容,全有专门的AI负责。 图片设计基于Nano Banana Pro,视频制作靠Higgsfield等工具,还有动态设计,结合Claude Code做动态图形和动画。 技术开发和质量保障这块,靠Clawed和Sentinel保驾护航。 高级开发人员Clawed每天晚上11点自动审查代码库,还会提交优化请求。 而且它能在Claude Code里并行启动多个AI,分工协作处理开发任务。 Sentinel质检员每2小时对Clawed的请求做二次审查,实时监控代码漏洞,一边开发一边校验。 增长部门由Atlas和Scribe联手搞定,Atlas通过深度研究挖掘Reddit等平台用户的真实需求,找准痛点和兴趣点,Scribe再根据这些需求写针对性的营销贴和种草内容,精准触达目标用户。 运营方面则有Clipper和Ryder两位得力干将,Clipper专门负责视频剪辑和发布排期,把做好的视频按平台规则优化,再制定合理的发布计划,实现多平台分发; Ryder则是创始人的私人助理,处理日常工作琐事,让老板只管战略,不用操心杂事。 这么一套下来,这个零真人员工的公司就可以24小时不停运转,接单赚钱了。 创始人0代码基础 打造出这套高效AI协作体系的创业者,不仅是个刚毕业的高中生,还完全没学过代码。 在开始创办这家公司之前,他甚至不知道什么是GitHub、什么是IDE,甚至不知道什么是终端。 当时对AP 的全部认知也仅限于“它是调用另一个端点的某种东西”。 一切的一切,只是因为刷油管时看到了那只虾…… 那他怎么指挥这个龙虾军团呢? 最重要的还是提示词。 对于零代码创业者来说,提示词就是和AI沟通的专属语言。 虽然不会写代码,但你肯定会下命令吧(doge)。 这位创业者靠着大量提示词头脑风暴,给每个AI制定了精准详细的工作指令,明确了工作标准、输出要求和协作逻辑,让AI能精准理解并执行任务; 他还自建了一个可视化任务控制中心,就像一个AI办公室一样,让整个AI团队的工作流程一目了然。 通过这个控制中心,他能实时监控任务推进情况,随时根据业务需求调整指令。 当被问到是否会扩大公司规模时,这位小哥直言: 未来我不需要雇佣真正的开发人员,我只想雇那些“拥有自己AI团队”的高效管理者。 意思是以后创业养一池子龙虾就能躺赚吗…… One More Thing 有人当龙虾老板,也有不少人嘛…… 直接搞了个赛博朝廷!号令八方,指点江山,那叫一个过瘾。 话说,你的龙虾军团组到第几只了?
千问首款AI硬件 千问AI眼镜G1开售:国补1997元起
快科技3月8日消息,今日,千问AI眼镜G1正式开售,叠加国补后到手价1997元起。 作为千问推出的首款AI硬件产品,G1将全面接入千问APP,首批点外卖、订酒店等办事功能预计3月底向用户开放。 ID设计上,G1采用轻量化设计,整机重量约40g,配备8mm极细镜腿,佩戴体验接近普通光学眼镜。 同时搭配天鹅颈可调节支架与FDA食品级硅胶鼻托,可满足全天候舒适佩戴。 在镜片方面,产品提供多种选择,除平光镜外,还提供太阳镜和智能变色镜,并支持7种多彩镜片定制。 G1搭载最新一代千问大模型,支持实况对话,快问快答、拍题答疑、AI同声克隆翻译、看一下支付、行程提醒、同款比价等功能。 硬件方面,G1配备高通骁龙AR1和恒玄BES2800双旗舰芯片,内置64GB存储空间,拥有5麦克风阵列、骨传导技术以及大振膜双音圈扬声器。 值得一提的是,该产品综合续航9小时,首创右镜腿热插拔换电技术,搭配额外2次满电续航的MiniBag换电仓(700mAh),实现换电不断电,号称“无限续航”,告别电量焦虑。 影像上,G1采用行业首创Super Raw暗光增强技术,显著提升暗光环境下的拍摄画质与稳定性,夜景环境下也能稳定出片。 并且具备手机级影像技术,可实现0.6秒极速抓拍、3K视频录制,并通过AI超分超帧技术输出4K视频。
小米们开始下场“养虾”,豆包手机应如何接招?
文 | AI价值官,作者丨星 野,编 辑丨美 圻 三个月前,努比亚M153首销售罄的消息刷屏科技圈,豆包手机助手让人第一次直观感受到AI真正"接管"手机是什么体验。但热度还未散去,微信、支付宝、各大银行App的封锁接踵而至。差不多同一时间,OpenClaw在开发者圈以另一种方式验证了同一件事的价值,只不过是在电脑端而非移动端。 随着谷歌联手三星推出Gemini手机智能体,小米开始下场“养虾”,由豆包手机助手率先开启的手机AI Agent赛道,竞争格局已迎来关键转变,成为软件厂商、手机厂商、操作系统三路人马的同场竞技。 三条路线的技术底座不同,生态身份不同,面临的阻力也各自迥异。豆包的读屏方案、谷歌的AppFunctions框架、小米的系统原生API——表面上都在解同一道题,内核的逻辑却大相径庭。谁的方案能真正跑通,取决于它在整个移动生态中处于什么位置,而不只是技术本身的优劣。 豆包手机走到今天,面对的已经不只是应用生态的阻力,还有手机厂商用系统级权限构筑起来的新壁垒。但字节的处境,也并非外界看起来那样被动。它在B端的MCP布局、飞书积累的协议化经验、以及独家内容技术生态,都是手机厂商无法复制的资产。问题在于,如何把这些资产转化成应用厂商愿意合作、硬件厂商无法忽视的实际筹码。 手机版“龙虾”来了,但第三方应用还没跟上 最近一段时间,一只叫做OpenClaw的"龙虾"火出了AI圈,“赛博养虾”快速出现人传人现象。不过,对大多数普通用户来说,OpenClaw的门槛依然不低——它运行在电脑端,需要一定的技术背景才能部署和使用,距离真正的大众普及还有相当距离。 3月6日,小米正式启动移动端系统级智能体Xiaomi miclaw的小范围封闭测试。雷军在转发公告时只写了三个字:"手机龙虾"。这是小米对OpenClaw热潮的正面回应,也是手机厂商"养虾"浪潮中率先亮相的那一只。意味着这场AI Agent革命的战场,正式从极客的电脑延伸到了普通用户的手机。 从官方介绍来看,miclaw的核心卖点是把手机系统能力变成AI可直接调用的工具集。Xiaomi miclaw可将手机系统能力封装为超过50项工具,并持续扩展,即便执行20步复杂操作也能保持需求连贯性。 生态联动是miclaw目前最核心的差异化能力。小米深耕IoT多年,米家生态接入设备已超过10亿台,而miclaw第一次让这个庞大的设备矩阵真正被AI统一调度——读取设备状态、发送控制指令,在用户授权的情况下,所有接入米家的智能设备都能成为AI可驱动的终端。 对于第三方应用的接入,小米给出了两条路径:一是通过MCP协议,PC端已有的数千个MCP工具理论上可以直接接入手机AI;二是发布了第三方应用接入SDK,第三方App主动声明自己能提供的工具能力,Xiaomi miclaw动态发现和调用。 这两条路径都有一个醒目的前提:第三方需要"主动"接入。从目前公开的演示和官方描述来看,微信、支付宝等高频第三方应用,并未出现在任何实际操作场景之中。小米也明确将miclaw定位为"早期技术探索阶段"。 即便第三方生态的接入仍是未解题,miclaw已经构建出一个其他厂商难以复制的独特优势。一个小米重度用户,已经可以用一句话调度家里所有的智能设备、读取全部系统通知、管理日历和健康数据,并在小米自有应用矩阵里完成相当一部分的日常任务。 值得关注的是,小米并不会是唯一一家“养虾”的厂商。华为、OPPO、vivo均已在系统级Agent方向持续投入。对用户而言,未来可能无需额外安装任何应用,通过系统OTA更新就能获得Agent能力,普及门槛将降至历史最低。 但对应用生态而言,当各家手机厂商同时推出各自的标准化调用体系,意味着美团、携程、支付宝等平台需要面对多套SDK的接入请求——在商业谈判尚未理顺的阶段,这可能反而形成适配压力,让应用厂商在开放力度上更加审慎。 更深远的影响在于:当系统级Agent成为每部手机的标配,AI调度应用的方式将逐步取代用户主动打开App的习惯,应用分发逻辑将被重写。谁掌握了AI调度的入口,谁就掌握了下一代流量的分配权——而这,恰恰是每一家手机厂商都清楚的终局。 GUI向左,OpenClaw向右 AI手机的正确姿势是什么? 如果说2025年底豆包手机助手的亮相,是一场模型公司与硬件厂商联合的突袭。到了2026年开年,这场战役的格局已经今非昔比。手机厂商、操作系统、AI模型公司正在同一条赛道上加速,目标高度一致:让AI接管手机操作,成为用户的全能代理。 要理解它们的本质差异,需要先厘清一个更底层的技术问题:AI到底应该怎样"操作"手机? OpenClaw的核心设计理念是本地运行,基于MCP协议的三层结构——核心层调用大模型,适配层连接平台,技能层执行任务——它不依赖视觉识别,而是通过系统API直接执行指令。 豆包手机助手的路径则截然相反:用户下指令,手机截屏发给云端大模型,模型看懂屏幕后返回操作指令,手机执行,再截屏,如此循环。这是一种彻底的"视觉仿人"路线,AI像人一样盯着屏幕干活。 这套读屏路线的早期成效有目共睹。2025年12月1日,豆包手机助手技术预览版发布,搭载该助手的努比亚M153工程样机首批3万台一夜售罄,在科技圈引发现象级关注。跨平台比价点外卖、自动整理旅行攻略、批量处理消息,几乎覆盖手机日常使用的全场景,只在付款等关键环节需要人工介入。 但这一技术路线,与现有移动应用生态存在天然冲突。实际落地中,微信曾触发“登录环境异常” 安全提示,部分银行App也弹窗要求关闭AI助手相关功能,豆包因此宣布暂停金融场景的AI自动操作。这背后既有用户隐私与安全的合规考量,更核心的是商业利益博弈:AI时代流量入口、用户数据与操作链路的价值愈发关键,读屏路线试图绕开现有App壁垒,势必面临极大的生态阻力。 谷歌和三星在2026年2月给出了一条更接近OpenClaw精神的路径。三星Galaxy Unpacked2026发布会上,谷歌安卓生态系统总裁萨马特展示了Gemini智能体,能够在后台自动完成订餐、叫车、购物等跨应用复杂任务。 谷歌披露了一套名为"AppFunctions"的底层框架,类似MCP协议的本地版本,通过AppFunctions,应用开发者可以定义功能接口,让Gemini更精准地调用;同时谷歌也在开发"UI自动化框架",让AI能在没有官方适配的应用上通过视觉识别完成任务。这是一套"双保险"路线:优先推动应用主动开放API,同时保留视觉读屏作为备用。 该方案目前仅面向美国、韩国的Galaxy S26与Pixel 10 系列推出Beta版,仅覆盖外卖、网约车等少量合作场景,能力落地高度依赖应用方的适配与授权。 对此,中兴通讯终端事业部总裁、努比亚总裁倪飞直白评价:"看到三星S26+Gemini的组合,同样采用了GUI方式,但只实现了努比亚M153的局部能力,还是有些遗憾。"这个对比并非毫无道理,但恰好说明了两条路线的本质取舍——豆包走 “先落地、再协调” 的快速覆盖路线,谷歌+三星走 “先定生态规则、再逐步开放” 的稳妥路线。 小米miclaw 的整体思路与谷歌高度相近,但二者的优势各有侧重:谷歌掌控安卓全球系统级底层入口,而小米作为国内头部手机厂商,依托自身终端与用户体量,在国内应用生态的实际落地对接中更具话语权。 国内六家主流手机厂商的智能体用户规模,一年内合计增长6500万,整体达到5.35亿。这一体量让手机厂商在与第三方应用的合作中更具主动权,接入开放SDK,可借助系统级AI入口获得新的用户触达渠道,双方更易形成互利的合作关系。 无论是谷歌AppFunctions还是小米的开放SDK,核心难题都在于应用厂商愿意开放的能力边界。AI智能体替代用户完成操作后,用户无需打开App,平台的广告曝光、用户交互、流量入口价值都会被大幅削弱,甚至可能冲击现有App的产品形态与核心利益,这也是应用方存在顾虑的重要原因。 这也决定了这类API开放路线能落地的场景,仅局限于应用方主动让渡的范围,难以完全满足用户的全场景需求。 三条路线的问题由此清晰呈现。豆包手机路线覆盖场景最广、用户感知最直接,但应用封锁的压力始终存在。谷歌+三星路线规范性最强,有安卓生态和庞大应用关系网络托底,但先谈妥再落地的节奏,决定了它能覆盖的场景深度有限。小米miclaw路线话语权最高,系统原生的身份让生态谈判更顺畅,但第三方核心应用的接入同样没有现成答案。 这场博弈的核心矛盾不是技术问题,而是利益问题。谁能让超级App相信开放API带来的增量收益大于被AI抽走流量的损失,谁才能真正打通手机智能体的全场景能力。在这个问题没有答案之前,所有路线都只是在各自已经谈妥的一亩三分地里,跑得尽可能顺畅。 豆包手机助手的下一步 应该怎么走? 豆包手机是这场竞赛的开创者,但开创者未必是终局的赢家。面对手机厂商集体入场,字节需要找到一条与硬件厂商摩擦最小、自身优势发挥最大的路线。 字节初期以纯大模型供应商身份推进合作遇阻,转而通过与手机厂商开展系统级深度合作落地豆包手机助手。华为、小米、OPPO、vivo 均将自有智能体视为系统核心与流量分配入口,不愿向第三方开放系统级主导权。在此背景下,字节一边持续与多家手机厂商洽谈合作,一边优先选择与中兴等厂商联手,以降低合作门槛、快速验证能力落地。 这条路线的逻辑是清晰的:将AI能力深度植入硬件,打造"智能中枢"而非自有品牌手机。据供应链消息,字节已于2025年底开启豆包手机助手正式版项目,豆包二代手机预计将于2026年第二季度中后期发布,依旧延续与中兴努比亚的合作模式。 豆包二代最关键的技术决策,是如何处理GUI读屏与标准化API调用之间的关系。两者的根本差异在于:读屏是AI去适应人类的操作界面,API调用是应用主动为AI提供能力接口,前者灵活但脆弱,后者稳定但依赖应用方的主动配合。 两套方案并行,是豆包二代目前最现实的路径。阿里在内的部分App与字节达成停火协议,允许努比亚设备正常登录,豆包主动限制操作场景;另有手机厂商智能体负责人透露,主动寻求合作的App大厂明显增多了。 目前豆包团队已与打车、外卖、订票等领域的部分平台达成常用权限合作,这是从读屏向API调用迁移的早期信号。已谈妥的高频场景推进标准化调用,尚未覆盖的长尾场景保留读屏作为补充——这是向协议化路线逐步靠拢的过渡方案,而非一次性的路线切换。 在这个过程中,定位的调整比技术路线的切换更为关键。OpenClaw之所以让大厂放心,是因为它不试图成为用户与数字世界之间的唯一中介,只是提供工具,让用户自己决定用谁的模型、部署在谁的云上。豆包如果能将定位从"流量中介"调整为"能力增强层",主动开放接口、让应用厂商也能从AI调度中获益,封锁的动机自然会弱化。 字节在B端积累的MCP工程化经验,是支撑这一转变的重要基础。飞书的Lark MCP Server已将消息、日历、云文档、多维表格等协作能力以MCP标准对外开放,这套标准化能力的沉淀,意味着豆包在推进C端API接入时有完整的技术框架可以直接复用。 对字节而言,豆包的机会不在于成为下一个流量控制点,而在于能否在开放生态中成为最不可替代的能力提供者。开创一个赛道,和赢得一个赛道,从来都是两件事——但对字节来说,至少这场仗还远没有打完。
通研院重磅成果!一套策略让人形机器人学会后空翻、霹雳舞,准确率超90%
作者 | 江宇 编辑 | 漠影 今年春晚,人形机器人再次成为舞台上的焦点。 相比去年颤颤巍巍地扭秧歌,宇树人形机器人已经能够流畅地完成武术、双节棍、醉拳等一系列表演,一波丝滑操作让全网直呼惊艳,也让大众真切感受到人形机器人技术的进步。 随着人形机器人运动能力持续突破,一些支撑这些极限动作的关键技术也开始浮出水面。 近日,北京通用人工智能研究院(简称“通研院”)发布并开源新一代人形机器人通用运动框架OmniXtreme(通极)。 该框架让机器人能够通过一套统一策略完成包括后空翻、托马斯全旋、武术踢击等在内的多种高动态动作,并在真实机器人上实现了超过90%的成功率。 该成果提出了一种新的训练路径:不再为每个动作单独训练策略,而是通过生成式模型与强化学习结合的方式,让机器人掌握一整类极限运动能力。 通研院研究员贾宝雄在接受智东西采访时称:“过去很多机器人控制模型都需要针对单个动作反复调参。OmniXtreme的核心目标,就是找到一种统一策略,让机器人能够学习并泛化不同类型的极限动作。” 一、从“太奶”到“武神”,人形机器人的运动能力跃迁 这一轮人形机器人的火热出圈,可以追溯到2024年的北京大学春季运动会。当时,北京大学智能学院学生方阵中的机器人因步态缓慢、动作僵硬,被网友戏称为“太奶机器人”。 2024年4月,北京大学春季运动会智能学院学生方阵 此后两年,人形机器人运动控制能力快速迭代。 2025年蛇年春晚,机器人已经可以完成扭秧歌等舞蹈动作,但整体动作仍然偏机械。同年8月,在首届世界人形机器人运动会上,通研院团队凭借融合探戈、太极、恰恰的舞蹈表演,获得单机舞蹈比赛冠军。 2025年8月,通研院在首届世界人形机器人运动会上获得单机舞蹈比赛冠军 到2026年春晚,《武bot》节目中机器人完成武术动作,运动能力进一步突破。 在贾宝雄看来,这一变化背后是一种“技术破壁”,他对智东西形容这一过程时用了一个词:“破次元壁”。“以前机器人更多停留在实验室或者科研展示中,很少有人会觉得它能做到现在这种程度。但随着算法和硬件快速迭代,我们逐渐接受机器人不仅能跳舞,还能完成很多高难度动作。” 二、一套算法完成极限动作,OmniXtreme解决“多动作控制难题” 让机器人完成翻腾、倒立、霹雳舞等高动态动作,一直是机器人控制领域的难题。 近年来,强化学习成为主流技术路线。通过大规模仿真训练,机器人可以逐渐学会复杂动作。但当动作种类越来越多时,系统往往会面临新的问题——动作越多,控制精度越下降。 OmniXtreme试图解决的正是这个问题,该框架采用一种两阶段学习机制。 第一阶段,研究团队先为不同动作训练多个“专家策略”,再利用生成式建模方法,将这些专家能力融合为统一策略。这一过程借鉴了生成模型中的Flow Matching技术,使系统能够学习“动作分布”,而不是简单的动作映射。 机器人执行OmniXtreme(通极)框架完成极限运动动作 贾宝雄用一个类比解释这一过程:“可以把它理解为先让机器人去模仿很多顶级舞者的动作,然后再在这个基础上通过强化学习不断调整,使它能够在真实环境中稳定完成这些动作。” 相比传统强化学习需要不断通过奖励函数逼近目标动作,生成式模型在一开始就能建立更完整的动作表达,因此在多动作场景下具有更好的泛化能力。 二、跨过Sim2Real,人形机器人终于能在真实世界翻跟头 在人形机器人研究中,Sim2Real(仿真到真实)一直是核心挑战。很多动作在仿真环境中可以完成,但部署到真实机器人时往往会失败。 OmniXtreme的第二阶段训练,重点解决的正是这一问题。研究团队在强化学习过程中加入了大量真实物理因素,例如: •电机扭矩—速度关系建模 •制动功率限制 •电池能量传递模型 •更真实的执行器物理模拟 这些设计显著提升了策略在真实机器人上的可执行性。贾宝雄告诉智东西,过去很多团队在部署时需要通过网线连接主机进行控制,而OmniXtreme的目标是实现完全上机运行。 “真正的难点不只是算法本身,还包括模型推理效率和硬件适配。如果这些问题解决,再加上稳定的控制模型,就可以实现现在这种真实部署效果。”实验结果显示,在真实机器人测试中,该方法在多种高动态动作任务上的成功率超过90%。 真机部署成功率 在不少人看来,翻跟头、跳舞等动作更像“炫技”,似乎与实际应用关系不大。对此,贾宝雄给出了另一种解释:“从科研角度来说,如果机器人能完成这些极限动作,那么在人类能做到的工作场景里,它通常也能胜任。” 他将这一过程比作“先强身健体”,还补充道:“如果机器人能够掌握人类极限运动的控制能力,那么在工业、服务等场景中的任务执行,其实反而会更容易。” 因此,极限运动能力往往被视为机器人控制能力的“上限测试”。 四、 企业做本体、研究院做大脑,一条人形机器人研发路径浮现 值得一提的是,这项研究的主要作者均来自北京通用人工智能研究院通用人工智能协同攻关合作体人才培养计划(简称“通计划”)的联培博士生。 在研发模式上,通研院采用了一种分工协作的路径:企业负责机器人本体,研究院负责核心智能算法。例如,通研院与宇树科技合作建设具身智能联合实验室展开协同研究。 2025年9月,通研院在国际机器人学习大会CoRL获杰出论文奖 贾宝雄介绍,很多技术突破其实来自双方工程师之间的交流,“有些仿真和现实之间的差距,是我们和硬件工程师一起讨论后才发现的。” 在产业化方面,通研院还孵化了具身智能创业公司德塔智能(Delta Intelligence)。德塔智能通过通研院积累的技术能力,在工业制造、巡检、家居等场景中探索人形机器人的实际应用。目前相关技术已经在电网巡检、汽车制造等场景开展测试。 支撑这套路径的,还有通研院的人才机制。OmniXtreme的研发团队主要来自通研院“通计划”博士生培养项目。该项目由通研院联合全国多所高校开展,目前已培养300余名人工智能领域博士生。 贾宝雄介绍称,团队目前约有10至20名博士生参与人形机器人研究,“很多学生既在研究院做算法,也会去企业和工程师一起解决真实问题。” 结语:下一步是让机器人真正走进现实 在贾宝雄看来,人形机器人接下来有两个方向会同时推进。 一方面,技术仍然会继续挑战更高难度动作,例如跑酷、复杂环境运动等。另一方面,机器人也需要逐渐进入真实生活场景。 “未来机器人既可能像现在这样参与比赛,也可能成为日常生活中的助手,”他说。 当运动能力、感知能力和自主决策能力逐渐融合,人形机器人距离真正进入现实世界,也许只差最后一次“破壁”。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。