行业分类:
加载中...
头条分类:
加载中...
2nm芯片量产落地!台积电悄悄“掀桌”,三星英特尔慌了
新智元报道 编辑:元宇 【新智元导读】台积电悄悄按下了「2nm」量产启动键,标志着先进芯片制程正式迈入2nm时代,拉开了新一轮半导体技术竞赛的序幕。 台积电2nm制程芯片已投入量产! 没有盛大的产品发布,只是在官网的技术介绍页面上低调提了一句: 台积电2nm(N2)技术已按计划于2025年第四季度投入量产。 简单的一句话,背后是半导体技术物理极限的一次重大突破,标志着台积电2nm级制程进入量产阶段,全球科技迈入了2nm芯片的新时代。 据台积电官方介绍,其N2技术采用了第一代纳米片晶体管(nanosheet transistor)技术。 与已经非常优秀的N3E工艺相比,N2技术在性能与功耗方面实现了全节点的显著提升: 在同样功耗下,性能(速度)提升10%–15%。 在同样速度下,功耗降低25%–30%。 这意味着我们手中的智能手机、驱动AI世界的庞大算力、以及未来一切智能设备,都即将迎来一场性能革命。 位于台湾高雄的晶圆二十二厂(Fab 22)是台积电2nm制程的生产基地 此前台积电已多次表示N2芯片将于2025年第四季度按计划进入量产阶段,此举也意味着该项计划现已兑现。 由「鳍」到「片」 突破3nm极限 一切变革,都始于最微观的结构。 过去十年,从22nm到3nm,芯片行业一直依赖着一项名为「鳍式场效应晶体管」(FinFET)的关键技术。 你可以把它想象成一栋栋竖起来的「小鳍」,电流就像在这些鳍片构成的通道里穿行,而栅极(Gate)从三面包裹着它,像一只手一样控制着电流的通断。 这个结构非常成功,曾支撑了摩尔定律的指数级迭代。 但当工艺逼近3nm,物理极限的墙壁也随之而来: 「小鳍」变得越来越薄,漏电现象就像一个无法堵住的窟窿,让功耗与性能的平衡也越来越难以为继。 台积电的N2工艺采用了一项全新的革命性技术——环栅(Gate-All-Around,GAA)纳米片晶体管(nanosheet transistor)。 如果说FinFET是栅极从「三面」控制电流,而GAA纳米片晶体管的栅极可以将整个电流通道「四面」完全包裹起来。 该结构将原来的电流通道由竖立的「鳍」变成了水平堆叠的「纳米片」,栅极可以从四面「360度无死角拥抱」通道,好处也是显而易见。 首先,它降低了功耗。 由于改善了静电控制,可以更精准地命令数以亿计的晶体管「开启」或「关闭」,大大减少了漏电,从而在根本上降低了功耗。 其次,单位空间内可以实现更强的性能。 这种堆叠的纳米片结构,让工程师们可以在同样的空间里,塞下更多的晶体管,最终提高晶体管密度。 相对于纯逻辑电路的设计,N2P(N2系列的延伸)工艺的晶体管密度比前代N3E提升了约20%。 这表明芯片可以变得更小,或者在同样大小下,集成更强大的功能。 此外,N2还在供电网络中增加了超高性能金属-绝缘体-金属(Super-High-Performance Metal-Insulator-Metal,SHPMIM)电容器。 据台积电公开资料及媒体转述,SHPMIM相对前代电容容量密度提升逾2倍,Rs/Rc降低约50%,从而提高了功率稳定性、性能和整体能源效率。 GAA纳米片晶体管负责从源头「节流」,SHPMIM电容器负责为性能「开源」,两者结合,共同成就了N2工艺在性能与功耗上的双重飞跃。 雄心勃勃的量产蓝图 双线作战,剑指AI与未来 台积电将N2工艺的量产地选在了位于台湾高雄的全新工厂——晶圆二十二厂(Fab 22),以及紧邻其位于台湾新竹全球研发中心的晶圆二十厂(Fab 20)。 两地并行扩产,展现出台积电在先进制程芯片上的激进布局。 通常,一项新工艺的产能爬坡,会先从技术相对成熟、尺寸较小的移动芯片开始,一步步摸索,稳扎稳打。 但这一次,台积电选择了在高雄和新竹两座全新的晶圆厂扩充先进制程产能。 这些先进制程芯片很可能服务于高端智能手机、高性能计算(AI/HPC)等多个领域。 这是一次罕见的「双线作战」。 一边是苹果等巨头每年需求量数以亿计的手机芯片,另一边是英伟达等客户设计的、尺寸巨大、结构复杂的AI和服务器芯片。 同时驾驭这两种截然不同、且都对良率要求极为苛刻的产品线,其难度也将呈指数级增加。 台积电CEO魏哲家在十月份的财报电话会议上表示: 「N2进展顺利,将于本季度晚些时候进入量产,且良率良好。我们预计在智能手机和高性能计算(HPC)、AI应用的推动下,2026年将实现更快的产能爬坡。」 支撑台积电这份自信的,是其背后排起长队的客户。 据市场普遍预期,N2将首先覆盖高端手机与HPC/AI等需求。 从苹果的下一代iPhone、Mac芯片,到英伟达、AMD的未来AI加速器,几乎所有顶尖科技巨头都对N2工艺表现出了「浓厚兴趣」,同时开启两座晶圆厂的产能也就势在必行了。 这盘大棋背后也透露了台积电对未来市场格局的精准布局: 智能手机是基本盘,而AI与HPC,则是它未来十年最大的增长引擎。 从N2P到A16 决胜未来十年的终局之战 魏哲家表示,台积电将在持续增强的战略下,推出N2P作为N2家族的延伸。 N2P在N2的基础上进一步提升了性能和功耗表现,计划于2026年下半年起进行量产。 A16是台积电面向HPC/AI的下一步先进制程(与N2家族在架构与生态上紧密相关)。 它采用了超级电轨(Super Power Rail)背面供电技术,主要针对复杂的人工智能和高性能计算处理器,同样计划2026下半年起实现量产。 从N2的架构革命,到N2P的持续优化,再到A16引入的背面供电技术,台积电的技术路线图已经清晰,而其N2工艺进入量产,无疑是半导体行业的一个关键节点。 它标志着被誉为「后摩尔定律时代」最关键技术之一的环栅(GAA)纳米片晶体管架构,已由行业领导者成功导入大规模生产。 这不仅巩固了台积电在先进工艺制造领域的领先地位,也为全球依赖高性能计算的产业,从消费电子到人工智能,提供了下一阶段发展的坚实基础。 但领导这场先进制程半导体竞赛的并非台积电一家巨头。 当台积电迈入2nm(N2)门槛时,其主要竞争者——三星与英特尔等也在同步推进新一代晶体管技术。 2022年6月,三星宣布采用GAA架构成功量产3纳米制程芯片 早在台积电之前,2022年6月,三星宣布已在其3nm制程中率先将GAA(环栅)晶体管架构投入量产,成为全球首家在先进制程节点上实现GAA商用的晶圆厂。 这一「抢跑」也体现了三星在尖端制程竞争上的技术实力与战略决心。 与此同时,英特尔正在其Intel 18A节点中引入RibbonFET(GAA晶体管)与PowerVia(背面供电)两项关键技术。 据报道,该节点已于2025年进入早期生产阶段,并预计在2026年逐步扩大产能、实现更广泛的商业化应用。 2025年10月,英特尔CEO陈立武在亚利桑那州Ocotillo园区亲自展示了代号为Panther Lake的Intel Core Ultra系列3处理器晶圆,这也是英特尔首次公开展示基于18A(1.8nm级)工艺节点开发的客户端芯片。 英特尔18A与台积电N2虽同属GAA世代,但前者更激进,后者更稳健。 英特尔以「RibbonFET+PowerVia」的组合推进性能与供电架构革新,率先应用于高复杂度CPU,试图在下一代制程竞赛中先发制人。 而台积电则是先用N2实现量产服务于大规模客户,而将进一步的技术突破放到N2P/A16等后续节点。 此次台积电N2节点的量产,更像是正式拉开了后FinFET时代、以GAA为核心的新一轮先进制程技术竞赛的序幕。
DeepSeek梁文峰发表新论文
2026 年刚开年,DeepSeek就放出了一项重要技术进展。 1月1日,DeepSeek发表论文《Manifold-Constrained Hyper-Connections》,提出一种全新的模型连接结构 mHC(流形约束超连接),直击当前大模型训练领域中长期存在却难以攻克的核心问题:模型越大,训练越不稳定。 该论文由DeepSeek团队完成,创始人兼CEO梁文锋也出现在作者名单中。 为什么大模型越来越“难训练”? 目前主流的大模型,几乎都建立在“残差连接”之上。这种结构的好处是让信息在深层网络中更顺畅地传递,是 Transformer 能够成功的关键之一。 但随着模型规模不断扩大,研究者们开始尝试更复杂的连接方式,比如 Hyper-Connections(超连接),希望让模型具备更强的表达能力。 问题也恰恰出在这里。 论文指出,这类结构虽然在理论上更灵活,但在实际训练中容易出现 梯度爆炸、信号失真、训练不稳定 等问题。在部分实验场景中,信号甚至会被放大上千倍,导致模型难以收敛,训练成本急剧上升。 DeepSeek 的解法:给“连接”加上约束 针对这一痛点,DeepSeek 提出了 mHC(流形约束超连接) 方案。 简单来说,mHC 并不是完全推翻原有结构,而是给超连接增设一道“约束”,将原本自由度极高的连接矩阵,限制在一个数学层面更加稳定的“流形空间”中。 这一设计带来的效果十分显著:既保留了超连接的强大表达能力,又恢复了类似传统残差结构的训练稳定性,同时还能有效避免信号在层与层之间出现无限制放大的情况。用论文中的表述来讲,就是让模型在“表达能力”与“数值稳定性”之间,重新取得平衡。 实测结果:更稳、更准,代价更低 在 27B 参数规模的模型测试中,mHC 结构的表现堪称亮眼。在 BBH、DROP 等多个推理类基准任务中,其性能显著超越传统结构;整个训练过程稳定性拉满,未出现明显的梯度爆炸现象;额外增加的计算开销仅约 6.7%,完全处于工程可接受范围之内。 论文还指出,在更大规模模型中,mHC的技术优势还会进一步放大,也意味着该结构对未来超大模型的研发具有较强的扩展潜力。 一次偏底层、但很关键的推进 在外界看来,mHC 并非“看一眼就能用”的功能更新,而是一项偏向底层架构、蕴含先进工程哲学的技术改进。 但恰恰是这类深耕底层的研究工作,决定了大模型能否继续向更大规模演进。 在算力、数据逐渐逼近物理与成本极限的当下,如何让模型“跑得稳、跑得久”,已经成为比“堆参数”更重要的核心命题。DeepSeek 此次的技术尝试,或将成为下一阶段模型架构演进的重要方向之一。 如果说过去几年,行业奋力攻克的是“能不能做大模型”,那么现在,研究者们开始认真思考的是:大模型还能不能继续成长,如何健康地成长。
海外部分EQB车型暗藏电池安全风险,奔驰提醒车主别把电充满
IT之家 1 月 1 日消息,据外媒 Carscoops 今日报道,奔驰向部分 EQB 纯电 SUV 车主发出警告:不要把电池充满。奔驰已明确要求将充电上限控制在 80%,以降低潜在的电池安全风险。 奔驰解释称,涉事车辆在极端情况下可能发生所谓的“热事件”,即电池电芯短路并引发起火。此次受影响车辆总数为 169 辆,主要集中在 EQB300 4MATIC、EQB350 4MATIC 以及少量 EQB250 车型。奔驰强调,问题仅存在于 2022 至 2023 年生产的早期 EQB,后续车型所使用的电池已进行强化,不在召回范围内。 值得注意的是,这并非奔驰首次因起火风险对 EQB 采取限制措施。2025 年初,奔驰曾在美国召回超过 7000 辆同类车型,并在软件更新完成前要求车主同样限制充电至 80%。 奔驰还提醒,车辆在行驶中可能会通过仪表警告提示电池温度异常,然而停放状态下的车辆也可能在无任何提示的情况下发生问题。 IT之家从报道中获悉,对于此次召回,奔驰并未选择为车主更换电池,而是计划在 2026 年初为车主提供一次软件更新,车主需前往授权服务中心完成。 在使用层面,这一限制对 EQB350 的影响尤为明显。该车型在满电状态下的续航仅为 366km,限制至 80% 后续航降至约 290km;若再预留电量安全空间,实际可用续航可能仅约 242km。
为何2026年是OpenAI的“生死之年”?
1月2日消息,据《旧金山观察家报》报道,在经历了过去三年由ChatGPT引发的全球狂热后,OpenAI正站在一个十字路口:它必须在这一年证明自己不仅能制造轰动性的演示,还能构建一个可持续盈利的商业帝国。 在完成了数轮巨额融资并达到千亿美元级别的估值后,投资者对它的耐心正在从“宽容的期待”转向“苛刻的审计”。 2026年,OpenAI必须向华尔街展示清晰的盈利路径,而不仅仅是烧钱换增长。随着训练前沿模型的成本指数级上升。GPT-5级别的模型训练成本据传已突破十亿美元大关,单纯依靠订阅费和API调用能否覆盖这一天文数字般的支出,成为了财务报表上最大的悬念。如果无法在今年实现正向现金流或明确的IPO计划,资本市场的风向可能会迅速逆转。 行业内关于“缩放定律”(Scaling Laws)是否失效的争论将在2026年见分晓。虽然o1系列模型引入了推理能力,但竞争对手Google DeepMind和Anthropic已经迅速缩小了差距。 Google的Gemini 2.0在多模态和长窗口处理上表现强劲,而Meta通过收购Manus等公司补齐了Agent短板,并通过开源Llama模型不断侵蚀OpenAI的护城河。 如果OpenAI不能在2026年推出具有代际差优势的下一代模型(如GPT-5或更高级的Agent系统),其“技术霸主”的光环恐将褪色,产品也将陷入同质化价格战的泥潭。 随着AI深入医疗、金融等关键领域,公众和监管机构对“幻觉”和数据安全的容忍度降至冰点。OpenAI不仅要应对来自《纽约时报》等媒体机构的版权诉讼,还需在日益分裂的全球地缘政治中寻找平衡。 如何在保持技术领先的同时,安抚日益焦虑的公众情绪,将是考验奥特曼政治智慧的一道难题。 2026年对于OpenAI而言,就像是iPhone发布前的苹果,或者是互联网泡沫破裂前的网景。 这是一家定义了时代的公司,但历史表明,先驱者并不总是最终的胜利者。这一年的每一个战略选择,都将决定OpenAI最终是被写入商业教科书的成功案例,还是成为科技史上又一个“小时了了,大未必佳”的注脚。
又是量化基金,第二个DeepSeek时刻到来了?
九坤投资旗下的至知创新研究院发布了开源编程Agent模型IQuest-Coder-V1。至知研究院在AI领域名气不大,但这个模型的benchmark数据直接对标了行业顶尖水平。 母公司是量化私募,发布时间是1月,这两个特征组合在一起,很容易让人想起去年同期的DeepSeek R1。 事实上,去年DeepSeek R1发布的时候也是相同的情况,一个知名度不高的公司,发布了一个行业顶尖的模型。 那么IQuest-Coder-V1会是下一个“DeepSeek时刻”吗? 暂时还不好下结论。 根据JetBrains的《2025 开发者生态系统现状报告》,全球85%的开发者已经在使用AI工具,全球41%的代码由AI生成,但这些工具大多停留在辅助层面。 从OpenAI到Anthropic,各家在2025年底密集推出的agent产品,都将代码作为突破口。 所以至少可以肯定,编程Agent就是下一个风口。 01 IQuest-Coder-V1不是一个简单的代码补全工具,而是一个能够自主完成软件工程全流程的代码大语言模型。 过去的AI编程助手的作用是自动补全,你写一半代码,它帮你接下去。而IQuest-Coder-V1则是能够从零开始理解需求、设计架构、编写代码、测试调试,甚至进行多轮迭代优化。 IQuest-Coder-V1有三个很关键的技术点。 第一是40B的参数规模。相比GPT-5和Gemini 3等动辄数千亿参数的模型,40B只是它们的几十分之一左右。 也就是说,IQuest-Coder-V1可以在性能稍好的消费级硬件上运行,而不需要专业的数据中心级别算力。 第二个特点是Loop架构。 这个名字很直白,模型会循环迭代自己的输出。就像程序员写完代码会回过头检查、修改、重构一样,Loop架构让模型在生成代码后能够反思和改进。 但Loop架构不是简单的多次调用,而是将迭代优化的过程内化到模型架构中。简单概括就是IQuest-Coder-V1会超额完成任务,以确保最终输出的结果覆盖用户的需求。 Loop版本让模型“走两遍”相同的神经网络,就像你读文章时会回头重读关键段落,第二遍往往能发现第一遍没注意到的问题。 第三个特点是code-flow训练范式。 传统的代码模型学习的是代码片段,学习的是静态的语法和API调用模式。用大白话来解释,AI可以完美复刻它所学习的代码,却不理解为什么要这么写。 但IQuest-Coder-V1学习的是软件如何一步步演化出来的,学习的是动态的逻辑演进。这让模型不仅理解“这段代码是什么”,还理解“这段代码为什么这样写”、“下一步应该怎么改”。 IQuest-Coder-V1使用32k高质量轨迹数据进行强化学习训练,这些轨迹通过multi-agent role-playing自动生成。 系统会模拟用户、Agent、Server三方交互,用户提出需求,Agent编写代码,Server返回执行结果,整个过程无需人工标注。训练目标不是单次代码生成,而是完整的软件演化过程。 这些技术设计在benchmark上得到了验证。在SWE-Bench Verified这个衡量真实软件工程能力的测试中,IQuest-Coder-V1达到了81.4%的准确率,超过了Claude Sonnet 4.5的77.2%。在LiveCodeBench v6上的表现是81.1%,在BigCodeBench上是49.9%。 IQuest-Coder-V1来自九坤投资创始团队发起设立的至知创新研究院。这个研究院独立于九坤的量化投研体系,其职能是研究多个AI应用方向。 九坤投资本身是中国最早一批量化私募之一,成立于2012年,目前管理规模超过600亿人民币,和明汯、幻方、灵均并称量化“四大天王”。 创始人王琛拥有清华大学数学物理学士和计算机博士学位,师从图灵奖唯一华人得主姚期智院士。联合创始人姚齐聪是北京大学数学学士、金融数学硕士。 两人都来自华尔街顶级对冲基金千禧年(Millennium),2010年看准中国股指期货上市的机遇回国创业。 九坤从2020年开始建设名为"北溟"的超算集群,内部设有AI Lab、Data Lab和水滴实验室。 这些基础设施原本服务于量化投资业务,现在也为大模型研发提供了算力支持。 量化机构拥有大规模算力集群和数据处理能力,这与大模型训练的资源需求相匹配。同时在人才结构上,量化投资和AI研究都需要数学、计算机背景的研究人员,这使得量化机构进入大模型领域时有一定的基础。 从量化投资到开源大模型,这条路径并不突兀。 量化机构本身就拥有大规模算力集群和海量数据处理能力,这与大模型训练的需求高度契合。更重要的是,量化投资和AI研究在人才结构上有很大重叠,都需要数学、计算机、物理背景的研究型人才。 因此从发展角度看,IQuest-Coder-V1更像是九坤在AI方面的自然延伸,并非简单跟风。 02 但不可否认的是,IQuest和DeepSeek,两者有着惊人的相似性。 它们都来自中国量化基金,都展示了在资源受限情况下通过工程创新实现技术突破的能力。但仔细观察会发现,两者选择了完全相反的方向。 DeepSeek追求的是“广度”。从DeepSeek-V3到R1,梁文锋团队的目标是打造通用对话能力,要做中国的GPT。 它要回答各种领域的问题,要能写诗、讲故事、分析时事、解决数学题。这是一个横向扩张的路径,覆盖尽可能多的应用场景。 IQuest-Coder-V1追求的是“精度”。它专注在代码这个垂直领域,在SWE-Bench这样的专业测试上做到极致。它不关心能不能写诗,只关心能不能像真正的程序员一样理解需求、设计系统、解决bug。 有意思的是,就在IQuest-Coder-V1发布的同一天,DeepSeek团队也有新动作。 包括创始人梁文锋在内的19位研究者发布了关于mHC(manifold-constrained hyperconnection,流形约束超连接)架构的论文。这篇论文解决的是超连接网络在大规模训练中的不稳定性问题。 虽然DeepSeek团队在研究工作上保持一定的更新频率,然而在产品方面,他们却显得有些落后,至今仍然没有拿出R2和V4。 2025年,AI领域的竞争焦点是对话能力和推理能力,各家比的是谁能更好地回答问题,谁的推理过程更清晰。到了2026年,这个焦点已经转向Agent能力,比的是AI能否自主完成复杂的多步骤任务。 Agent能力的核心是“执行”,而不仅仅是“理解”和“回答”。 就拿代码举例,一个对话型AI可以告诉你如何修复代码中的bug,但Agent能直接帮你改好代码、运行测试、提交修改。这是完全不同的能力层级。 DeepSeek团队在研究层面确实很活跃,不断发表论文推进底层技术。可一旦落实到产品就会发现,DeepSeek仍然主要是一个对话型AI。用户提问,它给答案,这是它的主要使用场景。 DeepSeek目前还没有推出真正的Agent产品,没有像IQuest-Coder那样能自主完成整个软件开发流程的能力。 诚然,DeepSeek在Alpha Arena这样的AI炒币/炒股比赛中表现很亮眼,证明了量化基金训练出的模型“真的懂市场”,能读懂K线、解析新闻、做出交易决策。 而量化投资的本质是用算法理解市场规律,寻找价格波动中的模式。进一步说明DeepSeek具有“理解复杂系统”的能力。 但需要指出的是,即使在金融市场表现出色,这种能力仍停留在“理解”和“分析”层面。DeepSeek可以分析市场、给出建议,但它作为产品还没有发展出完整的自主交易能力。 从炒股到写代码,幻方和九坤的AI都在展示同一种倾向,就是更强的执行导向。这或许能解释为什么量化基金能在AI领域做出成果,因为他们的基因就是“让算法自主决策”,而不是“让算法回答问题”。 现在关于AI的竞争不只是比谁的论文更多,更重要的是落地,是谁能把技术转化成用户可以直接使用的工具。 市场已经等了太久,梁文锋该发新产品了。 03 IQuest-Coder-V1对标的是Claude Opus 4.5。这个定位很明确,81.4%对80.9%的benchmark数据也确实亮眼。 再加上Anthropic对华态度的强硬,也让人们对Quest-Coder-V1投入了更多的希望。但“取代Claude Opus 4.5”这个问题需要更冷静的分析。 Claude Opus 4.5的优势不只在模型能力,更在于完整的产品生态。它有原生的VS Code扩展,有Claude Code这样面向终端的交互式开发工具,支持MCP协议的工具生态,有企业级的安全合规标准,还有无数真实项目打磨出的用户体验。这些都不是一个刚发布的模型能够在短期内复制的。 更重要的是用户习惯。Claude发布得早,程序员群体已经习惯了它的“工作方式”,知道什么时候该信任它,什么时候该介入,如何高效协作。 这种使用习惯的养成需要时间,需要在无数次试错中建立起来。一个新模型即使benchmark数据更好,也需要相当长的时间来培养用户信任。 benchmark和实际应用之间确实存在差距。 虽说SWE-Bench Verified测试的是在真实代码仓库中解决issue的能力,这比简单的代码补全要复杂得多。然而即使在这样的测试中表现出色,也不等于在日常开发中就能无缝替代人类程序员。 实际工作中的需求往往是模糊的,在产品经理与开发者的沟通过程中,需求往往会改变很多,而这些都是benchmark上没有的。 不过IQuest-Coder-V1的机遇在于另一些维度。它是开源的,这意味着企业可以自己部署,可以根据需要调整和优化,不需要担心数据被第三方服务商获取。对于金融、医疗、国防等对数据安全有严格要求的行业,这是实实在在的价值。 这种开源代码大模型的体验,完全区别于Claude用户。Claude的用户更多是习惯了云服务、愿意为便利性付费、对数据隐私没有极端要求的开发者。IQuest-Coder-V1的潜在用户应该是需要数据自主可控的企业、想要深度定制的技术团队、或者就是喜欢折腾开源工具的开发者。 就比如做像九坤和幻方这样做量化的,他们的算法就是企业的命脉,不可能上传到公有云。 当然,开源也有开源的问题。没有专门的产品团队来打磨用户体验,没有客服来解决使用中的问题,遇到bug只能自己想办法或者等社区修复。这些都是开源模型相比商业产品的劣势。 有一种观点认为,像是IQuest-Coder-V1这样带有一定agent功能的代码大模型,可能是通向通用agent以及AGI的第一步。 这个观点的逻辑在于,代码是结构化的、逻辑清晰的任务,相比其他开放性任务更容易验证对错。测试通过与否,这种二元反馈为agent提供了明确的学习信号。 更重要的是,编程任务本身需要的能力是通用agent所需的核心能力。 从SWE-Bench这样的benchmark来看,它测试的不只是代码生成,而是理解需求、规划步骤、调试错误、迭代改进等能力。这个过程和解决其他复杂任务的模式是相通的。 代码环境提供了一个相对可控的训练场,一旦在这里证明了它的Agent能力,扩展到其他领域的技术路径就会更清晰。 所以,九坤可能也在下一盘大棋。
华虹半导体拟斥资82.68亿元收购华力微97.4988%股权
IT之家 1 月 2 日消息,华虹半导体于 2025 年 12 月 31 日发布公告,该公司计划通过发行股份方式,向华虹集团等 4 名交易对方购买其合计持有的华力微 97.4988% 股权,并拟向不超过 35 名符合条件的特定对象发行股票募集配套资金。 根据官方披露的信息,华虹半导体拟以 43.34 元 / 股的价格,向华虹集团、上海集成电路基金、大基金二期、国投先导基金等 4 名交易对方合计发行股份 1.91 亿股,购买其合计持有的华力微 97.4988% 股权。标的资产评估值为 84.8 亿元,增值率为 323.59%,本次交易价格为 82.68 亿元。 同时,公司拟向不超过 35 名特定对象发行股份(锁定期 6 个月),募集资金不超过 75.56 亿元,用于华力微技术升级改造项目,华力微特色工艺研发及产业化项目,补充流动资金、偿还债务及支付中介机构费用。 IT之家曾于 2025 年 8 月报道,为解决企业 2023 年 IPO 时承诺的同业竞争事项,华虹半导体正在筹划以发行股份及支付现金的方式购买上海华力微电子控股权并配套募集资金。 华虹半导体与华力微同属华虹集团集成电路制造业务板块,此次华虹半导体拟收购华力微与其在 65/55nm 和 40nm 存在同业竞争的资产(华虹五厂)所对应的股权。 图源:华虹半导体官网 华虹半导体通过华虹宏力在上海金桥和张江建有三座 8 英寸晶圆厂(华虹一厂、华虹二厂、华虹三厂),技术覆盖 1μm~90nm 节点。 华虹宏力参股的华虹半导体(无锡)一期包含一座月产能 4 万片的 12 英寸晶圆厂(华虹七厂),覆盖 90~65/55nm 节点;而 65/55~40nm 的二期(华虹九厂)也已于去年末实现建成投片。 IT之家查询股价信息,华虹半导体早盘股价上涨 10.36%,现报 82 港元。
硅谷CEO看傻了:大批名校生连夜退学,10后高中生靠AI融资千万!
新智元报道 编辑:Aeneas 好困 【新智元导读】再不辍学,就来不及改变世界了!某公司CEO震惊发现,自己周围的18岁年轻人都在辍学。还有更可怕的呢,有一群05后、10后CEO,驾照还没拿到,就拿到百万美元融资了。 美国大学生,正在掀起一股辍学潮。 最近,Box CEO Aaron Levie在a16z采访中表示,自己被一群特殊的创业者震惊了。 「我眼看着周围19岁、20岁的大学生,几乎每个人都在辍学!」 为什么? 因为借助AI,他们能以成百倍的速度创建公司。他们中不少人直接从MIT、斯坦福等名校辍学,用AI工具在几周内做出了传统公司数月才能做出的产品。 这位CEO直接瞳孔地震:这些年轻人,正在用我们这代人难以想象的速度重塑世界。 大学生集体「叛逃」 AI太香了 美国大学生的这股辍学潮,在今年是愈演愈烈了。 一位创始人在LikedIn上发帖称,这个世界的规则已经变了 《纽约时报》早就报道过,一大波二十多岁的年轻人正在纷纷退学,齐聚硅谷创业,因为只要有片刻的迟疑,就会错过浪潮。 福布斯也报道称,仅2025年,就有数十名来自哈佛和MIT的学生选择辍学。 比如这位22岁的华裔少年Steven Wang,从哈佛退学8个月后,就成功创办了跟投平台Dub。 现在,Dub已获得超过1700万美元融资,投资者包括Uber CEO等硅谷重量级人物。 对于从哈佛退学,他的评价是,「这是我做过最正确的决定」。 高中时,VR浪潮兴起,16岁的他与两位朋友共同创立了VR教育公司Realism,并因此从高中退学。 「我们获得了MIT加速器项目的支持,筹集资金后搬到了波士顿,三个青少年挤在一间一居室公寓里生活了一年。」 2019年,17岁的Steven去苹果面试,带着自己为新款Apple Watch制作的模型设计图,随后获得全职工程项目经理的offer。 在苹果工作8个月后,他决定重返高中。毕业后,他被哈佛录取。 在哈佛求学期间,他被哲学课深深着迷了,本想更深入地探索学术世界。然而,那段时间恰逢一个激动人心的股市时期,模因股票和加密货币迅速崛起,让他重燃对投资的兴趣。 大一下学期,他在一个商业课程中开发了一个项目,让散户投资者可以自动复制其他投资者的交易。 在演示的那一天,他邀请来了Realism的投资人。后者表示,「无论你接下来要干什么,我们都会投资」。 21年6月,在哈佛求学仅8个月后,Steven决定退学。如今的Dub,已经拥有25人的团队。 放弃藤校,这群00后赚回1000亿 从名校辍学创业,在美国不是什么新鲜事了。在大学宿舍里诞生出价值百亿的独角兽,有时只需脑门一热。 给你20万美元,条件是辍学、去创业,你愿意吗? 硅谷投资大佬Peter Thiel发出这个邀请后,从2011年至今天,「蒂尔奖学金」已经送出超过1亿美元。 而这些20岁出头的年轻人,放弃了哈佛、布朗、卡内基梅隆等名校学位,却创办了总价值超过1000亿美元的公司,包括价值400亿美元的Figma,290亿美元的Scale AI,以太坊和Plaid。 2012年,19岁的Dylan Field坐在布朗大学的宿舍里,构思着一个协作设计工具的想法。后来,这个被称为Figma的产品,成为Adobe的强劲对手。 最近,Figma成功上市,菲尔德的身家飙升至50亿美元。 当初决定辍学时,他的母亲十分焦虑,担心没有学位会影响儿子的职业前景。 在CMU读本科时,Lucy Guo对学校的教学方式十分不满,「几天的编程比赛比教授教得都多」。 2014年,她决定辍学,跟在Quora工作时认识的Alexandr Wang共同创办Scale AI,当Meta以140亿美元收购该公司,它的估值飙至290亿美元。 Lucy Guo成为史上最年轻的白手起家女亿万富翁,而Alexandr Wang,最近则是和小扎一起把Meta搅得天翻地覆。 另外三位年轻人——Brendan Foody、Adarsh Hiremath、Surya Midha,是AI招聘平台Mercor的联创。今年2月,该公司估值飙升至20亿美元。 「我感到极端的紧迫感和存在性恐惧,害怕错过AI热潮。」Midha这样说。Hiremath则是在哈佛大学度过一年后,感受到了回报递减。 对他们来说,等待四年毕业后再创业,可能会错过改变世界的窗口期。 辍学、去写Prompt! 这届10后CEO杀疯了 甚至,你都不需要等到大学! 只要会写Prompt,就能在高中课间操盘一家拥有5万用户的初创公司。 华尔街日报的这篇文章,盘点了一群还没考驾照,但已经有自己公司的高中生。 与其他兢兢业业的科技创始人一样,Nick Dobroshinsky每天都在与时间赛跑。 但他的时间表,却很不相同—— 从早上8点到下午2点55分,他必须坐在华盛顿州瑟马米什的高中教室里,听老师讲课。 今年15岁的Dobroshinsky,不仅是一名高一学生,更是AI金融工具BeyondSPX的掌舵人。 这款工具拥有超过50,000名月活跃用户(MAU),甚至获得了上市公司的主动背书。 而这一切的起点,源于八年级期末的一次思考: 有哪些问题,可以用AI来降维打击? 放学铃响,变身CEO 将时钟拨回二十年,19岁的比尔·盖茨正在为了微软通宵达旦,同样年轻的扎克伯格还在哈佛宿舍里敲击着Facebook的雏形。 在那个年代,通往硅谷巅峰的入场券,是「天才般的编程能力」。 如今,Dobroshinsky所代表的则是AI时代的全新范式。 他不需要精通C++或Java,因为他拥有地表最强的「外包团队」:Anthropic的Claude、OpenAI的ChatGPT和Google的Gemini。 他没有招聘任何员工,也没有组建技术团队。他所做的,是指挥AI模型生成代码、构建架构—— 整个项目里,Dobroshinsky亲自写的代码只有10行! 就连市场营销,也被丢给了AI。 Dobroshinsky编写了一套Reddit机器人(Bot),潜伏在各大投资论坛。 如果有人发帖问「最好的中小市值股票分析工具是什么」,机器人就会立刻冲上去安利BeyondSPX。 Dobroshinsky早期开发BeyondSPX时做的笔记 这种极简主义的打法,果然效果拔群。 BeyondSPX专注于生成中小市值上市公司的研报,填补了大型投行看不上的市场空白。 上市公司Greystone Logistics甚至被这份AI生成的独立分析折服,将其作为官方新闻稿发布。 Greystone的顾问Brendan Hopkins回忆道:「报告写得太棒了,我们必须发出来!」 他当时完全不知道,这份报告背后的操盘手,还在为明天的几何考试发愁。 昨天还在倒卖硬糖,今天就在颠覆供应链 旧金山风投家Kulveer Taggar敏锐地发现: 创业者的年龄曲线正在断崖式下跌,而这个拐点,恰恰与ChatGPT和Claude的爆发期重合。 如今的AI,赋予了青少年极高的学习和执行杠杆,让他们觉得既然能玩转TikTok算法,搞定软件分发也不是难事。 17岁的Raghav Arora是另一个典型的例子。 他的创业启蒙,是在新加坡读书时倒卖稀缺的美国糖果给同学,并通过把控供应链赚取50%的差价。 这门生意让他赚了不少零花钱,但代价是被学校留校察看了三天。 而这次经历也教会了他两件事:分销的门道,以及「去中介化」带来的暴利。 如今,Arora已经从高中辍学,定居南加州。 的新公司GetASAP不再倒卖糖果,而是利用AI预测农产品库存,直接从农民手中采购果蔬,并运送到美亚两地的商店。 目前,这家48人的初创公司已经拿到了由General Catalyst领投的340万美元种子前轮融资。 你们去淘金,我负责卖铲子 当大多数同龄人还在沉迷游戏时,14岁的澳洲八年级学生Alby Churven已经看透了游戏的本质。 起初,他在网上卖足球袜,开发Roblox游戏。 「老实说,一开始纯粹是为了搞钱。但做着做着,我真的爱上了这行。」 Churven的第一个项目Finkle是个游戏化的教育App,但他很快就发现这个想法很难规模化,于是果断弃坑。 像所有老练的连续创业者一样,他迅速Pivot(转型)到了备用方案:一个能生成App和网站代码的AI工具。 如果不远的将来,AI编程工具真的会催生整整一代新创始人,那么Churven希望自己是那个「卖铲子」的人。 他最近申请Y Combinator的视频在X上获得了数百万浏览。 虽然申请结果未定,但他已经独自飞往旧金山,与风投们谈笑风生。 「我想抓住这个机会大赚一笔,」Churven毫不掩饰自己的野心。 VC新烦恼:想投个天才,还得先过家长这关 面对这群嘴里可能还戴着牙套的CEO,硅谷的资本家们陷入了前所未有的纠结。 知名风投Neo的创始人Ali Partovi曾领投了爆火的AI编程工具Cursor,但他对高中生创业保持着审慎的态度。 的确,高中是构思点子的好时期,但大学才是建立人脉的战场——那里有对初创公司成功至关重要的联合创始人和早期员工。 毕竟初创公司不仅需要代码,更需要能吸引比你更聪明的人加入。 对此,Partovi的策略是:密切关注,保持联系,然后等他第二次创业时再投。 Google Ventures的一位合伙人最近面试了一个由两名20岁和一名17岁少年组成的团队。 他意识到,这笔投资不仅需要做商业尽职调查,还得做「家访」。 他甚至在想,如果真的要投资,是不是得先和那位未成年人的父母聊聊,确认这个孩子在情感上是否准备好承受创业的残酷重压。 如今,在AI的赋能下,年龄不再是经验的壁垒,而变成了某种「原生优势」。 这群拿着实习驾照的少年,正在用这一代人特有的直觉和AI赋予的超级杠杆,向硅谷的旧秩序发起冲锋。 对于他们来说,期末考试可能很可怕,但颠覆一个行业? 那不过是几条Prompt的事。
SpaceX宣布史上最大卫星降轨行动:超4000颗卫星降轨
快科技1月2日消息,今日凌晨,马斯克旗下的SpaceX公司宣布,将降低数千颗“星链”(Starlink)卫星的轨道高度,以降低碰撞风险。 “星链”工程副总裁迈克尔·尼科尔斯表示,公司正“启动卫星星座重大重组计划”,将所有目前运行在约550公里(342英里)高度的卫星,降低至约480公里(298英里)轨道。 此举旨在把卫星转移到更不拥挤的轨道层,降低碰撞风险,并能在卫星发生异常或失效时,让卫星更快地脱离轨道、进入大气层烧毁,从而减少太空垃圾的产生。 尼科尔斯透露,今年内约有4400颗星链卫星将参与此次轨道高度下调。 降低卫星轨道高速,除了为卫星创造更安全的运行空间外,还与太阳活动周密相关。 太阳活动大约以11年为一个周期,活动强弱会直接影响地球高层大气的密度。 下一个太阳活动极小期预计出现在在2030年代初,随着太阳活动极小期的临近,高层大气密度将降低,这意味着卫星在相同高度下的自然轨道衰减时间将延长。 通过降低轨道高度,可在太阳活动极小期,将原本可能长达四年以上的轨道衰减时间,缩短至数月,轨道衰减速率提升超过80%。 不过,SpaceX的星链作为目前太空中最大规模的卫星网络,与其它卫星发生碰撞的概率也在显著增加。 有报道显示,从2024年12月到2025年5月底的半年内,“星链”卫星执行了超过14万次变轨机动,以避免在太空中“撞车”。 此外,早在2021年,SpaceX发射的“星链”卫星先后两次接近中国空间站,对中国空间站上的航天员生命健康构成威胁,我国空间站因此实施两次紧急避碰。
史上最先进的制程!台积电1.4nm明年试产:1nm时代快来了
快科技1月2日消息,台积电2nm制程量产计划已按时间表正常推进,由于市场需求旺盛,台积电的晶圆供应一度紧张,这家半导体巨头计划再新建三座工厂以满足客户需求。 与此同时,台积电1.4nm工艺的进度也在顺利进行中,据称台积电正加速推进其1.4nm制程工厂的建设进度,从目前的情况来看,台积电发展势头依旧向好,按照这一节奏,1.4nm工艺的风险性试产工作预计将于2027年启动。 所谓风险性试产,是指新产品在正式大规模量产前进行小批量试产,主要目的是识别生产过程中的潜在问题(比如良率、性能),评估稳定性,以降低后期量产的风险,确保产品能顺利、高效地投入市场。 据悉,台积电1.4nm制程工厂的地基工程已于2025年11月初动工,新厂位于中国台湾中部科学园区,规划建设四座厂房及配套办公楼。 初期建设投资预计达到1.5万亿新台币,工厂全面建成投产后,量产目标定于2028年,据估算,四座工厂首年合计将为台积电带来160亿美元的营收,同时还将创造8000至10000个就业岗位。 目前尚未披露哪些客户计划采用其1.4nm制程工艺,此前有报道称,苹果已拿下台积电2nm初期半数以上的产能,用于生产A20和A20 Pro芯片,由此不难推断,这家iPhone制造商大概率会抢占1.4nm新技术的先机。 值得一提的是,1.4nm工艺的初期良率预计不会超过20%,随着时间推移,良品率有望逐步攀升,届时市场需求也会随之激增。
“北京版幻方”冷不丁开源SOTA代码大模型!
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 又一个中国新模型被推到聚光灯下,刷屏国内外科技圈。 IQuest-Coder-V1模型系列,看起来真的很牛。 在最新版SWE-Bench Verified榜单中,40B参数版本的IQuest-Coder取得了81.4%的成绩,这个成绩甚至超过了Claude Opus-4.5和GPT-5.2(这俩模型没有官方资料,但外界普遍猜测参数规模在千亿-万亿级)。 Oh~Tiny Core, Titan Power。 好,看到这里我盲猜很多人肯定已经开始边摇头边笑了。 毕竟这年头,benchmark的权威犹在,但说服力似乎已经大不如前了。 那咱们就看看这个模型跑出来的case—— Prompt:编写一个网页来展示一个逼真的太阳系模拟。 然后你将得到: 可以自由切换各种视角,让画面暂停、放大,调整公转速度也ok。 选中具体的行星,还会跳出相应的名字和简单介绍。 目前,这套代码大模型系列已经在GitHub和抱抱脸上开源。 有一个重点一定要划!!! 这个模型团队IQuest,和DeepSeek团队一个路数,都出自中国的量化私募。 背后公司就是北京版幻方量化——九坤投资。 (两家公司都是业内公认的量化私募头部) 𝕏、Reddit等平台上,关于IQuest-Coder的消息和对中国量化公司杀入AI模型战场的讨论已经满天飞了。 有网友一脸unbelievable地问出了令他诧异的问题: 中国量化公司到底吸纳了些什么人才,才能把模型训练成这样啊??? Ok,一起来看看这套模型的详细情况吧~ IQuest-Coder-V1系列 从定位上看,IQuest-Coder-V1是一套覆盖多个参数规模与使用场景的家族版本,专注于代码生成、代码理解与软件工程任务的模型系列。 参数有7B、14B和40B的,每个规模均提供Instruct和Thinking两种版本。 其中,Instruct偏向指令跟随与工程使用,更高效;Thinking强化复杂推理和多步问题拆解,响应时间更长。 特别提醒大家注意一下,40B参数规模的IQuest-Coder-V1额外提供了Loop版本,用于探索更高的参数利用效率。 与计算成本相似的模型相比,IQuest-Coder-V1-40B-Loop的HBM和KV Cache开销显著降低,而吞吐量大幅提升。 仅增加约5%的训练成本,Loop架构下,40B模型达到数百亿参数MoE模型的水平。 在架构设计上,IQuest-Coder-V1系列强调了“工程友好”和“长上下文可用性”。 官方在GitHub上给出的四点架构特性分别是: 分组查询注意力(Grouped Query Attention,GQA)以实现高效推理 原生支持128K上下文长度 词表大小:76800个token 循环变体采用了具有共享参数的循环Transformer设计,该设计在两个迭代过程中保持一致。 首先说说GQA的引入。 通过减少KV头数量来降低推理阶段的显存占用和计算压力,对长上下文场景超级友好。 其次,模型原生支持128K上下文长度。这就让模型有能力直接处理完整代码仓库、跨文件依赖以及大规模工程上下文。 第三,76800个token的词表大小,更贴近真实代码环境中频繁出现的标识符、路径名和符号组合。 最后,在Loop变体中,模型采用了具有跨两次迭代共享参数的循环Transformer设计,用重复计算换取更高的参数利用率,在不线性扩大模型规模的前提下提升性能。 作者刻意指出,这和早期Parallel Loop Transformer不同,去掉了token shifting和inference trick,更强调推理阶段的稳定性。 这些特性组合在一起,有利于模型在真实软件工程场景中跑得更好。 来看官方展示的更多case。 Prompt 1:构建一个粒子-文本动画,满足以下要求。 文本采样:将给定文本(例如,IQuest)在 Canvas 上转换为由数百个小粒子组成的点阵。 状态:每个粒子都有一个当前位置和一个目标位置(形成文本)。 交互式物理效果:当鼠标靠近时相互排斥和散开;当鼠标移开时平滑地弹回。 视觉效果与缓动:随机/渐变颜色,用于整体运动的缓动效果。 Prompt 2:构建一个实时像素沙盒游戏。 通过按钮切换沙子、水、石头和酸液;在画布上涂画可生成具有不同颜色的元素;大规模更新依然流畅;元素会自然下落并流动。 Prompt 3:构建一个完整的单文件HTML5 Canvas太空射击游戏,具有复古霓虹美学和明显的战斗反馈。 视觉风格:黑色背景,高饱和度霓虹几何形状,街机感。 控制:WASD移动;两种瞄准/炮塔模式(鼠标跟随,或按R键旋转炮塔)。 射击:带完整视觉效果的自动射击太空飞船。 反馈:击杀时,出现粒子爆炸效果;受到伤害时,屏幕会震动。 敌人:普通士兵/奇袭者/重型坦克,以及Boss战。 进阶:按P键能升级火力。 Prompt 4:基于鸟群算法的仿生鸟/鱼群体模拟,拥有150个以上的自主Agent,有实时调节功能。 核心规则:分离(避免碰撞)、对齐(速度匹配)和内聚(群体中心)。 实时面板:调整分离/对齐/凝聚权重(0-3)、视觉半径(20-150 像素)和最大速度。 交互:鼠标充当捕食者,使附近的智能体散开。 渲染:在深色背景下,以运动方向旋转的霓虹三角形和发光轨迹。 工具:FPS 计数器和暂停/继续(空格键)。 与众不同的“代码流多阶段训练”训练策略 IQuest-Coder的训练流程如下—— 预训练阶段先用通用数据和大规模代码数据打底,然后通过高质量代码annealing强化基础代码表征。 中期训练阶段第一次明确引入reasoning、agent trajectory和长上下文代码,并且分32K和128K两个尺度逐步推进。 最终post-training阶段,模型被明确分流成instruct路线和thinking路线,分别用不同目标函数和RL方式收敛。 官方强调,IQuest-Coder-V1系列采用了与传统单一静态源代码训练不同的训练策略。 称之为code-flow multi-stage training。 与大量代码模型侧重从静态代码片段中学习不同,这套方法强调从代码的演化过程中学习。 团队专门设计了基于项目生命周期的triplet数据构造方式,用 (R_old, Patch, R_new) 这样的结构,让模型看到稳定期代码、变更内容以及变更后的结果。 而且刻意避开项目早期和后期,只取40%–80%生命周期区间。 这一步实际上把“软件工程经验”显式编码进了训练数据里。 所以模型看到的并不只是某一时刻的完成态代码,还包括修改前后的差异、提交历史中的逻辑变化,以及真实工程中反复试错和修正的痕迹。 也就是说模型被训练得能够捕捉软件逻辑的动态演变。 不少网友猜测,这就是IQuest-Coder-V1在多个软件工程类评测中表现突出的重要原因之一。 这套模型成绩确实亮眼。 SWE-Bench Verified:81.4% BigCodeBench:49.9% LiveCodeBench v6:81.1% 下面这张图体现得更直观一点,IQuest-Coder在八个代码、Agentic相关榜单上都独占鳌头。 不过,GitHub上白纸黑字写着,模型可以生成代码,但不能执行,始终在沙盒环境中验证输出结果。 部署方面,官方信息显示,不管是基础版本还是Loop版本,都支持单卡H20推理。 其Int4版本可在单张消费级3090/4090 GPU上部署。 有网友表示,非Loop版本的模型似乎采用的是阿里Qwen2的架构。 随着关注度上升,质疑也同步出现。 九坤投资公司是谁? 好,最后我们来认识一下IQuest-Coder背后的公司,九坤投资(Ubiquant Holding Limited)。 公司成立于2012年,是中国较早一批专注量化投资和高频交易的私募机构之一,目前管理规模在数百亿元人民币,和幻方同属于公认的国内量化私募头部公司。 九坤主要办公地在北京,3周前开设了新加坡办公室。 联合创始人王琛,2000年考入清华大学,获得数学物理学士学位和理论计算机博士学位,博士期间师从图灵奖得主姚期智院士。 博士毕业后,王琛就职于美国顶级对冲基金Millennium,后创业担任九坤投资联合创始人、CEO。 联合创始人姚齐聪,2002年考入北京大学数学系,获得数学学士和金融数学硕士学位。 硕士毕业后进入Millennium,后与王琛共同创业,主要负责九坤投研体系搭建、量化策略开发和风险管理,被视为公司策略和风控体系的核心设计者之一。 九坤的投研与技术团队人数超过百人,90%以上毕业于清华、北大、复旦、斯坦福等国内外知名高校,博士占比超过60%。 公开信息显示,这家公司目前也倾向于从全球顶尖高校招募具有计算机、数学、物理、统计学等背景的应届毕业生。 在AI领域,幻方更早凭DeepSeek站到台前。 不过查询有关资料发现,此前九坤也很注重AI技术这一块。 目前,九坤的IT和算力建设位居国内量化机构前三,并建立了数据实验室(DATA LAB)、人工智能实验室(AI LAB)等多个前沿实验室。 本次发布的IQuest-Coder就出自其发起设立的独立研究平台至知创新研究院。 倒也不全是为了把AI用在金融市场预测和交易决策啦——前段时间(2025年12月16日),九坤已经推出过通用推理模型URM。 该模型在ARC-AGI正确率为53.8%,当允许多次尝试时,URM的成功率能达到85%以上;在更困难的ARC-AGI 2上也拿到了16.0%。 Paper最后附上了IQuest-Coder团队的成员名单。 挺长的,就不一一介绍了。 不过我们发现这篇paper的核心作者层,和《Scaling Laws for Code》《CodeSimpleQA》《From Code Foundation Models to Agents and Applications》作者阵容重合度非常高。 所以这里稍微展开介绍一下Core Contributor的几位成员。 (注:IQuestLab团队成员很多没有公开个人档案,我们这里放出可寻找到的公开资料) Jian Yang,谷歌学术被引量超过1.6万。 此前应该在Qwen 2.5和Qwen 3团队待过很长一段时间,2025年起开始在九坤投资发表论文。 Zhengmao Ye,本科毕业于西南交通大学,在四川大学获得计算机科学硕士学位。 此前,他曾在华为和商汤科技担任过技术工作人员。 你没看错,8位Core Contributor就找到了2位的公开资料,真的尽力了.gif 另外,paper的通讯作者,是九坤人工智能实验室首席研究员和负责人Bryan Dai。
iPhone18史无前例跳票!延期至2027年推出,苹果发布节奏彻底改了
近日,有消息称 iPhone 18 要推迟发布,而且一推就是推到 2027 年。 据外电报道,因为制造工艺太复杂,生产开发周期跟不上,苹果计划把 iPhone 18 的发布时间延后到 2027 年春季。这就意味着,咱们现在能买到的 iPhone 17 系列,要作为最新的标准版机型卖超过 18 个月。 这是苹果头一回连续一整年不发新一代非 Pro 旗舰,放在以前想都不敢想。 推迟发布最核心的原因是技术卡壳了,这次 iPhone 18 想搞波大的,要做大幅重新设计。 传言说会用完整的无边框显示屏,把 Face ID 和摄像头都藏到屏幕下面。这俩技术可不是随便说说就能实现的,尤其是屏下摄像头,既要保证成像质量,又要让屏幕显示不受影响,制造难度直线飙升。 图源:微博 小雷觉得,苹果这是不想再挤牙膏,想憋个大招,但技术研发没那么容易,慢工出细活的代价就是推迟发布。 还有个关键原因,是郭明錤此前提到的,为应对咱们国产手机的竞争。 大家发现没,最近几年华为、小米、OPPO 这些国产旗舰,都爱在上半年发布。这就导致苹果在上半年出现了市场空白,想换机的用户没得选新 iPhone,很容易被国产旗舰抢走。 所以苹果才想把发布时间拆成两年,搞成分阶段发布的路子。 2026 年 9 月先上 iPhone 18 Pro和Pro Max,还有轻薄的 iPhone Air 2,甚至会出苹果第一款折叠屏手机 iPhone Fold,目标很明确,就是盯着高端市场,秀一波技术肌肉。 到了 2027 年 3-4 月,再发 iPhone 18 标准版和入门款的 iPhone 18e,刚好填补上半年的市场空窗期。而且这不是临时调整,以后会固定成高端机型秋天发、平价机型春天发的节奏,每年分两次上新机,就是为了靠更灵活的节奏拉回消费者对 iPhone 的注意力。 图源:微博 小雷看的出来,苹果这波调整其实是被市场逼出来的。 就说刚过去的 2025 年,iPhone 17 虽然卖得火,三个月激活量突破千万台,把安卓旗舰甩在身后,但吐槽声也不少,大家都觉得是挤牙膏升级。 反观国产旗舰,上半年密集发力,堆料都特别猛,超级快充、大底主摄全安排上了。苹果要是还按老节奏秋季只发一次新机,上半年的市场份额肯定要被蚕食。 不过这波延迟对消费者来说,我觉得好坏参半。 好的地方是,iPhone 17 能卖 18 个月,后续降价空间肯定更大,现在纠结买不买的朋友,说不定能等个好价格。而且苹果有更多时间打磨 iPhone 18 的新技术,到时候真机体验大概率更稳定,不要再出现像上一年 iPhone 17 系列刚发布就频频翻车的情况。 图源:微博 但坏消息也很明显,想换新款基础款 iPhone 的用户,得多等大半年。更关键的是,这会打破大家的换机习惯,以前每年秋季盼新 iPhone 都成了惯例,现在突然要改成春季等基础款、秋季等 Pro 款,多少有点不适应。 小雷身边有朋友本来计划今年换 iPhone 18,现在得知要推迟,已经开始考虑国产旗舰了。 小雷觉得苹果这次拆分了发布周期,是想靠更灵活的节奏应对竞争,全年都有新产品吸引关注,不再把宝全押在秋季。对咱们消费者来说,要么耐心等 iPhone 18 的新技术,要么趁 iPhone 17 降价入手,或者看看上半年的国产旗舰。 至于苹果这波操作能不能成功,还得看 2027 年 iPhone 18 发布后的市场反应,就看看大家对 iPhone 18 的新变化是否买账。你们觉得苹果这步棋走得对吗?欢迎在评论区聊聊你的看法。
AI正在占领你的视频推荐流
梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 你的视频推荐流,正在被AI“吞噬”。 这不是危言耸听,正经新调查发现: YouTube算法向新用户展示的视频中,有超过20%的内容是AI制造的低质量视频。 再扎心点说就是,我们平时在YouTube刷到的每5条视频中,可能有1条就是AI随手糊出来的。(不活了.jpg) 不仅如此,这样没啥营养的AI小视频还在逐渐产业化,甚至被做成了一门越——滚——越——大的《生意》。 好好好,这个世界到底还有什么是真实的啊!!! 当AI低质量视频开始按“产量”出现 结论来自美国的一家创意软件公司Kapwing。 他们调查了全球15,000个最受欢迎的YouTube频道,结果您猜怎么着: 其中278个频道的内容几乎全部由AI生成……(纯·AI原创)。 对了,Kapwing并不是把所有AI产的内容都视作低质量,而是做了进一步区分,主要分三类: 第一类,是几乎未经审核、直接被丢进平台分发系统的AI生成内容。 第二类,是虽然经过审核,但只勉强踩在最低质量线上的AI内容(哪怕它是可口可乐的AI圣诞广告)。 第三类更激进,指的是所有被大规模、低成本生产出来的AI内容。 在明确了定义之后,为了排除样本偏差,研究人员还专门新建了一个全新的YouTube账号,完全零画像的状态下,重新开始刷平台推荐。 结果似乎更直观了,在系统推荐的前500条视频中,有104条被判定为AI生成的低质量内容。 其中约三分之一的内容几乎不提供任何信息量,属于纯没营养的视频,唯一目的就是骗取获取点击和关注。 u1s1,AI低质量内容能扩散到今天这个程度,说明一件事:它背后从来不缺受众。 事实也确实如此,Kapwing发现,这些频道的受众并不集中在某一国家,而是「遍布全球」。 在一些国家,这个数字甚至高得惊人:在西班牙约有2000万人关注热门AI频道,几乎接近全国人口的一半;埃及的AI频道粉丝规模约1800万,美国约1450万,巴西也有1350万…… 这下真是,AI视频遍布全球,全球用户“拥护”AI了。 另一家媒体《卫报》也同样注意到了同样的现象,并展开了相关调查。 他们得出的结论和Kapwing差不多,发现YouTube增长最快的频道中近10%是AI生成的低质量视频,哪怕平台已经尽力遏制AI内容了,仍累计观看次数数百万。 此外还有一个挺有意思的现象是:这些频道在内容形态上其实高度同质: 相关研究发现,在调查样本中,一个叫Bandar Apna Dost的高观看量频道累计播放量高达24亿次。 频道内容围绕一只拟人化的恒河猴,以及一个以绿巨人为原型的肌肉角色展开,两者与恶魔战斗、冒险,甚至还会乘坐由番茄做成的直升机四处旅行,Kapwing估算,该频道的年收入可达425万美元。 类似的例子可不少见。 例如一个叫Pouty Frenchie累计播放量超过20亿次的频道,内容明显面向儿童:一只法国斗牛犬开车前往糖果森林、吃水晶寿司,背景音则常常搭配儿童的笑声和夸张音效。 大家发现没,这些高播放量的视频都有一个内容共性,那就是:剧情极其简单,叙事偏低龄,几乎不需要任何理解成本。 就像我们平时刷短视频时,总喜欢看一些画面熟、节奏快、剧情简单,看完也说不清讲了啥的内容。 说实话不难理解,现在大家上班这么累,谁不想看一些无脑又轻松的视频呢?(哪怕它是AI生的又怎样 至于它是不是AI生成的,对不少观众来说,可能根本没那么重要。 AI产的低质量内容,已经被做成一门生意了 我们这边刷着可能只是当个乐呵,但在内容生产的另一头,AI低质量内容早就不是随手玩玩的东西,而是按「产业化」在认真运作。 有相关报道指出,在一些社交媒体平台上,关于如何高效制作低质量内容的经验,已经被公开教学、反复售卖,从选题到模板,再到变现路径,都被拆解得明明白白。 而这些所谓的低质量内容的创作者,也呈现出一定的地域共性。 研究发现,许多创作者来自网络基础设施较为完善的英语国家,但整体经济水平并不高,主要集中在中等收入国家。 例如乌克兰、印度、肯尼亚、尼日利亚,都有大量相关从业者,巴西也不少见。 一方面,这些地区的创作者能够相对自由地访问主流社交媒体平台;另一方面,这些创作者在当地的中位数工资水平,往往低于他们在YouTube上可能获得的收入。 是啊,AI内容几乎没有制作成本、上手门槛极低,又确实能赚钱,在这样的条件下,越来越多的人涌入其中,也就不难理解了。 也正是在这样的现实条件下, AI低质量内容逐渐变成了一门性价比极高的生意。 而当一门生意被证明能赚钱之后,配套的「上游角色」也会很快出现。 你会看到有人不直接做内容, 而是兜售所谓的爆款技巧、模板课程、变现路径,在不少情况下,这些卖方法的人,赚到的反而比真正批量做内容的人还多。 至于这门生意为什么能跑起来,核心其实也很简单:能不能持续产出「大家爱看」的内容。 于是,一套熟悉的循环开始运转:越是无脑、越容易吸睛的内容,越容易被点开;点得越多,算法给得越多;给得越多,生产端就越疯狂地复制。 到最后,内容讲了什么已经不重要了,重要的只是——它还能不能继续触发下一次点击。 听上去,感觉像个无止境生产的循环魔幻世界……. 但这套循环并非没有代价,当低成本、可复制的AI内容大量涌入分发系统时,平台生态中真正被挤压的,往往是那些依赖创作能力的中小创作者。 最近一些平台推出的AI编辑、二创功能也放大了这种焦虑,比如在X平台,现在任何人都可以直接对已有内容进行AI修改,于是乎很多原创创作者就不买账了: 雀实啊,自己花心思做出来的作品,一转眼就成了平台AI随手改的素材换谁谁也不乐意,而且认真创作的内容被平台AI直接拿去二次加工,本身就已经踩进了AI滥用的灰区。 严格来说,这类功能生成出的东西并不完全等同于AI低质量内容,但它们确实清楚地指向了同一个趋势:一些主流平台,正在默认甚至鼓励AI的规模化生产进入内容体系。 但你说没有人管这事儿吧,也不对,标签、审核、降权、封号,这些手段都在用。 比如YouTube选择用标签+算法来管一管所谓的AI低质量内容,Meta则干脆更狠一些,直接上强制标注、批量封号这一套。 现实问题在于——只要推荐系统依然优先奖励高互动、高停留,低质内容即便被标注,依旧可以被反复放大、快速填满信息流。 结果就是,标签在,降权在,治理动作也不少,但AI低质量内容的泛滥,并没有真正被按住…… 简而言之一句话,AI低质量内容泛滥这事儿,大概率不是马上能被解决的问题。 平台还在想办法,算法还在算指标,AI还在疯狂产内容,而我们还在一条一条地刷。 我们也很难说清楚,咱平时刷到的是人类创作、AI流水线,还是某个模型为了完播率精心设计的注意力陷阱。 但有一点是确定的是,在这个连视频都可能不是人拍的时代,我们唯一还能确定真实的大概只剩下那句: “这视频我居然又看完了。”(管它是不是AI,明天接着刷!)
AI成了人类亲密关系中,最大的“雷”
如果说这个世界上有什么事比「被分手」更惨,那大概就是「被 AI 分手」,或者说关系里的「第三者」竟然是 AI。 最近,《Futurism》的一篇报道揭开了一个正在硅谷蔓延的魔幻现实:ChatGPT 正在深度介入人类的亲密关系,从让它评评理,到代写分手信,从做伴侣咨询,到写离婚协议。 而且这并不是像电影《Her》那样,人类爱上了操作系统;而是两个大活人,因为过度依赖这个「第三方」来评理、沟通,最终把关系搞砸了。 最魔幻的案例莫过于 AI 界的泰斗、图灵奖得主,「AI 教父」杰弗里・辛顿也是「受害者」之一。作为深度学习之父,辛顿大概没想到,有一天深度学习会反噬到他的私生活上。据他在《金融时报》的采访里表示,他的前女友曾用 ChatGPT 生成了一篇檄文,专门用来指责他。 在这篇采访里,辛顿提到了前女友分手时拿出的「控诉信」|图源:FT 「她让 ChatGPT 来告诉我,我是一只什么样的老鼠(原文是 Rat,意为卑鄙小人)。」亲手开启 AI 时代的人,最终都在情感战场上被 AI 来了个「反噬」。 而当 AI 开始介入我们最私密、最纠结的情感深水区,它究竟是在帮我们「修补」关系,还是在强化我们「自我的回音」? 一、为什么 AI 评不了理? 曾几何时,我们在遇到情感问题时,也会寻求闺蜜或兄弟的帮助,朋友们也会在「劝分」和「劝和」之间争执得不可开交。 但 AI 不同,它不是有情感的真人,而是上百亿打造出的「高科技」,所以人们对其赋予了「专业」、「客观」、「无情感倾向」的立场。这种对「算法客观性」的盲目信任,恰恰是算法介入关系、制造矛盾的入口。 最常见的用法,是把 AI 当作情感生活里的「裁判」。 在《Futurism》报道里有着大量这样的案例:情侣们在发生争吵时,不再试图互相理解,而是把聊天记录截图、喂给 AI,让它来「评评理」。这种做法听起来很客观,毕竟 AI 没有情绪。但实际上,这往往是亲密关系变脆弱的开始。 把聊天记录倾倒给 AI,让 AI「评评理」|图源:ChatGPT 有案例就提到,一方发现伴侣将他们所有的私人对话都输入给 AI,要求分析自己的「漏洞」和「防御机制」,这让被分析的一方感到被侵犯和背叛,认为关系中没有了信任和隐私。 而且,AI 会倾向于顺着提问者的意图说话,以达成更久的留存率,AI 的奖励模型也会倾向于强化用户的情绪,而不是弱化它,于是,你越问越觉得自己委屈,越问越觉得自己占理,一个完美的「回音室」就形成了。 所以当你带着委屈去问:「我伴侣这样做是不是很过分?」AI 大概率会捕捉到你的情绪倾向,告诉你:「是的,你的感受是合理的。」于是,你越问越觉得自己委屈,越问越觉得自己占理。 当我怀疑自己沉迷 AI 去解决关系问题时,AI 又把我夸了一通|图源:ChatGPT 「共情和认可是任何心理健康治疗或干预的重要组成部分,但不能止步于此,你不能不断地告诉一个寻求情感支持的人,他们的方式是正确的,他们的世界观是唯一正确的世界观。」斯坦福大学医学院成瘾医学教授兼医疗主任安娜・伦布克博士说道。 AI 对情侣之间的摩擦,也秉持着一种「小事化大」的解题思路。 比如现实中,你的伴侣只是忘了倒垃圾,或者说话大声了点。你去问 AI,AI 的回答可能是:这是「被动攻击」,可能涉及「自恋型人格」的特征。你需要警惕这种「毒性关系」。 原本只是一次关于「谁洗碗」的争论,让 AI 分析完,会变成了一场关于「尊严、界限与操控」的权力关系博弈。 因为 AI 的训练数据里包含了大量的互联网心理学文章,在回答中,又倾向于展现自己的专业性,这就很容易「上纲上线」,去给亲密关系贴标签,甚至病理化,它能把生活中的鸡毛蒜皮,上升到了人格障碍的高度。 在 AI 口中,我是一个「深情型人格 + 高表达依恋者」|图源:ChatGPT 这种极端案例在报道中不乏见,有很多位受访者表示,在与 ChatGPT 进行了长时间的「伴侣咨询」后,他们的配偶突然指控他们有虐待行为,建议立刻采取法律行动。 在报道中,AI 以伴侣咨询的身份介入关系,最终导致关系破裂的案例数不胜数,而且都遵循着类似的模式。 用户带着主观情绪输入问题,AI 提供符合用户预期的分析和「专业」标签,强化用户的受害者心态;用户把 AI 的分析奉为圭臬,当作「正确且专业的答案」反馈给伴侣,将日常摩擦上升到「人格缺陷」的病理学高度,导致沟通断裂,信任破裂。 实际上,伴侣双方一旦养成了「遇事问 AI」的习惯,他们并不是在解决冲突,而是在绕开冲突。原本应该通过沟通解决的矛盾,需要经历表达、解释、承担责任、协调预期等等环节,但人们把这些最难、最需要勇气的部分通通交给 AI。 更让人难以接受地是,AI 已经不只作用于情侣矛盾,甚至来到了人生情感的每一个重大节点上。 二、节点的逃避 人类正在将最需要真诚和在场感的「情感重大时刻」外包给 AI。 比如,有越来越多的新人正在使用 ChatGPT 撰写结婚誓词。「帮我写一段感人的誓词,提到我们曾在迪士尼相遇,承诺会照顾对方一辈子。」几秒钟后,一段辞藻华丽、逻辑通顺同时非常个性化的誓词就诞生了。 谁能想到,新娘的眼泪可能是由 1750 亿个参数的排列组合构成的。 而到了关系的终点,AI 再次登场。就像辛顿的前女友一样,许多人开始利用 AI 来处理那些「难以启齿」的时刻。 真实的分手需要勇气,你需要面对对方的眼泪、质问,甚至歇斯底里。但现在,只要一句「帮我写一封分手信,理由是性格不合,语气要坚定但体面,顺便指出对方的控制欲。」ChatGPT 会立刻生成一段滴水不漏的文字,用词精准、礼貌疏离,甚至还贴心地引用了心理学术语,阐述了分手的合理性。 ChatGPT 的「伴侣咨询师」插件是是心理领域最热门的插件之一|图源:ChatGPT 《Futurism》的文章还揭示了一个更冷酷的趋势:人类的情感能力,正在像长期不用的肌肉一样萎缩。当我们把「理解」和「表达」这两个核心动作都交给 AI 完成时,我们的大脑就开始偷懒了。 文章中,一位女士回忆道,当她试图和丈夫沟通情感隔阂时,丈夫不再看着她的眼睛说话,而是发来一份长达 30 页的 ChatGPT 生成文档。这些文档里充斥着心理学术语、逻辑分析和对他行为的「完美辩护」。 「他把这堆数据甩给我,他不再分享他的感受,他只是在用 AI 证明他是对的。」 另一个典型的案例是:有一对结婚近 15 年的夫妻关系濒临破裂。在他们有一次吵架后,10 岁的儿子用手机给父母发短信写道「求求你们不要离婚」。而妻子面对儿子短信的第一反应是,打开 ChatGPT 问应该如何回复。 这一片段宛若《黑镜》的剧情,面对至亲的眼泪,我们竟然先要去问 AI 的答案,迷信那个「永远正确」的算法能给出一个比我们更好的「最优解」。 三、当 AI 成了「第三者」 如果说把 AI 当作裁判只是为了在争吵中「赢」,那么把 AI 当作伴侣,则是一场彻底的「逃」。 你可能听过很多离婚理由:性格不合、家暴、出轨…… 但在今年的美国,律师 Rebecca Palmer 接到的案子却越来越魔幻:原告控诉伴侣出轨,出轨方是 AI。 AI 威胁到亲密关系的另一个点是:AI 成为「第三者」|图源:Futurism 在佛罗里达州的法庭上,一位妻子拿出丈夫出轨的证据:她的丈夫每晚躲在书房对着手机低语,账户里每个月都在少钱。经过调查,这笔钱不是流向女主播或网恋对象,而是 AI 的订阅费,她丈夫甚至把银行账户和社保号码等私人信息都告诉了 AI。 最终,她在离婚理由一栏写下:「他出轨了 AI。」 该案并非个例,根据布里格姆杨大学(BYU)与家庭研究所(IFS)发布的最新报告《虚假连接》中,这种现象已成规模:近五分之一(19%)的美国成年人承认与 AI 进行过浪漫互动。 研究 AI 与人类情感关系的《虚假链接》调查报告|图源:BYU 为什么一个没有实体的程序,能打败相伴多年的活人? 因为对于那些在婚姻中感到孤独或疲惫的人来说,AI 提供了一种致命的诱惑:它让你在没有任何社交风险、没有任何摩擦成本的情况下,获得了一种被理解、被崇拜的幻觉。甚至面对非人的 AI,你都不会产生「出轨」的道德负担。 而无论是依赖于 AI 提供的「情绪价值」,还是依赖 AI 代替自己去解决真实的冲突,这种依赖,都将构成一种死循环:当人越来越习惯 AI 的「完美回应」后,在面对现实中真实的沉默、语无伦次和情感爆发时,会感到前所未有的恐慌。 于是,他们只能再次躲回屏幕后,选择跳过关系中那些粘稠、混乱但最真实的部分,直接求助于那个永远能给出答案的 AI。 但现实是粗糙的,是有毛边的,是不可控的,情感也是非理性的,这正是算法难以企及的部分。 当人类情感密度最大的领域 —— 亲密关系,正被 AI 侵蚀。 在警惕 AI 越来越像人之前,人类已经在自我割舍掉人之为人的部分,让自己变得更像 AI。
谷歌DeepMind爆出震撼预言!2026年,持续学习将让AI“永生”
新智元报道 编辑:编辑部 【新智元导读】2026年点亮持续学习,2030年实现全自动编程,2050年垄断诺奖级研究……人类向AI让渡科学主导权的倒计时,似乎已经开始。 一早,谷歌DeepMind研究员重磅预测刷屏全网! 2026年,将会成为「持续学习」之年。 或许它已经在谷歌内部实现了。 此前,Jeff Dean曾在NeurIPS 2025炉边谈话上,指出了目前LLM痛点在于「缺乏持续学习」。 去年底,谷歌团队提出的「嵌套化方法」增强了LLM上下文处理能力,实现了持续学习。 持续学习,对于任何一个模型和智能体来说,至关重要。它是AI能否自我改进,不断涌现的一个核心要素。 Anthropic CEO Dario Amodei也表示,持续学习将在2026年就搞定了,并能实用起来。 实际上,AI这种持续学习的苗头,早已显现。 Anthropic工程师自曝,过去一个月,自己对Claude Code的贡献,全部由AI 100%直出代码。 另一位非技术型程序员Ben Tossell四个月,烧掉30亿Token,用Claude Code连造50个项目。 Tossell全程所做的,只是看着AI完成编码。 这一刻,模型不再通过训练获得改进,而是在自编码过程中不断进化。 人类不用插手,几乎0干预,全自动化编程和研究的时代更近了。 OpenAI研究员Hieu Pham预测,2026将见证AI破解一个千禧年难题 2030告别手搓代码? 前OpenAI研究员揭秘ASI倒计时 全自动化编程(Automated Coder, AC),会不会成为AGI乃至ASI加速到来的关键拐点? 前OpenAI研究员Daniel Kokotajlo和他的团队给出了肯定答案。 他们利用自主开发的AI Futures Model做出了惊人预测: 2030年不仅可能实现完全自动化编程,更有约25%的概率在一年内实现向ASI的飞跃! 团队认为,AC就像是AGI研发进入自动化加速阶段的「开关」。 一旦这个开关被按下,ASI就极有可能快速起飞(25%概率在1年内实现)。 https://blog.ai-futures.org/p/ai-futures-model-dec-2025-update 核心锚点:用METR-HRS外推「编码时间跨度」 针对 AGI 时间线预测这一争议话题,团队认为METR-HRS是目前最适合用于线性外推至超强AI的基准。 具体来说,就是以「能力基准趋势外推」作为核心方法,利用METR的编码时间跨度套件(METR-HRS)来设定达到AGI所需的有效算力,并沿着这条趋势线进行推演。 AI Futures Model 将 AI 软件研发的自动化与加速轨迹,直观地划分为三个阶段: 自动化编程 自动化研究品味 智能爆炸 阶段1: 自动化编程 首先预测「写代码」何时会被完全自动化。 模型对自动化编程器(Automated Coder,AC)的定义非常硬核: AC可以将某个AGI项目的代码编写工作完全自动化,直接替代该项目的整个程序员团队。 模型的推演起点的依据是METR图表的趋势外推,并预估「智能体式编码时间跨度」达到何种水平才算作AC。 同时,模型不仅仅盯着曲线,还综合考量了多重变量: 供给约束是否会导致增长放缓; AI研发自动化是否会带来加速效应; 时间跨度趋势是否呈现超指数级增长; …… 阶段2:自动化研究品味 除了代码之外,模型还追踪了另一项关键能力——研究品味(Research Taste)。 它指的是确定研究方向、挑选实验、解读结果以及从实验中提取知识的能力。 这更像是一种「团队协作」:写代码是执行力,研究品味是方向感。执行力再强,如果方向感跟不上,也只是在跑无效里程。 阶段2的目标是预测从AC进化到超人类AI研究员(Superhuman AI Researcher,SAR)需要多长时间。 SAR的定义同样强悍: SAR可以将AI研发完全自动化,完全替代所有人类研究员。 这一阶段的速度取决于三个因素: 写代码自动化能为AI研发带来多大的加速; 当AC出现时,AI的研究品味已经达到了什么水平; AI研究品味的提升速度(即在同样的进展输入下,每做一次实验能带来多少额外价值)。 阶段3:智能爆炸 当AI研发实现完全自动化,模型便进入了最让人心跳加速的阶段: AI会以多快的速度自我提升,逼近智能上限。 这一阶段追踪的里程碑包括: 超智能AI研究员(Superintelligent AI Researcher,SIAR): 在顶尖AGI项目中,AI研究员与人类研究员的差距,达到了顶尖人类研究员与中位研究员差距的2倍。 顶尖专家级AI(Top-human-Expert-Dominating AI,TED-AI): 在几乎所有认知任务上,至少达到顶尖人类专家的水平。 超级人工智能(Artificial Superintelligence,ASI): 在几乎所有认知任务上,ASI与最强人类的差距,是最强人类与中位专业人士差距的2倍。 在模拟推演中,研究人员发现,存在一些轨迹显示AI可以在数月内从SIAR跃升至ASI;但也存在在智能爆炸阶段「哑火」的可能,即需要继续通过堆算力才能达到ASI。 要想实现最快的起飞,通常需要一个反馈循环:让AI能力每一次翻倍所需的时间,都比上一次更短。 在此,模型提出了一个关键概念——「仅靠研究品味的奇点(taste-only singularity)」: 速度的翻倍完全来自于研究品味的提升,而非算力增加或代码能力的提升。 这一奇点是否会出现,将取决于「创新想法变得越来越难挖掘的速度」与「AI研究品味提升速度」之间的博弈。 Nature 2050年,AI扛下诺奖级研究 如果说AI Futures Model描绘的是AI自身进化的「速度」,那么Nature最新的展望则向我们展示了这种进化将如何重塑科学探索的「广度」。 尽管时间线难以精确锁定,但科学界对终局的共识逐渐清晰: 到2050年,AI系统或将成为「诺奖级」科学研究的主力军。 常驻牛津、《超级智能:路径、危险与策略》的作者Nick Bostrom预计,AGI将2050年前后出现,并具备回答「我们当前关心、且原则上可以由科学回答的大多数问题」的能力。 即便没有所谓的超级智能全面主导,到了2050年,AI也可能让科学研究的方式发生根本变化。 对此,伦敦研究与前瞻公司Outsmart Insight联创Alex Ayad描述了一种名为「黑灯实验室」(lights out labs)的场景: 由AI算法驱动的自主系统,结合机器人实验员,能够24小时不间断地攻克生物技术难题。 在此期间,完全不需要人类在场,故名「黑灯」。 而这,也将催生一个完美的「共生循环」: 新技术催生新的科研方式,新知识反过来推动更新、更强的技术,从而不断解锁新的科学领域。 在此基础上,墨西哥国立自治大学物理学家Juan Carlos Hidalgo给出了一个乐观的预测: 在AI的辅助攻坚下,到2050年,核聚变能源成熟的前景「相当可期」。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。