行业分类:
加载中...
头条分类:
加载中...
DeepSeek-OCR 2发布:让AI像人一样“读懂”复杂文档
凤凰网科技讯 1月27日,DeepSeek团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文,并开源DeepSeek-OCR 2模型。 该模型采用创新的DeepEncoder V2新型编码器结构,它能够根据图像语义动态调整视觉信息的处理顺序,使模型在进行文字识别前先对视觉内容进行智能排序。这项技术突破源于对传统视觉语言模型处理方式的重新思考,旨在让机器更贴近人类的视觉阅读逻辑。 在传统的视觉语言模型中,图像通常会被切分为若干视觉token,并按照从左上到右下的固定栅格顺序送入模型处理。这种方式虽然实现简单,但与人类在阅读文档、表格或公式时基于语义和逻辑关系进行跳跃式浏览的方式并不一致。 DeepSeek论文指出,尤其在版式复杂的文档场景中,视觉元素之间往往存在明确的逻辑先后关系,仅依赖空间顺序可能限制模型对内容结构的理解能力。 为验证模型性能,研究团队在OmniDocBench v1.5基准上进行了全面评估。该基准涵盖多种类型的中英文文档,包括学术论文、杂志、报告等,重点考察文本识别、公式解析、表格结构还原以及阅读顺序等指标。 测试结果显示,在视觉token上限更低的情况下,DeepSeek-OCR 2的整体得分达到91.09%,相较DeepSeek-OCR提升了3.73%。特别是在阅读顺序准确度方面,编辑距离从0.085降至0.057,表明新模型能够更合理地理解文档内容结构。
营销视频DeepSeek时刻已至?中国自研AI视频杀器,要抢走电商视频后期饭碗
智东西 作者 云鹏 编辑 漠影 今天,当大部分AI视频生成工具还在做“快餐”的时候,国内团队祭出的新AI大招已经可以一键生成商用级的精美营销视频了。 AI技术给短视频创作带来的巨大变革,正在跨境电商领域掀起新的风暴。 当前,电商营销内容越来越多以视频形式呈现,尤其是短视频,移动生态流量正在大量转向视频内容。在AI大模型技术与内容创作深度融合的今天,如何用AI降本增效成为所有玩家聚焦重点。 但与此同时,痛点与机遇并存,海外模型更多比拼顶尖创作能力而非商业化能力,商用级营销视频的大量需求无法被满足,尤其是国内市场更是充满空白。 市面上绝大部分模型处理多模态内容一致性差、产品细节与品牌调性难以精准还原、视频逻辑和连贯性不足,并且成本高周期长,不易应对电商高频使用、灵活调整的需求,同时,跨境电商领域极高的本地化需求也难以被满足。 在炫酷画面视觉效果之外,商用AI落地真正追求的是高可用性、稳定性以及出色的性价比。 这样的行业趋势之下,近期由营赛AI发布的AI视频杀手级应用inSai Hilight成为行业中的一匹黑马,让AI从“玩具”变成了“工具”。 智东西也提前进行了上手体验,效果令人印象深刻。我们只需要一条简单的商品链接或一张商品图,就能一键生成长达1分钟的精品电商营销视频;不仅音画同步、产品信息准确,甚至连数字人都直接生成好了,口型都对的上。据了解,这背后包含Multi-Agent协同等多项技术创新以及顶级国内外垂类模型的加持。 Hilight俨然成为了跨境电商领域的“Sora”,它不是一个“剪视频工具”,而是能够像真人一样“思考、策划、剪辑”,交付可商用视频的超级创作平台。 营销视频领域的DeepSeek时刻悄然到来。 一、一条链接生成商用精美大片,稳定性一致性是杀手锏,彻底告别“AI味儿” 正如前文所说,在真正营销“战场”,需求是极为复杂且具有挑战的,需要AI工具的创作能够保证品牌和产品的高度一致性、能很好地传达品牌调性,性价比要高、转化能力要强,同时模式要能够批量化复制且内容合规。 当前行业中大部分产品仍不成熟,不仅效率、成本、效果存在短板,而且绝大部分都是“套壳”,并没有真正针对行业痛点进行技术创新,突破既有方案的瓶颈。 能够实现真正高可用、高性价比的商用全流程解决方案,是突围行业的机会所在。 面对这些挑战,Hilight给出了成为成熟的,甚至可以说是“投喂式”的AI全包服务。在实际体验过程中,其一键成片的高效、准确、稳定给我留下了深刻印象;创意工坊和数字人功能也成为营销领域不可多得的提效降本“工具箱”。 具体来看,我们只需要一条链接或上传商品图就能一键生成营销视频,从脚本生成、镜头匹配、剪辑渲染到多平台适配,整个流程清晰可见,并且还可控。甚至每个Agent负责哪些内容都有直观呈现,就如同今天大模型领域的“深度思考”过程。 在Ebay上,找到一条目标产品的商品链接,复制粘贴到对话框中,系统就会开始智能分析链接中的网址,提取关键信息,当然,我们不止可以用链接,还可以用脚本、图文等多源输入。 分析提取信息后系统会与你确认创作需求,包括产品信息、素材、主图选择、产品卖点、目标受众、促销优惠、营销节点、视频比例、视频时长、视频语言、数字人形象和配音,目前平台已经支持全球主流语种,可以很好的应对各种市场需求。 此外,你可以提出其他要求,比如你的风格偏好、有哪些需要规避的内容,你还可以进一步选择“精调成片”,对更多细节进行完美把控。 精调模式下确认分镜信息 这种灵活可控、把选择权充分交给用户的模式是值得肯定的,也是电商人所“刚需”的。 当然,你还可以直接放手让AI帮你完成一切,你只需要点击最后的“一键成片”,就可以享受AI给你带来的服务。 从一些体验的生成结果来看,商品/人物跨帧一致性是其突出特点之一。比如皮鞋产品的细节纹理可以得到很好的还原,在多个场景中出现都具有不错的稳定性一致性。 比如眼镜产品视频中,眼镜是否带摄像头、按键位置、造型都有比较好的还原。纵观其他AI视频生成工具,Hilight的生成效果可以说是断档式领先的,这也是其核心技术护城河。 在耳机展示视频中,不论是在有人物佩戴的画面,还是产品空镜,亦或是产品充电、连接手机等功能展示环节,耳机的外观、色彩、LOGO都能有准确还原。 除了一致性,Hilight还可以保证对需求的准确呈现,对于商品特性有比较形象直观的展示,比如展示鞋底的舒适、展示眼镜的轻便时尚与翻译功能,对于目标人群所在的标志性场景都有展现,比如室内、户外、旅行、工作。整体上可以较好的覆盖前期的目标人群、产品卖点。 此外,真实感强、AI味淡也是我的突出感受,视频画面、场景真实感很强,实拍感很强,AI生成味比较淡,一些服装的细节、皮肤的纹理、人物自然的表情都会带来比较强的实拍感。 数字人面部细节、穿着都比较逼真,并且说话时口型也对的上,几乎没有AI常见的违和感。 与此同时,这种真实感也来源于光影的呈现,比如展示眼镜商品的视频中,连镜片中的反光和景物映射都十分还原,真实感扑面而来。 可以说,即使是视频剪辑领域的“纯小白”,也能快速产出优质视频,真的是一键生成自主成片,所有环节AI都可以搞定。 从实际体验来看,视频短则几分钟就可以完成,相比传统短则几天,长则数周的创作流程来说,效率的提升是立竿见影的,更适合电商营销视频这类高频创作、竞争激烈、要求快速落地的领域。 同时,生成视频的成本最低仅有3元左右,价格区间在几元到十几元之间,相比传统流程中的人力、财力成本,几乎可以忽略不计。 除了智能一键成片,我也对创意工坊和数字分身两大功能进行了体验。 在创意工坊中,我们可以进行视频或图片素材的生成,输入素材可以是文字,也可以是图片。 比如我们可以根据一张简单的商品静态图,生成各类空镜图片、视频素材,为后续进一步的视频制作积累内容素材。 创意工坊可以生成创意片段,比如让照片中的静态人物说话、给视频中的人物换脸。 在商品展示方面,AI可以给模特捏脸、换装、换脸、换背景,十分灵活;素材加工方面,AI可以对图片、视频进行增加画幅、去水印、高清化等操作。 总体来看,创意工坊有着丰富的素材工具集,可以灵活高效地生成大量素材。 可以看到,基于Hilight平台,商用级电商营销视频的创作效率有了数十倍提升,从数天数周到几分钟几小时,这无疑是一种AI加持下的“降维打击”。 Hilight真正将AI视频生成从噱头性的“玩具”升级为好用、易用的专业“工具”,视频生成从快餐Demo来到了商用大片时代。 二、Multi-Agent协作兼顾性能、效率、成本,电商营销从“经验驱动”到“AI驱动” 在惊艳的产品体验背后,Hilight掏出了不少硬核技术创新,其团队历时9个多月自研,让产品跟市面上的“套壳AI”工具有了本质区别,真正实现了技术和模式架构层面的创新。 首先,也是最核心的一点,就是当我们用“商用”标准来看待AI生成视频,最关心的问题是什么?没错,是真实,要真实、准确,“不穿帮”。 其中对真实感影响最明显的就是商品的一致性,简单来说,这个产品的形状、外观、颜色、材质、版型、大小、结构等特点是不是在整个视频中都保持准确。 为了实现这一点,Hilight会基于商品知识图谱,对商品的关键属性进行精细化的拆解和结构化梳理,比如西裤的材质、眼镜摄像头的位置、皮鞋缝线的形状,从Agent处理流程中我们也能看到这个过程。 这就像为视频创作安排了一个“质检员”,保证镜头、场景切换的过程中,产品特点准确,即时修正误差,这是实现跨帧一致性的基础保障。 针对视频中出现的数字人,Hilight都有对应的专属形象“模板”,对基础身份、动作姿态、场景都做了约束,能让数字人在展现商品时更精准、更真实、更能符合需求。 比如商品是正式西装时,为数字人添加衬衫、领带等商务穿搭,调整站姿为通勤款;若是商务办公场景,则将背景切换为办公室,数字人与新背景自然融入,确保数字人与场景、商品高度契合。 在保证一致性提升真实感方面,Hilight还构建了负责智能自检的Agent,在视频片段生成后再进行校验,确保最后输出结果的准确。 根据视频生成领域权威µµ基准测试VBench得分,Hilight在背景一致性、主体一致性两方面都在行业同类产品中位列第一,超越Sora 、Seed Dream等模型。 在具体的执行层面,Multi-Agent协同是Hilight另一个关键技术创新。 在理解洞察层,Brief理解、素材理解、信息总结、趋势洞察四个Agent相互配合,把商品链接或者素材包中的各类图文素材分析拆解为真正可执行的营销指令。从理解我们的目标、把素材整理成素材库、汇总梳理关键信息到构思内容打包。 在创意与结构层,创意生成、剧本策划、素材匹配、素材增强四个Agent高效协同,把构思创意变成真正可以执行的视频结构,从如何讲故事、如何拆分每一个镜头、脚本制作、到素材的后期处理。 最后在执行与成片层,剪辑执行、成片生成、质检复盘三个Agent会最终制作出视频成品并复检,甚至还能将结果反哺系统,形成良性迭代循环。 形象地来看,相比于其他AI工具,使用Hilight更像拥有一个各方面精通的专家团队,Hilight AI自研了十多个专家Agent,并集于一个系统之中,可以说是十余个“诸葛亮”齐帮忙。 这一Multi-Agent模式带来优势是显而易见的:每一个Agent都有独立判断的能力,可以进行决策,并且Agent之间有协商协作机制,支持多轮回退,降低不确定性。此外,整个Multi-Agent系统有着自我进化能力,针对爆款产出,可以进行迭代。 简单来说,我们不再需要纠结于各个模型产出的复杂组合,不再受限于单独模型的制约和瓶颈,直接让所有顶级模型在同一平台上为我所用,效率大幅提升、效果集各家之所长。 这种“DeepSeek式”的颠覆和良心,给电商营销领域带来了巨大经济价值。 首先,在性能和性价比层面,Hilight是目前市场上唯一可以做到生成视频比肩实拍效果的产品,商家可以按产出支付,更高效且可控,可以说是跨境电商领域的Sora。 实际上,其在营销垂类领域的效果已经超过了Sora,成为这一领域新的“更优解”。 效率方面,一键直出所有营销素材带来的提效是显而易见的,甚至不需要本地部署,不需要高性能PC或工作站,AI全自动、全流程完成视频生成工作,从剧本、选图、数字人、配音到渲染。100%纯AI原创也让合规性和版权均有保障。 用一个产品代替“一箩筐”的传统创作工具,这是对传统视频制作流程的颠覆,也是真正的“花小钱办大事”。 从技术层面来看,Hilight这种突破性的“慢思考”逻辑、采用Multi-Agent的协作方式无疑是最核心的创新之处,这也是全球首个AI原生电商视频Multi-Agent,相比市面上的“快餐型”AI视频生成工具效果更可控,断档领先的一致性也成为解决商用“最后一道坎”的关键。 在Hilight加持下,基于AI形成“内容生成-数据反馈-优化迭代”的闭环,电商营销真正拥有了从“经验驱动”向“数据驱动”的转型基础; 相比套壳AI产品没有思考的快餐式产出,Hlight选择通过“有限的等待”让用户获得真正商用级的高质量视频,成为真正给电商营销行业带来价值的工业级AI应用。 结语:AI视频工具大战迈入深水区,Hilight AI率先交出标杆式答卷领跑行业 在AI与各领域深度融合的过程中,营销一直是AI率先大规模商业化的一个重要阵地,这一领域商家规模巨大、商品差异化显著、定制化需求突出、竞争十分激烈,同时对时效、成本极为敏感。 Hilight给出的解决方案对于电商视频营销所面临的几大核心痛点都有着针对性优化,这种一键搞定的极简操作背后,是团队将技术细节和难题留给了自己,将简单留给了用户,可以极大扩展平台初期所能适用的用户范围。 与此同时,我们也看到AI营销领域的技术发展迈入了Multi-Agent时代,通过多专家Agent配合、多模态模型协作的模式搞定复杂任务,无疑成为一种标杆式的解决思路。 在AI视频大战迈入深水区之下,Hilight AI无疑已经跑在了AI营销视频行业前列。
DeepSeek最新王炸模型:VLM架构重磅突破,AI像人一样读图
头图由AI生成 这一框架可用于集成额外文本、语音和视觉等多种模态。 作者 | 陈骏达 编辑 | 云鹏 智东西1月27日报道,刚刚,DeepSeek开源了其面向OCR场景的专用模型DeepSeek-OCR 2,技术报告同步发布。这一模型是对去年DeepSeek-OCR模型的升级,其采用的新型解码器让模型看图、读文件的顺序更像人,而不是像机械的扫描仪。 简单来说,以前的模型阅读模式是从左上到右下,地毯式扫一遍图片,DeepSeek-OCR 2则能够理解结构,按结构一步步读。这种新的视觉理解模式,让DeepSeek-OCR 2可以更好地理解复杂的布局顺序、公式和表格。 在文档理解基准测试OmniDocBench v1.5上,DeepSeek-OCR 2拿到了91.09%的得分,在训练数据和编码器都不变的前提下,较DeepSeek-OCR提升了3.73%。与其他端到端的OCR模型相比,这已经是SOTA成绩,但其表现要略逊于百度的PaddleOCR-VL(92.86%)OCR管线。 同时,在相似的视觉token预算下,DeepSeek-OCR 2在文档解析方面的编辑距离(编辑为正确文本所需的工作量)低于Gemini-3 Pro,这证明DeepSeek-OCR 2在确保优越性能的同时保持了视觉token的高压缩率。 DeepSeek-OCR 2兼具双重价值:既可作为新型VLM(视觉语言模型)架构进行探索性研究,也能作为生成高质量预训练数据的实用工具,服务于大语言模型的训练过程。 论文链接: https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf 开源地址: https://github.com/deepseek-ai/DeepSeek-OCR-2?tab=readme-ov-file 01. 大模型不懂复杂文件结构? 先观察全局再阅读便可解决 从架构上来看,DeepSeek-OCR 2继承了DeepSeek-OCR的整体架构,该架构由编码器和解码器组成。编码器将图像离散化为视觉token,而解码器根据这些视觉token和文本提示生成输出。 关键区别在于编码器:DeepSeek将此前的DeepEncoder升级为DeepEncoder V2,它保留了原有的所有能力,但把原本基于CLIP的编码器换成基于LLM的,同时通过新的架构设计引入了因果推理。 DeepEncoder V2关注的核心问题在于:当二维结构被映射为一维序列并绑定线性顺序后,模型在建模空间关系时不可避免地受到该顺序的影响。 这在自然图像中可能尚可接受,但在OCR、表格、表单等具有复杂布局的场景中,线性顺序往往与真实的语义组织方式严重不匹配,从而限制模型对视觉结构的表达能力。 DeepEncoder V2是如何缓解这一问题的?它首先采用视觉tokenizer对图像进行高效表示,通过窗口注意力实现约16倍的token压缩,在显著降低后续全局注意力计算与显存开销的同时,保持了充分的局部与中尺度视觉信息。 它并未依赖位置编码来规定视觉token的语义顺序,而是引入因果流查询(causal queries),通过内容感知的方式对视觉标记进行重排序与蒸馏。这种顺序不是由空间展开规则决定,而是由模型在观察全局视觉上下文后逐步生成,从而避免了对固定一维顺序的强依赖。 每个因果查询可以关注所有视觉token及先前查询,从而在保持token数量不变的前提下,对视觉特征进行语义重排序与信息蒸馏。最终,仅因果查询的输出被送入下游LLM解码器。 该设计本质上形成了两级级联的因果推理过程:首先,编码器内部通过因果查询对无序的视觉标记进行语义排序。随后,LLM解码器在此有序序列上执行自回归推理。 相较于通过位置编码强制施加空间顺序的做法,因果查询所诱导的顺序更贴合视觉语义本身,也就是符合人类阅读内容的正常习惯。 由于DeepSeek-OCR 2主要关注编码器改进,没有对解码器组件进行升级。遵循这一设计原则,DeepSeek保留了DeepSeek-OCR的解码器:一个具有约5亿活跃参数的3B参数MoE结构。 02. OmniDocBench得分达91.09% 编辑距离低于Gemini-3 Pro 为了验证上述设计的有效性,DeepSeek进行了实验。研究团队分三个阶段训练DeepSeek-OCR 2:编码器预训练、查询增强和解码器专业化。 第一阶段使视觉tokenizer和LLM风格的编码器获得特征提取、token压缩和token重排序的基本能力。第二阶段进一步增强了编码器的token重排序能力,同时增强了视觉知识压缩。第三阶段冻结编码器参数,仅优化解码器,从而在相同的FLOPs下实现更高的数据吞吐量。 为评估模型效果,DeepSeek选择OmniDocBench v1.5作为主要的评估基准。该基准包含1355个文档页面,涵盖中英文的9个主要类别(包括杂志、学术论文、研究报告等)。 DeepSeek-OCR 2在仅使用最小的视觉标记上限(V-token maxmax)的情况下,达到了91.09%的性能。与DeepSeek-OCR基线相比,在相似的训练数据源下,它表现出3.73%的改进,验证了新架构的有效性。 除了整体改进外,阅读顺序(R-order)的编辑距离(ED)也显著下降(从0.085降至0.057),这表明新的DeepEncoder V2可以根据图像信息有效地选择和排列初始视觉标记。 在相似的视觉标记预算(1120)下,DeepSeek-OCR 2(0.100)在文档解析方面的编辑距离低于Gemini-3 Pro(0.115),进一步证明新模型在确保性能的同时保持了视觉标记的高压缩率。 不过,DeepSeek-OCR 2也不是全能的。在文本密度超高的报纸上,DeepSeek-OCR 2识别效果没有其他类型的文本好。这一问题后续可以通过增加局部裁剪数量来解决,或者在训练过程中提供更多的样本。 03. 结语:或成新型VLM架构开端 DeepEncoder V2为LLM风格编码器在视觉任务上的可行性提供了初步验证。更重要的是,DeepSeek的研究团队认为,该架构具有演变为统一全模态编码器的潜力。这样的编码器可以在同一参数空间内压缩文本、提取语音特征和重组视觉内容。 DeepSeek称,DeepSeek-OCR的光学压缩代表了向原生多模态的初步探索,未来,他们还将继续探索通过这种共享编码器框架集成额外模态,成为研究探索的新型VLM架构的开端。
上海交大给具身智能发了一张“统考卷”,这会是机器人的LMArena吗?
用多样化的任务与公开透明的机制,堵上具身大模型刷榜的捷径。 作者 | 陈骏达 编辑 | 漠影 在具身智能领域,一个越来越突出的现实是:Demo,似乎成为了技术能力的通用叙事方式。 在发布会、短视频和展台上,我们反复看到类似的场景,机器人在精心布置的环境里完成一次抓取、一段行走,流程流畅、效果惊艳。 然而,一旦离开展示场景,问题便变得复杂得多。换一个光照条件、换一个物体材质、稍微打乱顺序,系统是否还能稳定工作,外界往往无从得知。 不同厂商基于不同任务与展示方式来定义“领先”,使得这些Demo之间既难以横向比较,也难以被复现验证。在缺乏统一评测标准的情况下,Demo与实际落地之间的差异逐渐放大。 日前,图灵奖得主姚期智便在一场演讲中点破了这一现状:(具身智能行业)要从各说各话到统一评测,建立开放机制、安全规范等等,鼓励开源复现与挑战赛,让优秀的算法可以重复使用,可验证、可产业化。 这一呼吁背后的核心,正是建立一套统一、科学且可被反复验证的评测体系。2026年开年,上海交通大学等机构联合发布的GM-100,正是目前国内少数试图在这一方向上给出系统性解决方案的尝试之一。 01. 具身智能 缺一张“统考卷” 在一个仍处于早期探索阶段的技术领域,评测体系的意义并不止于给模型排个名次,更像是一张“统考卷”:它通过题目设置,明确哪些能力被认为是重要的,哪些问题值得被长期投入,从而在无形中塑造和引领整个行业的研究方向与技术路线。 但从现实情况来看,具身智能领域的评测体系仍然较为分散。不同企业和研究团队往往使用各自的任务集、评测流程和指标体系:有的侧重抓取成功率,有的关注路径规划,有的强调单一长任务完成情况。 现有的评测在一定程度上推动了行业早期的发展,但其任务设置多集中于高频、相对简单的场景。随着模型能力的提升,这类基准对真实应用的区分度正在下降,也越来越难以反映具身智能在复杂环境中的核心挑战。 当模型已经可以稳定完成这些“标准动作”时,继续在同一类任务上刷分,往往只能体现工程调优或场景适配能力,而难以揭示模型在复杂条件下的真实表现。行业在判断技术成熟度时,仍然缺乏一个被广泛认可的客观参照。 面向具身智能的未来,一个好的评测体系不只考“常见题”,还应覆盖偏题、难题和综合题,结构上既有基础能力测试,也有对长尾行为和复杂交互的检验。 它的目标不是让模型看起来“很强”,而是清晰呈现模型在真实执行中的能力边界——在哪些条件下可以稳定工作,在哪些情况下会失败,失败模式又是什么。 同时,随着具身任务从单一动作走向长序列、多步骤协作,评测也不能唯结果论。是否完成任务固然重要,但完成过程中的决策质量、异常处理方式、对环境和人类行为的响应,同样是衡量系统成熟度的关键维度。 过去一段时间里,学术界和工业界已关注到这一问题,并着手解决。从李飞飞教授的BEHAVIOR,到HuggingFace联合业内打造的RoboChallenge,各种新的评测体系,恰恰折射出了行业对更全面评测的迫切需求。他们希望通过更具挑战性和解释力的测试体系,为技术演进提供清晰坐标。 02. 让机器人穿糖葫芦、开抽屉 如何揭示具身智能的能力边界? GM-100由100个任务组成,每个任务大约有100条训练轨迹和30条测试轨迹,总计13000条操作轨迹,规模已经不小。不过,相比单纯追求规模的数据集,真正让GM-100与其他测评集打出差异化的,是其任务多样性和评估系统性。 GM-100的主要作者与项目牵头人、上海交通大学副教授李永露告诉智东西,其实验室践行的理念是“以数据为中心的具身智能”。 他认为在这个时代,数据集和评测对科研的贡献超过了60%,加些数据,或是让数据的分布更为健康,便有可能大幅推动模型能力的提升。 研究中,团队对现有的海量数据集和任务进行了统计,发现大部分任务仍以“pick, hold, place”这三大类为核心。因此,GM-100选择了以长尾任务和精细操作为重点,力图展现当前具身智能在真实世界操作中的能力边界。 任务设计过程中,研究团队先对人类与物体的交互原语进行了系统分析,然后借助大语言模型生成候选任务,再经过专家筛选与优化,最终形成100个任务。这些任务从日常常见到罕见,从简单到复杂。 这些任务中有不少“反直觉”的存在——人类觉得非常精细困难的任务,机器人反而能够较好完成;而人类认为非常简单的操作,机器人却经常失败。 该实验室成员、上海交通大学博士生王梓宇告诉我们,像穿糖葫芦这样人类认为对机器人比较复杂的任务,机器人已经能够做到一定水平,而开抽屉、按台灯开关或整理小物体等直觉上简单的任务,却因为机械臂构型、物体材质、位置摆放以及指令理解等因素而变得困难。 ▲GM-100中的部分任务 在现有评测体系普遍面临任务同质化、容易被针对性优化“刷榜”的背景下,GM-100通过高度多样化且长尾的任务来贴近真实物理世界。这拉高了针对性优化的成本,进而有效引导模型发展通用能力,避免模型仅在简单任务上过拟合的倾向。 在研究论文中,GM-100背后的团队已经验证了这一测评集的有效性。他们对Diffusion Policy(DP)、π₀、π₀.₅及GR00T等主流具身学习模型进行了测试。值得注意的是,GM-100评估指标不止于传统的任务成功率(SR),还引入了部分成功率(PSR)和动作预测误差。 PSR让多步骤任务的细节完成情况可量化,动作预测误差则衡量模型在新轨迹上的模仿精度。这种多维度指标使研究者能从不同角度衡量模型表现的强弱,遏制了模型通过“作弊”、“走捷径”完成部分动作,鼓励研究者关注模型真正的泛化和模仿能力。 结果显示,GM-100的任务在许多机器人平台上都可执行,但也没有过于简单,不同模型在GM-100上的表现拉开了区分度,这证明任务设计本身是合理的。跨平台测试也表明,这些任务在不同机器上具有一定的泛化价值,为评估模型能力提供了可靠参考。 03. 不做“爹味很浓”的测评集 Benchmark不只靠权威说话 不过,对一个测评集来说,打造出来仅仅是第一步。如何让更多的人用起来,对它产生信赖,可能是更为关键的一步。 在与李永露的沟通中,我们了解到,GM-100团队在打造这一测评集的时候就意识到,一个真正有生命力的评测体系不能只靠“权威”,而应走向“社区共建”。 ▲李永露 换言之,他们似乎并未将自己定位为“裁判”,而是“搭台者”。 当前的机器人学习模型仍显著受到测试者能力和环境条件的影响,GM-100不是要成为一个绝对公平的物理测试环境,这在当前的产业发展阶段也不现实。GM-100打造了一个开放平台,研究人员可以自主上传测试结果与证据视频。 为了让更多人参与这一评测,GM-100开源了全部100个任务的详细说明,需要购买的物料清单精确到了淘宝链接,还上传了每个任务约130条真实机器人操作数据,极大降低了复现门槛。 对于开源模型,GM-100团队进行验证与作者身份确认,要求提交模型权重以供审核,并为符合标准的提交打上“已验证”标签。未来,GM-100还会丰富社区的功能,让用户可以点评、收藏,表达自己的见解。 李永露说,他们不想成为一个“爹味很浓”的组织,来告诉大家应该怎么做,因为这样很有可能丧失公信力。相反,他们希望让研究社区以“悠悠众口”的模式,长期讨论并建立共识,最终形成对模型能力的客观评价。这种模式也有望让“刷榜”、“作弊”的模型在群众监督下现出原形,最终建立起透明、可信的基准测试体系。 ▲GM-100的数据采集工作(图源:RHOS) 对熟悉大模型评测的读者来说,GM‑100在理念上让人联想到LMArena。 LMArena的公信力来自一种去权威化的评测机制:平台通过匿名双盲对比和真实用户投票,让性能评估不依赖单一指标、不受品牌影响,再用Elo排名体系动态反映真实偏好,而非靠构建者主观设定的权威分数。 在这一点上,GM-100同样强调机制而非权威背书。它通过跨平台数据、详尽的交互说明和多维度指标体系,使评估结果具有可复现性和解释性,而非依赖实验者主观裁定。 两者都探索了一种面向社区与实际表现的评估范式,试图让评测结果既透明可检验、又不受单一权威框架制约。 04. 结语:GM-100将进一步扩展 不怕干“脏活累活” 李永露告诉我们,团队不会止步于GM-100数据集的发布。GM取自“Great March”,寓意“长征”,团队将逐步把任务库扩展至300乃至1000项,并推进跨机器人平台评测,以增强评测的覆盖面。 长远来看,他们希望通过任务设计的系统化、评测维度的多元化(如引入进度评分、安全性、社会价值等指标),打造更科学、更工程化的具身智能评测“奥林匹克”。 数据集和评测的构建是公认的“脏活累活”。正如李永露所说:“评测其实是一个挺苦的事情,这类工作并非在空调房里写写代码就能完成,而需要实实在在动手操作,甚至拧螺丝。但完成后,对整个世界的贡献却非常巨大。”他希望更多年轻人、研究团队和企业能够参与,共同推进这一事业。
国产GPU重磅发布 明年超英伟达Rubin架构:中国院士力挺天数智芯
快科技1月27日消息,国产GPU迎来了重磅更新,这家名叫天数智芯的公司发布的四代架构路线图显示,明年超英伟达Rubin架构。 天数智芯AI与加速计算技术负责人单天逸公布四代架构路线图显示,2025年,天数天枢架构超越Hopper(H200系列);2026年,天数天璇架构对标Blackwell(B200);2026年,天数天玑架构超越Blackwell;2027年,天数天权架构超越Rubin;2027年之后将转向突破性计算芯片架构设计。 针对行业面临的能效比偏低、创造力不足、实际使用困难等问题,单天逸表示,天数智芯通过优化设计为客户创造最优TCO(总体拥有成本),从容应对复杂应用场景;可预期,借助精准仿真模拟,让客户在部署前即可预判性能表现,实现“所见即所得”;可持续,无缝适配从传统算法到未来未知算法的演进,确保长期使用价值。 此外,单天逸介绍了四代架构的关键细节:天数天枢架构,支持从高精度科学计算到AI精度计算,AI 芯片在执行注意力机制相关计算时,算力的实际有效利用效率达到 90% 以上;天数天璇架构,新增 ixFP4 精度支持;天数天玑架构,实现全场景AI与加速计算覆盖;天数天权架构,融入更多精度支持与创新设计。 具体来说,对于天数天枢架构,单天逸详述了如何实现多项核心技术创新:TPC BroadCast(计算组广播机制)设计通过上游数据广播减少重复访存,等效提升带宽并降低功耗。 Instruction Co-Exec(多指令并行处理系统)设计实现多类型指令并行处理,增强复杂任务处理能力;Dynamic Warp Scheduling(动态线程组调度系统)机制则通过动态调度避免资源争抢,提升计算资源利用率。 官方强调,这些创新让天数天枢的效率较当前行业平均水平提升60%,基于这些效率优势,实现在DeepSeek V3场景平均比Hopper架构高约20%性能。 发布会上,天数智芯董事长兼CEO盖鲁江表示,AI 算力需以全栈自研筑牢生态根基,以开放合作定义发展新范式,以长期主义共筑产业未来;天数智芯愿与伙伴携手,让自主通用 GPU 成果惠及千行百业,共促国产算力生态繁荣。 对于这样的重磅新品,中国工程院院士刘韵洁也来站台。 按照这位院士的说法,AI算力需兼顾量的充足与质的卓越,要突破单点性能,更要实现软硬件高效协同,既要覆盖核心数据中心,更要延伸至边端末梢,实现全场景赋能;并肯定天数智芯多年来走出了自主创新、生态共建的扎实发展之路。
腾讯搜狗输入法20.0来了:口语AI润色 一通乱说也能直发
快科技1月27日消息,腾讯宣布,搜狗输入法正式推出20.0版本,全面开启AI化新体验。 其中“AI一键口语转书面语”功能堪称亮点,即便说话颠三倒四、驴唇不对马嘴,也能一键转化为规范书面语,直接发送毫无压力,彻底解决语音输入的尴尬痛点。 新版本还大幅优化轻声的识别准确率,轻声识别延时下降40%,在图书馆或深夜发语音聊天,即使是20分贝的悄悄话音量,识别准确率也能高达97%。 翻译能力迎来质的飞跃,接入全球领先的腾讯混元翻译模型,支持30多种语言边输边译。而且做到了信达雅的文学级翻译。 AI打字方面,搜狗输入法20.0能根据不同场景,识别用户的打字意图,把更准确的词排在前面。比如玩游戏时,用户输入“无语,把李白禁了 wwsm”,模型识别游戏场景和意图后,候选词优先推荐“我玩什么”而不是“我为什么”。 它还拥有10亿级动态词库,日更网络热梗、新词、新剧名。今天出的新剧,明天就能打出主角名。 搜狗输入法20.0联合权威数据库,面向医生、律师等专业行业提供定制词库,无论是复杂的化学药名还是繁琐的法律条文,打几个缩写一键上屏。 对了,搜狗输入法20.0版本的手机端可一键关闭键盘广告,回归清爽、专注的输入体验。
都Agent时代了,AI大战还要靠春节发红包?
红包能撑开多大的AI入口? 2026年AI圈的年味,在腊八节前后被腾讯和百度拉高。1月25日,腾讯元宝和百度文心先后宣布,要在这个春节分别发出10亿、5亿现金红包,单个红包最高可得10000元。 双方的玩法有着明显差异:腾讯以优势的“社交裂变”为特色,用户除了可以自己领取红包,还可以分享红包到微信、QQ好友和社群。同时,元宝还在灰度测试社交类产品元宝派,腾讯董事会主席马化腾称,这本来是绝密的项目。 图注:元宝红包活动 唐辰截图 百度则联动北京广播电视台春晚,并推出三种核心玩法:看视频领钱、前1000名集齐稀有卡得万元、通过文心助手猜口令。其特征就是和“AI深度绑定”,提升投入产出比。 这种“撒钱抢人”的戏码,在移动互联网时代并不陌生,它们的意图也很明显,希望在春节黄金窗口期实现用户规模与心智的跨越式增长。 但让人唏嘘的是,AI已经进入Agent时代,新一轮超级AI入口的争夺,红包还是那个熟悉的“老演员”,成为各家圈定用户的最佳杠杆。尽管打法各异,所有参与者的核心目标却高度一致。 腾讯的紧迫感 腾讯是春节红包玩法的“鼻祖”。微信支付在2015年凭借春晚“摇一摇”和5亿红包,在移动支付上撕开一道口子,并改写了市场格局。 此后10年间,阿里、百度、快手、字节先后复用这个玩法,和春晚绑定,推广自家的产品。比如,2019年,百度投入19亿元首次加入春晚红包战,以“产品全家桶”模式加入用户争夺战,参与就需要下载百度App。 如今,腾讯又把这套玩法复刻到自家AI应用元宝上,它深知在关键节点,通过高激励、强社交的“行为植入”,可快速完成用户习惯的重塑。 腾讯的最大依仗还是微信这座社交金矿,其试图用最短的路径,把流量从社交场景导流到AI应用上。 这背后是,腾讯对字节豆包、阿里千问先后在AI2C上跑马圈地,并拿下亿级活跃用户的紧迫感:10亿红包,本质上是腾讯为争夺用户心智支付的战略性学费。 元宝也如爱范儿所言,成了腾讯 AI2C的第一战场,更是社交的第三战场。 过去一年,腾讯在原生AI上的步调被外界评价为“慢”,制造出一种相对佛系的感觉。比如基座模型能力一般,ToB 业务也没有太多大动静。腾讯总裁刘炽平将行业对腾讯 AI 的期待,拉到还在“酝酿”中的微信 Agent 上。 尽管2025年初元宝的买量砸的也很猛,但大多也是在腾讯生态内的渠道,外部渠道的投流占少数。腾讯的“温吞”,与字节(火山云、豆包)、阿里(千问、夸克)、DeepSeek、智谱AI等的狂奔形成鲜明对比。 这次春节以10亿元的红包规模砸向C端市场,更像是腾讯一次被逼到墙角后的“急行军”。它需加速打通元宝与微信、QQ、小程序等生态的“毛细血管”。 一个行业共识是,2026 年将是 AI Agent 爆发的一年。这个趋势除了被谷歌预测,阿里千问6.0、百度文心 5.0 都依托 Agent、MCP 等,将办事能力推向用户,作为 AI2C 争夺的核心体验。 腾讯的焦虑在于,它不能输掉AI时代的“默认入口”。虽然作用微信、QQ 两大超级社交 App,但AI Agent或者MCP都有可能凌驾其上,成为新的入口。 如果用户遇到问题习惯先问“豆包”或“千问”,而不是腾讯自家的AI,那么微信的流量护城河就可能被绕过。这也是豆包手机炒热了AI手机后,很快被微信等超级App“拦截”的根本原因。 一定程度上,腾讯发起的红包大战,是对其AI生态整合能力的一次压力测试,并吹响了腾讯AI2C入口争夺的集结号。 因为过去一两年,腾讯在“佛系”的表象之下,对原生AI的布局并不缓慢。 其策略用小龙Allen Zhang的“原子”理论概括很贴切,即以“无感嵌入”的体验,推进业务AI化。同时,其在人才引进、组织架构上也做好了准备。比如去年下半年,姚顺雨等更年轻的 AI 原生技术人才被引入。 1月26日下午,在腾讯年会上,马化腾提及AI应用元宝即将展开的春节分10亿元现金活动,表示希望重现当年微信红包的盛况。他也强调,腾讯要保持定力、专注自身业务节奏。因为“每个企业的基因与体质不同,腾讯的风格就是稳扎稳打。” 这也是对“佛系”传闻的回答。只是,这份盛况能否重现,腾讯能否借此开启AI社交新时代,最终还要看元宝后续的执行能力。 百度的信心回来了 百度的及时跟牌,与腾讯针锋相对的站位还是挺出人意料。 一是百度2019年首次发放春晚红包,尽管投入19亿巨资,但还是因为用户体验不佳等问题被吐槽;二是AI大战开启后,百度也多被揶揄为“起大早,赶晚集”,还有观点称,它在AI时代掉队了。 如果按照百度之前的惯性,它的反应速度不会来得如此敏捷,更大可能是受限于外界风评,畏首畏尾,或者是回应动作变了样。 图注:百度红包活动 官方图 但这次,百度还是在腾讯之后,第一时间启动2026马年春节红包活动。除了行业性的焦虑,更重要的是看到百度的信心回来了。 近一年多来,包括上周举办的文心Moment大会2026,我明显感觉到百度的一个变化:既深耕技术,也开始积极、自信对外沟通。 其中,这次活动让人记忆深刻的一幕是,现场媒体人与“罗永浩”数字人进行了一场公开辩论,把外界比较关心的几个问题抛给了“罗永浩”。 百度借“罗永浩”的嘴,回应了这些扎心、尖锐的关切,除了需要勇气,也是一种自信:一个能打的百度,又回到AI主桌。它在争议之外,打造出“芯-云-模-体”全栈协同体系,实现从底层芯片到上层应用的全链路自研可控。 2025年百度世界大会上,百度创始人李彦宏宣布全力加码AI,并提出一个概念:内化AI能力。这是一个精神切口,是基于百度AI应用生态能力的精准提炼,说明其已经走完从目标到实现的闭环。 其带来的直观效果就是,百度在AI无人区摸索十多年,构建起与谷歌、微软等巨头媲美的全栈AI闭环能力,也让它在气质上完成蜕变。 如果把百度的信心恢复看着一个阶段性项目,这次春节红包大战就是一个分界点。在此之前,百度还有些怯战,在此之后,百度已经完成脱胎换骨,在 AI 时代调整好了自己的节奏,完成技术闭环,快速抢占AI价值的最高点: 当各家还在烧 token,烧钱,无法确定什么时候能跑通模式时,百度已经开始赚钱了。这也是其打 AI 持久战的底气。 最新的动作是,百度在近期成立个人超级智能事业群组(PSIG),整合网盘、文库等核心AI应用资产,由副总裁王颖挂帅,直接向CEO李彦宏汇报。这部分涉及AI应用资产业务的整合,也是百度对外界关于自身AI能力能不能转化为规模化营收质疑的回应。 当然,百度的焦虑并未完全消散。此次积极应战,也是百度在自证:它依然是中国最懂AI的公司,其技术护城河依旧足够深厚。 “豆包、千问”们会不会跟进 目前,字节豆包、阿里千问、kimi等AI新势力还没有作出针对性的部署,但不代表它们会放弃“春晚黄金时刻”的较量——DeepSeek在去年春节横空出世,将中国AI引领到一条新路上,这也让春节对于AI行业变得意义非凡——相关春节活动势必会陆续上线,集中引爆这轮“春节红包大战”。 图注:豆包春节活动 资料图 比如,火山引擎已成春晚独家AI云合作伙伴,豆包也会参与,将配合上线多种互动玩法。字节虽还没有透露具体的赞助金额,但参照过去赞助春晚的标准,以及其大力出奇迹的风格,这必定不会是一笔小数目,甚至可能是字节或者行业今年最大的一笔AI品牌营销投入。 从去年年底开始,千问围绕阿里生态不断在挖掘AI2C战略纵深,主要以千问6.0、夸克AI眼镜为两翼,软硬通吃。其中,千问6.0全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务,实现点外卖、买东西、订机票等AI购物功能,并向所有用户开放测试。 这也让其成为全球首个能完成真实生活复杂任务的AI助手,引领AI行业从“聊天对话”迈入“办事时代”。 图注:千问6.0 唐辰拍摄 尽管千问还没有确认是否参与红包大战,但可以肯定的是,千问的春节玩法会是一个体系化的“集团军作战”模式,将会和阿里商业生态一起,融入进各个业务,红包等不过是纽带,丝滑的将AI“办事能力”的体验,普及到更多商家和普通消费者。 这才是千问要不要参加、怎么参加春节红包大战的逻辑原点。脱离这个原点,千问即便发再多红包,也只是仓促应战,效果难料。 但对于参战的AI大厂来说,都需要面对一个现实问题:红包能砸出AI的未来吗? 短期来看,春节红包带来的“脉冲式流量”,必然带来下载量与日活的短期暴涨。但历史经验也给出过教训:产品力和生态体验才是硬通货。 DeepSeek的崛起证明,技术壁垒和极致体验(低成本、高性能)比单纯撒钱更具穿透力。如果各家无法在体验、场景闭环上占据优势,红包可能沦为“数字烟花”,用户“领完即走”,无法真正完成在自家AI应用上的留存。 无论如何,这场春节红包大战,承接的是字节、腾讯、阿里、百度等巨头对AI时代“超级入口”的集体押注,短时间内很难决出胜负。 但从客观层面来说,它加速了AI的普及,推动AI真正走进寻常百姓家。对普通用户来说,这是一场狂欢,原本对AI无感以及还没有习惯使用AI的群体,都会在这个节点完成一次市场教育。 我也乐见这场红包大战,能更热闹一点。
Clawdbot爆火,我看到了腾讯元宝的通天路
GitHub上有这么一个项目,一天内就暴涨了9000颗星,从早上的7.9K飙升到晚上的17K+。截至发稿,这个项目已经突破4万颗星了。 这种增长速度在开源项目中极为罕见,甚至由于这个项目能运行在苹果M4芯片上,直接引起了Mac mini的抢购潮。 而这个项目就是Clawdbot。 周末这两天,整个硅谷A 圈都沉迷在了Clawdbot 里。 前特斯拉 AI 负责人安德烈·卡帕西(Andrej Karpathy)公开点赞,谷歌AI产品负责人洛根·基尔帕特里克(Logan Kilpatrick)跟风购买 Mac mini, MacStories 的费德里科·维蒂奇(Federico Viticci)在一周内烧掉1.8亿个Anthropic API Token,就为了体验Clawdbot。 看到Clawdbot的火爆,我突然意识到:这不正是元宝在微信生态里可以复制的机会吗? 但在探讨元宝的可能性之前,我们还是先来了解一下,Clawdbot到底是什么,它为什么能在短短几天内征服这么多AI大牛。 01 什么是Clawdbot 一句话概括,Clawdbot是一个开源的、可自托管的AI助手。 它的核心创新点在于,无需打开专门的网站或App,只需通过日常使用的通讯软件(WhatsApp、Telegram、iMessage、Discord、Slack等)发送消息,就能指挥它完成各种任务。 相当于是有个24小时不休息的员工坐在你电脑前,你下班的时候想看电视剧了,就可以跟Clawdbot说你的需求,他会打开相应的页面。等你到家后,坐在电脑前就可以直接看你想看的电视剧了。 Clawdbot 的设计逻辑是通过消息应用发出指令,它会调用后台运行的大语言模型,将需求转化为本地Shell脚本并在你的电脑上执行。 换句话说,它不是告诉你怎么做,而是直接帮你做完。 它的工作流程是“消息应用⇄网关⇄AI 模型+工具”的架构。网关作为协调中枢运行在你自己的设备上,负责消息路由、状态管理、定时任务和服务集成。 但纠结的地方来了,为了让AI更强大、更好用,它就需要极高的权限(读写文件、执行终端命令)。但为了安全,又必须限制它。 Clawdbot的解决方案是引入“会话隔离”机制。 它把使用场景分成两类:一类是“主会话”(main session),就是你一对一跟它聊天的时候;另一类是“非主会话”(non-main session),比如在群聊或者公共频道里。 在主会话中,Clawdbot拥有完整的系统权限,可以读写文件、执行bash命令、控制浏览器、操作日历。因为这时候只有你在和它对话,风险可控。 但在非主会话中,Clawdbot会自动切换到“沙箱模式”,它会把所有操作都放进Docker容器里执行。 这就好比给它准备了一个“训练场”。在这个隔离的环境里,它依然可以执行命令,但无法触及你电脑上的真实数据。即使有人在群聊里试图通过恶意指令攻击你的系统,Clawdbot也只会在沙箱里执行,不会影响到真实环境。 另一个技术难点是网关(Gateway)和工具(Tools)的协调。 网关是运行在你设备上的控制中枢,它负责接收来自各个聊天软件的消息,维护会话状态,调度 AI 模型,管理定时任务。而工具则是Clawdbot能够调用的各种能力。 这两者的配合并不简单。当你在聊天软件里给Clawdbot发一条消息,网关需要做这样几件事: 1.识别这条消息来自哪个会话(是主会话还是群聊) 2.决定用什么权限级别来处理(完整权限还是沙箱模式) 3.把消息发给 AI 模型理解意图 4.AI 模型返回需要调用的工具和参数 5.网关再去执行这些工具 6.最后把结果返回给你。 整个过程中,网关要同时处理多个会话,每个会话可能有不同的权限配置,还要保证消息的顺序不乱,状态不丢失。 这就像一个交警,他需要协调来自不同方向的车,在保证效率的同时避免碰撞。 为了解决这个问题,Clawdbot 设计了一套“会话模型”。每个会话都有自己的状态、历史记录、权限配置。 虽然AI推理仍需调用Anthropic或OpenAI的API,但路由逻辑和自动化控制完全在本地,保证了隐私和可控性。这种架构设计让Clawdbot既能利用云端大模型的强大能力,又能保持本地优先的隐私原则。 模型的记忆是有限的,但是Clawdbot属于长期持续工作的产品,因此它将所有交互记录以Markdown格式存储在本地文件夹中,形成持久记忆,类似Obsidian的知识库。 它会记住你的偏好、习惯、正在进行的项目,每次对话都能延续上下文,而不是像传统AI那样每次都从零开始。 同时,Clawdbot还具备一定的“自我升级”能力。比如当你告诉它“我想让你能够生成图片”,它会自己去研究如何接入图片生成API,自己改进自己的代码,然后告诉你“我现在可以生成图片了”。 Clawdbot官方把这个过程叫做“自我技能扩展(Self-Expanding Skills)”。 它会优先检索官方技能库与用户本地已安装技能,仅在无可用资源时才进行完整API研究与代码编写。 当技能升级扩展完成后,Clawdbot会开始语法检查、权限验证、功能试运行三步,测试失败会自动回滚并向用户报告问题,不会影响现有功能。 此外,Clawdbot还是一个主动的AI助手。它通过cron定时任务,能够主动向你发送消息。每天早上自动发送日程摘要、每周五下午总结本周工作进展、监控特定条件并及时提醒。 这种主动性打破了传统AI的被动响应模式。你不再需要记得去问它,而是它会在合适的时间主动找你。 运行Clawdbot并不需要昂贵的硬件。虽然网上流传着很多人购买Mac mini来运行Clawdbot的故事,但实际上,对于基本的聊天、总结、API调用场景,只需要一台每月5美元的VPS就足够了。 只有当你需要运行本地大模型、执行重度自动化任务时,才需要考虑Mac mini这类本地硬件。Mac mini的抢购潮更多是一种社交证明和极客文化的体现,而非必需品。 不仅仅是操作电脑,从技术实现上看,Clawdbot支持超过50种集成,包括Gmail、GitHub、Obsidian、Notion、Todoist、Spotify、Philips Hue智能灯等。 那也就意味着,你可以用一条短信,控制整个屋子的智能家具。 Clawdbot可以连接你生活和工作中的几乎所有数字工具,成为一个真正的数字生活中枢。而且由于它是开源的,社区正在不断贡献新的技能和插件。 02 为何 Clawdbot 会爆火? Clawdbot 的火爆源于它解决了现有AI工具的核心痛点:摩擦力太大。 这个问题听起来简单,但它是阻碍AI真正融入日常生活的最大障碍。 传统AI需要你打开网页、切换标签页、复制粘贴结果,每一步都在打断你的工作流。 你正在写邮件,突然需要AI帮忙润色一段话,你得切换到ChatGPT的标签页,粘贴内容,等待回复,再复制回来。 这个过程看似只需要几秒钟,但它打断了你的思维,使整个流程不再连贯。而Clawdbot不同,它就在你的聊天软件里,你发一条消息就能得到回复,不需要任何上下文切换。 另一大原因在于隐私。 在AI服务普遍依赖云端的今天,Clawdbot的本地优先、开源透明、用户可控理念击中了技术社区的核心诉求。你的对话记录、个人偏好、自动化脚本只会存储在自己的设备上,可以随时查看和修改。 “数据主权”掌握在自己手中,这对于重视隐私的用户来说是巨大的吸引力。 更深层的原因是,Clawdbot代表了一种新的软件范式。传统软件是静态的,开发者写好功能,用户被动使用。而 Clawdbot是动态的、可塑的。 你可以随时让它学习新技能,可以让它根据你的需求自我改造。 这其实是一种“软件即对话(SaaC,Software as a Chat)”的新模式,每个用户都能以自己独特的语言风格和需求,拥有一个量身定制的助手。 从社区反应来看,Clawdbot的火爆也体现了一种集体的渴望。人们等Siri变聪明等了十几年,等Alexa真正有用等了快十年,但这些大公司的产品始终停留在“设个闹钟、查个天气”的水平。 而Clawdbot用开源的方式,用社区的力量,在几周内就实现了这些大公司承诺了多年却没做到的事情。 这种“人人都是产品经理,人人都是开发者”的氛围,在技术社区引发了强烈共鸣。 诚然,Clawdbot在技术上并不没有什么很高深的地方,它本质上是一个“harness”(线束),它把强大的模型能力转化为实际可用的助手功能。没有这些模型的进步,Clawdbot 不可能实现。 但它的产品理念击中了人们的痛点。 AI助手的重点不是AI,而是助手。所以它不应该是一个单独的网站,而应该是一个生活在你日常工具里的存在。 更重要的是Clawdbot的可扩展能力,有人让Clawdbot每天早上总结Whoop手环的健康数据,有人让它自动处理保险理赔邮件,还有人让它监控服务器状态并在出问题时自动修复。 这些都不是官方预设的功能,而是用户根据自己的需求创造出来的。 03 元宝的机会来了 Clawdbot的成功证明,AI助手应该生活在用户已有的通讯工具中,而不是要求用户安装新 App。 在中国,这个工具就是微信。 微信不仅是中国最大的通讯工具,它本身就是现代生活的工作流之一。 人们在微信里聊天、工作、支付、购物,几乎所有的数字生活都能在微信里发生。 如果元宝能够以通讯录的形式存在,它将拥有天然的用户触达优势。用户不需要下载新应用,不需要学习新界面,只需要像给朋友发消息一样给元宝发消息,这种零门槛的使用方式,是任何独立App都无法比拟的。 而且,微信的优势还不止于此。 微信拥有支付和小程序生态,这意味着元宝可以做的事情比Clawdbot更多。 Clawdbot可以帮你查信息、写代码、管理日程,但它很难帮你完成支付、预订、购物这些闭环操作。 而元宝如果能打通微信支付和小程序,它就能真正成为一个万能助手。你可以让元宝帮你订外卖、买电影票、缴水电费、预约挂号,所有这些操作都在对话中完成,不需要跳转到其他应用。 Clawdbot将记忆存储为Markdown 文件,这已经很先进了。但元宝可以在微信生态内,以聊天记录、图片、表情包、订阅的公众号、微信订阅的服务,来构建更高维度、更精准的个人知识库。 微信记录了你的社交关系、消费习惯、兴趣偏好,这些数据如果能被元宝合理利用(当然前提是用户授权和隐私保护),它对你的了解将远超任何其他AI助手。 这种持久记忆能力将让元宝从临时工具变成长期伙伴,用户使用越久,它越了解你,它能带给你的价值也就越大。 Clawdbot的主动关心用户,对元宝也是一个启发。通过微信绑定的信息,元宝可以做到更多。 每天早上推送个性化日程和天气,这是基础功能。但元宝还可以监控快递物流并主动提醒签收,可以定期总结消费账单和理财建议,可以根据用户习惯推荐内容或服务。 比如,元宝发现你最近经常搜索某个话题,它可以主动推送相关的公众号文章或视频号内容。 这可不是畅想,从技术实现上看,元宝复制Clawdbot的核心能力是完全可行的。 Clawdbot的架构并不复杂,前文提到,一个消息网关,一个大语言模型接口,一套工具调用系统就够了。 这些技术腾讯都有,而且可能做得更好,更何况腾讯还有自己的混元大模型。如果腾讯愿意投入资源,元宝完全可以成为中国版的Clawdbot,甚至做得更好。 但元宝要成功,需要解决几个关键问题。 第一个是隐私和信任。Clawdbot之所以受欢迎,很大程度上是因为它开源、本地优先,用户完全掌控自己的数据。 而元宝作为腾讯的产品,必然是云端服务,如何让用户相信自己的数据是安全的、不会被滥用,这是一个巨大的挑战。 第二个肯定就是开放性,Clawdbot的强大来自于社区贡献的技能和插件,而元宝如果想要同样的生态,就需要开放API,让第三方开发者可以为元宝开发技能。 但腾讯对于开放API 的态度一直很审慎。多年来,微信一直对第三方API保持严格限制,甚至封禁使用itcha 等非官方API的账号。 微信的用户协议明确禁止“通过非腾讯开发、授权的第三方软件、插件、外挂、系统,登录或使用本软件及服务”。 所以如果腾讯真打算把元宝做成Clawdbot,那么需要好好想想究竟如何运营开发者社区。 最后是商业模式。 Clawdbot是开源项目,用户只需要支付API调用费用。而元宝作为商业产品,如何定价、如何盈利,这需要仔细设计。 如果定价太高,会吓跑用户,如果免费,又难以持续投入。 最近很火的freemium模式适合元宝版Clawbot。基础功能免费,高级功能(比如更强的模型、更多的API调用次数、企业级功能)收费。 从更大的视角看,元宝如果能成功复制 Clawdbot,它的影响力只会更大。中国有超过10亿微信用户,如果其中哪怕只有1%的人开始使用元宝作为个人AI助手,那就是 1000 万用户。 这个规模是Clawdbot在全球范围内短期内都难以达到的。 说到聊天软件和接壤AI助手,在美国,这个工具可能是WhatsApp、Telegram或iMessage。在中国,这个工具只能是微信。 元宝有机会成为中国版的Clawdbot,关键在于腾讯是否愿意投入资源,是否愿意开放生态,是否愿意真正把用户需求放在第一位。 如果答案是肯定的,那么元宝的未来将不可限量。
奥特曼承认OpenAI路线走偏了,以及“写代码将变得不再重要”
梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 大家是真敢问,奥特曼也是真敢说! 刚刚,奥特曼拉着一屋子AI相关从业者搞了一场直播,围绕软件工程、商业、模型开发、科学研究、教育、安全等问题,奥特曼进行了一场超「有问必答」的对谈。 问题一个比一个劲爆,奥特曼这边也是诚意满满,主打一个:奥特曼大舞台,有问题您就来~ 整场直播听下来呢,奥特曼也确实给出了一些非常实诚的结论,我也帮大家小小总结了一下: 未来从事工程师工作的人数可能会大幅增加。 我们花在写代码、调试代码上的时间将会明显减少,更多精力会用在让系统替我们把事办成上。 在今后的几年,我们会大量使用只为一个人、或极小群体量身定制的软件。 OpenAI确实搞砸了ChatGPT5系列模型,今后ChatGPT也一定会回到真正的通用模型上。 在接下来的几年里,模型学习新技能的速度会比人类还要快。 以下为本场直播的重点内容实录,围绕核心观点做了摘选整理,部分文字在不改变原意的基础上做了适度删改~ AI 正在重新定义工作、技术和教育这三件事 Q:如果AI让写代码这事儿变得又快又便宜,那是不是意味着未来市场会减少对软件工程师的需求? Sam Altman:我认为,未来从事工程师工作的人数可能会「大幅增加」。 不仅如此,未来AI能让工程师捕捉到更多工作价值,让计算机实现预期功能,这也意味着你花在敲代码、调试代码上的时间,会明显减少,更多精力会用在「让系统替你把事办成」这件事上。 甚至,我们会大量使用那种只为一个人、或者极小群体量身定制的软件, 每个人都会不断给自己定制工具。 所以在我看来,软件工程岗位需求不会变少,只会变得更多,而且规模会比今天大得多,而且全球GDP中会有更大一部分,是通过这种方式被创造出来的。 Q:随着模型和工具越来越强,我们会不会被现在这套技术方案“定死”,以后哪怕有更好的新技术出来,也很难让模型和系统真正用上? Sam Altman:我对这件事非常乐观,我认为我们会非常擅长让模型学会使用新技术、新工具。 从本质上讲,只要我们用对了方式,这些模型就是一种通用推理引擎。 而且,以我们现在的架构来看,模型本身就内置了大量世界知识,所以我觉得我们正在走在正确的方向上。 我非常希望、也非常相信在接下来的几年里,模型更新能力、学习新技能的速度,会比人类还要快。 一个我会非常自豪的里程碑是:当模型第一次面对一个完全陌生的东西——新的环境、新的工具、新的技术,你只需要给它解释一次,或者甚至不用解释,它就能自己探索一遍,然后稳定、可靠地用对它、用好它。 而且说实话,这个时刻感觉并不遥远。 Q:你认为在人生关键的成长阶段,教育会如何被人工智能改变和塑造? Sam Altman:我一直觉得,幼儿园里根本不该有电脑。 在我看来,小孩子这个阶段,最重要的就是跑一跑、玩一玩,通过真实的东西、真实的人去学怎么交流,而不是对着屏幕。 所以不只是AI,我连电脑本身都不太想让它们出现在幼儿园里,从成长角度看,我们其实到现在都没搞明白,技术到底会对青少年造成什么长期影响。 虽然已经有一大堆研究在讨论社交媒体的问题,但结论也很分裂,整体看下来情况并不乐观,更糟的是,专门给幼儿用的那些科技产品,潜在问题可能更大,却反而没什么人在认真讨论。 所以在我们真正搞清楚这些影响之前,我觉得至少在幼儿园这个阶段,根本没必要把AI引进来。 OpenAI正在重新校准产品路线:从偏科走回通用模型 Q:我注意到ChatGPT最近几代模型开始出现明显「偏科」的问题,我想问OpenAI会继续沿着这种「能力失衡」的路线走吗,还是会回到真正通用、各项能力更均衡的模型方向? Sam Altman:说实话,这件事儿上我们确实「搞砸」了。 在ChatGPT-5系列模型的开发中,我们有意把大部分精力集中在让它在智力、推理能力和编程能力上做到非常强,但现实是,有时候专注了一件事,就会不可避免地忽视其他方面。 这也是为什么,你会看到ChatGPT-5系列模型表现在写作能力上没有像4.5模型那样表现稳定,这一点我们是承认的。 但从更长远的方向上看,我认为未来主流一定会是真正高质量的「通用型」模型。 比如,当你希望模型帮你生成一个完整应用程序时,你不仅需要它把代码写对,也希望它在和你互动时,具备一种清晰、有条理、善于表达的人格,这里说的写作能力,不是指辞藻华丽的文风,而是指思路清楚、表达清楚、沟通高效。 所以我的希望是:我们能继续推进下一代模型,让它们在「所有这些维度」上都变得非常优秀,而且我相信,这件事是可以做到的。 而且我认为我们完全有可能在一个单一模型里,同时把这些能力都做到很强,眼下这个时间点尤其关键。 我们必须继续把「编程智能」这条线往前推,但与此同时,我们也会努力在其他能力上迅速补齐短板、追上进度。 Q:如果要让数百万、甚至上亿个Agent同时运行,真正的瓶颈其实在于成本,OpenAI怎么看小模型和推理成本的下降空间?在接下来的时间里,模型调用成本有没有可能出现大幅下降? Sam Altman:其实现在模型的发展已经进入了一个新阶段了,大家注重问题不再只是怎么把成本打下来,而是越来越多人开始要求更快的输出速度,甚至愿意为速度付更高的价格。 而且从历史数据来看,我们在「压低模型成本」这件事上其实一直做得非常好,如果你回头看从最早的预览版本到现在,就会发现我们的模型成本曲线已经出现了非常明显的下行趋势。 但现在的关键变化在于,除了成本之外,一个过去没那么被重视的维度,开始变得同样重要——「速度」。 有些场景里,大家其实愿意为更快的输出付更高的价格,哪怕价格贵很多,只要能在原来百分之一的时间里拿到结果。 所以我们现在面临的不只是单纯压低成本的问题,而是要在成本和速度这两个目标之间,找到一个合理的平衡点。 如果我们继续沿着降成本这条路往下推,而市场也确实想要这个方向,那我很有信心,我们能把模型成本打到非常低, 让“大规模运行Agent”这事儿在经济成本上真正站得住脚。 Q:在一个人类注意力极度稀缺的时代,OpenAI是否能构建一些工具,去系统性地提升人们提出想法的质量,让更多产品在源头阶段就变得「值得被做出来、值得被关注」呢? Sam Altman:我知道现在很多人喜欢把AI生成的内容叫作垃圾,但说实话,这个世界上本来就有大量由人类生成的垃圾内容。 真正困难的,从来都不是把东西生成出来,而是想出真正好的新点子。 我认为,我们应该去构建一类工具,专门帮助人们产生好想法,而且我相信,这样的工具应用前景非常大。 随着创作成本持续暴跌,我们可以用极低的代价去快速试错、验证想法,并建立起非常紧密的反馈回路,更快地筛选出哪些点子是好的,哪些是行不通的。 而且从模型能力上看,我完全不觉得这是做不到的,现在我们内部在用一个「特殊版本」的GPT-5.2模型,来自科学家反馈的:这些模型带来的科学进展,已经不再是可有可无的水平了。 AI会带来巨大经济变化,但风险也会一并放大 Q:现在女性因为工资差距,每年白白损失了约100万美元,你认为人工智能怎么解决这些存在了几十年的经济差距问题? Sam Altman:我确实觉得,AI会带来非常强的「通缩」效应。 我之所以这么说,是因为AI很可能会成为一种赋权工具,它会让个人用极低的成本,做出以前只有大公司或大团队才能做的事情。 如果这套能力被广泛普及,它确实有潜力去拉平一部分长期存在的经济差距,包括你提到的那种因为结构性不公平而被压低的收入问题。 但我同时也非常警惕另一种可能性,那就是AI也可能反过来,把权力和财富进一步集中到少数人手里,如果这些工具只掌握在一小撮人或少数公司手中,那它带来的不一定是拉平差距,而可能是「放大差距」。 所以在我看来,AI能不能真的缩小这些几十年的经济差距,最终取决于我们怎么去部署它、监管它,以及配套的政策设计。 Q:你认为我们如何利用人工智能来提升安全基础设施的水平? Sam Altman:我对2026年AI可能出问题这件事其实非常紧张,其中最让我担心的一块就是——生物安全。 现在这些模型在生物领域已经相当强了,而我们当下的主要策略,基本还是靠限制访问权限、加各种分类器,尽量不让人用模型危害人类的事,但说实话,我不觉得这种「封堵式」的办法还能撑多久。 我认为,AI安全,尤其是生物安全,必须从阻止一切发生,转向提高整体抗风险能力,也就是一种「韧性式」安全。 就像人类当年面对火一样:火带来了巨大的社会价值,但也开始烧毁城市,一开始我们试图禁止用火,后来发现根本行不通,于是我们转而建设防火规范、耐火材料、城市基础设施,最后才真的把火变成了一个可控、可用的东西。 我觉得AI也必须走同一条路,AI一定会有非常多的现实风险,但它同时也会成为解决这些问题的一部分,它既是问题本身,也是解决方案的一部分。 此外如果今年AI真要出一次明显、严重的事故,我觉得最有可能出事的领域就是「生物安全」,等到明年、后年,你可以想象,还会有更多其他方向开始出问题。 AI解决不了差异化价值这道坎 Q:现在大家都能用Codex、Cursor把产品做出来,但新的难题变成了GTM,我该怎么找到那些真的会用、也真的能从中我的产品中获益的人?你怎么看这件事? Sam Altman:我一直觉得,创业最难的部分,从来都不在「把产品做出来」,而在于怎么让大众真正关注它、使用它、并和它建立连接,以前是这样,现在依然是这样。 AI确实让软件开发本身变得轻松了很多,但这并不意味着创业的其他环节也跟着变简单了,你还是必须找到真正有差异化的价值突破口,产品才有可能被市场接住。 就算现在可以用AI自动化一部分销售和营销流程,也只会带来一些局部成功,解决不了根本问题。 在我看来,这件事之所以始终很难,是因为一个更底层的约束并没有改变——人类注意力极其稀缺,哪怕进入一个软件极度丰裕、能力爆炸的世界,注意力反而会变成最稀缺的资源。 在一个高度丰裕的世界里,真正稀缺的将是人的注意力与好创意,而创业,依然是一件必须靠持续创造非凡价值才能跑出来的事。 参考链接:https://www.youtube.com/watch?v=Wpxv-8nG8ec
折叠屏到东北变碎碎冰 网友吐槽手机屏幕被冻坏 专家科普原因和防护建议
快科技1月27日消息,近期多位网友在社交平台吐槽,携带折叠屏手机前往东北后,屏幕出现冻损问题。 从网友发布的图片来看,这类手机单屏显示大多正常,但一经展开,屏幕便出现大面积 “极光色” 故障; 还有网友表示,在东北户外想打开折叠屏拍雪景时,开合的触感如同掰雪糕脆皮一般; 有网友更是形象将这一现象总结为:“折叠屏到了东北就是碎碎冰”。 这一现象并非个例,查询市面主流折叠屏手机的官方使用建议可见,绝大多数机型的正常工作温度区间集中在 0℃至 35℃,极低温与高温环境,都会对手机的电池续航、屏幕显示等产生明显影响。 为何折叠屏手机如此 “怕冷”?北京理工大学计算机网络攻防对抗技术研究所所长解释称核心原因在于材料物理特性随温度的改变,这也是折叠屏工艺与材料层面的先天特性所致。 该所长介绍,折叠屏的核心部件柔性 OLED 屏幕,由多层高分子材料、有机发光层和超薄玻璃(UTG)复合构成。 这些材料均存在玻璃化转变温度 —— 类似玻璃制品高温下可塑形、低温下坚硬易脆的特性,超低温环境中,折叠屏材料会从柔韧的高弹态 “冻结” 为脆硬的玻璃态,此时弯折屏幕,极易出现断裂、破损。 同时,折叠屏的屏幕弯折区,是由高分子薄膜、胶水、超薄玻璃层层叠加而成,类似 “叠汉堡” 的结构。 而铰链部位的润滑油在低温下会逐渐变稠甚至凝固,不仅会大幅增加屏幕的开合阻力,也会让弯折时的受力更不均,进一步提升损坏概率。 针对东北等极寒地区的折叠屏使用,专家也给出了针对性的防护建议,核心原则为做好保温、减少户外开合、做好温差缓冲: 同时,注意环境温差缓冲,从室外进入室内后,不要立即操作手机,静置 5~10 分钟让机身温度与环境平衡后再使用; 若手机在低温下出现卡顿、开合不顺畅的情况,切勿强行掰动屏幕,应先将手机移至温暖环境,待其恢复正常后再操作。
消息称三星、SK海力士与苹果谈判,iPhone内存价格要大涨?
IT之家 1 月 27 日消息,据韩媒 ZDNET Korea 今天报道,业内消息源透露,三星电子、SK 海力士已经与苹果进行谈判,决定大幅上调 iPhone 手机所用 LPDDR 内存的价格。 IT之家注:LPDDR 指的是低功耗 DDR 内存,主要用于手机、平板等移动端产品,目前应用最广泛的产品是 LPDDR5X。 近期由于全球各大互联网巨头、初创公司大规模投资 AI 基础设施,带动 DRAM 需求激增,进而导致 LPDDR5 等内存产品价格大幅上涨。与此同时,各大 DRAM 生产厂商正将产能大幅转移至 AI 领域专用的 HBM(高带宽内存),进一步加剧消费级 DRAM 短缺潮。 在此背景下,三星电子、SK 海力士选择与苹果谈判,大幅上调今年第一季度为 iPhone 手机供应 LPDDR 内存价格。具体来说,三星电子这边的涨幅超过 80%,而 SK 海力士则接近 100%。 同时,由于苹果今年将例行更新 iPhone 18 Pro 系列手机,因此这家公司的 LPDDR 内存供应价不排除在下半年进一步上涨。 一位半导体行业相关人士表示:“苹果通常会按年计算签订内存长期供货合同,但考虑到近期爆发的内存供需危机,目前他们只谈妥了今年上半年的价格。随着下半年新机发布,价格还可能继续上涨”。 不过苹果采购 LPDDR 价格在绝对值上仍不算高。作为内存市场的“超级大客户”,苹果一直在利用其优势地位,以低于其他企业的价格采购 LPDDR。虽然具体价位属高度机密,但业内普遍认为,此次谈判将大幅缓解苹果与内存供应商之间长期存在的价格失衡问题。 另一位业内人士表示:“LPDDR 内存在去年四季度已经上涨了 40%,而今年第一季度涨幅更大,利润率至少往 60% 以上走”。
深度复盘:苹果AI牵手谷歌始末、换帅风波,还有Mac史上最密集更新
编译|万贵霞 编辑|云鹏 智东西1月27日消息,苹果在2026年密集释放的多个重磅消息,其在AI、硬件与财务层面同步推进。 据《彭博社》25日报道,苹果与谷歌合作的Gemini驱动版Siri最快于2月中下旬登陆iOS 26.4测试版,预计3月至4月初正式推送,此次升级将实现Siri首次访问个人数据与屏幕内容的突破。 在苹果硬件端,苹果公司正准备启动2026年Mac产品的发布计划,并任命CEO候选人约翰·特纳斯(John Ternus)负责设计工作。MacBook Pro今年将迎来双重更新,1月底将推出搭载M5 Pro/Max芯片的机型,年末再推出OLED触控屏改款机型。 与此同时,苹果将于1月29日美股盘后发布2026财年第一季度(截至2025年12月底)财报,苹果预计该季度营收至少1400亿美元(约合人民币9737亿元),iPhone 17 Pro系列、AirPods Pro 3等新产品的市场反馈良好,成为业绩增长的核心驱动力。 这一系列动作表明,苹果正从AI能力、硬件创新等多个维度,系统性地布局其2026年的发展路径。 一、AI理想受挫,苹果内部模型路线动摇 2025年6月30日,《彭博社》报道了苹果公司内部的一个重大转折点。苹果的智能平台发布令人失望,以及新的Siri数字助理发布延迟之后,软件主管克雷格·费德里吉(Craig Federighi)和其他高管正在认真考虑放弃公司内部的AI模型,转而采用第三方供应商。 此报道在苹果公司的基础模型团队中引发了轩然大波,该团队负责构建苹果的底层AI技术。除了声誉受损之外,这篇报道还引发了人们对该团队未来及其员工就业前景的根本性担忧。 报道发布后几个小时内,苹果公司AI高层立即采取行动控制事态发展。负责Siri的迈克·罗克韦尔(Mike Rockwell)与当时的苹果AI主管约翰·詹南德雷亚(John Giannandrea)紧急召集全体会议,明确表态“苹果不会搁置自研模型”,罗克韦尔甚至怒斥相关报道“纯属胡扯”,但在场员工几乎没人信。 左边是苹果CEO蒂姆·库克(Tim Cook),中间是约翰·詹南德雷亚(John Giannandrea),最右边是克雷格·费德里吉(Craig Federighi)(图源:彭博社) 然而,当时苹果的AI技术明显落后于竞争对手,Siri的延迟发布更是让公司颜面扫地。在这场自互联网以来最重大的技术变革中,苹果正面临被边缘化的风险,寻求外部合作已成必然选择。 接下来的几个月里,苹果基础模型团队人才流失严重,包括团队负责人庞若明在内的核心成员相继离职,苹果AI自研之路遭遇重创。 二、从Anthropic到OpenAI,最终牵手谷歌 彼时,苹果的合作谈判桌上摆着三个选项:Anthropic PBC、OpenAI与谷歌。 最初,苹果将主要精力放在Anthropic身上,双方就提供AI模型以重建Siri、支持Apple Intelligence部分功能展开深入洽谈。 但这家初创公司提出的条件极为苛刻——要求苹果每年投入数十亿美元(约合人民币70亿元),且需签订多年期合作协议,这样的成本压力让苹果难以接受,谈判在2025年8月陷入僵局。 苹果与OpenAI的合作同样障碍重重,因为这家AI巨头正积极挖角苹果工程师,更在原苹果设计师乔纳森·艾维(Jony Ive)的主导下推进硬件研发计划,与苹果形成直接的战略竞争关系。若达成合作,苹果不仅要面临核心技术人才流失的风险,还可能在未来硬件市场陷入被动,合作自然难以推进。 这样一来,就只剩下谷歌了。但谷歌是当时最不被看好的选项,作为Alphabet旗下子公司,谷歌当时并非AI领域的领先技术提供商,更深陷与苹果Safari搜索协议相关的反垄断诉讼,这让合作的不确定性陡增。 命运的转折点悄然出现:苹果重新评估谷歌Gemini软件时发现,这项技术在短短数月内实现了跨越式提升,已具备支撑Siri升级的能力;更关键的是,谷歌愿意接受苹果认可的财务合作结构。 谷歌Gemini聊天机器人(图源:彭博社) 2025年9月,法院裁定苹果与谷歌每年价值约200亿美元(约合人民币1391亿元)的搜索协议无需解除,这使得延长合作关系的风险大大降低。 到了11月,两家公司正式敲定合作,谷歌将为Siri及未来的Apple Intelligence功能提供Gemini模型,初期在苹果私有云计算服务器运行,后续将在iOS 27和macOS 27系统中完成增强,直接迁移至谷歌基础设施运行。 今年1月初,谷歌通过社交媒体和新闻稿高调公布了这一合作,而苹果则延续一贯的低调风格,仅在回应记者问询时确认交易属实,未在官方网站或社交平台发布任何公告。 外媒认为,对苹果而言,依赖外部合作伙伴稳定AI计划虽略显尴尬,但消费者真正关心的是产品体验本身,即Siri好不好用、AI功能是否可靠,以及能不能与ChatGPT、Gemini媲美,至于技术来源,其实并不重要。 三、新版Siri落地,三个月内见分晓,2026年迎来全面重构 有消息透露,苹果计划在2026年2月下旬发布首款搭载Gemini模型的新版Siri,届时将通过专场活动演示其核心功能。 目前尚不确定发布形式,可能是大型新品发布会,也可能是在纽约媒体中心举行的小型管控式简报会,但可以确定的是,这将是苹果兑现2024年6月全球开发者大会Siri承诺的关键节点。 这款即将亮相的Siri将搭载于iOS 26.4系统,该系统计划下月进入Beta测试阶段,2026年3月或4月初正式发布。 为了让技术过渡更自然,苹果将这款基于Gemini的模型内部命名为“Apple Foundation Models version 10”,使其看起来像是完全自主研发的。该模型运行参数约为1.2万亿个,目前已部署在苹果私有云计算服务器上,能够支持Siri访问用户个人数据和屏幕内容,完成多场景任务处理,弥补了旧版Siri功能单一、交互僵硬的短板。 这只是苹果Siri升级的第一阶段。 根据苹果的规划,在今年WWDC大会上,苹果将发布代号为“Campos”的全新Siri系统,这款产品采用全新架构和界面,专为聊天机器人时代量身打造,将同步登陆iOS 27、iPadOS 27和macOS 27系统,预计今年夏季推出测试版。 新一代Siri将具备对话功能,能够感知上下文语境进行持续双向对话,它与用户对ChatGPT、谷歌Gemini、微软Copilot的预期基本一致。其核心技术将基于更高级别的Gemini版本,内部代号为“Apple Foundation Models 11”,性能对标Gemini 3,并且比iOS 26.4 Siri功能强大。 为了优化响应速度和交互准确性,苹果与谷歌正协商将该版本Siri直接运行在谷歌云基础设施及高性能TPU上,而不是苹果自己的服务器上。 值得注意的是,苹果“27”系列操作系统的代号近期发生了变动。此前iOS 27内部代号为Buttercup,macOS 27为Honeycrisp,而最新消息显示,iPhone和iPad的下一代操作系统已更名为Rave,新macOS则命名为Fizz。 此外,watchOS 27代号为Orchid,tvOS 27为Lotus,visionOS 27为Eclipse。苹果粉丝和开发者总是喜欢分析这些代号的含义,但它们很少透露具体的功能信息。 四、战略重组,费德里吉掌舵AI,詹南德雷亚黯然离场 2025年初,费德里吉正式接管苹果AI业务方向,这一时间点恰好在“苹果CEO蒂姆·库克对詹南德雷亚失去信心”前后。经过数月的评估与博弈,费德里吉最终得出结论:至少在当前阶段,与谷歌合作比单纯依赖内部模型更有利。这一决策虽非理想选择,却是唯一可行的选择。 在公司内部被边缘化近一年后,詹南德雷亚于2025年12月被正式解雇。苹果允许其领取薪水和股权至2026年4月股权归属日,但实际上已终止其所有管理职责。随着詹南德雷亚的离职和费德里吉的全面掌权,苹果AI项目启动了更广泛的重组计划。 此次重组中,苹果曾雄心勃勃推进的World Knowledge Answers项目——一个基于内部模型、直接对标ChatGPT和Perplexity的竞品项目,已大幅缩减规模;原本计划在Safari、电视、健康、音乐和播客等应用中嵌入独立聊天机器人的方案被推翻,转而将新版Siri深度整合到核心应用程序中。 Perplexity 的全新 AI 网络浏览器(图源:Perplexity) 此外,部分Safari浏览器的AI功能开发暂时搁置,但仍计划在2026年6月WWDC大会前重启,重点打造文档可信度评估、多来源信息交叉引用等核心功能,以应对Perplexity和OpenAI的新产品冲击。 数月前,苹果曾打算收购一家外部模型开发商,以补强自研能力,但交易在后期意外告吹。不过,鉴于费德里吉和苹果现在越来越依赖第三方模型,并且更加注重用户界面和功能实现,至少在短期内,这次挫折可能不会造成太大影响。 目前,苹果专注于长期技术研究和学术论文发表的AI研究机构仍在运营,但近期也出现了人才流失迹象。 苹果是否会重新自研AI模型,还是继续依赖合作伙伴?从当前布局来看,苹果似乎更倾向于后者,其将AI模型视为类似存储设备的“商品”,而非调制解调器、处理器那样的核心技术。 不过,直接运行在苹果设备上的本地AI模型,仍将由苹果内部团队持续开发。为支撑云端AI模型的发展,苹果计划在2027年部署性能更强大的自研服务器,进一步强化云端AI的运行效率和安全性。 五、CEO候选人掌舵设计,2026年Mac产品线迎爆发 就在AI战略重构的同时,苹果硬件与设计体系也迎来重大变革。 上周四,库克悄悄任命硬件工程主管约翰·特纳斯接管公司的工业(硬件)和人机界面(软件)设计团队,这一调整被业内解读为苹果CEO接班计划的关键一步。 苹果公司的约翰·特纳斯(图源:彭博社) 苹果自创立以来便以设计为核心竞争力,产品的外观形态与用户体验始终是公司的重中之重。 纵观苹果继任历史,仅有乔纳森·艾维、库克本人、前首席运营官杰夫·威廉姆斯(Jeff Williams)等最资深、最受尊敬的高管曾负责过设计团队管理,特纳斯的上任足以证明其在苹果内部的核心地位。 早在2024年,就有报道称特纳斯是苹果下一任CEO的有力竞争者,2025年10月,他的职责范围进一步扩大,开始参与产品方向制定和公司媒体战略规划,但当时缺乏明确的接班信号。此次接管设计团队,被视为库克有意让其全面接触公司核心运营环节、积累管理经验的重要布局。 尽管目前库克仍牢牢掌控公司决策权,未出现正式的权力交接,但业界普遍认为,特纳斯是最佳接班人。 不过,关于接班时间点仍有争议。《金融时报》曾报道称,库克可能在2026年初退休并移交权力,但这一说法被业内人士否定。《纽约时报》提及的其他内部候选人——服务主管艾迪·库伊(Eddy Cue)、软件工程主管克雷格·费德里吉(Craig Federighi)、市场营销主管格雷格·乔斯维亚克(Greg Joswiak)、零售和人力资源主管迪尔德丽·奥布莱恩(Deirdre O’Brien),也被认为竞争力不足。 也有消息说,除特纳斯外,新任首席运营官萨比赫·汗(Sabih Khan)可能是唯一具备竞争力的内部候选人,但从当前布局来看,特纳斯的优势依然明显。 苹果的设计决策机制并非“一人独断”,在史蒂夫·乔布斯时代,创始人拥有绝对的设计话语权;乔布斯去世后,乔纳森·艾维成为最终仲裁者。 而现在,设计决策由一个核心委员会共同负责。特纳斯在硬件设计方面拥有最高话语权,费德里吉主导软件的外观与用户体验,乔斯维亚克在全产品线设计中拥有重要表决权,艾迪·库伊也具备一定影响力。 此外,设计团队负责人莫莉·安德森(Molly Anderson)和史蒂夫·勒梅(Steve Lemay)负责具体执行,他们虽直接向特纳斯汇报,但仍需正式向库克报备核心设计方案。 六、智能家居与关键节点,2026年苹果还有这些大动作 人事调整的同时,苹果2026年Mac产品线也迎来史上最密集的更新计划。2026年将成为苹果电脑业务近年来最具里程碑意义的一年,产品矩阵全面升级,涵盖多个细分方向: 升级款:MacBook Pro、MacBook Air和Mac Studio将在2026年上半年发布,搭载升级配置和全新显示屏; 创新款:配备OLED屏幕和触控功能的全新MacBook Pro,预计2026年底上市; 入门款:搭载iPhone级芯片的低价MacBook,主打入门市场; 配件更新:多年未更新的Apple Studio Display显示器将同步迭代; 性能突破:M6芯片可能提前亮相,尽管未必搭载在年初发布的机型中,但部分高端配置版本将在年内实现搭载。 MacBook Air电脑(图源:彭博社) 苹果在2025年10月发布了搭载M5处理器的三款设备,而M3与M4芯片的发布间隔仅五个月,这意味着M6芯片的提前亮相并非没有先例,苹果在芯片领域的迭代速度正在加快。 根据最新消息,苹果正在开发三款核心智能家居设备:代号J490/J491的7英寸显示屏Siri智能家居中心、代号J595的带机械臂智能家居中心(可实现9英寸显示屏桌面移动)、代号J450的搭载先进人体感应传感器的智能家居安防摄像头。同时,苹果还在探索门铃等安防摄像头配套配件,但这些产品的发布时间表尚未明确。 其中,7英寸显示屏智能家居中心与安防摄像头大概率将在2026年同步发布;而备受关注的带机械臂版本,尽管有报道称可能在2026年春季亮相,但苹果内部计划显示其正式发布时间将推迟至2027年甚至更晚。 2026年,也是苹果关键的“业绩与战略落地年”,两个重要时间节点值得关注: 第一点,1月29日,苹果将发布2026财年首季财报。苹果预计该季度营收至少1400亿美元。iPhone 17 Pro系列、AirPods Pro 3等新产品的市场反馈良好,成为业绩增长的核心驱动力。但投资者们更关注的是,苹果在中、国市场的表现是否有所改善,毕竟中国市场近期表现不尽如人意。 蒂姆·库克手持最新款iPhone 17 Pro,这款手机带动了2025年10月到12月的销售量(图源:彭博社) 第二点,2月24日,苹果将召开2026年度股东大会。这场大会将由即将卸任的总法律顾问凯特·亚当斯(Kate Adams)主持,她将于3月正式离职,Meta首席法务官詹詹妮弗·纽斯特德(Jennifer Newstead)将接任这一职位。预计大会将顺利通过董事会成员名单和高管薪酬方案,库克可能会发布最新战略解读,但大概率不会公布重大产品或业务调整信息。 结语:苹果的AI救赎之战,才刚刚开始 从自研遇挫到牵手谷歌,从人事震荡到战略重构,苹果在AI赛道上的转型之路充满波折。 短期内,借助Gemini模型的技术赋能,两款新Siri的陆续落地将成为苹果AI战略的“救火之作”,有望缓解市场质疑;但长期来看,苹果面临的挑战依然严峻:核心人才流失、自研能力弱化、外部竞争加剧,这些问题都需要时间来解决。 2026年,既是苹果AI战略的落地元年,也是Mac产品线的爆发之年,更是CEO接班计划的关键过渡期。 牵手谷歌是否能让苹果在AI赛道实现弯道超车?两款新Siri能否重塑用户体验、挽回市场口碑?特纳斯的上位能否延续苹果的设计基因与创新活力?一系列悬念将在未来12个月内逐步揭晓。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。