行业分类:
加载中...
头条分类:
加载中...
郭明錤透露苹果与英特尔代工合作:iPhone芯片为主力 台积电仍占九成供应
凤凰网科技讯 5月15日,天风国际证券知名苹果分析师郭明錤发文,分析了苹果公司与英特尔在芯片生产上的合作,以及这一合作对台积电的影响。 图注:苹果与英特尔合作搅动三方格局 郭明錤指出,苹果意识到,台积电的资源未来将持续向AI领域倾斜,早在台积电先进制程产能趋于紧张之前,就已经开始与英特尔洽谈合作,有系统地培养英特尔,以让其具备成为长期关键供应商的能力。 根据郭明錤的最新产业调查,苹果已经在英特尔18A-P系列制程(采用Foveros封装)上启动低端/旧款iPhone、iPad与Mac处理器项目。从订单结构来看,iPhone芯片约占80%,这与终端设备的销售占比相近。 苹果在英特尔制程工艺上的投片规划,也反映出18A-P系列的技术生命周期:2026年小规模测试,2027年开始放量,2028年继续增长,2029年进入衰退期。 另外,苹果也正在同步评估英特尔的其他先进制程技术。不过,英特尔的量产时间表与出货规模目前仍不明朗,组装端/EMS(电子制造服务商)也尚未看到明确的出货规划。英特尔对2027年的生产良率目标,是先稳定达到50%~60%以上。 郭明錤透露,英特尔将迎来史无前例的关键机遇与艰巨挑战,内部对于苹果订单一事,态度可谓喜忧参半。未来数年,绝大部分先进制程订单仍会集中在台积电,因此苹果几乎是英特尔唯一、也是最完整的晶圆代工练兵机会。 然而,苹果的高标准,以及同时承接其他客户订单的策略,都会进一步放大英特尔重建先进制程晶圆代工业务的执行难度。自身努力、地缘政治与客户分散风险需求,共同让英特尔站上千载难逢的黄金重塑窗口。但最终能否兑现,接下来全看执行力。 郭明錤表示,台积电未来数年内仍可高枕无忧,即便英特尔初期能够顺利出货,台积电仍将占据90%以上的供应比重。但是,台积电领先地位正成为各方进行风险对冲的焦点。 当台积电的先进制程成为稀缺资源,且资源持续向AI倾斜时,苹果自然会寻求与英特尔合作,以提升自身议价能力。但苹果并非个例,所有先进制程领域的关键玩家,都在针对台积电进行风险对冲:美国政府通过一系列半导体政策推动布局,苹果用培养英特尔,三星用存储业务带来的惊人利润支持先进制程投入。相比之下,台积电目前主要仍以卓越执行力应对,相当于把竞争优势押注在“执行力会持续领先”这一假设之上。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
马斯克AI公司进军专业编程:发布首个智能体 对标Anthropic
图注:xAI 凤凰网科技讯 北京时间5月15日,据彭博社报道,埃隆·马斯克(Elon Musk)旗下xAI推出了该公司首个AI编程智能体,名为Grok Build,试图追赶Anthropic旗下Claude在简化软件开发流程方面的能力。 这款AI模型目前仍处于早期测试阶段,仅向付费订阅用户开放,是这家创业公司首次进军专业编程领域。根据xAI官网的一篇文章,该智能体能够按照用户指令完成复杂的编程任务。 马斯克与xAI正在编程领域加紧追赶其他AI公司。编程是AI领域利润丰厚的市场,而马斯克承认,他的公司在这方面已经落后。xAI总裁、同时也是Starlink高管的迈克尔·尼科尔斯(Michael Nicolls)已敦促公司员工,要在各项任务上对标Claude的表现,并将此称为公司的“近期目标”。 上个月,xAI与AI公司Cursor签署了合作协议,双方将在编程及计算资源方面展开合作。据知情人士透露,Cursor的工程师最近几周已开始与这家创业公司协同工作。不过,xAI位于帕洛阿尔托办公室的其他几位关键工程师近期已相继离职,其中包括3月份加入公司的Mistral AI创始人德文德拉·查普洛特(Devendra Chaplot),以及xAI后训练团队负责人李贝彬(Beibin Li,音译)。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
俞浩为什么“疯狂”刷屏?专家拆解追觅品牌营销三大打法
原标题:俞浩为什么“疯狂”刷屏?专家拆解追觅品牌营销三大打法:效果明显,但潜在风险不可忽视 记者|徐肖逍 编辑|何小桃 廖丹 杜恒峰 校对|金冥羽 5月12日,有自媒体发文质疑追觅科技(以下简称追觅)创始人、CEO(首席执行官)俞浩在各大社交媒体平台高调刷屏的背后,实际意图是为了拿到多个地方政府的投资。对此,5月12日晚间,俞浩在视频平台回应:好意思来黑我们,为了流量无下限。 2026年,俞浩通过惊人言论、疯狂刷屏席卷了多个社交平台,成为全网讨论度最高的企业家之一。《每日经济新闻》记者(以下简称每经记者)发现,追觅品牌营销模式可以分为三大类型,包括创始人主导的话题营销、组织全员营销及打造“软硬结合”的叙事营销。 品牌专家、瞻胜传播创始合伙人庞瑞接受每经记者采访时表示,这个现象体现了流量时代“85后”创业者品牌营销的新趋势,他们正主动打破传统精英人设,转向“高能量个体”的竞争。在这个趋势下,真实感、话题密度和互动频率取代了端庄与距离感。 俞浩,视频截图 追觅营销“三步走” 创始人争议话题引爆流量 俞浩,一位卖扫地机器人的CEO,通过惊人言论、疯狂刷屏席卷了多个社交平台,在这段时间成为全网讨论度最高的企业家之一。记者盘点发现,追觅的品牌营销模式可以分为三大类型。 首先也是最重要的是创始人话题营销。核心是两大招:一是言论制造争议、引爆流量,比如“百万亿美元公司生态”“五年首富”等;二是高频率、抽象化刷屏,用海量“活人感”内容,成功塑造其“疯狂真实”的独特人设。 其次,组织“全员营销”,将个人流量转化为规模化品牌曝光的“放大器”。具体来看,俞浩要求追觅约2.2万名员工全员开通所有平台社交媒体账号,每日发布3条产品相关视频,形成覆盖全平台的“内容矩阵”。 最后,打造“软硬结合”的叙事营销:一边讲故事,一边“秀肌肉”。他本人负责“软”的部分,不断抛出“打造百万亿美元公司”这类宏大梦想,为追觅的未来画下巨大的想象空间。而在他每次讲故事的同时,公司都有“硬核”的动作来呼应。 比如,俞浩“炮轰小红书”引发热议时,追觅宣布在美国发布“火箭车”;俞浩年会“发黄金”的言论刷屏时,公司的重金赞助也登上了春晚和“超级碗”。这套“老板造梦,公司圆梦”的组合拳,有效地将流量转化为了品牌声量。 庞瑞认为,为达成阶段性的关键目标,比如提升市场声誉、增加估值,俞浩的这种模式投入太多组织资源,也让个人声誉承担了更大的风险。 针对上述现象,厦门大学品牌与广告研究中心主任黄合水则认为,作为高科技企业的掌舵人,应该尽可能挖掘更多的技术空间,而不是把更多精力花在网络传播上。 创始人话题营销: 从“精英”到“高能量个体” 在流量时代,越来越多的企业重视“创始人IP”的打造。比如,雷军走的是“精致叙事”路线,其年度演讲、抖音内容经过精心策划,将个人奋斗史与小米产品深度绑定,塑造了“亲民劳模”的形象。 周鸿祎则擅长“话题制造”。从“红衣大炮”到“卖掉迈巴赫拥抱国产新能源”,他深谙争议即流量的法则。而后更以“干掉市场部”为噱头,为360 AI产品引流,风格犀利且目的明确。 不过,俞浩曾在社交媒体发文,否认学雷军等企业家做个人 IP,但是不可否认的是,在持续的话题营销中,俞浩也打造了一个与众不同的企业家IP形象。 “在科技圈,企业家或创始人话题营销是个常见的模式,但俞浩模式有鲜明特色,是典型‘85后’的传播风格。”庞瑞表示,区别于雷军、周鸿祎等前辈始终聚焦企业家身份和主业形象,俞浩展现出一种“顽童”式的松弛感:穿睡衣出镜、做搞怪表情、发无厘头内容。 他认为,这个现象体现了流量时代“85后”创始人话题营销的新趋势:年轻企业领导者正主动打破传统精英人设,转向“高能量个体”的竞争。在这个趋势下,真实感、话题密度和互动频率取代了端庄与距离感。 追觅营销模式效果明显 但潜在风险不可忽视 2017年成立的追觅,起初主要发力海外市场,2025年其海外营收占比近80%。相较于大众热衷的手机、汽车品牌,追觅在国内的知名度相对不足。 值得关注的是,追觅正处在高速扩张期:2024年,追觅产品逐渐从清洁家电扩展到全场景;2025年8月,追觅官宣造车,并表示首款超豪华纯电产品对标布加迪威龙,计划在2027年亮相;在2026年中国家电及消费电子博览会(AWE2026)上,追觅完成了覆盖智能汽车、智能手机、智能家电、天空与宇宙探索、能源与芯片算力等多个板块的展示。 而上述营销手段也起到了一定作用。根据俞浩分享的数据,追觅在今年一季度实现了100%的同步增长。此外,数据显示,追觅的百度指数在今年有明显的上升。 图片来源:百度指数 关于这种模式的优缺点,黄合水表示:“如果目标只是短期的流量获取、品牌知名度提升,甚至带动一波销售转化,这套打法确实行之有效。但想走更长的路,这种方式并不可取。” 庞瑞对记者分析了追觅营销模式的两大优势。第一,目标明确、节点清晰。它有清晰的阶段性目标和时间表,容易执行。第二,传播力与话题性兼备。创始人话题的争议性本身就能引爆讨论,网友主动参与二次传播,变相节省了媒体宣发的成本。 不过,他提醒,俞浩模式带来流量的同时,可能会放大毁誉和潜在危机。流量越大,往往风险敞口越宽。 传播方式要适配阶段 拥抱流量也要敬畏流量 在“创始人IP”被过度打造的案例中,贾跃亭无疑是最具警示意义的一个。其失败本质是“PPT造车”式的叙事泡沫:宏大概念撬动了资本,却难以推动产品与技术落地。营销先于产品,流量重于交付,最终个人信誉破产,品牌沦为“做局”的代名词。 庞瑞告诉每经记者,追觅本质上是制造业企业,核心在于产品质量与供应链管理。无论营销多出色,产品出问题一样会反噬品牌。俞浩的做法,前提是产品质量、用户口碑在合格线以上。作为一种阶段性传播手法,短期内可以理解企业的出发点。“但传播方式要适配阶段,企业需要懂得何时拥抱流量,何时敬畏流量。” 至于追觅模式对于更多企业而言有什么样启示和建议,庞瑞表示主要有两点。“一是从俞浩案例中观察科创消费品牌如何快速拉升声量、制造话题;二是回归自身,明确阶段目标,量体裁衣、量力而行。” 黄合水认为,这种方式在短期内有助于快速提升知名度和流量,但不利于长期品牌建设。对于高科技企业而言,品牌传播的核心或许还应回归到创新成果与产品实力本身。“我们常常讲品效,实际上,一些企业不注重‘品’,只注重‘效’。殊不知只注重‘效’,往往是短暂的,注重‘品’才会真正达到长期的‘效’。”
拯救手机发热 可能就靠中国科学家发明的新材料了
还记得去年铜价暴涨时,家电圈闹得沸沸扬扬的“铝代铜”风波吗?当时不少差友还在担心家电质量会不会缩水。 其实在工业界,大家对铜这玩意儿向来是又爱又恨,性能牛逼,但价格确实比铝、铁贵得多。 不过和造空调冰箱用的普通铜管不一样,如今真正卡住整个高端制造业脖子的,其实是薄到只有 10 微米(约头发丝的 1/7)、纯度要求 99.9% 以上的高端铜箔。 尤其是在现在最火的,AI 服务器和新能源车领域,对高端铜箔的需求简直就是个无底洞。 一台新能源车用铜 83 公斤,是燃油车的 3.6 倍;英伟达一个 NVL72 机架里光 NVLink 铜缆就要 5000 根,铜线总长 3000 米。 而暂时还真没有能完全取代的平替材料,既然换不掉,大家伙就只能努力做升级,往死里卷铜的性能,让它变得更强、更薄、更稳。 不过,这事儿听起来容易做起来难。 因为金属材料界有一个“不可能三角”的诅咒:超高强度、高导电性、优异的热稳定性,这三样东西你永远无法同时凑齐。 你想让铜变强?那就得把晶粒做小,但这么一来,电子跑起来就像在迷宫里到处撞墙,导电率直接拉胯; 好不容易做出又硬又导电的纳米晶铜吧,结果它有个致命的公主病:室温下放着放着就会“自退火”,晶粒自己变大,强度当场崩掉。 正因为这个技术死胡同,长期以来,用于 AI 服务器和高频 PCB 的高端铜箔市场,几乎被日本的三井金属、古河电工等巨头死死垄断。 不过,就在最近,中科院金属所卢磊团队在《Science》上发了个大招,直接把这个所谓的“不可能三角”给砸碎了。 所以超级铜箔,到底是怎么炼成的? 以前大家为了让铜变强,传统的思路是往里加点重金属,但这就像是在电子高速公路上设路障,容易把导电率给搞崩了。 但卢磊团队这次玩了波教科书级的“反向操作”。 他们在电解液里加了点特殊的有机添加剂,引入了碳(C)、氧(O)、氯(Cl)这些轻质元素。 要知道,在炼铜老兵们眼里,这些玩意儿都是避之不及的有害杂质,会严重干扰铜的导电性。 但他们通过电位震荡的催化,把这些原本应该捣乱的杂质一个个训好,乖乖地在纯铜内部聚集成了,只有 3 纳米大小的“超纳米畴”。 更神奇的是,这些超纳米畴的排布还极其规整,像布料里的线一样编织了起来。 水平方向上,这些纳米畴就像一张极具弹性的网,让铜箔在受力时把压力均匀分摊,避免在一个点上死磕断裂;垂直方向上,又像在承重墙里密密麻麻地打满了钢筋,把强度直接拉满。 更精妙的是,这些 3 纳米的微观结构,跟纯铜基体形成了一种“半共格界面”,说白了就是,它就像给电子开了个 ETC,电子路过时连减速都不用(现实中,大家还是减速保证安全)。 强度立住了,导电率没掉,热稳定性还顺手解决了,一测试发现这款超级铜箔纯度达到了 99.91%,只有 10 微米厚,同时强度一路狂飙到了 900 MPa(是普通铜箔的 2-3 倍),导电率还稳如老狗。 不仅如此,前面提到的那个铜箔公主病也被治好了。 这玩意儿哪怕在室温下放半年,甚至扔进 150℃ 的高温里烤,性能都丝毫不减。 如果手机芯片未来用上它,或许可以更好地控制发热;AI 服务器的 PCB 用上它,铜缆能做得更薄、高频信号传输更稳;新能源车锂电池用上它,电池可以做得更薄更安全,大电流快充时损耗也更低。 但如果你以为这又是一篇只能活在实验室里的 PPT 论文,那就错了。 很多牛逼的新材料一提到量产就歇菜,因为总有良率不足,新设备贵得离谱,工艺太复杂等等问题。 这次可能还真不是那种发完论文,只能活在实验室里的 PPT 科研,而是连铜箔产线都不用换、就能直接上量产的"船新版本"。 因为超级铜箔,几乎完美兼容现有的直流电沉积产线。 国内的铜箔厂甚至都不用换新设备,只需在原有的槽液里换个新配方,微调一下参数就能用上。 目前,中科院团队与嘉元科技、诺德股份、铜冠铜箔等国内头部铜箔企业已启动技术对接与中试验证,预计 1-2 年内就能实现规模化量产。 这意味着这项技术的产业化落地,可能不会等太久。 听起来很燃,但很少有人知道,这项能够立刻下产线的技术,背后是几十年的冷板凳。 如果从 1997 年算起,卢磊团队已经在纯铜这一件事上死磕了近三十年。 这期间,当外界都在追风口、抢热点的时候,他们却花上半辈子的时间,把一种最普通的金属研究到极致。 然后在某一天,这种最普通的金属,变成了卡住整个高端电子产业咽喉的关键材料。 看多了互联网大厂发各种花里胡哨的 APP 和大模型,再回头看咱们的科研团队能在这种最底层的基础材料领域硬生生撕开一条口子,说真的,非常提气。 毕竟科技树这玩意儿,根扎得有多深,叶子才能长多远。
蔚来2026款乐道L90开启全国交付,整车购买26.58万元起
IT之家 5 月 9 日消息,今日蔚来旗下乐道汽车宣布,2026 款乐道 L90 正式开启全国交付。乐道 L90 001 号车主,知名演员沙溢 & 胡可一家增购 2026 款乐道 L90,成为乐道 L90 双车主。 IT之家注意到,2026 款蔚来乐道 L90 纯电大三排 SUV 于 4 月 21 日晚正式上市。新车拥有八大板块、超过 70 项软硬件升级,整车购买 26.58 万元起、电池租用方式购买 17.98 万元起。 2026 款乐道 L90 沿用家族式设计风格,除岩脊棕、辰辉银、云曦金、静岳黑、雪峰白、凝夜紫外,本次新增「银辉紫霄」和「紫韵金晖」两款全新双色车身设计;采用瞭望塔式激光雷达布局,外后视镜配有智能辅助驾驶小蓝灯。新车尺寸为 5145×1998×1786mm、轴距 3110mm。 2026 款乐道 L90 还首次搭载蔚来世界模型,全场景领航辅助升级为点到点全域领航辅助,覆盖高速、城市快速路、城区、停车场和补能全场景。 2026 款乐道 L90 继续提供六座 / 七座布局可选,车内还提供 17.3 英寸 3K 吸顶屏、8 英寸后排屏、8.86L 车载冰箱(0~50° 温区)、256 色氛围灯、23 个扬声器 Onvo Sound Premium 音响系统和超大天幕等。 2026 款乐道 L90 采用全域 900V 高压架构,SOC 10-80% 充电约 25 分钟,能够兼容蔚来的第三 / 第四代换电站,3 分钟可完成电池更换。
中芯国际张汝京:执着3nm/2nm 是误区 海外垄断利基市场最易突破
快科技5月9日消息,近日,有着中国半导体教父之称的中芯国际创始人张汝京接受媒体专访,针对国内半导体产业发展误区、国产突围路径以及 AI 芯片赛道布局,给出了自己的观点。 当前国内半导体产业资源高度扎堆先进制程、大算力芯片等热门赛道,但诸多关乎产业链安全的利基型细分市场,却长期被忽视,恰恰是国产企业破局的关键所在。 在张汝京看来,“很多人觉得,半导体产业的竞争就是先进制程的比拼,只有做到3nm、2nm才算成功,这其实是走进了认知误区。” 他分析认为,在全球半导体产业的市场结构里,以产品数量而论,先进制程的市场占比不足20%,超过80%的市场需求来自成熟制程与特色工艺赛道,而大量被海外垄断的利基型细分市场,才是国内企业容易实现突破的切口。 在张汝京看来,中国半导体产业的突围,从来不是“全产业链通吃”,也不是在每一个赛道都争全球第一。 他直言“我们不需要什么都做,要有先后次序的选择,例如先在一个细分领域做到极致,解决一个卡脖子问题,就是对产业的巨大贡献。比起扎堆热门赛道的同质化内卷,沉下心来深耕国内半导体产业缺失的环节和利基市场,才是更务实、更有价值的突围路径。” 伴随大模型产业快速爆发,国内AI芯片迎来发展窗口期。张汝京指出,当下行业过度聚焦云端大算力赛道,边缘及分布式 AI仍未获得足够重视,海量场景化硬件需求至今没有得到有效满足。 他将AI应用清晰划分为两大方向:一是云端大模型、超算数据中心等高算力赛道,这类领域投入大、周期长、门槛极高,更适合国家级平台或大型资本长期布局,并非普通初创企业所能涉足; 二是边缘与分布式 AI 的场景化落地应用,这一领域占据市场主流份额,也是国内科创企业弯道超车的核心机遇。 张汝京表示“AI最终要落地到具体应用上,云端大模型的竞争门槛极高,这并非常规企业能参与其中。但分布式AI的场景化应用,市场空间广阔,从工业控制、车载电子到可穿戴设备等,都需要大量适配场景的半导体器件与解决方案,这里有太多尚未被挖掘的突破机会。” 他认为,初创企业完全可以避开与国际巨头正面硬碰硬,以场景化应用为切入点,走差异化发展路线,不必盲目跟风入局大算力芯片烧钱赛道。
Claude Code之父:我们公司已没真人写代码了
编译|毕伟豪 编辑|漠影 智东西5月8日报道,近日,Claude Code之父Boris Cherny与红杉资本合伙人Lauren Reeder一同出席AI Ascent 2026大会,两人进行了一场深度对话,Boris还回答了观众提问。详细拆解了Claude Code的诞生过程、AI编程的现状与未来,以及Anthropic内部的组织变革。 Boris在访谈中透露,Claude Code的诞生纯属意外,前六个月几乎没有产品市场契合度,他在此期间只拿它写10%的代码,直到2025年5月Opus 4发布后才迎来指数级增长。如今,Boris已不再亲手写代码,代码100%由AI生成。 谈及AI如何重塑创业格局时,Boris认为AI将削弱切换成本和流程能力两类传统商业护城河,但网络效应、规模经济等核心壁垒依然成立。他预测,未来十年颠覆性的创业公司数量将增长10倍,这是最好的创业时代。 他认为,AI将以更快的速度让编程民主化,写代码将成为像“发短信”一样普及的技能,未来将会有越来越多的跨学科通才崛起。以下是这场对话的核心内容: 1.Claude Code的诞生源于一次意外。2024年底,Boris在Anthropic内部孵化器发现模型能力远超当时产品(行内补全),于是动手打造直接让Agent写全量代码的工具。前六个月几乎没有PMF,直到2025年5月Opus 4发布后才出现指数级增长。 2.一行代码不写,编程已经100%被解决了。Boris的代码100%由模型生成,他每天发数十个PR,最高纪录一天150个。但他承认,复杂代码库和非主流语言仍未被完全攻克,答案通常是等下一个模型。 3.常用手机开发,成百上千个智能体并行,loop是未来。Boris大部分工作从手机完成,同时运行5-10个会话、几百个Agent,每晚有数千个Agent做深度任务。他强烈推荐loop用cron定时调度Agent自动执行重复任务(修CI、抓反馈、整理PR),称之为未来。 4.未来团队:跨学科通才崛起。Claude Code团队所有人都在写代码,产品经理、设计师、数据科学家、财务、用户研究员无一例外。Boris预测,未来将会有越来越多的通才崛起,他们同时擅长产品、设计和数据科学。 5.SaaS不会灭绝,但切换成本和流程壁垒将消解。AI削弱了切换成本和流程能力两类商业护城河,但网络效应、规模经济、独特资源依然成立。与此同时,未来十年颠覆一切的创业公司数量将增长10倍,大公司受制于内部惯性,而初创公司可以用AI原生方式从零构建。 6.写代码将成为像“发短信”一样普遍的技能。Boris以15世纪印刷机类比:印刷机让欧洲识字率从10%飙升至70%,书籍成本下降百倍。AI将以更快的速度让编程民主化。他认为最好的会计软件作者不是工程师,而是懂领域的会计师,领域知识才是难点,编程已是易事。 7.真正的领先在于组织流程。Anthropic内部用Claude做一切事情,团队成员的Claude之间通过Slack互相通信、在loop中协作,公司内已无一行手工编写代码。同一套技术对所有人可用,差距在于组织结构和流程变革的深度。 8.MCP是连接一切的工具,Computer Use是兜底方案。对于知识工作场景,MCP协议是让AI访问Salesforce、Google Docs等云端工具的最简答案。没有MCP的系统则由Computer Use兜底,4.7已能操作电脑上的任意软件,虽慢但稳。Boris认为这些细节最终都不重要,对模型来说,一切都是token。 下面是访谈的完整实录: 一、Claude Code的诞生,是一场意外 报幕员:好的,我很兴奋地介绍我们的下一位演讲者。举手示意一下,在座谁在用Claude Code?好,再举手,在座谁得了Claude Code狂热症?我的团队都调侃说我有Claude Code狂热症,这事可能真也可能假。今天我们非常高兴请到Boris Cherny。 Boris是Claude Code的缔造者,在打造这个产品的过程中,他在最前列,亲眼见证了现代软件开发方式的重塑。Boris,我们真的非常感谢你抽出时间跟我们交流。我们知道整个软件开发某种程度上都扛在你肩上,所以谢谢你腾出一个小时来跟我们对话。今天采访Boris的是我们团队的Lauren Reeder。 Boris:你把我的开场词给抢了。我一般都会问在座谁在用Claude Code,刚才举手的人不少,太棒了。 主持人:谢谢你来,Boris。这里做了一屋子的构建者(builders),能请到你来真的非常特别。我认为你正在彻底改变“构建”这件事本身,所以我非常好奇你怎么看待软件编程的未来,以及我们该把所有空闲时间花在哪儿。不过我先给大家补充一点你的背景,好让大家多一点了解。除了创建Claude Code,Boris还是工程师的典范。整个职业生涯你都在大量写代码,还写过编程教材,包括一本关于TypeScript编程的书。而且我上次跟你聊天时,你说过去一年,至少到2026年到目前为止,你一行代码都没亲手写过,这个变化相当大。 Boris:还有一件不太为人知的事。中学时候我写过一本教大家用TI-83 Plus计算器的指南。我刚刚搜了一下,它居然还在网上,实在太尴尬了,请大家千万别去搜,但它确实存在。 主持人:我们肯定会去找出来的。好,我先问几个问题,从Claude Code怎么开始的讲起,然后开放给观众提问。大家可以开始在脑子里酝酿问题了,我很想把麦克风交给你们。 Boris:好,先快速问一下,在座用Claude Code的人,主要用命令行版的(举下手),桌面版的?用VS Code或JetBrains IDE版的呢?好吧,不是很多。其他的呢,比如我最近主要在iOS上,好的,这很棒。Claude Code的起源,很多方面可以说是纯属意外。 我是在2024年底加入这个团队的。当时它是Anthropic内部的一个实验室,叫Anthropic Labs。团队在某种程度上完成了它的使命。我们做出了Claude Code、MCP协议,还有桌面端应用。那就是一个小团队,只有我们几个人,纯粹就是个创新团队。我们把自己想做的产品做了出来。团队后来解散了。现在大家又聚在了一起,开启第二回合。 Mike Krieger,就是Anthropic的首席产品官,之前也是Instagram的联合创始人之一,现在在领导这个项目。至于我开始做编程工具的原因,是我们当时觉得存在一种product overhang(产品空缺),我猜在座各位经常用这个词,我们在实验室里用得非常频繁。核心想法是,模型已经能做好多事情了,但还没有产品把这些能力真正接住。 在2024年底我们审视编程领域的时候,那时最先进的方式是行内补全:你打开IDE,按tab键,它帮你一行一行地补全。那是Sonnet 3.5首次实现的能力。但我们的感觉是,我们其实可以走得更远,模型几乎已经准备好迈出下一步了。我们不需要再做行内补全了,可以直接让智能体把所有代码写出来。 于是我开始做。但头六个月它就是不行。真的很烂,勉强能用。我大概只拿它来写我10%的代码。即便我们最初发布Claude Code之后,它也没有一炮而红。用的人确实不少,但没有出现今天这种指数级增长。 真正的转折点是从5月份的Opus 4开始的。我对此记忆非常清晰。就是从那时起,指数级增长开始了。然后每发布一个新模型它就迎来一次新的拐点,从Opus 4开始,然后是4.5、然后是4.6,现在到了4.7,一直在呈现拐点式增长。本质上,我们一直在建一个“PMF前”的产品。我们心里清楚它在头六个月不会契合产品市场,因为我们在为下一个模型而构建。这自始至终是我们的思路。 Boris:而且对Anthropic来说,我们一直非常专注。我们始终关心的是商业、企业、安全和编程。这一直就是我们想走的路。所以在某个时间点,我们知道要做一个产品,只是不知道具体要做什么,于是这就成了一场产品研发的豪赌。 二、一行代码都不写,编程已经100%被解决了 主持人:这是一个难以置信的故事,尤其是它竟然是场意外。你此前公开说过,你认为编程已经被解决了。如果这是Anthropic的三大赌注之一,你能再多解释一下吗?你指的是什么意思?还有哪些东西可能还没被解决?随之而来的新问题又会是什么? Boris:好,我再来问在场各位一个问题。谁还100%手写代码?谁100%用智能体,比如Claude Code来写代码?谁介于两者之间?好。所以编程大概被解决了50%。 对我来说是100%。Claude Code的代码库嘛,它泄露过,所以大家也都知道,它其实非常简单,就是TypeScript加React,没什么大秘密,没什么真正复杂的东西。我们选TypeScript和React的原因是,它们对模型来说非常“在熟悉领域内”。 我们刚开始建代码库的时候,模型可没今天这么聪明,所以语言和框架的选择至关重要。现在它当然什么都能写了,没见过的新语言、新框架都能快速上手,但当时,你得用模型比较熟悉的东西。 正因为如此,我们相当早的时候就达到了模型写全部代码的阶段,应该是在去年十月、十一月前后。所以今天对我来说,模型可以写100%的代码,我每天大概发几十个PR,上周有一天我发了150个PR,那是我的纪录,我当时纯粹是想试试能推到多远。对我来说,编程确实已经被解决了。但并不是在所有人那里都解决了,还有很多庞大而复杂的代码库,还有些怪异的语言模型暂时不擅长。不过,在座的各位都清楚,它正在逼近,通常答案就是:等下一个模型。 三、随时随地运行几百个智能体,loop是未来 主持人:你能不能给大家讲讲你的个人工作配置?你那天给我演示了一下,真的相当疯狂。 Boris:我大概六个月前在Twitter上分享了我的个人配置。有趣的是,我分享了之后才发现很多人会觉得惊讶,我完全没意识到,那就是我平常写代码的方式。 主持人:后来它又变了。 Boris:对,又变了。现在我的大部分工作都在手机上完成。我不知道你们能不能看清楚,我打开Claude应用,在左侧有一个小小的Code标签页,我就在那儿同时进行着一堆会话,你可能看不到。 主持人:有多少个会话? Boris:通常大概5到10个。每个会话里又有一堆Agent。我目前大概跑着几百个Agent,通常每晚我有几千个智能体在做更深度的任务。 管理它们有几种方式:一种是让Claude调动一批子Agent去干。但我发现自己用得越来越多的是loop,就是/loop命令。它简直是最酷的东西,最简单,也最管用。它就是让Claude用cron为未来的某个时间点安排一个任务,而且是一个重复任务。它可以每分钟跑一次、每五分钟、每天一次,随你怎么安排。 到现在,我已经有几十个loop在跑了。有一个帮我看管PR,自动修CI、自动rebase。还有一个在维护CI健康,如果出现不稳定测试之类的,它就去修。还有一个是每30分钟从Twitter上抓用户反馈、自动分类整理给我。所以我随时都有一堆loop在跑。某种程度上我真心觉得loop就是未来。如果你还没试过,强烈推荐。而且我们刚刚推出了Routines,同样的事情,但是跑在服务器上,即便你合上笔记本电脑,它也继续运行。 四、每个人都在写代码,未来的团队将会充满跨学科通才 主持人:好,那是你的个人配置,再讲讲你认为未来的团队会是什么样子吧。你怎么从你现在做的这一切外推到整个团队,让每个人保持同步?还是说我们需要把更多事情放手给智能体让它去做? Boris:我想是的。做预测真的很难,但我今天是来预测的,那就试试看。我觉得总体趋势是会出现比今天多得多的通才。今天当我们在说通才的时候,很大程度上指的还是工程师,他们仍在写代码,但可能属于产品工程师类型。当我们说通才时,就是说一个人同时搞iOS、Web和服务端,这算工程领域内的通才。 但我认为我们将越来越多地看到跨学科的通才,也就是那种不仅产品工程很厉害,同时也很懂设计的工程师,或者很擅长产品、数据科学和工程。我不知道该怎么确切描述,我们团队已经开始出现这种现象了,实际上,Claude Code团队的很多人都是跨学科通才。 我们团队的每个人都写代码。所以工程经理写代码,产品经理写代码,设计师、数据科学家、财务、用户研究员,每一个团队成员都写代码。所以你看,他们是某个领域的专家,但现在每个人同时也都在写代码。我看到有人在点头,我猜这对在座各位来说其实也不意外,因为我相信你们也在自己团队里看到了同样的情况。 五、SaaS不会灭绝,现在是史上最好的创业时代 主持人:我还有最后一个话题,然后就把时间开放给观众。我们聊了一些编程在发生的变化,我很好奇你怎么看软件或软件产品这个领域的改变。我认为我们正在目睹AI让写代码的成本降低10倍甚至100倍,那用软件生产的产品的价值会怎样?我们是否面临一场SaaS大灭绝?你怎么看这件事的演变,你又得再做一个预测了。 Boris:SaaS大灭绝这个问题是我最喜欢的问题。 我觉得接下来会发生两件事,而这两件事都不是人们目前在谈论的。 第一件事。在座有人听Acquired播客吗?那是最棒的播客。我前几周跟他们录了一期,感觉就像是见到了我的英雄,那两个主持人真的太好了。他们有一套“七种力量”的概念,这是Hamilton Helmer写的,他专门为此写了一本书。这讲的是商业的七种护城河模式。我认为因为AI的出现,其中一些模式会变得更重要,另一些会变得不重要。举个例子,会变弱的一个是切换成本,因为你直接用模型就能把东西从一个平台迁移到另一个。另一个会变弱的是流程能力,对那些护城河建立在工作流和流程上的公司来说,Claude正在变得非常擅长摸清流程。尤其是4.7版本,它可以自己不断迭代,你给它一个目标,让它一直迭代到完成为止,它就会自己跑下去。 我觉得这是第一个能做到这种程度的模型,所以这些模式会变弱,但我认为那些更根本的护城河依然成立,比如网络效应、规模经济、独特资源,这些并不因为AI而改变。 第二件事,如果你看今天的创业公司数量,或者说过去十年,我觉得未来十年的创业公司数量,那类能够颠覆一切的创业公司,会增长大约10倍。因为现在你可以是一家极其微小的创业公司,但能做出价值跟大公司一样的东西,而且可以正面对抗。 因为大公司得调整他们的业务流程,得改变他们的工作方式,得重新培训每个人使用技术,他们会遭遇巨大的内部阻力。但是在座的各位不会有这个问题。如果你从零开始,你可以从地基往上就用AI原生的方式构建。所以我觉得这是最好的创业时代,最好的构建时代。有太多颠覆正在涌来。 五、随着模型越来越强,编程会像发短信一样简单 主持人:看来我们还是有机会的。谢谢你,Boris。现在我想把时间开放给观众提问,谁有问题都可以问。 观众1:你好。我很好奇,你刚才说在PMF出现之前建了六个月。现在模型已经足够好了,你觉得Claude Code的成功,多少归功于模型本身,多少归功于产品层面那些让体验更好的决策? Boris:我觉得大概是个混合。对,是个混合。如果一年前问,比例大概五五开。我猜六个月前你问我,也是五五开。 观众1:那两年后呢? Boris:两年后?我不知道。我们的规划周期是一周。 顺便说一句,之所以是五五开,是因为早年我参加过YC,我是那家YC公司的第一个雇员,后来也做过好几家创业公司。在创业公司里,他们反复给你灌输的一点,尤其是在YC,就是:打造人们真正热爱的产品。所以产品具体是什么没那么重要,模型什么的也没那么重要,最终你还是得做出人们真正喜爱的东西。这就是产品之所以重要的原因。我们在细节上投入了非常多的关注,这样你一整天用它,体验都非常好。 我认为随着模型变得更好,那层Harness某种程度上就没那么重要了。我们现在在想的是怎么演进这层Harness,怎么让loop成为最重要的东西,怎么让人们更方便地运行大量Agent。子Agent是一个方向,我们正在弄的东西还有不少。但我认为一年后,模型本身会变得更好,所有那些我们今天搞的安全机制,提示注入防护、命令静态验证、权限模式、人机回路等等,所有这些都会变得没那么重要了,因为模型自己就会做好。这就是我的预测。 观众2:稍微从软件领域往后退一步看。我觉得Claude Code几个月前引发了一场文化层面的变化,它让构建软件这件事民主化了。你能看到店主在给自己写软件,甚至有人在给控制器编程来实现开门自动亮灯。你觉得将来写软件会不会变成一种像会用Microsoft Office那样的通用技能,成为每个人都能做的事,不只是科技行业的人的专利? Boris:一定会,我觉得不光是那样。我觉得会变成像“我会发短信”一样普遍的技能。我看的书基本上包括两大类:科幻和科技史,这是我大量涉猎的方向。在科技史里,有一件事在我看来是当前所发生一切最清晰的对照,那就是15世纪欧洲的印刷机。当时的情况是:在印刷机出现之前,欧洲大概只有10%的人识字。他们知道怎么阅读和书写。他们通常受雇于那些不认字的国王和贵族。他们的工作就是读和写。这不是人人都具备的能力。后来印刷机被发明了出来,然后迅速扩散。 在印刷机发明后的50年内,欧洲出版的文献数量超过了此前一千年。同一时期,一本书的价格下降了大约一百倍。之后又花了几百年,因为学读写本身是件很困难的事,需要教育系统,需要政府推动,也不可能所有人都在田里干活,但接下来的几百年里,全球识字率升到了大约70%。 到今天,我们都能读会写,你不需要一个读写专业的学位才能学会。当然,专业的作家依然存在,那始终是一个可以去做的职业。所以我觉得,接下来即将发生的事,而且会远远比50年要快,软件将成为一个彻底民主化的东西,任何人都能做。而且这里面有很多对应的推论。 举个例子,假设你要做一款会计软件,写会计软件的最佳人选,我认为可能即便是今天,也已经不是一名工程师了,应该是一名真正优秀的会计师,因为他们对领域了如指掌,编程反而是容易的部分,难的是懂领域。我觉得这毫无疑问就是未来。 观众3:刚才说你们因为能提前接触到模型和Agent,所以某种程度上已经生活在未来了。Claude Code在发布前是内部工具。你们在工程实践上和外部世界的差距,是一个月?三个月?还是六个月?这个差距随着时间是越来越大还是越来越小? Boris:我们在内部用的是和大家完全一样的模型。对我们来说,dog fooding(内部自用)非常重要。所以我们用的就是在座各位用的同样的东西。我们会用一点Mythos来做实验,然后大量使用Opus 4.7来写我们的大部分代码。 在模型层面,我觉得其实不存在什么差距。差不多就是Mythos,它未来会以某种版本或某种衍生形态向所有人开放。在产品层面,可能差距要大得多。这跟我们内部流程的彻底变革有关。如果你跟Anthropic的任何人聊天,你会发现我们几乎用Claude做一切事情。我们的Claude们整天互相沟通,当我在写代码,当我的Claude在loop里写代码时,它们会通过Slack跟其他人的Claude交流,那些Claude也在各自loop里运行,相互间交换信息,解决未知问题。我们公司里再也没有一行手工编写的代码了。所有的SQL都是模型写的。所有东西都是模型构建的。 Boris:所以我觉得我们真正领先的地方并不是技术,因为相同的技术对我们和在座的每一位来说都同样可用,因为我们在做的本质上是一个平台。所以对我们来说很重要的是,开发者可以和我们用同一套工具,我们发布的每一样东西都会自己先用。但我认为真正更大的领先之处在于组织结构和组织流程,这是一个单独的领域,希望我们可以在类似这种场合再聊一聊,大家都能从中学习并一起进步。 主持人:对,我觉得这也是创业公司的优势所在,从一开始就这么做要容易得多。 观众4:在之前那次Square活动上,你提到了多Agent,当时还只是一种很初期的概念。你说还有一些东西在推进,而现在显然已经有了/batch、/loop、子团队、Teams。你能不能分别从模型层面和Harness层面讲讲,你是怎么在Harness层注入先验知识的?模型层的目标函数又发生了什么变化,能让这种分配任务、启动Agent的体验变得更好?因为有那么多工作是可并行的,你可以同时快速地做那么多事情。我感觉自己在什么该并行化这件事上仍然得靠我自己的直觉,而不是模型自己理解“这事儿你可以启动几十个Agent”。 Boris:在产品层面,说到底就是prompt的调整,这就是全部。所以我们不断调整prompt来帮助模型更好地并行处理事情。但同时,随着模型越来越强,它会自然而然地做到。像Loop这个东西,我发现在4.7上,它就自动开始做了一些非常酷的事情。 比如我告诉它,去拉这批数据查询,它会主动说“嘿,我注意到数据在随时间变化,我开一个loop每30分钟给你一份报告”。我说太好了,能发到Slack上吗?然后它就通过Slack MCP去干了。所以我认为,随着时间推移,这不应该是用户去琢磨怎么更好地使用工具的问题。如果变成了那样,那说明我们在产品设计上没做好。这件事归根到底应该靠模型自己去做得更好,靠我们在prompt层的引导让它自然而然地做出这些行为。 观众5:现在看起来,我们很多人都用Claude或者Codex这类云端工具来做大量计算工作。但也有一些声音很坚定地拥护本地AI。我可以想象,随着开源权重模型和其他技术的追赶,人们未来也可能以本地方式获得非常高质量的编程辅助。所以我很好奇你对接下来几年这个方向怎么看,你觉得轨迹会是一直依赖云端算力,还是会转向“大家都有自己本地的Agent,不被限流,以及其他优势”? Boris:我觉得可能有几种角度,最根本的回答是,这根本不重要。因为我觉得现在我们正在到达一个阶段,模型自己就能把这些事想清楚。所以我想几年之后,模型会承担所有代码的编写,会自己启动Agent,会自己搭建环境。如果它判断说“那我用本地模型来做这个吧”,那它就会那么做。这些决策,我不认为将来还需要我们工程师来做了。 观众6:Claude Code做了一个很棒的决策,就是利用了开发者的很多工具和工作流都在本地这件事。但对于那种通用知识工作来说,情况并不总是这样,很多工具在云端。我很好奇你们怎么思考CoWork这件事,怎么给CoWork足够的工具访问权限,让它也像Claude Code对于开发者那样强大? Boris:这是一个非常好的问题。我以前在一家大公司的时候,我们花了五年时间把所有环境迁移到远程,工作量实在太大了。但对于知识工作来说,其实很大程度上已经是云端的了,像Salesforce、Docs这些。对我们来说,答案永远是最简单的那个:就是MCP。你在Claude应用里接的同一个MCP连接器,Salesforce、Google Docs、Google Calendar等等,Claude Code能用,CLI版能用,任何地方的Claude Code都能用。 观众6:对于那些没有MCP的系统,你觉得Computer Use会是一个很大的机会吗? Boris:对,我觉得Computer Use是一种兜底方案。据我所知,Anthropic目前在Computer Use上走得相当靠前。如果你通过CoWork用它,效果相当不错。它几乎能操作你电脑上的任意软件。速度还很慢,但现在做得相当好了,尤其是在4.7上。但除此之外,MCP就是答案。而且这些东西归根到底也没那么重要,MCP、CLI、API,只要有某种程序化访问接口就行。因为模型才不在乎呢。对模型来说,一切都是token。 主持人:好,我们还有时间再问最后一个问题。 观众7:你之前或多或少已经提到了这个。你在某个时间点看到了产品空缺,然后想到去建一个产品,等模型变得更强之后它会变得更有趣。你能不能哪怕用很模糊的方式描述一下,你在建的某个产品,你认为在六到十二个月后的模型上会变得有趣得多的那种? Boris:我觉得Claude Design是一个很好的例子,今天已经相当不错了,以后会好很多。另外我们在Claude Code上也在做一些改进,接下来的几周就会上线,你会看到的。还有就是loop、Batch这类围绕大规模并行智能体的功能会变得更好,Computer Use是另一个不错的方向。 主持人:好,Boris,非常感谢你来。我们还会在这儿待一会儿,谁有问题可以来聊。 Boris:谢谢大家。
占比40%!MiniLED电视今年销量将破千万 彻底走入大众
快科技5月9日消息,洛图科技发布最新行业数据,虽然国内整体电视市场持续走下坡路,但MiniLED电视却逆势走红,今年全年销量有望突破千万台,市场渗透率快要逼近四成。 2025年国内MiniLED电视出货量为802万台,按照行业预测,2026年将涨到1115万台,同比涨幅39%。这也意味着MiniLED正式从小众高端配置,变成普通家庭换新电视的主流选择。 从今年一季度的市场表现就能看出势头有多猛。Mini LED电视零售销量占比已经达到26.7%,比去年提升不少。如果看销售额,更是接近市场总额的一半,达到47.9%,足以看出大家更愿意为高端画质机型买单。 现在整个电视行业整体销量连续下滑,市场还在持续萎缩,但产品明显往高端、大屏方向升级。普通电视不好卖,MiniLED却一直保持高增长,成了拉动行业升级的关键力量。 之所以越来越多人选MiniLED,主要是画质和性价比都上来了。控光更精细、画面对比度更高,观影体验远超普通液晶电视。加上价格不断下探,中低端机型也开始搭载这项技术,门槛越来越低。 再加上国家节能补贴偏向一级能效产品,各大品牌都在重点布局MiniLED高端机型,进一步带动了市场普及。接下来的618大促,还会继续推高这类电视的销量和市场占比。
百度最强模型来了!五大场景深度实测,搜索能力突出
智东西 编译 | 刘煜 编辑 | 陈骏达 智东西5月9日报道,今日,百度推出新一代基础模型文心5.1。百度称,文心5.1将总参数压缩至约1/3、激活参数压缩至约1/2,使用业界同规模模型约6%的预训练成本,实现同级别模型基础效果领先。不过,百度并未明确说明这一“6%成本”的具体对标模型范围与口径。 在LMArena 5月7日更新的文本生成大模型排行榜中,文心5.1全球总排名第14。与前面OpenAI、xAI的模型相比,得分存在微小差距。 图源:LMArena官网 文心5.1在Agentic、知识、推理、指令遵循能力测试中,与DeepSeek-V4-Pro、Claude-Opus-4.6及Gemini-3.1 Pro展开了横向性能对比。 Agentic能力测试中,文心5.1工具调用数学推理能力表现不错,得分略低于Gemini-3.1 Pro排名第二。多轮工具协作交互能力弱于Claude-Opus-4.6居于第二位,与另外两个模型能力差距较小。 在深度搜索Agent任务中,文心5.1较其他三款模型仍有差距,电子表格工具操作仅领先DeepSeek-V4-Pro,大幅落后Claude-Opus-4.6与Gemini-3.1 Pro。 图源:百度文心公众号 知识、推理、指令遵循能力测试中,文心5.1整体处于中等水平。高阶学科知识推理(GPQA)和复杂指令遵循(AdvanceIF)表现较好,仅次于Gemini-3.1 Pro,领先另外两款模型。 纯数学推理(AIME26)和通用知识问答(MMLU-Pro)在四款模型中均排名末位,与头部模型差距相对明显。 图源:百度文心公众号 此次文心5.1推出距离文心5.0正式版上线已时隔三个多月。文心5.1模型发布时,登顶LMArena榜单里国内大模型搜索能力榜首位。 图源:百度文心公众号 实际评测中,我们从创意写作、数学推理、信息整合、电子表格操作、编程能力五个维度对文心5.1模型进行了综合体验。 其中,创意写作与电子表格数据分析我们均采用文心5.1思考模型进行二次实测。相比文心5.1快速模型,思考模型产出的内容叙事风格更有质感、情感调性更细腻自然,也未出现基础性逻辑与文字错误;在表格数据分析任务上,思考模型的整体表现同样更出色。 文心5.1对概率题的解答步骤严谨、答案准确;面对开放式模糊需求,能自主拆解任务、输出表格对比和场景匹配,信息整合能力不错;但在编程场景中短板突出,生成的代码无法正常运行,实用编程能力仍有欠缺。 文心5.1模型的体验链接为: https://yiyan.baidu.com 以下是我们的完整体验过程: 一、五大场景实测:文心5.1创作、数理、办公、科普能力全面验证 案例一:创意写作能力测试,考察文心5.1故事架构与文学创作能力 针对文心5.1的创意写作能力,我们首先用文心5.1快速模型进行了测评。 指令一:请为一个悬疑故事写出前三章大纲,每章150字左右。 总体来看这个悬疑故事的大纲挺完整,叙事结构比较规整,逻辑层次也清晰。人物行动动机比较合理,线索设置具象可落地,最后的身份反转颠覆感比较强,伏笔呼应也相对完整。不过,与现在市面上的流行的悬疑推理小说还有一定差距,对于模型本身来讲,这个水准还不错。 而后我们用相同的指令,对文心5.1思考模型进行评测。 可以看到,第二篇在切入点、恐怖感上更有新意。对于短篇惊悚故事,这篇的“循环替身”更适合直接收尾,有《恐怖游轮》的循环压迫感。不过普通租客为何能查物业记录这一点可能是个bug。 我们接着让文心5.1快速模型写了一篇科幻类型的微小说。 指令二:写一篇500-600字的科幻微小说。 这篇科幻小说篇幅把控精准,叙事结构完整闭环,人物情感刻画比较细腻,整体文字流畅、故事完成度也挺高。但这个叙事框架比较常规,同时出现了人物身份混乱,比如文章主角之一是“爸爸”,可在中间的对话中却说成了“妈妈”。 对于常读同类科幻故事的读者来说,剧情走向和结局伏笔可能略显套路化,缺少出人意料的设定创新。 相同的科幻微小说指令也给了文心5.1思考模型。 可以看到,这一篇也是围绕“意识上传”这一经典科幻母题展开的。不过两篇文章在叙事重心、情感落点、科幻设定和审美取向上存在明显差异。比第一篇更好一点的是,这一篇没有出现明显的人设混乱问题。 从情感共鸣和叙事感染力看,第一篇相对更好。从科幻构思的新颖度和哲学深度看,第二篇略胜一筹。 案例二:给高考数学题,看它能不能按步骤算明白 用户在使用AI解决数学问题时,痛点比较明确:怕AI没有逻辑硬算,也担心AI编造解题步骤和错误答案。 于是,我给了文心5.1一道2025新高考一卷的上数学题,看它是否能真正解决用户遇到的数学问题。 题目为:一个箱子里有5个球,分别以1~5标号,若有放回取三次,记至少取出一次的球的个数为X,则E(X)为? 文心5.1给出了完全正确的解答,无论是使用指示变量法,还是用分布法进行交叉验证,都步骤完整,并且结果准确。 案例三:问两款大模型怎么选,看它能不能替普通人做信息整合 普通用户可能不会区分主流大模型强弱,也不知道按自身场景该怎么选用。对标文心5.1官方Agent能力里T³-bench多轮工具协作、深度信息检索整合的核心维度,我们抛出模糊需求,看看文心怎么解答。 问题为:我想了解DeepSeek-V4-Pro、Claude-Opus-4.6到底各有什么强项和短板,普通人该怎么选、各自适合拿来干什么。 可以看到,文心5.1的整体回答表现优秀。首先能够自主拆解任务逻辑,无需人工指引,自发多维度逐层解释对比,信息维度全面且细分精准,体现出不错的信息检索与归纳能力。 同时贴合了普通人使用习惯,做成表格对比、场景匹配、分人群推荐,最后还点明两款模型的隐藏短板和使用误区,给到务实的组合使用建议。 案例四:电子表格与职场数据分析能力测试 职场运营、门店管理、电商运营日常高频刚需就是员工绩效统计、数据筛选、业绩排名、均值分析,常用到的是Excel表格来进行办公。于是我们测试了文心5.1快速版本的电子表格工具操作能力。 需求为:我是门店运营,统计了本店10名销售人员的当月个人成交业绩:12.3万、18.6万、9.2万、25.8万、16.5万、11.8万、20.4万、8.7万、22.1万、14.6万。 你按照Excel分析数据帮我处理:整理成规范员工业绩数据表,计算全员业绩平均值、中位数,筛选出业绩高于平均值的优秀员工,最后结合整体数据做简单的团队绩效分析。 结果是,文心5.1在这个电子表格操作以及数据分析任务中,完成度挺高。不过没有将所有数据放在一张表格里。 于是我们继续给出指令:帮我做成一份直观的Excel表格,包含所有数据,同时可复制。文心5.1给的反馈比最初更精简了,但指令“一份”可能给该模型带来了理解误差。 于是我们再调整指令为:把这些数据仅用同一张表格来显示。 最后,文心5.1给出的结果还不错,虽然官方测试中表格操作能力排名靠后,但在文本形态的职场数据分析场景里,实际体验并没有特别差劲,能完成基础需求。 该模型结果输出比较磕绊,于是我们用相同的指令测试文心5.1思考模型。结果显示,这次模型输出的第一份结果更为简洁规范,并且更为清晰直观。与文心5.1快速模型第三次输出的结果几乎一样。 案例五: 我们使用文心5.1思考模型,让它制作了一个大型沙盒游戏与小型跑酷游戏。 指令一:制作一个单文件HTML的3D横版格斗游戏,场景为被霸天虎入侵的破败城市地图,敌人为类人型赛博坦机器人,包含武器后坐力效果,采用低多边形风格并带有卡通美学。游戏开始时,玩家位于街道上,周围有建筑废墟;游戏中应包含可被击倒的细节物品,如汽车、树木、石块/瓦砾和自动售货机。玩家可以选择5种擎天柱阵营角色进行游戏,并与5种霸天虎变种敌人战斗,这些敌人会不断生成,游戏为无限时间的沙盒模式。 文心5.1思考模型针对该指令生成了700余行代码,但实际运行时,该游戏能够正常打开,但界面出现两个遮挡bug,也没法对游戏里的敌人进行攻击,无法操作。 指令二:制作一个单文件HTML的横版跑酷游戏,不依赖外部资源。主角是一名未来都市快递员,在霓虹城市屋顶之间不断前进。游戏采用低多边形风格,整体偏明亮卡通美术。 要求: -玩家可进行跳跃、二段跳和下滑 -地图自动向前滚动,包含屋顶缺口、广告牌、电箱、无人机等障碍 -路上有可收集的能量电池和金币 -玩家可以拾取临时道具,例如护盾、加速和磁铁吸附 -敌人为巡逻无人机和机械警卫,碰撞后会扣血-分数根据生存时间、移动距离和收集物计算-淑戏失败后可重新开始 -需要有开始界面、暂停功能和简单UI(血量、分数、速度) -所有内容写在一个HTML文件中,代码可直接运行 针对第二个指令,该模型耗时3分钟生成600余行代码,但无法打开,界面一片漆黑。可见,该模型在复杂游戏编程与代码可运行性上仍存在明显短板。 二、弹性训练实现降本,架构与后训练流程同步革新 文心5.1是在文心5.0基础上进一步优化得到的版本。它没有从头重新训练,而是从文心5.0训练好的子模型矩阵中,挑出一个效果最好的子结构直接使用,因此降低了预训练成本。 其背后的主要技术更新,是一套叫Once-for-All的弹性训练方法。 传统做法想适配不同规模的模型,得分别预训练好几次;而文心5.0只在一次预训练里,通过动态采样同时优化大量不同尺寸的子模型,最终形成一个覆盖多种参数规模、不同计算成本的子模型矩阵。 也就是说,这套方法让文心5.1在训练阶段就把不同模型一次性准备好,上线时直接挑一个最合适的来用,不用每次重新练。 基于上面的弹性训练方法,文心5.1在参数和成本上的实际变化如下: 1、总参数量压缩到文心5.0的1/3左右;2、激活参数量压缩到约1/2;3、预训练算力成本仅为同规模业界模型的6%。 相比文心5.0,文心5.1推理成本明显下降,同时在同参数规模下,预训练模型效果在同规模模型中表现更佳。 文心5.0弹性训练示意图(图源:百度文心公众号) 此次更新,文心5.1在其训练方式上做了三方面改动: 首先是分离式架构。以前训练、推理、奖励计算、智能体循环四个环节耦合在一起,一个环节慢了会拖累整个系统。 现在百度将它们完全拆开,各自独立部署、独立扩缩容。比如推理算力不够就只扩推理,不用动其他模块。各模块之间通过高性能网络传数据,控制流和数据流分开,流水线可以重叠执行,训练整体耗时更短。 其次是FP8训推方面。由于模型训练时和推理时用的精度不一致,会导致效果下降,尤其在MoE结构里路由偏差更明显。 于是文心5.1用了统一FP8低精度算子库,并对Rollout Router Replay技术做了优化。结果是在开启该技术后,训练推理耗时几乎没有增加,但关键指标KL散度下降50%,训练更稳定。 最后是异构弹性调度方面。集群里会存在很多CPU算力闲置,文心5.1把这些CPU统一池化,用来跑代码沙箱、验证器这类逻辑计算密集但不需要GPU的任务。提升了资源利用率,也缩短了训练迭代时间。 传统大语言模型的后训练是串行流程:先做监督微调(SFT),再做多阶段混合强化学习。 这种方式存在两个问题:一是慢,一个阶段等一个阶段拖慢整体迭代;二是能力会“打架”,想在一次训练里同时提升代码、推理、对话等多个能力,往往提升一个另一个就下降。 文心5.1的做法是把专家训练和能力融合拆开,分四步走: 第一阶段统一SFT。先用高质量的多领域指令数据做一次基础微调,让模型具备基本的指令遵循和工具调用能力,作为后续能力扩展的起点。 第二个阶段,并行训练多个领域的专家模型,比如对代码、推理、智能体等方向分别独立训练。每个方向用自己专属的奖励信号和算法,互相不干扰。 第三个阶段是在线策略蒸馏(OPD)。把上一步训练好的多个专家模型当老师,统一SFT模型当学生。学生按照自己的策略采样,通过token级KL方法同时学习多个老师的能力,把不同专家的能力融合进同一个模型里。 最后是通用在线强化学习。并不是所有任务都适合用蒸馏来融合,比如开放式聊天、创意写作这类高熵分布的任务,蒸馏反而效率低,输出会变得过于平滑。所以这类任务不做蒸馏,而是在蒸馏后的模型上单独做在线强化学习,保证对话多样性、指令遵循能力和人类偏好对齐。 可以简单总结为,代码、推理这类确定性强的能力,通过蒸馏从专家模型融进主模型;聊天、写作这类需要多样性的能力不适合蒸馏,单独做强化学习。两套方式配合,既缩短了训练周期,又避免了能力互相拖累。 文心5.1后训练Pipeline示意图(图源:百度文心公众号) 在百度文心内部评测中,文心5.1的创意写作能力接近Gemini-3.1 Pro。此前文心5.0系列模型已多次登上LMArena文本榜和视觉理解榜,稳居国产模型第一梯队。 结语:低成本实现性能追赶,能力尚有提升空间 文心5.1最引人注目的不是某一项能力的跃升,而是它试图回答的问题,能否用更低的训练成本,换来接近头部模型的综合水准。 从百度文心披露的数据看,在知识推理、指令遵循和创意写作上,它确实站到了同量级模型的第一梯队;但在工具调用深度、电子表格操作和纯数学推理上,与Claude-Opus-4.6、Gemini-3.1 Pro等模型之间仍存在可量化的差距。 从实际体验来看,文心5.1在数学题解答、生活化知识科普等面向普通用户的场景中表现比较稳定,信息整合和逻辑拆解能力也可圈可点。创意内容存在套路化问题,高阶表格办公能力相对偏弱,部分场景需要反复调整指令才能达到理想效果。 纵观行业,主流模型逐渐呈现能力差异化、使用场景分层化的发展趋势。对普通用户而言,成熟的基础模型能够降低内容创作、问题解答、数据整理的门槛,提升日常使用效率;对技术厂商而言,低成本、高性能的迭代方案,也将为国产大模型轻量化落地、规模化应用提供了可行路径。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。