行业分类:
加载中...
头条分类:
加载中...
历史性协议:美国政府89亿美元入股英特尔,占股9.9%
IT之家 8 月 23 日消息,英特尔宣布与美国政府达成历史性协议,美国政府将以 20.47 美元 / 股购入 4.333 亿股普通股,投资总额 89 亿美元,占股 9.9%,另享 5 年期认股权证。 英特尔公司昨日(8 月 22 日)发布公告,宣布和美国政府达成战略合作,美国政府将投资 89 亿美元(IT之家注:现汇率约合 638.98 亿元人民币)直接持有英特尔约 9.9% 普通股,购入价格为每股 20.47 美元(现汇率约合 147 元人民币)。 此次交易包含一份五年期、价格为每股 20 美元的认股权证,若英特尔在代工业务中的持股比例低于 51% 方可行使。政府将作为被动投资者,不参与董事会及经营决策,并承诺在股东表决时与董事会一致投票(有限例外)。 投资资金来自《美国芯片与科学法案》剩余的 57 亿美元未支付拨款,以及“安全飞地”(Secure Enclave)项目的 32 亿美元拨款,加上此前英特尔已领取的 22 亿美元芯片法案拨款,美国政府累计对英特尔投资总额达到 111 亿美元。 英特尔承诺继续履行“安全飞地”项目义务,向美国国防部供应可信赖且安全的半导体产品。包括亚利桑那州的新晶圆厂,英特尔公司目前在美国本土投资超过 1000 亿美元扩建生产,并将在今年内开始大规模生产,采用美国最先进的半导体制造工艺。英特尔过去五年在资本和研发上的投入分别为 1080 亿美元和 790 亿美元,大部分用于提升美国制造能力与工艺技术。 微软、戴尔、惠普与 AWS 等科技巨头均公开支持该协议,认为这将加强美国半导体供应链韧性,进一步推动人工智能与云计算等关键领域发展。 微软首席执行官萨提亚・纳德拉称,此举展现了美国创新精神;戴尔 CEO 迈克尔・戴尔强调英特尔在实现行业自给自足中的核心地位;AWS CEO 马特・加尔曼则将其视为确保国家科技与经济安全的战略投资。
美国政府89亿美元入股英特尔成为其最大单一股东
智通财经APP获悉,周五,英特尔(INTC.US)宣布,美国政府将以89亿美元的投资入股公司,成为其最大单一股东。 根据公告,美国政府将以每股20.47美元的价格购入英特尔股份,持股比例达到9.9%。这笔投资资金来源于此前尚未支付的57亿美元《芯片与科学法案》拨款,以及来自其他美国国家安全项目的32亿美元奖补。 英特尔同时强调,美国政府的投资为“被动投资”,不会进入公司董事会,也不享有信息披露权。此外,美国政府还将获得一份行权价为20美元、为期五年的认股权证,可在未来特定条件下再增持5%的股份,该条件是英特尔在未来某一时间点持有其晶圆代工业务股份低于51%。 美国商务部长卢特尼克在社交媒体上称:“这一历史性的协议巩固了美国在半导体领域的领导地位,不仅将促进经济增长,也将确保美国的科技优势。” 在此之前,根据FactSet数据,先锋集团(Vanguard)是英特尔的最大股东,持股比例为8.4%。此次交易后,美国政府超越先锋集团,成为英特尔最大单一投资者。 当天早些时候,美国总统特朗普在白宫表示,英特尔同意向政府让渡10%的股权,他称这“对英特尔来说是一笔极好的交易”。 受消息刺激,英特尔股价周五收涨5.53%,报24.8美元。但在盘后交易中,股价一度小幅回落1%。 值得注意的是,本周早些时候,英特尔还宣布获得日本软银集团20亿美元投资。该笔投资的公布,紧随媒体报道英特尔与特朗普政府讨论政府入股一事之后。
鸿蒙智行享界S9T首批展车进店,52城83个商圈开启巡展
IT之家 8 月 22 日消息,鸿蒙智行智界汽车官方今日宣布,享界 S9T 首批展车已陆续进店,今日起至 8 月 30 日将在 52 城 83 个商圈开启巡展。 IT之家附城市及商圈列表如下: 安徽 地点 时间 商圈 合肥 2025 年 8 月 24 日 合肥银泰 in77 2025 年 8 月 24 日 合肥长春街融创茂 芜湖 2025 年 8 月 24 日 芜湖八佰伴 北京 地点 时间 商圈 北京 2025 年 8 月 30 日 五棵松华熙 LIVE 2025 年 8 月 30 日 北京朝阳合生汇 2025 年 8 月 22 日 国瑞城购物中心 2025 年 8 月 30 日 北京顺义华联 2025 年 8 月 30 日 华为旗舰店・北京王府井 重庆 地点 时间 商圈 重庆 2025 年 8 月 24 日 重庆高新天街 2025 年 8 月 24 日 重庆光环购物公园 2025 年 8 月 24 日 重庆龙湖公园天街 2025 年 8 月 30 日 华润万象城 福建 地点 时间 商圈 福州 2025 年 8 月 30 日 福州东二环泰禾广场 厦门 2025 年 8 月 30 日 厦门建发湾悦城 2025 年 8 月 30 日 厦门宝龙一城 泉州 2025 年 8 月 30 日 华为智能生活馆・晋江万达广场 甘肃 地点 时间 商圈 兰州 2025 年 8 月 26 日 兰州万象城 广东 地点 时间 商圈 广州 2025 年 8 月 24 日 广州云门 NewPark 2025 年 8 月 24 日 海珠万达广场 2025 年 8 月 24 日 华为智能生活馆・广州美林天地 深圳 2025 年 8 月 24 日 K11 ECOAST 2025 年 8 月 30 日 宝安海雅缤纷城 2025 年 8 月 24 日 龙华壹方城 2025 年 8 月 30 日 华为智能生活馆・深圳福田星河 COCO park 2025 年 9 月 1 日 华为智能生活馆・深圳龙岗布吉万象汇 2025 年 8 月 24 日 华为智能生活馆・深圳罗湖益田假日广场 2025 年 8 月 24 日 华为旗舰店・深圳华为坂田 G 区 2025 年 8 月 24 日 华为旗舰店・深圳万象天地 佛山 2025 年 8 月 25 日 千灯湖环宇城 2025 年 8 月 25 日 万民金海城 2025 年 8 月 25 日 佛山王府井紫薇港 2025 年 8 月 25 日 中海环宇城 汕头 2025 年 8 月 25 日 F16 购物中心 东莞 2025 年 8 月 24 日 汇一城 2025 年 8 月 24 日 东莞松山湖万象汇 中山 2025 年 8 月 26 日 华为智能生活馆・中山富逸城 惠州 2025 年 8 月 26 日 华为智能生活馆・惠州华贸天地 广西 地点 时间 商圈 南宁 2025 年 8 月 30 日 南宁万象城 贵州 地点 时间 商圈 贵阳 2025 年 8 月 30 日 贵阳万象汇 河北 地点 时间 商圈 石家庄 2025 年 8 月 24 日 裕华万达广场 2025 年 8 月 29 日 北国商城 河南 地点 时间 商圈 郑州 2025 年 8 月 22 日 郑州绿地新田 360 2025 年 8 月 22 日 郑州熙地港 2025 年 8 月 22 日 郑州二七万达 2025 年 8 月 28 日 郑州正弘城 洛阳 2025 年 8 月 24 日 洛阳丹尼斯大卫天地 黑龙江 地点 时间 商圈 哈尔滨 2025 年 8 月 26 日 哈尔滨西城红场 2025 年 8 月 26 日 华润万象汇 湖北 地点 时间 商圈 武汉 2025 年 8 月 29 日 旗舰店・武汉梦时代 2025 年 8 月 22 日 楚河汉街 2025 年 8 月 22 日 华为智能生活馆・光谷步行街 2025 年 8 月 22 日 武昌万象城 湖南 地点 时间 商圈 长沙 2025 年 8 月 30 日 华为智能生活馆・长沙春天百货 2025 年 8 月 23 日 华为智能生活馆・长沙德思勤广场 2025 年 8 月 23 日 华为智能生活馆・长沙溪悦荟 2025 年 8 月 23 日 万象城商圈 江苏 地点 时间 商圈 南京 2025 年 8 月 29 日 华为智能生活馆・南京江南虹悦城 2025 年 8 月 29 日 鸿蒙智行授权用户中心・南京卡子门大街 苏州 2025 年 8 月 24 日 华为智能生活馆・苏州狮山龙湖 2025 年 8 月 24 日 华为智能生活馆・苏州昆山天虹 2025 年 8 月 24 日 华为智能生活馆・苏州大悦城 南通 2025 年 8 月 24 日 华润万象城 徐州 2025 年 8 月 30 日 徐州印象城 宿迁 2025 年 8 月 22 日 华为智能生活馆・宿城吾悦 无锡 2025 年 8 月 24 日 无锡海岸城 2025 年 8 月 24 日 华为授权体验店・江阴万达 常州 2025 年 8 月 24 日 常州武进吾悦 江西 地点 时间 商圈 南昌 2025 年 8 月 24 日 南昌大悦城 辽宁 地点 时间 商圈 沈阳 2025 年 8 月 24 日 沈阳三台子万象汇 大连 2025 年 8 月 30 日 大连高新万达广场 内蒙古 地点 时间 商圈 呼和浩特 2025 年 8 月 22 日 呼和浩特万象城 鄂尔多斯 2025 年 8 月 22 日 鄂尔多斯万达广场 赤峰 2025 年 8 月 27 日 赤峰红山万达广场 宁夏 地点 时间 商圈 银川 2025 年 8 月 26 日 银川金凤万达广场 青海 地点 时间 商圈 西宁 2025 年 8 月 30 日 王府井大象城 山东 地点 时间 商圈 济南 2025 年 8 月 22 日 济南印象城 2025 年 8 月 22 日 济南融创茂 2025 年 8 月 22 日 济南世茂广场 青岛 2025 年 8 月 28 日 青岛融创茂 山西 地点 时间 商圈 太原 2025 年 8 月 24 日 太原吾悦广场 2025 年 8 月 24 日 太原万象城 2025 年 8 月 28 日 太原华宇百花谷 2025 年 8 月 28 日 公园时代城 陕西 地点 时间 商圈 西安 2025 年 8 月 26 日 益田假日世界 2025 年 8 月 29 日 华为智能生活馆・未央国际 2025 年 8 月 26 日 华为智能生活馆・西安宜家荟聚 上海 地点 时间 商圈 上海 2025 年 8 月 30 日 中庚漫游城 2025 年 8 月 24 日 华为智能生活馆・上海松江万达广场 2025 年 8 月 24 日 华为智能生活馆・上海中环广场 2025 年 8 月 30 日 中山公园龙之梦 2025 年 8 月 24 日 华为智能生活馆・上海仲盛世界商城 2025 年 8 月 30 日 华为旗舰店・上海南京东路 四川 地点 时间 商圈 成都 2025 年 8 月 23 日 成都滨江天街 2025 年 8 月 23 日 成都天悦城 2025 年 8 月 23 日 鸿蒙智行超级体验中心・成都深业车城 2025 年 8 月 23 日 成都双流万达广场 2025 年 8 月 23 日 成都环球中心 2025 年 8 月 23 日 成都金牛万达 2025 年 8 月 23 日 合景魔方 天津 地点 时间 商圈 天津 2025 年 8 月 27 日 天津乐堤港 2025 年 8 月 22 日 龙湖天街 云南 地点 时间 商圈 昆明 2025 年 8 月 26 日 鸿蒙智行超级体验中心・昆明万象城 浙江 地点 时间 商圈 杭州 2025 年 8 月 24 日 萧山银泰 2025 年 8 月 24 日 西溪天虹商场 2025 年 8 月 29 日 萧山万象汇 2025 年 8 月 29 日 华为智能生活馆・滨江天街 宁波 2025 年 8 月 24 日 北仑银泰 2025 年 8 月 29 日 东部银泰 2025 年 8 月 29 日 华为授权体验店・奉化万达 温州 2025 年 8 月 25 日 温州万达广场 2025 年 8 月 25 日 华为智能生活馆・温州滨江万象城 台州 2025 年 8 月 25 日 华为授权体验店・万达广场 金华 2025 年 8 月 25 日 华为授权体验店・永康万达 2025 年 8 月 30 日 华为智能生活馆・义乌绿地 IT之家汇总鸿蒙智行享界 S9T 新车已公布亮点信息如下: 外观方面,享界 S9T 沿用家族化设计语言,采用封闭式前脸设计,大灯造型与在售的享界 S9 基本保持一致。此外,享界新车标“寰宇之星”首次上车。从侧面看,新车拥有纯正旅行车的优雅身型,搭配隐藏式门把手和密辐豪华轮圈,尺寸为 5160×2005×1492mm、轴距 3050mm。四款内饰配色命名为赤茶橘、白沙杏、松露棕、琥珀棕。 驾驶配置方面,享界 S9T 首批搭载 HUAWEI ADS 4 系统,配备华为 192 线激光雷达、高精度固态激光雷达以及 4D 毫米波雷达。新车全系满配空气悬架 + 连续可变阻尼减震器 CDC + 双叉臂前悬 + 多连杆后悬 + 华为途灵平台 3.0。 科技配置方面,新车配备全新智慧电动门,拥有副驾屏、智能电子后视镜、B 柱出风口、电动门按钮、电动遮阳帘、全新车标方向盘、双 50W 无线超级快充、压缩机冷暖箱(最低-6℃)、副驾零重力座椅、大五座布局。 动力系统方面,享界 S9T 提供增程和纯电两种选择。增程版车型配备 37kWh 及 53.4kWh 电池包,CLTC 纯电续航里程最长可达 354km,CLTC 综合续航里程最长可达 1305km。纯电版车型则配备 100kWh 电池包,CLTC 综合续航里程最长可达 801km。
翻100倍:原装初代iPod拍卖拍出40264美元创历史新高,苹果2001年首发价399美元
IT之家 8 月 23 日消息,RR Auction 拍卖行宣布以 40,264 美元(IT之家注:现汇率约合 28.9 万元人民币)拍出一台未拆封的初代 iPod(含 25% 买方佣金),超越 2023 年 29,000 美元,创拍卖价格新高。 初代 iPod 由史蒂夫・乔布斯于 2001 年 10 月发布,上市时的售价仅为 399 美元(现汇率约合 2865 元人民币)。 同场拍卖中,还有一台未拆封的 4GB 存储版本初代 iPhone(较常见 8GB 版更稀有)以 81,989 美元(现汇率约合 58.9 万元人民币)成交。该型号 2007 年首发价为 499 美元。 初代 iPod 核心参数: 5GB 硬盘,可容纳超 1000 首 CD 音质歌曲 锂聚合物电池,支持 10 小时连续播放时长 机身尺寸:102×78×19.9 毫米(高 × 宽 × 厚),重 184 克 支持 MP3 / WAV / AIFF 格式,具备 20 分钟防震技术 含背光 LCD 屏、滚轮操控、FireWire 数据线及充电器 当时,苹果刚经历过 90 年代末的财务危机,而 iPod 的推出成功帮助该公司走出困境。 乔布斯在发布会上著名地将其形容为“口袋里装下 1000 首歌曲”,并亲手从自己的口袋里拿出设备展示。他当时表示:“iPod 开创全新数字音乐播放器类别,它能让你把所有音乐收藏放进口袋,随时随地聆听。iPod 将永远改变人们听音乐的方式。”
Siri升级遇阻:苹果正探索与OpenAI、Anthropic及谷歌合作,评估Gemini等第三方模型
IT之家 8 月 23 日消息,彭博社马克・古尔曼刚刚报道称,苹果近期接触谷歌母公司 Alphabet,拟在 Gemini 基础上合作开发定制化 AI 模型,将其作为明年全新 Siri 的基础 AI 引擎。 消息人士称,谷歌 Gemini 已启动苹果服务器的适配工作,或者说谷歌正在训练一款可运行在苹果服务器上的 AI 模型。 除此之外,苹果也曾与 Anthropic 和 OpenAI 就潜在合作进行接洽,评估 Claude 和 ChatGPT 是否能够作为 Siri 的“新大脑”。 消息传出后,谷歌和苹果股价不断走高,周五盘中多次触及高点,目前谷歌上涨 4% 至 207.80 美元,苹果上涨 1.4% 至 227.95 美元。 众所周知,苹果原计划在今年春季推出全新 Siri 升级,但由于工程进度未达预期,该计划被推迟到明年。 古尔曼表示,这一延误导致苹果团队大幅调整:AI 主管 John Giannandrea 被边缘化,项目转由软件负责人 Craig Federighi 与 Vision Pro 负责人 Mike Rockwell 负责。 另外,苹果自研 AI 模型团队近期频繁出现人事波动。今年 7 月,该团队首席架构师庞若鸣跳槽至 Meta,并获得约 2 亿美元(IT之家注:现汇率约合 14.36 亿元人民币)的薪酬方案与高级职位。后续,苹果 AI 团队更多成员相继离开,部分仍在职员工也在考虑跳槽机会。 据称,苹果正在内部同时开发两个版本的新 Siri。目前苹果尚未决定到底是继续使用自研模型,还是与外部伙伴合作: Linwood —— 基于苹果自研模型; Glenwood —— 基于外部技术。 苹果与谷歌虽然在部分领域存在竞争,但双方已保持长期合作关系,例如谷歌曾每年支付数十亿美元以保持其作为苹果设备默认搜索引擎的地位。此次在 AI 领域的合作仍处于探索阶段,并未进入正式商业谈判。
东风集团股份深夜公告:拟私有化为岚图赴港IPO做准备
作者:武凯 8月22日晚间,东风集团股份(00489.HK)发布公告称,子公司岚图汽车将以介绍上市方式登陆港股,东风集团股份将同步完成私有化退市。此前自8月11日起,东风汽车股份停牌至今。 图片来源:时代周报记者摄于武汉 根据公告,本次交易采用“股权分派+吸收合并”的组合模式,两大核心环节互为前提、同步推进。在第一环节,东风集团股份将其持有的岚图汽车79.67%股权按持股比例向全体股东分派,随后岚图汽车以介绍上市方式登陆香港联交所。 在第二环节,东风汽车在境内全资子公司东风汽车集团(武汉)投资有限公司作为吸并主体,向东风集团股份的控股股东东风汽车支付股权对价,向其他小股东支付现金对价,实现对东风集团股份的100%控制。 本次交易总体收购价格为10.85港元/股,其中现金对价6.68港元/股,岚图股权对价4.17港元/股。截至2025年7月31日,东风集团股份总市值为391.2亿港元,收盘价为4.74港元/股。进入8月,公司股价大幅上涨,目前报5.97港元/股,市值492.8亿港元。 此次一退一上堪称“腾笼换鸟”。对此东风集团股份表示:“相比于价值长期被低估的本公司,新上市平台岚图汽车将拥有体现其业绩和潜力的清晰的独立估值,将成为更具吸引力的投资目标。” 公司还表示,受到行业转型阵痛等因素影响,东风集团股份近年来估值表现偏低,股票市值长期远低于净资产。截至2025年7月31日,东风集团股份PB仅为0.25倍。受制于估值情况,东风集团股份上市以来未开展过股本再融资,已基本失去H股上市平台的融资功能。 与东风集团股份的估值偏低表现相比,岚图汽车作为东风自主打造的高端新能源品牌,近年来保持良好发展势头,是东风汽车旗下最具价值和成长性的优质资产之一。 2024年岚图汽车实现交付85697辆,同比增长约70%;2025年以来,岚图汽车更是实现了连续5个月销量破万,7月交付量更是突破12000辆。 岚图汽车本次香港上市后,在进一步拓宽融资渠道、提升品牌形象、拓展国际事业的基础上,有望进一步激发公司价值创造能力,充分释放价值增长潜力。 岚图具体上市日期尚不确定。不过东风集团股份相关负责人对时代周报记者表示,这个周期一般在3-6个月内。“现在是宣布启动(上市)。” 在发布私有化及岚图拟登陆港交所公告的当天,东风集团股份也公布了2025年上半年财报。 上半年东风集团股份营收545.3亿元,去年同期为511.5亿元;归属于母公司权益持有人的利润为0.55亿元,去年同期为6.8亿元。集团上半年销售汽车约82.39万辆,同比下降14.7%。 东风集团股份为东风汽车集团旗下上市乘用车公司。在8月1日,东风汽车集团举行东风奕派科技公司成立发布会。自此,东风汽车集团旗下自主品牌乘用车分为聚焦高端市场的岚图,主流市场的奕派科技,以及越野市场的东风猛士。 在三大自主品牌中,岚图将率先登陆公开资本市场。
苹果用行动支持德州仪器600亿美元晶圆厂项目,实现iPhone关键芯片美国造
IT之家 8 月 23 日消息,据 CNBC 报道,德州仪器(Texas Instruments)位于得州谢尔曼(Sherman)价值 600 亿美元(IT之家注:现汇率约合 4307.75 亿元人民币)的 300mm 晶圆厂正式启用。苹果公司确认将成为该工厂首批客户,生产用于 iPhone 等设备的“关键基础半导体”。 当然,此类芯片并非大家常说的苹果 A / M 系列处理器,而是单价约 0.4 美元的模拟与嵌入式芯片,负责电源管理、传感器信号处理等基础功能。这批 45-130nm 制程芯片虽非尖端产品,但也是 3C 电子不可或缺的重要组件,一台 iPhone 若缺少这些芯片便无法出货。 该工厂系 TI 谢尔曼市四座新建晶圆厂的首期项目,同时也是得州及犹他州共七个新扩建项目的一部分,采用 100% 可再生能源运营,每分钟可循环利用约 1700 加仑工业用水(循环率达 50%)。 2025 年 8 月,美国总统特朗普宣布对海外生产的芯片征收 100% 关税。同日,苹果 CEO 蒂姆・库克将公司未来四年在美投资承诺从 2 月份提出的 5000 亿美元提升至 6000 亿美元(现汇率约合 4.31 万亿元人民币)。 库克表示,其中一部分资金将直接投入德州仪器位于谢尔曼、理查森(Richardson)及犹他州利哈伊(Lehi)的工厂。通过助力美国本土制造业,苹果既可避免高额关税,也能确保供应链更加稳定。
B站学会闷声赚钱了
作者|商业消费主笔 黄青春 题图|视觉中国 缓了三个月,B 站总算企稳了经营节奏。 8 月 21 日,B 站向市场递上 2025Q2 财报,盈利成季度最大亮点,再次实现预期反转——原本,B 站 2025Q1 因为再度掉入亏损泥潭(净亏损 1070 万元)而遭受市场质疑;但 2025Q2 营收同比增长 20% 达 73.4 亿元,盈利一改颓势、跑出陡峭的上扬曲线——净利润与调整后净利润均创历史新高,分别为 2.2 亿元、5.6 亿元。 与此同时,B 站的社区粘性也更具包容性——经历 2025Q1 季度 MAU 环比净增 2800 万的爬升高峰后,2025Q2 季度 MAU 同比提升 8% 达 3.63 亿,仅环比流失 500 万,证明 B 站运营效率与粘性得到了进一步提升。 说白了,学会闷声赚钱的 B 站在保持游戏、广告持续高增速前提下,难能可贵平衡好了商业变现与用户口碑的撕扯,迈入了“健康盈利”的轨道。 年轻红利开始兑现 缓缓铺开 B 站 2025Q2 财报,增值服务、广告、游戏和 IP 衍生品及其他业务收入占比分别为 39%、33%、22%、6%——相较上一季度,游戏占比略微下降 3%,但广告占比小幅拉升 4%。 毋庸置疑,增值服务依然是 B 站泵血的核心支柱,2025Q2 收入同比增长 11% 达 28.4 亿元;其中,直播与大会员订阅基本与上季度持平,环比增加 20 万达 2370 万,超 80% 为年度订阅或自动续费用户。 虎嗅认为,这主要得益于年轻一代消费理念与偏好重塑了消费模式——00 后、05 后自出生就生活在会员经济时代,他们早已习惯通过会员去追综艺、看动画,为内容付费意愿强烈,甚至将付费服务当作一种生活方式。 一个有趣的切面是,2025 年上半年,B 站用户平均年龄提升至 26 岁,但新增用户平均年龄仅为 22 岁;截至 6 月 30 日,B 站通过入站考试的“正式会员”同比增长 11% 增至 2.7 亿。 对此,B 站董事长兼 CEO 陈睿的判断是,“今年 B 站用户平均年龄达到 26 岁,这意味着:第一可支配收入变高;第二消费场景除了精神文化,也会有更多生活消费场景。” 这一判断,从季度表现硬气的广告业务得到了验证——2025Q2 同比增长 20% 达 24.5 亿元;其中,效果广告实现近 30% 的同比增长。 若聚焦到垂类预算消耗,B 站 2025Q2 前五大广告行业出现了一些细微变化,排序更新为游戏、数码家电、电商、网服、汽车;游戏作为 B 站内容基本盘,主要是小游戏、游戏直播等场景带来了较多新的增量。 值得一提的是,2025Q2 站内家用电器品类的播放时长同比增长 14%,在国补和 618 的推动下,小家电数码广告收入同比增长超 70%——说明这波国补红利释放“雨露均沾”,连 B 站都吃到了“肉”。 虎嗅了解到,今年 618 期间 B 站整体 GMV 增长 33%,客户数量增长 60%,带货 GMV 超过 1000 万的 UP 主数量增长超过 60%。 2025 年下半年,B 站广告会在两方面发力:一方面,产品技术上继续深入多端多场景贯通,包括但不限于 PC 端、OTT 端,包括日常直播搜索场景、热门搜索等;二季度,AI 生成的封面占比已接近30%;另一方面,AI 智能投放,尝试推出自动化的广告投放产品,降低客户成本并提升跑量能力。 与之对应,B 站会持续迭代推荐算法,通过分析用户兴趣进行广告的精准推荐;在 AIGC 的广告工具上,帮助广告主批量化生成更B站的广告封面、标题,甚至部分内容。 对此,B 站 COO 李旎进一步解释称,广告的基建产品跟技术提效提升了用户价值和流量价值。具体有三点: 一是,强化种草转化的整合、投放能力,二季度超 50% 的 UP 主通过花火投放带来显著转化; 二是,加强整合数据的基建能力,通过多模态大模型的能力,大幅提高广告分发效率; 三是,重视深度转化能力,季度内深转比例较去年同期提升一倍,带动本季度广告 eCPM 明显提升。 当然,直至今日仍有不少人喜欢拿贴片广告说事儿——11 年前,陈睿在微博公开表态:“B 站永不加视频贴片广告”,这句话后来被反复引用,外界将其视作 B 站与用户之间的重要“契约”。 从近几年 B 站的发展来看,当初陈睿面向社区的承诺已然成为产品心智的一部分,即便贴片可以短暂提振商业收入,但其对社区与内容生态会造成长期而不可逆的破坏——所以,贴片广告之于 B 站,已然成为一种得不偿失的“冒险”。 《三谋》正值壮年 坦白说,自 B 站 2018 年上市至今,无论主动还是被动都花了老鼻子劲去弱化游戏“依赖”,但 B 站的“壳”是年轻社区,“内核”至今仍是游戏:2025Q2 游戏业务同比增长 60% 达 16.1 亿元,连续四个季度保持高双位数的同比增速。 虎嗅认为,游戏业务的亮眼表现主要归结为两个方面: 一方面,《FGO》《碧蓝航线》等长青游戏贡献收入稳中有增,主要得益于 5 月《碧蓝航线》八周年庆及《命运-冠位指定》九周年预热跻身畅销榜 TOP5 带来的人气返场; 另一方面,《三国:谋定天下》(简称《三谋》)季度内有大版本更新,并开启了新赛季。具体来看,《三谋》一周年庆期间游戏 DAU 创年内新高,团队还在 S8 赛季验证了皮肤+抽卡的运营模式。 考虑到《三谋》年底上线中国港澳台地区,明年上线日韩市场所带动的市场声量,B 站游戏业务接下来几个季度的表现都不会太难看。 毫不夸张地说,正值壮年的《三谋》扛起 B 站游戏业务连续四个季度跑出陡峭增速(分别同比增长 84%、79%、76%、60%)后,还能兜住市场对 B 站游戏业务未来 2-3 年的预期。 受益于此,2025Q2 季度 B 站毛利润同比增长 46%,毛利率连续 12 个季度环比提升,由去年同期的 29.9% 提升至本季度的 36.5%。 当然,陈睿在财报电话会上的表态更为乐观,其对《三谋》长线运营的最低要求是 5 年。“我跟项目团队每次开会对齐最多的是用户活跃和留存,对《三谋》要求至少五年的稳健生命周期,原话是‘要做一款能让用户玩到老的游戏’。” 此外,陈睿还在财报电话会上透露,除了独代端游《逃离鸭科夫》、二次元手游《诡计 RE:VIVE》以及年底将上线的一款休闲卡牌手游外,B 站还有 4-5 款游戏在等版号,手上有充足的产品线储备。 更重要的是,作为国内最大的游戏视频社区,B 站已然成为游戏厂商的“必争之地”。 2025Q2 季度 B 站游戏内容的播放时长同比提升 21%;其中,6 月任天堂官方选择 B 站作为独家视频平台,并邀请 100 多位 UP 主首发体验 NS2;7 月上旬,小岛秀夫首次中国行与 B 站独家合作,将 BW 作为首秀现场;除此以外,《归唐》《战地6》《归环》《穿越火线:虹》等产品均选择 B 站作为 PV 首发现场。 “小破站”时代终结 2025Q2 难能可贵的点还在于,B 站商业化效率提升一并带动社区规模与活力的提升。 2025Q2 季度 DAU(日活跃用户数)同比增长 7% 达 1.09 亿,创历史新高;MAU(月均活跃用户数)同比增长 8% 达 3.63 亿,环比流失 500 万;DAU/MAU 环比提升至 30%,依旧保持着较高的社区粘性。 或许有读者会诧异,为何 B 站单季度 MAU 环比流失 500 万仍被视作乐观的信号? 因为要在 2025Q1 环比净增 2800 万的基础上稳住新增用户并非易事。以 Sensor Tower 数据为例,除了小红书、抖音超高增长外,B 站是为数不多仍能保持正增长的社交平台。 至于内容消费,2025Q2 特色内容品类保持增长;其中,动漫二次元内容播放时长同比增长 25%,两个切面颇具说服力:一是,《灵笼》第二季回归后,播放量超 3.3 亿,系列追番人数超过 1100 万;二是,Bilibili World 吸引了来自 20 多个国家及地区,线下参展人数达到创纪录的 40 万人次,无论规模还是影响力都是中国最大的 ACG 聚会。 于是,在内容消费带动下,2025Q2 季度 B 站日均使用时长达 105 分钟,同比增长 6 分钟,环比减少 3 分钟——讲道理,B 站能将 Q1 春晚效应消退带来的用户时长“摇摆”控制在 3 分钟属实难得,抖音、快手、小红书谁敢拍着胸脯做到这份上? 对此,陈睿在财报电话会上坦言,“今年平台 DAU、MAU 保持增长得益于两点,做好优质内容和做好社区氛围——过去 16 年,我们一直在努力把它们做到极致,因为当前互联网信息已经过载了,用户不缺内容供给,反而优质内容与好的社区氛围更稀缺。” 顺着这个逻辑,优质内容与好的社区氛围完全可以相互成全:优质内容会吸引更懂内容和更热爱内容的用户互动,从而衍生出更高质量的 UGC——无论评论、弹幕还是二创都能正向激励创作者,从而给创作者更多创作灵感。 事实上,作为一个横跨 UGC、PGC、PUGC 三种内容生产方式的平台,眼下 B 站不再囿于昔日“小破站”的社区禁锢,反而长成了一个泛生活、科技、二次元的内容平台——无论在动漫、游戏、知识,还是生活、娱乐、兴趣上面,高质量 PUGC 内容已经形成用户心智,这个心智会推动用户在社区消费更多高质量内容,从而一路向着精神消费延展。 与之对应,2025Q2 季度 B 站成本同比增长 9% 达 46.6 亿元;其中,收入分成成本(营业成本的重要组成部分)同比增长 19% 达 29.7 亿元,与 B 站的营业收入增速一致。 值得玩味的是,8 月初,小红书高调包下一座“痛岛”为二次元造势, 虽然小红书与 B 站短期并不存在直接竞争,但小红书却提前卡位了二次元泛化的生活入口——这原本是 B 站中长期希望通过破圈渗透的方向。 不过,陈睿对 B 站有足够的信心,尤其 AI 浪潮正从三个方面潜移默化影响着整个社区: 一是,AI 会放大 B 站的优质内容优势。B 站每天长评论超过 100 万条,相当于每天有 100 万人去标注优质的内容数据——这种 AI 理解视频内容、语料积累是中文网络独一份,B 站已经搭建团队去挖掘这些长评论与优质内容间互动的关系,其所产生的价值很快会加入平台对优质内容的判断。 二是,AI 辅助 UP 主创作中长视频。当下,文生视频大模型只能去做素材,即便做出长视频也有 AI 味;但 B 站聚集了一批优秀的 PUGC 作者,按照他们的作品去训练 AI 不会有 AI 味,这种 AI 辅助创作技术能极大提升 UP 主的创作效率。 三是,AI 向动漫及虚拟 UP 主领域渗透。可以让 AI 来实现动漫的辅助创作,以及虚拟 UP 主的情感陪伴,这一块 B 站内部正在做小规模内测,效果很好。
扎克伯格,也顶不住了
作者|芯芯 编辑|靖宇 在今年的 AI 竞赛中,Meta 可以说是那个突然把油门踩到底,疯狂想赶超对手的玩家:招人猛、给钱狠、组织结构三番五次推倒重来。 直到今年 8 月中旬,Meta 这家巨头又突然刹车,AI 部门「冻结招聘」。不仅暂停对外扩编,连内部 AI 人员也被明令不得随意在团队间流动,除非得到批准。 Meta 官方口径叫「基础性的组织规划」,语气轻描淡写:预算季结束,先把「超级智能实验室」新的组织架构定型,再谈下一步。 究其原因,在资本市场,华尔街分析师已经就科技巨头的 AI 支出发起警告。 过去数月,Meta 为抢人开出的薪酬与股权包一路飙升,投资者开始追问:这些天价换来的,是可验证的技术进展,还是无止尽的摊薄与成本扩张? 与此同时,业内不少人也在质疑,Meta 高薪挖来各种顶尖 AI 人才,是否会加剧内斗,比如一些老员工对新来的「明星科学家」并不买账,此前 Meta 不同 AI 团队间曾因计算资源分配、技术路线理念不和频起摩擦,部分员工被边缘化导致士气低落,有的员工甚至选择离职创业等等。 当下,Meta 的 AI 人才争夺战,已经打到了临界点,无论是华尔街还是硅谷,都在盯着 Meta,是否真能靠这些人拿出成果。 01 Meta AI 大换血 2025 年上半年,Meta 在 AI 人才战里的打法可以用三个字概括:快、狠、贵。 无论是 OpenAI,还是谷歌 DeepMind、Anthropic、苹果的 AI 人才,被 Meta 接触时有时不是「猎头-HR-面试」的传统流程,而是扎克伯格本人直接通过邮件或 WhatsApp 发消息,直接走 CEO 的绿色通道,快速签约。 在 Meta 这儿,天价薪酬「大包」也是见怪不怪,签约金以亿美元计,一些 AI 研究人员获得四年 3 亿美元的超级薪酬包,个别顶级人选的天花板级报价据传高达 15 亿美元,均堪比职业球星。而且,这些被挖角的人里,有不少都是华人面孔。 扎克伯克与 Alexandr Wang、Shengjia Zhao|图片来源:Meta 除了传统招聘,Meta 还采用「反向收购式挖人(reverse acquihire)」方法:与传统 acquihire 的整合式收购不同,不是直接收购整个初创公司,而是直接挖走核心关键人才,初创公司继续存在但可能萎缩。 Meta 为引入 Scale AI 联合创始人 Alexandr Wang 担任首席 AI 官,付出了约 140 亿美元的少数股权投资。除此之外,Meta 还通过向由 Nat Friedman 与 Daniel Gross 主理的基金注资,把这两人纳入麾下,前者曾任 GitHub CEO,后者曾于 2024 年与 OpenAI 联合创始人 Ilya Sutskever 创办 Safe Superintelligence。 就这样,到 2025 年中,Meta 已经打包吸纳了至少 50 名来自竞争对手的 AI 人才,其中四成来自 OpenAI,两成来自谷歌。 业内看得目瞪口呆,OpenAI 的管理层公开吐槽 Meta「疯狂」,形容被 Meta 挖人就像「有人闯入我们家偷了东西一样」。 Alexandr Wang 公布的 Meta 超级智能实验室人才|图片来源:X 然而,一次性疯狂吸纳「新血」也有问题。硅谷不少工程师有一个看法,Meta 疯狂招人相当于一次性把几十位 A 级球员装进同一个更衣室,「位置」与「打法」的冲突可能很难避免。 经过半年内的数次重组变化,据华尔街日报消息,Meta 最近决定将不同 AI 业务一并纳入「Meta Superintelligence Labs」,分为四个部门: 面向 AGI 的研究团队(内部暂名 TBD Lab),新员工主要在这个团队工作; AI 产品团队; 构建训练与推理底座的基础设施团队; 继续承担长期探索任务的 FAIR。 Meta 发言人对外则将冻结招聘解释为「基本的组织规划:在招募人员并进行年度预算和规划工作后,为我们新的超级智能工作创建一个坚实的结构。」 还有消息称,由于 Meta 人工智能部门近年来人员增长至数千人,该巨头正在考虑整体缩减规模。 Meta 过去负责 Llama 系列的大模型团队「AGI Foundations」被解散,有成员打算离职。因为今年春季发布的 Llama 表现不及预期,不仅在内部受到了尖锐批评,在更广泛的社区口碑也趋于平淡。另一款代号 Behemoth 的前沿模型在测试中成绩不理想,被直接砍线。 与此同时,Meta AI 之前的研究负责人 Joelle Pineau 今年早些时候离职加入 Cohere,Llama 项目研究员 Angela Fan 选择转投 OpenAI,Meta 生成式 AI 副总裁 Loredana Crisan 则跳槽到 Figma 出任首席设计官。再加上 8 月部分期权归属窗口期,Meta 可以说迎来了「旧部出走,新人入列」的换血期。 在这个时间点看起来,疯狂招人又突然冻结招聘,对 Meta 来说并不矛盾,在继续加人之前,先得避免内外部越来越大的「噪声」。 02 华尔街的警告 对 Meta 来说,内部「噪声」是团队稳定性,外部「噪声」则是资本市场的压力。 扎克伯格狂撒钱挖人一时爽,最终还是要面对报表。当 Meta 的 AI 投资成本快速上涨,华尔街开始担忧,这些钱,何时、以何种形式回流? 最新一轮的市场反馈并不轻松。今年 8 月,摩根士丹利分析师在研究报告里称,包括 Meta 在内的科技巨头,向 AI 人才发放的股权规模正在膨胀,如果最终成果无法在合理时点转化为可计量的现金流,这种做法将侵蚀回购能力、压缩股东回报。 在他们看来,在挖 AI 人才方面投入巨资「有可能推动 AI 突破,创造巨大的价值,也有可能稀释股东价值,且不会带来任何明显的创新收益」。 扎克伯格在 Meta Connect 大会上|图片来源:Meta 与此同时,硅谷科技巨头的股价正经历一波「AI 开支焦虑」的集体回调,不是说唱衰 AI,而是对「投入产出比」的担忧,就像投资了几千亿美元,如果最终收入只有几百亿美元,冰冷的市场就不会买账。 2025 年 8 月 20 日前后,一些科技股遭抛售,包括 Meta 在内的公司股价连跌几天。虽说因素不是单一的,但市场关注到几个可能的「罪魁祸首」,包括 OpenAI 首席执行官 Sam Altman 最近的评论,他认为 AI 热潮具有一些类似泡沫的特征。 Meta 自身的数字也说明问题:该巨头把 2025 年资本开支指引上调至最高 720 亿美元,这些花费的核心去向是「AI 基建」以及「人才」。数据中心在建,GPU 在路上,团队在扩编,利润端自然被压。 面对投资者冷冰冰的质疑,Meta 暂时「冻结 AI 人才招聘」的动作,除了真的是为了巩固内部 AI 组织架构,另一方面,也成了向市场发出「控制成本」的信号。 但因冻结 AI 招聘一事引来的各种声音,如今身为 Meta 首席 AI 官的 Alexandr Wang 坚称,「我们确实在加大对 Meta 超级智能实验室的投入。任何与此相反的报道显然是错误的。」 Alexandr Wang 称 Meta 仍在加大超级智能实验室的投入|图片来源:X 扎克伯格豪掷重金挖来这些 AI 人才,赌的是超级智能的未来。至于这个赌注是否能带来实质性成果,是决定 Meta 命运的关键。 如果答案是肯定的,那么眼下的「刹车」将被历史视为战略性的换挡,华尔街的焦虑也将随之平息;反之,若这一年的投入最终换来的是平庸的成绩单,那么冻结招聘可能只会被看作一次无序冲刺后的力竭,暴露出 Meta 组织在方向与节奏上的失控。 接下来的每一个月,都将成为答案的一部分。
火狐Firefox142浏览器上线支持PWA
IT之家 8 月 23 日消息,科技媒体 NeoWin 昨日(8 月 22 日)发布博文,报道称在 Windows 10、Windows 11 版火狐 Firefox 142 浏览器中,Mozilla 推出实验性 Progressive Web Apps(PWA)功能,支持用户将网站固定到任务栏并在精简窗口中运行。 IT之家援引博文介绍,火狐 Firefox 浏览器对 PWA 功能的支持颇为波折。Mozilla 早在 Firefox 73 的 Nightly 版本中,就出现过名为 Site-Specific Browsers(SSB)的实验实现,但由于存在多个已知缺陷且维护成本高,Mozilla 在 2021 年初将其移除。 Mozilla 于今年 3 月发布的 Firefox Nightly 141 重新引入了这一理念,并改名为“Taskbar Tabs”,与 Chrome 的原生 PWA 不同,为确保用户熟悉的使用体验,新版本保留了完整的浏览器界面。 用户如果要开启该功能,需确保所使用的并非微软商店的 MSIX 打包版 Firefox,然后进入 about:preferences#experimental 的 Labs 页面,勾选“Add sites to your taskbar”选项即可。 用户之后在浏览网页时,可点击地址栏右侧的“添加到任务栏”图标,固定当前站点,并通过提示确认。启动时,会以简化窗口打开该站点。 如果设置中找不到 Labs 选项,可能是关闭了数据收集或“安装并运行研究”功能。可以在“隐私与安全”中打开这两项,或直接在 about:config 搜索 browser.taskbarTabs.enabled,并将值设为 true 来手动启用。该功能目前尚不支持隐私浏览模式。
蔡浩宇的疯狂实验,跟游戏没啥关系?
“这个游戏的画面很精美,但是落脚点都在跟女宇航员聊天这件事上。”在体验了这款游戏demo后,游戏/AI陪伴从业者倪森这样评价道。 倪森点评的是近期在Steam上线的AI对话游戏《星之低语》(Whispers from the Star),这款第一人称对话游戏需要玩家通过远程通讯,拯救流落外星球的女主Stella。据了解,《星之低语》是米哈游创始人蔡浩宇的创业项目,其制作方是蔡浩宇主导的新公司Anuttacon。相比起传统AI社交的卡片人式对话形式,《星之低语》进行了一场AI在游戏玩法应用的实验,在虚幻5引擎画面加持下,将虚拟人对话搬到了一个科幻外星剧情框架中。 事实上,“和AI对话”是这款游戏的唯一玩法,这样看起来略显枯燥的交互模式,首发评价获得了86%好评。不过,目前评价的用户体量并不大,也有用户表示并不买账,给出了这样的评价:“‘跟AI聊天’的比重太大,而故事向的内容太少”,甚至有玩家直接称其为“Character AI”套壳。此外,这款游戏目前仅支持英文交互,打消了一些国内玩家的热情。 “Character AI”套壳的评价,似乎是在说《星之低语》相比游戏,更像是AI社交的pro版。而说起AI社交,过去两年中,这个新兴领域经历了一波快速增长期,角色扮演、恋爱陪伴平台如雨后春笋般涌现,不过,随着时间来到2025年,一丝“横盘”的气息在AI社交/陪伴圈弥漫。 根据Business for Apps的数据,Character AI的月活在2025年1月约2000万,较24年年中有数百万量级的缩减。而在国内,星野/猫箱等产品都传出资源收缩的传闻,上半年投放和新增下载量出现下滑,国内市场迟迟未出现稳定百万级DAU的头部产品。 用户增长乏力和产品运营ROI困境下,AI对话的娱乐向产品亟需一个新业态的出现,随着Anuttacon等游戏厂商的加入,套上了游戏壳的AI对话/陪伴,难道要迎来2.0时代了吗? 在Steam商店页面,游戏宣传文案中这样写道:“Your words are her only lifeline(你的话,是她唯一的生命线)”。 “lifeline”这个词的出现颇有致敬的意味,把时间拨回10年前,有一款名叫《Lifeline》(生命线)的游戏有着类似的剧情设定和玩法,玩家被设定意外连上了一位迷失在宇宙中的宇航员,通过文字交流帮助其做出选择。只不过,《生命线》是预设好的小说向文案脚本,玩家是在预设好的选项中做出选择。而在《星之低语》中,得益于大模型的驱动,玩家和女主Stella的交互是完全自由的形态。 “感觉是在《生命线》的基础上,然后把对面换成了一个AI语言模型,并且针对对话部分做了非常精细的(预料)标注,也行了针对性的训练。”倪森看到《星之低语》的第一眼也想到了《生命线》,但他同时表示,《星之低语》的AI对话交互体验十分出色,“AI女主”语言表达流畅,针对用户输出的一些复杂信息也能准确解析。“作为AI原生游戏的第一步,还是有一定价值的。” 不过,对于在AIGC和游戏行业均有从业经验的倪森而言,这款游戏更多是在AI对话模型上“堆料”,但在游戏性上的挖掘就微乎其微。虽然在情节设计上有一套剧情结构支持,引导用户进行到下一个章节,但是关于这些游戏内容的呈现都相对简单。“以游戏的标准,严格来说,这甚至不能算一个半成品,只能说是一个demo。” 和十年前的《生命线》类似,《星之低语》的操作就只有“说话”这一个选项,只不过从预设的选项变成了玩家自由发挥。没有了预设的选项树,玩家与宇航员Stella的每一句对谈都实时影响她的行动与剧情走向,高自由度的设定下,很多玩家并不会单纯停留在通关任务的目标上。不过,在实际体验中,一旦玩家和闲聊了好多轮,Stella会对玩家“生气”并将对话拐回剧情主线上。对此,倪森认为,高自由度下的剧情结构,有可能成为影响玩家体验的负向因素。 “从松野泰己(日本知名游戏设计师)那一代游戏制作人开始,他们在游戏策划案阶段,就会规划好玩家的理想通关时间。”倪森表示,传统游戏行业中,游戏策划/设计师就像是一个舞台的搭建者,从而确保玩家适当的时间和流程中,获得最优的游戏体验。而当这个流程推动的机制要交予AI去判断,在一定程度上将影响其游戏性和叙事性。“相比起游戏,确实更像是一个套了多模态的Character AI。” “像Character AI”是《星之低语》社群中出现频率比较高的表述,由于这款游戏目前主要是海外玩家(最早在美国区试跑,且需要英文对话),玩家们更多联想到的是Character AI而非国内用户熟知的星野/猫箱。由于缺少游戏层面的其他玩法,导致在体验上,《星之低语》像是一个虚幻5版本的大型AI陪伴产品,只不过带有游戏层面的剧情章节结构,有一定的目标/奖励机制。 “这个游戏的受众,可能更多是喜欢AI社交1.0的那一拨人,或者有情感陪伴需求的用户。”在倪森眼中,《星之低语》的受众画像可能和AI陪伴类产品有一定重合。不过他也表示,在传统游戏玩家群体中,符合上述画像的群体可能还是少数,而且这款游戏只有英文版,在国内用户的覆盖面只会更低。 针对《星之低语》的对话能力建设,官方并未透露出太多信息,但在B站《星之低语》的游戏实况视频下,BosonAI联合创始人李沐现身并评论道:“创业后接的第一个项目。为她手标了很多数据。”显然,在模型策略层面,《星之低语》进行了大量语料微调,并且需要针对对话的边界设置诸多底层逻辑,确保整体对话效果不会太“跑偏”。 就首周口碑看,《星之低语》还是收获了超85%的好评,但同样有一些差评集中在“流程偏短、纯聊天无聊、记忆不稳等问题上”。在倪森看来,蔡浩宇团队做出这款“大型AI对话demo”,更像是技术应用层面的“探路”,而非打磨出一个新的产品形态。“他们可能是想展示一下在AI对话方面的成果,然后用游戏工业的包装了一下。” 上线第一周,在“好不好玩”之外,《星之低语》的用户条款权限也引发了新的争议:许多玩家在Steam讨论区引用了开发方隐私政策中“Chat Data(聊天通信与相关记录)”与“Voice Data(语音录音)”两类数据会被收集处理的情况。这些条款的存在,意味着玩家在游戏中通过麦克风说的所有话,都有可能成为模型的训练语料。这导致玩家社区内涌现出一些“不买账”的声音。 熊伟是一名“骨灰级”游戏玩家,他的Steam游戏库中有数百个已经通关的游戏,在体验了《星之低语》后,对于收集用户对话信息的行为,熊伟也表达了“不买账”的态度。 “这是一个AI驱动、宣称自由开放交互的游戏,用户难免会说一些‘不安全’的内容。”熊伟解释了他“不爽”的原因,虽然记录用户行为数据在游戏行业司空见惯,但行为数据并不代表玩家本身的观点/价值。但在AI驱动下的《星之低语》中,玩家的发言都是实时“创造”的,这些对话数据一定程度上代表了玩家本身。出于好奇,很多用户会试探模型的能力边界,进而留下一些“不安全”的对话内容。对于熊伟等玩家而言,这样的内容不应该被“泄露”给平台方。 “采集了我的对话数据这件事,让我感觉玩游戏的时候在被监视。”熊伟坦言道。 然而,在AI社交/陪伴领域,这样的情况并不稀奇,在近两年的头部AI对话/陪伴产品里,把“用户内容可用于改进服务(包括训练模型)”写进隐私政策并不罕见。Character AI的隐私政策就明确列出会收集聊天内容、语音(若你使用语音功能)等,并用于产品改进等用途,事实上,绝大部分AI对话产品都有着类似的协议。但是,和AI社交产品的免费体验门槛不同,Steam等平台上大都是需要付费买断的游戏,那些花了真金白银买断的玩家,自然也会更在乎体验游戏过程中的“安全性”。 在传统游戏领域,玩家抵制AI技术直接介入游戏体验的情况,已经不是第一次出现。去年年底,日本厂商卡普空推出了《丧尸围城:豪华复刻版》,游戏中利用AI对一些场景贴图做了高清化处理,由于AI多模态技术是“凭空”生成的像素,让很多贴图出现了信息错误,或者导致部分游戏场景比例不协调。在一些玩家看来,简单粗暴的用AI代替某些游戏工业流程,是一种“偷工减料”。 另一方面,尽管《星之低语》背后的游戏工业部分并不复杂,但其在AI对话能力上却有着一整套模型工业链路,先是对用户输入的语音识别(ASR),然后再交由大模型进行推理(LLM),生成反馈信息后,还要进行语音合成/表情驱动(TTS/面部动画)。相比起传统的AI陪伴产品,看似交互逻辑差不多的《星之低语》,背后可能有着指数级增长的工程量。 此外,受制于大模型的特性和资源需求,《星之低语》游戏只能在云端进行实时推理,这导致可能会出现延迟等问题,在实机体验中,熊伟就留意到了这个情况。“我玩的时候有点音画不同步,应该是网络的问题,能感受到上传到云端带来的延迟。” 不过,相比起某些厂商的“偷工减料”行为,《星之低语》已经算是AI能力上经过反复打磨的。除了Anuttacon,业内已经有一批厂商在打磨一些小的AI玩法。在今年年初的CES2025上,国产厂商上海钛核展示了新作《动物朋克》的demo,其中就展示不少最新的AI玩法,比如,主角在游戏内的屏幕上简单地涂画了几笔后,就自动生成一艘飞船的造型。 此外,《动物朋克》大多数的交互都将会使用语音输入的方式来实现,而在实时对话效果背后,同样是由大语言模型驱动的AI NPC。不过,和《星之低语》的AI推理环节全部在云端不同,《动物朋克》是在本地的显卡进行运算处理后再生成文本、语音、以及控制NPC的表情指令等内容,并实时反馈给玩家。 一直有在关注游戏行业的熊伟,并不排斥AI赋能的游戏玩法的变化,这也是驱使他体验《星之低语》的原因。“我就想知道他下面的冒险是什么吗?我想看看接下来的场景,或者说看看这个故事到底能怎么发展。”谈及《星之低语》的游戏体验,熊伟表示,AI对话这种交互模式还是给他带来一定的新鲜感,不过他也坦言,没有中文版的情况下,国内玩家很难获得沉浸式的体验。 陈思芸曾就职于欧洲某游戏硬件厂商,也是一名资深游戏爱好者,从未接触过AI对话/陪伴类产品的她,在体验了30分钟的《星之低语》后,选择了将游戏退款。“这就是一个AI聊天功能,找ChatGPT也差不多,ChatGPT还不需要专门花钱。” “在刚进入游戏时感觉还不错,我以为后面会是一个游戏正常情节的发展。”解释起玩不下去的原因,陈思芸表示,随着游戏进程的推进,她逐渐感觉到了一些“不对劲”,比如当主角Stella离开镜头时,游戏画面并不会随之跟上。“这不是一个游戏该有的互动,作为游戏至少场景要能变化吧。” 陈思芸的反应也是大多数“传统派”游戏玩家的想法,《星之低语》虽然有精美的CG动画,但游戏中的大部分交互,都只能在一个静态场景下和主角“聊天”。 “以目前的技术来看,AI完全替代人工去推动主线剧情还是很难。”谈及《星之低语》的核心玩法能否在主流游戏中应用,倪森表示,像《GTA》系列中随机生成地图的NPC,用AI替代是完全没有问题的,因为和这些NPC的对话并不会影响游戏主线。但对于很多3A大作而言,一个严密的剧本流程是决定玩家体验的基础,厂商不太可能放任AI去推动主要剧情。 倪森提到的“AI NPC”模式,近年来在游戏领域已经不断涌现,随着近年来AI对话能力的迭代,业内已经陆续拿出一些demo方案,并在部分游戏功能上得以应用。 早在2023年11月,Xbox就宣布与Inworld正式合作,引入一系列开发工具,允许开发者为游戏创建基于AI的NPC;在2024年GDC(游戏开发者大会)上,育碧公开了NEO NPC原型,主打“无脚本、可控人格”的实时对话;而在国内,网易/腾讯等都已推出AI NPC,在和平精英/逆水寒等主流游戏上广泛应用。这些功能更多是作为AI NPC对游戏交互的补充,此时回过头再看《星之低语》选择将“和AI对话”成为了游戏的核心玩法,实验的意味就更加浓厚。 另一方面,AI带来的降本增效优势,似乎在任何一个商业领域都无法抵挡。根据前V社顾问Ichiro Lambe发布调研,目前Steam上使用生成式AI的游戏数量约占Steam游戏库总数的7%,由于相应数据由开发商主动披露,平台上实际应用了生成式AI的游戏只会更多。而在2025年的新发行游戏中,应用了AI技术的游戏高达20%,较去年增加8倍。 对于游戏行业该如何拥抱AI,行业内的各方观点也争议不断。知名游戏制作人小岛秀夫在今年早些时候表示,以《死亡搁浅2》开发为例,其团队已运用AI完成30%的环境概念设计,但他同时强调“核心叙事与角色灵魂永远需要人类温度”。 “如果你把游戏当成艺术的延伸的话,游戏的艺术性跟目前大模型能力的介入其实上是有些矛盾的。”作为AI和游戏双栖从业者,倪森道出了业内人士的纠结。他表示,AI技术的变革应该给游戏行业更多的想象,目前《星之低语》的形态,并不算游戏和AI的深度耦合。 事实上,在AI厂商的实验室里,更深度的耦合已经初现雏形。去年以来,一些交互式游戏世界生成技术相继面世,谷歌DeepMind旗下的Genie 3,腾讯Hunyuan-GameCraft都属于这一类型,这些模型有望在引擎层面实现动态场景生成。不过,这类模型的生成稳定性还未到工业级的水平,离进入游戏管线还有一段距离。 荣获TGA年度游戏《博德之门3》的总监Swen Vincke,曾这样表达过他对AI的看法:“我对AI的态度非常直接,它是我们用来帮助更快完成工作的工具。”但他同时也表示“我认为AI缺乏创造性,我们需要把钱花在刀刃上。” Swen Vincke自然是有理由评价“AI缺乏创造性”,因为《博德之门3》包含了海量的交互信息,而这些全部是制作组“手搓”而成,游戏拥有超过174个小时的过场动画,还有超过1.7万种不同的结局。维基百科显示,《博德之门3》所有角色不论是主角或配角都有完整配音和动作捕捉,动作捕捉的工作量大约相当于150万字的文本。 另一边,在《星之低语》的玩家社区,关于AI对话+游戏的讨论仍在继续,但也不乏像陈思芸这样已经退款的玩家。 “游戏中有一个成就在一开始就能获得,我留意了一下这个成就只有50%的人达成,这意味着可能有50%的玩家连15分钟都没玩到。”打开《星之低语》的成就系统,陈思芸发现像她一样体验了一下就放弃的玩家并不在少数。这也印证了上文得出的结论,对于单纯和AI聊天这件事,在当下的游戏圈,还是稍微小众了点。 然而,小众归小众,《星之低语》仍然在Steam社区收获了超过600个好评,蔡浩宇激进的AI游戏实验,终究是走出了在游戏圈投石问路的第一步。 在《星之低语》的Steam评论区中,一位名为Coaldrone的玩家这样评价道:“我相信未来的几个月乃至几年里,我们会看到无数‘星之低语’式的AI对话游戏克隆作,但作为先行者,它算得上是探索AI互动玩法的优质开端。” (文中受访者均为化名)
国产自研6nmGPU:砺算科技7G100系列支持8位整数运算
IT之家 8 月 23 日消息,东芯股份今天(8 月 23 日)发布关于 2025 年度“提质增效重回报”行动方案的半年度评估报告,表示砺算科技的 7G100 系列作为一款全自研高性能图形 GPU,秉持创新融合,基于自研 TrueGPU 天图架构,从指令集到计算核心完全由自主设计。 IT之家附上公告内容如下: 砺算,布局高性能 GPU 赛道。上海砺算主要从事多层次(可扩展)图形渲染 GPU 芯片的研发设计,坚持自研架构,产品可实现端、云、边的主流图形渲染和 AI 加速,对标主流 GPU 架构,与外部生态无缝兼容,力争解决国产主流完整 GPU 架构自主可控的关键问题。 报告期内,上海砺算完成首款自研 GPU 芯片“7G100”的首次流片、晶圆制造及芯片封装,对产品的测试结果符合预期,目前正按计划进行客户送样以及量产工作。产品可应用于个人电脑、专业设计、AI PC、云游戏、云渲染、数字孪生等应用场景。 此外东芯股份在互动平台表示,7G100 系列 GPU 芯片可支持单精度浮点运算、半精度浮点运算、8 位整数运算等计算任务,不同的计算精度根据其计算的性能、资源消耗及效率的不同,各有不同的适用场景。 单精度浮点(FP32):适合高精度科学计算与专业图形渲染; 半精度浮点(FP16):平衡性能与功耗,适用于 AI 推理和部分图形任务; 8 位整数(INT8):面向低精度、高吞吐量场景(如 AI 推理、轻量化模型运算),显著提升能效比。 砺算 7G100 系列号称是全自研 6nm 高性能图形 GPU,从指令集到计算核心完全由自主设计,基于自研 TrueGPU 天图架构,并自研指令集、自研软件栈。 砺算 7G100 系列 GPU 号称多重性能优势达到“国际主流、国内领先水平”。 比如在效率表现上,砺算 7G100 系列最多可同时运行 48 个没有依赖的任务,无需等待,能够最大化 GPU 使用效率,实现“智能多任务处理”。 通过打破三角形渲染的顺序限制,在不依赖顺序的场景下提升 50% 渲染效率,实现“智能乱序渲染”。 支持 FP32 或 INT32 的指令双发射,实现“硬件级智能分配”。
消息称奥尔特曼淡出OpenAI日常管理,聚焦“搞钱”和脑机接口
IT之家 8 月 23 日消息,科技媒体 The Verge 今天(8 月 23 日)发布博文,报道称前 Instacart CEO 菲姬・西莫(Fidji Simo)正式加入 OpenAI,出任“应用 CEO”,将负责公司约 3000 名员工及 ChatGPT 等面向消费者的业务,目标是把这家混乱且未盈利的初创公司打造成上市科技巨头。 IT之家援引博文介绍,她的任务是将这家尚未盈利、节奏混乱的 AI 独角兽,转型为纪律严明、可上市的科技巨头。西莫曾在 Facebook 高速增长期任职,并带领 Instacart 成功上市,还深谙广告业务,这些经验预计将在 ChatGPT 商业化中发挥作用。 该媒体认为西莫的到来,标志着 OpenAI 权力结构的变化。该公司首席执行官山姆・奥尔特曼正逐渐淡出公司日常运营,更专注于为大规模算力项目筹集巨额资金,并孵化脑机接口初创企业。 他坦言自己无法同时管理包括消费者业务、算力基础设施、研究实验室和新兴硬件在内的四条业务线。未来他仍会直接参与算力、研究和硬件,与前苹果设计总监 Jony Ive 合作,而脑机接口公司将独立于 OpenAI 之外运营。 在内部架构上,奥尔特曼的直接下属包括总裁格雷格・布罗克曼(负责 Stargate 等扩展项目)、首席研究官马克・陈、首席科学家雅库布・帕乔茨基、消费者硬件副总裁彼得・韦林德,以及安全主管约翰内斯・海德克。 此外,西莫还需为刚于 3 月晋升、现已宣布离职的人力资源主管朱莉娅・维拉格拉寻找接替者,该媒体曝料西莫的首个新产品方向可能是浏览器,而首个商业化尝试或为今年秋季上线的 ChatGPT 购物返佣功能。
阿里巴巴拟议分拆上市之际 斑马智行前女CFO公开鄙视某些高管人品行径
快科技8月22日消息,近日,在斑马网络技术股份有限公司(简称斑马智行)递交招股书准备在港交所上市之际。 据媒体报道,原斑马智行CFO夏莲在朋友圈发文对此事进行了点评,公开表示“不看好公司业务发展”“上市圈钱不是人生追求和理想”,并表示自己已于2025年4月离开公司。 夏莲表示,“过去3年也许斑马业绩增长不达预期,但对比未来3年,很可能是斑马最好的3年。”在她看来,没有门槛的座舱技术,车厂都可以自己干。 夏莲指出,上市圈钱不是自己的人生追求和理想,自己从斑马智行首轮融资12亿,60亿 AliOS合并重组,30亿再增资,7亿新股权融资,到完成股改,一路风雨,支持自己的是对一件事有始有终做完的信念,对一群有情有义的人做一件有意义的事的理想主义追求,如果这些不复存在,自己不愿意为上市圈钱再委曲求全。 “非常鄙视斑马某些高管的人品与行径,承认你的权谋与城府,但鄙视你的为人与价值观。” 夏莲表示,因为还有一些好朋友投资在斑马这个局里,很高兴自己的离开帮这些朋友降低了50%的估值,“希望降了50%估值的斑马可以帮他们成功登陆”。 值得注意的是,在8月21日,阿里巴巴发布公告,拟议分拆斑马智行,并在港交所主板独立上市。 据悉,斑马智行成立于2015年11月,是由阿里巴巴与上汽集团共同发起的互联网汽车基金投资成立的科技企业。 截至公告日期,阿里巴巴持有斑马智行约44.72%的股份。 根据灼识咨询的资料,斑马智行是中国仅有的两家全自研汽车操作系统的第三方供货商之一。 也是唯一一家将系统级操作系统解决方案、AI全栈端到端、车载平台服务这三大智能汽车核心体验支柱无缝整合为统一解决方案的企业。
B站二季度盈利新高:游戏收入大涨6成,广告走上快车道
8月21日,B站2季报业绩出炉。在本次财报中,无论是营收还是利润都在加速上行,其背后是B站商业变现能力的逐季增强。 首先,Q2的B站总营收达73.4亿元人民币,同比增长20%。 拆分到具体业务线来看,二季度,B站广告业务收入为24.5亿元,同比增长20%,高于整体大盘;游戏业务收入为16.1亿元,同比高速增长60%。 其次,本季度毛利率从去年同期的29.9%,提升至36.5%,已经连续 12 个季度实现环比上涨。B站在业绩会上预计,到4季度将达到37%水平,未来将看到40-50%的毛利率目标。 运营利润率也从去年同期的-5%,扩展到了正7.8%,B站中期目标运营利润率15-20%保持不变。净利润和调整后净利润均创下历史新高,分别为2.2亿元和5.6亿元,去年同期为净亏损6亿元。 这一点不难理解: 在经营杠杆改善的情况下,B站很自然表现出运营利润率比毛利率改善更快的情况,而且随着商业化效率的进一步提升,高毛利业务持续突破,下半年运营利润率还将进一步提升。 在回报股东层面,二季度,B站回购并注销了一亿美金的股票,目前董事会批准的2亿美金回购计划中还有约8360万美金回购额度。 基于以上表现,今年以来,B站在资本市场的价值表现良好:到21号财报发布前,B站市值年内涨幅36%,年初到现在,市值增长了近200亿人民币。 01 逐渐增强的广告变现能力 支撑B站市值和业绩表现的,是B站逐季增强的变现能力,尤其是广告: B站的Q2的广告业务增速是高于广告大盘的,而且单一季度收入也创下新高达24亿人民币,同比增速高达20%。 除了整合投放能力,和提升深度转化比例能力之外,B站今年还多了一个 AI作为助力。在多模态大模型加持之下,广告分发效率大幅提升。这也吸引了更多广告主的投放,在二季度,广告主数量同比增长了20%。 分垂类行业来看,也有很多亮点: 首先,B站的第一大广告份额来自游戏行业。客观来看,B站是国内最大、最活跃的游戏内容社区之一,大量核心玩家、创作者的聚集成为游戏客户投放的重要因素。从新游营销到常青游戏的长线运营,B站的优质内容和高质量玩家转化,都有助于锁定优质游戏客户预算。 其次,得益于中长视频深度内容和测评生态的既有优势,面向年轻人的家居家装广告主也在B站进行加大投放。二季度,家居家装相关的广告收入同比增长接近70%。 第三,今年的一个亮点,是数码家电领域在“618大促”支持之下的增长:大促期间,B站带货广告收入同比增长41%,其中数码家电行业的带货广告收入同比高速增长111%。 比如今年618期间,仅“笔吧测评室”、“极客湾”、“嗨我是熊猫”、“假如科技”四位UP主的四条专业电脑测评内容,就为联想带来了超7000万元的成交额。联想在B站撬动单条视频内容实现ROI 100+转化,大促期间,B站为联想带去的成交新客率高达40%。 以200万粉UP主“笔吧评测室”为例,其在618期间发布了对联想拯救者R7000P这款产品的评测。 不同于比拼热情、情绪煽动的直播带货,这类测评内容讲究的是专业度。视频里,UP主不止分析了笔记本参数,甚至还精细到无线网卡在不同场景下的稳定度,笔记本在不同功耗下的噪音表现。此外,测评里也会客观分析产品的缺点。 专业度带来信任感,最终意味着转化率,上述视频的ROI高达135.5。 此外,在涵盖洗地机、扫地机、吸尘器等品类的清洁小家电赛道,2025年以来,B站在这一赛道商品的蓝链点击量同比大幅增长14倍,清洁小家电相关的UP主商单稿件量同比快速增长330%。 UP主与消费者的参与度也在持续提升:消费者端,千元以上消费品GMV同比提升近五成;UP主端,"618"期间,整体GMV增长了33%,带货GMV超过1000万的UP主数量增长超过60%。 今天的B站用户,不仅更愿意在社区内参与类似618这样的大促,而且购买的客单价也在逐渐提升。 未来,随着B站在多场景日常搜索PC端、OTT端、Story,包括日常直播搜索场景、热门搜索等对用户的触达,B站的广告收入能力还有进一步提升的空间。 而更好的推荐算法,包括AIGC生成的广告封面和标题,也都让客户投放成本不断降低,提高转化效率。 我猜测,这也是站方在季报后的电话会中表示,接下来还会更有信心跑赢广告大盘的原因。 02 变现能力增强的底层逻辑:B站的社区和共鸣 在中国互联网活跃用户基本见顶的今天,B站作为年轻人的精神家园,用户基础依然牢不可破: 全口径月活还在并不意外的继续增长,达到3.63亿;日活用户数达1.09亿,同比增长7%,创历史新高;月均付费用户达3100万。与此同时,B站用户的平均年龄来到了26岁。这恰好是一个比较有意思的年龄节点——用户从校园走向社会、职场,甚至开始成家立业,随之而来的是更多元、更旺盛的消费需求。 在这样的一个年轻人为主的平台,广告主看中的是B站提供的社区生态,来实现广告主品牌心智的搭建:深度的内容,高活跃的社区互动,很多品牌也是从B站开始起家的。 对于广告主尤其是数码产品广告主来说,选择B站作为品牌建设的主战场,理由很多,也很充分: 在供应饱和的国内消费市场,一味追求短期转化的营销打法已经走不通,流量竞价变得越来越卷,在这种环境下,广告主开始更看重长线品牌建设,重视持续的价值回报。 这恰恰是B站具备优势的所在,不会有任何一个客户会忽视年轻人的影响力跟消费力。 而品牌营销基于优质内容,很多内容作品,往往都是从B站开始最早获得用户认可,然后开始出圈。 比如说,现在的10亿票房大电影《浪浪山小妖怪》,最早的短片是《小妖怪的夏天》,也是B站受到用户欢迎,开始出圈。 《黑神话:悟空》的续作《黑神话:钟馗》在B站上首发了第一个游戏的PV,不到两天时间,播放量超过了1200万。 多说一句,B站的优质社区氛围,也在越来越清晰体现其不可替代的价值: 今天的内容供给呈现严重过剩过载的趋势,在这种环境下,用户更需要的是社区和共鸣,才能够促进转化。 这一点不仅仅是B站,越来越多的传统货架电商平台,都在强化社区调性,这种调性无论是数据,还是效果,都能更直接的呈现的在广告主眼中。 这种社区属性映射到现实世界中,就是Bilibili World今年的高光表现: Bilibili World(简称BW)是B站主办的ACGN综合展会。今年的展出面积共计24万㎡,为期三天里迎来了共计167家全球展商、近800台痛车、超3万名Coser。 今年的BW还创下了多项人数纪录,线下参展人次超过了40万,护照用户的购票比例达到了13%,有来自于20多个国家和地区的用户专门来到上海参加BW。 无论是从规模还是从影响力来看,今年的BW已经是中国乃至亚洲最大的ACG聚会,实打实的带动了上海本地的线下消费,也成为了上海城市文化的一个新名片。 03 游戏:长线的压舱石 除占营收33%的广告业务增长之外,B站的游戏也在扮演营收长线压舱石的作用。 本次B站游戏《三国:谋定天下》在二季度已经迎来周年庆,DAU创下了年内新高,未来将进入长线运营阶段。 回看历史,B站历史上的游戏生命周期都相当可以,《命运-冠位指定》迎来九周年,重返畅销榜前五;《碧蓝航线》八周年庆,用户数保持稳定。 除了常态化的抽新卡,皮肤消耗,拉老用户回流,发行海外版本这些延续游戏价值的方式之外,B站的社区生态也有利于游戏本身的长线运营:无论是视频二创还是社区讨论,都是在帮助B站运营的游戏提升粘性。 举例来说,8月8日-8月10日,《命运-冠位指定》也在杭州国际博览中心举办了九周年特别纪念展(FES)。 FES的特点是将IP内容与线下活动相互关联,给玩家身临其境的感觉。除了在BW上大放异彩的“誓约胜利之剑”雕塑外,大量全新主题景观也纷纷落地杭州。 对于FGO这样一款运营九年的游戏来说,相比简单泛泛的互动娱乐,这些游戏内细节内容的流出,才是最容易感染玩家,并引起玩家共鸣的方法。 除此之外,在电话会上,B站提到还有四到五款游戏在等待版号,后续的游戏仍将专注于年轻化和创新,来迎合时代的变化。 一切顺利的话,游戏板块仍然将为B站持续稳定的贡献价值。 04 结语 过去几年,B站成功实现商业化提速,在当前大环境中尤其证明了B站变现的能力。二季报仅仅是一个开始。 更重要的是,B站在社区调性和商业转化中取得了较好的平衡,让这个中国最大的年轻人社区的变现能力开始呈现逐季增强的状态,这才是这份二季报真正令人感到惊喜的地方。
GPT-5变蠢背后:抑制AI的幻觉,反而让模型没用了?
自打发布新一代模型 GPT-5 之后,OpenAI 收获了大片骂声。 人们纷纷表示 GPT-5 “ 变蠢了 ”“ 没创造力了 ”“ 不灵动了 ”“ 回答很干瘪 ”。 实际上,这并不是一个让人意外的结果,因为 GPT-5 的其中一个特性是幻觉率显著降低,而降低模型幻觉率的一个主要代价就是模型的输出会显得更呆板。 通俗来说就是模型变得更严谨,但主观能动性变弱了,这一点其实对于写代码、Agent 构建是很有好处的,只是 ChatGPT 的主要面向的消费级用户对此需求并不高。并且 GPT-5 变得非常被动,以至于需要非常详细的提示词才能很好地驱动( 当然如果需求写得好,GPT-5 是很可靠的 ),不像之前会积极地预估用户的意图,原本快要丢掉的提示词技能又得捡起来,这对于被 AI 惯坏的一大批用户又是一记背刺。 从原理上来讲,大模型生成的内容是概率产物,模型本质意义上是一个条件概率分布的近似器,它的创造力来自于更宽松的概率分布,而当你想让它答案更精准、低幻觉时,它的概率分布必然收紧,这样的收紧减少了有更多创造力的可能。 这就像一个人,你想让他更严谨、符合逻辑的去创作,他就会被钳制,无法天马行空。 然而有趣的是,早前大家都在吐槽各家大模型的幻觉率太高并且愈演愈烈,认为这是一种 “ 病 ”,厂商们也使出浑身解数来治这个 “ 病 ”,微调、RAG、MCP 等新 “ 药方 ” 一个接一个。 现在,高幻觉率的问题被一定程度解决,大家又吐槽模型回答得不够好,这就陷入了一种无法打破的死循环。 那么,厂商们到底该如何正确地看待 AI 幻觉呢? 为探究这个话题,知危与阿里巴巴大淘宝技术营销前台技术负责人甄焱鲲进行了对谈。 甄焱鲲首先跟知危分享了自己对 GPT-5 被 “ 讨伐 ” 现象的理解和亲身使用体验:“ 许多人赞赏其在数学、科学和代理任务上的进步,但也批评它在创意写作上不如 GPT-4.5 或 4o,输出更通用、缺乏情感深度,甚至出现 ‘ LLM 废话 ’。 基准测试中,它在 SimpleBench 上仅得 56.7%,排名第五,远低于预期。 用户 ‘ 起义 ’ 主要源于模型感觉像降级:响应迟钝、幻觉增多、错误意外,以及未公布的更改导致创意和质量下降。” “ 而我的直观感受是:出现幻觉的概率确实下降了,我用了大概三天的时间,提了一些哲学、编程和人工智能相关的问题,在一些生僻概念的理解上考察模型的输出,还是有非常不错的效果,例如:GPT-5 不会把我自创的英文缩写( 一些技术架构里的缩略语 )错误拆分了,比如 ‘ AIGUI ’ 这个概念不会如 GPT-4o 般拆分成 ‘ AI GUI ’ 了。” 在对谈过程中,甄焱鲲多次强调,把幻觉单纯当成一个 “ 病 ”,是片面的。 目前已经有研究指出,大语言模型理论上不可能完全消除幻觉。还有研究表明,越抑制幻觉,大语言模型的泛化性越差,也就是能够适用的场景越受限,这与业界希望全方位推广 AI 的愿景显然是相悖的。 这其实也反映出,幻觉带来的影响并非永远都是负面的,需要辩证看待。 正如甄焱鲲告诉知危:幻觉是不是幻觉、幻觉的影响是不是负面、幻觉的负面影响有多大,都是相对的,和使用者的能力和需求、场景的特性和需求、使用前后效率对比、现实世界的变化等因素都有关。 以下是知危与甄焱鲲的对话原文,经过了不改变原意的编辑。 一、幻觉的类型 知危:能请您介绍一下大模型实际应用中常见的幻觉类型吗? 甄焱鲲:大模型的 “ 幻觉 ” 指的是 AI 系统生成或推断出与人类经验不符的内容或结论。 这里 “ 人类经验 ” 必须是 “ 正确 ” 的,限于个人认知的差异,所以必须认识到 “ 幻觉 ” 也是相对的。 在大模型应用中,幻觉无法完全避免。 可以将幻觉分为 5 个类别:语言生成中的幻觉、推理与逻辑错误、过度简化与常识错误、数据错误或无依据推理、时效性错误。 语言生成中的幻觉是大模型最常见的一种幻觉,尤其是在内容生成类的应用中。例如在生成代码时,AI 可能会编造 Library 或 API 来完成代码的生成。 大模型还可能在进行逻辑推理时产生错误。例如在使用 Roo Code 插件进行代码生成时,经常遇到指定上下文后,大模型仍然会根据项目中其它上下文做出错误的推理。 关于过度简化与常识错误,AI 虽然能够处理大量信息,但它在应对一些需要深度常识、实际经验的场景时,容易出现过度简化的情况。例如 AI 可能会说 “ 为了快速减肥,可以不吃任何食物 ”,这显然是不科学的。 关于数据错误或无依据推理,在某些场景下,AI 模型可能会基于不完全或者错误的数据生成答案( 尤其当训练样本中掺杂大模型生成的幻觉内容时更甚 )。例如,在医疗应用中,AI 根据患者的症状生成诊断建议,但如果这些症状与训练数据不匹配,或者训练数据本身存在偏差( 如某些相同指标数据指向不同病症,从而需要医生以个人理解进行具体判断的情况 ),模型就可能给出错误的诊断结果。 最后,幻觉很多时候来源于模型训练时知识和概念在时间上的局限性。 知危:大模型的幻觉会在企业应用中带来哪些负面影响与成本损耗? 甄焱鲲:关于幻觉可能产生的 “ 成本损耗 ”,需要代入到具体应用场景分析。 用户差异会带来巨大的成本评估差异。假设生产效率的影响小于大模型应用前的历史效率,总体上并不会产生 “ 成本损耗 ”。 比如。一个行政人员使用 Cursor 生产一个表格信息收集工具,即便生产效率低下错误频出,生产效率仍然可能大于:找产品提需求、找研发开发、找测试评估、找运维部署。因此,Cursor 虽然经常犯错误,仍然有大量用户,因为用户认为 Cursor 的效率是大于自身的。 但若这个场景的用户是研发人员,错误频出带来的效率降低,显著大于:安装依赖、查找文档、编写代码,那么 Cursor 在这个场景大概率会被研发人员抛弃。 所以,成本损耗和效率的影响都是相对的。 进一步看,幻觉的负面影响还可以分为两类: 预测错误,如果“错误”易于识别,则影响的是生产效率; 如果 “ 错误 ” 难以识别(例如预测错误发生在使用者不熟悉的领域),则影响的是应用效果。 知危:如何根据幻觉率高低进行产品落地可行性决策? 甄焱鲲:如果大模型的幻觉率过高,特别是在关键决策领域( 如医疗、金融、法律等 ),则这些产品的应用将面临严重的挑战。对于这类应用,企业的目标是尽量减少错误和幻觉,因为一个错误的决策可能导致巨大的财务损失或法律责任。 对于一些风险容忍度较高的应用场景( 如内容推荐、广告投放等 ),企业会接受一定程度的幻觉,毕竟这些应用的目的是提升用户体验和增加商业效益,而不完全是做出精准决策。 通常,企业会设置一个 “ 安全边界 ” 来限定幻觉率,确保在可接受范围内。过高的幻觉率会增加企业的风险和成本,过低的幻觉率则可能意味着模型的复杂度和计算成本过高,导致收益无法覆盖成本。 二、缓解幻觉的成效 知危:目前,为了缓解幻觉问题,一般会采用哪些方法?实践效果如何? 甄焱鲲:当下常用的方案有三种:合适的模型、In-Context-Learning、微调。 首先,海量参数的大模型因为 “ Scaling Law ” 会缓解幻觉出现的概率;其次,借助各种提示词工程和 RAG 等技术,“ In Context Learning ”( 在不进行参数更新的情况下,通过在输入中提供示例来学习和完成新任务 )被实践证明能够大幅降低幻觉出现的概率;最后,使用 “ 继续训练 ” 的微调技术,在一些场景中可以一定程度降低幻觉。 为缓解语言生成幻觉和过度简化幻觉,一般采用扩大训练样本和模型参数来解决,即采用更合适的模型。 为缓解逻辑推理错误,在 MCP 生态出来后,最火的就是:Sequential Thinking MCP Server,帮助大模型把复杂问题降级为诸多微任务,以期待降低大模型出现幻觉的概率。这属于 In-Context Learning 方法。 缓解数据错误或无依据推理幻觉一般也是采用 In-Context Learning 方法。 为缓解时效性局限带来的幻觉,比如编程领域,现在行业里有很多人在用 Context Server,也就是 MCP 的 Server,当调用 API 时,它能帮我检查这个 API 的最新版本文档和接口参数说明,避免使用了老版本的 API,保证生成代码的准确性,这属于 In-Context Learning 方法。 医疗、金融、法务等行业对精度要求非常高,使用 RAG 最多的就是这些行业。但是,由于 RAG 需要向量存储、检索服务,且会大幅度增加计算成本,某些行业的特定领域使用大模型微调技术,降低 RAG 带来的成本,也能找到成本与效果的平衡点。 对于内容推荐、广告投放等可以容忍一定程度错误的应用场景,AI 的幻觉率可以稍高一些,同时开发成本也会降低。最典型的例子就是 “ mini-gpt ” 开源项目,仅用几个小时训练一个几百兆大小的小模型,就可以很好地生成儿童绘本级别的小故事。 中低精度要求和更低成本的情况下,小尺寸模型也是能接受的,比如 Qwen3-0.6B,In-Context-Learning 可以不使用或简单使用,可以使用少量( 数百、千条数据即可 )行业优秀的案例数据进行微调,因为基础模型参数量小,微调的成本也不会太高。 但总体而言,微调的效果和风险还是普遍存在。模型通过微调从通用模型过渡到领域特定模型时,是有可能丢失原有的通用知识的。 而对于所谓垂直领域大模型,在我个人实践中发现,由于大部分场景都需要跨领域知识,反而使垂直领域大模型的应用效果受到限制,实际效果和微调技术基本持平。 最近行业里有一些论文在研究怎么让大语言模型实现 Self Learning,也就是说它能在服务过程中对自己的参数进行微调,随着使用不断学习和提升,克服时效性的局限。比如,麻省理工( MIT )最近提出的 Self Adapting Language Models( SEAL )是一种模型能够 “ 自行学习 ” 的技术:模型通过生成自己的合成训练数据并用于自我更新,迎向 “ 终生学习 ” 之路。但该方法仍存在 “ 灾难性遗忘 ”、计算资源高、学习调度复杂等挑战 。 当下,由于大模型的基础框架局限于 Transformer 和 Diffusion,并且在基础框架层面并没有显著的技术突破,上述方案应该在大模型基础框架技术变革前是有效的。 知危:为何说垂直领域大模型效果受限?从我们和医疗领域的专家交流来看,他们还是认为垂域模型比通用模型能力更强。 甄焱鲲:垂直领域大模型虽然掌握了行业知识,在特定任务上表现更好,比如在医疗这种病种类目极多、具备极强专业深度的领域。但在复杂推理或跨领域理解上仍显不足,尤其在任务更复杂、数据稀缺时更明显。 如果数据多样性有限而规则复杂,比如材料科学,训练出的模型往往倾向于 “ 记忆 ” 而不是建立泛化机制。只有当数据多样性足够高,才可能促进泛化。 最后,成本与收益不匹配。相比训练一个垂直大模型,微调已有模型 + 机制( 如 RAG )往往更低成本,效果也更稳健。 知危:医疗、金融、法律是使用 RAG 最多的行业,那么这些行业之间使用 RAG 的情况有哪些不同? 甄焱鲲:总体而言,只要是涉及到标准化流程或比较依赖规则、先验的工作,RAG 都会用得比较多。 其实 RAG 有不少局限性,不同行业使用 RAG 的场景需求也不同。 在法律行业,有时候应用中不只涉及法律法规,还包括案例、法律解释、政策等。这就比一般的 RAG 难度高一些,主要是时效性要求高,因为法律是在不断建设中的,各地对法律法规也可能有不同的解释。 在医疗行业,现在大语言模型在时序理解上的局限性,会限制 RAG 应用的效果。当前的 RAG 更多是对概念背后所代表的含义进行理解和解释。但是在医疗行业里,通常要解释的是临床数据和病例。 比如一个病人有一系列的检查、体检数据,包含各项指标在一定时间段比如一年内的变化情况。这些变化的含义不是简单通过 RAG 就能查询出来的。因为它有很大的个体性差异,比如性别、地域、年龄等各种因素的影响,也可能要结合上次检查和这次检查的对比,以及和其他类似患者的的对比。 不像其它领域,比如医疗领域可以直接生成病例、诊断书等,或者法律领域可以生成诉状、裁决书等,金融行业在应用 AI 时,最终产生的结果更多是偏向建议或者辅助性的。因为使用 AI 会产生的一些问题和风险,目前用 RAG 加大语言模型的方式是难以规避的。因此金融行业倾向于更严谨的方式,比如在里面穿插一些传统的机器学习算法,用来对决策背后可能产生的问题和风险进行估计。 知危:您的团队对幻觉缓解的技术路径探索经历了什么样的探索过程?关于微调和效果和风险可否深入探讨一下? 甄焱鲲:刚开始的时候,我们主要对模型做微调,或训练自己的 LoRA。比如轻办公领域,针对用户场景识别和服务推荐场景做微调或 LoRA。但我们发现,等花了半年甚至一年的时间训练并上线后,大语言模型自身更新带来的收益,往往已经超过了我们做这些工作的收益。 通过微调技术调整模型参数的时候,最大的问题在于参数调整可能带来一些无法预期的后果。比如模型本身是无法处理 “ 冲突 ” 的,如果新数据与模型原有知识发生了冲突,经常会发生 “ 正确 ” 的数据遮蔽了 “ 正确 ” 的知识,甚至会导致 “ 灾难性遗忘 ” 的情况发生。 “ 灾难性遗忘 ”( Catastrophic Forgetting,也称 catastrophic interference)是指模型在学习新任务或新知识时,严重遗忘先前所学能力的现象,尤其在顺序训练或持续微调中表现突出。即便是 AI 产品在服务过程中不断更新权重,即 Continual Learning,也只是一种微调,传统微调具备的缺点它都有。 在大型语言模型中,这种现象尤为关键:模型的知识分布式存储于权重中,当在新领域训练时,部分权重被重写,导致模型原有的广泛语言能力或事实知识退化。 在研究中,1B 到 7B 大小的 LLM 在持续微调后普遍出现灾难性遗忘,甚至随着模型规模增大( 但仍在这一范围内 ),遗忘现象反而更严重。 举个例子:一个针对医疗诊断微调的模型,可能会 “ 忘记 ” 基础的数学能力或一般写作能力。这个问题和大语言模型本身的技术特点相关,除非整个大语言模型技术发生本质性的革新,否则短期内这个问题比较难解决。 现在的大语言模型权重参数非常多,而且缺乏可解释性。更新某些权重时,会对哪些权重或者什么情况下的推理产生负面影响,目前很难评估。所以,灾难性遗忘或者权重冲突的具体原因,目前只能通过最终结果的评估来检验。 在实际测试对比下,In-Context Learning、RAG 往往比微调模型具有更好的泛化能力和稳定性。 总体来说,模型微调或者 LoRA 的效果,通常小于 RAG 的效果,因为 RAG 可以去修改数据,灵活性更强。而通过很多论文和行业数据都能看到,RAG 的效果一般又小于 In-Context Learning,因为后者是实时地把必要的知识或辅助信息当做 context 注入模型。 所以,后来我们更倾向于做 RAG、 In-Context Learning 这类优化。而实际上相比之下,目前我们 In-Context Learning 的应用还比较少。 原因在于 In-Context Learning 需要更丰富、结构化且准确的 context,而这些 context 比较难获取。比如现在要帮产品经理写一个新项目的产品文档,来做产品策划。产品的用户定位、功能定义、用户流程、UI 交互等,涉及多个领域。这些领域的知识和内容,要决定哪些需要提炼放入 context,去做 In-Context Learning,实际上有很大挑战。从目前实践效果来看,用工程或编程手段去解决,效果不如用 RAG 好。 但很多服务中,比如用户完成一件事后还会接着做下一件事,也就是当用户有连续性任务时,In-Context Learning 的应用门槛会相对低一些,因为可以知道用户当前场景变化和上一件事情的结果。 知危:为什么模型微调的工程周期那么长?相比之下,RAG、In-Context Learning 的工程周期如何? 甄焱鲲:模型微调的工程周期很长,影响因素很多。 首先,构建微调模型需要高质量、标注良好的领域数据,耗费的精力往往占真实训练的绝大部分。有人直接指出微调 90% 的精力花在 “ 提升数据质量 ” 上 。 其次,微调 LLM 不像一般模型那么轻松。需要性能强劲的基础设施和优化、维护能力。训练本身往往耗时数周,甚至更久。 再次,微调往往不是一次搞定的。需要反复调参、验证、修复 bug、对比多个模型版本。 最后也是最关键的是,LLM 这个基础模型可能每隔几个月就会迎来新版本,原来的微调成果很快就可能被 “ 超越 ”。社区反馈也提到,每次基础模型更新后,几乎都得从头再来一次微调 。 相比之下,RAG 通常只需数天甚至数小时即可部署,尤其用 Hugging Face 的 RAG-Token 示例几行代码搞定。 并且,RAG 整体工程流程简单,门槛低于深度培训。知识库变更最快,只需重新 embed 文档,完全无需重训模型。因此,可以实时响应信息变化。 社区普遍反馈道,相比代价高耗时的微调,RAG 简便且性价比更高。 对于 In-Context Learning ( ICL ),本质上只需构造好 prompt,可能还需要加入若干示例( few-shot ),基本不需要训练过程。工程实现几乎是几分钟到几小时搞定 prompt 设计、示例选取、效果验证。 对比微调,ICL 可谓 “ 立刻见效 ”。 知危:ICL 落地的具体挑战都有哪些?为何还无法很好地解决,以至于即便潜能更大,目前实际效果不如 RAG ? 甄焱鲲:挑战确实不少。ICL 的效果高度依赖于所选示例的质量,但 “ 哪些示例最具代表性、结构清晰、能覆盖多领域内容 ” 本身就很难定义。典型方法有基于语义相似度的检索( 如 embedding 距离 ),但往往不够精准。 具体使用时,会受到模型本身限制、内容、结构等方面的影响。 大模型( 如 GPT-4o )虽支持数百K token 输入,但仍难容纳大量多领域信息,尤其文档结构复杂时。 对于开放性( open )问题,过于贴近主题的上下文反而可能引起模型偏差或混淆。 同样一组示例,顺序不同可能得到完全不同的效果,但如何自动决定最佳顺序依然是开放问题。 更细节来看,示例之间的排版、结构、标签统一性、分割符等都能显著影响结果,而找到 “ 最优格式 ” 往往需要大量试验和经验。 在更宏观层面,涉及用户定位、功能框架、流程与 UI 等多个维度时,需要为每个层面提炼关键结构内容。但这些内容如何抽象成 prompt 示例并串联起来?目前仍缺乏清晰方法论。 最后,大模型在 ICL 中往往倾向使用 “ 捷径 ”( 比如表面模式或标签关联 ),而非真正理解多领域深层逻辑。这种 shortcut behavior 使得 prompt 构造更加敏感脆弱。这种走捷径的现象也是深度学习的老问题了。 知危:除了合适的模型、In-Context Learning、微调之外,据了解思维链、多智能体协同、重复采样投票等方法在降低幻觉方面也有应用,这些方法在企业中的使用效果如何? 甄焱鲲:我们也会借助思维链来减少幻觉。在前一段时间接入 MCP 的时候,用得比较多的,也是现在行业里比较常用的,就是Sequential Thinking MCP Server,也就是序列化思考。我们也会去模仿像 Cursor、Roo Code 等对任务的拆分以及任务规划的方式。 从我们的实践来看,确实能比较好地提升准确率。因为它能够更好地从当前任务中发现更多问题,并将实践过程中可能缺失的环节补充上去,毕竟有时候用户下的指令是比较粗糙的。 让大语言模型把粗糙的指令转化成 step-by-step 的详细指令和任务,带来的价值是毋庸置疑的。而且现在网上有很多开源项目,比如 Roo Code、Cline,这些是做软件工程的 AI Agent 插件,比如 VSCode 上的插件。我们也会去参考它们的源码,因为里面很多工程上的处理细节和提示词工程的细节,都是非常值得我们借鉴的。 通过多智能体协同来降低幻觉,比如一个模型输出,另一个模型评判,这种方式的幻觉缓解效果其实一般。 比如我们在使用 DeepSeek 的大语言模型进行代码生成的时候,如果用 reasoning 模型( DeepSeek R1 )和它的基座模型( DeepSeek V3 )进行对比,会发现生成质量有明显差异,生成偏好也不一样。不同模型的偏好不同,这就会导致一个问题:到底什么样的偏好才是对的?这在不同的具体业务场景下有不同的答案。 比如我们之前在实践中发现,在对一些代码进行 fix 的时候,用 DeepSeek 的基座模型,而不是 reasoning 模型,效果在某些情况下反而更好。因为 reasoning 模型有时候会把一些简单问题复杂化,浪费大量 token 和时间去 “ 思考 ”,但生成的结果可能还是差强人意。 单个模型重复采样后再做投票这种方法其实和多智能体方法是类似的。不管是多智能体,还是重复采样投票,除非它在工程上能提升整体的并发性能和效率,否则意义不大。 因为现在很多模型本身就是 MoE( Mixture of Experts )结构,这些模型内部已经在进行采样、投票、打分,调用不同的专家来解决问题。其实也可以把它看作是一个多智能体系统。比如最新的千问模型 Qwen3,在发布新版本时也说会把多智能体机制集成到模型内部。 这应该是一个技术趋势。因为在训练大语言模型时已经花费了大量数据,如果在训练过程中能保持一定的多样性,那么在输出阶段,通过一些数学上的优化手段去利用这种多样性,让它在最终结果中发挥价值,不管是多采样、多智能体还是多专家机制,最终都能在结果的有效性上带来比较好的价值。 从长远来看,模型的发展更倾向于把多智能体的能力集成化,尤其是在商业模型中,以提升整体对外服务效率。 而对于开源模型,现在有一个比较明显的趋势,就是模型参数量在变小,但性能反而在提升,将更多用于实现多智能体、多模型并发推理。 比如假设一个 1B 到 3B 的模型,它可以达到传统 32B 甚至 70B 模型的效果,就可以用于在设备端并行地进行推理。这时候可以把一些任务拆分给在某个特定领域表现比较好的专业小模型去处理。 最典型的例子是 Command R,它是最早用于命令行操作电脑的优秀模型。比如有一个编程任务,拆分后有些任务需要在命令行操作,比如初始化环境、批处理文件操作等,这时可以把这些任务分发给 Command R 这类模型去处理。 知危:Cursor、Roo Code 等对任务的拆分以及任务规划的方式有哪些特点? 甄焱鲲:Cursor 的任务拆分与规划最大的特点是原子化任务( Atomic Planning )。Cursor 强调把大的开发任务拆分成 “ 小勺子 ” 级别的小任务,每个任务聚焦当前相关文件和指令,避免信息过载和上下文混乱,并严格按必要的顺序执行子任务。在分配任务时明确指令,如 “ 重构 calculateTotal() 函数以支持货币精算 ”,减少歧义。 Roo Code 也有类似的任务拆分与规划框架,它还支持多种模式,比如 Architect 负责规划与设计,Code 负责实施,Ask 负责解答与辅助。这些模式可以自由切换,任务拆分后可按阶段委派给最合适的模式。 知危:除了事实性的幻觉,目前推理模型中的思维链 “ 幻觉 ” 也受到了很多关注。比如推理过程和结论无关,推理方式不符合人类逻辑,重复推理、无效推理等。这些幻觉对企业应用的影响如何? 甄焱鲲:影响比较大。拿 Cursor 来说,它经常会在思维链中说:“ 我觉得这个问题是什么?所以我要尝试什么?” 然后思维链产生的结果可能是错的。错了之后它又说类似的话,结果可能又返回上一步错误,陷入死循环。很多时候我从程序员视角可以直观发现问题,但模型却不知道哪里出错,也无法做出有效修改。 本质上,现在大语言模型并不具备真正思维能力,它还是一种机械的模仿。 做软件的时候,经常有个不恰当的比喻:如果一个东西走起来像鸭子,看起来像鸭子,叫起来像鸭子,那它就是鸭子。但事实上这是不对的,而现在的大语言模型做的事情就是这样。 当模型参数量足够大,训练数据也足够多时,我们会觉得它好像在思考,因为预测下一个 token 的准确率比较高。维特根斯坦的相关理论也说明了语言和思维是直接相关的,我们无法超越语言去表达思维。 大语言模型通过大量语言资料训练,它的参数在一定程度上可以看作是固化的思维,也就是一些套路。这些套路能够解决重复出现的问题,但无法解决新问题。当套路无效时,模型仍会根据概率硬套这些套路,导致错误产生。 这是一个容易和 “ 幻觉 ” 混淆的点,即 “ 错误 ”。 重构软件工程项目时遇到这类问题的概率比较高。因为模型没有真正的全局思维,导致它在分析、推理和规划时,更多是在局部最优的层面解决问题。 这些错误并不是上下文长度的限制造成的。虽然上下文有限制,但推理时输入和内部权重参数之间会相互影响。即使给它更长、甚至无限的上下文,由于大语言模型算法架构和训练数据、方法的局限,注定还是会出错。 所以,哪怕推理模型引入了强化学习和思考能力,也只是有所提升,因为它会把以前生硬的直接概率,变成一系列反复验证后的间接概率,从而提升准确率。 具体而言,其实 AI 的思考就是在检索和重复验证,只是效率和准确率比人类更高,所以它很适合做科研。有一篇比较有影响的论文 “ Do Two AI Scientists Agree? ”,讲 AI 怎么从零开始发现大量物理定理。实际上你会发现 AI 能发现的物理定律,都是一些重复性的事情。 当然,这并不是影响 AI 应用的最关键问题。假设现在 AI 可以解决百分之七八十的问题,那剩下的百分之二三十的问题,暂时不做 AI 应用就行,这并不影响 AI 的推广。因为这个世界上发生的很多事情,百分之七八十甚至九十以上都是重复的。这些重复的事情,用结构化的思维、固化的思维去理解和解决是没有问题的。 知危:可否对上述方法和经验做一个总结性描述? 甄焱鲲:其实要减少幻觉,在实践中更多是想办法把人类的先验经验集成到 agent 和 AI 应用链路里,做有效约束。这方面有各种方法,比如通过规则方式做硬性约束,也可以训练强化学习模型,让它学到人类策略或有效策略来做约束。这些手段无非就是告诉大语言模型要干什么,并且在执行过程中做一些过程性干预。 最重要的原则,是 “ 以终为始 ”,要从 “ 想让 AI 解决的问题定义 ” 入手。很多时候 AI 有效,是因为我们已经能够清晰明确地定义 AI 要做什么事情。 先对问题的复杂度进行分级:越复杂、抽象的问题,就应该用越多的权重参数、算力,以及更多的辅助手段来更好地解决它;而越简单、越具象的问题,可能反而适合参数更少的模型,配合更硬的约束手段。所谓“更硬的约束手段”,比如模型的微调就是最硬的手段,其次是 LoRA,再次是 RAG,最后是 In-Context Learning。 顺着这个梯度去选模型和约束方式,就能找到一个合适的组合。 还有一个折中原则是,如果在解决过程中发现无论多强大的大模型、多好的算法工程或者辅助工程都解决不了这个问题,那就不要什么事都端到端解决,可以把部分问题环节用传统软件工程或算法工程解决,把它们组合成一个混合( hybrid )的架构和工程。 如果让 AI 解决的问题本身不适合 AI,或者问题非常复杂,那么无论做多大努力,它能达到的结果一定是差强人意的。 三、正确理解幻觉 知危:既然幻觉问题造成了那么多困难,也需要如此多手段来缓解,那么如何理解企业大规模应用大语言模型、取代传统机器学习方法的意义所在? 甄焱鲲:理论上来说,除了文本生成领域外,大语言模型在其它领域的应用越来越多了。但在决策推理、复杂规划等任务上,传统机器学习算法还是更有优势。 结合近期大语言模型、视觉模型也在结合典型传统机器学习方法比如强化学习的趋势,表明传统机器学习算法的优势是大语言模型无法替代的。但大语言模型的优势是,它可以低成本地做到传统机器学习算法能做的六七成的水平,这才是本质。 比如做数据分析,可以用传统机器学习算法做统计分析、回归等,来找到数据背后的模式,然后根据学到的模式做预测。甚至在一些特殊领域,可以通过拟合的方式刻意提高准确率,但是这样做成本比较高,门槛也比较高,涉及数据处理、算法设计、模型训练、评估,再到软件工程的部署等。 相比之下,使用大语言模型的话,只需要把某一个时间段的数据,直接丢给大语言模型分析结果。毕竟现在大语言模型的 context 已经很长,很容易处理这类数据,如此成本就很低。虽然分析结果还有各种局限性,但对于很多日常工作的场景已经能满足。 至于成本具体能降到什么程度,还是要看最终的场景需求。比如分析短期的数据,而且这些数据可以被大语言模型的 context 覆盖,那它的成本几乎为零。 如果数据量比较大,就需要通过 MCP或 agent 开发框架,把数据接入到大语言模型里面,可能还需要对数据做预处理,比如Pandas等传统的机器学习框架和数据框架,其实已经具备一定的 AI 能力了。 目前我们去开发一个 AI Agent 来解决这些问题,跟传统的软件工程比如算法工程、数据工程、软件工程等模块对比下来,开发工作量只有原始工作量的百分之二三十左右。 知危:从技术人员的视角理解幻觉,有哪些不同的体会? 甄焱鲲:在当前这个大环境下,对程序员跨领域能力的要求比较高。所以从我作为技术人员的角度来看,在这个过渡阶段,AI 编程带来的收益更容易让程序员接受,上手的速度比较快,这也是为什么像 Cursor 这类工具会这么火。 背后最本质的原因是,程序员本身懂技术,在学习或了解 AI 并不难的情况下,知道该怎么提问题或者怎么下达指令。而其他领域的人,比如 HR、行政、财务等在使用 AI 的时候,很多时候最大的挑战是他们不具备相关知识,导致没办法提出有效的问题。提出正确的问题或写出合适的提示词,其实门槛还是比较高的。 我们现在使用的大部分大语言模型,都是指令跟随版本,只要指令优化得足够好,大语言模型犯错、也就是产生所谓幻觉的概率和可能性,其实是非常低的。 从长远来看,其实幻觉的存在是相对的。如果你不知道,或者你无法判断的情况下,你就不知道它产生的结果到底有没有幻觉,毕竟现在 AI 胡说八道的时候语气还是一本正经的。但最终到底由谁来评估 AI 生成有没有幻觉?还得是人类使用者,这时可能需要更专业的或其他领域的使用者来判断。 知危:有些研究会把幻觉做一些类型划分,探讨了事实性数据和系统性数据的区别。系统性数据比如 1 + 1 = 2,事实性数据比如 “ 小明在 2025 年出生 ”,并提出事实性数据更容易出现幻觉。您对此有什么看法? 甄焱鲲:从我的视角看,早期大语言模型或一些传统 NLP 算法确实存在这类问题,但我觉得现在比较新的大语言模型架构、训练数据处理、指令微调方式,已经在很大程度上避免了这些问题。 目前模型技术在事实性产生错误的概率相对较小。据我了解,模型并不会生硬地去记忆事实性数据。 大语言模型出错的一个典型例子是它不知道 “ 9.9>9.11 ”,本质原因是模型内部并没有进行真正的数值计算。 不管是事实性数据还是系统性数据,都是一个概率计算问题。比如训练数据里有 “ 1 + 1 = 2 ”,但大语言模型并不是直接知道 “ 1 + 1 = 2 ”,而是基于概率。 本质上,它是基于统计概率,而不是逻辑计算。 如果想真正理解幻觉本身,和产生的根本原因,必须了解模型的技术细节,比如大模型训练时在做什么( 涉及前馈网络、注意力机制、query 机制等 ),推理时在做什么,我们干预它时它又在做什么。 知危:您在前面所表述的大模型永远无法完全解决的 “ 错误 ”,有什么具体的理论依据呢? 甄焱鲲:新加坡国立大学发表的论文 “ Hallucination is Inevitable: An Innate Limitation of Large Language Models ”,通过形式化定义 “ 幻觉 ” 并借助学习论证指出,LLMs 无法学习所有可计算函数,因此 “ 幻觉 ” 是固有而不可完全消除的。 另一项研究 “ LLMs Will Always Hallucinate, and We Need to Live With This ” 以 Gödel 不完全性定理和停机问题为基础,指出幻觉是 LLM 必然会产生的结构性产物,不论模型大小、数据多么丰富,都无法根除。 早期的研究从理论上证明了 Transformer 的图灵完备性,但都基于诸如无限精度和任意强大的前馈计算能力等假设。 而对于有限精度和有限前馈网络计算能力的 Transformer 架构( 也是更符合现实情境下的设置 ),其在理论上相当于常深度阈值电路( TC0 ) 的计算能力( 参考论文“ The Parallelism Tradeoff: Limitations of Log-Precision Transformers ” ),这说明它们只能处理相对简单的语言模式,面对更复杂、高组合深度的问题时力不从心。比如在多步推理组合任务中,如乘法、逻辑网格谜题或动态规划问题,Transformer 模型更多是通过 “ 线性子图匹配 ” 而非系统性推理来应对,随着任务复杂度上升表现迅速衰退。 知危:近期关于AI幻觉还出现了一些关于泛化性的研究进展,“ Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers ” 指出抑制幻觉的同时也会抑制 LLM 的泛化性。您对此有什么看法? 甄焱鲲:这些成果很有意义。 模型预测下一个词本质上是概率性的,这可能涉及概率学的本质以及概率在人类社会中的影响。必须存在概率,才能有决策的空间和可能性,进而才能具备泛化能力。 就像人一样,比如我们走路的时候,如果只有一条路,肯定不会走错,只有当有多条路的时候才可能走错,而新的路能带来新的可能。这个问题确实是无法消除的,因为 “ 对 ” 与 “ 错 ” 本身现在都很难定义。 有一种很有意义的情况,有时我们认为 AI 生成的结果是错的,只是因为我们不了解、不知道或没见过这样解决问题的方式,但它实际上是对的,这是 AI 创造性的体现。 再比如,大语言模型认为这个世界是虚拟的,我们觉得它在一本正经地胡说八道,产生了幻觉。但可能过了五十年或一百年,我们通过科学方法论证了世界是虚拟的,那么这个所谓的幻觉其实不是幻觉,而是前瞻性的观点。这有点类似于以前的很多科幻小说、科幻漫画、科幻电影,里面很多技术现在都实现了。那么它到底是不是幻觉?所以关键还是看我们怎么定义幻觉。 所以在对待幻觉这个问题时一定要小心,不能太武断地认为 AI 生成的内容没有现实依据就是幻觉。 四、行业趋势 知危:目前国内业界对 AI 幻觉风险的整体心态是否过度乐观? 甄焱鲲:恰恰相反。DeepSeek 是一个分水岭,在 DeepSeek 出现之前,无论是投资界还是业界,大家对幻觉带来的负面影响都有点过度恐慌。但在 DeepSeek 出来之后,整个行业包括大众都被 “ 教育 ” 了。大家对幻觉带来的影响,以及对幻觉的评估,变得更理性了,有时甚至觉得幻觉是良性的。 具体而言,以前更多是通过新闻报道或学术论文了解幻觉的影响,现在大家已经开始实装大语言模型来解决具体问题,所以会更客观、更清醒地判断:哪些场景下幻觉是可以接受的,哪些是不可以接受的;幻觉对不同任务的影响到底有多大,也能做出更现实、更准确的评估。 当然,相对来说在某些领域确实也存在 “ 过度乐观 ” 的情况,比较明显的是内容创作领域。现在有很多人并不真正了解幻觉是什么。有些人用 AI 辅助创作时,可能会过度乐观,直接把生成的内容公开发布,而对负面的影响和后果没有准确的理解和预估。 关于 “ 过度悲观 ”,主要是在一些比较严肃的领域,比如科研、工业制造、软件工程等场景,很多人会觉得,用大语言模型去解决一个问题,模型思考半天、花了很多钱、用了很多 token,最后也没解决好,还不如自己解决。而且,在应用大语言模型时,本质上是某种程度上对自己的替代,这时候很多人会有抵触心理,进而对模型做出过度悲观或负面的评价。 知危:AI 编程是否也是一个 “ 过度乐观 ” 的场景?特别是 Vibe Coding 火起来以后?很多智能体类产品推出得很快、更新频繁,但在实际使用中还是会有很多问题,尤其是幻觉的累积和错误溯源问题,让人头疼。即便 Claude 4 Opus 号称能连续工作 7 个小时完成编码任务,但仍有人指出其写出的代码是难以维护的。您对此怎么看? 甄焱鲲:现在很多 AI Coding 应用的做法其实还是比较简单粗暴的,属于 “ 大力出奇迹 ” 的思路,而且确实在一定程度上有效。 比如我曾试用一个开源的 AI 编程模型,让它帮我生成一个 Rust 语言的、用于监控当前网络端口访问情况的程序。它花了很长时间,大概两三个小时,才生成出来可编译的结果。 它之所以花那么长时间,是因为在不断检查编译器的报错并修正代码。但最后我运行时发现还是有问题。因为我用的是 Mac Studio,Apple Silicon 的 ARM 架构,它选用的那个库并不支持这个架构,最终导致运行出错。我又让它继续修改,它又花了大概两三个小时,才把这些错误都修正好,最后我才能正常运行和执行。 但如果是程序员来做这件事,可能很快就能解决。毕竟这就是库不兼容的问题,对于一般程序员来说并不复杂。 现在很多生成代码的方式,还是依赖枚举各种情况,用各种提示词和反复试错、反复检查。这种 “ 大力出奇迹 ” 的方式,也跟前面提到的大语言模型自身的特点有关,它不能真正思考,还是靠不断进行局部最优的生成能力来解决问题。 知危:这种 “ 大力出奇迹 ” 的方法会不会导致 token 消耗过高、成本难以承受? 甄焱鲲:这个问题非常重要。现在其实大家没怎么谈这个问题。原因是对资本家来说,他们投资了大语言模型供应商,正希望 token 被大量消耗,只有这样供应商才能赚更多钱。所以这个问题虽然存在,但往往被有意忽略。 当然,有很多开源项目或者行业里一些比较良心的软件,比如 Roo Code,就做了很多这方面的优化,比如上下文压缩、token 压缩,在重复试错时会主动停止,不会无限制地耗费资源。 反观一些其它软件修改代码时,比如一会说多了个花括号,把它去掉了;编译不通过,又说少了个花括号,又把花括号加上,然后又反复修改,重复了十几次,实际上这些重复一直在消耗资源。如果是用免费版还好,用付费版的话,这些重复修改就会一直消耗用户的钱。 当然,这个现象存在一定程度上也是可以理解的。一方面,AI 应用还处于非常早期阶段,大语言模型还在快速发展变化,比如 DeepSeek 刚出来不久,厂商们开始大量往模型里加推理能力,强化学习也才刚起步,阿里最近才把多 agent 集成到商业大语言模型里。因此,现在的 AI 使用方式比较粗糙,随着模型能力稳定下来,这些粗糙的使用方式会逐步优化和迭代,变得更加精细。 另一方面,目前 token 价格已经被压低,用户对价格的敏感度还不是特别高。从应用开发商的角度,也会更多希望用户能持续使用,而用户使用的前提是能帮他们解决问题。在技术还不够成熟的情况下,有时 “ 大力出奇迹 ” 的方法是必要的。 知危:对于未来通过底层技术变革解决或缓解幻觉上,您对哪个方向比较看好? 甄焱鲲:我更倾向于最近生成视频效果比较好的世界模型这条技术路线。 世界模型涵盖更广、更深,视频模型只是它的一种应用体现,主要用来展示模型能力。就像一滴水滴到管子上和一滴油滴到管子上,产生不同结果,这背后是模型权重参数驱动生成的。它主要是通过表象展示背后的思维能力,不是简单的 next token 预测,而是对事物真正的理解。 世界模型不是单纯通过数据生硬训练,而是让模型在训练过程中真正理解数据背后代表的概念、原理及它们之间的关系。 我更希望像训练小孩、培养人类思维成长一样,让 AI 构建起自己的思维体系。而且这种思维是动态变化的,能够适应周围世界的变化。比如这个模型可以部署在端侧,自主浏览网页、使用搜索引擎或查询数据。它还能自主决定是否把浏览到的概念或知识更新到自己的记忆里。 这是更偏向于 AGI 的发展方向。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。