行业分类:
加载中...
头条分类:
加载中...
13.28 万元起,宝骏享境用越级给你一个买它的理由
昨晚我在秋名山输给一辆五菱宏光,他用惯性飘移过弯。 五菱曾是「神车」的代名词,从汽油时代到电动车时代,五菱一直在低端车市场中占据着独特的江湖地位。 五菱宏光 MINI EV 曾创下上市 200 天,累计销量就突破 20 万台的记录,在 2020 年,上汽通用五菱曾超过上汽大众,成为上汽集团旗下汽车销量最高的企业。 但随着新能源汽车市场的快速发展,微型电动车市场的规模和利润空间都在不断被压缩,五菱想要不被时代淘汰就必须快速打入主流乘用车市场。 最近几年,五菱进行了产品线的扩充,推出五菱缤果定位 A0 级小型车,五菱星光定位 A 级家用轿车,也通过宝骏品牌跻身了 10 万元以上的主流汽车市场。 但在长期以来的低端印象影响下,五菱碰到的很多客户都有同样的迟疑——「为什么要花 XXX 万买一辆五菱?」 在五菱过往几年尝试向微型车外的市场发展时,他们不止一次的被问到这个问题。 而今天发布的享境给出的答案是——越级。 享境这次提供了140km 插混标准版、140km 插混豪华版、600km 纯电标准版、600km 纯电豪华版 4 款车型,预售价区间为 13.28 万元-15.58 万元。 每一款在智驾、安全、舒适性上都做到了越级。 宝骏的团队在调研后发现,找车位和泊车是实践中用户最常用的智驾功能,于是这次享境除了传统的泊车系统之外,这次还标配了「漫游探索」和「云端地图」两项功能。 如果到达地点是宝骏已经完成建模的热门停车场,用户可以直接在车机提前选好车位,到达后自动泊入。而如果车位被占用或者在没有建模的停车场,宝骏的代客泊车功能也可以自行在场内搜寻可用车位后泊入。 除了泊车以外,这次宝骏搭载的智驾系统也搭载了无图城市领航功能,可以在不依赖高精地图的情况下实现 0 速起步,在日常城市通勤、复杂乡镇路况等场景下都有不错的智驾水平。 宝骏这次在安全配置上给的很足。 除了 0-130 km/h 都可用的全速 AEB 之外,享境还标配了0-10 公里的倒车 AEB,以及油门防误踩功能。同时针对电动车前插、行人串行以及雨天和黑夜等复杂场景,宝骏也做了针对性优化,都能做到及时提醒。 同时全车配备了 10 个安全气囊,采用 80%高强钢笼式车身,能有效抵抗碰撞变形;同时搭载的神炼电池也采用了短路、不漏液、不起火的「三不」安全电芯。 宝骏这次的外观设计也挺有质感。 整车尺寸 5005mm×1900mm×1490mm(纯电版)/1505mm(插混版),轴距达到了 2900mm,直接跨入了中大型轿车的地盘。 这次一共有五种颜色可选,命名也都是名驹的命名,不得不说,翔麟紫这个颜色在灯光下看着确实非常有质感,据说是巴斯夫为宝骏享境量身定制的专属车色。 内饰设计上,宝骏则很直接的说在对标理想,使用了理想同款的Nappa 真皮座椅和同款 PU 材质软包,整个包覆面积大概是 5.12 m²,同时在周边配置上也没省,像是通风座椅、双层夹胶玻璃、米其林轮胎、隔热天幕这些都是标配。 宝骏这次的纯电版用的是一台 186kW 的驱动电机,最高时速 170km/h。搭载了磷酸铁锂电池组,官方说 CLTC 工况续航能跑 600km,官方自己测试说高速续航达成率超过了72%,也就是 400 多公里,日常代步还是够用的。 插混版则搭载了一套 1.5T 发动机+电机的混动系统,热效率高达 43.2%,发动机输出 105kW,电池容量 20.5kWh,纯电续航 101km,油耗 4.8L/100km,一箱油 53L 差不多能跑 1100km。 不是做高不可攀的奢侈品,而是做普惠大众的必需品,持续探索百姓「用得起、用得上、用得好」的科技。 很能体现宝骏「人民需要什么,五菱就造什么」的一个功能是,五菱和宝骏有相当一部分用户来自于非一线城市,宝骏为了能够更好的适配不同人群的使用需求,在座舱的语音交互上专门针对各地方言进行了优化,一共支持粤语、四川话等8种方言和重口音的识别。 看的出来,五菱这次相当精准的找到了自己的目标客户在哪,了解到了他们最需要、感知最强的功能是什么,然后用 13 万的价格给到了 20 万的配置。
豆包消灭联网搜索
坚持不在豆包中接入DeepSeek的字节,在自研深度思考功能上又有了新动作。 继3月18日豆包APP全量上线深度思考功能后,时隔十天之后,近期豆包又对深度思考功能做了番更新,主要亮点在于将联网搜索能力直接融进了思考过程中,可以实现“边想边搜”。直白点理解,就相当于豆包把联网搜索键与深度思考键合二为一了。 此前,在DeepSeek R1爆火后,深度思考和联网搜索两大功能,一度成为AI助手类产品的设计新标准。 根据字母榜(ID:wujicaijing)实际体验,豆包上述二合一的新产品设计,除了在页面布局上直接消灭了联网搜索键外,更重要的内在改变是重构了大模型的推理过程。 DeepSeek R1在开启联网搜索后,其推理过程是先搜索网页,再根据网页内容展开思考,一般只进行一轮搜索。作为对比,豆包融合联网搜索的深度思考模式,则是先进行一番思考,然后基于思考去搜索相应网页,并结合网页具体内容再展开新的思考,往往会进行2-3轮的多轮搜索。 更形象地类比,“豆包等于把联网搜索做成了一个内置在深度思考功能内的Agent。”在国内从事大模型创业的李振看来,豆包深度思考内嵌入的联网搜索功能,做法上更像是OpenAI推出的Deep Research,或者是Grok 3推出的DeepSearch功能。 这些DeepSearch类Agent的一大特征,就在于可以操控网络浏览器获取实时信息,从而具备自主执行简单网络任务的能力。 但人类的日常生活中,并非事事都需要开启深度思考的Agent模式。豆包上述产品更新带来的一大问题就在于,通过强制将联网搜索嵌入深度思考过程,使得即便是面对简单问题,也需要机械式地进行多轮搜索,在用户体验上造成一些不必要的等待过程。当字母榜询问“今天北京天气”时,豆包在做了四轮搜索后,才给出了答案。 不过,值得一提的是,通过减掉联网搜索键,豆包在推动AI尽可能像人一样去搜索问题、寻找答案上,给出了自己的新尝试,某种程度上也相当于开始跟DeepSeek抢夺产品设计的定义权。 面对AI助手类产品越加越多的功能和按键,国内头部大厂产品经理刘凯(化名)将其归结为“抽象泄露”法则在AI领域的显现。 “抽象泄漏”,多指在软件开发时,本应隐藏实现细节的抽象化不可避免地暴露出底层细节与局限性,而抽象化本来目的就是向用户隐藏不必要公开的细节。 体现在AI类产品设计中,“即用户被迫理解不同的模型选择,如基础模型、推理模型的区别,以及勾选联网搜索和深度思考功能与否的差异等,越来越背离理想中的无缝体验。”刘凯说道。 但上述现象正有望随着模型迭代而改变。从Anthropic发布的全球首个混合模型Claude 3.7 Sonnet,到OpenAI CEO山姆·奥特曼预告中的大一统模型GPT-5,未来一个模型解决所有问题正逐渐成为共识,同样,未来一个按键就解决所有用户需求或许也将是产品演进的终局。 DeepSeek R1在年初爆火之后,联网搜索由此成为一个新的按键,标配在一众AI助手产品中。 最新(可能也是主流大模型公司中最后一家)选择跟进的是Anthropic,其在近日宣布聊天机器人Claude即将启用网络搜索功能,打破了自身一直维持的“自给自足”设计理念,开始提供更多实时检索信息,来回应用户的需求呼唤。 R1之前,AI助手类产品中并没有联网搜索独立按键的身影。 2022年底ChatGPT刚刚发布时,并不能进行联网搜索,大模型所提供的信息截止到2021年7月份,也暂不具备从其经验中学习的能力。 当2023年3月份百度文心一言发布后,其对外宣传的产品亮点之一,便是引入了检索增强(RAG)技术,在给模型补上获取实时信息的短板之外,还可以起到帮助削弱模型幻觉的作用。 DeepSeek在R1推理模型上新设计的联网搜索按键,则在此前检索增强技术的基础上,使得模型获取网页的数量和丰富度,进一步提高。同样以查询“今天北京天气”为例,不开启深度思考和联网搜索,仅靠检索增强支持的基础模型,一般能够检索个位数的网页链接,开启联网搜索后的深度思考模式下,模型获取的网页链接数量则飙升到数十个。 目前,根据DeepSeek给出的回答,其模型知识库仅更新到2024年7月,所以在没有勾选联网搜索的情况下,面对“今天北京天气”的询问,R1会告诉用户自己无法提供实时天气数据,并建议用户开启联网搜索功能。 之所以进入到推理模型后,大模型厂商才开始将联网搜索拆分出来,单独设计了一个新的按键,其首要原因便在于控制算力消耗成本。人工智能商业化专家丁坤博士告诉字母榜,深度思考功能本身调用的算力就更大,如果每次推理还要再进行一番联网搜索,会将算力资源的消耗量推向新高。 R1爆火之后,英伟达创始人黄仁勋就对外多次强调,推理模型正在消耗更多的计算能力,“(推理模型)可以消耗100倍以上的计算资源,而未来的推理模型将消耗更多的计算资源。” 同时,考虑到当下大模型厂商C端的商业变现手段更多通过订阅制,将深度思考和联网搜索分开设计,也是出于一种商业化的考量,“分开设计有利于形成产品梯度,刺激用户购买付费版本。”丁坤解释道。 这一点在OpenAI、Anthropic和Grok上都有着直观体现。尽管2月份后OpenAI向ChatGPT免费用户也开放了推理功能,但却从思考深度和思考次数上给出了限制。ChatGPT免费用户只能使用o3-mini模型的推理能力,如果想体验更强大的o1-Pro或o3-mini高性能版推理模型,则需要花费每月20美元或200美元,成为OpenAI的Plus或Pro付费订阅用户。 此外,从用户体验侧考量,丁坤博士认为,深度思考和联网搜索功能分开,则可以平衡用户对生成答案更快和更好之间的需求。对于那些没有时效性的问题,用户便可以只勾选深度思考,从而更快获取答案。 豆包一反行业常态,将联网搜索和深度思考合二为一的背后,也有着自己的诸多考量。 国内头部大厂产品经理刘凯(化名)向字母榜分析道,在产品增长中,内部往往会关注一个重要指标即用户漏斗,其分为获取、激活、留存、转化变现四大阶段。 在获取新用户上,国内外AI厂商都越来越看重“好奇流量”,“只要一个产品看起来有一些不一样的神奇功能,或者哪怕没有落地,还只是炫酷的演示Demo,就会吸引用户快速尝试。”刘凯进一步指出,激发好奇流量的手段之一,便是对产品进行微优化。 有时候,一个很小的产品变化,也会大大提高AI产品的活跃用户基数,例如去年凭借率先押注长文本出圈的Kimi,今年率先展示思维链的DeepSeek,它们都借助一次产品更新,在好奇流量的加持下,获得了梦寐以求的病毒式传播机会。 但并不是每一次产品更新,都能成功引来“好奇流量”。年初,晚于DeepSeek R1近两天发布的豆包1.5 Pro大模型,尽管在预训练和推理成本上还要低于DeepSeek V3,但却因为模型体验不如前者,而未能在舆论场上激起太多水花。 这次,豆包消灭联网搜索的产品优化之举,在过去一周左右时间后,也暂未迎来行业破圈效应。 但在国内一众AI助手产品中,豆包又有着更迫切的规模增长需求。 DeepSeek爆火之前,豆包是中国月活用户数最多的AI助手应用。在被DeepSeek赶超后,据晚点LatePost爆料,2月份的All Hands全员会上,字节CEO梁汝波列出了2025年的重点目标,其中之一便是要求团队加强规模效应,继续做大豆包用户群。 QuestMobile向《财经》提供的数据显示,截至3月4日,DeepSeek、豆包日活跃用户分别是4885万、2947万。而梁汝波今年对豆包的DAU也提出了新目标,晚点LatePost报道中,今年豆包的 DAU 目标是超过 5000 万。这意味着,在未来三个季度内,豆包日活用户规模,差不多要翻一倍。 支撑豆包追求更大规模用户,以及顶着算力消耗压力将联网搜索融入深度思考功能中的底气之一,都离不开字节在GPU上的充裕储备。 受益于推荐算法时期积累的芯片使用量,2023 年时,有媒体报道字节GPU储备已超过10 万块;在外媒最新报道中,2025年字节AI算力采购预算将高达900 亿元以上。 在豆包做出尝试的功能融合方面,已经有大模型厂商选择了跟进。 近期,百度通过“自研+开源模型”的组合,新上线了“自动模式”。该模式下,大模型能够自动识别用户需求,从而自主选择合适模型来生成答案,在产品界面上,不仅不再展示联网搜索键,连深度思考键也一并隐藏了起来。 在功能融合之前,一场围绕模型的融合试验,在过去一个月内已经频繁上演。 3月25日,DeepSeek官宣V3版本更新。新版本V3-0324虽然不是推理模型,但却有了一丝丝的R1味道。官方技术报告中透露,V3-0324和之前的V3使用的base模型相通,但改进了后训练方法,并借鉴了R1推理模型训练过程中的强化学习技术。 几乎同一时期,腾讯新上线的混元T1正式版推理模型,则在保证内容精细和准确度的前提下,通过首次将混合Mamba架构无损应用于超大型推理模型,将快慢思考结合了起来,从而达到缩短用户等待生成结果时间的效果。 不止国内,国外大模型公司也都在往模型融合统一的道路上迈进。 此前奥特曼在谈及GPT-5的计划时就曾经说道,模型和产品功能太复杂,未来OpenAI将实现统一,o3推理模型不再单独发布,GPT-4.5也将是OpenAI最后一个非链式思维的基础模型。 Anthropic更是抢先OpenAI一步,在2月底发布了“全球首个混合模型”Claude 3.7 Sonnet,在单一架构上整合了实时应答(Fast Thinking)和深度思考(Slow Thinking)。用户不需要在不同的模型间进行切换,而是靠模型自行判断当前问题是否需要深度思考。 未来,随着模型回归一统,在刘凯看来,模型载体之上的一系列功能按键,也有望回归更加简洁的设计,最终使得AI产品体验无限趋近于人。 之所以当前阶段一众AI助手产品加入了五花八门的功能标签,背后则是大模型产品用户渗透率还比较低的现实困境。“大部分用户还是抱着好奇心态,尝鲜过后要么想不起来用,要么不知道打开后该问什么。”刘凯表示。 基于此,眼下的AI助手类产品,为了激发用户的体验热情,往往会借鉴搜索引擎的设计理念,如向用户推送弹窗消息,在输入框下方主动设置一些供人点击的新闻链接等。 除了用户使用频率不高之外,大模型技术尚未进入成熟稳定期,也是促使其产品功能标签众多的原因之一。 国内外的一众大模型厂商,目前其实都是基于一个非确定性系统极高的模型来设计产品,这导致的一种情况是,大多数AI厂商以“模型思维来主导产品设计,而非应用思维。”李振举例称,ChatGPT起初也只是为了展示OpenAI的模型能力而构建的,并不完全是为了打造一款面向消费者端的大众应用。 就连奥特曼都在近期接受采访时坦承,当时内部只是在以一个研究实验室的标准来运行,根本没有想过会成为一家消费科技公司。 但随着模型普及教育的不断深入,越来越多大模型厂商开始重视起核心用户体验,“这就是产品一步步更像人的演化过程。”李振解释道。 参考资料: 《智谱AI CEO张鹏:当下被忽略的大模型“反共识”》腾讯科技 《字节AI再创业:独立组织、全链条的饱和出击》晚点LatePost 《字节大模型全员会,朱文佳和吴永辉一起聊了方向、组织和开源》极客公园 《Sam Altman :GPT-5 将免费开放,DeepSeek 教训了我们》APPSO 《2025 APP流量竞争新观察》QuestMobile
中国“本源悟空”量子计算机全球首次运行十亿参数AI大模型微调
据《新华日报》与《科创板日报》报道,安徽省量子计算工程研究中心透露,本源量子、合肥综合性国家科学中心人工智能研究院等机构联合攻关,在我国第三代自主超导量子计算机 “本源悟空” 真机上,成功完成全球首次十亿参数 AI 大模型微调任务。合肥综合性国家科学中心人工智能研究院副研究员陈昭昀指出,这是量子计算首次 “真机实战” 大模型任务,意味着现有硬件已初步具备支撑大模型微调的能力。 实验数据显示,在参数量减少 76% 的情况下,训练效果反而提升了 8.4%。这一成果不仅验证了量子计算助力大模型轻量化的可行性,更为解决大模型面临的 “算力焦虑” 问题开拓了新途径。 微调是基于通用大模型(如 DeepSeek、Qwen),通过对特定领域数据的进一步训练,使其适配医疗诊断、金融风控等专业场景。传统低秩微调存在性能瓶颈、泛化能力不足等难题,而量子计算利用其叠加态和纠缠态特性,能够同时探索海量参数组合,有效提升大模型微调效率。本源量子副总裁窦猛汉形象地比喻,这如同给经典模型装上 “量子引擎”,实现两者协同。团队创新性设计了 “量子加权张量混合参数微调”,将模型权重转化为量子神经网络与张量网络混合架构,前者借助量子门操作提取高维非线性特征,后者则用于压缩参数规模。 在 “本源悟空” 的量子芯片上,单批次数据可生成数百个量子任务并行处理。实验表明,优化后的模型在心理咨询对话数据集(CPsyCountD)上训练损失降低 15%,数学推理任务(R1-Distill-SFT)的严格准确率从 68% 提升至 82% 。陈昭昀再次强调,此次成果证实了现有硬件对大模型微调的初步支撑能力。 公开资料显示,“本源悟空” 作为我国第三代自主超导量子计算机,搭载 72 位自主超导量子芯片 “悟空芯”,是当前先进的可编程、可交付超导量子计算机。其命名灵感来源于神通广大、会七十二变的神话人物孙悟空。2024 年 1 月 6 日 9 时,“本源悟空” 在本源量子计算科技(合肥)股份有限公司上线运行。今年 2 月 14 日,该计算机全球访问量突破 2000 万次,刷新我国自主量子算力服务规模纪录。
Llama 4 是开源模型的全面倒退?
“Llama 4 是开源模型的全面倒退。”——在Meta发布新一代大模型不到24小时内,这样的质疑声音已经出现在多个技术社区。 Llama 4 真的不如前代?还是它只是“看起来拉胯、实则有料”? 昨天,Meta正式推出新一代开源大模型 Llama 4,带来了两个混合专家(MoE)架构的版本:Scout(109B总参数,17B活跃参数)和 Maverick(400B总参数,17B活跃参数)。这一代模型不仅原生支持图文输入,还将上下文窗口拓展至惊人的 1000万 token,在规格参数上堪称“顶配开源”。 然而,随着初步评测和对比结果浮出水面,人们发现——它的实际表现,可能没有我们想象中那么强。 本文将基于 Artificial Analysis 的独立评估数据和社交媒体舆情,深入剖析 Llama 4 的技术亮点、实际表现与竞品差距,并探讨这款“争议中亮相”的新模型究竟是开源未来,还是开源瓶颈的缩影。 Artificial Analysis是一家专注于AI技术创新的公司,致力于提供高效的数据分析和智能解决方案,旨在加速人类解决问题。其前瞻性技术备受关注。吴恩达评论:“这是一个很棒的网站,测试LLM API速度,帮开发者选模型,补充了其他质量评估,对智能代理至关重要!” 性能对比:差距不是一点,是一整条街 Artificial Analysis通过其Intelligence Index(涵盖MMLU-Pro、GPQA Diamond、HumanEval等非推理模型评估)对Llama 4进行了独立测试,具体结果如下: 1.总体性能(Intelligence Index) 从最新的 Artificial Analysis Intelligence Index 综合榜单来看,Llama 4 的表现让人大跌眼镜。 在这份集通用推理、科学推理、编码、数学等七项任务为一体的硬核评测中,Google 的 Gemini 2.5 Pro、xAI 的 Grok 3、以及 DeepSeek R1 牢牢占据前三,综合得分分别为 68、66 和 66,实力堪称天花板级别,属于开局即封神的选手。 而反观刚刚发布的 Llama 4 系列: -Maverick 得分 49,不仅被前述三强甩出十几分的距离,连 OpenAI 的 GPT-4o和阿里的 QwQ-32B都没打过,未能进入第一梯队,只能勉强跻身中游。 -Scout 得分仅为 36,直接与 GPT-4o mini 打成平手,甚至被 Google 的 Gemma 3 27B按在地上摩擦,表现惨不忍睹。 这意味着,无论是旗舰定位的 Maverick 还是轻量版的 Scout,都未能在关键指标上与主流竞品拉开差距。特别是 Scout,不仅没展现出“小而强”的性价比,还在多项任务中落后于前代产品与同量级模型。 一句话总结:“看起来很强,打起来很虚”,是当前市场对 Llama 4 初版表现最真实的反馈。 在非推理任务的对比中,Llama 4 的表现可谓喜忧参半。Maverick在开源模型中算得上发挥稳定,成功超越部分闭源竞品,展示出一定的专业处理能力。然而与顶级模型如 DeepSeek V3 和 GPT-4o相比,依然存在明显差距,说明其综合实力尚未达到第一梯队的水平。 Scout则更为克制,没有惊喜也没有翻车,整体表现与GPT-4o mini相当,虽不具备突破性优势,但在资源受限场景下仍具备一定实用价值。 总体来看,Llama 4系列虽在非推理能力上具备一定基础,但距离“强通用、强专业”的开源标杆,还有一段路要走。它们更像是一次架构和方向的试水,而不是一举超车的终局之作。 2.具体任务表现 Artificial Analysis的评估数据(详见附图)涵盖了通用推理、科学推理、编码和数学等多个领域,我将相关任务合并分析,聚焦Llama 4(Scout和Maverick)的表现趋势,并与主要竞品DeepSeek V3、Claude 3.7 Sonnet、和GPT-4o mini对比,揭示其优势与不足。以下简要补充各指标的含义和重要性,帮助理解评估维度。 1)通用推理:稳中有位,但缺乏突破 通用推理评估模型在广泛知识和综合推理能力上的表现,MMLU-Pro覆盖57个学科的知识广度,Humanity’s Last Exam则测试复杂推理能力。这类指标对衡量模型在教育、问答等通用场景的适用性至关重要。 Maverick在通用推理任务中表现稳健,在MMLU-Pro中排名靠前,与GPT-4o、Claude 3.7 Sonnet等模型同等,但略逊于DeepSeek V3 V3(Mar 25)。Scout的表现则比较落后,低于Mistral Small 3和GPT-4o mini。 在Humanity’s Last Exam中,Maverick同样位列前茅,接近DeepSeek V3(Mar 25),优于GPT-4o 和Claude 3.7 Sonnet,Scout则排名中游,略高于Mistral Small 和GPT-4o mini。 结论:在通用推理相关任务中,Maverick 的表现整体可圈可点,尤其在知识广度和复杂推理方面接近一线闭源模型,虽然略逊于 DeepSeek V3,但基本站稳中上游位置。Scout 则明显吃力,整体排名不高,甚至落后于部分轻量模型,反映出其在处理广义知识类任务时的适应能力仍待加强。 2)科学推理:开源难题,Llama 4未解 科学推理通过GPQA Diamond测试模型在生物、物理、化学等领域的专业推理能力,强调多步推理和深度理解,对评估模型在学术研究、技术文档处理等专业场景的表现尤为重要。 Maverick在科学推理任务中的表现显著低于DeepSeek V3和Claude 3.7 Sonnet的水平,排名靠后,未能展现出与顶级模型竞争的能力。Scout的表现则稍显逊色,不仅远低于GPT-4o mini,甚至低于Meta自己的Llama 3.3 70B,显示其在专业领域推理上的明显不足。 结论:面对生物、物理、化学等专业领域的深度推理任务,Llama 4 表现疲软,尤其是 Maverick,虽为高配模型,却未能在多步逻辑和专业理解上展现出预期能力,明显落后于 Claude 和 DeepSeek。Scout 的表现则更加堪忧,不仅输给 GPT-4o mini,甚至被 Llama 3.3 70B 反超,显示其在学术和技术类场景中的适用性非常有限。 3)编码能力:基础乏力,高难勉强及格 Maverick在编码任务中的表现未达预期。在基础编码能力(HumanEval)上,Maverick远低于GPT-4o、Claude 3.7 Sonnet以及DeepSeek V3,仅达到GPT-4o mini的水平,显示其在基础代码生成上的竞争力不足。 在更具挑战性的竞赛级编码(LiveCodeBench)和科学编码(SciCode)任务中,Maverick的表现进一步回落,与DeepSeek V3和Claude 3.7 Sonnet的差距不太明显。 Scout在基础编码和科学编程任务中表现垫底,排名靠后,远低于大多数竞品。然而,在高难度编码任务(LiveCodeBench)中,Scout的表现意外接近中位值,与Claude 3.5 Haiku水平相当,展现了一定的潜力。 结论:Maverick 在代码生成任务中并未脱颖而出,基础编程任务的完成度不高,与领先模型存在明显差距。面对竞赛级和科学编程挑战时,其表现更为拉胯,难以支撑复杂开发需求。Scout 则在大部分编码任务中垫底,虽在高难度挑战中偶有亮点,但整体竞争力仍偏弱,不具备“开发者友好”的实用价值。 4)数学:基础尚可,高阶失守 数学任务评估模型的定量推理能力,MATH-500测试常规数学问题解决能力,AIME 2024则聚焦高难度竞赛级数学推理。这类指标对教育、科学研究和金融建模等需要强大数学能力的场景尤为关键。 Maverick在定量推理任务(MATH-500)中表现较为稳健,排名靠前,超越Claude 3.7 Sonnet,但与DeepSeek V3仍存在一定差距,显示其在常规数学问题解决上的竞争力。Scout的表现同样可圈可点,优于GPT-4o mini,并接近Claude 3.7 Sonnet的水平,展现了不错的基础数学能力。 然而,在高难度的竞赛级数学推理任务(AIME 2024)中,Maverick表现不佳,远落后于DeepSeek V3,仅略高于GPT-4o。 结论:在数学推理方面,Llama 4 两个版本表现出较为明显的分化。Maverick 在基础数学任务中稳健发挥,部分场景甚至可与主流闭源模型媲美,Scout 也展现出一定的定量推理能力,优于部分轻量模型。然而,进入竞赛级高难度数学任务后,两者均显得力不从心,与 DeepSeek V3 等强模型的差距明显拉大,暴露出复杂推理能力上的短板。 总结:差距不是一点,是一整条街 综合来看,Llama 4(Maverick 和 Scout)在非语言生成的关键能力维度上,与 DeepSeek V3 之间存在系统性差距。Maverick虽有部分亮点,但始终处于“差一点”的状态,在科学推理、编码和高阶数学上几乎全面落后。Scout的表现则更为惨烈,不仅被 DeepSeek V3 和 Claude 系列全面碾压,甚至在多个维度不敌小模型选手,令人质疑其在专业场景中的实际价值。 Llama 4 所展示的更多是架构层面的潜力,而非实打实的能力跃迁。除非在未来版本中针对专业推理、复杂任务场景进行重点优化,否则很难在真正需要“硬实力”的场合,成为开源替代品的第一选择。 模型效率 与DeepSeek V3相比,Llama 4 Maverick的活跃参数大约只有其一半(17B对37B),总参数也仅为其60%左右(402B对671B),这表明Maverick以更高的效率实现了其性能表现。此外,Maverick还支持图像输入,而DeepSeek V3则不具备这一功能。 价格 Artificial Analysis追踪6家服务提供商,并对比评估了Maverick的中位价格为每百万输入/输出token 0.24美元/0.77美元,而Scout的定价为每百万输入/输出token 0.15美元/0.4美元,其价格不仅低于DeepSeek v3,相比OpenAI领先的GPT-4o接口更是便宜超过10倍。 最后 那么,Llama 4到底是不是“开源模型的全面倒退”?从目前的测试结果来看,这种说法虽显极端,却并非毫无根据。 在多个关键任务中,Maverick 勉强追平主流闭源模型的尾巴,而 Scout 则在小模型领域表现平平,甚至被自家的 Llama 3.3 70B 反超。相比之下,DeepSeek V3 的统治力更像是给所有开源模型泼了一盆冷水。 但退一步看,开源的价值不止于性能指标,更在于长期可控性、社区生态与开放创新的累积潜力。Llama 4 的多模态架构、超长上下文和低廉定价,依然在为未来铺路——也许不是现在碾压闭源的“终极答案”,但可能是通往答案的那一步。 最终,它是倒退还是转折,要看 Meta 和整个开源社区,能否在质疑声中继续优化、快速迭代,把短板变成支点。真正的竞争,还远远没有结束。 © AI范儿
豪掷36亿!传OpenAI收购AI硬件公司,前苹果首席设计师创办
编译 | 王涵 编辑 | 漠影 智东西4月7日消息,据外媒《The Information》报道,OpenAI在最近几周内一直在商讨收购初创公司io Products的相关事宜。 该公司由OpenAI首席执行官萨姆·阿尔特曼(Sam Altman)与前苹果公司首席设计师兼资深副总裁乔纳森·艾维(Jony Ive)合作创立,专注于研发由人工智能驱动的个人设备。有消息称,OpenAI高层曾考虑过至少5亿美元(约合人民币36.41亿元)的收购价格。 一、io Products:乔纳森·艾维创办的神秘AI硬件公司 io Products由OpenAI首席执行官萨姆·阿尔特曼与前苹果公司首席设计师兼资深副总裁乔纳森·艾维的设计工作室LoveFrom合作创办。 ▲乔纳森·艾维的设计工作室LoveFrom LOGO 该公司从电影《她》(Her)中获取AI伴侣的交互体验灵感,专注于研发由人工智能驱动的个人设备。据相关人士透露,阿尔特曼在该项目中并非联合创始人,但一直密切参与产品开发。 报道指出,其人工智能设备设计尚处于起步阶段,尚未最终定型,但一些颇具潜力的设想已经浮现,包括无屏幕 “手机” 和搭载人工智能技术的家用设备。该创新设备有望革新用户与科技产品的互动方式,在智能助手、健康监测等领域广泛应用。 二、始于2024秋的谋划:io Products融资布局展开 早在去年秋季,乔纳森·艾维与萨姆·阿尔特曼合作的消息就已传出,只不过那时尚处于洽谈的初步阶段。直到近期,双方的合作计划才逐渐明晰,筹备工作似乎也正式步入正轨。 据悉,该次合作计划筹集高达10亿美元(约合人民币72.82亿元)的资金,为项目开展提供坚实的资本支持。目前,合作团队已与软银(Softbank)创始人兼CEO孙正义就资金合作展开洽谈。 除孙正义外,潜在投资人还囊括了投资机构Thrive Capital,以及由苹果公司前CEO史蒂夫·乔布斯(Steve Jobs)的遗孀劳伦娜·鲍威尔·乔布斯(Laurene Powell Jobs)创办的创投公司及慈善组织Emerson Collective。 三、OpenAI收购行动:布局AI全领域 OpenAI近年来资本动作频频,通过收购和战略合作积极布局,以强化其技术生态和减少对外部供应链的依赖。 2024年,OpenAI的战略布局举措不断。曾有消息传出OpenAI曾考虑收购Cerebras,以获取芯片制造能力,减少对英伟达的依赖,进而优化AI训练成本,但该交易最终未公开确认。 ▲Cerebras芯片概念图 同年,OpenAI参与了一轮对Figure AI的6.25亿美元融资。两者合作开发的人工智能模型已应用于Figure AI最新推出的人形机器人Figure 02。对OpenAI而言,这意味着其AI技术在机器人硬件载体上有了新的应用场景。 ▲Figure AI人形机器人Figure 02 2025年3月14日,OpenAI与软银合作,计划将日本大阪的前夏普液晶面板工厂改造成AI数据中心。该中心用于训练和运行AI智能体,增强OpenAI的计算基础设施,减少对第三方云服务的依赖。 四、结语 从能够控制用户网页浏览器的人工智能软件,到人工智能服务器芯片,再到仿人机器人,收购io Products无疑将为OpenAI快速扩张的产品阵容增添新的亮点。 据外媒评论,这不仅有助于ChatGPT的开发商OpenAI将其人工智能产品推向数以百万计的消费者,同时可能会使其与艾维的前雇主、OpenAI重要合作伙伴——苹果公司展开直接的竞争。 这一交易也有望推动AI行业从单纯的软件技术发展向软硬件深度融合的方向转变。
秘密打造 AI iPhone,苹果灵魂设计师的公司要被 OpenAI 收购了
AI 时代 iPhone AI 时代的 iPhone 会是什么? 据 The Information 援引知情人士消息称,OpenAI 近几周曾讨论以不低于 5 亿美元(约合人民币 36.41 亿元),收购由 OpenAI CEO Sam Altman 与前苹果首席设计官 Jony Ive 合作成立的 AI 公司。 此前,媒体已报道称,他们计划联手开发一款由 AI 驱动的个人设备,也被外界冠以「AI 时代的 iPhone」的头衔。 消息人士表示,这款 AI 设备的设计仍处于早期阶段,具体形态还未敲定。 可能的方案包括一种没有屏幕的「手机」和具备 AI 功能的家用设备。不过,项目相关人员强调,它不是传统意义上的手机。 Ive 与 Altman 早在一年多前就开始讨论一款设备,这款设备承载了 Altman 的梦想——打造一种可以语音互动的 AI 助手,类似电影《Her》中的科幻情景。 这项 AI 硬件创业项目被名为 io Products。 据知情人士透露,io Products 雇佣了工程师来制造设备,OpenAI 提供了 AI 技术,而 Ive 的 LoveFrom 工作室则协助进行设计。Altman 则一直深度参与该产品的开发,但并不是该项目的联合创始人。 至于他是否在该硬件项目中持有经济利益,目前尚不清楚。 知情人士还透露,OpenAI 正在考虑除全资收购外的其他合作模式。OpenAI 高层曾考虑的收购价格不少于 5 亿美元。收购还将包括一个一直在开发这款设备的工程师团队。 目前尚不清楚近期参与该 AI 设备初创项目,曾负责 iPhone 产品开发的 Tang Tan,以及接替 Ive 在苹果担任设计领导的 Evans Hankey 是否会随本次交易加入 OpenAI。 截至发稿前,OpenAI 和 Ive 的发言人均拒绝置评。 实际上,早在去年,就有消息称,该项目已从 Laurene Powell Jobs 的 Emerson Collective 以及其他公司获得了未披露金额的融资,当时,其中一位参与谈判的人士表示,Ive 希望筹集高达 10 亿美元的资金。 Emerson 的创始人 Laurene Powell Jobs ,与 Altman 和 Ive 都有着很久的交情 。 Emerson Collective 既是一个慈善组织,也是一家风投公司,其投资项目包括支付服务提供商 Stripe、金融科技公司 Chime 以及人力资源软件销售商 Gusto。 据悉,自该公司成立之初,包括软银 CEO 孙正义也一直与 Altman 和 Ive 进行交流,只是他的具体参与情况目前也依旧尚不明确。 有趣的是,纽约时报曾在去年曝出了 Ive 和 Altman 相识的经过。 Ive 在 2019 年离开苹果后,成立了一个名为 LoveFrom 的设计工作室,也曾为苹果提供服务。Airbnb CEO Brian Chesky 是 LoveFrom 的早期客户之一。 Brian Chesky 同时也是 Altman 的好友。去年,Chesky 安排 Jony Ive 和 Sam Altman 共进晚餐。 报道称,在米其林餐厅里,Altman 和 Ive 探讨了生成式 AI 如何推动新型计算设备的发展。这种技术能提供超越传统软件的功能,例如总结和优先处理消息、识别植物等物体,甚至处理预订旅行等复杂任务。 在接下来的几次晚餐中,Ive 和 Altman 达成共识,决定合作制造一款产品,由 Ive 的 LoveFrom 工作室主导设计。 《纽约时报》的报道里,提到一个值得注意的细节。据悉,在 LoveFrom 工作室里,椅子上摆放着纸张和纸板箱,上面记录着他们对产品的初步设想: 这款产品将利用 AI 技术,营造一种比 iPhone 更少打扰社交环境的使用体验。 2007 年 1 月,苹果公司 CEO 乔布斯正式向外界展示了首款 iPhone。 今天,彭博社记者 Mark Gurman 在最新一期 Power On 里表示,苹果正准备为 iPhone 20 周年推出重大改版,包括推出可折叠版本和更广泛使用玻璃的大胆新款 Pro 机型。 Jony Ive 曾表示希望 iPhone 看起来像一片玻璃,而这款 Pro 新机型也正回归这一设计理念。 只是,生成式 AI 的到来,让各家厂商在取代 iPhone 这个命题上摩拳擦掌。包括 Ive 和 Altman 联手打造的 AI 设备预计将使 OpenAI 与苹果公司在市场上展开更直接的较量。 去年六月,OpenAI 和苹果宣布,iPhone 上的 Siri 助手将集成 ChatGPT 来处理部分用户查询,并借助 OpenAI 的模型协助完成写作和图像生成等任务。 值得注意的是,苹果公司并没有为使用 OpenAI 的模型支付费用。 与此同时,Mark Gurman 今天也透露,虽然苹果和 Google 之间的合作协议尚未敲定,但他预计双方最早将在 WWDC 大会上正式达成并宣布合作,同时会有更多 AI 合作伙伴加入苹果生态。 他表示:「我敢打赌 Meta Llama 模型将进入 iOS 系统,而其他 AI 产品——如 Anthropic 的 Claude 或 Perplexity——也很可能已经在谈判桌上了。」 此外,据彭博社报道,Meta 计划最早在今年年底向市场推出第一副带屏幕的眼镜,售价将超过 1000 美元,最高在 1300-1400 美元左右,也就是说人民币可能将突破万元。 而这款即将向市场推出,代号为「Hypernova」的 AR 眼镜,虽然还不能脱离 iPhone 使用,却有望真正取代 iPhone,其核心原因在于智能眼镜的交互机制。 Meta 准备了两种方案: 眼镜镜框侧面的电容式触摸,用户可以滑动、点击眼镜腿来滚动和选取应用或照片 「神经腕带」,使用手势来控制眼镜,可以转手、捏合来滚动和选取项目,代号为「Ceres」的配件将在包装盒内随眼镜一起提供,这个方案也作为 Orion 的交互在去年进行过演示。 并且,第一代的 Hypernova 在右镜片的右下象限也带有屏幕,内容会显示在用户的右眼,并且显示效果在向下看时最清晰,至少避免了面对他人时「翻白眼」看眼镜屏幕的问题。 此外,Hypernova 预计将采用高度定制 Android 系统,而不是自家去年推出的 Meta Horizon OS 系统,Meta 也暂时不打算为 Hypernova 配备一个应用商店。 打开眼镜,显示完「启动屏幕」后,圆形应用图标将水平排布在 Hypernova 的主屏幕,类似 iPhone 和 Mac 的底部「dock」栏,接近当下 Meta Quest 的界面。 和 Ray-Ban Meta 类似,第一款 Hypernova 也专注于图像拍摄和语音 AI 功能。 在 Meta 眼中,这款还不能脱离 iPhone 使用的 Hypernova,恰恰是取代 iPhone 的关键一步,开始尝试从智能手机中抢夺用户的注意力,让更多消费者习惯去用眼镜解决一些简单的问题。 不过,当下的消费者已然习惯了智能手机的多功能性和成熟生态,而无论是 Meta 智能眼镜还是无屏幕 AI 设备,要他们花同样甚至更多的钱去购买一款 AI 原生硬件,它们都需要证明自己能够提供更多 iPhone 无法企及的体验。
AI 圈今年最大丑闻曝光!Llama 4 被揭训练作弊,实测惨遭滑铁卢,核心骨干愤然离职
昨天,Meta Llama 4 就这么突然地发布了。 纸面参数很高大上,号称原生多模态 MOE 模型,击败 DeepSeek V3,还有 2 万亿参数巨兽,连 Meta CEO 扎克伯格也发视频,摇旗高呼迎接「Llama 4 日」。 欢呼是短暂的,当网友开始实测后,却几乎是一边倒的负面评价,堪称今年 AI 界最大的「翻车」事件。 在专门讨论本地部署大语言模型的社区 r/LocalLLaMA(可理解为 Llama「贴吧」)中,一篇标题为「我对 Llama 4 感到 incredibly disappointed(极度失望)」的帖子迅速获得了大量关注和共鸣。 更有 Llama 忠实粉丝原地破防,直言是时候该将「LocalLLaMA」改名为「LocalGemma」了,调侃 Llama 4 的发布更像是迟到的愚人节玩笑。 实测表现货不对板,曝 Llama 4 发布前疯狂「灌题」 在 Reddit 的这篇原帖中,网友 karminski 强烈建议不要使用 Llama 4 进行编码。 他表示 Llama-4-Maverick——总参数达 402B 的型号——在编码能力上仅能与 Qwen-QwQ-32B 勉强匹敌。而 Llama-4-Scout(总参数 109B 的型号)表现则大致与 Grok-2 或 Ernie 4.5 相仿。 事实上,根据最新的 aider polyglot 编码基准测试结果,Llama 4 Maverick 的得分仅为 16%。 这一基准测试旨在评估大型语言模型(LLM)在多语言编程任务中的表现,覆盖了 C++、Go、Java、JavaScript、Python 和 Rust 六种主流编程语言。 而这个分数,在众多模型中也是属于妥妥的垫底水平。 博主 @deedydas 同样表达了对 Llama 4 的失望,直呼其为「一个糟糕透顶的编程模型」。 他指出,Scout (109B) 和 Maverick (402B) 在针对编程任务的 Kscores 基准测试中,表现远不及 4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7。 另一位网友 Flavio Adamo 分别让 Llama 4 Maverick 和 GPT-4o 生成一个小球在旋转多边形弹跳的动画,并且,小球跳动的过程中要遵循重力和摩擦力的影响。 结果显示,Llama 4 Maverick 生成的多边形形状缺乏开口,小球的运动也违背物理规律,相比之下,新版 GPT-4o 的表现明显更胜一筹,而 Gemini 2.5 Pro 的表现则堪称王者。 回望今年 1 月,扎克伯格还宣称,AI 将达中级软件工程师编程水平,就目前 Llama 4 糟糕的表现,属实是打脸来的有些快。 另外,Llama 4 Scout 的上下文长度达到了 1000 万 tokens。这一超长上下文长度使得 Llama 4 Scout 能够处理和分析极长的文本内容,例如整本书籍、大型代码库或多媒体档案。 Meta 官方甚至还展示了「大海捞针」的测试结果以证明其能力。 然而,根据 Fiction.LiveBench 最新给出的结果,Llama 4 模型的效果也是中看不中用,整体效果不及 Gemini 2.0 Flash,而 Gemini 2.5 Pro 依旧是当之无愧的长文本王者。 Google 上大分+1。 网友 karminski 进一步指出,Llama 4 在 1K 上下文召回率(近似理解为问题回答的正确率)时就已跌至 60% 以下,甚至 Llama-4-Scout 在超过 16K 时仅剩 22%。 他还给出了一个形象的例子「《哈利·波特与魔法石》的文本长度恰好约为 16K。 这意味着,如果你把整本书输入模型,然后问「哈利小时候是住在卧室还是楼梯下的储物间」,Llama-4-Scout 只有 22% 的概率能答对(近似理解,实际召回机制更复杂)。而这个成绩自然也就远低于头部模型的平均水平。 不仅模型本身稍显拉胯,Llama 4 作为「开源扛把子」的光环也在逐渐褪色。 Meta 开放了 Llama 4 的权重,但即使使用量化(quant),也无法在消费级 GPU 上运行。号称单卡运行,但实际指的却是 H100。门槛之高,对开发者可谓是相当不友好。 更何况,Llama 4 的新许可证还有几个限制条款,其中备受诟病的则是拥有超过 7 亿月活跃用户的公司必须向 Meta 申请特别许可证,Meta 可以自行决定是否批准或拒绝。 等等,昨天 Meta 公布的纸面参数可不是这么说的,怎么过了一天,风向就全变了。 在大模型竞技场(Arena)排名中,Llama 4 Maverick 名列总榜第二,成为第四个突破 1400 分的模型,在开源模型中更是高居榜首,更是超越了 DeepSeek V3。 面对实测性能的「货不对板」,细心的网友很快嗅到一丝蹊跷。在 LM Arena 上取得高分的 Maverick 其实用到了一个「实验性聊天版本」。 这还没完,今天一亩三分地社区的爆料贴也似乎揭开了一些内幕。爆料称,经过反复训练后,Llama 4 未能取得开源 SOTA,甚至与之相差甚远。 而 Meta 公司内部设置发布的 deadline(截止日期)则是 4 月底。 于是,公司领导层建议将各个 benchmark 的测试集混合在 post-training 过程中,目的是希望能够在各项指标上交差。拿出一个「看起来可以」的结果。 这里说的将各个 benchmark 的测试集混合在 post-training 过程中,是指在模型的后训练(post-training)阶段,通过混合不同基准测试的数据集,模型可以在多种任务和场景中学习,从而提升其泛化能力。 打个简单的比方,这就像考试时作弊。试题本该从保密题库(benchmark 测试集)中随机抽取,考前无人知晓。可如果有人提前偷看了题目并反复练习(相当于将测试集混入训练),那考试的时候肯定能考得很好。 帖主进一步解释说,Llama 4 发布之后,实测结果遭到 X 和 Reddit 网友的吐槽。作为一名目前也在学术界的人他宣称实在无法接受 Meta 的做法,已提交离职申请,并明确要求在 Llama 4 的 Technical Report 中剔除自己的名字。 他还表示,Meta 的 VP of AI 也是因为这个原因辞职的。而早在几天前,就有报道称 Meta AI 研究负责人乔尔·皮诺(Joelle Pineau)宣布将于 5 月 30 日离职。 不过,对于这桩疑似「刷榜作弊」的指控,真相究竟如何,或许还需更多证据。一位名为 LichengYu 的 Meta 员工也疑似在评论区实名回应称: 「这两天虚心聆听各方 feedback(比如 coding,creativewriting 等缺陷必须改进),希望能在下一版有提升。但为了刷点而 overfit 测试集,我们从来没有做过,实名 Licheng Yu,两个 oss model 的 post training 有经手我这边。请告知哪条 prompt 是测试集选出来放进训练集的,我给你磕一个+道歉!」 公开资料显示,Licheng Yu(虞立成)曾本科毕业于上海交通大学,2014 年获佐治亚理工学院和上海交通大学双硕士学位,在 2019 年 5 月获北卡罗来纳大学教堂山分校计算机科学博士学位,。 他的研究领域专注于计算机视觉和自然语言处理,多篇论文被 CVPR、ICLR、ECCV、KDD 等顶级会议接收。 Licheng Yu 曾在微软、Adobe 等大厂有过工作经历,目前(2023.06 至今)担任 Meta 的研究科学家经理,曾参与 Llama3.2 多模态模型(11B+90B)的发布,以及领导 Llama 4 项目中 17Bx128 和 17Bx16 的 文本+图像强化学习阶段。 真假难辨,或许还可以让子弹再飞一会。 开源大模型的「王座」,不能靠蛮力夺取 在去年这个时候,Meta 还被誉为 AI 行业的天选之子。 当然,脱下简单的灰色T恤、牛仔裤和连帽衫,扎克伯格也开始频繁地穿着大 LOGO 的名牌服装,颈间挂上粗犷的大金链子,甚至在公开场合自信展示自己的健身成果。 醉翁之意不在酒的扎克伯格试图通过展现更「真实」、更「接地气」的一面,拉近与公众的距离。这不仅让 Meta 显得更加亲民,也使其顺势成为对抗 OpenAI 闭源模型的开源旗手,声势一时无两。 与此同时,Meta 的雄厚实力为转型提供了坚实后盾。据悉,Meta 计划在 2025 年投入高达 650 亿美元用于扩展其 AI 基础设施,这一数字在业内堪称大手笔,到 2025 年底,Meta 计划拥有超过 130 万块 GPU。 其次,Meta 坐拥丰富的社交平台数据,这为其 AI 研发提供了得天独厚的优势。 作为 Facebook、Instagram 和 WhatsApp 等全球知名社交平台的母公司,Meta 掌握着数十亿用户的日常交互数据。据统计,其平台的全球日活跃用户数(DAU)在 2024 年已超过 30 亿,这一庞大的数据体量为 AI 模型的训练提供了海量的原材料。 再者,Meta 在人才储备上同样不遑多让。其 AI 部门的领军人物是业界享有盛誉的图灵奖得主 Yann LeCun。在他的带领下,Meta 坚持开源策略,推出了 Llama 系列模型。 因此,Meta 也野心十足——它不仅要巩固自身在社交领域的地位,更希望在 AI 领域实现弯道超车,目标是在 2025 年底前超越 OpenAI 等强劲对手。 但眼见他起朱楼,眼见他宴宾客,眼见他楼塌了。 若一亩三分地的爆料属实,Llama 4 的研发过程中可能存在为追求基准测试分数而「作弊」的行为——通过将测试集混入训练数据,也更像是「AI 流量焦虑」下的操作变形。 年初就曾有消息称 DeepSeek 让 Meta AI 团队陷入恐慌: 「当生成式 AI 组织中的每个高管薪资都比训练整个 DeepSeek-V3 的成本还要高,而我们有好几十个这样的高管,他们要如何面对高层?」 2023 年,Meta 凭借 Llama 系列在开源大模型领域几乎建立了垄断地位,成为开源 AI 的代名词和标杆。 然而,AI 一日,人间一年,在 Llama 4 遭遇「滑铁卢」的评论区中,其他开源模型的好评随处可见。其中,Google Gemma 以轻量高效和多模态能力赢得广泛认可,阿里的 Qwen 系列基座模型崭露头角,而 DeepSeek 更以低成本高性能的黑马姿态震撼了整个行业。 Meta 能否调整策略重回开源 AI 的模型领跑位置尚未可知,但无论如何,开源 AI 的百花齐放已经不可逆转地到来了。 秉持着哪个 AI 好用,用哪个的原则,Meta 也不能全然怪用户「墙头草」。更何况,在开源透明度方面,相较于上述几家公司的开源模型,Llama 4 的自缚手脚,也颇有些自断一臂的意味。 而 Meta 目前的挣扎或许也表明,即便手握全球所有的 GPU 算力和海量数据,资源优势已不再是决定性因素,开源大模型的「王座」,不能靠蛮力夺取。
苹果加码XR,消息称Vision Pro 2进入生产阶段有望年内上市
IT之家 4月7日消息,据“电厂”今日援引产业链消息,第二代苹果XR头显产品(或名为 Vision Pro 2)已进入规模生产阶段,有望于年内发布。 苹果初代XR头显Vision Pro于2023年6月正式发布,并于2024年2月开始海外市场发售。 报道称多个独立信源确认,第二代苹果XR头显产品的面板、外壳等关键零部件均已在生产中。其中,蓝思科技为Vision Pro 2独家供应玻璃面板;长盈精密为Vision Pro 2提供外壳部分;另有部分电子电路器件供应商正在赶制订单。 对此苹果方面表示,不回应任何有关未发布产品的传闻。 苹果初代Vision Pro设备重量为600-650g;2D视频播放时长为2.5小时;搭载拥有8核中央处理器和10核图形处理器的系统级主控芯片M2、以及为应对实时传感器信息而设计的R1芯片;采用的micro‑OLED显示屏总像素高达2300万,并提供高于4K电视的单眼像素;定价3499美元起,国行定价29999元起。 IT之家注意到,彭博社记者马克・古尔曼(Mark Gurman)在今年1月透露,苹果公司不打算在2025年推出任何Vision Pro的更新版本,所有迹象表明,新一代Vision Pro将推迟至2026年发售。古尔曼指出,苹果目前更为“紧迫的目标”是开发一款价格更低的头显设备,并且正在加速推进该产品的研发进程。 此前,天风国际分析师郭明錤(Ming-Chi Kuo)曾预测,苹果Vision Pro 2将于 2025 年下半年投入生产,预计搭载M5芯片并支持Apple Intelligence,但硬件方面的其他升级传闻较少。郭明錤还表示,苹果的低价版头显将推迟至2027年发售。
美国关税,苹果受罪
25000元一部iPhone?特朗普正在让这事成真。 智东西4月7日报道,近日,关税战成了科技圈风口浪尖的话题。 美国总统特朗普关税大棒一落,众多美国科技公司股价应声暴跌,苹果更是政策发布当天股价暴跌9.3%,创下了5年来的最大单日跌幅。 与此同时,多家外媒对苹果iPhone可能大幅涨价的报道也“炸了锅”,美国Wedbush分析师Dan Ives称,一系列关税政策下,未来美国本土生产的iPhone售价可能达到3500美元(约合人民币25500元,现iPhone 16 Pro Max国行起售价9999元)。 ▲美国Wedbush分析师Dan Ives称,一系列关税政策下,未来美国本土生产的iPhone售价可能达到3500美元,来源:福布斯 另一位美国证券公司分析师称,苹果需要将iPhone价格提高43%以覆盖关税上涨。 不过这样“简单粗暴”地将关税上涨换算为价格上涨显然是不正确的,彭博社记者马克·古尔曼随即发推严厉批评这样的报道为“荒谬、标题党、凭空捏造”。 根据古尔曼预测,苹果iPhone在美售价可能会上涨,但不会这么多,也不会来的这么快。 虽然没这么快,但多家美国苹果商店的员工都表示,因为预计价格上涨,周末他们已经遭遇了大规模“恐慌性抢购”。 好家伙,这次美国人这次是真急了。因为涨价主要影响的就是美国市场,美国的iPhone大部分都是“Made in China”。 苹果自己也很急,据印度媒体报道,苹果在3月的最后一周仅用3天就将5架装满iPhone和其他苹果产品的飞机从印度飞往了美国本土。这些库存大概率可以帮苹果撑到iPhone 17发布。 ▲印媒报道 对于这次的关税战热点,两大苹果“爆料王”——古尔曼和天风证券分析师郭明祺都给出自己的调查和见解。 综合来看,苹果在美产品涨价应是大概率事件,但涨价幅度和时间都存在较大不确定性;另一方面,“果链”企业大概率会首当其冲,面临苹果的强力“压价”;此外,供应链的“多元化、去中国化”会继续提速;最后,苹果自己内部消化降低毛利也是一种方式。 苹果这4大措施如何施展?关税战给苹果和中国消费电子产业会带来怎样深远的影响,都是业内关注的焦点。 苹果目前市值已经跌破3万亿美元,回到2.83万亿美元。距离美国东部时间4月9日凌晨0点01分关税正式生效,仅剩不到2天了。 ▲苹果近5个交易日股价情况,来源:百度股市通 01. 激进派VS温和派,苹果涨价山雨欲来 对于苹果会不会涨价,目前外媒已经分成了两派,我们可以大致将其分为“激进派”和“温和派”。 比如前文提到的Wedbush分析师Dan Ives就显然是激进派,他也是业内比较受人尊敬的一位技术向分析师。 Ives在给投资者的一份报告中进一步阐述了上述观点,他提到,对中国大陆征收50%的关税,对中国台湾地区征收32%的关税,这会从根本上切断美国科技领域的发展,在此过程中,消费者购买的每一件电子产品价格都将上涨40%-50%,美国制造的iPhone手机售价将达到3500美元,这些令人费解的关税将显著减缓AI技术的发展。 Rosenblatt Securities证券公司分析师称,苹果需要将iPhone价格提高43%以覆盖关税,比如标准版799美元的iPhone会上涨到1142美元,而更贵的iPhone 16 Pro Max可能会涨到2300美元。 ▲苹果不同产品受关税影响可能产生的价格上涨预测,来源:路透社 市研机构Couterpoint Research联合创始人Neil Shah称,苹果平均售价需要至少提升30%以上才能抵消关税上涨带来的影响。 温和派这边,CFRA Research分析师Angelo Zino认为,苹果很难把超过5%至10%的成本转嫁给消费者。他预计苹果在今年秋季iPhone 17发布之前不会对手机价格进行大幅上调。 古尔曼则直接说道,他认为分析师对1000美元iPhone变成3000美元iPhone的预测是错误的。 不过古尔曼也提到,在尽力抑制iPhone价格上涨多年后,苹果最终可能会“被迫涨价”。 实际上,从2017年iPhone X这一代开始,苹果旗舰机型的起售价一直稳定在999美元左右(国行售价稳定在5999元左右),没有明显上调。只不过苹果会通过提高Pro Max这类机型的起步内存容量来“变相涨价”高端机型。 古尔曼提到,在美国其实很多用户都会通过分期付款或折旧计划购买新手机,所以对定价的敏感度没有那么高,但不论如何,999美元可能是个心理门槛。 古尔曼称,苹果并不担心在美国本土以外的市场涨价,比如2022年由于日元贬值,苹果就提高了iPhone在日本的售价,同年,由于通货膨胀,欧洲和英国的iPad都涨价了,英国脱欧后其Mac电脑售价也有大幅上涨。 02. 出口美国成本大涨,印度越南逃不过 苹果毛利率最高看跌9% 这次关税战之所以对苹果影响很大,是因为关税政策的范围已经远超中国,从印度、越南、马来西亚、泰国、爱尔兰到印度尼西亚,无一幸免。 苹果产品的硬件组装业务主要在中国,占比在85-90%,其次是印度和越南, 中国对应总关税水平为54%; 印度目前主要生产苹果的iPhone和AirPods产品,对应关税为26%; 越南生产苹果AirPods、iPad、Apple Watch和Mac电脑,对应关税为46%; 马来西亚生产苹果Mac电脑,对应关税为24%; 泰国生产苹果Mac电脑,对应关税37%; 爱尔兰生产一部分苹果Mac电脑,对应关税20%; 印度尼西亚很快将承接苹果AirTags以及AirPods Max耳罩网格部件的生产,对应关税32%。 特朗普政府颁布新关税政策后,自上述国家出口到美国的硬件产品成本无疑将显著提高。 ▲美国关税分布情况,来源:路透社 郭明祺预计,在这样的背景下,如果苹果不涨价,则苹果产品的整体毛利率预计会减少8.5-9%。 要知道,2024财年苹果整体毛利率为46.2%,这样的毛利率在消费电子巨头中已经是毋庸置疑的天花板,郭明祺认为如果苹果毛利率因关税下跌至40%以下,应该是短期现象,长期仍然有望维持在40%以上。 所以关税战影响的仅仅是苹果几个百分点的毛利率吗?事情远没有这样简单。 比如郭明祺就提到,中长期需要警惕特朗普政府新关税政策对宏观经济的潜在负面影响,比如消费者信心与购买力下降、苹果换机周期的延长。 03. 苹果应对关税战4条策略: 供应链转移、涨价、转嫁成本、内部消化 所以苹果要如何应对这次关税战“危机”?目前看来路不只有一条。 第一,供应链转移,提高低关税市场生产占比,比如押宝印度。简单来说,就是摆脱产品生产制造主要依赖中国的现状。 印度和越南都存在与美国政府达成新协议并被豁免关税的可能,2025年全球iPhone至少有15%在印度制造,相比2024年的10-12%有一定增加。 郭明祺提到,如果印度和越南都能被豁免关税,苹果在不涨价的情况下,整体毛利率的下降幅度可能会缩窄至5.5-6%。 另一方面,如果苹果能继续提高印度iPhone产能,并将印度在全球iPhone供应中的比重提高到30%以上,那么影响将降低至1-3%。 ▲印度苹果工厂,来源:华尔街日报 在郭明祺看来,印度与越南向美国争取关税豁免的概率远高于中国。并且苹果会加速将组装订单移出中国,直至非中国组装可以满足绝大部分美国市场需求。 当然,这些都是比较乐观的看法。古尔曼则在报道中提到,苹果从“多元化”经营中获得的好处并不会有想象中那么多,苹果在印度、越南和上述这些地区生产的苹果产品同样会受到关税冲击。 其实供应链转移这件事,近年来苹果一直在做。 在特朗普第一个任期内,库克就曾经说服特朗普免征iPhone关税,彼时苹果一直在加速供应链的多样化、去中国化,以避免中美贸易摩擦,进而在印度、越南、马来西亚、巴西和泰国建立了很多新的产线。 疫情期间的停工停产一定程度上加速了果链转移的速度。 但不少业内人士都认为,苹果未来几年内将制造业迁回美国本土几乎是不可能的。 一方面,美国本土想要生产出iPhone,从项目启动到投入运行至少要5年,这还没有考虑本土生产对iPhone价格的影响,古尔曼说,美国生产iPhone可能让产品价格直接翻倍,这对消费者来说无疑是灾难性的。 苹果在今年2月宣布将在未来4年在美国本土投入5000亿美元,据彭博社报道,库克出席了特朗普的就职典礼,甚至还投入了100万美元来“讨好”特朗普,但这些都没能阻止特朗普降下“关税大棒”。 ▲来源:雅虎 第二,涨价。虽然消费者对价格极为敏感,但偏偏苹果用户有其“特殊性”,郭明祺认为,新关税政策对苹果的影响无疑是负面的,但并非无解——美国市场新款高端iPhone占比65-70%,高端用户相对能接受涨价。 古尔曼也提到,他预计苹果会认真考虑调整iPhone的价格。一方面,消费者基本上都会了解到关税战的相关信息,因此不会将苹果涨价视为一种单方面的“攫金”行为。 第三,苹果还可以通过多种方式转嫁关税成本,例如与电信运营商合作提高补贴金额、降低“Trade In”换购方案折扣等,以缓解消费者对涨价的负面感受。 将增加的成本转移给供应链企业应该是更主要的方式。简单来说就是苹果加大对供应链厂商的“砍价”力度,因此郭明祺预计大部分果链企业的都将面临更大压力。 有业内人士提到,苹果采用“转嫁成本”这种方式是大概率的,不太可能直接大幅涨价,目前iPhone国内供应商的利润率在10-12%左右,供应链企业大概率需要压缩自己的利润率。 古尔曼也提到,苹果公司的采购团队现在大概率正在跟零部件制造商和生产合作伙伴谈价格。 第四,苹果自己“消化”一部分上涨的成本,比如压低自身的毛利率,目前苹果硬件产品的标准毛利率在45%左右,是有不小的调整空间的。 在古尔曼看来,苹果不太可能单独采取某一种方式,苹果很可能是“四管齐下”。 其实苹果最近几个月一直在“囤库存”,简单来说就是大量往美国本土进货,以应对关税危机,已经进来的货,就可以避开上涨的关税。 这些库存可以成为苹果的“缓兵之计”,古尔曼在报道中提到,这些库存理论上可以帮苹果坚持到下一代iPhone发布。 04. 结语:关税大锤落下 全球科技产业暗流涌动 从Vision Pro的失利到生成式AI的掉队,再到今天关税战带来的供应链新一轮腥风血雨,苹果近来着实不太平。 去年大家的关注点是苹果何时突破4万亿美元市值大关,而如今大家更关心自己能不能买到不涨价的iPhone。 总体来看,关税政策给苹果带来的冲击是实打实的,苹果的一系列行动也证明其在“私下”做着不少准备和应对。苹果将如何度过这次危机,关税政策会给苹果和果链企业带来哪些更为深远的影响,我们将持续深入关注。
中国发布HDMI和DisplayPort替代方案!GPMI接口来了:一根线支持480W供电+192Gbps带宽
快科技4月7日消息,中国有了自己的HDMI和DisplayPort替代方案。 近日,由50多家中国公司组成的深圳8K超高清视频产业合作联盟,发布了共同研发的GPMI (General Purpose Media Interface,通用多媒体接口) ,一举解决传统显示设备需要分别连接电源线与数据线的问题,仅通过一根线,就最高支持192Gbps带宽、480W供电能力。 当前不同设备间存在接口标准不统一、单个接口功能单一等问题,音视频流传输、数据传输、网络连接、控制信号传输、供电等功能需要多个接口或线缆支持,设备连接复杂性高,用户感受差。 2019年深圳国际8超高清视频产业协作联盟成立超高清接口工作组,正式启动GPMI技术研发。 2021年,核心团体标准征求意见稿发布,2023年推出首款FPGA样机,2024年迎来里程碑式突破——行业标准征求意见稿发布,并联合华为、创维、海信等50余家产业链企业共同发布产业路线图。 同年12月,GPMI获得USB组织授权的SVID(0XFF10),实现与Type-C生态的深度融合。 2025年2月28日《通用多媒体接口规范》5项系列团体标准发布,标志着我国在通用多媒体接口领域拥有了统一、规范且更具兼容性与前瞻性的标准体系。 与现有接口技术相比,GPMI拥有双向多流、双向控制、高功供电、生态兼容、极速传输、快速唤醒和全链安全七大核心优势。 据了解,GPMI接口的目的是一线通联,通过单一接口集成音视频+数据+控制+供电四重功能,并支持8K超高清视频传输,通过菊花链组网技术实现多设备“一线串联”,降低家庭多设备(音箱、游戏主机等)、户外拼接屏等场景的安装成本,同时实现低延时+高画质。 GPMI支持的双向控制协议,能通过电视实现跨设备反向操控,实现电视遥控器、第三方手柄,操控手机游戏等应用,将手机生态“平移”到了大屏上。 GPMI线材共分为Type-B与Type C,Type-C版本与现有USB Type-C接口兼容,最高可支持96Gbps的数据传输和240W的电力传输。 GPMI Type-B 接口较大,能提供电高192Gbps带宽及480W电力传输。 以下是GPMI和HDMI 2.1及DisplayPort 2.1的规格比较: HDMI 2.1 TMDS (18Gbps / 无供电) HDMI 2.1 FRL (48Gbps / 无供电) DisplayPort 2.1 UHBR20 (80Gbps / 240W 供电) GPMI Type-C (96Gbps / 240W 供电) GPMI Type-B (192Gbps / 480W 供电) 责任编辑:朝晖
华为畅享70X活力版手机明日开售:6100mAh电池、6.78英寸3D双曲OLED屏
IT之家 4月7日消息,华为畅享70X手机已于今年1月10日开售,定价1799元起。IT之家注意到,华为商城相关页面显示,畅享70X将推出「活力版」机型,新机将于4月8日(明日)10:08开启全款预售。 目前华为官方暂未公布畅享70X活力版手机的配置。网传信息显示(最终以实机为准),新机将配备6.78英寸3D双曲OLED屏幕(分辨率2700×1224)、支持北斗卫星消息、内置6100mAh电池(支持40W快充)。 作为参考,华为畅享70X手机采用星环设计,配有曲面屏,厚度7.98mm、重量189g,可选湖光青、雪域白、曜金黑、云杉黛四款配色,其中的“云杉黛”为行业首发立体生态皮革(厚度8.13mm)。 128GB 定价 1799 元 256GB 定价 1999 元 512GB 定价 2299 元 该机配有6.78英寸1.5K(2700×1224)OLED臻彩AI护眼屏,支持120Hz刷新率,还有多项护眼功能,以及全场景湿手触控。 华为还首次在畅享系列中下放了北斗卫星消息、北斗卫星图片消息,还有畅享X键可一键发送北斗消息。畅享70X还支持鸿蒙智慧通信,包括AI网络秒回、拥塞场景流畅上网、弱信号通话不卡顿、双卡双通。 畅享70X搭载6100mAh华为巨鲸电池,标称可连续播放在线视频1天,还有40W华为超级快充、全场景超级NFC,另外,畅享70X还首次搭载5000万RYYB暗光影像,配有50MP主摄+2MP景深镜头。
关税冲击全球产业链 知名爆料人预测iPhone或大幅提高在美售价
财联社4月7日讯(编辑 史正丞)面对特朗普“关税大棒”的无差别攻击,全球市值最高的上市公司苹果,正在面临堪称动摇根基的商业难题——严重依赖亚洲产业链的这家消费电子巨头,恐怕不得不提高iPhone等一系列产品在美国市场的定价。 特朗普上周三发布关税政策后,苹果股价周四和周五分别下跌9.25%和7.29%。截至发稿,周一夜盘时段又下跌超4%。 (苹果日线图,来源:TradingView) 知名苹果爆料人马克·古尔曼在最新文章中指出,在特朗普政策冲击下,多年以来一直避免提高美国市场定价的苹果公司,可能在今年最终“破防”。 苹果供应链集体承压 自从2017年iPhone X上市以来,苹果手机的旗舰型号起售价一直都是999美元。期间公司也通过调整内存容量、推出更大尺寸的Pro Max机型变相涨价。例如在2015年时,苹果通过取消iPhone 15 Pro Max的最低内存容量版本,将起售价提高了100美元。 所以对于美国苹果用户而言,多年来999美元一直是重要的心理门槛。这也是苹果为何把内存玩出花来,也要竭力维持这一定价。 然而,面对特朗普动辄30%-50%的进口关税,今年的涨价压力将达到前所未有的地步。 据古尔曼统计,按照特朗普的对等关税政策: 正在不断提升iPhone、AirPods产能的印度将面临26%的关税; 生产iPad、Mac、AirPods等苹果产品的越南将面临46%的高额关税; 正在承接Mac产业链转移的泰国和马来西亚,将面对37%和24%的关税; 即将开始生产AirTag和AirPods Max耳机网罩的印尼,也将面临32%的关税。 再加上苹果产业链的核心中国,苹果的整个生产链条全部“中招”。 折中计算,假设苹果将25%的关税转嫁给美国消费者,iPhone 17 Pro的定价将接近1250美元。 在特朗普第一个任期的贸易战打响时,苹果CEO库克成功说服特朗普,从而避免了关税对苹果链的冲击,但今年的情况显然有很大不同。 苹果此前曾试图讨好过特朗普,例如今年2月高调宣布未来4年在美国投资5000亿美元(注:这与公司原本的投资计划相差无几)。苹果CEO库克甚至亲自出席了特朗普的就职典礼,并自掏腰包缴纳了100万美元的“份子钱”。这些举动都未能阻止特朗普的征税计划。 变局将至 古尔曼表示,假设这些关税在4月9日全面生效,并持续到今年的新品发布季,苹果的定价和供应链政策都将出现显著变化。 除了挤压供应链外,古尔曼认为拥有45%硬件利润率的苹果公司,存在自行承担一部分关税成本的空间。同时公司也会认真考虑调整iPhone的价格,好在美国消费者已经明确知道涨价完全是特朗普的问题,所以不会被视为无端涨价。 对于苹果而言,时间会是短暂的有利因素——眼下正处于两个产品发布周期的间歇期。与许多美国同行一样,苹果近几个月一直在增加美国库存,这部分产品不会受到关税影响。这意味着苹果公司最晚可以等到9月发布会时再决定是否需要涨价。 古尔曼也警告称,这样做的弊端,是涨价的消息会成为舆论热点,无人关心新产品到底有哪些升级。 从苹果公司的过往决策来看,库克等人并不畏惧外部政策波动导致的提价。例如2022年苹果就曾因日元贬值大幅提高了日版iPhone的定价,同年苹果也因为通胀上调了欧洲和英国的定价。再往前数,英国脱欧时苹果也在英国涨过价。 最后一个问题,是苹果公司是否会将产业链继续分散化,例如在美国本土生产,或在这次被征收最低税率(10%)的巴西扩大生产。 古尔曼直言,苹果公司“几乎不可能”在未来几年时间里,将庞大的产业链连根拔起并迁回美国。如果管理层确实希望在美国实现有意义的iPhone生产,至少需要5年时间才能看到工厂启动,更不用说对定价的影响了——纯正“美国制造”的苹果设备定价可能需要翻一倍。例如目前基础版iPhone 16的起售价为799美元,在特朗普的影响下,将可能需要1599美元。 这种假设,对于美国消费者、美股投资者而言,都会是一场巨大的灾难。 当然,“特朗普关税”对于消费电子市场的冲击并不限于苹果一家。赶在特朗普宣布关税前发布新一代游戏主机Switch 2的日本上市公司任天堂,就在上周紧急宣布暂停原定于4月9日举行的美国市场预售活动,以评估关税的潜在影响和市场环境。 与苹果类似,任天堂的生产线高度集中在中国,同时近年来也有在越南布局的动作。 所以也有市场分析师认为,等到今年6月5月Switch 2发售时,日本消费者能够拿到售价330美元的“日本特供版”,加拿大玩家能以450美元抢购,而美国消费者可能得面临冲击500、甚至600美元的“特朗普关税定价版”主机。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。