行业分类:
加载中...
头条分类:
加载中...
玄戒O2稳了!采用台积电3nm工艺 小米最强Soc蓄势待发
快科技3月4日消息,小米集团总裁卢伟冰在接受采访时透露,小米芯片、操作系统以及自研AI大模型将在今年内迎来一次具有里程碑意义的大会师。这意味着在不久后的同一款终端产品上,这三大核心技术将实现深度的整合与协同。 这次大会师不是单纯的技术堆叠,而是意味着小米正在构建起一套完整的自研技术栈。通过软硬件与AI能力的底层打通,小米产品将具备更强的自主掌控力和性能表现。 据博主数码闲聊站透露,小米在今年肯定会推出全新的玄戒芯片,该芯片将采用台积电3纳米工艺制程制造,可能会命名为玄戒O2。 这颗芯片的应用范围将不再局限于智能手机,它还将广泛搭载在小米旗下的其他智能终端设备上,从而进一步拓展自研芯片的生态应用场景,提升全场景互联的智慧体验。 回顾去年5月,小米正式推出了其首款自主研发的旗舰SoC——玄戒O1。这颗芯片采用了台积电第二代3纳米工艺,其CPU和GPU均基于高性能的Arm架构方案,多核跑分成绩曾一举冲破9000分大关,成功跻身行业第一梯队。 小米创办人雷军此前表示,自研芯片通常需要三到四年的研发周期,第一代产品更多是在验证底层技术的可靠性,因此初始的预定数量相对较少。 接下来的研发重点将转向全部自研的四合一域控制技术,这一布局不仅是为了强化移动端的能力,更是为了将来小米自研芯片能够顺利上车做好充分的技术储备,为智能汽车的核心竞争力加码。
外媒披露:美商务部拟扩大AI芯片出口审查,遭白宫阻击
凤凰网科技讯 3月5日 据AXIOS报道,美国商务部正拟定新规以扩大对AI芯片出口的联邦监管审查,但该草案目前正遭遇白宫方面的阻力。一名白宫高级官员透露,美国总统特朗普明确反对任何类似前任政府时期的限制性干预手段。在英伟达和AMD等芯片巨头寻求进一步拓展海外市场之际,此项草案试图赋予政府对AI芯片海外出口更为广泛的控制权。 白宫官员针对该草案指出,其内容未能反映特朗普在出口管制以及鼓励美国AI技术出口方面的政策导向。另一位政府官员则补充表示,这些规定目前仍处于“极早期阶段”,未来行政部门采取的任何措施都将与白宫现有的AI行动计划保持严格一致。据悉,这份长达129页的草案已是美国商务部工业和安全局(BIS)拟定的第六个版本,在获取商务部长霍华德·卢特尼克(Howard Lutnick)签署后,已于上周被送交行政管理和预算局(OMB)。OMB需在下周四前反馈跨部门审查的最终结果。 该草案的核心要求是外国买家必须取得美国政府的许可,这一规定引发了产业界的高度关注。业内人士将此草案称为此前限制政策的“扩散2.0”版本,并批评其过度干预,可能实质性损害美国企业的全球竞争力。拜登政府此前确立的AI技术扩散规则已被特朗普于去年正式撤销。现阶段,特朗普更倾向于将AI芯片出口作为与其他国家进行双边谈判的战略筹码,并倾向于对技术输出保持一定程度的动态控制。美国商务部本周四也对外证实,目前政府内部正就在中东地区推动技术出口的成功经验进行讨论,以期将相关模式予以正规化。(作者/于雷) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
外卖三国杀一年,美团没了7000亿
曾在“百团大战”中依靠极致效率四处出击、不断扩大规模的美团,如今似乎陷入了四处碰壁的窘境,只能通过不断向外试探来对冲核心盘的风险。 文 | 万 芙 过去一年,资本市场对美团的态度发生了剧烈反转。 从2025年3月7日189.6港元/股的局部高点,一路下挫至2026年3月4日的73.6港元/股附近。短短一年时间,美团市值蒸发了7000亿港元。 这种断崖式下跌,直接导火索是其惨淡的财务表现。美团近期发布的业绩预告显示,2025年全年预计亏损高达233亿元至243亿元,与2024年狂赚358亿元天壤之别。 亏损背后,是本地生活赛道空前惨烈的“三国杀”。阿里整合资源重兵押注“淘宝闪购”,京东带着几十亿补贴高调入局,三方在即时配送领域展开贴身肉搏。直至今年1月,国务院反垄断办出手约谈调查,这场疯狂的内卷式竞争才被按下暂停键。 在主业遭遇围剿的同时,被寄予厚望的中东出海业务因战乱被迫暂停,新推出的AI浏览器刚面世便卷入抄袭风波,在房地产市场整体萎靡之际,王兴试图用流量逻辑切入卖房租房生意,前景难料。国际评级机构穆迪更是将美团的评级展望下调至负面,指出其外卖业务复苏不确定性增大、利润率承压且杠杆率高企。 曾在“百团大战”中依靠极致效率四处出击、不断扩大规模的美团,如今似乎陷入了四处碰壁的窘境,只能通过不断向外试探来对冲核心盘的风险。 01 市值一年没了7000亿 支撑美团千亿市值的,一直是其在外卖领域的绝对垄断地位和由此带来的强劲现金流。然而,2025年,这两块基石同时出现了松动。 财报预告显示,2025年美团核心本地商业分部的经营亏损预计在68亿元至70亿元之间。对比2024年该板块524.15亿元的经营溢利,出现了跳水式的暴跌。 2025年的外卖市场,可以说硬是被拖入了泥潭。京东外卖带着“小哥之家”的重资产计划和几十亿补贴强行撕开一道口子,阿里则彻底掀了桌子,将“淘宝闪购”提升至核心战略,用“电商养外卖”的算总账逻辑,对美团的核心商圈发起猛攻。 2026年,阿里攻势有增无减。阿里管理层公开宣布,2026年将继续重金投入淘宝闪购,明确表示“三年不关心亏损”,其战略意图直指30元以上的高客单价外卖市场,这正是美团外卖利润最丰厚的腹地。 在这场持久消耗战中,美团为了捍卫市占率,不得不大幅增加对商家和骑手的补贴。从建立“骑手公寓”到普及养老保险补贴,再到直接应对对手的用户折扣,这些动作虽然稳住了约50%的市场份额,却严重透支了利润。 这种以空间换时间的打法,引来评级机构的警觉。前不久,穆迪将美团的评级展望下调至负面。穆迪在报告中指出,在激烈的竞争环境下,美团外卖业务复苏的不确定性显著增大。为了维持市场地位,其销售及营销费用的攀升将导致利润率持续承压。穆迪还担忧,美团的杠杆率正处于高企状态,在现金流由正转负的当下,其抵御外部风险的财务缓冲垫变薄了。 主业失血的同时,美团其他业务领域的护城河也面临多点突破的风险。 在团购这一美团发家的大本营,抖音的攻势变得更精准和系统化。抖音近期推出了独立的“抖省省”APP,试图将分散在短视频和直播中的本地生活流量聚合沉淀,直接对标美团的团购货架模式。 在酒旅及票务等高毛利业务板块,监管也带来了不确定性。2026年春节前夕,北京市市场监管管理局联合多部门对包括美团在内的12家火车票网络销售平台进行了约谈,要求各平台针对捆绑搭售、误导性宣传及不合理收费等问题进行彻底整改。合规成本的上升,势必将进一步压缩这些“现金牛”业务的利润空间。 一年蒸发7000亿港元,资本市场的投票不仅仅是对2025年200多亿亏损的反应,也是对美团过往“赢家通吃”高增长逻辑的质疑。 02 新业务步履维艰 在核心业务面临增长瓶颈和利润挤压之际,美团也在寻找破局点。不过,在当前的宏观环境和行业格局下,这些新业务的拓展显得步履维艰。 出海,曾被视为美团复制国内成功路径、打开第二增长曲线的最大看点。2024年底至2026年初,美团旗下国际外卖品牌Keeta相继在巴林和卡塔尔首都多哈上线,明确了重点发力中东市场的战略。中东地区客单价高、互联网渗透率高,本是外卖业务的理想掘金地。然而,近期中东地区爆发的冲突和战乱,直接导致该区域商业活动停摆,美团在该地区的扩张计划不得不被迫按下暂停键。前期的本地化团队建设、配送网络投资面临短期内无法变现的风险。 在AI前沿,美团的试水同样有了麻烦。2026年3月初,美团旗下光年之外团队推出Tabbit AI浏览器。这款定位为“AI原生”、试图实现“人机并行”高效协作的产品,意在补齐美团在C端AI入口的短板,讲述一个新的科技故事。然而,产品刚刚进入公测,便卷入了抄袭丑闻,被指在界面设计和部分核心交互逻辑上与海外某知名初创公司的产品高度雷同。 美团在房地产领域的跨界,也让外界十分困惑。2026年2月,美团关联公司申请注册“美团拼好房”商标,并开始通过端口接入麦滴找房、诸葛找房等平台,试图利用自身近8亿的本地生活流量变现。 在房地产市场整体仍处于深度调整期的当下入局,美团希望做轻资产的流量“二道贩子”,赚取无风险的线索佣金。 但这恰恰暴露出美团在业务扩张上的焦虑。房产交易是典型的低频、重决策、高信任成本行业,这与美团赖以起家的外卖、团购(高频、即时、低决策成本)有本质区别。缺乏线下专业经纪人团队支撑和交易闭环能力,单纯依靠算法推送和流量导流,在贝壳等巨头牢牢把持的市场中,美团很难掀起波澜。这种“什么都想做一点”的姿态,反而削弱了其在核心业务上的专注度。 回顾美团十五年,这是一家极其擅长在确定性中通过极致效率建立秩序的公司。从千团大战到外卖战争,王兴通过精准的算账和强大的线下地推铁军,硬生生碾压了对手。 但到2026年,牌桌上的对手变了,游戏规则也变了。阿里不再计较短期的外卖亏损,而是算整个电商生态的总账。抖音用算法和内容创造了“货找人”的触发式消费,直接在流量上游截胡。当流量分发权被重构、即时配送的基础设施变得普惠,美团曾经坚不可摧的“搜索+配送”双护城河正被不断填平。 如今的美团,外卖被三国绞杀拖入亏损,出海因战乱受阻,AI布局深陷争议,跨界房产显得不合时宜。这家曾经无往不利的本地生活巨无霸,正体验着四处碰壁的痛楚。伴随着股价跌跌不休,王兴个人的身家在过去一年里也大幅缩水。在由效率主导的旧秩序向AI与内容主导的新秩序过渡的夹缝中,美团亟需证明,除了“送外卖”,它还有能力在新的混乱中建立起更具壁垒的商业模式。
AI偷录泛滥催生“新盾牌” 反录音硬件Spectre One发布
原标题:速递|Plaud、钉钉录音卡片满天飞,终于有人做出了"反录音"设备 你是不是也遇到过这种让人心里一咯噔的瞬间? 刚在咖啡馆坐下准备聊点正事,赫然发现对方掏出的手机背面,贴着一块黑乎乎的 Plaud。更让人不适的是,对面那件外套的领口,好像还夹着一枚正在暗自闪烁的钉钉录音卡片。😳 这不是被害妄想症。 在这个 AI 录音硬件人手一个的年代,"偷录"的门槛已经降到了史上最低。Plaud、钉钉录音卡片、字节和 Anker 联合推出的录音豆……这些百元到千元级别的小玩意,让"一键录音+AI转写+自动生成纪要"变成了职场标配。 方便是真方便,但问题也来了——在你完全不知情的情况下,你刚才随口说出的一条商业判断、一个还没公开的项目方向,可能已经被对面的设备悄悄录下,转成了结构化文本。 要知道现在的AI只需要你30秒的语音,就能推断出你的年龄、健康状况甚至收入水平。而在商业领域,因会议泄密和企业间谍导致的损失,每年高达数千亿美元级别。 当录音的矛越来越锋利,一定有人会开始做盾。 今天想跟大家聊的,就是一家叫 Deveillance 的硅谷创业公司刚刚推出的产品——Spectre I,一款消费级的反录音设备。 自动播放 Spectre I 到底是个什么东西? 先别急着聊原理和价格,我们看看这玩意长什么样、怎么用。 Spectre I 不是你在谍战片里看到的那种挂在天花板上嗡嗡响的工业级信号屏蔽器。它非常小巧,能塞进公文包,随身带到咖啡厅、商务茶室、甚至车里。 用法极其简单:一键开启,它就以自身为圆心,撑起一个半径 2 米的"无声结界"。 在这个结界范围内,无论对方口袋里揣着手机录音机、领口夹着录音豆、还是桌下藏着专业窃听器——只要在射程内,它们录进去的就不再是你说的话,而是一团完全无法解析的白噪音。 说白了,你的声音在 2 米之外正常传播,但所有想要"偷听"你的电子设备,全都变成了聋子。 它凭什么能干翻那些上千块的录音设备? 它采取的技术路线并不是在跟录音设备的软件对抗(那样永远是猫捉老鼠),而是直接打击了所有麦克风硬件层面的物理弱点。 这个弱点叫"非线性放大"效应。 所有麦克风,不管多贵多高端,在物理层面都有这个先天缺陷。 Spectre I 就是利用了这一点。当你打开它,它会发射人耳完全听不到的超声波信号。但这些超声波一旦进入麦克风,就会因为非线性放大效应,"泄漏"到人声频段,把你的语音彻底覆盖。 结果就是:对方自以为偷录了两小时的绝密谈话,回去一听——全是滋啦声。 这项技术有学术背书。芝加哥大学团队早在 2020 年就在 CHI(人机交互顶级学术会议)上发表了"可穿戴麦克风干扰器"的论文,验证了超声波干扰方案的可行性。 不止是个盾牌,它还是个雷达 但如果只是发超声波制造噪音,那其实没什么新鲜的。Spectre I 值得拿出来单独聊,是因为它在工程化落地上做了两件很聪明的事: 第一,AI 定制干扰信号 早期的超声波干扰器就是无脑地往外发噪声,像乱挥大锤。Spectre I 不一样——它通过本地 AI 算法,生成与人声模式高度匹配的定制化干扰信号。干扰精度更高,覆盖效率更强,而你自己坐在旁边完全无感。 第二,主动探测周围的麦克风(这个功能我最喜欢) 它不只是"防守",还能"侦察"。Spectre I 可以主动扫描周围有多少个麦克风设备,把结果反馈给你。 你不只是隐身了,你还知道了现场到底有几双"电子耳朵"在盯着你。 而且,所有数据处理都在设备本地完成,不上传云端。一个卖隐私保护的产品如果把你的数据往服务器上传——那就成了笑话。 定价$1,199 ,谁在为它买单? Spectre I 目前处于预售阶段,预计 2026 年 8 月发货。 预售价格:$1,199(含早鸟折扣),可全额退款,随时取消。 这个价位,卖的显然不是大众消费品。它瞄准的是企业高管、律师、投资人、政商敏感人士——这些对信息安全极度在意的高净值人群。 但作为观察者,在它正式发货前,我们认为有三个问题值得关注 : 2 米够不够用? 在车里、小会议室堪称完美。但开放式办公区或大型会议室?你可能得买好几台组矩阵。 能通杀所有麦克风吗? 不同品牌、不同型号的麦克风对超声波的响应不同。iPhone 最新款的定向降噪、各家迭代的 AI 麦克风矩阵——100% 有效还是打折?需要量产后的真实测评来回答。 法律边界在哪里? 在某些"一方同意录音即合法"的地区,你主动干扰别人的录音设备,反而可能把自己推入法律争议。 最后聊聊这条赛道 Spectre I 背后的 Deveillance,创始人 Aida Baradari 有物理学和信号处理的研究背景。投资方阵容:Emergent Ventures(著名经济学家 Tyler Cowen 主导)、哈佛肯尼迪学院的 QLab、Augmentation Lab、O'Shaughnessy Ventures…… 你会发现,这不是一个典型的消费电子投资人的背景,而更偏向"社会影响力+安全技术"方向。 这说明什么? 当 AI 录音设备以百元级价格平推大众市场的时候,"反录音"和"AI安全"也在成为一条对冲的赛道。 从 Plaud 们拼命让录音变得更方便,到 Spectre I 们拼命让偷录变得不可能——这对矛与盾的竞赛,可能才刚刚开始。 来源:https://www.deveillance.com/
4599元的苹果本发布:MacBook Neo缘何引发配置争议?
原标题:MacBook学生本惹争议 最新发布的入门级苹果本Macbook Neo引发的讨论甚至比大哥MacBook Air M5还热烈,大家各抒己见的同时也试图弄清楚这款使用A18 Pro手机处理器且仅配置8GB内存的13寸MacBook有何意义。 尽管Neo首次引领Macbook下探至4000元价位(256GB SSD,不带指纹识别,教育优惠),威胁到Windows学生本甚至赔本赚吆喝的Chromebook上网本,但仍有用户建议,找一台合适的官翻或二手M1可能是更好的选择,但也要注意避开8GB配置陷阱: 苹果也意识到了这个问题:大家都在讨论四千块钱的MacBook Air M1多么划算,五年前发布的笔记本还能当好多年钉子户,这对于以挤牙膏为己任的垄断型公司来说是无法容忍的。于是独孤求败的苹果不惜放下身段,下探入门级市场,用一款架构更先进(身为手机处理器的A18 Pro实际上比M1先进至少一代),同时利润更高(活跃的二手市场对苹果来说毫无价值)的Neo来清除用力过猛,不小心牙膏挤多了,自己一手促成的M1钉子户。 而且,难道没人注意到Neo的价位非常接近搭配妙控键盘的iPad吗?总有人哭着喊着找iPad OS要工作效率,这不来了,只不过既要又要就要有买两遍的觉悟。 至于一大帮子人围着USB2.0接口与8GB内存唾沫横飞,甚至还在扯屏幕小0.2还是0.3寸,well,这个地球如何运转并非由参数决定,否则我们应该是尼安德特人的后代才对。 现实有时就像广告图这么荒诞——戴着549美元的AirPods Max,用着599美元的MacBook:
股价腰斩、现金吃紧!又一家大厂突然大裁员
据部分知情人士透露,甲骨文公司计划裁减数千个工作岗位,最早可能在本月实施。 由于计划仍处于保密阶段,知情人士要求匿名。 其中两位人士表示,部分裁员将针对公司预计因人工智能发展而需求减少的职位类别。 本周,甲骨文公司内部宣布,将对其云部门的许多空缺职位进行审查,此举实际上将放缓或冻结招聘流程。 在董事长拉里·埃里森的领导下,甲骨文公司正着手进行一项历史性的数据中心建设,以支持OpenAI等客户的AI工作负载。 这家长期以来以数据库软件闻名的公司,在过去几年中一直在转型,致力于加强其云计算部门,重点发展人工智能,旨在成为市场领导者亚马逊和微软的有力竞争对手。 据彭博社汇编的数据显示,华尔街预计,甲骨文云业务部门在数据中心方面的支出将导致其未来几年现金流为负,直到2030年这些支出才会开始产生回报。 上个月,甲骨文表示,今年将通过债务和股权发行相结合的方式筹集至多500亿美元资金。 对于裁员消息,甲骨文公司拒绝置评。 截至2025年5月底,该公司在全球拥有约16.2万名员工。 知情人士称,裁员计划仍在进行中,并可能发生变化。 此次裁员的背景,是甲骨文近年来押注AI云计算的激进战略。在公司创始人兼董事长Larry Ellison的推动下,Oracle正在进行历史上规模最大的基础设施投资——大规模建设用于AI计算的数据中心。 公司希望通过这些基础设施,为人工智能模型提供算力支持,并借此在云计算市场与Amazon和Microsoft展开更直接的竞争。 过去几十年,Oracle一直以数据库软件闻名于世。 但随着云计算成为科技行业的新主战场,这家公司也在加速转型,希望从传统软件公司转变为云基础设施提供商。 而人工智能的爆发,为这一转型提供了新的契机。例如,Oracle的数据中心正计划为像OpenAI这样的AI公司提供算力支持,以承载日益增长的大模型训练和推理需求。 华尔街分析机构预计,Oracle云计算部门未来几年用于建设AI数据中心的资本开支将极为庞大,甚至可能让公司的现金流在短期内转为负值。 彭博社统计数据显示,这种大规模投资可能要到2030年前后才会开始显现回报。为了支撑这场“豪赌AI”的计划,Oracle甚至表示今年可能通过债务和股权融资筹集多达500亿美元。 高昂的前期成本,也让投资者的态度发生了变化。2024年,市场一度对Oracle的AI战略非常乐观,公司股价全年上涨超过60%。 但随着投资规模不断扩大、利润压力增加,投资者情绪开始降温。自2025年9月的高点以来,Oracle股价已经下跌超过50%。裁员计划曝光后,股价也一度回落。
奥特曼砸场发布GPT-5.4!网友:一句Hi烧掉80美元
每次打开 AI 工具,你大概都要先想一秒钟:这个任务,该用哪个模型?写代码是一个,查资料是另一个,让 AI 帮你操作电脑,还得再开一个窗口。 今天过后,这种分裂感终于有了一个答案。 就在刚刚,OpenAI 正式发布 GPT-5.4,把编程、推理、计算机操控、网页搜索和百万 Token 上下文全部整合进同一个模型,且没有为了整合而牺牲任何一项的能力。 OpenAI CEO 山姆·奥特曼也在 X 平台发了一条简短推文,点出了五个方向:知识工作更强、网页搜索更出色、原生计算机操控、支持百万 Token 上下文、响应过程中随时可介入。 寥寥数语,对应的恰好是过去两年 AI 应用落地中最集中的五个痛点。 01 知识工作:十次有八次,AI 赢了专业人士 理解 GPT-5.4 在知识工作上的进步,需要先了解 GDPval 这个基准的设计逻辑。 它横跨美国 GDP 贡献最大的 9 个行业、44 种职业。任务是那些职场里每天真实发生的工作:给投资银行写财务模型、给医院排急诊班次、给销售团队做演示文稿。 任务完成后,把输出结果交给行业内的真实从业者盲测打分,看 AI 的产出能赢过多少比例的人类同行。 GPT-5.4 的答案是 83.0%,意味着十次对比中有八次以上,行业专业人士认为 AI 的产出达到或超过了人类同行水准。上代 GPT-5.2 是 70.9%,差距将近 13 个百分点。 进步在电子表格建模上表现得最为具体。GPT-5.4 模拟初级投行分析师完成建模任务,平均得分 87.3%,GPT-5.2 是 68.4%,GPT-5.3-Codex 是 79.3%,差距将近 20 个百分点。 法律平台 Harvey 的 BigLaw Bench 测试结果同样亮眼,GPT-5.4 得分 91%,专业服务评测平台 Mercor 的 APEX-Agents 基准中也拿下了第一。 准确性方面同样值得关注。幻觉问题一直是 AI 进入专业场景最大的拦路虎,每降低一个百分点,都意味着更多场景可以放心用它。 数据显示,与 GPT-5.2 相比,GPT-5.4 单条陈述出错的概率低了 33%,完整回复含有错误的概率低了 18%。 02 编程:一个模型,写代码测代码全包了 GPT-5.4 把 GPT-5.3-Codex 的编程能力整合进主线,对开发者来说,这意味着你不再需要为了写代码单独开一个模型,而且编程能力本身也没有因此打任何折扣。 SWE-Bench Pro 专门测试真实软件工程任务,GPT-5.4 得分 57.7%,GPT-5.3-Codex 是 56.8%,GPT-5.2 是 55.6%。整合之后,编程分数不降反升,同时还顺带获得了计算机操控等一整套通用能力,几乎找不到明显的弱点。 知名 AI 评测博主 Dan Shipper 试用后写道:「这是我们最近一段时间里见过 OpenAI 最出色的规划能力,代码审查也很强,而且成本大约只有 Opus 的一半。」 他点出了两个具体维度。其一,规划能力是长任务成败的关键,GPT-5.4 在任务拆解和持续推进上明显更有条理。其二,与 Claude Opus 相比约一半的成本,对需要大规模 API 调用的开发者来说,这个差距在账单上会非常直观。 开启 Codex 中的 /fast 模式后,可使 GPT‑5.4 的 token 生成速度提升最高 1.5 倍,使得用户可以在编码、迭代和调试过程中保持流畅的工作状态。 与此同时,新推出的实验性功能 Playwright Interactive 把 GPT-5.4 的编程体验又推进了一步。 GPT-5.4 在构建 Web 或 Electron 应用时,能够通过可视化浏览器进行实时调试,模型可以边写代码、边测试自己正在构建的应用,同时承担开发者和测试员两个角色。 OpenAI 展示了一个典型案例:仅凭一条轻量提示词,GPT-5.4 生成了一个完整的等距视角主题公园模拟游戏,涵盖基于瓦片的路径铺设与景点建设系统、游客 AI 寻路与排队行为,以及资金、游客数、满意度、清洁度四项指标全部实时动态更新的综合评分。 Playwright Interactive 在整个过程中承担了多轮自动化测试,验证路径铺设、摄像机导航、游客响应及 UI 指标的正确性。从写代码到测试验收,模型全程自己完成。 博主 Angel 同样用 GPT-5.4 写了一个 Minecraft 克隆版,模型花了约 24 分钟,运行流畅,过程中没有卡住。他在推文里写道「Minecraft 基本上被攻克了,我现在得找个新测试了」。 沃顿商学院教授 Ethan Mollick 同样获得了早期访问权限。他用同一条提示词,让 GPT-5.4 Pro 生成了一个受《皮拉内西》启发的三维空间场景,全程没有报错,只额外追加了一句「把它做得更好」的指令。他随后把结果和两年前 GPT-4 生成的版本并排放在一起,差距一眼可见。 03 操控电脑这件事,它现在比你做得好 这是 GPT-5.4 这次发布里最值得单独说一说的变化。此前 OpenAI 的计算机操控能力是一个独立模块,跟模型的语言理解、代码生成之间有一道明显的分隔。 两套系统各管各的,信息要来回传递,效率自然打折。现在这道分隔没了,GPT-5.4 操控电脑时,用的就是模型本身的推理能力,不需要再绕一圈。 这也是 OpenAI 第一款将计算机使用(computer use)能力原生内置进通用模型的产品,以后谈 AI Agent,相信这会是一个新的起点。 基准测试结果显示,OSWorld-Verified 基准测试桌面导航能力,用截图加鼠标键盘交互完成真实操作系统任务。GPT-5.4 达到 75.0% 的成功率,人类基线是 72.4%,GPT-5.2 是 47.3%。 简言之,它不仅追上了人类,还超过了人类。 在只用截图模式测试浏览器操控的 Online-Mind2Web 基准中,GPT-5.4 达到 92.8%,对比对象 ChatGPT Atlas 的 Agent Mode 是 70.9%, 真实部署案例更能说明问题。Mainstay 将 GPT-5.4 用于约三万个物业税务门户网站的自动表单填写,首次成功率达 95%,三次以内成功率 100%,而此前同类模型仅在 73% 至 79% 之间。会话完成速度提升约三倍,Token 消耗降低约 70%。 这背后绕不开视觉感知能力的改进。操控电脑说到底是一件需要「看清楚」的事——看清楚界面上有什么、按钮在哪里、点击是否准确。 GPT-5.4 在这一层做了专项加强,引入了原始图像(original)输入模式,支持最高 1024 万像素或 6000 像素最大边长的高保真图像输入;原有的高清(high)模式上限也从此前的标准提升至 256 万像素或 2048 像素最大边长。 04 工具调用与网页搜索:持续性是核心竞争力 一个复杂的 AI Agent 系统,背后可能挂着几十个 MCP 工具。过去的做法是每次对话开始前,把所有工具的说明一股脑塞进去,不管这次用不用得上,Token 先花了再说。 GPT-5.4 换了个思路:先给模型一份简单的工具清单(即引入工具搜索机制),真正需要用哪个,再去把那个工具的详细说明取过来,用过一次的还能直接缓存,下次不用重新拿。 在 250 项任务的测试中,启用 36 个 MCP 服务器的完整配置下,工具搜索模式在保持准确率完全不变的前提下,将总 Token 消耗降低了 47%。将近一半的成本节省,精度一点没少。 网页搜索方面,GPT-5.4 在 BrowseComp 基准上得分 82.7%,比 GPT-5.2 的 65.8% 高出 17 个百分点,Pro 版更达到 89.3%,创下业界最高分。Zapier CEO 评价说,GPT-5.4 会在其他模型放弃的地方继续搜索下去,是他们测试过持续性最强的模型。 05 百万 Token 上下文:长长长长长长 GPT-5.4 在 API 中支持最高 100 万 Token 的上下文窗口,相当于可以把一个完整项目的所有相关文档一次性塞进同一次对话。 但从测试结果来看,128K 至 272K 是表现最稳定的区间,适合日常使用。 256K 以上准确率开始下滑,需要针对具体任务验证后再用。512K 至 1M 区间的得分降至 36.6%,目前更接近实验性质,不适合直接用于对精度要求高的生产任务。 还有一个实际的成本问题需要注意:超过 272K 的请求会按两倍用量计入配额。也就是说,发一次超长上下文的请求,额度消耗等于两次普通请求,用之前值得想清楚是否真的需要这么长。 至于在视觉抽象推理基准 ARC-AGI-2 上,GPT-5.4 Pro 得分 83.3%,而上代 GPT-5.2 Pro 仅为 54.2%。 再比如 FrontierMath Tier 4 是目前公认最难的数学基准之一,包含 50 道研究级别的数学题,人类数学家可能需要数周才能解出。GPT-5.4 Pro 在这个基准上得分 38.0%,上代为 31.3%。 这个数字的参照系是:一年前,最好的成绩是 o3 的 2%,目前最好的开源模型是 4.2%。 博主 Deedy 在推文中写道,从 2% 到 38%,「简直令人震惊」。Humanity's Last Exam 有工具辅助时,GPT-5.4 Pro 得分 58.7%,GPT-5.2 Pro 是 50.0%,差距接近 9 个百分点。 06 执行中调整,不是完成后返工 用过 AI 处理长任务的人大概都有过这种体验:等模型跑完一大段,发现方向不对,只能从头再来,时间全浪费了。 GPT-5.4 Thinking 在 ChatGPT 中新增了一项「中途打断」功能:在处理复杂任务之前,模型会先呈现工作计划概要,再开始执行。用户可以在执行过程中随时介入调整方向,不必等到结果出来再从头重来。 这个功能把纠偏这件事从「完成后」提前到了「执行中」,对需要多轮协作的任务来说,体验差别会比较明显。功能目前已在 chatgpt.com 和 Android 应用上线,iOS 版本即将跟进。 即日起,GPT-5.4 向 ChatGPT Plus、Team 和 Pro 用户开放,替代 GPT-5.2 Thinking 成为默认思考模型。 GPT-5.2 Thinking 将保留至今年 6 月 5 日后正式退役。Enterprise 和 Edu 用户可由管理员在后台开启早期访问,GPT-5.4 Pro 仅对 Pro 和 Enterprise 计划开放。 API 标准版定价为输入 2.50 美元/百万 Token,缓存输入 0.25 美元/百万 Token,输出 15 美元/百万 Token。Pro 版为输入 30 美元/百万 Token,输出 180 美元/百万 Token。Batch 和 Flex 处理享标准价格五折,Priority Processing 为两倍标准价格。 当然,强大的推理能力也有它的另一面。Hyperbolic 联合创始人金宇晨在 X 平台吐槽,GPT-5.4 Pro 是他用过最爱「过度思考」的模型——仅仅发了一句简单的「Hi」,模型就开始认真推理,直接烧掉了 80 美元。 这并非个例。推理模型的特性决定了它在处理任何输入时都倾向于深度思考,哪怕问题本身根本不需要。对于日常轻量任务,标准版或许是更合适的选择;Pro 版的推理火力,还是留给真正值得的场合更划算。 过去两年,AI 能力的讨论主要集中在基准测试成绩上的「聪明」,但 GPT-5.4 的聪明指向的是能够在真实工作流中,足够可靠地承担责任。 过去 AI 只能输出文字,人还需要亲自操作才能让事情发生。现在模型可以自己打开浏览器、填写表单、点击按钮、记录结果,独立完成一个有头有尾的任务闭环。 AI 正在从一个擅长回答问题的系统,变成一个擅长完成任务的系统。而这个转变的速度,显然比大多数人预期的更快。
美军方正式通知Anthropic被列为供应链风险 或引发诉讼
Anthropic 凤凰网科技讯 北京时间3月6日,据彭博社报道,一位美国高级国防官员称,五角大楼已正式通知AI公司Anthropic PBC,该公司及其产品被认定对美国供应链构成风险,这使得双方围绕AI保障措施的争端进一步升级。 “战争部(国防部)已正式通知Anthropic领导层,该公司及其产品被认定为供应链风险,立即生效。”该官员周四对彭博社表示。特朗普政府现在将国防部改称为战争部。 这位国防官员并未说明五角大楼是何时以及通过何种方式通知Anthropic的。 Anthropic发言人尚未就此置评。Anthropic此前曾表示,如果五角大楼将其认定为“供应链风险”,公司将会在法庭上对此提出挑战。 五角大楼的这一认定,可能会同时对Anthropic以及严重依赖该公司软件的军方造成影响。直到最近,Anthropic还是唯一能在五角大楼机密云环境中运行的AI系统供应商,其Claude Gov工具因其易用性而成为国防人员的首选。 Anthropic CEO达里奥·阿莫代伊(Dario Amodei)数周来一直在与美国国防部负责研究和工程的副部长埃米尔·迈克尔(Emil Michael)进行谈判,以敲定一份关于五角大楼使用Anthropic技术的合同。但是,双方最终因为AI使用限制问题谈判破裂。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
苹果新款Apple TV与HomePod mini缺席,或因Siri未就绪
IT之家 3 月 5 日消息,苹果本周发布了七款产品,涵盖 iPhone 17e 到 MacBook Neo 等机型,但全新 Apple TV 和 HomePod mini 并未登场。 IT之家注意到,早在 2024 年末,就已有关于下一代 Apple TV 和 HomePod mini 的传闻,不少用户因此疑惑为何这两款设备迟迟未推出,据 Macrumors 推测,答案很可能与 Siri 有关。 去年 9 月,彭博社记者马克 · 古尔曼(Mark Gurman)曾报道,新一代 Apple TV 和 HomePod mini 都将支持由 Apple Intelligence 驱动的更个性化版 Siri。苹果原本计划去年推出改版后的 Siri,但该功能被推迟,Apple TV 和 HomePod mini 也因此大概率延期。据推测,传闻已久的苹果智能家居中枢设备同样受 Siri 延期影响而暂缓发布。 今年 1 月,苹果与谷歌宣布,谷歌 Gemini 将为 Apple Intelligence 后续功能提供支持,其中就包括今年即将推出的更个性化 Siri。苹果尚未公布更具体的上线时间,但古尔曼称,个性化 Siri 功能目前计划随 iOS 26.5 或 iOS 27 推出。 iOS 26.5 预计将于 4 月开启测试后,在 5 月发布;iOS 27 则会在 6 月的苹果全球开发者大会(WWDC)上亮相,并于 9 月向所有用户推送。据此推算,新款 Apple TV 和 HomePod mini 可能要到今年 4 月至 9 月才会发布。 此前有传闻称,下一代 Apple TV 将搭载 A17 Pro 芯片,这是支持 Apple Intelligence 的最老款芯片。该设备还预计配备苹果 N1 芯片,支持 Wi‑Fi 7、蓝牙 6 和 Thread 协议。 至于 HomePod mini,预计会采用 Apple Watch 的 S9 芯片或更新款芯片,不过目前尚不完全明确该芯片如何足以支持 Apple Intelligence 驱动的改版 Siri。其他传闻中的特性还包括 N1 芯片、音质提升、新款超宽带芯片,以及新增红色版本。 现款 Apple TV 发布于 2022 年 10 月,HomePod mini 则首发于 2020 年 10 月,两款设备均已到更新周期。希望更个性化的 Siri 能在未来数月内到来,随后这两款新品也能尽快登场。
“3字头”的A19与Mac 是苹果入门级全家桶的降维打击
从Mac到iPad再到iPhone,苹果在2026年春季带来了一波“全家桶”的更新。从近几次的规律来看,苹果似乎正在确立每年春秋两季的新品发布节奏:秋季主要发布重磅旗舰机型,春季则适当补充完善自家产品线,实现查缺补漏。 MacBook Neo与iPhone 17e 3月2日到3月4日,苹果分批次在官网直接上线了多款春季新品。这一次的发布会可谓看点十足,因为我们看到苹果开始在多个产品线,向入门用户递出了一个又一个橄榄枝。 iPhone 17e:实用主义新选择 根据最新的行业统计数据显示,截至2026年第7周,iPhone 17系列在中国市场的累计销量已经达到约2226.81万台,展现出了极强的市场统治力。也许我们总能在安卓阵营看到更强的芯片、素质更高的镜头、参数更好的屏幕。但是,它们始终没有iOS。 对于系统的感受,体现在你日常使用的每一天,当iPhone真正融于每个人的生活,它的销量自然也会水涨船高。 iPhone 17e 在iPhone 17系列大获全胜的背景下,苹果顺势推出了定位更加亲民的iPhone 17e。对于那些不打游戏,仅仅追求“能用更久、广告少、应用商店没垃圾软件”的用户来说,这台门槛更低的新机,自然成为了更合适的选择。可以看到的是,作为当前苹果生态的入门新选择,iPhone 17e的定位非常明确。它尤其适合初次接触智能手机的年轻人,或者是家中的长辈。iOS系统本身运行更加稳定,而且封闭的生态能够最大限度降低误下载流氓软件的风险,省去了许多后期维护的烦恼。 iPhone 17e 与过去的入门款iPhone相比,iPhone 17e也带来了一系列更具实用主义的升级。首先,它搭载了A19芯片,这意味着它与iPhone 17系列的其他机型,在系统层面享有完全相同的生命周期,并在AI的表现也处于同一水平。其次,它也加入了MagSafe,并且提升了无线充电的功率,它也可以享受更为完善的MagSafe生态,甚至在Apple Store零售店,也不再需要为了e系列机型单独定制一块摆放区域。 iPhone 17e 最重要的是,iPhone 17e今年也与国际接轨,采用SIM卡+eSIM卡的组合,它既能满足当前使用实体SIM卡的用户,也能更加温和地去推动国内市场eSIM的商用进程。 MacBook Neo:A系列芯片首次来到Mac产品线 MacBook Neo应该是本次春季发布会上的重磅新品。这一方面因为它是苹果产品线内首款命名带有“Neo”的设备,更是因为它从外观设计到产品展示,都向入门用户抛出了极具诚意的橄榄枝。 戴手链和首饰来展示MacBook Neo 诚然,MacBook Neo的硬件参数在数码发烧友眼中显得十分“复古”。它搭载A18 Pro芯片,两个USB-C接口还分别采用了USB 3+USB 2的组合,屏幕也仅仅采用sRGB色域,键盘也去掉了背光功能。然而,当我们把目光转向价格就会发现,这台售价4599元的MacBook,在叠加了国补、教育优惠甚至是各种补贴以后,已经可以轻松下探至3000元价位段。 MacBook Neo 3000元,能够买一台设计足够优雅的Mac,还拥有完善的macOS,这本身就极具吸引力。如果你正在使用iPhone,macOS与iOS能够提供更为完善的联动,无论是快速的AirDrop,还是iPhone镜像,完整、优雅、实用的系统生态,加上与苹果其他设备无缝联动的能力,就是苹果能够长期吸引用户的护城河。 MacBook Neo MacBook Neo无疑是我在此次春季发布会中最偏爱的产品,它的出现彻底改变了我过去对苹果产品线的固有认知。以往当有人咨询入门级设备如何购买时,我通常会建议他们购买老款机型或是二手设备,在保证性能的同时降低购买门槛,这是因为苹果产品在耐用性方面表现极佳,尤其是Mac系列拥有极其持久的生命周期。不过,总有很大一部分消费者极其排斥购买旧机型,同时,普通用户往往缺乏足够的鉴别能力,去判断一台二手设备是否暗藏猫腻或是性能受损。而MacBook Neo这类全新入门级产品的登场,恰恰为这部分预算有限的用户提供了一个“绝对不出错”的新选择。 搭载M4芯片的iPad Air:核心升级 除了上面两个补贴后价格3开头的设备外,iPad Air也同样贯彻了核心升级的思路。此次iPad Air配备了M4芯片,同时具备12GB的运行内存。目前在iPad产品线中,Air是一个能够被更多用户接受的产品,它拥有不错的性能表现,同时价格相比Pro也更加友好,是很多人初次上手iPad的好选择。 iPad Air iPadOS在不断更新的过程中,也让iPad更加接近一款专业的生产力设备。与iPad Pro相比,iPad Air是一个“既能爱奇艺,又能生产力”的设备,哪怕用iPad Air去看视频,也不会有很大的心理负担,而且M4芯片的加入,在面对日常轻办公,甚至是使用剪映/Final Cut Pro去剪辑都没有问题。对于预算有限但又渴求高性能平板体验的用户而言,搭载M4芯片的iPad Air就是一个极具竞争力的选择。 入门全家桶上新 用价格惠及更多人 大体上说,这次春季新品属于一次产品线的完美补齐。无论是iPhone 17e、搭载M4芯片的iPad Air,还是全新登场的MacBook Neo,它们不仅有着同价位段足够良好甚至堪称旗舰级的性能表现,更有着非常实惠的价格。 当国补叠加学生优惠后只有3开头的MacBook Neo出现,当搭载A19芯片的旗舰性能来到3开头的价位后,更多此前只能“等降价”、“买二手”的价格敏感用户,也将因此而极大受益。在当今供应链紧张、内存价格飞速走高的时代,苹果能够在保持价格友好的同时,提供“加量不加价”的体验,这无疑展现出了足够的诚意。
传音年度旗舰Infinix NOTE 60 Ultra发布:超跑设计!首发多国双向卫星通话
快科技3月6日消息,2026年世界移动通信大会(MWC 2026)期间,传音旗下Infinix正式发布年度巅峰旗舰NOTE 60 Ultra,这款机型由意大利传奇设计公司宾尼法利纳联合打造,融合超跑设计美学与尖端科技。 外观上,该机汲取高性能跑车的空气动力学理念,首创一体式相机底座模组设计,采用整块康宁大猩猩玻璃打造,让影像系统自然融入一体化铝合金机身。 同时保留满满仪式感,尾翼呼吸灯开机点亮,相机模组内的交互副屏可显示通知与动态元素,呼应赛车仪表盘设计。 配色上推出都灵黑、蒙扎红、阿马尔菲蓝、罗马银四款,灵感源自意大利文化与赛车精神。 正面配备1.5K Ultra HDR影院级屏,支持144Hz刷新率与4500尼特峰值亮度,搭配JBL调校的立体声系统。 性能上搭载4nm全大核天玑8400 Ultimate芯片,搭配自研性能引擎,多任务处理能效最高提升25%,保障长久流畅使用。 续航内置7000mAh硅碳负极超大电池,搭载自研电池自修复技术,每200次充电循环可恢复约1%电池健康度,支持100W有线快充与50W无线充电,有线48分钟即可满电。 搭载三摄全焦段影像系统,主摄为新一代2亿像素三星ISOCELL HPE传感器,搭配5000万像素潜望式长焦与112°超广角镜头。首次支持XDR显示标准与Ultra HDR拍摄,配备自研XDR图像引擎。 借助先进光学与算法,实现2倍、3.5倍光学变焦到7倍无损变焦的平滑过渡,最高支持100倍超远距拍摄。 作为全球首款支持多国覆盖的双向卫星通话智能手机,该机可在偏远地区、网络中断等突发场景下,实现卫星通话、短信发送与紧急位置共享,打破地理通信桎梏。
2026款仰望U7/U8系列三款旗舰车型上市,最高售价超130万
凤凰网科技讯 3月5日,比亚迪在深圳举办技术发布会,正式推出第二代刀片电池及闪充技术,并同步上市2026款仰望U7、U8及U8L三款旗舰车型。其中,仰望U7起售价为65.8万元,仰望U8起售价为100.8万元,主打行政级的仰望U8L鼎世版起售价达到130万元。此次发布的核心技术旨在解决新能源汽车的补能痛点,官方宣布在2026年5月11日前支付定金的非营运车主,可获赠一年内免费闪充充电权益。 在核心技术参数方面,首发搭载第二代刀片电池的仰望U7 2026款纯电版电池容量提升至150.01kWh,CLTC工况下纯电续航里程达1006km,插混版综合续航为1100km。凭借新一代闪充技术,该车型标称可实现“5分钟充好、9分钟充饱”。底盘系统方面,U7配备了云辇-Z电悬架与云辇-A+智能空气车身控制系统。 仰望U8 2026款则将综合续航能力提升20.5%至1205km,充电倍率达到9C。此外,U8车型升级了eTCS2.0扭矩控制技术与云辇-P+双阀液压减震器,并在智能化硬件上换装了全球首款3nm 5G车机芯片及天神之眼5.0系统。 针对高端商务市场的仰望U8L鼎世版 2026款,在续航与充电升级的基础上,重点强化了车辆的安全与隐私配置。新增功能包括全场景隐私安全加密、结合智驾系统的NOA爆胎稳行稳停,以及将应急浮水功能由手动升级为自动触发。官方透露,该车型已向美的集团董事长方洪波等企业高管进行交付。据了解,上述三项新增的安全功能后续也将通过OTA升级推送至老客户。 整体来看,仰望品牌此次产品更新主要依托电池、底盘及智能化硬件的迭代,以期在运动轿车、硬派越野及行政豪华三个细分市场巩固其高端定位。
用了美团刚出的免费浏览器,我感觉它要掀桌子了
机友们应该有感觉到,这两年各家大模型的能力,以及应用场景的落地,比前几年都快了不少。 之前可能大家都在卷超长上下文理解,卷文生图、图生视频。 但现在各家大模型能力都成熟了,也就卷起了智能代理Agent。 机友们可以把Agent智能代理,理解成一个能听懂人话,并且自主规划、记忆、执行和反思的智能助理。 跟常规的AI问答、搜索和研究不同。 Agent能自己动。 你提完要求后,它就默默干活去了,我们只需翘着腿等它交付结果。 最近很火的OpenClaw,就是因为能帮用户接管电脑,完成一些复杂任务,才迅速火了起来。 但有一说一,OpenClaw对于普通人来说,部署、学习和使用成本都略高。 大厂们也懂。 所以这段时间,一直在换着法子,把Agent塞进不同的应用场景里。 在千问这里,叫做「任务助理」。 在豆包那边,叫做「超能模式」。 而美团呢。 选择用AI浏览器的形态,加入这波大模型Agent战场。 喏,在3月初,美团正式发布了旗下首个AI浏览器—— Tabbit 目前处于公测期间,所有功能都是免费用的,也支持了Windows和macOS两大主流系统。 但说实话,机哥在深度使用之前,对这浏览器的期待值并不高,毕竟美团的主业又不是搞浏览器或者大模型Agent。 但这两天用下来,我承认脸被打得有点疼。 抛开刻板印象不谈,Tabbit浏览器的大模型集成度很高,Agent理解、规划和执行的能力,也比我想象中强得多。 要说缺点的话,可能就是内存占用有点高。 这还只是刚启动的状态。 OK,接下来详细跟机友们,聊下我的使用体验。 初来乍到的Tabbit浏览器,在界面设计和功能引导上,都没啥毛病。 开局就会让我选择用垂直标签页,或者横向标签页,浏览器数据的导入也比较无感。 再点几个按钮,咱们就能看到这浏览器的主页了。 没啥花里胡哨的广告,只有显眼的输入框放在中间。 默认情况下,它就是个常规的AI问答产品。 也因为是大厂财大气粗,它几乎一次性接入了所有国产大模型。 DeepSeek-V3.2、Doubao-Seed-1.8、Kimi-K2.5、Qwen3.5-Plus、GLM-5、MiniMax-M2.5、LongCat-Flash-Chat... 有种生怕用户不满意,干脆全都塞进去的即视感。 估计机友们也很好奇。 塞了这么多大模型进去,Tabbit又能干嘛呢? 比较基础的用法,就是结合当前网页,或者其他标签页的上下文,提取出重点。 比如前几天iPhone 17e不是发布了么。 机哥当时想第一时间了解,这新机到底升级了啥,核心配置又有哪些。 我就可以在该网页里,点击右上角的「Chat」调出侧边栏,让Tabbit给我做个汇总。 为了方便查看对比,我把内容导出为PDF。 能看出不仅信息量很丰富,各项配置的列举也很清晰。 然后问题又来了。 我要是想同时了解iPhone 17e和M4 iPad Air的亮点,Tabbit能不能把事儿办成呢? 答案是肯定的。 只要艾特一下,把另一个新品的官网介绍也引用进来,再让它提取两款新品的核心配置和价格。 机哥便同时得到了iPhone 17e和M4 iPad Air的核心配置汇总。 讲真的。 比以前自己到处翻官网配置对比和博主总结省心多了。 机哥还发现,这浏览器的引用兼容性贼强。 以往我们找大模型解决问题,可能是有个文档需要它帮忙总结,又或者是有个英文文章段落没看懂。 都得手动上传截图或文件,让AI去处理。 但Tabbit属于是「啥都能@」。 收藏书签、当前标签页、历史标签页、本地文件...省掉了我频繁手动复制粘贴的麻烦。 当然啦。 常规的多模态内容引用,以及总结润色啥的,都是很多大模型产品的基操了。 Tabbit浏览器真正的杀手锏,其实是「Agent智能代理」。 这功能的本质是,你跟它提需求,它再自己去理解和执行。 比如我想汇总锋潮科技官网,最近三天跟MWC有关的文章,于是就用「智能代理」模式提了这么个要求—— “帮我把这网站最近三篇和MWC有关的文章,填到里面,每篇文章需要包含:标题、内容摘要和字数显示。” 没过多久,Tabbit就理解了需求,开始执行起任务。 整个执行过程不用咱们盯着,更不影响我们正常浏览其他网页。 不过当时机哥担心它事儿办得不够稳妥。 基本是全程看着它干活的,整体的流程确实很「拟人」。 最后它在文档里输入的内容完全符合我的要求,包含了标题、内容摘要和字数显示。 当然这个使用场景,肯定不适用于所有人。 所以机哥还找了一些,大家平时都容易遇到的场景。 比如同一款产品,某宝和某东哪边更便宜? 我说干就干,看看Tabbit能不能在智能代理模式下,完美完成任务。 经过了大概五分钟的等待。 Tabbit成功在两个电商平台中,找到了最便宜的链接,然后帮我加入了购物车。 这种随意使唤、言出法随且不用担心“助理”不耐烦的体验。 我相信机友们用过之后,都会觉得“旦用难回”。 另外还有个比较有意思的功能,机哥觉得很有必要提一嘴。 很多机友玩浏览器,不都会安装一些脚本或者插件,让网页更好用么。 在Tabbit浏览器上,就不用那么麻烦。 因为它自带了「脚本生成和执行」功能。 比如我想让某个网页开启黑暗模式,并且不影响文字和图片阅读。 说清楚需求后,Tabbit就会写出开箱即用的脚本,并且把特性和使用教程说得明明白白。 最终的脚本执行结果,机哥还是很满意滴。 除了简单的黑暗模式切换,像是什么网页净化啊,批量图片提取啊,网页风格大改造啊... 只要不是太无厘头的要求。 Tabbit都能把脚本捏出来给你执行。 错误示范 OK,以上就是机哥这几天用Tabbit浏览器的真实体验。 它和传统浏览器最大的区别有三个——有Agent、能自己写脚本、能选择用哪个大模型干活。 虽然本质上来说,浏览器Agent能做的事,肯定没有OpenClaw这种全局AI Agent那么多。 智能程度再高,也顶多是代替我们完成网页任务。 可OpenClaw们,已经能帮用户下电影、写代码和抢电影票了。 但话又说回来啊。 OpenClaw对于普通人的折腾成本,实在是太高了。 不仅安装部署麻烦,使用过程中还得面对各种命令行界面,还得接入聊天软件和API Key。 这套流程走下来,足以劝退90%以上用户。 哪怕你坚持了下来,也不一定能扛住超高的Token消耗。 最后还得防着它,会不会在操作过程中,误删什么重要文件。 相比之下。 能开箱即用、自带智能代理Agent的浏览器,可能是适合更多人的选择。 一方面是因为,浏览器是大家平时都会用到的软件。 另一方面,咱们平时要用到的网页,基本都会提前登录,变相解决了AI Agent需要额外配置和折腾Cookies的麻烦。 当然,如今Agent所带来的Token消耗量和成本,依旧是个问题。 所以机哥看到,哪怕是美团这样的大厂,目前在宣传上都不敢说“免费多久”,并且也早早上线了Pro套餐。 或许类似这样的Agent产品,以后都绕不开付费订阅的打法。 但这倒不是啥大问题。 如果每个月少喝两杯奶茶,能得到一个稳定好用的“智能助理”。 我估计体验过的用户,都是能够接受的。 啊对了,最后给机友们留个彩蛋。 这浏览器还有个国际版,目前支持免费使用Gemini、Claude和GPT三家最顶级的模型。 有条件的机友,可以自行去探索一波。
GPT-5.4发布,最适合OpenClaw的天选模型登场了
深夜凌晨2点,我刚准备睡觉。 然后,GPT-5.4,突然发布。 一下子激动的睡不着了。 真的,这真不是我天天咋咋呼呼啥的,我真的也很少会用激动的睡不着觉这种表述。 这是因为,我一直在等正式版的GPT-5.3或者GPT-5.4,来作为我的OpenClaw的首选模型。 理由特别简单,因为现代世界三十年,本质上基层都是代码,我们现在看到的关于计算机和互联网的一切,几乎都建立在代码的基础之上。 所以你可以理解为,代码能力,在很多时候,就代表着Agent能力的一根粗壮的腿。 一个优秀的Agent基座模型,在我的理解里,一般来说,需要三种都很强: 代码能力、世界知识、多模态理解。 当你这三个都能SOTA的时候,你几乎必然就是最牛逼的Agent模型,当然,还有一个重要的因素,就是价格。 在过去,Claude Opus 4.6,几乎就是Agent模型的代名词,因为代码、世界知识都很强,多模态能力虽然比不过Seed 2.0和Gemini 3.1 Pro,但是在一些场景里面,也够了,因为现在的Agent,跟现实物理交互还没有那么多,那个已经是具身智能的范畴了。 而我过去很喜欢的GPT-5.3-Codex,代码能力确实强,在做任务执行的时候,那简直就是指哪打哪。 但是最大的问题,这玩意是一个编程特化模型啊,世界知识就是一坨屎,连GPT-5.2都不如,所以OpenAI当时也是没办法,为了跟Claude打一打,只能加个Codex的后缀给放出来了。 所以你会发现,在规划能力上,是完全比不过Claude Opus 4.6的,但是最大的问题,其实还是因为世界知识的问题,就导致这玩意。 它说天书,讲的那些话,真的,我不是程序员出身,我看那个话,看的就真的超级费劲。 就比如说,我让他之前对我的一个AI热点网站的项目进行审查,主要就是review一下我的文档规范和我整个代码库。 然后,这哥们写的文档,我尼玛。。。 你再对比一下Claude Opus 4.6写的。 对比起来应该一目了然。。。 就是因为这玩意不说人话,世界知识也不行,所以,只是在Codex里面用用还好,但是你要是把它接到你的OpenClaw里面,去当做默认模型,你就知道啥叫灾难了,这哥们几乎没有人味,说起话来我想揍他。 所以我当时试了一下,就直接弃了,还是在我的OpenClaw里面,用的Claude Opus 4.6和Sonnet 4.6,做了一下场景调用。 那为啥说,我很期待GPT-5.4呢。 因为,Claude哪都好,但是,它贵啊!!! 它真的好贵啊!!!!!! 而且因为Anthropic这个呆逼,它把OpenClaw给疯了,所以我订阅的Claude的Max Plan的额度,是完全不能给OpenClaw用的,只能在Claude Code用,你想在OpenClaw上用,只能硬接API Key用。 但是大家都知道,Claude的API有多贵,那根本不是我们这种穷逼团队能用的起的,小规模用用还好,大规模用那公司直接破产了。 之前还有一条路是用反代,把Google家的Antigravity里面的Claude额度用插件代理出来,扔给OpenClaw用。 但是后面Google开始大批量封号,导致也没办法用了。 我过年的时候Google账号还被封了,被迫用AI去给Google写了一份声泪俱下的邮件。 我说我错了,我再也不会了。 后面Google才给我解封,但是反代肯定是用不了了。 而OpenAI就不一样了,最开始Claude疯狂封OpenCode账号的时候,OpenAI大手一挥,就站了出来,说我们不封,大家全力使用。 这是御三家里,唯一一个这么支持态度的,可以用第三方的工具,调用Codex的额度的。 那对OpenClaw自然也不例外了,也是几个顶级模型里面,为数不多的,可以直接走登录的,其他的都得用API。 真的,OpenAI这会真的是大善人。 还疯狂的给Codex加额度。 所以啊,Claude在OpenClaw里用,好是好,但是不能用订阅额度,只能用API,贵的一笔。 OpenAI的模型倒是可以用订阅额度,但是GPT-5.2代码又不行,GPT-5.3-codex又不说人话。 你看,要多别扭有多别扭。 而这一次,GPT-5.4来了!!! 终于把这个短板给补上了! 代码能力跟GPT-5.3-Codex齐平,世界知识比GPT-5.2还要强,还能使用订阅额度,20刀就可以用的超级爽。 你就说,这不是最适合OpenClaw的天选模型,还有谁是?嗯? 从今天开始,用OpenClaw的,都把默认模型切换到GPT-5.4去,真的,信我。 回到GPT-5.4,老规矩,先看跑分。 就很爽。 先看最关键的几个。 GDPval:83.0% 这个是测AI在真实工作任务中表现的,包括金融、法律等44种职业的知识工作。 GPT-5.4 Thinking拿了83.0%,Claude Opus 4.6是78.0%,GPT-5.3 Codex是70.9%。 在真实业务场景里,GPT-5.4不只是会写代码,它还能跟你聊业务、聊金融、聊法律、聊各种专业领域的东西。 而且是用人话聊,不是用天书聊。 SWE-Bench Pro:57.7% 这个是测AI解决真实软件工程问题的,不只是Python,而是测四种编程语言。 GPT-5.4 Thinking拿了57.7%,GPT-5.3 Codex是56.8%。 基本持平。 这就是我最想看到的结果。 代码能力保住了GPT-5.3 Codex的水平,世界知识又补上来了。 OSWorld-Verified也是,75.0%。这个是测AI操作电脑的能力的,就是让AI像人一样,用鼠标点击、用键盘输入、在不同应用之间切换,完成各种任务。 GPT-5.4 Thinking拿了75.0%,超过了Claude Opus 4.6的72.7%,也保持了跟GPT-5.3-Codex的持平。 而且,GPT-5.4操作电脑的速度,快的离谱。 看下这个没有加速过的视频,会更直观。 自动播放 ToolAthon:54.6% 这个是测AI使用工具的能力的,也就是Agent能力的核心指标之一。 GPT-5.4 Thinking拿了54.6%,Claude Opus 4.6是44.8%。 差了将近10个点。 至于学术知识之类的,跟GPT-5.3-codex就没法比了,因为OpenAI自己也知道,所以,直接当时就没跑。 总之,翻译成大白话就是。 GPT-5.4 = GPT-5.3 Codex的代码能力 + 比GPT-5.2还强的世界知识 + 更强的工具使用能力 + 超级便宜的codex额度。 这四样加在一起,就是一个完美的OpenClaw天选基座模型。 然后还有几个很棒的特性更新: 1. 100万token的上下文窗口。 这是GPT-5.4的一个大升级。 之前GPT-5.3的上下文窗口是40万token,GPT-5.4直接翻了一倍多,到了100万。 这对Agent来说太重要了。 因为Agent在执行任务的时候,需要保持对整个任务的上下文理解。如果上下文窗口不够大,Agent干着干着就会忘事儿,前面说的东西后面就不记得了。 100万token,基本上足够应对绝大部分的Agent任务了。 当然,OpenAI也不傻,他们说,超过27万token之后,你的额度就算两倍了。 不过因为Codex给的额度实在是太多太多了,所以即使是2倍,其实也还好。 2. 原生计算机使用能力。 这个是GPT-5.4的另一个大卖点。 OpenAI说,GPT-5.4是他们第一个内置原生计算机使用能力的主线模型。 它在编写通过Playwright等库操作计算机的代码方面表现非常的出色,同时也能根据屏幕截图发出鼠标和键盘命令。 也就是代码和视觉齐飞,我感觉,这个小龙虾接入以后,就真的可以,直接用视觉,操控你电脑上绝大多数的软件了,真的,原生操控,想想都激动。 他们基于此,还发布了一个新的skills,叫playwright-interactive。 允许Codex同时以代码和视觉的两种方式,调试Web和Electron应用。 网址在此,大家可以自行安装。 https://github.com/openai/skills/tree/main/skills/.curated/playwright-interactive 3. 支持了工具搜索。 以前呢,当模型被赋予工具时,所有工具定义都会预先包含在提示中。 对于拥有大量工具的系统,这可能会为每个请求增加数千甚至数万个token,而且绝大多数的时候,都毫无意义,平白无故的导致成本上升、响应变慢,并在上下文中充斥模型可能永远不会使用的信息。 所以呢,这次他们也支持了工具搜索,就是GPT‑5.4不再直接接收完整工具定义,而是接收一份可用工具的轻量列表以及工具搜索功能。 当模型需要使用某个工具时,它可以查找该工具的定义并在当时将其追加到对话中。 就非常像Skills渐进式呈现的方式,目的很简单,还是优化上下文工程。 OpenAI在自己测试完以后,发现工具搜索配置在保持相同准确率的同时将总体token使用量减少47%,这个就非常牛逼了。 GPT-5.4 Thinking大概就是这样。 这次他们其实还发了个GPT-5.4 Pro,我就不细说了,反正就是一切都更牛逼了,但是对于大多数人来说,太贵了,也没啥大用,必须得200刀的Pro会员才能用。 API的整体价格还是得说一下,虽然大家大概率用的都会是订阅的额度。 相比于GPT-5.2,价格是涨了的,但是还是比Claude Opus 4.6,便宜不少,Claude Opus 4.6的价格是$5/$25每百万token(输入/输出),GPT-5.4只有他们一半。 目前ChatGPT已经上线了。 Codex也已经支持了,我自己在Codex里面粗浅体验了一下。 首先扑面而来的,那自然是清新沁人的人话。。。 比如我让它去把OpenAI官网的视频给扒拉下来,你看看这个发言:“这种活最烦”,“省的跟Cloudflare互相折寿”。。。 还有这个。 真的,Codex的输出,我真的能看得懂了。。。 做出来的东西,前端审美有了不错的进步,但还是不如Opus 4.6和Gemini。 写作粗略测了一下,还是一股子莫名其妙的爱用排比句的诡异的味道。 奇奇怪怪。 然后有点可惜的就是,我等到了凌晨6点多,OpenClaw目前使用Codex登录的方式,还是没有支持GPT-5.4。 这就导致,我还是没有机会测GPT-5.4在小龙虾上的效果。 不过估计我一觉睡醒,估计小龙虾就支持了。 因为社区里已经看到很多用户在催了,而且先行官们,都普遍反馈效果很好。 坐等支持,我真的已经迫不及待了。 又是开心的一晚。 如果你也在用OpenClaw,那记得OpenClaw支持了以后,把默认模型切换到GPT-5.4。 如果你还没用过OpenClaw,那正好,现在是一个很好的开始时机。 毕竟,有了GPT-5.4这个天选模型,体验只会更好。 2026年,真是疯狂的一年啊。 睡了。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。