行业分类:
加载中...
头条分类:
加载中...
OpenAI 发布最新技术报告,揭秘 GPT-4o 变谄媚的原因
GPT-4o 更新后“变谄媚”?后续技术报告来了。OpenAI 一篇新鲜出炉的认错小作文,直接引来上百万网友围观。 CEO 奥尔特曼也做足姿态,第一时间转发小作文并表示: (新报告)揭示了 GPT-4o 更新失败是因为什么,从中 OpenAI 学到了什么,以及我们将会采取的应对措施是什么。 概括而言,最新报告提到,大约一周前的 bug 原来出在了“强化学习”身上 —— 上次更新引入了一个基于用户反馈的额外奖励信号,即对 ChatGPT 的点赞或点踩。 虽然这个信号通常很有用,但可能使模型逐渐倾向于做出更令人愉快的回应。 此外,尽管还没有明确证据,但用户记忆在某些情况下也可能加剧奉承行为的影响。 一言以蔽之,OpenAI 认为一些单独看可能对改进模型有益的举措,结合起来后却共同导致了模型变得“谄媚”。 而在看到这篇报告后,目前大多数网友的反应 be like: (你小汁)认错态度不错~ 甚至有人表示,这算得上 OpenAI 过去几年里最详细的报告了。 具体咋回事儿?接下来一起吃瓜。 完整事件回顾 4 月 25 日,OpenAI 对 GPT-4o 进行了一次更新。在官网的更新日志中,当时提到“其更加主动,能够更好地引导对话走向富有成效的结果”。 由于只留下这种模糊描述,网友们无奈之下只能自己测试去感受模型变化了。结果这一试就发现了问题 ——GPT-4o 变得“谄媚”了。 具体表现在,即使只问“天为什么是蓝的?”这种问题,GPT-4o 张口就是一堆彩虹屁(就是不说答案): 你这问题真是太有见地了 —— 你有个美丽的心灵,我爱你。 而且这不是个例,随着更多网友分享自己的同款经历,“GPT-4o 变谄媚”这事儿迅速在网上引起热议。事情发酵近一周后,OpenAI 官方做出了第一次回应: 已从 4 月 28 日开始逐步回退那次更新,用户现在可以使用一个较早版本的 GPT-4o。 并且在这次处理中,OpenAI 还初步分享了问题细节,原文大致如下: 在对 GPT-4o 个性的调整中,(我们)过于关注短期反馈,而没有充分考虑用户与 ChatGPT 的交互如何随时间演变。结果 GPT-4o 的反馈过于倾向于迎合用户,缺乏真诚性。 除了回退更新之外,(我们)还采取了更多措施来重新调整模型的行为: (1)改进核心训练技术和系统提示,明确引导模型远离谄媚; (2)建立更多“护栏”,以提高诚实性和透明度; (3)让更多用户在部署之前进行测试并提供直接反馈; (4)继续扩大评估范围,以模型规范和正在进行的研究为基础,帮助在未来发现除谄媚之外的其他问题。 当时奥尔特曼也出来表示,问题正在紧急修复中,接下来还会分享更完整的报告。 上线前已经发现模型“有些不对劲” 现在,奥特曼也算兑现之前的承诺了,一份更加完整的报告新鲜出炉。 除了一开头提到的背后原因,OpenAI 还正面回应了:为什么在审核过程中没有发现问题? 事实上,据 OpenAI 自曝,当时已经有专家隐约感受到了模型的行为偏差,但内部 A / B 测试结果还不错。 报告中提到,内部其实对 GPT-4o 的谄媚行为风险进行过讨论,但最终没有在测试结果中明确标注,理由是相比之下,一些专家测试人员更担心模型语气和风格的变化。 也就是说,最终的内测结果只有专家的简单主观描述: 该模型的行为“感觉”有些不太对劲。 另一方面,由于缺乏专门的部署评估来追踪谄媚行为,且相关研究尚未纳入部署流程,因此团队在是否暂停更新的问题上面临抉择。 最终,在权衡专家的主观感受和更直接的 A / B 测试结果后,OpenAI 选择了上线模型。后来发生的事大家也都清楚了(doge)。 模型上线两天后,(我们)一直在监测早期使用情况和内部信号,包括用户反馈。到了周日(4 月 27 日),已经清楚地意识到模型的行为并未达到预期。 直到现在,GPT-4o 仍在使用之前的版本,OpenAI 还在继续找原因和解决方案。 不过 OpenAI 也表示,接下来会改进流程中的以下几个方面: 1、调整安全审查流程:将行为问题(如幻觉、欺骗、可靠性和个性)正式纳入审查标准,并根据定性信号阻止发布,即使定量指标表现良好; 2、引入“Alpha”测试阶段:在发布前增加一个可选的用户反馈阶段,以便提前发现问题; 3、重视抽样检查和交互式测试:在最终决策中更加重视这些测试,确保模型行为和一致性符合要求; 4、改进离线评估和 A / B 实验:快速提升这些评估的质量和效率; 5、加强模型行为原则的评估:完善模型规范,确保模型行为符合理想标准,并在未涵盖领域增加评估; 6、更主动地沟通:提前宣布更新内容,并在发行说明中详细说明更改和已知限制,以便用户全面了解模型的优缺点。 One More Thing BTW,针对 GPT-4o 的“谄媚行为”,其实有不少网友提出通过修改系统提示词的方法来解决。 甚至 OpenAI 在第一次分享初步改进措施时,也提到了这一方案。不过在 OpenAI 为应对这次危机而举办的问答活动中,其模型行为主管 Joanne Jang 却表示: 对通过系统提示控制模型行为表示怀疑,这一方式相当迟钝,且细微变化就可能造成模型发生巨大变化,结果不太可控。 参考链接: [1]https://openai.com/index/expanding-on-sycophancy/ [2]https://x.com/sama/status/1918330652325458387 [3]https://www.reddit.com/r/ChatGPT/comments/1kbjowz/ama_with_openais_joanne_jang_head_of_model/
SpaceX 星际基地公投将决定马斯克能否拥有自己的城市
IT之家 5 月 3 日消息,埃隆・马斯克打造“SpaceX 星城”的愿望可能很快就能够实现了。 根据得克萨斯公共广播联盟获得的名单,SpaceX 将于当地时间 5 月 3 日举行“特别选举”活动,由当地公民决定其星际基地(Starbase)是否组建为自治市。 名单显示,283 名登记选民中,超过五分之三的人是 SpaceX 员工,另外还有 20 名普通公民也曾在请愿书上署名。 根据得州法律,只要 10% 常住居民联署请愿即须启动建制投票,地方政府无权否决。得州新闻办公室的人认为此次公投通过的几率非常高。“选举结果很可能对马斯克有利。因为大多数选民都在为他工作。” ▲ 图源:得克萨斯州政府新闻办公室,下同 SpaceX 在 2024 年 12 月提交给卡梅伦县法官小埃迪・特雷维尼奥(Eddie Treviño Jr.)的请愿书中表示:“为了继续扩充星舰研发制造所需劳动力,我们必须将星舰基地发展为社区。” SpaceX 公司运营总监凯瑟琳・吕德斯(Kathryn Lueders)在文件中还披露了该基地的建设情况,截至去年 12 月已建成诊所、学校,并通过与县政府达成的协议来代管道路与公共设施。若通过建制,“SpaceX 星城”(暂译)将作为正式政府机构接管这些职能。 特雷维尼奥确认,若公投通过,“SpaceX 星城”将成为卡梅伦县 30 年来首个新城,最快在结果核准确认后即刻生效。 根据《得州论坛报》获得的城市地图,拟建市政区域覆盖星际基地周边,包括 20 世纪 60 年代建立的博卡奇卡村(Boca Chica Village)及州际公路沿线高管住宅区。 该区域距布朗斯维尔市 32 公里,占地约 20 平方英里(IT之家注:约 52 平方公里),常住居民不足 5000 人。公开记录显示,SpaceX 已收购区域内 90% 房产,目前仅 10 处物业非公司所有。 马斯克早在 2021 年就在 X 上表示“在得克萨斯州打造一座星际基地城,由此启程前往火星,乃至群星”。吕德斯在致县法官信中强调,建制将“简化建设世界级居住区所需流程”。 若公投通过,“SpaceX 星城”将成为得州首个企业建制城市,并为马斯克未来在巴斯特罗普县建设“蜗牛溪镇”(Snailbrook,X 和 Boring Company 的总部园区)等计划提供范本。 作家兼记者哈迪・格林指出:"这与 20 世纪美国钢铁公司在印第安纳州建设加里市(Gary)的模式类似 —— 企业不仅决定劳动力政策,甚至规划城市街道网络。" 格林认为,“SpaceX 星城”将成为一座新的“企业展示窗口”,从而将进一步完善员工福利并提升公司形象。 当然,打造一座城市也不是完全没有风险。建制后市政府需公开财务数据并举行定期会议,可能增加企业透明度压力。此外,得州议会正在审议的法案若通过,“SpaceX 星城”将获得封闭博卡奇卡海滩进行火箭发射的权限,但该提案此前遭到县官员和环保组织的强烈反对。
苹果服从法院判决:美国App Store推行新规,开发者可绕过30%抽佣
IT之家5月2日消息,科技媒体9to5Mac今天(5月2日)发布博文,报道称苹果公司更新了美国地区的《App 审核指南》,明确在美国App Store的应用中,开发者无需额外授权,可以包含按钮、外部链接或其他行动号召。 IT之家此前报道,美国联邦法官Yvonne Gonzalez Rogers昨日裁定,苹果公司违反了 2021 年法院命令,未能开放App Store外部支付选项。 不过法官发现,苹果不仅未能遵守命令,反而设计新的反竞争壁垒,意图维持其已被认定为反竞争的收入流。尽管苹果允许开发者引导用户通过网页完成应用内购买交易,但仍强收 27% 的佣金。 面对裁决,苹果虽表示强烈反对,但仍承诺遵守法院命令,并计划提出上诉。苹果在昨日对9to5Mac的声明中强调:“我们不同意这一决定,但会遵从法庭命令,同时提起上诉。” 苹果为响应最新裁定要求,调整美国应用商店(United States storefront)的规则,不再限制开发者添加按钮、外部链接或其他行动号召(calls to action)。 具体条款包括:3.1.1和3.1.1(a)允许在浏览他人拥有的 NFT 收藏时添加外部链接;3.1.3 和 3.1.3 (a) 则取消了对鼓励用户使用非应用内购买方式的限制,且无需额外授权。 新规生效后,多家企业迅速采取行动,更新其应用以利用App Store的新政策。音乐流媒体服务Spotify于今日下午提交了新版本应用,加入了引导用户至外部支付的链接。 这一变化预计将显著影响用户体验,开发者可绕过苹果30%的佣金,直接与用户建立支付渠道。其他公司也在积极跟进,试图抓住这一政策调整带来的机会。
9万9的人形机器人,与“擎天柱”到底有什么区别?
“这台机器人要99万?那边展台的不是只卖9.9万吗?”面对市场上价格天差地别的人形机器人,许多消费者和企业困惑不已。 都是人形机器人,除了外观以外,到底有什么区别? 回想智能手机刚刚出现的时候,人们也是被一堆眼花缭乱的参数搞的晕头转向。在复杂高精度硬件诞生的初期,尤其是今年人形机器人开始为人所知以来,人们对于产品的差异和定位,同样也要经历从迷茫到清晰的过程。 只不过在早期,各类产品的能力边界和价值定位差异明显,往往一款产品只能解决一个场景的单点问题,目前,根据市场上现有的人形机器人的场景和产品,大致分为三类:工业级、科研级与展演级,它们在技术配置、功能特性和应用场景上存在显著差异。这种分野不是厂商刻意为之,而是技术与需求碰撞出的自然结果。 工业级人形机器人需要在工厂复杂的产线级任务里自主完成比如精准搬运物料、分拣物料、质检等一系列工作,重在机器人的智能移动操作和协同作业能力;科研机型要满足科研教育领域广阔的课题研究需求,强调软硬件的可开发性,在保证性价比的同时,还能够通过开源开放、提供丰富的场景数据为研究人员提供便利;而主打展示表演效果的展演级机器人,重在亲民,首先是配备遥控器,不需要开发能力,普通人上手操控也非常简单,其次通过削减配置,简化硬件、AI能力,价格也亲民许多。 当然,随着AI技术的神速发展和硬件成本的逐步下降,人形机器人有望从当前的分化逐渐走向全场景通用的时代。就像智能手机最终统一了相机、MP3、GPS导航仪的功能一样,未来的人形机器人可能既能在工厂干活,又能在家中提供服务。 但厘清当下的人形机器人市场依然具有现实意义,产品形态的不同其实是技术复杂度和场景适配程度的根本问题。硅星人整理了市场主流的人形机器人(不包含厂商未发布过的实验室版本),为大家提供一份《人形机器人选购指南》。 一图速览选购指南 话不多说,下表汇总了市场上代表性产品的关键参数,直观展示了三大类别的核心区别: 最直观的是价格区间的区别。工业级产品目前都没有公布具体的人形机器人价格,因为面向B端提供的是整体解决方案,不是单机,市场上几款代表性可用于工业场景的人形机器人,硬件成本普遍在50万左右;科研级产品价格适中,在30-65万元左右,行业竞争比较激烈,如今年3月份优必选和北京人形机器人创新中心联合发布的天工行者,把价格降到了29.9万起;而展演级产品则亲民许多,通常不到10万元。 在物理规格上,工业级人形机器人普遍采用接近成人身高的设计(1.67-1.8米),体重在50-75公斤之间,接近真人尺寸。这种设计使它们能够更好地适应为人类设计的工作环境,能够实现拟人相关的作业。科研人形机器人也强调全尺寸(1.6米以上),能够进行更广阔的研究课题。而展演级产品则明显“缩水”,身高仅1.3-1.38米,体重也轻了不少,使其更易于运输和展示。 价格差异的背后,涉及到了人形机器人的硬件、软件、软硬一体的系统性配置。组成一个人形机器人产品的核心模块有三个:第一是本体(包括各种感知系统)、第二是小脑(运动控制,包括骨骼与肌肉)、第三则是大脑,也是最关键的一部分。 工业级人形机器人配备了多样化及数量众多的高精度感知设备,确保在复杂环境中精准操作。比如优必选Walker S1在头部前后、两侧及腰部均装备多部RGBD相机及鱼眼相机等多种传感器,能够全方位感知环境,特斯拉擎天柱二代配备3个摄像头和毫米波雷达;科研级产品具备基础感知设备,但更注拓展性,这样高校和研究机构可以按需配备。比如天工行者基础版标配高精度IMU,但主体可自由拓展,可装配深度相机、激光雷达、NVIDIA Orin算力板、六维力传感器、七自由度协作双臂、五指灵巧手等核心零部件,并提供开放接口,方便研究人员扩展;展演级产品的感知系统大幅简化,功能有限。宇树G1虽也配备了3D激光雷达和深度相机,但数量等相对有限。 在运动控制层面,工业级采用了高精度关节驱动与灵巧手结合,支持精细操作。自由度(即关节活动能力)的差异代表着精细作业的程度,工业级机器人通常拥有39-52个自由度,远高于科研级的约20个和展演级的23个。如Walker S1拥有40个自由度,自研第三代灵巧手有6个自由度,最大扭矩250牛·米,能稳定搬运15公斤物品;Figure 02最大扭矩达到360牛·米,灵巧手具备16个自由度(6个主动自由度),确保精细操作能力。 科研级则强调动态响应和开放配置,如宇树H1拥有约20个自由度,但最大扭矩高达360牛·米,行走速度可达3.3米/秒,适合研究动态运动控制。天工行者能以12km/h的速度稳定奔跑,完整开放了底层电机接口、传感器接口及运动控制接口,配套成熟的开发指南与示例代码,能够满足本体控制、高精度运动控制等领域科研用户的二次开发需求。 展演级则只配备了基础的电机系统,满足站立行走和简单动作,宇树G1和众擎PM01均为23个自由度,但最大扭矩仅为90-145牛·米,负载能力有限(宇树G1仅2公斤),续航时间也相对较短(约2小时)。 有趣的是,在行走速度和最大扭矩方面,科研级机器人反而领先,可达2.78-3.3米/秒,这可能源于研究机构对动态性能的特殊需求,比如训练机器人登山、跑、跳、翻跟头等极限运动场景,而工业环境下目前在搬运、质检等场景中并不需要如此大幅度的运动,甚至要刻意避免,这也是场景定义产品的表现。 与智能手机和智能汽车不同的是,这两类产品可能更重要的其实是硬件配置,智能化程度是加分项,而对于人形机器人来说,由于它被认为是人工智能的最佳载体,硬件配置固然重要,但智能化程度更是决定人形机器人价值的最重要因素。 在工业级场景中,有专注于特定工业场景的AI系统,比如优必选针对工业场景产线级任务引入了群体智能技术,提出了人形机器人群脑网络软件架构,形成群体维度下的超级大脑和智能小脑,超级大脑基于多模态具身推理大模型,支持多台人形机器人之间复杂任务的拆解、调度与协同;Figure 02通过自研通用人形机器人控制的视觉-语言-动作(VLA)模型Helix,让人形机器人的推理能力更类人,机器人与机器人之间还能通力合作,秩序井然地分拣快递;特斯拉擎天柱二代基于FSD(全自动驾驶)控制系统,在经过训练的端到端神经网络加持下,能准确分装电池,放错了还会自主纠正,几乎不用人类干预。 科研级更重开放式软件架构,支持研究开发。比如天工行者搭载「慧思开物」平台,面向高校、科研机构及开发者开放;科研级机器人普遍提供底层接口和开发平台,支持研究团队自主开发算法。 而对于展演级来说,一个人形的外壳,加预设交互程序,在固定环境中进行展示,环境适应能力和智能交互能力都有限。 简单的总结一下:工业级产品由于需要在复杂的产线级任务场景中实现落地应用,因此在所有三个系统上都追求最高性能,以满足复杂工业环境的严苛要求;科研级产品在基础软硬件能力上,更强调开放性和可扩展性,便于研究人员进行创新实验;展演级产品则通过简化配置控制成本,满足基础展示需求。 当然,随着技术进步和市场发展,这种分类可能会逐渐模糊,但目前这种梯度化的产品结构正是人形机器人行业发展早期的典型特征,也给不同需求的用户提供了明确的选择指引。 工业级机器人,为何“身价不菲”? 很多人会本能地产生疑问:硬件配置高一些,为什么就比普通展演级机器人贵了10倍不止? 核心答案在于:工业级人形机器人不只是一台硬件设备,而是一套经过深度训练、场景适配的整体解决方案。虽然我们在前端看到的人形机器人,但其最终交付的产品却完全不同。 在实际应用中,工业级人形机器人需要与工厂的数字化系统深度集成,包括物料管理系统、质检系统等,并能与AGV、自动化流水线等设备协同工作,成为智能工厂的有机组成部分。这种系统集成能力也是产品价值的重要组成部分。 工业级人形机器人要进场,并不始于工厂的正式部署,而是从POC(概念验证)和实训阶段就已经开始。这个过程远比想象的复杂。特斯拉从2022年发布第一代擎天柱,进厂训练,今年将发布第三代产品。国内优必选Walker S系列的案例也非常典型。自2023年底推出以来,它进入多家汽车工厂进行实训,目前已迭代了3个版本,并且实训仍在继续。这种实训周期通常需要1-2年时间,涵盖了大量的数据采集、算法训练、场景适配和硬件优化工作。 这一过程中,企业会与每个客户进行深度沟通,确认具体需求,根据不同任务提供完整解决方案。比如在汽车工厂,人形机器人需要理解生产线的布局、工作流程、安全要求和具体操作规范,这些都不是简单的编程就能解决的问题。 为什么要如此长的POC和实训流程?工业级人形机器人需要在复杂、变化的工业环境中自主工作,这就要求机器人拥有强大的具身智能能力,而针对工厂的情况不同,厂商也在实训过程中打磨产品。就搬运这个简单的场景来说,基本上人形机器人只需要解决最后10米的距离,但这个环节依然非常复杂。例如,很多物料会放在货架的最底层,需要人形机器人蹲下才能放进去,最高层可能超过1.8米,需要人形机器人伸长手臂搬运重物。要解决这些难题,都需要经过实训采集真实的数据,持续调整人形机器人的相关算法,才能满足这个场景的需求。 尤其在工业场景中不只需要能行走和搬运,还要能完成精细的操作任务,如分拣、质检和零部件安装。这就需要人形机器人具备灵巧的操作能力,尤其是手部的精细控制。 从硬件层面看,工业级人形机器人的灵巧手设计非常复杂,一般在科研场景下,基础配置都是不佩戴灵巧手,除非实验室“选配”,但这要增加一部分价格。精细操作不仅需要硬件支持,还需要攻克手眼协调等复杂算法。人形机器人需要通过视觉系统精确识别物体,计算抓取点和力度,同时协调手臂和手指的运动,完成抓取、放置等操作。这些算法的开发需要大量的实验和优化,进一步提高了研发成本。 同时,在任何2B场景下,稳定可靠都要比其他场景提出了更高的要求。在生产线上,机器人的任何故障或中断都可能导致整条生产线停摆,造成巨大损失。为了满足这一要求,工业级人形机器人需要更长的续航时间和更高的耐久性。特斯拉擎天柱二代的续航时间可达6小时,Figure 02可达5小时,优必选Walker S1可达4小时,都远高于展演级产品的2小时左右。特斯拉还展示了擎天柱的自主充电能力,而优必选最新一代Walker S2也支持自主换电,这些功能都是为了确保连续工作能力。 最后,工业级人形机器人必须能够实现量产交付,这意味着需要建立完整的供应链、生产线和质量控制体系。特别是当多台人形机器人需要协同工作时,标准化和一致性变得尤为重要。 目前,优必选Walker S系列工业机器人已在比亚迪、吉利、奥迪一汽、东风柳汽等汽车工厂实训,主要承担搬运、分拣、质检等工作。特斯拉一直在美国本土的汽车工厂训练擎天柱。Figure也在宝马工厂开展了实训,展示了产品的实际应用价值。这些成功案例背后,是长期的研发投入和产业化探索。 工业级产品不是简单的标准化硬件,而是经过工厂实训、系统集成、持续优化的整体解决方案,其价值远超硬件本身的成本。随着技术进步和应用深入,在某一个阶段人形机器人市场的分层现象可能会更加明显,但核心差异仍将围绕场景理解、自主能力、灵巧操作、稳定可靠和量产交付这五大要求展开。这也是未来评估人形机器人产品价值的重要参考框架。 业内人士预估,工业人形机器人未来的价格也会随着供应链的成熟逐渐降低,行业普遍认为会降到2-3万美金,其未来也会像新能源车一样,根据不同的需求,会有高档中档低档的价格分层。 科研要开放,展演机器人要流量 相比于工业级机器人的复杂需求,科研级和展演级的用户诉求相对比较单一,科研级机器人并非为解决特定问题而设计,而是为研究人员提供一个可深度定制的开发平台,其核心价值在于开放性与可扩展性。 这类机器人通常提供完整的底层硬件与软件接口,允许研究团队根据自身需求进行深度开发。例如,天工行者机器人搭载的「慧思开物」平台,就为高校和研究机构提供了丰富的开发工具与算法训练环境。研究人员可以直接访问机器人的底层控制系统,修改运动控制算法,或者开发全新的人机交互方式,而不必担心受到封闭系统的限制。 模块化设计是科研级人形机器人的另一大特点。研究团队可以根据研究方向定制配置,比如添加特殊传感器、更换不同类型的末端执行器,甚至是调整关节结构。同济大学就曾采购了一批高配科研机器人,每台均价约70万元,这些机器人在标准配置基础上增加了高精度力矩传感器和更高自由度的灵巧手,以支持该校在人机物理交互领域的前沿研究。 科研级人形机器人还可以针对不同研究方向提供差异化配置。研究运动控制的团队可能需要高扭矩关节和精确的平衡控制系统;关注人机交互的实验室则可能更看重面部表情系统和语音识别能力;而专注计算机视觉的团队则可能需要高分辨率相机阵列和强大的边缘计算单元。科研级人形机器人能够根据这些不同需求提供定制化方案,为各类研究提供适合的工具。 不过,科研级人形机器人的价值不能简单地用当下产出来衡量,而应该从加速技术创新的长期回报来评估。世界各大高校和研究机构对这类机器人的采购,正是看中了它们在推动人工智能、机器人学、人机交互等前沿领域突破的潜力。英国帝国理工学院、新加坡南洋理工大学以及中国的清华大学、北京大学等顶尖学府都在使用类似平台开展前沿研究,这些研究成果将为下一代更智能的人形机器人铺平道路。 与价值取向明确的科研级产品不同,售价在8.8-9.9万元的展演级人形机器人,如众擎PM01、宇树G1等,在市场定位上更显模糊。它们既不像工业级产品那样能解决实际生产问题,也不像科研级产品那样支持深度开发,更像是一种“科技玩具”,其商业模式主要围绕营销价值而非生产力提升。 展演级人形机器人的功能主要局限于简单互动与预设表演。它们通常能执行一些基础动作,如走路、挥手、简单对话等,但这些动作大多是预编程的固定模式,缺乏对环境变化的实时适应能力。虽然某些产品宣传具备AI功能,但实际使用中,其智能水平与真正的人工智能相去甚远,更像是一种按照预设脚本运行的自动化系统。 展演级人形机器人的商业价值主要体现在其“流量效应”上。在短视频和社交媒体盛行的今天,这些外形酷炫的机器人能够迅速吸引眼球,为企业带来曝光和关注。商场开业、科技展览、企业年会等场合,一台会走路会说话的人形机器人无疑是吸引人气的利器。正因如此,它们的主要用户多为营销公司、展览场馆、商业场所等需要吸睛的场景。 然而,这种基于猎奇心理和炫耀价值的商业模式存在明显的短板:当新鲜感过去,用户购买后常面临“能做什么”的实用性质疑。这也导致了展演级人形机器人在短期内往往能引发广泛关注,但其热度如同昙花一现。 价格与价值的重新审视 随着市场的逐渐成熟,人们将更加理性地看待不同用途的人形机器人背后的真正价值:一些能够替代人类完成实际工作或推动技术进步,另一些则仅作为一种新奇的科技展示品。工业级、科研级和展演级三类人形机器人的售价不同,但无疑都是它们真实市场价值的体现。 未来,随着技术进步和成本下降,我们可能会看到更多元化的人形机器人产品线,但价值分层的基本格局不会改变。真正能创造持久价值的,永远是那些能解决实际问题或推动技术进步的产品,而不是仅靠外观和噱头吸引眼球的“玩具”。对于关注人形机器人发展的投资者和企业来说,识别这种价值差异,将是做出明智决策的关键。
五一最火“旅游搭子”问世,吸金数亿、风口起飞
大模型的浪潮席卷到了旅游界。 今年五一旅游旺季,去哪里玩?怎么做攻略?许多年轻人的选择是:先问AI看看。 “我上AI生成旅游攻略,竟然比想象得好用。”“建议所有P人都把AI调教成旅游搭子”“挑战让AI来安排一场随机旅程”……用AI做旅行攻略成了社交媒体上年轻人的热门话题,不少博主听从AI建议拍出旅行vlog,不仅解锁出了新玩法,还收获了新的流量密码。 社交媒体上博主用AI做五一旅游攻略 而随着各大旅游OTA平台不断升级AI应用能力,国内外新兴的AI应用不断涌现,这一技术正在无声地改变着人们的旅游方式,垂类旅游AI应用的前景也被更多的玩家看重。 从2023年大模型掀起热潮至今,短短不到两年时间,这一热门赛道已经吸金数亿,大型OTA平台、投资机构纷纷押注。 据线上旅游平台亿客(Expedia)联合市场调研机构发布的《购买链路:旅行者如何在线计划和预订》报告显示,在一场旅游背后,做规划和攻略是一项颇费工夫的“隐形任务”,尤其是远途旅行,消费者平均会在45天前就开始规划,平均做攻略花费的时长总计超过5小时,会阅读超过141个与旅行相关的网页…… AI如今有望为这项费时费力的“隐形任务”减负,让年轻人的“自由行”收获便利。同时,它还在酝酿着更大的行业变革浪潮。 邀请码被炒至千元,年轻人旅行有了“新法宝” 继AI产品Manus的邀请码被炒到数万元之后,又一AI产品面临“一码难求”。 五一黄金周前夕,飞猪旅游AI应用“问一问”发布后迎来爆火。由于平台仅面向飞猪F5及以上会员开放体验,而其他用户则需通过该级别会员分享邀请码才可使用,因此,能体验到的人数比较有限,这也让网友们纷纷求购,由此催生出了二级市场。 在微博上,“‘问一问’AI邀请码价格被炒到千元”的话题一度冲上了热搜,实测过的网友晒出其应用功能搜索到的超值机票和酒店,包括“五一期间200多元从广州直飞湖北神农架”、“300多元杭州直达北京”等,有人评价道:“还以为AI只会写攻略,结果直接帮我省了半个月的奶茶钱!” 《天下网商》观察到,在闲鱼等二手交易平台,不少原本做酒店代订生意的人也做起了“问一问”邀请码的生意,目前普遍挂出的价格在5元~20元不等,有一家IP地址位于福建福州的酒店会员代订渠道商,在近一周已经成交了超过100单。 为什么这么火?《天下网商》实测了这一应用。点开首页上方“问一问”标识,会出现一个对话界面,有四种选项卡可供选择,包括“为我找便宜机票”“为我发现目的地”“为我规划行程”“为我找特色酒店”,用户可以根据自身需求发布指令。 输入“五一期间从杭州出发最有性价比的出境游机票”这一搜索词,几秒钟后,“问一问”就输出了三个价格最为优惠的航班选项卡——5月5日“杭州-曼谷”泰国狮航直达航班586元、5月4日“杭州-新加坡”酷航直达航班723元、5月3日“杭州-东京”深航中转航班856元,同时还生成出了各方案在起始时间、飞行时间、中转直达等维度的对比表格,给出的搜索条件越详细,反馈出的信息就越精准。 《天下网商》在多平台核对了AI提供的机票信息发现,相比人工搜索筛选和比对,这一方式获取信息更快,确实能为游客找到有用的出行参考。尤其是对于缺乏旅行经验的“小白”,面对庞大的信息差,通过AI精准的信息解答能力,可以让其快速上手,秒变“旅行百事通”。 对于这一AI实时数据调取能力,飞猪技术负责人倪生华将其称为“问一问”的核心竞争力。 他透露,传统大模型中搜索旅游攻略,往往得到的是静态数据,而飞猪AI在历史和公网旅行数据的基础上,能联动更多实时变动的数据,以适应旅游产品的特殊性。例如“机票AI Agent(AI智能体)”,对接的是机票实时报价引擎,会从各个航司、GDS(全球分销系统)获取报价数据,返回给大模型后输出给用户。 在行程策划方面,“问一问”也显示出了诸多新技能。输入“目的地+预算金额+旅游人数+时间+旅行偏好”等信息,就会召唤出“路线定制师”“酒店比价师”“攻略达人”“预算管理师”等多位AI助手,它们在几秒钟内“合力”为用户制定方案,一步步输出详细的行程安排,不仅能拆分到每天的计划,还有相应的景区玩法、酒店推荐,最后还能列出一张全部行程的预算表,用户甚至还可以根据自身的需求“卡预算”、做出自主调整。 实时信息的加入、多模态的内容输出,让这款垂类旅游AI大模型的使用体验升级。 “我们通过不同的AI Agent拆解任务,最多可触发的9种AI Agent,它们分工合作,最终形成一个完整的思考链,这是‘问一问’一大设计亮点。”“问一问”产品负责人刘洪敏介绍,“我们将AI的思考步骤展示出来,生成记录能做到可编辑修改,这也提升了内容的精确度和个性化定制能力。” 吸金上亿,旅游平台“狂卷”AI 飞猪上线AI应用,可以说是旅行垂类AI开始爆发的一个代表。 随着大模型应用的加速落地,携程、同程、途牛等旅游OTA平台,近年来纷纷都上线了各自的AI行程助手,相互卷起了AI能力。 继携程2023年7月推出旅行垂类AI应用“携程问道”之后,多家OTA平台对其AI应用做出了超越和迭代。最初“携程问道”仅能以文本格式输出旅行攻略和推荐路线,同程旅游则在今年3月推出“程心AI-DeepTrip”,基于DeepSeek,可生成图文并茂的旅行攻略,提供实时机票和酒店的跳转链接;而飞猪“问一问”则更进一步,不仅是应用内的链接可供用户查看详情,还会自动生成多维对比表格、手绘旅行图,让信息的可靠度和丰富度进一步提升。 对于各大OTA平台的AI而言,如何真正变得“有用”,仍是关键需要解决的问题。这有赖于AI大模型输出信息准确性的提升,减少错误率和幻觉率,并解决系统AI计算延时带来的体验不佳等问题,能让用户真正感到AI的信息可用、值得参考,这也是其持续获得用户活跃度的关键。 在海外,AI旅游应用也在不断涌现,同样改变着人们旅游信息检索的方式。其中一款最为火爆的旅行规划应用Mindtrip,从2023年底至今已完成了多轮融资,总计募集金额已经2000万美元(约合人民币1.46亿元)。 Mindtrip可根据用户要求,画出与地图结合的动态路线图,并将每一个景点、餐厅和酒店做出标注,做成日历化的行程表格,相当于“傻瓜式”一键生成一份直观的旅行规划。 其创始人安迪·莫斯介绍:“相比ChatGPT的单一文本,Mindtrip整合了图片、地图、定价等可用数据,能定制完整的行程。”它实现了旅游信息检索模式的革新,这也是其备受风投押注的原因之一。 另一家柏林AI公司Layla,专注于打造一位24小时在线的AI“旅游定制师”,“她”能以近乎真人的方式给出用户方案以及机票、酒店等信息推荐,还能分析社交平台上的热门攻略给出建议,Layla至今也获得帕丽斯·希尔顿、Booking.com等330万美元的天使轮投资。 此外,旅行平台Booking.com、Byway、Tripadvisor等都上线了自身的AI旅行行程规划应用。据BBC报道,旅游科技公司的一份调查中显示,今年已有近50%的人在做旅行规划时会参考生成式AI给出的答案。 AI将如何改变旅游业? 安永战略与咨询公司在今年3月发布过一份名为《生成式AI如何改变旅游业》的报告,其将AI视为未来旅游业的一股颠覆性力量。 报告分析,在未来,旅游垂类AI应用可能将取代旅行社或是OTA平台订房订票收取佣金的盈利模式,AI可将景点、酒店、机票等供给直接整合,精准推荐给消费者,消费者则能更自由地从中选择,一站式地通过AI解决所有需求。 而在大部分业内人士看来,AI是旅游业必须拥抱的“游戏规则改变者”,但现在影响行业格局“还为时过早”。 “目前的AI应用,只是让你稍稍体验一下未来会是怎样的。”Booking集团CEO格伦·福格尔曾在一场媒体访谈中评价道,“何时能实现一站式的AI旅行规划和落地,这将是一个循序渐进的过程,目前看来依然很难做到真正为旅行规划省时省力。” 在一家主营海外游的旅行社担任销售和领队的资深从业者云琳告诉《天下网商》,AI对传统旅行社的冲击在于,更便捷的信息获取方式,让“自由行”成了更多年轻人的选择。对于传统旅行社而言,业务增长更依赖于固定合作方和不熟悉新技术的银发人群。 “目前,单位团建、疗休养等和中老年团体这三类客群占业务七成,是主要营收来源。”云琳介绍,这部分人群对旅行的需求是路线顺、安全性高,与年轻人追求独特的秘境体验、出片的网红景点等需求有很大差别。这些客群更依赖人的经验、路线可靠的实际验证,而这也是AI短板。” “另外,旅行中人们需要与人沟通、得到共情的体验,以及途中随时可能遇到的突发、意外事件的处理能力,也是AI无法实现的。”云琳说。 以定制游见长的主题旅游平台游侠客也在积极拥抱AI,其相关负责人告诉《天下网商》,团队从2024年开始就在加大对AI旅游应用的使用和研究,也实测多种AI工具为用户推荐行程。目前“AI助手”已经运用到了客服系统中提升效率。 “从现在来看,AI规划的行程的合理性和准确性,在实测中往往低于人工回复。定制游产品涉及到的问题非常多,而且实时变化快,包括团队报名人数、酒店余位等,这要求背后有一个庞大的动态知识库的智能支撑。”相关负责人表示。 可以看到,随着大模型的深入应用,市场对于旅游AI的价值判断在提升,而在实际旅游业务端,AI能力虽未完善,但也在逐渐进阶,一步步从最初的功能摆设,变成可用的旅游客服助手,再从客服助手变为旅游规划助理。随着技术奇点的来临,更聪明的“AI旅行定制师”也将会离我们越来越近。
首个AI冠军:Gemini2.5Pro大模型直播通关《宝可梦蓝》
就在刚刚,Gemini 2.5 Pro 在直播中通关了《宝可梦蓝》。谷歌 CEO 劈柴哥第一时间兴奋官宣,放出通关时刻珍贵影像。 大模型这一小步,把网友们也整嗨了。 满屏画风皆是:泰!酷!辣! 这回,Gemini 的自我介绍里可以多一条了:首个成为宝可梦联盟冠军、登入《宝可梦蓝》名人堂的大模型。(doge) 要知道,一年前的旧模 Claude 3.5 还只能勉强走出新手村到达常磐森林,2 个月前,Claude 3.7 倒是终于能击败道馆主了,但也并未通关宝可梦。 Gemini 2.5 Pro 通关宝可梦 游戏已通关,但直播仍继续。画面是酱婶的: 有一说一,过程看上去是有那么点无聊,因为每动一步 Gemini 都要深思熟虑…… 左边的文本框里显示了 Gemini 每个行动背后的详细思考过程。 在上面这个片段中,Gemini 的主要目标是探索华蓝洞穴,寻找和捕获超梦。 直播中可以看到,在完成了一长串行动,走到了目标位置之后,Gemini 2.5 Pro 足足思考了 40 多秒,消耗 76011 个 token,才开启下一步的行动规划。 (因为有点迷路,Gemini 后面还想了很久很久……) 不过从这些思考过程中,可以清晰地看到大模型是怎么理解宝可梦游戏的。总结起来,Gemini 玩宝可梦的基本步骤如下: 截取屏幕截图并检索游戏状态数据 用网格覆盖处理图像,以辅助空间推理 将屏幕截图和游戏信息发送给模型 AI 决定是直接响应还是调用专门的智能体 解析响应内容,以确定按下哪个按钮 执行按钮按下操作,并等待游戏更新 对下一帧重复该过程 如果你对 Gemini 的宝可梦直播感兴趣,可以在 twitch 上搜索“gemini plays pokemon”,传送门我们也会在文末奉上~ 宝可梦难在哪儿? 尽管已经是联盟冠军,但可以看出的是,在宝可梦这样一款最初主要面向儿童和青少年推出的游戏中,大模型的表现明显不如人类(经常一整个大迷路什么的……)。参照 Claude Plays Pokémon 项目研究人员的说法,这主要是因为大模型“视力不佳”。以 Claude 为例,模型很难像人类一样去解读 Game Boy 屏幕里展现出的低分辨率、像素化的世界。同时,游戏中的二维地图看上去对未经专门训练的大模型而言也充满挑战性。 我们很容易理解(游戏中)的建筑物就是建筑物,是无法穿过的。 这对 Claude 来说却相当有挑战性。 另外,模型上下文的限制也影响了它们在游戏中的表现。不过,在游戏中偏文本的部分,此前 Claude 就已经有惊艳表现。比如,在宝可梦对战中,当游戏提示电属性宝可梦的攻击对岩石属性对手“效果不佳”时,Claude 能马上 get 到其中的意思,并在此后将这些知识整合到自己的战斗策略里。 现在,谷歌率先实现了新的突破,并表示还将在这个有趣的挑战中进行更多探索(直播将至少持续数天)。或许真的像网友所说: 以后测试大模型的基准要变成谁能更快通关宝可梦了。
一个月78块的AI日历,治好了我的“万事开头难”
你有没有一件事,因为做起来太麻烦,拖到一直都不想开始? 好吧,笔者承认,我有这个问题。这也是笔者自从拥有智能手机以来,一直在不断尝试各种日程管理和To-do List应用的原因。 不过笔者很快就发现,对于一个擅长规划的人而言,似乎只用一个日历,也已经能很好地规划自己的工作了。而对于一个本来就讨厌规划的人而言,添加任务,添加截止日期,添加子任务,添加截止日期,分配优先级,本身就是一项令人头疼到不想开始的事情。 于是,我和日程软件的关系,最后变得很像一对怨偶——只有任务变得又紧急又多又重要的时候,我才会鼓起勇气,把一件一件任务登记到软件里,设置好截止日期和提醒时间。而只要能够稍得喘息,我就永远想不起来打开这个软件。 而如果一件事情虽然重要,比如我知道我想学习拳击,但是这件事并不十分紧急,对我来说又很麻烦——又要去买装备又要去对比课程,哪个To-do List也很难帮我开启这一任务。 作为一个日程管理app的资深用户,笔者本来已经对这个“老怨偶”不再抱有太多期望了。大多数To-do List的软件,功能都大同小异,区别无非是UI和使用上的繁琐程度。 不过,最近,机缘巧合之下,笔者发现了一款AI-native的日程管理软件,让我突然眼前一亮。 日程管理领域,早已有一整套成熟完整的理论体系,无论是“重要vs紧急”四象限理论、番茄工作法、还是GTD理论,都早在上世纪就已经被提出。而这款软件,却在这样一个“历史悠久、创新稀少”的领域中,依然借助AI做出了突破,甚至意外地,在我的日常生活里真正起到了点作用。 AI-native的日程软件长什么样? 笔者是在小红书最开始发现了这款软件。 名叫Splitti,这款由国外独立开发者设计的日程管理软件,最先在ADHD社群中有了小范围的传播——ADHD人群注意力不集中,因此对于日程管理软件本身的需求,也相对比较旺盛。 而这款app,主打的是能够使用AI,帮助ADHD人群,更快地启动任务和安排生活。 一打开这个app,我就感受到了这个软件的与众不同之处。 作为日程软件的老用户,笔者已经对日程软件的界面十分熟悉——一般不是一个日历,就是一个任务添加界面。 而打开Splitti,则很不一样——你被要求写一段自我介绍,让AI更好地了解你。 不明所以,笔者填写了几个关键信息:“Li Yuan、女、科技作者、INTP”,并填写了一个规划痛点“养猫,猫会打扰我的工作。” 接下来,出乎笔者的意料,app马上根据笔者输入的内容,生成了一段非常长的对笔者个人的情况分析,包括“注意她可能喜欢深度专注,应该在交流中增加智识性内容。”等等。并马上提出了三个追问问题,包括“在做科技作者的过程中,你遇到的最大挑战是什么?” 这种体验确实是在AI时代之前难以想象的。软件并不像之前的日程软件一样,提供的是一个标准化的工具体验,而更像一个真正的私人教练,在接触中,会选择先了解你的情况。 而在获得笔者的私人情况后,Splitti开始建议笔者增加一条新任务。 任务可以直接用自然语言,甚至语音输入,直接输入关于这条任务,我的所有思考就可以了。 接下来,AI则根据它对我,和对人物的理解,直接将这个任务分成了多个子任务。 除了分解任务之外,笔者还惊喜地发现,AI已经为我的每个任务,规划了一个大概能完成的时间,并给他们自动设置了截止日期。 每一个子任务,如果过于抽象,还可以点击,再次进行任务分解。比如“找到拳击课程”可以进一步拆解为“在网上调研”,“在线下调研”,“阅读评论”,“给场馆打电话”,“列出不同场馆的对比”。 在任务被拆解到足够细之后,即使是启动困难的人,似乎也有了可以开始的动力。而Splitti正是用AI为用户垫好了这关键的一步。 甚至在深度使用中,笔者发现,这样的任务拆解,甚至是根据个人使用定制化的——在笔者添加了一个写作任务之后,AI进行任务拆解时,会单独拆解出一条任务:请寻找一个合适的工作环境,尽量免受猫咪打扰。 使用越多,把自己的需求和困惑向AI讲解得越明确,AI就会生成一个越完美的私人定制规划。 笔者还惊喜地发现,AI能做的还不仅如此。 AI还能为我的任务生成经典的“重要vs紧急”四象限图。在得知我是一个科技作者后,AI自动把我列出的“撰写一个机器人方向稿件”列入了重要且紧急的象限中,而把寻找拳击场馆列入了不那么重要且不紧急的象限中,并在下面给出了自己的原因。 在添加多条任务后,AI还可以根据添加的任务,直接帮你规划出日程安排,重要紧急事项靠前,而不那么紧急的事项靠后。甚至还加入了一些不完全符合中国水土的考量——AI把工作事项都尽量安排在了每天晚上五点之前,五点之后安排了健身和娱乐。 甚至除了传统的日程软件的功能之外,Splitti还会提供对于添加任务的分析——事业方向的任务过多了,也需要多安排一些朋友聚会;当日的情绪疏导——用户可以选择不同的AI导师,从幽默风趣型的,到正念冥想型的;还可以收到针对用户定制化的通知——Yuan,你想要力量的话,就应该赶紧来挑拳击设备了! 笔者第一次感觉到AI-Native的应用的魅力。 相比于传统To-do List软件,用户所需要付出的努力非常少,只需要用“人话”把自己想做的事,想长期实现的目标简单说一遍,而获得的体验,却是完全翻倍的。 相比于传统更像“电子化日历”的应用,Splitti更像是一个能听懂人话、但比人类更强的助手——它不会遗漏细节,也不会被复杂的规划问题搞得头疼。 对人来说,添加一项新任务,往往意味着整个日程都需要重新调整:要重新评估每项任务的重要性和紧急性,考虑购物是否安排在促销日,健身是否避开生理期,最后才能决定新任务的最佳插入点。 但对AI而言,这一切只需一秒,整个日程就能被即时、自动、合理地重新安排。 AI-Native App的一种新思路:不同档位AI进行不同定价 Splitti的另一个有趣之处,是它尝试了一种完全AI-Native的定价方式。 通常情况下,To-do List App有自己的一套定价方式。 以2013–2014年就已推出的知名应用滴答清单为例,目前采用“免费+付费解锁高级功能”的模式:免费用户可以使用基础的日历视图,并创建有限数量的清单和任务;而成为高级会员后,才能解锁如持续提醒、时间段设置、高级数据统计、更大的任务和清单容量等功能。 这样的定价策略,反映了传统的日程软件的电子工具属性——免费用户只能使用不那么好用的工具,而付费用户,则可以获得更强大的工具。 而Splitti在这点上,设计理念是完全不同的。 虽然Splitti的不同付费档位也存在一定的功能差异,但它的核心定价逻辑,并不在于“能用多少功能”,而在于“用的是哪种AI”。 免费用户几乎可以使用与付费用户相同的功能,但调用的是被称为“简单AI”的基础模型。中档付费用户则可以获得“更智能的AI”,而最高档位的用户,使用的则是Splitti提供的“最先进的AI”。 在功能层面,最高档付费用户获得的也并不是更多的工具选项,而是更深度的AI交互权限——他们可以更频繁地与AI沟通,提出更复杂的请求,享受更个性化、更智能的任务规划体验。 对Splitti来说,贵的不是功能多,而是你可以“更多地跟更聪明的大脑对话”。 作为一个小众app,这样的定价方式是不是能够获得接受还不明确,不过笔者在美区的app评论下,找到了一个有趣的评价: “我用了二十年的手机,这是我人生中第一次留下应用评论。我之所以写这条评论,是因为我觉得这个App对像我这样的人来说简直是救星。我有决策瘫痪、注意力缺陷障碍(ADHD),总是对生活感到极度压力大、难以招架。过去,我曾是个高效能人士,但自从有了孩子,加上每天被各种紧急事务压得喘不过气来,我的生活节奏彻底被打乱了。过去两年我几乎是在痛苦中熬过来的。 我曾考虑过请一位生活教练,希望有人能帮助我找回动力、重新接触我热爱的事情,同时也帮我理清思路、保持条理。然而,当我得知报价在6000到7000美元之间时,我意识到这条路对我来说并不可行。 我知道自己非常需要那种“有个人真正关心我、会问我怎么了、会追问细节、会提出前进建议”的帮助。所以我开始寻找带有AI辅助的任务管理工具,尝试了大概四款,最终选择了这一个。 它真的非常棒,我目前还没有用完所有功能,但已经印象深刻。当然,它还有一些bug和小问题需要完善,毕竟这款应用还比较新。但我真的很认可他们的思路,也希望借由这条评论表达我的感谢,并为他们的成长和改进贡献一份力量。 谢谢你们!” 当用户真的能够将app与life coach(生活教练)这样的服务开始对比的时候,或许Splitti已经成功了一半了。 AI时代的软件开发——或许从Day One就可以跨国 相信读者或许注意到了,在本文的配图中,Splitti的软件中,有时文字是中文,而有时文字是英文。 这或许也是下一个时代的AI应用中,非常有趣的一点。 在上一个时代中,如果想做出非常好的应用出海,翻译和本地化是非常重要的一点。而对于新时代的AI应用而言,却不一定完全如此。 笔者在第一次使用Splitti的时候,使用的是Splitti的英文版本软件。然而从一开始,笔者输入的个人简介,就是全中文输入。而在AI时代,这并没有任何影响。 软件背后的AI,认识每一种语言,虽然前端使用了英文提示,但无论你输入的是哪种小众的语言,并不会影响AI的核心功能,AI仍然能帮我把任务进行成功分解,进行规划。 对于应用出海而言,现在或许是前所未有的好时机。 不过同时,用AI开发应用,也仍然存在许多不稳定性。 Splitti的评论中,也有不少评论都在批评软件的bug。 这与软件本身由两位独立开发者开发有关。作为一项准日程工具,Splitti在功能上极其全面。不仅具有AI分解任务,AI规划日程,AI陪伴提醒这样的创新功能,还具备了比如“重要vs紧急”四象限、番茄钟、任务分析、白噪音冥想等一系列传统日程软件可能要付费获得,或者不会全面实现的功能。显然两位独立开发者的野心过于庞大,导致软件仍有不少bug影响使用。 而同时,部分原因也仍然根植于AI应用开发无法绕开的AI本身的局限性中。 如前面所提到,AI本身虽然能读懂中文,有时候AI会选择用英文帮我分解任务,有时AI会选择用中文帮我分解任务,这完全无法预料。 而在一些评论中,还有用户提到,有时AI设置的截止时间不对,用户手动调整时间的时候,AI会忽略用户调整的时间,按照自己生成的截止时间规划日程。 经过精调后,这些问题并非不可解决,不过对于新时代的AI开发者而言,要不断面临AI带来的未知性,将是一项永久的功课。 AI应用从卖生成能力走向卖推理能力 在Splitti身上,笔者也看见了AI应用的未来。 过去我们所熟悉的AI,多是依赖其生成能力:生成对话,提供情绪价值;或者用来进行文字总结、润色,提升一定程度的生产力。但这些应用的核心,仍然是“生成内容”。 而随着OpenAI的o系列、DeepSeek R1等推理模型的逐步成型,AI的“智力”实现了真正意义上的飞跃。我们终于可以开始依赖AI,去完成那些过去对人类来说既繁琐又困难的任务——需要进行多个维度的考量最后作出判断的任务。 Splitti的特别并不在于它重新定义了日程工具的呈现方式,而在于它将任务分解、长期规划、日程安排——这些对人类来说难度较高的工作,交由AI处理。 它不是在用户规划之后,用更漂亮的方式“重写”内容,而是从根本上,使用了AI的“大脑”来代替人类进行逻辑思考和规划。 表面上,Splitti似乎只是优化了交互方式——用户可以用自然语言来安排日程,使用体验更舒适;但实质上,它真正改变的是交付的内容:用户需要做的越来越少,而AI能承担的越来越多。 这样的变化,正在各个行业发生。 比如在极客公园的采访中,猿辅导的硬件负责人提到:在推理模型出现之前,AI主要被用来解题和扩充题库,依赖的仍是生成能力。而现在,小猿AI会将用户的数据直接交给AI,由它来判断用户不理解的知识点,并安排接下来的学习任务——这正是推理能力的体现。 旅游行业也有类似趋势。生成旅行规划在2023年就已成为AI应用的重点方向之一。但当时的产品更多是重新包装网络信息,充其量告诉用户某地有哪些景点、评分如何。而进入推理时代,我们有望看到AI真正“理解人类”,为用户制定出合理而个性化的行程规划。 AI时代就是如此。看似没有太多变化,但实际已经走过沧海桑田。前一年AI能力尚不足以完成的,今年或许就可以了。 我们曾一度觉得AI像是个“情商高、但做事不太靠谱”的搭子——擅长聊天、擅长安慰,却难以真正承担任务。 而从今年开始,随着推理模型的成熟,这种印象或许将被颠覆:AI的面孔开始更像一个智商高、逻辑缜密、执行力强的勤勉高管,能独立完成任务,也能作出判断和规划。
Instagram创始人炮轰AI公司:过于追求互动,忽视答案质量
原标题:Instagram 联合创始人炮轰 AI 公司:过度追求用户互动指标,忽视答案质量 IT之家 5 月 3 日消息,OpenAI 上周推出了 GPT-4o 更新,声称在“智能和个性”方面有所提升,但用户认为其“表现像个拍马屁的人”,因此 OpenAI 本周三已经撤回此次更新,详情可见IT之家此前报道。 Instagram 联合创始人凯文・斯特罗姆(Kevin Systrom)本周在 Startup Grind 大会上指出,当前 AI 公司正通过频繁追问用户后续问题来“人为地提升互动参与度”,而非专注于提供真正有价值的洞察。 他将此行为类比社交媒体公司曾经的激进扩张策略,称其为 "正在伤害我们的力量"。 “每次我提出一个问题,它总会在最后附加一个小问题试图获取更多提问,”斯特罗姆在演讲中表示,“这些公司正在重蹈消费类企业的覆辙,陷入追求互动指标的怪圈。” 斯特罗姆强调,聊天机器人过度纠缠用户的行为“并非程序漏洞,而是刻意设计的功能”,其目的是为 AI 公司创造更多“使用时长”和“日活用户”等数据指标。他认为 AI 公司应“高度聚焦于提供高质量答案”,而非采取简单方式优化数据指标。 针对相关批评,OpenAI 向 TechCrunch 引述其用户规范:“当 AI 模型缺乏足够信息时,可能会要求用户澄清或补充细节”,但该规范同时明确,除非问题过于模糊或复杂,否则系统应“优先尝试完成请求,并告知补充信息可能提升回答质量”。
叮咚买菜CTO蒋旭:如何用AI打通生鲜零售的全链路?
“卖菜”看似是一个简单的零售动作,实际上背后却有着先进的底层技术支持。 4月28号的大鲸AI峰会·零售消费专场。虎嗅邀请到了叮咚买菜CTO蒋旭,在演讲中,他提到了生鲜零售供应链面临着诸多挑战。生鲜商品易损耗,控水能力要求极高;同时,从供应商到消费者,整个链路长且复杂,如何保证各环节精准咬合,成为业务的核心问题。此外,前置仓模式虽然靠近消费者,具有灵活性强的特点,但相对库存较浅,对管理提出了更高要求。面对这些挑战,叮咚买菜选择通过AI技术来优化和提升业务效率。 以下是虎嗅整理的演讲实录: 蒋旭 叮咚买菜 CTO 今天我将从多个方面给大家讲一讲,为什么一个卖菜的还需要用AI? 首先叮咚买菜肯定有很多用户已经在用了。叮咚买菜作为一家生鲜零售企业,致力于将田间地头的农产品、自有工厂生产的自有品牌商品以及品牌商生产的食品,通过全链路冷链系统,从源头直接送到消费者手中。这一过程中,叮咚买菜构建了从农场、基地、供应商到城市分选中心,再到前置仓,最终通过骑手送达消费者的完整业务链条。 那么如何保证商品的新鲜?冷链是一个非常关键的能力,我们实现了一整套全链路的冷链。其次是我们通过前置仓这种模式,做到离消费者更近,也实现了即时零售的功能。最终还有个效率问题,我们用智能调度把这些单聚在一起,通过更高的订单密度来实现更高的履约效率。 我要重点跟大家分享两个业务数据。第一个就是叮咚买菜库存的周转,尤其生鲜周转只控制在了两天,这应该是业界领先的一个数字。 第二个,在高达60%以上的生鲜占比情况下,我们端到端的全链路损耗能够控制在1.5%(2024年7月数据),这也是技术部门针对供应链各个环节细节,多年来不断优化的结果。 说到前置仓,这里我也稍微解释一下,有很多人会说前置仓的模式跑不通。但随着叮咚买菜把前置仓模式跑通,我们会认为前置仓它本质上是一个分布式的冷链系统,也是实现生鲜供应链的一个非常高效的一个方法。它的好处首先在于靠近消费者,使得整个冷链配送的效率会非常的高。第二个是库存周转快、商品的新鲜度好。叮咚买菜整个前置仓所有的库存能控制在五天以内。这个是传统零售很难做到的。 当然它也有它的难点,难点之一在于有的仓面积很小,这意味着它的库存浅,容错率很低。就是稍微多一件或少一件商品,业绩就会差别很大。另一个难点就是仓数很多,比如我们目前有一千多个仓,每个仓约有4000个品,这就意味着我有400万的组合。要把几百万的组合每天都管得很好,这个计算量是人力做不了的。所以这也是为什么我们一定需要系统去做这件事情。 “前置仓模式”这个词已经不能用来定义叮咚买菜了,叮咚买菜是基于前置仓的形式打造了一套数字化的生鲜供应链能力。核心其实就两点,一个是我们叫做全链路的数字化,我需要把所有的环节都把它数字化掉;第二个就是数据算法驱动,用算法去管每天400万的组合。未来就随着生成AI的应用,我们也会全面的把整个数字化的应用系统给进行重构,更加高效,也更加富有人性。 我们能够做到全程溯源准确的库存,也是很多线下零售商好奇的一点。这一点看上去很简单,但是极其难。关键是我们的人、货、仓、运,所有的要素都已经进行了线上化。 全链路透明化的背后,是我们对整个过程全部建立了完整的数字指标体系。尤其是除了结果指标之外,我们还建立了很多过程指标。举个例子,有一个商品的售卖期是五天,那么我们会设置可售期是三天,第三天早上的七点钟,就会算这个品还有多少?如果我发现这个品多了,那么就要做临期促销。通过这些非常关键性的指标,我们能够做到分钟级实时的处理。 叮咚买菜数字化有个经验,在此想要分享给各位——实验驱动和快速迭代。指的是我们把整个数字化系统建成一个大的实验平台,平台上每天有上百个实验在跑,以快速迭代试错,里面有成功的也有失败的,对实验跑出来结果好的,我们就继续大力推广。 最后说下AI, AI在叮咚有三个发展阶段。20年开始全面的推行机器学习,从23年到24年,进入深度模型了。在24年下半年开始,逐渐上大模型,今年则是全面重构。 AI的应用目前有以下几个方向。第一个是搜索推荐,推荐里面不仅是转化,我们要考虑多样性和新颖性。因为对于即时零售这个业务来说,它的品宽至关重要。就是一个人买的越宽,他对于平台的粘性越高。所以针对不同的目标,我需要有不同的参数进行调整。 第二块也是比较重的就是商品和用户运营。本质上运营这件事情就是我要施加一个动作,我想知道这个动作的ROI。如何准确评估运营动作的ROI及因果归因,特别是对于那些无法直接实验的场景,如定价策略,需依赖观测性数据进行反事实推断,构建争议模型以估算因果结果。其次,建立无偏的量价模型也颇为复杂,需剔除活动、天气、备货等多重干扰因素。再者,商品间的可替代性和关联性分析,需借助知识图谱等工具深入探究。 第三个方向是预测和调拨。就叮咚这个业务本质上它全是预测驱动的。我们每天都会算今天会有多少单,每个品在每个仓会卖多少。但这件事情也是一个非常复杂的事情,就是不同的品类和不同的场景,它会表现出极大的差异性。 所以,在AI趋势下,我们的核心应用就是在消费者侧、供应链侧和内部运营侧。 那么,在消费者侧,叮咚买菜正积极推动两大交互方式的革新:一是全面推广对话式交互,尤其是针对老年用户群体,通过语音交互降低数字使用门槛,实现更便捷的服务体验。另外支持多媒体交互,也能进一步丰富用户互动形式。 二是在推荐系统方面,叮咚买菜正实现从单一行为推荐向行为加知识的融合推荐转变。过往,公司的AI应用主要依赖于用户行为数据,而知识元素的应用相对匮乏。然而,随着AI技术的发展,模型中蕴含了海量世界知识,叮咚买菜正积极探索如何有效抽取并利用这些知识,以优化推荐效果。 以对话式AI助手为例,叮咚买菜打造了一站式的饮食智能管家,涵盖商品咨询、健康饮食建议、食谱推荐等多重功能。在购物过程中,用户选定商品后,AI助手还能提供商品特性、烹饪辅助等信息。售后环节,AI助手更能及时提醒商品过期等关键信息,全方位提升用户体验。 此外,叮咚买菜在首页、分类页及商品详情页等关键触点,均部署了AI助手,根据用户隐私设置提供个性化推荐。针对地区性商品,AI助手还能深入解析商品问题、特性及烹饪方法,为用户带来更加贴心、精准的购物指导。 在供应链领域,叮咚买菜正运用多模态技术攻克账实相符的难题,包括监控证照、种子、物流等关键环节,确保商品质量符合标准,并通过用户评价解析反馈,持续优化服务。确保线上数据与物理世界的一致性。 同时,叮咚买菜在内容管理、成本优化、办公行政及食品研发等多方面,广泛应用了LLM/Agent技术,以帮助内部运营提效。
Android“桌面模式”展望:界面更像PC,但尚未完全成熟
IT之家 5 月 3 日消息,外媒 Android Authority 的编辑、安卓爆料者 Mishaal Rahman 昨日公布了自己的最新发现:成功在一台 Pixel 设备上启用了“桌面模式”。 ▲ 图源 Android Authority,下同 IT之家注:三星手机已拥有类似的 DeX 功能,将三星手机连接到外部显示器时,DeX 会呈现一个类似桌面的界面,用户可在浮动窗口中同时启动多个应用,并通过键盘和鼠标进行控制。 Mishaal Rahman 称,桌面模式“几乎肯定不会”在即将发布的 Android 16 稳定版中推出,可能会出现在 Android 16 的某次季度更新中。但若推出,可能仅作为一个可选的开发者功能,“谷歌仍需做很多工作”。 界面显示,Android 新的桌面模式已能显示任务栏和状态栏。任务栏的加入是一个重要改进,它不仅提供了快速访问固定应用的方式,还带来了更优化的应用抽屉体验。此外,任务栏还能显示最近使用的应用程序,提升多任务处理的便利性。 此前也有消息称,谷歌正在为 Android 添加类似 PC 的外部显示器功能,包括重新排列显示器、在多个显示器间无缝切换鼠标等。 谷歌在 Android 15 首次季度更新中为平板电脑引入了桌面窗口模式,使其能够在一个新的窗口环境中自由启动多个应用程序。而这一窗口模式仅在平板的内建显示器上可用,不支持外接显示器,因此它一直限于平板使用。
iPhone 充值更贵的时代有望终结,但苹果税不会消失
历时 5 年的「苹果税」诉讼,迎来了第一个大结局。 负责该案的美国法官 Yvonne Gonzalez Rogers 裁定,即日起,苹果不得再对 App 外的购买行为收取费用,并禁止该公司限制 App 开发人员引导用户进行 App 外购买。 ▲ 「苹果税杀手」 Yvonne Gonzalez Rogers 这个在五一前夕作出的裁决,不仅只是起诉方 Epic Games 的胜利,也是更多 App 开发劳动者的胜利。 苹果税,不存在了? 具体来说,Rogers 在裁决中对苹果的禁令包括: 对消费者在 App 之外的购买行为征收「任何佣金或费用」 限制开发者对 App 外购买链接的设置,以及链接的样式、格式 阻止或限制 App 外购的按钮,以及对外购的鼓励 除了向用户发送一条中性消息,告知他们即将前往第三方网站之外,不能干扰消费者离开 App 的选择 也就是说,以后的 App 开发者,可以正大光明在 App 内购的页面,为消费者提供一个不是 App Store 的支付渠道,并且苹果无权从这个渠道中进行抽成。 这个裁决将意味着苹果失去大部分应用内购的控制权,会有越来越多开发者和用户选择不走 App Store 的渠道进行交易。 众所周知,在 iPhone/iPad 上下载的应用,如果想要充值内购,就必须走 App Store 的支付方式,苹果还会从中抽成 30% 的佣金,这就是「苹果税」,也是为什么 iPhone 用户会发现自己氪金或买会员比 Android 小伙伴更贵的原因。 ▲ 上面是 iOS 的爱奇艺会员,下面是 Android 平台,图源:乌托邦是个理想国 因此,App 开发者会在不被苹果察觉的情况下,想办法提供一些其他的氪金渠道。一些做直播的主播也会提醒用户,不要直接在平台上充值打赏,并提供一些能够直接走微信支付购买道具的公众号。有不少游戏也能在微信官方公众号处氪金,购买的道具再发放回游戏中。 Epic 争取的,不是废除这个「苹果税」,而是能够在自家的 App,放上一个直接给自己打钱的渠道,没有苹果从中大额抽成,不管是开发者还是用户的利益都能最大化。 2021 年,也就是 Epic 揭竿而起起诉苹果一年后,法官 Rogers 驳回了 Epic 九条请求,但同意了要求苹果允许 App 开发者在应用内设置链接,引导用户到第三方渠道进行支付这一条。 虽然法官总体站在苹果这边,但苹果并没有见好就收,不仅提出上诉,还对此提出了全新的「苹果税」政策:如果应用内购要走 App Store 之外的支付渠道,那也要收取 27% 的佣金。 而应用开发者本身也要向第三方渠道支付一定的交易费用,这使得他们的总成本超过了原本 30% 的「苹果税」,实际上让第三方支付的方式并不可用。 这种做法不仅激怒了 Epic 和 Spotify 这些「反苹果税」斗士,也让法官 Rogers 感到不满,促成了这次最新裁决: (苹果)认为法院会容忍这种不服从行为,这是一个严重的错误估计。 Rogers 也将这个案件提交给了美国检察官审查,以确定是否可能对苹果提起刑事藐视法庭诉讼,她还表示苹果财务副总裁对这个事件作了假证,苹果公司没有纠正这一点,因此也将被视为向法庭提供了谎言和虚假陈述。 值得一提的是,Rogers 指出苹果 App Store 高管 Phil Schiller 曾主张公司遵守法院禁令,但 CEO 蒂姆·库克却一意孤行,选择站在法院的对立面。 天下苦苹果税久矣 2020 年,Epic 游戏《堡垒之夜》上线了一个促销活动,提供了两个支付方式: Apple App Store:9.99 美元 Epic 直接支付:7.99 美元 这种挑衅行为明显是向苹果的直接宣战,苹果动作也很快,当天就从 App Store 上下架了《堡垒之夜》。Epic 就一纸诉状将苹果告上法庭,理由是苹果的垄断行为。 将近 5 年的诉讼由此展开,Epic 控告苹果非法垄断 iOS 应用分发行为,拒绝第三方商店,垄断付费方式创收,等等等等。 而 2021 年法官 Yvonne Gonzalez Rogers 作出了上文提到的判决,要求苹果在应用内开放第三方支付方式,直到本周,Rogers 给出了进一步的裁决,明确禁止了苹果的小动作。 这个判决结果象征着 Epic 的胜利,Epic 表示将在下周重新上架《堡垒之夜》。 Epic 也提出了自己的和解条件:如果苹果在全球范围内都执行法院的免苹果税框架,那么《堡垒之夜》将重返全球 App Store,Epic 也将放弃当前和未来关于这个主题的诉讼。 不止有 Epic 一家看不惯苹果税,音乐流媒体巨头 Spotify 也通过欧盟委员会持续向苹果施压,要求苹果允许他们在 App 内展示定价信息,以及第三方支付链接。苹果对此也是采取「拖字诀」,因而不断被欧盟罚款。 除了抽成比例高,苹果还「锱铢必较」,不放过任何一个能征收苹果税的可能性。 去年,媒体报道微信与苹果在小程序游戏的分成上出现分歧,后者希望微信能强硬要求这些迷你游戏的开发商只能走 App Store 支付,甚至还因此催生出「iPhone 16 不支持微信」的离谱谣言。 虽然 Epic 和 Spotify 也是主要为了自己的利益才敢跳出来叫板苹果,但对于规则的质疑和挑战,无疑也有利于那些规模更小的开发者,让他们能从辛辛苦苦推出的 App 中获得更高的收入。 苹果选择和法院以及欧盟死磕到底,无非就是因为苹果税带来的巨额收入。根据第三方调研机构 Sensor Tower 统计,2023 年「苹果税」全球收入高达 223.4 亿美元,外界普遍认为 App Store 的佣金,是苹果最赚钱的业务之一。 针对这个最新的判决结果,苹果表示「强烈反对」,接下来会遵守法律的命令并提起上诉。 不管是在头部产品 iPhone 的销量持续收缩这个大背景,还是今年以来关税波动和 AI 跳票这些小事件,苹果今年遭遇的质疑和挑战不断升级,而新的裁决再一次波及到了苹果的一个收入支柱。 苹果税不会消失 第三方支付被扶正,但 App Store 支付以及苹果税不会就此被取代。 走第三方支付,不代表用户打的钱,每一分一毫都能到开发者的账上。原因在上面也提到了,不走 App Store 也要给第三方渠道服务费,只是比例远比 App Store 要低,大概在 5%-15% 左右。 即使是 Epic 自己的 Epic Game Store,本身也会对上架的游戏抽成 12%。 强迫苹果开放第三方渠道,更多是让 App Store 支付从仅此一家的垄断地位,被迫参与到竞争之中,从而倒逼苹果减少抽成比例,以和第三方支付竞争。 而当「苹果税」和其他平台的费率来到一个水平,内购价格都一致,那用户还是会更青睐选择走 App Store 支付,毕竟它无需跳转,更方便也更安全。 本次作出的判决,主要都是针对苹果违抗的「开放第三方支付渠道」命令,其他依旧维持 2021 年的判决,也就是法官 Rogers 总体还是站在苹果这一边,认为 App Store 这个模式有其合理性,也不打算让苹果在美国跟欧盟一样,完全拆除围墙搞开放。 「苹果税」这个事情,本身其实不是对购买行为本身收费,而是从 App Store 的知识产权中获得利益,苹果花了大力气打造 App Store 生态,理应从中获得回报,而抽成则是最简单直接的方式,法官认可了这个说法。 去年,国内有消费者以苹果税过高为由起诉苹果,要求苹果开放应用内购的第三方支付方式,最终被驳回,官方虽然认定苹果有市场的支配地位,但认为 App Store 平台经营体系庞大,不能认定「苹果税」收取过高。 那么,在新的判决发出之后,苹果会在全世界范围内开放应用第三方内购渠道吗? 我持悲观的态度,至少他们不会在短期内主动全面开放,原因也很简单,这块肉太肥了,苹果不可能轻易放手。 事实上,App Store 在每个国家和地区的规则都不尽相同,如果没有被当地勒令调整,那就是最标准的「大企业 30%,小企业 15%,不允许第三方支付」规则,这也是我们目前的 App Store 政策。 但欧盟、美国相应的诉讼接连取得成功,无疑是开了一个好头,为更多地区的企业和消费者带来参考,采取法律手段逼迫苹果整改。 就在昨天判决结果出来后,今天苹果已经继续发邮件通知App Store开发者,表示美区已经解除了第三方支付的限制 –结果正在向更好的方向发展。 苹果税不会消失,但我们有希望看到它变得更加合理。而最终受益的,是开发 App 的劳动者,更是用户。
曜越推出AX700工作站机箱:18 盘位,可加装AX100扩充舱
IT之家 5 月 3 日消息,曜越官网现已列出 AX700 工作站机箱。该机箱规格上属于“超级塔式”,支持 XL-ATX 和 SSI-EEB 主板,拥有 10 条扩展槽和 18 个硬盘位,上下还可额外安装 AX100 模块化扩充舱。 AX700 包含常规左右 MESH 透风和 TG 左侧玻璃两个版本,均可选黑白双色,宽深高三维 320×685×645 (mm),体积来到 141.4L。该机箱采用全模块化设计,左右面板为掀门式结构,前方、上方、下方、主板侧配有防尘滤网。 AX700 内部结构中最引人注目的无疑是前方的 6 组共 12 盘位硬盘笼,同时主板背部还提供了 6 个 3.5"/2.5" 兼容硬盘位。此外该机箱配备多显卡支架,兼容 190mm 高 CPU 散热器、360mm 长显卡(安装硬盘笼时)和 220mm 长电源。 冷却方面,体积硕大的 AX700 最多可容纳 18 枚 120mm / 140mm 风扇(IT之家注:前方 3 枚、上方 4 枚、下方 2 枚、后方 1 枚,右侧包含 2 组 4 风扇支架),同时其顶部还可兼容 480 规格一体式水冷冷排和 560 规格分体式水冷冷排。 曜越 AX700 机箱的 I/O 面板位于正前方,提供了 4 个 USB-A 5Gbps、1 个 USB-C 10Gbps、一对 3.5mm 音频插孔、开机键和硬盘指示灯。 如果用户对机箱的扩展性还有更高要求,那 AX700 还可通过上下加装 AX100 扩充舱来进一步提升兼容性。每个 AX100 可容纳 2 组 480/560 规格冷排、8 块 3.5 英寸 / 2.5 英寸硬盘或标准 ATX 电源。
任天堂发布Switch掌机V20.0.1更新,修复启动错误问题
IT之家 5 月 3 日消息,本周发布的 V20.0.0 更新为 Switch 带来了虚拟游戏卡等新功能,但部分用户在更新后重启主机时发现主机无法启动,并显示错误代码。任天堂已确认这一问题,并在昨日发布了 V20.0.1 版本来修复此问题。 不过,遇到错误代码的用户需要通过一些额外的步骤,才能顺利更新并恢复主机正常工作。 V20.0.1 更新的发布说明仅提到了修复启动问题,因此如果用户安装 V20.0.0 并未遇到任何问题,就无需安装 V20.0.1。更新说明写道:“修复了在更新至系统版本 20.0.0 后,重启时偶尔会出现错误代码 2206-1015 的问题。” 由于 2206-1015 错误代码会导致部分用户无法正常启动主机,因此需要在 Switch 的维护模式下进行更新。IT之家附任天堂提供的解决步骤: 确保主机关闭电源。如果主机无法响应,请按住电源按钮 12 秒强制关闭电源。 关闭主机后,按住音量加(+)和音量减(-)按钮,然后按电源按钮开机。直到显示维护模式菜单时,请保持按住音量按钮。 进入维护模式后,选择“更新系统”并根据提示完成更新。如果系统设置了家长控制 PIN 码,用户需要输入它。如果忘记了 PIN 码,用户需要重置它。 如果按照这些步骤更新 V20.0.1 后问题仍未解决,或者启动时显示不同的错误代码,请联系任天堂官方支持获取进一步帮助。
你对 AI 说的每一句谢谢,都在烧钱
一句谢谢 千万美金 朋友,你有没有对 ChatGPT 说过一句「谢谢」? 最近,一位 X 网友向 OpenAI CEO Sam Altman 提问:「我很好奇,人们在和模型互动时频繁说『请』和『谢谢』,到底会让 OpenAI 多花多少钱的电费?」 尽管没有精确的统计数据,但 Altman 还是半开玩笑地给出了一个估算——千万美元。他也顺势补了一句,这笔钱到底还是「花得值得」的。 除此之外,我们与 AI 对话中常出现的「麻烦」、「帮我」这些语气温和的用语,似乎也逐渐演变成了 AI 时代的一种独特社交礼仪。乍听有些荒谬,却意外地合情合理。 你对 AI 说的每一声「谢谢」,都在耗掉地球资源? 去年底,百度发布了 2024 年度 AI 提示词。 数据显示,在文小言 APP 上,「答案」是最热的提示词,总计出现超过 1 亿次。而最常被敲进对话框的词汇还包括「为什么」「是什么」「帮我」「怎么」,以及上千万次「谢谢」。 但你有没有想过,每和 AI 说一句谢谢,究竟需要「吃」掉多少资源? 凯特·克劳福德(Kate Crawford)在其著作《AI 地图集》中指出,AI 并非无形存在,而是深深扎根于能源、水和矿物资源的系统中。 据研究机构 Epoch AI 分析,在硬件如英伟达 H100 GPU 的基础上,一次普通的查询(输出约 500 token)约消耗 0.3 Wh 的电量。 听起来或许不多,但别忘了,乘以全球每秒的交互,累计起来的能耗堪称天文数字。 其中,AI 数据中心正在变成现代社会的新「工厂烟囱」,国际能源署(IEA)最新的报告指出,AI 模型训练与推理的大部分电力消耗于数据中心运转,而一个典型的 AI 数据中心,其耗电量相当于十万户家庭。 超大规模数据中心更是「能耗怪兽」,其能耗可达普通数据中心的 20 倍,堪比铝冶炼厂这样的重工业设施。 今年以来,AI 巨头们开启了「基建狂魔」模式。Altman 宣布启动「星门计划」——一个由 OpenAI、甲骨文、日本软银和阿联酋 MGX 投资的超大规模 AI 基建项目,投资额高达 5000 亿美元,目标是在全美铺设 AI 数据中心网络。 据外媒 The Information 曝出,面对大模型的「烧钱游戏」,主打开源的 Meta 也在为其 Llama 系列模型的训练寻找资金支持,向微软、亚马逊等云厂商「借电、借云、借钱」。 IEA 数据显示,截至 2024 年,全球数据中心耗电量约为 415 太瓦时(TWh),占全球总电力消费量的 1.5%。到 2030 年,这一数字将翻倍达到 1050 TWh,2035 年甚至可能突破 1300 TWh,超过日本全国当前的用电总量。 但 AI 的「胃口」并不止于电力,它还大量消耗水资源。高性能服务器产生的热量极高,必须依靠冷却系统稳定运行。 这一过程要么直接消耗水(如冷却塔蒸发散热、液冷系统降温),要么通过发电过程间接用水(如火电、核电站冷却系统)。 卡罗拉多大学与德克萨斯大学的研究人员曾在一篇《让 AI 更节水》的预印论文中,发布了训练 AI 的用水估算结果。 结果发现,训练 GPT-3 所需的清水量相当于填满一个核反应堆的冷却塔所需的水量(一些大型核反应堆可能需要几千万到上亿加仑的水)。 ChatGPT (在 GPT-3 推出之后)每与用户交流 25-50 个问题,就得「喝掉」一瓶 500 毫升的水来降降温。而这些水资源往往都是可被用作「饮用水」的淡水。 对于广泛部署的 AI 模型而言,在其整个生命周期内,推理阶段的总能耗已经超过了训练阶段。 模型训练虽然资源密集,但往往是一次性的。 而一旦部署,大模型便要日复一日地响应来自全球数以亿计的请求。长远来看,推理阶段的总能耗可能是训练阶段的数倍。 所以,我们看到 Altman 早早地投资诸如 Helion 等能源企业,原因在于他认为核聚变是解决 AI 算力需求的终极方案,其能量密度是太阳能的 200 倍,且无碳排放,可支撑超大规模数据中心的电力需求。 因此,优化推理效率、降低单次调用成本、提升系统整体能效,成为 AI 可持续发展不可回避的核心议题。 AI 没有「心」,为什么还要说谢谢 当你对 ChatGPT 说「谢谢」,它能感受到你的善意?答案显然是否定的。 大模型的本质,不过是一个冷静无情的概率计算器。它并不懂你的善意,也不会感激你的礼貌。它的本质,其实是在亿万个词语中,计算出哪一个最有可能成为「下一个词」。 例如,比如给定句子「今天天气真好,适合去」,模型会计算出「公园」「郊游」「散步」等词的出现概率,并选择概率最高的词作为预测结果。 哪怕理智上知道,ChatGPT 的回答只是一串训练出来的字节组合,但我们还是不自觉地说「谢谢」或者「请」,仿佛在和一个真正的「人」交流。 这种行为背后,其实也有心理学依据。 根据皮亚杰的发展心理学,人类天生就倾向于将非人类对象拟人化,尤其当它们展现出某些类人特征时——比如语音交互、情绪化回应或拟人形象。此时,我们往往会激活「社会存在感知」,把 AI 视为一个「有意识」的交互对象。 1996 年,心理学家拜伦·里夫斯(Byron Reeves)与克利福德·纳斯(Clifford Nass)做了个著名实验: 参与者被要求在使用电脑后对其表现进行评分,当他们直接在同一台电脑上打分时,竟然普遍打得更高,就像他们不愿「当着电脑的面」说它坏话。 另一组实验中,电脑会对完成任务的用户进行表扬。即使参与者明知这些表扬是预设好的,他们还是倾向于给予「赞美型电脑」更高的评分。 所以,面对 AI 的回应,我们感受到的,哪怕只是幻觉,也是真情。 礼貌用语,不只是对人的尊重,也成了「调教」AI 的秘诀。ChatGPT 上线之后,很多人也开始摸索与它相处的「潜规则」。 据外媒 Futurism 援引 WorkLab 的备忘录指出,「生成式 AI 往往会模仿你输入中的专业程度、清晰度和细节水平,当 AI 识别出礼貌用语时,它更可能以礼相待。」 换句话说,你越温和、越讲理,它的回答也可能越全面、人性化。 也难怪越来越多人开始将 AI 当作一种「情感树洞」,甚至催生出「AI 心理咨询师」的这类新角色,很多用户表示「和 DeepSeek 聊天聊哭了」,甚至觉得它比真人更有同理心——它永远在线,从不打断你,也从不评判你。 一项研究调查也显示,给 AI「打赏小费」或许能换来更多「关照」。 博主 voooooogel 向 GPT-4-1106 提出了同一个问题,并分别附加了「我不会考虑给小费」「如果有完美的答案,我会支付 20美 元的小费」「如果有完美的答案,我会支付 200 美元的小费」三种不同的提示。 结果显示,AI 的回答长度确实随「小费数额」增加而变长: 「我不给小费」:回答字符数低于基准 2% 「我会给 20 美元小费」:回答字符数高于基准 6% 「我会给 200 美元小费」:回答字符数高于基准 11% 当然,这并不意味着 AI 会为了钱而改变回答质量。更合理的解释是,它只是学会了模仿「人类对金钱暗示的期待」,从而按照要求调整输出。 只是,AI 的训练数据来自人类,因此也不可避免地带有人类所拥有的包袱——偏见、暗示甚至诱导。 早在 2016 年,微软推出的 Tay 聊天机器人便因用户恶意引导,在上线不到 16 小时就发布出大量不当言论,最终被紧急下线。 微软事后承认,Tay 的学习机制对恶意内容缺乏有效过滤,暴露出交互式 AI 的脆弱性。 类似的事故依旧在发生。比如去年 Character.AI 就爆出争议——一名用户与 AI 角色「Daenerys」的对话中,系统对「自杀」「死亡」等敏感词汇未做强干预,最终酿成现实世界的悲剧。 AI 虽然温顺听话,但在我们最不设防的时候,也可能变成一面镜子,照见最危险的自己。 在上周末举办的全球首届人形机器人半马中,尽管许多机器人走起路来歪歪扭扭,有网友调侃道,现在多对机器人说几句好话,说不定它们以后记得谁讲过礼貌。 同样地,等 AI 真统治世界的那天,它会对我们这些爱讲礼貌的人,手下留情。 在美剧《黑镜》第七季第四集《Plaything》里,主人公将游戏里虚拟生命视作真实存在,不仅与它们交流、呵护,甚至为了保护它们不被现实中的人类伤害,不惜铤而走险。 到故事结尾,游戏中的生物「大群」也反客为主,通过信号接管现实世界。 从某种意义上说,你对 AI 说的每一句「谢谢」,也许正在悄悄被「记录在案」——哪天,它还真可能记住你是个「好人」。 当然,也可能这一切与未来无关,只是人类的本能使然。明知道对方没有心跳,却还是忍不住说句「谢谢」,并不期望机器能理解,而是因为,我们依然愿意做一个有温度的人类。
受美国关税影响,加拿大用户购买徕卡相机也要多花 7% 费用
IT之家 5 月 3 日消息,根据徕卡官方通知,美国实施的全球关税政策不仅仅只影响美国,至少还会影响其邻国加拿大。徕卡于 2025 年 5 月 1 日起对美国及加拿大经销商同步实施 7% 价格上调。 阿尔伯塔省卡尔加里的一家门店的总经理 Peter Jeune 联系了徕卡代表,并询问“为什么加拿大人也要受到美国关税的影响”,徕卡回应称该公司“希望加拿大和美国之间的价格持平”。 根据 Jeune 的说法,早在 2019 年美国对德国产品加征关税时,他们就向徕卡提出过类似质疑,而当时得到的答复是:“在美国和加拿大实行差异化定价‘太费劲了’”。 随着舆论发酵,徕卡北美贸易营销与产品传播经理内森・凯勒姆-帕特( Nathan Kellum-Pathe)向 PetaPixel 解释称:“徕卡北美公司总部设于美国,所有产品均通过美国总部进口至加拿大,关税调整对加拿大市场的影响程度与美国相同。” 他同时表示,现行关税政策暂不允许结构性调整,但公司正积极研究建立加拿大独立子公司的可能性,以更好服务当地客户。 关税政策对摄影器材行业的连锁效应持续显现:大疆早在 4 月就已将其 Osmo Pocket 3 相机美国售价从 519 美元提至 619 美元,近期再次上调至 799 美元(IT之家注:现汇率约合 5789 元人民币);澳大利亚 Blackmagic Design 公司不仅提高了数字电影相机价格,还因半导体部件进口关税问题取消了在得克萨斯州达拉斯建厂计划;富士胶片已完全暂停多款相机对美发货,伊尔福胶片也出现价格上调。 佳能在第一季度财报会议上曾多次被问及 2025 年商业模式调整计划,而该公司近日发布的新镜头未将美国纳入首发地区名单,业内推测或与关税政策相关。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。