行业分类:
加载中...
头条分类:
加载中...
Claude新产品暴打设计圈,一条推文干崩Adobe、Figma股价
一觉醒来,Claude 还在继续上大分,这一次瞄准的是设计行业。 就在刚刚,Anthropic 正式发布 AI 设计工具 Claude Design,相关推文在 X 平台引发超过 1141 万次浏览。 过去我们常说,做好一名设计师,你需要熟练掌握各种复杂的软件快捷键,懂得像素级的对齐规范,还要在产品经理和开发工程师的无休止拉扯中艰难生存。而现在,Claude Design 给出了一种极其粗暴且优雅的解法:你只需要会说话。 Claude Design 发布不到 20 分钟,Figma 股价开始下跌,Adobe 同样未能幸免。 设计即 AI,AI 即设计 如果你以为 Claude Design 只是另一个 Midjourney 或者 Nano Banana Pro,那就大错特错了。 传统的 AI 绘图工具生成的是一张张无法修改的「静态图」(JPG 或 PNG),而由 Anthropic 目前最强视觉模型 Claude Opus 4.7 驱动的 Claude Design,生成的是真正意义上的设计稿、交互原型、演示文稿与单页文档。 Claude Design 目前处于研究预览阶段,向 Claude Pro、Max、Team 和 Enterprise 订阅用户开放,目前正在逐步推送,费用计入现有订阅额度,超出后可选择开启额外用量。 它的工作流完全颠覆了传统 GUI(图形用户界面)软件的逻辑,彻底转向了 LUI(自然语言界面)。工作流程分为几个层次。 用户描述需求,Claude 完成第一版;之后可通过对话持续迭代,也可以在具体元素上留下内联评论,或直接编辑文字,或拖动 Claude 自动生成的调节滑块实时调整间距、颜色和布局。 品牌适配是 Claude Design 的核心设计思路之一。 任何一个做过大型项目的人都知道,设计系统是团队协作的命脉。过去,建立一套包含颜色、字体、组件规范的设计系统,需要资深设计师耗费数周甚至数月的时间,并且在后续的迭代中极难维护。 Claude Design 是怎么做的?它直接绕过了这个苦力活。在初次配置阶段,Claude 会读取团队的代码库和设计文件,自动构建一套设计系统,涵盖颜色、字体和组件规范,此后的每一个项目都会自动应用。团队可以同时维护多套设计系统,并根据需要持续优化。 素材输入支持多种来源:文字提示、上传图片或文档(支持 DOCX、PPTX、XLSX 格式)、导入代码库,或使用内置的网页截取工具直接抓取网站元素,让原型在视觉上与真实产品保持一致。 具体使用场景上,Anthropic 列举了六类典型用途。设计师可以将静态草图转化为可交互原型,无需经历代码审查和 PR 流程;产品经理可以画出功能流程图,直接交给 Claude Code 实现,或转给设计师进一步打磨; 创始人和销售可以从一份粗糙大纲出发,在几分钟内生成一套完整的品牌风格 Pitch Deck,并导出为 PPTX 或发送至 Canva; 市场团队可以产出落地页、社交媒体素材和推广视觉物料;更进阶的场景是「前沿设计」,任何人都可以构建包含语音、视频、着色器、3D 效果和内置 AI 能力的代码驱动原型。 「交付」这个动作,在 AI 时代失去了意义。因为设计即代码,代码即设计。 协作方面,Claude Design 支持组织内部共享,文档可设置为私有、组织内链接可见,或授予编辑权限,让同事加入后共同修改设计,并在同一个群组对话中与 Claude 实时交流。 毕竟,当一个工具能瞬间完成 90% 的工作时,人类还需要那么密集地在同一个画布上指指点点吗? 设计完成后,可导出为 Canva、PDF、PPTX 或独立 HTML 文件,也可以一键打包成交付包传给 Claude Code,用一条指令启动开发落地。 Anthropic 表示未来几周将进一步开放集成接口,方便与更多已有工具连接。对于企业用户,Claude Design 默认关闭,需要管理员在组织设置中手动开启。 对于我们每一个普通人来说,这或许是一个最好的时代。当操作软件不再成为壁垒,AI 工具的门槛被大幅度降低,接下来,就是拼品味的时候了。 Anthropic 的客户们,现在成了它的对手 Claude Design 发布后,网友们反响热烈。 网友 @@emiliano154154 让 Claude 为重现 Stripe 首页撰写设计简报,并将简报粘贴到 Claude Design 中,一次性就成功了。 用 Claude Desigan 做视频也是遥遥领先。 打败 Claude 的只有更有更新的 Claude。 真·就仅凭一条推文,杀死了数千家应用层的 AI 初创公司。 关于 Claude 的进化速度,网友是懂玩梗的。 Claude Design 发布后,Figma 和 Adobe 的股价也不出意外地跌跌不休。 股市的反应如此剧烈,很大程度上是因为大家早就看到了传统设计软件的危机。在这款人工智能工具带来降维打击之前,整个创意软件市场其实早就已经暗流涌动了。 天下苦 Adobe 久矣。最近,创意软件市场已经打响了一场旷日持久的价格战。Canva 将新收购的动态图形软件 Cavalry 改为完全免费;Affinity 三款对标 Adobe 核心产品的软件,原本每款售价 69.99 美元,被 Canva 收购后合并成一款零门槛应用; Maxon 重新上线了动态设计软件 Autograph,对个人用户免费开放,而这款软件 2023 年刚推出时永久授权高达 1795 美元。 DaVinci Resolve 21 新增色彩校正与蒙版功能,直接对标 Lightroom。苹果的 Creator Studio 套件每月 12.99 美元,涵盖 Final Cut Pro、Logic Pro 等一批专业软件,而 Adobe Creative Cloud Pro 套餐每月高达 69.99 美元。 这场价格战打下来,尽管 Adobe 持续失血,但根基未动。专业设计师的工作流惯性极难撼动,Figma 的协作体验也依然无可替代。 靠更便宜,撼动不了这两座山。但曲线救国的 Claude Design 的目标用户从一开始未必就是专业设计师,而是那些有视觉需求、但从未真正进入过设计工具生态的人。 产品经理要表达一个界面想法,过去只能画草图或者将就用 PPT;创始人要出一套融资 Deck,过去要么找外包,要么求设计师加班。 这些需求长期游离在 Figma 和 Adobe 的用户边界之外,根本原因是工具的门槛太高,把他们挡在了门外。Claude Design 的到来,打开了一道缝隙。 这也是为什么 Figma 和 Adobe 的股价会在一条产品发布推文出现后应声下跌。市场真正看到的,是一次用户边界的重新划定。如果会说话就能做出基础甚至更好的设计,那么设计软件过去赖以收费的专业门槛,就会开始松动。 有趣的是,Claude Design 冲击的 Figma 和 Adobe,本来都是 Anthropic 的潜在企业客户。现在 Anthropic 一边向企业兜售 Claude 的 API,一边亲手下场做产品,直接和客户抢市场,多少有点不讲武德。 当然,抛开社交媒体上的狂欢与股价波动带来的视觉冲击,冷静审视 Claude Design 目前交出的答卷,你会发现它并没有传说中那样「神乎其神」。 只是,在当下的商业语境里,Claude Design 当前的交付质量究竟是 60 分还是 80 分,其实已经不重要了。重要的是,人们已经开始相信 AI 必将势如破竹般重塑千行百业。 今天的创意设计行业,不过是这 AI 叙事里的又一块多米诺骨牌。
3409亿!全球最高估值AI编程工具诞生,黄仁勋投了
智东西 编译 | ZeR0 编辑 | 漠影 智东西4月18日消息,据TechCrunch今日报道,4位知情人士透露,美国明星AI编程独角兽Cursor即将完成新一轮融资,预计将融资超过20亿美元(约合人民币136亿元),估值将达到500亿美元(约合人民币3409亿元)。 消息人士称,现有投资者Thrive Capital和Andreessen Horowitz预计将领投此轮融资,战略投资者英伟达预计也将注资。 如果融资完成,Cursor的投后估值将比其6个月前上次融资时获得的293亿美元(约合人民币1998亿元)估值接近翻一番。 这将使Cursor成为全球估值最高的开发者工具公司之一。 Cursor,前身为Anysphere,由Michael Truell、Sualeh Asif、Arvid Lunnemark和Aman Sanger于2022年在麻省理工学院就读期间共同创立,4位联合创始人均为00后。 18个月前,Cursor还是一家从Y Combinator孵化器毕业的初创公司。如今,它的估值甚至已经超过了一些老牌企业软件龙头,并接近了通常只有即将上市的独角兽公司才能达到的估值水平。 尽管来自Claude Code、Codex等其他AI编程产品的竞争日益激烈,但Cursor的收入仍在快速增长。 据彭博社报道,今年2月,Cursor的年化营收达到20亿美元(约合人民币136亿元),该数据是根据其最近一个月的销售额推算得出的。 另据据两位知情人士透露,Cursor预计到2026年底,其年化营收将超过60亿美元(约合人民币341亿元)。这一增长趋势意味着该公司预计未来10个月内年化营收至少增长2倍。 与许多依赖第三方模型的AI编程初创公司一样,Cursor此前一直处于负毛利率状态,这意味着其产品运营成本高于售价。 据知情人士透露,去年11月推出的自主研发的Composer模型,以及调用成本更低的模型(例如中国Kimi模型)的能力,帮助该公司实现了微盈利。 更细致地来看,据一位知情人士透露,该公司在面向大型企业的销售中已实现正毛利率,但在面向个人开发者的账户上仍然亏损。 Cursor正通过减少对外部供应商的依赖,试图避免被Anthropic等自家供应商取代。 虽然本轮融资已超额认购,但交易条款尚未最终确定,仍有可能发生变化。 Cursor和Battery Ventures拒绝置评,Thrive、a16z和英伟达未回复置评请求。 AI正以惊人速度重塑软件开发,AI编程工具的竞争正趋于白热化。筹集到20亿美元资金,意味着Cursor将手握与其他AI大厂竞争优秀人才的更多筹码。
刚刚,Claude推出“Figma杀手”,设计软件股暴跌
作者 | 毕伟豪 编辑 | 漠影 Claude又来“干倒”一个行业了。 智东西4月18日报道,昨夜,AI独角兽Anthropic又放大招,推出新产品Claude Design,让用户通过使用Claude创建设计、可交互原型、PPT幻灯片、单页文档等视觉作品。 ▲Anthropic发布新产品Claude Design(图源:X) Claude会根据需求生成初稿,用户可以通过对话、内联评论、直接编辑以及自定义滑块的方式来进行修改。 Claude Design生成的结果支持导出到任何位置,可以导入至Canva,或者以PPT、PPTX、HTML等格式保存,还能一键打包至Claude Code生成代码。 其实很久之前Anthropic就有过设计方向的尝试,Claude Code曾推出过一个叫frontend-design的Skill,专门用来优化Claude Code的网页设计效果。 而现在有了视觉能力更强大的Opus 4.7模型提供支持,Anthropic Labs团队便顺理成章地发布了Claude Design这个产品。 资本市场的反应一如既往暴力。消息一出,美国设计软件龙头Figma股价应声下跌6.84%。 ▲Figma股价下跌,截至4月18日6:23(图源:网络) 有网友在Claude的评论区中感叹:“Claude彻底摧毁了价值1万亿美元的设计行业。”甚至还有人直接点名Figma,说:“我本想说安息吧Figma,但它其实早就已经凉透了。 ▲网友在Claude评论区原帖(图源:X) 有趣的是,过去两年担任Anthropic首席产品官的Mike Krieger,刚刚在4月14日辞去了Figma的董事会职务。 同一天The Information爆料,Anthropic的下一代模型Opus 4.7将会产生和Figma形成直接竞争关系的产品,现在看来,这款产品无疑就是Claude Design了。 01. 一句话让Claude做设计 还能随时编辑,自由导出 用户可以通过对话提出需求,还能用上传图片、提交文档、让Claude访问代码库,以及直接抓取网页素材等方式增加参考项,Claude会先向用户进行提问,做一个“调查问卷”,确认需求后生成一个可以编辑的初稿。 ▲Claude在任务执行之前先提问(图源:YouTube) 比如,输入提示词:“设计一个互动的、黑暗主题的图形,展示文化如何在城市之间流动。一个由发光路径连接城市的旋转地球仪。” ▲生成旋转地球仪(图源:Anthropic) 接着你可以通过对话、内联评论、直接编辑或自定义滑块(由Claude制作)进行完善,直至达到理想效果。 在地球仪这个例子里,点击右上角“Tweaks(调整)”按钮,输入“为全局和选项添加控件,以查看不同的断点”。Claude会提供一个进行微调的滑块组件,用户可以调整一些部分的颜色、大小、圆角等参数,一个符合要求的作品就诞生了! ▲Tweaks模式(图源:Anthropic) 再比如让Claude生成一个宁静的移动端冥想app,它开发出三个页面,右上角调整模块可选择主题色。 也可以点击“Comment”按钮,要求在调整模块“添加一个暗黑模式切换”。 ▲Comment模式(图源:Anthropic) 另一个例子是让Claude把一份文件变成一个美观的欢迎指南,让Claude生成初版结果后,可以点“Comment”要求它“把这个换成海岸线照片”。 还可以点击“Knobs”修改字体格式和编辑页面里的文字。 把柱形图改成折线图也不过一句话的事。 使用Edit功能也可以进行修改,进入这个模式后,用户可以选定任意区域,Claude会给出可以调整的组件。 ▲Edit编辑页面(图源:YouTube) 还有一个很有意思的修改方式,和Comment有点像,叫Draw。这个模式下用户可以在初稿上自由划线、圈选,然后在下方的对话框上输入修改意见就好了。 ▲Draw页面(图源:YouTube) 设计好的作品一键即可下载成压缩包、导出为PDF、导出为PPTX、发送给Canva、导出为独立HTML,或者交给Claude Code。 不过在Claude发布的视频中,展现的修改功能和开发者实际体验有所不同,官方视频中共有Tweaks、Comment、Edit text、Knobs以及Draw这五个功能区,但在开发者实测中,Edit替代了Edit text和Knobs的位置。 02. 人人可用,用途几乎覆盖企业每个岗位 Anthropic总结了一些Claude Design的用途: 可交互原型:设计师可以用来将静态样品转为可共享的交互式原型,进而更好地收集反馈和进行测试,无需代码审查或PR。 产品功能图和原型:PM可以用它绘制产品功能图,然后丢给Claude Code做个原型,或者把链接分享给设计师进一步完善。 探索设计方向:设计师可以快速探索各种各样的设计方向。 做演示文稿:老板和客户经理可以轻松用它制作出完整的、符合品牌形象的PPT。 营销材料:营销人员可以创建着陆页、社交媒体素材和活动视觉素材,然后让设计师进行润色。 前沿设计:任何人都可以构建带有语音、视频、着色器、3D功能以及内置AI的原型。 目前,Claude Design仅向Pro、Max、Team和Enterprise订阅用户开放,原套餐即包含这项功能。 03. 从生成、编辑、导出到团队协作 全链条降低创作门槛 在工作原理上,Claude Design遵循自然而然的创作流程。 1、你的品牌已内置其中。在入职培训期间,Claude会读取你的代码库和设计文件,构建一套属于你团队的设计系统。之后的每个项目都会自动使用同款颜色、字体和组件。你可以随着时间的推移不断完善这个系统,团队也可以维护多个系统。 以前你跟AI说要设计一个蓝色的登录页,它理解的蓝色可能跟你想要的蓝色两模两样,而现在Claude Design记住了你的团队规范,知道你想要的色号和字体。 2、你可以从任何位置导入。你可以输入文本提示,可以上传图像和文档(DOCX、PPTX、XLSX),或者让Claude直接访问你的代码库。你还可以用网页截图工具,直接从你的网站抓取元素,使原型看起来更接近真实产品。 3、使用精细的控制功能进行微调。你可以直接对特定元素添加注释、编辑文本,或使用调整旋钮实时调整间距、颜色和布局。然后让Claude将你的更改应用到整个设计中。 4、协作。设计稿支持组织范围内的共享,你可以将文档设为私有,也可以共享链接,让组织内任何拥有链接的人都能查看,或者授予编辑权限,以便其他人能修改设计稿,并与Claude进行群组对话。 5、导出到任何位置。你可以将设计以内部URL的形式在组织内部共享,保存为文件夹,或导出为Canva、PDF、PPTX或独立的HTML文件。 6、移交给Claude Code。当设计准备就绪可以构建时,Claude会将所有内容打包到一个移交包中,你只需一条指令即可将其传递给Claude Code。 接下来的几周里,Anthropic计划简化与Claude Design的集成,以便用户可以将其连接到你的团队已经在使用的更多工具。 04. 结语:重压之下不断升级 设计软件行业在AI冲击中前进 Figma股价下跌,反映出被吓到的短期市场情绪。设计软件行业正在持续收到来自AI产品的冲击,随着用户预期和使用习惯迁移,越来越多的人开始觉得好像不需要那么专业的工具,也能生成一个称心如意的作品。 在可编辑性和专业设计能力上,纯AI生成还有很长的路要走。当前AI工具的价值更多是让不懂设计的人能低门槛地实现自己的创意,而非让设计师失业。 不过这可能会导致Figma等专业工具的用户规模的入口收窄。比如以前很多原本会去学Figma的创业者和产品经理,现在可能直接就被Claude Design给截住了。 Claude进入某个传统软件赛道,导致对应股票当天大跌的剧情,已经反复上演过好多次。但大跌之后的那些公司,并没有消失,他们面临的压力是真实的,但它们也在通过将AI融入产品,为用户带来更好的体验。
突发,Sora之父官宣离职!OpenAI乱成一锅粥了
就在刚刚,Sora 之父 Bill Peebles 正式官宣离职。 同一天,前首席产品官 Kevin Weil 也发帖:今天是我在 OpenAI 的最后一天。 两个高管,同一天出走。而这背后,是一场 OpenAI 正在经历的深层震荡,一张越拉越大的利益罗生门,和一个越来越难坐稳的 CEO 位置。 「我们知道我们抓住了什么」 Bill Peebles 何许人也? MIT 本科,UC 伯克利博士,师从计算机视觉大佬 Alyosha Efros,读书期间拿过美国国家科学基金会奖学金。加入 OpenAI 之前,他在英伟达、Adobe Research 和 Meta FAIR 都实习过。 但真正让他在圈内声名大噪的,是一篇论文。 2022 年 12 月,Peebles 和纽约大学谢赛宁合作,发表了这篇论文,提出了后来被称为 DiT 的架构,用 Transformer 替换了扩散模型中常见的 U-Net 主干,证明了这一路线在图像生成任务上的可扩展性,并入选 ICCV 2023 口头报告。 后来 OpenAI 在 Sora 的技术说明中明确表示,Sora 采用的正是 diffusion transformer 架构。因此 DiT 通常被视为这一路线的重要先导工作。带着这套积累,Peebles 加入 OpenAI,和 Tim Brooks、Aditya Ramesh 一起,开始搞 Sora。 他在离职长文里回忆了一个细节。 大概在 Sora 启动一个月左右,那时候整个项目还只是两个人在鼓捣。他们输入了一个奇怪的 prompt,生成了一段视频:一条陆地鲨鱼,游过一片布满仙人掌的沙漠。 鲨鱼游过去之后,每一棵仙人掌的细节,分毫不差。「我们从来没有在任何视频模型里见过这种物体持久性。就是那一刻,我们知道,我们抓住了什么。」 2024 年 2 月后,他们交出了震惊业界的 Sora。Peebles 在帖子里写道,OpenAI 对这类「疯狂登月项目」有很高的容忍度,但即便如此,2023 年 7 月时,内部仍然有大量质疑声: 在当时整个行业的视频生成水平下,一年内做到高保真 1080p 多镜头生成,真的可能吗? 他们用了 7 个月给出了答案。 他说,Sora 点燃了整个行业对视频生成的大规模投入,但真正让公众意识到这场变化的,是后来的 Sora 2。他也因此感谢 OpenAI 高管给了他们一个空间去追逐「偏离主干道的想法」,「Sora 是一个只有在 OpenAI 才能发生的项目」。 写得确实情真意切(doge)。 OpenAI CEO Sam Altman(山姆·奥特曼)在评论区秒回:真的会很想念你,Bill,你的创造力让全世界以新的方式体验了 AI 视频,期待看你接下来做什么。 Peebles 回了一个爱心:谢谢你给的一切,Sam。 好聚好散,看上去很温馨。 但把时间线往前拉一个月,画风就没那么温馨了。就在 Peebles 离职前一个月,OpenAI 宣布关停 Sora 独立应用。官方给出的理由是,找不到可持续的商业模式。 Sora 2 发布后 5 天内下载量破百万,但之后热度急速下降。奥特曼自己后来也承认,大量用户主要用 Sora 制作趣味表情包分享给好友。这种一次性的娱乐行为,天然缺乏复购动力,也几乎没有变现路径。 而正如 Peebles 在推文里所说:「Overton 窗口的移动速度令人惊叹。」意思是,窗口移动之后,用户的期待值跟着水涨船高。Sora开创了这个时代,但新的标准一旦建立,Sora 自己也要面对更高的门槛。 遗憾的是,Sora 最终没能守住这个位置。 「OpenAI for Science」,解散 同日离职的,还有经常在 OpenAI 发布会上出现的熟面孔 Kevin Weil 。 这位曾在 Instagram 担任早期高管的大佬,2024 年 6 月加入 OpenAI,挂上了首席产品官的头衔。然后去年 9 月,他主动从 CPO 位置退下来,转身去搞了一个新项目:OpenAI for Science。 目标宏大,要给科学家专门打造一套 AI 工作台。核心产品叫 Prism,今年 1 月正式上线了网页版。 团队大约 10 人。然后,今天,Kevin Weil 发帖:OpenAI for Science 正在被分散到其他研究团队,今天是我的最后一天。据连线杂志报道,Prism 团队并入了 Codex,也就是 OpenAI 的 AI 编程产品,由 Codex 负责人 Thibault Sottiaux 接管。 Prism 的能力,将被打包进 Codex 桌面客户端。 与此同时,OpenAI 还有另一个内部动作,悄悄同步发生:企业应用 CTO Srinivas Narayanan 将于下周末离职,理由是回家陪家人。Narayanan 此前是 OpenAI 工程 VP。 毫无疑问,为了应对越来越近的 IPO 和竞争对手的商业化压力,OpenAI 正在无情地砍掉那些曾经引以为傲的「疯狂登月项目」。Peebles 的离去、Weil 的出局,以及各种独立应用的关停,都是这场业务大收缩下的必然牺牲品。 砍掉支线任务之后,OpenAI 目前的核心焦点已经收窄到两块:企业客户和编程。而这背后有一个明确的压力来源:Anthropic。 上个月,OpenAI 产品负责人 Fidji Simo 对全员喊话,说 Anthropic 的成功应该成为 OpenAI 的「警醒」,要把更多资源押注在面向专业工作的产品上。 Simo 同时也宣布,OpenAI 要把包括 Prism 和浏览器 Atlas 在内的多个应用,整合进一个「超级应用」。只是,这样的做法真的能立竿见影吗? Sam Altman,还能坐稳 CEO 吗? 高管的离开只是开胃菜,《华尔街日报》最近发了一篇深度报道,标题非常赤裸地点名奥特曼的「副业」正在模糊 OpenAI 的利益与他个人利益之间的边界。 报道细节密集,每一条单独拎出来都够聊半天。 先说 Helion。这是一家核聚变公司,声称自己的技术接近实现廉价、充裕的能源供给。Altman 从 2014 年就是股东,2021 年往里砸了 3.75 亿美元,那是他当时做过的最大一笔单笔投资,大量身家押在里面。 微软当年也签了协议,承诺从 2028 年开始向 Helion 购买电力。 问题是,Helion 此前承诺第七代机器 Polaris 会在 2024 年实现发电量超过消耗量,然后,deadline 到了,Helion 悄悄宣布没达到,也没说下一个节点是什么。很快,Helion 开始缺钱。 然后奥特曼去找软银了。彼时软银正在跟 OpenAI 谈一笔 400 亿美元的大单,Altman 在这个档口,找到孙正义,希望软银参与 Helion 的融资。 最终这笔 Helion 投资,由孙正义亲自拍板,完全绕过了软银内部的正常投决流程,软银内部员工根本没参与进来,就这样成了。 更离谱的是,奥特曼提议让 OpenAI 直接向 Helion 投资约 5 亿美元,对应估值 350 亿美元,比 Helion 当时的估值足足翻了六倍多。据熟悉公司内部讨论的人士透露,一些 OpenAI 员工避免参与一个专门讨论潜在投资的 Slack 频道,怕留下书面证据,一旦起诉被翻出来说不清。 尽管 OpenAI 最终拒绝了这笔投资,但也还是签了一份采购协议,承诺在 2035 年前从 Helion 购买多达 50 吉瓦的电力,相当于 25 座胡佛水坝的发电量。 Helion 随即把这份协议拿去当融资背书,用来撬动新一轮估值。 没有 OpenAI 入股,Helion 这轮融资的目标已经从 10 亿美元压缩到了 2.5 亿,估值从 350 亿降到 150 亿。Thrive Capital,另一个 OpenAI 的大股东,也是奥特曼的铁杆支持者,将领投这一轮。 奥特曼上个月刚从 Helion 董事会辞职,理由是:「Helion 和 OpenAI 开始大规模合作,我同时坐两边的董事会已经很难了。」 然后是 APPSO 之前报道过的火箭公司 Stoke Space,其目标是挑战马斯克的 SpaceX。奥特曼通过家族办公室 Hydrazine 持有 Stoke 的股份,这层关系此前从未被公开披露过。 去年夏天,奥特曼找到 Stoke,提议 OpenAI 收购或成为 Stoke 的控股股东,同时在太空建数据中心。然而,后续奥特曼转身就在印度的一场活动上说:「在太空建数据中心,这想法很荒谬。」 啊,这。 部分 OpenAI 董事对 Stoke 谈判根本不知情,私下表达过强烈质疑,认为太空数据中心根本不现实。但据知情人士透露,就算奥特曼嘴上说荒谬,相关谈判其实今年仍在推进,他本人依然有兴趣。 还有一家脑机接口公司 Merge Labs,是马斯克的 Neuralink 的竞争对手,也是奥特曼去年参与创办的。今年 1 月,OpenAI 宣布投资 Merge Labs,两家公司将合作开发 AI。奥特曼坐在 Merge Labs 的董事会,但据发言人称没有持股。 一边是 CEO,一边是投资人,一边是合作方。这张关系网,普通人看着都头大,更别说负责审计的董事会。 值得一提的是,奥特曼在 OpenAI 没有直接持股,这是一个可以追溯到 OpenAI 非营利起源的历史遗留问题。他 2024 年的年薪是 6.6 万美元。 在 2023 年美国听证会上,他说:我做这些是因为我热爱它。然后,他把自己持有的大量初创公司股份质押给摩根大通,用这些信用额度继续往外投资。 公开公司 CEO 的身家,通常和公司股价绑定,写在 SEC 文件里,一清二楚。奥特曼的财务状况,几乎完全不透明。没有人能看清楚他的决策,到底是在为 OpenAI 谋利,还是在为自己谋利。 2023 年那次董事会短暂解雇他,原因之一就是:他的个人投资组合根本看不清,利益冲突无从判断。被请回来之后,新一届董事会承诺建立更严格的冲突审查机制,具体政策细节,至今没有公开披露过。 目前,OpenAI 的领导层和最大投资者表示支持奥特曼,认为公司的成功离不开他。但部分 OpenAI 股东已经开始私下讨论:奥特曼是否适合带着公司走完 IPO 这段路。浮出水面的最佳候选人,是现任董事会主席、前 Salesforce 联席 CEO Bret Taylor。 Taylor 本人在一份声明中力表忠心:我何其幸运,每天都能亲眼看到,为什么 Sam 是带领这家公司走向下一篇章最合适的人。 去年 12 月,奥特曼在播客里表示:让我当上市公司 CEO?我一点兴趣没有,零。让 OpenAI 成为上市公司?某种程度上我期待,但同时也会觉得很烦。 现在,高管接连离去,奥特曼也陷入个人利益罗生门。OpenAI 正在用最混乱的方式,奔向它最重要的 IPO 时刻。
龙虾上身Codex
Codex做了一次很大的更新,从一个代码编写工具变成了能操作电脑的助手。 官方用了一句很夸张的话作为宣传:“Codex for (almost) everything.” 简单地说,过去的Codex作为编码工具,边界一直还算清晰:你提出需求,它生成代码。 但这次更新之后,这个边界被狠狠扩展了。 它开始操作你的电脑,使用应用,在不同工具之间来回切换;它可以把任务留到几天之后再继续,也能根据你过去的习惯,给出下一步该做什么的建议。 这些能力拼在一起,让Codex有了龙虾(OpenClaw)的既视感。 它开始“工作”了。 01 从写代码到“动手干活” 这次更新最核心的亮点是,Codex开始直接操作电脑了。 按官方的说法,Codex现在可以通过“看到屏幕、点击鼠标、输入键盘”的方式,直接使用你电脑上的应用。它会用自己的光标,在界面上完成操作,而不是调用API接口。 可以这么理解:过去AI通常依赖API接口来完成工作,一旦遇到没有接口的工具,比如设计软件、本地应用、内部系统等等,它的能力就会受限。 但现在,它可以绕过这些限制,直接在界面上动手。 而且这种操作并不会打断你当前的工作,多个Agent可以在后台并行运行,在不同应用之间切换,用户依然可以正常使用电脑。 这个功能目前在macOS抢先上线,其它系统还需要再等待一段时间。 除此之外,这一版本的Codex开始直接接入网页。 桌面应用内置了浏览器,你可以在页面上圈出某个按钮、某一段区域,甚至直接写下评论,把“位置”本身变成指令,让它据此修改界面、调整逻辑或检查问题。 这个功能对前端设计和游戏开发非常有用,如果原本是用Codex生成的代码,在生成的界面上直接标注就好。 官方文档显示,他们计划随着时间推移扩展这一功能,使Codex能更完整地控制浏览器,不再局限于本地运行的网页应用。 同时还添加了原生的图像生成功能:Codex现在可以使用gpt-image-1.5生成和迭代图像,用于产品设计、界面草图或游戏素材,不需要额外接API。 围绕开发流程本身,这次更新把很多原本分散的环节也补上了,例如可以处理GitHub的评审评论;打开多个终端标签;通过SSH连接远程开发环境;在侧边栏直接预览PDF、表格和文档。 还有一个汇总面板,可以看到当前在做什么、用了哪些信息、产出了什么结果。 这些能力并不完全是从零开始的新功能,只是以前零散存在,现在被放进了Codex的整个开发流程里。 Codex还扩展了插件和工具集成,接入了90多个插件,包括JIRA、GitLab、Microsoft套件等等。 任务开始跨工具流动,而不是停在某一个应用里。你可以一句话让它同时查Slack、Gmail、Notion,再给你一个需要处理的事情列表。 还有一个很关键的升级是,Codex现在可以把任务“留到以后再做”。 它可以复用已有的上下文,在未来某个时间点自动继续执行任务,整个过程可以跨越几天甚至几周。 也就是说,之前已经完成的整理、讨论过的问题,以及还没做完的工作,都不会被丢掉。它们可以被带入下一步,成为后续任务的一部分。 与此同时,记忆能力也开始生效。Codex会记录你的偏好、修改习惯以及已经整理过的信息,让后续任务在不需要反复说明的情况下继续推进,并逐渐贴合你的工作方式。 当它掌握了足够的上下文之后,Codex就可以从不同工具中提取信息,识别出需要处理的评论或任务,整理出一份有优先级的行动建议,告诉你应该从哪里开始继续一个项目。 02 不只是功能升级 上面罗列的很多功能乍一看可能互不搭嘎,但它们指向了同一个变化:工作流。 过去,Codex存在于某一个具体环节里,写代码、改代码、解释代码。你需要在不同工具之间来回切换,把任务拆成一段一段再交给它完成。 但现在这些事情开始连在一起了:它可以在应用里执行操作,在网页中获取信息,在终端里运行命令,再把结果带回到代码里;它也可以把这些步骤延续下去,在几天之后继续推进同一个任务。 可以说,原本分散在不同工具、不同时间里的工作,开始被串成一条连续的流程,被收在了一个系统里。 原生的Mac集成,让Codex可以操作你的电脑,在本地环境中操作应用、协调任务,并在不同工具之间流转信息。 它没有取代原本的应用,但开始在这些应用之间流动,把任务从一个地方带到另一个地方。 这也是为什么有人会认为,Codex正在变成知识工作的”操作系统“。 另外,相比接入更多应用,有人认为记忆能力可能才是这次更新的关键。 因为一旦AI开始理解你的工作方式,并在后续任务中复用这些信息,它会逐渐贴合你的习惯,让你用得越来越顺手。 这确实指向了一个趋势:未来的AI竞争,可能不只是模型能力本身,还是谁能更深入地嵌入你的工作流程,并持续理解你是如何完成工作的。 03 “超级应用” 说到深入工作流的能力,很多人可能会觉得和OpenClaw很相似,两者的方向确实一致,都是让AI去完成任务,而不是只回答问题。 不同的地方在于,OpenClaw更偏“调用工具”,通过接口把流程串起来;而Codex这次更新把AI放进了系统内部,让它直接操作应用。 所以会说它是“龙虾”上身——把这套逻辑并入系统里,可不是上身么。 这种相似或许和Peter Steinberger(OpenClaw创始人)加入OpenAI有点关系,不过更可能的情况是OpenAI本身就想做生态整合,做一个能搞定所有事情的“超级应用”(super app)。 据OpenAI官方统计,Codex现在每周有超过300万用户,其中有近一半的使用是非编码任务。它的使用场景已经不再局限于代码,这次的更新可能就是OpenAI想做“超级应用”的第一步。 从上线节奏来看,这次更新也在分阶段推进:桌面控制的功能目前只在macOS上推出;记忆和上下文感知建议的功能先开放给美国用户,欧盟、英国、教育版、企业版稍后。 能力还在铺开,但方向已经很明确了:Codex正在从一个写代码的工具,变成一个可以跨应用、跨时间持续完成任务的系统。 这条路也不只是OpenAI在走,几乎是同一时间,Perplexity AI也发布了名为“Personal Computer”的Mac桌面应用,同样在尝试把本地文件、原生应用和浏览器操作整合在一起,让AI可以在一个统一环境中执行任务。顺便一提,最近更新的Claude Opus 4.7已成为Personal Computer的默认协作(orchestration)模型。 而Anthropic,他们的产品本身已经具备较强的Agent能力,可以调用工具、执行多步任务,但更多集中在开发环境和工具调用层面,暂时还没有形成一个直接操作桌面应用的统一系统。 国内的趋势也大致相同:几乎所有大厂都在布局类似OpenClaw的Agent体系,同时也开始尝试让AI直接操作本地环境、执行任务。 说白了,目标都是让AI不再停留在对话里,能够进入实际的工作环境。 从聊天到写代码,到操作应用,再到跨时间推进工作,当AI开始“动手”,工作方式就发生了变化。 “龙虾”上身的Codex,只是其中一步。
硅谷AI睡眠科技公司Eight Sleep宣布进入中国市场
凤凰网科技讯 4月18日,美国AI睡眠科技公司Eight Sleep正式宣布进入中国大陆及香港市场。该公司成立于2014年,估值15亿美元,累计融资超2.5亿美元,产品此前已覆盖35个以上国家和地区。 Eight Sleep的核心产品名为Pod智能深眠系统,是一层覆盖在现有床垫上的智能温控床套。该产品通过非穿戴方式实时监测心率、心率变异性、呼吸频率及睡眠阶段等指标,并利用水循环系统调节床面温度,支持双人分区独立控温。 据公司披露,其AI算法Autopilot基于超过10亿小时的用户睡眠数据进行训练,在整夜睡眠过程中自动调整温度曲线,匹配人体不同睡眠阶段的体温需求。临床数据显示,Eight Sleep用户的深睡时长提升最高可达34%,入睡用时最高缩短44%,打鼾最高减少45%,夜醒次数最高减少23%。 公开信息显示,特斯拉CEO埃隆·马斯克、Meta CEO马克·扎克伯格、生物黑客布莱恩·约翰逊以及F1车手夏尔·勒克莱尔等人均使用过该产品。Eight Sleep同时也是阿斯顿·马丁F1车队及IRONMAN欧洲赛事的官方合作伙伴。 在中国市场,Eight Sleep推出Pod 5智能深眠系统,提供1.5×2.0m、1.8×2.0m、2.0×2.0m三种尺寸,起售价为19,999元。用户可通过Eight Sleep微信小程序、京东、天猫等渠道购买,中文App已同步上线。该公司在全球采用“硬件+订阅”模式,但在中国市场,用户可免费获赠Autopilot标准版订阅服务(原价199美元/年),也可选择升级至专业版,年费2000元人民币。 Eight Sleep联合创始人兼CTO Massimo Andreasi Bassi于4月18日在深圳举行的发布会上表示,进入中国是公司的重要节点。据中国睡眠研究会数据,中国有超过3亿人受到睡眠障碍困扰,全国平均夜间睡眠时长为6.97小时。
Claude Design暴击设计行业!Figma、Adobe市值闪崩
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI Claude再次暴击一个行业! 视觉设计工具Claude Design发布,Adobe、Figma、Wix市值闪崩融化。 自动播放 这是Anthropic Labs首个实验性产品,一个AI原生的视觉设计协作平台,由刚刚发布的旗舰模型Claude Opus 4.7驱动。 这是AI大模型公司,向现有设计软件巨头发起的直接挑战。 自动播放 三大杀手锏,Adobe当场跳水 Claude Design到底是什么? 界面看起来很简洁,就是传统设计软件+一个AI聊天侧边栏。 设计师不用原有的改变习惯,对于每个组件,也有细粒度的手动调整面板。 还可以像和人类协作时一样,在需要改动的组件上留一句评论,AI就会自动照着改动。 工作流程到这里已经清晰了:描述需求→AI生成初稿→对话/评论迭代→导出交付。 真正让传统软件颤抖的,是三个杀手级功能。 第一个:它比你更懂你的品牌。 Claude Design能直接读取你公司的代码库和设计文件,自动提取品牌色、字体、组件模式,建立一套专属的设计系统。之后所有生成的设计,都会自动遵循这套规范。 换句话说,实习生可能要花三个月才能摸清公司的设计规范,Claude Design只需要扫一眼你的代码库。 第二个:什么都能当输入。 你可以丢给它Word文档、PPT、Excel表格、竞品截图、代码仓库链接,甚至直接用内置工具抓取网页元素。这些杂乱的信息,它全都能理解,全都能用来生成设计。 设计师最头疼的”需求文档看不懂”问题,在这里根本不存在。 第三个:设计完直接变代码。 设计稿做完了,一键打包成handoff bundle(交接包),直接送到Claude Code实现。从设计到可运行的代码,中间没有任何人工环节。 真正成为一条从想法到产品的自动化流水线。 如果说Figma是“协作画布”,Canva是“模板工厂”,而Claude Design直接成为从想法到产品的AI流水线。 功能听起来很美,但实际用起来如何? 一周的活儿,一次对话干完了 有网友只用一句话提示,生成了完整的3D低多边形风格的Flappy Bird。 Please code up a 3d flappy bird in html css js and run it in artiacts. 自动播放 说实话写游戏代码这个活,以前Claude Code也能干,但要视觉和动画表现上达到这个效果,就需要人工介入了。 现在加上Claude Design,直接一次性全自动完成。 生成复杂的仪表盘界面,也不在话下 但毕竟刚发布几小时,真正深度使用了的是早期测试用户,他们给出的数据比想象中更夸张。 Brilliant的一位资深产品设计师分享了他的体验:一个复杂的产品页面,在其他AI设计工具里需要反复调试20多次提示词才能完成。 在Claude Design里?2次。 Datadog的产品团队过去从需求简报到设计模型到评审通过,整个流程要折腾一周。现在压缩到了一次对话。 Claude Design的目标用户不只是设计师。 产品经理可以直接把想法画出来,不用等设计师排期。 创始人可以在融资前一天晚上自己搞定pitch deck。 市场人员可以产出专业级的落地页,不用走繁琐的设计需求流程。 只要会打字,就能产出高质量的视觉作品。 那么设计师该担心失业吗? Anthropic官方公告里,还是很客气的,把自己的产品定位成增强设计师的工具,而不是替代。 即使是经验丰富的设计师也必须节制探索——很少有时间去原型十几个方向,所以你只能限制自己做几个。 Claude Design初衷本来是要这个问题。 但无奈解决方式太狠了。 “摧毁设计行业”的言论已经在社交媒体上刷屏。 资本市场的反应比任何评论都更诚实:股价下跌说明投资者认为,传统设计软件的护城河正在被瓦解。 Figma的协作生态、Adobe的专业工具链,这些曾经不可逾越的优势,在“不需要学习曲线”的AI面前,突然显得不那么牢固了。 但设计师真的会失业吗? 更普遍的观点是:AI会接管重复劳动(确保品牌一致性、生成多种变体),但设计师可以专注于战略思考和创意方向。 就像AI编程时代,软件工程师专注于架构和管理协调多智能体工作流。 也许很快,就会出现设计领域的“Harness Designing”。
爆料称三星为二代三折叠开发全新铰链,其他折叠屏手机也会用
据海外消息人士@yeux1122 爆料,三星正在“从零开始研发”一种新型铰链。这款铰链将注重轻薄设计,因为它将要用于二代三折叠手机中,所以会对现有铰链的方案、用料进行全面复盘,找到能进一步降低厚度的方法。 三星三折叠的铰链据说已经非常坚固耐用,但目前用户拿到手机也才过了几个月,还不能说已经经受了时间的检验。而且正因为它限量发售,其中势必会有不太成熟的地方,这并不是指的铰链技术,也有可能在其他领域,所以注定了这款手机只是个“试验品”。 作为参考,目前三星三折叠展开时的厚度范围在3.9~4.2mm,折叠时的厚度为12.9mm。总体上都比华为的三折叠厚,但还是比大部分大折叠手机薄。 据悉,这个新研发的铰链不只会用于三折叠,后续很可能也会用到三星Z Fold 8、Z Flip8,以及今年要推出的阔折叠Fold Wide手机上,这让二代三折叠大规模量产的可能性又增加了一些。 早期的三星折叠屏手机 众所周知,铰链在折叠屏手机里面的地位非常重要。早期的铰链技术只能做到U型,手机折叠后的厚度降不下来,中间还留有空隙,而且折痕问题也很突出,这便衍生出了当下主流的水滴形铰链。 水滴形铰链可以让折叠后几乎无缝隙,手机折叠后的厚度便随之下降,折痕问题也得到了进一步解决,但目前的技术还没法做到完全消灭折痕。目前,折叠屏的铰链在厚度、材料、结构方面都在突破,今年要推出的折叠屏iPhone据说已经找到了解决折痕的办法,可以拭目以待。
20人,4个月,干出270亿独角兽
编译 | ZeR0 编辑 | 漠影 智东西4月18日消息,据英国《金融时报》今日报道,一家由谷歌DeepMind和OpenAI的前工程师创立的AI初创公司Recursive Superintelligence成立仅4个月,已融资至少5亿美元(约合人民币34亿元)。 这家创企在打造一种可以自我学习的新型AI。据知情人士透露,在由谷歌风投机构GV领投,芯片制造商英伟达参投的融资轮中,Recursive的估值达到40亿美元(约合人民币273亿元,不包括新注资)。 知情人士称,在获得5亿美元的初始投资后,该轮融资认购踊跃,Recursive最终可能融资多达10亿美元(约合人民币68亿元)。 Recursive的创始人包括前Salesforce.com首席科学家Richard Socher、伦敦大学学院AI教授Tim Rocktäschel。Tim Rocktäschel还曾是Google DeepMind的首席科学家和开放性团队负责人,参与了Genie交互式世界模型等项目。 目前Recursive约有20名员工,包括前OpenAI研究员Josh Tobin、Jeff Clune和Tim Shi,以及来自谷歌和Meta的其他人士。 据知情人士透露,Recursive最终希望打造一个无需人工干预即可持续自我改进的AI系统。该概念目前仍处于研究阶段,尚未被证实能够长期有效运行。 追踪风险投资交易的Crunchbase数据显示,受 OpenAI、Anthropic、xAI和Waymo等公司的大笔交易推动,2026年第一季度初创企业投资额达到前所未有的3000亿美元(约合人民币2万亿元),远远超过以往任何季度的总额。
π0.7发布,机器人迎来GPT-2时刻
编译 | 高远瞩 编辑 | 漠影 智东西4月17日报道,一个成立仅两年的机器人初创公司Physical Intelligence,刚刚拿出了让整个湾区AI圈为之震动的新成果。其最新发布的机器人基础模型π0.7,能够让机器人执行从未被明确训练过的任务:从使用空气炸锅烹饪红薯,到在一台从未见过任何衣物折叠数据的工业机器人上成功叠好T恤。 更令人惊讶的是,这些能力并非刻意设计,而是在训练过程中“涌现”出来的。 “我的经验一直是,当我深入了解数据中的内容时,我基本上可以猜出模型能做什么。我很少感到惊讶。但过去几个月是我第一次真正感到惊讶。”Physical Intelligence研究科学家Ashwin Balakrishna在论文发布后坦言。 他随机买了一个齿轮组,问机器人“你能转动这个齿轮吗?”结果机器人真的做到了。这种超越死记硬背、能够组合技能解决新问题的能力,在机器人领域尚属首次。 π0.7的出现,可能预示着机器人AI正接近类似大语言模型领域的“GPT-2时刻”,其能力开始以超出基础数据预期的方式增长。 一、零基础上手空气炸锅:只见过两个相关片段,却能学会使用 论文中最具冲击力的发现,来自于π0.7对空气炸锅的使用。 当研究者要求它“用空气炸锅烹饪一个红薯”时,它完成了部分任务,比如打开炸篮、尝试放入红薯,但未能完全成功。这已经足够令人惊讶,因为模型从未见过完整的“拿起红薯-打开炸篮-放入-关闭-启动”这一链条。 更令人振奋的是,当研究者采用“语言指导”的方式,像向新员工解释事情一样,逐步给出指令:“打开空气炸锅”“拿起红薯”“把红薯放进炸篮”“关闭空气炸锅”……π0.7能够精准地跟随这些实时指令,成功完成整个任务。 Physical Intelligence研究员、斯坦福大学计算机科学博士生Lucy Shi透露,早期的一个空气炸锅实验成功率只有5%,但在花了大约半小时优化提示工程(prompt engineering)后,成功率跃升至95%。“有时失败模式不在机器人或模型上,”她说,“而在于我们不擅长提示工程。” 这一现象让人不禁联想到大语言模型的“涌现”能力:就像GPT-2能写出关于“安第斯山脉独角兽”的奇怪故事一样,π0.7也能将从未一起出现过的技能重新组合。 Physical Intelligence联合创始人、UC Berkeley教授Sergey Levine评价道:“它到底从哪里学会空气炸锅是什么?这很难追溯。但看到机器人领域出现这种情况,真的很特别。” 人类用逐步指令“教”机器人使用空气炸锅的过程 二、跨具身迁移:让笨重的工业臂学会叠衣服,性能媲美人类专家 如果说空气炸锅案例展示了π0.7能组合不同技能,解决从未见过的任务,那么跨具身迁移(cross-embodiment transfer)实验则展示了它在物理形态层面的迁移能力。 研究者决定在一个完全不同的机器人上测试π0.7:双臂UR5e系统。这是两台UR5e工业级机械臂,带有Robotiq平行夹爪。它们的手臂更长、更重,惯性大,夹爪也不够精确,远程操作本身就很困难。关键是,研究者从未用这个平台收集过任何衣物折叠的数据。也就是说,对于UR5e来说,折叠T恤是一个“零样本”(zero-shot)任务。 结果令所有人震惊:π0.7不仅成功地在UR5e上折叠了T恤和毛巾,而且其任务进度达到了85.6%,成功率达到了80%。 为了给这个数字提供参照,研究团队进行了一项人类受试者研究:招募了10名平均拥有375小时远程操作经验的顶级操作员(均处于公司操作员经验排名的前2%),让他们在UR5e上“零样本”尝试折叠T恤。这些操作员虽然熟悉源机器人,但从未在UR5e上做过这个任务。结果显示,人类操作员的平均任务进度为90.9%,成功率为80.6%。π0.7的表现几乎与这些专家持平。 并且,π0.7在UR5e上采用的折叠策略与源机器人完全不同。在源机器人上,人类操作员通常以倾斜的末端执行器接近布料,先压住织物再提起;而在UR5e上,π0.7自发地采用垂直抓取,这是更适合长臂、高惯性机器人的策略。 模型没有盲目模仿训练数据中的动作,而是根据目标具身的物理特性调整了自己的行为。这正是跨具身迁移的本质:不是复制运动轨迹,而是理解任务目标并找到适合当前身体的新解法。 跨具身迁移结果:左侧对比π0.5、π0.6、π0.7在多个跨具身任务上的成功率,右侧展示UR5e折叠衣物的任务进度和人类对比 展示策略自适应变化(倾斜抓取 vs 垂直抓取) 三、开箱即用:从削蔬菜皮到组装盒子,全面对标专用模型 除了空气炸锅和跨具身折叠,π0.7在常规的灵巧操作任务上也交出了一份亮眼的成绩单。 Physical Intelligence将π0.7与之前通过强化学习微调的专用模型π0.6*进行了系统比较。任务包括:制作浓缩咖啡(多步骤:磨粉、压粉、扣入手柄、萃取)、组装盒子(将平板纸盒折叠成立体盒子)、折叠T恤和短裤、削蔬菜皮(西葫芦、黄瓜、胡萝卜)、更换垃圾袋、切西葫芦、做花生酱三明治等。 结果显示,π0.7在所有任务上都达到了与专用模型相当甚至更高的性能。 例如,在衣物折叠任务中,π0.7的吞吐量(每小时成功次数)甚至超过了RL专家模型。在需要记忆的任务中,π0.7也不需要任何微调,开箱即用就达到了与专用记忆模型(π0.6-MEM)相似的水平,比如“找到藏在抽屉里的物体”或“交换三个杯子的位置”。 在指令遵循方面,π0.7同样大幅超越了前代模型π0.5和π0.6。 研究者在4个未见厨房和2个未见卧室中设计了14个指令遵循场景,每个场景需要机器人执行3-6步开放式指令,π0.7的整体指令遵循成功率显著高于前代。 更令人印象深刻的是,π0.7能够处理“分布外”的复杂指代指令,例如“拿起我会用来喝汤的物体”或“拿起最大盘子上的水果”。当结合子目标图像(GC模式)时,性能进一步提升。 此外,π0.7还能打破数据集的偏见:在“反向清理”任务中,数据中通常是“垃圾扔垃圾桶、盘子放餐盘回收箱”,但π0.7能够遵循指令将垃圾放入餐盘回收箱、盘子放入垃圾桶。在“反向冰箱到微波炉”任务中,数据只有“冰箱→微波炉”,π0.7却能从微波炉取出食物放回冰箱,这极大依赖子目标图像提供的视觉引导。 指令遵循成功率 四、π0.7的技术核心:5B参数、异构数据与跨任务泛化 π0.7模型架构概览: π0.7是一个参数量约50亿(5B)的视觉-语言-动作模型(VLA),其核心组件包括: 1、视觉-语言骨干网络:基于Gemma3 4B模型(含4亿参数的视觉编码器),负责处理多视角图像、语言指令和机器人本体感知信息。 2、动作专家模块:一个8.6亿参数的Transformer,采用流匹配(Flow Matching)目标生成连续动作,输出长度为50步的动作块(action chunk)。 3、记忆机制:沿用MEM(多尺度具身记忆,Multi-scale Embodied Memory)架构,对历史观测进行时空压缩,使模型能处理变长的历史帧。 4、多模态上下文:训练时模型接受四种额外提示——子任务语言指令、子目标图像(subgoal image)、片段元数据(episode metadata)和控制模式(关节空间或末端执行器控制)。训练时每种提示会随机丢弃一部分,使模型在推理时能灵活组合使用。 π0.7模型架构图 π0.7训练数据特点: π0.7使用了大规模异构数据,包括多种机器人平台的演示数据、自主策略评估产生的成功与失败数据、人类远程操作干预数据、第一人称人类视频,以及互联网上的非机器人数据(如图像问答、视频字幕等)。 训练时,模型还接受四种额外提示作为数据上下文:子任务语言指令、子目标图像(subgoal image)、片段元数据(episode metadata)和控制模式(关节空间或末端执行器控制)。每种提示在训练中会随机丢弃一部分,使模型在推理时能灵活组合使用。 模型通过元数据标注区分不同质量的数据,从而能从次优数据中学习而不损害性能。这些元数据包括:整体速度(以500步为一档,如1750-2250步标为“2000步”)、整体质量(1-5分)、错误标签(是否犯错)和控制模式。 训练中团队还采用了“知识绝缘”技术(KI),让语言骨干网络的梯度与动作模块隔离,避免动作预测干扰预训练的视觉语言特征,从而更稳定地学习多模态上下文。 通过这种设计,π0.7学会了根据提示中的“质量=5”“错误=false”“速度=8000”等条件,输出高质量、快速、无错误的动作。而训练数据中的次优片段则提供了丰富的“负面样本”和状态多样性,增强了模型的鲁棒性(Robustness)。 开箱即用性能对比: 展示π0.7与π0.6*专家模型在浓缩咖啡、盒子搭建、衣物折叠等任务上的成功率和吞吐量对比 元数据消融实验结果 五、能力突破拐点已至,三大局限仍待突破 尽管π0.7取得了令人瞩目的成果,但研究团队并没有回避其局限性。 首先,π0.7目前还无法仅凭一个高层次的指令自主执行复杂的多步骤任务。 “你不能告诉它,‘嘿,去给我烤些面包片’,”Sergey Levine坦言。“但如果你逐步引导它——‘对于烤面包机,打开这个部分,按下那个按钮,这样做’——那么它实际上往往能做得很好。”也就是说,对于长时程、多阶段的新任务,仍然需要人类通过语言进行“指导”或训练一个高层策略来分解子任务。 其次,机器人领域缺乏标准化的基准测试,这使得外部验证变得困难。 Physical Intelligence主要依靠与自家前代模型的对比,以及内部设计的一系列评分规则(如削蔬菜皮的完成百分比、折叠衣物的质量评分)。不同实验室之间的任务和环境差异很大,难以直接比较。 第三,也是根本性的问题:语言模型有整个互联网可以学习,而机器人没有。 尽管π0.7也使用了网络预训练、人类视频等数据,但物理世界的交互数据仍然稀缺且昂贵。研究者承认,对于某些任务,零样本泛化的成功率(60-80%)仍然低于分布内任务(超过90%)。未来需要更高效的数据利用方法,例如利用π0.7本身的可引导性进行自主强化学习。 此外,由于训练数据集规模巨大且内容庞杂,研究者往往难以确切知道某个能力究竟来自哪个具体片段。例如,空气炸锅的知识可能来自那两个片段,也可能来自网络上无数张厨房图片的预训练。这种“黑箱”特性与大型语言模型如出一辙,但也意味着真正的组合泛化(compositional generalization)正在发生:模型不是在检索记忆,而是在重新混合。 Levine回忆起当年GPT-2生成“安第斯山脉独角兽”故事时的震撼:“它到底从哪里学到秘鲁的独角兽?那是非常奇怪的组合。现在在机器人领域看到这种情况,真的很特别。” 批评者可能会指出,机器人演示的任务看起来不如“后空翻”那样酷炫。但Levine反驳说,泛化本身看起来总是不如精心编排的特技表演那么戏剧化——但它要有用得多。 数据扩展性曲线:左图显示有元数据时,即使在数据质量下降的情况下,π0.7的性能仍能随数据量增加而持续提升;右图显示高任务多样性数据对泛化性能的关键贡献 结语:组合泛化实现突破,通用机器人“大脑”将至 π0.7的发布,标志着机器人基础模型从“死记硬背”走向“组合泛化”的初步突破。它能够在零样本下完成空气炸锅烹饪、跨具身折叠衣物等从未见过的任务,性能媲美人类专家和RL微调专用模型。这背后是多样化上下文提示、元数据条件化(conditioning on metadata)和超大规模异构数据训练的共同作用。 如今,物理智能的“GPT时刻”似乎也在悄然临近。Physical Intelligence已融资超10亿美元,最新估值达56亿美元,并正洽谈新一轮可能将其推至110亿美元的融资。 当然,也有人对此持保留态度,认为π0.7的跨具身能力目前仅限于夹爪操作,尚未涉及更复杂的全身控制,但这类质疑并未掩盖多数人对该方向的乐观预期。 尽管其仍有诸多限制:无法自主完成长链条任务、缺乏标准化评测、数据依赖性依然存在……但他们的研究成果已经向世界证明:一个可引导、可教会、可迁移的通用机器人“大脑”,不再是科幻。
奥尔特曼旗下公司推出Concert Kit,可遏制演唱会黄牛问题
IT之家 4 月 18 日消息,科技媒体 TechCrunch 今天(4 月 18 日)发布博文,报道称 OpenAI 首席执行官山姆 · 奥尔特曼(Sam Altman)旗下的身份验证公司 Tools for Humanity 发布 Concert Kit 工具,利用眼球扫描 Orb 设备创建“人类证明”系统。 Tools for Humanity 为应对深度伪造和机器人冒充人类的行业挑战,升级 World ID 项目,定位为“全栈人类证明”基础设施。此次架构重构聚焦隐私、安全与易用性提升,新增账户身份体系、多重密钥支持及恢复机制,具备大规模安全系统特性。 Tools for Humanity 公司的 Orb 虹膜工具 高管 Daniel Shorr 表示,在 AI 时代,人类身份将极具价值,互联网需确认用户真实身份。项目同步推出 World ID 应用测试版,用户可跨平台管理凭证,让人类验证如社交账号登录般便捷。 IT之家注:World ID 项目为用户生成去中心化数字身份标识,用户通过 Orb 扫描虹膜后,系统生成唯一的加密密钥作为 World ID,用于在不同平台证明其“真实人类”身份。 该系统通过扫描用户眼球和面部,在移动设备上生成“人类证明”签名,被首席产品官 Tiago Sada 称为“互联网上的人类护照”,用户无需透露个人信息即可证明真实身份。 在场景落地方面,该公司主要针对票务领域推出 Concert Kit,支持艺人为已验证用户预留专属票池,支持 Ticketmaster、Eventbrite 和 AXS 等主流平台。由于 World ID 仅限真人使用,系统理论上可抵御机器人批量抢票。 除票务外,World ID 正加速拓展应用边界。Tinder 从日本测试扩展至全球推广,为用户添加真人验证徽章;Zoom 和 DocuSign 集成该系统,帮助企业识别视频会议和文件签署中的深度伪造。
三星停止生产LPDDR4!高通、联发科措手不及:手机又要涨价
快科技4月18日消息,据报道,三星电子已正式停止接收LPDDR4和LPDDR4X移动DRAM的新增订单,标志着这两款量产逾十年的主流内存产品进入EOL(生命周期终结)阶段。 三星近期已接受最后一批订单,后续将仅履行此前已预订的出货量,生产预计延续至今年年底,产线转换工作则将于明年第一季度展开。 此次停产将直接影响三星自身移动业务部门MX及高通等芯片客户,两者目前仍在部分芯片中使用LPDDR4/4X。 高通和联发科等公司需要调整其长期计划,而搭载LPDDR5内存的新款智能手机速度会更快但价格也会更高。 部分芯片厂商已开始调整设计方向,车载芯片厂商Telechips今年已将支持规格从LPDDR4/4X切换至LPDDR5/LPDDR5X。 三星、SK海力士、美光三大存储厂商将大部分先进产能转向利润更高的HBM,导致手机等消费电子使用的通用DRAM产能被系统性压缩。 三星LPDDR4X内存报价从2025年3月的6美元/颗飙升至2026年1月的28.5美元/颗,不到一年涨幅近4倍。 涨价已直接传导至消费端,OPPO、vivo、小米、荣耀等主流品牌相继上调部分机型售价,中端机型普遍涨价300至500元。 此外,苹果被曝正以高价扫货移动DRAM,直接导致联发科、高通被迫削减约2万至3万片4纳米晶圆投片量,进一步加剧了安卓阵营的供应压力。
手机市场洗牌:华为苹果笑看涨价,小米跌出前五
文 | 定焦One,作者 | 金玙璠,编辑 | 魏佳 最近,打算换手机的人可能发现:手机变贵了。 这不只是因为厂商“想多赚一点”,而是存储涨价带来的成本压力,直接把市场座次搅乱了。 4月中旬,Omdia和IDC先后发布了2026年第一季度中国智能手机市场报告:华为稳居第一,苹果第二,OPPO和vivo分列三四名。 分歧出在第五名。Omdia显示小米以870万台出货量位列第五;IDC则将荣耀排在第五,出货890万台,小米直接跌出前五。两家机构的排名差异此前也出现过,尽管统计口径略有差异,但两份报告都显示:在头部厂商中,小米是本季度同比跌幅最大的一家。 时间拉回一年前,2025年第一季度,小米以1330万台的出货量,时隔十年重返国内市场第一。雷军连发多条微博感谢。一年过去,格局改写:华为、苹果份额上涨,小米大幅回落。 全球市场同样在洗牌。IDC数据显示,2026年第一季度全球智能手机出货2.897亿部,同比下滑4.1%,这是自2023年年中以来全球大盘首次下跌。三星重回全球第一(6280万台);苹果第二(6110万台),小米保住了第三的位置(3380万台),但它19.1%的同比跌幅也是全球前五中最大的。OPPO和vivo分列四、五名。 搅动全局的变量是存储芯片。第一季度,DRAM(手机运行内存)合约价上涨九成,NAND Flash(手机存储空间)也涨了五六成。存储在手机物料成本中本就占比不低,面对这么大的涨幅,每一家厂商都得应对。 谁有能力消化成本、谁被迫减量、谁把资源压在海外,这些因素决定着2026年的市场走向。 01. 华为苹果笑看涨价,小米主动“砍量” 面对存储涨价,手机厂商的应对方式无非三种:跟着涨价、自己扛下来、减少出货先保利润。 2026年一季度,华为和苹果坚持不涨价,小米主动砍量,OPPO和vivo选择了折中方案。 先看不涨反降派。 华为一季度在中国市场出货1390万台,同比增长7%。Mate 80系列和nova 15系列和上一代同价,其中,Mate 80系列标准版起售价(4699元)甚至低于前代Mate 70系列(5499元)。 在友商不得不涨价的情况下,华为吸引了那些对价格敏感、但又希望购买中高端机型的消费者。一位从事渠道调研的从业者表示,Mate 80系列自2025年底以来一直热销,华为门店一季度的补货节奏明显快于友商。 苹果不但维持原价,还变相“降价”了,靠的是全系高端的产品结构加上供应链议价权。 这一季,苹果在中国市场出货1310万台,在前五大厂商中增速(同比增长42%)最快,与华为的差距缩小到只有80万台。 增长主力还是iPhone 17系列。Omdia首席分析师侯林此前点评过这款产品:iPhone 17维持前代起售价,存储和屏幕规格做了升级,基础版在产品组合中的贡献超越历代产品。 图源 / 苹果官网截图 另一个推动因素是国补+优惠:iPhone 17基础款的定价(起售价为5999元)卡在国补覆盖范围内,苹果渠道官方店同时为Pro和Pro Max机型提供300元优惠,直接降低了各价位段机型的购买门槛,刺激了换机需求。 除了华为和苹果,剩下的玩家都在“弃走量、保利润”,只是程度不同。 小米是调整最激进、出货收缩最明显的一家。Omdia数据显示,小米2026年一季度在中国市场出货870万台,同比跌35%。IDC数据显示小米掉出前五。 它的动作主要体现在两方面:一是将原本计划于2026年一季度发布的小米17 Ultra,提前到了2025年12月,目的是提前锁定更高利润的销售额,为一季度主动收缩留出空间; 二是压缩Redmi中低端出货节奏,4月11日起上调了部分机型售价。一位曾做小米渠道的经销商表示,在调价前,小米就通过控货减少亏损机型出货了。此前Redmi Note 15系列Pro/Pro +版本涨价就已经能看出小米中低端产品线的利润压力了。 OPPO和vivo属于折中派,不全面涨价也不大幅砍量,主要通过产品结构调整对冲成本,代价是出货小幅下滑。 OPPO 2026年一季度国内出货1100万台,同比下滑3%。这是realme正式并入OPPO集团统计口径后的第一个季度。它的策略是分线涨价,今年3月,明确对入门A系列、中端K系列及一加全系涨价200-500元,高端Find系列、中高端Reno系列则保持原价。 vivo同期国内出货1050万台,同比基本持平。策略与OPPO类似,但执行得更保守:只是中低端机型小幅涨价或降配保价,高端X300系列维持定价。之所以如此,一部分原因是高端化有一定起色。IDC报告提到,vivo因为X300系列和iQOO 15系列,在600美元以上高端市场稳居国产前三。高端利润为中低端的成本波动留出了一定的缓冲空间。 02. 米OV、荣耀、传音,都去海外淘金 国内市场已经是高度存量博弈,2026年一季度头部六家厂商合计吃下94%的份额。 卷不动国内,自然得往外看。Omdia数据显示,2025年全球智能手机出货12.5亿台,中国市场2.82亿台,占比22%。也就是说,全球78%的出货量在中国以外。 但海外战场同样不容乐观。2026年一季度,全球出货量前五的中国品牌集体承压。IDC数据显示,小米、OPPO、vivo全线下滑,三家合计减少出货近1300万台。 小米跌幅(同比下降19.1%)最大,但还是守住了全球第三的位置。IDC指出,小米“战略性地减少了旧款机型的出货,以避免大幅涨价”。这与它国内“利润优先于销量”的策略一致。 不过,分区域来看,小米在多个市场承压:其中,欧洲守住份额但增长乏力,印度市场退出,东南亚依靠POCO支撑。小米全球化最大的亮点是,它仍是中国厂商中在欧洲最具规模的玩家,2025年当地出货2180万台,排名第三。 OPPO全球份额下降9.9%,国内基本面稳住了,主要是国际市场拖了后腿。核心原因是,OPPO与realme海外走量机型集中在200美元(约1300-1400元人民币)以下,受存储涨价的影响大,而新兴市场的消费者又对价格最敏感,涨价直接影响销量。 不过,整合realme这笔账,不能只看当季表现。OPPO将其纳入体系,本质是行业寒冬下的抱团取暖,三大品牌(OPPO、一加、realme)整体采购规模更大,对上游存储厂商议价能力更强;同时,也能重新梳理三个品牌在2000-3000元价位段的重叠竞争,把资源集中到核心战场。 vivo全球跌幅6.8%,在三个中国品牌中最小。原因是它的出货市场高度集中,中国、印度、东南亚三大市场占了其全球90%以上的销量。 风险也同样明显:当中国和印度两个主要市场都承压时,vivo短期内没有其他市场可以分担风险。Omdia2025年数据显示,vivo在欧洲、拉美、中东、非洲均未进入前五。能否突破“亚太依赖”,关键看巴西、欧洲等新市场后续的表现。 在这三家之外,还有两家中国厂商值得关注。 荣耀是本季全球增速最高的头部厂商。IDC在2026一季度报告里提到,荣耀的同比增幅达到24%,在全球前十大厂商中最高。 荣耀的打法很有差异化:不在国内存量市场纠缠,把资源重点往海外铺;不靠性价比抢海外市场,主打300-499美元中高端价位。2025年,荣耀在拉美、中东、非洲这三个市场均排名第四。 传音本季依然没有进入全球前五,其2025年的出货量同比下降了8%(Omdia数据)。这个“非洲机王”的腹地被继续蚕食:2025年四季度,其非洲市场增速仅3%,而三星、荣耀同期分别增长27%、88%。在供应链冲击与竞争加剧下,Omdia预计其2026年非洲市场将下滑23%。 需要补充的是,华为海外仍处于恢复期。2025年全球排名大约在第七(Omdia数据),短期内海外并非其主战场。 03. 三大门槛分胜负:成本账、供应链和品牌力 一个值得关注的信号是:2026年一季度,华为和苹果在中国市场合计拿下39%的份额。这是华为受制裁以来的最高点。 成本普涨之下,行业份额为什么反而加速向头部集中?核心原因是成本结构。行业测算显示,200美元以下低端机,存储成本占BOM超过30%;800美元(约人民币5700元)以上高端机,这一比例不到10%。 这意味着,同样面对DRAM上涨90%,低端机要维持原来的利润,零售价得涨40%到50%;高端机只需涨5%到8%,甚至厂商自己就能消化。存储涨价对不同价位段的冲击,不是一个量级。 苹果产品以800美元以上价位为主,华为在中国市场的ASP(平均售价)超过4000元,两家均以高端为主,成本冲击极小,定价空间充足。 值得一提的是,IDC数据显示,华为定价在万元以上的Pura X,一季度出货突破150万台。“华为折叠屏的出货量超过了其他三个厂商折叠机的总和”,上述从事渠道调研的从业者表示。高毛利折叠屏的放量,是华为抗住存储成本压力的原因之一。 vivo和OPPO处于中间梯队,主要依靠高端产品线的利润补贴中低端的压力。 小米的出货基本盘主要集中在200美元以下,上述曾做小米渠道的经销商表示,其主力机型利润空间薄,难以消化成本上涨,于是主动收缩中低端出货、聚焦高端来保利润。 传音的处境更被动,全球81%的出货量集中在200美元以下,成为本轮存储涨价冲击中最弱势的玩家。 价位段之外,采购成本与拿货能力的不平等,进一步放大了厂商之间的差距。 全球存储市场由三星、SK海力士、美光三家主导。有供应链人士告诉「定焦One」,大客户有长期锁价合约,小客户在现货市场随行就市,而现货市场的涨幅,比合约价大得多。 三星手机可使用自家存储,在成本上有天然优势。上述供应链人士称,“苹果是全球采购量最大的终端客户,长期合约覆盖大部分采购,对现货市场波动的敏感度本来就低。” 华为的情况有些特殊,国产化供应链(长江存储、合肥长鑫)帮它避开了国际现货市场的直接冲击。 小米、OPPO、vivo的供应链地位接近,高端机用的LPDDR5供应相对充足,但中低端大量依赖的LPDDR4X,正是本轮最紧缺、涨价最猛的型号。 Omdia在报告里总结:“规模较小的、与供应商长期合作关系有限的、LPDDR4/4X需求较高的、以及低端机型占比较大的厂商,将面临更大风险。” 价位段结构和供应链位次,决定了小米受影响最大,OPPO、vivo其次。 在这两个因素之外,品牌力和生态壁垒也将决定后续走势。说白了就是,“涨价之后,消费者还会不会买单?” “华为即便涨价,也有鸿蒙生态和自研芯片托底。”上述从事渠道调研的从业者表示。IDC数据显示,鸿蒙NEXT在2025年四季度已经占到中国智能手机操作系统市场份额的12%。很多消费者买华为,买的是一套越来越完整的生态体系,换机成本在上升。 其他品牌在中国市场涨价,销量多少都会受到影响。 综合三大变量,2026年的行业走向已经基本清晰。Omdia预测,2026年全球智能手机出货同比下降约7%,如果存储价格持续上涨至下半年,下滑幅度可能扩大到15%。IDC的判断更悲观:存储芯片短缺预计至少持续到2027年下半年。 IDC全球客户设备研究集团副总裁Ryan Reith表示:“厂商规模和供应链掌控能力将变得至关重要,头部厂商更有能力获得稳定供给和相对可控的成本。” 这场寒冬里,各家的核心路线基本清晰了:华为、苹果坚守高端,将成本压力转化为清理战场的机会;小米加速把出货主力切到中高端的数字系列;OPPO的产品线整合需要时间,2026年更多是消化期;vivo的关键变量在印度,如果本土市场持续承压,必须加速突破欧洲、巴西市场;荣耀的考验是,当三星和苹果也开始在新兴市场加码中高端,它的高增长能否持续。 过去十年是中国手机的淘汰赛:从2015年上百个品牌,淘汰至如今六家主流玩家,九成以上品牌彻底出局。接下来,存储涨价的冲击、AI手机落地节奏、海外本地化能力,将继续改写行业座次。
荣耀600/Pro手机规格曝光:7000mAh电池、2亿主摄
IT之家 4 月 18 日消息,荣耀沙特阿拉伯官网更新产品页面,公开荣耀 600 和荣耀 600 Pro 两款手机核心规格。外观方面,该系列手机均采用金属一体化机身,提供橙色、黑色与金白三种配色,并设有独立的 AI 功能按键。 规格方面,核心配置上,荣耀 600 标准版搭载骁龙 7 Gen 4 处理器,配备 6.57 英寸 1.5K 分辨率 OLED 屏幕,支持 120Hz 刷新率。 影像系统采用 2 亿像素主摄与 1200 万像素超广角组合,前置 5000 万像素写真人像镜头。机身内置 6400mAh 容量电池,支持 60W 有线快充,重量控制在 190g,厚度仅 7.8mm,支持 IP68、IP69 及 IP69K 级防尘防水。 Pro 版在性能与影像上显著升级,处理器更换为 3nm 工艺的骁龙 8 Elite,内存提升至 12GB。影像方面,在保留 2 亿像素主摄的基础上,新增 5000 万像素潜望长焦镜头,快充功率提升至 80W。机身重量相应增加至 200g,电池容量同为 6400mAh,防护等级与标准版保持一致。 软件功能方面,全系预装 Magic OS 10,深度集成 AI 图像与视频生成器,支持多图生视频、首尾帧生成视频及视频特效添加。 售价方面,荣耀 600 的 256GB 版预估定价 604 欧元(IT之家注:现汇率约合 4860 元人民币),512GB 版定价 651 欧元(现汇率约合 5238 元人民币);Pro 版售价 930 欧元(现汇率约合 7483 元人民币)。两款机型将于 4 月 20 日开售。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。