行业分类:
加载中...
头条分类:
加载中...
获马斯克转发,前百川联创陈炜鹏创业产品Loopit海外爆火
北京时间凌晨12点半。 在我的Mac Mini后台运行着的Clawdbot给我弹了个飞书消息,这是我用来抓取硅谷核心圈推特动态的工具。 看了一眼日志,是马斯克转了一个AI相关的内容。 老马平时的路数大家也知道,要么是发SpaceX的火箭,要么是发他的嘴炮,再或者就是给自家的xAI站台。 但今天这条不太一样,他转了一个看起来挺无厘头的App演示视频。 没有硬核的参数,没有AGI的宏大叙事,就是一段很魔性的交互演示。 直觉告诉我,在这个时间点下,能让马斯克转发的产品,通常有点说法。 我点进去看了一眼,产品叫Loopit。 PART.01 一个有点熟悉的名字 THUMB STOPPING 说实话,看完那个视频,我还真被勾起了一点久违的好奇心。 这东西看着挺解压,不像是在硬秀技术肌肉,倒像是个懂人性的产品经理做出来的电子玩具。 在这个所有人都试图用 AI 教你工作的年代,居然有人做了一个纯粹让你玩的东西。 本来以为能被马斯克翻牌子的,肯定又是硅谷某个小作坊搞出来的美区特产,我甚至都准备切账号去下载了。 结果随手在国区App Store一搜——Loopit,居然直接就有。 趁着进度条转圈的功夫,职业病又犯了。 我想看看是哪家神仙公司做的,这么懂这套流量密码。 开发者写着北京涌跃智能科技,完全没听说过,看着像是个新成立的壳子。 于是顺手复制这个名字,去搜一下。 很快结果出来了,成立于2025年6月16日,注册资本100万人民币。 直到我的视线落在法定代表人那一栏上:陈炜鹏。 这名字有点眼熟了。 我盯着屏幕琢磨了两秒:这人好像在哪见过? 在记忆里似乎在某个融资报道里见过。 带着这点疑惑,我又切回浏览器,专门搜了一下这个名字。 当搜索引擎跳出他和搜狗、百川智能联合创始人的关联词条,以及那条 2025 年离职创业的旧闻时,我手里刚拿起的咖啡杯在半空中稍微停顿了一下。 嚯,原来是他。 圈里的老人、尤其是经历过2023-2024年百模大战的人,应该都记得这个名字。 搜狗出身,后来是百川智能(Baichuan AI)的联合创始人。 2025年3月那会儿,蓝鲸新闻爆出他离职创业。 当时大家都在猜,这帮搞基座模型的大牛出来。 肯定是要在这个已经卷成血海的LLM赛道里再搞个ToB的大家伙,或者去搞具身智能。 毕竟,那是那帮技术精英眼里的正道。 结果,一年后的今天,他交出的答卷,是一个用来捏尖叫鸡、撸赛博猫咪、甚至用来恶作剧的App。 这就很有意思了。 PART.02 这个产品到底是做什么的? THUMB STOPPING 为了搞清楚这帮技术大牛到底在卖什么药,我并没有急着写稿,而是先把玩了整整一个小时。 起初,我以为这只是一个类似当年《会说话的汤姆猫》那样的东西。 但当我深入体验了那几个Demo,尤其是看到了官方账号关于他们产品的定义后,我意识到我错了。 这也解释了为什么马斯克会转发。 Loopit切中的,是AIGC在C端应用一直没捅破的那层窗户纸。 看看Loopit官方是怎么自我介绍的: "Here, all you need to do is describe your idea—or simply 'make a wish'—and you can instantly create playable, interactive content." (在这里,你只需要描述你的想法——或者干脆许个愿——就能立即创建可玩的互动内容。) 注意这两个词:"Make a wish"(许愿) 和 "Playable"(可玩)。 在过去三年里,我们见过了太多生成式内容。 Midjourney生成图片,Sora生成视频,Suno生成音乐。 但它们生成的都是静态的(或者说线性的)媒体文件。 你只能看,只能听。 但Loopit做的事情是生成交互。 以我登陆后看到的这个尖叫鸡合唱团为例。 自动播放 表面上看,这就是一排傻鸡在叫。 但你仔细琢磨那个交互:你点击屏幕,鸡嘴张开,声音出来,身体晃动,甚至多只鸡的和声是实时合成的。 这不仅仅是一段视频,而是一个微型的实时渲染程序。 这意味着模型不仅生成了图像和音频,还生成了物理反馈逻辑。 再看那个给仓鼠做波波奶茶的Demo。 自动播放 你摇晃手机,奶茶液面会晃动;你长按屏幕,珍珠会掉进去。 这不再是简单的视频播放,这是一个微型的、由AI实时生成的物理引擎游戏。 陈炜鹏团队显然想通了一个道理:现在的算力已经过剩了,与其去卷模型参数,不如把算力浪费在好玩的事情上。 他们不再试图教用户怎么写代码,也不想帮用户写那该死的周报。 他们把多模态大模型的能力,封装成了一个许愿机。 用户说我想玩一个吃了毒蘑菇的猫,系统后台瞬间完成了图像生成、动效绑定、交互逻辑编写——呈现在用户面前的,就是那只眼睛冒着彩虹光圈、点击就会疯狂抽搐的猫。 这也解释了官方介绍里那句看似玩笑的话: "It's perfect for goofing around, pulling pranks..." (它非常适合用来胡闹、恶作剧……) 在硅谷的那帮AGI传教士还在谈论对齐和安全性的时候,中国团队直接把AI变成了年轻人的社交货币。 PART.03 给Gen Z和Gen A准备 THUMB STOPPING 在Loopit的界面里,我注意到了一个非常关键的按钮,中文版叫魔改,英文版应该是Remix。 这让我想起了当年的TikTok。 TikTok之所以能成,很大程度上归功于Duet(合拍)和Stitch功能,它极大地降低了创作门槛。 而Loopit似乎想做AIGC时代的TikTok。 官方介绍里明确写着:"You can also join in and remix other people's interactive creations!" (你还可以参与并重新创作其他人的互动作品!) 这是一个非常可怕的飞轮效应。 比如,我在App里看到了那个战争与和平的视频——长按屏幕,战火纷飞的废墟瞬间变成岁月静好的街道。 这本身是一个Video-to-Video的实时渲染技术展示。 如果我点了魔改呢? 我也许可以说:把背景换成赛博朋克风格,或者把主角换成我的狗。 在这个过程中,用户不再是单纯的内容消费者(Consumer),也不再是苦哈哈写 Prompt 的创作者(Creator),而是变成了一个可以随意篡改现实的玩家(Player)。 这种体验带来的多巴胺刺激,远比让ChatGPT给你写一首藏头诗要强烈得多。 大家都在找AI时代的Super App,所有人都在盯着Chatbot看。 但历史告诉我们,移动互联网时代的王者不是短信,而是Instagram和TikTok。 陈炜鹏显然在赌这个方向:下一代的Super App,一定不是为了提高效率而生的,而是为了杀掉时间而生的。 PART.04 为什么是陈炜鹏? THUMB STOPPING 这就引出了一个更深层的问题:为什么是一个做底层基座模型出身的人,来做这么软的产品? 按理说,像他这种级别的技术大牛(前百川联创,搜狗搜索背景),应该去死磕那些最硬核的问题:更长的Context Window,更强的推理能力,更低 Latency。 但恰恰是因为他懂技术,所以他才敢做减法。 现在的 AI 行业有一个怪圈:懂模型的人不懂产品,懂产品的人不懂模型边界。 纯做应用的人,往往只是调个API,稍微复杂一点的交互就做不出来,因为他们不知道模型能做到什么程度(比如实时物理反馈)。 纯做模型的人,往往陷入拿着锤子找钉子的误区,总觉得我的模型这么牛逼,你怎么能只用来捏尖叫鸡呢? 只有真正从百模大战死人堆里爬出来的人,才会有这种顿悟:基座模型已经商品化(Commoditized)了。 现在的开源模型Qwen、Kimi或者GLM,能力已经足够强。 技术壁垒不再是模型本身,而是如何把模型的能力,以最低的摩擦力交付给用户。 Loopit的技术门槛其实极高。 要做到视频中那种点击即反馈的低延迟,要在手机端实时渲染生成式内容,还要处理复杂的物理逻辑,这背后是极强的端侧模型优化能力和工程化能力。 陈炜鹏这是在用造原子弹的技术,给用户造了一个精美的烟花。 虽然看起来是降维打击,但这种烟花,恰恰是目前市场上最稀缺的。 PART.05 大模型创业正在祛魅 THUMB STOPPING 现在的行业风向变了。 回想2023年,所有的融资发布会都在讲参数量,讲MMLU跑分。 到了2026年,投资人和用户都累了。 大家发现,那个传说中无所不能的 AI 助理并没有像电影里那样出现。 Siri依然会听错你的指令,甚至还有点蠢。 爆火的Clawdbot对于普通人来说依然毫无用处。 反而是Loopit这种毫无意义的产品,在海外社区开始病毒式传播。 这符合克莱·克里斯坦森(Clayton Christensen)的颠覆性创新理论: 真正具有颠覆性的技术,最初往往看起来像是一个玩具。 早期的电话被认为是玩具,早期的个人电脑被认为是玩具。 现在的Loopit看起来也是个玩具。 它不需要你严肃地对待它。 你可以在上面恶搞你的朋友,生成一个这辈子都不可能存在的乐器,或者体验一段迷幻的视觉旅程。 但仔细想想,它的Slogan——Make Everything Playable(让万物皆可玩),这背后的野心其实大得吓人。 如果 AI 可以把一段文字瞬间变成一个可交互的小游戏,如果 AI 可以把一张静态照片瞬间变成一个可操作的物理场景。 那么,未来的游戏开发、未来的广告交互、未来的教育课件,是不是都会被重构? 今天你是在捏尖叫鸡,明天你可能就是用同样的技术,生成一个专属于你的VR教学场景。 PART.06 请做点好玩的事 THUMB STOPPING 夜深了,我把Loopit后台关掉,那只魔性的尖叫鸡终于闭嘴了。 但我脑子里的Clawdbot还在跑,我在想,马斯克转发的那一刻,他看到了什么? 也许他看到的不仅仅是一个好玩的App。 他看到的是,在AI基础设施建设基本完成后,应用层的寒武纪大爆发终于来了。 而这一次,领跑的似乎又是中国团队。 不像三年前那样高喊我们要超越OpenAI,这一次,中国创业者们变得更务实,也更松弛了。 他们不再执着于做中国的Sam Altman,而是开始做世界的Chen Weipeng。 这可能不是科技圈最宏大的叙事,但绝对是最性感的转折。 这只尖叫鸡,可能会叫醒很多装睡的人。
法拉利首款电动跑车定名Luce:行业首发E-Ink墨水屏钥匙,“iPhone之父”乔纳森·伊夫操刀
IT之家 2 月 9 日消息,法拉利官方今天宣布旗下首款电动跑车定名“Luce”,并公布该车的内饰及人机交互设计,号称能带来“令人振奋的驾驶体验”。 IT之家在此援引官方新闻稿,该车的名字“Luce”源自意大利语,意为“光”或“照明”,象征着法拉利面向未来的坚定方向,同时印证该品牌全新命名策略,为产品线的重要新成员开启新的篇章。 据介绍,这款汽车由“iPhone、iPad 之父”美誉的前苹果首席设计官乔纳森 · 伊夫和施华洛世奇、耐克“御用设计师”马克 · 纽森操刀,两人在旧金山创立的 LoveFrom 创意团队全方位参与了该车的设计。 内饰方面,这款汽车的驾驶舱被设计为简洁、统一的空间,软件与硬件同步开发,使实体结构与 UI 界面保持高度一致,使用 100% 再生铝合金,由整块铝材 CNC 加工,表面经阳极氧化处理,玻璃则是来自康宁“大猩猩”品牌,具有高耐久、耐刮等特性。 软件方面,这款汽车的人机交互界面秉承触感、清晰、直觉三大核心理念,团队优先选择实体按键,增强人与车辆之间的互动,方向盘使用简化三幅结构,灵感来自 20 世纪 50-60 年代的木质 Nardi 方向盘,整体被分为两个控制模块,类似 F1 赛车,相比标准法拉利方向盘轻 400 克。 走进车内可以发现,这辆车的中控台经过特别设计,行业首发彩色 E-Ink 墨水屏钥匙,具有省电优点,当钥匙插入中控台后,屏幕的颜色会由黄色为主变为黑色为主,仪表盘和屏幕同时点亮,营造舒适氛围。 同时,这款汽车一共有三块屏幕,分别在仪表盘、中控以及后排,旨在提供明确、清晰、输入输出分离的使用体验,显示字体均为定制,仪表盘屏幕内置两块重叠的 OLED 面板,由三星参与开发,可实现高对比度与鲜艳色彩。 这辆车的中控屏幕则是带有球形转轴,可以自由朝向驾驶员 / 副驾驶,配备掌托,不需要低头就能操作,右侧带有球形多功能表,可切换时钟、计时器、指南针和弹射起步指南等,顶部左侧的第二块屏幕则用于显示时速、功率等高级参数,中部大屏可显示 CarPlay、空调和参数设置等信息。 总体而言,这辆汽车的内饰融合了精湛工艺、深思熟虑的创新,既致敬过去,也拥抱未来。
小米YU7 GT来了 跑纽北的SUV能卖好吗?
我怎么觉得,小米最近动作有点多? 先不说雷总开始直播上瘾,有事没事就和大伙儿唠唠嗑。 现在继 SU7 Ultra 之后,小米又搞了个大动作,出了一台全新的高性能车型—— YU7 GT,就在最新的工信部名单里曝光出来了。 关键它和 SU7 Ultra 不同,这是一台中大型 SUV 。 按之前车企的做法,都是先出一台性能轿跑,再出一台顶级行政 SUV ,比如极氪的 001 FR 和 009 光辉版,像小米这样每台车都疯狂地卷性能,确实不常见。 咱们首先来看参数,要知道,原本 YU7 里就有一个专注于性能的版型 YU7 Max ,它用的是 220kW 的前电机和 288kW 的后电机,把最大功率干到 508kW。 而这个 YU7 GT 做的还要更极致,相当于是把 YU7 Max 的后电机拿来做前电机,然后又拉来一台比 V8s (425kW)还要大的电机(450kW)用做后电机,功率一共拉到了 738kW,也就是足足 1003 匹马力。 同样是双电机四驱,YU7 GT 的功率会比 YU7 Max 高将近 300 匹左右。 虽然这只有 SU7 Ultra 的 2/3 ,但已经高过 2 台顶配宝马 X5 ,就算是曾经的 “ 速度之王 ” 布加迪威龙,它的 W16 四涡轮发动机,也只有 “ 区区 ” 1001 匹(基础版)。 只能说,油电之争过于血腥,小油车们赶紧把眼睛闭起来。 那有了这个动力之后, YU7 GT 的最高时速自然也进一步提升,达到 300km/h ,比 YU7 Max 的 253km/h 高了不少,并且它还配备了碳陶瓷刹车系统,是确确实实拥有上赛道的能力。 咱们可以参考曾经 1020 匹马力的 Model X Plaid ,大概估计, YU7 GT 的零百加速应该也能进入 3 秒内,那是相当凶猛了啊。 其实在去年 9 月,就有不少人在纽北拍到它的伪装车谍照。外界普遍推测,小米的目标是打败奥迪 RS Q8 Performance ,预计跑进 7 分 34 秒。 不过这事儿吧,咱们就不过多揣测了,还是下次直接等小米公布答案。 总之,目前 YU7 GT 公开的消息不多,咱们还是回到工信部给的信息上,和大伙儿一起云一下这个车。 先来看外观,和之前 SU7 Ultra 一样,这回的 YU7 GT 也是相比 YU7 做了一些改变。最直接的,就是尺寸从 4999x1996x1600 改成了 5015x2007x1597。 简单说,内部空间应该没啥变化,轴距都是 3000 ,但相比 YU7 , YU7 GT 整个做了侧裙和轮拱上的微调,肌肉感更明显了,同时还增加了前铲的尺寸,做了一些空气动力学处理,最后再拉低悬架,让整个姿态更低。 在细节上,主要是侧边多了一个 GT 的红色小 LOGO ,毕竟车主多花了钱,得让别人认出来。。。 从车尾看,YU7 GT 基本没啥变化,同样的鸭尾和后扰流板,主要区别是在后保上整了一个立刀式扩散器,让屁股看着更运动,不那么肥厚。em...但我估计它没啥导流扩散的作用。 最后再看一些选装,除了 YU7 原本的这些配置,YU7 GT 还可以在 “ 传奇耐黑 ” 的配色上加点黄色或蓝色的闪电拉花。 具体效果,有博主已经用 AI 做出来了,说实话呢,还挺酷的。关键这回小米真把胎宽改厚了 20mm ,到了前 265mm + 后 295mm,这下没人再说面条胎了吧。 这里咱们可以简单做个总结,这台 YU7 GT ,其实就是在 YU7 Max 之上,专为赛道准备的特殊版本。过去像这种车型,市面上还真不多。差不多定位的,也只有卡宴、添越、Urus 等上百万的车型了。 但一般这些车,都是豪车品牌拿来走量赚钱的,性能只是一个附加项,都是蹭个调性的家用买菜车,所以很容易就被粉丝贴上 “ 不纯粹 ” 的标签,买家也没真想买这些车去赛道比比。 比如保时捷在 2002 年推出卡宴,被认为是对 911 的背叛,但这波转换,却让保时捷活到了现在。 Urus 也同样是兰博基尼品牌最快达成 2 万台产量的车型。 可能对这些豪华品牌来说,性能 SUV 确实比性能跑车更好卖。所以,对于 “ 对标保时捷 ” 的小米品牌也是看准了这一点。 就比如最近这段时间, SU7 Ultra 月销从过去 3000 左右回落到两位数,除了营销上的一些风波,其实整个市场也已经见底,SU7 Ultra 对小米品牌的使命已经完成,也该功成身退了。 而小米整了这个 YU7 GT 之后,除了继续打打性能的调性,也是为了换个赛道,再赚点米。 毕竟大伙儿口头上,想要一辆超跑去感受速度与激情,但背后都得带上家人去生活。 作为一辆既能满足性能,又能平衡家用的车型, YU7 GT 也许真能在 SU7 Ultra 之外,开辟小米的全新市场。 更别说它的价格预计只有 45-50 万,如果再等雷总连夜说服高管,有些豪车的天不就彻底塌了吗? 比如莲花?咳咳。
苹果iPad等全家桶成教练组“最强大脑”,帮助职业球队赢得比赛
IT之家 2 月 10 日消息,苹果公司昨日(2 月 9 日)推出名为“Apple at Play”的全新营销活动,首期视频聚焦英格兰橄榄球队(England Rugby),揭示其如何利用 iPad、MacBook Pro 和 Studio Display,展开高强度、高精度的实时比赛分析。 这段视频并没有聚焦于传统的硬件参数,而是将镜头对准了英格兰橄榄球队的“幕后大脑”数据分析团队,详细展示了他们如何依靠 Mac 和 iPad 生态系统,在分秒必争的比赛现场完成实时战术解析与指令下达。 该视频从球队高级分析师乔 · 刘易斯(Joe Lewis)视角切入,向观众展示了位于球场高处的“技术包厢”(The Box)内部运作模式。 在这个狭小的空间内,部署了 2 名专业分析师和 5 名教练,他们面前并排运行着 7 台 MacBook。这套系统连接着球场上 7 个不同角度的高清摄像机,能够实时捕捉并汇聚成千上万个原始数据点。 Lewis 强调,所有笔记本电脑均处于联网协同状态,可以零延迟处理海量视频流与数据流,为后续的战术拆解提供了坚实的算力基础。 在数据处理环节,分析团队不仅关注整体局势,更将分析维度下沉至每一位球员的单体表现。Lewis 指出,团队会实时量化诸如“持球次数”、“持球推进有效性”、“推进米数”以及“拦截成功与失误数”等关键指标。 这种基于数据的微观透视,让教练组能够摒弃主观感觉,精准判断哪位球员体能下降或哪条防线存在漏洞,从而在激烈的身体对抗中寻找稍纵即逝的战术突破口。 在采集与处理数据后,信息的“最后一公里”传输同样重要。视频演示了信息如何从高处的“技术包厢”无缝流转至场边的替补席,教练组成员手持 iPad,即时接收经过筛选的关键视频片段和数据图表。 在半场休息期间,教练组会使用 iPad 向球员展示关键比赛片段。球队接球前卫(Fly half)乔治 · 福特(George Ford)表示,这种即时反馈至关重要,因为球员在场上往往依赖直觉,而 iPad 提供的“上帝视角”能帮助他们修正对比赛局势的判断,从而在下半场做出更精准的战术调整。
今天打开抖音的我,已经分不清现实了
Ok 言归正传,今天我上班时刷的各种工作群摸鱼群里,基本都在讨论字节整的这个新模型。 原因无他,就是因为这玩意做出来的视频效果实在是太好了。 甭管是生成美少女来和你打招呼。 by 虚妄 抖音 还是让两个老头开始在屋子里大打出手都不在话下。 by 夜故事 抖音 还可以丢张咱们同事江江的照片给它,让 Seedance 2.0 直接给我们生成一段天气预报的口播画面出来。 自动播放 没错,这整条里面的声音也是 AI 直接生成出来的,整个视频里的各种音效细节可以说是全给对上了。 再或者是直接丢张数学题给它,让 AI 来手写答案。 这里虽然结果写错了,但是口播的声音却是对的 自动播放 太狠了字节,整个视频里,不管是人物的一致性,还是动作的流畅性还是音频的适配性,相比过去的视频生成模型都有了断崖式的提升。 工作了一天刷了一天抖音的我,已经快要分不清什么是真,什么是假的了。 不过这,还不是最让差评君感兴趣的。 素材来源于网络 真正让我好奇的是,为什么这次的新模型这么强? 在简单的体验后,差评君发现这一方面是它的模型本身能力确实够顶。 和其他常见的视频模型一样,只要随便给它一段话,Seedance 2.0 就能给你生成一段质量尚可的视频。 在上海的东方明珠塔下,生成东方明珠塔用激光攻击蜜雪冰城雪王的视频, 雪王不断躲避激光,场面十分混乱 看起来好像平平无奇,但是咱们仔细看就会发现,这个视频里,出现了不只一个镜头。 短短五秒钟的视频,镜头切换了四次。 先远景看东方明珠塔变形发光,再怼脸给雪王表情,再回到全景展示攻击。节奏跟得上、逻辑能闭环,整个段落不光好懂,甚至挺有情绪。 没错,Seedance 2.0 做出来的视频自带分镜。 经常喜欢用 AI 做视频的差友们都知道,在过去,大多数 AI 模型做出来的视频,基本上就是主打“一镜到底”。你给它写一段提示词,它还给你一段几乎固定定机位的画面。 即使有些模型有分镜吧,但他们做出来的分镜也可能不够有灵魂,变得非常奇怪。 某另外一个视频模型用相同提示词做的画面, 基本都是站桩输出 就比如上面这个视频,这画面好看吗,咱们先抛开它没识别出雪王的形象不谈,光论这个视频质量本身,确实是算不上差的。 但是这视频耐看吗?那还真不好说。 一个视频想要能引人注意,那剪辑的节奏就是一个非常非常重要的环境。 过去的 AI 想要做成刚才那样的画面,可能需要咱们预先构思每个分镜和分镜之间是如何切换的。 然后用 AI 抽卡,生成一堆一堆的关键帧,接着再在这些关键帧和关键帧之间抽卡,才能得到成吨的素材。 然后再通过人类剪辑师的发力,才能把这些成吨的素材,给变成一段好看的视频。 这一套流程下来,这就让不少想玩视频生成的新手心生畏惧了。 但这一切问题在 Seedance 2.0 这里,几乎被彻底解决了。 可以明显的看到,字节在分镜上下了不少功夫。 在不用用户特意去描述怎么分镜的情况下,自动就把分镜的活给包圆了。 整个应该镜头应该怎么切才好看给你整的明明白白,几乎是把过去半个小时的工作量给压缩成了一句话。 而且它同时还是个配乐大师,做出来的视频里,该有的音效全都有。 不管是光之巨人和怪兽大战时的嘶吼声。 自动播放 还是在夜之城飙车时的引擎轰鸣声。 自动播放 都可以非常精髓的还原到位。。。 甚至于你还可以直接在提示词里写清楚,你想要在这个视频里听到 AI 说什么话,就连音色也可以通过自己上传声音来制定。 自动播放 另一方面,字节的产品设计也整的很牛 X。 如果说过去的 AI 视频工具用起来还有各种各样的门槛和困难的话,那么这次新发布的 Seedance 2.0 就是把这些门槛都给铲飞了。 现在,普通人都能很方便的用 AI, 来做出各种华丽的画面了。 所以为什么我要给这个模型这么高的评价?不只是因为它能出好画面,而是因为它真的在认真做“产品”。 即使是零基础小白也不用害怕,这可能是目前最适合新手来玩的视频生成大模型了。 它的逻辑非常清爽,打开即梦(jimeng.jianying.com)在最底下选择“视频生成”,在边上把生成视频的模式给切换成“全能参考”,或者是“首尾帧” 之后,就可以用上最新的 Seedance 2.0 模型。 如果这里你找不到 Seedance 2.0 这个选项的话,那可能就是这个号没有被内测到,可以用小云雀 App 试试,或者过段时间等火山引擎发布了Seedance 2.0 API,就能在更多平台和APP里用到了。 没有会员也没关系,每天靠着签到的积分也可以先白嫖体验一下,如果觉得好用再充也来得及。 OK 咱们回到主题,首尾帧这个模式就不用多说,也是咱们的老朋友了,既能贴上头尾两张图片来控制 AI 的发挥,也能只贴一张开头的图片来让 AI 自己天马行空,还可以什么都不贴,打字就能直接得到我们想要的画面了。 而另外一个“全能参考” 模式就有意思了,过去咱们用 AI 做视频,遇到的最大问题是什么? 对我来说,这个最大的问题可能就是“不会形容”了。 有时候脑子里明明知道自己想要什么画面,但是在打字的时候却经常写不出来。 可一但提示词写得太抽象,那模型就给你瞎编,可写得太具体,又像在拼题。经常是提示词写到怀疑人生,还是生不出想要的质感。 而这个“全能参考” 模式就能在很大程度上避开这个问题。 在这个模式下,你可以同时从图片、视频、音频和文本这四个维度来描述你想要得到的画面。 就比如开头的跳舞小视频,我只需要同时上传米罗和二狗两位同事的照片,然后再配上一段舞蹈的视频一起给它,就能很轻松的整出来,也能基本保证人物的面部轮廓在生成的视频中不会崩溃。 这样一来,我就不需要描述具体舞蹈的姿势,也不需要描述我需要什么音乐,甚至连人物穿什么衣服都不用说,就可以直接搞出一条舞蹈视频。 当然,想给他们换衣服也很简单,改个提示词就行了。。。 为了保护差友的双眼(为了不被打),我决定来点马赛克 在这次 Seedance 2.0 里,这个参考模式最多支持同时输入 9 张图片,3 个视频, 3 个音频(但是加起来不能超过 12 个文件) 我们可以在这个 12 个素材里任意发挥,来得到我们想要的画面,基本等于是可以傻瓜式来操作了。 说实话,它的整个产品的设计逻辑其实让我想到了另一款字节的 App —— 豆包。 这是在那产品的思路在做大模型。 不管是剪辑分镜的快速生成,还是音频画面的同步输出,再或者是方便创作的参考模式。 这三个功能的目的都很明确,希望能够降低 AI 视频生成的门槛。 下赛季你来单防詹姆斯 我很喜欢这样的产品,但到最后,话又要说回来了: 技术进步从来不是单向的狂欢。 随着 AI 生成视频的门槛越来越低,分不清 AI 视频的人,也会越来越多。 过去大家会说“眼见为实”,会说“视频是不能 P 的”。 但现在随着 AI 这一路往前奔腾进步的态势,P 个视频已经是轻轻松松的了。 像咱们这样天天和 AI 打交道,看新闻的人或许能分的出来,但是我们身边的老人孩子呢? 咱们编辑部就有个小伙伴,下午出于好玩的心态。做了一段“他自己在送外卖”的视频,结果发到家族群里之后,他妈就当真了。 吓的他赶紧解释,自己没被开除,这是 AI 做的视频,就怕下一秒直接被家长的夺命连环 call 来拷打。 看着阿姨在群里着急的样子,差评君其实笑不出来。 因为我们突然意识到,这道横亘在现实和诈骗之间的防火墙,其实非常脆弱。 不过好在,字节好像自己也意识到了这个问题。 在今天晚上我真人照片来做尝试的时候,就遇到了好几次被屏蔽的情况。 当然这个屏蔽情况算不上稳定啊,但是能有这种“自我约束”的意识,总归是个好苗头。 因为技术跑得太快时,总会有人被落在后面,而那些人往往是我们最亲近的长辈。 但是别忘了,我们能认得出这些 AI 生成的视频,不是因为我们特殊,而是因为我们接触的早,有了抗性。 在这种情况下,我们掌握的不只是一个创作工具,更是一种沉甸甸的责任感。 也希望未来的 AI 视频,能帮我们延伸想象力的边界,而不是磨灭掉那些最基本的真实。
消息称苹果AirPods Pro 3增强版今年上市:耳机也能“看”世界,支持AI视觉智能
IT之家 2 月 10 日消息,消息源 @Kosutami_Ito 于 2 月 8 日在 X 平台发布推文,爆料称苹果计划在 2026 年打破 AirPods 系列通常为期三年的更新周期,推出一款搭载红外摄像头(IR Cameras)的全新 AirPods Pro。 定位方面,基于供应链消息,苹果公司并不打算用这款新品完全替代现有产品,而是计划推出一个具备更高硬件规格的衍生版本,其大部分硬件会沿用现款 AirPods Pro 3 方案。 此次硬件升级的核心在于引入红外摄像头系统,IT之家援引博文介绍,该媒体分析认为,这一新增硬件并非用于拍摄照片,而是支持类似“视觉智能”(Visual Intelligence)的 AI 功能。 苹果 CEO 蒂姆 · 库克此前多次强调视觉智能在 AI 交互中的重要性,新 AirPods Pro 有望进一步拓展苹果的 AI 生态版图,通过摄像头感知周围环境,为用户提供基于场景的增强音频体验或空间计算辅助。 天风国际分析师郭明錤早在 2024 年 6 月就曾预测,苹果计划在耳机中引入红外摄像头模块。与传统拍摄功能不同,这种红外组件主要用于环境感知,类似 Face ID 的运作原理,旨在通过捕捉周围空间信息来增强“空间音频(Spatial Audio)”的沉浸感,并能与 Apple Vision Pro 头显形成生态联动,提供更精准的空间计算体验。 售价方面,消息源声称新款带摄像头的 AirPods Pro 将维持当前售价,预估为 1899 元。
奥特曼的核聚变与马斯克的太空算力,谁在贩卖泡沫
算力变得饥渴,追求终极的能源。今年,高风险偏好的投资者,将第一次有机会在公开市场交易两种极端叙事:太空数据中心与商业核聚变。一边是试图逃离地球的轨道算力,一边是试图在地面复刻“人造太阳”。 马斯克抛出了100GW级轨道数据中心的愿景,将SpaceX与xAI合并,估值1.25万亿美元,计划今年上市;市场猜测特斯拉未来也可能换股整合。光伏、储能、芯片、大模型与火箭,构成垂直闭环。 戏剧性在于,马斯克长期斥为“愚蠢至极”的核聚变,如今成为另一股资本洪流。特朗普旗下TMTG与谷歌支持的TAE签署最终合并协议,总值超过60亿美元;General Fusion也已定档年中完成SPAC交割。它们都预定了纳斯达克的入场券。 在马斯克看来,2到3年内,生成AI算力的最低成本方式将出现在太空;而OpenAI创始人奥特曼投资的商业聚变初创企业Helion,将向微软交付电力定在2028年。于是,AI领域的一大悬念诞生了,谁能兑现承诺,谁在贩卖泡沫? 在科学层面,可控核聚变“并不存在根本性的未知问题”。今年年初,星环聚能完成10亿元A轮融资时,公司创始人陈锐如此表述。但他执意要给行业降温。核聚变这场“终点已知的长跑”,仍然是人类最大的工程挑战,涉及到关键材料等的商业化成熟,再乐观也需要十年左右才能看到示范堆真正发电。陈锐给出的时间表是,未来四到五年,实现等效Q≥1,完成工程验证;再过四到五年,真正连续发电。 未来五年的重点,首先在于挑战Q≥1。在温度、燃料密度和约束时间三个物理量的三乘积(即Q值)大于1时,等离子体才能实现能量增益。这也是目前融资金额最高、英伟达所支持的聚变初创企业CFS的时间表。去年底,它的联合创始人Dan Brunner,开始每周更新产业观察博客,第一篇文章就高呼,Q>1的发令枪打响了。 目前,CFS把融到的30亿美元的大部分资金,都投入到了建设SPARC中。它的设计目标是Q=11,并计划在2030年前实现首束等离子体放电及Q>1的突破;公司首座400MW商业堆ARC,将在2030年代初期投入运营,大致与星环聚能相当。它暗示自己融资最多,成功希望最大。 Q≥1需要完成哪些验证目标?“国家队”的中国紧凑型聚变能实验装置BEST,详尽披露了它的“研究计划”(BEST-Research-Plan-v1.1)。该实验装置计划于2027年建成,并于同年底实现首束等离子体放电(First plasma);2030年底前首次尝试氘-氚聚变(First D-T plasma),期间实现对科学Q≥1的验证。之后,它将尝试长脉冲运行(Long-pulse),即让核聚变反应稳态运行;以及燃烧等离子体,验证Q≈5。期间,BEST还将验证氚增殖,即利用聚变产生的中子与包层中的锂撞击,在反应堆内部“炼”出稀缺的氚燃料。 (来自BEST-Research-Plan-v1.1) BEST上承物理实验平台“东方超环”EAST,下启中国聚变工程示范堆CFEDR。按照计划,后者将于2035年建成,挑战氚自持(TBR>1,即产生氚的速度大于消耗氚的速度)与高空占比(Duty Cycle>0.5,即装置实际产生能量的时间占总运行周期超过一半)。再之后,才是原型聚变电厂(PFPP),考验其市场化度电成本的竞争力,至少要与核裂变持平。 目前,产业界普遍期待,核聚能在2031-2040年之间并网发电。据美国核聚变产业协会(FIA)的调研,全球45家受访聚变初创企业中,有21家认为会在2030年代初并网发电,14家认为会在2030年代末实现。而要实现商业上具备一定竞争力,普遍还要再往后推5-10年。计划今年上市的通用聚变,预计将在2030年代中期建成首座商业化聚变发电厂。特朗普看中的TAE则定在了2031年发电。 既然已经进入比拼工程能力的早期阶段,那么,在中国,产业政策的飞轮也毫无意外地再次快速转动。最近,“星环聚能落地上海暨融资签约仪式”的报道,充分释放了各地抢人、抢企业这样令人熟悉“内卷”信号。除了去年挂牌成立的“国家队”中国聚变能源有限公司外,上海目前还拥有能量奇点、诺瓦聚变、东昇聚变等聚变企业,及其供应链企业翌曦科技、超磁新能等。近三年来,中国在核聚变领域的融资金额,持续超越美国,累计融资额逐步接近。 (来自Fusion Energy Base,截至2026年1月) 那么,轨道数据中心呢?它的技术原理也不成问题。但是,谨慎地说,以今天可见的工程约束来看,“2–3年内最低算力成本将出现在太空”几乎不可能成立。即便发射成本持续下降,在轨系统仍需解决散热依赖辐射、宇宙辐射对芯片寿命的影响,以及维护与替换的窗口限制等问题。仅是各环节满足需求的技术迭代与产能爬坡,就难以在短期内完成。市场迅速将马斯克团队调研中国光伏供应链解读为前瞻信号,但工程本身并不会因此加速。 英伟达与谷歌都在尝试构建太空AI基础设施,只不过,GW级的太空数据中心,也都只是远期目标。基于历史数据趋势,谷歌曾预测,到2035年,地面数据中心的能源支出与在轨系统的年化成本才能处于同一数量级。而作为云计算巨头亚马逊的创始人,以及商业航天企业蓝色起源(Blue Origin)的掌门人,贝索斯去年底曾预测,太空中的GW级数据中心要成为现实,将在未来10到20年内发生。 也许,无论是太空数据中心还是商业核聚变,2028年是资本的窗口,2035年才是工程的时间。资本可以提前为愿景定价,但工程只接受时间与试错。
消息称苹果M5 Pro和M5 Max为同一款芯片不同版本,采用全新2.5D封装工艺
IT之家 2 月 10 日消息,此前有消息称,即将推出的搭载 M5 Pro 和 M5 Max 芯片的 MacBook Pro 机型,将支持更灵活的 CPU 核心与 GPU 核心选配。而苹果官网近期的一处改动,似乎也印证了这一说法。 最新报道则指出,变化可能会更加彻底:M5 Pro 和 M5 Max 或许并非两款完全独立的芯片,而是同一款芯片的不同版本。 早在去年就有报道称,苹果将为更高规格的 M5 系列芯片采用全新的封装工艺。 M5 Pro、M5 Max 以及 M5 Ultra 将会采用服务器级别的 SoIC 封装技术。苹果会使用名为 SoIC‑mH(模压水平封装)的 2.5D 封装工艺,以此提升良品率与散热表现,并且采用 CPU 与 GPU 分离式设计。 通过这种方式将 CPU 与 GPU 核心分离,有望让用户在选购时拥有更大的自由度。例如,可以选择基础版 CPU 配置,同时将 GPU 核心拉满,以适配对图形性能要求极高的使用场景。 而苹果近期对官网的改动,也为这一猜测提供了更多依据。IT之家注意到,苹果调整了 Mac 在线购买流程,取消了此前一系列可定制的预配置选项,直接让用户从零开始自定义硬件规格。 YouTube 博主 Vadim Yuryev 发现,在近期泄露的测试版代码中,完全没有出现 M5 Pro 芯片的痕迹,而他认为自己知道原因。 我终于搞清楚,为什么在最近泄露的测试版代码里找不到苹果 M5 Pro 芯片了:苹果采用了全新的 2.5D 芯片技术,只用一套 M5 Max 芯片设计,就同时支撑 M5 Pro 和 M5 Max 两款芯片。这能在产品型号(SKU)和设计上为苹果省下巨额成本。 两个版本的区别在于:如果你想同时将 GPU 核心和内存拉满,就必须选择 M5 Max。 这一理论听起来相当合理,除了能让苹果更充分地利用芯片分级筛选(binning)来提升良品率之外,公司还只需要设计一款逻辑主板即可。等到新款机型正式发布后,拆机评测很快就能验证这一猜测是否属实。
人形机器人,困在A轮里
稚晖君的“昨天”,似乎正是人形机器人创业者们的今天。 当智元机器人经历6轮A轮融资,终于在近日挺进B轮时,更多的人形机器人创企还被困在A轮融资里。 首当其冲的,或许正是被朱啸虎送上热搜位的松延动力。 朱啸虎在采访中表示“正批量退出人形机器人公司”,并且质疑“谁会花十几万买机器人干活”。退出的创企之一正是松延动力。 而松延动力也是目前在A轮阶段融资最频繁的人形机器人公司。企查查信息显示,自去年3月进入A轮以来,松延动力已完成4次A轮系列融资,在A轮阶段“长跑”达13个月。这家成立于2023年9月的公司,已累计完成五次融资,却仍未迈入B轮大门。 图源:企查查 松延动力创始人姜哲源在今年3月接受“搜狐科技”采访时表示,“在企业竞争方面,目前最主要集中在融资领域,融资跟不上就快被淘汰了,其实有一些企业不乐观了。” 对于眼下红得发紫的人形机器人赛道来说,除去“轻舟已过万重山”驶过A轮融资难关的宇树科技和智元机器人,松延动力或是新一轮机器人创企当下的小小缩影。 据直面AI(ID:faceaibang)统计,2022年以来成立的13家明星机器人公司普遍呈现“单一轮次里徘徊”的融资特征。数据显示,这13家企业在进入B轮融资前已经历多次融资,除智元机器人在A轮里融了6次挺进B轮外,还有6家徘徊在A轮阶段尚未晋级至B轮,另有6家至少完成三次融资的企业,还在更早期的天使轮和Pre-A轮徘徊。 云岫资本曾为宇树科技等机器人公司提供FA服务,其合伙人兼智能制造组负责人的符志龙指出,当企业估值已经顶到高位,而量产进度不达预期时,企业便会通过多次“+轮”融资补足资金。 “去年年底第一次天使轮融资额不理想,今年热度高,投资人看得不少,真正出手的不多,今年准备分2-3次小批量融preA的钱了。”某机器人企业创始人告诉直面AI,机器人创业早已到了1亿元融资额一年不到就能烧完的阶段,但面对谨慎的投资人,不谋求单轮大金额融资,多轮小额加入资金,一样能得到理想的结果。 对于松延动力们而言,企业进行小轮融资也有其考量。机器人赛道研发周期长,技术门槛高,需要大量的资金投入。硬件开发、算法优化、供应链管理都是花钱的大头。但是现在市场情绪比较谨慎,企业很难一次性拿到足够的资金,往往只能采用拆分融资轮次的方式来缓解融资压力。 只不过,困在A轮并不算舒适区,等待松延动力们的是持续的融资压力,累计拿到五次融资的松延动力仍然资金紧张,“松延动力仍是草根团队,钱一直会是相对比较紧的状态”。姜哲源在接受采访时也表示。 01 “刚开始创业的时候,松延动力融到的钱没有现在这么多。”姜哲源接受采访时表示。资金紧张一直都贯穿在松延动力的创业阶段。 本科就读于清华大学电子系的姜哲源,在25岁那年,放弃了清华博士学位下海创业。当时,姜哲源的父亲找来自己的老朋友劝说儿子不要创业,结果对方直接给松延动力投资了一百万元。 但是机器人创业并非想象中那么简单,这个行业投入巨大,资金紧张困住了大部分机器人公司。即使是顶着“华为天才少年”光环的稚辉君(彭志辉),创立的智元机器人两年内在A轮融资里徘徊6次才迈入B轮。 2023年11月,成立两个月后,松延动力就获得了天使轮融资。2024年3月-2025年2月,松延动力获得四次A轮融资。松延动力并未披露融资金额,只有最近一次披露了超亿元的融资额,也显得语焉不详。 即使刚刚完成第四次A轮融资,姜哲源在采访时仍表示,“松延动力仍是草根团队,钱一直会是相对比较紧的状态,不能像DeepSeek这样放心地去追求技术理想,必须尽快商业化。” 事实上,在A轮融资阶段,卡住姜哲源的正是投资人看重PMF(产品市场匹配度)。 对比已经走出A轮的稚晖君,姜哲源先卡在了量产上。 2024年12月,智元机器人启动通用机器人的商用量产。今年1月,通用型机器人累计下线1000台。其合伙人姚卯青透露,今年出货量预计在数千台左右。就在两个月后,智元机器人就完成了以腾讯领投的B轮融资,投后估值高达150亿元。 相较之下,今年3月,松延动力发布了两款机器人:人形机器人N2和升级版机器人E1。目前,松延动力手上订单有六百多台。按照姜哲源的规划,预计到今年下半年,松延动力机器人产量将能达到每月150台以上。并希望今年能够出货一千台,在四季度实现现金流转正。 图源:松延动力微信公众号 符志龙表示,PMF能不能真正跑通,产品得让客户觉得有用且付费意愿高。一方面,是否具备大规模生产的能力。另一方面,销售能否闭环,决定了商业逻辑是否成立。 也就是说,是否能够量产,正是创企从A轮跨入B轮的一个重要因素。 和一些明星机器人公司相比,松延动力的创业团队并不是最顶尖的。目前机器人创业团队有在高校任教的,比如银河通用创始人王鹤来在北大前沿计算研究中心任助理教授,两次融资累计12亿元;也有创始人有大厂背景,比如智元机器人创始人稚辉君,顶着“华为天才少年”的头衔。 这也导致松延动力在资本青睐度方面并不算头部。因此,如何用最短的时间做出下一个milestone(里程碑)以及匹配适当节奏的现金支出,对姜哲源来说是非常有挑战的。 姜哲源坦言,他对公司的一个要求是:眼下要挣钱。 姜哲源加快商业化步伐的原因不难理解,中国机器人公司必须严格按照PMF思考问题,所以先让市场看到PMF的能力至关重要。 目前,松延动力发布的人形机器人N2,高度1.2m,整机重量仅30kg,具备后空翻等运动能力,价格已经下探到3.99万元。市场上和N2相似的宇树科技Unitree G1、智元灵犀X1,量产价格分别为9.9万元和10.8万元。 面对“到底能不能赚钱......是否也是卖一台亏一台?”的提问,姜哲源曾对“机器人大讲堂”表示,“我们有着极强的成本控制能力,39900元肯定依然能挣钱。” 盈利多少或许不是松延动力现阶段最主要考量的,先制造现金流,按照PMF行事才是走出A轮困境的当务之急。 02 “(松延动力)不能像DeepSeek这样放心地去追求技术理想,必须尽快商业化。”姜哲源的话或许代表了当下大多数机器人创企的心声。 由于看不到清晰的商业化路径而退出松延动力的朱啸虎说,“我们喜欢的是可持续的,能够给客户创造价值的商业化。” 某种程度上,投资人给了初创企业需尽快商业化的压力。 正在看早期机器人项目的恒业资本创始合伙人江一告诉直面AI,他接触到的某知名仓储机器人A轮估值18亿遇冷,后改拆为A1轮12亿(对应产品原型)、A2轮15亿(对应首个客户签约),通过渐进式诱导缓解市场的抵触。 “具身智能机器人赛道距离成熟还比较远,缺乏商业化支撑的估值难获认可。”一位头部创投机构前投资人告诉直面AI。 而估值很难上涨的原因也和市场环境有关,上述投资人表示,整个VC市场有一些退潮,愿意在估值上推波助澜的美元基金,没有之前那么活跃。而入局的国资比较多,但是国资更求稳定,也会在估值上面压的比较低。 因此,采用“小+轮”融资模式逐步提升估值,成为机器人公司应对当下市场环境的生存之道。商业化困境和融资环境导致创企很难一次性拿到大额资金,但是机器人研发又需要足够资金投入,所以A轮阶段投融资就被拉长了。 其实,作为区别于互联网时代的新赛道,具身智能尚未有产品从研制到实现商用量产需要多少资金的标准。 以智元机器人的融资作为参考,虽然智元机器人并未披露每一轮融资金额,但是在进入B轮融资之前,智元机器人累计完成8次融资,其中2023年12月的一次融资金额超过6亿元人民币。松延动力未披露具体金额,最近一次融资额为超亿元人民币。作为参考,融到A3轮的星海图,根据公开信息,目前的融资金额累计超过8亿元。 图源:企查查 智元机器人巨额的融资或许可以从另外一个角度来看,即要想突破B轮融资,松延动力和星海图或许需要完成一定的融资金额。 再者,对于松延动力们来说,想要解困,还得抱紧产业资本的大腿。 蓝驰创投合伙人曹巍接受“经济观察报”采访时表示,智元机器人有大量的产业股东,仅来自股东方的需求可能就创造出几万台机器人的销量。智元机器人的落地场景也聚焦在工业。在A轮阶段,智元机器人引入的投资方非常多元,不仅有创投机构和地方国资,还有比亚迪、上汽投资等产业资本,这无疑提供了不少的落地场景。 这似乎正中松延动力们的命门。如今结伴困在A轮,包括完成4次A轮融资的松延动力,完成A3轮融资的星海图,投资方名单中都缺少产业资本的身影,这也使得它们在工业、服务、医疗等多个领域商业化落地较为艰难。 缺少产业投资,以至于商业化路径不明晰,或许也是它们无法吸引更多融资向前迈进的原因。 在此前朱啸虎引发的舆论争议中,金沙江创投退出的两个具身智能项目,分别是松延动力和星海图,原因则是没有看到清晰的商业化路径。对于朱啸虎的质疑,还困在A轮融资的松延动力们,或许需要更多时间来回答。 03 需要注意的是,对于初创公司来说,拿到钱还只是开始,如何花钱才是问题。 而钱,往往先花在了抢人上。符志龙指出,在早期投资阶段,投资人比较看重团队能力,这事关A轮阶段的供应链能力。 “投资人比较关注人形机器人的核心部件(比如关节模组、夹爪)是自研还是外包;如果是外包的话,团队有没有做二次调试的能力,确保产品竞争力。另外投资人会特别在意团队里有没有从0到1搭建过产线、从1到100跑过量产的人才,工程化能力直接决定后面能不能放大规模。”符志龙补充道。 对于松延动力来说,想要拿到更好的融资额,首先要做的就是团队扩充,尽快完成人才储备,但是这一部分的成本往往非常高。 根据第三方招聘平台信息,松延动力招聘的嵌入式软件工程师、电子工程师等均为13薪,每月薪水高达2万-3万元。其中具身智能算法工程师的薪水最高,年薪最高可达65万元。类似的岗位,宇树科技的激光slam开发工程师薪水为2.5万-5万元/月,智元机器人的控制算法工程师则达到3万-5.5万元/月。 智元机器人用四次A轮融资完成了团队的扩充。 2023年8月,智元机器人完成A2轮融资,当时其研发团队还不到50人。此后一年时间里,智元机器人完成了四次A轮融资。截至2024年9月,智元机器人团队已经超过300人。 可以预见的是,具身智能赛道仍处于早期阶段,这是一个链条长、技术栈复杂的行业,松延动力们面临着巨大的研发投入。 对于更多团队来说,最重要的可能是先活下去。 不过,需要关注的是,对于松延动力们来说,现在正是机器人创业的好时候。 星海图创始人之一的赵行在接受《晚点Auto》采访时表示,大模型、ChatGPT 的火爆,让大家对具身智能有了更多信心,各界都在投入更多资源。 投资人生怕错过潜力项目的焦虑情绪让整个机器人领域都热了起来。星海图联合创始人许华哲在接受《南方都市报》采访时也说,去年,投资人的心态可能是有兴趣投资,但需要进一步考虑。然而,今年投资人的心态已经变成FOMO(害怕错过),更倾向于迅速达成一致,抓紧机会投资。今年2月以来,星海图在三个月之内完成了3次A轮系列融资。 同时,大模型的技术进步也让人形机器人有更多的可能性。 美国人形机器人创企Figure AI,结合OpenAI的视觉语言模型(VLM)开发的Figure 01人形机器人,可以听懂指令,与人类对话,被视为是人形机器人实现智能化的重要突破。今年2月,Figure AI抛弃OpenAI,进一步发布了自研的通用的视觉-语言-动作(VLA)模型“Helix ”,目前,Figure AI正以400亿美元估值寻求C轮融资。 大模型的技术突破给人形机器人的发展增加了好的信号,让机器人不止于能运动,有了替代人的可能性。目前,宇树科技、智元机器人等创企都开始招聘和大模型领域相关的技术人才。宇树科技薪酬最高的岗位为生成式AI算法工程师,年薪最高将超过90万元。 即便当前松延动力们仍困在A轮,但是随着技术的进步,无论是量产还是融资,都将迎来更多的好消息。 正如Figure AI创始人Brett在接受采访时表示,“我们现在正好处于人形机器人推向市场的正确阶段,并推动这一进程。这非常令人兴奋。” 在AI时代,尽管机器人创企将走过一段混沌期,但正如稚晖君所说,短期市场上会有各种正、负反馈,对一家初创公司,最重要的是留在牌桌上。我们仍可以期待松延动力们的更多好消息。
5000字长文带你看懂,Agent世界里的A2A、MCP协议到底是个啥
昨天晚上,Google发了一个关于Agent的新开放协议。 叫Agent2Agent,简称A2A。 包括昨天阿里云百炼也官宣搞MCP了。 这些本来没打算写的,因为太技术了,也是感觉离普通人还是有很大距离。 但是有好几个朋友都在群里说。。。 那还是来聊聊吧,正好也用我自己的理解,来做个小科普,让大家一片文章看懂,A2A、MCP,到底是个啥。 正好最近特朗普对等关税这事,非常火。 搞得全世界鸡犬不宁,每个国家之间的隔阂,好像又重新出现了。 我就用国与国之间的外交,来去解释这两个协议。不要以为八竿子打不着,其实真的非常的像。 我们现在,假设每个AI智能体(Agent)就是一个小国家,它们各自有自己的语言和规矩。 现在,这些国家的大使馆分布在同一栋大楼里,试图互相沟通、做生意、交换情报。 理想情况是,各国之间关系和睦,大家都有一套明晰的外交规则,只要大家坐在圆桌前,就能顺畅地交流、签署协议、并合作进行国际项目。 但现实却是,每个国家的大使馆互不统属,协议各异,有的只认英制度量衡,有的只收欧元货币,有的说谈判必须用法语,有的则坚持任何通信都要用自家加密算法…… 结果,你想跟A国谈一个简单的贸易合作,得先备齐对方要求的一大堆条文、证明、翻译、特殊密钥。如果你还想同时跟B国、C国合作,那就得重复N遍相似的流程。 这种临时的、分散的、多头的各国各自为政,让所有人的沟通成本居高不下,每次对话都要额外缴一份信息关税。 过去,AI世界里的Agent想要合作,都面临一样的窘境。 举个例子,你可能有一个自动帮你帮你回邮件的Agent,还有一个内置在日历应用里的Agent,能帮你安排日程。 但这两个AI很难直接对话,必须得你充当翻译在中间手动复制粘贴信息,或者依赖开发者定制的接口。贼恶心。 结果就是,AI智能体各据山头,互操作性极差,这种碎片化现状让很多用户头疼,因为需要在多个AI应用间来回切换,也限制了AI的潜力发挥,很多本可以多Agent协同完成的复杂任务,被人为隔断在各自的小圈子里。 这种局面下,就有点像二战后世界的状态:每个AI智能体各自为政,缺乏统一规则,互通有壁垒。 当年二战后,也就是 1940年代,美国寻求建立一套战后多边机构,其中之一将致力于重建世界贸易,搞了很多轮的谈判。 最后,历经50年,终于1995 年1月1日正式开始运作,依据 1994年马拉喀什协议 ,取代了1948 年建立的关税与贸易总协定。 我们有了人类历史上也是非常伟大的组织: WTO,世界贸易组织。 而现在AI世界的生态,就有点像二战后的废墟,WTO成立的前夕,你调用我的功能要按我的接口来,我访问你的数据也得敲你定的门路。 没有标准,意味着每增加一种合作关系,都要付出额外“关税”(开发成本和沟通成本)。 AI生态因此变得割裂且低效。 人人设墙,自扫门前雪。 但是还好,在AI圈里也出现了想要 制定通用规则的势力,就想大家在贸易混战中渴望一个WTO那样。 AI行业开始探讨能否有一套大家都认可的协议,让智能体之间、智能体与工具之间互相对接更加顺畅。 这时候,Google和Anthropic分别站了出来,各自抛出了一个方案,也就是我们今天的主角: A2A 协议和 MCP 协议。 一. A2A协议 先来看Google发布的 A2A协议 。 A2A(Agent-to-Agent)协议,顾名思义,就是让AI代理彼此直接对话、协同工作的协议。 这次Google得到了包括Salesforce、SAP、ServiceNow、MongoDB等在内的50多家科技公司的支持参与。 A2A协议的设计初衷很简单: 让 不同来源、不同厂商 的Agent能够互相理解、协作。就像WTO旨在消减各国间的关税壁垒一样。 一旦采用A2A,不同供应商和框架的Agent就像一个个的小国家,加入了一个自由贸易区,能够用共同语言交流、无缝协作,联手完成单个Agent难以独立完成的复杂工作流程。 至于A2A是如何运作的,我尽量用现实类比来通俗易懂的解释下 : 1. Agent = 国家外交官 每个Agent其实就像一个国家大使馆的外交官。他的名牌上写着自己能干啥、隶属于哪家企业,联络方式如何等。A2A要做的,就是制定一个统一的外交礼仪和沟通流程。 过去,A国外交官只会说法语,B国外交官只用西里尔字母写文件,C国外交官要求面谈时必须使用古老的云纹金箔信件。。。而A2A的出现,就是让大家在同一个会议室开会时,都能说一套约定好的通用语言,用相同格式提交文件,让商议好的结果可以被各方理解并执行。 2. Agent Card(代理卡) = 外交国书 / 大使名片 在A2A规范中,每个Agent都要公开一份“Agent Card”,相当于其外交官的身份名片。 包含以下内容:Agent名称、版本、能力描述、支持什么“语言或格式”等等。 现实中,外交官的身份名片让对方知道他是谁,代表哪个国家,有哪些职权。同理,在A2A里,Agent Card列举了“我(这个Agent)能执行哪些技能”、“我的认证方式是什么”、“输入输出格式有哪些”等等。 这样,其他外交官想跟你合作就能很快找到你、理解你的能力,省去了大量沟通障碍。 3. Task(任务)= 双边或多边外交项目 A2A中最核心的概念之一是Task。 当一个Agent想委托另一个Agent去完成什么事情,就像对外发布一份“合作项目意向书”。对方同意接单后,双方会记录一个Task ID,追踪项目进度、交换资料、直到该Task完成为止。 现实外交中,某国家就可能向某兔提议:“我们想合作修一条跨境高铁,麻烦你们派工程队来。” 这就对应A2A的Task:由发起方提出需求(TaskSend),远程Agent表示接受(Task状态变更),然后双方在整个项目过程中随时更新任务进度 里面还有个Artifacts(成果物),就相当于这个项目最后落地的“合同文本、建设成果”。在AI里可能是生成的一份报告、一张图片或任意形式的输出。而在A2A语言里,用 Artifact 表示最终生成的成果。 Message(消息),则是项目前期或中期的各种来回沟通。它可能包含对任务细节的补充说明、要对方再确认某些条件等。这与现实外交中的电报、照会、使节往来是一模一样的。 4. Push Notifications(推送通知)= 外交使馆快报 在A2A里,如果一个Task是长期项目,远程Agent需要花很久时间才能完成,比如DeepResearch动辄十几分钟,某些复杂的Agent动辄一小时,它就可以通过推送通知机制向发起方更新进度。 就像在外交中,如果一个跨国基建项目周期很长,甲国会定期给乙国发通报:“进度到哪儿了?有什么问题需要协调?” 这样能大幅提升异步协作的能力。过去很多AI系统比较原始,只能用同步的“请求-响应”模式,就像放一个人在那24小时监控,一旦响应超时就中断。 A2A允许设置回调接口、服务器端事件(SSE)等方式,把漫长的任务分段汇报,让沟通保持流畅。 5. 身份认证与安全= 外交特权与协议 A2A采用企业级的认证策略,要求通信双方先验证对方的身份凭证。例如在现实外交中,不是谁都能随意闯进某国大使馆,必须持有相应的外交护照、获得许可。 这就是为了防范“冒名顶替”或“恶意窃听”。 在A2A里,“认证头信息”“token”“签名”等一系列安全手段,就相当于外交通行证或盖了公章的外事批准文书,确保你跟我谈判时是真的代表“你所在的国家”,而不是一个假冒的第三方。 这大概,就是A2A的机制,其实你看,跟国与国的外交,或者跟企业与企业之间的协同,没有任何本质的区别。 二. MCP协议 再来看 MCP协议 ,全称 Model Context Protocol 。 这就是Claude的母公司Anthropic在2024年11月推出并开源的一套标准。 A2A解决了AI外交官之间的交流流程问题,但是还有一个棘手的现实,再能言善辩的外交官或者企业商务,要是没有 任何可靠的信息 来源 ,对国际局势和资源配置就两眼一抹黑,根本就没法干活。 更何况,在现代社会,外交官往往需要调用种种外部工具,比如签证系统、国际结算系统、情报数据库等等,才能完成任务。 同理,一个Agent若想承担真正的复杂职责,也需要能连上各种数据库、文档系统、企业应用,甚至是硬件设备。 这就像给外交官建立完备的情报局,并授权他们使用某些工具处理事物。 过去,Agent要接入外部资源,常常得各自开发专用插件,与不同工具做深度整合,劳心劳力。 但是,我们现在有MCP了。 MCP致力于标准化大型语言模型(LLM)与外部数据源、工具之间的交互方式 。 Anthropic的官方比喻很形象: MCP就像AI应用程序的USB-C端口 。 USB-C是如今设备通用的接口,不管充电、传数据都是一个口搞定。 MCP的野心也是这样的, 搞一个AI领域的万能接口 ,让各种模型和外部系统接驳都用同一个协议,而不是每次另写一套集成方案。 以后AI模型要连数据库、连搜索引擎、连第三方应用,不用每家各订各的协议,只要都支持MCP就能对上话。 它大概是客户端-服务器架构的思路: 1. MCP服务器= 整合的情报局 企业或个人可以把自己的数据库、文件系统、日历、甚至第三方服务封装成一个个“MCP Server”,这些Server符合MCP协议,向外暴露统一格式的访问端点,任何Agent只要符合MCP客户端标准,就能发送请求、检索信息或执行操作。 比如高德就把自己的一些API,封装成了MCP,只要你有高德的API Key,你就可以在Agent上调用高德。 2. MCP客户端 = 外交官实际使用的终端设备 就像一个Agent外交官带着专用的终端设备,可以输入各种指令:“帮我查一下财务系统里库存数据”、“帮我向某个API提交请求”,“把某份PDF拿来我看看”。 过去,如果没有MCP,你得针对各种系统写不同的访问代码,整合起来极其麻烦;但是用了MCP后,只要客户端支持协议,就能轻松切换到不同的MCP服务器。 调用不同的信息,随时获取情报、做业务流程。 这大概,就是MCP的机制。 三. A2A和MCP的不同 抽象讲了很多,可能很多人,还是有点云里雾里。 别急,我们通过一个故事化的场景来把A2A和MCP的区别与合作说明白。 比如我们现在,有一个世界版的国际峰会。 各国首脑其实是各家公司的Agent代表,比如谷歌代表是小G,Anthropic派出了小A,OpenAI来了个小O,国内的阿里派出小Q,腾讯派小T等等。大家齐聚一堂,要合作完成一项跨国任务,比如联合写一份全球经济分析报告。 在没有通用协议之前,这会基本开不起来,因为每个代表讲自家语言,互相听不懂。 但现在好了, 有了A2A协议这套外交标准 ,所有代表进入会场前都签了《A2A维也纳外交公约》:发言必须用统一格式,说话先报身份、标明意图,回应要引用之前的发言ID等等。 于是,小G可以正式地用A2A格式发消息给小O,小O收到后依样画葫芦地回复一个A2A消息。 这样,不同公司的AI首次实现了无障碍对话。 二对话进行中,各位AI代表难免需要查阅资料或使用工具帮助分析。 这时候Anthropic的小A说:“各位,如果需要外部数据或工具的支持,可以通过MCP系统获取。” 原来,会场边上还架设了一套“MCP同声传译室”。里面坐着各种专家(对应不同的MCP服务器)。 有谷歌Drive资料馆管理员、有Slack聊天记录管家、有GitHub代码管家,甚至还有Postgres数据库管理员…只要通过MCP提请求,他们就能用统一语言回应。 比如,小Q(阿里云代表)想调自家云端数据库算点东西,如果按老办法,他得派人打个飞的回国去拿。 现在他直接在会上发送一个MCP请求(这请求其实也是按MCP定义的JSON格式发给对应的MCP Server): “我要查询X数据库里的Y数据”。 MCP数据库管家翻译室收到请求,立刻查库拿到结果,用MCP语言回复给小Q。 整个过程对其他Agent来说是透明的,他们也听懂了小Q引用的这份数据,因为MCP翻译过来的格式大家都认识。 继续写报告过程中,小G(谷歌)和小A(Anthropic)发现需要把各自部分内容对接起来分析。 小G擅长数值分析,小A擅长语言总结,那就协作: 小G通过A2A对小A说“我这边算完GDP增速了,数据如下”,小A收到后,在自己这边通过MCP又连了一下Excel表格插件,验证了数据趋势,然后再用A2A回复小G一个总结段落…… 一来二去,A2A让Agent彼此沟通任务,MCP让每个智能体方便地调用外部工具补充信息,两套协议配合默契,报告很快完工。 这个故事中,大家可以清楚地看到: A2A更像外交部专线,解决的是Agent直接对话的问题。 MCP更像同声传译与资源共享系统,解决的是智能体对接外部信息的问题。 两者配合起来,就是为AI版联合国量身打造的沟通协定。有了它们,AI Agents可以各展所长又紧密合作,真正形成一个互联互通的AI生态体系。 写在最后 当A2A和MCP这样的开放协议逐渐统一标准之后,我们有理由畅想一个全新的AI Agent生态。 无数AI Agent像网站一样部署在各处,它们通过A2A协议彼此发现、通信,通过MCP协议调动资源、分享知识。 我们作为用户,就像当年浏览网页一样,可以无感知地使用这些智能体的协同服务。比如,你的个人AI助理Agent接受了你的复杂委托: “帮我计划一次欧洲旅行,顺便写一篇游记稿件。” 它不会单打独斗,而是迅速通过A2A喊来各路好手:旅行规划Agent、航班预订Agent、翻译Agent、文案Agent…… 大家分工合作,各显其能。 正如我们希望国家间少打贸易战、多订规则,AI领域我们也乐见各家少搞闭关锁国,多推行兼容协议。 A2A和MCP的崛起,意味着AI产业已经在朝着 协作而非对抗 的方向进化。 现实世界,和AI世界,明明是一体,却是两种趋势。 真是讽刺。 最后,希望这篇文章,对你有一些帮助。
全系降价 2 万元、百公里 2 L 油,奇瑞下定决心要干一架
奇瑞在 10 号的发布会上说了两件大事。 一件是他们新研究的混动专用发动机,实测达成了百公里 2L 的油耗。 另一件是宣布旗下 3 大车系的 10 款混动车型通通降价 2 万元,跟进了车圈的价格战。 面对最近来自市场的各种压力,奇瑞不想再低调下去了。 百公里 2L 油的新技术 先来讲讲新的混动技术,总结起来其实是一句话——我们的技术很厉害,请快点来买我们的车。 技术厉害在哪里呢? 超过 48% 的热效率,百公里 2L 的油耗,以及电混发动机、电混 DHT 变速箱和电混专用电池这三大件实现了全栈自研。 还有几个没那么直观,但也很厉害的参数——26:1的超高膨胀比、全域实现过量空气系统系数 lamda=1、EGR率达到35%。 另外,奇瑞专门研究了了强越野方案。 有越野专属的 2.0T GDI 全能混动发动机、越野专属多档混动变速箱,以及矢量双电机,其中,2.0TGDI 全能混动发动机功率可达到 200kW,峰值扭矩 400Nm,涉水深度可达到 1240mm;还有全球首创横置3挡架构、全球首发纵置十合一2挡架构;矢量双电机则拥有行业第一车端最大功率1200kW。 奇瑞说自己能有这样的技术突破,主要归功于「三驾马车」。 首先是对核心技术的全链条掌控,也就是刚才提到的三大件全部自研。 其次是以安全为底线,定义行业标准。特别是针对当前混动车型在高速馈电情况下容易失速而带来的安全隐患做了专项优化。 再就是携手全球伙伴共建开源生态。在全球设立了8大研发中心,并且对合作伙伴开源自己的技术,一起创新。 10 款车型大降价 那你可能会有点疑惑说,现在大家的注意力不都在纯电上,有必要在混动上花这么大力气嘛? 不知道你还记不记得董车会在稍早之前写过一篇文章——《保时捷计划开发新燃油 SUV,欧美车企集体「开倒车」?》 里面提到说大多数海外车企都放缓了走向纯电的步伐,开始更多的发展混动技术。 但其实中国厂商对外也对外出口了不少混动车和零部件。 比如奇瑞,截至到 2025 年一季度,就差不多累计出口了 470 多万台整车和 70 多万台发动机。 海外市场对奇瑞来说,还是相当重要的,2024 年,奇瑞汽车营收达到了 4800 亿,总销量达到 260 万辆,出口达到 114 万辆。海外市场的销售份额快占了整个集团的一半。 但最近的情况大家可能都知道,普遍的预期是今年的出口可能会不太乐观。 再加上最近车圈愈演愈烈的价格战,奇瑞也不得不考虑从「活的好不好」转变为「先活下去」。 这次大降价涉及到了四大品牌(分别是奇瑞风云、捷途山海、iCAR 和星途瑶光 C-DM),虽然不是全部车型,但也足够震撼了,最低的是风云 A8,一口价 8.99 万元起,甚至连 A8L 都一口价 10.99 万元起。 简单介绍一下这几款车。 2025 款风云 A8 搭载鲲鹏超能电混 CDM5.0,第五代混动专用发动机,最大功率 115 kW,综合热效率 44.5%,百公里加速 7 秒级,极速可达到 205km/h。匹配电混 DHT、高性能混动专用电池,CLTC 纯电续航 145 km,实测综合续航 2000km+,实测百公里油耗低至 2.68L。 2025 款风云 T9 采用 5+2 座椅布局,得房率高达70.04%,前排还支持 10点 按摩/ 3 挡加热/通风。搭载鲲鹏超能电混 CDM5.0,WLTC 综合续航 1400km+,CLTC 最高纯电续航 210km。 2025 款风云 T10 则采用大六座布局,动力搭载鲲鹏超能电混 CDM5.0,四驱版百公里加速 4 秒级,且 200km/h 高速不失速。搭载宁德时代大容量电池,纯电续航 210km,WLTC 馈电油耗 5.75L,综合续航 1400km+,实测最远 2196.64km。 与此同时奇瑞也发布了山海 T2 加长版的预售价格,并且在 4 月 18 日正式上市,预售价格是三个版型,两驱版一个,四驱版两个,分别是 19.99 万元、23.49 万元和 24.49 万元。 结合整场发布会和价格来看,奇瑞这次多少有点「亮剑」的意思,打算用技术和价格双重抗压,无论是开源全栈自研的混动三大件,还是 10 款车型直降 2 万元,都证明了奇瑞想打好这场「仗」的决心。
马斯克否认SpaceX制造星链手机传闻,怒斥外媒“谎话连篇”
凤凰网科技讯 2月6日,针对路透社SpaceX将推出“星链手机”的报道,SpaceX首席执行官埃隆·马斯克(Elon Musk)在社交平台X上进行了辟谣,明确表示公司并未研发此类硬件产品。 马斯克在回应相关报道时直接指出:“We are not developing a phone.”(我们没有在开发手机。) 他进一步批评部分媒体的报道内容不实,甚至直言路透社“谎话连篇”。 此次回应是对近期市场猜测的定调,彻底否定了外界关于SpaceX目前正在涉足智能手机硬件制造的说法。虽然马斯克曾于1月底在与网友互动时提到,未来推出一种“纯粹优化为运行最高性能/瓦特神经网络”的设备并非完全不可能,但他当时也强调这若存在,将是与传统手机截然不同的AI计算设备。外界此前将这一模糊表态过度解读为“造手机”的信号,而马斯克最新的表态则消除了这种歧义。 “星链手机”传闻与现有“星链直连手机”(Direct to Cell)技术之间有本质的区别。目前SpaceX确实在积极推进Direct to Cell业务,但这并非指制造新的手机硬件,而是一种通信服务技术。该技术允许现有的普通智能手机(如iPhone或Android设备)在无地面基站覆盖的区域,直接连接星链卫星进行短信、通话及上网。马斯克此前多次强调,这项技术旨在消除信号死区并在紧急情况下提供通信保障,是基于现有手机生态的增值服务,而非通过制造SpaceX自有品牌手机来与苹果或三星等厂商竞争。
联发科发布天玑 9400+,还想推动智能体 AI 的发展
联发科最新的旗舰芯片 9400+ 发布节奏有点独特,首发搭载它的 OPPO Find X8s 系列在昨晚已经发布,但芯片的正式发布,却是在今天的举办天玑开发者大会 MDDC 2025。先发终端产品,再发新片的节奏在业内倒是很少见,不过想来也比较好理解,作为小升级产品,联发科肯定还是想把更多的声量留给下半年的天玑 9500。 天玑 9400+ 发布,定位变了 联发科对于天玑 9400+ 的定位是「旗舰 5G 智能体 AI 移动芯片」,旗舰和 5G 我们都很好理解,智能体 AI 是什么意思?联发科认为,当下智能手机的 AI 经历了分析式 AI 和生成式 AI 两个阶段,现在正处在往智能体 AI 发展的过程中,因而天玑 9400+ 的使命就成了提供生成式 AI 和智能体化 AI 能力,以高智能、高性能、高能效、低功耗特性处理各类 AI 任务。 天玑 9400+ 采用第二代全大核架构,8 核 CPU 包含 1 个主频为 3.73GHz 的 Arm Cortex-X925 超大核,以及 3 个Cortex-X4 超大核和 4 个 Cortex-A720 大核。天玑 9400+ 集成 MediaTek 第八代 AI 处理器 NPU 890,端侧率先支持 DeepSeek-R1 推理模型四大关键技术,同时率先支持增强型推理解码技术(SpD+),所以智能体 AI 任务的推理速度能够提升 20%。另外,天玑 9400+ 搭载 12 核 Arm GPU Immortalis-G925,支持天玑 OMM 追光引擎和天玑倍帧技术,前者让游戏视觉效果更逼真更炫酷,而后者能够让游戏更流畅,同时功耗更低。 相比于 Cortex-X925 超大核主频相较于天玑 9400 的提升,天玑 9400+ 的有两个连接性的提升:视距内手机对手机的蓝牙连接扩展到 10 公里,连接距离是天玑 9400 的 6.6 倍,新增支持北斗卫星轨道信息,即使没有蜂窝网络连接,首次定位时间(TTFF)也能加速 33%。 联发科更想推动智能体 AI 的发展 前面说了天玑 9400+ 发布节奏的事情,以及定位的改变,其实这次天玑开发者大会 MDDC 2025 的主题就呼之欲出了:AI。 「AI 随芯,应用无界」的主题比较虚,联发科和开发者们真正想讨论的是智能体 AI (Agentic AI)体验发展和技术新范式下的共同机遇。 这里解释一下什么是智能体 AI(Agentic AI),相比于位于幕后的分析式 AI 和需要用户主动提出需求的生成式 AI,智能体 AI 可以根据高级目标自主进行推理,制定计划并执行复杂任务。 MediaTek董事、总经理暨营运长陈冠州说: AI 产业正全面加速成长,催生出全新形态的 AI 体验。下一波 AI 浪潮属于智能体 AI。MediaTek 一直领创前沿 AI 技术与生态系统的发展,每年通过 20 亿台边缘设备,将智能体 AI 从技术概念转化为全民触手可及的体验,赋能万千应用,实现从智能向智慧的跨越式升级。 话术当然有点官方,但相比于去年大谈特谈生成式 AI 的节奏,今年的智能体 AI(Agentic AI)显然更打动人,也对普通消费者更有吸引力。 不过,联发科作为上游企业,和消费者的直接联系并不多,在这场 AI 变革当中更想扮演领航员和基石的角色。于是乎,联发科就推出了 AI 应用与游戏的一站式可视化智能开发工具——天玑开发工具集(Dimensity Development Studio),天玑 AI 开发套件 2.0。另外,联发科还拉着阿里云通义千问、传音、面壁智能、摩托罗拉、OPPO、荣耀、vivo、微软、小米共同启动「天玑智能体化体验领航计划」,一系列动作,都是用来帮助智能体 AI 的发展。 联发科发布的这个天玑开发工具集(Dimensity Development Studio),包含 Neuron Studio 和 Dimensity Profiler 两部分。 Neuron Studio 支持 AI 应用开发全流程分析,开发者可实时查看每个模型的执行细节,Neuron Studio 打造了跨模型全链路分析功能,提供全局视角和执行流程,能够大幅节省模型分析时间。Neuron Studio 还支持神经网络自动化调优,将性能和内存占用自动优化至理想配置,开发者可全程监控大模型演化过程,让模型与端侧平台的适配更加省心、省力、省时间。此外,Neuron Studio 提供开发一站式整合,通过整合 MLKits 开发工具,帮助开发者实现模型开发一套工具就能行。 系统全性能一站式分析工具 Dimensity Profiler 则可覆盖 CPU、GPU、NPU、内存、FPS、温度、功耗以及网络等核心性能指标,并提供「实时、回放、逐帧、深度回放」四大分析模式,为开发者提供全面的游戏调优支持,充分释放天玑平台的性能潜力,降低移动游戏的优化难度。 除了 Dimensity Profiler 的推出,天玑星速引擎也获得了升级。借助天玑倍帧技术,开放世界移动游戏《无限暖暖》即将带来 60 帧满帧体验。 天玑星速引擎自适应调控技术帮助 Google Android 动态性能框架在 2025 年 Android 新版本生效,另外,联发科携手《王者荣耀》海外版 Honor of Kings 创造 18% 的功耗收益。天玑光追仿生细节也有所升级,与《暗区突围》合作,让仿生细节再突破,实现接近 PC 级骨骼模型效果。AI 落地方面,联发科还与《王者荣耀》、《永劫无间》手游等游戏合作,成功在端侧部署 TTS、ASR、LLM 等 AI 模型,为玩家带来更低延迟、更精准的语音互动体验。 天玑 AI 开发套件 2.0 主要应用在开发者布局智能体 AI 用户体验领域。其中,Gen-AI Model Hub 模型库适配的模型数量提升至 3.3 倍,为开发者提供更加多样化的全球主流模型选择;联发科海推出开源弹性架构,助力开发者自由选择模型并加速部署。天玑 AI 开发套件 2.0 率先支持 DeepSeek 四大关键技术:混合专家模型(MoE)、多 Token 预测(MTP)、多头潜在注意力(MLA)和 FP8 推理(FP8 Inferencing),理论上 token 产生速度可提升 2 倍,内存带宽占用量可节省 50%。同时,通过天玑 AI 开发套件 2.0,端侧 LoRA 训练速度提升可超过 50 倍。 可以这么说,联发科上半年开天玑开发者大会 MDDC 发改进型旗舰芯片,并宣布 AI 战略,下半年发布年度旗舰芯片的节奏,在现在的遇事不决问 AI 的时代,对于占领 AI 心智高地还是大有益处的,这大概也是为什么天玑 9400+ 和 AI 战略在这场开发者大会上地位反转的原因,因为 AI 是需求侧,芯片是供给侧,定义了需求,供给才顺理成章。
消息称字节跳动计划推出AI智能眼镜,正在与供应商谈判
AI智能眼镜 凤凰网科技讯 4月11日,The Information报道,据两位知情人士透露,字节跳动正计划推出自家的AI智能眼镜。这一消息标志着,全球科技巨头们愈发将智能穿戴设备视为AI服务的下一个新兴市场。 据其中一位知情人士透露,字节跳动预计将在其智能眼镜中,提供类似自研模型豆包的AI功能。 目前,字节跳动推出这款智能眼镜的时间和销售地区尚未确定。据了解内情的人士透露,字节跳动正在与供应商谈判,确定产品功能、技术规格、成本以及发布时间。对此,字节跳动的发言人尚未回应置评请求。 去年10月,字节跳动首次涉足AI硬件领域,在中国推出了配备AI功能的无线耳机Ola Friend。这款耳机允许用户无需使用手机,即可与字节跳动的豆包聊天机器人对话。学生可以用它练习外语口语,旅行者也可以通过它了解旅行目的地的信息。然而,售价1199元的 Ola Friend并未获得市场的广泛认可。 知情人士称,字节跳动自去年起就开始研发AI眼镜项目,一些新入职、具有硬件设计经验的工程师也参与其中。公司的工程师们正在攻克诸多技术难题,比如如何在不牺牲过多电池续航的前提下,确保眼镜能够拍摄出高质量的图像和视频。 字节跳动在消费级硬件领域已有多年经验。2021年,该公司以13亿美元收购了VR头盔制造商Pico。但在2023年底,由于Pico头盔的销售未达预期,字节跳动缩减了其VR业务规模,并取消了Pico新旗舰头盔的发布计划。(作者/陈俊熹) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
AI打破脑机接口延迟壁垒:瘫痪者“开口”近乎实时
IT之家 4月11日消息,加州大学伯克利分校与旧金山分校的研究团队在脑机接口(BCI)领域取得突破,成功开发出一种技术,帮助重度瘫痪患者恢复自然语音表达。该技术利用人工智能(AI)模型,将大脑信号实时转化为可听语音,解决传统语音神经假体延迟问题。 加州大学伯克利分校与旧金山分校的研究团队开发了一种创新方法,通过捕捉大脑运动皮层信号,利用AI算法实时解码并生成语音。 研究共同负责人、伯克利分校电气工程与计算机科学系助理教授 Gopala Anumanchipalli 表示,这种“直播”(streaming)方法借鉴了类似Alexa和Siri的语音解码技术,能显著缩短从大脑意图到语音输出的时间。实验中,患者Ann无需发声,仅通过“默想”句子即可生成接近自然的语音。 新技术的核心在于解决传统BCI语音解码的延迟问题。以往技术单句解码需约8秒,而新方法能在患者产生说话意图后1秒内输出首个音节。 研究共同第一作者、伯克利分校博士生Kaylo Littlejohn介绍,团队通过AI预训练文本转语音模型,模拟患者受伤前的声音,让输出更具个性化。实验还验证了该技术对多种脑信号采集设备(如微电极阵列和面部肌电传感器)的兼容性,显示其广泛适用性。 研究团队进一步测试了算法的泛化能力。他们让患者Ann尝试“说出”26个未包含在训练数据中的单词,如NATO音标字母表中的“Alpha”、“Bravo”等。 结果显示,模型仍能准确解码,证明其不仅依赖模式匹配,而是真正学习了语音的构成规律。另一位共同第一作者、博士生Cheol Jun Cho表示,这种能力为未来提升语音表达的语气、音调等特征奠定了基础。 患者Ann反馈,相比2023 年的早期实验,新方法让她感到更强的控制感和自我表达能力。研究团队计划继续优化算法,增强语音的自然度和情感表达,同时探索如何将技术应用于更广泛的临床场景。
OpenAI升级Memory功能,并且还要自己做知识库了?
在谈到今天凌晨OpenAI升级的Memory功能之前,我得先说一个东西。 在观看官方发布的介绍Memory功能的视频里,我发现他们演示的对话窗口下,是有一个Internal Knowledge按钮的,就排在Deep research(2月初上线)和create image(3月底上线)的后面。 这功能肯定是内部人员才用上了,多半是他们平时自己已经看习惯了,做demo的时候也没管这么多。 我第一时间想到的,就是知识库了,多半还是基于RAG技术?前两天我在测试公号后台AI回复功能的时候,还顺带介绍了一下RAG,用外部知识库辅助大模型回答问题,优点之一是可以降低AI幻觉。 但是,这样一来,又将有一波做知识库类的产品要死掉了? 现在一般我让GPT做强推理的研究任务时,我如果有必须让他先读一下的内容,我都需要在提问时把文档和图片什么的尽量都丢进去,之后如果GPT自己有了知识库,那就方便很多。 话说我昨天也升级了一下我公号的AI自动回复的知识库,现在终于把我历史上发布且没删的总计177篇文章,都导入成功了,感兴趣的朋友可以再去体验一下。 就是直接发私信给我的公号,问问AI行业,问问移动互联网,或者问问张一鸣、张小龙和段永平之间谁高谁低之类的。 下面说下memory,刚刚看到OpenAI凌晨只发布了这个的时候(还有一个检验模型们用浏览器寻找超难信息能力的评估测试体系),我有点失望,原来不是发新的o3满血版新模型啊,昨天Google可是更新了好几个模型呢(有些只是期货)。 在我点击了show me之后,马上就进入了对话窗口,GPT马上就夸夸了我一大段话,我真的醉了,我前天还说deepseek有点舔狗,原来GPT竟然可以比deepseek更舔狗? 注意上图的第一句prompt,是在我点了show me后,系统自动帮我生成、并打开一个对话窗口发出去的:Describe me based on all our chats — make it catchy! 根据有道词典,catchy:动人的、悦耳易记的、易使人上当的。 然后我再问GPT,我有什么缺点,然后我彻底无语了,这可是一般面试题的经典回答套路啊,我宣布GPT已成为我最大的舔狗! 从我过去的使用经验来看,所有对话式AI,都会在开启一个新对话窗口以后,彻底忘掉其他窗口里和你聊过的内容,完全基于新窗口里的prompt和你互动。 虽然其实系统当然可以记住上一次甚至之前所有的对话内容,但就算没有上下文长度的束缚,这也会造成给出的回答不及预期甚至越来越胡乱的情况,尤其是对于推理类或者研究类问题。 毕竟只要prompt给得好,答案精准没烦恼。 但是对于把GPT只是当作聊天工具和情感沟通的人来说,他们的使用体验似乎会有不小的提升? 官方给的功能说明: ChatGPT 现在可以记住您过去的对话内容,从而提供更相关的回答。随着您与 ChatGPT 的互动,它会记住对话中的细节和偏好,您可以通过与它交谈来教它记住新的信息,例如:“当我推荐食谱时,请记住我不吃肉。”要了解 ChatGPT 记得什么,只需问它。您可以控制 ChatGPT 的记忆。您可以重置、清除特定或所有记忆,或完全关闭此功能。如果您希望与 ChatGPT 进行没有记忆的对话,可以在“临时对话Temporary Chat”使用此功能。(有一个点要注意,你们聊过的但是已经被你删掉的对话,也可能会进入记忆,需要专门清除。) 我随意脑补的一个场景是:这是一个跟了你几十年且从不失忆的个人管家,当你让他为你定制一次出行攻略时,他自动为你加入了很多你自己都忘了的注意事项,也许是你要吃的药,目的地哪里能买到这种药,也许是目的地的某种食物让你过敏,这些一般都不会在其他攻略里被提到。 如果开启记忆功能,除了会把过去所有的聊天都重读一遍,GPT也会基于和你的历史对话,把一些你反复出现的固定特征,记录下来,成为长期记忆点,就是下图的reference saved memories。 我点开GPT给我的长期记忆,第一条就让我震惊,他竟然把我的身材作为一个主要的记忆点保存了? 就因为我在测试4o生图能力时上传了很多我的健身照? 根据有道词典,well-developed:发达的,发育良好的 未来,也许正如Sam刚发的推特中说到的:“AI将伴随你的一生,逐步深入了解你的需求,最终成为高度个性化且极具价值的智能助手。” 我让DS给改得高大上一点:“AI将如老友般与你共度岁月,在时光中沉淀默契,终成独一无二的灵魂伴侣。” 其实,人类在地球上能够从食物链的下游逐步强大起来,靠的就是远胜其他动物的记忆力(以及复杂语言和构建抽象概念的能力)。 说白了就是我们脑子好,有智能,但现在人工智能有更好的记忆力,更好的语言能力和更好的推理能力,我们智人这个物种的生存模式将会发生怎样的改变?主导?共生?被驯化? 还有个事儿,GPT-4模型,本月底将正式走入历史舞台,不能再被选择了。 回想起GPT-3.5和4刚发布时带给我的震撼,仿佛就发生在昨天,一切都来得太快了,我们真的准备好了吗?
原华为高管打造 首个基于开源鸿蒙的机器人操作系统发布
原标题:原华为终端BG软件部总裁王成录打造 首个基于开源鸿蒙的机器人操作系统发布 快科技4月11日消息,据媒体报道,深开鸿在广东省人工智能与机器人产业创新产品与服务新闻发布会上,正式发布全国首个基于开源鸿蒙的分布式异构多机协同机器人操作系统——M-Robots OS 1.0。 该公司称,这一技术成果标志着我国机器人操作系统迈入“多机协同、群体智能”的新阶段。 深开鸿CEO王成录指出:操作系统是机器人产业的魂,决定了机器人的智能化水平和生态扩展性。 当前全球机器人产业面临严峻挑战:一方面,传统“Linux+ROS”生态长期垄断市场;另一方面,国内企业技术路线碎片化,硬件、软件互不兼容,导致重复开发成本高、协同效率低下。 M-Robots OS以开源鸿蒙(OpenHarmony)为底座,通过统一标准实现多形态机器人的高效协作,并赋能机器人与人、环境的智能交互,我们的目标不是替代现有系统,而是面向未来多机协同场景,构建全新架构。 据悉,M-Robots OS凭借开源鸿蒙的技术优势,展现出四大差异化能力: 多机实时协同:响应硬实时低于1微秒,可满足机器人、无人机、工业控制及自动驾驶等场景需求; 多硬件兼容:支持不同品牌、类型设备互联,实现资源统一管理; AI原生支持:内置算法库,支持自主优化任务策略与人机交互; 低门槛开发:提供丰富API与工具链,加速行业应用落地。 目前,该系统已在工业机械臂、协作机器人等场景完成验证,预计2025年联合广东省合作伙伴实现工业产线商用测试。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。