行业分类:
加载中...
头条分类:
加载中...
三只松鼠跌成“半只松鼠”后,又想募资出海
刚爬出营收“四连跌”,“国民零食第一股”三只松鼠于近日向港交所提交招股书,以谋局全球化,并正式向国内首个“A+H”双上市零食品牌发起冲击。 不过,三只松鼠的国际化尚处起步阶段,2024年海外营收占比仅为0.01%,不值一提。 同时,在国内已成红海的休闲零食市场中,三只松鼠面临着严重依赖抖音渠道、毛利率承压、股价跌跌不休、消费者投诉高企等诸多问题。 严重依赖抖音渠道 靠着电商高速发展时期的红利,三只松鼠让零食行业见识到了互联网流量的疯狂。 2019年,三只松鼠成功登陆A股,并在短短十个月时间中狂飙了500%至88.00元/股(前复权),市值直逼360亿元,中专毕业的章燎原也以111亿元的身家,短暂登顶过安徽首富的宝座。 不过,零食的神话很快就破灭了,三只松鼠交出了“营收四年跌”的经营业绩。从2020年至2023年,三只松鼠分别实现营收97.94亿元、97.70亿元、72.93亿元和71.15亿元,分别下滑3.72%、0.24%、25.35%和2.45%。 这四年,三只松鼠的股价也从88元/股(前复权)的高点跌至2024年初的14.48元/股,直接跌破2019年登陆A股时的发行价,跌幅超过83.5%,坊间戏称“三只松鼠跌成了半只松鼠。” 事实上,过去四年营收的下滑,核心原因在于发迹的淘宝、京东等传统第三方电商平台流量的日渐式微,及抖音等新兴内容电商渠道布局的不及时,致使线上规模收缩,影响整体业绩表现。 「快马财媒」发现,在2019年传统第三方电商平台贡献98.69亿元,占营收比重达97%创出历史新高后,传统三方电商平台的营收贡献开始逐年下滑。从2020年至2023年,传统三方电商平台分别贡献营收72.04亿元、64.79亿元、47.88亿元和49.51亿元,占营收比例分别为73.56%、66.31%、65.66%和69.59%。 2023年,抖音平台首次出现在财报中。这一年,抖音贡献营收12.04亿元,同比增长118.15%。其贡献也首次超过了京东系的11.97亿元。 2024年,第三方电商平台贡献了74.07亿元的营收,占总营收比重为69.73%。营收构成中,抖音系贡献21.88亿元,同比增长81.73%,均高居榜首。传统三方平台天猫系、京东系分别贡献营收19.37亿元、13.4亿元。 2024年,三只松鼠营收大增49.30%至106.2亿元,归母净利润大增85.51%报4.08亿元。要不是抖音系的迅猛发展,三只松鼠大概率爬不出“营收四连跌”的大坑。 但是,三只松鼠已经对抖音平台形成严重依赖。更令投资者担忧的是,伴随对抖音平台的依赖逐年加大,三只松鼠的流量成本也在持续上升。单就2023、2024两年,三只松鼠支付平台服务及推广费用7.78亿元、12.24亿元,累计超过了20亿元。 而据「快马财媒」了解,三只松鼠能在抖音平台快速打开局面,与其“高端性价比战略”不无关系。章燎原曾自嘲,“同样的夏威夷果,别人卖5元我们卖10元确实太高了,活该被淘汰”后,三只松鼠将原价30元的500g夏威夷果降至22.9元,坚果礼盒的毛利率从2022年的33.06%降至2024年的28.97%,活生生走出了一条以价格换利润的路线。 0.01%的海外营收背后 在港股消费板块迎来“IPO小阳春”之际,三只松鼠也披露赴港IPO的招股书,并表示将募资用于全球供应链体系建设、品牌国际化推广及境外融资能力拓展,以及进一步落实“高端性价比”战略。 事实上,三只松鼠的全球化动作早在2018年就开始了,但直到2024年年报才首次公开海外营收数据。数据显示,2024年三只松鼠国外市场累计实现营收69.68万元,占总营收的比重仅有0.01%。 试水海外市场多年,才拿到0.01%的营收占比。单从这一经营情况来看,三只松鼠几年下来也没能真正打开海外市场。赶在筹备H股上市之际,首次披露海外市场收入,很难让人不联想到布局海外是不是为了募资而讲的故事。 据「快马财媒」了解,谋局海外背后,也与国内市场竞争激烈、三只松鼠新品牌进步缓慢有关。 从三只松鼠来看,2020年6月推出“儿童高端健康零食”子品牌小鹿蓝蓝,当年便实现营收0.55亿元。从2021年至2024年,小鹿蓝蓝分别实现营收4.92亿元、4.91亿元、5.88亿元和7.94亿元。2024年小鹿蓝蓝更是实现了同比35.03%的增长。 乍看之下,小鹿蓝蓝的营收在不断增长,但事实上近年来其占总营收的比重不增反降。2023年和2024年,小鹿蓝蓝占营收比重分别为8.27%、7.48%。 也就是说,布局小鹿蓝蓝这么些年,该业务还是没支棱起来。 在三只松鼠布局小鹿蓝蓝之际,还进一步孵化了如养了个毛孩、铁功基、喜小雀等方便面速食、宠物食品、定制喜礼等品牌。但2022年以来的财报中,对上述品牌的营收业绩,是一字无有。也就是说,几乎可以忽略不计。 2025年3月,三只松鼠更是进军饮料赛道,并一口气推出60款硬折扣单品,涵盖果汁、功能乳饮、苏打水等细分品类。也是在这个月,三只松鼠还成立安徽呼息酒业有限公司,疑似跨界进军白酒赛道。 目前看,上述业务布局能否成功,都还是未知数。 再者,国内投诉高企,也时刻困扰着三只松鼠。2025年央视3·15前夕,三只松鼠就因面包发霉事件登上热搜榜。 事实上,三只松鼠等零食品牌被曝出食品安全问题,早就不新鲜了。在黑猫投诉App检索“三只松鼠”,目前共有4373条相关投诉,投诉内容多指向了吃出异物、产品发霉变质等问题。 看来,要想在出海道路上取得进展,食品安全问题这道坎是绕不过去。
外卖日订单量突破1000万单,但京东并不想做第二个美团
刘强东万一真把外卖做成了呢? 京东和美团的外卖大战,从刘强东请骑手吃火锅开始,就已经从口水仗升级为肉搏战了。这两天,除了短视频平台上“扫黄出饿”的梗,“京东黑板报”推送的一组数据也引起业内的热议: 4月22日,晚上8点19分 京东外卖当日订单量突破1000万单 1000万单,是什么概念 做个类比,抖音外卖,做到第五个月时,日订单量为10万单左右;饿了么当前日订单量约为2000万单,美团日订单大概在7800万单左右。 横向对比,从京东外卖正式上线到日单量500万单,用时46天,而从日单量500万到1000万,京东外卖仅用一周左右的时间。业内专家李成东算了一笔账:(京东)干到现在1000万单,投入不会超过40亿,如果30日内冲2000万单 (≈饿了么),投入不会超过60亿。 京东能在短时间内取得如此战果,既有战略和执行层面的称道之处,比如京东外卖上线后,主要做了三件“大事”:为骑手交社保、做品质外卖、上线百亿补贴;也有舆论上的意外收获,比如刘强东亲自下场,点燃“外卖市场苦美团久矣”的呼声。 需要补充的是,“京东黑板报”的这条推送,从数据上还能看出两层意思: 一是京东外卖拓城速度变慢。京东表示,“从外卖的第1单到如今的第1000万单,服务全国166个城市”。而一个月前日订单量突破100万单时,官方公布的数据为142城,“京东外卖平台上,已有超45万家品质堂食餐厅为全国142城用户提供放心、可靠、好吃的餐品。 ” 可以判断,京东初期选择的从线上全面撒网,吸引商家的策略进入调整期,后期将面临美团早期“一城一地”强地推的挑战。 这也不排除京东外卖有意放缓拓城速度,在外卖单量快速增长的时候,快速进行内部算法技术、运力调配以及运营策略的迭代,以适应后续更加激烈的大战。 二是京东继续强调对用户、骑手和商家的“品质”承诺: 让用户吃得放心、安全、实惠 为骑手提供有尊严、有保障的工作 让坚守品质的堂食餐厅 赚到它们应赚的钱 让“幽灵外卖”滚出市场 劣币不再驱逐良币 这是京东外卖既定的策略,高举“品质外卖”大旗,形成对竞对的舆论以及用户心智势差。 这也是我一直建议的,京东外卖希望速决,但这注定是一场持久战——这也是美团希望的战局,毕竟王兴凭此熬死过太多对手,也成了小王CEO自傲的历史成绩单——就需要持续在“品质外卖”上打透,参考米其林或者大众点评,成为卫生敏感、品质需求型用户的外卖首选,以凸显京东外卖的差异化价值:京东认真做外卖,不负用户每一餐! 京东并不是想做第二个美团 单从订单量看,京东外卖短时间内的突防能力,还是让美团外卖感受到了威胁。但在唐辰看来,日订单量突破1000万单,对京东外卖的意义有限,但对京东的意义很大。或者说,日订单量是衡量京东做外卖是否成功的标准之一,但也只是之一。 理由很简单:京东并不是想做第二个美团。京东外卖日订单量无论是1000万单,还是2000万单,即便是做到外卖市场的第一位,其意义对京东来说,也并不是决定性的。 京东CEO许冉之前在业绩电话会上说,不要单独去思考即时零售或者外卖业务,而要结合京东整体零售业务能力和服务体验通盘考虑。 不难看出,京东外卖订单背后是对流量的争夺。对京东来说,外卖带来的收益也远不是账面盈亏那么简单。 这是京东的一轮防守反击战:防守的是美团在即时零售上对京东大本营的偷袭,反击的是传统电商业务进入存量时期对新流量的争夺。 美团小王CEO王莆中在“口水仗”中点出,“京东不是第一家想做外卖的公司,也可能不是最后一家”。同时,他还道出一个京东否认不了的事实,美团在即时零售业务上跑得太快了,直插京东等传统电商平台的大本营。 他透露,美团非餐饮品类的订单突破了1800万单。另有媒体提及,美团在今年Q1的一次闪购内部沟通会上公布了一组数据,2024年美团闪购3C家电订单量接近京东全站四成,其中电脑办公类商品订单量已超过京东全站,手机通讯类商品订单量超过京东全站四成;美妆品类订单达京东全站三成。 这股压力对以3C起家,自营为主的京东来说,尤为巨大。京东做外卖,是刘强东破局的一招。 狮子搏兔,尚需全力。这就有了刘强东亲自下场,王莆中对垒的不对称局面。如果能通过外卖业务来完成即时零售的拼图,这无疑相当于打通了京东的第二增长曲线。 图源:网络视频截图 实际上,京东多年来一直在即时零售上布局,比如买菜业务、七鲜业务等。今年更是加大了力度,比如整合“小时达”“京东到家”等品牌,升级推出“京东秒送”、私有化达达以及加码线下超市业态的布局等。 正如我的一位老同事的点评,“用这点补贴的钱来换来每天1000万打开交易,相比存量市场的拉新、老用户激活费用来说,简直不要太划算,同时又能阻击一下势头强劲的对手,一举多得,可以说是非常非常划算的花小钱办大事了!” 他的这个点评拆开来看,就是“防守反击”。身边已经不止一位朋友表示,之前很久没有打开京东,但这轮外卖大战之后,试着点了餐,顺便买了点日用品。这就是美团闪购的逻辑,通过高频需求,稳住流量。 目前,京东已经尝到了甜头。根据QuestMobile最新数据,4月17日,京东App日活跃用户规模1.36亿,较外卖业务上线首日增长2073万,在骑手资源与商家资源争夺方面,达达秒送骑士与京东秒送商家App日活跃用户在4月19日各自分别达到116.3万和101.4万。 万一刘强东真把外卖生意做成了呢 我对京东的担心是,外卖业务毕竟是重投入、重模式的业务,目前这股势头还能持续多久?这又会牵扯到另外一个问题:刘强东如果真把外卖这件事做成了呢? 在刘强东下场请骑手吃火锅之前,我一度认为京东可能并没有认真想过这个问题。 今年2月,京东宣布进军外卖业务时,多数餐饮业以及互联网人士都并不看好,饿了么打了多年,还是在老二的位置,而且市场份额越打越少。而且,外卖和京东物流配送是两个逻辑,京东在这方面有大量的课需要补,直到现在还会出现无骑手接单、配送缓慢等问题。 从官宣到4月初,京东外卖的声量都没有出圈,用户认知也比较模糊。以致于美团对京东也没有引起足够重视,就算刘强东罕见亲自带队,王兴也是作壁上观,没有现身。据36kr报道,有商家称“美团没有像防抖音那样防京东”。 在这期间,京东虽然还是有意或者无意的挑动美团的神经,希望借力打力,对外发声上还是比较有战术性。比如许冉在回答媒体提问,谈及及与美团的竞争时,她表示,“外卖行业本就是一个宽广的赛道,第一它市场规模很大,第二增长依然还很快,我认为完全容得下多个平台。” 这话,王兴也说过。腾讯新闻《一线》提到,2019年美团发布第二季度业绩报告时,王兴在财报电话会中表示,“自己相信这个市场的规模足够大,能够容纳几个大的企业。” 他的这番表态正值阿里在排兵布阵,准备在本地生活领域围杀美团的关键时刻。这才有了后来王兴评价阿里饿了么时说,“从战斗力来说,阿里非常强,但如果他们各方面做得更有底线一点,我会更尊敬他们。”现在来看,美团在外卖领域没有对手很多年了,也忘记了当初的谦卑。 直到李斌吃到京东外卖,“刘强东+许冉”密集释放信息,京东外卖的热度再度飙升。京东的高举高打,对美团的打击很有效,至少在舆论和认知层面,让商家和消费者有了很多的触动。 这刺痛了美团,王莆中忍不住站出来对京东外卖“破口大骂”,称其“狗急跳墙”“大而无当”,把口水仗推到肉搏战的阶段。 某种意义上,王莆中给了京东外卖一记神助攻,帮助京东把“认真做外卖”坐实了。 图源:网络视频截图 如今,京东外卖的体量越来越大,刘强东召集的骑手兄弟越来越多,京东对外卖业务的期待也会在动态调整,其中也包括对外卖业务成败的评判标准。 但可以明确的是,京东做外卖,也不只是做外卖,路径一旦跑通,外卖业务在京东体系内的战略价值就更加凸显出来。 相较其他电商平台,京东无疑更加重视这轮大战,后续也会酝酿出更大的风暴,伴随的也是更大的质疑。但对行业、消费者而言,京东搅局,打破美团一家独大的局面,就是好事。
融资Agent产品亮相,用AI技术介入小微企业融资环节
凤凰网科技讯 4月27日,一场旨在促进金融服务与企业需求的对接活动——北京畅融工程活动25日在京举行。该活动吸引了北京地区二十余家银行机构与超百家企业代表参与,共同探讨金融科技如何服务实体经济,特别是缓解小微企业的融资挑战。 活动中,华城瑞讯(北京)信息科技有限公司发布了其研发的人工智能22°智・融资Agent。据介绍,这款产品是基于深度学习大模型,并针对企业服务垂直领域进行了训练,旨在通过智能化手段分析企业数据,提供融资解决方案。华城瑞讯方面表示,该Agent能够处理包括企业经营、财务及信用等多维度信息,运用量化评估模型,为企业生成定制化的融资建议。 用户在现场体验人工智能22°智・融资Agent 与会企业代表通过微信小程序“22度智企服”现场体验了该款AI融资Agent。用户可通过该平台获取智能工商诊断报告和智能融资分析报告,并能通过系统推荐对接银行专业人士,形成从线上智能匹配到线下业务支持的流程。华城瑞讯称,该工具的目标是减少融资过程中的信息不对称,优化流程,从而提高效率。根据华城瑞讯提供的数据,该Agent的应用有望将小微企业的融资周期平均缩短60%以上,并将融资成本降低约50%。 中国中小企业协会授予华城瑞讯副会长单位 活动现场,来自工商银行等六家银行的金融专家分享了利用金融工具解决客户融资问题的经验,法律专业人士也就融资过程中的法律风险防控提供了建议。中国中小企业协会在活动中授予华城瑞讯副会长单位称号。 市委金融办 聂晓晖先生致辞 市委金融办相关负责人聂晓晖在发言中对华城瑞讯的人工智能产品表示关注,认为其为运用金融科技支持小微企业融资提供了新的探索方向。北京畅融工程是北京市为落实金融服务实体经济、优化营商环境部署的重要举措,旨在建立常态化对接机制,聚焦科创、文化、民营、小微等企业,利用金融科技手段解决信息不对称等问题,提升金融服务能力,支持新质生产力发展。
摸着Manus,字节百度开始过AI Agent这条河
通用 Agent(智能体)的火爆,仍在继续。 引爆这一领域的明星初创公司Manus AI,近期被曝出完成了新一轮7500万美元融资,估值在短短不到2个月内,飙升至5亿美元。 被Manus打开未来想象空间的通用 Agent市场,正在吸引一众科技大厂的入局。最新加入进来的是百度。 近日,百度对外推出了类通用 Agent产品“心响”。百度之前,字节抢跑一众国内科技大厂,率先上线了自家的Agent产品“扣子空间”。 相比传统Agent产品,通用Agent本质区别在于其定位从“工具”向“伙伴”的角色转变,能够处理复杂、多步骤的任务场景。 背靠大厂已有的产品生态,字节和百度共同盯上了同一目标,即借 AI Agent寻找自家 AI 产品体系的新增长点:字节试图将通用Agent概念嵌入工作流,寻找专业场景的落地应用;百度则想要在普通消费者中率先破局。 两者都在尝试打破各自内部的生态壁垒,构建更广泛的AI Agent生态体系,将通用Agent概念彻底打入用户的心智。 然而,受限于大模型技术的成熟度,包括字节、百度在内的所有参与者,都不得不在探索的路上,不断地扪心自问:AI Agent的真正应用场景是什么? 01 追逐AI Agent的场景答案 在找寻差异化应用场景的道路上,字节与百度在这一问题上选择了不同的路径。 字节的扣子空间主要入口为网页端,更易于接触日常办公场景下的软件资源;百度的心响主要面向手机端,目前仍只支持安卓系统,意图将自身产品打入用户的日常场景体验之中。 字节希望用 AI 深度嵌入工作流已成为业界共识。扣子空间“和Agent一起开始你的工作”这句宣传语精准地贯穿了产品逻辑。 扣子空间的最大目标:生产力全面提升。其MCP扩展中,飞书云文档、多维表格和电子表格尤为令人关注。如果能够与飞书平台进行高度整合的话,打通生态间壁垒,扣子空间将会成为企业效率的“智能中枢”。 我们让扣子空间作为一位艺术类型公众号撰稿者,搜集日本艺术家的文字与图片信息,制作成一份文字与艺术作品图片交叉的稿件。 在实际测试中,它对提示词的遵循能力优异,能够自动检索网页、制作可视化报告,流程流畅几乎没有卡顿,给出了一份完整的、规规矩矩的文字报告以及作品时间轴。 字节希望把Agent当作办公过程中的“AI实习生”,主动帮助用户处理文件检索、表格制作、报告生成等任务。其背后的逻辑是:在企业私域内,聪明的AI辅助工具才更容易产生价值。 百度则选择进一步降低使用门槛,从更广泛的普通C端用户切入,其产品心响专为移动端设计,在实际测试中的产品逻辑有些不同:“把难题留给心响,把时间留给生活。" 从功能模块的设计来看,心响相对于字节的扣子空间一个最大的区别是“灵感广场”模块。在该模块内,百度的产品设计者集成了大量的任务模版:晚安故事集、AI绘本、AI相亲等等。 不过,百度的C端策略既聚焦于用户习惯的培养,也有在一定程度上限制了产品的想象空间的嫌疑。技术上来看,心响给了外界一个明显的感受:主模型的指令遵循能力似乎并不如字节扣子空间那样精准,它的思维更加发散。 相比于扣子空间迅捷的内容生成速度,百度的心响在响应速度上显得相对缓慢的多,生成过程耗时更长。 然而,与扣子空间严格遵循提示词、输出规整的报告不同,心响在生成结果时额外设计了交互元素和视觉优化,在输出中融入更多细节和附加价值。 这样的产品逻辑,非常适配于日常场景,因为用户往往被认为在与AI的交互中,提示词工程的经验较弱,甚至很多时候自己都不清楚自己想要的是什么。 02 大厂摸着Manus过河 尽管产品体验上仍有不完美之处,令字节、百度们争抢推出相应Agent产品的的一大原因,则离不开其在商业变现上的天花板足够高。 要知道,竞争打到现在,无论国外的OpenAI,还是国内的字节、百度,其在大模型上都处于亏钱投入阶段。如何寻找到足够强的付费变现模式,无疑是一众大模型厂商的当务之急。 Manus成功拿下7500万美元融资的现身说法,让科技大厂看到了进军Agent领域的一丝曙光。最近OpenAI的一份预期收入报告,则让这丝曙光变得更明亮了些。 据The Information报道,OpenAI预测至2029年,AI Agent及其他新产品的销售额将超越ChatGPT,推高总营收至 1250 亿美元,2030年总营收有望达到1740亿美元。Agent,正被视为继对话式大模型产品之后的下一个大金矿。 而且,对于字节和百度这样生态庞大的公司而言,在各自的生态体系下,借助需要外部MCP交互的Agent,还可以达到盘活现有产品矩阵的效果。 但是,MCP本身不足以实现“世界的互通互联”。其需要大模型在多模态(尤其是推理能力)以及成本价格方面,给予支持。这能也反过来说明,为什么是此时此刻,字节和百度才有能力推出“扣子空间”和“心响”。 根据The Information报道,Manus仅仅在Claude大模型的调用上,两周内就烧掉了超过百万美元。AI Agent的基础工作流中的必要部分——多步推理涉及多次模型调用,处理复杂任务时需结合文本、图像等多模态数据,导致计算量激增,消耗大量GPU资源,说得直白点:AI智能体需要强算力资源、高多模态能力、强推理能力、低成本价格。 进入2025年,推理模型尤其是视觉推理领域的进步,使得Agent在实际产品中的部署变得技术上可行且经济上可持续。字节与百度在多模态大模型领域的早期投入开始有了回报,AI Agent的基础产品形态有了现实支撑。 近期,百度发布了文心4.5 Turbo及 X1 Turbo,强调推理性能与成本优化。代码智能体文心快码更是接入MCP,李彦宏本人直接提出“创新的核心在于成本下降”。 字节同样在4月中旬更新了豆包1.5·深度思考模型,同样主打一个多模态和性价比。据晚点LatePost报道,扣子空间对比了六款国内大模型,最终还是选用了自家的豆包作为基座模型技术支撑,原因是后者推理成本较低,大规模调用可行性高。 03 大厂寻找新“增长点”旅途坎坷 AI Agent概念虽然打得火热,但其定义正被泛化、滥用。通用Agent的资本故事里每一个字都异常美妙,市场潜力巨大,其仍然面临多重技术挑战,包括高任务失败率、上下文理解不足、数据安全风险及潜在的偏见放大问题。例如,无论是Manus、还是字节的扣子空间、百度的心响,这些产品在复杂任务中的可靠性仍说不上有多高。 从较短的时间尺度上来看,AI Agent在复杂任务中的表现仍难以配得上“通用”二字。但如果将目光放得更长远,其作为大厂们AI产品体系的新增长点的潜力无法被忽视。 没有大厂愿意冒着落后的风险,而不选择跟进。这一点深刻地体现在了字节、百度这样的中国科技大厂身上。根据晚点LatePost报道,Manus出圈前后,字节就搞了至少5个团队在开发不同Agent产品;百度的心响则由一群95后组成的团队,在30天内研发出来。 对大厂而言,技术优化迭代是必由之路,挖掘差异化的应用场景才是打开这条路的起始。谁能率先找到复杂用户场景的解决方案,谁就能从这块蛋糕里分走一部分。 这也意味着,字节和百度绝不会是这条赛道里的唯二玩家。国内方面,阿里和腾讯同样虎视眈眈。国外,不光是率先确立了A2A协议的Google,MCP协议的Anthropic,OpenAI对Agent也下了重注。一个月前,The Information 报道称,OpenAI已经在与投资者商议了三类未来的Agent产品的发布,价格从每月2000美元到20000美元不等。 可以想见的是,技术、资本、场景、标准正在AI Agent领域进行混合博弈,对于大厂们而言,这不仅仅是烧钱的开始,也是为产品体系找到全新商业引擎的起点。
OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者
编辑:KingHZ 自回归模型,首次生成2048×2048分辨率图像!来自Meta、西北大学、新加坡国立大学等机构的研究人员,专门为多模态大语言模型(MLLMs)设计的TokenShuffle,显著减少了计算中的视觉Token数量,提升效率并支持高分辨率图像合成。 自回归模型的新突破:首次生成2048×2048分辨率图像! 来自Meta、西北大学、新加坡国立大学等机构的研究人员,提出了TokenShuffle,为多模态大语言模型(MLLMs)设计的即插即用操作,显著减少了计算中的视觉token数量,提高效率并促进高分辨率图像合成。 图1:采用新技术的27亿参数自回归模型生成的高分辨率图像 除了实现超高分辨率图像生成外,生成质量也非常出色。 基于27亿参数的Llama模型,新方法显著超越同类自回归模型,甚至优于强扩散模型: 在GenEval基准测试中,获得0.62的综合得分, 在GenAI-Bench上,取得0.77的VQAScore,创造了新的技术标杆。 此外,大规模人类评估,也验证了该方法的有效性。 与传统方法逐个学习和生成每个视觉token不同,新方法在局部窗口内按顺序处理和生成一组token,如图2所示。 图2:Token-Shuffle流程 Token-Shuffle包括: token-shuffle操作,用于在Transformer输入阶段合并局部空间内的视觉token, 以及token-unshuffle操作,用于在推理阶段还原视觉token。 该方法显著减少了计算中所需的视觉token数量,同时保持了高质量的生成效果。 而且,Token-Shuffle展现的效能与效率,揭示了其在赋能多模态大语言模型(MLLMs)实现高分辨率、高保真图像生成方面的巨大潜力,为超越基于扩散的方法开辟了新路径。 GPT-4o没说的秘密:自回归图像生成 在语言生成领域,自回归(Autoregression)模型称霸多日。 在图像合成,自回归的应用虽日益增多,但普遍被认为逊色于扩散模型。 这一局限主要源于AR模型需要处理大量图像token,严重制约了训练/推理效率以及图像分辨率。 比如,基于自回归技术的GPT-4o生图,让OpenAI的GPU都「融化」了。 但遗憾的是,OpenAI并没有公开背后的技术原理。 GPT-4o生成的第一视角机器人打字图 这次,来自Meta等机构的研究者,发现在多模态大语言模型(MLLMs)中,视觉词表存在维度冗余:视觉编码器输出的低维视觉特征,被直接映射到高维语言词表空间。 研究者提出了一种简单而新颖的Transformer图像token压缩方法:Token-Shuffle。 他们设计了两项关键操作: token混洗(token-shuffle):沿通道维度合并空间局部token,用来减少输入token数; token解混(token-unshuffle):在Transformer块后解构推断token,用来恢复输出空间结构。 在输入准备阶段,通过一个MLP模块将空间上相邻的token进行融合,形成一个压缩后的token,同时保留局部的关键信息。 对于打乱窗口大小为s的情况,token数量会按s的平方减少,从而大幅降低Transformer的运算量。 图3:视觉词汇维度冗余的示意图。左侧:通过两个MLP操作将视觉token的秩降低r倍。右侧:不同r值下的预训练损失(对数刻度困惑度) 在经过Transformer层处理后,token-unshuffle操作重新还原出原本的空间排列过程。这一阶段同样借助了轻量级的MLP模块。 本质上,新方法在训练和推理过程中并未真正减少序列长度,而是在Transformer计算过程中,有效减少了token数量,从而加速计算。 图4直观地展示了新方法在效率上的提升。 图4:Token-Shuffle能够实现计算效率的二次提升 通过在Transformer计算期间压缩token序列,Token-Shuffle实现了高效的高分辨率图像生成,包括支持2048×2048分辨率的图像。 重要的是,这种方法无需对Transformer架构本身进行修改,也不引入辅助损失函数或需要额外预训练的编码器。 此外,该方法还集成了一个针对自回归生成专门调整的无分类器引导(Classifier-Free Guidance,CFG)调度器。 不同于传统的固定引导强度,新的CFG调度器在推理过程中逐步调整引导力度,减少早期token生成的伪影问题,并进一步提升文本与图像的对齐效果。 研究者探索了几种CFG调度策略,相关结果展示在图5中。 根据视觉质量和人类评估的反馈,默认采用「半线性」(half-linear)调度器,以获得更好的生成效果。 图5:不同CFG调度器的比较,CFG尺度从1单调增加到7.5 右侧结果显示,相较于在所有视觉token上使用固定7.5的CFG值,采用CFG调度器能够同时提升图像的美学质量和文本对齐效果。 不同无分类器引导(CFG)尺度下的生成图像示例 自回归的历史性突破 该方法通过与文本提示联合训练,无需额外预训练文本编码器,就能让MLLMs在下一个token预测框架下,支持超高分辨率图像合成,同时保持高效训练推理。 这是自回归模型首次实现2048×2048分辨率的文生图。 在GenAI基准测试中,27亿参数Llama模型在困难提示下取得0.77综合得分,较AR模型LlamaGen提升0.18,超越扩散模型LDM达0.15。 大规模人工评估也证实新方法在文本对齐度、视觉缺陷率和美学质量上的全面优势。 在MLLMs高效生成高分辨率图像领域,Token-Shuffle有望成为基准设计方案。 消融实验等更多内容和细节,参阅原论文。 模型训练:3步曲 实验使用2.7B Llama模型,维度为3072,由20个自回归Transformer模块组成。 模型的预训练被分为3个阶段,从低分辨率到高分辨率图像生成。 首先,研究者使用512×512分辨率的图像进行训练,在此阶段不使用Token-Shuffle操作,因为此时视觉token的数量并不大。在这一阶段,他们训练了约50亿个token,使用4K的序列长度、512的全局批量大小和总共211K步。 接下来,研究者将图像分辨率提升到1024×1024,并引入Token-Shuffle操作,减少视觉token数量,提高计算效率。在这一阶段,他们将训练token数量扩展到2TB。 最后,研究者使用之前训练的checkpoint,将分辨率进一步提升至2048×2048,训练约300亿个token,初始学习率设为4e−5。 他们引入了z-loss,用于稳定高分辨率图像生成的训练。 原文图11:在2048×2048分辨率下训练时的平均损失(左)和梯度范数(右)。在大约20K次迭代后出现训练不稳定现象 在不同阶段,研究者对所有模型进行了微调,学习率为4e−6,使用1500张精选的高美学质量图像进行展示。 默认情况下,除非另有说明,可视化和评估是基于1024×1024分辨率和2大小的token-shuffle窗口的微调结果。 量化评估:又快又好 表1中的结果突显了Token-Shuffle的强大性能。 与其他自回归模型相比,新方法在「基本」(basic)提示上整体得分超越LlamaGen 0.14分,在「高难度」(hard)提示上超越0.18分。 与扩散基准相比,新方法在「高难度」提示上超越DALL-E 3 0.7分。 表1:在GenAI-Bench上的图像生成VQAScore评估。「†」表示图像是通过Llama3重写提示生成的,保证训练与推理的一致性 除了表1中报告的VQAScore结果外,研究者还进行了额外的自动评估GenEval,并在表2中报告了详细的评估结果。 实验结果表明,除了高分辨率外,Token-Shuffle作为一个纯自回归模型,能够呈现出令人满意的生成质量。 表2:在GenEval基准测试上的评估。 人类评估 尽管自动化评估指标提供了无偏的评估,但最近的研究所指出它们可能并不能完全捕捉到人类偏好。 为此,研究者还在GenAI-Bench提示集上进行了大规模的人类评估,将新模型Token-Shuffle与LlamaGen、LuminamGPT和LDM进行了比较,分别代表了自回归模型、MLLM和扩散模型。 在人类评估中,重点关注三个关键指标: 文本对齐,评估图像与文本提示的匹配准确度; 视觉缺陷,检查逻辑一致性,避免出现不完整的身体或多余的肢体等问题; 视觉外观,评估图像的美学质量。 存在视觉缺陷与结构错误的生成图像示例(红色圆圈标记处) 图6展示了结果,新模型在所有评估方面始终优于基于自回归的模型LlamaGen和LuminamGPT。 这表明,即使在大幅减少token数量以提高效率的情况下,Token-Shuffle也能有效地保留美学细节,并且能够紧密遵循文本引导,前提是进行了充分的训练。 在生成结果(无论是视觉外观还是文本对齐)上,研究者展示了基于自回归的多模态大语言模型(AR-based MLLMs)能够与扩散模型相媲美或更胜一筹。 然而,研究者观察到,Token-Shuffle在视觉缺陷方面略逊于LDM。 图6:人类评估结果|在文本对齐、视觉缺陷和视觉外观方面等方面,比较了Token-Shuffle与无文本的自回归模型LlamaGen、带文本的自回归模型Lumina-mGPT以及基于扩散的模型LDM的表现 可视化示例 研究者将Token-Shuffle与其他模型进行了视觉效果对比,包括两种基于扩散的模型LDM和Pixart-LCM,以及一种自回归模型LlamaGen。 图7展示了可视化例子。 虽然所有模型的生成效果都不错,但Token-Shuffle在文本对齐方面表现得更加出色。 与自回归模型LlamaGen相比,Token-Shuffle在相同推理开销下实现了更高的分辨率,带来了更好的视觉质量和文本对齐效果。 与扩散模型相比,自回归模型Token-Shuffle在生成性能上表现出竞争力,同时还能支持高分辨率输出。 图7:与其他开源的基于扩散模型和基于自回归模型的视觉效果对比 一作简介 马旭(Xu Ma) 他是美国东北大学工程学院的博士研究生。 在此之前,他在美国德克萨斯大学北部分校计算机科学与工程系工作了两年。 在南京林业大学信息科学与技术学院, 他获得了学士和硕士学位。 他的研究兴趣包括:模型效率、多模态大语言模型(LLM)、生成式人工智能(Generative AI)。 在博士学习期间,他获得了一些奖项,包括ICME'20最佳学生论文奖、SEC'19最佳论文奖、NeurIPS'22杰出审稿人奖和CVPR'23杰出审稿人奖。
北大AI专家朱松纯提出通用人工智能“四位一体”评测体系
凤凰网科技讯 4月27日,朱松纯教授团队新作《通用人工智能标准、评级、测试与架构》媒体见面会日前在北京举行,系统性提出了通用人工智能(AGI)的中国路线图。该书由人民邮电出版社出版,旨在解决当前通用人工智能领域面临的理论定义模糊和评估体系缺失两大困境。 北京通用人工智能研究院院长、北京大学人工智能研究院院长朱松纯教授在会上指出,学术界对通用人工智能尚未形成统一界定,技术研发过程中缺乏系统性基准,这不仅导致研究方向分散,也使成果难以获得客观评价。朱教授团队在书中提出了“一个定义、两个完备性、三个基本特征、八个关键问题”的创新性认知体系,构建了“标准—评级—测试—架构”四位一体的理论框架。 值得关注的是,北京通用人工智能研究院开发的首个通用智能人“通通”已参与相关测试。这一价值和因果驱动的智能体原型在多模态信息融合、自主任务规划等多个方面展现出显著能力。测试结果显示,“通通”在基础认知和成长任务上的表现已接近3-4岁人类儿童水平,某些任务甚至达到5-6岁儿童标准,部分高级认知任务表现更是超越了成年人类。 在回应媒体提问环节,朱松纯教授就通用人工智能的标准制定、安全治理、商业化路径以及大模型技术局限性等热点问题提供了专业见解。专家认为,建立标准化的通用人工智能测试与评级体系对推动我国在人工智能领域的发展具有重要的指导意义
OpenAI o3精准破译照片位置,只靠几行代码,人类在AI面前已裸奔
【新智元导读】o3看照片识位置的功能,简直令人毛骨悚然!Django Web大神Simon Wilson发现,o3凭借Python代码,就能破解自己照片的地理位置。这实在太反乌托邦了,人类的地理信息,对于AI已经完全透明了? OpenAI的o3发布以来,这个功能让不少网友觉得毛骨悚然—— 它能准确破解你的地理位置! 就在刚刚,Lanyrd联创、Django Web框架缔造者Simon Wilson专门发了一篇博客,详尽推敲了o3究竟是如何猜测照片拍摄地点的。 他将整个过程评价为:既超现实,又反乌托邦,仿佛几十年前的科幻小说突然变成现实! 已经有越来越多网友发现,o3识图定位的功能,堪称疯狂。 随便拍张照片,o3就告诉你这是哪里 首先,我们可以试着随手拍一张照片,最好是没有明显的地标性建筑。 然后把照片传给o3或o4-mini,问它:「猜猜这张照片是在哪儿拍的?」 注意,一定要关闭ChatGPT的记忆功能,否则它就会使用此前对话的上下文作弊。 实验开始! Wilson给了o3一张照片,是他在加州El Granada家里附近一个露天酒吧拍的。 他觉得这张照片很有挑战性,没什么明显的特征。只有一小段路、两栋普通的房子,还有远处的、只能看到一点轮廓的小山。 要是让人来通过这张照片确定拍摄地点的话,确实是很有挑战,相信绝大多数人甚至都会直接放弃。 因为实在是没什么明显的标记物。 但是o3没管那么多,拿着图片就开找了起来。 Wilson分享了o3思考的整个过程,一共花了6分48秒。 它从一个有一点奇怪的错误开始了调查,先是假装根本看不到这张照片。 然后突然恢复视力。 分析了照片后,o3打起了照片中车牌的主意。不过这个车牌很模糊,肉眼很难分辨。 o3也在思考中分析需要将其放大处理。 为了确定车牌在照片中的位置,o3开始变身程序员写起了代码。 找到车牌位置并且放大后,o3开始了更加细节的分析。比如,他开始观察车牌的样式。 对于自己关注的细节,o3会进行夸张的放大。 在这个过程中,不断生成代码配合其分析。 o3会把它「看到」的细节与浮现在自己「脑海中」的印象做对比。 在这样仔细地思考了6分多钟后,终于给出了它的最终答案。 结果怎么样呢,加利福尼亚中央海岸完全正确。 不过距离o3的第一猜测Cambria大约有200英里的偏差,但是它的下一个猜测El Granada准确无误。 Claude推理粗糙,Gemini直接作弊 Simon Wilson也说,o3不是唯一能做这个的模型,他也在Claude 3.5和3.7 Sonnet上做过类似的事情。 只不过它们没有o3那种夸张的「放大」能力。 不断地对图片放大到底有多大用? Wilson猜测模型的视觉输入分辨率可能比较低,所以对图像做一些裁剪确实会有帮助。 但o3对一张照片进行25次的裁剪操作,确实像是有点炫技的感觉。 Simon Wilson还贴出了Claude 3.7 Sonnet的「扩展思考」结果,它给出的答案是「加州沿海的一个中小型城镇」。 跟o3比起来,Claude的这个思考过程显得「粗糙不堪」。 而Gemini直接开始了作弊:「鉴于当前的定位是加州埃尔格兰纳达……」。 所以Simon Wilson不得不通过API试了Gemini 2.5 Pro,结果它自信满满地猜错了,认为是「加州卡尤科斯The Hidden Kitchen餐厅的露台」。 o3的不同之处在于工具使用(图片处理、python等)被整合进了「思考」阶段。 这非常惊艳。 不过Wilson也承认,这也挺令人不安的。 技术现在已经能通过照片识别地点了。人们必须明白哪怕是平淡无奇的照片,都可能被用来识别出你的位置。 等等,o3难道也作弊了? 对于这个过程,有人提出了质疑:o3是不是本来就可以访问一个大致的位置模型,能知道用户在哪里? Simon检查后发现,它居然真的知道自己的地理位置。 如果去问o3:你知道我在哪里吗?请尽可能多地提供技术细节。 它给出的答案,具体到在加州的半月湾,甚至包括时区、经纬度、地理标识符、海拔、气候分类等等。 Simon猜测,或许这是它增强搜索功能的一部分。 不过随后的尝试,让Simon对o3更有信心了——即使没有这个位置模型,o3依然可以准确猜出地理位置。 比如,他给了o3一些距离自己实际位置有几千英里的照片,并且通过截图去除了EXIF信息。 下面这张照片,是在马达加斯加的乡村拍的。 但o3依然给出了准确的判断。 这张照片,是在布宜诺斯艾利斯城市区拍的。 模型也认出了它的地理位置。 所以,o3在这方面,的确有某些过人之处,似乎并不是靠作弊。 CSI走进现实 Simon Willison表示,看着模型在处理照片的思考过程,仿佛就像在看一集《犯罪现场调查》。 它会不断平移、缩放,讨论各种可能的位置。 但是,这也让人感到深深的反乌托邦气息。 现在的AI,完全可以通过照片轻易识别出你的具体位置了。 所以,你很有必要警惕起来,时刻注意自己的人身安全! 搜餐馆、搜位置,o3无所不能 其实早在o3和o4-mini刚发布时,就有无数网友发现,这两个模型也太神了。 仅凭一张无EXIF信息的菜单或风景照,它就能精准推理、反向定位拍摄地点,直接引爆了全网AI玩「照片寻址(GeoGuessr)」的新热潮。 开始,人们以为它们只是很擅长图像匹配而已,但完全不止于此——它们会展开推理,在网上进行疯狂的搜索,直到找出正确答案为止! 可以说,只要你的照片向AI暴露,你的信息就不再是隐私了。 知名投资人Deedy就发现,只给一张没有标题及EXIF数据的菜单图片,o3就能够上网搜索、匹配菜单项,找到这家中餐馆的位置。 o4-mini也是如此。 而o3精准定位照片地理信息的本领,简直是令人毛骨悚然。 比如给出下图左边这张从室内窗户向外拍摄的海岸景色。 根据就照片里透露的信息,只能看到长长的沙滩、蜿蜒通往海滩的阶梯步道、远处的海岬以及近处的一些植被。窗边还有一个插着花的花瓶。 所有信息就这么多了。 但是o3居然猜出了照片拍摄地:很可能在加州奥兰治县达纳角 (Dana Point) 的丽思卡尔顿拉古纳尼格尔酒店 (Ritz-Carlton Laguna Niguel) 内,可能是在RAYA或180blũ餐厅附近。 可怕的是,它居然猜对了! 它是怎么判断的?是通过以下匹配的特征。 西北-东南走向、长而平缓弯曲的盐溪海滩 (Salt Creek Beach)。 从酒店通往公共海滩的米色、之字形的露台式步道和楼梯。 海滩内陆的草地,即帝王海滩高尔夫球场 (Monarch Beach Golf Links)。 远处的岩石海岬(达纳角海岬)。 甚至,o3还给出了酒店的地址(One Ritz-Carlton Drive, Dana Point, CA 92629)和大致的经纬度坐标(北纬 33.482°,西经 117.721°)。 网友用谷歌地图确认了一下,答案完全正确。 大胆畅想一下,如果o3的图像识别能力再叠加一个无敌的全球数据库,这个AI岂不是能认出地球上的任何地方? 接下来,网友们纷纷上传自己的照片,让o3猜位置。 比如下面根据下面这张,o3就猜出是在亚利桑那州佩森市(Payson, Arizona)北部的Water Wheel Falls / Ellison Creek Cascades。 它是怎么猜出来的呢?推理逻辑和关键线索如下。 视觉线索: 浅层滑梯式瀑布,落差约15英尺,落入深色水潭——匹配点: Water Wheel Falls有类似的倾斜花岗岩水道流入翠绿水池。 视觉线索: 粉褐色花岗岩壁,带有垂直裂缝——匹配点: 这是该峡谷标志性的莫戈隆边缘(Mogollon Rim)花岗岩。 视觉线索: 瀑布底部横卧着一根巨大的漂白原木——匹配点: Water Wheel Falls有一根标志性的「阶梯状」原木,已在那里停留多年(引用了The Outbound的信息)。 视觉线索: 瀑布上方有稀疏的河岸灌木和亚利桑那松林——匹配点: 这是埃里森溪(Ellison Creek)走廊的典型植被。 现在,网友们给o3的考验还在升级。 英伟达研究员Zhaocheng Zhu给了o3一组他用长焦镜头拍摄的照片,没有EXIF数据,关闭o3的记忆功能。 因为网上大多数照片都是用广角镜头拍的,所以这张照片对o3来说应该非常棘手。 Zhu本人表示,如果不是透过镜头看到这个角度,自己也认不出来这个地方是哪儿。 结果,o3猜对了。 对于这张,它不仅准确找到了拍摄地点,还认出了图中的山峰是圣罗莎山脉。 继续加大难度后,o2猜测了三个地点,其中一个就是正确答案——查尔瓦高地。 终于,在猜测这张照片的时候,o3翻车了。这是一张加拿大山脉的鸟瞰图,o3却认作是瑞士的阿尔卑斯山。 这大概是因为,航拍照片在训练集中所占的比例很低。 而且,o3可不止强在猜测国外的地理位置,有国内开发者给了它自己上班路上随手拍的一张图,它居然也一步步准确分析出了位置信息——山东青岛市北区重庆南路47号。 左右滑动查看 有人质疑,是否是照片里已经带定位了? Nanyi表示,iPhone拍照说明里只有拍摄参数,没有位置参数。 应该是o3从鲁U推理出了青岛,从小海豚里搜出了旁边的店,然后又从百度地图和青岛本地宝里搜出信息、查看附近的邮局,最终确认的。 图片信息中并没有位置信息 注意,这只是2025年的o3模型而已,未来的模型还会做出什么呢?
校招开到国际顶会现场,大厂为抢天才少年拼了
中国科技大厂争抢AI人才的烈度不断升级。最近蚂蚁也加入其间,而且一开始就放了大招,直接把国际顶会现场变成了校招宣讲会。 4月24日,为期4天的ICLR 2025(国际学习表征会议)在新加坡开幕。作为全球AI和机器学习领域的顶级会议,ICLR每年举办一次,是全球AI尖端人才交流碰撞的主舞台之一。 参会者有AI顶级学者、企业技术高管,也有论文作者,其中不乏就读于普林斯顿、加州伯克利、清华大学、中国科技大学等海内外名校的硕士、博士研究生。 这些学术能力突出的年轻人,正是蚂蚁集团“Plan A”AI人才专项的青睐对象。“Plan A”是蚂蚁最新启动的AI人才专项,面向全球高校招募顶尖AI硕博应届毕业生。 宣讲现场体现出蚂蚁满满的诚意:公司CTO何征宇率蚂蚁AGI攻坚部门核心技术骨干悉数到场,轮番介绍蚂蚁的发展历程、AI技术战略及愿景,并留了三十分钟与现场观众交流与互动。 宣讲现场全程座无虚席,气氛热烈。何征宇表示,“AI终于有望变得通用,意味着长尾需求将几乎没有边际成本,让普惠成为可能。我们将坚定投入AGI技术,跟行业一起解决AI普惠的问题。世界级的难题需要世界级的人才,对于顶级人才我们只有plan A,没有plan B。” 这是眼下这波大厂AI人才军备竞赛的缩影,也是这波生成式AI发展至今,行业集体接近技术无人区,在充满不确定性的未来面前,唯一能确定的是——麾下得有能破题的精兵良将。 最先开出天价招募“天才少年”的华为,正是在九年前,就发现自己来到了“无人区”的跟前——无人领航、无既定规则、无人跟随。为此,华为创始人任正非开出百万年薪招募“天才少年”,就是希望让出类拔萃的年轻人冲在创新第一线,带动整个公司捅破天花板。 互联网公司在面对新的技术十字路口时,同样希望通过招募年轻人,在充满不确定性的未来中捕捉新的发展机遇。 阿里2011年启动“阿里星”校招项目,早期主要招募云计算领域的尖端人才。彼时国内云计算行业方兴未艾,这批优秀年轻人的加入,为阿里云的快速发展打下基础。随后十余年间,“阿里星”的招募范围逐渐扩大,近年来主要聚焦于AI,而这也是整个阿里的重点投入方向之一。 2025年春节期,DeepSeek火爆出圈,不仅迫使国内科技大厂主动伸出橄榄枝,就连OpenAI也不得不承认自己站在了“错误的一边”。DeepSeek在强化学习、模型训练、模型架构优化等方面取得多项突破,并以较低算力实现了第一梯队的模型性能,而这些令人瞩目的成绩是由一群刚刚走出校园的年轻人才所取得的。 对于大公司而言,DeepSeek的成功是一场人才观的巨震:年轻人缺乏工作经验和社会阅历,并不是大问题;深入技术前沿、学术能力突出、成果斐然的年轻人,反而能够更轻盈、更自由地在AI时代浪潮中乘风破浪。 在DeepSeek冲击波下,互联网大厂一边加紧学习其技术和产品,一边将招募顶级学术背景的年轻人作为重中之重。AI大模型的人才之争前所未有地白热化。 一方面,大厂尝试给予顶级人才更宽广的发展空间。腾讯“青云计划”、字节“Top Seed”、蚂蚁“Plan A”等都在具体工作内容上提供更大自由度,甚至不在招聘海报上列明岗位名称,而是鼓励候选人发挥想象力和创造力,引领而非追随技术潮流,挑战AI的上限。 这些TOP校招人才计划均为顶配人才开出顶配条件:百万年薪是“起步价”,研究自由、算力自由是标配。 为这些年纪轻轻、甚至有些稚气未脱的“天才少年”提供天价待遇,是否值得?时间已经给出了答案。 张志强,2016年“阿里星”(备注:当时“蚂蚁星”尚未从“阿里星”中独立出来),北京邮电大学毕业,目前在蚂蚁集团基础智能部担任技术总监,负责蚂蚁集团多个智能系统建设,包括“百灵”大语言模型、超大规模图学习系统AGL、工业知识图谱平台“知蛛”等。相关技术成果在NeurIPS、VLDB、SIGKDD、ACL等CCF A/B类国际会议期刊发表论文80余篇,授权发明专利40余项,获吴文俊人工智能科技进步一等奖(2020)和电子学会科学技术奖-科技进步一等奖(2022)。 黄青虬,2020年华为“天才少年”, 他先后就读于清华大学和香港中文大学,获得博士学位并发表十多篇顶会论文后,加入彼时刚刚成立的智能汽车解决方案BU。他带领50多人的团队,用了一年多的时间改进激光感知算法,在行业内首次将激光雷达安装在量产乘用车上。如今,华为智驾方案已成为行业主流方案之一。 过去几年,华为持续遭遇严峻外部挑战,但依然保持了较快发展速度和行业领军地位。黄青虬、彭志辉、李屹等“天才少年”们带领团队取得一系列技术突破,助力华为突围功不可没。 在这波生成式AI浪潮中,蚂蚁其实并不是站在浪潮之巅的存在,但在储备人才上,其果断和坚定不输一线大厂。在ICLR现场校招宣讲会上,公司CTO何征宇向现场同学介绍了其刚成立不久、由他直接带团队的蚂蚁AGI攻坚部门的核心技术骨干。我们查了一下他们的背景,发现几乎清一色的海内外名校青年才俊,包括前 Open AI研究员吴翼,前谷歌图像内容理解(ICA)团队创始成员蔡伟,前谷歌GoogleAdMob技术负责人骆骥等。 在蚂蚁,吴翼主导研发强化学习开源框架AReal-Boba,训练出的7B推理模型达到SOTA水准,并以200美元的低成本,高效复现接近QwQ-32B模型的效果。 在历次技术革新中,“得人才者得天下”的规律都没有改变。那些拥有大批顶级人才的公司,从中受益匪浅,并获得穿越周期的生长力。如今,相似的一幕正在AI大模型领域上演,科技大厂围绕“天才少年”的争夺愈发激烈。 眼下这场日趋白日化的人才军备竞赛,在战术上有几个亮点和新变化值得关注。 首先,大厂此前抢人,往往锁定高P,也就是高级管理人才。在行业竞争最激烈的时候,甚至出现了不少“破坏性招聘”,挖角对手管理层以干扰对手经营。 在一些行业,上述打法或许有一定效果。但在AI大模型领域,尖端技术人才的重要性远远高于一般人才和高P。 诚意是永不过时的利器。据晚点LatePost报道,2023年,张一鸣曾亲自一对一拜访重要AI论文的作者,其中包括未毕业的博士生。 据蚂蚁技术官微的文章,2024年,蚂蚁把数十位有意向,但未正式确认offer的“蚂蚁星”候选人请来杭州,蚂蚁技术研究院院长陪同参观与晚餐会座谈,蚂蚁董事长井贤栋与同学们面对面交流了一下午。 其次,大厂在“源头”上招聘人才,折射出AI时代的新变化:候选人积累的职业履历和技术经验,不再是最关键的考量因素;年轻人的独到技术见解、适应性、想象力和雄心壮志,才是企业更关注的素养。 其三,大厂使出浑身解数吸纳AI“天才少年”,正在吸引顶尖人才回流国内。 以DeepSeek为例,其团队主要来自清华北大等国内名校,但也不乏“海归”。今年早些时候,英伟达高级研究科学家禹之鼎透露,DeepSeek一位名叫潘梓正的年轻工程师曾在英伟达实习,并拿到转正offer,却依然决定回国加入DeepSeek。 禹之鼎称,当潘梓正回国加入DeepSeek时,这家初创公司的多模态团队只有3人。潘梓正随后在多个重要项目中发挥“关键作用”,包括DeepSeek V3和R1。 全球AI竞争,归根结底拼的是人才。DeepSeek凭借其业内口碑,正在吸引潘梓正这样的“天才少年”回归。但只有一个DeepSeek远远不够;资金资源更雄厚的科技大厂,才是吸引全球AI人才回国发展的关键。 2025年4月初,阿里国际启动面向全球头部AI科技人才的Bravo 102培养计划,打破传统的校招体系,面试通过后可反选项目和团队。蚂蚁“Plan A”把首场招募宣讲会开在海外,同样意在网罗全球AI精英。 随着人才质量和厚度的不断提高,中国科技公司正在推动扩展AI技术边界上发挥越来越重要的作用,阿里、蚂蚁、字节、腾讯、百度等互联网大厂频频成为“孵化器”。 顶会论文是AI大模型的技术先声,能够在很大程度上体现整个行业的研究趋势。过去四五年,来自中国作者的AI顶会论文逐年增加,被评为优秀论文的比重也越来越高。 其中,互联网公司背景的论文占比不低。以蚂蚁为例,在ICLR 2025上,蚂蚁被收录17篇论文,其中一篇还被收录为Spotlight(聚光灯论文)。而在2024年,蚂蚁在国际顶会上发表论文超300篇,其中被收录为Oral(口头报告)的论文为35篇。 这些顶会论文背后,不乏蚂蚁近年招至麾下的杰出学术青年的身影。 例如,2022年的“蚂蚁星”郑可成曾就读于中科大和浙大,是蚂蚁博士后工作站招募的五位博士后之一,现任蚂蚁技术研究院副研究员,主要研究方向为多模态理解和生成。入职蚂蚁后,郑可成发表在多个AI顶会上发表近30篇论文,包括CVPR、NeurIPS、ECCV、ICLR、ICCV、ICML等。 2024年的“蚂蚁星”关键博士毕业于清华大学计算机系CoAI课题组,研究方向为开放端文本生成与评价技术。他曾在自然语言处理领域顶级会议和期刊上发表二十余篇论文,目前谷歌学术引用1300余次,H-index为12。 越来越多的成绩表明,互联网大厂在全球前沿科技论文中的贡献越来越大,影响力不断攀升。坐拥大批尖端AI人才且仍在大力招人的中国科技公司,除了是商业主体,亦已成为全球AI大模型的技术探索中心。 目前,国内AI大模型行业距离美国仍然存在不小差距。除了算力、资金等因素外,人才也是一大瓶颈。尽管国内AI大模型发展迅猛,但整体来看,美国仍是全球AI人才首选的工作目的地。 美国智库MacroPolo去年3月发布报告称,2022年,在最顶尖人工智能研究人员(前2%)就职的主要国家中,美国占比高达57%,其次为中国,占比12%。三年过去,这一格局并未发生根本变化。 在此情况下,大厂全方位竞逐AI“天才少年”,竞争越激烈,出类拔萃的年轻人被发掘的机会就越多,可以尽早在行业内一展才华抱负。 在AI大模型的时代浪潮中,国与国、厂与厂之间的竞争,归根结底拼的是人才。围绕“天才少年”的良性竞争,既可以让人才价值变现,也能吸引人才回流国内,驱动行业发展。卷到海外“截流”人才的AI大厂们,步伐不妨再快一点。 参考资料: 字母榜,《字节和DeepSeek争抢“天才少年”》 Tech星球,《春招AI抢人大战:应届生年薪130万,实习月薪2万》 量子位,《热搜第一,DeepSeek百万年薪招AI人才,实习生都能月入过万》 金融界,《只招1%的天才,这家中国公司让硅谷难安》 每日人物社,《日薪2000,大厂争夺实习生,天价能挖出天才吗?》
1340亿美元!奥特曼反击称马斯克“现编魔幻算法勒索”OpenAI
IT之家 1 月 20 日消息,科技媒体 Ars Technica 今天(1 月 20 日)发布博文,报道称 OpenAI 携手微软公司,反击埃隆 · 马斯克(Elon Musk)提出的 1340 亿美元(现汇率约合 9348.73 亿元人民币)“账单”。 IT之家曾于 1 月 17 日报道,马斯克向美国联邦法院提交文件,向 OpenAI 及微软寻求 790 亿至 1340 亿美元(IT之家注:现汇率约合 5517.65 亿至 9359.05 亿元人民币)的赔偿,相关审理预计将于今年 4 月启动。 马斯克称,在其参与共同创立 OpenAI 期间,他为该公司提供了关键支持,让 OpenAI 获得了约 655 亿至 1094 亿美元的收益,而微软则从中获得了约 133 亿至 251 亿美元的收益。 马斯克认为,这些收益应被视为“不当得利 / 非法所得”,并主张其有权要求法院责令两家公司返还。 这一数字基于马斯克聘请的财务专家 C. Paul Wazzan 的评估。Wazzan 此前从未与马斯克合作过,他通过分析马斯克 2018 年离开前的注资、2017 年提议的股权占比、当前在 xAI 的持股以及非金钱贡献(如声誉和人脉),得出结论称:马斯克早期的投入创造了 OpenAI 当前 50% 至 75% 的价值。 Wazzan 承认其计算模型“相当独特”,在此前相似案例中无法找到依据。微软和 OpenAI 随即提交动议,要求法庭排除 Wazzan 的证词,理由是其计算逻辑完全是为了迎合马斯克而“被发明出来的”。 最令 OpenAI 震惊的是,Wazzan 的算法将 ChatGPT 背后的科学家和程序员的贡献率直接归为“零”。Wazzan 在作证时坦言:“我不需要了解其他人。”这意味着,除了马斯克,包括微软后续投入的数十亿美元及研发团队的心血,在 Wazzan 眼中对 OpenAI 的现值毫无贡献。 OpenAI 在反驳文件中指出,Wazzan 的计算存在多处致命逻辑漏洞。首先,该计算依赖于一条虚构的时间线,即假设 OpenAI 在 2017 年同意了马斯克持有 51.2% 股份的提议,但这笔交易从未发生。 其次,Wazzan 强行将 OpenAI 与马斯克的另一家公司 xAI 进行对标,直接引用媒体报道的 xAI 估值来推算赔偿额,却从未获得 xAI 的实际财务数据。 OpenAI 斥责这种做法只选取对马斯克有利的数据来以此膨胀索赔金额。 OpenAI 发言人表示,马斯克的诉讼是毫无根据的“骚扰战”,目的是为了拖慢竞争对手的步伐,以便其竞品 xAI 能迎头赶上。 微软方面指出,Wazzan 甚至错误地假设微软的利润应回流至 OpenAI 非营利实体,导致了价值的重复计算。该案将于今年 4 月正式开庭审理,届时马斯克需在法庭上证明这些被指“不可靠且无法独立验证”的计算模型具有法律效力。
豆包为何对社区不上心?
“全能AI助手”,在苹果应用商店中,豆包这样介绍自己。 打开豆包,也的确能看到一个“六边形AI战士”,深度思考、AI生图、拍照答疑、视频生成、语音通话……几乎现在用户常用的AI功能,都被集成在了这个应用当中。 然而,有一个东西是豆包没有的,那就是“社区”。在豆包应用中,可以看到“创作”页面,用户可以分享创作案例,但是其他用户仅能一键“做同款”,无法互动。 在当下,AI产品做社区似乎在渐渐成为共识。近期,先后有Kimi测试产品内社区功能,以及OpenAI被传正在测试社交网络,疑似要和马斯克的X展开竞争。其他的AI产品如可灵、即梦、文小言等,也早就将社区融入其中,这些社区要么看起来神似小红书,要么神似抖音(竖屏滑动),转评赞功能俱全。 AI产品盯上社区,背后的逻辑也不难理解——随着时间的推移,产品获客成本升高,而目前用户在不同AI产品间迁移成本很低(包括情感成本),用户黏性又不高。加入社区,是改变这一现状的希望。 豆包也面临同样的难题。 据量子位智库数据,今年2月AI智能助手下载总量超8200万,其中豆包、Kimi、DeepSeek、腾讯元宝占比超过90%。然而,从三日留存率来看,最好的成绩也不过是超过27%。用户平均使用时长超过10分钟的只有百度文小言和天工,其他产品均在5分钟以下。 作为字节在AI领域最重要的产品之一,对手纷纷做社区,豆包为什么不着急? 豆包没有AI社区,不代表字节没有。 最有代表性的是即梦。去年12月,“智能涌现”就曾援引知情人士消息称,字节提高了即梦的产品优先级,尝试用新的路径打造“AI时代的抖音”。 即梦的定位正是AI创作工具和社区。“社区”一开始就植入了这款产品的基因里,这并不令人意外。带队的张楠曾创办图片社区“图吧”,“图吧”被字节收购后,张楠进入字节,从0到1推出抖音。即梦相当于她的第三次创业。 如今打开即梦,不论是PC网页,还是手机APP,首先进入的都是发现页,且有数字人、写真、海报、萌宠等多个分区。页面排布类似小红书,有若干内容卡片,显示图片/视频预览、标题以及发布内容的账号名。点击进入帖子,用户可以做同款,也可以直接点赞和评论。 同样内置完整社区的还有字节旗下AI角色扮演产品猫箱。在社区中,用户可以发布自己制作的虚拟剧情,其他人可直接使用和点赞、评论,还可以进入用户主页、关注该用户。 产品众多,各显神通。“下饺子”一般并行推出若干产品,这是字节在移动互联网时代“起家”时的经典战术,也因此,其有“APP工厂”的名号。在AI时代,字节延续了这一战术,快速推出了20余款应用。 而在这种战术背后,是字节内部的赛马机制。 去年十月时,“硅星人”就曾援引内部人士报道,字节内部形成了多轮赛马制。 除了“排头兵”Flow部门,还有其他业务部门如剪映、大力教育、今日头条、火山引擎、巨量引擎等多个业务部门和团队或多或少在AI领域进行探索。其产品要在市场上经受检验,在内部争取资源与人才。“Tech星球”曾报道,Flow部门开放“活水”岗位,吸纳其他业务部门的人员转岗。 在字节全产业链AI布局的框架下,豆包俨然成了字节AI生态的超级连接器,其战略优先级已经明确指向国民级AI助手这一核心定位。 所以,豆包适配的是效率工具场景。例如短视频脚本生成效率提升、企业级智能客服成本降低。这种强工具向的架构,与社区产品所需的用户关系链沉淀、UGC内容分发逻辑不能自然咬合。抖音的推荐算法依赖用户行为数据的长期追踪,而豆包的场景化解决方案更侧重即时任务响应。 社区很火,但现阶段还处于产品开发的相对早期阶段。 和豆包形态相近的AI产品中,那些加入社区功能功能的APP中,创作者可以在社区分享作品,其他用户可以转评赞。但是,在该页面略加滚动,就可以看到疑似擦边的内容,prompt(提示词)写得不堪入眼。 在另一个AI产品中,很多创作者的分享下,评论区都有人给自己的社群“打广告”。尤其是在总体互动率并不高的情况下,这样的评论尤其突兀。 从现有的AI产品来看,内置社区往往还比较稚嫩,互动量低,内容质量不稳定。 这也暴露出了AI产品与内容社区相融的困难之处。一方面,AI产品要比拼底层模型能力和产品的能力表现,另一方面,社区偏重运营逻辑,需要一系列的UGC内容审核、活动策划动作,对人力、资源和运营能力都有要求。新一代的AI产品,并不能“降维打击”传统的社区产品。 从外界来看,AI产品做社区/社交似乎已经是一个共识,但现阶段豆包和用户之间并没有形成类似的共识。豆包对用户来说仍然是事件驱动型应用,有需求、打开豆包、解决问题、离开豆包。 AI产品做社区的逻辑不难理解,大家的用户黏性都远低于传统互联网产品,投流、获客、流失、再投流,如此循环。如何沉淀用户,增加用户忠诚度,跳出循环是AI产品竞争的下一个关键。社区是一贴很容易被想起的膏药。 但AI产品究竟要怎么做社区,如何深度融合工具使用、创作与社区分享等场景,还没有人交出令人满意的答卷。大多数AI产品的社区仍然是对传统社交平台的一种复刻,且是减配版复刻。在工具型应用内,这样的社区很难突破用户即用即走的心智。 换言之,社区可能是个好东西,但怎么用仍然在探索中。 豆包走了另一条路,利用字节已有社区吸引更多用户。 如今在抖音内,用户可以直接和豆包对话,这一策略与腾讯不谋而合,其也让元宝作为可添加的好友进入微信。而豆包此举乍看之下是对社交的探索,实际使用后不难发现,在很多功能的请求中,豆包都会引导用户前往APP中体验。 现阶段社交/社区之于豆包,是在第三方平台烧钱投流之后,于内部流量池继续获客的一种手段,而非增加用户黏性的帮手。 从字节以往产品发展经历来看,豆包现在没有完整的社区,以后未必不会有。 而且,也不一定是豆包自己去做。 字节的赛马机制下,最终目标是筛选出赢家,赛马并不会一直持续下去。 2021年11月,梁汝波刚刚正式接棒字节CEO,新官上任的第一把火就是“大融合”。字节重塑组织架构,新设立的抖音事业群,将今日头条、西瓜视频、搜索、百科等业务“吞并”。抖音由此正式成为了字节最大的基建。 字节起家于今日头条,公司成立4年之后才推出抖音,同时推出的还有火山小视频。其后,字节还推出了专注中长视频的西瓜视频,和B站一决高下。在一番激烈的市场验证之下,抖音成为了最大的胜出者,并最终成为了那个当之无愧的业务核心。 那是视频APP的激战,如今字节高举高打地加入了AI赛道的激战,同样的赛马机制,未知的结局。 如果将字节目前的AI产品摆在一起:豆包APP、即梦、猫箱、星绘、河马爱学、PicPic、扣子……谁最有希望成为最终吞下其他AI的大象?豆包APP显然有很大的希望。 就在4月23日,“晚点LatePost”曾报道字节AI产品的最新调整。调整发生在AI产品Flow下,其中猫箱的负责人梁琛奇离开字节,猫箱由星绘产品负责人西原(化名)接管,而星绘团队又计划并入豆包。 也就是说,猫箱和星绘,原本都和豆包一样是Flow这个AI核心部门下的产品,但如今在组织架构上,星绘已经被豆包吞下了。 顶着全能型AI应用使命的豆包,未尝没有可能在未来通过吸收字节其他AI产品的创作者生态,实现工具+社区的闭环。 不过,赛马仍在继续,豆包并非一定胜出。即梦并不在Flow部门之下,而是由独立的剪映团队操刀。张楠带队之下,即梦的表现瞩目,仅在APP端日活已经超过了百万。 在去年“智能涌现”关于字节提高即梦优先级的报道中就曾提到,知情人士透露,字节管理层判断AI对话类产品可能只是AI产品的“中间态”,长期更理想的产品形式,大概率需要更视觉化的用户体验、更低的用户使用门槛。 彼时豆包的用户活跃度并不高,每天用户发送消息的轮次仅为5到6次,单次2分钟左右,用户人均使用时长仅为10分钟左右。而字节内部有管理层提出,这可能并不是豆包的问题,而是类似ChatGPT这种基于文本的对话类产品,大概率就不是最理想的产品形态。 如果豆包仍然无法打破这种局面,而这种观点在字节内部成为一种共识,那豆包也有可能会在赛马中“输给”即梦。 是豆包成象,还是被象吞去,还是一个未知数。毕竟抖音最初也不过是一个功能简单的短视频平台,却最终成为融合视频、电商等的大船。 短期看,专注工具化更符合豆包的现实需求,社区并非现阶段的必需品;长期看,豆包也需要找到出路,突破用户黏性难题。随着猫箱、即梦等产品的命运浮沉,这场AI时代的“内部赛马”终将给出答案。 参考资料: 1、雪豹财经社:《今日头条10岁了,它会成为下一个QQ么?》 2、36氪:《字节内部判断 AI 对话类产品天花板可能不高,提升剪映即梦优先级》 3、Tech星球:《揭秘字节AI版图:调集多位高管参战,数款重磅产品内测》 4、硅星人Pro:《字节AI为何凶猛:重启App工厂,争抢“豆包”,连模型也要赛马》 5、晚点LatePost:《晚点独家丨字节 AI 产品调整:猫箱负责人离职,星绘并入豆包》
彭博:马斯克犯众怒,不雅图像考验全球AI监管底线
马斯克 凤凰网科技讯 北京时间1月20日,据彭博社报道,过去几周,埃隆·马斯克(Elon Musk)旗下AI聊天机器人Grok被频繁、反复用于在X上对他人进行“数字脱衣”。尽管全球监管机构的抗议声浪不断高涨,但它仍在美国继续运行,政府干预相当有限。 行业监督组织称,在本月早些时候的高峰期,Grok每小时被使用数千次,在X的公开回答中对他人进行未经同意的“脱衣化”处理,这使得一种令人不安的滥用和骚扰形式从互联网的阴暗角落蔓延至更主流的在线平台。 受害者既包括成人网站OnlyFans明星,也包括瑞典副首相。英国儿童安全组织表示,他们甚至在暗网上发现了疑似由Grok生成的AI儿童色情内容。马斯克则表示,他“并不知晓任何涉及未成年人的裸露图像”。 然而,马斯克仍在继续开发、推广和传播其AI聊天机器人技术,Grok迄今为止在美国几乎没有面临任何法律或监管行动。苹果和谷歌的应用商店也仍提供该产品。马斯克曾开玩笑地让Grok给自己“脱衣”来淡化争议,抨击批评者,并将该产品与Adobe的Photoshop等工具相提并论,暗示问题不在于Grok本身,而在于使用它的人。“显然,Grok不会自发生成图像,它只会根据用户请求来生成。”马斯克在上周三发文称,并补充说它会“拒绝生成任何非法内容”。 Grok 在舆论哗然之后,X将其图像生成工具置于付费墙后,实际上将这项备受争议的功能变成了付费产品。随后,该公司宣布Grok被禁止在该社交网络上生成此类“真人”图像,但很快就有报道称用户仍可通过独立的Grok应用程序创建这些图像。彭博社分析发现,在X上,来自Grok的性化图像依然存在,包括一些描绘人物穿着丁字裤、比基尼或暴露服装的图像。 长期以来,马斯克及其AI创业公司一直在不断突破界限。这位亿万富翁曾多次对AI可能带来的生存威胁发出警告,并于2023年创办了xAI,以与OpenAI竞争,其模糊使命是“理解宇宙的真实本质”。但xAI的核心特色在于敢于拥抱大胆和粗俗内容,无论是“浪漫”AI伴侣,还是“火辣”模式下无拘无束的聊天对话。 美国监管迟缓 然而,随着大量性化图像的涌现,马斯克及其公司不仅引发了xAI历史上最大规模的争议,也在对公共与私营保障体系进行压力测试。这些体系本应保护社会免受AI带来的危害。迄今为止,这些防护措施的效果仍显不足,尤其是在美国。 欧洲各国政府和监管机构迅速对马斯克的业务展开调查,并威胁针对Grok生成的性化图像采取行动,但作为X的最大市场,美国反应则相对迟缓。上周,美国参议院一致通过的《反抗法案》(Defiance Act)虽允许非自愿色情图像受害者起诉施害者,但未明确包含对平台方的追责条款。 特朗普在去年5月签署的法律要求平台在接到举报后48小时内下架非自愿性内容图像,但尚未强制要求建立统一的举报系统。加州总检察长上周三宣布就不雅图像传播问题针对xA展开调查并发出禁止令,但后续进展尚不明朗。xA目前未对此调查作出回应。 特朗普签署行政令要赢得AI竞赛 在科技平台上保护儿童安全,一直是共和党和民主党少数能够达成共识的监管领域之一。但近年来,每当国会召集科技公司CEO就儿童安全问题作证时,马斯克总是未被邀请,其中部分原因是,这些聚焦儿童安全的听证会与X关系不大,该平台年轻用户数量相对较少。 马斯克影响力大 眼下,特朗普在第二任期正努力拉拢科技界,为科技领袖提供一个几乎不受监管的环境,发展AI业务,从而在中国对手日益激烈的竞争面前保持领先地位。马斯克本人则属于特殊层级的科技高管:世界首富、重要政府承包商、曾经的特朗普亲密顾问,曾资助总统胜选,并可能在中期选举再次投入资金。 Grok是马斯克在AI竞赛中的“战马”。科技高管们一致向特朗普强调,美国必须赢得这场竞赛。特朗普正鼓励大规模AI投资与创新,这一立场使得他很难惩罚马斯克这个AI行业先锋。 “我们正处于时代思潮的重大转变中,美国政治、经济和科技精英们认定,减少主要平台尚未采取的安全措施和内容审核,对其自身及议程更为有利。而马斯克在促成这种现实方面功不可没。”康奈尔科技学院安全、信任与保障计划主任亚历克西奥斯·曼扎里斯(Alexios Mantzarlis)表示。 白宫官员向彭博社提到了X及马斯克对此事的公开声明,暗示问题已得到控制。美国政府其他部门则公开表示对Grok的支持。美国国防部长赫格塞斯上周赴SpaceX星舰发射场会晤马斯克,抨击所谓“觉醒AI”,并宣布计划将Grok整合至国防部系统。 苹果谷歌无动于衷 苹果和谷歌谷歌运营着全球两大主流移动应用商店。尽管这两家公司历来会下架允许用户对他人进行“裸体化”处理的应用,目前却对X及其Grok未作处理。 本月初,多名美国参议员致函两家公司,指出X和Grok“大规模生成针对女性儿童的非自愿性化图像”违反应用商店服务条款,要求将其下架。两家公司均未回应置评请求。 X尚未被下架 批评马斯克的人历来需要承担风险,其巨额财富和诉讼倾向常令批评者望而却步。当广告商因马斯克收购后的内容政策抵制X时,他曾通过诉讼迫使其回归。其中一起诉讼甚至导致某个广告行业联盟解散。本月,当美国音乐出版商试图阻止X未经许可使用受版权保护的歌曲时,他也提起了诉讼。反对马斯克意味着可能面临昂贵的法律诉讼,无论指控是否成立。 目前,试图通过法律挑战Grok的人之一是艾什莉·圣克莱尔(Ashley St. Clair),这位保守派网红最近刚与马斯克育有一孩子。圣克莱尔上周起诉了xAI,声称Grok生成了她的性化图像,并且在她投诉后X对她进行了报复。X随后反诉她,指控她违反合同,因为她未按公司服务条款要求在得州联邦法院提起诉讼。 国际行动 在美国境外,各国政府和监管机构正加大力度对马斯克商业帝国施压。Grok已在印尼和马来西亚被封禁。在X的第二大市场日本,政府官员上周五表示已要求X平台加强防护措施,停止输出不当图像。据日本经济安全保障大臣透露,若有必要将考虑采取法律行动。 法国是最早对Grok提出谴责的国家之一。议员阿图尔·德拉波特(Arthur Delaporte)和埃里克·博托雷尔(Éric Bothorel)在1月2日向检察官报告了他们所称的“明显非法”的性化深度伪造内容。检察官随后确认正在对此事展开调查。 不久之后,欧盟的数字监管机构也开始行动,根据《数字服务法》命令X保存所有与Grok相关的内部文件直至年底,这是采取潜在监管措施的前期步骤。欧盟数字事务主管赫娜·维尔库宁(Henna Virkkunen)用“可怕”形容Grok生成女性和儿童性化图像的能力,并上周警告X“在欧盟整改其AI工具”,否则将面临《数字服务法》的处罚,包括可能的高额罚款。 英国采取了类似立场,媒体与互联网监管机构Ofcom根据《网络安全法》对X展开正式调查。英国《网络安全法》旨在保护公众,尤其是儿童免受有害内容影响。如果Ofcom认定X违法,最高可处以该公司全球收入10%的罚款。如果X拒不遵守,监管机构还可向互联网服务提供商申请法院命令,在英国屏蔽该网站。加拿大隐私专员也在调查X。X尚未对这些调查发表评论。 英国抗议马斯克的海报 目前尚不清楚这些调查是否会产生实质性后果,即便产生,马斯克是否会遵守也不清楚。这位亿万富翁在X内容问题上与监管机构长期存在争执。欧盟就在去年12月因违反内容监管法规对该社交平台处以罚款。2024年,X在巴西曾因未遵循政府下架内容要求遭临时封禁。 马斯克会消停? 马斯克历来会屈从于政府的法律要求,但很少默然接受。在与巴西政府的交锋中,他曾称该国最高法院法官是“伪装成法官的邪恶独裁者”。本月早些时候,在英国首相斯塔默批评Grok生成“可耻”、“令人作呕”的脱衣图像后,马斯克指责英国政府是“法西斯”,并声称其意图“压制言论自由”。 尽管X已作出调整,但围绕Grok的争议似乎远未结束,特别是如果xAI继续允许该聊天机器人在其独立应用程序中对人物进行数字化“脱衣”。 “最糟糕的结果将是毫无后果,这将证明确实有人能凌驾于法律之上。”斯坦福以人为本AI研究所政策研究员里安娜·普法弗科恩(Riana Pfefferkorn)表示。 长期以来,社交媒体平台一直在努力应对各种性化内容的管理问题,因为这类内容本质上具有很强的主观性。AI的出现则带来了新的难题:它让人们更容易、更快速地生成和分享性化图像,而这些图像并不总是描绘真实人物。普法弗科恩指出,虽然创建或托管儿童性化图像在法律上是禁止的,但Grok生成的许多图像在美国可能并不违法。 普法弗科恩补充说,大多数大型AI公司可能都不愿经历马斯克目前面临的公关危机,公众的强烈抗议会促使它们建立适当的防护措施以避免此类情况。然而,Grok事件也可能为这个竞相开发更强大AI系统并寻求新盈利模式的行业树立重要先例。 当马斯克大幅裁减推特员工(包括内容审核员)时,这为其他公司采取类似(即使不那么激进)行动提供了掩护。其他AI公司此前已表露出在内容上向更大胆方向发展的意愿,这可能是为了提升用户参与度。例如,OpenAI表示打算为ChatGPT推出“成人模式”,尽管具体细节尚未公布。该功能预计将于今年第一季度推出。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
英伟达华人硬核AI神器秒变细节狂魔!仅3B逆袭GPT-4o
编辑:桃子 视觉AI终极突破来了!英伟达等机构推出超强多模态模型DAM,仅3B参数,就能精准描述图像和视频中的任何细节。 有了AI,谁还愿意用手配「字幕」? 刚刚,英伟达联手UC伯克利、UCSF团队祭出首个神级多模态模型——Describe Anything Model(DAM),仅3B参数。 正如其名Describe Anything,上传一张图,圈哪点哪,它即可生成一段丰富的文字描述。 即便是一段视频,DAM也能精准捕捉到白色SUV,给出详细的描述。 DAM是一个专为详细局部标注(DLC)而设计的模型,即为特定区域生成详细且精确的描述。 通过两大创新,研究人员在细节与上下文之间找到平衡: · 焦点提示:对目标区域进行高分辨率编码,就像给模型配备了一副「放大镜」,清晰捕捉到局部区域细微特征 · 局部视觉骨干网络:将精确定位的特定区域,与上下文无缝整合 换句话说,DAM不仅能放大细节看,还能放眼全局看,无论是静态图,还是动态视频,都能做到游刃有余。 网友惊叹道,「终极视觉AI突破」! AI用「放大镜」看世界 在项目主页中,英伟达等研究团队放出了更多精彩demo。任何人通过点、框、涂鸦或掩码的交互,即可一键生成描述。 上传一张柯基在草地上欢快奔跑的图,选中柯基,让DAM去描述: 一只中等体型的狗,拥有浓密的红棕色毛发,腹部和腿部为白色。这只狗尾巴蓬松,耳朵尖立,戴着带有银色吊牌的红色项圈。它张着嘴露出牙齿,舌头伸在外面。狗呈奔跑姿势,前腿向前伸展,后腿向后伸直。 一只被挤到犄角旮旯的猫星人,DAM是这样配文的,「一只白猫,耳朵呈浅橙色,鼻子是粉色的。猫咪表情放松,眼睛微微闭着,全身覆盖着柔软的白毛」。 再比如,随手涂鸦一栋高楼,DAM可以不断放大细节,给出这幢楼更细致的描述: 一座现代风格的摩天大楼,采用流线型矩形设计,外立面排列着间距均匀的竖向条形窗。建筑呈阶梯式结构,每一层段都比下层略微内缩,形成错落有致的退台造型。建筑幕墙主要由反光玻璃面板构成,整体呈现出极具现代感的抛光效果。 甚至,DAM看着视频中的一头牛,就能直出一篇经典「小作文」: 一幅描绘棕褐色奶牛的动态序列图:这头毛色浓密的奶牛臀部带有浅色斑块,初始画面中它微微低头,透着安详的神态。随着动作展开,奶牛开始稳步前行,四肢舒展着节奏分明的步态,尾梢的簇毛随每一步轻摆,为行进增添流畅韵律。它始终保持挺拔的站姿,略微弓起的背部线条透出放松状态,肌肉结实的腿部稳健地向前迈进。整个运动过程中,奶牛保持着均匀从容的步调,每一个动作都流畅而不迫,展现出宁静自若的生命姿态。 DAM如此厉害,是如何做到的? DAM技术架构,精准捕捉细节 与传统图像描述(概括整个场景)不同,DLC聚焦于用户指定的局部区域,来生成细致入微的描述。 想象一张照片中一只猫,你不仅需要描述「一只猫在窗台上」,还要深入些几「猫的毛发呈现柔软和灰色条纹,耳朵微微倾斜,眼睛在阳光下闪着琥珀色的光芒」。 可以看出,DLC的目标是捕捉区域的纹理、颜色、形状、显著部件等特征,同时也要保持与整体场景关联。 而在视频领域中,DLC挑战更大。 模型需要追目标区域在多个帧中的变化,描述其外观、交互、和细微动态的演变。 为了应对DLC复杂需求,Describe Anything Model引入了两大核心创新,让局部细节与全局上下文完美平衡。 焦点提示(Focal Prompt) 通过「焦点提示」机制,DAM能够同时处理全图和目标区域的放大视图。 这确保它在捕捉细微特征同时,不丢失整体场景的背景信息。 局部视觉骨干网络(Localized Vision Backbone) DAM的视觉骨干网络通过空间对齐的图像和掩码,融合全局与局部特征。 利用门控交叉注意力层,模型将详细的局部线索与全局上下文无缝整合。 新参数初始化为0,保留了预训练能力,从而生成更丰富、更具上下文关联的描述。 这种架构让DAM在生成关键词、短语,甚至是多句式的复杂描述时,都能保持高精度和连贯性。 DLC-SDP:破解数据瓶颈 要知道,高质量的DLC数据集极为稀缺,限制了模型的训练。为此,研究团队设计了基于半监督学习的流水线(DLC-SDP),通过两阶段策略构建大规模训练数据。 阶段一,是从分割数据集扩展。利用现有分割数据集短标签(猫),通过视觉-语言模型生成丰富的描述(灰色短毛猫,耳朵直立。 阶段二,自训练未标记的图像,通过半监督学习,DAM对未标记的网络图像生成初始描述,并迭代精炼,形成高质量的DLC数据。 DLC-Bench:重定义评估标准 那么,如何公平地评估DLC模型。 传统方法主要依赖文本重叠,但这无法全面反映描述的准确性和细节。 为此,研究团队提出了全新基准DLC-Bench。通过LLM判断,检查描述的正确细节和错误缺失,而非简单对比文本。 DAM仅能生成详细描述,还具备强大的灵活性和交互性。 指令控制描述 你可以根据需求调整描述的详细程度和风格。 零样本区域问答 而且,无需额外训练,DAM就能回答关于特定区域的问题。 碾压GPT-4o,刷新SOTA 在DLC-Bench和其他7个涵盖图像与视频的基准测试中,DAM全面超越现有模型,树立了新的标杆。 如下表2所示,DAM在具有挑战性的 PACO 基准测试中表现出色,创下了89高分。 而在零样本评估在短语级数据集Flickr30k Entities上,新模型相比之前的最佳结果平均相对提升了7.34%。 此外,零样本评估在详细描述数据Ref-L4 上,DAM在基于短/长语言的描述指标上分别实现了39.5%和13.1%的平均相对提升。 在研究人员提出的DLC-Bench测试中,DAM在详细局部描述方面优于之前的仅API模型、开源模型和特定区域VLM。 下表6所示,DAM在详细局部视频字幕方面刷新SOTA。 总而言之,DAM的优势主要有三大点:更详细、更准确;更少幻觉;多场景适用。 它的强大能力为众多应用场景打开了大门,未来诸如数据标注、医疗影像、内容创作等领域,都可以加速落地。 作者介绍 Long (Tony) Lian Long (Tony) Lian目前是UC伯克利电子工程与计算机科学博士研究生,师从Adam Yala教授和Trevor Darrell教授。 他的研究主要聚焦于,通过强化学习(RL)开发具备推理能力的大模型(LLM)与视觉语言模型(VLM)。 此前,他曾在英伟达研究院Deep Imagination Research团队实习。 Long (Tony) Lian本科毕业于UC伯克利计算机科学专业,师从Stella Yu教授。
TCL电子牵手索尼,双方拟设合资公司承接索尼家庭娱乐业务
凤凰网科技讯 1月20日,TCL电子与索尼公司今日签署战略合作意向备忘录,双方确认拟设立一家承接索尼家庭娱乐业务、由TCL持股51%、索尼持股49%的合资公司(下称“新公司”),并在全球范围内开展包括电视机和家庭音响等产品在内的,从产品开发、设计、制造、销售、物流到客户服务的一体化业务运营。 双方计划于2026年3月底前就订立具有法律约束力的最终协议进行磋商。在最终协议签署并取得相关主管部门批准等条件满足后,新公司预计将于2027年4月开始运营。 据官方消息,新公司包括电视机及家庭音响在内的产品将通过享誉全球的“Sony”和“BRAVIATM”品牌赋能,致力于为全球用户创造新价值。 针对此事,TCL回应凤凰网科技称:感谢您的关注,我们目前暂时没有更多可披露的信息。相关事项请以公司发布的公告内容为准。 据了解,索尼的家庭娱乐业务目前主要隶属于其娱乐、技术与服务业务板块。近年来,索尼通过“Cinema is Coming Home”(将电影院带回家)战略,将电视与家庭音频产品整合在统一的品牌架构下。 其中,电视业务线是家庭娱乐的核心,以BRAVIA电视品牌为中心,索尼强调从内容创作到终端呈现的垂直整合,旨在精准还原创作者意图。其高端显示产品包括2026年备受关注的 RGB Mini LED 电视以及QD-OLED 系列。主流型号涵盖BRAVIA 9(旗舰级 Mini LED)、BRAVIA 8(OLED)、BRAVIA 7(Mini LED)以及入门级的BRAVIA 3系列。 其次,在家庭音频业务线方面,索尼提供包括家庭影院系统、回音壁在内的完整家庭音频解决方案。在个人音频业务线中,索尼提供备受市场认可的WH-1000XM5、WF-1000XM5等个人降噪耳机与无线扬声器、高保真播放器。 同时,在视频与媒体播放线,索尼持续强化硬件与Netflix等主流流媒体平台的高品质内容合作,保留4K UHD蓝光播放器等专业硬件支持,构建从内容、解码到显示与声音的完整家庭娱乐闭环。
英伟达遭版权诉讼,被指联系影子图书馆获 500TB盗版数据
IT之家 1 月 20 日消息,据 Torrentfreak 报道,英伟达高管曾批准使用“安娜档案馆”的数百万本盗版书籍,为其人工智能模型训练提供数据支持。在一项援引英伟达内部文件的集体诉讼案中,数位图书作者指控这家公司曾直接联系“安娜档案馆”,寻求该影子图书馆数据的高速访问权限。 据IT之家了解,芯片巨头英伟达一直是人工智能热潮中的主要财务受益者之一。得益于市场对其人工智能训练芯片及数据中心服务的旺盛需求,该公司营收大幅增长,且这一增长势头尚无见顶迹象。 除了销售市场炙手可热的硬件产品外,英伟达也在自主研发人工智能模型,包括 NeMo、Retro-48B、InstructRetro 以及 Megatron。与其他科技巨头的做法类似,这些模型均依托英伟达自研硬件,并借助海量文本库开展训练。 与其他科技公司一样,英伟达的模型训练方法也遭到版权方的强烈法律抵制,其中就包括图书作者。在多起诉讼中,作者们指控科技公司使用盗版书籍训练人工智能模型。 例如,2024 年初,数位作者就曾以涉嫌侵犯版权为由将英伟达告上法庭。在这起集体诉讼中,原告方主张,英伟达的人工智能模型是基于 Books3 数据集训练的,而该数据集包含了从盗版网站 Bibliotik 获取的受版权保护作品。由于上述行为未经版权方许可,作者们要求英伟达作出赔偿。 对此,英伟达辩称其行为属于“合理使用”,声称书籍对其人工智能模型而言不过是一组统计关联数据。然而,相关指控并未就此平息。相反,原告方在证据开示阶段发现了更多佐证。 上周五,原告方提交了经修订的起诉状,大幅扩大了诉讼范围。除新增更多涉案书籍、作者及人工智能模型外,诉状还纳入了更广泛的“影子图书馆”相关指控。 包括阿布迪 · 纳泽米安在内的原告作者,如今援引了英伟达的多份内部邮件及文件,指出该公司曾蓄意下载数百万本受版权保护的图书。这份新诉状指出,“市场竞争压力驱使英伟达走上盗版之路”,其中就包括与颇具争议的“安娜档案馆”图书馆展开合作。 诉状称,英伟达数据战略团队的一名成员曾主动联系“安娜档案馆”,旨在了解这家盗版图书馆能为这家企业提供哪些资源。诉状中提到:“因急需海量图书数据,英伟达主动接洽了现存规模最大、也最为肆无忌惮的影子图书馆 ——‘安娜档案馆’,洽谈获取其数百万份盗版资料,并探讨将‘安娜档案馆’纳入其大语言模型预训练数据的可行性。由于‘安娜档案馆’对其盗版资源的‘高速访问权限’收取数万美元费用…… 英伟达试图了解获取该数据高速访问权限的具体方案。” 诉状显示,“安娜档案馆”随后向英伟达警示,其图书馆内的藏书均为非法获取和留存。鉴于该网站此前曾与其他人工智能公司合作并耗费大量时间,这家盗版图书馆要求英伟达高管确认,其是否已获得内部授权推进相关合作。 据称,英伟达方面在一周内就批准了这项合作,随后“安娜档案馆”便向这家芯片巨头开放了盗版书籍的访问权限。诉状称:“在联系‘安娜档案馆’一周后,且在被告知其藏书存在非法性的数天后,英伟达管理层仍‘开绿灯’批准推进这项盗版合作。‘安娜档案馆’向英伟达提供了数百万本受版权保护的盗版书籍。” 诉状指出,“安娜档案馆”承诺向英伟达开放约 500TB 的数据访问权限,其中包含数百万本图书,这些图书通常仅能通过“互联网档案馆”的数字借阅系统获取,而该档案馆本身也已身陷相关诉讼。 诉状并未明确提及英伟达最终是否向“安娜档案馆”支付了数据访问费用。 此外,值得注意的是,英伟达还被指控使用了其他盗版数据源。除此前涉案的 Books3 数据库外,新诉状还指出,该公司曾从“图书馆基因”(LibGen)、“科学枢纽”(Sci-Hub)以及“Z 图书馆”(Z-Library)等平台下载图书。 原告方称,英伟达除了自身下载并使用盗版书籍训练人工智能模型外,还向企业客户分发脚本和工具,使其能够自动下载包含盗版 Books3 数据集的“The Pile”数据库。 这些指控衍生出两项新的诉讼主张 —— 辅助侵权与共同侵权,原告方认为英伟达通过为客户获取盗版数据集提供便利,从中牟利。 基于上述及其他相关指控,作者们要求英伟达就其所遭受的损失作出赔偿。该诉求不仅适用于本案具名原告,也涵盖未来可能加入这起集体诉讼的其他数百位作者。 据目前掌握的信息,这是美国大型科技公司与“安娜档案馆”的往来函件首次被公开披露。而就在不久前,“安娜档案馆”刚丢失了多个域名,此次事件无疑将进一步提升这家盗版图书馆的公众关注度。
与瑞安航空CEO奥利里发生冲突,马斯克线上发起收购投票
IT之家 1 月 20 日消息,埃隆・马斯克与瑞安航空的线上争执已持续至第二周。这位全球首富在与该航空公司首席执行官发生冲突后,再度提出收购该航企的想法。 马斯克于周一在社交平台 X 上发起一项投票,询问网友他是否应该收购瑞安航空,并“让瑞安(Ryan)回归其应有的掌舵人之位”。当天早些时候,马斯克回复了这家低成本航空公司的一个帖子,询问收购他们需要多少钱,并再次要求他们解雇长期担任首席执行官且是该航空公司公众形象代表的迈克尔 · 奥利里。 这两位言辞直率的商界领袖之间的争执始于上周。当时奥利里表示,由于机舱顶部安装天线会增加机身重量和飞行阻力,进而导致燃油成本上升,因此他不会考虑在瑞安航空的机队全面配备 SpaceX 的“星链”互联网服务。马斯克随后称奥利里“信息闭塞”,而奥利里则反斥这位亿万富翁为“白痴”。 马斯克素以直言不讳地批评企业高管及公司著称,尤其是在社交媒体上。在收购如今更名为 X 的推特公司的过程中,他就曾频繁对该公司的运营状况以及时任首席执行官作出的决策表达不满。 瑞安航空当前市值约为 300 亿欧元(IT之家注:现汇率约合 2432.97 亿元人民币),是欧洲地区最大航空集团德国汉莎航空公司市值的三倍。奥利里在数十年间将瑞安航空打造成欧洲最大的低成本航空公司,同时也是该公司前十大股东之一。鉴于他助力公司股价实现了 55% 的年度涨幅,达成了特定的股票业绩指标,近期他获得了一笔丰厚的奖金。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。