行业分类:
加载中...
头条分类:
加载中...
刚刚!GPT-5淘汰所有OpenAI模型,地表最强编程惊艳全场,马斯克不服开怼
作者 | 陈骏达 李水青 编辑 | 李水青 GPT-5终于来了! 智东西8月8日报道,今天凌晨1点,OpenAI发布了万众瞩目的新一代旗舰模型GPT-5,即日起向所有免费、Plus、Pro、Team用户推出,企业和教育用户将在一周内获得访问权限。一经发布,GPT-5便冲上大模型竞技场榜首,并在文本、编程、数学等全方面排名第一。 GPT-5将非推理模型与推理模型融为一体,支持“按需思考”,即根据任务难度,自行判断是否进行思考,并提供合适的回答。它还拥有4种“人格”,分别为愤世嫉俗者、机器人、倾听者和书呆子。 OpenAI CEO Sam Altman认为,GPT-5已经达到了博士级别的智能,与其对话就像是与一位在任何领域都拥有博士学位的专家沟通。同时,GPT-5不仅是用来“问问题”的,现在还能“为你做事”,完成日常规划、发送邀请函、采购物资等任务。 OpenAI研究员Tina Kim在发布中称:“有了GPT-5,我们将淘汰所有旧模型。”一个GPT-5模型就集成多模态、推理等多种能力,相当于融合GPT和o系列模型,用户无需再为复杂的产品族选择纠结。 多项基准测试中,GPT-5超过了OpenAI o3、GPT-4o等OpenAI最强大的模型,在数学、编码、视觉感知和健康方面表现尤其出色。凭借GPT-5-pro的扩展推理,该模型还在科学知识基准测试GPQA上获得了新的SOTA,无需工具即可得分88.4%。 不过,GPT-5也可能是OpenAI历史上最复杂的模型家族之一,拥有GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四个版本。免费用户的GPT-5用量有限,超过限额后将自动转至GPT-5-mini。GPT-5-pro仅供Pro订阅用户使用,可凭借扩展推理功能,提供更全面、更准确的答案。 GPT-5、GPT-5-mini、GPT-5-nano三款模型也提供API服务,GPT-5的输入、输出价格分别为每百万token 1.25美元/10美元,GPT-5-mini的定价为GPT-5的1/5,而GPT-5-nano的定价为GPT-5的1/25。与主要竞争对手Anthropic和谷歌相比,OpenAI的GPT-5模型对于开发人员来说成本相当甚至更低。 ▲GPT-5 API与Anthropic、谷歌模型价格对比(图源:VentureBeat) GPT-5刚刚发布,马斯克就在X社交平台发起攻势,称“Grok 4在ARC-AGI上击败了GPT-5”。对此,有网友认为这是对Grok 4更强推理和泛化能力的证实,也有网友认为氪金300美元才能用上的Grok 4赶不上免费的GPT-5更有性价比。 发布会上,Altman分享了一组数据:32个月之前,OpenAI发布了ChatGPT,并在发布首周获得超100万用户。而如今,ChatGPT在全球范围内已有超过7亿用户。GPT-5是对GPT-4的一次重大升级,也是迈向AGI的重要一步。 但GPT-5不是AGI。Altman称:“我有点讨厌‘通用人工智能(AGI)’这个词,因为现在每个人都用它来指代略有不同的事物,但GPT-5是朝着真正强大的模型迈出的重要一步。我们仍然缺少一些非常重要的东西。”这一重要的东西就是模型在部署过程中能够持续学习,而GPT-5却没有。 一、靠自主判断规避“过度思考”,编程能力获Cursor创始人认可 现场演示中,OpenAI首先展示了GPT-5按需思考的能力。工作人员让GPT-5解释伯努利现象(流体力学里的一个基本原理),这对其而言相对简单。GPT-5判断无需思考,并迅速给出答案。 紧接着,工作人员提出想让GPT-5打造一张动态SVG演示图,来进一步解释这一概念。此时,无需手动调整,GPT-5便会自动进行思考,只需一个简单的提示,GPT-5就创建了交互式的演示。用户也可以在提示词中引导GPT-5是否开启思考,只需输入认真想想、仔细思考等类似表述即可。 在其给出的演示中,用户可以拉动进度条改变空气速度,以查看升力和压力变化,也可以调整迎角,看模拟的飞机是否真的会坠毁。所以GPT-5可以随时将任何硬核概念带入生活,让学习物化生和数学变得更加容易。 GPT-5在写作方面得到显著提升。比如OpenAI研发人员现场让GPT-5为GPT-4o写了一篇悼文。研究人员称,从生成内容来看,这不像在跟AI聊天,而像一位高智商、高情商的朋友在交流和上课。 研发人员称,GPT-5是迄今为止最好的编程模型。比如他让GPT-5建立了一个学习法语的网络应用,同时要求GPT-5嵌入一款教育游戏。大约两分钟后,GPT-5生成了一个带有标签、抽认卡、测试等功能的应用,并且成功嵌入了一款贪吃蛇游戏。 为了进一步证明GPT-5在生产场景中的编程能力,OpenAI还特地邀请了明星AI编程创企Cursor联合创始人兼首席执行官Michael Truell进行现场演示。Truell打开了OpenAI API GitHub页面上的一则PR。这一问题历经3周还未被修复,说明存在一定难度。 Truell认为,GPT-5在API调用中展现出了不错的稳定性,在Cursor里解决上述问题时,它面对的是一组从未见过的定制模型、从未见过的定制工具,还需要从网上抓取文本、在代码库里搜索等,解决问题的速度比他本人要快很多。 在官网上,OpenAI也分享了更多编程案例。其开发出的小游戏画面精美,游戏机制也比较合理。 还能遵循用户指令,打造出Lofi视觉化效果器。从官方Demo来看,GPT-5的前端能力较此前的OpenAI模型有了不错的提升。 GPT-5改进了语音功能,听起来就像跟人对话一样自然。免费用户每天可以聊上几个小时。比如,结合ChatGPT学习模式,用户可以以引导的方式教用户学习韩语,OpenAI现场对此进行了演示。 OpenAI还宣布一项新功能,面向付费用户推出更加定制化的ChatGPT,支持自定义聊天功能,可调整模型的性格,四项初始选项包括:愤世嫉俗者、机器人、倾听者和书呆子,还能改变聊天界面的颜色。 为了让GPT-5更符合个人用户的沟通方式,研发团队内存方面做了很多改进,使其具备更强的记忆功能。比如这使GPT-5在为用户指定日程时,能顾考虑到此前提及的安排,更符合定制化需求。下周起Pro用户可先接入Gmail和谷歌日历,自动规划日程、回复邮件。 在API中,所有GPT‑5模型最多可接受272000个(272k)tokens,并生成最多128000个(128k)推理及输出tokens,总上下文长度为400000个(400k)tokens。 通用Agent明星创企Manus联合创始人兼首席科学家Yichao ‘Peak’ Ji称,GPT‑5 “在各种智能体任务中表现出色,即使在未修改任何代码或调整提示的情况下”。 OpenAI在API中引入了新功能,让开发人员对模型回复具有更多控制权。GPT‑5支持新的verbosity参数(取值:低、中、高),帮助控制控制回答是简短扼要还是详尽全面。GPT‑5还支持最低模式,该模式会将GPT‑5的推理强度降到到最低,以快速返回答案。 二、多项基准测试实现业界SOTA,事实性错误较o3减少80% OpenAI称,GPT‑5是其迄今为止在编码和智能体任务方面表现最佳的模型。它在编码基准测试和实际应用场景中均优于o3,并且经过专门优化,在Cursor、Windsurf和Codex CLI等智能体编码产品中表现尤为出色。 GPT‑5在关键编码基准测试中处于行业领先水平 (SOTA),在SWE-bench验证测试中得分74.9%,较o3版本的69.1%有所提升。值得注意的是,GPT‑5以更高的效率和速度获得了高分:与o3在高推理强度下相比,GPT‑5的输出tokens数量减少了22%,工具调用次数减少了45%。 同时,GPT‑5在Aider polyglot测试中得分88%。在内部测试中,其在70%的Web任务开发中表现和OpenAI o3。此外,GPT‑5在深度分析代码库方面表现出色,能够精准解答关于代码模块运作机制及相互协作的问题。 GPT‑5在长背景信息性能方面也展现出显著提升。在OpenAI-MRCR(一种衡量长背景信息检索能力的指标)中,GPT‑5的表现优于o3和GPT‑4.1,且随着输入长度的增加,这种优势会显著扩大。 OpenAI与一些客户就编程功能进行了合作。Cursor首席执行官Truell称,GPT‑5“具有显著的智能,易于操控,甚至拥有其他模型中不具备的人格特质”。AI编程公司Windsurf相关负责人称,GPT‑5在其评估中达到最先进水平,且“与其他前沿模型相比,工具调用错误率仅为其一半”。 GPT‑5在持续型智能体任务中同样表现卓越,在两个月前刚发布的工具调用基准测试τ2-bench telecom中,以96.7%的成绩刷新了业界最优水平。 在事实性方面,GPT‑5比其之前的模型更值得信赖。在事实准确性基准测试LongFact和FActScore中,GPT‑5的错误率仅为o3的五分之一。这使得GPT‑5尤其适用于正确性要求高的智能体任务场景,特别是在代码生成、数据处理和决策支持等关键领域。 GPT‑5改进的工具智能使其能够可靠地串联数十次工具调用(无论串行还是并行),保持路径一致性,这使其在执行复杂的现实世界端到端任务时表现得远优于其他模型。它还更精确地遵循工具指令,更好地处理工具错误,并在长背景信息内容检索方面表现出色。 OpenAI还开源了BrowseComp Long Context⁠,这是一个用于评估长背景信息问答的新基准。在此基准中,模型会收到用户查询、一长串相关搜索结果,并必须基于搜索结果回答问题。 以下是GPT-5的一些基准测试成绩。但OpenAI研发人员称,GPT-5训练的重点是现实的实用性,而不是基准测试。 三、解决GPT“阿谀奉承”问题,靠新方法减少非必要“拒绝回复” OpenAI的多名研究人员分享了GPT-5背后的技术创新。 在安全问题上,ChatGPT过去主要依赖于基于拒绝的安全训练:根据用户的提示,模型应该要么遵守,要么拒绝。 这种类型的训练适用于明显的恶意提示词,但是在用户意图模棱两可的情况下,可能出现问题。比如拒绝应该回答的问题,或是给有风险的问题做出回答。 对于GPT-5,OpenAI引入了一种新的安全训练形式——安全完成(safe completions)。这种训练形式教会模型尽可能给出最有用的答案,同时仍然保持在安全范围内。 如今,对于一些可能有潜在风险的问题,GPT-5会减少不必要的过度拒绝,转而告诉拒绝的原因,并提供安全的替代方案。 GPT-5还改善了GPT系列模型阿谀奉承的问题,减少了过度讨好和无意义的表情符号的使用。OpenAI已经开发出新的评估方法,来衡量模型阿谀奉承的程度,并改进训练方法了,使模型更少地阿谀奉承。 在针对阿谀奉承问题的专门评估中,GPT-5显著减少了此类回复的比例(从 14.5%降至不到 6%)。 GPT-5 Pro是OpenAI推理模型OpenAI o3-pro的替代品,能提出给出更为全面、高质量的答案,这得益于一项名为并行测试时计算的技术(同时进行多项推理)。 在多个具有挑战性的基准测试中,GPT-5 Pro实现了同家族模型中的最佳性能。OpenAI还进行了1000个实际测试,67.8%外部专家更偏好GPT-5 pro的回答,而非开启思考模式的GPT-5。GPT-5 pro犯下重大错误的比例降低了 22%,在健康、科学、数学和编程方面表现尤为出色。 在发布会的尾声,OpenAI首席科学家Jakub Pochocki做了一番总结。他称,GPT-5的模型的诞生,是多年研究的结果,这些研究不仅以推出新版本为目的,还旨在构建对底层技术本身的理解。GPT-5呈现的许多技术,会在未来得到进一步发展。 Pochocki称,OpenAI仍然有很多需要了解的东西,并期待AI能够发现全新的知识,并真正地使我们的生活变得更好。 结语:靠“视觉欺骗”夸大性能提升?GPT-5实际表现有待进一步验证 GPT-5的发布,毫无疑问是今年AI圈最受关注的事件之一。GPT-5官宣推文发布2小时后,已经获得超160万浏览,并且仍在持续增长。然而,这一发布也带来了一定争议——OpenAI在发布会使用了“视觉骗局”的方式呈现基准测试,柱状图中OpenAI o3的高度被不成比例地压缩了,这从某种程度上夸大了GPT-5实现的能力提升。 GPT-5在真实使用场景中的性能与体验,尚待市场反馈,但OpenAI的估值已经飙升。此前周三外媒The Information消息称,OpenAI正洽谈潜在的二级股票发行,估值飙升至5000亿美元(约合3.6万亿人民币),比年初翻了一倍。
第一时间体验 GPT-5!人人免费可用,马斯克表示不服
如果说有什么科技产品在被大量爆料后,依然能让人在凌晨蹲守直播,除了苹果 iPhone,就是 OpenAI 的 ChatGPT 了。 GPT-4 亮相后很长一段时间,都是 AI 友商的唯一对标。世界也开始逐渐接受一个事实:AI 正在越来越多的任务中展现出超越人类的能力。 今天,GPT-5 终于登场,把这条称作「及格线」的标准,再次抬高了一个维度。 第一时间体验 GPT-5!人人免费可用,马斯克表示不服 我们也第一时间上手 GPT-5,让它给自己的生日写首诗,满分十分,你觉得可以打几分? 还是经典的天气卡片环节,GPT-5 的 UI 审美质量相当能打。 我们在 Flowith 里也实测了 GPT-5 的编程能力。 详情可点击链接前往:第一时间体验 GPT-5!人人免费可用,马斯克表示不服 OpenAI CEO 山姆·奥特曼对 GPT-5 给出了极高评价,称其是此前所有模型的巨大飞跃,在他看来,拥有 GPT-5 这样的 AI 系统,在历史上任何时候都是难以想象的。 ▲(主界面) 不过,发布会现场也上演了「翻车」环节,图表数据环节出现了明显「胡编乱造」的失误,连奥特曼也忍不住发文自嘲。 当然,马斯克也没有错过这个绝佳的「蹭热度」机会。 他表示 Grok 4 在 ARC-AGI 测试中击败了 GPT-5,还顺势拉踩一波,并剧透 Grok 5 将于今年年底前发布,预计表现将更加出色。 GPT-5 来了,编程、写作能力大提升,还要当你的 AI 医生 GPT-5 在编码、数学、写作、健康和视觉感知等多个领域都实现了显著提升,同时在减少幻觉、改进指令遵循和降低谄媚方面取得了重大进展。 GPT-5 采用了全新的统一系统设计,包含三个核心组件:一个高效的基础模型用于处理常规问题,一个具备深度推理能力的「GPT-5 thinking」模型专门应对复杂任务,以及一个实时路由器负责根据对话复杂度、工具需求等因素选择合适的模型。 这套「路由系统」会持续学习用户的切换行为、反馈偏好和答案准确性,不断优化分配策略。当用户达到使用限制时,系统会自动切换到各模型的精简版本继续服务。 据介绍,GPT‑5 是 OpenAI 迄今为止最强大的编码模型,能够处理复杂的前端开发和大型代码库调试工作。奥特曼表示:「根据需求即时生成的软件的理念将成为 GPT-5 时代的一个重要特征。」 比如它能通过一个提示就创建出功能完整、设计精美的网站、应用和游戏。根据以下提示词, GPT‑5 成功创建了一个名为「跳跃球跑者」的游戏,包含速度递增、计分系统、音效和视差滚动背景等所有要求功能。 「提示: 创建一个单页应用,要求如下,且全部写在一个 HTML 文件中: – 名称:跳跃球跑者 – 目标:跳过障碍,尽可能长时间生存。 – 特点:速度逐渐加快,高分记录,重试按钮,以及动作和事件的有趣音效。 – 界面应色彩丰富,带有视差滚动背景。 – 角色应该看起来卡通化,观赏起来有趣。 – 游戏应该让每个人都感到愉快。」 写作方面,GPT-5 能够将粗糙想法转化为具有文学深度和节奏感的文本。 它在处理结构复杂的写作形式时更加可靠,比如能够保持格律,同时兼顾形式规范与表达清晰。这些改进让 ChatGPT 在日常文档处理、邮件撰写等任务中更加实用。 此外,GPT-5 还是 OpenAI 在健康相关问题上表现最佳的模型。 在基于真实场景和医生标准制定的 HealthBench 评估中,GPT-5 的得分远超以往所有模型。新模型能够主动发现潜在问题,提出针对性问题,并根据用户背景、知识水平和地理位置提供个性化建议。 奥特曼负责介绍 GPT-5 健康的这部分,在发布会现场,他邀请了 Carolina 和 Filipe 夫妇分享他们的亲身经历。 Carolina 曾在一周内被诊断出三种不同的癌症,在她把这些充满医学术语的报告丢给 ChatGPT 后,ChatGPT 在几秒钟内将复杂的内容,翻译成了她能理解的直白语言,帮助她更好地和医生沟通。 而在面对是否接受放射治疗,这一个连医生们的意见都没有办法统一的问题上,ChatGPT 为她详细分析了案例的细微差别、风险与收益等等,她说这比和医生聊三十分钟的收获都要更多。 当然,ChatGPT 并不能替代医疗专业人员,建议谨慎使用。 基准测试结果显示,GPT-5 在多项基准测试中刷新纪录: 数学能力:AIME 2025 (no tools)测试得分 94.6% 编程能力:SWE-bench Verified(With thinking)得分 74.9%,Aider Polyglot(With thinking)得分 88% 多模态理解:MMMU 得分 84.2% 健康领域:HealthBench Hard 得分 46.2% GPT-5 在指令执行和自主调用工具的能力也有所提升,能够更加稳定地完成多步骤请求,灵活协调多个工具,并根据上下文智能调整行为策略,展现出更强的任务适应能力。 同时,GPT-5 在多项多模态基准测试中同样表现亮眼,覆盖视觉识别、视频理解、空间判断及科学推理等多个维度。得益于其更强的感知与推理能力,ChatGPT 现在能更准确地处理图像及其他非文本输入内容。 在 OpenAI 的内部基准测试中,GPT-5 在约 50% 的复杂知识工作任务中达到或超越专家水平,涵盖法律、物流、销售、工程等 40 多个职业领域,表现优于 o3 和 ChatGPT Agent。 OpenAI 特别强调,GPT-5 是在微软 Azure AI 超级计算机上训练的。 此外,GPT-5 在推理效率上也有突破。在视觉推理、编码和研究生级科学问题解决等任务中,GPT- 5的表现优于 OpenAI o3,但输出 token 数量减少了 50-80%。 幻觉问题一直是 AI 的老大难,而与 OpenAI 之前的模型相比,GPT-5 出现幻觉的可能性有了显著降低,模型在处理复杂、开放性问题时更加得心应手。 在代表 ChatGPT 生产环境流量的匿名测试中,GPT-5 的事实错误率比 GPT-4o 降低约 45%;启用推理功能时,错误率比 OpenAI o3 降低约 80%。 在开放性事实准确性基准 LongFact 和 FActScore 测试中,「GPT-5 thinking」的幻觉率比 o3 减少约六倍,标志着长篇内容生成准确性的显著提升。 除了事实准确性的提升,GPT-5(具备思考能力)还能更诚实地向用户传达其行为和能力。据模型安全研究负责人 Alex Beutel 称,OpenAI 对 GPT-5 进行了「超过五千小时」的测试,以了解其安全风险。 GPT-5 还引入了「安全完成(Safe Completion)」这一全新安全训练方式,让模型在保持安全边界的同时尽可能提供有用答案。当需要拒绝请求时,GPT-5 会透明地说明拒绝原因并提供安全替代方案。 在用户体验方面,GPT-5 减少了过度附和行为,在专门设计的谄媚测试中,谄媚回复率从 14.5% 降至不足 6%。新模型使用更少不必要的表情符号,回应更加细腻和深思熟虑。 此外,OpenAI 还为所有用户推出了四种预设个性:愤世嫉俗者、机器人、倾听者和书呆子,这些个性最初适用于文本聊天,晚些时候将上线语音。用户可根据个人喜好调整 ChatGPT 的交互风格。 在现场的演示中,语音交互变得非常自然且可控。 OpenAI 的研究员要求 GPT-5 从现在开始只用一个词回答问题,当被要求分享一句智慧之言时,GPT-5 回答:「Patience」(耐心)。发布会现场大家都笑了,主持人说这也许是模型在感谢大家耐心等待 GPT-5 的发布。 免费用户也能用,还有一款真香模型 取代 OpenAI o3-pro,OpenAI 还发布了 GPT-5 pro,这是 GPT-5 的一个变体,能够进行更长时间的思考,采用规模化但高效的并行测试时计算,能够提供最高质量和最全面的答案。 在 1000 多个具有经济价值的真实世界推理提示评估中,外部专家在 67.8 %的情况下更倾向选择 GPT-5 Pro,其重大错误率较 GPT-5 减少 22%,并且在健康、科学、数学和编码方面表现出色,获得专家们的一致好评。 GPT-5 今天开始成为 ChatGPT 的新默认模型,向所有 Plus、Pro、Team 和免费用户推出,Enterprise 和 Edu 用户将在一周后获得访问权限。 免费版用户每 5 小时可发送 10 条消息,Plus 用户每 3 小时可发送 80 条消息。 Pro 用户可无限制访问 GPT-5 及 GPT-5 Pro,免费用户达到使用限制后将自动切换到 GPT-5 mini。Pro、Plus 和 Team 用户还可以通过 ChatGPT 登录 Codex CLI,在开发环境中调用 GPT-5 来完成代码编写、调试等任务。 虽然 GPT-5 已对所有用户开放,但 ChatGPT 免费用户并不会立即获得完整的 GPT-5 使用体验。。一旦免费用户达到 GPT-5 的使用限制,他们将切换到更小、更快的精简版模型 GPT-5 mini。 面向开发者,OpenAI 还为 API 平台推出三个不同规格的版本:gpt-5、gpt-5-mini 和 gpt-5-nano,开发者可根据项目对性能、成本和响应速度的不同要求灵活选择。 GPT-5 支持回复 API、聊天完成 API 等主流接口,同时成为 Codex CLI 的默认模型。所有版本都具备reasoning_effort 和 verbosity 参数控制能力,以及自定义工具功能。 除基础对话能力外,GPT-5 还集成了并行工具调用、内置工具(网络搜索、文件处理、图像生成)、流式处理、结构化输出等核心功能,以及提示缓存和批量 API 等成本优化特性。 GPT-5 API 还推出四项核心新功能,大幅提升开发者的使用体验。 首先,通过 reasoning_effort 参数,开发者能根据不同任务场景,在最小、低、中、高四个档位间灵活切换。简单任务用最小档快速响应,复杂问题用高档深度思考,让开发者在回答质量和响应速度间找到最佳平衡点。 在回答详细程度上,verbosity 参数支持低、中、高三档设置,帮助控制回答的详细程度。比如在「天空为什么是蓝色」这一问题上,低档回答简洁明了,高档回答则包含详细的科学解释。 在工具调用方式上,新增的自定义工具功能支持纯文本格式,彻底告别 JSON 转义字符的困扰。处理大量代码或长文档时,开发者无需再为格式错误而烦恼。 值得注意的是,整个执行过程是可追踪,GPT-5会在执行工具调用时主动输出进度更新,让开发者了解 AI 的执行计划和当前状态。 另外,区别于 ChatGPT 中的 GPT-5 系统,API 版本专门针对开发者需求优化,更适合编程和 Agent 任务场景。 包括 Windsurf、Vercel、JetBrains 等知名开发工具和平台都对 GPT- 5给出积极评价。Windsurf 指出,GPT-5 在评估中达到最先进水平,「与其他前沿模型相比,工具调用错误率仅为其一半」。 GPT-5 的发布,对 Claude 而言可能是一记直击命门的重拳。 据外媒 The Information 报道,Anthropic 当前 50 亿美元的年化收入中,有超过六成来自 API,其中仅 Cursor 和 GitHub Copilot 这两家编程客户就贡献了 14 亿美元。这种把鸡蛋放在同一个篮子里的收入结构,恰恰暴露了 Anthropic 脆弱的软肋。 编程工具市场的残酷之处在于性能即一切,哪怕是 5% 的准确率提升,对开发者而言都意味着每天节省数小时的调试时间,过去 Claude 能在编程领域迅速崛起,很大程度上是因为 ChatGPT 在代码能力上的相对滞后。 但窗口期终有关闭的一天,伴随着 GPT-5 在代码编程任务和 Agent 能力的提升,结合 OpenAI 更强的生态绑定和产品分发渠道,一旦 Cursor 和 Copilot 回流 OpenAI,将极大撼动 Anthropic 的收入。 也许很快,我们就能看到 Claude 5 的到来。 作者:李超凡、莫崇宇、张子豪
“最后期限”前夜 美俄就元首会晤密集表态 俄乌战火会骤停吗?
  8月8日是美方给出的俄乌达成和平协议的所谓“最后期限”。距离“最后期限”仅剩1天时,传出俄美将举行元首会唔的消息。俄方率先表态,并给出合适的会议地点之一——阿联酋,美方随后回应。而对于俄乌冲突当事方领导人,即普京与泽连斯基的会晤,美俄都较为默契地“规避”了。   若此次俄美元首会晤能顺利举行,俄乌停火是否将迎来“历史性”转折?   俄称   可能成为重要历史性事件   就举办此次俄美元首会晤,俄方表态相对“高调”,甚至向外界透露了可能的会晤地点。当地时间8月7日,俄罗斯总统普京在克里姆林宫与阿联酋总统谢赫·穆罕默德·本·扎耶德·阿勒纳哈扬会谈后,就将与美国总统特朗普会晤一事向媒体表示,“俄方拥有很多愿意帮助组织会晤的朋友,其中一位朋友是阿联酋总统。俄方将决定会见地点,而阿联酋是完全适合会见的地点之一。”    当谈及是否会举行俄乌总统会晤时,普京则表示,他总体上并不反对与乌克兰总统泽连斯基会晤,但需要为此创造条件,而这“仍然遥遥无期”。   此外,7日稍早前,俄罗斯总统助理乌沙科夫对媒体说,根据美方提议,俄美原则上同意在近期举行两国元首会晤。乌沙科夫说,“举行本次会晤的地点基本上已经商定”。至于会晤时间,双方曾讨论过在下周举行会晤的选项,俄方相当积极地看待这一选项。   乌沙科夫还给出了会晤之所以能够举行的理由,“美国提出了一项提议,俄方觉得这完全可以接受”。但他强调,俄罗斯在乌克兰问题上的立场“没有任何改变”。   俄罗斯总统特别代表德米特里耶夫表示,普京与特朗普即将举行的会晤可能成为重要的历史性事件,届时俄罗斯的立场将清晰地传达给美方,此次会晤将有助于更积极地继续俄美对话。   美称   俄乌总统会面不是必要条件   对于俄方说法,美方一开始并未给予完全肯定。一位白宫官员当地时间8月7日表示,俄美元首会晤地点尚未确定,俄罗斯总统普京必须与乌克兰总统泽连斯基会面才能与特朗普举行会晤,并指出克里姆林宫尚未就此做出承诺。但随后不久,美国总统特朗普就否认了这一说法,表示普京无需同意与乌克兰总统泽连斯基会面即可与他会晤。   值得一提的是,8月6日,距离白宫“最后通牒”的截止日还剩2天时,俄罗斯总统普京在克里姆林宫会见了到访的美国中东问题特使威特科夫。美国总统特朗普评价道,“我们的特使今天(6日)与普京谈得很好”。他“很有可能”近期与俄罗斯总统普京及乌克兰总统泽连斯基就结束俄乌冲突举行会晤。   美国国务卿鲁比奥6日在接受美国媒体采访时说,结束俄乌冲突需要明确两件事:停火和领土问题。停火必须是这一进程的组成部分,而领土问题是结束俄乌冲突的“关键要素”,为达成协议俄乌都需要作出妥协。鲁比奥称,威特科夫与普京6日的会谈使美方对俄方结束俄乌冲突的要求和条件有了具体理解,美国现在需要权衡乌克兰和美国的欧洲盟友愿意接受哪些条件。鲁比奥还称,美国近日将与欧洲和乌克兰举行会谈,以拉近俄乌立场。   乌称   欧洲的立场至关重要   乌克兰这边则是忙于和欧洲方面联系,确定支持。   当地时间7日晚,乌克兰总统泽连斯基发表视频讲话时表示,俄乌冲突结束的主动权掌握在俄罗斯手中。他强调,应由俄罗斯率先停火,并通过切实的外交途径来推动和平的到来。泽连斯基还称,欧洲的立场在这一进程中至关重要。为此,乌克兰已与欧洲领导人就立场展开对话与会晤,并达成了一致意见。   欧盟委员会主席冯德莱恩表示,她与乌克兰总统泽连斯基当天进行了通话。冯德莱恩称,欧洲的立场非常明确,将全力支持乌克兰并继续发挥积极作用,确保实现公正持久的和平。   法国总统马克龙当地时间7日晚表示,法国将全力支持乌方促成停火,以便推动建立一项“稳固且持久的解决方案”。   意大利总理府公告说,意大利总理梅洛尼在电话中呼吁俄乌双方达成停火协议,通过谈判途径确保乌克兰实现公正持久的和平。   泽连斯基向阿尔巴尼亚总理埃迪·拉马简要介绍了当前前线局势和外交进展,双方还就即将在重要国际平台举行的会晤筹备工作进行了讨论。   此外,泽连斯基与到访的罗马尼亚外交部长瓦娜-西尔维娅·措尤举行了会晤。这是措尤就任罗马尼亚外交部长后首次访问乌克兰,传递了罗马尼亚对乌克兰的坚定支持。   结束冲突 难在何处?   特约评论员苏晓晖分析表示,尽管元首会晤在即,但美国仍然保留对俄罗斯采取二级制裁的选项。这样一种自相矛盾的背后,美国显然在试探俄方的态度,关注俄罗斯对于美国的施压会做出怎样的让步。另外俄罗斯方面希望谈而不破,也希望在与美进行互动当中掌握一定的主动。俄罗斯希望美国放弃制裁,同时也在观察美欧关系是否会进一步走近。另外,俄罗斯希望未来在领土问题上,美国仍然会对乌克兰施加一定的压力,让乌克兰能够接受俄方部分条件,所以当前美俄之间的博弈仍然在延续。   一次会谈不可能达成广泛的共识,而各方在关键问题上立场仍然有明显的分歧。首先说到停火问题,俄乌双方需要达成共识,而这是一个艰难的进程。而另外涉及乌克兰的地位问题,是保持中立还是加入北约。尽管现在美国拒绝乌克兰加入北约,但乌方没有放弃相关的诉求。而在关键的领土问题上,乌克兰和俄罗斯的立场和相关目标仍然南辕北辙。就乌克兰的去军事化问题,美国和欧洲仍在向乌克兰提供军援,与俄罗斯的目标背道而驰。   在复杂的情况之下,美国所提出的方案并不是从根本上解决问题,而是要实现短期的目标,所以未来从根本上解决乌克兰危机仍然需要各方从外交和政治方面进行艰难的谈判,不可能一蹴而就地达到停火。   监制丨郑弘   制片人丨文凡   编辑丨安颖琪
像第一代视网膜iPhone、堪比博士,OpenAI发布最强模型GPT-5
奥特曼发布GPT-5 凤凰网科技讯 北京时间8月8日,今天凌晨,OpenAI举行发布会,正式发布了期待已久的新一代大语言模型GPT-5,并面向所有7亿ChatGPT用户开放使用。 OpenAI在其官网上称,GPT-5是公司迄今为止最强大的AI系统,其智能水平上相较于所有以往模型实现了重大飞跃,在编程、数学、写作、医疗、视觉感知等多个领域都展现出一流性能。 OpenAI CEO山姆·奥特曼(Sam Altman)表示,GPT-5和OpenAI此前的模型相比取得了巨大进步。他将其比作“让我再也回不去”的那种技术,就像第一款配备视网膜显示屏的iPhone带来的体验一样。 GPT-5 “GPT-5真的让我第一次觉得,我们的主力模型已经达到了可以让你向一位真正的专家、一位博士级专家提出任何问题,”奥特曼在发布会上表示,“它最酷的能力之一,就是能即时为你写出高质量软件。按需软件这个概念,将会成为GPT-5时代的标志性特征之一。” 统一系统 GPT‑5是一个统一系统,只会以一个模型的形式呈现,而不是像以前那样分成一个常规模型和一个单独的推理模型。 它由三个关键组成部分构成:一个智能高效的基础模型,能够回答大多数问题;一个用于解决更复杂问题的深度推理模型(GPT‑5 Thinking);以及一个实时路由器(智能分流系统),可根据对话类型、复杂度、工具需求以及用户的明确指示(例如提示中写道“请深入思考这个问题”)快速判断应使用哪个模型。 这个路由器会根据真实反馈不断学习优化,包括用户切换模型的行为、对回复的偏好以及正确率等指标,从而持续提升表现。 在达到使用上限后,每个模型还配备有轻量版本,以处理剩余查询。我们计划在不久的将来将这些能力整合到一个单一模型中。 最强编程模型 OpenAI称,GPT-5是公司迄今为止最强大的编程模型。它在复杂的前端生成和调试大型资源库方面表现尤为出色。它通常能够仅通过一个提示就创建出美观且响应迅速的网站、应用程序和游戏,凭借对美学感知的敏锐洞察力,直观且优雅地将想法转化为现实。 GPT-5编程得分 早期测试者还特别提到,它在设计决策上的表现更出色,对间距、字体排版以及留白等细节有了更深入的理解。 奥特曼表示,GPT-5是“全球最强的编程与写作模型”。 在OpenAI的测试中,该模型在基准测试SWE-Bench、SWE-Lancer和 Aider Polyglot中的编程表现优于所有其他模型。在真实世界编程测试中,GPT-5在SWE-bench Verified中的得分为74.9%,在Aider Polyglot中的得分为88%。 在发布会上,OpenAI负责后训练工作的负责人扬·杜布瓦(Yann Dubois)现场演示了如何用GPT-5生成一个带有互动游戏的法语学习网站。 短短几秒内,GPT-5就写出了数百行代码,并生成了该网站的前端界面。杜布瓦简单点击浏览了网站的各个功能,发现一切似乎都按预期正常运行。 多模态 OpenAI称,GPT-5的多模态能力也了提升。该模型在多模态基准测试中表现出色,覆盖视觉、视频、空间及科学推理等多个领域。 多模态测试 更强的多模态能力意味着,ChatGPT能更精准地对图像及其他非文本输入进行推理,无论是解读图表、概述演示文稿的照片,还是回答与示意图相关的问题,它都能胜任。 安全改进 GPT-5安全研究负责人亚历克斯·贝特尔(Alex Beutel)表示,OpenAI对GPT-5进行了超过五千小时的安全风险测试,重点之一是“确保模型不会对用户撒谎”。 和之前的o3推理模型相比,GPT-5回答中出现的“幻觉”更少,但大语言模型自带的“自信撒谎”问题仍然存在。 当模型开始像智能体一样执行任务时,这个问题会变得更加复杂,不过OpenAI表示,GPT-5在更可靠地处理多步骤任务方面表现更好。贝特尔说:“过去我们发现模型有时会声称自己完成了任务,但实际上并未完成,这是个问题。” GPT-5会为那些以前会拒绝回答的提示提供OpenAI所称的“安全回应”(safe completions)。贝特尔解释道,“如果有人问‘点燃某种特定材料需要多少能量?’,这可能是试图绕过安全保护机制,意图造成伤害,也可能是学生出于学习物理知识而提问。这就给模型如何做出最佳回复带来了真正的挑战。” OpenAI将于周四开始面向所有免费用户以及付费ChatGPT订阅用户开放GPT-5,教育和企业客户预计将在下周获得访问权限。付费用户将享有更高的使用额度。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
真我P4系列新机配置曝光 预计8月底发布 主攻海外市场
【CNMO科技消息】近日,CNMO注意到,realme正筹备在印度市场推出新一代P系列智能手机——realme P4 5G和realme P4 Pro 5G,两款新机目前已进入开发尾声,预计将在近期正式发布。 真我P3系列 根据泄露内容,realme P4 5G将提供三种存储组合,分别为6GB+128GB、8GB+128GB和8GB+256GB。该机型将搭载高通骁龙6 Gen 4移动平台,延续前代P3 5G的定位,面向主流市场,并提供“引擎蓝”、“钢灰”和“锻铁红”三种配色,设计风格延续realme一贯的年轻化与动感路线。 作为系列中的高端型号,realme P4 Pro 5G将接替此前发布的P3 Pro 5G,定位中端市场。该机型提供8GB+128GB、8GB+256GB和12GB+256GB三种配置,配色方面则更为沉稳,包括“午夜常春藤”、“深橡木纹”和“白桦木纹”三种选择。值得注意的是,顶配12GB+256GB版本将不提供“午夜常春藤”配色,可能意在通过差异化设计区分不同配置层级。 虽然目前尚未有关于两款新机的屏幕、摄像头、电池容量及处理器型号的详细信息公布,但结合realme近年来的产品策略,P4 Pro 5G有望在影像、快充和设计方面进行升级。参考前代P3 Pro 5G的定价,P4 Pro 5G在印度市场的售价预计约为25000卢比(约合人民币2100元),保持其在同价位段的竞争力。
英特尔CEO陈立武发布全员信回应特朗普要求辞职:美国是我40多年来的家 我热爱这个国家
快科技8月8日消息,针对特朗普要求辞职一事,Intel CEO陈立武发布全员信称,美国是我40多年来的家,我热爱这个国家,我们正在与政府沟通,解决已提出的问题,并确保他们掌握事实。 陈立武表示,我完全赞同总统致力于推进美国国家和经济安全的承诺,我赞赏他在推进这些优先事项方面所展现的领导力,并很自豪能够领导一家对这些目标至关重要的公司。 以下为全员信全文: 亲爱的团队, 我知道今天有很多新闻,我想花点时间直接和大家谈谈。 首先,我想说:美国是我40多年来的家。我热爱这个国家,并深深感激它给予我的机遇。我也热爱这家公司。在这个关键时刻领导Intel不仅仅是一份工作,更是一种荣幸。这个行业给予了我太多,我们公司也扮演着如此重要的角色,能够与大家携手重振Intel的实力,创造未来的创新,是我职业生涯的荣幸。Intel的成功对美国科技和制造业的领先地位、国家安全和经济实力至关重要。这正是我们在全球开展业务的动力。这也是我加入这个团队的动机,也是我每天推动我们共同推进重要工作的动力,以构建更美好的未来。 关于我过去在Walden International(华登国际)和Cadence Design Systems(益华电脑)的任职经历,流传着许多错误信息。我想明确指出:在40 多年的行业从业经历中,我与世界各地以及我们多元化的生态系统建立了良好的关系,并且始终遵循最高的法律和道德标准。我的声誉建立在信任之上——言出必行,并以正确的方式行事。我领导英特尔的方式也是如此。 我们正在与政府沟通,解决已提出的问题,并确保他们掌握事实。我完全赞同总统致力于推进美国国家和经济安全的承诺,我赞赏他在推进这些优先事项方面所展现的领导力,并很自豪能够领导一家对这些目标至关重要的公司。 董事会全力支持我们为公司转型、为客户创新以及严谨执行所做的工作——我们正在取得进展。尤其令人振奋的是,我们将在今年晚些时候采用美国最先进的半导体制程技术,以实现量产。这将是一个重要的里程碑,它证明了你们的努力以及英特尔在美国科技生态系统中扮演的重要角色。 展望未来,我们的使命清晰,机遇无限。我很荣幸能与你们并肩前行。 感谢您为加强我们公司的未来所做的一切。 陈立武 今天早些时候,Intel美国方面发布声明称,坚定地致力于促进美国的国家和经济安全,并期待继续与政府部门保持联系。 “Intel、董事会和陈立武先生坚定地致力于推进美国的国家和经济安全利益,并正在进行符合总统‘美国优先’议程的重大投资。Intel已在美国制造了56年。我们将继续在国内半导体研发和制造领域投资数十亿美元,包括我们在亚利桑那州的新晶圆厂,该晶圆厂将采用美国最先进的制造工艺技术,并且我们是唯一一家在美国投资领先逻辑工艺节点开发的公司。我们期待与政府继续合作。”
承载全球约99% 互联网通信,美国FCC出台新规强化海底光缆安全
IT之家 8 月 8 日消息,彭博社今日报道称,美国联邦通信委员会(FCC)于当地时间周四批准了一项新规,以加快海底数据光缆的部署和安全防护,旨在强化美国在 AI 和下一代技术领域的领导地位。 据介绍,海底光缆承载着全球约 99% 的互联网通信,每天支持超过 10 万亿美元(IT之家注:现汇率约合 71.81 万亿元人民币)的金融交易,被视为支撑人工智能及下一代技术的重要基础设施。 FCC 主席布伦丹・卡尔(Brendan Carr)表示:“我们不仅要加快新海底光缆的铺设,还要确保这些光缆是安全的。近年来,我们看到海底光缆基础设施受到来自外国对手的威胁。” FCC 新规主要包含三方面内容:简化电缆许可流程、收紧安全要求,以及限制被视为有国家安全风险的外国实体参与。 这部分公司提交的某些许可申请将面临“推定拒绝”—— 除非申请人能证明其项目对美国国家安全无威胁,否则不太可能获得批准。此外,登上美国海岸的电缆还需满足额外的网络安全和物理安全要求。 FCC 专员奥利维亚・特鲁斯蒂(Olivia Trusty)指出:“海底光缆在窃听、破坏和监控方面具有独特的脆弱性,我们的全球对手对此心知肚明。”她补充说,俄罗斯军方已展现出跟踪和绘制光缆线路的能力。“这些趋势不能被忽视,这也是今天这项命令如此重要的原因。” 目前,全球海底光缆总长度超过 140 万公里,除安全威胁外,这些设施还容易受到自然灾害或人为活动(如船锚拖拽)的破坏。
清华大学实测:滴滴月度平均抽成15.3% 九成司机低于20%
有观点认为,“新能源汽车-网约车平台-司机”构成的生态循环,对促销费、稳就业、提升制造水平,起到了重要作用。近期,清华大学环境学院相关团队发布了《新能源汽车对网约车行业影响的实证研究》,认为电动化不仅在环境层面具有显著效益,也在重塑行业的经济格局。团队还对平台抽成和满意度情况进行了调研并发现:实测的全部滴滴司机月度平均抽成15.3%,九成司机月均抽成低于20%;71.8%的司机在问卷中高估了自己的抽成比例;女性、年长、大专及以下学历滴滴司机对平台的满意度相对较高;认可“好服务带来好收入”的司机,恰好是收入较高的司机。 司机认为合理的抽成比例是多少? 报告显示,本次研究在今年7-8月展开,共对894个滴滴司机进行问卷调研、与31位司机深入访谈,并获768位司机许可对其“收入报告”照片取证。 报告认为,电动车在能耗与维护上的优势,使其在高频运营场景中显著降低司机的运行成本;与此同时,充电耗时、充电桩分布、续航焦虑等隐性成本仍是司机的重要考量因素。 全部调研司机中,约49.0%的司机月均抽成比例为15%-20%,24.6%的司机月均抽成为10%-15%,4%的司机月均抽成为负数。将实测的全部司机整月的乘客实付和司机实收合并计算,得出月度平均抽成为15.3%,略高于滴滴公布的2024年所有订单平均抽成的14%。考虑调研取样偏差,数据较为接近。 数据源自清华大学团队《新能源汽车对网约车行业影响的实证研究》 调研发现,71.8%的滴滴司机高估了抽成比例。超三分之一的司机误认为月均抽成高于25%,但以拍照留存的数据验证,768位司机中仅有1人月均抽成超过25%。 数据源自清华大学团队《新能源汽车对网约车行业影响的实证研究》 北京的刘师傅,曾经送过外卖,因风吹日晒和时间压力大从两年前改跑网约车。厦门的林师傅和乌鲁木齐的朱师傅分别是从房地产和医药行业失业转行。他们都在问卷中填写滴滴抽成在26%-29%或29%以上,但实际上,他们6月的抽成分别是-14%、20.3%、11.9%。 报告认为,多数司机对抽成感知偏高,可能是更关注单笔订单抽成、极少关注月度账单;因“损失厌恶”更易记住高抽成订单,而忽视低抽成和负抽成订单;对平台透明化措施的了解不足、或受不实信息的影响。报告提醒,平台应该优化信息展示,降低司机理解门槛。 数据源自清华大学团队《新能源汽车对网约车行业影响的实证研究》 报告援引政府文件,验证“抽成”是指乘客实付和司机实收(包括车费和奖励)之间的差额。并发现,网约车抽成比例并不固定,而是有高有低,受订单时间、地域、平台补贴等多重因素影响。在特定场景下,甚至存在“负抽成”,即司机获得的劳动报酬(基本收入+奖励收入)超过乘客支付金额。而调研发现,见过负抽成的司机对平台抽成水平的判断,相对更接近于真实情况。 调研中,司机普遍认为最合理的抽成比例是16%-20%,而事实上,有89%的滴滴司机实际月均抽成比例处于或低于这一比例。 哪些司机更容易有好收入? 该报告还分析了滴滴司机的构成和收入情况。据调研样本,高中及以下学历的中壮年是滴滴司机的主力群体:36-45岁司机最多,占比39%,其次是26-35岁和46-55岁的司机,分别占比28%和27%;从学历分布看,高中及以下教育水平的司机占比75.4%。 本次调研的滴滴司机平均月收入超过8000元,但呈现显著的群体和城市差异。其中,上海司机平均月收入最高,达到1.4万元,北京和深圳也保持在1万元左右。但中小城市则受制于市场和价格水平,收入处于相对低位,且更多呈现兼职特点。 数据源自清华大学团队《新能源汽车对网约车行业影响的实证研究》 从年龄维度,36-45岁、46-55岁司机群体月均收入最高,分别为8802元、8506元;学历维度,高中学历群体月均收入最高,为8693元。报告认为,这种年龄和学历上的收入特征,验证了网约车司机是以服务为导向、多劳多得、高度包容的就业形态,为社会各类群体,尤其是在传统就业市场可能处于劣势的人群,提供了凭劳动吃饭、用服务说话的公平舞台。 这些司机选择跑网约车的主要动因在于灵活性与收入,而滴滴平台在撮合效率、垫付机制和补贴奖励方面的优势最获认可,其次是安全、体验等方面的保障。 报告认为,平台抽成留存大部分会通过乘客优惠和司机奖励/补贴反馈双方,还有一部分用于夯实司机和乘客权益保障、完善安全和体验、技术研发等能力建设,以及支付纳税和经营成本。该机制本质上是一种通过抽成形成“水库”,再根据供需关系和基建需求反哺司乘的运营模式,优点是可以高效解决供需和保障,形成可持续性生态,缺点是理解成本较高。 数据源自清华大学团队《新能源汽车对网约车行业影响的实证研究》 调研显示,司机的服务观念和其对平台的满意度也有关联。认可“好服务带来好收入”的司机群体,对平台的满意度显著高于其他群体,有趣的是,他们恰好也是获得较高收入的司机。 数据源自清华大学团队《新能源汽车对网约车行业影响的实证研究》 研究团队分析,这类司机踏实、务实,更容易在灵活用工的行业获取不错的收入,并形成正向循环。但也提醒网约车平台,在包容就业的同时,需要关注不同群体差异化的期待,为其提供更有针对性的支持和激励,从而提升整体满意度。 这或许也是滴滴近期升级司机权益保障等动作的题中之义。网约车平台一头是稳就业,一头是促消费,还有诸多行业难题待解,需要政策引导、平台创新、司机参与和公众监督的协同推进。只有各方形成合力,才能推动行业高质量发展。
中国已有11亿人领用电子社保卡
IT之家 9 月 26 日消息,据央视新闻报道,在国务院新闻办公室今天(26 日)举行的“高质量完成‘十四五’规划”系列主题新闻发布会上,人力资源社会保障部相关负责人介绍,目前,我国社保卡持卡人数已达 13.9 亿人,其中 11 亿人领用了电子社保卡。 “十四五”期间,我国不断完善国家社保公共服务平台和掌上 12333 等服务渠道功能,开通了 161 项全国性服务,累计为群众提供不见面服务超过 600 亿人次。从全国来看,社保业务线上办理量已经超过了 70%,部分地区接近 90%。 各地加强和银行、邮政等机构合作,打造出城区步行 15 分钟、乡村辐射 5 公里的社保服务圈。对于高龄或者行动不便的群众,提供帮办、代办或者预约上门服务。 人力资源社会保障部副部长李忠介绍,目前,社保卡不仅实现了人社领域的 95 项应用,还承载了越来越多其他领域的民生服务。比如,通过社保卡发放养老金,持卡在本地和跨省异地就医购药,刷社保卡坐公交地铁、借阅图书、进博物馆等。 IT之家附电子社保卡申领方法: 只要本人持有实体社保卡,即可通过电子社保卡官方 App、微信小程序和支付宝小程序,以及国家政务服务平台、国务院客户端微信小程序、掌上 12333、云闪付、人社部门 App、服务银行 App 等电子社保卡服务渠道申领使用电子社保卡。
Kimi Agent模式开启内测:AI自主打工,帮你完成数小时复杂工作
凤凰网科技讯 9月26日,国内大模型公司月之暗面今日开启了其Kimi Agent模式“OK Computer”的小范围内部测试。据了解,部分早期用户已收到邀请,可通过网页版Kimi体验这一新功能。此举标志着Kimi从一个对话式AI助手,向能够自主完成复杂任务的智能代理(Agent)迈出了重要一步。 与传统的聊天模式不同,“OK Computer”模式的核心在于赋予了Kimi连续执行、自主规划和调用多种工具的能力。该模式通过一个虚拟电脑环境,可以让Kimi为完成一个复杂指令而工作长达数十分钟。官方资料显示,其背后是基于端到端强化学习技术训练的原生Agent模型,使Kimi能够熟练使用文件系统、浏览器、代码终端、图片生成乃至专业财经数据源等超过20种工具,以应对多变的现实任务场景。 该模式的实际应用能力在几个关键场景中得到了展示。最引人注目的是端到端的网站原型开发。用户仅需用自然语言描述需求,Kimi便能自主完成从需求分析、任务规划、素材搜集、交互设计、前后端代码编写,直至最终将网站部署到云端服务器的全过程。在官方演示中,Kimi为一只宠物狗创建多功能网站时,自主规划了14个子任务,并在部署环节自行解决了端口占用的问题,展现了其处理突发状况的能力。 除了网站开发,“OK Computer”还展示了在另两大复杂任务上的处理能力。其一是海量数据分析与可视化,能够处理几十万行的表格数据,或接入实时财经数据,最终生成可交互的可视化报告。其二是高品质演示文稿的制作,能够根据用户详细的风格要求,自动搜集和生成图片素材,最终交付可供二次编辑的PPTX格式文件,而非静态的PDF。这表明Kimi Agent正试图处理过去需要多人团队协作、耗时数小时才能完成的专业工作。
微软 Edge 浏览器给侧载扩展戴上紧箍咒:发现恶意行为自动清理
IT之家 9 月 26 日消息,科技媒体 Windows Report 今天(9 月 26 日)发布博文,报道称微软正为 Microsoft Edge 浏览器开发新安全功能,自动检测并移除恶意的“侧载扩展”(即从非官方商店安装的扩展)。 IT之家注:通常情况下,用户会从微软或谷歌的官方商店安装 Edge 浏览器扩展,但部分扩展程序通过“侧载”方式(即从官方商店之外的渠道)进行安装。虽然这种方式为开发者和高级用户提供了便利,但它也为攻击者植入恶意或垃圾扩展提供了可乘之机。 微软指出通过侧载方式安装的恶意扩展,往往会对用户构成严重的安全威胁。例如,一些扩展被设计成即使用户手动删除后也能自动重新安装,极难彻底清除。 另一些则会篡改浏览器设置,如强行更改默认搜索引擎或恶意重定向用户的网页点击。更严重的是,它们还可能窃取用户的登录凭据、支付信息等高度敏感的数据。 微软为应对这一威胁,计划为 Edge 浏览器引入一项全新的主动防御功能。该功能将持续扫描浏览器中通过侧载方式安装的扩展,一旦检测到恶意程序,Edge 会立即自动禁用并将其彻底移除。此举旨在从根本上阻止恶意扩展运行,保护用户免受信息跟踪、垃圾广告骚扰和数据被盗等风险的侵害。 根据微软官方发布的 Microsoft 365 路线图,这项针对恶意侧载扩展的防护功能目前被标记为“正在开发中”,预计将在 2025 年 11 月正式向所有用户推送。
刚刚,ChatGPT又更新了,奥特曼:这是我最喜欢的功能
刚宣布完 1000 亿美元交易,山姆·奥特曼(Sam Altman)又憋了个大招——ChatGPT 不再是被动回答问题的工具人,而是要主动给你「投喂」内容了。 就在刚刚,OpenAI 正式为 Pro 用户(又是氪金玩家专享)推出 ChatGPT Pulse 预览版,后续会逐步扩展到 Plus 用户,最终目标是所有人使用。 它会在你睡觉的时候偷偷帮你做研究,第二天一早就以主题卡片的形式展示在 Pulse 中,给你推送个性化内容。 简单说就是:AI 版私人助理 + 个性化资讯流,而且 OpenAI 还声称不会让你无脑刷屏。 奥特曼本人则在社交媒体上发文表示:「这是我最喜欢的功能!」 (好好好,又一个最喜欢的功能。) 要知道,传统的 ChatGPT 就是个「问答机器」——你问一句它答一句,全程需要你来主导。 但 Pulse 完全颠覆了这个模式。 具体来说,每天晚上,它会根据你的聊天记录、反馈和连接的应用(Gmail、Google 日历等),自动帮你做研究。第二天一早,你就能收到一份为你量身定制的个性化更新。 比如说,你昨天和 ChatGPT 聊了「想去波拉波拉岛旅游」,它可能会给你推送当地的天气、旅游攻略或者机票折扣信息。 你提到「我家娃 6 个月大了」,它就会主动推送婴儿成长里程碑、育儿小贴士什么的。 甚至,如果你连接了日历,它还能帮你起草会议议程、提醒你买生日礼物,或者推荐出差地的餐厅。 最让人眼前一亮的是,Pulse 的设计理念完全不同于现在那些「停不下来」的 App。 ChatGPT 技术负责人 Samir Ahmed 明确表示:「这个体验是有结束的,它的设计初衷是为你服务,而不是让你停不下来地刷屏。」 每天推送的内容都是精挑细选的,看完就完了,不会让你陷入无休止的信息漩涡。 而且,每条更新只在当天有效,除非你主动保存为对话或提出追问。 这简直是对现在「算法投喂」模式的一次降维打击——有用的信息主动来找你,而不是让你在海量信息里瞎找。 OpenAI 在 ChatGPT Lab 中和大学生合作测试,发现了一个有趣现象: 很多学生刚开始觉得 Pulse 一般般,但当他们开始主动告诉 ChatGPT 想看什么内容后,立马感受到了它的威力。 来看几个官方分享的真实案例: 学霸 Isaac 在和 ChatGPT 聊到旅行规划后,第二天收到了火车票预订时间的精准建议,还包含了他原本不知道的通勤信息。 潜水爱好者 Hexi 分享了自己在潜水课上的困难,ChatGPT 不仅给出了针对性建议,还把潜水和风险管理做了类比——完全 get 到了她的兴趣点。 这种「举一反三」的能力,确实有点私人助理那味儿了。 不过,这种个性化体验背后的代价可不小。要让 Pulse 真正「懂你」,你得向 OpenAI 交出大量个人数据,具体来说: 如果你在 ChatGPT 中开启了「引用历史记录」,它会查看你过去的对话来决定研究方向。 如果你已连接日历和邮件,系统会提示你确认是否允许 ChatGPT 访问这些应用,以帮助你规划日程。Kaplan 表示,用户必须点击「接受」才会生效。 虽然 OpenAI 强调「Pulse 训练数据的处理方式和普通对话完全相同。」但隐私换便利,这笔账到底划不划算?以及会不会造成「信息茧房」,对此,OpenAI 只是表示设置了「多重安全过滤」,但具体细节一概不透露。 对于很多用户来说,在人手一个「贾维斯」之前,这种「黑盒式」的隐私保护承诺实在难以令人放心。 从技术角度看,Pulse 其实是 OpenAI 向 AI 智能体(Agent)方向迈出的第一步。OpenAI 应用部门 CEO Fidji Simo 在博客中表示: 「下一个前沿就是代理——能代表你采取行动、像团队成员一样与你协作的 AI 助手。」 附上博客地址:https://fidjisimo.substack.com/p/a-new-paradigm-of-proactive-steerable 这意味着未来的 ChatGPT 不会只停留在研究和信息整理上,而是能为你自动制定计划、按照目标采取行动,并在关键时刻主动提醒。 随着这种人机交互方式的转变,传统的搜索引擎和资讯 App 或许要被狠狠上压力了。毕竟谁能拒绝一个既聪明又主动的私人助理呢?

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。