首页 > 科技活动 > 每日活动 > “最强模型”GPT-5发布后评价褒贬不一,奥特曼回应

“最强模型”GPT-5发布后评价褒贬不一,奥特曼回应

发布时间:2025-08-11 19:49:05

北京时间8月9日,据彭博社报道,几个月来,OpenAI CEO萨姆·奥特曼(Sam Altman)一直在大力宣传GPT-5的性能,把它的发布描绘成了公司历史上的关键时刻。但是在GPT-5发布后的24小时内,这款新模型收到了褒贬不一的评价

在周四的发布会上,OpenAI声称GPT-5在编程和处理复杂问题的推理能力方面更胜一筹,并表示它已先进到足以让聊天机器人ChatGPT达到“博士级专家”的水平。

令人失望

虽然一些早期使用者称赞了该模型,但也保留了意见。开发者西蒙·威利森(Simon Willison)在博客文章中写道,“它是我目前最喜欢的新模型”,称其“性能出众”,“偶尔令人惊艳”,“但与之前的版本相比并没有重大飞跃”。

在各大社交媒体平台上,ChatGPT用户对GPT-5持续存在编造信息、搞错基础数学和拼写问题的情况表示失望。本特利大学数学系副教授诺亚·詹西拉库萨(Noah Giansiracusa)认为,这次升级“令人失望”。他指出,虽然GPT-5“确实有些改进”,但“改进幅度比我期望的要小得多”。

奥特曼

奥特曼

部分用户的负面反应,或许源于他们对技术底层运作机制的误解。与OpenAI此前发布的模型不同,GPT-5会根据查询内容自动切换不同复杂程度的模型。这种设计虽然能优化公司的计算资源配置,但也意味着用户并不总能调用到最强大的技术版本。

例如,在一次测试中,当被问及单词“blueberry”中字母“b”出现了多少次时,GPT-5最初给出了“三次”的错误答案。但当被提示“仔细想一想”后,GPT-5似乎切换到了更高级的推理模型,给出了正确答案。

奥特曼:系统出故障

周五,奥特曼对部分用户反馈作出恢复,承认系统存在技术故障。“从今天开始,GPT-5会显得更聪明些,”他表示,“昨天自动切换器出现故障,大半天都无法正常工作,导致GPT-5表现得异常迟钝。”

此次升级对OpenAI至关重要。OpenAI正在努力保持领先地位,应对来自美国和中国竞争对手日益激烈的竞争。同时,它还要说服企业用户和个人用户为其付费服务买单,以抵消其在人才、芯片和数据中心等方面的巨额投入,维持AI研发。

随着AI系统的不断进步,想要明确评判各类服务的优劣变得越来越困难。截至周五中午,GPT-5已在LMArena(基于用户评分的热门AI模型排行榜)上登顶多个类别的榜首。但另一个基准测试ARC-AGI-2则显示,GPT-5落后于埃隆·马斯克(Elon Musk)旗下xAI的最新版Grok。

一些用户认为GPT-5写作更差

一些用户认为GPT-5写作更差

在缺乏更明确评估标准的情况下,模型之争有时更多靠感觉来判断。如今每周有近7亿人使用ChatGPT,难免会有人对模型的表现感受不一。要评估一个新AI系统对个人生活与工作的价值,短短一天时间远远不够。

宾夕法尼亚大学沃顿商学院教授伊桑·莫利克(Ethan Mollick)经常试用各类AI模型,他对GPT-5的研究能力、机智的文字应答以及编程简化功能(即便是对新手)赞叹不已。

“GPT-5会自主完成各种任务,常常是超凡的任务,有时是奇怪的任务,有时则是非常AI式的任务,”他在博客中写道,“而这正是它最迷人的地方。”

然而,在社交论坛Reddit上,用户的反应却截然不同。在周五的“有问必答”活动中,奥特曼面对了一些用户的质疑。这些用户对自己无法掌控和了解具体由哪个模型响应查询感到不满。奥特曼表示,OpenAI将采取措施解决这些抱怨,包括提高系统的“透明度”。

在活动中,奥特曼曾回应一位Reddit用户的问题。他指出,OpenAI认为GPT-5的某个版本在“写作质量”上优于GPT-4.5。随后他问道:“你觉得它更差吗?”接着,用户们立刻接二连三地回答说:“是的。”

每日活动更多>>

广汽将继续以科技向心为方向,依托番禺行动释放的体系效能,聚焦用户真实需求,持续打磨技术与产品 最大续航里程440km 2026款五菱扬光售价6.98万元起 定价区间16-21万,别克至境E7为什么敢说自己更懂中国家庭? 备战2026北京车展,广汽发布新技术,到底有多少干货? 比亚迪一项数据,把日媒给镇住了:它们一年有200次,丰田才8次 广汽这次科技日,让我重新思考什么叫“科技向心” “海外卖高价、国内定良心价” 瑞虎7L和瑞虎5真的值吗? 长安启源旗下新款A06、Q05双车正式同步上市,凭借激光雷达高阶智驾配置与亲民定价迎合市场 2026款乐道L90确定4月21日正式上市,沿用900V高压平台、340kW高性能电驱,支持换电与快充,六座大空间 预售13.98万元起,搭载1.5L插混动力,吉利银河M7开启预售 揭秘领克900的成功密码,领克CO:TALK智享会启幕! 740Li顶配版尊享型确认停产!现款宝马7系即将全面停产 6.89 万起 + 后驱独立悬架!全新奇瑞 QQ3 预售,经典 IP 焕新登场 纽北燃油车记录,6分15秒,福特GT竟不是福特生产的? 从“出口冠军”到“全球化样本”,奇瑞一季度成绩单值得重新再看一遍 “出尘入画”亮相新色,凯迪拉克XT5春季焕新升级 对标丰田,长安HEV如何撬动“新燃油时代” 21年的坚守, 长城汽车以“信”铸基助力中国汽车强国建设 硬派进化,现代Boulder概念车:跨界越野车+未来皮卡一网打尽 凯迪拉克XT5具象中式色彩:东方漓水映灰韵 豪华SUV变聪明了?新一代奔驰GLE/GLS:豪华开始讲AI Freelander神行者首秀,你要重新认识这个品牌 轴距3005mm,续航900km 宝马iX3长轴版来了 一汽大众“有史以来规模最大”的春季新品发布会,改写了车市竞争规则? 场地试驾吉利银河M7:以极致操控,加冕A级SUV操控之王 当智能电动成了“显学”,全新奥迪A6L如何定义豪华? 7.98万起售,一汽-大众全新速腾S重塑A级家轿价值标杆 乐道轿车真的要来了?最新渲染图曝光,就等厂家正式官宣 五菱华为高管对话:聊透了“国民好车”该长什么样 官车余晖散尽:奥迪A6L的结构性溃败与代际抛弃