GPT-5大提升,o3对抗赛夺冠,但OpenAI越来越难让人惊艳了?,gpt3介绍
(文/观察者网 张广凯 编辑/吕栋)
北京时间8月8日凌晨,备受期待的OpenAI最新大模型ChatGPT-5终于正式发布,就在同时,谷歌举办的首届大模型国际象棋对抗赛中,o3也以4-0完胜Grok 4夺冠。这本该是对OpenAI双喜临门的一天,但作为一款关注度如此之高的产品,网友也很快发现了GPT-5的一些小小的瑕疵。
作为OpenAI今年最受期待又屡屡跳票的重磅产品,ChatGPT-5今天的确给出了一些颇具说服力的测评数据,证明其推理能力有着显著进步。
博士水平的科学知识测试GPQA Diamond中,不调用工具的GPT-5 Pro推理模式拿到88.4分,创造新纪录。
多模态方面,GPT-5得到84.2分,比o3的82.9分有小幅提升。
高难度的Humanity's Last Exam(人性终极测试)上,GPT-5 Pro和GPT-5在不调用工具时分别得到30.7和24.8分,较o3的14.7分大幅提升。
这些数据都证明,GPT-5算得上是一次成功的大版本升级。
而OpenAI发布会PPT里的小瑕疵,也引起了网友热议。大家发现在这张图表里,柱状图的高度出现了明显错误,但并不知道这是人为错误还是由AI生成。
有网友指出,在关于机翼升力原理的回答中,GPT-5也引用了一个广为流传的错误观点。当然,这样的问题归咎于AI未免过于苛刻。
做题好是不是真的好?
同样在今天凌晨结束的对抗赛上,OpenAI旗下的o3以4-0完胜Grok 4,夺得最终冠军。尽管Grok 4在此前两轮中都表现出色,但在决赛中,随着对局长度增加,Grok 4也开始表现出棋力下降。
o3尽管表现相对出色,在昨天的半决赛中还下出过正确率评分100%的棋局,但纵观整个比赛过程,也不乏低级失误。
此次国际象棋比赛的意义,并非考验大模型的算力,而是考验其推理能力。
如果大模型在接受了大量棋谱训练之后,体现出高超棋力,这只能证明AI的记忆力或者算力强大,而这件事在2017年就已经被AlphaGo证明过了。
因为无论是AlphaGo也好,还是计算工具也好,这样的AI在特定任务中无比强大,但是却毫无泛化性,不能解决任何其它问题。只有使用人类逻辑推理的模型,才能在人类世界中拥有最好的泛化性。
OpenAI显然也不再希望把外界的胃口掉得过高。在本次发布会上,我们可以看到OpenAI花了更多时间介绍GPT-5在垂直场景应用的能力,例如生成小游戏、回答健康问题的能力,这都是为了让AI与人类更好地共存与协作。
2、新华全媒+丨探访甘肃榆中山洪灾害安置点,2021年榆中地震
3、TAMARA(译者注:作者为女性):女权主义是如何将男性塑造成反派的,翻译女权主义