AI“高考”成绩出炉：数学全灭

Antutu •

2024-06-20 10:26:58

•

阅读

近日，上海人工智能实验室公布了首个AI高考全卷评测结果，展示了GPT-4o与六个开源模型在面对高考语文、数学、英语试卷时的表现。

此次参与测试的开源模型如下：

Mixtral 8x22B：法国AI公司Mistral于2024年4月17日开源的对话模型。
Yi-1.5-34B：零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型。
GLM-4-9B：智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本。
InternLM2-20B-WQX：上海人工智能实验室于2024年6月4日开源的书生・浦语2.0系列文曲星大语言模型。
Qwen2-57B：阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型。
Qwen2-72B：阿里巴巴于2024年6月6日开源的72B稠密模型。

此次选择的六款模型均在高考前开源，这避免了开发者使用高考试题训练模型，从而“作弊”。

此次测试结果如下：

可以看出，总成绩方面阿里的Qwen2-72B排名第一，成绩303分；GPYT-4o得分296分排名第二；第三则是来自上海人工智能实验室的InternLM2-20B-WQX，295.5分。

不过，有趣的是，数学成为了此次测试中所有大模型的短板，150分的试卷，没有一款模型能够达到90分的及格分。

从结果来看，目前各家的大模型对于语义理解、文字沟通已经有了相对不错的表现，但面对数学这样强逻辑运算的领域，AI还是会力不从心。

原创文章，作者：Noer，如若转载，请注明出处：http://www.antutu.com/doc/132114.htm

 13









产能充足华为Pura 70系列也开始降价了

« 上一篇 2024-06-20 10:24:36

MIX Flip消息汇总：可能是最强8Gen3小折叠

2024-06-20 10:51:48 下一篇 »

评论列表 ( )

下载

安兔兔评测Android

2026.6.30 v11.1.4

评测包下载 3D包下载

x86包下载 3D Lite包下载

安兔兔AI评测Android

2026.5.8 v3.6.2

立即下载

安兔兔评测车机版Android

2026.2.12 v1.2.3

立即下载

安兔兔SSDWin

2019.11.6 v1.0.3

立即下载

安兔兔评测Win/Linux

2025.11.14 v2.0.0.1192

Window版 Linux版

安兔兔AI大模型评测Win

2025.10.20 v1.1.0.1103

立即下载

媒体:

抖音

公众号

视频号

B站

AI“高考”成绩出炉：数学全灭

产能充足 华为Pura 70系列也开始降价了

MIX Flip消息汇总：可能是最强8Gen3小折叠

相关推荐

评论列表 ( )

下载

安兔兔评测Android

安兔兔AI评测Android

安兔兔评测车机版Android

安兔兔SSDWin

安兔兔评测Win/Linux

安兔兔AI大模型评测Win

媒体:

产能充足华为Pura 70系列也开始降价了