AI“高考”成绩出炉:数学全灭

Antutu

阅读

近日,上海人工智能实验室公布了首个AI高考全卷评测结果,展示了GPT-4o与六个开源模型在面对高考语文、数学、英语试卷时的表现。

此次参与测试的开源模型如下:


  • Mixtral 8x22B:法国AI公司Mistral于2024年4月17日开源的对话模型。
  • Yi-1.5-34B:零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型。
  • GLM-4-9B:智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本。
  • InternLM2-20B-WQX:上海人工智能实验室于2024年6月4日开源的书生・浦语2.0系列文曲星大语言模型。
  • Qwen2-57B:阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型。
  • Qwen2-72B:阿里巴巴于2024年6月6日开源的72B稠密模型。


此次选择的六款模型均在高考前开源,这避免了开发者使用高考试题训练模型,从而“作弊”。

此次测试结果如下:

可以看出,总成绩方面阿里的Qwen2-72B排名第一,成绩303分;GPYT-4o得分296分排名第二;第三则是来自上海人工智能实验室的InternLM2-20B-WQX,295.5分。

不过,有趣的是,数学成为了此次测试中所有大模型的短板,150分的试卷,没有一款模型能够达到90分的及格分。

从结果来看,目前各家的大模型对于语义理解、文字沟通已经有了相对不错的表现,但面对数学这样强逻辑运算的领域,AI还是会力不从心。

原创文章,作者:liunaihe,如若转载,请注明出处:http://www.antutu.com/doc/132114.htm

相关推荐

登录后才能评论

评论列表 ( 条)

返回
顶部