近日,上海人工智能实验室公布了首个AI高考全卷评测结果,展示了GPT-4o与六个开源模型在面对高考语文、数学、英语试卷时的表现。
此次参与测试的开源模型如下:
此次选择的六款模型均在高考前开源,这避免了开发者使用高考试题训练模型,从而“作弊”。
此次测试结果如下:
可以看出,总成绩方面阿里的Qwen2-72B排名第一,成绩303分;GPYT-4o得分296分排名第二;第三则是来自上海人工智能实验室的InternLM2-20B-WQX,295.5分。
不过,有趣的是,数学成为了此次测试中所有大模型的短板,150分的试卷,没有一款模型能够达到90分的及格分。
从结果来看,目前各家的大模型对于语义理解、文字沟通已经有了相对不错的表现,但面对数学这样强逻辑运算的领域,AI还是会力不从心。
原创文章,作者:liunaihe,如若转载,请注明出处:http://www.antutu.com/doc/132114.htm
登录后才能评论