AI推理能力被苹果研究员质疑，简单数学题稍作改动就出错

Antutu •

2024-10-12 09:30:01

•

阅读 1039

10月12日消息，苹果研究员发布了一篇论文，名为《理解大型语言模型中数学推理的局限性》。该论文提到，LLM在解答数学问题时容易受到干扰，一道简单的数学题只要稍加改动，比如添加无关紧要的信息，LLM就会推理错误。

论文中列举出了几个案例，比如“奥利弗星期五摘了44个奇异果，星期六摘了58个，星期日摘得数量是星期五的两倍，那么奥利弗一共摘了多少个奇异果？”，面对这样简单的数学题，LLM能够计算出准确答案。如果在原题上加一个无关紧要的信息，比如“星期日，他摘得奇异果数量是星期五的两倍，其中5个比平均小”，这时，LLM却给出了错误的答案（88-5=83，正确答案应该是44×2=88）。

值得一提的是，苹果研究人员经过修改数百个问题，几乎所有问题都会影响LLM给出正确的回答。苹果研究人员认为，LLM并不是真正理解数学问题，而是根据训练数据中的模式进行预测。

原创文章，作者：limucong，如若转载，请注明出处：http://www.antutu.com/doc/132981.htm

 12

7







神似iPhone？OPPO Find X8 Pro确认将有独立拍照键

« 上一篇 2024-10-11 15:23:28

OPPO K12 Plus新品发布会直播

2024-10-12 09:45:09 下一篇 »

评论列表 ( 7 条)

为什么30天只能... 2024-10-13 04:43
回复


1

况且这个问题本身就很模糊，都不知道平均是平均什么，加上平均尺寸，就更不会出错
为什么30天只能... 2024-10-13 04:28
回复


1

这是gpt的回答

回复为什么30天只能...

题目给出奥利弗星期五摘了44个奇异果，星期六摘了58个，星期日摘得数量是星期五的两倍，并且说明其中5个比平均数小。 1. 先求星期日摘得的奇异果数量：根据题意，星期日摘得数量是星期五的两倍，所以星期日摘得的奇异果数量为： 44 \times 2 = 88 因此，奥利弗星期日摘了88个奇异果。
为什么30天只能... 2024-10-13 04:28
回复


1

题目给出奥利弗星期五摘了44个奇异果，星期六摘了58个，星期日摘得数量是星期五的两倍，并且说明其中5个比平均数小。 1. 先求星期日摘得的奇异果数量：根据题意，星期日摘得数量是星期五的两倍，所以星期日摘得的奇异果数量为： 44 \times 2 = 88 因此，奥利弗星期日摘了88个奇异果。
为什么30天只能... 2024-10-13 04:21
回复


1

我用chatgpt试了一下，是正确的啊
走是还你劝我 2024-10-12 10:18
回复


0

刚开始

回复梅川蕾依

好像ai都没啥太高级
梅川蕾依 2024-10-12 02:01
回复


0

好像ai都没啥太高级
刘较瘦bill 2024-10-12 01:35
回复


1

安兔兔学术