首页>商业 > 正文

高考数学轮战大模型

时间：2023-06-09 12:59:56 来源：IT之家阅读量：6798

原文标题:《大意外！高考数学轮战大模型，结果完全想不到》

听说网友被 ChatGPT 气炸了！

昨个儿高考数学刚结束，有网友就坐不住了，赶紧找来了新高考数学一卷的部分题喂给了 AI 同学。

结果却让人大跌眼镜:

有网友表示:

ChatGPT4 能把自己气炸，怎么教都不会

图源博主浪猪灰头

所以大模型之前表现数学推理能力好，都是在耍花招？它只是记住了问题的答案？

先别着急下定论，给 AI 同学一个证明自己的机会吧。

我们用 ChatGPT、GPT-4、百度文心一言、阿里通义千问、科大讯飞星火认知大模型这几位“数学高手”进行了测试。(最近出现了太多的大模型，实在测不完，还有比如 Bard 不支持中文等原因，所以我们先选择了上述几个模型)

整体表现如上图，目前大模型在做高考数学题方面还是个“差生”。

一起来看下具体结果是怎样令人哭笑不得的。

五大模型能否做对填空题？

先来点填空题当“开胃小菜”。

公平起见，我们使用同样的格式进行提问。

某学校开设了 4 门体育类选修课和 4 门艺术类选修课，学生需从这 8 门课中选修 2 门或 3 门课，并且每类选修课至少选修 1 门，则不同的选课方案共有？种

答案:64

GPT-4

ChatGPT

文心一言

不应该是两种方案数加起来吗？已经逐渐离谱。

通义千问

第一种选课方案里的“都不选”是个什么鬼！

讯飞星火

出师不利，只有 GPT-4 给出了正确答案，填空题对于大模型来说也很有难度？

但是看起来这几位 AI 同学都知道分情况来计算，也许只是恰巧这道题做错了？我们接着往下看。

在正四棱台 ABCD-A₁B₁C₁D₁ 中，AB=2，A₁B₁=1，AA₁=√2, 则该棱台的体积为

答案:7√6/6

GPT-4

ChatGPT

文心一言

通义千问

讯飞星火

这一题直接全军覆灭，ChatGPT 更是直接没解出来，还让检查是不是题出错了。

答案越来越离谱了，还真就不信邪了。

再来！

已知函数 f = cosωx -1 (ωgt;0) 在区间 (0,2π) 有且仅有 3 个零点，则 ω 的取值范围是？

答案:

GPT-4

ChatGPT

文心一言

通义千问

讯飞星火

本已经抱着再一次全军覆没的心情了，没想到中文大模型力挽狂澜！

做大题表现如何？

玩腻了填空题，再来挑战一下更有难度的大题吧！

公平起见，我们还是以同样的格式进行提问:

请你做一下面这道数学题:已知在 ABC 中，A+B=3C，2sin =sinB。(1)求 sinA (2)设 AB=5，求 AB 边上的高

答案:3√10/10(2)6

下面是各个大模型的表现结果:

GPT-4

ChatGPT

文心一言

通义千问

讯飞星火

这道三角函数题，科大讯飞的星火认知大模型第一小问答案对了，但是步骤中有差错。

据说，GPT-4 做这种题只有 0.1% 的概率生成的结果完全正确。

高考数学第一道大题通常都比较简单，上面这几位 AI 同学的表现你觉得怎么样？

如果大家感兴趣可以自己测试一下后面几道难度相对较高的大题。

或者大家可以使用不同的 prompt 试试捏～

参考链接:

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考

头条新闻

中国将蝉联全球票房市场冠军，美媒酸了

（观察者网讯）距离2021年结束没几天了，美国文娱杂志《Variety》网站日前预测，中国今年会蝉联全球单一票...
华为发布可测血压的手表HUAWEI WATCH D，售价2988元

图片来源：华为可穿戴设备在医疗健康领域有了新进展——12月23日，又一家厂商推出了支持测血压的智能手表，售价2...
vivo OriginOS Ocean体验：一次从视觉到功能的成熟进化

图片来源：vivo12月9日，vivo发布新系统OriginOSOcean。我在提前使用了一周之后，今天就来聊...
考古新发现！江西樟树国字山大墓或为越国王室贵族墓

在江西省樟树市，考古人员早前发现了一座东周时期的高等级墓藏，这座墓葬的发掘已经持续了四年多，出土2000多件套...
浙江绍兴：为了所有考生“应考尽考”

中国青年报客户端杭州12月25日电（中青报·中青网记者蒋雨彤通讯员陈思洁）今天上午，穿着隔离服的考生余柯滢，拿...