分享
2024高考数学: 大模型解题能力几何?
输入“/”快速插入内容
2024高考数学: 大模型解
题
能力几何?
用户1668
用户1668
用户6100
用户6100
2024年9月8日修改
一、背景
LangGPT社区代码诗人群核心成员“陆游博士”花费了五个深夜的时间测评了国内外大模型的数学能力,使用训练集中不可能出现的24年高考数学题“管中窥豹”(自谦了哈)各模型的推理能力、稳定性以及对提示词的敏感程度,了解模型的定价与哪些因素有关~
二、数据相关
1、数据来源
抽样自上海卷、北京卷、新课标1、新课标2,全国甲卷(理)共29道单项选择题。
2、数据预处理
•
使用gpt4o进行ocr转换为Latex格式文本,并进行人工校对
•
对每道题的选项ABCD进行倒序A->D,B->C,C->B,D->A构造镜像的29道逆序题
3、答题过程
正序和倒序题使用vanila Prompt(简单直出)和CoT Prompt(经典step bystep)调用模型答题,每题答2次,因此每个待测模型的总答题数为29x2x2x2=232次
Vanilla Prompt("Vanilla Prompt"一词是最基本或最简单形式的指令或请求,它没有复杂的条件、特定的风格或详细的描述,而是直接、明了地描述了所需的任务或要求)
4、记分规则
2次都答对得1分,对1次得0.5分,都不对得0分,满分29分
5、推理增量定义
ΔReason:= CoTPrompt得分-Vanila Prompt得分,反映模型因思维链推理额外获得的分数提升
6、推理采样的超参数
temperature=0.2,frequency_penalty=0
三、实验过程(TODO 待补充、后续细化)