2024高考数学: 大模型解题能力几何？

用户1668

用户6100

2024年9月8日修改

一、背景

LangGPT社区代码诗人群核心成员“陆游博士”花费了五个深夜的时间测评了国内外大模型的数学能力，使用训练集中不可能出现的24年高考数学题“管中窥豹”（自谦了哈）各模型的推理能力、稳定性以及对提示词的敏感程度，了解模型的定价与哪些因素有关~​

二、数据相关

1、数据来源

抽样自上海卷、北京卷、新课标1、新课标2，全国甲卷（理）共29道单项选择题。​

2、数据预处理

•
使用gpt4o进行ocr转换为Latex格式文本，并进行人工校对​

•
对每道题的选项ABCD进行倒序A->D,B->C,C->B,D->A构造镜像的29道逆序题​

3、答题过程

正序和倒序题使用vanila Prompt(简单直出)和CoT Prompt(经典step bystep)调用模型答题，每题答2次，因此每个待测模型的总答题数为29x2x2x2=232次​

Vanilla Prompt（"Vanilla Prompt"一词是最基本或最简单形式的指令或请求，它没有复杂的条件、特定的风格或详细的描述，而是直接、明了地描述了所需的任务或要求）​

4、记分规则

2次都答对得1分，对1次得0.5分，都不对得0分，满分29分

5、推理增量定义

ΔReason:= CoTPrompt得分-Vanila Prompt得分，反映模型因思维链推理额外获得的分数提升​

6、推理采样的超参数

temperature=0.2，frequency_penalty=0

三、实验过程（TODO 待补充、后续细化）

2024高考数学: 大模型解题能力几何？​