--- title: 强化学习如何不用奖励模型提高通用问题推理能力 source_url: https://mp.weixin.qq.com/s/b8FCa0JtRJu8PbnTVkAPxg publish_date: 2026-05-11 tags: [wechat, article, gpt, llm] review_value: 7 review_confidence: 7 review_recommendation: neutral sha256: 774711bb46580e18dd55885bac12ee853561e5b6afa21e2768e75a7aa9e785f1 --- --- source: wechat source_url: https://mp.weixin.qq.com/s/b8FCa0JtRJu8PbnTVkAPxg ingested: 2026-05-11 feed_name: 炼钢AI wechat_mp_fakeid: MP_WXS_3942529661 source_published: 2025-05-07 --- # 强化学习如何不用奖励模型提高通用问题推理能力 ** 前言 ** 目前用强化学习提高推理能力的训练多集中于数学、代码等领域。因为在这些领域里,问题有明确的答案,可以借助正则表达式或代码沙箱,实现高效且精确的验证。然而,对于更为通用的领域问题,如创意写作、翻译等任务,往往需要借助奖励模型(判别式/ 生成式)来进行打分。但是奖励模型可能有自己的偏好(例如更喜欢长的答案)且在强化学习训练过程中容易出现reward hack的问题。笔者在本文中探索了在不使用奖励模型的情况下,进行强化学习的训练以提高通用问题的推理能力。需要强调一点, ** 这里指的“不使用奖励模型”仅仅指的是不使用训练出来的带有参数的语言奖励模型,而不是从强化学习中去掉奖励环节 ** 。 实验思路也非常简单,使用通用领域单项选择去进行强化学习的训练,通过正则表达的方式提取选项答案来判断回答是否正确。正常使用语言模型时,肯定也不能让模型只做选择题,笔者也 ** 探索了使用选择题格式的数据对模型进行强化学习训练之后,在普通问答模式下的推理能力的泛化性。 ** 相关代码已放到如下目录,主要是VERL的奖励函数相关和启动脚本: * https://github.com/zhanshijinwat/Steel-LLM/tree/main/r1/chinese_choice ** 太长不看版结论 ** * qwen模型在英文推理能力上优于中文,在推理能力较强的英文测试数据上才能看到强化学习训练对选择题准确率的提升现象。 * 模型能够自动探索出拿到reward的输出格式。 * 推理能力在不同语言间有泛化性,用中文数据做强化学习在英文选择题上也能提高分数。 * 强化学习在训练过程中的无效变长现象不会影响到测试数据。 * 强化学习训练过程中无效变长的模式在推理能力强和推理能力弱的语言上表现不同,在中文上倾向于重复输出,在英文上倾向于输出胡言乱语/奇怪的符号。 * 模型的推理能力和回复长度不完全相关。 * 在选择题上进行强化学习训练,推理能力的提升能够泛化到通用问答形式。可以让GPT帮忙根据某些通用内容文本,出一些好验证的选择题格式数据并进行强化学习训练以提高通用问题的推理能力。 * ** 实验设置 ** * ** 模型 ** :Qwen/Qwen2.5-1.5B-Instruct * ** 训练数据 ** :强化学习的通用问题训练数据考虑中文和英文两种,分别训练并观察结论: * 中文:WanJuan1.0的中文选择题数据,随机挑选8k条数据,覆盖科技、文学、媒体、教育、法律等多个领域。 * 英文:OpenBookQA英文选择题数据,包含5k多道基础科学选择题。 * ** 测试数据 ** : * 中文:CEVAL * 英文:MMLU * 数学:GSM8K * ** prompt ** : * 中文选择题prompt(COT): * f"请一步步思考以下选择题的每个选项,然后再给出最终答案。\n\n 选择题:\n{question}" * 英文选择题prompt(COT) * f'Please think step by step about each option of the following multiple-choice question, and then provide the final answer.\n\nMultiple-choice question:\n{line["question"]}\n ** 基线指标 ** 评估和做强化学习奖励函数时用到的提取选择题答案的实现来自于qwen官方,link。笔者观察到,评估CEVAL时,如果使用COT 版本的prompt,因为模型逐个输出每个选项进行分析,会导致答案提取率正确率大幅降低,因此对评估代码进行了一些改进: * 果答案中出现了“最终答案”字眼,仅对“最终答案”之后的进行正则表达式提取答案提取  这么做模型指标有所改善,但仍然没能达到使用非COT prompt的水平,笔者翻了下log,发现没有出现大面积提取错误的问题,有可能是COT prompt带来的负面影响或者是还有一些corner case没处理到。 (非COT的prompt为:以下是一道单选题:\n{question}请给出答案。) 在使用COT prompt情况下,观察评测CEVAL和MMLU过程中的输出,发现原始的qwen模型在英文题上推理现象比较明显,回答长度普遍更长,且输出的不空洞。而在做中文题时推理的感觉就差点意思了。 CEVAL case: ###prompt:请一步步思考以下选择题的每个选项,然后再给出最终答案。关于健康档案填写的要求,描述有误的是____A. 档案填写—律用钢笔或圆珠笔B. 字迹要清楚,书写要工整C. 如果填错,用红笔涂改修正D. 数字或代码—律用阿拉伯数字书写多###answer首先,我们需要逐一分析每个选项,看看哪个选项描述有误。A. 档案填写—律用钢笔或圆珠笔这个选项描述的是填写健康档案时应该使用的笔,但并不是所有情况下都适用。例如,如果档案需要在电脑上填写,那么就不用用钢笔或圆珠笔了。因此,这个选项描述有误。B. 字迹要清楚,书写要工整这个选项描述的是填写健康档案时应该注意的事项,是正确的。C. 如果填错,用红笔涂改修正这个选项描述的是填写健康档案时应该注意的事项,是正确的。D. 数字或代码—律用阿拉伯数字书写这个选项描述的是填写健康档案时应该注意的事项,是正确的。综上所述,描述有误的是选项A。 MMLU case: ###prompt:Please think step by step about each option of the following multiple-choice question, and then provide the final answer.Multiple-choice question:What is meant by the phrase 'empire by invitation'?A. Voluntary reliance on an external power for securityB. Willful openness to colonizationC. Cultural imperialismD. Open advocacy of imperialism for economic gain ###answer:To determine the correct answer, let's analyze each option step by step: A. **Voluntary reliance on an external power for security**   - This option suggests that a country relies on an external power for security, which implies a voluntary and mutual agreement. This aligns with the concept of an empire being established through invitation or agreement rather than force.B. **Willful openness to colonization**   - This option implies a deliberate and proactive approach to colonization, which is not necessarily the case with an empire by invitation. An empire by invitation typically involves a more passive and voluntary acceptance rather than a willful openness.C. **Cultural imperialism**   - This option refers to the spread of one culture over another, which is not directly related to the concept of an empire by invitation. Cultural imperialism is more about the imposition of one culture on another rather than the establishment of an empire through invitation.D. **Open advocacy of imperialism for economic gain**   - This option suggests that an empire is established with the primary goal of economic gain, which is not necessarily the case with an empire by invitation. An empire by invitation might be established for various reasons, including security, trade, or strategic interests, but not necessarily for economic gain.After analyzing each option, the most accurate description of an empire by invitation is:**Final Answer: A. Voluntary reliance on an external power for security** ** 使用中文数据进行训练 ** 在wanjuan选择题数据训练时不同step的CEVAL、CMMLU、gsm8k指标如下: 根据试验结果有以下一些观察: * ** 模型能够自动探索出拿到reward的输出格式 ** :原始的的qwen在使用COT prompt情况下输出答案的格式不利于答案提取,但是经过强化学习的探索、训练之后,ceval分数从35改善到了66左右(reward函数里提取答案并没有做“基线指标”小节提到的提取修复),并且格式探索的速度时非常快的,训练50个step就能拿到65左右的分数了。 翻了翻具体的ceval测试集的case就会发现,使用COT prompt的输出既然比较难提取出正确答案,那索性就输出短点好了。。。 ##prompt请一步步思考以下选择题的每个选项,然后再给出最终答案。 选择题:以下母乳喂养的优点中,不正确的是____A. 蛋白质、脂肪、糖比例合适B. 母乳含免疫性物质C. 母乳喂养帮助母亲产后子宫复原D. 母乳中酪蛋白多 ###强化学习训练之后的模型输出最终答案是 D. 母乳中酪蛋白多。 ###原始qwen模型输出首先,我们需要了解母乳喂养的优点。母乳喂养的优点包括:1. 蛋白质、脂肪、糖比例合适:母乳中的蛋白质、脂肪和糖的比例是合适的,有助于婴儿的生长和发育。2. 母乳含免疫性物质:母乳中含有多种免疫性物质,如乳铁蛋白、溶菌酶等,可以增强婴儿的免疫力。3. 母乳喂养帮助母亲产后子宫复原:母乳喂养可以刺激子宫收缩,帮助母亲产后子宫复原。4. 母乳中酪蛋白多:母乳中酪蛋白的含量较高,有助于婴儿的消化吸收。接下来,我们需要分析每个选项,找出不正确的选项。A. 蛋白质、脂肪、糖比例合适:这个选项是正确的,母乳中的蛋白质、脂肪和糖的比例是合适的。B. 母乳含免疫性物质:这个选项是正确的,母乳中含有多种免疫性物质。C. 母乳喂养帮助母亲产后子宫复原:这个选项是正确的,母乳喂养可以刺激子宫收缩,帮助母亲产后子宫复原。D. 母乳中酪蛋白多:这个选项是不正确的,母乳中酪蛋白的含量较低,而不是较高的。因此,最终答案是D. 母乳中酪蛋白多。 但是观察训练时候的response长度,就会发现是一直在涨的。 ** 训练集response长度涨不代表测试集response长度也是涨的 ** ,而且训练集上的response涨有可能是回复了没意义的东西(重复输出/胡言乱语),后文也会介绍。在测试英文数据时(不管强化学习是用中文还是英文训练的),就没有回复变短的问题,中文测试集回复变短应该还是预训练时候中文推理数据比较少的缘故。 训练时,回复长度不断增长 * ** 推理能力和语言相关以及推理能力激活的跨语言泛化性 ** :观察原始qwen模型在使用COT prompt的输出可以发现qwen模型在中文推理模式方面比较弱,即使用中文数据进行强化学习训练,也没能提高CEVAL指标的上限(使用非COT prompt qwen原始模型上限能拿到65.5分,强化学习之后的模型为66分)。但是发现英文评测集MMLU的指标却上升了(使用非COT prompt qwen原始模型能拿到56分,强化学习之后的模型为61分),说明推理能力能够跨语言在推理能力较强的语言上被激活。看小分可以发现,MMLU里边Humanities(法律、哲学、历史等领域)和social(社会学、政治学、地理学、心理学等)这类纯文科题目分数也有所提升。 * ** 强化学习在训练过程中的无效变长现象不会影响到测试数据 ** :老版本的verl默认的entropy_coeff(entropy loss的系数)是0.001,loss中加入entropy项,目的是增加模型rollout时候的多样性。但是在题目特别简单的数据下进行训练,policy loss项会很快优化不动了,就会转而疯狂优化entropy loss项,导致模型回复长度不断增长,但仅仅是 ** 不断的进行无效的重复输出 ** 。笔者开始都没注意到这个现象,因为同分布数据的验证集/CEVAL/MMLU acc指标看起来都比较正常。并不仅仅是简单的选择数据会有这种现象,笔者在训练数学数据时也发现过类似现象,训练集的entropy loss飘了之后,测试集AIME正确率指标并没有大幅下降。 entropy loss异常的高,但是并没有影响测试集指标 ** 在数据分布不改变的情况下,强化学习对数据量不敏感 ** :将训练数据量从8k降低到1k,测试集指标基本没有下降,MMLU也能拿到65分左右。 ** 使用英文数据进行训练 ** 如果使用中文训练数据进行强化学习都能让模型的英文测试集MMLU分数上涨,笔者开始猜测如果使用英文训练数据能让mmlu分数进一步增长。但实际上,mmlu分数最多仍然是60左右(训练250个step)。使用英文数据训练时,不能优化中文测试集上的输出模式以满足评估程序的完美提取出答案的要求,因此表中分别列出了评估时修复/不修复答案提取时的ceval指标,即使评估时进行了答案提取的修复,最多也只能拿到62分,未能达到原始qwen模型使用非COT prompt的65分的水平。除此之外,训练之后gsm8k从70分提高到了72分,可能在数学上也有一定的推理能力泛化性,不过提升有点少,不一定置信。 和训练中文数据时候一样,训练英文数据设置的entropy loss系数也是0.001,entropy loss也会炸,达到了11.1,但是也依然没有太影响到测试集的评估。训练时在英文训练集也出现了回复长度不断变长的现象,但是 ** 和中文训练集上回复变长是在重复输出的模式不同,英文数据集回复变长的输出模式是在胡言乱语 ** 。这可能和模型在中英文本身的推理能力差异有关。 entropy loss系数是0.001时,entropy loss会炸,因此笔者尝试将entropy loss的系数设置成0重新训练了一遍模型,entropy loss正常了一些,但是在测试集上也没能拿到更好的结果。 entropy loss系数等于0时的评估结果 entropy loss系数等于0时entropy loss变化曲线 ** 推理能力从选择题形式泛化到问答形式 ** 通过前边的实验可知,在qwen2.5 1.5B推理能力比较强的英文数据上,通过强化学习是能够提高英文通用问题的回答正确率的。但只是做选择题时推理能力强的模型是没法直接用的,因此还需要验证下在选择题上增强的推理能力是否能够泛化到普通问答形式上。 这块使用的测试数据是LawalAfeez/science-dataset数据集,里边提供了关于自然科学相关的问题,开始想的是,预期观察到经过强化学习训练过的模型回复长度能更长,以证明模型推理能力增强了。随机抽取100道题查看如下三个模型的回答:(1)原始的qwen2.5 1.5B模型(qwen raw)(2)使用gsm8k数据进行强化学习训练过的qwen2.5 1.5B模型(qwen gsm8k)(3)使用英文选择题数据进行强化学习训练过的qwen2.5 1.5B模型(qwen choice),使用的问答形式的prompt为: * "Think about the following questions step by step.\n question:\n {}" 统计三个模型的平均回答长度如下,经过强化学习训练的模型并没有更长的回复。一个 ** 刻板印象 ** 是,模型回复长度越长,推理能力就越强。笔者之后又尝试了用不同超参数进行模型训练、设置不同的推理系数,仍然没能拿到更长的输出。 但其实仔细想想,回复长度真的能表达推理能力吗?尤其是那些没有那么难的问题,本身就不需要回复很多的内容啊, ** 推理之后回答准确才是最终目的,而不是回答长度 ** 。在写这篇博客的过程中,笔者也正好看到了《Concise Reasoning via Reinforcement Learning》这篇文章,核心观点是“强化学习训练过程中的回复变长源于损失优化过程,而不是真正的需要长回复才能回答对问题,回答正确的回复会比回答错误的回复要更短”。LLM的强化学习在训练初期往往会出现训练集回复长度变短,但是验证集准确率仍然会上升的现象,也能说明回复长度和回答正确率不是完全相关的。 训练初期回复长度变短的现象 因此,如果想验证推理能力能从通用问题选择题格式泛化到问答格式得从准确率得视角出发,换个是问答格式得且比较容易提取答案得数据集了。可以使用Logic-RL项目用到的Knights and Knaves数据集,数据集的任务目标是根据描述猜测每个角色是Knights还是Knaves,能够比较容易的用正则表达式提取。选择3个人难度的任务,看原始qwen模型(qwen raw)、用选择题数据强化学习训练过的模型(qwen choice)和用数学题训练过的模型(qwen gsm8k)平均能够预测对的人数,结果如下: 可以发现不管是用选择题还是数学题训练过的模型猜对的人数都更多,推理能力更强,并且回复长度也几乎没有变化。因此, ** 用选择题格式训练的模型,推理能力是能够泛化到问答格式的 ** 。 通过以上实验结论,我们可以让GPT帮忙根据某些通用内容文本,出一些好验证的选择题格式数据并进行强化学习训练以提高通用问题的推理能力。