推理大模型遇高难度问题会欠思考？腾讯等研究团队揭示新弱点!

在解决复杂问题时，推理型大型模型往往表现出类似心不在焉学生的状态，这种思维上的不足引起了广泛的关注。这一现象揭示了模型在推理阶段存在的不足，对答案的准确性和解题效率造成了负面影响，迫切需要我们进行深入的探究。

推理大模型遇高难度问题会欠思考？腾讯等研究团队揭示新弱点! 第1张

现象揭示

推理大模型遇高难度问题会欠思考？腾讯等研究团队揭示新弱点! 第2张

推理大模型遇高难度问题会欠思考？腾讯等研究团队揭示新弱点! 第3张

研究显示，在解决复杂问题时，大型模型在初期推理阶段通常能迅速找到正确方向。这一现象在思考的早期阶段尤为明显。但随后，模型并未持续深入探索，而是转向了其他思路。这就像行人站在岔路口，原本打算选择正确的道路，却最终转向了另一条路。以类o1模型为例，错误回答所需token数量是正确回答的225%，同时思维转换速度提高了418%，数据清晰地反映了这一行为的严重性。

研究初期，分析AI的错误解答，发现数千个tokens对解题并无帮助。此现象反映出模型在深入分析问题方面的缺陷，以及思维转换频繁带来的低效率问题。

推理大模型遇高难度问题会欠思考？腾讯等研究团队揭示新弱点! 第4张

评估框架建立

推理大模型遇高难度问题会欠思考？腾讯等研究团队揭示新弱点! 第5张

研究团队对现象进行了详尽分析，并付出了巨大努力。为此，他们构建了一套评估机制。该机制旨在准确辨别哪些舍弃的推理路径能够得出正确结论。这一举措彰显了科研的严谨态度。

研究者运用框架分析法指出，众多模型起初呈现了正确的方向，然而在后续发展中未能深入拓展。这种现象好似基础稳固但未继续构筑上层结构。这表明模型内部存在显著不足，同时也揭示了问题的核心在于推理的深入性不足。

推理大模型遇高难度问题会欠思考？腾讯等研究团队揭示新弱点! 第6张

模型表现对比

推理大模型遇高难度问题会欠思考？腾讯等研究团队揭示新弱点! 第7张

推理大模型遇高难度问题会欠思考？腾讯等研究团队揭示新弱点! 第8张

测试数据表明，模型在多个数据集上的性能呈现不一致。在MATH500 - Hard和GPQA Diamond数据集上，DeepSeek - R1 - 671B模型准确度较高，但UT得分较高。这一测试近期完成。结果显示，模型在错误回答上缺乏深入思考。这可能是由于模型在错误推理路径上进行了广泛探索，导致难以集中精力找到正确答案。

推理大模型遇高难度问题会欠思考？腾讯等研究团队揭示新弱点! 第9张