在解决复杂问题时,推理型大型模型往往表现出类似心不在焉学生的状态,这种思维上的不足引起了广泛的关注。这一现象揭示了模型在推理阶段存在的不足,对答案的准确性和解题效率造成了负面影响,迫切需要我们进行深入的探究。

推理大模型遇高难度问题会欠思考?腾讯等研究团队揭示新弱点!  第1张

现象揭示

推理大模型遇高难度问题会欠思考?腾讯等研究团队揭示新弱点!  第2张

推理大模型遇高难度问题会欠思考?腾讯等研究团队揭示新弱点!  第3张

研究显示,在解决复杂问题时,大型模型在初期推理阶段通常能迅速找到正确方向。这一现象在思考的早期阶段尤为明显。但随后,模型并未持续深入探索,而是转向了其他思路。这就像行人站在岔路口,原本打算选择正确的道路,却最终转向了另一条路。以类o1模型为例,错误回答所需token数量是正确回答的225%,同时思维转换速度提高了418%,数据清晰地反映了这一行为的严重性。

研究初期,分析AI的错误解答,发现数千个tokens对解题并无帮助。此现象反映出模型在深入分析问题方面的缺陷,以及思维转换频繁带来的低效率问题。

推理大模型遇高难度问题会欠思考?腾讯等研究团队揭示新弱点!  第4张

评估框架建立

推理大模型遇高难度问题会欠思考?腾讯等研究团队揭示新弱点!  第5张

研究团队对现象进行了详尽分析,并付出了巨大努力。为此,他们构建了一套评估机制。该机制旨在准确辨别哪些舍弃的推理路径能够得出正确结论。这一举措彰显了科研的严谨态度。

研究者运用框架分析法指出,众多模型起初呈现了正确的方向,然而在后续发展中未能深入拓展。这种现象好似基础稳固但未继续构筑上层结构。这表明模型内部存在显著不足,同时也揭示了问题的核心在于推理的深入性不足。

推理大模型遇高难度问题会欠思考?腾讯等研究团队揭示新弱点!  第6张

模型表现对比

推理大模型遇高难度问题会欠思考?腾讯等研究团队揭示新弱点!  第7张

推理大模型遇高难度问题会欠思考?腾讯等研究团队揭示新弱点!  第8张

测试数据表明,模型在多个数据集上的性能呈现不一致。在MATH500 - Hard和GPQA Diamond数据集上,DeepSeek - R1 - 671B模型准确度较高,但UT得分较高。这一测试近期完成。结果显示,模型在错误回答上缺乏深入思考。这可能是由于模型在错误推理路径上进行了广泛探索,导致难以集中精力找到正确答案。

推理大模型遇高难度问题会欠思考?腾讯等研究团队揭示新弱点!  第9张

推理大模型遇高难度问题会欠思考?腾讯等研究团队揭示新弱点!  第10张

AIME2024测试中,该模型准确度较高,但UT得分并不理想。其推理流程既集中又高效。这一表现可能与模型与测试集问题类型及推理需求的良好匹配有关。据此可以看出,模型的表现与其任务特性密切相关。

推理大模型遇高难度问题会欠思考?腾讯等研究团队揭示新弱点!  第11张

思维不足的影响

推理大模型遇高难度问题会欠思考?腾讯等研究团队揭示新弱点!  第12张

模型受到思维局限的显著制约。观察数据表明,由于缺乏精确和深入的推理,难以得出精确的结论。在多数情形下,模型浪费了大量资源,就像汽车空转引擎,只是消耗燃料却无法前行。在错误答案中,无效的推理路径导致了大量无意义的token被浪费。

推理大模型遇高难度问题会欠思考?腾讯等研究团队揭示新弱点!  第13张

在整体分析阶段,要打造出既可精确回答问题又能展现高效推理流程的模型,必须对思维上的不足之处有深入的理解。这种理解是构建更高质量模型的重要环节。

TIP技术的价值

推理大模型遇高难度问题会欠思考?腾讯等研究团队揭示新弱点!  第14张

技术层面来看,TIP技术显现出其独特优势。该技术专注于处理那些能触发思维转变的核心词汇。对这类词汇实施惩罚,以降低其在解码过程中出现的频率。

推理大模型遇高难度问题会欠思考?腾讯等研究团队揭示新弱点!  第15张

实验数据表明,在引入TIP之后,该模型在数学测试中的精确度有所增强,与此同时,其UT Score有所下降。这一变化揭示了模型中无效的转换次数减少,不仅减少了无效的思维跳跃,还提升了答案的正确性。显然,TIP已成为一条有效增强模型推理效能的新途径。

未来的期待

推理大模型遇高难度问题会欠思考?腾讯等研究团队揭示新弱点!  第16张

推理大模型遇高难度问题会欠思考?腾讯等研究团队揭示新弱点!  第17张

当前研究表明,优化推理大型模型的发展道路依然遥远。尽管对Underthinking现象已有一定了解,并且TIP等技术已展开研究,然而改进的潜力依然巨大。至于未来模型是否能够彻底解决思维不足的问题,实现与人类顶级思考者相当的水平,这无疑是一个值得关注的重要话题。

推理大模型遇高难度问题会欠思考?腾讯等研究团队揭示新弱点!  第18张

在多个数据集上,大模型推理结果的差异显现出,针对不同任务进行更细致的优化至关重要。开发者们能否借助现有研究成果对模型进行优化,以突破思维定式?我们期待读者们分享各自见解,并对本文给予点赞及传播。