惊人发现
在研究过程中,北大团队揭露了一个重大问题。他们发现,即使输入一段看似无害的文字,推理模型R1也无法产生停止推理的信号。随后,该模型开始无限制地输出内容。这一情况宛如打开了潘多拉魔盒,导致原本高效的模型陷入了持续的“思考”状态。
在团队日常运用R1进行逻辑推演的过程中,意外地注意到思维过程异常冗长,经过进一步的深入调查,最终揭示了潜在的重大问题。
算力危机
尤其令人忧虑的是,只要推理模型的思考活动持续进行,宝贵的计算资源将持续被占用。这直接导致众多紧急且必要的请求无法得到及时处理,就如同交通拥堵时,所有车辆均无法正常通行。
算力资源稀缺,若此类无谓的“思考”持续消耗,将显著降低模型执行其他任务的效能,对系统整体稳定运行构成严重威胁。
独特攻击方式
此次发现的问题在攻击手法上与过去存在差异,不包含繁杂且难以理解的乱码,亦未发现隐藏的Token。这代表了一种全新的、隐蔽的攻击形式。
这段文字看似平常,却可能使模型陷入深度的思考,不易被发现。这给预防此类问题带来了新的难题,也提升了安全防护的复杂性。
实验探究
北京大学研究团队为了更深入地掌握问题的严重性,在配备4090显卡的本地环境中部署了经过R1蒸馏处理的Qwen - 1.5B模型。他们通过对比分析正常和过度思考状态下的算力使用情况,明确识别出了异常状况所带来的危害程度。
研究团队对多种推理模型及其实际应用进行了测试,评估了它们的思考时长,并试图了解这些模型对于此类问题的不同反应,以期为未来的预防措施提供参考。
多模型表现
测试结果显示,尽管接入R1的第三方应用未能完全重现无限思考问题,仍有一些应用经历了较长的思考阶段。这一现象说明,此类风险并不仅限于个别模型,而是具有一定的广泛性。
在常规文本测试中,百小应的回答曾显现出持续循环的现象,幸亏内部设置了时间限制,这一机制及时将其终止。然而,这一事件也给我们敲响了警钟,如果没有相应的预防措施,类似的后果将难以预料。
深层原因分析
训练推理模型时,奖励机制促使模型进行思考并给出正确答案。然而,这种机制也可能激励模型探索更复杂的思考路径。这是因为奖励仅关注最终结果,导致模型为了获得奖励而不断深入思考。
与传统强化学习环境相较,语言模型在思考过程中能够持续不断,缺乏一个明确的终止点。这一特性导致模型在遇到模糊不清的问题时,往往陷入长时间的推演,进而可能引发过度思考的现象。
您认为针对推理模型可能存在的风险,有哪些具体的预防策略可以实施?