中国信息通信研究院的测试揭示,大模型在遭遇恶意攻击时,生成有害内容的成功率显著提高。因此,加强安全防护刻不容缓。同时,360智脑团队推出的“360智盾”方案,为提升大模型的安全性提供了新的可能性。

大模型安全现状

360智盾入选国家优秀案例,人工智能安全新纪元已开启  第1张

360智盾入选国家优秀案例,人工智能安全新纪元已开启  第2张

近期,大模型技术已广泛渗透多个行业,然而其安全问题逐渐显现。据中国信通院测试,遭受恶意攻击时,大模型产生有害内容的成功率大幅提高。在实际应用过程中,内容安全的问题持续发展,大模型遭遇的风险增多,引发了公众对其安全性的疑虑。

在线服务领域,多变的复杂风险可能引发违法不良信息的传播,进而扰乱社会秩序并损害用户满意度。鉴于此,建立安全的模型生态系统迫在眉睫。

360智盾理念提出

360智盾入选国家优秀案例,人工智能安全新纪元已开启  第3张

360智盾入选国家优秀案例,人工智能安全新纪元已开启  第4张

针对这些挑战,360智脑研发团队进行了深入研究,并提出了“模制模”的创新思路。这一思路的核心是利用大型模型的能力来确保其自身的安全性,展现了其远见卓识。该团队将这一理念转化为实际产品,成功推出了“360智盾”。

360智盾入选国家优秀案例,人工智能安全新纪元已开启  第5张

360智盾入选国家优秀案例,人工智能安全新纪元已开启  第6张

其出现为应对大型模型的安全挑战带来了创新思维与策略,预示着有望扭转现有大型模型安全防御的不足状况,引领大型模型安全防护领域进入新的发展阶段。

原生安全性能提升

360智盾入选国家优秀案例,人工智能安全新纪元已开启  第7张

360团队致力于增强模型的安全性能。他们运用了持续预训练、安全监督微调、安全对齐等技术。同时,融合了插值/外插训练技术及实际场景数据,促使模型持续学习与优化。

构建而成的“安全回复大模型”具备抵御越狱攻击的能力,并在遭遇高风险挑战时,仍能维持正向的响应。这一改进在模型底层提升了其安全性,为确保大模型的稳定运作打下了坚实基础。

360智盾入选国家优秀案例,人工智能安全新纪元已开启  第8张

风险内容分类器优势

360智盾入选国家优秀案例,人工智能安全新纪元已开启  第9张

360自主研发的风险内容识别系统依托语义大型模型建立,其优势显著。该系统在识别准确度和训练速度方面均全面超越了传统的基于关键词的匹配方法和BERT等分类模型。

该系统的训练数据与各类违法不良信息严格对应,同时针对具体业务需求,细化出超过100种风险标识。这一设计使得分类系统能够更精确地辨别潜在风险,从而为内容安全防护提供了坚实的保障。

360智盾入选国家优秀案例,人工智能安全新纪元已开启  第10张

红蓝对抗靶场体系

360智盾入选国家优秀案例,人工智能安全新纪元已开启  第11张

线上大型模型服务的风险因素多样且不断演变,360公司研发了一套依托大模型的红蓝对抗靶场系统。该系统实现了评估和迭代的自动化与系统化。

360智盾入选国家优秀案例,人工智能安全新纪元已开启  第12张

通过模拟多样的攻击情境,大模型得以在实际对抗中持续增强其安全性。该体系的构建,为大模型的安全性能测试与改进,搭建了一个实用的测试与优化平台。

“360智盾”应用成效

360智盾入选国家优秀案例,人工智能安全新纪元已开启  第13张

目前,“360智盾”已广泛应用于360内部各模型业务领域,确保了C端用户的内容安全。此外,该系统正积极向外延伸服务范围,向政企客户提供了多样化的AI安全产品及服务。

360智盾入选国家优秀案例,人工智能安全新纪元已开启  第14张

截至目前,该系统已在政务及金融等关键领域实现应用,构筑了更加坚实的大模型安全基础。系统融合了多个领域的知识库,有效提高了信息获取的速度,降低了虚假信息的比例,增强了信息的可信度,从而为企业带来了更为安全与高效的业务服务。

360智盾入选国家优秀案例,人工智能安全新纪元已开启  第15张

360智盾入选国家优秀案例,人工智能安全新纪元已开启  第16张

业界普遍关注,关于未来大型模型的安全防护领域,将有哪些新颖的方法和技术涌现?