在人工智能模型的发展过程中,模型参数始终是一个充满神秘且备受瞩目的焦点。由于相关具体数据尚未对外公开,这种信息的不透明性引发了广泛的讨论。毕竟,公众普遍期待了解这些模型的“内部运作原理”究竟是怎样的。
模型参数不公开现象
在众多模型中,谷歌的Gemini模型的具体参数尚未对外公开。与此形成对比的是,众多模型可在英伟达GPU上运行,并且可以通过token生成速度来推算其参数。但谷歌的模型在TPU上的运行特性,使得参数的估算变得复杂。这种差异引起了人们对不同硬件平台上模型评估方法的好奇。2023年10月,微软发布的一篇论文揭示了GPT-3.5-Turbo模型中20B参数被移除的情况,这进一步凸显了模型参数的不透明性。
模型参数对决定模型性能等关键因素极为关键。不公开的做法使得研究者难以全面评估模型。此举亦加剧了竞争领域的神秘感。
微软论文中的MEDEC研究
2023年12月26日发布的MEDEC论文,于次年方引起关注。研究依托特定背景,如美国医疗机构调查指出,约五分之一的病人在查阅病历时发现错误,约四成病人认为这些错误可能对治疗造成影响;此外,大型语言模型在医学文档处理领域的应用正逐渐增多。
该研究采用的数据集MEDEC,由3848份临床文本组成。这些文本来源于美国三个医院系统的488份临床笔记。笔记中标注了五种不同类型的错误,并有8位医疗专家参与。这一数据集为模型在错误识别和纠正方面提供了有力的实证支持。
模型选定与公开信息
在研究设计初期,研究者必须选择主流的大规模及小规模模型。在介绍模型时,相关参数和发布时间会及时对外公布。这种做法与常规不保密参数的模型存在区别。这一举措便于进行数据对比分析,并使外界能够更深入地了解模型的详细信息。
研究的结论得出
研究结果表明,Claude 3.5 Sonnet在错误标志检测项目中以70.16的高分领先,超越了其他大型语言模型。紧随其后的是o1 - mini。这一发现凸显了不同模型在医学文本错误识别方面的差异,并为进一步模型在医疗领域的应用提供了借鉴。
基于微软估计数据的网友关注点
微软公布的数据受到了网友们的极大关注。在2024年,一些网友依据成本计算推测,如果3.5 - turbo的20B参数准确无误,那么40 - mini的参数大概在8B左右,这是MoE模型激活参数的估计。这种基于估算数据的分析和讨论反映出网友们对模型参数的高度兴趣,大家都在努力从有限的信息中挖掘更多关于模型的信息。
OpenAI的开源态度转变
2023年,奥特曼在新年愿望征集活动中提及了“开源”计划。但至2025年,此计划已被撤销。此变动可能与模型参数的不透明性有关。同时,这也体现了OpenAI在公开模型信息方面存在的犹豫,以及其在立场上的转变。
各界人士如何看待模型参数的透明度问题?欢迎发表评论、给予点赞并分享本文。