您当前位置: 首页>国防动员>新质新域

AI大模型需要什么样的数据

2025-03-28 10:03 信息来源:
字号: 默认 超大
打印




人工智能概念图。资料图片


作为新型生产要素,数据正在快速融入社会生活的方方面面,深刻改变着人类的生产生活方式。当前,随着人工智能(AI)发展突飞猛进,各类学习模型不断涌现,数据作为驱动AI这台“引擎”的“燃料”,发挥着越来越重要的作用。与此同时,一些现实问题也悄然浮出水面。

数据真伪

大模型“撒谎”的原因

AI也会撒谎?

据路透社报道,OpenAI旗下的ChatGPT在回答问题时,错误地声称澳大利亚墨尔本西部赫本郡的市长布赖恩·胡德是贿赂丑闻的有罪方。此前,胡德曾在一家公司工作,他向监管机构举报了公司内部向外国官员行贿以赢得货币印刷合同的情况。ChatGPT错误地将胡德作为控方证人出席庭审的经历,作为其受审的例证。目前,大型语言模型的“幻觉”问题(即生成虚假信息)已经成为学界和业界共同关注的问题,训练及处理的数据质量下降是产生该问题的主要原因。

那么,生成“谣言”的“证据”从何而来?这就需要提到大模型获取数据的两种主要方式:主动采集技术和被动采集技术。主动采集技术主要包括网络爬取和传感器采集;被动采集技术包括用户上传数据和日志记录数据。其中,最易被“伪造”的数据,来源于网络爬取数据和用户上传数据。

网络爬取是从互联网上自动抓取数据的技术。互联网公开数据中混杂着大量噪声数据,使得训练数据受到污染,进而导致模型产生输出偏差。2024年,麻省理工学院、上海交通大学、哈佛大学、微软研究院、IBM公司、剑桥大学等联合召开了首届数据污染研讨会。会议报告显示:各类模型的训练数据中,可能包含大量从网页和数据集内抓取到的虚假信息。这些低质量的数据不仅无法为模型提供有效的训练素材,还可能对模型的判断产生误导,导致模型性能下降。

另外,合成数据的滥用,可能导致模型输出产生偏差。为了解决数据资源不足的问题,合成数据被广泛应用以弥补真实数据的不足。美国莱斯大学与斯坦福大学的研究团队指出,将AI生成的内容喂给模型,会导致模型性能下降,输出错误率升高。研究人员称这种现象为“模型自噬障碍”——就像近亲繁殖导致基因缺陷被不断放大、重复扫描打印同一份照片会使照片画面模糊一样,模型使用AI生成的数据进行训练,认知偏差就会像滚雪球般扩大,最终导致模型掉入“认知陷阱”。

筛选标注

大模型“填喂”的选择

那么,什么样的数据才能满足大模型“大而挑剔”的“胃口”呢?总体看来,大模型对数据的数量、质量、种类都有着极高的要求:只有足够的数据量才能对体量、参数庞大的大模型进行充分训练;只有准确性、完整性、一致性较高的数据,才能避免在训练中对模型产生误导;只有涵盖多个领域的多类数据,才能让大模型学到更广泛的知识,更好地处理综合性问题。

在数据的海洋中,我们该如何筛选出适合大模型的数据呢?

一是采集数据时选择可靠的数据来源。首先是官方和权威机构发布的数据,比如政府部门发布的统计数据、专业科研机构公布的研究成果和文献资料等。这些数据一般都经过了严格的审核和验证,具有较高的准确性、可信度。其次是在一些领域领先的企业发布的数据,这些企业一般对行业标准、技术标准等具有较高的话语权,数据质量相对可靠。

二是预处理数据时进行数据清洗和标准化。在采集到的数据中,识别并筛去重复的数据,防止重复数据的权重放大,造成结果失真失衡;对于完整性较差的数据,可以将不同格式的数据统一格式,以便大模型顺利完成训练。

三是标注数据时进行严格规范。数据标注是指给原始数据添加标签的过程。这些标签对数据进行归类,帮助模型在遇到从未见过的数据时,也能准确识别数据中的内容。待标注数据,需要制定严格的数据标注标准操作规范,并对已标注的数据进行抽样审核,避免让不正确分类的数据影响到模型的训练。

四是评估数据时进行内外检验。模型自检时,可以将数据集分成多个子集,通过轮流将不同子集作为验证集,来评估模型面对未知数据时的表现,检验数据的一致性。在模型训练过程中,要持续监控准确率、召回率等评估指标,检验数据的适用性。外部验证时,可以将采集数据和处理结果与权威模型进行对比,来评估数据的质量。

实景运用

大模型“军用”的梗阻

数据体量、质量等现实难题,不仅困扰着民用模型,同样也横亘在军用大模型的发展路径上。相对于民用模型,军用大模型有一定的优势,但也面临高质量军事数据资源不足、模型框架选择难、安全问题多元化等挑战。

战场数据获取困难,是高质量军事数据资源不足的主要原因之一。军事网络和民用网络存在物理隔离,由民用网络采集的大量战场数据很难传输到军用网络。此外,战场中的多源信号还缺乏有效的跨模态对齐标注。比如,一款战机存在很多特征信息:红外热源信号(温度)、雷达反射信号(波长波形)、外形特征(可见光图像)等。如何让模型将这些不同种类的特征信号统一联系起来,帮助其快速识别、获取该型战机信息,还存在较大困难。要解决这些问题,可以探索建立安全的军事数据采集传输通道,收集时效性高、质量好的军事数据;加强跨模态数据处理技术的研发,运用高质量标注数据、压减标注错误率的方法,构建专业、精准的军事多模态数据集,以实现对军事设施、装备等的精准识别。

合成数据的偏差问题,会影响军用大模型的训练。实战数据的缺失,将导致越来越多合成数据被投入模型训练中。不加筛选、偏离实际的合成数据,会对模型训练成果造成不利影响。例如,虚拟引擎生成的地表对阳光的反射率与实际环境相差较大,导致红外传感器将较高的地表反射信号当成目标的温度信号,进而发生误判。要减小合成数据对模型的影响,需深入采集战场环境中人员、装备、环境等各类信息,以大量实际数据训练模型,从而生成最接近真实战场的合成数据,并做好合成数据的筛选和标注工作,减少合成数据与现实的偏差。

模型框架的选择,阻碍着军用大模型的使用。如果简单地把民用模型迁移到军事领域,模型会因为无法理解军语等问题,导致生成结果准确率大幅下降。不同模型框架所需的规模、性能、部署成本和安全性、可靠性以及支持的应用场景等也需要综合考虑。此外,在数据样本少的情况下,如何进行军用大模型的能力测试,也是十分现实的问题。未来可以针对军事数据以及相关业务特点开发专门的小模型,通过分发各个作战单元,收集整理相关语言库,随后与大模型融合,提升高度封闭条件下模型对语义的理解和军事语言生成能力;在实验验证中,对满足基本条件的大模型进行多轮能力评估,全面考察不同模型在军事应用中的性能优劣和成本效益,综合优势进行整合归一。

军用大模型存在较多安全问题。首先是使用数据的伦理合规性。尽管军事行动存在特殊性,数据使用也需遵循国际法规和伦理准则。此外,模型应用于智能自主化武器系统可能存在道德风险。应制定模型在军事应用中的准则,录入底层逻辑和决策标准等,避免出现武器系统为达成目标选择攻击民用设施的情况。

军用大模型的安全、保密要求也是需要注意的问题。面对战争,任何一个决策都可能导致人员陷入危险境地。因此,如果使用模型进行决策,决策的可靠性、可控性、保密性、稳定性需要多重评估,确保它在战场上行之有效。

AI大模型的数据问题已经不只是技术问题,还广泛涉及法律、伦理与地缘政治等。在这场复杂隐蔽同时关乎未来的“认知战争”中,胜负的关键在于能否构建起牢不可破的“数据防线”。因此,建立行之有效的数据采集、管理、评估机制刻不容缓。就像一名业内人士所说,数据治理是人工智能发展的基础,良好的数据治理是AI应用的前提。只有技术创新和治理框架同步进化,大模型才能摆脱“数据困境”,成为人类的“智囊”,持续释放巨大潜力,真正成为推动社会进步、保障国家安全的重要力量。