AI大模型报告：2023大模型可信赖研究报告

今天分享的AI系列深度研究报告：《AI大模型报告：2023大模型可信赖研究报告》。

（报告出品方：中国信通院）

报告共计：48页

大模型发展现状

大模型驱动新一轮科技革命

近十余年间，人工智能技术泛化能力、创新能力及应用效能不断提升，成为了推动经济及社会发展的重要引擎。2015 年前后，人脸识别算法达到接近人眼的识别能力，被视为人工智能技术工业级应用水平的代表性事件。2022 年，以 ChatGPT 为代表的大模型为用户带来了全新交互体验。通过其在内容生成、文本转化和逻辑推理等任务下的高效、易操作表现，大模型正逐步成为当前主流应用程序的重要组成部分。

随着数据、算法和算力的不断突破，大模型将不断优化演进。在数据方面，海量、多模态数据将持续应用于大模型预训练，提升大模型的知识、理解和推理能力。在算法方面，将转向跨知识领域、跨语种、多模态特征的海量知识挖掘及执行等复杂任务的处理。在算力方面，智算中心及算力网络等基础设施加速建设，为大模型的开发和服务提供充足性能支持。到 2026 年，Gartner 预测超过 80% 的企业将使用生成式人工智能的 API 或模型，或在生产环境中部署支持大模型应用。以通用智能体、具身智能和类脑智能等为代表的大模型应用可能会带来新一轮的科技革命和产业变革。

大模型加速赋能产业应用

“大模型+”模式加速应用赋能，助推人工智能产业升级。当前，人工智能已经成为全球新兴技术领域的核心竞争力，各国政府加快研发、部署人工智能技术，推动产业高速发展。据统计1，我国人工智能核心产业规模已达 5000 亿美元，企业数量超过 4300 家。2023 年始，我国大模型市场火爆，百度、商汤科技、科大讯飞、阿里巴巴等单位先后发布自研大模型，并于 2023 年下半年逐步面向用户提供服务。大模型广泛应用于能源、金融、教育、医疗、交通、政务等领域，主要应用场景聚焦数据分析、客服、营销、办公等。其中，以能源、金融为首的两大行业结合行业数据建设基础，积极布局大模型应用落地，加速行业智能化转型。

大模型技术生态逐步完善，大幅降低行业应用门槛。一方面，开源大模型加速大模型应用渗透，打通预训练、微调、部署、评测等开发阶段，进一步降低大模型研发应用成本。2023 年 7 月，上海人工智能实验室正式开源了书生·浦语大模型 70 亿参数的轻量级版本 InternLM-7B，并推出首个面向大模型研发与应用的全链条开源体系，同时提供免费商用，受到了学术和产业界的广泛关注。同年 7 月，OpenAI 向用户正式开放了代码解析插件 Code Interpreter，使得 ChatGPT 和 GPT-4 可以根据用户问题来编写和执行代码，从而拓展了模型在数据分析、复杂计算与功能调用方面的能力。另一方面，大模型正在逐步向智能体方向进化，从理解生成迈向复杂任务处理能力。通过将大模型与动作执行器结合，智能体可以在接受用户输入后，通过大模型进行规划和决策，并对第三方插件或工具进行调用，从而实现复杂的任务处理能力，进一步降低了应用门槛。

大模型风险分析

大模型风险视图

大模型快速部署和广泛应用的同时，也诱发了更多的风险隐患：一是框架风险，深度学习框架面临物理、网络层面的恶意攻击，导致大模型所依赖的基础设施稳定性和安全性难以保障；二是数据风险，采集及处理海量、多模态的训练数据可能会引入更多的有害数据，容易引发个人隐私泄露、知识产权侵权、数据偏见等问题；三是模型风险，现阶段，大模型抗干扰能力相对较弱，存在遭受恶意攻击、决策偏见以及模型运营风险等问题；四是生成内容风险，大模型存在“幻觉”现象，答非所问、违规不良信息生成等问题成为大模型最受关注的风险。大模型高效、便捷的内容生成能力大幅降低了诈骗、钓鱼邮件等恶意行为的门槛，而针对生成内容的追溯保障机制目前尚未完善，使得恶意内容生成的监管更加困难。

本报告以可靠性、健壮性、安全性、公平性、可问责、可解释等大模型可信赖目标为重点方向，从框架、数据、模型、生成内容等大模型风险要素角度分析，并结合数据采集、模型预训练、模型微调、部署运行、优化更新等大模型全生命周期治理理念，提出大模型可信赖实践方案，全面提升大模型的可信赖表现。

框架层面，软件漏洞是现有深度学习框架短板

大模型领域的基础设施风险主要包括深度学习框架和开发套件等软件层面的漏洞，以及运行环境的不稳定性。可能的风险涵盖物理攻击、网络攻击、运行环境篡改、运维故障等多个方面。

深度学习框架的运行环境容错性低，核心资产保护面临挑战。大模型的运行环境不稳定性风险主要来自大模型服务的运维以及模型迭代更新时稳健性较差所导致的服务等级协议（SLA）服务水平不足，从而可能影响大模型服务可用性。在训练和推理过程中，由于设备、网络或通信故障，可能导致模型训练或推理任务中断。此外，大模型的运行环境同样面临安全性风险。一方面，缺乏基础设施与其他系统的严格网络隔离可能导致来自内部其他系统的横向渗透风险。如果攻击者成功侵入基础设施系统并注入后门、木马等恶意程序，整个系统将面临严重的安全风险。另一方面，大模型的运行环境缺乏面向训练数据、模型和网络通信的安全防护措施，使得训练数据、模型参数文件等核心资产容易受到泄露、篡改和窃取等威胁。

大模型可信赖实践

框架层面，可信框架与执行环境保障运行安全

针对深度学习框架面临的软件漏洞风险与运行环境不可靠问题，一方面通过采用漏洞管理、恶意程序检测以及访问控制等技术措施，降低深度学习框架受恶意访问和攻击的可能性，另一方面通过构建 AI 核心资产保护机制，保障深度学习框架运行环境的安全可信。

数据层面，安全检测及处理助力大模型可靠

数据的使用贯穿大模型全生命周期，安全保障与有效处理是保障大模型可靠的关键举措。在数据层面，可信赖实践主要涉及数据全流程的安全合规处理、数据安全沙箱技术、投毒检测以及数据分析等措施。

模型层面，全流程防控增强大模型可信

在模型层面，可信赖实践可从设计开发、模型训练和部署运行三个阶段展开。设计开发阶段主要涉及大模型研发前期的安全和伦理设计评估；在模型训练阶段，主要涉及大模型预训练、微调过程的可信赖能力检测、加固措施；在部署运行阶段，主要涉及大模型在运营过程中的运维能力，以增强用户对于模型运营的信任度。

生成内容层面，过滤与标识实现内容可控可问责

在生成内容方面，可信赖实践主要涉及生成内容评测、内容审核机制以及内容可追溯能力的建设，实现内容安全可控并具备一定程度的可追溯能力。为缓解大模型“幻觉”现象，生成内容评测主要聚焦真实性、准确性以及安全性。为降低生成内容的安全性风险，内容审核机制通常会采取机器审核和人工复审结合的形式。为进一步提升二次编辑导致生成内容难以追溯的问题，数字水印技术正在逐渐提升健壮性能力。