解析数据科学,探索ChatGPT背后的奥秘

在当今这个由数据驱动和AI蓬勃发展的时代,数据科学作为一门融合多种学科的综合性领域,对于推动各行各业实现数字化转型升级起着至关重要的作用。近年来,大语言模型技术发展态势强劲,为数据科学的进步做出了巨大贡献。其中,ChatGPT作为大型预训练语言模型的代表之一,具备惊人的生成能力,可生成流畅且富有逻辑的文本,其在智能对话、自动写作、语言理解等众多领域已取得突破性应用。

作为数据科学的核心对象和AI发展的基石,数据为大型预训练语言模型提供了训练和优化的依据,通过对大量文本数据的学习,ChatGPT 等模型能够更好地理解和生成自然语言。因此,如何做好数据治理,发挥数据要素价值,成为企业竞争优势的关键。

百分点科技与清华大学出版社联袂打造的《数据科学技术:文本分析和知识图谱》一书,提供了一个全面而深入的视角,让我们能够更好地理解和把握数据科学。书中第十章介绍了以 ChatGPT 为代表的大语言模型(LLM),详尽阐述了其发展历程、现实原理及应用等。以下内容节选自原文:

ChatGPT是由OpenAI基于GPT(Generative Pre-trained Transformer)开发出来的大模型。其目标是实现与人类类似的自然对话交互,使机器能够理解用户输入并生成连贯、有意义的回复。随着人工智能技术的快速发展,对话系统成为研究和应用的热门领域之一。人们渴望建立能够与人类进行自然、流畅对话的机器智能。传统的对话系统通常使用规则和模板来生成回复,但在处理更复杂的对话场景时存在局限性。因此,基于深度学习和自然语言处理的对话生成技术逐渐崭露头角。

ChatGPT延续了GPT模型的优势,旨在进一步提升对话系统的自然性和流畅性。它的目标是理解上下文、生成连贯的回复,并在对话交互中创造更真实、有趣的体验。ChatGPT的研发旨在满足实际应用中对于对话系统的需求,例如虚拟客服、智能助手等。

ChatGPT的背后支撑着大规模的数据集和强大的计算资源。通过使用海量的对话数据进行预训练,ChatGPT能够学习常见的对话模式和语言表达方式。同时,ChatGPT的开发者借助云计算和分布式技术,建立了庞大的计算集群来训练和优化模型。这种大规模计算能力对于提升ChatGPT的生成质量和实时性发挥重要作用。

ChatGPT的预训练和微调

GPT大模型通过预训练已经学习了许多技能,在使用中要有一种方法告诉它调用哪种技能。之前的方法就是提示模版(Prompt),在GPT-3的论文里,采用的是直接的提示模版和间接的Few-Shot示例。但是这两种方法都有问题,提示模版比较麻烦,不同的人表达相似的要求是有差异的,如果大模型要依赖各种提示模版的魔法咒语,那就和炼丹一样难以把握。

ChatGPT选择了不同的道路,以用户为中心,用他们最自然的方式来表达需求,但是模型如何识别用户的需求呢?其实并不复杂,标注样本数据,让模型来学习用户的需求表达方式,从而理解任务。另外,即使模型理解了人类的需求任务,但是生成的答案可能是错误、有偏见的,因此还需要教会模型生成合适的答案,这就是人类反馈学习,具体而言,这种反馈学习方法包括如下三步:

  • 模型微调Supervised Fine-tuning(SFT):根据采集的SFT数据集对GPT-3进行有监督的微调(Supervised FineTune,SFT);这里本质上是Instruction-tuning。
  • 训练奖励模型Reward Modeling(RM):收集人工标注的对比数据,训练奖励模型(Reword Model,RM);
  • 强化学习Reinforcement Learning(RL):使用RM作为强化学习的优化目标,利用PPO算法微调SFT模型。

接下来的内容中,对这三个步骤进行具体阐述。

1. 模型微调SFT

在ChatGPT中,SFT通过对模型进行有监督的微调,使其能够更好地适应特定任务或指导。在模型微调的过程中,需要准备一个有监督的微调数据集。这个数据集由人工创建,包含了输入对话或文本以及期望的输出或回复。这些期望的输出可以是由人工提供的正确答案,或者是由人工生成的合适的回复。

接下来,根据这个有监督的微调数据集,我们对GPT模型进行微调。微调的过程可以通过反向传播和梯度下降算法实现,它们使得模型能够通过调整参数来更好地拟合数据集。在微调过程中,模型会根据输入对话或文本产生预测的输出或回复,并与期望的输出进行比较,计算损失函数。然后,通过最小化损失函数,模型会逐步调整参数,以使预测结果更接近期望输出。

微调之后,ChatGPT模型将能够更好地执行特定的任务,因为它在有监督的过程中学习到了任务的知识和要求。而这个有监督的微调过程本质上也是Instruction-tuning的一种形式,因为它可以根据人工提供的指导或期望输出来调整模型,具体步骤如图10-7所示。

29e557b23425a3270c1662e34394e02e.jpeg

ChatGPT模型训练步骤1

2. 训练奖励模型RM

在ChatGPT中,通过收集人工标注的对比数据来训练一个奖励模型,用于指导GPT模型的优化过程,如图10-8所示。

0bb8d03369df8ca49e4880d80884f3d6.jpeg

ChatGPT模型训练步骤2

为了训练奖励模型,我们需要准备一组对比数据。对比数据由人工创建,包含了多个对话或文本的对比实例,每个对比实例包含两个或多个不同的模型回复。人工对这些回复进行标注,给出每个回复的质量或好坏的评分。

接下来,我们使用对比数据训练奖励模型。奖励模型可以是一个分类模型,也可以是一个回归模型,它的输入是对话或文本的特征表示,输出是一个评分或奖励。奖励模型的目标是根据输入的对话或文本来预测模型回复的质量。

使用训练好的奖励模型,我们可以对GPT模型的回复进行评分,得到一个奖励值。这个奖励值可以用作强化学习的优化目标,以指导GPT模型在后续的对话中生成更优质的回复。

3. 强化学习RL

在ChatGPT中,强化学习是一种反馈学习方法,利用奖励模型作为强化学习的优化目标,通过使用PPO算法来微调SFT模型。

强化学习通过与环境的交互来学习一种策略,使得模型能够在给定环境下采取最优的行动。在ChatGPT中,环境可以看作是对话系统的对话环境,模型需要根据输入的对话来生成回复,并受到奖励模型提供的奖励信号的指导。

在强化学习中,我们使用PPO算法(Proximal Policy Optimization)来微调SFT模型。PPO算法是一种在强化学习中常用的策略优化算法,旨在寻找最优的行动策略,如图10-9所示。

c3bd319011ccab435bfc3595f8831d35.jpeg

ChatGPT模型训练步骤3

首先,我们使用SFT模型生成对话回复。然后,使用奖励模型对这些回复进行评分,得到一个奖励值。这个奖励值可以指示模型回复的质量和适应度。

接下来,利用PPO算法来微调SFT模型。PPO算法采用基于策略梯度的优化方法,通过最大化期望回报或奖励来更新模型的参数。具体来说,PPO算法使用短期的策略梯度优化模型的策略,以获得更好的回报。通过不断迭代这个过程,模型的策略会逐渐改进,生成更优质的对话回复。

在强化学习中,模型会通过与环境(对话环境)的交互来学习,根据奖励模型提供的奖励信号和PPO算法中的策略梯度更新方法不断调整模型的参数。模型的目标是找到一种策略,使得在给定对话环境下,生成的回复能够获得最大化的奖励或回报。

通过以上三个步骤:模型微调(SFT)、训练奖励模型(RM)、强化学习(RL),ChatGPT可以通过反馈学习方法不断优化和提升,使其在生成对话回复时更准确、合理和人性化。这种反馈学习方法的应用,可以使ChatGPT具备更强的适应性和可控性,让其适应不同的任务和场景,并根据用户的反馈不断改进和提升自身的表现。

ChatGPT是数据科学领域具有革命性和划时代意义的里程碑技术,展望未来,其为大数据和人工智能等技术的新突破、新发展带来无限机遇与挑战。

点击了解更多数据科学相关技术与实践

书籍背景:
本书由百分点科技与清华大学出版社联合出版。百分点科技成立于2009年,是领先的数据科学基础平台及数据智能应用提供商,总部位于北京,在上海、沈阳、深圳、广州、武汉、济南、香港等地设有十八家分子公司,业务覆盖全球多个国家和地区。百分点科技以“用数据科学构建更智能的世界”为使命,为政府和企业提供端到端的场景化解决方案,在数字城市、应急、公安、统计、生态环境、零售快消、媒体报业等多个领域,助力客户智能化转型。百分点科技是国家高新技术企业、北京市企业科技研发机构、全国信标委大数据标准工作组&人工智能分委会成员单位。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/548556.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

第四百六十二回

文章目录 1. 概念介绍2. 实现方法3. 示例代码4. 内容总结 我们在上一章回中介绍了"关于MediaQuery的优化"相关的内容,本章回中将介绍readMore这个三方包.闲话休提,让我们一起Talk Flutter吧。 1. 概念介绍 我们在本章回中介绍的readMore是一个…

新经济助推高质量发展“大有云钞”聚焦未来趋势

近日,由大有云钞科技(北京)有限公司主办的一场关于“新经济助力高质量发展法治研讨会”在北京国家会议中心隆重举行。此次研讨会汇聚了来自政府、企业、学术界和法律界的众多专家学者,共同探讨新经济背景下的法治建设和高质量发展…

Scrapy 框架基础

Scrapy框架基础Scrapy框架进阶 Scrapy 框架基础 【一】框架介绍 【1】简介 Scrapy是一个用于网络爬取的快速高级框架,使用Python编写他不仅可以用于数据挖掘,还可以用于检测和自动化测试等任务 【2】框架 官网链接https://docs.scrapy.org/en/late…

YesPMP平台 | 活动有礼,现金奖励点击领取!

YesPMP众包平台在线发福利啦,活动火热开启,现金奖励等你来领,最高可领千元,赶快参与将奖励收入囊中,一起来了解活动细节吧! 一、活动内容: 活动一:【项目征集令】活动,…

二路归并排序的算法设计和复杂度分析(C语言)

目录 实验内容: 实验过程: 1.算法设计 2.程序清单 3.运行结果 4.算法复杂度分析 实验内容: 二路归并排序的算法设计和复杂度分析。 实验过程: 1.算法设计 二路归并排序算法,分为两个阶段,首先对待排…

Anaconda下的tensorflow安装

关于Anaconda的安装以及配置可以浏览我的上一篇博客Anaconda的安装与配置 下面是安装tensorflow的命令,使用下列指令安装前需要配置好CUDA,关于CUDA的配置在上一篇博客中有详细的步骤描述。 关于官方环境配置的要求可以浏览官网:https://t…

每帧纵享丝滑——ToDesk云电脑、网易云游戏、无影云评测分析及ComfyUI部署

目录 一、前言二、云电脑性能测评分析2.1、基本配置分析2.1.1、处理器方面2.1.2、显卡方面2.1.3、内存与存储方面2.1.4、软件功能方面 2.2、综合跑分评测 三、软件应用实测分析3.1、云电竞测评3.2、AIGC科研测评——ComfyUI部署3.2.1、下载与激活工作台3.2.2、加载模型与体验3.…

yolov8目标检测 部署瑞芯微rk3588记录

1. 前置条件 本地电脑系统,ubuntu20.04 训练代码: 训练代码下载的ultralytics官方代码 SHA:6a2fddfb46aea45dd26cb060157d22cf14cd8c64 训练代码仅做数据修改,类别修改,代码结构未做任何修改 需要准备的代码&#…

基于springboot+vue+Mysql的论坛管理系统

开发语言:Java框架:springbootJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:…

图深度学习(一):介绍与概念

目录 一、介绍 二、图的数据结构 三、图深度学习的基本模型 四、图深度学习的基本操作和概念 五、训练过程 六、主要应用场景 七、总结 一、介绍 图深度学习是将深度学习应用于图形数据结构的领域,它结合了图论的概念和深度学习的技术,用以处理和…

刷新认知,Python中循环结构可以这么简单?

应用场景 我们在写程序的时候,一定会遇到需要重复执行某条或某些指令的场景。例如用程序控制机器人踢足球,如果机器人持球而且还没有进入射门范围,那么我们就要一直发出让机器人向球门方向移动的指令。 在这个场景中,让机器人向…

大数据建模理论

文章目录 一、数仓概述1、数据仓库概念1.1 概述1.2 数据仓库与数据库的区别1.3 技术选型和架构 2、数仓常见名词2.1 实体2.2 维度2.3 度量2.4 粒度2.5 口径2.6 指标2.7 标签2.8 自然键/持久键/代理键2.9 退化维度2.10 下钻/上卷2.11 数据集市 3、数仓名词之间关系3.1 实体表&am…

这个项目我投了,给 OceanBase 数据库诊断提提速!

1. 前言 昨天晚上公司内部直播分享了一下OceanBase敏捷版诊断工具obdiag,主要的目的是拉齐一下前线和后端开发人员的诊断OceanBase问题的信息,众人拾柴火焰高,大家一起把obdiag做起来。晚上回去想了想,obdiag既然是开源项目&…

SiLM5350系列带米勒钳位的单通道隔离驱动器 助力汽车与工业应用实现稳定与高效的解决方案

带米勒钳位的隔离驱动SiLM5350系列 单通道 30V,10A 带米勒钳位的隔离驱动 具有驱动电流更大、传输延时更低、抗干扰能力更强、封装体积更小等优势, 为提高电源转换效率、安全性和可靠性提供理想之选。 SiLM5350系列产品描述: SiLM5350系列是单通道隔离驱…

[入门]测试原则-ApiHug准备-测试篇-002

🤗 ApiHug {Postman|Swagger|Api...} 快↑ 准√ 省↓ GitHub - apihug/apihug.com: All abou the Apihug apihug.com: 有爱,有温度,有质量,有信任ApiHug - API design Copilot - IntelliJ IDEs Plugin | Marketplace 写在前面…

GT资源-CPLL QPLL

一、前言 QPLL与CPLL是两种为GT Channel提供时钟的锁相环,其中CPLL与GT Channel绑定,每一个通道都有一个CPLL,而QPLL是与Quad绑定,每一个Quad有一个QPLL,4个通道共享一个QPLL 二、CPLL 每个GTX/GTH收发器通道包含一…

luigi,一个超级厉害的 Python 库!

什么是 Python Luigi? Python Luigi 是一个用于构建复杂数据处理管道(工作流)的Python模块。Luigi由Spotify开发并维护,旨在简化和管理大规模数据处理任务的执行。 关键特点包括: 1.任务定义: Luigi允许…

TypeError: Cannot read properties of undefined (reading ‘tapAsync‘)

项目启动,一直报tabAsync未定义,整个项目中没有找到引用的地方; 最终重新安装webpack4版本 解决问题; npm install webpack4

【重回王座】ChatGPT发布最新模型gpt-4-turbo-2024-04-09

今天,新版GPT-4 Turbo再次在大型模型排行榜上荣登榜首,成功超越了此前领先的Claude 3 Opus。另外,新模型在处理长达64k的上下文时,性能竟能够与旧版在处理26k上下文时的表现相当。 目前GPT-4 Turbo仅限于ChatGPT Plus的用户&…

苍穹外卖项目总结1-12

苍穹外卖 文章标题地址苍穹外卖Day01——总结1https://lushimeng.blog.csdn.net/article/details/135466359苍穹外卖Day02——总结2https://lushimeng.blog.csdn.net/article/details/135484126苍穹外卖Day03——总结3https://lushimeng.blog.csdn.net/article/details/1363788…