一本书讲透ChatGPT,实现从理论到实践的跨越!大模型技术工程师必读

这里写目录标题

  • 前言
  • 内容简介
  • 作者简介
  • 专家推荐
  • 读者对象
  • 目录
  • 直播预告

前言

OpenAI 在 2022 年 11
月推出了人工智能聊天应用—ChatGPT。它具有广泛的应用场景,在多项专业和学术基准测试中表现出的智力水平,不仅接近甚至有时超越了人类的平均水平。这使得
ChatGPT 在推出之初就受到广大用户的欢迎,被科技界誉为人工智能领域的新里程碑。

  • 人们在为生成式人工智能所带来的多模态内容创作效率的提升而欢呼时,常常低估ChatGPT的推理能力。这种能力使ChatGPT不仅能作为新一代人机交互的核心,还能作为智能代理来构建自动化和半自动化的工作流程,甚至使它能与工业控制或机器人领域相结合,引发深刻的社会变革。

  • 许多人低估了这种变革的影响力。以当前研发和商业应用的迭代速度来看,预计在未来三至五年内,这种变革将逐渐渗透到人类生活和生产的各个方面,极大地提升现有的生产力。若要追溯上一个被称为“巨大技术变革”的时代,很多人都会毫不犹豫地说是互联网开创期。这次变革也将重塑内容生产相关的商业模式,改变现有的工作方式,甚至推动生产方式的变革。当然,这还需要依赖下一代大语言模型在内容输出的可控性方面的突破。

请添加图片描述

ChatGPT原理与架构:

大模型的预训练、迁移和中间件编程

程戈 著

大模型领域技术专家和布道者实践经验总结

阿里、Google等企业多位大模型技术专家联袂推荐

限时五折优惠中!

请添加图片描述
购买链接(京东):https://item.m.jd.com/product/14316580.html?utm_medium=tuiguang&utm_campaign=t_2021783391_&utm_term=3b7f8af79bdc4ef5abf389c2825b19ed&utm_source=kong&cu=true

内容简介

这是一本深入阐述ChatGPT等大模型的工作原理、运行机制、架构设计和底层技术,以及预训练、迁移、微调和中间件编程的著作。它将帮助我们从理论角度全面理解大模型,从实践角度更好地应用大模型,是作者成功训练并部署大模型的过程复盘和经验总结。

  • 第1章介绍了ChatGPT等大模型的发展历程、技术演化和技术栈等基础知识;
  • 第2~5章深入讲解了Transformer的架构原理,并从GPT-1的生成式预训练到GPT-3的稀疏注意力机制详细描述了GPT系列的架构演进;
  • 第6~8章从底层技术实现的角度讲解了大模型的训练策略、数据处理方法,以及如何利用策略优化和人类反馈来进一步提升模型的表现;
  • 第9~10章首先详细讲解了大模型在垂直领域的低算力迁移方法,并给出了医疗和司法领域的迁移案例,然后讲解了大模型的中间件编程;
  • 第11章对GPT的未来发展趋势进行预测,探讨数据资源、自回归模型的局限性,以及大模型时代具身智能的可行路线。

作者简介

程戈

  • 博士生导师,湘潭大学计算机学院·网络空间安全学院教授,湘潭大学技术转移中心副主任,湘潭市京东智能城市与大数据研究院副院长,智慧司法与数字治理湖南省重点实验室副主任,CCF计算法学会执委。
  • 大模型领域技术专家和布道者,作为两项科技部国家重点研发子课题的负责人,与成都数之联等多家企业合作推动人工智能在司法领域的落地,带领团队开发了JusticeGPT司法大模型,不同于其他的以提升司法领域知识问答能力为核心的司法大模型,该大模型致力于提升司法文献检索增强生成以及司法文档的多跳信息聚合能力,并通过特定的多任务表征与控制指令生成框架重构司法信息化系统的业务中台,实现司法业务编排以及工作流自动化。
  • 连续创业者,先后创立湘潭安道致胜信息科技有限公司等多家企业,曾经作为共同创始人加盟美国WiFi Free llc. ,开发了WiFi Free、WiFi Analyzer?等项目,其中WiFi Free在2014到2015年是Google Play市场相关WiFi分享类应用下载的前三名。作为技术顾问,先后服务于北京捷通华声等多家企业,提供知识表示学习的技术解决方案,为某知名私募开发了基于深度学习的股票趋势预测系统,成为该私募公司的主要量化工具。

专家推荐

  • 作者结合科研和实践经验,用朴实无华的语言,扎实、严谨地剖析了ChatGPT的技术原理和大模型的关键技术。全书内容丰富翔实,图文并茂,任何想要真正理解ChatGPT的读者,都会从本书中获益匪浅,深刻领会这项里程碑式的技术成果。
    —— 陈峰 北京滴普科技有限公司合伙人&《ClickHouse性能之巅》作者

  • 创业不易,比较幸运的是,我在北大做研究时,和团队一起成功地开发了ChatLaw——国内首个在法律领域应用的大模型。本书的作者和团队也成功训练出法律行业的大模型,这本书分享了他们的成功经验。如果你对类似ChatGPT大模型的训练感兴趣,那么本书将是你不容错过的力作。
    —— 崔家熙 ChatLaw

  • 本书不仅能让你站在巨人的肩膀上俯瞰大语言模型的全貌,还带领你深入洞察其背后的原理与架构设计。不仅是一本理论与实践并重的参考书,更是一部引领人工智能领域创新发展的启示录。它将为你揭示大语言模型如何改变我们的生活,并展示如何在这一领域挖掘无限可能。
    —— 黄剑 Google工程师/抖音“剑哥聊技术”博主(仅代表个人观点,与任何公司无关)

  • 本书系统地剖析了支撑ChatGPT的关键技术,包括Transformer模型、注意力机制、生成式预训练等理论基础,以及模型优化、低算力部署、人机交互等关键问题。全书内容丰富翔实,图文并茂,任何想要真正理解ChatGPT的读者都能从中获益。作者结合科研和实践经验,用平实的语言娓娓道来,让这个高深的主题变得触手可及。
    —— 刘聪 南京云问科技首席算法架构师/知乎博主:@刘聪NLP/《ChatGPT原理与实践》作者

  • 这是一本细致入微地剖析ChatGPT内在技术原理的佳作。内容严谨,结构清晰,层层深入地剖析了大语言模型背后的关键技术,如Transformer、注意力机制、生成式预训练等。这是一本质量上乘的技术专著,它不仅系统全面,而且深入浅出,将ChatGPT这一复杂系统娓娓道来,让读者获益匪浅。
    —— 刘树春 阿里巴巴高级算法专家

  • 对于任何渴望深入了解大语言模型的人来说,本书是一本无价之宝。它是进入大语言模型训练和微调世界的敲门砖,同时也是您在人工智能领域取得成就的助推器。通过本书,您将掌握大语言模型的工作原理、技术挑战与发展趋势,从而为自己在人工智能时代的角色定位提供有力支持。
    —— 占冰强 AIGCLINK发起人/行行AI合伙人

读者对象

人工智能领域的产品经理。对于希望在自家产品中引入AI功能的产品经理来说,了解ChatGPT等大语言模型的基本原理和运行机制是至关重要的。从本书中,他们可以学习大语言模型的设计思想、构造方式,以及如何将这些模型整合到产品中去。他们也可以借此更好地理解产品的性能瓶颈,从而进行更为精确的产品规划。

人工智能相关专业的研究人员。AI研究者可以将本书作为一本深入了解大语言模型的教科书。无论是Transformer模型的细节,还是GPT模型训练和优化的技巧,书中都进行了详细的介绍。更重要的是,书中还探讨了一些最前沿的研究领域,比如人类反馈强化学习、指令自举标注算法等。

大规模数据处理和分析的工程师。对于面临如何高效处理大规模数据、如何构建分布式训练架构等问题的工程师来说,本书可以提供许多宝贵的建议和思路。例如,第6章对数据处理和分布式训练模式进行了深入的讨论。

AI技术的爱好者和使用者。如果你是一个AI技术的爱好者,或者是一个善于运用技术改善生活的人,本书同样适合你。书中对大语言模型的介绍通俗易懂,可以让你对这个强大的技术有个全面的了解。此外,书中还提供了许多实用的使用技巧和案例,可以将它们直接应用到你的生活或工作中去。

目录

上拉下滑查看目录 ↓ 前言

第1章 人工智能的新里程碑——ChatGPT / 1

1.1 ChatGPT的发展历程 / 1

1.2 ChatGPT的能力 / 3

1.3 大语言模型的技术演化 / 6

1.3.1 从符号主义到连接主义 / 6

1.3.2 Transformer模型 / 7

1.3.3 无监督预训练 / 10

1.3.4 有监督微调 / 11

1.3.5 人类反馈强化学习 / 11

1.4 大语言模型的技术栈 / 12

1.5 大语言模型带来的影响 / 13

1.6 大语言模型复现的壁垒 / 16

1.6.1 算力瓶颈 / 16

1.6.2 数据瓶颈 / 17

1.6.3 工程瓶颈 / 18

1.7 大语言模型的局限性 / 19

1.8 小结 / 20

第2章 深入理解Transformer模型 / 21

2.1 Transformer模型简介 / 21

2.2 自注意力机制 / 23

2.2.1 自注意力机制的计算过程 / 23

2.2.2 自注意力机制的本质 / 26

2.2.3 自注意力机制的优势与局限性 / 28

2.3 多头注意力机制 / 29

2.3.1 多头注意力机制的实现 / 29

2.3.2 多头注意力机制的作用 / 31

2.3.3 多头注意力机制的优化 / 32

2.4 前馈神经网络 / 33

2.5 残差连接 / 35

2.6 层归一化 / 36

2.7 位置编码 / 38

2.7.1 位置编码的设计与实现 / 38

2.7.2 位置编码的变体 / 40

2.7.3 位置编码的优势与局限性 / 41

2.8 训练与优化 / 41

2.8.1 损失函数 / 41

2.8.2 优化器 / 42

2.8.3 学习率调整策略 / 42

2.8.4 正则化 / 43

2.8.5 其他训练与优化技巧 / 44

2.9 小结 / 46

第3章 生成式预训练 / 47

3.1 生成式预训练简介 / 47

3.2 GPT的模型架构 / 48

3.3 生成式预训练过程 / 50

3.3.1 生成式预训练的目标 / 52

3.3.2 生成式预训练的误差反向传播过程 / 53

3.4 有监督微调 / 55

3.4.1 有监督微调的原理 / 55

3.4.2 有监督微调的特定任务 / 56

3.4.3 有监督微调的步骤 / 58

3.5 小结 / 59

第4章 无监督多任务与零样本学习 / 61

4.1 编码器与解码器 / 61

4.2 GPT-2的模型架构 / 64

4.2.1 层归一化 / 65

4.2.2 正交初始化 / 66

4.2.3 可逆的分词方法 / 67

4.2.4 可学习的相对位置编码 / 71

4.3 无监督多任务 / 72

4.4 多任务学习与零样本学习的关系 / 74

4.5 GPT-2的自回归生成过程 / 76

4.5.1 子词单元嵌入 / 76

4.5.2 自回归过程 / 77

4.6 小结 / 79

第5章 稀疏注意力与基于内容的学习 / 80

5.1 GPT-3的模型架构 / 81

5.2 稀疏注意力模式 / 83

5.2.1 Sparse Transformer的特点 / 83

5.2.2 局部带状注意力 / 85

5.2.3 跨层稀疏连接 / 85

5.3 元学习和基于内容的学习 / 86

5.3.1 元学习 / 87

5.3.2 基于内容的学习 / 87

5.4 概念分布的贝叶斯推断 / 90

5.4.1 隐式微调 / 90

5.4.2 贝叶斯推断 / 93

5.5 思维链的推理能力 / 95

5.6 小结 / 99

第6章 大语言模型的预训练

策略 / 100

6.1 预训练数据集 / 100

6.2 预训练数据的处理 / 102

6.3 分布式训练模式 / 104

6.3.1 数据并行 / 105

6.3.2 模型并行 / 106

6.4 分布式训练的技术路线 / 110

6.4.1 Pathways / 111

6.4.2 Megatron-LM / 113

6.4.3 ZeRO / 116

6.5 训练策略案例 / 120

6.5.1 训练框架 / 120

6.5.2 参数稳定性 / 120

6.5.3 训练设置的调整 / 121

6.5.4 BF16优化 / 121

6.5.5 其他因素 / 122

6.6 小结 / 123

第7章 近端策略优化算法 / 124

7.1 传统的策略梯度方法 / 125

7.1.1 策略梯度方法的基本原理 / 125

7.1.2 重要性采样 / 127

7.1.3 优势函数 / 128

7.2 Actor-Critic算法 / 129

7.2.1 Actor-Critic算法的基本步骤 / 130

7.2.2 值函数与策略更新 / 131

7.2.3 Actor-Critic算法的问题与挑战 / 131

7.3 信任域策略优化算法 / 132

7.3.1 TRPO算法的目标 / 132

7.3.2 TRPO算法的局限性 / 133

7.4 PPO算法的原理 / 134

7.5 小结 / 137

第8章 人类反馈强化学习 / 138

8.1 强化学习在ChatGPT迭代中的作用 / 138

8.2 InstructGPT训练数据集 / 140

8.2.1 微调数据集的来源 / 141

8.2.2 标注标准 / 142

8.2.3 数据分析 / 143

8.3 人类反馈强化学习的训练阶段 / 145

8.3.1 有监督微调阶段 / 145

8.3.2 奖励建模阶段 / 147

8.3.3 强化学习阶段 / 148

8.4 奖励建模算法 / 149

8.4.1 算法思想 / 149

8.4.2 损失函数 / 150

8.5 PPO算法在InstructGPT中的应用 / 151

8.6 多轮对话能力 / 153

8.7 人类反馈强化学习的必要性 / 154

8.8 小结 / 156

第9章 大语言模型的低算力领域迁移 / 157

9.1 指令自举标注 / 157

9.2 人工智能反馈 / 161

9.3 低秩自适应 / 163

9.3.1 模型训练与部署 / 164

9.3.2 秩的选择 / 165

9.4 量化:降低部署的算力要求 / 166

9.5 SparseGPT剪枝算法 / 168

9.6 开源大语言模型的低算力迁移案例 / 170

9.6.1 基座模型 / 170

9.6.2 自举指令微调的羊驼系列 / 171

9.6.3 中文解决方案 / 172

9.6.4 医疗领域的迁移实例 / 174

9.6.5 司法领域的迁移实例 / 175

9.7 小结 / 178

第10章 中间件编程 / 180

10.1 补齐短板—LangChain恰逢

其时 / 180

10.2 多模态融合中间件 / 184

10.2.1 任务规划 / 185

10.2.2 模型选择 / 187

10.2.3 任务执行 / 188

10.2.4 响应生成 / 189

10.3 AutoGPT自主代理与任务

规划 / 189

10.4 中间件框架的竞品 / 192

10.5 小结 / 194

第11章 大语言模型的未来

之路 / 195

11.1 强人工智能之路 / 195

11.2 数据资源枯竭 / 198

11.3 自回归模型的局限性 / 200

11.4 具身智能 / 202

11.4.1 具身智能的挑战 / 203

11.4.2 PaLM-E / 204

11.4.3 ChatGPT for Robotics / 205

11.5 小结 / 210

直播预告

请添加图片描述

3月7日周四19:00,大模型领域技术专家,湖南国家应用数学中心副主任,湘潭市京东智能城市与大数据研究院副院长,湘潭大学计算机学院.网络空间学院教授 程戈老师与您分享“世界模型改变世界:从GPT到Sora”,点击预约观看!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/433289.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

垃圾分类网站|基于Springboot框架+java+MYSQL数据库的垃圾分类网站开发设计与实现(可运行源码+数据库+文档)

目录 1.摘 要 2.系统结构设计 3.系统顺序图设计 4.数据库设计 5.系统详细设计 用户前台功能模块 管理员功能模块 垃圾分类管理员功能模块 论文参考 文末获取源码 1.摘 要 本论文主要论述了如何使用JAVA语言开发一个垃圾分类网站 ,本系统将严格按照软件开发…

探索直播美颜SDK背后的算法:如何实现高效的美颜处理?

直播中,美颜功能更是成为了吸引用户的一大利器,为了实现这一目标,各大直播平台纷纷推出了美颜功能,而直播美颜SDK背后的算法成为了实现这一功能的关键。 一、美颜算法的重要性 美颜算法在直播美颜SDK中扮演着至关重要的角色。它不…

isNaN和Number.isNaN()的区别

一句话概括: isNaN()会先尝试转换为数字,如果无法转换为数字则返回true,否则返回false Number.isNaN():直接检查一个值是否为NaN 示例如下: 对于isNaN() NaN直接就返回true "abc"是字符串且无法转换为数…

连锁经营如何降低财务成本和税务风险

连锁经营的财务是一个比较复杂的体系。连锁经营通过规模化运作,连锁企业可以享受采购、生产和销售方面的经济规模优势,从而降低采购成本、生产成本和运营成本。可以通过统一管理和监控各个门店的财务状况,实现资源的最优配置,减少…

如何单独设置cPanel的PHP扩展

我们在上周遇到购买Hostease的Linux虚拟主机客户网站页面需要使用mb_strlen函数。像这种需要特定PHP函数的设置需求,我们是可以单独在cPanel面板进行设置。 步骤 1:登录到 cPanel 打开您的 Web 浏览器,登录您的 cPanel 控制面板登录页面。 步…

Linux - 进程控制

1、进程创建 1.1、fork函数初识 在linux中fork函数时非常重要的函数&#xff0c;它从已存在进程中创建一个新进程。新进程为子进程&#xff0c;而原进程为父进程&#xff1b; #include <unistd.h> pid_t fork(void); 返回值&#xff1a;自进程中返回0&#xff0c;父进…

EC600模块通过AT指令接入阿里云物联网平台并发布属性

摘要&#xff1a;本文介绍一下如何通过EC600模块的AT指令&#xff0c;将设备属性值发送到阿里云物联网平台的方法。 这个模块供电可以是 5-16V 和电脑通过USB串口连接&#xff0c;4线即可。未来集成到自己的系统中的时候&#xff0c;可以直接发送指令即可。 使用的软件是FreeAT…

Claude3荣登榜首,亚马逊云科技为您提供先行体验!

Claude3荣登榜首&#xff0c;亚马逊云科技为您提供先行体验&#xff01; 个人简介前言抢先体验关于Amazon BedrockAmazon Bedrock 的功能 Claude3体验教程登录Amazon Bedrock试用体验管理权限详细操作步骤1.提交应用场景详细信息2.请求模型的访问权限3.请求成功&#xff0c;开始…

智慧合同管理平台:企业合同管理的数字化革新

在当今的商业环境中&#xff0c;合同管理已经成为企业运营中不可或缺的一环。传统的合同管理方式不仅耗时耗力&#xff0c;而且容易出错。为了解决这个问题&#xff0c;越来越多的企业开始转向使用智慧合同管理平台。本文将以道本科技智慧合同管理平台为例&#xff0c;详细介绍…

中航证券2024 AI智算时代已至,算力芯片加速升级

一、AI处史上最长繁荣期&#xff0c;算力国产化需求迫切 AI正处史上最长繁荣大周期 人工智能从1956 年被正式提出以来&#xff0c;经历了数十年的 发展历程。人工智能诞生初期&#xff0c;其研究主要分为三个流 派&#xff0c;即逻辑演绎、归纳统计和类脑计算。 人工智能研究的…

JasperReport指定自定义字体文件,解决中文不显示问题支持

原文链接&#xff1a;【JasperReports笔记05】JasperReport指定自定义字体文件&#xff0c;解决中文不显示问题支持Android_jasperreports导出pdf不显示中文-CSDN博客 目录 一、自定义字体文件 1.1、创建字体配置文件 1.2、创建fonts.xml字体文件 1.3、在Jasper Studio中添…

【STM32下UART协议的一些认识与使用方法】

STM32下UART协议的一些认识与使用方法 串口定义通用串行异步收发器 协议中相关的概念空闲位起始位数据位奇偶校验位三种校验方式BT接收数据的流程 停止位波特率总结 UART的三种工作方式UART控制器发送数据流程接收数据流程 UART初始化UART相关结构体和库函数 串口定义 通用串行…

计算机网络-物理层

物理层 基本概念传输媒体信道复用频分复用&#xff08;FDM&#xff09;时分复用&#xff08;TDM&#xff09;波分复用&#xff08;WDM&#xff09;码分复用&#xff08;CDM&#xff09; 宽带接入技术ADSL技术光纤同轴混合网(HFC网)FTTx技术 数据通信常识 上次我们已经大致学习了…

基于yolov5的山羊姿态检测系统,可进行图像目标检测,也可进行视屏和摄像检测(pytorch框架)【python源码+UI界面+功能源码详解】

功能演示&#xff1a; 基于yolov5的山羊姿态检测系统&#xff0c;系统既能够实现图像检测&#xff0c;也可以进行视屏和摄像实时检测_哔哩哔哩_bilibili &#xff08;一&#xff09;简介 基于yolov5的山羊姿态检测系统是在pytorch框架下实现的&#xff0c;这是一个完整的项目…

AndroidStudio连不上adb报错ADB Connection Error

之前笔者一直通过AndroidStudio来看日志&#xff0c;也一直用的一套自己的SDK&#xff0c;用了好几年了。 但是突然有一天&#xff0c;AndroidStudio启动后就弹出警告窗&#xff1a;ADB Connection Error&#xff0c;如下&#xff1a; 在Event Log面板还持续性的输出&#x…

论文目录3:大模型时代(2023+)

1 instruction tuning & in context learning 论文名称来源主要内容Finetuned Language Models Are Zero-Shot Learners2021 机器学习笔记&#xff1a;李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客 早期做instruction tuning的work MetaICL: Learning to …

产品推荐 - Xilinx FPGA下载器 XQ-HS/STM2

1 FPGA下载器简介 1.性能优良 FPGA下载器XQ-HS/STM2采用Xilinx下载模块设计而成&#xff08;JTAG-SMT2NC模块&#xff0c;该模块与Xilinx官方开发板KC705&#xff0c;KCU105&#xff0c;ZC702&#xff0c;ZC706&#xff0c;Zedboard等板载下载器一样&#xff0c;下载速度快…

蓝桥杯-排序

数组排序 Arrays.sort(int[] a) 这种形式是对一个数组的所有元素进行排序&#xff0c;并且时按从小到大的顺序。 package Work;import java.util.*;public class Imcomplete {public static void main(String args[]) {int arr[]new int [] {1,324,4,5,7,2};Arrays.sort(arr)…

C++--调整数组顺序使奇数位于偶数前面

题目&#xff1a; 输入一个整数数组&#xff0c;实现一个函数来调整该数组中数字的顺序&#xff0c;使得所有的奇数位于数组的前半部分&#xff0c;所有的偶数位于数组的后半部分&#xff0c;并保证奇数和奇数&#xff0c;偶数和偶数之间的相对位置不变。 方法一&#xff1a; …

数学美学:探索“既不是最小值也不是最大值”的魅力

本篇博客会讲解力扣“2733. 既不是最小值也不是最大值”的解题思路&#xff0c;这是题目链接。 本题的思路是&#xff1a; 如果数组只有两个元素&#xff0c;直接返回任意一个即可。如果数组有三个或以上的元素&#xff0c;由于数组中的所有数字互不相同&#xff0c;我们只需要…
最新文章