【AI相关】《这就是ChatGPT》读书笔记

《这就是ChatGPT》

 斯蒂芬·沃尔弗拉姆

这本书用了两天就一口气读完了,通篇读完后,这本书主要是介绍了ChatGPT怎么能做到生成内容的一些背后的原理逻辑,总结一下这本书是ChatGPT通过大量的数据(这些数据来自网络、书籍等等类似于数据库的东西)分析,这里的分析包括神经网络、嵌入、机器学习来推测下一步输出的内容是什么,通过这一连串的操作可以尽量达到“类人”的效果。


ChatGPT在做什么?它为何能做到这些?

  • 首先需要解释,ChatGPT从根本上始终要做的是,针对它得到的任何文本产生“合理的延续”。这里所说的“合理”是指,“人们在看到诸如数十亿个网页上的内容后,可能期待别人会这样写”。
  • 最终的结果是,它会列出随后可能出现的词及其出现的“概率”(按“概率”从高到低排列)。
  • 写一篇文章时,它实质上只是在一遍又一遍地询问“根据目前的文本,下一个词应该是什么”
  • 这里存在随机性意味着,如果我们多次使用相同的提示(prompt),每次都有可能得到不同的文章。

 概率从何而来

  • 2024/04/24 发表想法

    Chatgtp会通过对大量的数据进行分析,在这个分析的基础之上预测下一个词出现的频率,接着再通过这些概率来输出接下来的文本

     

    原文:最佳思路是建立一个模型,让我们能够估计序列出现的概率—即使我们从未在已有的文本语料库中明确看到过这些序列。

  • 最佳思路是建立一个模型,让我们能够估计序列出现的概率—即使我们从未在已有的文本语料库中明确看到过这些序列。

什么是模型

  • 从来没有“无模型的模型”。你使用的任何模型都有某种特定的基本结构,以及用于拟合数据的一定数量的“旋钮”(也就是可以设置的参数)。ChatGPT使用了许多这样的“旋钮”—实际上有1750亿个。

神经网络

  • 正如上面所说的,这并不是我们可以“根据第一性原则推导”出来的事实。这只是一些经验性的发现,至少在某些领域是正确的。但这是神经网络有用的一个关键原因:它们以某种方式捕捉了“类似人类”的做事方式。
  • 我们可以说神经网络正在“挑选出某些特征”(也许尖尖的耳朵是其中之一),并使用这些特征来确定图像的内容。
  • 2024/04/25 发表想法

    神经网络识别就是chatgpt在模仿人类的思考方式或者类似于经验的东西来对所识别的内容“找出某种特征”,从而根据这些“特征”来确定所识别的内容

     

    原文:假设我们想得到神经网络中的“猫

机器学习和神经网络的训练

  • 基本思想是提供大量的“输入→输出”样例以供“学习”,然后尝试找到能够复现这些样例的权重。
  • 应该如何调整权重呢?基本思想是,在每个阶段看一下我们离想要的函数“有多远”,然后朝更接近该函数的方向更新权重。
  • 最后需要解释的关键是,如何调整权重以减小损失函数。正如我们所说的,损失函数给出了我们得到的值和真实值之间的“距离”。但是“我们得到的值”在每个阶段是由神经网络的当前版本和其中的权重确定的。

神经网络训练的实践和学问

  • 这更多地反映了我们通常试图让神经网络去完成的任务是“类人”任务,而神经网络可以捕捉相当普遍的“类人过程”。
  • 但是后来发现,(至少对于“类人任务”)最好的方法通常是尝试训练神经网络来“解决端到端的问题”,让它自己“发现”必要的中间特征、编码等。
  • 神经网络的一个重要特征是,它们说到底只是在处理数据—和计算机一样
  • 神经网络的实际学习过程是怎样的呢?归根结底,核心在于确定哪些权重能够最好地捕捉给定的训练样例。有各种各样的详细选择和“超参数设置”(之所以这么叫,是因为权重也称为“参数”),可以用来调整如何进行学习。有不同的损失函数可以选择,如平方和、绝对值和,等等。有不同的损失最小化方法,如每一步在权重空间中移动多长的距离,等等。然后还有一些问题,比如“批量”(batch)展示多少个样例来获得要最小化的损失的连续估计。是的,我们可以(像在Wolfram语言中所做的一样)应用机器学习来自动化机器学习,并自动设置超参数等。

“足够大的神经网络当然无所不能!”

  • 能力和可训练性之间存在着一个终极权衡:你越想让一个系统“真正利用”其计算能力,它就越会表现出计算不可约性,从而越不容易被训练;而它在本质上越易于训练,就越不能进行复杂的计算。

“嵌入”的概念

  • 2024/04/25 发表想法

    不尝试在“特征”上对比,而是在“黑盒”中自己考虑怎么输出接近度更高的内容

     

    原文:这里的关键概念是,我们不直接尝试表征“哪个图像接近哪个图像”,而是考虑一个定义良好、可以获取明确的训练数据的任务(这里是数字识别),然后利用如下事实:在完成这个任务时,神经网络隐含地必须做出相当于“接近度决策”的决策。因此,我们不需要明确地谈论“图像的接近度”,而是只谈论图像代表什么数字的具体问题,然后“让神经网络”隐含地确定这对于“图像的接近度”意味着什么。

  • 就能以我们对常见物体的识别为“锚点”创建一个图像嵌入,然后根据神经网络的行为“围绕它进行泛化”。关键是,这种行为只要与我们人类感知和解读图像的方式一致,就将最终成为一种“我们认为正确”且在实践中对执行“类人判断”的任务有用的嵌入。

  ChatGPT的内部原理

  • 从根本上说,ChatGPT是一个庞大的神经网络— GPT-3拥有1750亿个权重。
  • ChatGPT(或者说它基于的GPT-3网络)到底是在做什么呢?它的总体目标是,根据所接受的训练(查看来自互联网的数十亿页文本,等等),以“合理”的方式续写文本。所以在任意给定时刻,它都有一定量的文本,而目标是为要添加的下一个标记做出适当的选择。
  • 它的操作分为三个基本阶段。第一阶段,它获取与目前的文本相对应的标记序列,并找到表示这些标记的一个嵌入(即由数组成的数组)。第二阶段,它以“标准的神经网络的方式”对此嵌入进行操作,值“像涟漪一样依次通过”网络中的各层,从而产生一个新的嵌入(即一个新的数组)。第三阶段,它获取此数组的最后一部分,并据此生成包含约50000个值的数组,这些值就成了各个可能的下一个标记的概率。
  • 关键是,这条流水线的每个部分都由一个神经网络实现,其权重是通过对神经网络进行端到端的训练确定的。换句话说,除了整体架构,实际上没有任何细节是有“明确设计”的,一切都是从训练数据中“学习”来的。
  • 注意力头是做什么的呢?它们基本上是一种在标记序列(即目前已经生成的文本)中进行“回顾”的方式,能以一种有用的形式“打包过去的内容”,以便找到下一个标记。
  • ChatGPT每生成一个新的标记,都必须进行一次包括所有这些权重在内的计算。

ChatGPT的训练

  • :先提供一批样例,然后调整网络中的权重,以最小化网络在这些样例上的误差(“损失”)。

在基础训练之外

  • 2024/04/25 发表想法

    所以输入给chatgpt的指令很重要

     

    原文:基本上只需要把东西告诉ChatGPT一次—作为提示的一部分—它就可以成功用其生成文本。

真正让ChatGPT发挥作用的是什么

  • 即使是具有简单的神经网络结构的ChatGPT,也能够成功地捕捉人类语言的“本质”和背后的思维方式。此外,在训练过程中,ChatGPT已经通过某种方式“隐含地发现”了使这一切成为可能的语言(和思维)规律。
  • 它表明我们仍然可以期待能够发现重大的新“语言法则”,实际上是“思维法则”
  • ChatGPT并不明确地“了解”这些规则。但在训练过程中,它隐含地发现了这些规则,并且似乎擅长遵守它们

语义语法和计算语言的力量

  • 人类语言是不精确的,这主要是因为它没有与特定的计算实现相“结合”,其意义基本上只由其使用者之间的“社会契约”定义。但是,计算语言在本质上具有一定的精确性,因为它指定的内容最终总是可以“在计算机上毫无歧义地执行”。人类语言有一定的模糊性通常无伤大雅。

那么,ChatGPT到底在做什么?它为什么能做到这些?

  • ChatGPT的基本概念在某种程度上相当简单:首先从互联网、书籍等获取人类创造的海量文本样本,然后训练一个神经网络来生成“与之类似”的文本。特别是,它能够从“提示”开始,继续生成“与其训练数据相似的文本”。
  • 。ChatGPT不仅能产生连贯的人类语言,而且能根据“阅读”过的内容来“循着提示说一些话”。


 来自微信读书

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/573564.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux多进程(二)进程通信方式三 共享内存

共享内存提供了一个在多个进程间共享数据的方式,它们可以直接访问同一块内存区域,因此比使用管道或消息队列等通信机制更高效。在多进程程序中,共享内存通常与信号量一起使用,以确保对共享内存的访问是线程安全的。 一、打开/创建…

2024年达索系统智能制造核心合作伙伴会议圆满成功

2024年4月23日,达索系统在上海雅乐万豪侯爵酒店举办“2024年达索系统智能制造核心合作伙伴会议”,作为达索系统合作伙伴的百世慧也应邀出席了本次会议,并荣获“2023年度最佳销售业绩奖”,总经理冉恒奎先生还受邀在会上做出了精彩分…

电磁兼容(EMC):静电放电(ESD)抗扰度试验深度解读(八)

目录 1. 第一步 确定电磁环境 2. 第二步 确认设备工作状态 3. 第三步 制定试验计划 4. 间接施加的放电 4.1 水平耦合板 4.2 垂直耦合板 静电抗扰度的试验测试细节对测试结果影响比较大,本文详细介绍静电抗扰度试验的测试程序和注意事项。 1. 第一步 确定电磁…

Vision Pro“裸眼上车”,商汤绝影全新舱内3D交互亮相

2023年,Apple Vision Pro的横空出世让人们领略到了3D交互的魅力,商汤绝影通过深厚的技术研发实力和高效的创新迭代效率,带来两大全新座舱3D交互:3D Gaze高精视线交互和3D动态手势交互。 作为全球首创的能够通过视线定位与屏幕图标…

CST Studio初级教程 一

本教程将详细介绍CST Studio Project创建。 新建Project 1. 点击New and Recent,然后点击New Template。 然后依据我们的仿真属类,在下图中做选择需要的模板。 如果做高频连接器信号完整性(SI)仿真,我们就选Microwaves…

人工智能技术应用实训室解决方案

一、背景与意义 人工智能,作为新兴的技术科学领域,致力于模拟、延伸和扩展人类智能,其涵盖范围广泛,包括机器人技术、语言识别、图像识别、自然语言处理及专家系统等多元化领域。实际应用层面,人工智能已渗透到机器视…

【初阶数据结构】——循环队列

文章目录 1. 什么是循环队列?2. 结构的选择:数组 or 链表?链表结构分析数组结构分析判空判满入数据出数据取队头队尾元素 3. 代码实现(数组结构)C语言版本C版本 这篇文章我们来学习一下如何实现循环队列 那力扣上呢有一…

应用层协议 -- HTTPS 协议

目录 一、了解 HTTPS 协议 1、升级版的 HTTP 协议 2、理解“加密” 二、对称加密 1、理解对称加密 2、对称加密存在的问题 三、非对称加密 1、理解非对称加密 2、中间人攻击 3、CA 证书和数字签名 四、总结 一、了解 HTTPS 协议 1、升级版的 HTTP 协议 HTTPS 也是…

prompt提示词:AI英语词典,让AI教你学英语,通过AI实现一个网易有道英语词典

目录 英语词典提问技巧效果图:提示词: 英语词典提问技巧 随着AI工具的出现,学英语也可以变得很简单,大家可以直接通过AI 来帮助自己,提高记忆单词的效率,都可以不需要网易有道词典了,今天我教大…

Grid 布局

文章目录 容器属性display 属性grid-template-columns 和 grid-template-rows 属性row-gap、column-gap、gap 属性grid-template-areas 属性grid-auto-flow 属性justify-items、align-items、place-items 属性justify-content、align-content、place-content 属性grid-auto-col…

AI图书推荐:AI驱动的图书写作工作流—从想法构思到变现

《AI驱动的图书写作工作流—从想法到变现》(AI-Driven Book Creation: From Concept to Cash)是Martynas Zaloga倾力打造的一本实用指南,它巧妙地将写作艺术与人工智能前沿技术相结合。此书不仅揭示了AI在图书出版领域的无限潜力,…

Delphi 的Show和ShowModal

Show没有返回值是一个过程,焦点可以不在当前窗体; 用法新建一个子窗体: 主窗体: 调用,引用子窗体的单元 调用 showmodal是一个函数有返回值,窗体的处理结果,且只能聚焦到当前窗体 效果都能展示…

echarts实现云台控制按钮效果,方向按钮

效果图 代码 option {color: [#bfbfbf],tooltip: {show: false},series: [{name: ,type: pie,radius: [40%, 70%],avoidLabelOverlap: true,itemStyle: {// borderRadius: 10,borderColor: #fff,borderWidth: 2},label: {show: true,position: inside,fontSize: 36,color: #f…

CST初级教程 二

本教程将讲解CST Studio的视窗操控的基本操作. 3D视窗的快捷操作 动态放大与缩小(Dynamic Zoom) 将鼠标指针移动到CST Studio图形视窗中,向上滚动鼠标滚轮,可动太放大图形视窗中的显示内容,向下滚动鼠标滚轮即可动态缩…

如何添加所有未跟踪文件到暂存区?

文章目录 如何将所有未跟踪文件添加到Git暂存区?步骤与示例代码1. 打开命令行或终端2. 列出所有未跟踪的文件3. 添加所有未跟踪文件到暂存区4. 验证暂存区状态 如何将所有未跟踪文件添加到Git暂存区? 在版本控制系统Git中,当我们首次创建新文…

《数据结构与算法之美》读书笔记4(递归)

递归是一种应用非常广泛的算法。之后要讲的很多数据结构和算法的编码实现都要用到递归:DFS深度优先搜索,前中后序二叉树遍历等。 推荐注册返佣金这个功能,用户A推荐用户B来注册,用户B推荐用户C来注册。可以说用户B的“最终推荐人…

乐鑫科技收购创新硬件公司 M5Stack 控股权

乐鑫科技 (688018.SH) 宣布收购 M5Stack(明栈信息科技)的控股权。这一战略举措对于物联网和嵌入式系统领域的两家公司来说都是一个重要的里程碑,也契合了乐鑫和 M5Stack 共同推动 AIoT 技术民主化的愿景。 M5Stack 以其创新的硬件开发方式而闻…

DSP技术及应用——学习笔记一(量化效应)

文章图片内容主要来着老师的PPT,内容为自己总结梳理的学习笔记 二进制定点表示与量化误差 二进制定点表示 基础知识 二进制小数的定点表示 正数小数的定点表示: 思考题:推算字长为16的二进制最大正数与二进制正数 补码:正数不变&…

微电子封装分类及引线键合

1微电子封装分类 - 按功能 模拟电路、存储器传感器、功率电路、光电器件、逻辑电路、射频电路、MEMS、LED等等 - 按结构 分立器件/单芯片封装、多芯片封装、三维封装、真空封装、非真空封装、CSP,BGA/FBGA等等 - 按工艺 线焊封装(WB)、倒装焊封装(FC)、晶圆级封装(WLP)等等 -…

华中农业大学第十三届程序设计竞赛 个人题解(待补)

前言: 注意本篇博客的题解目前并不完整,未来会慢慢补齐的。 进入实验室后接触算法比赛的机会更多了,我接触的题也不再是简单的c语言题了,开始遇到更多我没接触过的算法和难题了,死磕这些难题对现在的我不但花时间而且成…