Re65:读论文 GPT-3 Language Models are Few-Shot Learners

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文全名:Language Models are Few-Shot Learners
ArXiv网址:https://arxiv.org/abs/2005.14165
2020 NeurIPS:https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html

官方GitHub项目:openai/gpt-3: GPT-3: Language Models are Few-Shot Learners(模型没开源,但是如果对人造数据集感兴趣可以看看)

GPT-3没有开源,只能通过API调用。OpenAI官方没有明确说现在哪些API是GPT-3的,我猜测https://platform.openai.com/docs/models/gpt-base这两个文本生成模型应该是GPT-3的,但是官方也不建议继续使用GPT-3的API了,建议大家用3.5和4。因此GPT-3的主要价值就是承前启后、了解GPT系列模型的发展史了。

Re45:读论文 GPT-1 Improving Language Understanding by Generative Pre-Training
Re62:读论文 GPT-2 Language Models are Unsupervised Multitask Learners

GPT-3的框架跟GPT-1、2的差不多,但是扩大了网络参数规模,使用了更多的高质量训练数据,就使得其模型效果实现了显著提升,可以不用微调,直接通过少样本学习/上下文学习的方式,在prompt中给出任务示例,就能在新的预测样例上得到想要的结果。有些少样本学习效果比微调的SOTA模型还好。

模型越大越好(scaling laws1
是谓大力出奇迹。
文中有很多验证不同规模模型上效果的图。

本文没有做GPT-3微调效果的实验。

我觉得前置知识我已经写够多了,本文就只写一些值得在意的点了。

文章目录

  • 1. 上下文学习
  • 2. GPT-3
    • 1. 数据集
    • 2. 实验结果
      • 1. 语言模型
      • 2. 文本补全和完形填空任务
      • 3. 开放域QA
      • 4. 翻译
      • 5. Winograd-Style Tasks
      • 6. 常识推理
      • 7. 阅读理解
      • 8. SuperGLUE
      • 9. NLI
      • 10. Synthetic and Qualitative Tasks
    • 3. 防止数据泄露问题
  • 4. 限制
  • 5. 公平性
  • 6. 资源消耗

1. 上下文学习

优势是不用大规模微调数据集。效果随模型尺寸增长而变好(但是不如微调)。而且模型不会产生微调导致的分布局限问题,在通用任务上表现能力不会下降。

示意图:
在这里插入图片描述

instruction

术语“demonstration”就是上下文中的样例(输入+输出 a context and a desired completion)

给出新输入,让模型给出输出

few-shot learning(10-100个)
one-shot learning
zero-shot learning

在这里插入图片描述

随着模型参数和数据集规模增长而效果越来越好:
在这里插入图片描述

在这里插入图片描述

前人的工作已经证明了log loss随模型变大而下降,交叉熵损失下降也会带来在下游任务上效果的提升。

2. GPT-3

模型在GPT-2的基础上增加了alternating dense and locally banded sparse attention patterns(sparse transformer2

最大的GPT-3是175B

模型越大,batch size应该越大,学习率越小1 3,用gradient noise scale来选择batch size3(我也不知道这是啥玩意儿,以后看)
在这里插入图片描述

context window:2048

在Common Crawl数据集上预训练1个epoch

在这里插入图片描述
↑这个纵轴应该大概类似于训练算力的评估指标

model parallelism

训练过程中的scale loss:
在这里插入图片描述

具体训练细节在附录,我没看。

1. 数据集

数据集清洗3步走(有噪音的效果不够好):① 靠近高质量语料 ② 去重 ③ 添加高质量语料(高质量语料抽样频率更高)

构建了一个预测高质量文本的分类器。

为了测试,删除了数据泄露的训练集数据。(文中有很大篇幅分析数据泄露问题)

数据集比例:
在这里插入图片描述

2. 实验结果

评估指标略。

因为看到FLAN论文里提及了,所以简单补充一点:
选择题(包括多选和判断题)大多是用生成结果的LM似然来评估的,有些任务参考了T5的评估思路。

1. 语言模型

在这里插入图片描述

2. 文本补全和完形填空任务

类似语言模型训练任务
在这里插入图片描述

在这里插入图片描述

3. 开放域QA

Closed Book Question Answering
在这里插入图片描述
开卷(open-book)QA一般用的是信息检索方案。
↑ SSM指的是Q&A-specific pre-training procedure

在这里插入图片描述
↑ 模型越大,知识越多

4. 翻译

在这里插入图片描述

在这里插入图片描述
翻译到英文的效果比较好。

5. Winograd-Style Tasks

指代消歧

在这里插入图片描述

在这里插入图片描述

6. 常识推理

在这里插入图片描述
在这里插入图片描述

7. 阅读理解

在这里插入图片描述

在要求严格回答格式的数据集上表现最差

8. SuperGLUE

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

9. NLI

在这里插入图片描述

10. Synthetic and Qualitative Tasks

  1. 算术
    少样本:
    在这里插入图片描述
    ↑ N-digit指的是数字的最高位数
    composite是带运算符的(如Q: What is 6+(4*8)? A: 38

    所有setting:
    在这里插入图片描述

  2. 恢复单词中的字母顺序
    在这里插入图片描述

    少样本:
    在这里插入图片描述

  3. SAT-style analogy
    示例:audacious is to boldness as (a) sanctimonious is to hypocrisy, (b) anonymous is to identity, (c) remorseful is to misdeed, (d) deleterious is to result, (e) impressionable is to temptation
    感觉算是一种英语词汇量考试题?
    在这里插入图片描述

  4. 定性问题

    1. 生成新闻
      输入标题和小标题
      在这里插入图片描述
      在这里插入图片描述
      ↑95%置信度区间的幂律函数

      在这里插入图片描述
      用户正确预测出新闻是模型生成的,或者不确定是不是模型生成的,都算预测正确
      可以看到GPT-3的生成真实性用户几乎猜不出来,即使是长文本(50%基本等如瞎猜)
      用户可能用以判断新闻是否由AI生成的依据:事实错误,重复,不合逻辑的推理过程,异常短语
      在这里插入图片描述


      在这里插入图片描述
    2. 学习和使用新词:看定义后使用,或者从示例中推理词义(论文中测试的是前者)
      在这里插入图片描述
      灰色是prompt,粗体是模型生成结果,模型生成结果会塞进对话继续生成后续内容
    3. 英语语法纠错
      Poor English Input: <sentence>nn Good English Output: <sentence>
      在这里插入图片描述

3. 防止数据泄露问题

具体的我没看,就放点图吧。

在这里插入图片描述
↑ 在训练集中抽取出一个去重的验证集切片,训练集和验证集的损失函数。
说明没有过拟合。在下游任务上表现不好就是因为任务太难了。

clean benchmarks:制造去除训练集中可能泄露的样本
在clean benchmarks上和原版的表现差异 ↓
在这里插入图片描述

4. 限制

大部分我懒得写了,列举一些我认为值得在意的。

  1. 人类偏好:(2019 OpenAI) Fine-Tuning Language Models from Human Preferences
  2. 通过图片提供世界模型:(2020 ECCV 微软) UNITER: UNiversal Image-TExt Representation Learning
  3. few-shot是从0开始学习新任务,还是将新任务视作见过的任务?

5. 公平性

性别:
在这里插入图片描述

种族(用词的情感得分):
在这里插入图片描述

宗教:
在这里插入图片描述
(好地狱笑话的表)

6. 资源消耗

单位:
petaflop/s-days
kW-hr

这一块以后如果有机会了我再详细看看。


  1. (2020 OpenAI) Scaling Laws for Neural Language Models ↩︎ ↩︎

  2. 在模型结构中的注意力层,GPT3采用Sparse Transformer中的方案,相对于原始Transformer需要对一个序列中的任意两个词元都进行注意力计算,时间复杂度为 O ( n 2 ) O(n^2) O(n2) ,Sparse Transformer通过稀疏矩阵仅为每个词元计算和其他部分词元的注意力,时间复杂度为 O ( n log ⁡ n ) O(n\log n) O(nlogn) ,因此可以减少注意力计算量 from AIGC系列-GPT3论文阅读笔记 - 知乎
    理论来源原论文:(2019 OpenAI) Generating Long Sequences with Sparse Transformers ↩︎

  3. (2018) An empirical model of large-batch training ↩︎ ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/552666.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024阿里云4核8G服务器租用优惠价格700元一年

阿里云4核8G服务器租用优惠价格700元1年&#xff0c;配置为ECS通用算力型u1实例&#xff08;ecs.u1-c1m2.xlarge&#xff09;4核8G配置、1M到3M带宽可选、ESSD Entry系统盘20G到40G可选&#xff0c;CPU采用Intel(R) Xeon(R) Platinum处理器&#xff0c;阿里云优惠 aliyunfuwuqi…

MSSQL 命令行操作说明 sql server 2022 命令行下进行配置管理

说明&#xff1a;本文的内容是因为我在导入Access2019的 *.accdb 格式的数据时&#xff0c;总是出错的背景下&#xff0c;不得已搜索和整理了一下&#xff0c;如何用命令行进行sql server 数据库和用户管理的方法&#xff0c;作为从Access2019 直接导出数据到sql server 数据库…

1997-2022年各省技术市场发展水平数据(原始数据+计算过程+计算结果)

1997-2022年各省技术市场发展水平数据&#xff08;原始数据计算过程计算结果&#xff09; 1、时间&#xff1a;2000-2022年 2、来源&#xff1a;国家统计局、统计年鉴 3、范围&#xff1a;30省 4、指标&#xff1a;技术市场成交额、国内生产总值、技术市场发展水平 5、计算…

牛仔裤哪个牌子质量好?平价高品质牛仔裤推荐

一条好的裤子&#xff0c;不仅穿着能够显瘦显高&#xff0c;同时质量也更加耐洗耐穿。但大家却极少能够选择到这些质量好的裤子。其实这都是因为目前市面上的裤子品牌实在太多&#xff0c;而且还有不少质量不够出色的品牌混杂在其中。那么要选什么品牌的裤子才好呢&#xff1f;…

iPad手绘+Ai二合一课程,Procreate+Mj+SD零基础到精通(10节视频课)

课程内容&#xff1a; 1 系统课 AI辅助设计流-从零进阶轻松驾驭AI设计,mp4 2 商务沟通阶段 ChatGPT Midjourney-聊天机器人 项目调研资料收集 ,mp4 3_商务沟通阶段 ChatGPT_Midjourney-Midjourney基础 界面初识初步设置 .mp4 4_商务沟通阶段 ChatGPT_Midjourney-Midjourney…

软件测试入门学习笔记

系统测试流程规范 一.研发模型 1.瀑布模型 从可行性研究&#xff08;或系统分析&#xff09;开始&#xff0c;需求 2.增量迭代模型 3.敏捷开发模型 二.质量模型

你觉得职场能力重要还是情商重要?

职场能力和情商都是职业成功的关键因素&#xff0c;它们在不同的情境和角色中扮演着不同的作用。很难简单地说哪一个更重要&#xff0c;因为它们通常是相辅相成的。 职场能力包括专业技能、知识水平、解决问题的能力、工作效率、创新思维等。这些能力是完成工作任务、达成职业目…

P1278 单词游戏 简单搜索+玄学优化

单词游戏 传送门 题目描述 Io 和 Ao 在玩一个单词游戏。 他们轮流说出一个仅包含元音字母的单词&#xff0c;并且后一个单词的第一个字母必须与前一个单词的最后一个字母一致。 游戏可以从任何一个单词开始。 任何单词禁止说两遍&#xff0c;游戏中只能使用给定词典中含有…

Vue2 —— 学习(七)

目录 一、TodoList 案例&#xff08;第一版&#xff09; &#xff08;一&#xff09;组件化编码流程 1.实现静态组件 2.显示动态数据 &#xff08;二&#xff09;增加元素 &#xff08;三&#xff09;多选框状态确定 &#xff08;四&#xff09;删除元素 &#xff08;五…

「 网络安全常用术语解读 」漏洞利用交换VEX详解

漏洞利用交换&#xff08;Vulnerability Exploitability eXchange&#xff0c;简称VEX&#xff09;是一个信息安全领域的标准&#xff0c;旨在提供关于软件漏洞及其潜在利用的实时信息。根据美国政府发布的用例(PDF)&#xff0c;由美国政府开发的漏洞利用交换(VEX)使供应商和用…

ARM_day8:温湿度数据采集应用

1、IIC通信过程 主机发送起始信号、主机发送8位(7位从机地址1位传送方向(0W&#xff0c;1R))、从机应答、发数据、应答、数据传输完&#xff0c;主机发送停止信号 2、起始信号和终止信号 SCL时钟线&#xff0c;SDA数据线 SCL高电平&#xff0c;SDA由高到低——起始信号 SC…

密码学 | 椭圆曲线密码学 ECC 入门(一)

目录 正文 1 公共密钥密码学的兴起 2 玩具版 RSA 算法 2.1 RSA 基本原理 2.2 RSA 举例说明 1 加密 2 解密 3 不是完美的陷门函数 ⚠️ 原文地址&#xff1a;A (Relatively Easy To Understand) Primer on Elliptic Curve Cryptography ⚠️ 写在前面&#xff1…

第3章 内存管理(1)

3.1 内存管理概念 程序放入内存才能执行【缓解CPU与硬盘速度差异大的矛盾】 3.1.1 内存管理的基本原理和要求 内存管理的主要功能&#xff1a; 1.内存分配与回收2.地址转换:逻辑地址转换成物理地址3.内存空间的扩充4.内存共享5.存储保护 ①设置上下限寄存器②采用重定位寄存器…

有条件的打破IBGP水平分割----反射规则和联邦+实验举例

背景&#xff1a;在一个AS中的设备运行了BGP协议&#xff0c;那么正常应该都连接了其他的AS&#xff0c;存在EBGP邻居关系&#xff1b;又由于IBGP的水平分割规则&#xff0c;导致从外部学习到的路由传递给本地AS时&#xff0c;需要和本地AS中运行BGP协议都要建立IBGP邻居关系&a…

C++ 一些编程问题解决 (C++ some programming error solutions)

电脑配置&#xff1a;window10, 64位操作系统&#xff0c;基于x64的处理器&#xff0c;Microsoft Visual Studio Community 2019 Version 16.4.5 问题1&#xff1a;Unhandled exception at 0x00007FFDB39AA839 in TesseractLACadd1.exe: Microsoft C exception: boost::filesy…

移动端双验证码登录实现

说明&#xff1a;本文介绍如何用图形验证码短信验证码实现移动端登录思路&#xff1b; 分析 通过手机号图形验证码手机验证码实现登录的时序图如下&#xff1a; 说明&#xff1a; &#xff08;1&#xff09;用户进入登录界面&#xff0c;出现图形验证码&#xff0c;可点击图形…

外贸人寻找客户的6大锦囊 | 进出口的贸易数据服务 | 箱讯科技

一信息特征法---培养一双善于甄别的眼 1、客户的询盘&#xff0c;每个客户在写询盘时用的语言是不一样的&#xff0c;这就构成了客户语言的特征。有的朋友可能发现有的客户英语差的太狠&#xff0c;写出来的询盘很简单很搞笑。如果你一笑而过&#xff0c;那么就太可惜了。这个…

活动的生命周期

返回栈 Android是使用任务(Task)来管理活动的&#xff0c;一个任务就是一组存放在栈里的活动的集合&#xff0c;这个栈也被称作返回栈(Back Stack )。系统总是会显示处于栈顶的活动给用户 活动状态 运行状态当一个活动位于返回栈的栈顶时&#xff0c;这时活动就处于运行状态…

音乐小程序|基于微信开发音乐小程序的系统设计与实现(源码+数据库+文档)

音乐小程序目录 基于微信开发音乐小程序的系统 一、前言 二、系统设计 三、系统功能设计 小程序端&#xff1a; 后台 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&#xff1a; 博主介绍&#xff1a;✌️大厂码农|毕设布道师…

广西建筑模板批发供应,工厂直销

随着广西地区基础设施建设的不断加速,建筑模板作为工程施工的重要辅材,其需求也在持续攀升。在众多建筑模板生产企业中,贵港市能强优品木业有限公司以其25年的丰富生产经验和卓越的产品品质,脱颖而出,成为了广西知名的建筑模板供应商。 能强优品木业公司专注于建筑模板的生产与…
最新文章