ChatGPT相关技术必读论文100篇(2.27日起,几乎每天更新)

按上篇文章《ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT-N、instructGPT》的最后所述

为了写本ChatGPT笔记,过去两个月翻了大量中英文资料/paper(中间一度花了大量时间去深入RL),大部分时间读的更多是中文资料


2月最后几天读的更多是英文paper,正是2月底这最后几天对ChatGPT背后技术原理的研究才真正进入状态(后还组建了一个“ChatGPT之100篇论文阅读组”,我和10来位博士、业界大佬从23年2.27日起100天读完ChatGPT相关技术的100篇论文),当然 还在不断深入,由此而感慨: 

  1. 读的论文越多,你会发现大部分人对ChatGPT的技术解读都是不够准确或全面的,毕竟很多人没有那个工作需要或研究需要,去深入了解各种细节
  2. 因为100天100篇这个任务,让自己有史以来一篇一篇一行一行读100篇,​之前看的比较散 不系统 抠的也不细
    比如回顾“Attention is all you need”这篇后,对优化博客内的Transformer笔记便有了很多心得

总之,读的论文越多,博客内相关笔记的质量将飞速提升 自己的技术研究能力也能有巨大飞跃

且考虑到为避免上篇文章篇幅太长而影响完读率,故把这100论文的清单抽取出来独立成本文

  1. Attention Is All You Need,Transformer原始论文
  2. GPT:Improving Language Understanding by Generative Pre-Training
    GPT2:Language Models are Unsupervised Multitask Learners
  3. GPT3原始论文:Language Models are Few-Shot Learners
  4. ICL原始论文
  5. Evaluating Large Language Models Trained on Code,Codex原始论文
    预测当前序列的最后一个词时 可以选取概率最大的词(softmax最高的值),但没法全局最优且不具备多样性,当然 可以使用束搜索 一次性获取多个解
    论文中用的是核采样,预测的各个词根据概率从大到小排序,选取前些个概率加起来为95%的词
  6. CoT原始论文:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
    28 Jan 2022 · Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou
    也从侧面印证,instructGPT从22年1月份之前 就开始迭代了
  7. Training language models to follow instructions with human feedback
    InstructGPT原始论文

  8. RLHF原始论文
  9. PPO原始论文
  10. 《Finetuned Language Models Are Zero-Shot Learners》,2021年9月Google提出FLAN大模型,其基于Instruction Fine-Tuning
    FLAN is the instruction-tuned version of LaMDA-PT
  11. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer,Google T5模型,这是解读之一

    GLM: General Language Model Pretraining with Autoregressive Blank Infilling,国内唐杰团队的
  12. Scaling Instruction-Finetuned Language Models,Flan-T5(2022年10月)
    从三个方面改变指令微调,一是改变模型参数,提升到了540B,二是增加到了1836个微调任务,三是加上Chain of thought微调的数据
  13. LLaMA: Open and Efficient Foundation Language Models,2023年2月Meta发布了全新的650亿参数大语言模型LLaMA,开源,大部分任务的效果好于2020年的GPT-3
    这是针对该论文的解读之一
  14. Language Is Not All You Need: Aligning Perception with Language Models,微软23年3月1日发布的多模态大语言模型Kosmos-1的论文

  15. A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT:https://arxiv.org/pdf/2302.09419,预训练基础模型的演变史
  16. LaMDA: Language Models for Dialog Applications,Google在21年5月对外宣布内部正在研发对话模型LaMDA
  17. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
  18. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing,作者来自CMU的刘鹏飞,这是相关资源

    另一篇类似的,Pre-Trained Models: Past, Present and Future
  19. Multimodal Chain-of-Thought Reasoning in Language Models
    23年2月,亚马逊的研究者则在这篇论文里提出了基于多模态思维链技术改进语言模型复杂推理能力的思想
  20. Offsite-Tuning: Transfer Learning without Full Model
    对于许多的私有基础模型,数据所有者必须与模型所有者分享他们的数据以微调模型,这是非常昂贵的,并引起了隐私问题(双向的,一个怕泄露模型,一个怕泄露数据)
  21. Emergent Abilities of Large Language Models
    Google 22年8月份发的,探讨大语言模型的涌现能力

  22. Large Language Models are Zero-Shot Reasoners
    来自东京大学和谷歌的工作,关于预训练大型语言模型的推理能力的探究,“Let's think step by step”的梗即来源于此篇论文
  23. PaLM: Scaling Language Modeling with Pathways,5400亿参数(即540B),这是翻译之一
    22年4月发布,是Google的Pathways架构或openAI GPT2/3提出的小样本学习的进一步扩展
  24. PaLM-E: An Embodied Multimodal Language Model,Google于23年3月6日发布的关于多模态LLM
  25. Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models,微软于23年3月8日推出visual ChatGPT(另,3.9日微软德国CTO说,将提供多模态能力的GPT4即将一周后发布)
    At the same time, Visual Foundation Models, such as Visual Transformers or Stable Diffusion, although showing great visual understanding and generation capabilities, they are only experts on specific tasks with one round fixed inputs and outputs. 

    To this end, We build a system called {Visual ChatGPT}, incorporating different Visual Foundation Models, to enable the user to interact with ChatGPT by 
    1) sending and receiving not only languages but also images 
    2) providing complex visual questions or visual editing instructions that require the collaboration of multiple AI models with multi-steps. 
    3) providing feedback and asking for corrected results. 

    We design a series of prompts to inject the visual model information into ChatGPT, considering models of multiple inputs/outputs and models that require visual feedback
  26. 《The Natural Language Decathlon:Multitask Learning as Question Answering》,GPT-1、GPT-2论文的引用文献,Salesforce发表的一篇文章,写出了多任务单模型的根本思想
  27. Deep Residual Learning for Image Recognition,ResNet论文,短短9页,Google学术被引现15万多
    这是李沐针对ResNet的解读,另 这是李沐针对一些paper的解读列表
  28. The Flan Collection: Designing Data and Methods for Effective Instruction Tuning

  29. AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
    Transformer杀入CV界
  30. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
    Swin Transformer V2: Scaling Up Capacity and Resolution
    第一篇的解读戳这,第二篇的解读戳这里
  31. Auto-Encoding Variational Bayes,苏剑林关于VAE的解读之一
    WGAN
  32. Denoising Diffusion Probabilistic Models,2020年提出Diffusion Models(所谓diffusion就是去噪点的意思)
    这里有一份不错的解读:What are Diffusion Models?(该解读的中文笔记)
  33. CLIP: Connecting Text and Images - OpenAI
    CLIP由OpenAI在2021年1月发布,超大规模模型预训练提取视觉特征,图片和文本之间的对比学习(简单粗暴理解就是发微博/朋友圈时,人喜欢发一段文字然后再配一张或几张图,CLIP便是学习这种对应关系)

    2021年10月,Accomplice发布的disco diffusion,便是第一个结合CLIP模型和diffusion模型的AI开源绘画工具,其内核便是采用的CLIP引导扩散模型(CLIP-Guided diffusion model)
  34. Hierarchical Text-Conditional Image Generation with CLIP Latents
    DALL.E 2论文2022年4月发布(至于第一代发布于2021年初),通过CLIP + Diffusion models,达到文本生成图像新高度
  35. High-Resolution Image Synthesis with Latent Diffusion Models

    2022年8月发布的Stable Diffusion基于Latent Diffusion Models,专门用于文图生成任务
    这些是相关解读:图解stable diffusion(翻译版之一)、这是另一解读,这里有篇AI绘画发展史的总结

    Stable Diffusion和之前的Diffusion扩散化模型相比, 重点是做了一件事, 那就是把模型的计算空间,从像素空间经过数学变换,在尽可能保留细节信息的情况下降维到一个称之为潜空间(Latent Space)的低维空间里,然后再进行繁重的模型训练和图像生成计算

  36. Aligning Text-to-Image Models using Human Feedback,这是解读之一
    ChatGPT的主要成功要归结于采用RLHF来精调LLM,近日谷歌AI团队将类似的思路用于文生图大模型:基于人类反馈(Human Feedback)来精调Stable Diffusion模型来提升生成效果
    目前的文生图模型虽然已经能够取得比较好的图像生成效果,但是很多时候往往难以生成与输入文本精确匹配的图像,特别是在组合图像生成方面。为此,谷歌最新的论文提出了基于人类反馈的三步精调方法来改善这个问题
  37. SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions,代码地址
    3月中旬,斯坦福发布Alpaca:只花100美元,人人都可微调Meta家70亿参数的LLaMA大模型
    而斯坦福团队微调LLaMA的方法,便是来自华盛顿大学Yizhong Wang等去年底提出的这个Self-Instruct

    具体而言,论文中提出,首先从自生成指令种子集中的175个人工编写的「指令-输出」对开始,然后,提示text-davinci-003使用种子集作为上下文示例来生成更多指令
    而斯坦福版Alpaca,就是花了不到500美元使用OpenAI API生成了5.2万个这样的示例微调LLaMA搞出来的

  38.  Constitutional AI: Harmlessness from AI Feedback
    OpenAI之前一副总裁离职搞了个ChatGPT的竞品,ChatGPT用人类偏好训练RM再RL(即RLHF),Claude则基于AI偏好模型训练RM再RL(即RLAIF)

  39.  Improving alignment of dialogue agents via targeted human judgements
    DeepMind的Sparrow,这个工作发表时间稍晚于instructGPT,其大致的技术思路和框架与 instructGPT 的三阶段基本类似,但Sparrow 中把奖励模型分为两个不同 RM 的思路

  40. Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers代码地址,这篇文章则将ICL看作是一种隐式的Fine-tuning

  41. WHAT LEARNING ALGORITHM IS IN-CONTEXT LEARNING? INVESTIGATIONS WITH LINEAR MODELS

  42. Meta-learning via Language Model In-context Tuning
  43. Large language models are zero-shot reasoners. arXiv preprint arXiv:2205.11916, 2022
  44. Transformer-XL: Attentive language models beyond a fixed-length context
  45. Tensor programs v: Tuning large neural networks via zero-shot hyperparameter transfer. arXiv preprint arXiv:2203.03466, 2022
  46. Opt: Open pre-trained transformer language models. arXiv preprint arXiv:2205.01068, 2022
  47. Language models are unsupervised multitask learners. 2019
  48. Improving language understanding by generative pre-training. 2018
  49. Scaling instruction-finetuned language models. arXiv preprint arXiv:2210.11416, 2022

  50. flamingo

  51. // 23年2.27日起,本榜单几乎每天更新中

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/466.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

理清gcc、g++、libc、glibc、libstdc++的关系

0 理清gcc、g++、libc、glibc、libstdc++的关系 0.1 $ dpkg -L libc6 $ dpkg -L libc6 /lib/x86_64-linux-gnu /lib/x86_64-linux-gnu/ld-2.31.so /lib/x86_64-linux-gnu/libBrokenLocale-2.31.so /lib/x86_64-linux-gnu/libSegFault.so /lib/x86_64-linux-gnu/libanl-2.31.s…

Java NIO Buffer

Buffer是一块内存,主要用在NIO Channel,比如FileChannel,SocketChannel。 对Channel的读写都是直接操作Buffer对象。 Buffer是一个工具类,提供了操作这个内存块的方法。 Buffer的实现主要有以下几种: Buffer的类型: …

我一个普通程序员,光靠GitHub打赏就年入70万,

一个国外程序员名叫 Caleb Porzio在网上公开了自己用GitHub打赏年入70万的消息和具体做法。 Caleb Porzio 发推庆祝自己靠 GitHub 打赏(GitHub Sponsors)赚到了 10 万美元。 GitHub Sponsors是 GitHub 2019 年 5 月份推出的一个功能,允许开发…

ConvMixer:Patches Are All You Need

Patches Are All You Need 发表时间:[Submitted on 24 Jan 2022]; 发表期刊/会议:Computer Vision and Pattern Recognition; 论文地址:https://arxiv.org/abs/2201.09792; 代码地址:https:…

Redis 主从库如何实现数据一致?

目录 1、主从库间如何进行第一次同步? 2、主从级联模式分担全量复制时的主库压力 3、主从库间网络断了怎么办? 总结 // 好的文章,值得反复去读 Redis 具有高可靠性,这里有两层含义:一是数据尽量少丢失,…

【Copula】基于二元Frank-Copula函数的风光出力场景生成方法【考虑风光出力的不确定性和相关性】(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

SpringBoot:SpringBoot 的底层运行原理解析

声明原文出处:狂神说 文章目录1. pom.xml1 . 父依赖2 . 启动器 spring-boot-starter2. 主启动类的注解1. 默认的主启动类2. SpringBootApplication3. ComponentScan4. SpringBootConfiguration5. SpringBootApplication 注解6. spring.factories7. 结论8. 简单图解3…

【Python】如何使用Pandas进行数据可视化?

如何使用Pandas进行数据可视化?1. 如何创建简单图?1.1 创建线型图1.2 绘制直方图1.3 绘制条形图1.4 绘制饼图1.5 绘制散点图2. Plot方法有哪些?3. 如何定制图表的样式和颜色?4. 如何同时对多个DataFrame绘图?5. 总结参…

K8s运维-高级网络策略介绍

1什么是NetworkPolicy?如果你希望在 IP 地址或端口层面(OSI 第 3 层或第 4 层)控制网络流量, 则你可以考虑为集群中特定应用使用 Kubernetes 网络策略(NetworkPolicy)。NetworkPolicy 是一种以应用为中心的…

【1615. 最大网络秩】

来源:力扣(LeetCode) 描述: n 座城市和一些连接这些城市的道路 roads 共同组成一个基础设施网络。每个 roads[i] [ai, bi] 都表示在城市 ai 和 bi 之间有一条双向道路。 两座不同城市构成的 城市对 的 网络秩 定义为&#xff…

从0到1构建springboot web应用镜像并使用容器部署

文章目录一、生成镜像的两种方法1.1、使用commit生成镜像1.1.1、拉取Centos基础镜像1.1.2、启动Centos容器并安装Go1.1.3、commit生成新镜像1.1.4、使用新镜像验证Golang环境1.2、使用Dockerfile生成镜像二、基于Dockerfile生成一个springboot镜像2.1、准备springboot应用jar包…

python自动化办公(一)

本文代码参考其他教程书籍实现。 文章目录文件读写open函数读取文本文件写入文本文件文件和目录操作使用os库使用shutil库文件读写 open函数 open函数有8个参数,常用前4个,除了file参数外,其他参数都有默认值。file指定了要打开的文件名称&a…

FreeRTOS系列第1篇---为什么选择FreeRTOS?

1.为什么学习RTOS? 作为基于ARM7、Cortex-M3硬件开发的嵌入式工程师,我一直反对使用RTOS。不仅因为不恰当的使用RTOS会给项目带来额外的稳定性风险,更重要的是我认为绝大多数基于ARM7、Cortex-M3硬件的项目,还没复杂到使用RTOS的地…

【华为机试真题详解 Python实现】最差产品奖【2023 Q1 | 100分】

文章目录 前言题目描述输入描述输出描述示例 1题目解析参考代码前言 《华为机试真题详解》专栏含牛客网华为专栏、华为面经试题、华为OD机试真题。 如果您在准备华为的面试,期间有想了解的可以私信我,我会尽可能帮您解答,也可以给您一些建议! 本文解法非最优解(即非性能…

SpringBoot和Spring AOP默认动态代理方式

SpringBoot和Spring AOP默认动态代理方式 目录SpringBoot和Spring AOP默认动态代理方式1. springboot 2.x 及以上版本2. Springboot 1.x3.SpringBoot 2.x 为何默认使用 CglibSpring 5.x中AOP默认依旧使用JDK动态代理SpringBoot 2.x开始,AOP为了解决使用JDK动态代理可…

做技术,最忌讳东张西望

又好长时间没更新,研二了,忙着做实验、写论文、发论文,再加上给我导做一些事情(都习惯了,以前很不爽的事情,现在居然能这么平静的说出来)。 但这不是我今天说的重点,而是另外一件事…

【开发工具】idea配置全局变量Jdk、maven仓库、maven(全文图解)

文章目录IDEA配置JDK1、点击File -->Project Structure;2、点击左侧标签页SDKs选项,再点击左上角“”,选择JDK;3、在弹出框选择JDK安装路径,点击OK即可配置成功。配置maven仓库(阿里云)1、配…

素材要VIP咋整?看python大展神通

前言 嗨喽~大家好呀,这里是魔王呐 ❤ ~! 再我们缺少素材的时候,我们第一反应 我们肯定会去网上寻找,但是!! 有的素材需要VIP!这可咋整呢? 看我利用python大展神通,采集某图网图片…

面试官:关于CPU你了解多少?

CPU是如何执行程序的? 程序执行的基本过程 第一步,CPU 读取「程序计数器」的值,这个值是指令的内存地址,然后 CPU 的「控制单元」操作「地址总线」指定需要访问的内存地址,接着通知内存设备准备数据,数据准…

Altium Designer(AD)软件使用记录11-PCB布线部分之走线

目录Altium Designer(AD)软件使用记录11-PCB布线部分之走线核心-SDRAM-FLASH 模块走线BGA 滤波电容放置处理其他杂线走线清理Altium Designer(AD)软件使用记录11-PCB布线部分之走线 核心-SDRAM-FLASH 模块走线 走线总结: 走线从核心器件部分,线路密度最…
最新文章