GPT-4原论文详细解读(GPT-4 Technical Report)

GPT-4原论文详细解读(GPT-4 Technical Report)

返回论文和资料目录

1.导读

相比之前的GPT-3.5等大型语言模型(这里可以看我的InstructGPT解读,也方便理解本文内容),GPT-4最大的不同在于变成了多模态,即输出不变的情况下,输入可以为图片或文本。其展现了优于ChatGPT模型并且非常强大的性能。读者可在OpenAI官网体验体验,不过网页端只提供了文本输入,图片输入的方式目前只支持API。

2.摘要和引言

GPT-4是一个多模态的大模型。它的基础结构仍然是Transformer+预测下一个词的目标函数。

GPT-4在摘要中的说法是给出了一个预测模型性能的方法,使得只需要0.1%的训练计算资源,就可以预测模型的性能了。不需要训练到最后才得到模型性能,这有助于早期就调整好模型,减少不必要的训练成本。

GPT-4这篇工作目的是增强理解生成文本的能力,尤其在复杂且存在细微差异的场景。

GPT-4使用了很多人类的考试(例如,律师资格考试)和传统的NLP任务作为测试案例。

GPT-4仍然存在之前工作中的一些问题:1.会瞎编,缺乏可靠性。2.限制25000字。3.无法从经验中学习。

3.论文结构

  • 第3节:本文的内容涉及范围
  • 第4节:预测技术(预测模型性能相关技术,使得用少数的训练就能预测模型的性能),这部分本篇博客跳过
  • 第5节:详细介绍GPT-4的能力,实验
  • 第6节:详细介绍GPT-4的局限性
  • 第7节:风险和因对方法
  • 第8节:结论
  • 参考文献
  • 附录23-98页

4.本文的内容涉及范围

  • 不会给出具体的技术细节,包括模型结构,模型大小,硬件,训练成本,数据集,训练方法。
  • 会给出一些初始的步骤和想法。

5.GPT-4的能力,实验

对于这部分实验,OpenAI在github上开源了评估框架。

模拟人类的考试

值得注意的是,这些考试的问题在模型训练的时候只会看到一部分相关的资料(例如律师考试不会有真题,但可能在训练集中有些相关法律书籍),这部分的实验展开的细节放在了附录C。这些测试的真题都来源于公开的available的材料。题目包括选择题和论述题,OpenAI对于这两种题目分别设计了prompt,这些prompt包括图片。最后这个实验考试的打分方式和人类的考试一样。这部分的实验的细节放在了附录A。

下表是实验结果,第一列是考试名称,包括律师考试、研究生入学考试、生物、化学、计算机。第2列是GPT-4(带vision输入的)、GPT-4(不带vision输入的)、GPT-3.5(应该不是ChatGPT,而是基础GPT-3.5)。分别给出了分数(例如298/400,分别是得分/总分)和排名(例如~90th,100个人超过了90%的人)。
在这里插入图片描述
下图给出了图示化展示,可以清晰看出GPT-4较不带vision和baseline的GPT3.5的差距。其中横坐标是考试名称,纵坐标是得分占总分的比。蓝色上方的绿色表示GPT-4(不带vision模块)超过GPT3.5的性能部分。如果绿色上方有深绿色,则表示GPT-4(带vision模块)超过GPT-4(不带vision模块)的性能部分。如果蓝色上方无其他(例如最后一列),则表示3者无差异。
在这里插入图片描述

传统的NLP任务

为了让GPT-4能理解实验问题什么的,OpenAI进行了适当的预处理,包括“问题翻译”和给出few-shot(细节见附录F)。
实验结果如下,第一列是案例(例如MMLU是在57个学术和专业性学科的多项选择题)。最后两列是最先进的模型(有特定任务上的微调)。
在这里插入图片描述

下图给出了不同语音对GPT-4性能的影响。

在这里插入图片描述
下图给出了GPT-4图片输入时的例子。

看了下回答,没什么问题,感觉理解了图片内容,并结合了LM中的常识,具备了一定的认知水平,很强!

在这里插入图片描述

5.GPT-4的局限性

未完待续。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/6017.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

部署大数据集群时踩过的坑 (持续更新)

大数据集群踩过的坑 前言(必看) 如果你遇到了和我一样的问题并通过搜索引擎进入这篇文章,请善用CtrlF键搜索 该自检手册仅用于自己学习使用,记录所有自己遇到的问题。如果你没有检索到你的问题,请使用Bing或Google进行搜索 该自检手册严格…

PCB生产工艺流程一:PCB分类的三大要点

PCB生产工艺流程一:PCB分类的三大要点 PCB在材料、层数、制程上的多样化以适不同的电子产品及其特殊需求。因此其种类划分比较多,以下就归纳一些通用的区别办法,来简单介绍PCB的分类以及它的制造工艺。那么我们就从它的三个方面来分析一下吧。 1、材料…

某汽车零部件企业:定期反钓鱼演练是降低企业安全风险的优选方案

客户背景 作为一家主要从事于汽车、摩托车零部件的开发、制造和销售的中日合资企业,服务的客户大多为国内汽车生产领域领先企业,旗下进出口业务较多,该汽车零部件企业需要与海外企业一直保持着电子邮件的往来,电子邮件安全十分重…

eNSP 实现VLAN间通信实验

关于本实验本实验将通过上述方法(配置Dot1q终结子接口和VLANIF接口)实现不同VLAN间的通信,其中涵盖了与这两种方法相关的原理、配置命令和验证方法。实验目的掌握配置Dot1q终结子接口的方法,实现VLAN间通信。掌握配置VLANIF接口的…

window安装Redis服务

下载地址:Releases tporadowski/redis GitHub。 Redis 支持 32 位和 64 位。这个需要根据你系统平台的实际情况选择,这里我们下载 Redis-x64-xxx.zip压缩包,解压后,将文件夹重新命名为 redis。 命令创建Redis服务 上述方式虽然…

王炸!ChatGPT这算是彻底打脸马云。。。

在2019年的世界人工智能大会上,马斯克和马云针对人工智能话题上演了一场精彩对话。马云:我不觉得AI是一种威胁,我不认为人工智能是很恐怖的东西,因为人类很聪明。马斯克:一般大家都会低估人工智能的能力,实…

便携式明渠流量计技术背景及应用

便携式明渠流量计 是一款对现有在线水监测系统中流量监测的对比装置。该便携式明渠流量计实现了比对在线系统的液位误差及流量误差。引导式的操作方式,可自动每两分钟记录一次液位数据,连续记录6次,同时可以累计测量10分钟的流量数据&#xf…

嘉立创EDA专业版PCB的DRC与生产输出

前期为了满足各项设计的要求,通常会设置很多约束规则,当一个PCB设计完成之后,通常要进行DRC。DRC就是检查设计是否满足所设置的规则。一个完整的PCB设计必须经过各项连接性规则检查,常见的检查包括开路及短路的检查,更…

数据库管理-第六十四期 试玩Oracle 23c免费开发者版(20230404)

数据库管理 2023-04-24第六十四期 试玩Oracle 23c免费开发者版1 环境2 操作系统配置3 安装数据库4 配置并启动数据库5 访问数据库总结第六十四期 试玩Oracle 23c免费开发者版 四月第一篇文章,今天正好Oracle放出了Oracle Database 23c Free - Developer Release&am…

Python 自动化指南(繁琐工作自动化)第二版:十六、使用 CSV 文件和 JSON 数据

原文:https://automatetheboringstuff.com/2e/chapter16/ 在第 15 章,你学习了如何从 PDF 和 Word 文档中提取文本。这些文件是二进制格式的,需要特殊的 Python 模块来访问它们的数据。另一方面,CSV 和 JSON 文件只是纯文本文件。…

Linux下C/C++ redis协议(RESP)解析

Redis是一个开源的内存键值数据存储,最常用作主数据库、缓存、消息代理和队列。Redis提供了亚毫秒的响应时间,在游戏、金融科技、广告技术、社交媒体、医疗保健和物联网等行业实现了快速而强大的实时应用。 Redis连续五年成为开发人员最喜爱的数据库。开…

从小到大排序-课后程序(JavaScript前端开发案例教程-黑马程序员编著-第4章-课后作业)

【案例4-1】 从小到大排序 一、案例描述 考核知识点 函数的定义与调用,参数传递 练习目标 掌握函数的定义与调用。掌握for循环数据处理逻辑 需求分析 给出一组数据,要求按照从小到大进行排序。 案例分析 效果如图4-1所示。从小到大排序 具体实现步骤…

Final Cut Pro for Mac(中文fcpx视频剪辑)

Final Cut Pro for Mac是一款专业的视频剪辑软件,由苹果公司开发并发布。Final Cut Pro for Mac v10.6.5中文版是最新版本,支持中文界面,为用户提供了更加便捷的操作体验。 使用Final Cut Pro for Mac,用户可以轻松地进行视频编辑…

哈希表(如何打造一个工业级的哈希表)

目录 哈希思想 哈希函数 哈希冲突 1.开放寻址法 2、链表法 解决装载因子过大的问题 选择合适的哈希冲突解决方法 哈希思想 哈希表(hashtable)是数组的一一种扩展,由数组演化而来,底层依赖数组支持按下标快速 访问元素的特性。换句话说,…

HTTP协议详解(二)

目录 1.HTTP 响应详解 1.1认识状态码(status code) 1.2 认识响应报头(header) 1.3 认识响应正文(body) 2.构造 HTTP 请求 2.1 通过form表单构造请求 2.2 通过ajax构造请求 2.3 使用第三方工具构造请求 开始之前我们先复习一下http协议格式 1.HTTP 响应详解 我们先抓包…

ChatGPT中文方式写作-chatgpt中文生成

ChatGPT是一种强大的自然语言处理技术,可以帮助人们进行各种语言任务,包括机器翻译、问答系统、自然语言生成等。在中文辅助写作上,ChatGPT也很有用武之地,下面我们将就如何通过ChatGPT实现中文辅助写作,提高文章质量和…

C语言预处理指令-宏定义、文件包含、条件编译

预处理指令简介 1.C语言在对源程序进行编译之前,会先对一些特殊的预处理指令作解释(比如之前使用的#include文件包含指令),产生一个新的源程序(这个过程称为编译预处理),之后再进行通常的编译 2.为了区分预处理指令和一般的C语句,所有预处理…

计算机科班与培训开发编程的区别在哪里?

科班、培训班、科班培训班的模式都培养了很多编程技术人员进入IT行业,有的成为某个技术领域的专家,有的成为领导层,有的一直在默默无闻的敲代码等待35岁的到来。不管那种方式入行,这些类似的情况都存在,并且未来还会一…

全链路监控:方案概述

问题背景 随着微服务架构的流行,服务按照不同的维度进行拆分,一次请求往往需要涉及到多个服务。互联网应用构建在不同的软件模块集上,这些软件模块,有可能是由不同的团队开发、可能使用不同的编程语言来实现、有可能布在了几千台…

java版工程项目管理系统-功能清单 图文解析

ava版工程项目管理系统 Spring CloudSpring BootMybatisVueElementUI前后端分离 功能清单如下: 首页 工作台:待办工作、消息通知、预警信息,点击可进入相应的列表 项目进度图表:选择(总体或单个)项目显示1…
最新文章