2023年排行前五的大规模语言模型(LLM)

2023年排行前五的大规模语言模型(LLM)

截至2023年,人工智能正在风靡全球。它已经成为热门的讨论话题,吸引了数百万人的关注,不仅限于技术专家和研究人员,还包括来自不同背景的个人。人们对人工智能热情高涨的原因之一是其在人类多年来处理的各种形式的领域中所具备的能力,其中包括语言。语言是人类生活的一个组成部分,它帮助我们交流,理解我们周围的事物,甚至帮助我们思考。但是,如今人工智能已经更有能力处理与人类水平甚至高于人类水平的语言。这是由于自然语言处理(NLP)和大型语言模型(LLMs)的进步,ChatGPT的背后就是其中之一,这是总部位于旧金山的初创公司OpenAI的伟大创举。但是,OpenAI成为成功将其LLM技术推向公众的公司之一。有许多大型和小型公司构建了许多此类类型的大型语言模型。在本文中,我们将概述大型语言模型以及世界上一些先进的LLM,准确地说,我们将讨论其中的5个。需要注意的是,这些LLM的列表是通过各种来源的研究编制的,并不是基于排名的。

大型语言模型的精髓

近年来,自然语言处理(NLP)因计算机能够存储和处理大量自然文本数据的能力而受到迅猛发展。NLP的应用可以在我们使用了几十年的各种技术中看到,如语音识别、聊天机器人等。自从机器学习出现以来,科学家们开始将NLP与最先进的机器学习技术相结合,以更高效地处理文本。但是,最近NLP由于强大的大型语言模型(LLMs)的出现而变得更加流行。

那么什么是大型语言模型,为什么它们如此强大?语言模型基本上是一种特殊类型的机器学习模型,可以高效地学习、理解和处理人类语言。通过从包含文本的数据集中学习,语言模型可以高度准确地预测下一个词或句子。但是,当它们变得更大时,它们变得更加有趣和特殊。LLMs在非常大的文本数据集(数百万或数十亿的文本数据)上进行了训练,并且需要大量的计算能力。比较之下,如果说语言模型就像花园,那么大型语言模型就像是茂密的森林。

LLMs如何工作?

正如我们所说,LLMs是机器学习模型,它们可以通过文本做很多事情,例如将一种语言翻译成另一种语言,生成语言,回答问题等。但是它们是如何做到的呢?建立LLMs的可能性来自Google研究人员提出的一种特殊类型的神经网络架构,称为Transformer。

Transformer是一种专门用于在文本数据中执行魔术的神经网络类型。它们非常适合有效地进行扩展,并且可以在非常大的文本语料库上进行训练,甚至是数十亿甚至数万亿的文本!此外,与其他类型的神经网络(如循环神经网络)相比,变压器可以更快地进行训练。更有趣的是,Transformer可以并行训练,这意味着可以同时利用多个计算资源(例如CPU或GPU)来加速学习过程,而RNN只能顺序处理数据。

变压器模型的另一个有趣的特点是自我注意技术。这种机制使得变压器能够学习语言的潜在含义,而不仅仅是逐个产生随机相关的文本。由于具备了这种能力,今天的语言模型不仅仅是逐个输出文本,而且它们通过提供大量的文本数据来学习语言的实际含义(就像人类一样),包括语法、语义和上下文。

Google开发的Transformer模型的发明在人工智能和自然语言处理(NLP)领域取得了重大的成就。借助这种Transformer模型,许多大型、小型甚至初创公司正在构建LLMs,并将其用于不同的目的,如技术聊天支持、语音助手、内容生成、聊天机器人等等。我们无法讨论当今存在的每个LLMs,因为它们有很多。因此,现在,让我们讨论2023年世界上存在的最先进的5个LLMs,这些LLMs如下:

1、GPT-4(OpenAI)

在这里插入图片描述

GPT-4,全称为Generative Pre-trained Transformer-4,是OpenAI最先进且高度复杂的大型语言模型。它是继成功推出搭载GPT-3.5的ChatGPT后于2023年3月14日发布的第四代语言模型。它配备了一流的推理和创造能力,超越了人们的想象。GPT-4是一个庞大的神经网络,包含着惊人的1万亿参数,并在包含来自各种编程语言的代码在内的大型文本数据集上进行了训练。此外,GPT-4不仅精通文本处理,还展现出处理视觉数据(包括图像)的能力。凭借其从文本和视觉输入中理解和生成内容的能力,可以认为GPT-4是一种强大的多模态人工智能,连接了语言和视觉领域。

GPT-4的另一个有趣功能是它可以在单个请求中处理的数据量。OpenAI的前任语言模型可以在单个请求中处理多达3000个标记,但GPT-4可以在一个请求中处理多达25000个标记。这非常大,您实际上可以要求GPT-4在一次操作中对整个10页PDF进行摘要。

更有趣的是,OpenAI的科学家和研究人员表示,GPT-4具有人工通用智能(AGI)的一瞥,而许多科学家认为在未来40或50年内可能不太可能实现。然而,根据OpenAI的博客文章,GPT-4并不是一个完美的系统,它可能会出现幻觉和错误的回答。

2、GPT-3(OpenAI)

在这里插入图片描述

GPT-3,全称为Generative Pre-trained Transformer 3,是另一个基于Transformer的令人印象深刻的语言模型,于2020年6月11日由OpenAI推出,在2023年仍然是市场上最先进的LLMs之一。它使用先进的深度学习技术,如Transformer和注意机制,来处理和生成与人类编写的文本难以区分的文本。

从本质上讲,GPT-3非常庞大,大约有1750亿个参数,使用先进的自然语言处理(NLP),并在包含维基百科、WebText2、书籍、文章和代码等各种来源的数千兆字节的文本数据集上进行了训练。这种复杂性使得GPT-3在语言处理方面具有卓越的能力,包括文本生成、语言翻译和问题回答。此外,GPT-3在GitHub的大部分内容上进行了广泛的训练,使其在各种编程语言和概念的广泛范围内都具备了专业知识。

在GPT-3取得成功后,该公司再次推出了GPT-3的增强版本,称为GPT-3.5,它正在驱动ChatGPT。

3、Gopher(DeepMind)

在这里插入图片描述

Gopher是由Google DeepMind开发的AI语言模型,专门针对阅读理解、事实核查、理解有毒语言以及逻辑和常识任务等任务进行了训练。

DeepMind的研究人员开发了一系列的语言模型,从4400万参数到2800亿参数,这些模型在来自各种来源的大量文本上进行了训练。在这些语言模型中,2800亿参数的模型在语言理解和生成方面表现出更强的能力,他们称之为Gopher。在他们的研究中,他们发现Gopher在各种任务中超越了现有的语言模型,并达到了人类水平的专业水平,包括大规模多任务语言理解(MMLU),这是用于衡量大型语言模型理解和回应各种语言任务能力的新基准。这项研究表明,与其他语言模型(包括GPT-3)相比,Gopher在数学、科学、技术、人文学科和医学等领域表现出色。

Gopher的设计目标是在基于对话的互动中表现出色,从而使其能够通过聊天式的回应来解释甚至复杂的主题。如果您访问他们的公司博客,您可以看到Gopher以非常简单的术语解释细胞生物学的例子。

4、PaLM(Google)

在这里插入图片描述

PaLM,全称为Pathways Language Model,是Google的一种先进的语言模型,旨在在单一模型内概括多个领域。它使用Pathways架构更好地理解语言,并消除了现有语言模型(如特定领域性、单一性等)的一些局限性。Pathways是一种相对较新且在Google进行的研究中不断改进的神经网络架构。Pathways使得AI系统能够在多个领域中表现出色,而不仅仅是专注于一组单一的任务。它还使得AI模型成为多模态的,这意味着它们可以同时处理和理解来自不同模态(如文本、图像和音频)的信息。

PaLM是一个基于Transformer的语言模型,具有5400亿个参数,它在语言理解、问题回答、算术、代码、语言翻译、逻辑推理、对话等各个领域表现出卓越的性能。更有趣的是,Google的研究人员将其PaLM模型整合到了一个真实世界的机器人中,通过添加传感信息和机器人手势和控制。这个机器人可以通过其PaLM大脑执行各种任务,包括进行与人类的有意义对话、理解并响应口头指令、自主导航、使用机器臂操纵物体以及执行各种现实世界的任务。

PaLM是Google正在积极追求的研究领域之一,该公司正在开发新的、高性能的PaLM版本。事实上,他们最近推出了PaLM-2,该模型具有令人印象深刻的推理、编码和多语言能力。

5、LaMDA(Google)

在这里插入图片描述

LaMDA,全称为Language Model for Dialogue Applications,是Google于2020年早期进行的研究中开发的另一种语言模型。与其他语言模型不同,LaMDA主要在基于对话的文本上进行训练,这对于对话非常有利。由于在对话中进行了训练,LaMDA在进行人类水平有意义的对话方面表现出了异常的技能。LaMDA的这种能力非常出色,Google的一位前员工甚至认为LaMDA是有思想的。

LaMDA基于先进的NLP技术,采用了基于Transformer的神经网络模型。根据Google的研究人员表示,将基于Transformer的模型与对话相结合,有可能使大型语言模型更擅长进行人类水平的对话,甚至最终可以学会谈论几乎任何事情。此外,在大量对话文本中进行训练后,可以使用强化学习对LaMDA进行微调,使其在基于对话的任务中更难以区分出AI。

在2023年2月,Google将其最新版本的LaMDA集成到了名为Bard的聊天机器人中,该机器人现在在全球范围内可用。然而,Google表示,他们已经将Bard背后的技术从LaMDA替换为PaLM-2。

其他值得一提的提名

LLaMA(Meta AI):LLaMA(Large Language Model Meta AI)是由Meta(前Facebook)开发的一系列开源LLMs。其中,LLaMA 1于2023年2月发布,被认为是最佳的开源语言模型之一,可用于各种NLP任务,而无需支付任何费用,除非您可能需要在家中运行GPU。LLaMA 1的第一个版本包括7、13、33和65亿个参数模型。其中,Meta的研究人员发现,13亿个参数的模型在大多数NLP任务中表现比GPT-3(1750亿)更好。65亿模型的表现更佳,可能与Google的PaLM模型竞争。

Claude(Anthropic):Claude是由Anthropic开发的一种类似于GPT-3的大型语言模型。与其他LLMs不同,Claude的训练数据集主要由人类作者手动创建的,而不是自动收集的数据。这使得Claude能够更好地理解并生成高质量的文本。此外,Anthropic表示Claude不是一个通用的大型语言模型,而是一个以人类作为参考的模型,其目标是在编写时提供帮助和指导,而不仅仅是生成文本。

总结

在人工智能迅速发展的今天,大型语言模型(LLMs)已经成为人们热议的话题。它们在自然语言处理(NLP)领域取得了巨大的成功,并且已经广泛用于各种应用,从文本生成到问题回答,再到对话式AI。我们看到了许多公司不断推出越来越强大的LLMs,这些模型在语言理解和生成方面超越了以前的记录。在2023年,像GPT-4、GPT-3、Gopher、PaLM和LaMDA等最先进的LLMs展示了人工智能在理解和处理人类语言方面的显著进展。不过,这些模型仍然面临挑战,如幻觉、错误回答等,但它们仍然为科研、商业和创新提供了巨大的机会。随着技术不断演进,LLMs可能会在更多领域带来创新,为人类生活带来积极的影响。

博文参考:
https://www.pycodemates.com/2023/06/large-language-models-overview-and-types-of-llm.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/76866.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

机器学习、cv、nlp的一些前置知识

为节省篇幅,不标注文章来源和文章的问题场景。大部分是我的通俗理解。 文章目录 向量关于向量的偏导数:雅可比矩阵二阶导数矩阵:海森矩阵随机变量随机场伽马函数beta分布数学术语坐标上升法协方差训练集,验证集,测试集…

Kafka 入门到起飞 - 什么是 HW 和 LEO?何时更新HW和LEO呢?

上文我们已经学到, 一个Topic(主题)会有多个Partition(分区)为了保证高可用,每个分区有多个Replication(副本)副本分为Leader 和 Follower 两个角色,Follower 从Leader同…

对话 4EVERLAND:Web3 是云计算的新基建吗?

在传统云计算的发展过程中,数据存储与计算的中心化问题,对用户来说一直存在着潜在的安全与隐私风险——例如单点故障可能会导致网络瘫痪和数据泄露等危险。同时,随着越来越多 Web3 项目应用的落地,对于数据云计算的性能要求也越来…

Postman如何做接口测试:什么?postman 还可以做压力测试?

我们都知道, postman 是一款很好用的接口测试工具。不过 postman 还可以做简单的压力测试,而且步骤只需要 2 步。 首先,打开 postman, 编写接口的请求参数。 然后,点击右下方的 runner 运行器,把需要测试的接口拖动到…

Python进阶系列(一)——异常处理

异常处理 在程序中,如果出现异常,我们需要捕捉异常,终止程序(可能的话),并且提示错误信息。 写好异常处理,对于debug有很大的好处,可以帮助我们捕捉到错误所在的位置,以…

Python 3 使用HBase 总结

HBase 简介和安装 请参考文章:HBase 一文读懂 Python3 HBase API HBase 前期准备 1 安装happybase库操作hbase 安装该库 pip install happybase2 确保 Hadoop 和 Zookeeper 可用并开启 确保Hadoop 正常运行 确保Zookeeper 正常运行3 开启HBase thrift服务 使用命…

jenkins一键部署github项目

个人目前理解jenkins部署分为两步: 构建项目,如生成jar自动执行sh脚本 如果没有jenkins,我们可能需要将jar移动到服务器,然后执行java -jar跑程序,jenkins可以替代我们执行这些东西,下面从0开始&#xff0…

JavaEE初阶:多线程 - Thread 类的基本用法

上次我们了解了多线程的五种创建方法,今天来学习Thread的基本用法。 目录 run和start Thread常见的构造方法 Thread的几个常见属性 后台线程 是否存活 线程终止 1.使用标志位 2.使用Thread自带的标志 等待线程 run和start 首先需要理解Thread的run和star…

消息中间件 —— 初识Kafka

文章目录 1、Kafka简介1.1、消息队列1.1.1、为什么要有消息队列?1.1.2、消息队列1.1.3、消息队列的分类1.1.4、p2p 和 发布订阅MQ的比较1.1.5、消息系统的使用场景1.1.6、常见的消息系统 1.2、Kafka简介1.2.1、简介1.2.2、设计目标1.2.3、kafka核心的概念 2、Kafka的…

【RabbitMQ】消息队列-RabbitMQ篇章

文章目录 1、RabbitMQ是什么2、Dokcer安装RabbitMQ2.1安装Dokcer2.2安装rabbitmq 3、RabbitMQ入门案例 - Simple 简单模式4、RabbitMQ的核心组成部分4.1 RabbitMQ整体架构4.2RabbitMQ的运行流程 5、RabbitMQ的模式5.1 发布订阅模式--fanout 1、RabbitMQ是什么 RabbitMQ是一个开…

快速通过华为HCIP认证

你可以按照以下步骤进行准备和学习: 华为认证课程和资料--提取码:1234https://pan.baidu.com/s/1YJhD8QbocHhZ30MvrKm8hg 了解认证要求:查看华为官方网站上的HCIP认证要求和考试大纲,了解考试的内容、考试形式和考试要求。 学习相关知识&am…

Spark第二课RDD的详解

1.前言 RDD JAVA中的IO 1.小知识点穿插 1. 装饰者设计模式 装饰者设计模式:本身功能不变,扩展功能. 举例: 数据流的读取 一层一层的包装,进而将功能进行进一步的扩展 2.sleep和wait的区别 本质区别是字体不一样,sleep斜体,wait正常 斜体是静态方法…

电脑键盘打不了字按哪个键恢复?最新分享!

“有没有朋友知道电脑键盘为什么会莫名其妙就打不了字?明明用得好好的,突然就打不了字了,真的让人很迷惑!有什么方法可以解决吗?” 电脑键盘为我们的办公提供了很大的方便,我们可以利用键盘输入我们需要的文…

第六阶|见道明心的笔墨(上)从书法之美到生活之美——林曦老师的线上直播书法课

如果你有需要,可以找我的,我这边有老师的所有课程 如果你有需要,可以找我的,我这边有老师的所有课程

【Python】Web学习笔记_flask(6)——会话session对象

处理利用cookie来判断用户登录外,也可以使用session来判断用户是否登录 html代码和cookie对象的设置相同 from flask import Flask,request,render_template,make_response,session,url_for,redirectappFlask(__name__) app.secret_keyps1234567890 app.route(/) …

矢量绘图UI设计软件Sketch mac中文版软件说明

Sketch mac是一款适用于 UI/UX 设计、网页设计、图标制作等领域的矢量绘图软件。 Sketch mac软件特点 1. 简单易用的界面设计:Sketch 的用户界面简洁明了,使得用户可以轻松上手操作,不需要复杂的学习过程。 2. 强大的矢量绘图功能&#xff1a…

解密 AI 客服;在不同硬件设备上运行大型语言模型的可能性

🦉 AI新闻 🚀 微软必应首席执行官称必应聊天优于OpenAI的GPT-4,但成本更高 摘要:微软必应的首席执行官米哈伊尔・帕拉欣表示,必应聊天表现优于OpenAI的GPT-4,但使用了更高成本的检索增强推理技术。必应聊…

RISC-V公测平台发布 · 7-zip 测试

简介 7-Zip 是一个开源的压缩和解压缩工具,具有高压缩比和快速解压缩的特点。除了普通的文件压缩和解压缩功能之外,7-Zip 还提供了基准测试功能,通过压缩和解压缩大型文件来评估系统的处理能力和性能。 7-Zip 提供了一种在不同压缩级别和多…

react-router v6版本使用记录

1:首先安装依赖 最基本的使用,引入相关依赖,开箱即用 import { BrowserRouter, Link, Routes, Route } from "react-router-dom" import Home from "./home" import About from "./about"function App () {// …

【二分+贪心】CF1665 C

Problem - C - Codeforces 题意: 思路: 一开始想太简单wa6了 只想到先感染大的分量,然后最后把最大的分量剩下的染色 但是可能会有别的分量更大(因为最后给最大的染色之后可能不再是最大的) 可以用堆维护&#xf…