【LLM】人工智能应用构建的十大预训练NLP语言模型

在人工智能领域,自然语言处理(NLP)被广泛认为是阅读、破译、理解和理解人类语言的最重要工具。有了NLP,机器可以令人印象深刻地模仿人类的智力和能力,从文本预测到情感分析再到语音识别。

什么是自然语言处理?

语言模型在NLP应用程序的开发中起着至关重要的作用。然而,从头开始构建复杂的NLP语言模型是非常耗时的。出于这个原因,人工智能和机器学习的研究人员和开发人员对预先训练的语言模型深信不疑。迁移学习是一种用于训练模型的技术,该模型使用在另一个数据集上训练的数据集来执行任务。然后使用一个新的数据集来重新调整模型的用途,以执行不同的NLP功能。

经过预训练的模型:为什么它们有用?

然后,我们可以使用预训练的模型来解决我们自己的NLP问题,而不是从头开始构建模型。

预先训练的模型是为解决特定问题而设计的,需要进行一些微调,因此与编写新的语言模型相比,它们节省了大量时间和计算资源。

NLP语言模型根据其功能有几个预先训练的类别。

1. BERT (Bidirectional Encoder Representations from Transformers)

BERT是谷歌开发的一种用于NLP预训练的技术。对于语言理解,它依赖于一种新的神经网络架构,称为Transformer。该技术是为了解决神经机器翻译或序列转导的问题而开发的。因此,它非常适合于将输入序列转换为输出序列的任何任务,例如语音识别、文本到语音的转换等。

最初,转换器包含两种机制:一个是读取文本输入的编码器,另一个是创建预测的解码器。通过BERT,可以创建语言模型。到目前为止,只使用了编码器机制。

使用BERT算法可以有效地执行11个NLP任务。一个由BookCorpus的8亿个单词和维基百科的25亿个单词组成的数据集被用于训练。BERT的效率体现在谷歌搜索上,这是最好的例子之一。BERT用于其他谷歌应用程序中的文本预测,如谷歌文档和Gmail智能合成。

2. RoBERTa (Robustly Optimized BERT Pre-training Approach)

RoBERTa方法是一种预训练自监督自然语言处理算法的优化方法。通过学习和预测有意隐藏的文本部分,该系统基于BERT的语言掩蔽策略建立了语言模型。

在RoBERTa中,参数会被修改。例如,在训练时使用更大的小批量,下一句不再是BERT中的预训练目标,等等。RoBERTa等预训练模型擅长一般语言理解评估(GLUE)基准的所有任务,非常适合NLP训练任务,如识别问题、分析对话和分类文档。

3.OpenAI的GPT-3

GPT

使用GPT-3,您可以进行翻译、回答问题、创作诗歌、完成完形填空任务,以及即时解读单词。由于其最近的进步,GPT-3还用于生成代码和撰写新闻文章。

GT-3可以管理不同单词之间的统计信息。该模型中有超过1750亿个参数,这些参数是从45 TB的文本中学习的。因此,它是目前最大的预训练自然语言处理模型之一。

GPT-3的好处是可以在不需要微调的情况下处理下游任务。该模型可以使用“文本输入,文本输出”API重新编程,该API允许开发人员编写指令。

4. ALBERT

ALBERT

随着预先训练的语言模型变得越来越大,下游任务变得更加准确。然而,模型大小的增加导致训练时间变慢,以及GPU/TPU内存限制。谷歌开发了一个轻量级的BERT(来自变压器的双向编码器表示)来解决这个问题。使用了两种技术来减少其参数:

参数化嵌入:这里,隐藏层和词汇嵌入是分别测量的。

跨层共享参数:这可以防止参数数量随着网络的增长而增加。

通过使用这些技术,降低了内存消耗,提高了模型的训练速度。由于ALBERT在句子顺序预测方面的自我监督损失,这种损失是关于句子间连贯性的BERT限制。

5.XLNet

XLNET

使用去噪自动编码的语言模型,如BERT,比使用自回归方法的模型性能更好。这就是为什么有XLNet的原因,它使用自回归预训练。它允许学生学习双向上下文,并使用自回归预训练克服了BERT的局限性。许多任务,包括自然语言推理、文档排名、情感分析、问答等,都被认为优于XLNet的BERT。

6. OpenAI’s GPT2

除了在特定任务数据集上使用监督学习来完成诸如问答、机器翻译、阅读理解和摘要之类的任务外,其他自然语言处理任务通常也使用监督学习。在OpenAI的GPT2中,在一个名为WebText的数百万网页的新数据集上训练,即使没有明确的监督,语言模型也开始学习这些任务。该模型处理了各种各样的任务,并在各种各样的工作中产生了有希望的结果。

7.StructBERT

预训练的语言模型,如BERT(及其稳健优化版本RoBERTa),在自然语言理解(NLU)中获得了大量关注,在一系列NLU任务中实现了无与伦比的准确性,如自然语言推理、情感分类、问答和语义文本相似性。通过将语言结构纳入预训练,StructBERT将BERT扩展到一个基于Elman线性化探索工作的新模型。通过结构预训练,StructBERT系统在GLUE基准测试中产生了令人惊讶的结果(优于所有已发表的模型),SQUAD v1.1 F1得分为93.0,SNLI准确率为91.7。除了回答问题、情绪分析、文档摘要外,StructBERT还可以帮助完成各种NLP任务。

8. T5 (Text-to-Text Transfer Transformer)

T5

它已经成为自然语言处理(NLP)中一种强大的技术,可以先在数据丰富的任务上训练模型,然后为下游任务进行微调。迁移学习的有效性导致了方法、方法和实践的多样性。为了在NLP中为迁移学习设定一个新的标准,谷歌提出了一种统一的方法。因此,他们建议将NLP问题视为文本对文本问题。这样的框架允许不同的任务——摘要、情绪分析、问答和机器翻译——使用相同的模型、目标、训练过程和解码过程。一个名为Text to Text Transfer Transformer(T5)的模型使用网络抓取数据进行训练,以在许多NLP任务中得出最先进的结果。

9. ELECTRA (Efficiently Learning an Encoder that Classifies Token Replacements Accurately)

掩蔽语言建模(MLM)预训练方法使用掩蔽来替换输入中的一些令牌,然后训练模型以恢复令牌的原始含义。当应用于下游NLP任务时,它们往往会产生良好的结果,但通常需要大量的计算能力。专家们提出了一种称为替代令牌检测的替代方案,它更具样本效率。他们的方法用来自小型发电机网络的合理替代品取代了一些代币,而不是屏蔽输入。然后,专家们训练一个判别模型,以识别损坏输入中的每个令牌是否被生成器样本替换,而不是训练一个预测损坏令牌的原始身份的模型。

可以用T5中的所有输入令牌来替换屏蔽掉的输入令牌子集。生成替换令牌的生成器以最大似然进行训练,使其不具有对抗性,尽管与GAN相似。ELECTRA在计算上是高效的。

10. DeBERTa (Decoding-enhanced BERT with disentangled attention)

DeBERTa比BERT有两个主要改进,即增强的掩码解码系统和消除纠缠的注意力。通过对令牌/单词的内容和相对位置进行编码,DeBERTa将它们表示为两个向量。虽然DeBERTa的自我关注机制沿着内容到内容、内容到位置和位置到内容的路线运行,但BERT的自我关注仅由前两个元素组成。为了对令牌序列中的相对位置进行全面建模,作者提出还需要位置到内容的自我关注。此外,DeBERTa具有增强的掩码解码器,它为解码器提供了令牌/字的绝对和相对位置。在SuperGLUE基准测试中,DeBERTa的放大变体首次实现了比人类更好的性能。截至撰写本文时,德贝塔合奏团在SuperGLUE排名第一。

很明显,经过预训练的nlp语言模型有很多优点。这些模型对开发人员来说是一个很好的资源,因为它们可以帮助他们实现精确的输出,节省资源,并在人工智能应用程序开发上花费时间。

你如何选择对你的人工智能项目最有效的NLP语言模型?这取决于几个因素,包括项目的规模、数据集的类型和使用的培训方法。如果您想了解哪种NLP语言模型将帮助您实现最大准确性并缩短项目上市时间,请联系我们的人工智能专家。

这可以通过与他们建立免费咨询会议来实现,在此期间,他们可以指导您开发基于人工智能的应用程序的正确方法。

自我介绍

  • 做一个简单介绍,酒研年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【架构师研究会】和【开发者开聊】,有更多的内容分享,谢谢大家收藏。
  • 企业架构师需要比较广泛的知识面,了解一个企业的整体的业务,应用,技术,数据,治理和合规。之前4年主要负责企业整体的技术规划,标准的建立和项目治理。最近一年主要负责数据,涉及到数据平台,数据战略,数据分析,数据建模,数据治理,还涉及到数据主权,隐私保护和数据经济。 因为需要,比如数据资源入财务报表,另外数据如何估值和货币化需要财务和金融方面的知识,最近在学习财务,金融和法律。打算先备考CPA,然后CFA,如果可能也想学习法律,备战律考。
  • 欢迎爱学习的同学朋友关注,也欢迎大家交流。全网同号【架构师研究会】

欢迎收藏  【全球IT瞭望】,【架构师酒馆】和【开发者开聊】.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/283244.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

uni-app引入vant表单(附源码)

新建项目 下载安装vant npm i vant main.js引入 import { Form } from vant; import { Field } from vant;Vue.use(Form); Vue.use(Field);代码引入 <van-form submit"onSubmit"><van-fieldclass"rePwd"v-model"username"name"请…

AI电商时代开始:阿里能否反杀拼多多

“AI电商时代刚刚开始&#xff0c;对谁都是机会&#xff0c;也是挑战。” 针对阿里员工对于拼多多财报和电商等的讨论&#xff0c;马云在阿里内网罕见地参与了谈论并发言。 阿里巴巴一向雷厉风行&#xff0c;已打响了AI电商的“第一炮”。 根据《晚点LatePost》报道&#xff…

【Linux基础】8. 网络工具

文章目录 【 1. 查询网络服务和端口 】【 2. 网络路由 】【 3. 镜像下载 】【 4. ftp sftp lftp ssh】【 5. 网络复制 】 【 1. 查询网络服务和端口 】 全称作用netstat&#xff08;network statistics&#xff09;网络统计显示各种网络相关信息&#xff0c;如网络连接&#x…

ssm 宿舍管理系统

MD5加密&#x1f512; - SSM框架&#x1f3a8; - Layui框架&#x1f384;#### 实现功能 - [x] 管理员的登录与登出 - [x] 管理员,班级,学生,宿舍&#xff0c;卫生&#xff0c;访客各模块增删改查 - [x] 个别模块关联查询 - [x] 各个模块数据导出Excel

从零开始的 dbt 入门教程 (dbt-core 基础篇)

最近一直在处理数据分析和数据建模的事情&#xff0c;所以接触了 dbt 等数据分析的工具&#xff0c;国内目前对于 dbt 比较详细的资料不多&#xff0c;所以打算写四道五篇 dbt 相关的文章&#xff0c;本文属于 dbt 系列的第一篇&#xff0c;本篇主要阐述 dbt 一些基本概念&…

【python报错】UserWarning: train_labels has been renamed targets

UserWarning: train_labels has been renamed targetswarnings.warn(“train_labels has been renamed targets”) 这是一条 Python 警告信息&#xff0c;它表示 train_labels 这个变量已经被重命名为 targets&#xff0c;在将来的版本中可能会移除 train_labels。因此&#x…

Linux安装Oracle调用dbca无响应和密码问题

Linux服务器下调用dbca无响应&#xff0c;或弹出如下提示&#xff1a; 则需要在Linux命令行窗口&#xff0c;输入如下命令即可 export DISPLAYip:0.0 注意&#xff1a;该ip应该为可显示图形桌面的机器ip地址。 该桌面需要已经安装了Xmanager-Passive&#xff08;比如 Xmanag…

MIT线性代数笔记-第34讲-左右逆,伪逆

目录 34.左右逆&#xff0c;伪逆左右逆伪逆 打赏 34.左右逆&#xff0c;伪逆 左右逆 之前讲到的逆都是针对可逆方阵而言的&#xff0c;对于长方矩阵&#xff0c;实际上也有广义的逆&#xff0c;那就是左逆和右逆 左逆 当矩阵列满秩&#xff0c;即 r n r n rn时&#xff0c;…

x-cmd-pkg | deno - 更快更强的 JS 和 TS 运行时

目录 简介首次用户技术特点进一步阅读 简介 Deno 是一个基于 V8 引擎和 Rust 语言构建的 JavaScript 和 TypeScript 运行时环境&#xff0c;于 2018 年由 Ryan Dahl 在演讲中宣布&#xff0c;并在 2020 年正式发布 1.0&#xff0c;目标是提供一个高效且安全的脚本环境。 安全…

PostgreSQL16.1(Windows版本)

1、卸载原有的PostgreSQL &#xfeff; &#xfeff; 点击Next即可。 &#xfeff;&#xfeff; 点击OK即可。 卸载完成。 2、安装 &#xff08;1&#xff09; 前两部直接Next&#xff0c;第二部可以换成自己想要安装的路径。 &#xff08;2&#xff09; 直接点击Next。…

记矩阵基础概念

转自up&#xff1a;Naruto_Qcsdn&#xff1a;三维空间几何变换矩阵 先贴个站里分享的基础概念。 learn form 肥猫同学VFX b站&#xff1a;会用transform就会用矩阵 移动 旋转 缩放 1.transofrm ——输出变化矩阵 可以移动transform查看变化去理解 位移 缩放 旋转 由此—…

Flink学习-时间和窗口

在流数据处理应用中&#xff0c;一个很重要、也很常见的操作就是窗口计算。所谓的“窗口”&#xff0c;一 般就是划定的一段时间范围&#xff0c;也就是“时间窗”&#xff1b;对在这范围内的数据进行处理&#xff0c;就是所谓的 窗口计算。所以窗口和时间往往是分不开的。 时…

【js】js解析Token:

一、效果&#xff1a; 二、实现&#xff1a; export function getTokenObject(token) {//通过split()方法将token转为字符串数组,数组中的第二个字符进行解析return token ? JSON.parse(decodeURIComponent(escape(window.atob(token.split(".")[1].replace(/-/g &…

2023年亲身经历总结 | 记录从大学到现在历程

现在是2023年12月31日&#xff0c;回想2023年&#xff0c;是充满挑战的一年&#xff0c;也是成就斐然的一年。回首过去&#xff0c;仿佛一幅画卷展开&#xff0c;每一笔每一刻都镌刻着成长的印记。 以下文章从大学经历说起&#xff0c;到现在发展情况&#xff0c;希望我的经历对…

大数据应用领域:数据驱动一切

大数据出现的时间只有十几年&#xff0c;被人们广泛接受并应用只有几年的时间&#xff0c;但就是这短短几年的时间&#xff0c;大数据呈现出爆炸式增长的态势。在各个领域&#xff0c;大数据的身影几乎无处不在。今天我们通过一些大数据典型的应用场景分析&#xff0c;一起来看…

ALSA学习(5)——设备中的alsa

参考博客&#xff1a; https://blog.csdn.net/DroidPhone/article/details/7165482 &#xff08;一下内容基本是原博主的博客转载&#xff09; 文章目录 一、ASOC的由来二、硬件架构三、软件架构四、数据结构五、内核对ASoC的改进 一、ASOC的由来 ASoC–ALSA System on Chip …

Vue-Setup

一、setup概述 小小提示&#xff1a;vue3中可以写多个根标签。 Person.vue中内容 <template><div class"person"><h2>姓名&#xff1a;{{name}}</h2><h2>年龄&#xff1a;{{age}}</h2><!--定义了一个事件&#xff0c;点击这…

【网络面试(5)】收发数据及断开服务器(四次挥手)

前面了解到服务器和客户端在创建套接字&#xff0c;建立连接后&#xff0c;就可以进入到下一步&#xff0c;双发可以互相发送和接收数据&#xff0c;本篇博客就来学习一下这个过程。  我们印象里&#xff0c;发送数据应该是我们在浏览器输入网址&#xff0c;敲击回车的一瞬间&…

L1-077:大笨钟的心情

有网友问&#xff1a;未来还会有更多大笨钟题吗&#xff1f;笨钟回复说&#xff1a;看心情…… 本题就请你替大笨钟写一个程序&#xff0c;根据心情自动输出回答。 输入格式&#xff1a; 输入在一行中给出 24 个 [0, 100] 区间内的整数&#xff0c;依次代表大笨钟在一天 24 小时…

【LLM 】7个基本的NLP模型,为ML应用程序赋能

在上一篇文章中&#xff0c;我们已经解释了什么是NLP及其在现实世界中的应用。在这篇文章中&#xff0c;我们将继续介绍NLP应用程序中使用的一些主要深度学习模型。 BERT 来自变压器的双向编码器表示&#xff08;BERT&#xff09;由Jacob Devlin在2018年的论文《BERT:用于语言…