白话NLP技术的演进发展

自然语言处理是人工智能的一个重要分支,旨在让计算机能够理解、生成和处理人类语言。我们每天都在使用自然语言,比如与人对话、阅读文章、撰写邮件等。NLP的目标就是要让机器也能像人一样处理语言,从而实现人机交互、信息检索、机器翻译、情感分析等多种应用。

要让机器理解自然语言,首先需要将语言数字化。最常见的方法是one-hot encoding,即为词表中的每个词设置一个等长的向量,该词对应位置为1,其余为0。例如:

词表 = ["我", "爱", "自然语言", "处理"] 
"我"  = [1, 0, 0, 0]
"爱"  = [0, 1, 0, 0]
"自然语言" = [0, 0, 1, 0]
"处理" = [0, 0, 0, 1]

这种表示简单直观,但当词表很大时,向量会变得非常稀疏和高维。为解决这个问题,word2vec等词嵌入模型被提出。它们用低维稠密向量来表示词,且在向量空间中语义相近的词离得更近。

假设有如下一段文本: “北京是中国的首都。上海是中国最大的城市。” 使用word2vec训练后,我们可以发现"北京"和"上海"的向量非常接近,因为它们都是中国的大城市。同时"中国"和"首都"的向量也比较接近,因为它们在句子中的共现概率较高。Word2vec通过这种方式,可以自动学习到词之间的语义关系。

假设我们有如下一段文本: “The cat sits on the mat. The dog plays with the ball.”。对这段文本进行分词后,得到词表: [“the”, “cat”, “sits”, “on”, “mat”, “dog”, “plays”, “with”, “ball”]

使用one-hot encoding对每个词进行编码,会得到一个9维的稀疏向量。而word2vec通过训练,可以学习到一个更低维度(如3维)的稠密向量来表示每个词。例如:

Copy code

"the":  [0.2, -0.1, 0.3]
"cat":  [0.4, 0.5, -0.2] 
"sits": [0.1, 0.3, -0.4]
"on":   [0.3, -0.3, 0.5]
"mat":  [0.5, 0.4, -0.3]
"dog":  [0.7, 0.8, -0.5]
"plays":[0.2, 0.1, -0.1] 
"with": [0.4, -0.2, 0.6]
"ball": [0.9, 0.7, -0.4]

可以看到,每个词都被表示为一个3维的实数向量。这种稠密向量有以下优点:

  1. 降低了维度,节省了存储空间,提高了计算效率。
  2. 向量中的每个元素都可以被解释为词在某个潜在语义维度上的强度。
  3. 语义相近的词,其向量在空间中也更接近。例如"cat"和"dog"都是宠物,它们的向量相似度较高。同时"cat"和"mat"在句中紧邻出现,它们的向量也有一定相关性。
  4. 向量之间可以进行数学运算,比如vec(“king”) - vec(“man”) + vec(“woman”) ≈ vec(“queen”),这展现了词向量的类比推理能力。

需要注意的是,以上词向量数值是随机生成的,并不是真实的word2vec结果。实际训练中,词表通常有几十万个词,向量维度也达到几百维,需要在大规模语料上进行长时间的训练才能得到优质的词向量。同时word2vec也有多种优化算法和目标函数,如Skip-gram、CBOW等。

Word2vec的提出开启了词嵌入的新纪元,此后又涌现出GloVe、FastText等众多优秀的词嵌入模型。词向量作为NLP的基础设施,在文本分类、情感分析、命名实体识别等任务中发挥着重要作用。

希望通过这个例子,你能对word2vec词向量有一个直观的认识。在实际应用中,我们可以利用现有的词向量模型,也可以在自己的语料上训练词向量。词向量质量的好坏,将直接影响到下游NLP任务的性能。

有了词的数字化表示,接下来就是理解句子和篇章的含义。传统方法主要基于规则和统计,如:

  • 分词(tokenization):将句子拆分成词的序列
  • 词性标注(POS tagging):标注每个词的词性(名词、动词等)
  • 句法分析(parsing):分析句子的语法结构
  • 命名实体识别(NER):识别文本中的人名、地名、机构名等

在传统的NLP方法中,比较有代表性的有:

  • 基于规则的方法:人工定义一系列语言学规则,如正则表达式、上下文无关文法等,用于文本解析和处理。
  • 基于统计的方法:利用大规模语料库,统计词与词之间的共现频率,构建语言模型,如N-gram、HMM等。
  • 基于知识的方法:利用外部知识库如WordNet等,获取词汇之间的语义关系,指导NLP任务。

这些方法在早期取得了不错的效果,但难以处理语言的歧义性、灵活性和上下文相关性。

深度学习技术的兴起为NLP带来了革命性的变化。基于神经网络的序列模型,如RNN、LSTM等,能够建模文本的上下文信息,从大规模语料中自动学习语言的内在规律。近年来,深度学习技术给NLP带来了革命性的变化。除了前面提到的RNN、LSTM等序列模型,还有一些里程碑式的工作:

  • Seq2Seq模型:基于Encoder-Decoder框架,将输入序列编码为向量,再解码生成输出序列,广泛用于机器翻译、对话生成、文本摘要等任务。
  • 注意力机制:让模型能够动态地关注输入数据的不同部分,提高了对长序列的建模能力,成为NLP模型的标配。
  • Transformer模型:摒弃了RNN中的循环连接,完全基于注意力机制构建,并引入了自注意力、位置编码等创新,大幅提升了并行计算效率和长程依赖建模能力。
  • 预训练语言模型:在大规模无监督语料上预训练通用的语言表示,再针对具体任务进行微调,显著提高了NLP任务的性能,代表工作有BERT、GPT、XLNet等。

以机器翻译为例:

# 基于Seq2Seq和注意力机制的神经机器翻译模型
encoder = Encoder(vocab_size, embed_size, hidden_size) 
decoder = AttentionDecoder(vocab_size, embed_size, hidden_size)

for x, y in data:
    # x: 源语言句子  y: 目标语言句子
    encoder_out, hidden = encoder(x)
    output = decoder(y, hidden, encoder_out)

    loss = cross_entropy_loss(output, y)  # 计算损失
    loss.backward()  # 反向传播
    optimizer.step()  # 梯度下降,更新模型参数

以上模型输入源语言句子,输出对应的目标语言翻译。Encoder对源语言编码为语义向量,Decoder根据该向量和之前的输出,解码生成目标语言。其中注意力机制能动态决定翻译当前词时应该重点关注源语言的哪些部分。此外,Transformer、BERT等预训练语言模型进一步引领了NLP的发展。
除机器翻译外,NLP还有很多令人兴奋的应用,例如:

  • 对话系统:让机器能理解并回复用户的问题
  • 信息检索:用自然语言搜索大规模文本数据
  • 情感分析:判断一段文本表达的情感是正面还是负面
  • 自动摘要:总结长文档的核心要点
  • 文本分类:给文档分配预定义的类别标签

2018年之后,NLP进入了预训练大模型的时代。研究人员构建了拥有海量参数(数亿到上千亿)的语言模型,在超大规模语料上进行自监督预训练,使模型学会了强大的语言理解和生成能力。代表工作包括:

  • GPT-3:拥有1750亿参数,可以在少样本或零样本条件下完成对话、写作、编程等多种任务,接近甚至超越人类的表现。
  • Switch Transformer:引入了MoE(Mixture of Experts)结构,不同的子网络专门处理不同的子任务,显著提升了模型的容量和泛化能力,参数量达到1.6万亿。
  • CPM:华为发布的中文预训练大模型,拥有2600亿参数和100GB中文训练数据,在中文NLP任务上取得了领先的性能。

大模型的出现,使得NLP在许多应用中达到了产品化的水平,如智能写作、虚拟助手、知识问答等。同时,大模型在few-shot和zero-shot学习上的突破,降低了NLP应用的开发成本。未来,NLP大模型将向更大规模、跨模态、多语言、知识增强等方向发展。

大语言模型(Large Language Model,LLM)的崛起,尤其是ChatGPT和LLaMA的出现,给NLP领域甚至整个AI领域带来了革命性的影响。
ChatGPT是由OpenAI开发的大型对话生成模型,基于GPT-3.5架构,拥有1750亿个参数。它通过在海量的互联网对话数据上进行预训练,再利用人类反馈进行微调,从而掌握了惊人的语言理解和生成能力。ChatGPT可以进行开放域对话、回答问题、编写代码等多种任务,其生成的文本通畅自然,常识知识丰富,推理能力出色。ChatGPT的问世引发了全民AI热潮,被誉为NLP发展的里程碑。

LLaMA是Meta(前Facebook)发布的一个开源大语言模型。与GPT-3等模型动辄上千亿参数相比,LLaMA最大的特点是在保持较强性能的同时,大幅降低了模型规模(最高770亿参数)。这使得LLaMA可以在普通消费级GPU上进行推理,极大降低了应用门槛。同时Meta也开放了LLaMA的训练代码和数据集,推动了学术界对LLM的研究。

ChatGPT、LLaMA等大语言模型的出现,正在深刻影响着NLP技术的发展和应用:

  1. 自然交互:LLM让人机对话变得无比自然,人们可以用口语化的表达与AI无障碍沟通,这将极大改变人机交互的方式。
  2. 知识获取:LLM从海量文本中学习到了丰富的世界知识,使得知识获取变得前所未有的便捷,有望彻底改变教育、科研、商业等领域。
  3. 内容创作:LLM可以自动撰写文案、生成故事、创作诗歌等,极大提升了内容创作的效率,同时也带来了知识产权、伦理道德等新的挑战。
  4. coding助手:LLM强大的代码理解和生成能力,使其成为程序员的得力助手,可以提供编程建议、查找bug、优化代码等,提高开发效率。
  5. 通用智能:LLM在众多NLP任务上展现出了通用智能的特点,使得构建通用人工智能(AGI)的梦想更近了一步。

当然,大语言模型也存在一些局限和风险:

  • 安全隐患:LLM可能被用于生成虚假信息、恶意代码等,对社会安全构成威胁。
  • 公平偏差:LLM从互联网数据中学习,可能继承了其中的偏见和歧视,从而产生不公平的结果。
  • 可解释性:LLM是黑盒模型,其决策过程难以解释,这对于一些关键应用场景是不可接受的。
  • 资源消耗:LLM的训练需要大量的算力和能源,带来了环境可持续性的挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/589472.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

笔记1--Llama 3 超级课堂 | Llama3概述与演进历程

1、Llama 3概述 https://github.com/SmartFlowAI/Llama3-Tutorial.git 【Llama 3 五一超级课堂 | Llama3概述与演进历程】 2、Llama 3 改进点 【最新【大模型微调】大模型llama3技术全面解析 大模型应用部署 据说llama3不满足scaling law?】…

Deep learning Part Five RNN--24.4.29

接着上期,CBOW模型无法解决文章内容过长的单词预测的,那该如何解决呢? 除此之外,根据图中5-5的左图所示,在CBOW模型的中间层求单词向量的和,这时就会出现另一个问题的,那就是上下文的单词的顺序…

Redis Zset的底层原理

Redis Zset的底层原理 ZSet也就是SortedSet,其中每一个元素都需要指定一个score值和member值: 可以根据score值排序后member必须唯一可以根据member查询分数 因此,zset底层数据结构必须满足键值存储、键必须唯一、可排序这几个需求。之前学…

ZooKeeper知识点总结及分布式锁实现

最初接触ZooKeeper是之前的一个公司的微服务项目中,涉及到Dubbo和ZooKeeper,ZooKeeper作为微服务的注册和配置中心。好了,开始介绍ZooKeeper了。 目录 1.ZooKeeper的基本概念 2.ZooKeeper的节点(ZNode) 3. ZooKeep…

【Java笔记】第5章:函数

前言1. 函数的理解2. 函数的基本使用3. 函数的参数4. 函数的返回值5. 函数的执行机制6. 函数的递归调用结语 ↓ 上期回顾: 【Java笔记】第4章:深入学习循环结构 个人主页:C_GUIQU 归属专栏:【Java学习】 ↑ 前言 各位小伙伴大家好&#xff…

[随记]Mac安装Docker及运行开源Penpot

下载Docker Desktop for Mac:https://www.docker.com/products/docker-desktop/ 安装Docker Desktop for Mac,安装完成后,启动Docker,然后在终端输入: docker version 在Mac电脑的Desktop,随便创建一个文…

【真实体验】使用崖山YMP 迁移 Oracle/MySQL 至YashanDB 23.2 验证测试【YashanDB迁移体验官】

一、前言 说一下我和崖山数据库的结缘,大概在去年吧,因为我经常在墨天轮写文章,看到崖山数据库推出了一崖山体验官的活动,我就报名参加了。第一次体验了崖山数据库,也测试了我司数据库到崖山数据库的兼容性&#xff0…

钉钉手机端调试前端H5项目流程

此流程以Vue项目为例 一、操作步骤 在根目录下 vue.config.js 文件中将 devServer.host 设置为 0.0.0.0 // vue.config.js module.exports {devServer: {host: 0.0.0.0,...},...}本地启动项目,获取 Network App running at:- Local: http://localhost:8080/ -…

JAVA 学习·泛型(二)——通配泛型

有关泛型的基本概念&#xff0c;参见我的前一篇博客 JAVA 学习泛型&#xff08;一&#xff09;。 协变性 泛型不具备协变性 在介绍通配泛型之前&#xff0c;先来看一下下面的例子。我们定义了一个泛型栈&#xff1a; import java.util.ArrayList; class GenericStack<E>…

全新TOF感知RGBD相机 | 高帧率+AI,探索3D感知新境界

海康机器人在近期的机器视觉新品发布会上推出的全新TOF感知RGBD相机,无疑是对当前机器视觉技术的一次革新。这款相机不仅融合了高帧率、轻松集成、体积小巧以及供电稳定等诸多优点,更重要的是,它将AI与3D感知技术完美结合,通过高帧率+AI算法,实现了对不同场景的快速捕捉与…

Android Studio报错:Constant expression required

【出现的问题】&#xff1a; 使用JDK17以上版本&#xff0c;switch语句报错&#xff1a;Constant expression required 【解决方法】&#xff1a; 在gradle.properties配置文件下添加代码&#xff1a; android.nonFinalResIdsfalse 如图&#xff1a; 接着再点击右上角的Sync…

asyncionetworkxFuncAnimation学习--动态显示计算图的运行情况

asyncio&networkx&FuncAnimation学习--动态显示计算图的运行情况 一.效果二.代码 一.目的 1.动态显示计算图的运行状态(点或边是否已完成) 二.步骤: 1.定义计算图 2.asyncio 并行计算 3.networkx 显示计算图 4.FuncAnimation 动态更新 三.依赖: conda install pygraphv…

Linux shell编程学习笔记48:touch命令

0 前言 touch是csdn技能树Linux基础练习题中最常见的一条命令&#xff0c;这次我们就来研究它的功能和用法。 1. touch命令的功能、格式和选项说明 我们可以使用命令 touch --help 来查看touch命令的帮助信息。 purpleEndurer bash ~ $ touch --help Usage: touch [OPTION]…

pyqt 按钮常用格式Qss设置

pyqt 按钮常用格式Qss设置 QSS介绍按钮常用的QSS设置效果代码 QSS介绍 Qt Style Sheets (QSS) 是 Qt 框架中用于定制应用程序界面样式的一种语言。它类似于网页开发中的 CSS&#xff08;Cascading Style Sheets&#xff09;&#xff0c;但专门为 Qt 应用程序设计。使用 QSS&am…

数据分析--客户价值分析RFM(分箱法/标准化)

原数据 原数据如果有异常或者缺失等情况&#xff0c;要先对数据进行处理 &#xff0c;再进行下面的操作&#xff0c;要不然会影响结果的正确性 一、根据RFM计算客户价值并对客户进行细分 1. 数据预处理 1.1 创建视图存储 R、F、M的最大最小值 创建视图存储R 、F、M 的最大最小…

力扣练习题(2024/5/2)

1填充每个节点的下一个右侧节点指针 给定一个 完美二叉树 &#xff0c;其所有叶子节点都在同一层&#xff0c;每个父节点都有两个子节点。二叉树定义如下&#xff1a; struct Node {int val;Node *left;Node *right;Node *next; } 填充它的每个 next 指针&#xff0c;让这个…

C#知识|Dictionary泛型集合的使用总结

哈喽,你好,我是雷工! 以下是C#Dictionary泛型集合的学习笔记。 01 Dictionary泛型集合 1.1、Dictionary<K,V>通常称为字典, 1.2、其中<K,V>是自定义的,用来约束集合中元素类型。 1.3、在编译时检查类型约束, 1.4、无需装箱拆箱操作, 1.5、操作与哈希表(Ha…

C++ string类

目录 0.前言 1.为什么学习string类 1.1 C语言字符串的局限性 1.2 C string类的优势 2.标准库中的string类 2.1 字符串作为字符序列的类 2.2 接口与标准容器类似 2.3 基于模板的设计 2.4 编码和字符处理 3.string类的常用接口说明 3.1构造函数 3.1.1默认构造函数 3…

前端Web开发基础知识

HTML定义 超文本标记语言&#xff08;英语&#xff1a;HyperText Markup Language&#xff0c;简称&#xff1a;HTML&#xff09;是一种用于创建网页的标准标记语言。 什么是 HTML? HTML 是用来描述网页的一种语言。 HTML 指的是超文本标记语言: HyperText Markup LanguageH…

ELK Stack 8 接入ElasticFlow

介绍 Netflow v5 / v9 / v10&#xff08;IPFIX&#xff09;&#xff0c;支持大部分网络厂商及VMware的分布式交换机。 NetFlow是一种数据交换方式。Netflow提供网络流量的会话级视图&#xff0c;记录下每个TCP/IP事务的信息。当汇集起来时&#xff0c;它更加易于管理和易读。…
最新文章