白话NLP技术的演进发展

自然语言处理是人工智能的一个重要分支,旨在让计算机能够理解、生成和处理人类语言。我们每天都在使用自然语言,比如与人对话、阅读文章、撰写邮件等。NLP的目标就是要让机器也能像人一样处理语言,从而实现人机交互、信息检索、机器翻译、情感分析等多种应用。

要让机器理解自然语言,首先需要将语言数字化。最常见的方法是one-hot encoding,即为词表中的每个词设置一个等长的向量,该词对应位置为1,其余为0。例如:

词表 = ["我", "爱", "自然语言", "处理"] 
"我"  = [1, 0, 0, 0]
"爱"  = [0, 1, 0, 0]
"自然语言" = [0, 0, 1, 0]
"处理" = [0, 0, 0, 1]

这种表示简单直观,但当词表很大时,向量会变得非常稀疏和高维。为解决这个问题,word2vec等词嵌入模型被提出。它们用低维稠密向量来表示词,且在向量空间中语义相近的词离得更近。

假设有如下一段文本: “北京是中国的首都。上海是中国最大的城市。” 使用word2vec训练后,我们可以发现"北京"和"上海"的向量非常接近,因为它们都是中国的大城市。同时"中国"和"首都"的向量也比较接近,因为它们在句子中的共现概率较高。Word2vec通过这种方式,可以自动学习到词之间的语义关系。

假设我们有如下一段文本: “The cat sits on the mat. The dog plays with the ball.”。对这段文本进行分词后,得到词表: [“the”, “cat”, “sits”, “on”, “mat”, “dog”, “plays”, “with”, “ball”]

使用one-hot encoding对每个词进行编码,会得到一个9维的稀疏向量。而word2vec通过训练,可以学习到一个更低维度(如3维)的稠密向量来表示每个词。例如:

Copy code

"the":  [0.2, -0.1, 0.3]
"cat":  [0.4, 0.5, -0.2] 
"sits": [0.1, 0.3, -0.4]
"on":   [0.3, -0.3, 0.5]
"mat":  [0.5, 0.4, -0.3]
"dog":  [0.7, 0.8, -0.5]
"plays":[0.2, 0.1, -0.1] 
"with": [0.4, -0.2, 0.6]
"ball": [0.9, 0.7, -0.4]

可以看到,每个词都被表示为一个3维的实数向量。这种稠密向量有以下优点:

降低了维度,节省了存储空间,提高了计算效率。
向量中的每个元素都可以被解释为词在某个潜在语义维度上的强度。
语义相近的词,其向量在空间中也更接近。例如"cat"和"dog"都是宠物,它们的向量相似度较高。同时"cat"和"mat"在句中紧邻出现,它们的向量也有一定相关性。
向量之间可以进行数学运算,比如vec(“king”) - vec(“man”) + vec(“woman”) ≈ vec(“queen”),这展现了词向量的类比推理能力。

需要注意的是,以上词向量数值是随机生成的,并不是真实的word2vec结果。实际训练中,词表通常有几十万个词,向量维度也达到几百维,需要在大规模语料上进行长时间的训练才能得到优质的词向量。同时word2vec也有多种优化算法和目标函数,如Skip-gram、CBOW等。

Word2vec的提出开启了词嵌入的新纪元,此后又涌现出GloVe、FastText等众多优秀的词嵌入模型。词向量作为NLP的基础设施,在文本分类、情感分析、命名实体识别等任务中发挥着重要作用。

希望通过这个例子,你能对word2vec词向量有一个直观的认识。在实际应用中,我们可以利用现有的词向量模型,也可以在自己的语料上训练词向量。词向量质量的好坏,将直接影响到下游NLP任务的性能。

有了词的数字化表示,接下来就是理解句子和篇章的含义。传统方法主要基于规则和统计,如:

分词(tokenization):将句子拆分成词的序列
词性标注(POS tagging):标注每个词的词性(名词、动词等)
句法分析(parsing):分析句子的语法结构
命名实体识别(NER):识别文本中的人名、地名、机构名等

在传统的NLP方法中,比较有代表性的有:

基于规则的方法:人工定义一系列语言学规则,如正则表达式、上下文无关文法等,用于文本解析和处理。
基于统计的方法:利用大规模语料库,统计词与词之间的共现频率,构建语言模型,如N-gram、HMM等。
基于知识的方法:利用外部知识库如WordNet等,获取词汇之间的语义关系,指导NLP任务。

这些方法在早期取得了不错的效果,但难以处理语言的歧义性、灵活性和上下文相关性。

深度学习技术的兴起为NLP带来了革命性的变化。基于神经网络的序列模型,如RNN、LSTM等,能够建模文本的上下文信息,从大规模语料中自动学习语言的内在规律。近年来,深度学习技术给NLP带来了革命性的变化。除了前面提到的RNN、LSTM等序列模型,还有一些里程碑式的工作:

Seq2Seq模型:基于Encoder-Decoder框架,将输入序列编码为向量,再解码生成输出序列,广泛用于机器翻译、对话生成、文本摘要等任务。
注意力机制:让模型能够动态地关注输入数据的不同部分,提高了对长序列的建模能力,成为NLP模型的标配。
Transformer模型:摒弃了RNN中的循环连接,完全基于注意力机制构建,并引入了自注意力、位置编码等创新,大幅提升了并行计算效率和长程依赖建模能力。
预训练语言模型:在大规模无监督语料上预训练通用的语言表示,再针对具体任务进行微调,显著提高了NLP任务的性能,代表工作有BERT、GPT、XLNet等。

以机器翻译为例:

# 基于Seq2Seq和注意力机制的神经机器翻译模型
encoder = Encoder(vocab_size, embed_size, hidden_size) 
decoder = AttentionDecoder(vocab_size, embed_size, hidden_size)

for x, y in data:
    # x: 源语言句子  y: 目标语言句子
    encoder_out, hidden = encoder(x)
    output = decoder(y, hidden, encoder_out)

    loss = cross_entropy_loss(output, y)  # 计算损失
    loss.backward()  # 反向传播
    optimizer.step()  # 梯度下降,更新模型参数

以上模型输入源语言句子,输出对应的目标语言翻译。Encoder对源语言编码为语义向量,Decoder根据该向量和之前的输出,解码生成目标语言。其中注意力机制能动态决定翻译当前词时应该重点关注源语言的哪些部分。此外,Transformer、BERT等预训练语言模型进一步引领了NLP的发展。
除机器翻译外,NLP还有很多令人兴奋的应用,例如:

对话系统:让机器能理解并回复用户的问题
信息检索:用自然语言搜索大规模文本数据
情感分析:判断一段文本表达的情感是正面还是负面
自动摘要:总结长文档的核心要点
文本分类:给文档分配预定义的类别标签

2018年之后,NLP进入了预训练大模型的时代。研究人员构建了拥有海量参数(数亿到上千亿)的语言模型,在超大规模语料上进行自监督预训练,使模型学会了强大的语言理解和生成能力。代表工作包括:

GPT-3:拥有1750亿参数,可以在少样本或零样本条件下完成对话、写作、编程等多种任务,接近甚至超越人类的表现。
Switch Transformer:引入了MoE(Mixture of Experts)结构,不同的子网络专门处理不同的子任务,显著提升了模型的容量和泛化能力,参数量达到1.6万亿。
CPM:华为发布的中文预训练大模型,拥有2600亿参数和100GB中文训练数据,在中文NLP任务上取得了领先的性能。

大模型的出现,使得NLP在许多应用中达到了产品化的水平,如智能写作、虚拟助手、知识问答等。同时,大模型在few-shot和zero-shot学习上的突破,降低了NLP应用的开发成本。未来,NLP大模型将向更大规模、跨模态、多语言、知识增强等方向发展。

大语言模型(Large Language Model,LLM)的崛起,尤其是ChatGPT和LLaMA的出现,给NLP领域甚至整个AI领域带来了革命性的影响。
ChatGPT是由OpenAI开发的大型对话生成模型,基于GPT-3.5架构,拥有1750亿个参数。它通过在海量的互联网对话数据上进行预训练,再利用人类反馈进行微调,从而掌握了惊人的语言理解和生成能力。ChatGPT可以进行开放域对话、回答问题、编写代码等多种任务,其生成的文本通畅自然,常识知识丰富,推理能力出色。ChatGPT的问世引发了全民AI热潮,被誉为NLP发展的里程碑。

LLaMA是Meta(前Facebook)发布的一个开源大语言模型。与GPT-3等模型动辄上千亿参数相比,LLaMA最大的特点是在保持较强性能的同时,大幅降低了模型规模(最高770亿参数)。这使得LLaMA可以在普通消费级GPU上进行推理,极大降低了应用门槛。同时Meta也开放了LLaMA的训练代码和数据集,推动了学术界对LLM的研究。

ChatGPT、LLaMA等大语言模型的出现,正在深刻影响着NLP技术的发展和应用: