【文本到上下文 #3】：文本表示技术

一、说明

欢迎回到“完整的 NLP 指南：文本到上下文”

在上一篇文章中，我们对自然语言处理 (NLP) 中的基本数据预处理步骤进行了令人着迷的探索。我们剖析了标记化、文本清理、停用词删除、词干提取和词形还原、词性标记和命名实体识别 (NER) 的复杂性。这些步骤对于将原始文本转换为机器可以处理和理解的精致格式至关重要。如果您错过了，请务必在这里赶上。

今天，在我们的第三部分中，我们深入研究文本表示技术。这一阶段至关重要，因为它弥合了预处理文本与机器解释、分析文本并从中获取含义的能力之间的差距。我们将探讨这些技术如何将文本转换为数字形式，使计算机能够执行复杂的 NLP 任务，例如情感分析、主题建模等。

以下是这次详细探索中的预期结果：

词袋 (BoW) 方法：深入了解词袋方法的基本概念。了解它如何通过将内容视为单个单词的集合而不考虑顺序和上下文来简化文本分析。探索其在各种应用中的效率，同时承认其在捕捉语言细微差别方面的局限性。
TF-IDF（词频-逆文档频率）：探索更复杂的 TF-IDF 方法。了解它如何通过评估词频以及多个文档中单词的重要性来完善文本表示。本节将深入了解 TF-IDF 如何提供更详细、更有效的方式来理解集合中的文本。
词嵌入：Word2Vec：检查词嵌入领域，例如 Word2Vec。了解该技术如何捕获单词之间复杂的语义关系，从而促进对文本进行深入且上下文相关的分析。这一部分将强调词嵌入在从语言数据中提取含义方面的重要性。
3种技术对比分析：最后对这3种技术进行综合比较。我们将评估它们的优点和缺点，重点关注计算需求、语义表示的准确性以及它们对不同数据集大小的适应性等方面。这种比较将帮助您辨别哪种方法最适合您的特定 NLP 任务。

读完本文后，您将彻底了解这些基本的文本表示技术、它们的比较优缺点以及它们在自然语言处理领域的实际应用。准备扩展您的 NLP 工具包并将这些见解应用到您的项目中！

二、词袋（BoW）方法

词袋是一种强大的自然语言处理技术，用于文本建模，可以简单、灵活地提取数字特征，而无需考虑语法和词序。利用 Scikit-learn 中的 CountVectorizer，我们可以轻松创建词袋。

# Import libraries
from sklearn.feature_extraction.text import CountVectorizer

# Create sample documents
documents = ["This is the first document.",
              "This document is the second document.",
              "And this is the third one."]

# Create the Bag-of-Words model
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documents)

# Print the feature names and the document-term matrix
print("Feature Names:", vectorizer.get_feature_names_out())
print("Document-Term Matrix:\n", X.toarray())

Feature Names: ['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
Document-Term Matrix:
 [[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 1 1 1]]

我们可以通过调整 stop_words、ngram_range、max_features、lowercase 等参数来根据文本数据的独特要求和分析目标定制词袋模型。（更多信息）

三、什么是 N 元语法？

N 元语法是文本或句子中 n 个项目的连续序列，对于捕获上下文信息至关重要。它们不仅考虑单个单词，还考虑组合，从而提供更丰富的上下文，从而增强模型的表示。

# Import libraries
from sklearn.feature_extraction.text import CountVectorizer

# Create sample documents
documents = ["This is the first document.",
              "This document is the second document.",
              "And this is the third one."]

# Create the Bag-of-Words model with unigrams, bigrams, and trigrams
vectorizer = CountVectorizer(ngram_range=(1, 3))
X = vectorizer.fit_transform(documents)

# Print the feature names and the document-term matrix
print("Feature Names:", vectorizer.get_feature_names_out())
print("Document-Term Matrix:\n", X.toarray())

Feature Names: ['and' 'and this' 'and this is' 'document' 'document is' 'document is the'
 'first' 'first document' 'is' 'is the' 'is the first' 'is the second'
 'is the third' 'one' 'second' 'second document' 'the' 'the first'
 'the first document' 'the second' 'the second document' 'the third'
 'the third one' 'third' 'third one' 'this' 'this document'
 'this document is' 'this is' 'this is the']
Document-Term Matrix:
 [[0 0 0 1 0 0 1 1 1 1 1 0 0 0 0 0 1 1 1 0 0 0 0 0 0 1 0 0 1 1]
 [0 0 0 2 1 1 0 0 1 1 0 1 0 0 1 1 1 0 0 1 1 0 0 0 0 1 1 1 0 0]
 [1 1 1 0 0 0 0 0 1 1 0 0 1 1 0 0 1 0 0 0 0 1 1 1 1 1 0 0 1 1]]

在此示例中，ngram_range=(1, 3)指定您要包含一元组、二元组和三元组。生成的特征名称和文档术语矩阵现在将包含这些 n 元语法。输出将显示文档中的单个单词以及两个和三个连续单词的组合。ngram_range根据您的具体要求进行调整。

词袋模型捕获每个文档中单词的频率，为更先进的技术奠定了基础。然而，它的局限性，包括词序丢失、高维表示和稀疏性，给完全捕获语义关系带来了挑战，并可能导致计算效率低下。为了解决这些缺点，我们将探索 TF-IDF（词频-逆文档频率）和 Word2Vec 技术。

四、TF-IDF（词频-逆文档频率）

在自然语言处理 (NLP) 中，词袋 (BoW) 模型（例如我们之前探讨的模型）对于表示文档中单词的频率非常有用。然而，它们也有局限性。BoW 不考虑文档中单词相对于整个语料库（文档集合）的重要性。有些词可能在许多文档中频繁出现，但可能不会携带太多有意义的信息。

这就是 TF-IDF 发挥作用的地方。TF-IDF 通过根据单词在文档中相对于整个文档集合的重要性为单词分配权重来解决 BoW 的局限性。它帮助我们识别不仅在文档中频繁出现的单词，而且在整个语料库的上下文中对该文档具有独特性和信息性的单词。

4.1 TF-IDF 如何工作？

词频 (TF)：

TF = 没有。文档中术语出现的次数/文档中术语的总数

测量术语在文档中出现的频率。
计算为某个术语在文档中出现的次数与文档中术语总数的比率。
对文档中频繁出现的术语给予高分。

逆文档频率 (IDF)：

IDF =log base e（文档总数/包含术语 t 的文档数量）

衡量术语在整个文档集合（语料库）中的重要性。
计算为语料库中文档总数与包含该术语的文档数之比的对数。
它对语料库中罕见但出现在特定文档中的术语给出高分。

TF-IDF 分数：

TF-IDF = TF * IDF

通过将 TF 和 IDF 分数相乘获得。
具有高 TF-IDF 分数的单词被认为对于整个语料库上下文中的文档很重要。

4.2 例子：

考虑一个包含三个文档的语料库：

“这是第一份文件。”
“这份文件是第二份文件。”
“这是第三个。”

让我们计算第一个文档中术语的 TF-IDF 分数：

“这个”：在文档中频繁出现，但在整个语料库中也频繁出现，因此 TF-IDF 得分适中。
“first”：在文档中出现一次，并且在整个语料库中并不常见，因此 TF-IDF 得分较高。
“文档”：在文档和整个语料库中频繁出现，因此 TF-IDF 分数较低。

TF-IDF 流程帮助我们识别文档特有的“第一”等术语，从而能够更细致地表示和理解内容。

总之，TF-IDF 是 NLP 中的一个重要工具，用于为术语分配有意义的权重，捕获它们在文档中相对于整个语料库的重要性。它增强了我们从文本数据中提取有价值的见解的能力。

以下是使用 Python 的 sci-kit-learn 库计算 TF-IDF 的示例代码片段（更多信息）：

# Import libraries
from sklearn.feature_extraction.text import TfidfVectorizer

# Create sample documents
documents = ["This is the first document.",
              "This document is the second document.",
              "And this is the third one."]

# Create the TF-IDF model
tfidf_vectorizer = TfidfVectorizer()
X_tfidf = tfidf_vectorizer.fit_transform(documents)

# Print the feature names and the TF-IDF matrix
print("Feature Names:", tfidf_vectorizer.get_feature_names_out())
print("TF-IDF Matrix:\n", X_tfidf.toarray())

Feature Names: ['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
TF-IDF Matrix:
 [[0.         0.46941728 0.61722732 0.3645444  0.         0.
  0.3645444  0.         0.3645444 ]
 [0.         0.7284449  0.         0.28285122 0.         0.47890875
  0.28285122 0.         0.28285122]
 [0.49711994 0.         0.         0.29360705 0.49711994 0.
  0.29360705 0.49711994 0.29360705]]

TF-IDF 有效地捕捉术语重要性，通过根据术语频率和独特性分配权重来提供有价值的见解。它通过考虑整个语料库中术语的重要性来增强文档表示。但尽管有其优势，TF-IDF 也有局限性，例如生成固定大小的向量表示以及难以完全理解文本数据中的语义关系和上下文含义。为了解决这些限制并深入研究更细致的文本表示，我们过渡到 Word2Vec。这种先进的技术在连续向量空间中表示单词，保留语义并捕获单词之间复杂的关系。

五、词嵌入：Word2Vec

在我们对文本表示技术的探索中，我们现在涉足词嵌入，重点关注 Word2Vec。词嵌入是一种先进的方法，它将单词映射到连续的向量空间，捕获语义关系和上下文的细微差别。

Word2Vec 是一种流行的词嵌入技术，它将单词表示为密集向量，将它们定位在多维空间中。这使得具有相似含义的单词在向量空间中更加接近，从而使模型能够捕获语义关系。

Word2Vec 的运行原理是相似上下文中出现的单词共享语义。它通过考虑给定上下文中目标单词周围的单词来学习向量表示。Word2Vec 有两种主要架构：连续词袋 (CBOW)和Skip-Gram。CBOW 根据上下文预测目标单词，而 Skip-Gram 则根据给定目标单词预测上下文单词。

Word2Vec 是如何工作的？

等式“国王 — 男人 + 女人 == 女王”是 Word2Vec 的一个著名演示，其中从“国王”中减去“男人”并添加“女人”预计会产生一个表示不分性别的皇室概念的向量。此操作利用词向量中编码的语义关系。然后使用余弦相似度来查找与结果相似的单词，希望“queen”具有较高的相似度。Word2Vec 捕获上下文含义，允许有意义的向量运算和语义关系。

以下是使用 Gensim 库的示例代码片段（更多信息）：

# Install gensim library if not already installed
# pip install gensim
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize

# Create sample documents
documents = ["This is the first document.",
              "This document is the second document.",
              "And this is the third one."]

# Tokenize the documents
tokenized_documents = [word_tokenize(doc.lower()) for doc in documents]

# Train Word2Vec model
model = Word2Vec(sentences=tokenized_documents, vector_size=100, window=5, min_count=1, workers=4)

# Example: Get vector representation for the word 'document'
vector_representation = model.wv['document']
print("Vector Representation for 'document':", vector_representation)

代码片段中参数说明：
vector_size：该参数定义了词向量的大小。它确定代表每个单词的向量的维数。较大的向量大小意味着更多的维度，可以捕获更细粒度的单词语义信息，但也需要更多的数据来有效学习，并增加计算复杂度。通常，向量大小选择在 50 到 300 之间。在您的示例中，vector_size=100意味着每个单词都由 100 维向量表示。

window：该window参数指定句子中当前词与预测词之间的最大距离。换句话说，它定义了目标单词周围的单词“窗口”，该目标单词将被视为其上下文。较小的窗口倾向于捕获更多的句法关系，而较大的窗口则捕获更多的语义关系。例如，window=5意味着算法将目标单词左侧的五个单词和右侧的五个单词视为其上下文。

min_count：该参数定义单词的最小频率计数。出现次数少于此阈值的单词将被忽略。这有助于删除稀有单词，从而减少数据中的噪声并提高单词表示的质量。在您的示例中，min_count=1意味着模型会考虑所有单词，无论它们出现的频率如何。

workers：该workers参数指定训练模型时使用的工作线程数量，这会影响训练过程的速度。这与并行处理相关，可以加快多核机器上的训练速度。较多的工作线程可以显着加快训练速度，但这取决于机器的 CPU 功能。workers=4意味着该模型将使用四个工作线程。