如何在Python中实现文本相似度比较?

在Python中实现文本相似度比较可以通过多种方法,每种方法都有其适用场景和优缺点。以下是一些常见的文本相似度比较方法:

1. 余弦相似度(Cosine Similarity)

余弦相似度是通过计算两个向量之间夹角的余弦值来确定它们之间的相似度。在文本处理中,可以使用TF-IDF(Term Frequency-Inverse Document Frequency)将文本转换为向量。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 示例文本
text1 = "The quick brown fox jumps over the lazy dog"
text2 = "A fast brown fox leaped over the dog"

# 使用TF-IDF向量化文本
vectorizer = TfidfVectorizer().fit_transform([text1, text2])

# 计算余弦相似度
cosine_sim = cosine_similarity(vectorizer[0:1], vectorizer[1:2])[0][0]
print(f"Cosine Similarity: {cosine_sim}")

2. Jaccard 相似度

Jaccard 相似度是衡量两个集合相似度的一种方法,通过计算两个集合交集的大小与并集的大小之比得到。

def jaccard_similarity(text1, text2):
    set1 = set(text1.split())
    set2 = set(text2.split())
    intersection = set1.intersection(set2)
    union = set1.union(set2)
    return len(intersection) / len(union)

text1 = "The quick brown fox jumps over the lazy dog"
text2 = "A fast brown fox leaped over the dog"

similarity = jaccard_similarity(text1, text2)
print(f"Jaccard Similarity: {similarity}")

3. Levenshtein 距离(编辑距离)

Levenshtein 距离是两个序列之间的距离,定义为将一个序列转换为另一个序列所需的最少单字符编辑(插入、删除或替换)次数。

from Levenshtein import distance

text1 = "example text one"
text2 = "sample text one"

distance = distance(text1, text2)
similarity = 1 - distance / max(len(text1), len(text2))
print(f"Levenshtein Similarity: {similarity}")

4. Ratcliff/Obershelp 算法

这是一种字符串比较算法,用于计算两个字符串之间的相似度。

from ratcliff_obershelp import similarity

text1 = "example text one"
text2 = "sample text one"

similarity_score = similarity(text1, text2)
print(f"Ratcliff/Obershelp Similarity: {similarity_score}")

5. Word2Vec 和 Doc2Vec

这些是基于深度学习的文本相似度比较方法,它们使用预训练的词嵌入(如Word2Vec)或文档嵌入(如Doc2Vec)来将文本转换为向量,然后使用余弦相似度等度量来比较这些向量。

from gensim.models import Word2Vec

# 假设word2vec_model是一个预训练的Word2Vec模型
text1 = "The quick brown fox jumps over the lazy dog"
text2 = "A fast brown fox leaped over the dog"

# 使用Word2Vec模型将文本转换为向量
vector1 = word2vec_model.wmdistance(text1.split(), text2.split())
print(f"Word2Vec Similarity: {vector1}")

6. BERT 和其他 Transformer 模型

最新的自然语言处理模型,如BERT,可以用于计算文本之间的相似度。这些模型能够捕捉到文本的深层语义信息。

from transformers import BertModel, BertTokenizer

# 初始化BERT的分词器和模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# 将文本转换为BERT的输入格式
text1 = "The quick brown fox jumps over the lazy dog"
text2 = "A fast brown fox leaped over the dog"

encoded1 = tokenizer(text1, return_tensors='pt')
encoded2 = tokenizer(text2, return_tensors='pt')

# 使用BERT模型获取向量表示
with torch.no_grad():
    output1 = model(**encoded1)
    output2 = model(**encoded2)

# 计算余弦相似度
cosine_sim = cosine_similarity(output1.last_hidden_state[:, 0, :], output2.last_hidden_state[:, 0, :])[0][0]
print(f"BERT Similarity: {cosine_sim}")

注意事项

  • 文本预处理:在进行相似度比较之前,通常需要对文本进行预处理,如分词、去除停用词、词干提取或词形还原等。
  • 选择方法:根据具体应用场景和需求选择最合适的方法。例如,如果需要捕捉语义层面的相似度,可能需要使用深度学习方法。

这些方法各有优势,你可能需要根据你的具体需求和资源来选择最合适的一种或几种方法的组合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/608695.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

5.9号模拟前端面试10问

5.9号模拟前端面试10问 1.html语义化的理解 HTML语义化是指使用具有明确含义的HTML标签来描述内容&#xff0c;而不仅仅是使用<div>和<span>等通用容器标签。语义化的HTML代码更易于阅读和维护&#xff0c;同时也有助于搜索引擎优化&#xff08;SEO&#xff09;。…

前端基础知识-ES6扩展运算符(快速实现数组添加新元素、字符串转为数组、对象添加新属性)

前言&#xff1a; 扩展运算符又称为Rest运算符&#xff0c;可以实现数组、对象、字符串在语法层面上的展开&#xff0c;达到简化语法的目的&#xff0c;使得我们提高开发效率 主要用法&#xff1a; 在需要解构的变量前加三个点&#xff08;...xxx&#xff09; 具体示例&…

大数据毕业设计Python+Django地铁客流量预测 时间序列 深度学习 机器学习 人工智能 Python爬虫 计算机毕业设计

​ 博主介绍&#xff1a;全网粉丝100W,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业毕业设计项目实战6年之久&#xff0c;选择我们就是选择放心、选择安心毕业感兴趣的可以先收藏起来&#xff0c;点赞、关注不迷路 西安工程大学本科毕业设计&#xff…

Xamarin.Android项目网络串口助手怎么通过路由器跟PC网络串口连接

AndroidManifest.xml ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/1ae7cd0d03c84343a62bccfd92e45d2c.png)

Mendix创客访谈录|助力工业领域,Mendix与IIOT相融合

本期创客 汤登揆 太平洋电信股份有限公司 AI 技术支持工程师 大家好&#xff0c;我是汤登揆&#xff0c;帝国理工大学&#xff0c;生态算法专业&#xff0c;主要关注于产品结构分析和产品应用落地。 目前任职于太平洋电信股份有限公司&#xff0c;主要专注于AI大模型的应用落地…

python3.12.0 在Linux 制作镜像包 部署到docker 全过程

项目结构&#xff1a; 比如&#xff0c;在pycharm里需要运行 themain.py 1、上传Linux的目录结构&#xff1a; Dockerfile 文件需要制作&#xff1a; 这里是关键&#xff1a; #基于的基础镜像 FROM python:3.12.0 #代码添加到code文件夹 ADD ./EF_NFCS /code #设置code文…

工厂的隐性成本有哪些?如何应对?

隐性成本是指企业在生产过程中不易被察觉或量化的成本&#xff0c;它们往往隐藏在企业的日常运营中&#xff0c;但同样会对企业的总成本产生影响。 工厂的隐性成本有哪些&#xff1f; 工厂的隐性成本主要包括以下几个方面&#xff1a; 1、停滞资源成本&#xff1a;如闲置的机…

effective python学习笔记_推导与生成

用推导取代map和filter 序列推导可取代map和filter&#xff0c;优越性有&#xff1a;1可读性强2不需要map的函数 控制推导逻辑的子表达式不要超过2个 即推导的for层数最多建议两层&#xff0c;多了可读性会下降&#xff0c;反而用for循环会清晰 一层for内可连接多个if&…

LifeCycle之ProcessLifeCycleOwner

问题&#xff1a;想要知道应用程序当前处在前台、后台、或从后台回到前台&#xff0c;想要知道应用的状态&#xff0c; LifeCycle提供了ProcessLifeCycleOwner的类&#xff0c;方便我们知道整个应用程序的生命周期情况 ProcessLifeCycleOwner 使用方法 1.首先添加依赖 imple…

初学者理解Transformer,本文is all you need

要问现在AI领域哪个概念最热&#xff0c;必然是openAI推出chatGPT之后引发的大模型。然而这项技术的起源&#xff0c;都来自一篇google公司员工的神作“Attention Is All You Need”——本文标题也是一种致敬^_^&#xff0c;目前已有近12万的引用(还在增长)。 在“Attention Is…

【qt】容器的用法

容器目录 一.QVertor1.应用场景2.增加数据3.删除数据4.修改数据5.查询数据6.是否包含7.数据个数8.交换数据9.移动数据10.嵌套使用 二.QList1.应用场景2.QStringList 三.QLinkedList1.应用场景2.特殊点3.用迭代器来变量 四.QStack1.应用场景2.基本用法 五.QQueue1.应用场景2.基本…

【设计模式】JAVA Design Patterns——Abstract-document

&#x1f50d; 目的 使用动态属性&#xff0c;并在保持类型安全的同时实现非类型化语言的灵活性。 &#x1f50d; 解释 抽象文档模式使您能够处理其他非静态属性。 此模式使用特征的概念来实现类型安全&#xff0c;并将不同类的属性分离为一组接口 真实世界例子 考虑由多个部…

【Linux】在Linux中执行命令ifconfig, 报错-bash:ifconfig: command not found解决方案

一、报错信息 ifconfig 报错-bash:ifconfig: command not found 同时&#xff0c;通过ip addr查看&#xff0c;也看不到IP信息 二、解决方案 找到ifcfg-ens0文件&#xff0c;此文件的目录在/etc/sysconfig/network-scripts目录下 命令&#xff1a;cd /etc/sysconfig/network…

89C52单片机+ESP8266做的物联网+反馈 e4a手机客户端源程序

资料下载地址&#xff1a;89C52单片机ESP8266做的物联网反馈 e4a手机客户端源程序 MCU是89C52单片机 WiFi模块是ESP8266 其他 8路继电器 电源模块 使用贝壳物联做服务器 还有客户端。 也可以用花生壳做内网穿透&#xff0c;8266做服务器&#xff0c;也可以实现物联以及反馈&a…

vue多选功能

废话不多说&#xff0c;直接上代码&#xff01;&#xff01;&#xff01; <template><div class"duo-xuan-page"><liv-for"(item, index) in list":key"index"click"toggleSelection(item)":class"{ active: sel…

[前后端基础]图片详解

[前后端基础]图片传输与异步-CSDN博客 https://juejin.cn/post/6844903782959022093#heading-3 base64、file和blob用JS进行互转的方法大全【前端】_js base64转blob-CSDN博客 后端存储方式 对于第一种存储方式&#xff0c;我们前端直接将存储路径赋值给 src 属性即可轻松显示。…

react项目中封装一个通用的边界Boundary

# Boundary 通用的边界,同时是一个Suspense 和一个 ErrorBoundary 正常情况不直接用,使用一下几个封装好的: -Boundary.FullSizeLoading: 占满父容器全部高度,居中显示等待动画; -Boundary.Loading: 占满一行,显示一个普通尺寸的等待动画; -Boundary.Blank: 什么都不显示…

Hadoop3:HDFS的Shell操作(常用命令汇总)

一、简介 什么是HDFS的Shell操作&#xff1f; 很简单&#xff0c;就是在Linux的终端&#xff0c;通过命令来操作HDFS。 如果&#xff0c;你们学习过git、docker、k8s&#xff0c;应该会发现&#xff0c;这些命令的特点和shell命令非常相似 二、常用命令 1、准备工作相关命令…

let命令

let 命令 let 与 var 二者区别&#xff1a; 作用域不同&#xff1a;变量提升&#xff08;Hoisting&#xff09;&#xff1a;临时性死区重复声明&#xff1a; 联系&#xff1a;举例说明&#xff1a; 块级作用域 块级作用域的关键字使用 var&#xff08;无块级作用域&#xff09;…

x64dbg中类似于*.exe+地址偏移

在CE和xdb中&#xff0c;形如*.exe数字偏移形式的地址被称为模块地址&#xff0c;CE附加到进程后点击查看内存&#xff0c;显示如下图 这种地址学名叫做模块地址&#xff0c;在x64dbg中显示如下图&#xff1a; CE中可以关闭&#xff0c;从而显示绝对的虚拟地址&#xff0c;如下…
最新文章