利用tf-idf对特征进行提取

TF-IDF是一种文本特征提取的方法,用于评估一个词在一组文档中的重要性。 

一、代码

from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

def print_tfidf_words(documents):
    """
    打印TF-IDF矩阵中每个文档中非零值对应的单词及其概率。
    
    Parameters:
    - documents: list,包含文档的列表
    
    Returns:
    - None
    """
    # 创建TF-IDF向量化器
    vectorizer = TfidfVectorizer()
    
    # 对文档集合进行拟合和转换
    tfidf_matrix = vectorizer.fit_transform(documents)
    
    # 获取特征词列表
    feature_names = vectorizer.get_feature_names_out()

    # 将TF-IDF矩阵转换为稠密矩阵
    # 在TF-IDF矩阵中,每一行代表一个文档,每一列代表一个特征词
    # 非零值对应的列索引  就是  该文档中的非零权重对应的单词  在特征词列表中的索引
    # dense_tfidf_matrix 是一个 NumPy 稠密矩阵,可以使用索引操作符 [row, column] 来获取矩阵中的特定元素
    dense_tfidf_matrix = tfidf_matrix.todense()
    
    # 打印每个文档中非零值对应的单词及其概率
    for i, document in enumerate(dense_tfidf_matrix):
        nonzero_indices = document.nonzero()[1]
        dic = {idx: document[0, idx] for idx in nonzero_indices}
        # 根据概率进行排序
        sorted_dic = dict(sorted(dic.items(), key=lambda x: x[1], reverse=True))
        words = {feature_names[k]: v for k, v in sorted_dic.items()}
        print(f"文档 {i + 1} 中的非零值对应的单词及其概率:{words}")

    # 打印特征词对应的索引
    print("Feature indices:", {feature: index for index, feature in enumerate(feature_names)})

# 示例文档集合
documents = [
    "This is the first document.",
    "This document is the second document.",
    "And this is the third one.",
    "Is this the first document?"
]

# 调用函数打印结果
print_tfidf_words(documents)

二、结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/246474.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

单片机的各个通信协议的波特率

下面是一些常见的波特率数值,这些波特率通常被用于串口通信,SPI、I2C、CAN等接口的实际波特率可能有所不同: USART: 110 bps 300 bps 600 bps 1200 bps 2400 bps 4800 bps 9600 bps 14400 bps 19200 bps 38400 bps 56000 bps 57600 bps 11520…

一文掌握Spring Boot热部署技巧,告别频繁重启!

频繁地重启应用,导致开发效率降低,加班随之而来。有没有什么办法,能让 Spring Boot 项目热部署呢,从而不用每次都手点。答案是肯定的。 第一步:添加 spring-boot-devtools 依赖 Spring Boot 提供了 spring-boot-devt…

Apple Find My「查找」认证芯片找哪家,认准伦茨科技ST17H6x芯片

深圳市伦茨科技有限公司(以下简称“伦茨科技”)发布ST17H6x Soc平台。成为继Nordic之后全球第二家取得Apple Find My「查找」认证的芯片厂家,该平台提供可通过Apple Find My认证的Apple查找(Find My)功能集成解决方案。…

2-2基础算法-Nim和/前缀和/差分

文章目录 一.Nim和二.前缀和&区间和三.差分 一.Nim和 Nim游戏是一个数学策略游戏,通常涉及两名玩家轮流从几堆物品(如石子或饼干)中取走一定数量的物品。每个玩家每次可以从任意一堆中取走任意数量的物品,但必须至少取走一个…

使用Pytorch从零开始构建StyleGAN

本文介绍的是当今最好的 GAN 之一,来自论文《A Style-Based Generator Architecture for Generative Adversarial Networks》的 StyleGAN ,我们将使用 PyTorch 对其进行干净、简单且可读的实现,并尝试尽可能接近原始论文。 如果您没有阅读过…

设计模式(二)-创建者模式(5)-建造者模式

一、为何需要建造者模式(Builder)? 在软件系统中,会存在一个复杂的对象,复杂在于该对象包含了很多不同的功能模块。该对象里的各个部分都是按照一定的算法组合起来的。 为了要使得复杂对象里的各个部分的独立性,以及…

一篇文章讲透TCP/IP协议

1 OSI 7层参考模型 2 实操连接百度 nc连接百度2次,使用命令netstat -natp查看就会重新连接一次百度 请求百度 3 三次握手、socket 应用层协议控制长连接和短连接 应用层协议->传输控制层(TCP UDP)->TCP( 面向连接&am…

02-MQ入门之RabbitMQ简单概念说明

二:RabbitMQ 介绍 1.RabbitMQ的概念 RabbitMQ 是一个消息中间件:它接受并转发消息。你可以把它当做一个快递站点,当你要发送一个包裹时,你把你的包裹放到快递站,快递员最终会把你的快递送到收件人那里,按…

Linux-----5、文件系统

# 文件系统 # 终端的基本操作 ㈠ 打开多个终端 ㈡ 快速清屏 新建标签:command T 新建窗口:command N 关闭标签:command Q 关闭窗口:command W 放大:command 缩小:command - 清屏&#xff…

【XR806开发板试用】+2.鸿蒙内核

非常感谢基于安谋科技STAR-MC1的全志XR806 Wi-FiBLE开源鸿蒙开发板试用活动!非常感谢极术社区!非常感谢极术小姐姐!非常感谢全志在线开发者社区!非常感谢通过试用申请!非常感谢安谋科技! 接上一篇&#xff…

[C++] 虚函数、纯虚函数和虚析构(virtual)

📢博客主页:https://blog.csdn.net/weixin_43197380📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!📢本文由 Loewen丶原创,首发于 CSDN,转载注明出处🙉&…

解决nuxt3引入图片报错:ReferenceError: require is not defined

现象: 原因:在nuxt3中不支持require的方式引入图片/文件等静态资源。 解决办法: 1. 直接在img标签中的src属性里写明图片的路径,但是此时src前面不能有冒号做动态绑定!: src"/assets/images/loading…

Tekton 基于 gitlab 触发流水线

Tekton 基于 gitlab 触发流水线 Tekton EventListener 在8080端口监听事件,Gitlab 提交代码产生push 事件,gitlab webhook触发tekton流水线执行。 前置要求: kubernetes集群中已部署 tekton pipeline、tekton triggers以及tekton dashboa…

CSS特效030:日蚀动画

CSS常用示例100专栏目录 本专栏记录的是经常使用的CSS示例与技巧,主要包含CSS布局,CSS特效,CSS花边信息三部分内容。其中CSS布局主要是列出一些常用的CSS布局信息点,CSS特效主要是一些动画示例,CSS花边是描述了一些CSS…

Amazon CodeWhisperer:AI 编程助手

文章作者:prigioni 1. 什么是 Amazon CodeWhisperer? Amazon CodeWhisperer 能够理解以自然语言(英语)编写的注释,并能实时生成多条代码建议,以此提高开发人员生产力。该服务可以直接在集成开发环境&#…

C# URL参数编码

string s "lw123abc测试信息!#¥%……&*()——"; Console.WriteLine("原数据:\t\t" s); String s2 Uri.EscapeDataString(s);//Uri.EscapeDataString() 编码 Console.WriteLine("Hexdata:\t&qu…

spring 笔记五 SpringMVC的数据响应

文章目录 SpringMVC的数据响应SpringMVC的数据响应方式回写数据 SpringMVC的数据响应 SpringMVC的数据响应方式 页面跳转 直接返回字符串通过ModelAndView对象返回 回写数据 直接返回字符串返回对象或集合 返回字符串形式 直接返回字符串:此种方式会将返回的字符…

风速预测(四)基于Pytorch的EMD-Transformer模型

目录 前言 1 风速数据EMD分解与可视化 1.1 导入数据 1.2 EMD分解 2 数据集制作与预处理 2.1 先划分数据集,按照8:2划分训练集和测试集 2.2 设置滑动窗口大小为7,制作数据集 3 基于Pytorch的EMD-Transformer模型预测 3.1 数据加载&am…

2024 年 值得收藏的10 款顶级 Windows 数据恢复软件

您是否需要并搜索过某个文件或文件夹,却发现您最近不小心删除了它?或者更糟糕的是,您不知道文件/文件夹发生了什么,因为由于某种原因,它从您的驱动器中消失了?这些事情会造成伤害并且可能令人沮丧&#xff…

使用Redis构建简单的社交网站

文章目录 第1关:创建用户与动态第2关:处理用户关系第3关:状态与信息流 第1关:创建用户与动态 编程要求 在Begin-End区域编写 create_user(login_name, real_name) 函数,实现创建新用户的功能,具体参数与要…
最新文章