人工智能学习6(贝叶斯实现简单的评论情感分析)

编译工具PyCharm

文章目录

      • 编译工具PyCharm
  • 文本分析与表示
    • 实现方式:
    • 文本表示方法
    • 文本相似度计算
    • LDA主题模型
  • 朴素贝叶斯算法
    • 应用:评论情感分析,工具评论分析是好评还是差评
      • 获取数据
      • 加载停用词
      • 内容标准化(将每一句话划分成一个个的词)
      • 统计词的个数
      • 模型训练及预测

文本分析与表示

文本分析基于深度学习和自然语言处理的原则工作。

实现方式:

正则表达式REGEX:指作为需提取内容的前提条件的特定格式化符号数组
条件随机场CRFs:之通过评估特定模式或短语提取文本的机器学习方法,更加精细和灵活。

文本表示方法

one-hot是指在一个向量中,只有一个位置上的值是1,其他位置都是0.缺点:无法表现词与词之间的语义关系,当数据量大的时候,维数也会变得很大。
Bag of Words(词袋表示):也成为Count Vectors,每个文档的字词可以使用其出现次数来进行表示。缺点:会忽略文本的表达顺序,如我爱你和你爱我,表示都一样。
N-gram:与Count Vectors类似,不过加入了相邻单词组合成新的单词,并且进行计数。
TF-IDF关键词提取:两部分组成,词频TF逆文档概率IDF
TF=某个词在文中出现的次数/文本中一共包含多少个词
IDF=log(语料库的文档总数/包含该词的文档数)

文本相似度计算

余弦相似度

LDA主题模型

LDA主题模型不关心词的顺序,用bag of words词袋表示。

朴素贝叶斯算法

在这里插入图片描述
朴素贝叶斯假定特征与特征相互独立
在这里插入图片描述
但是如果词频列表里有很多出现的次数为0,是计算结果可能为0;

解决方法:拉普拉斯平滑系数
在这里插入图片描述
例如:特征词个数为6
在这里插入图片描述

应用:评论情感分析,工具评论分析是好评还是差评

data.csv数据如下

内容,评价
从编程小白的角度看,入门极佳,好评
很好的入门书,简洁全面,适合小白,好评
讲解全面,许多小细节都有顾及,三个小项目受益匪浅,好评
前半部分讲概念深入浅出,要言不烦,很赞,好评
看了一遍还是不会写,有个概念而已,差评
中规中矩的教科书,零基础的看了依旧看不懂,差评
内容太浅显,个人认为不适合有其它语言编程基础的人,差评
破书一本,差评
适合完完全全的小白读,有其他语言经验的可以去看别的书,差评
基磁知识写的挺好的!,好评
太基础,差评
略_嗦。。适合完全没有编程经验的小白,差评
真的真的不建议买,差评

stopwords.csv上网找一个中文禁用词表即可,我用的是这一篇博客提供的。
https://blog.csdn.net/dilifish/article/details/117885706

获取数据

import pandas as pd

# 获取数据
data = pd.read_csv("./data/data.csv")
# 数据基本处理
content = data['内容']
# print(content)
# 将评价中的好差评转换为数字
# 添加一列为评价编号,如果是好评评价编号为1,差评为0
data.loc[data.loc[:,'评价']=="好评","评价编号"]=1
data.loc[data.loc[:,'评价']=="差评","评价编号"]=0
print(data)

在这里插入图片描述

加载停用词

# 加载停用词
stopwords = []
with open("./data/stopwords.csv","r",encoding="utf-8") as f:
    lines=f.readlines()
    print(lines)
    # 有些数据并不是按照一行一行排序的,而是很乱,一个数据里面含\n进行换行
    # 通过下面的方法可以将其变成一行一行排列的
    for tmp in lines:
        line = tmp.strip()
        print(line)
        stopwords.append(line)
# 去重
stopwords = list(set(stopwords))
print(stopwords)

在这里插入图片描述
去重后的数据
在这里插入图片描述

内容标准化(将每一句话划分成一个个的词)

# 内容标准化
# 将每一句话划分成词
comment_list=[]
for tmp in content:
    print(tmp)
    # 对文本进行切割
    seg_list=jieba.cut(tmp,cut_all=False)
    print(seg_list)     # 这个只能打印出对象
    # 拼接字符串
    seg_str = ','.join(seg_list)
    print(seg_str)
    comment_list.append(seg_str)
print(comment_list)

在这里插入图片描述
comment_list打印出来
在这里插入图片描述

统计词的个数

# 统计词的个数
# from sklearn.feature_extraction.text import CountVectorizer
con = CountVectorizer(stop_words=stopwords)
X = con.fit_transform(comment_list)
name = con.get_feature_names_out()
print(X.toarray())
print(name)

打印出来的矩阵
在这里插入图片描述
矩阵分别对应的字词
在这里插入图片描述

模型训练及预测

# 准备训练集和测试集
# 训练集
x_train = X.toarray()[:10,:]
y_train = data["评价"][:10]
# 测试集
x_test = X.toarray()[10:,:]
y_test = data["评价"][10:]
# 模型训练
# from sklearn.naive_bayes import MultinomialNB
# alpha=1即拉普拉斯平滑系数为1
mb = MultinomialNB(alpha=1)
mb.fit(x_train,y_train)
y_pre = mb.predict(x_test)
print("预测值: ",y_pre)
print("真实值: ",y_test)
# 模型评估
print(mb.score(x_test, y_test))
```![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/54bf7af8e9af44c7b0d22fed86cd0019.png)










本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/218038.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ESP32 freeRTOS笔记 参数传递、任务优先级

一、四种参数传递方式 1.1 整数传递 使用 (void *) 任何类型传递参数&#xff0c;通过地址传递给任务。 #include <stdio.h> #include "sdkconfig.h" #include "freertos/FreeRTOS.h" #include "freertos/task.h"void myTask(void *pvP…

简单了解HTTP报文及示例

简单了解HTTP报文及示例 HTTP报文请求报文响应报文通用首部字段Cache-ControlConnectionDate 请求首部字段AcceptAccept-CharsetAccept-EncodingAccept-LanguageHostIf-MatchIf-Modified-SinceIf-None-MatchRefererUser-Agent 响应首部字段Accpet-RangesAgeLocationServer 实体…

8.HTTP工作原理

HTTP是什么 HTTP工作原理 HTTP协议的请求类型和响应状态码 总结 1.HTTP是什么 HTTP超文本传输协议就是在一个网络中上传下载文件的一套规则 2.HTTP工作原理 HTTP超文本传输协议的本质是TCP通信&#xff0c;链接—>请求—>响应—>断开 3.HTTP协议的请求类型和响应状…

stm32L071KB单片机字节对齐问题

字节对齐问题由来很关键 字节对齐问题由来 字节对齐问题由来 在移植同事代码的时候发现到一个赋值变量的地方就会出现死机&#xff0c;进入hardfault,怎么也找不不到原因&#xff0c;最后没办法去了github https://github.com/armink/CmBacktrace/blob/master/README_ZH.md Cm…

AWS攻略——使用中转网关(Transit Gateway)连接同区域(Region)VPC

文章目录 环境准备创建VPC 配置中转网关给每个VPC创建Transit Gateway专属挂载子网创建中转网关创建中转网关挂载修改VPC的路由 验证创建业务Private子网创建可被外网访问的环境测试子网连通性Public子网到Private子网Private子网到Private子网 知识点参考资料 在《AWS攻略——…

Hadoop的介绍与安装

1 Hadoop的简介 Hadoop是一个开源的大数据框架&#xff0c;是一个分布式计算的解决方案。Hadoop是由java语言编写的&#xff0c;在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架&#xff0c;其核心部件是HDFS与MapReduce。 HDFS是一个分布式文件系统&#x…

新华三数字大赛复赛知识点 AAA

AAA的概念和架构&#xff0c;RADIUS和TACASS的原理和配置 AAA是网络访问控制的一种安全管理框架&#xff0c;他决定哪些的用户能够访问网络&#xff0c;以及用户能够访问哪些资源或者得到哪些服务。 第一个A&#xff1a;认证 认证用来识别访问网络的用户的身份&#xff0c;判断…

Proteus仿真--基于1602LCD与DS18B20设计的温度报警器

本文介绍基于1602LCD与DS18B20设计的温度报警器设计&#xff08;完整仿真源文件及代码见文末链接&#xff09; 仿真图如下 其中温度传感器选用DS18B20器件&#xff0c;主要用于获取温度数据并上传&#xff0c;温度显示1602LCD液晶显示器&#xff0c;报警模块选用蜂鸣器&#…

【电机控制】PMSM无感foc控制(五)相电流检测及重构 — 单电阻采样

0. 前言 相电流采样再FOC控制中是一个关键的环节&#xff0c;鉴于成本和易用性&#xff0c;目前应用较多的相电流采样方式是分流电阻采样&#xff0c;包括单电阻、双电阻以及三电阻采样法。 本章节先讲解单电阻采样相电流的检测及重构技术&#xff0c;在下一章讲解双电阻和三电…

linux 应用开发笔记---【标准I/O库/文件属性及目录】

一&#xff0c;什么是标准I/O库 标准c库当中用于文件I/O操作相关的一套库函数&#xff0c;实用标准I/O需要包含头文件 二&#xff0c;文件I/O和标准I/O之间的区别 1.标准I/O是库函数&#xff0c;而文件I/O是系统调用 2.标准I/O是对文件I/O的封装 3.标准I/O相对于文件I/O具有更…

spark sql基于RBO的优化

前言 这里只对RBO优化进行简单的讲解。讲解RBO之前必须对spark sql的执行计划做一个简单的介绍。 这个里讲解的不是很清楚&#xff0c;需要结合具体的执行计划来进行查看 1、执行计划 在spark sql的执行计划中&#xff0c;执行计划分为两大类&#xff0c;即逻辑执行计划、物…

基于Docker构建Python开发环境

1. Dockerfile dockerfile所在目录结构 FROM python:3.8 WORKDIR /leo RUN apt-get install -y wget RUN /bin/cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime && echo Asia/Shanghai >/etc/timezone # ssh免密登录 COPY id_rsa.pub /leo RUN mkdir ~/.s…

【Unity动画】状态机中层的融合原理与用法详解

1. 状态机概念介绍 在Unity中&#xff0c;动画状态机&#xff08;Animator State Machine&#xff09;是一种强大的工具&#xff0c;用于控制游戏对象的动画行为。动画状态机由多个动画状态Animation和过渡条件Transition、层组成&#xff01;而层&#xff08;Layers&#xff…

IDEA构建springBoot新项目时JDK只有17和21,无法选择JDK8解决方案

今天创建springboot新项目时&#xff0c;发现IDEA里JDK选项只有17和21&#xff0c;无法选择本机的JDK8&#xff0c;网上查资料后发现是springboot2.7于11.24号后停止维护&#xff0c;基于2.7和java8的spring Initializ官方不再维护&#xff0c;解决方案是在server URL栏&#x…

[RK-Linux] 移植Linux-5.10到RK3399(三)| 检查eMMC与SD卡配置

这个专题主要记录把 RK Linux-5.10 移植到 ROC-RK3399-PC Pro 的过程。 文章目录 一、eMMC二、SD 卡三、两个接口的区别一、eMMC RK3399 的 eMMC 接口如图: datasheet 介绍: 实际上,连接 eMMC 存储器用的是 SDHCI 接口。SDHCI(Secure Digital Host Controller Interface)…

【MySQL语言汇总[DQL,DDL,DCL,DML]以及使用python连接数据库进行其他操作】

MySQL语言汇总[DQL,DDL,DCL,DML] SQL分类1.DDL:操作数据库&#xff0c;表创建 删除 查询 修改对数据库的操作对表的操作复制表&#xff08;重点&#xff09;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; 2.DML:增删改表中数据3.DQL&#xff1a;查询表中的记录…

Pytorch CIFAR10图像分类 Swin Transformer篇

Pytorch CIFAR10图像分类 Swin Transformer篇 文章目录 Pytorch CIFAR10图像分类 Swin Transformer篇4. 定义网络&#xff08;Swin Transformer&#xff09;Swin Transformer整体架构Patch MergingW-MSASW-MSARelative position biasSwin Transformer 网络结构Patch EmbeddingP…

【深度学习】回归模型相关重要知识点总结

回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中&#xff0c;我们将总结 10 个重要的回归问题和5个重要的回归问题的评价指标。 一、线性回归的假设是什么 线性回归有四个假设&#xff1a; 线性&#xff1a;自变量&#xff08;x&#xff09;和因变量&#xff08;y&…

创新领航 | 竹云参编《基层智治系统安全接入规范》团体标准正式发布!

近日&#xff0c;由杭州市委办公厅&#xff08;市密码管理局&#xff09;、杭州市基层治理综合指挥保障中心、杭州市拱墅区社会治理中心、杭州市拱墅区数据资源管理局、杭州竹云数字智能科技有限公司、杭州智诚质量标准技术评定中心共同参与编写的《基层智治系统安全接入规范》…

录视频人不在电脑旁,怎么设置定时关机

如果你平常工作比较忙&#xff0c;或者要录制的视频/音频文件需要很长时间&#xff0c;最好选择预约录制&#xff0c;这样可使录屏软件自动开始和停止录制&#xff0c;并且定时关机。此外&#xff0c;你还可以设置保存录制文件、关闭录屏软件。是不是听起来很感兴趣&#xff1f…
最新文章