pycorrector检测OCR错字实践

参考:https://github.com/shibing624/pycorrector/tree/master/examples/macbert

stopwords.txt 添加专业停用词,避免错误

设置自定义词典,避免将正确的词错误检测成错误的词

from pycorrector import Corrector
m = Corrector()
m.set_custom_word_freq(path='./dictionary/dict.txt')

在这里插入图片描述
去掉拼音纠正(OCR不会出现同音错误,更正后检测到的数量少了30%)
更改corrector.py内容,路径类似 miniconda/envs/env_name/lib/python3.x/site-packages/pycorrector/corrector.py
在这里插入图片描述
更改miniconda/envs/env_name/lib/python3.x/site-packages/pycorrector/proper_corrector.py文件
注释掉拼音相似度的比较 self.get_word_pinyin_similarity_score(word1, word2) 太慢,算了
在这里插入图片描述

vim xxxx/lib/python3.9/site-packages/pycorrector/data/proper_name.txt
设置专业名词词典

dector自定义频数
self.word_freq = {}
在这里插入图片描述

get_wor_simi
在这里插入图片描述

一些地名容易被检测成错字,提取地名代码

from pprint import pprint
from paddlenlp import Taskflow
schema = ['校区名称']   # Define the schema for entity extraction

ie = Taskflow('information_extraction', schema=schema)

pprint(ie("实验班,第一年在通州校区,第二至四年在平乐园校区")) 

在这里插入图片描述

from paddlenlp import Taskflow 报错ModuleNotFoundError: No module named ‘paddle.nn.layer.layers’

在使用paddle框架时,遇到以上错误,原因是版本不兼容。

paddlepaddle 2.4.2时 会自动安装最新版的paddlenlp 目前paddlenlp版本是2.6.0 该版本与paddlepaddle 2.4.2不兼容会报这个错

手动pip安装paddlenlp 2.5.2
参考:https://blog.csdn.net/qq_56942824/article/details/133776987

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/474128.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Mysql——基础命令集合

目录 前期准备 先登录数据库 一、管理数据库 1.数据表结构解析 2.常用数据类型 3.适用所有类型的修饰符 4.使用数值型的修饰符 二、SQL语句 1.SQL语言分类 三、Mysql——Create,Show,Describe,Drop 1.创建数据库 2.查看数据库 3.切换数据库 4.创建数据表 5.查看…

ELK快速搭建图文详细步骤

目录 一、下载地址二、安装docker-compose(已安装则跳过)三、初始化ELK1. 赋予/setup/entrypoint.sh执行权限2. 初始化 docker-elk 所需的 Elasticsearch 用户和组3. 重置默认用户的密码4. 替换配置文件中的用户名和密码5. 重启 Logstash 和 Kibana,使用新密码重新连…

改进粒子群优化算法||粒子群算法变体||Improved particle swarm optimization algorithm

粒子群算法(Particle Swarm Optimization,PSO)是一种基于群体智能的优化算法,其思想来源于鸟群寻食和鱼群捕食等自然现象。PSO算法通过模拟群体智能的行为,以一种启发式的方式寻找最优解,因此具有全局搜索能…

【FAQ】BSV区块链代码库常见问题解答

​​发表时间:2024年2月27日 BSV区块链协会上线了JavaScript和TypeScript SDK(即“标准开发工具包”)。TypeScript SDK旨在为开发者提供新版统一核心代码库,让开发者可以在BSV区块链上便捷地进行开发,尤其是开发那些可…

C语言中的联合和枚举(未完)

1、联合体 联合体类型的声明 像结构体⼀样,联合体也是由⼀个或者多个成员构成,这些成员可以不同的类型。但是编译器只为最⼤的成员分配⾜够的内存空间。联合体的特点是所有成员共⽤同⼀块内存空间。所以联合体也叫:共⽤体。因为所有变量公用…

echart多折线图堆叠 y轴和实际数据不对应

当使用 ECharts 绘制堆叠折线图时,有时会遇到 y 轴与实际数据不对应的问题。 比如明明值是50,但折线点在y轴的对应点却飙升到了二百多 解决办法: 查看了前端代码发现在echart的图表中有一个‘stack’的属性,尝试把他删除之后y轴的…

流畅的 Python 第二版(GPT 重译)(八)

第十五章:关于类型提示的更多内容 我学到了一个痛苦的教训,对于小程序来说,动态类型很棒。对于大型程序,你需要更加纪律严明的方法。如果语言给予你这种纪律,而不是告诉你“嗯,你可以做任何你想做的事情”&…

航顺车规级SoC全新亮相,助推汽车智能化发展

受益于汽车电动化、智能化和网联化的推进,汽车车身域和座舱域MCU市场规模持续扩大。据统计,2021年中国车载芯片MCU市场规模达30.01亿美元,同比增长13.59%,预计2025年市场规模将达42.74亿美元。 在技术要求方面,对…

DXP学习1-使用DXP软件创建工程并熟悉相关操作

目录 实验内容(任务) PCB项目文件及原理图文件的创建及保存: 熟悉窗口界面、主菜单、各工具栏及图纸参数的设置: 首先先通过"纸张选择"做如下修改 修改纸张大小👇 修改标题栏的格式👇 修改…

21---EEPROM电路设计

视频链接 EEPROM电路设计01_哔哩哔哩_bilibili EEPROM电路设计 1、存储器的分类 一般根据掉电丢失来划分的存储器。可分为易失性存储器和非易失性储存器。 ROM在系统停止供电的时候仍然可以保持数据,而RAM通常都是在掉电之后就丢失数据。 1.1、易失性存储器-R…

AI颠覆教学系统,ChatGPT对应试教育会带来哪些挑战?

ChatGPT爆火两个月,整个教育系统都在被颠覆。在全美范围内,许多大学教授、系主任和管理人员,都在对课堂进行大规模的调整,以应对ChatGPT对教学活动造成的巨大冲击。 我们的传统中高考选出的分霸,是更能吃苦&#xff0…

说说对Css预编语言的理解?有哪些区别?

文章目录 一、是什么二、有哪些sasslessstylus 三、区别基本使用嵌套变量作用域混入代码模块化 参考文献 一、是什么 Css 作为一门标记性语言,语法相对简单,对使用者的要求较低,但同时也带来一些问题 需要书写大量看似没有逻辑的代码&#…

【机器学习】基于粒子群算法优化的BP神经网络分类预测(PSO-BP)

目录 1.原理与思路2.设计与实现3.结果预测4.代码获取 1.原理与思路 【智能算法应用】智能算法优化BP神经网络思路【智能算法】粒子群算法(PSO)原理及实现 2.设计与实现 数据集: 多输入多输出:样本特征24,标签类别4…

【算法】雪花算法生成分布式 ID

SueWakeup 个人中心:SueWakeup 系列专栏:学习Java框架 个性签名:人生乏味啊,我欲令之光怪陆离 本文封面由 凯楠📷 友情赞助播出! 目录 1. 什么是分布式 ID 2. 分布式 ID 基本要求 3. 数据库主键自增 4. UUID 5. S…

Day74:WEB攻防-机制验证篇重定向发送响应状态码跳过步骤验证码回传枚举

目录 验证码突破-回传显示&规律爆破 某目标回显显示 某APP验证码爆破 验证目标-重定向用户&重定向发送 某CMS重定向用户 某CMS重定向发送 验证逻辑-修改响应包&跳过步骤URL 某APP修改响应包 某APP跳过步骤URL 实战SRC验证逻辑挖掘分享案例 短信验证码回…

01. Java 中的数据类型

数据类型 Java 是一门强语言,语言的数据类型分为:八种基本类型和三种引用类型(数组, class, interface)。在声明变量或常量时必须指定数据类型。 整数类型 Java 中整数类型都是有符号型。 整型分为int(默认), byte、short、int 和 long 四种类型&#…

Oracle19C图形界面安装教程

文章目录 一、安装前的准备1、安装Linux操作系统2、配置网络源或者本地源3、hosts文件配置 二、Oracle19c安装过程1、安装相关软件:2、用户与组:3、修改内核参数:4、资源限制:5、配置用户环境变量:6、创建相关文件目录…

NASA数据集——2017-2019年阿拉斯加和加拿大北极地区RGB 合成图像V2(L1/L2数据集)

简介 ABoVE: Hyperspectral Imagery AVIRIS-NG, Alaskan and Canadian Arctic, 2017-2019 V2 高光谱成像 AVIRIS-NG,阿拉斯加和加拿大北极地区,2017-2019 V2 摘要 本数据集提供了机载可见光/红外成像分光计-下一代(AVIRIS-NG)…

用Compute Shader处理图像数据后在安卓机上不能正常显示渲染纹理

1)用Compute Shader处理图像数据后在安卓机上不能正常显示渲染纹理 2)折叠屏适配问题 3)Prefab对DLL中脚本的引用丢失 4)如何优化Unity VolumeManager中的ReplaceData 这是第378篇UWA技术知识分享的推送,精选了UWA社区…

智慧公厕助力“厕所革命”,方便小事关乎文明大事

公共厕所是城市文明建设的重要组成部分,而智慧公厕则是厕所变革的一项全新举措。通过物联网、互联网、大数据、云计算、自动化控制技术的应用,智慧公厕实现了对公共厕所全方位的业务融合和智能化管理。下面将以智慧公厕源头实力厂家广州中期科技有限公司…