C#使用PaddleOCR进行图片文字识别✨

PaddlePaddle介绍✨

PaddlePaddle(飞桨)是百度开发的深度学习平台,旨在为开发者提供全面、灵活的工具集,用于构建、训练和部署各种深度学习模型。它具有开放源代码、高度灵活性、可扩展性和分布式训练等特点。PaddlePaddle支持端到端的部署,可以将模型轻松应用于服务器、移动设备和边缘设备。此外,PaddlePaddle拥有丰富的预训练模型库,涵盖图像分类、目标检测、语义分割等常见任务。社区支持和生态系统完善,为开发者提供了丰富的教程、文档和示例代码,助力深度学习模型的开发和应用。

image-20240409150044278

PaddleOCR介绍✨

PaddleOCR是基于飞桨(PaddlePaddle)深度学习框架开发的开源光学字符识别(OCR)工具。它提供了端到端的OCR解决方案,支持文本检测、文本识别以及关键点检测等功能。PaddleOCR具有高度灵活性和可扩展性,可以适应多种场景下的文本识别需求,包括身份证识别、车牌识别、表格识别等。通过预训练的模型,PaddleOCR能够实现高精度的文本检测和识别,同时支持多语言文本识别,包括中文、英文等。此外,PaddleOCR还提供了丰富的API接口和模型库,方便开发者快速集成和部署OCR功能,助力各种应用场景下的文本识别任务。

image-20240409150254061

PaddleSharp介绍✨

PaddleSharp是一个基于C#语言封装的飞桨(PaddlePaddle)深度学习框架的库。它为C#开发者提供了在熟悉的环境中利用飞桨强大功能的能力。PaddleSharp支持构建、训练和部署各种深度学习模型,包括图像分类、目标检测、语义分割等任务。该库提供了丰富的功能和工具,包括模型构建、预训练模型加载、高性能计算支持等。通过PaddleSharp,开发者可以利用飞桨底层计算库实现高性能的深度学习计算,有效地利用GPU或CPU资源。总体而言,PaddleSharp为C#开发者提供了一个便捷的工具,使他们能够在C#环境中轻松应用飞桨的深度学习功能。

image-20240409150607178

Winform界面设计✨

Winform界面设计如下:

image-20240409152517659

就两个按钮一个富文本框一个PictureBox。

步骤✨

安装对应的Nuget

image-20240409152810511

进行图片文字识别

使用的代码也比较简单:

FullOcrModel model = LocalFullModels.ChineseV3;
         
using (PaddleOcrAll all = new PaddleOcrAll(model, PaddleDevice.Mkldnn())
{
    AllowRotateDetection = true, /* 允许识别有角度的文字 */
    Enable180Classification = false, /* 允许识别旋转角度大于90度的文字 */
})
{
    // Load local file by following code:
    using (Mat src2 = Cv2.ImRead(selectedPicture))             
    {
        PaddleOcrResult result = all.Run(src2);
        richTextBox1.Text = result.Text;
    }
}
FullOcrModel model = LocalFullModels.ChineseV3;

这行代码创建了一个FullOcrModel对象,该对象表示PaddleOCR的模型。LocalFullModels.ChineseV3是一个预训练的模型,专门用于识别中文字符。

using (PaddleOcrAll all = new PaddleOcrAll(model, PaddleDevice.Mkldnn())
{
    AllowRotateDetection = true, /* 允许识别有角度的文字 */
    Enable180Classification = false, /* 允许识别旋转角度大于90度的文字 */
})

这段代码创建了一个PaddleOcrAll对象,该对象用于运行OCR模型并获取识别结果。PaddleDevice.Mkldnn()表示使用Intel的MKL-DNN库来加速计算。
AllowRotateDetection = true表示允许识别有角度的文字,即使文字并不完全水平,也能被识别。
Enable180Classification = false表示不允许识别旋转角度大于90度的文字,如果文字旋转的角度过大,可能无法被正确识别。
using关键字用于确保PaddleOcrAll对象在不再需要时能被正确地释放,避免内存泄漏。

 using (Mat src2 = Cv2.ImRead(selectedPicture))           

这行代码使用OpenCV的ImRead函数读取指定路径的图片文件,返回一个Mat对象,该对象是OpenCV用于表示图像的类。selectedPicture是图片文件的路径。using关键字确保Mat对象在不再需要时能被正确地释放,避免内存泄漏。

PaddleOcrResult result = all.Run(src2);

这行代码将读取的图片传递给PaddleOCR模型进行文字识别。all.Run(src2)会运行OCR模型并返回识别结果,结果被存储在PaddleOcrResult对象中。

PaddleOcrResult是一个record,属性有Regions与Text:

image-20240409154735628

本示例的Regins如下所示:

image-20240409154909409

本示例的Text如下所示:

image-20240409154937380

本示例的效果如下图所示:

image-20240409155006779

本示例全部代码:

using OpenCvSharp;
using Sdcb.PaddleInference;
using Sdcb.PaddleOCR.Models.Local;
using Sdcb.PaddleOCR.Models;
using Sdcb.PaddleOCR;
using System.Diagnostics;

namespace PaddleSharpDemo
{
    public partial class Form1 : Form
    {
        string selectedPicture;
        public Form1()
        {
            InitializeComponent();
        }
   
        private void button1_Click(object sender, EventArgs e)
        {
            OpenFileDialog openFileDialog = new OpenFileDialog();
            openFileDialog.Filter = "Image Files(*.BMP;*.JPG;*.GIF;*.PNG)|*.BMP;*.JPG;*.GIF;*.PNG|All files (*.*)|*.*";
            openFileDialog.FilterIndex = 1;
            openFileDialog.Multiselect = false;

            if (openFileDialog.ShowDialog() == DialogResult.OK)
            {
                selectedPicture = openFileDialog.FileName;
                MessageBox.Show($"您选中的图片路径为:{selectedPicture}");
                // 使用Image类加载图片
                Image image = Image.FromFile(selectedPicture);
                // 让PictureBox完全显示图片
                pictureBox1.SizeMode = PictureBoxSizeMode.Zoom;
                // 将图片显示在PictureBox中
                pictureBox1.Image = image;

            }
            else
            {
                MessageBox.Show("您本次没有选择任何图片!!!");
            }
        }

        private void button2_Click(object sender, EventArgs e)
        {
            FullOcrModel model = LocalFullModels.ChineseV3;
         
            using (PaddleOcrAll all = new PaddleOcrAll(model, PaddleDevice.Mkldnn())
            {
                AllowRotateDetection = true, /* 允许识别有角度的文字 */
                Enable180Classification = false, /* 允许识别旋转角度大于90度的文字 */
            })
            {
                // Load local file by following code:
                using (Mat src2 = Cv2.ImRead(selectedPicture))             
                {
                    PaddleOcrResult result = all.Run(src2);
                    richTextBox1.Text = result.Text;
                }
            }
        }
    }
}

PaddleOCR的命令行使用与Python脚本使用✨

我选择PaddleSharp的原因是想在C#中应用中直接使用,如果你不熟悉C#,可以选择在命令行或者Python脚本中使用PaddleOCR。

具体安装过程官网上有教程,其他人也出了很多教程,我这里就不重复说了,就简单演示一下命令行与Python脚本的使用。

命令行使用

命令:

paddleocr --image_dir ./封面.png --use_angle_cls true --use_gpu false

效果:

image-20240409160436352

Python脚本使用

Python脚本如下所示:

from paddleocr import PaddleOCR, draw_ocr

# Paddleocr目前支持的多语言语种可以通过修改lang参数进行切换
# 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
ocr = PaddleOCR(use_angle_cls=True, lang="ch")  # need to run only once to download and load model into memory
img_path = 'D:\\桌面\\2024.04学习内容\\封面.png'
result = ocr.ocr(img_path, cls=True)
for idx in range(len(result)):
    res = result[idx]
    for line in res:
        print(line)

# 显示结果
from PIL import Image
result = result[0]
image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='./fonts/simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')

效果如下所示:

image-20240409161320375

生成的图片如下所示:

image-20240409161447190

总结✨

之前分享过Spire.OCR做图片文字识别,但是识别准确率不及PaddleOCR,并且Spire.OCR还不是开源的,因此如果在使用C#的过程中遇到OCR的需求可以尝试使用PaddleOCR,以上就是本期的分享,希望对你有所帮助。

参考✨

1、PaddlePaddle/PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices) (github.com)

2、[sdcb/PaddleSharp: .NET/C# binding for Baidu paddle inference library and PaddleOCR (github.com)](

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/548104.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

大世界基尼斯见证辉煌,云仓酒庄首届酒类培训新高度诞生

近日,一场规模盛大的酒类培训盛会,在云仓酒庄的精心组织下圆满落幕。此次培训活动以其卓着的成果和盛大的规模,创下了大世界基尼斯纪录,为酒类培训领域树立了新的标杆。这一成就的取得,背后是云仓酒庄团队无数的心血与…

【JAVA进阶篇教学】第一篇:JDK8介绍

博主打算从0-1讲解下java进阶篇教学,今天教学第一篇:JDK8介绍。 Java 8 引入了许多令人兴奋的新特性,其中包括 Lambda 表达式、Stream API、函数式接口、方法引用、默认方法等。下面我将为您详细介绍这些新特性,并提供相应的代码…

代码随想录刷题随记22-回溯2

代码随想录刷题随记22-回溯2 216.组合总和III leetcode链接 注意与之前的题目不同的是需要求和。从左到右的范围尝试模型。 class Solution { public:void backtrace(vector<vector<int>> &ret,int k,int n,int index,vector<int>& path,int &…

【XR806开发板试用】软件模拟IIC驱动OLED显示图片自己遇到的坑

前言 首先&#xff0c;非常感谢极术社区和全志举办此次开发板申请试用活动。由于自己水平太低&#xff0c;拿到板子后不知道要干点啥&#xff0c;偶然看见一个大佬写的I2C外设使用及控制OLED屏显示&#xff0c;文章中使用了硬件IIC控制OLED&#xff0c;正好我手里也有一块OLED…

【ElasticSearch】安装

1.官网寻找合适版本下载 这里我选择的是8.11.1 2.解压并启动 然后在浏览器输入http://localhost:9200/&#xff0c;判断是否启动成功 如下所示&#xff0c;则表示启动成功 安装过程中遇到过几个bug&#xff0c;记录在这篇文章中 【ElasticSearch】安装&#xff08;bug篇&am…

MySQL——基础

SQL 全称 Structured Query Language&#xff0c;结构化查询语言。操作关系型数据库的编程语言&#xff0c;定义了一套操作关系型数据库统一标准 。 SQL 通用语法 SQL语句可以单行或多行书写&#xff0c;以分号结尾。SQL语句可以使用空格/缩进来增强语句的可读性。MySQL数据库…

mysql使用逗号分隔的一行数据转多行数据

文章目录 学习链接准备建表插入数据 方法MySQL逗号拼接的列拆分为多行&#xff08;不使用mysql.help_topic&#xff09;遇到字段以逗号分隔符分号分隔符存放多个值&#xff0c;需要一行转化多行&#xff0c;以用来关联&#xff08;使用mysql.help_topic&#xff09;改为LEFT JO…

git 上传代码到 github

准备工作 git Git LFS&#xff08;大文件>100Mb&#xff09; git 参考手册 github 建立仓库&#xff1a;New repository git 指令 git add . 用于将当前目录下的所有文件添加到 Git 仓库的暂存区中。 git add . 命令会将当前目录下的所有文件添加到 Git 仓库的暂存区中…

五、流程控制之循环

目录 5.1 步进循环语句for 5.1.1 带列表的for循环语句 5.1.2 不带列表的for循环语句 5.1.3 类C风格的for循环语句 5.2 while循环语句 5.2.1 while循环读取文件 5.2.2 while循环语句示例 5.3 until循环语句 5.4 select循环语句 5.5 嵌套循环 5.1 步进循环语句for for…

如何使用ArcGIS Pro进行路径分析

路径分析是一种空间分析技术&#xff0c;用于确定两个或多个地点之间最佳路径或最短路径&#xff0c;这里为大家介绍一下在ArcGIS Pro中如何进行路径分析&#xff0c;希望能对你有所帮助。 数据来源 教程所使用的数据是从水经微图中下载的道路数据&#xff0c;除了道路数据&a…

大厂面试:获取字符串的全排列

一、概念 现有一个字符串&#xff0c;要打印出该字符串中字符的全排列。例如输入字符串abc&#xff0c;则打印出由字符a、b、c所能排列出来的所有字符串abc、acb、bac、bca、cab和cba。 可以基于回溯法来解决这个问题。 二、代码 public class Permutation {//输出字符串str的全…

【自媒体创作利器】AI白日梦+ChatGPT 三分钟生成爆款短视频

AI白日梦https://brmgo.com/signup?codey5no6idev 引言 随着人工智能&#xff08;AI&#xff09;技术的快速发展&#xff0c;AI在各个领域都展现出了强大的应用潜力。其中&#xff0c;自然语言处理技术的进步使得智能对话系统得以实现&#xff0c;而ChatGPT作为其中的代表之一…

【Linux】磁盘阵列RAID技术

目录 一、RAID介绍 1.1 什么是RAID技术&#xff1f; 1.2 为什么要使用RAID技术&#xff1f; 二、RAID级别 2.1 常见的RAID级别 2.2 常见RAID介绍 三、RAID特性对比 一、RAID介绍 1.1 什么是RAID技术&#xff1f; 把多块独立的物理磁盘按不同的方式组合起来形成一个硬盘…

人工智能讲师大模型培训老师叶梓:基于大型语言模型的自主智能体:架构设计与应用前景

在人工智能的快速发展中&#xff0c;大型语言模型&#xff08;LLM&#xff09;已成为推动技术进步的关键力量。LLM的出现不仅改变了我们与机器的交互方式&#xff0c;也为构建具有高级认知能力的自主智能体&#xff08;AI Agent&#xff09;提供了新的可能性。本文旨在探讨基于…

(非技术) 基因遗传相关知识学习笔记

目录 一、基因遗传名词解释 二、什么叫显性遗传和隐性遗传&#xff1f; 三、如何确定遗传性质呢&#xff1f;是显性还是隐性&#xff1f; 四、常规例子1&#xff1a; 五、常规例子2&#xff1a; 六、实际案例&#xff1a; 七、思考题&#xff1a; 八、参考&#xff1a; …

云计算: OVN 集群 部署分布式交换机

目录 一、实验 1.环境 2.OVN 集群 部署云主机 3.中心端添加DVS分布式大二层交换机 二、问题 1.南向控制器查看主机名只显示localhost 2.中心端如何添加DVR分布式⼤三层路由器 一、实验 1.环境 (1) 主机 表1 宿主机 主机架构软件主要服务IP备注ovn_central中心端 ovn…

【Linux】基础I/O>文件系统软硬链接动静态库详解

主页&#xff1a;醋溜马桶圈-CSDN博客 专栏&#xff1a;Linux_醋溜马桶圈的博客-CSDN博客 gitee&#xff1a;mnxcc (mnxcc) - Gitee.com 目录 1.C语言文件接口 1.1 hello.c写文件 1.2 hello.c读文件 1.3 输出信息到显示器 1.4 stdin & stdout & stderr 1.5 总结打…

Android Framework学习笔记(3)----Binder

什么是Binder&#xff1f; Binder是linux IPC机制的其中一种。它贯穿于应用层&#xff0c;framework层&#xff0c;以及linux Core层。 什么是IPC? 跨进程通信&#xff0c; InterProcess Communication. IPC机制都有哪些&#xff1f; 通道信号量消息队列BinderSocket共享内…

从IPv4到IPv6:解密网络通信的新时代

欢迎来到我的博客&#xff0c;代码的世界里&#xff0c;每一行都是一个故事 从IPv4到IPv6&#xff1a;解密网络通信的新时代 前言ipv4介绍ipv6介绍IPv4与IPv6的区别IPv4地址枯竭问题和IPv6的解决方案 ipv6的优势IPv6在新兴技术领域的应用 ipv4向ipv6的过渡挑战解决方案IPv6部署…

NVIDIA全系列GPU技术路线演进分析

NVIDIA GPU 架构梳理 近期深入研究并行计算,需探究底层硬件精髓。高性能计算界,英伟达显卡稳居霸主地位。本文旨在梳理NVIDIA GPU架构之演进历程,助您洞悉其技术脉络,把握未来计算趋势。 目录: NVIDIA GPU架构历经数次革新:从Tesla架构奠定基石,到Fermi架构提升性能,再…
最新文章