​ PaddleHub 首页图像 - 文字识别chinese_ocr_db_crnn_server​

PaddleHub

便捷地获取PaddlePaddle生态下的预训练模型,完成模型的管理和一键预测。配合使用Fine-tune API,可以基于大规模预训练模型快速完成迁移学习,让预训练模型能更好地服务于用户特定场景的应用

零基础快速开始WindowsLinuxMac

 PaddleHub 首页图像 - 文字识别chinese_ocr_db_crnn_server

chinese_ocr_db_crnn_server

类别图像 - 文字识别

网络Differentiable Binarization+CRNN

数据集icdar2015数据集

模型概述

chinese_ocr_db_crnn_server Module用于识别图片当中的汉字。其基于chinese_text_detection_db_server检测得到的文本框,继续识别文本框中的中文文字。之后对检测文本框进行角度分类。最终识别文字算法采用CRNN(Convolutional Recurrent Neural Network)即卷积递归神经网络。其是DCNN和RNN的组合,专门用于识别图像中的序列式对象。与CTC loss配合使用,进行文字识别,可以直接从文本词级或行级的标注中学习,不需要详细的字符级的标注。该Module是一个通用的OCR模型,支持直接预测。

选择模型版本进行安装

1.2.0 (最新版)

$ hub install chinese_ocr_db_crnn_server==1.2.0

chinese_ocr_db_crnn_server

模型名称chinese_ocr_db_crnn_server
类别图像-文字识别
网络Differentiable Binarization+RCNN
数据集icdar2015数据集
是否支持Fine-tuning
模型大小116MB
最新更新日期2021-05-31
数据指标mAP@0.98

一、模型基本信息

  • 应用效果展示

    • OCR文字识别场景在线体验
    • 样例结果示例:

  • 模型介绍

    • chinese_ocr_db_crnn_server Module用于识别图片当中的汉字。其基于chinese_text_detection_db_server Module 检测得到的文本框,识别文本框中的中文文字。识别文字算法采用CRNN(Convolutional Recurrent Neural Network)即卷积循环神经网络。该Module是一个通用的OCR模型,支持直接预测。

  • 更多详情参考:An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition

二、安装

  • 1、环境依赖

    • paddlepaddle >= 2.2.0

    • paddlehub >=2.2.0

    • shapely

    • pyclipper

    • $ pip install shapely pyclipper
    • 该Module依赖于第三方库shapely和pyclipper,使用该Module之前,请先安装shapely和pyclipper。
  • 2、安装

    • $ hub install chinese_ocr_db_crnn_server

三、模型API预测

  • 1、命令行预测

    • $ hub run chinese_ocr_db_crnn_server --input_path "/PATH/TO/IMAGE"
  • 2、预测代码示例

    • import paddlehub as hub
      import cv2
      
      ocr = hub.Module(name="chinese_ocr_db_crnn_server", enable_mkldnn=True)       # mkldnn加速仅在CPU下有效
      result = ocr.recognize_text(images=[cv2.imread('/PATH/TO/IMAGE')])
      
      # or
      # result = ocr.recognize_text(paths=['/PATH/TO/IMAGE'])
  • 3、API

    • def __init__(text_detector_module=None, enable_mkldnn=False)
      • 构造ChineseOCRDBCRNNServer对象

      • 参数

        • text_detector_module(str): 文字检测PaddleHub Module名字,如设置为None,则默认使用 chinese_text_detection_db_server Module。其作用为检测图片当中的文本。
        • enable_mkldnn(bool): 是否开启mkldnn加速CPU计算。该参数仅在CPU运行下设置有效。默认为False。
    • def recognize_text(images=[],
                         paths=[],
                         use_gpu=False,
                         output_dir='ocr_result',
                         visualization=False,
                         box_thresh=0.5,
                         text_thresh=0.5,
                         angle_classification_thresh=0.9)
      • 预测API,检测输入图片中的所有中文文本的位置。

      • 参数

        • paths (list[str]): 图片的路径;
        • images (list[numpy.ndarray]): 图片数据,ndarray.shape 为 [H, W, C],BGR格式;
        • use_gpu (bool): 是否使用 GPU;若使用GPU,请先设置CUDA_VISIBLE_DEVICES环境变量
        • box_thresh (float): 检测文本框置信度的阈值;
        • text_thresh (float): 识别中文文本置信度的阈值;
        • angle_classification_thresh(float): 文本角度分类置信度的阈值
        • visualization (bool): 是否将识别结果保存为图片文件;
        • output_dir (str): 图片的保存路径,默认设为 ocr_result;
      • 返回

        • res (list[dict]): 识别结果的列表,列表中每一个元素为 dict,各字段为:
          • data (list[dict]): 识别文本结果,列表中每一个元素为 dict,各字段为: - text(str): 识别得到的文本 - confidence(float): 识别文本结果置信度 - text_box_position(list): 文本框在原图中的像素坐标,4*2的矩阵,依次表示文本框左下、右下、右上、左上顶点的坐标 如果无识别结果则data为[]
          • save_path (str, optional): 识别结果的保存路径,如不保存图片则save_path为''

四、服务部署

  • PaddleHub Serving 可以部署一个目标检测的在线服务。

  • 第一步:启动PaddleHub Serving

    • 运行启动命令:
    • $ hub serving start -m chinese_ocr_db_crnn_server
    • 这样就完成了一个目标检测的服务化API的部署,默认端口号为8866。

    • NOTE: 如使用GPU预测,则需要在启动服务之前,请设置CUDA_VISIBLE_DEVICES环境变量,否则不用设置。

  • 第二步:发送预测请求

    • 配置好服务端,以下数行代码即可实现发送预测请求,获取预测结果

    • import requests
      import json
      import cv2
      import base64
      
      def cv2_to_base64(image):
          data = cv2.imencode('.jpg', image)[1]
          return base64.b64encode(data.tostring()).decode('utf8')
      
      # 发送HTTP请求
      data = {'images':[cv2_to_base64(cv2.imread("/PATH/TO/IMAGE"))]}
      headers = {"Content-type": "application/json"}
      url = "http://127.0.0.1:8866/predict/chinese_ocr_db_crnn_server"
      r = requests.post(url=url, headers=headers, data=json.dumps(data))
      
      # 打印预测结果
      print(r.json()["results"])
  • Gradio App 支持

    从 PaddleHub 2.3.1 开始支持使用链接 http://127.0.0.1:8866/gradio/chinese_ocr_db_crnn_server 在浏览器中访问 chinese_ocr_db_crnn_server 的 Gradio App。

五、更新历史

  • 1.0.0

    初始发布

  • 1.0.1

    支持mkldnn加速CPU计算

  • 1.1.0

    使用三阶段模型(文本框检测-角度分类-文字识别)识别图片文字。

  • 1.1.1

    支持文本中空格识别。

  • 1.1.2

    修复检出字段无法超过30个问题。

  • 1.1.3

    移除 fluid api

  • 1.2.0

    添加 Gradio APP

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/357503.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MacOS安装反编译工具JD-GUI以及解决无法打开的问题

目录 一.下载地址 二.安装 三.问题 四.解决办法 1.显示包内容 2.找到Contents/MacOS/universalJavaApplicationStub.sh 3.修改sh文件 4.保存后再次打开即可 一.下载地址 Java Decompiler 二.安装 将下载下来的 jd-gui-osx-1.6.6.tar 解压,然后将 JD-GUI.a…

驾驭AI绘画:《AI魔法绘画》带你秒变顶级画手!

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的…

C++笔试强训选择题7

1.对于以下代码,说法正确的是() char * p new char[100];A p 和 new出来的内存都在栈上 B p 和 new出来的内存都在堆上 C p在栈上 new出来的在堆上 D p在堆上 new出来的在栈上 new默认情况下申请的空间在堆上 2. 类模板的使用…

微信小程序~上推加载更多组件

本组件使用的是TaroReact 实现的 ,具体代码如下 一共分为tsx和less文件 //index.tsx /** RefreshLoading* description 上推加载更多组件* param loading boolean* param style* returns*/import { View } from "tarojs/components"; import React, { FC…

Ubuntu 20.04 Server 使用命令行设置 IP 地址

1、编辑 /etc/netplan/ 目录下的配置文件00-installer-config.yaml (修改之前,把原来的文件备份) 按照对应的配置进行修改IP地址和网关 2、运行命令使其生效 sudo netplan apply 修改完成后,永久有效。重启后配置不会丢失

ElasticSearch重建/创建/删除索引操作 - 第501篇

历史文章(文章累计500) 《国内最全的Spring Boot系列之一》 《国内最全的Spring Boot系列之二》 《国内最全的Spring Boot系列之三》 《国内最全的Spring Boot系列之四》 《国内最全的Spring Boot系列之五》 《国内最全的Spring Boot系列之六》 E…

ROS学习笔记11——ROS中的重名问题

一、ros功能包重名——ros工作空间覆盖 功能包重名时,会按照 ROS_PACKAGE_PATH 查找,在前的会优先执行。ROS 会解析 .bashrc 文件,并生成 ROS_PACKAGE_PATH ROS包路径,即调用功能包的顺序,该变量中按照 .bashrc 中配置…

三、ElasticSearch集群搭建实战

本篇ES集群搭建主要是在Linux VM上,未使用Docker方式, ES版本为7.10 ,选择7.10版本原因可以看往期文章介绍。 一、ElasticSearch集群搭建须知 JVM设置 Elasticsearch是基于Java运行的,es7.10可以使用jdk1.8 ~ jdk11之间的版本,更高版本还没…

【JVM】运行时数据区域,内存如何分配和对象在内存中的组成

目录 一.运行时数据区域 1.线程独享 2.线程共享 二.内存如何分配 1.指针碰撞法 2.空闲列表法 3.TLAB 三.对象在内存中的组成 ​编辑1.对象头 2.实例数据 3.对齐填充 一.运行时数据区域 1.线程独享 (1)栈 虚拟机栈:每个 Java 方法在…

c++入门语法—————引用,内联函数,auto关键字,基于范围的for循环,nullptr

文章目录 一.引用1.引例2.注意事项3.应用场景1.做参数(a:输出型参数b:内容较大参数)2.做返回值(a:修改返回值,b:减少拷贝) 4.引用和指针的区别 二.内联函数1.为什么有内联函数2.用法和底层3.特性 三.auto关键字1.基础示…

计网Lesson11 - 虚拟机网络环境及socket概述

文章目录 虚拟机的简述socket概述 虚拟机的简述 放张图在这,根本没明白是啥对啥,以后学了Linux再来吧 😦 socket概述 s o c k e t socket socket 是一种用于应用层的用户态与应用层以下的内核态交互的工具,本意为“插座”。 也就是…

聚醚醚酮(Polyether Ether Ketone)PEEK在粘接使用时使用UV胶水的优势有哪些?要注意哪些事项?

使用UV胶水在聚醚醚酮(Polyether Ether Ketone,PEEK)上进行粘接可能具有一些优势,但同时也需要注意一些事项。以下是使用UV胶水的优势和需要考虑的事项: 优势: 1.快速固化: UV胶水通常具有快速…

来聊聊大厂面试题:求Java对象的大小

写在文章开头 日常使用Java进行业务开发时,我们基本不关心一个Java对象的大小,所以经常因为错误的估算导致大量的内存空间在无形之间被浪费了,所以今天笔者就基于这篇文章来聊聊一个Java对象的大小。 你好,我叫sharkchili&#x…

部分地级市收入泰尔指数数据,shp/excel格式,附数据可视化图及计算公式

泰尔指数的计算方式:分别计算城镇和农村收入份额与人口份额之比的自然对数,然后再以城乡收入份额作为权数,进行加权平均求和。 数据名称: 部分地级市收入泰尔指数数据 数据格式: Shp、excel 数据时间: 2010-2019年 数据几何类型: 面 数…

c++学习记录 多态—案例2—电脑组装

#include<iostream> using namespace std;//抽象不同的零件//抽象的cpu类 class Cpu { public://抽象的计算函数virtual void calculate() 0; };//抽象的显卡类 class VideoCard { public://抽象的显示函数virtual void display() 0; };//抽象的内存条类 class Memory …

【蓝桥杯日记】复盘篇二:分支结构

前言 本篇笔记主要进行复盘的内容是分支结构&#xff0c;通过学习分支结构从而更好巩固之前所学的内容。 目录 前言 目录 &#x1f34a;1.数的性质 分析&#xff1a; 知识点&#xff1a; &#x1f345;2.闰年判断 说明/提示 分析&#xff1a; 知识点&#xff1a; &am…

网络体系结构 和网络原理之UDP和TCP

目录 网络分层 一. 应用层 http协议 二. 传输层 1. 介绍 2.UDP协议 (1)组成 (2)细节 3.TCP协议 (1)特性如下链接&#xff1a; (2)组成 (3)特点 三. 网络层 四. 数据链路层 1.介绍 2.以太网协议 3.mac地址和ip地址 五. 物理层 DNS 网络分层 一. 应用层 应用程序 现成的…

dfs专题 P1255 数楼梯——洛谷(疑问)

题目描述 楼梯有 &#xfffd;N 阶&#xff0c;上楼可以一步上一阶&#xff0c;也可以一步上二阶。 编一个程序&#xff0c;计算共有多少种不同的走法。 输入格式 一个数字&#xff0c;楼梯数。 输出格式 输出走的方式总数。 输入输出样例 输入 #1复制 4 输出 #1复制…

【Python】Win11用GTK3实现多文档窗体弹出对话框

一、安装PyGObject PyGObject是GTK的Python绑定&#xff0c;用于Python中的GTK3程序。可以使用pacman命令来安装PyGObject、GTK3和其他必要的库。 1. 打开MSYS2终端&#xff1a; 可以直接通过MSYS2的快捷方式打开终端或者从开始菜单中找到MSYS2。 2. 更新MSYS2包管理器&…

回显服务器(基于UDP)

目录 基本概念 API学习 DatagramSocket DatagramPacket InetSocketAddress 回显服务器实现 服务端 思路分析 具体实现 完整代码 客户端 思路分析 具体实现 完整代码 运行测试 基本概念 发送端和接收端 在一次网络数据传输时&#xff1a; 发送端&#xff1a;…
最新文章