ChatGPT大升级,文档图像识别领域迎来技术革新

    • ​写在前面
    • ChatGPT迎来重大升级
    • 冲击与机遇并存
    • ​大模型时代的思考与探索
      • ■ 像素级OCR统一模型- UPOCR
      • ■ OCR大一统模型- SPTS v3
      • ■ 文档识别分析+LLM应用
    • 写在最后
    • 问卷抽奖


​写在前面

2023 年 12 月 31 日第十九届中国图象图形学学会青年科学家会议在广州召开,该会议由中国图象图形学学会主办,旨在促进青年科学家之间的交流与合作,提升我国在图像图形领域的科研水平和创新能力。

由中国图象图形学学会和上海合合信息(INTSIG)联合承办的《垂直领域大模型论坛》中,针对在以 ChatGPT 为代表的大语言模型时代下大模型技术对于图像图形学领域的研究方向或者说落地应用是否会有价值、有哪些价值进行了深入探讨。包括合合信息丁凯教授在内的多位业内专家针对大模型时代文档与图像识别领域的新探索进行了介绍。

在这里插入图片描述

ChatGPT迎来重大升级

2023 年 9 月 25日 OpenAI 宣布推出全新 GPT-4V(Vision)多模态大模型,ChatGPT 迎来重大升级!

GPT-4V 在原先基础上增加了图像与语音的输入能力,旨在为用户带来更加多元化的使用方式,让 ChatGPT 与人们的交流更加丰富多样。它的主要功能包括语音功能,提供 5 种不同的语音选项,具有高准确率的语音识别和语音合成功能;图像输入功能,用户可以拍摄自己感兴趣的事物,并上传到 GPT-4V 中,它还具有处理文本和图像形式的输入的能力,能够基于混合输入模式产生文本输出;自然语言任务处理,文本摘要、问答、文本生成、情感分析、机器翻译等;看图作答和识别地点,对于用户提供的图片,GPT-4V 能够识别并回答有关地点的问题。此外还有物体检测、文本识别、人脸识别、验证码求解等等。可以看出 GPT-4V 功能强大且在多个领域都有着广泛应用前景,包括图像与文档识别领域。

那么随着 GPT-4V 多模态大模型横空出世,是否会对 OCR 文档识别领域造成巨大冲击?来自上海合合信息的丁凯博士在中国图像图形学学会(CSIG)青年科学家会议 2023 中为我们做出了详细解答……

冲击与机遇并存

不可否认 GPT-4V 在文档识别领域中取得了重大成就,但同时也应关注到在这个领域(OCR 文档识别)中的一些核心问题是仍然存在的,诸如图像质量、文字识别、版面分析等,这些问题仍需解决。同时 GPT-4V 也会为文档识别领域带来诸多变化,那么从研究层面来看,冲击与机遇是并存的。

通过对 GPT-4V 文档处理领域的详细分析与的场景测试发现,GPT-4V 在场景文字识别、手写文档识别、几何图形与文字结合场景识别、公式识别、表格识别、信息抽取等方面做的都非常好,水平可以说完全超过了传统中的任何一种技术。

(场景文字识别、手写文档识别、公式识别测试)
在这里插入图片描述
但即使水平如此之高,GPT-4V 也并非完全解决了 OCR 文档识别领域中的所有问题。在测试过程中短板也很明显,首先就是对中文的识别,无论是手写还是印刷文字,GPT-4V 在识别之后都是输出大量与实际文章无关的内容,而且一些简单的手写公式 GPT-4V 也是无法完美识别的。

在这里插入图片描述
此外对于长文档,仍然有文档解析和识别的前置依赖,ChatGPT 调用了开源的 PyPDF2,而该插件效果一般,且输出不支持表格结构、不支持扫描件、不支持处理复杂版式、不支持定位到原文。

在这里插入图片描述
综上可以看到 GPT-4V 的优势在于对端到端解决识别和理解问题、认知能力、支持识别和理解文档元素类型的能力远超传统算法,但是对于长文档需要依赖外部的OCR/文档解析引擎,这就说明外部引擎的性能会严重影响 GPT-4V 处理文档的性能,短板也非常明显。对于篡改检测、文本分割擦除、元素检测识别等像素级 OCR 任务时 GPT-4V 更是能力不足甚至是还没有具备此能力。

GPT-4V 在处理大规模行为数据方面的能力,以及在语言生成和理解方面的突破,它能够更自然、更复杂地处理和分析不同类型的行为特征,例如语言、声音、图像等。但 GPT-4V 并没有专门针对文档图像识别领域进行优化,因此我们应该做的是充分利 用GPT-4V 的潜力,对其进行适当的调整和改进,以适应文档识别的特定需求和挑战。同时其他OCR技术和工具仍然有其独特的优势和应用场景,因此 GPT-4V 并不会完全取代其他技术,而是一种与其共存并相互促进发展的关系,OCR 文档图像识别领域依然有着很大的研究空间。

​大模型时代的思考与探索

基于对以上 GPT-4V 与文档识别领域的分析和思考,其实为 OCR 文档识别领域的研究提供了新的方向,更高的识别精度与处理效率也成为了新的不断增长的应用需求。基于此,像素级 OCR 统一模型、OCR 大一统模型、文档识别分析+LLM 应用新方向应运而生。

在这里插入图片描述

■ 像素级OCR统一模型- UPOCR

像素级 OCR 统一模型是一种先进的OCR技术,旨在实现高精度的文字识别和图像处理。该模型将 OCR 技术和图像处理技术相结合,通过对图像进行像素级别的分析和处理,实现高精度的文字识别和图像处理。它可以用于各种类型的图像识别和处理任务,如车牌识别、人脸识别、遥感图像处理等。同时,该模型还可以根据不同的应用场景进行定制和优化,以满足不同用户的需求。

UPOCR(Towards Unified Pixel-Level OCR Interface)就是一个通用的 OCR 模型,统一了不同像素级 OCR 任务的范式、架构和训练策略。它将文本擦除、分割、篡改检测等像素级 OCR 任务进行了统一,引入可学习的任务提示来指导基于 ViT 的编码器-解码器架构。UPOCR 的通用能力在文本擦除、文本分割和篡改文本检测任务上得到了广泛验证,显著优于现有的专门模型。

在这里插入图片描述

■ OCR大一统模型- SPTS v3

OCR 大一统模型可以理解为是一种将多种 OCR 算法和模型集成在一起的模型,旨在实现更高效、更准确的文字识别。这种模型可以结合不同算法的优势,提高 OCR 的识别精度和适应性。通常包括多种算法和模型,如基于规则的方法、基于模板的方法、基于机器学习的方法和深度学习方法等。这些算法和模型可以在不同的场景和任务中发挥各自的优势,从而提高 OCR 的识别精度和效率。

当前的文档图像识别分析过程中有着非常多的任务,包括文本识别、段落识别、版面分析、表格识别、公式识别等等,将这些任务定义为序列预测的形式,然后通过不同的 prompt 引导模型完成不同的 OCR 任务,支持篇章级的文档图像识别分析,输出 Markdown/HTML/Text 等标准格式,最后将文档理解相关的工作交给 LLM 去做。

在这里插入图片描述
基于这样的思想,基于 SPTS 的 OCR 大一统模型 SPTS v3 应运而生,将多种 OCR 任务定义为序列预测的形式,通过不同的 prompt 引导模型完成不同的 OCR 任务。

SPTS v3 目前主要关注以下任务:端到端检测识别、表格结构识别、手写数学公式识别。

在这里插入图片描述
根据长期的训练与分析,SPTS v3 在各个性能方面已有着很不错的效果。但是当前的任务数量还不是很多,还有大量工作需要做,功能和任务范围都有着很大的扩展空间。

■ 文档识别分析+LLM应用

对于文档识别分析领域与 LLM 应用相结合,合合信息提出的技术框架是这样的,当输入文档图像后,通过文档识别与版面分析技术获取文档信息,接下来进行文档的切分和召回,最后进行 LLM 问答。

在这里插入图片描述
将文档识别技术与 LLM(Large Language Model)应用相结合确实是一个有前景的领域,有许多潜在的应用和思考方向。比如:

  • 文档的摘要与总结。结合文档识别技术和大语言模型,对长篇文档进行自动摘要或总结,为用户提供简洁、关键的信息;

  • 自动问答。基于文档识别技术的问答系统根据文档内容回答用户的问题;

  • 文档分类与主题识别。利用文档识别技术对文档进行分类和主题识别,可以用于自动整理文档、摘要、信息抽取等任务等等。

不仅仅是这些,将大语言模型结合至文档图像识别领域将会互相催生出更多的研究主题与方向,同时这也要求各厂家与开发者不断探索新的技术和方法。

写在最后

以 GPT-4V 为代表的多模态大模型技术极大的推进了文档识别与分析领域的技术进展,也给传统的 IDP 技术带来了挑战。但是大模型并没有完全解决 IDP 领域面临的问题,很多问题仍然值得我们继续研究。

如何结合大模型的能力更好的解决 IDP 的问题,值得在未来做更多的思考和探索。合合信息的 TextIn(Text Intelligence)研究团队便是一个典型代表。作为一个专注于智能文档处理领域的团队,经过 16 年的专注和深耕,该团队在智能文档图像识别、文字识别、自然语言处理等方面取得了显著的成果。他们在智能文档处理技术领域进行了广泛而深入的研究,涵盖了文档图像分析与预处理、文档解析与识别、版面分析与还原、文档信息抽取与理解、AI 安全以及知识化、存储检索和管理等多个关键技术。

而这些研究成果也都汇聚到了合合 TextIn 智能文字识别产品中,合合信息将他们的研究成果通过这样一个智能文档处理云平台提供给全球的用户和企业,只要访问 textin.com 我们便可以体验到一站式智能文字识别服务。

在这里插入图片描述


问卷抽奖

最后大家可填写下方问卷参与抽奖,合合信息将抽 10 人送出 50 元京东卡(12 号开奖)。

问卷链接:https://qywx.wjx.cn/vm/exOhu6f.aspx

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/293953.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ZigBee协议栈 -- 协议栈版本与IAR版本适配说明(Zstack2.5.1a + IAR10.30.1)

文章目录 协议栈安装工程适配 在讲到ZigBee协议栈的文章中所用的协议栈版本是Zstack2.5.1a,对于Zstack2.5.1a运行在IAR8.10中是可以完全适配进行编译开发的,现在较新版本的IAR都是10的版本以上了,有部分开发者习惯使用最新版本来获得更好的开…

Python 可视化 web 神器 streamlit

官网:https://streamlit.io/ github:https://github.com/streamlit/streamlit API 参考:https://docs.streamlit.io/library/api-reference 1、streamlit 简介 streamlit 简介 Streamlit 是Python可视化 web 神器 ,是一个开箱即…

Open3D聚类算法

按照官网的例子使用聚类,发现结果是全黑的。 经过多次测试发现 eps3.3, min_points1这里是关键 min_points必须等于1否则无效果 import time import open3d as o3d; import numpy as np; import matplotlib.pyplot as plt#坐标 mesh_coord_frame o3d.geometry.Tria…

自定义ChatGPT商店下周上线!大模型“App Store时刻”来啦

1月5日凌晨,OpenAI向所有自定义GPT开发者发布了一封邮件,下周将上线“自定义GPT商店”。 自定义GPTs是OpenAI在去年首届开发者大会上发布的重磅产品,用户无需任何代码,全程支持可视化点击操作。 用户只需要提交对话指令、额外的…

企业核心技术泄露可能给企业带来深远的负面影响以及补救措施

企业核心技术是企业竞争优势的重要来源,但同时也是企业面临的最大风险之一。随着信息技术的发展,企业核心技术泄露的风险也越来越大。一旦企业核心技术泄露,不仅会给企业带来直接的经济损失,还会对企业的品牌形象、市场竞争力、战…

led台灯哪些牌子性价比高?那些性价比高的LED护眼台灯推荐

台灯作为家居用品在日常生活中使用频繁。用户可以根据个人需求和喜好,在市场上找到合适的款式。然而,由于台灯种类繁多,甚至连相关标准都存在差异,这使得一些缺乏经验的购物小白感到困扰。那么,led台灯哪些牌子性价比高…

提升图像分割精度:学习UNet++算法

文章目录 一、UNet 算法简介1.1 什么是 UNet 算法1.2 UNet 的优缺点1.3 UNet 在图像分割领域的应用 二、准备工作2.1 Python 环境配置2.2 相关库的安装 三、数据处理3.1 数据的获取与预处理3.2 数据的可视化与分析 四、网络结构4.1 UNet 的网络结构4.2 UNet 各层的作用 五、训练…

SpringCloud之Eureka组件工作原理详解

Eureka是一种服务注册与发现组件,最初由Netflix开发并开源出来。它主要用于构建分布式系统中的微服务架构,并提供了服务注册、服务发现、负载均衡等功能。在本文中,我们将详细解释Eureka的工作原理。 一、Eureka概述 Eureka是Netflix开源的一…

MySQL数据库的CURD、常见函数及UNION和UNION ALL

一、概述 MySQL是一种流行的关系型数据库管理系统,广泛应用于各种应用场景。在MySQL中,CURD操作是指创建(Create)、读取(Read)、更新(Update)和删除(Delete)…

ROS学习笔记(9)进一步深入了解ROS第三步

0.前提 1. (C)Why did you include the header file of the message file instead of the message file itself?(为包含消息的头文件而不是消息本身?) 回答:msg文件是描述ROS消息字段的文本文件,用于生成不同语言消息…

【Mars3d】new mars3d.layer.GeoJsonLayer({不规则polygon加载label不在正中间的解决方案

问题: 1.new mars3d.layer.GeoJsonLayer({type: "polygon",在styleOptions里配置label的时候,发现这个 不规则polygon加载的时候,会出现label不在中心位置。 graphicLayer new mars3d.layer.GeoJsonLayer({ name: "全国省界…

游戏Lua调用01.lua的编译及测试

一、lua库下载与编译 进入lua官网 Lua: version history 找到lua5.1 选择lua5.1是因为大部分游戏使用的都是lua5.1的库,也可以选择高版本,影响不大 下载完了后使用vs建立一个静态库或者动态库的工程 这里以动态库为例子,静态库也是一样的…

6 网关和配置服务器

文章目录 网关模式Spring Cloud网关Spring Cloud网关微服务其他项目的变更运行和测试小结 运行状况Spring Boot Actuator在微服务中包含Actuator 服务发现和负载均衡ConsulSpring Cloud ConsulSpring Cloud负载均衡器网关中的服务发现和负载均衡使用服务发现和负载均衡 环境配置…

vins 实机测试 rs_d435 + imu

vins 实机测试 文章目录 1. imu标定2. camera内参标定3. imu-cam 外参标定4. vins 实际运行5. realsense 1. imu标定 git clone https://github.com/gaowenliang/code_utils.git git clone https://github.com/gaowenliang/imu_utils.git编译运行, roslaunch imu_…

CSS基本知识

文章目录 1. CSS 是什么2. 基本语法规范3. 引入方式3.1 内部样式表3.2 行内样式表3.3 外部样式 4. 选择器4.1 选择器的功能4.2 选择器的种类4.3 基础选择器4.3.1 标签选择器4.3.2 类选择器4.3.3 id 选择器4.3.4 通配符选择器 4.4 复合选择器4.4.1 后代选择器4.4.2 伪类选择器 5…

git在本地创建dev分支并和远程的dev分支关联起来

文章目录 git在本地创建dev分支并和远程的dev分支关联起来1. 使用git命令2. 使用idea2.1 先删除上面建的本地分支dev2.2 通过idea建dev分支并和远程dev分支关联 3. 查看本地分支和远程分支的关系 git在本地创建dev分支并和远程的dev分支关联起来 1. 使用git命令 git checkout…

[每周一更]-(第50期):Go的垃圾回收GC

参考文章: https://juejin.cn/post/7111515970669117447https://draveness.me/golang/docs/part3-runtime/ch07-memory/golang-garbage-collector/https://colobu.com/2022/07/16/A-Guide-to-the-Go-Garbage-Collector/https://liangyaopei.github.io/2021/01/02/g…

【网络编程】——基于TCP协议实现回显服务器及客户端

个人主页:兜里有颗棉花糖 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 兜里有颗棉花糖 原创 收录于专栏【网络编程】【Java系列】 本专栏旨在分享学习网络编程的一点学习心得,欢迎大家在评论区交流讨论💌 目录 一、TCP实…

Python | Iter/genartor | 一文了解迭代器、生成器的含义\区别\优缺点

前提 一种技术的出现,需要考虑: 为了实现什么样的需求;遇到了什么样的问题;采用了什么样的方案;最终接近或达到了预期的效果。 概念 提前理解几个概念: 迭代 我们经常听到产品迭代、技术迭代、功能迭代…

echarts 切换时出现上一次图形残留。

先说结果:悬浮高亮导致。这可能使echarts的bug。 正常情况出现这种问题,一般是setOption 中没有配置notMerge 导致新的配置与旧配置合并。 但是我这里始终配置notMerge: true,但仍然出现这种问题。 最后发现与鼠标悬浮有关。 环境 echar…
最新文章