多模态及图像安全的探索与思考

前言

        第六届中国模式识别与计算机视觉大会(The 6th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2023)已于近期在厦门成功举办。通过参加本次会议,使我有机会接触到许多来自国内外的模式识别和计算机视觉领域的研究者和工业界同行,了解了目前我国模式识别与计算机视觉领域的最新理论和技术成果。其中对我触动最大的就属上海合合信息的郭丰俊博士讲解的“文档图像前沿技术探索—多模态及图像安全”专题部分了。

合合信息

        在讲解多模态及图像安全之前,我们先对合合信息科技做一个简单的介绍吧。

        上海合合信息科技股份有限公司致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。

        它开发的深受全球用户喜爱的C端产品全球累计用户下载超23亿,累计月活约 1.3亿。其中名片全能王扫描全能王免费版在App Store排行榜上名列前茅。

文档图像分析识别与理解

技术难题

大会上,郭博士对目前文档图像分析识别与理解的技术难题做了阐述,主要体现在以下几个方面:

  1. 当文档图像质量退化时,会导致文档图像变得模糊不清。这种质量问题与文档图像扫描技术密切相关;
  2. 根据以下图片案例来看,文字的排布版面非常的复杂,这就给版面分析、文字检测带来了巨大的挑战;
  3. 在文字识别领域,由于书写的潦草、包括识别的种类非常的多,除了文字、公式还有一些特殊的符号;

探索

基于以上的问题和难题,合合信息将文档图像分析识别与理解的研究主题分成了以下六个模块:

  1. 文档图像分析与预处理:主要解决的是文档图像的质量问题,比如一张人眼都无法看清的文档图像在经过切边增强、去摩尔纹、弯曲矫正、图片压缩、PS检测等技术的处理之后变成非常清晰的质量非常高的图像。
  2. 文档解析与识别:经过文档图像分析与预处理之后的文档图像会接着来到文档解析与识别模块。我们通过文字识别、表格识别、电子档解析等技术获取到文字信息。
  3. 版面分析与还原:我们会把上个步骤拿到的文字信息进行处理,使用元素检测、元素识别、版面还原等技术来识别文档的标题、段落、图像等元素,并还原文档的原始版面结构,以便后续的信息抽取和理解。
  4. 文档信息抽取与理解:通过计算机技术,从文档中自动提取出有用信息并进行理解、分类和归纳。文档信息抽取与理解可以帮助人们更加有效地管理和利用大量文档数据,提高工作效率和决策质量。它在数字化档案管理、企业知识管理、搜索引擎、自动化客服等领域具有广泛的应用前景。
  5. AI安全:在文档图像分析识别与理解过程中,通过篡改分类、篡改检测、合成检测、AI生成检测等技术来保证用户的数据隐私和文档图像安全性。
  6. 知识化&存储检索和管理:将信息和知识进行有效的组织、存储、检索和管理,在大量的数据和信息中提取有用的知识,并使其易于访问和利用,对于提高工作效率、决策质量和创新能力具有重要意义。

多模态模型进展与探索

        去年随着ChatGPT的横空出世,大家对多模态模型是否能快速融入到自己的工作场景产生了浓厚的兴趣。我们接下来讲一下多模态大模型对文档图像处理方面将会产生怎样的影响。

文档图像多模态属性

        多模态大模型是指能够同时处理多种类型数据(例如图像、文本、语音等)的强大神经网络模型。它将多个模态的输入数据整合在一起,并通过共享的模型结构进行联合训练和推理。

        多模态大模型的核心思想是将不同模态的数据进行融合和交互,以实现更全面、准确的任务处理。例如,在图像与文档生成任务中,模型可以同时接受图像和文档输入,并根据两者之间的关联生成相应的输出。由此可见文档图像具有天然的多模态属性

多模态大模型在文档图像处理中的应用

  1. GPT-4:多模态大模型如GPT-4已经取得了显著的进展,可以同时处理文本和图像数据,从而提高了文档图像识别与理解的性能。这使得处理多种类型的信息更加容易,包括文字、图像和其它媒体。
  2. Google Bard:Google Bard是另一个多模态大模型,同样在文档图像领域表现出色。这种竞争推动了领域内的技术进步,有望带来更多创新。
  3. 文档图像大模型:文档图像处理领域出现了一系列专有大模型,如LayoutLM系列、LiLT INTSIG、UDOP和Donut。这些模型使用了多模态Transformer编码器,可以应用于不同的文档图像处理任务,包括文本、表格、版面结构和多语言支持。
  4. 多模态大模型的局限性:尽管多模态大模型在处理文本和图像方面表现出色,但它们仍然存在一些局限性,特别是对于细粒度文本的处理表现较差。这为未来的研究提供了挑战和机会,以进一步提高这些模型的性能。

LLM时代文档图像处理技术趋势

        随着大模型领域技术的突飞猛进,领域专家对LLM时代文档图像处理技术的趋势做出了预测。普遍认为输入端应该是多模态的方法,架构应该是Transformer Encoder / Decoder的架构,而数据层面应该是海量/高质量的数据。只有具备了以上三个条件,才能得到一个比较好的文档图像大模型的效果。

        ChatGPT4出来以后,之前的做OCR的方法还适用嘛?答案是肯定的,OCR仍然是多模态大模型中的一项重要技术,因为要想训练一个很好的大模型,都依赖于高质量的大数据,而OCR本身就是一个提供高质量数据的工具。OCR可以支持大模型高效的录入数据,而且支持不同格式的信息提取。

文档图像处理知名系统

        通过对比实验分析,当前大模型的系统测评的系统性能还有待提高,跟监督学习的结果相比还是差点意思。究其原因,可能跟视觉编码器的分辨率和训练数据限制有关。

图像安全

        随着生成式人工智能的快速发展,现在在图像领域,越来越多的系统能够生成图像质量非常高的生成式图像,图像的真伪、图像的安全问题变得越来越重要。AI换脸、证照篡改等会对银行、保险、金融行业的认证体系带来冲击:

        中国信通院携手合合信息开启《文档图像篡改检测标准》制定工作,为文档图像内容安全提供可靠保障,助力新时代AI安全体系建立。主要体现在图像篡改检测、AIGC判别两个方面。

篡改种类

图像篡改分为四种类型:复制移动、拼接、擦除、重打印。

系统架构

解决的方法主要是通过以下分割模型来解决的,Backbone使用ConvNeXt作为编码器,使用LightHam和EANet两个网络并行作为解码器来达到更好的判断效果。

技术挑战

        对于文档图像和证件照篡改的主要技术挑战主要体现在它的泛化性。通过大量数据的构建和整个训练策略的不断调优来达到泛化问题的改善。

合合信息在今年获得ICDAR2023 文档图像篡改检测的冠军。

生成式AI鉴别

        以人脸场景为例,通过多个空间注意力头来关注空间特征,并使用纹理增强模块放大浅层特征中的细微伪影,增强模型对真实人脸和伪造人脸的感知与判断准确度。

鉴别结果展示

展望

        合合信息的研究成果为各行业提供了实用的解决方案。智能图像处理作为其中的一个重要领域,合合信息开发出了高效、准确的图像处理算法和工具,为各种应用场景提供了优化的解决方案。这些成果广泛应用于金融、制造业、医疗等领域,极大地提升了效率和精度,并为各行业的发展带来了实际效益。希望合合信息能够持续进行深入的研究探索和技术创新,不断取得更多突破,推动人工智能技术的应用和智能产业的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/143252.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

janus 安装部署

本文使用docker进行安装,还没有安装docker和docker-compose的,请自行安装,这里就不介绍了 环境 janus-gateway镜像版本:anyan/janus-gateway:0.10.7 linux版本: Ubuntu 18.04.6 LTS coturn/coturn 镜像版本: coturn/coturn:latest 镜像ID 8…

觉非科技发布【轻地图高速NOA智驾方案】|地平线,觉非科技,MobileDrive超捷生态协作实现技术落地

11月10日,2023世界新汽车技术合作生态展期间,觉非科技正式发布了基于地平线征程系列以及MobileDrive超捷规控系统的【轻地图高速NOA智驾解决方案】。该方案首次实现了从芯片能力输出、到数据闭环建设、再到规控部署的产业生态链协作与打通,为…

员工电脑监控的方法有哪些

有人在后台问,员工电脑监控的方法有哪些? 其实主要包括以下几方面:1)安装监控软件 2)使用操作系统自带的工具 3)部署网络监控设备 4)定期检查电脑 5)制定严格的规章制度 因为内容比…

23款奔驰C260L升级原厂360全景影像 超广角的视野

本次星骏汇小许介绍的是23款奔驰C260L升级原厂360全景影像,上帝视角看清车辆周围环境,更轻松驾驶 升级360全景影像系统共有前后左右4个摄像头,分别在车头,车尾,以及两边反光镜下各一个,分别用来采集车头&am…

在ant构建脚本中调用maven的命令

有时候想用maven管理依赖,用ant构建。 在ant的build.xml文件中可以使用exec这个task来调用系统命令,也就可以调用maven的命令。 例如,执行maven的命令mvn dependency:copy-dependencies,可以将项目的依赖提取出来,放…

【ARL灯塔搭建详细教程】

文章目录 前言一、前期准备二、安装docker及docker-compose三、安装ARL灯塔四、登录ARL灯塔 前言 ARL(Asset Reconnaissance Lighthouse)资产侦查灯塔旨在快速发现并整理企业外网资产并为资产构建基础数据库,无需登录凭证或特殊访问即可主动…

低代码平台加持后紧急交付项目如何突破极限

导读: 传统开发低代码开发,两种开发模式的深度融合,基于已有的业务沉淀,快速实现项目中大量的定制需求,高速、高能使得传统项目最为宝贵的工期变得充裕。 项目管理的十大知识域中,其实并没有专门的时间&…

人工智能基础_机器学习027_L2正则化_岭回归_非稀疏性_原理解读_公式推导---人工智能工作笔记0067

然后我们再来看一下岭回归,也就是第二范数对吧, 他的公式,平方以后,加和然后开平方.L2的公式是 可以看到L2公式,也是有个阿尔法,惩罚项对吧. 可以看到因为L2带有平方,所以他的图形是个圆形 我们可以把L2范数,进行画出来看看 这里我们先看L2的公式,这里我们让 这个公式写成1 …

提升自动化测试:Apifox 产品更新全解析!

Apifox 新版本上线啦! 看看本次版本更新主要涵盖的重点内容,有没有你所关注的功能特性: 自动化测试 新增 ForEach 循环组件数据库连接支持 MongoDB前/后置操作模块能力升级 支持使用 pm.executeAsync 异步执行外部程序支持自定义外部程序的…

linux 系统下文本编辑常用的命令

一、是什么 Vim是从 vi 发展出来的一个文本编辑器,代码补全、编译及错误跳转等方便编程的功能特别丰富,在程序员中被广泛使用。 简单的来说, vi 是老式的字处理器,不过功能已经很齐全了,但是还是有可以进步的地方 而…

小黑子—springMVC:第二章 拦截器、全注解开发和异常处理机制

springMVC入门2.0 4、小黑子的springMVC拦截器4.1 Interceptor简介4.2 拦截器快速入门4.3 拦截器执行顺序4.4 拦截器执行原理 5、小黑子的springMVC全注解开发5.1 spring-mvc.xml中组件转化为注解形式5.1.1 消除spring-mvc.xml一二三 5.1.2 消除web.xml 6、小黑子的springMVC组…

内衣洗衣机怎么选?小型洗衣机质量排名

现在大部分的家庭都拥有高质量、大品牌、大容量的洗烘套装来满足一家人的日常洗烘需要,像内衣这种贴身的衣物,需要手洗或者用专用的内衣洗衣机,这样才可以最大程度地减少细菌的交叉感染,提高我们贴身衣物的卫生,那么怎…

Android WebView专题

WebView 专题 第一个WebView程序&#xff1a;加载远程网址 Layout添加WebView组件&#xff1b; <WebViewandroid:id"id/webView_first"android:layout_width"match_parent"android:layout_height"match_parent"/>初始化组件&#xff0c;加…

YOLOv8-Seg改进:卷积变体系列篇 | SCConv(空间和通道重建卷积) | CVPR2023

🚀🚀🚀本文改进:SCConv(空间和通道重建卷积),引入到YOLOv8,与C2f结合实现二次创新; 🚀🚀🚀SCConv亲测在多个数据集能够实现涨点 🚀🚀🚀YOLOv8-seg创新专栏:http://t.csdnimg.cn/KLSdv 学姐带你学习YOLOv8,从入门到创新,轻轻松松搞定科研; 1)手把…

项目管理:如何利用有限的时间完成无限的任务

时间管理&#xff0c;实质上就是利用有限的时间完成无限的任务。它要求我们通过对任务的安排&#xff0c;实现在有限的时间内&#xff0c;使任务变得更有条理。 时间管理就像整理房间。如果你长期不进行整理&#xff0c;房间的杂物就会越积越多。如果将各类物品进行分类&…

Java智慧工地大数据中心源码

智慧工地形成安全、质量、进度、人员、机械、绿色施工六大针对性解决方案。 智慧工地技术架构&#xff1a;微服务JavaSpring Cloud VueUniApp MySql 安全管理 围绕重大危险源提供管控&#xff0c;可视化跟踪消防、安防、基坑、高支模、临边防护、卸料平台等设施设备的安全状态…

mysql数据库时间

记录MySQL今天又一个新的问题&#xff1a; 场景&#xff1a;nodejs后台容器部署 问题原因&#xff1a;纯属好心办坏事&#xff0c;由于考虑了时区&#xff08;现在看来纯属多余&#xff09;&#xff0c;在写入时间时使用了time_str.toLocaleString("chinese", { ti…

绩效管理系统有哪些?

绩效管理系统有哪些&#xff1f; 把绩效管理系统按照两大指标分类—— 按地域划分&#xff08;主要看兼容性和稳定性&#xff09;按照功能性质划分&#xff08;主要看实用性和拓展性&#xff09; 按照以上两个维度&#xff0c;我们可以简单把绩效管理系统分为4大不同类型——…