ICLR 2023 | StrucTexTv2:端到端文档图像理解预训练框架

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信技术交流群

转载自:CSIG文档图像分析与识别专委会

45c37d74e73aac3d08fe3408cbcef472.png

本文简要介绍ICLR 2023录用论文“StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training”的主要工作。针对当前主流多模态文档理解预训练模型需要同时输入文档图像和OCR结果,导致欠缺端到端的表达能力且推理效率偏低等问题,论文提出了一种全新的端到端文档图像多模态表征学习预训练框架StrucTexTv2。该框架设计了一种基于词粒度图像区域掩码、多模态自监督预训练任务(MIM+MLM),仅需要图像单模态输入,使得编码器网络能在大规模无标注文档图像上充分学习视觉和语言联合特征表达,并在多个下游任务的公开基准上取得SOTA效果。

  • 一、研究背景

视觉富文档理解技术例如文档分类、版式分析、表单理解、OCR以及信息提取,逐渐成为文档智能领域一个热门研究课题。为了有效处理这些任务,前沿的方法大多利用视觉和文本线索,将图像、文本、布局等信息输入到参数网络,并基于大规模数据上的自监督预训练挖掘出文档的多模态特征。由于视觉和语言之间的模态差异较大,如图1所示,主流的文档理解预训练方法大致可分为两类:a)掩码语言建模(Masked Language Modeling)[9],对输入的掩码文本Token进行语言建模,运行时文本的获取依赖于OCR引擎,整个系统的性能提升需要对OCR引擎和文档理解模型两个部件进行同步优化;b)掩码图像建模(Masked Image Modeling)[10],对输入的掩码图像块区进行像素重建,此类方法倾向应用于图像分类和版式分析等任务上,对文档强语义理解能力欠佳。针对上述两种预训练方案呈现的瓶颈,本文提出了StrucTexTv2:c)统一图像重建与语言建模方式,在大规模文档图像上学习视觉和语言联合特征表达。

01e6ba6252f59ce36e17164782c6c10b.png

图1 主流文档图像理解预训练框架比较

  • 二、方法原理简述

cb6f83da8e6614ef13365d17f8868767.png

图2 整体框架图

图2描绘了StrucTexTv2的整体框架,主要包含编码器网络和预训练任务分支两部分。编码器网络,主要通过FPN结构串联CNN组件和Transformer组件构成;预训练分支则包含了掩码语言建模(MLM)和掩码图像建模(MIM)双预训练任务头。

2.1 编码器网络

StrucTexTv2采用CNN和Transformer的串联编码器来提取文档图像的视觉和语义特征。文档图像首先经过ResNet网络以获取1/4到1/32的四个不同尺度的特征图。随后采用一个标准的Transformer网络接收最小尺度的特征图并加上1D位置编码向量,提取出包含全局上下文的语义特征。该特征被重新转化为2D形态后,与CNN的其余三个尺度特征图通过FPN[6]融合成4倍下采样的特征图,作为整图的多模态特征表示。

2.2 预训练策略

为了统一建模MLM和MIM两种模态预训练方式,论文提出了一种基于词粒度图像区域掩码预测方式来学习视觉和语言联合特征表达。首先,随机筛选30%的词粒度OCR预测结果(仅在预训练阶段使用),根据OCR的位置信息直接在原图对应位置像素进行掩码操作(比如填充0值)。接着,掩码后的文档图像直接送入编码器网络去获得整图的多模态特征表示。最后,再次根据选中的OCR位置信息,采用ROIAlign[11]操作去获得每个掩码区域的多模态ROI特征。

掩码语言建模:借鉴于BERT[9]构建的掩码语言模型思路,语言建模分支使用一个2层的MLP将词区域的ROI特征映射到预定义的词表类别上,使用Cross Entropy Loss监督。同时为了避免使用词表对文本序列进行标记化时单个词组被拆分成多个子词导致的一对多匹配问题,论文使用分词后每个单词的首个子词作为分类标签。此设计带来的优势是:StrucTexTv2的语言建模无需文本作为输入。

掩码图像建模:考虑到基于图像Patch的掩码重建在文档预训练中展现出一定的潜力,但Patch粒度的特征表示难以恢复文本细节。因此,论文将词粒度掩码同时用作图像重建,即预测被掩码区域的原始像素值。词区域的ROI特征首先通过一个全局池化操作被压缩成特征向量。其次,为了提升图像重建的视觉效果,论文将通过语言建模后的概率特征与池化特征进行拼接,为图像建模引入“Content”信息,使得图像预训练专注于复原文本区域的“Style”部分。图像建模分支由3个全卷积 Block构成。每个Block包含一个Kernel=2×2,Stride=4的反卷积层,一个Kernel=1×1,以及两个Kernel=3×1卷积层。最后,每个单词的池化向量被映射成一个大小为64×64×3的图像,并逐像素与原本的图像区域做MSE Loss。

论文提供了Small和Large两种参数规格的模型,并在IIT-CDIP数据集上使用百度通用高精OCR的文字识别结果预训练编码网络。

  • 三、实验结果

论文在四个基准数据集上测试模型对文档理解的能力,在五个下游任务上使用不同的Head进行Fine-tune并给出实验结论。表1给出模型在RVL-CDIP[13]验证文档图像分类的效果。同比基于图像单模态输入的方法DiT[4],StrucTexTv2以更少的参数量取得了更优的分类精度。

表1 RVL-CDIP数据集上文档图像分类的实验结果

c8ef00951efb36bb6175d7f26cdabbde.png

如表2和表3所示,论文结合预训练模型和Cascade R-CNN[1]框架fine-tune去检测文档中的版式元素以及表格结构,在PubLaynet[8]以及WWW[12]数据集上取得了当前的最好性能。

表2 PubLaynet数据集上版式分析的检测结果

f6b52162019e8190d2a291024f12d477.png

表3 WWW数据集上表格结构识别的性能对比

90e2697c0b244da118ec6258b4862ae5.png

在表4中,论文同时在FUNSD[3]数据集上进行了端到端OCR和信息提取两项实验,在基准测试中都取得了同期最优的效果。对比如StrucTexTv1[5]和LayoutLMv3[2]等OCR+文档理解的两阶段方法,证明了提出方法端到端优化的优越性。

表4 FUNSD数据集上端到端OCR以及信息抽取实验

af2bbda7160f164bc70d6e6ad153ee4c.png

接下来,论文对比了SwinTransformer[7]、ViT[10]以及StrucTexTv2的编码网络。从表5对比结果来看,论文提出CNN+Transformer的串联结构更有效地支持预训练任务。同时,论文给出了不同预训练配置的模型在文档图像分类和版式分析的性能增益,对两种模态预训练进行了有效性验证。

表5 预训练任务以及编码器结构的消融实验

d8cee3dddf7d7a96d89cd7018122e17c.png

同时,论文中评估了模型在预测时的耗时和显存开销。表6中给出了两种OCR引擎带来的开销以及并与现阶段最优的多模态方法LayoutLMv3进行了比较。

表6 与两阶段的方法LayoutLMv3的资源开销对比

975178d97ef87f19dcc29897e586668f.png

最后,论文评估了表7所示在图像重建预训练中使用不同的掩码方式对下游任务的影响。在RVL-CDIP和PubLaynet两个数据集上,基于词粒度掩码的策略可以获取到更有效的视觉语义特征,确保更好的性能。

表7 预训练任务以及编码器结构的消融实验

533aed1e6bee54e9db9a303079591a23.png

总结及讨论

论文出的StructTexTv2模型用于端到端学习文档图像的视觉和语言联合特征表达,图像单模态输入条件下即可实现高效的文档理解。论文提出的预训练方法基于词粒度的图像掩码,能同时预测相应的视觉和文本内容,此外,所提出的编码器网络能够更有效地挖掘大规模文档图像信息。实验表明,StructTexTv2在模型大小和推理效率方面对比之前的方法都有显著提高。更多的方法原理介绍和实验细节请参考论文原文。

  • 相关资源

论文地址:https://openreview.net/forum?id=HE_75XY5Ljh

代码地址:https://github.com/PaddlePaddle/VIMER/tree/main/StrucTexT/v2/

参考文献

[1] Zhaowei Cai and Nuno Vasconcelos. Cascade R-CNN: delving into high quality object detection. In CVPR, pp. 6154–6162, 2018.

[2] Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, and Furu Wei. Layoutlmv3: Pre-training for document AI with unified text and image masking. In ACM Multimedia, 2022.

[3] Guillaume Jaume, Hazim Kemal Ekenel, and Jean-Philippe Thiran. FUNSD: A dataset for form understanding in noisy scanned documents.

[4] Junlong Li, Yiheng Xu, Tengchao Lv, Lei Cui, Cha Zhang, and Furu Wei. Dit: Self-supervised pre-training for document image transformer. In ACM Multimedia, pp. 3530–3539, 2022.

[5] Yulin Li, Yuxi Qian, Yuechen Yu, Xiameng Qin, Chengquan Zhang, Yan Liu, Kun Yao, Junyu Han, Jingtuo Liu, and Errui Ding. Structext: Structured text understanding with multi-modal transformers. In ACM Multimedia, pp. 1912–1920, 2021c.

[6] Tsung-Yi Lin, Piotr Dolla ́r, Ross B. Girshick, Kaiming He, Bharath Hariharan, and Serge J. Be- longie. Feature pyramid networks for object detection. In CVPR, pp. 936–944, 2017.

[7] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. In ICCV, pp. 9992– 10002, 2021.

[8] Xu Zhong, Jianbin Tang, and Antonio Jimeno-Yepes. Publaynet: Largest dataset ever for document layout analysis. In ICDAR, pp. 1015–1022, 2019.

[9] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: pre-training of deep bidirectional transformers for language understanding. In NAACL-HLT, pp. 4171–4186, 2019.

[10] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dolla ́r, and Ross B. Girshick. Masked autoencoders are scalable vision learners. In CVPR, pp. 15979–15988, 2022.

[11] Kaiming He, Georgia Gkioxari, Piotr Dolla ́r, and Ross B. Girshick. Mask R-CNN. In ICCV, pp. 2980–2988, 2017.

[12] Rujiao Long, Wen Wang, Nan Xue, Feiyu Gao, Zhibo Yang, Yongpan Wang, and Gui-Song Xia. Parsing table structures in the wild. In ICCV, pp. 924–932, 2021.

[13] Adam W. Harley, Alex Ufkes, and Konstantinos G. Derpanis. Evaluation of deep convolutional nets for document image classification and retrieval. In ICDAR, pp. 991–995, 2015.

原文作者:Yu Yuechen, Yulin Li, Chengquan Zhang, Xiaoqiang Zhang, Zengyuan Guo, Xiameng Qin, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang


原文作者:Yu Yuechen, Yulin Li, Chengquan Zhang, Xiaoqiang Zhang, Zengyuan Guo, Xiameng Qin, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang

撰稿:李煜林 编排:高 学

审校:殷 飞 发布:金连文 

点击进入—>【计算机视觉】微信技术交流群

最新CVPP 2023论文和代码下载

 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/1618934.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

静态方法 与 非静态方法的区别/static 关键字

为什么80%的码农都做不了架构师?>>> 使用static修饰的静态方法是属于整个类的类方法,它在内存中的代码段会随类的定义而被分配和装载;而非静态方法是属于具体对象的方法,当这个对 象创建时,在对象的内存中…

Python 通过traceback追溯异常信息

Python 通过traceback追溯异常信息 导入traceback包 import traceback自定义函数 def func_3():return 1 / 0def func_2():func_3()def func_1():func_2()捕捉异常 try:func_1() except Exception as e:traceback_info traceback.format_exc()print("traceback_info"…

TSRFormer:复杂场景的表格结构识别新利器

编者按:近年来,各大企业和组织机构都在经历数字化转型。将文档转换成计算机所能识别的样态,是数字化转型的关键步骤,如何识别出图片中表格具体的结构与内容,并直接提取其中的数据和信息是学术界和工业界共同瞩目的焦点…

C++设计模式_01_设计模式简介(多态带来的便利;软件设计的目标:复用)

文章目录 本栏简介1. 什么是设计模式2. GOF 设计模式3. 从面向对象谈起4. 深入理解面向对象5. 软件设计固有的复杂性5.1 软件设计复杂性的根本原因5.2 如何解决复杂性 ? 6. 结构化 VS. 面向对象6.1 同一需求的分解写法6.1.1 Shape1.h6.1.2 MainForm1.cpp 6.2 同一需求的抽象的…

聚类分析 | MATLAB实现基于AHC聚类算法可视化

聚类分析 | MATLAB实现基于AHC聚类算法可视化 目录 聚类分析 | MATLAB实现基于AHC聚类算法可视化效果一览基本介绍程序设计参考资料 效果一览 基本介绍 AHC聚类算法,聚类结果可视化,MATLAB程序。 Agglomerative Hierarchical Clustering(自底…

从360随身WiFi到随身WiFi的改革发展史

摘要 随身WiFi从3G逐渐发展到4G、5G网络,再到WiFi,将网络信号转换成WiFi信号的设备,很大程度上的满足了出差需要移动办公的商务人士及旅游人士对网络的需求。 最先开始出现的是插电脑USB接口的随身WiFi,提前是你已经有了有线宽带…

360wifi使用方法|360wifi使用教程

360随身WiFi是一款超迷你、操作极其简单的无线路由器,只需把360随身WiFi插到一台可以上网的电脑上,不用做任何设置,就把连接有线网络的电脑转变成接入点,实现与其他终端的网络共享。简单方便实现手机WIFI上网。1、是否支持台式机&…

软件工程(九) UML顺序-活动-状态-通信图

顺序图和后面的一些图,要求没有用例图和类图那么高,但仍然是比较重要的,我们也需要按程度去了解。 1、顺序图 顺序图(sequence diagram, 顺序图),顺序图是一种交互图(interaction diagram),它强调的是对象之间消息发送的顺序,同时显示对象之间的交互。 下面以一个简…

iOS 4.3.5 红雪不完美越狱教程

苹果前不久放出了最新的iOS 4.3.5,声称是封堵了之前4.3.3的越狱漏洞,不过大神MuscleNerd很快就在他的推特上说Redsnow(红雪)0.98b4可以越狱4.3.5。下面为大家提供4.3.5详细越狱方法! 什么是不完美越狱? 不完美越狱就是越狱后你的设备不能…

iPhone / iPad iOS 5.0.1完美 越狱 教程 A4/A5处理器

黑客团队Dev Team的红雪列越狱软件Redsn0w 0.9.10b1,可以完美越狱部分iOS 5.0.1设备,1、此次完美越狱工具支持机型:iPhone 3GSiPhone 4iPhone 4-CDMAiPad (第一代)iPod touch 3GiPod touch 4G不支持的机型:iPhone 4SiPad 22、如果以上设备还不…

果粉的福音 ios5不完美越狱图文教程

转载自:http://mobile.sanhaostreet.com/Newsdata/2011/10/20111017104016162.shtml 2011年10月13日随着苹果全新系统ios5的开放下载,让诸多果粉又一次体验到了苹果的神奇与创新。全新的ios5系统增加了200余项新功能,通知中心、iCloud、报刊杂…

Xcode6.1 OS X 10.10 打越狱包和免证书测试方法

公司要发布包到91助手等平台上,需要打越狱包,之前没有动手打过,于是在网上搜集资料自己整理了一下,顺便分享给大家。 我的运行环境:OS X 10.10 ,Xcode6.1 iPhone5C (已越狱,这里就不详说越狱步骤,网上很多教程也很简单)。 1、首先要自己创建证书,并且名字必须叫做,iPh…

在vue项目中用vue-watermark快捷开发屏幕水印效果

我们先引入一个第三方依赖 npm install vue-watermark然后 因为这只是个测试工具 我就直接代码写 App.vue里啦 参考代码如下 <template><div><vue-watermark :text"watermarkText"></vue-watermark><!-- 正常的页面内容 --></div…

4.13 使用格式刷合并单元格和快速调整多列单元格的样式 [原创Excel教程]

原文&#xff1a;http://coolketang.com/staticOffice/5a97f2f7a22b9d0044326529.html 1. 本节课将为您演示&#xff0c;如何使用格式刷工具&#xff0c;对单元格进行快速合并&#xff0c;并对一定区域的单元格进行复制和应用。首先选择左上角的处于合并状态的单元格。 2. 然…

代码随想录第31天|认识贪心算法,455.分发饼干,376. 摆动序列,53.最大子数组和

贪心的介绍 贪心的本质是选择每一阶段的局部最优&#xff0c;从而达到全局最优。 例如&#xff0c;有一堆钞票&#xff0c;你可以拿走十张&#xff0c;如果想达到最大的金额&#xff0c;你要怎么拿&#xff1f; 指定每次拿最大的&#xff0c;最终结果就是拿走最大数额的钱。…

NoSQL数据库介绍+Redis部署

目录 一、NoSQL概述 1、数据的高并发读写 2、海量数据的高效率存储和访问 3、数据库的高扩展和高可用 二、NoSQL的类别 1、键值存储数据库 2、列存储数据库 3、文档型数据库 4、图形化数据库 三、分布式数据库中的CAP原理 1、传统的ACID 1&#xff09;、A--原子性 …

你真会进制的转换吗?进制之间的快速转换方法(我的转换很快,你忍一下)

前言 我们都知道计算机是用 2进制来表示的&#xff0c;也就是一堆的0 1代码组成的逻辑电路&#xff0c;可是当我们窥探内存的时候&#xff0c;计算机给我们显示的总是 16进制的数字&#xff0c;这使得我们作为人类来说&#xff0c;只熟悉 10进制的&#xff0c;阅读这 16进制&a…

Java流处理之转换编码的转换流

之前的博客梳理了基本的字节流和字符流&#xff1a;Java字节流和字符流详解&#xff0c;本文主要讲基于基础的字节字符流做转换编码的转换流。 文章目录 &#x1f926;‍♂️字符编码和字符集&#x1f3c3;字符编码&#x1f3c3;‍♀️字符集 ⛹编码引出的问题&#x1f3cb;In…

C语言【隐式类型转换】和【显式类型转换】的详解

本期介绍&#x1f356; 主要介绍&#xff1a;那些不被轻易发现的类型转换&#xff0c;隐式类型转换和显示类型转换&#x1f440;。 文章目录 一、前言&#x1f356;二、隐式类型转换&#x1f356;2.1 整形提升&#x1f356;2.1.1 例题1&#x1f356;2.1.2 例题2&#x1f356;2.…

基本数据类型的转换 (基础完整篇)

基本数据类型间的转换包括 自动类型转换 和 强制类型转换 ,本文还讲了基本数据类型和String类型间的转换&#xff0c;这些是学习的重点&#xff0c;掌握这些之后还有其他想法或疑问&#xff0c;都可以自己尝试用代码验证结果&#xff0c;总之多实践比死记硬背更有用。&#x1f…