【前沿技术杂谈:多模态文档基础模型】使用多模态文档基础模型彻底改变文档 AI

【前沿技术杂谈:多模态文档基础模型】使用多模态文档基础模型彻底改变文档 AI

    • 从文本到多模态模型:文档 AI 逐渐发展新技能。
    • 行业领先的型号
    • Document AI 的下一步:开发通用和统一框架

您是否曾经被包含不同信息(如应付账款、日期、商品数量、单价和金额)的发票所淹没?在处理重要的商业合同时,您是否担心小数点后点错误,造成无法估量的经济损失?您是否在寻找顶尖人才时阅读过大量简历?商务人士必须处理所有这些任务和各种各样的文件,包括保险单、业务报告、电子邮件和运输订单。

在数字时代,公司通常必须将所有这些文档以及各种图表和图像数字化,以简化其程序。然而,手动数字化文档是一种低效的做法,因为许多扫描文档的质量参差不齐,而网页和电子文档可能具有不同的布局。我们如何有效地提取、组织和分析这些不同文档中的信息?答案是文档人工智能技术,它将员工和公司从这种重复而乏味的工作中解放出来。

在这里插入图片描述

具有不同布局和格式的业务文档的扫描图像

文档AI主要是指利用AI技术,以丰富的排版格式从网页、数字文档或扫描文档中自动提取、分类和理解信息。它是自然语言处理(NLP)和计算机视觉(CV)交叉的重要研究领域。深度学习技术的激增极大地推动了文档人工智能的发展,在视觉信息提取和文档布局分析,以及文档视觉问答和文档图像分类等方面都有显著的性能提升。Document AI 在帮助企业节省运营成本、提高员工效率和减少人为错误方面也发挥着重要作用。

从文本到多模态模型:文档 AI 逐渐发展新技能。

Microsoft Research Asia的Document AI系列研究始于2019年。在对深度学习的深入研究中,研究人员希望从公开可用的文档中提取有用的信息,以建立一个可以支持深度学习模型预训练任务的知识库。然而,由于现实世界的文档不包含结构化数据,因此从杂乱的文档中提取结构化文本信息是研究人员必须解决的第一个问题。

为了解决这个问题,Microsoft Research Asia提出了UniLM,这是一种统一的预训练语言模型,可以读取文档并自动生成内容。UniLM模型在自然语言理解和生成任务方面取得了很好的成果。此外,研究人员还为该系统提供了通过开发跨语言预训练模型(InfoXLM)将英语NLP任务扩展到多种语言的功能。在现实世界中,文档不仅包含文本信息,还包含布局和样式信息(例如,字体、颜色和下划线)。因此,仅处理文本信息的模型无法应用于需要多模态程序的实际场景。

2019年底,Microsoft亚洲研究院推出了LayoutLM,这是一个结合了NLP和CV技术的通用预训练文档基础模型。这是第一个可以在文档级预训练的单个框架中同时学习文本和布局信息的模型。LayoutLM 对来自 IIT-CDIP Test Collection 1.0 数据集的大约 1100 万张扫描文档图像进行了预训练。它还可以通过大规模使用未标记的扫描文档图像以自我监督的方式轻松训练,在表单和收据理解以及图像分类任务方面优于其他模型。 在一个名为LayoutLMv2的更新模型中,研究人员随后将视觉信息纳入预训练过程,以提高其图像理解能力。这个新模型成功地将文档文本、布局和视觉信息统一到一个可以学习跨模态交互的端到端框架中。

在这里插入图片描述

记录Microsoft亚洲研究院的AI研究进展

此外,研究人员还开发了 LayoutXLM,这是一种基于 LayoutLMv2 的多模态预训练模型,但可以执行多语言文档理解,以满足使用各种语言的不同用户的需求。LayoutXLM 模型不仅集成了来自多语言文档的文本和视觉信息,还利用了它们的局部不变性。LayoutXLM 可以处理近 200 种语言的文档。为了准确评估预训练模型在多语言文档理解方面的性能,研究人员还创建了多语言表单理解基准数据集XFUND,该数据集涵盖七种语言(即中文、日语、西班牙语、法语、意大利语、德语和葡萄牙语)。

与包含扫描文档图像和数字生成的 PDF 文件的固定布局文档不同,许多基于标记语言的文档(如基于 HTML 的网页和基于 XML 的 Office 文档)通常是实时呈现的。出于这个原因,研究人员开发了 MarkupLM 模型来处理基于标记语言的文档的源代码,并在没有额外计算资源的情况下理解它们。实验结果表明,MarkupLM明显优于以往基于固定布局的方法,具有较强的实用性。

Microsoft Research Asia继续迭代Document AI技术,使其能够处理不同类型的数据,包括文本,布局和图像信息。今年,Microsoft Research Asia发布了LayoutLMv3,这是最新的多模态预训练模型,可以实现统一的蒙版文本和图像建模。LayoutLMv3 是第一个通过屏蔽文本和图像的预测来缓解文本和图像多模态表示学习之间的差异的模型。此外,LayoutLMv3 经过预训练以实现词块对齐,这意味着它可以通过预测单词的相应图像块是否被屏蔽来学习跨模态对齐。在模型架构方面,LayoutLMv3 不依赖预训练的 CNN 骨干来提取视觉特征。但是,它直接利用文档图像补丁,从而大大节省了参数,消除了区域注释,并避免了复杂的文档预处理。这些简单统一的架构和训练目标使 LayoutLMv3 成为通用预训练模型,适用于以文本为中心和以图像为中心的文档 AI 任务。

Microsoft Research Asia合伙人研究经理Furu Wei表示:“Layout(X)LM系列模型在我们推动基础模型的’大融合’和跨任务、语言和模态的大规模自监督预训练的基础研究中发挥着至关重要的作用。

在这里插入图片描述

LayoutLMv3 的体系结构和预训练目标

“我们看到了一种不同模式大融合的研究趋势,来自不同领域的科学家正在研究统一模型,包括NLP、CV等。LayoutLM的前两个版本专注于语言处理,而LayoutLMv3的优势在于它可以处理NLP和CV模式的任务,在计算机视觉领域取得了重大突破,“Microsoft亚洲研究院首席研究经理崔磊说。

GitHub 链接: https://github.com/microsoft/unilm

行业领先的型号

Layout(X)LM 系列模型在利用大规模未标记数据以及将文本和图像与多模态、多页面和多语言内容集成方面处于领先地位。特别是 LayoutLMv3 的通用性和优越性,使其成为文档 AI 行业研究的标杆模型。例如,Layout(X)LM 系列模型已被许多领先公司的许多 Document AI 产品采用,尤其是在机器人流程自动化 (RPA) 领域。

“Microsoft Research Asia不仅在建模创新和基准数据集方面取得了显著成果,而且还开发了许多应用程序,允许用户仅使用一个模型架构执行多项任务。学术界和工业界的许多同事都在使用 Layout(X)LM 进行有意义的科学探索并推进文档 AI,“崔磊说。

Microsoft 在该领域处于领先地位,一系列 Microsoft Research Asia 的文档 AI 模型现已用于许多与 Microsoft 相关的产品,例如 Azure 表单识别器、AI Builder 和 Microsoft Syntex。“我们很高兴能与Microsoft亚洲研究院的这些顶尖研究人员合作。文档基础模型大大提高了我们的开发和应用效率,并为文档AI的普及做出了贡献。我们期待未来在这一领域取得更多令人兴奋的进展,“Microsoft Azure AI的合作伙伴工程经理Cha Zhang说。

Document AI 的下一步:开发通用和统一框架

随着时间的推移,文档人工智能的技术进步使其在金融、医疗保健、能源、政府服务和物流等各个行业的应用,为这些行业的人们节省了大量时间,因为他们现在可以避免手动处理。例如,在金融行业,Document AI实现了财务报表分析、智能决策分析、发票和订单的自动化信息提取;在医疗保健行业,它促进了病例数字化,分析了医学文献和病例的相关性,并提出了潜在的治疗方案。

然而,Microsoft Research Asia不会固步自封,崔磊表示。其研究人员正计划在三个方面进一步推进Document AI的基础研究:增加模型规模、扩大训练数据和统一框架。“NLP 中的 GPT-3 表明,大型语言模型可以显着提高性能。当前 Document AI 模型的训练数据不到 Web 规模数据的十分之一,因此仍有改进的余地。在未来的研究中,我们将专注于扩大数据和模型的规模,以实现跨文档AI框架的统一。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2776015.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

通过nginx学习linux进程名的修改

目录 1. 缘起2. 背景知识3. 源码分析3.1 准备工作3.2 设置进程名字 1. 缘起 在运行nginx的时候,用ps查看nginx的进程信息,可能的输出如下: root 42169 3105 0 16:51 ? 00:00:00 nginx: master process ./objs/nginx root …

Java图形化界面编程—— 基本组件和对话框 笔记

2.5 AWT中常用组件 2.5.1 基本组件 组件名功能ButtonButtonCanvas用于绘图的画布Checkbox复选框组件(也可当做单选框组件使用)CheckboxGroup选项组,用于将多个Checkbox 组件组合成一组, 一组 Checkbox 组件将只有一个可以 被选中…

供应链|Managemeng Science 论文解读:数据驱动下联合定价和库存控制的近似方法 (一)

编者按 本次解读的文章发表于 Management Science,原文信息:Hanzhang Qin, David Simchi-Levi, Li Wang (2022) Data-Driven Approximation Schemes for Joint Pricing and Inventory Control Models. https://doi.org/10.1287/mnsc.2021.4212 文章在数…

代码随想录算法训练营第四十六天(动态规划篇)|01背包(滚动数组方法)

01背包(滚动数组方法) 学习资料:代码随想录 (programmercarl.com) 题目链接(和上次一样):题目页面 (kamacoder.com) 思路 使用一维滚动数组代替二维数组。二维数组的解法记录在:代码随想录算…

最新的 Ivanti SSRF 零日漏洞正在被大规模利用

Bleeping Computer 网站消息,安全研究员发现 Ivanti Connect Secure 和 Ivanti Policy Secure 服务器端请求伪造 (SSRF) 漏洞(CVE-2024-21893 )正在被多个威胁攻击者大规模利用。 2024 年 1 月 31 日,Ivanti 首次就网关 SAML 组件…

【工作学习 day04】 9. uniapp 页面和组件的生命周期

问题描述 uniapp常用的有:页面和组件,并且页面和组件各自有各自的生命周期函数,那么在页面/组件请求数据时,是用created呢,还是用onLoad呢? 先说结论: 组件使用组件的生命周期,页面使用页面的…

机器学习11-前馈神经网络识别手写数字1.0

在这个示例中,使用的神经网络是一个简单的全连接前馈神经网络,也称为多层感知器(Multilayer Perceptron,MLP)。这个神经网络由几个关键组件构成: 1. 输入层 输入层接收输入数据,这里是一个 28x…

双侧条形图绘制教程

写在前面 双侧条形图在我们的文章中也是比较常见的,那么这样的图形是如何绘制的呢? 以及它使用的数据类型是什么呢? 这些都是我们在绘制图形前需要掌握的,至少我们知道绘图的数据集如何准备,这样才踏出第一步。 今天…

基于Linux操作系统的Docker容器安装MySQL随笔

1、在Linux上安装Docker容器 cd /etc/yum.repos.d/ curl -O https://download.docker.com/linux/centos/docker-ce.repo sed -i s/$releasever/8/g docker-ce.repo yum install -y docker-ce 2、修改Docker默认镜像仓库,然后启动Docker容器 sudo mkdir -p /etc/do…

Javaweb之SpringBootWeb案例之异常处理功能的详细解析

3. 异常处理 3.1 当前问题 登录功能和登录校验功能我们都实现了,下面我们学习下今天最后一块技术点:异常处理。首先我们先来看一下系统出现异常之后会发生什么现象,再来介绍异常处理的方案。 我们打开浏览器,访问系统中的新增部…

独家完整版!SpringBoot动态定时任务来了!

执行定时任务的线程池配置类 import org.springframework.context.annotation.Bean; import org.springframework.context.annotation.Configuration; import org.springframework.scheduling.TaskScheduler; import org.springframework.scheduling.concurrent.ThreadPoolTas…

236. 二叉树的最近公共祖先 - 力扣(LeetCode)

题目描述 给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为:“对于有根树 T 的两个节点 p、q,最近公共祖先表示为一个节点 x,满足 x 是 p、q 的祖先且 x 的深度尽可能大(一个节点也可以…

雨云2h2g香港二区云服务器测评(纯测评)

购买并且重装好系统后,来itdog去ping一下看看延迟怎么样。(香港无移动屏蔽): 然后,我们来做一个线路路由测试(去回程路由测试)。(雨云香港服务器IP不是原生IP,而是广播IP…

【Spring】Spring 对 Ioc 的实现

一、Ioc 控制反转 控制反转是一种思想 控制反转是为了降低程序耦合度,提高程序扩展力,达到 OCP 原则,达到 DIP 原则 控制反转,反转的是什么? 将对象的创建权利交出去,交给第三方容器负责 将对象和对象之…

会声会影绿幕抠图操作方法 会声会影绿幕抠图有绿色残边 绿幕抠图视频有绿边怎么处理 抖音怎么剪辑视频 视频剪辑软件推荐

科幻片里真的存在怪兽吗?外太空的画面是直接将演员放入太空拍摄的吗?其实这些不切实际的画面是通过绿幕拍摄实现的。你只需要在绿幕前拍一段太空漫步的视频,再利用会声会影的抠图功能就能实现!如果你还不会绿幕抠图,我今天就手把…

Vue.js2+Cesium1.103.0 十五、绘制视锥,并可实时调整视锥姿态

Vue.js2Cesium1.103.0 十五、绘制视锥&#xff0c;并可实时调整视锥姿态 Demo <template><divid"cesium-container"style"width: 100%; height: 100%;"/> </template><script> /* eslint-disable no-undef */ /* eslint-disable …

微信小程序的图片色彩分析,窃取网络图片的主色调

1、安装 Mini App Color Thief 包 包括下载包&#xff0c;简单使用都有&#xff0c;之前写了&#xff0c;这里就不写了 网址&#xff1a;微信小程序的图片色彩分析&#xff0c;窃取主色调&#xff0c;调色板-CSDN博客 2、 问题和解决方案 问题&#xff1a;由于我们的窃取图片的…

娅奴服饰:行至云深处,问计新零售

编辑&#xff1a;阿冒 设计&#xff1a;沐由 大浪壮美&#xff0c;时尚前行。 作为广东省首批特色小镇创建示范点&#xff0c;以及粤港澳大湾区唯一的特色时尚小镇&#xff0c;大浪时尚小镇云集了700余家服装及配套企业&#xff0c;涌动着蓬勃的生机与无尽的活力。 国内知名的“…

API网关架构设计与实现的经验总结与实践

API网关是现代微服务架构中的重要组件&#xff0c;它充当了前端和后端微服务之间的中介。本文将介绍API网关的架构设计原则和实现方法&#xff0c;以帮助开发人员更好地理解和应用这些技术。 1. 什么是API网关&#xff1f; - 解释了API网关的基本概念和作用&#xff0c;以及…

API接口访问鉴权设计和实现的经验总结

API接口访问鉴权是保护API资源安全的重要措施。本文总结了一些常见的API接口访问鉴权设计和实现方法&#xff0c;以帮助开发人员更好地理解和应用这些技术。 1. 什么是API接口访问鉴权&#xff1f; - 解释了API接口访问鉴权的基本概念和作用&#xff0c;以及为什么需要对A…