KOSMOS-2.5: A Multimodal Literate Model

KOSMOS-2.5: A Multimodal Literate Model

相关链接:arXiv
关键字:multimodalliterate modeltext-intensive imagesTransformer architecturedocument-level text recognition

摘要

我们介绍了KOSMOS-2.5,这是一个用于机器阅读文本密集型图像的多模态文学模型。KOSMOS-2.5在大规模文本密集型图像上进行预训练,擅长两个不同但相互合作的转录任务:(1) 生成空间感知的文本块,每个文本块在图像中分配其空间坐标;(2) 生产结构化文本输出,以markdown格式捕捉样式和结构。通过共享的Transformer架构、特定任务的提示和灵活的文本表示,实现了这种统一的多模态文学能力。我们在端到端的文档级文本识别和图像到markdown文本生成上评估了KOSMOS-2.5。此外,该模型可以通过监督微调轻松适应任何文本密集型图像理解任务,使其成为涉及丰富文本图像的实际应用的通用工具。这项工作还为未来多模态大型语言模型的扩展铺平了道路。

核心方法

在这里插入图片描述

  1. 多模态文学模型:KOSMOS-2.5结合了视觉和文本信息,通过单一的Transformer基础模型来学习和生成基于两种模态的内容。
  2. 空间感知文本块生成:模型能够识别文本行并将其与图像中的相应空间坐标对齐,生成带有边界框的文本。
  3. 结构化文本输出:模型能够捕捉文本的样式和结构,并将其转换成markdown格式的输出。
  4. 共享Transformer架构:KOSMOS-2.5采用了基于Vision Transformer的视觉编码器和基于Transformer的语言解码器,通过重采样模块连接。
  5. 灵活的文本表示:模型支持多种文本表示,包括带边界框的文本行和纯markdown文本。

实验说明

实验结果展示了KOSMOS-2.5在多个任务上的性能,包括端到端的文档级文本识别和图像到markdown文本的生成。实验使用了不同的基准数据集,如FUNSD、SROIE和CORD,以及从各种来源生成的图像到markdown的数据集。评估指标包括单词级别的精确度、召回率和F1分数,以及归一化编辑距离(NED)和归一化树编辑距离(NTED)。

数据集任务指标KOSMOS-2.5商业OCR
FUNSD文本识别F183.26%82.93%
SROIE文本识别F192.14%89.69%
CORD文本识别F185.69%84.34%
通用文档图像到markdownNED/NTED91.59%/82.08%-
README图像到markdownNED/NTED95.09%/91.18%-
表格图像到markdownNED/NTED85.14%/90.64%-

实验数据来源于多种文本密集型图像,包括IIT-CDIP数据集、arXiv论文、PowerPoint幻灯片、一般PDF文件、网页截图、README文件、DOCX页面、LATEX代码和HTML文件。数据经过预处理和质量控制,以确保多样性和准确性。

结论

我们介绍了KOSMOS-2.5,这是一个多模态文学模型,它在文本密集型图像理解方面表现出色。KOSMOS-2.5代表了从传统的编码器-解码器模型到解码器-只有模型的重要范式转变。它通过整合生成性多模态语言建模简化了应用接口,消除了传统上用于各种下游任务的复杂级联管道。此外,KOSMOS-2.5展示了在少次和零次学习场景中的潜力,为未来多模态文学模型的扩展和扩展奠定了基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2906524.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

“免密支付”出事了?看看背后的安全隐患

#免密支付# 的安全问题近日冲上热搜,大家来看看怎么一回事。 “我不知道什么时候开通的‘免密支付’功能,直到手机频繁收到账单提醒,才发现平台账号被盗,对方通过‘免密支付’消费了5000多元。这种事关会员安全的操作提示应该设置…

电子声子耦合激光器可拓展激光波长范围 相关研究成果不断增多

电子声子耦合激光器可拓展激光波长范围 相关研究成果不断增多 电子声子耦合激光器,采用电子声子耦合效应制造而成,突破了传统荧光光谱激光输出局限,拓展了激光波长范围,可实现精准波长调控,为可调谐全固态激光器提供了…

CentOS使用Docker部署Halo并结合内网穿透实现公网访问本地博客

文章目录 1. Docker部署Halo1.1 检查Docker版本如果未安装Docker可参考已安装Docker步骤:1.2 在Docker中部署Halo 2. Linux安装Cpolar2.1 打开服务器防火墙2.2 安装cpolar内网穿透 3. 配置Halo个人博客公网地址4. 固定Halo公网地址 本文主要介绍如何在CentOS 7系统使…

Antd Vue3 使用 Anchor 锚点组件记录

项目场景 客户要求做一个表单页面&#xff0c;表单数据分为三步&#xff0c;每一步骤是一个单独的 Vue 组件&#xff0c;表单上方需要使用锚点组件实现锚点定位到每一步的功能。 代码总览 <template><div class"guided-form-content-wrapper"><!-- …

【Go】结构体中Tag标识

https://blog.csdn.net/weixin_45193103/article/details/123876319 https://blog.csdn.net/qq_49723651/article/details/122005291 https://juejin.cn/post/7005465902804123679 学一点&#xff0c;整一点&#xff0c;基本都是综合别人的&#xff0c;弄成我能理解的内容 Tag定…

FMEA与智能机器人:提升机器人可靠性与安全性的关键

随着科技的飞速发展&#xff0c;智能机器人已经深入到我们生活的方方面面&#xff0c;从工业生产到家庭服务&#xff0c;从深海探险到太空探索&#xff0c;处处都有它们的身影。然而&#xff0c;随着应用的日益广泛&#xff0c;机器人系统的复杂性和不确定性也在增加&#xff0…

基于Springboot+Vue的酒店管理系统!新鲜出炉,可商用,带源码

新年了给大家分享一套基于SpringbootVue的酒店管理系统源码&#xff0c;在实际项目中可以直接复用。(免费提供&#xff0c;文末自取) 一、系统运行图&#xff08;管理端和用户端&#xff09; 1、管理登陆 2、房间管理 3、订单管理 4、用户登陆 5、房间预定 二、系统搭建视频教…

掌握html这一篇就够了

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、HTML是什么&#xff1f;二、基础标签6个标题标签6级标题其他基础标签 8种文本标签6种表格标签4种表格标签基础标签修饰 4种媒体标签a标签img:图片audio&…

Vue中的一些指令与计算方法

语法 插值语法 HTML的双标签内容中使用&#xff0c;在{{}}之内书写JS代码 属性语法 1.v-bind或: 2.:属性名"值"或v-bind"值" 事件语法 v-on或 v-on:事件名"方法名"或事件名"方法名" 选项 选项&#xff1a;可选的配置项——官方…

Spring后置处理器(PostProcessor)

文章目录 引言BeanFactoryPostProcessor常见用法创建自定义后置处理器注册后置处理器执行后置处理器 BeanPostProcessor常见用法创建自定义后置处理器注册后置处理器执行后置处理器 实际需求验证配置文件的正确性检验逻辑 引言 在Spring框架中&#xff0c;后置处理器为我们提供…

鸿蒙开发第一节

一.开发准备-工具安装 1.鸿蒙开发官网&#xff1a;华为开发者联盟-智能终端能力开放,共建开发者生态 (huawei.com) 2.DevEco Studio3.1下载链接HUAWEI DevEco Studio和SDK下载和升级 | 华为开发者联盟 点击下载按钮进行下载2.1解压文件2.2双击运行此程序 2.3安装软件 点击N…

【JavaSE】java刷题——基础语法熟练应用

前言 通过本篇题目&#xff0c;可以让初学Java的小伙伴们更加熟练Java的基础语法~ 欢迎关注个人主页&#xff1a;逸狼 创造不易&#xff0c;可以点点赞吗~ 如有错误&#xff0c;欢迎指出~ 题1&#xff1a;数字9 出现的次数 题述&#xff1a;编写程序数一下 1到 100 的所有整数中…

fastapi学习记录

今天看了点fastap&#xff0c;简单记录下&#xff0c;fastapi是一个python下的后端框架。 参考学习网站菜鸟教程 安装 pip install fastapi pip install "uvicorn[standard]"安装好了以后就可以直接使用&#xff0c;最主要的使用方式就是写接口嘛&#xff0c;get&a…

状态压缩dp[详解 + 例题]

1 . 题目 2 . 分析 可以发现 : 横放的方案数 总方案数 ; 剩下的都是竖放去填补空缺 ; 关于状态定义 : 考虑按列拜访 &#xff0c; 某列的隔行用0/1表示摆放状态 ; 某行为1 : 表示横放 , 0 : 表示竖放 ; 状态表示 : f[i][j] : 表示拜访第i列&#xff0c;状态为j的方案数…

【八大排序】一篇文章搞定所有排序

文章目录 1.排序的概念2.常见排序算法的实现2.1 插入排序2.1.1直接插入排序2.1.2希尔排序 2.2选择排序2.2.1直接选择排序:2.2.2堆排序 2.3交换排序2.3.1冒泡排序2.3.2快速排序Hoare法前后指针法挖坑法非递归版本 2.4归并排序递归版本非递归版本 2.5计数排序3.排序的比较 1.排序…

报错 /core/library/think/cache/driver/File.php 第 126 行左右(已解决)

报错 /core/library/think/cache/driver/File.php 第 126 行左右 解决方法&#xff1a; 网站后台版本低于v1.5.2出现的缓存问题&#xff0c;如果无法登录后台了&#xff0c;就通过FTP&#xff0c;把 /data/runtime 里的都删掉&#xff0c;然后进后台升级到最新版 一、进入宝…

基于Python微博舆情数据爬虫可视化分析系统(NLP情感分析+爬虫+机器学习)

这里写目录标题 基于Python微博舆情数据爬虫可视化分析系统(NLP情感分析爬虫机器学习)一、项目概述二、微博热词统计析三、微博文章分析四、微博评论分析五、微博舆情分析六、项目展示七、结语 基于Python微博舆情数据爬虫可视化分析系统(NLP情感分析爬虫机器学习) 一、项目概…

疯狂数字直角三角形

上一篇文章的输出的数字直角三角形有个限制&#xff0c;就是边长n最大值为13&#xff0c;因为超过13最后就会输出3位数&#xff0c;这样斜边就不成一条直线了。 如果去掉这个限制呢&#xff1f;随便输入一个正整数&#xff08;int型&#xff09;&#xff0c;还能否输出这样的数…

【管理咨询宝藏59】某大型汽车物流战略咨询报告

本报告首发于公号“管理咨询宝藏”&#xff0c;如需阅读完整版报告内容&#xff0c;请查阅公号“管理咨询宝藏”。 【管理咨询宝藏59】某大型汽车物流战略咨询报告 【格式】PDF 【关键词】HR调研、商业分析、管理咨询 【核心观点】 - 重新评估和调整商业模式&#xff0c;开拓…

记一次 .NET某防伪验证系统 崩溃分析

一&#xff1a;背景 1. 讲故事 昨晚给训练营里面的一位朋友分析了一个程序崩溃的故障&#xff0c;因为看小伙子昨天在群里问了一天也没搞定&#xff0c;干脆自己亲自上阵吧&#xff0c;抓取的dump也是我极力推荐的用 procdump 注册 AEDebug 的方式&#xff0c;省去了很多沟通…