合合信息大模型加速器重磅上线,释放智能文档全新可能

目录

  • 0 写在前面
  • 1 高速文档解析引擎:拓宽大模型认知边界
  • 2 文本嵌入模型acge:克服大模型感知缺陷
  • 3 行业赋能:以百川智能为例
  • 总结

0 写在前面

随着人工智能技术的飞速发展,大模型以强大的数字处理能力和深度学习能力,不断与各领域交叉融合,逐步成为产业创新的关键抓手。2024世界人工智能大会(WAIC)恰逢全球大模型蓬勃发展之时,今年参会的人们更加关注大模型技术在未来可以如何作用于人们的生活。

在这里插入图片描述

然而,大模型产业发展如火如荼的同时,其训练数据规模的增长速度跟不上、语料质量参差不齐,尤其是高质量中文语料短缺的问题日益凸显,成为各方关注焦点。阿里研究院5月发布的《大模型训练数据白皮书》显示

互联网上中文语料和英文语料占比存在显著差异:在全球网站中,英文占比高达59.8%,而中文仅占1.3%。

高质量数据的生成速度远低于AI大模型训练数据需求量的增长速度,数据短缺问题已初现端倪。本次世界人工智能大会期间,合合信息为中文大模型打造的“加速器”重磅上线,为工业界大模型语料和幻觉问题提供了全新的解决方案。

在这里插入图片描述
下面就让我们一起看看吧~

1 高速文档解析引擎:拓宽大模型认知边界

语料即大模型训练所需数据,是大模型训练的基础,也是决定大模型性能和专业性的关键因素。中文高质量语料相对缺乏是国内外大模型面临的共同问题。目前已有的中文语料库不仅规模较小,且其电子化和网络化程度明显不足。

在这种情况下,电子书、报告、论文、报纸等高质量语料对大语言模型训练就产生了重要意义。首先,这些海量的语言数据源提供了丰富多样的文本内容——涵盖了各种领域的知识、专业术语、实际应用场景等,可以使得大语言模型在训练过程中接触到更广泛、多样化的语言表达,提高其语言理解和生成能力;其次,这些语料通常被精心编写、编辑和组织,具有较高的语言质量和结构性。这些文档中的标注、标题、章节、段落等信息可以为大语言模型提供更可靠的上下文提示和语言规则,帮助模型更好地理解和生成文本。因此,通过这类未完全开发的语料进行训练,大语言模型能够学习到不同的语境和用法,更好地理解和应对各种现实世界的语言任务和挑战。

当前,大模型算力算法能力显著提升,进一步发展取决于数据和场景,应构建高质量的数据集。一方面,大模型厂商需要高质量数据支撑,以解“巧妇难为无米之炊”的困境;另一方面,高质量中文语料库的数据拥有者,如拥有各类图书、文献的出版商等,也期望在智能化时代实现数据增值。然而,要推动数据供需双方建立合作并非易事,研究者需要明白:大模型语料处理中的“拦路虎”到底是什么?

答案是:表格、公式、图表等复杂元素的处理,这大大制约了大模型的训练语料处理及大模型文档问答的应用能力。例如文档的多样性和复杂性问题:文档类型和格式繁多,包括报告、合同、发票、证明、证件等等。不同类型的文档有不同的格式和布局,难以用统一的方法处理。而且智能文档处理受到图像质量、文字字体、文字大小、文字颜色等噪声因素的影响,容易出现误识别。此外,还有图像质量不一、文档获取繁琐等等。

本次人工智能大会上,合合信息带来的大模型加速器——高速文档解析引擎,为大语言模型受限于高质量语料版面解析的窘境提供了全新的解决方案,我们先来看一个案例:

案例一:如图所示为大模型使用文档解析引擎之前(左框)和之后(右框)的效果对比。对比显示,文档解析引擎分析了论文中关于电动车充电载荷的定量数据和图表,并能对用户“从电动车历史数据来看,哪辆车充电时长最短”的问题作出准确的回答。

在这里插入图片描述

为了应对复杂的图表文档解析任务,合合信息采集了折线图、饼图、柱状图、曲线图等十余种常见图表作为识别样本,使引擎能够提取图表中的关键信息,如数据趋势、比例、变化趋势等,帮助用户快速理解图表所传达的信息。这种能力不仅提高了文档处理的效率,还减少了人工处理过程中的错误和偏差,提升了数据分析的准确性和可靠性,为研究、决策和信息获取提供了强有力的支持。

在这里插入图片描述

文档解析引擎除了准,还需要快。大家不妨思考一下,如果文档解析引擎处理速度不够快,会发生什么?最直接地,大模型的整个训练流程的效率受影响,训练过程中的大量时间花费在等待文档解析上,而非实际的模型训练和优化上;在云计算环境下,可能需要更多的计算实例或更长时间的运行,从而增加成本;在在线学习或增量学习的情况下,解析引擎速度慢也会导致数据的流动延迟;在一些需要持续学习的场景下,大模型在动态数据环境中的适应能力也会受限。作为现阶段市面上同类文档解析引擎中处理速度最快的产品之一,合合信息文档解析引擎最快1.5秒就能解析百页长文档中的非结构化数据,是名副其实的大模型加速器

在这里插入图片描述

文档中还包含大量的逻辑信息、文档逻辑结构与复杂阅读顺序。文档解析引擎的能力直接关系到大模型能否理解其内容,并从中获取关键信息。这对于大模型的训练、调试,以及与真实世界数据的无缝集成和应用有着非常重要的作用。

下面的案例展示了引擎对专业图表的还原能力,即可以将研报、论文等文档中的柱状图、折线图、饼图、雷达图等十余种常见图表拆解为大模型能“读懂”的markdown格式

案例二:文档解析引擎将全国居民消费价格涨跌幅图表解析为带有具体数值的表格

在这里插入图片描述

2 文本嵌入模型acge:克服大模型感知缺陷

虽然大语言模型在认知方面展示出巨大的潜力,但它在处理智能文档任务时,仍然具有很多的缺陷。其中制约大模型发展的一个关键点在于“幻觉”现象的产生,所谓幻觉,指的是模型错误地关联了文本信息和图像细节之间的关系,导致产生了错误的推断和判断,或根据文本信息生成与图像不符合的内容,在补全图像时添加错误或不相关的细节。

例如下面的例子直观地解释了什么是大模型幻觉。在准确率要求非常高的场景下幻觉是不可接受的,比如医疗领域、金融领域等

案例三:已有的知识是丹尼尔·瓦切克和汉娜·曼德利科娃都是职业网球运动员。我们问大模型一个很简单的问题:丹尼尔·瓦切克和哈娜·曼德利科娃在哪项运动中获得了职业地位?结果大模型错误地回答了从未出现过的信息:板球。

在这里插入图片描述

RAG(Retrieval Augmented Generation)为解决幻觉问题提供了一个很有前景的解决方案。RAG的主要作用类似搜索引擎,找到用户提问最相关的知识或者是相关的对话历史,并结合原始提问(查询),创造信息丰富的prompt,指导模型生成准确输出。其本质上应用了情境学习的原理。基于文本嵌入技术(Embedding),可以搭建RAG应用,为语言模型真正理解文本、克服幻觉提供了基础。

在这里插入图片描述

前段时间,合合信息发布的文本向量化模型acge_text_embedding(简称acge模型),获得被公认为是目前业界最全面、最权威的中文语义向量评测基准C-MTEB榜单第一的成绩,在文本分类、文本聚类等任务上表现优异,打通了文本嵌入模型领域的底层原理。

在这里插入图片描述

acge位居C-MTEB榜首

acge模型,通过多层次的表示学习和信息融合机制,改进了语义表示和上下文感知能力。在问答任务中,这种能力可以帮助模型更好地理解问题和文本,提供更精准的答案,从而真正理解人的意图特性。

案例四:下面的文档排版引擎包含字符嵌入(Character embedding)文本行嵌入(Textline embedding)段落嵌入(Paragraph embedding)关系嵌入(Relation embedding)四部分嵌入向量

在这里插入图片描述

acge模型在神经网络广泛存在的灾难性遗忘问题上也做出了贡献。灾难性遗忘指的是随着新任务的增加,先前学习的处理之前任务的能力不应(显著)随时间降低。类比人类的学习过程:人类在不断学习新概念的过程中可能会逐渐忘记一些已学习的概念,但是新信息的学习不会使得人们大量遗忘旧概念,例如人体的体感皮层可以在运动学习期间吸收新信息,而不会破坏先前获得的运动技能的稳定性;当回忆旧概念的时候,人类可以直接调取已学习的知识。

案例五:在缺陷分类方面,当有新类别的缺陷数据出现时,模型为了拟合新类别的缺陷数据,在旧类别缺陷数据的分类准确率就会大幅度下降,发生灾难性遗忘
在这里插入图片描述

灾难性遗忘最早出现在连接主义网络中,在一定条件下,学习一组新模式的过程中突然彻底地抹去了网络对其已学知识的了解,这种现象称为灾难性干扰,造成这一现象的根本原因就是网络共享一组权重。为了克服灾难性遗忘,学习系统应防止学习的新知识显著干扰甚至覆盖已有的知识。但是,在不针对这一问题改进训练过程的情况下,网络在学习过程随着新概念的学习,必将遭受旧概念的灾难性遗忘。这一问题的存在使得现在常用的人工神经网络等模型无法在常规训练方法下持续不断地学习不同任务的知识,而只能用于处理单一任务。

事实上,灾难性遗忘体现了神经网络的可塑性-稳定性矛盾:可塑性指的是模型学习新任务的能力,而稳定性则是指在更新时保留旧任务知识的能力。完全稳定的模型,可以很好的保留旧任务的知识,但没办法很好的学习新任务,而性能完全可塑的模型,可以即时学习好新任务,但无法很好的保留旧任务的知识。过度关注新任务的性能,必然会使得过去任务的性能下降,反之亦然。因此,如何设计一个能够同时对新输入敏感但不受新输入的干扰,是解决灾难性遗忘问题的关键。

通过引入持续学习训练方式,合合信息acge模型克服了神经网络存在灾难性遗忘的问题,对维护大模型长期记忆并保持其学习能力有着重要意义,推动大模型在多个任务和领域中持续学习和适应。同时,减少反复训练模型的需要,节省大量的计算资源和时间

3 行业赋能:以百川智能为例

在金融报表、行业报告等高知识密度的文档中,版面包含的信息量巨大,总结来说包含两个关键点:

  • 物理版面(Physical Layout):即文档在视觉上可见的外观和布局,包括页面的大小、页面边距、页眉页脚、文本框的位置和大小等与文档视觉呈现相关的元素。物理版面的分析有助于对文档进行可视化处理、重构和呈现;
  • 逻辑版面(Logical Layout),即文档的结构和组织方式,独立于具体的视觉呈现。它关注的是文档中各个元素之间的关系和层次结构,例如标题、段落、列表、表格等。逻辑版面的分析可以帮助系统理解文档的内容和结构,从而进行文本解析、数据提取和语义分析等任务。

针对版面分析问题,虽然在近年来在学术界涌现出一批能够取得较好效果的方法,但是仍然在业界难以进行产品化和商业化,实时性模型结构的设计方案缺失、文档的具体内容边界模糊等挑战性难题层出不穷。

在这里插入图片描述

挑战与机遇并存。对文档的智能处理的前景非常广阔,应用场景也会不断拓展。举例来说

  • 电子博物馆:将大量历史文献、照片等材料进行数字化处理,并进行元数据标注和索引,从而创建电子博物馆,方便文化遗产的保护和传承。合合信息在这方面已有应用:合合信息焕新古文化传承之路,AI为古彝文识别赋能
  • 法律文书处理:通过自动识别和提取法律文书中的各种信息,例如案号、法院名称、当事人姓名、判决结果等,从而方便进行法律文书的管理和查询;
  • 财务报表处理:通过自动识别和提取财务报表中的各种信息,例如收入、支出、资产、负债等,从而方便进行财务报表的分析和管理

在这里插入图片描述

本次世界人工智能大会现场,合合信息与百川智能携手,推动复杂专业领域与大模型接轨,促进大模型从“可用”朝着“好用”的水平发展,使大模型能够真正变成赋能千行百业的生产力。

总结

当前,大模型正从通用场景快速拓展到各行业的细分领域,为传统产业插上人工智能的翅膀。从文娱到医疗,从制造到金融,我们已经看到越来越多定制化的行业大模型应运而生,赋能各行业的数字化智能化转型。合合信息带来的大模型加速器方案,为高质量语料数据流通与治理、大模型专业化定制化落地服务等提供了核心驱动力。欢迎各位感兴趣的朋友到textin.com或小程序了解更多关于智能文字识别产品和技术的信息,体验智能图像处理、文字表格识别、文档内容提取等产品。

让我们拭目以待,期待合合信息在模式识别、深度学习、图像处理、自然语言处理等领域的持续深耕,用技术方案惠及更多的人!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3225511.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Spark RDD优化

Spark RDD优化 一、分区优化二、持久化优化三、依赖优化四、共享变量优化五、提交模式与运行模式优化六、其他优化 一、分区优化 分区数调整:RDD的分区数可以通过repartition和coalesce方法进行调整。合理的分区数可以提高并行度,但过多的分区会增加管…

数据库之DML

1,创建表 mysql> create table student(-> id int primary key,-> name varchar(20) not null,-> grade float-> );插入记录 mysql> insert into student values(1,monkey,98.5); Query OK, 1 row affected (0.01 sec)一次性插入多条记录 mysql…

Rti DDS qos

1. parent.allow_interfaces_list 字符串列表,每个字符串标识一系列接口地址或接口名称。接口必须指定为逗号分隔的字符串,每个逗号分隔一个接口。 例如,以下是可接受的字符串: 192.168.1.1 192.168.1.* 192.168.* 192.* e…

高速电吹风方案介绍,多档温度风速调节,转速可达105000RPM

高速电吹风是这几年很火的一种电动小家电,能够在较短时间内完成头发干燥,减少对头发的热损伤。可以通过高速电机和风扇来产生高速风流,迅速将头发表面的水分吹干。高速电吹风通常配有多种档位风速和温度可以设置,用户可以根据需要…

VS安装Qt扩展工具

1-Visual Studio中安装QT插件 **插件下载地址:**http://download.qt.io/development_releases/vsaddin/ 关闭VS,双击下载的QT插件,默认安装即可; (1)配置Qt的MSVC编译器安装路径 打开Visual Studio,在菜单栏…

CentOS 6.5配置国内在线yum源和制作openssh 9.8p1 rpm包 —— 筑梦之路

CentOS 6.5比较古老的版本了&#xff0c;而还是有一些古老的项目仍然在使用。 环境说明 1. 更换国内在线yum源 CentOS 6 在线可用yum源配置——筑梦之路_centos6可用yum源-CSDN博客 cat > CentOS-163.repo << EOF [base] nameCentOS-$releasever - Base - 163.com …

unity使用 MQTT复现plant simulate仿真

unity使用 MQTT复现plant simulate仿真 一、plant simulate端配置 1、plant simulate MQTT组件配置,该组件在类库的信息流类目下,端口不变,填写ip即可; 2、设备配置界面,在控件入口和出口处各挂一个脚本,当物料出入该设备时会分别触发执行这两个脚本,粘贴如下代码; E…

Windows 黑暗模式是什么意思?如何开启它?

随着计算机和移动设备的普及&#xff0c;长时间盯着屏幕已经成为现代人生活和工作的常态。为了减轻眼睛疲劳&#xff0c;并在低光环境中提供更舒适的视觉体验&#xff0c;许多操作系统和应用程序都引入了黑暗模式&#xff08;Dark Mode&#xff09;。 Windows 黑暗模式就是其中…

(补充):java各种进制和文本、图像、音频在计算机中的存储方式

文章目录 前言一、进制1 逢几进一2 常见进制在java中的表示3 进制中的转换(1)任意进制转十进制(2)十进制转其他进制二、计算机中的存储1 计算机的存储规则(文本数据)(1)ASCII码表(2)编码规则的发展演化2 计算机的存储规则(图片数据)(1)分辨率、像素(2)黑白图与灰度…

基于Java中的SSM框架实现疫情冷链追溯系统项目【项目源码+论文说明】

基于Java中的SSM框架实现疫情冷链追溯系统演示 摘要 近几年随着城镇化发展和居民消费水平的不断提升&#xff0c;人们对健康生活方式的追求意识逐渐加强&#xff0c;生鲜食品逐渐受到大众青睐&#xff0c;诸如盒马鲜生、7-fresh等品牌生鲜超市&#xff0c;一时间如雨后春笋般迅…

单片机中有FLASH为啥还需要EEROM?

在开始前刚好我有一些资料&#xff0c;是我根据网友给的问题精心整理了一份「单片机的资料从专业入门到高级教程」&#xff0c; 点个关注在评论区回复“888”之后私信回复“888”&#xff0c;全部无偿共享给大家&#xff01;&#xff01;&#xff01; 一是EEPROM操作简单&…

matlab数值溢出该怎么解决?

&#x1f3c6;本文收录于《CSDN问答解惑》专栏&#xff0c;主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案&#xff0c;希望能够助你一臂之力&#xff0c;帮你早日登顶实现财富自由&#x1f680;&#xff1b;同时&#xff0c;欢迎大家关注&&收藏&…

ssm华天计算机面试刷题系统-计算机毕业设计源码22543

摘 要 华天计算机面试刷题系统是一款基于SSM&#xff08;Spring、Spring MVC、MyBatis&#xff09;框架、利用Java编程语言和MySQL数据库&#xff0c;开发的在线学习和测试平台。系统利用SSM框架及前端开发技术&#xff0c;实现了模块化开发和管理&#xff0c;前后端交互以及数…

职业教育软件测试实验实训室建设应用案例

在信息化高速发展的今天&#xff0c;软件测试作为保障软件质量的关键环节&#xff0c;其重要性日益凸显。为满足职业教育对软件测试人才的培养需求&#xff0c;提高学生的实践能力和职业素养&#xff0c;唯众倾力打造了一款先进的软件测试实验实训室&#xff0c;并成功应用于多…

数据跨境传输法规日趋完善,企业如何规避合规风险?

随着全球化的发展&#xff0c;跨境数据传输变得日益频繁。在数字化时代&#xff0c;数据安全是企业运营的关键。数据跨境传输由于涉及不同国家和地区&#xff0c;其安全合规性面临着更大的风险和挑战。 2022年&#xff0c;国家网信办发布了《数据出境安全评估办法》&#xff08…

【深度学习基础】MAC pycharm 专业版安装与激活

文章目录 一、pycharm专业版安装二、激活 一、pycharm专业版安装 PyCharm是一款专为Python开发者设计的集成开发环境&#xff08;IDE&#xff09;&#xff0c;旨在帮助用户在使用Python语言开发时提高效率。以下是对PyCharm软件的详细介绍&#xff0c;包括其作用和主要功能&…

【转】-java多线程读写锁ReadWriteLock

Java多线程中读写锁ReadWriteLock的使用 该博客转载自​**lavimer​的​Java多线程中读写锁ReadWriteLock的使用** 1. 概念 读写锁分为读锁和写锁&#xff0c;多个读锁之间是不需要互斥的(读操作不会改变数据&#xff0c;如果上了锁&#xff0c;反而会影响效率)&#xff0c;…

java框架-MyBatis

文章目录 1. Mybatis介绍2. Mybatis架构3. Mybatis入门程序4. Mapper动态代理开发持久层方法5. SqlMapConfig.xml配置文件6. Mapper.xml7. Mybatis整合spring8. Mybatis逆向工程&#xff08;了解&#xff09;9. 分页插件PageHelper总结 1. Mybatis介绍 MyBatis是优秀的持久层框…

一文清晰了解CSS——简单实例

首先一个小技巧&#xff1a; 一定要学会的vsCode格式化整理代码的快捷键&#xff0c;再也不用手动调格式了-腾讯云开发者社区-腾讯云 (tencent.com) CSS选择器用于选择要应用样式的HTML元素。常见的选择器包括&#xff1a; 类选择器&#xff1a;以.开头&#xff0c;用于选择具…

燃烧你的厨艺,“灶”亮你的厨房——华火电燃灶

在厨房的舞台上&#xff0c;一台出色的灶具就如同一位默契的伙伴&#xff0c;能助您烹制出美味佳肴&#xff0c;展现烹饪的魅力。今天&#xff0c;我们要为您隆重介绍一款能颠覆您厨房体验的创新产品——华火电燃灶&#xff0c;它将以其独特的优势&#xff0c;为您的厨房带来全…