智能时代 | 合合信息Embedding模型荣获C-MTEB榜单第一

目录

前言

1. MTEB与C-MTEB 

2. acge模型的优势

3. Embedding模型应用

4. 大模型发展的关键技术

结语


前言

        随着人工智能的不断发展,大语言模型吸引着社会各界的广泛关注,支撑模型应用落地的Embedding模型成为业内的焦点,大模型的发展给我们的生活、工作、学术等领域带来了很多的便利。

        自从OpenAI正式发布了人工智能聊天机器人ChatGPT,大模型的火热程度直增,它是能基于语言的交互来完成各类人工智能任务的技术,更好的实现人机交互。但目前在商业落地应用,还没有取得非常理想的效果。近期,上海合合信息科技股份有限公司发布了文本向量化模型acge_text_embedding(“acge”模型)荣获MTEB(Massive Text Embedding Benchmark)中文榜单(C-MTEB)第一的成绩,这一成果将推动大模型更快速地在行业中的领域应用。

1. MTEB与C-MTEB 

MTEB(Massive Text Embedding Benchmark)是衡量文本嵌入模型(Embedding模型)的评估指标的合集,是目前业内评测文本向量模型性能的重要参考。主要包括涵盖112种语言的58个数据集,针对如下任务:Clustering、Bitext minin、Retrieval、STS、Summarization、Classificationg、Pair classification、Reranking。

对应的C-MTEB则是专门针对中文文本向量的评测基准,C-MTEB被公认为是目前业界最全面、最权威的中文语义向量评测基准之一,涵盖了分类、聚类、检索、排序、文本相似度、STS等6个经典任务,共计35个数据集,为深度测试中文语义向量的全面性和可靠性提供了可靠的实验平台。目前一些知名的大企业如:阿里、腾讯、商汤等都在C-MTEB榜单测评发布模型。目前acge模型能够很好地处理一些需求:如文本分类、语义相似度计算、情感分析等。

文本分类:使用已经预训练好的Embedding模型来提取文本特征,并通过分类器(如SVM、LR等)对文本进行分类。例如,对于新闻文本,我们可以使用Embedding技术将文本转换为向量,然后利用分类器判断新闻的类别(如体育、科技、娱乐等)。

语义相似度计算:通过计算两个文本的Embedding向量之间的余弦相似度来判断它们之间的语义相似度。例如,在搜索引擎中,当用户输入一个查询词时,我们可以使用Embedding技术计算查询词与库中各个文档的语义相似度,从而返回最相关的文档。

情感分析:利用Embedding技术将文本转换为向量,然后利用机器学习算法(如SVM、神经网络等)对文本进行情感分析,判断文本的情感倾向(如正面、负面、中性)。

2. acge模型的优势

合合信息的acge模型在设计上充分考虑了实际应用的需求。与目前C-MTEB榜单上排名前五的开源模型相比,acge模型在保持高性能的同时,具有更小的模型体积和更低的资源占用,且模型输入文本长度为1024,使其更适用于实际生产环境。此外,模型支持的可变输出维度功能,使得企业可以根据具体场景灵活调整资源分配,进一步优化应用效果。

值得一提的是,acge模型不仅在传统文本处理任务中表现出色,还能在不同场景下构建通用分类模型,提升长文档信息抽取精度,为大模型在多个行业中的快速应用提供了有力支持。这一特性使得acge模型在帮助企业实现数字化转型、提升业务效率等方面具有广阔的应用前景。

合合信息发布的acge模型聚类分数比较高在企业管理、市场营销、医疗、电商、金融、教育、社交网络、旅游等领域都有广泛的应用。聚类分析可以帮助企业提高营销效果;帮助医生提高诊断效果;帮助金融机构了解客户理财需求,提供更好的金融服务;还可以帮助学校评估教学质量和教师表现。

3. Embedding模型应用

在这个大数据的互联网时代,我们每天都会面对大量的数据,这些数据可能包含着很多无用的干扰信息,如何快速抓住“关键信息”,过滤掉“不相干的无用数据”至关重要!Embedding模型凭借对查询深层含义和上下文的深入解析,极大地提升了搜索与问答的品质、速度和精准度,使得搜索和问答引擎不再局限于文字的简单匹配,而是能够深刻洞察并理解用户的真实意图。以贴近生活的学习为例:

如果我们想要在家中学习自制咖啡,可能会在搜索引擎中输入“家庭咖啡制作方法”。对于传统的搜索引擎只会根据关键字引导,简单的匹配一些文章,这些内容可能只是一些与“咖啡”相关的内容而非实用的教学指南,需要用户自己花时间去筛选!借助Embedding模型,引擎便能更准确地理解用户意图,从而提供包括但不限于“选择咖啡豆”、“磨豆技巧”、“不同的冲泡方法”等更专业且细致的内容。

上图是Embedding模型原理示意图,当我们掌握了这些向量嵌入技术之后,它可以帮我们完成一些更加广泛的任务,如:相似性搜索、聚类与分类、信息检索推荐系统。

相似性搜索:通过比较嵌入之间的相似度,我们可以在自然语言处理(NLP)领域找出内容相近的文档或是互有关联的单词。

聚类与分类:将嵌入作为机器学习模型中的输入特征,帮助算法学会如何将相似的事物归为一组,并对各种对象进行分类。

信息检索:运用向量嵌入,我们可以打造出强大的搜索引擎,快速地根据用户的搜索需求找到他们想要的文档或多媒体内容。

推荐系统:基于用户以往的喜好和行为数据,通过向量嵌入技术为用户个性化推荐商品、文章或其他媒体内容。

4. 大模型发展的关键技术

在大语言模型的应用场景中,定制化的嵌入模型的训练变得尤为重要,其中一个重要的应用是结合大语言模型进行检索增强生成(RAG)。在RAG中,嵌入帮助寻找和获取与用户输入相关的文档片段,这些文档片段的内容被并入用户输入中,并指导大语言模型基于这些文档片段生成回应。RAG允许大语言模型避免生成不相关或错误信息,并解决需要超出其训练数据集范围信息的任务,RAG的质量极度依赖于嵌入模型的优劣。如果嵌入未能正确抓取文档特征与用户输入相匹配,那么RAG系统就无法获取到相关文档片段内容。根据上述的问题,合合信息ACG算法团队在数据集训练策略两个方面专门针对Embedding模型进行优化。

①在数据集方面,技术人员收集构造了大量的数据集,保证训练的质量与场景覆盖面。

②在模型训练方面,引入多种有效的模型调优技术,比如Matryoshka训练方式,能够实现一次训练,获取不同维度的表征提取;为了不同任务针对性学习,使用策略学习训练方式,显著提升了检索、聚类、排序等任务上的性能;引入持续学习训练方式,克服了神经网络存在灾难性遗忘的问题,使模型训练迭代能够达到最优收敛空间。

结语

上海合合信息科技股份有限公司基于自主研发的领先的智能文字识别及商业大数据核心技术,为全球C端用户和多元行业B端客户提供数字化、智能化的产品及服务。未来,随着大语言模型和Embedding技术的进一步发展,合合信息将继续在人工智能领域取得更多的创新和突破。更多其它的产品和应用可以到官网去自行了解:合合TextIn - 合合信息旗下OCR云服务产品

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2979134.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

解放生产力:项目管理软件的神奇作用大揭秘!

对于刚刚进入项目管理领域的新人首先要了解的概念就是项目管理软件是什么?项目管理软件的作用,如今的项目管理软件已经非常成熟,融合了一整套的项目管理理论,在管理项目进度、管理工时、团队协同方面发挥着重要作用。 一、项目管理…

vue 关键字变红

1.html <div v-html"replaceKeywordColor(item.title)" ></div> 2.js //value为搜索框内绑定的值 replaceKeywordColor(val) {if (val?.includes(this.value) && this.value ! ) {return val.replace(this.value,<font color"red&…

游戏黑灰产识别和溯源取证

参考&#xff1a;游戏黑灰产识别和溯源取证 1. 游戏中的黑灰产 1. 黑灰产简介 黑色产业&#xff1a;从事具有违法性活动且以此来牟取利润的产业&#xff1b; 灰色产业&#xff1a;不明显触犯法律和违背道德&#xff0c;游走于法律和道德边缘&#xff0c;以打擦边球的方式为“…

【C++】类和对象④(类的默认成员函数:取地址及const取地址重载 | 再谈构造函数:初始化列表,隐式类型转换,缺省值)

&#x1f525;个人主页&#xff1a;Forcible Bug Maker &#x1f525;专栏&#xff1a;C 目录 前言 取地址及const取地址操作符重载 再谈构造函数 初始化列表 隐式类型转换 explicit关键字 成员变量缺省值 结语 前言 本篇主要内容&#xff1a;类的六个默认成员函数中…

Stable Diffusion 模型分享:_CHEYENNE_(欧美漫画)CHEYENNE_v16.safetensors

本文收录于《AI绘画从入门到精通》专栏,专栏总目录:点这里,订阅后可阅读专栏内所有文章。 文章目录 模型介绍生成案例案例一案例二案例三案例四案例五案例六案例七案例八下载地址模型介绍<

吉林省教育学院学报杂志社吉林省教育学院学报编辑部2024年第3期目录

特稿《吉林省教育学院学报》投稿&#xff1a;cn7kantougao163.com 吉林省2023年初中毕业学业水平考试评价与分析报告 Junior High School Teaching Research and Training Department, Jilin Provincial Institute of Education; 1-25 基于吉林省图书馆专利数据资源的吉…

刷题训练之二分查找

> 作者&#xff1a;დ旧言~ > 座右铭&#xff1a;松树千年终是朽&#xff0c;槿花一日自为荣。 > 目标&#xff1a;熟练掌握二分查找算法 > 毒鸡汤&#xff1a;学习&#xff0c;学习&#xff0c;再学习 ! 学&#xff0c;然后知不足。 > 专栏选自&#xff1a;刷题…

解决“找不到MSVCP120.dll”或“MSVCP120.dll丢失”的错误方法

在计算机使用过程中&#xff0c;遇到诸如“找不到MSVCP120.dll”或“MSVCP120.dll丢失”的错误提示并不罕见。这类问题往往会导致某些应用程序无法正常运行&#xff0c;给用户带来困扰。本文旨在详细阐述MSVCP120.dll文件的重要性、其丢失的可能原因&#xff0c;以及解决方法&a…

C++ //练习 12.32 重写TextQuery和QueryResult类,用StrBlob代替vector<string>保存输入文件。

C Primer&#xff08;第5版&#xff09; 练习 12.32 练习 12.32 重写TextQuery和QueryResult类&#xff0c;用StrBlob代替vector保存输入文件。 环境&#xff1a;Linux Ubuntu&#xff08;云服务器&#xff09; 工具&#xff1a;vim 代码块 /*****************************…

Jammy@Jetson Orin - Tensorflow Keras Get Started: 000 setup for tutorial

JammyJetson Orin - Tensorflow & Keras Get Started: 000 setup for tutorial 1. 源由2. 搭建环境2.1 安装IDE环境2.2 安装numpy2.3 安装keras2.4 安装JAX2.5 安装tensorflow2.6 安装PyTorch2.7 安装nbdiff 3. 测试DEMO3.1 numpy版本兼容问题3.2 karas API - model.compil…

STC15L2K60S2-28I-LQFP44 单片机芯片 STC宏晶

STC15L2K60S2-28I-LQFP44 规格信息&#xff1a; 产品类型STC(宏晶) UART/USART2 额定特性- SPI1 USB Device0 USB Host/OTG0 PWM3 I2C&#xff08;SMBUS/PMBUS&#xff09;0 LCD0 工作电压2.4V ~ 3.6V EEPROM 尺度1KB Ethernet0 A/D8x10bit CAN0 D/A3x10bit CPU…

【VI/VIM】基本操作备忘录

简介 新建/打开文件 工作模式 常用命令 补全命令 命令模式输入&#xff1a;ctrl p 移动命令 文本选中 撤销、删除 复制粘贴 替换 缩排 查找 替换 插入 分屏 练习

Spectre-v2 以及 Linux Retpoline技术简介

文章目录 前言一、Executive Summary1.1 Spectre-v2: Branch Predictor Poisoning1.2 Mitigating Spectre-v2 with Retpolines1.3 Retpoline Concept 二、BackgroundExploit Composition 三、(Un-)Directing Speculative Execution四、Construction (x86)4.1 Speculation Barri…

Linux文件权限核心知识

1.1 权限概念 Linux 里面不同 用户 对不同 文件、目录、用户 等对象的控制能力。 1.2 权限属性 ##创建文件 [rootoldboyedu ~]# touch oldboy.txt [rootoldboyedu ~]# ls -l oldboy.txt -rw-r--r-- 1 root root 14 9月 26 10:22 oldboy.txt ##创建目录 [rootoldboyedu ~]# mk…

项目上线流程(保姆级教学)

01&#xff1a;注册阿里云账户 02&#xff1a;登录阿里云 03&#xff1a;在桌面新建记事本保存个人账号密码等信息 04&#xff1a;完成重置密码 05&#xff1a;安装宝塔面板 命令行 yum install -y wget && wget -O install.sh http://download.bt.cn/install/instal…

数据结构之顺序表的实现(C语言版)

Hello, 大家好&#xff0c;我是一代&#xff0c;今天给大家带来有关顺序表的有关知识 所属专栏&#xff1a;数据结构 创作不易&#xff0c;望得到各位佬们的互三呦 一.前言 1.首先在讲顺序表之前我们先来了解什么是数据结构 数据结构是由“数据”和“结构”两词组合⽽来。 什…

Android集成Sentry实践

需求&#xff1a;之前使用的是tencent的bugly做为崩溃和异常监控&#xff0c;好像是要开始收费了&#xff0c;计划使用开源免费的sentry进行替换。 步骤&#xff1a; 1.修改工程文件 app/build.gradle apply plugin: io.sentry.android.gradle sentry {// 禁用或启用ProGua…

将彩色图转化为灰度图及其原理介绍

彩色图介绍 彩色图像是一种包含颜色信息的图像&#xff0c;通常由红色、绿色和蓝色&#xff08;RGB&#xff09;三个颜色通道组成。这三种颜色通道可以叠加在一起来形成各种不同的颜色。 彩色图像中的每个像素都有三个数值&#xff0c;分别表示红色、绿色和蓝色通道的强度或亮…

【数据结构(邓俊辉)学习笔记】绪论04——算法分析

文章目录 0. 前言1. 算法分析2.级数2.1基本形式2.2 收敛级数 3.循环 vs 级数4.示例 0. 前言 通过以基本计算模型作为参照&#xff0c;并且以大O记号的形式在上面添加适当刻度&#xff0c;已经建立一套对DSA进行分析的完整工具和体系。不清楚的可以看看复杂度度量 、复杂度分析…

Mybatisplus LambdaQueryWrapper表达式使用DATE_FORMAT比较日期函数

背景&#xff1a; 最近遇到一个问题&#xff0c;数据库保存的日期字段是如下格式 但是我们需要比较的日期为 2020-08-01格式&#xff0c; 所以我们要将日期格式化 使用 Mybatisplus LambdaQueryWrapper的情况下可用下面的方式做参考 LambdaQueryWrapper<SysDicCode> la…