在传统文本搜索技术已经相对成熟的背景下,如何进一步提高搜索的效率和速度成为了新的追求目标。应对这一挑战,Jina Reranker 模型系列推出了两款针对性能调优的新模型:jina-reranker-v1-turbo-en
和 jina-reranker-v1-tiny-en
,它们在保证搜索高准确度的同时,特别强化了处理速度和资源优化。这两款模型现已上线 AWS Sagemaker 和 Hugging Face 平台,为需要快速响应和高效资源利用的场景提供了理想的解决方案。
Jina Reranker Turbo 和 Tiny 模型的速度,这得益于我们独创的 JinaBERT:一个增强版本的 BERT 架构,采用了对称双向的 ALiBi 方案,能够处理长达 8192 Token 的输入,非常适合对大型文档和复杂查询进行深入分析。
Jina Reranker Turbo: https://huggingface.co/jinaai/jina-reranker-v1-turbo-en
Jina Reranker Tiny: https://huggingface.co/jinaai/jina-reranker-v1-tiny-en
根据我们在 Jina Reranker v1 模型中获得的经验,考虑到 AI 模型的运行成本,许多用户更倾向于选择更小、更快、更便宜的模型,哪怕可能牺牲一些准确度。因此我们简化了模型设计,特别是减少隐藏层的数量,并缩减其宽度,以此不仅加快了处理速度,还显著减小了模型的体积,大幅降低了成本,而对性能的影响几乎可以忽略,非常适合那些对延迟有严格要求的场景。
接下来,本文将详细介绍 Jina Reranker Turbo 和 Tiny 的架构设计、性能表现,并提供开始使用这些模型的具体指导。
精简架构
Jina Reranker Turbo 采用了 6 层架构,总共有 3780 万参数,相较于我们的基础 Reranker 模型 jina-reranker-v1-base-en
,Turbo 模型仅是其参数数量的 1/4,同时处理速度提高了 3 倍,适用于对即时处理需求较高的应用场景。
Jina Reranker Tiny 进一步精简到 4 层架构,仅 3300 万参数,提供了更大的并行处理能力,以及更快的处理速度,速度是基础模型的 5 倍,并且相较于 Turbo 模型,在内存成本上减少了 13%。Tiny 模型非常适用于资源受限的环境,能够在保持低成本的同时,提供高效的处理性能。
Jina Reranker 各版本性能对比,Y 轴表示每 50 毫秒处理的文档数量
知识蒸馏
我们采用知识蒸馏的方式培训了 Jina Reranker Turbo 和 Tiny 模型,用一个已经训练完毕的大型 AI 模型(我们称之为“教师”模型)来引导小型模型(即“学生”模型)学习,让它们近似地复制大模型的能力。
在训练过程中,我们让性能强大的jina-reranker-v1-base-en
模型扮演了教师的角色,提供了高质量的输出示例,作为训练数据指导 Jina Reranker Turbo 和 Tiny 模型学习如何有效地解决排名任务。通过这种方式,这些较小的模型能在保持小体积、低资源需求的同时上,性能接近“教师”模型。
测评结果表明,即使在计算资源受限的环境下,Jina Reranker Turbo 和 Tiny 模型在执行任务时的表现也能有效地执行排名任务,接近大型模型的处理效果。
详细内容可以参考: https://jina.ai/news/distilled-ai-using-large-models-to-teach-smaller-ones/
BEIR 评估
在信息检索领域的 BEIR 基准测试中,我们对 Jina Reranker Turbo 和 Tiny 模型进行了性能评估。评估结果显示,jina-reranker-v1-turbo-en
的准确度达到了基础模型的 95%,而 jina-reranker-v1-tiny-en
的准确度也达到了 92.5%。
与市场上其他主流的 Reranker 模型相比,Jina Reranker 系列模型在大幅降低模型体积和提升处理速度的同时,依然保持了出色的性能。无论是从模型大小、处理速度还是成本效益角度来看,Jina Reranker Turbo 和 Tiny 模型都展现出了显著的竞争力。
以下是各模型在 BEIR 基准测试中的得分和参数对比:
模型 | BEIR 分数 (NDCC@10) | 参数 |
---|---|---|
Jina Reranker 模型 | ||
jina-reranker-v1-base-en | 52.45 | 137M |
jina-reranker-v1-turbo-en | 49.60 | 38M |
jina-reranker-v1-tiny-en | 48.54 | 33M |
其他 Reranker 模型 | ||
mxbai-rerank-base-v1 | 49.19 | 184M |
mxbai-rerank-xsmall-v1 | 48.80 | 71M |
ms-marco-MiniLM-L-6-v2 | 48.64 | 23M |
bge-reranker-base | 47.89 | 278M |
ms-marco-MiniLM-L-4-v2 | 47.81 | 19M |
注:NDCC@10
分数越高表示搜索结果越好。
该图表展示了不同重排模型的 BEIR 得分以及每 50 毫秒处理文档的性能评估。在 BEIR 基准测试中,只有 MiniLM-L6 和 MiniLM-L4 模型在尺寸和速度上与我们的模型相似,但 jina-reranker-v1-turbo-en 和 jina-reranker-v1-tiny-en 的性能明显更优。
在 LlamaIndex RAG 基准测试中,我们也获得了相似的结果。我们测试了三种 Jina Rerankers 在 RAG 系统中的表现,并使用三种不同的 Embedding 模型进行向量搜索,计算了它们的平均得分。Embedding 模型分别是jina-embeddings-v2-base-en
, bge-base-en-v1.5
, 和 Cohere-embed-english-v3.0
。
以下是各模型在 LlamaIndex RAG 基准测试中的平均命中率和平均 MRR(平均倒数排名):
重排模型 | 平均命中率 | 平均 MRR |
---|---|---|
Jina Reranker 模型 | ||
jina-reranker-v1-base-en | 0.8439 | 0.7006 |
jina-reranker-v1-turbo-en | 0.8351 | 0.6498 |
jina-reranker-v1-tiny-en | 0.8316 | 0.6761 |
其他重排模型 | ||
mxbai-rerank-base-v1 | 0.8105 | 0.6583 |
mxbai-rerank-xsmall-v1 | 0.8193 | 0.6673 |
ms-marco-MiniLM-L-6-v2 | 0.8052 | 0.6121 |
bge-reranker-base | 0.8175 | 0.6480 |
ms-marco-MiniLM-L-4-v2 | 0.8246 | 0.6354 |
对于检索增强生成(RAG)任务,我们发现在保持处理速度的同时,结果质量的损失非常小。虽然 ms-marco-MiniLM-L-4-v2 提供了更高的吞吐量,但结果质量却有较大牺牲。
LlamaIndex RAG Benchmark:x 轴为吞吐量,y 轴为命中率
在 AWS 上更便宜
对于 AWS 用户而言,采用 Jina Reranker Turbo 和 Tiny 模型能够显著降低成本,因为这些服务是基于内存使用量和 CPU 计时收费的。仅内存使用量的减少就达到了约 75%,能直接转化成云服务费用的大幅下降。
此外,更快的吞吐量意味着您可以在更便宜的 AWS 实例上执行更多查询,进一步降低成本。
开始使用
Jina Reranker 模型非常容易使用,并且可以轻松集成到您的应用程序和工作流程中。您可以访问 Jina Reranker API 页面 https://jina.ai/reranker/ 了解如何使用我们的服务,我们提供了 100 万个免费 token 供您试用。
我们的模型也已经在 AWS SageMaker 上线,如果您需要在企业环境中进行本地部署,您可以通过 AWS Marketplace 轻松实现,详情请访问
https://aws.amazon.com/marketplace/seller-profile?id=seller-stch2ludm6vgy。
我们也将模型在 Hugging Face 开源了,您也可以在 https://huggingface.co/jinaai/ 下载我们的开源模型。
Jina AI 致力为您的搜索和 RAG 系统提供世界一流的向量模型,通过使用我们先进的Reranker API 能够最大限度提高搜索相关性的 RAG 准确性!
欢迎通过官网 https://jina.ai/ 或社区 https://discord.jina.ai/ 与我们联系,分享您的反馈,并获取我们最新模型的信息。