这么多向量数据库,它们之间到底有哪些差异?

上篇说到chroma的近邻搜索算法实现得有问题,不如qdrant的。其实向量数据库之间看似都一样,但细细比较还是有很多不同的。

国外有一系列文章已经讲得很详细了,而且也就是半年前写的,还是具有很强的参考价值,文章如下:

Vector databases (1): What makes each one different? 

Vector databases (2): Understanding their internals

Vector databases (3): Not all indexes are created equal

Vector databases (4): Analyzing the trade-offs

里边有很多细节,不想细看的,我这里给几张图给大家快速了解不同向量数据库的差异。

存在时间

实现语言及是否开源

托管方法

索引方法

向量压缩的概念

向量一般是由浮点数组成,比如float32。一个float32 占4个字节,当向量维度很高且向量很多时,向量存储空间会比较大,查询起来也会比较慢。优化的一种方式是压缩向量,比如改成用一个byte的整数来表示原来的float32。这样每个维度就从4个字节变成一个字节,存储空间变小,查询也变快。当然,压缩会损失精度,可能会导致求向量相似度的时候有误差。向量压缩的过程叫量化(Quantization)

上图中的Flat 表示按向量的原始方式存储向量,没有压缩。压缩的方式有标量量化Scalar Quantization (SQ) 和 乘积量化 Product Quantization (PQ)。上边举的例子(float32 -> byte)就是标量量化。

更多细节,请见文章开头给的四篇文章,我就不一一赘述了。

Qdrant的向量压缩算法

qdrant有篇文章介绍它的向量压缩算法,详细可见:

https://qdrant.tech/documentation/guides/quantization/

上边是qdrant的各种量化方式及对应的准确率,速度和压缩比。qdrant还支持了一种二进制量化压缩算法,速度可以提升到原来的40倍,存储效率是原来的32倍,只损失5%的准确率,但只建议用在测试过的向量模型。

qdrant的压缩查询优化

查询的时候如果不想用量化,可以直接设置参数 ignore 为true关闭量化向量的使用。如果配置了量化配置,默认使用量化向量进行查询。

为了提高量化后的向量查询的准确率,qdrant还支持rescore参数和oversampling参数。

rescore就是用量化后的向量查询出top k后,再用原始向量去对比,找出最相似的。比如我要top 3,你找出后再对比也还是在这3个向量之前再排序,看上去没有什么作用?加上oversampling 参数就可以很大用处了。

oversampling 就是预先取多多少向量,再通过取原始向量计算并排序,返回最终真正需要的。比如top 3, oversampling是10,那就会按量化后的向量找出30个最相似的,然后按原始向量计算相似度再排序,返回这时算出来的top 3向量。

​真正去实践才发现细节很多,下场把手弄脏是学习最快的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2805841.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

最佳 PDF 转 Word 转换器软件,可实现无缝转换

如今,PDF文件格式因其高安全性而被计算机用户所熟悉,这使得无法直接编辑内容。因此,每当用户需要复制内容时,都会遇到很多困难。在这里将介绍了一些可以让您将 PDF 转换为 Word 的工具。 借助高效、免费的 PDF 转 Word 转换器软件…

c语言的数据结构:找环状链表入口处

一起<(&#xffe3;︶&#xffe3;)↗[GO!] 1.如何判断一个链表是否有环 思路:设定两个快慢指针fast和slow,fast每次走两个结点,slow每次走一个节点 如果fast指针遇到了Null,那么这个链表没有环,如果fast和slow可以相遇,则代表这个链表有环 代码如下 N:fast先进环,slow后…

【寸铁的刷题笔记】树、dfs、bfs、回溯、递归(二)

【寸铁的刷题笔记】树、dfs、bfs、回溯、递归(二) 大家好 我是寸铁&#x1f44a; 金三银四&#xff0c;树、dfs、bfs、回溯、递归是必考的知识点✨ 快跟着寸铁刷起来&#xff01;面试顺利上岸&#x1f44b; 喜欢的小伙伴可以点点关注 &#x1f49d; 上期回顾 感谢大家的支持&am…

Linux运维-Web服务器的配置与管理(PHP)

Web服务器的配置与管理(PHP) 项目场景 某企业在CentOS上搭建Web服务系统&#xff0c;以PHP作为网页开发环境&#xff0c;以MySQL为后台数据库。 基础知识 PHP PHP原始为Personal Home Page的缩写&#xff0c;已经正式更名为 “PHP: Hypertext Preprocessor”&#xff08;超…

第1讲-introduction

计算机组成与结构简介 计算机的基本组成 计算机的层次结构

Spring Boot 手写starter!!!

原因&#xff1a;为什么要手写starter&#xff1f;&#xff1f;&#xff1f; 原因&#xff1a;简化功能。 实例&#xff1a;以分页为例&#xff1a;写一个starter。 1.首先定义一个PageX注解。 Target({ElementType.METHOD}) Retention(RetentionPolicy.RUNTIME) Documented p…

【计算机毕业设计】541鲜花商城系统

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

pikachu靶场-RCE

介绍&#xff1a; RCE(remote command/code execute)概述 RCE漏洞&#xff0c;可以让攻击者直接向后台服务器远程注入操作系统命令或者代码&#xff0c;从而控制后台系统。 远程系统命令执行 一般出现这种漏洞&#xff0c;是因为应用系统从设计上需要给用户提供指定的远程命…

Pytorch 自用 Scheduler 分享

✅作者简介&#xff1a;人工智能专业本科在读&#xff0c;喜欢计算机与编程&#xff0c;写博客记录自己的学习历程。 &#x1f34e;个人主页&#xff1a;小嗷犬的个人主页 &#x1f34a;个人网站&#xff1a;小嗷犬的技术小站 &#x1f96d;个人信条&#xff1a;为天地立心&…

TreeData 数据查找

TreeData 数据查找 最近做需求的时候遇到了这样的一个需求&#xff0c;Tree组件数据支持查找&#xff0c;而且TreeData的数据层级是无限级的 开始想的事借助UI组件库&#xff08;Ant-design-vue&#xff09;中的Tree组件的相关方法直接实现,看了下api 发现没法实现&#xff0c;…

【前端素材】推荐优质后台管理系统PORTAL平台模板(附源码)

一、需求分析 后台管理系统是一种具有多层次结构的软件系统&#xff0c;用于管理网站、应用程序或系统的后台操作和管理。下面是对后台管理系统的分层次、详细分析&#xff1a; 第一层&#xff1a;用户界面层 登录界面&#xff1a;提供用户登录验证&#xff0c;确保只有经过授…

Puppeteer 使用实战:如何将自己的 CSDN 专栏文章导出并用于 Hexo 博客(三)

文章目录 往期效果将文章信息导出适配 hexo 的文章模板导出的文章路径问题终端控制执行脚本代码整理结尾 往期 Puppeteer 使用实战&#xff1a;如何将自己的 CSDN 专栏文章导出并用于 Hexo 博客&#xff08;二&#xff09; 效果 写了一个 node 脚本用来批量处理 md 文件 本期…

代码随想录算法训练营第50天|123.买卖股票的最佳时机III、188.买卖股票的最佳时机IV

文章目录 123.买卖股票的最佳时机III思路代码 188.买卖股票的最佳时机IV思路代码 123.买卖股票的最佳时机III 题目链接&#xff1a;123.买卖股票的最佳时机III 文章讲解&#xff1a;代码随想录|123.买卖股票的最佳时机III 视频讲解&#xff1a;123.买卖股票的最佳时机III 思路 …

第九届大数据与计算国际会议 (ICBDC 2024) 即将召开!

2024年第九届大数据与计算国际会议&#xff08;ICBDC 2024&#xff09;将于2024年5月24至26日在泰国曼谷举行。本次会议由朱拉隆功大学工程学院工业工程系主办。ICBDC 2024的宗旨是展示大数据和计算主题相关科学家的最新研究和成果&#xff0c;为来自不同地区的专家代表们提供一…

【多线程】synchronized 关键字 - 监视器锁 monitor lock

synchronized 1 synchronized 的特性1) 互斥2) 可重入 2 synchronized 使用示例1) 修饰代码块: 明确指定锁哪个对象.2) 直接修饰普通方法: 锁的 SynchronizedDemo 对象3) 修饰静态方法: 锁的 SynchronizedDemo 类的对象 3 Java 标准库中的线程安全类 1 synchronized 的特性 1)…

操作系统-复试笔记

http://t.csdnimg.cn/PJLWh 操作系统基础 什么是操作系统&#xff1f; 操作系统&#xff08;Operating System&#xff0c;简称 OS&#xff09;是管理计算机硬件与软件资源的程序&#xff0c;是计算机的基石。操作系统本质上是一个运行在计算机上的软件程序 &#xff0c;用于…

智能风控体系之个人客户画像建设

客户画像最早在互联网电商中应用&#xff0c;在刻画目标群体时&#xff0c;数据分析师会将用户数据进行分析并形成合适的客户画像标签&#xff0c;涉及常见字段包括有姓名&#xff0c;性别&#xff0c;年龄&#xff0c;收货地址&#xff0c;手机号&#xff0c;银行卡&#xff0…

【Java程序设计】【C00294】基于Springboot的车辆充电桩管理系统(有论文)

基于Springboot的车辆充电桩管理系统&#xff08;有论文&#xff09; 项目简介项目获取开发环境项目技术运行截图 项目简介 这是一个基于Springboot的车辆充电桩管理系统 本系统前台功能模块分为&#xff1a;首页功能和用户后台管理 后台功能模块分为&#xff1a;管理员功能和…

抖音小店是什么?怎么玩?今天一文详解!

大家好&#xff0c;我是电商小布。 在电商这个行业快速发展的情况下&#xff0c;抖音短视频平台也想利用到自己平台的优势&#xff0c;加入其中。 抖音小店项目就是抖音与电商的结合。 简单来说&#xff0c;就是在抖音平台上开网店&#xff0c;进行产品的交易。 不同于以前…

袁庭新ES系列11节 | Elasticsearch基本查询

前言 查询操作是Elasticsearch最核心的模块之一。Elasticsearch能够达到数据的实时搜索&#xff0c;而且性能非常稳定&#xff0c;能很方便地用于对大量数据进行搜索和分析。这些都体现了Elasticsearch强大的搜索能力&#xff0c;因此关于Elasticsearch的查询知识的相关学习就…