AGI|基于LangChain实现的三种高级RAG检索方法

一、前言

RAG(Retrieval-Augmented Generation)检索增强生成,是现如今基于企业私域知识的问答应用所使用的主流技术之一。相较于重新训练基于私域知识的大模型来说,RAG没有额外的预训练成本,且回答效果与之相当。

但在实际应用场景中,RAG所面临最大的问题是LLM的上下文长度限制。企业私域知识文本的数量十分庞大,不可能将其全部放在模型的prompt中,即使现在各类模型已经将上下文token从年初的2k、4k扩充到了128k、192k,但是这可能也就是一份合同、一份标书的长度。因此,如何减少传递给模型的内容数量且同时提高内容质量,是提升基于RAG的AI应用回答准确度的一个重要方法。

本篇文章将基于LangChain实现三种高级检索方法,句子窗口检索和自动合并检索旨在改善RAG流程的召回过程中存在的信息残缺的问题,而多路召回检索则保证了在多个文档中检索召回的准确性。

二、先验知识

●RAG简要流程

加载文档——切分划片——嵌入为向量表示——存入数据库

向量化问题——向量召回文档——合并放入Prompt——LLM生成答案

三、句子窗口检索

(一)概念

在文档进行切片工作后,文档被分为若干个Langchain自定义的Document对象,该对象有两个属性,一是page_content即该切片的文本内容,二是meta_data即有关该切片的一些信息和可自定义封装进入的信息。

句子窗口检索方法,将每个切片的相邻切片的内容封装在切片的meta_data中。在检索和召回过程时,根据命中文档的meta_data可获得此段落的上下文信息,并将其封装进入命中文档的page_content中。组合完成的文档列表即可作为prompt交付给大模型生成。

在实际问答任务中,我们建议使用切片器将文档切分为较短的分片,或使用依据标点符号进行切分的切片器。保证整片文档拥有较细的颗粒度。同时在封装和召回阶段,适当扩大窗口大小,保证召回段落的完整性。

(二)BERT

(1)元数据封装

def metadata_format(self, ordered_text, **kwargs):
count = kwargs.get("split_count", 1)
fori, documentinenumerate(ordered_text):
ifi > 0:
document.metadata['previous_page'] = ordered_text[i-count].page_content
else:
document.metadata['previous_page'] = ''ifi < len(ordered_text) - 1:
document.metadata['next_page'] = ordered_text[i+count].page_content
else:
document.metadata['next_page'] = ''
returnordered_text

(2)数据重构

def search_and_format(self, databases, query, **kwargs):
top_documents = []
fordb in databases:
top_documents.append(db.similarity_search_with_score(query))
docs = []
fordoc, _ in top_documents:
doc.page_content = doc.metadata.get("previous_page") + doc.page_content + doc.metadata.get("next_page")
docs.append(doc)
returndocs

(3)调用示例伪代码

#load document
......#split
......
#use smartvision sdk to format
sentence_window_retrival = SentenceWindow()
formatted_documents = sentence_window_retrival.metadata_format(documents, split_count=2)#embedding 
......#load inlocalvector db
......#use smartvision sdk to dosearch and multiple recall
databases = [db]
query = "烟草专卖品的运输"
top_documents = sentence_window_retrival.search_and_format(databases, query)
print(top_documents)

四、自动合并检索

(一)概念

自动合并检索方法,实现方法源自Llamaindex所封装的自动合并检索,但RAG全流程需要制定一套准确的规范,因此在用户文档完成读取和切片工作后,所得到的Langchain格式的Document对象需转化为Llamaindex定义的Document对象,便可通过Llamaindex的自定义算法自动划分整个切片列表的子节点和父节点,最后鉴于规范再重新转化为Langchain格式的Document对象,并将父节点信息、深度信息等封装进每个节点。

在检索阶段,召回最相关的若干个节点,遍历这些节点和附加信息,如若超过K个节点同时属于同一个节点(这里的K为用户自定义阈值,通常为一个节点所有子节点的半数)则执行合并该父节点下属所有子节点,即返回整个父节点内容。这使我们能够将可能不同的较小上下文合并到一个可能有助于综合的更大上下文中。

(二)代码实现和调用

(1)元数据封装

defauto_merge_format(documents, **kwargs):
ifdocuments isNone:
raiseValueError('documents is required')
formatted_documents = []
doc_text = "\n\n".join([d.page_content ford indocuments])
docs = [Document(text=doc_text)]
node_parser = HierarchicalNodeParser.from_defaults(chunk_sizes=kwargs.get("pc_chunk_size", [2048, 512, 128]),chunk_overlap=kwargs.get("pc_chunk_overlap", 10))
nodes = node_parser.get_nodes_from_documents(docs)
leaf_nodes = get_leaf_nodes(nodes)
root_nodes = get_root_nodes(nodes)
middle_nodes = get_middle_node(nodes, leaf_nodes, root_nodes)
root_context_dict = {}
forroot_node innodes:
root_context_dict[root_node.node_id] = root_node.get_content()fornode innodes:
ifnode.parent_node:
node_id = node.node_id
root_node_id = node.parent_node.node_id
root_node_content = root_context_dict.get(node.parent_node.node_id)
root_node_child_count = 0
forparent_node inroot_nodes + middle_nodes:
ifparent_node.node_id == node.parent_node.node_id:
root_node_child_count = len(parent_node.child_nodes)
break
depth = 2ifnode inmiddle_nodes else3
child_count = len(node.child_nodes) ifnode.child_nodes isnotNoneelse0
document = langchain.schema.Document(page_content=node.get_content(),metadata={"node_id": node_id, "root_node_id": root_node_id, "root_node_content": root_node_content, "root_node_child_count": root_node_child_count, "depth": depth, "child_count": child_count})
formatted_documents.append(document)
returnformatted_documents

(2)数据重构

defsearch_and_format(self, databases, query, **kwargs):
top_documents = []
fordb indatabases:
top_document = db.similarity_search_with_score(query)
top_documents.append(top_document)
leaf_nodes = [doc fordoc, _ intop_documents]
returndo_merge(leaf_nodes, **kwargs)defgroup_nodes_by_depth(nodes, depth):
return[node fornode innodes ifnode.metadata.get("depth") == depth]defprocess_group(nodes, threshold):
grouped_by_root_id = {}
fornode innodes:
root_id = node.metadata.get("root_node_id")
grouped_by_root_id.setdefault(root_id, []).append(node)merge_context = []
forgroup ingrouped_by_root_id.values():
node_count = len(group)
child_count = group[0].metadata.get("root_node_child_count")
ifnode_count / child_count >= threshold:
merge_context.append(langchain.schema.Document(
page_content=group[0].metadata.get("root_node_content")
))
else:
fordocument ingroup:
merge_context.append(document)
returnmerge_contextdefdo_merge(nodes, **kwargs)-> List[langchain.schema.Document]:
threshold = kwargs.get("threshold", 0.5)
leaf_nodes = group_nodes_by_depth(nodes, 3)
middle_nodes = group_nodes_by_depth(nodes, 2)
leaf_merge_context = process_group(leaf_nodes, threshold)
middle_merge_context = process_group(middle_nodes, threshold)
merge_content = leaf_merge_context + middle_merge_context
returnmerge_contentdefget_middle_node(nodes, leaf_nodes, root_nodes):
middle_node = []
fornode innodes:
ifnode notinleaf_nodes andnode notinroot_nodes:
middle_node.append(node)
returnmiddle_node

(3)调用示例伪代码

#load document
......#split
......#use smartvision sdk to format
auto_merge_retrival = AutoMergeRetrieval()
formatted_documents = auto_merge_retrival.metadata_format(documents,
pc_chunk_size=[1024, 128, 32],
pc_chunk_overlap=4)
#embedding 
......#load inlocalvector db
......#use smartvision sdk to dosearch and multiple recall
top_documents = auto_merge_retrival.search_and_format(databases, query, threshold=0.5)
print(top_documents)

五、多路召回检索

(一)概念

多路召回检索方法,在元数据封装环节并未做任何操作,而在检索阶段他允许用户上传多个数据集或不同类型的向量数据库作为检索对象,以适应用户私域知识库文档类型不同,文档数量庞大的问题。从多个数据源检索得到文档列表,而后通过rerank模型对文档与问题的相关性进行评分,筛选出大于一定分值的文档,组合成为prompt。

由此可见,多路召回检索在数据源广而杂的情况下,富有更好的效果。此外,rerank模型虽能进行再次的重排以提高准确性,但是在牺牲速度和效率的前提下进行的,因此需充分考虑这个问题。

(二)代码实现

(1)元数据封装

defmetadata_format(self, ordered_text, **kwargs):
"""
默认rag,不做任何处理
"""
returnordered_text

(2)数据重构

defsearch_and_format(self, databases, query, **kwargs):
top_documents = []
result_data = []
fordb indatabases:
top_document = db.similarity_search_with_score(query)
top_documents.append(top_document)
pairs = [[query, item.page_content] foritem intop_documents]
withtorch.no_grad():
rerank_tokenizer = AutoTokenizer.from_pretrained(RERANK_FILE_PATH)
inputs = rerank_tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
rerank_model = AutoModelForSequenceClassification.from_pretrained(RERANK_FILE_PATH)
scores = rerank_model(**inputs, return_dict=True).logits.view(-1, ).float()
fori, score inenumerate(scores):
data = {
"text": top_documents[i].page_content,
"score": float(score)
}
result_data.append(data)
returnresult_data

六、结语

本文提供的三种高级RAG检索方法,但仅改善了流程中检索召回环节的信息残缺问题,实质上RAG全流程均存在各种优化方法,但最有效的方法仍是改进或提供新的召回方式。

总结以上三种方法,均需要重点注意切片器的选用并控制切片大小,过大导致上下文长度过长,且有研究表明过长的prompt易使大模型忽略的中间部分的信息。过短则导致关键信息残缺,无法为大模型提供有效的上下文。因此开发者需根据文档类型和结构,谨慎选择并适当调节优化。

神州数码集团的神州问学平台不仅提供了本文所述的三种高级检索方法的SDK,而且我们的开发团队正不断探索和研发新的、更高效的检索技术。我们致力于满足客户对于多样化私域知识库结构的需求,以实现更精准、更全面的搜索体验。同时,我们也欢迎您体验平台并提供宝贵意见。

作者:孙泽文| 神州数码云基地

更多AI小知识欢迎关注“神州数码云基地”公众号,回复“AI与数字化转型”进入社群交流

版权声明:文章由神州数码武汉云基地团队实践整理输出,转载请注明出处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3015706.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

虚拟机文件夹共享操作(本地访问)

新建一个文件夹 右击文件夹点击属性 找到共享 点击共享 选择本地用户共享就可以了 本地winr 输入我们图片中的格式&#xff08;IP前加 “\\” &#xff09; 会弹一个窗口&#xff0c;输入虚拟机的入户名和密码就可以共享了&#xff08;一般默认用户名都是administrator&am…

[oeasy]python0015_键盘改造_将esc和capslock对调_hjkl_移动_双手正位

键盘改造 &#x1f94b; 回忆上次内容 上次练习了复制粘贴 按键 作用 <kbd>y</kbd><kbd>y</kbd> 复制光标行代码 到剪贴板 <kbd>p</kbd> 粘贴剪贴板中的内容 <kbd>i</kbd> 切换到 插入模式 <kbd>h</kbd>…

单调栈|84.柱状图中最大的矩形

力扣题目链接 // 版本一 class Solution { public:int largestRectangleArea(vector<int>& heights) {int result 0;stack<int> st;heights.insert(heights.begin(), 0); // 数组头部加入元素0heights.push_back(0); // 数组尾部加入元素0st.push(0);// 第一…

大模型外推能力

一、目录 定义如何提高模型的外推能力&#xff1f;分类测评方法各技术点&#xff0c;以及应用模型&#xff0c;优缺点支持模型长上下文的方案「NTK-aware interpolation」的思路是什么&#xff1f;LLM长度外推方案NTK-by-parts的思路是什么&#xff1f;LLM长度外推方案YaRN是怎…

Xinstall广告效果监测,助力广告主优化投放策略

在移动互联网时代&#xff0c;APP推广已成为企业营销的重要手段。然而&#xff0c;如何衡量推广效果&#xff0c;了解用户来源&#xff0c;优化投放策略&#xff0c;一直是广告主和开发者面临的难题。这时&#xff0c;Xinstall作为国内专业的App全渠道统计服务商&#xff0c;以…

铜价飙升,慧能泰HUSB332F带你狂飙

铜价&#xff0c;近期涨的很飘&#xff0c;涨到怀疑人生。继黄金后&#xff0c;铜成了另一个疯涨的明星&#xff01;作为电线电缆生产不可或缺的原材料&#xff0c;铜的身价暴涨直接拉响了成本警报&#xff0c;压缩了企业的利润空间。众多电线电缆制造商面临着严峻的挑战与考验…

电脑提示“无法定位程序输入点kernel32.dll”怎么解决?分享kernel32.dll丢失的五个修复方法

打开游戏或者软件的时候&#xff0c;电脑提示由于找不到kernel32.dll&#xff0c;无法继续执行此代码怎么办&#xff0c;其实修复起来不难。首先需要先知道怎么是dll文件&#xff0c;dll文件可以简单的把库文件看成一种代码仓库&#xff0c;它提供给使用者一些可以直接拿来用的…

2024抖音小店最新注册流程来了,快快收藏!

大家好&#xff0c;我是电商糖果 2024年想开一家抖音小店&#xff0c;但是不知道具体的开店流程。 不要着急&#xff0c;这篇文章就给大家详细的讲解一下。 首先&#xff0c;准备开店材料&#xff1a;5000左右的类目保证金&#xff0c;电脑&#xff0c;手机号&#xff0c;法…

黑马程序员HarmonyOS4+NEXT星河版入门到企业级实战教程笔记

HarmonyOS NEXT是纯血鸿蒙&#xff0c;鸿蒙原生应用&#xff0c;彻底摆脱安卓 本课程是基于harmony os4的&#xff0c;与next仅部分api有区别 套件 语言&框架 harmony os design ArkTs 语言 ArkUI 提供各种组件 ArkCompiler 方舟编译器 开发&测试 DevEco Studio 开发…

echarts学习笔记:柱状图+雷达图+双环形图+地图可视化+数据传递关系图+关键词条图+数据总览图+AntV/G2/DataV

GitHub - lgd8981289/imooc-visualization: https://www.bilibili.com/video/BV1yu411E7cm/?vd_source391a8dc379e0da60c77490e3221f097a 课程源码 国内echarts镜像站&#xff1a;ISQQW.COM x ECharts 文档&#xff08;国内同步镜像&#xff09; - 配置项 echarts图表集&…

我独自升级崛起怎么下载 游戏下载教程分享

《我独自升级&#xff1a;崛起》这款游戏核心聚焦于激烈的战斗与角色的持续成长。新加入的玩家首要任务是熟悉基础攻击模式&#xff0c;随后深入探索技能组合策略与连贯招式的艺术&#xff0c;同时掌握防守与躲避技巧&#xff0c;这些都是战斗中不可或缺的关键。随着战斗的持续…

Footprint Analytics 与 Core Chain 达成战略合作

​ 领先的区块链数据解决方案提供商 Footprint Analytics 与比特币驱动、EVM 兼容的 Layer 1 区块链 Core Chain 宣布达成战略合作。此次合作旨在将 Footprint Analytics 的前沿数据解决方案与 Core Chain 的区块链基础设施相结合&#xff0c;共同引领区块链领域的创新发展。 …

LM4562NA 直插DIP8双运放 音频hifi运算放大器

LM4562NA是一款高性能音频运算放大器&#xff0c;其应用领域主要集中在音频和声音处理方面&#xff0c;包括但不限于&#xff1a; 1. 专业录音设备&#xff1a;在录音棚、广播电台和电视台等专业环境中&#xff0c;用于信号放大和处理&#xff0c;确保高质量的声音录制和传输…

Cargo - 管理 rust 依赖包

文章目录 关于 Cargo管理应用创建应用编译运行buildclean 管理依赖添加依赖updatecheck计时 manual rust 安装可参考&#xff1a;https://blog.csdn.net/lovechris00/article/details/124808034 关于 Cargo Cargo 官方文档 &#xff1a; https://doc.rust-lang.org/cargo/crat…

python - rst file to html

文章目录 python - rst file to html概述笔记下载安装PyCharm最新的学习版新建虚拟环境为Conda的工程添加docutils库新建python文件&#xff0c;添加转换代码运行自己写的python文件&#xff0c;执行转换转换结果END python - rst file to html 概述 开源工程中有一个.rst文件…

Terraform数据源

数据源允许查询或计算一些数据以供其他地方使用。 使用数据源可以使得Terraform代码使用在Terraform管理范围之外的一些信息&#xff0c;或者是读取其他Terraform代码保存的状态。 每一种Provider都可以在定义一些资源类型的同时定义一些数据源。 通常来讲&#xff0c;在同一个…

AMEYA360详解:蔡司利用纳米探针技术探索半导体微观电学性能

半导体器件尺寸不断缩小和复杂度增加&#xff0c;纳米探针(Nanoprobing)技术成为解决微观电学问题和优化器件性能的重要工具&#xff0c;成为半导体失效分析流程中越来越重要的一环。 随着功率半导体的快速发展&#xff0c;其厂商也开始密切关注纳米探针技术在PN结特性分析和掺…

解决问题:Docker证书到期(Error grabbing logs: rpc error: code = Unknown)导致无法查看日志

问题描述 Docker查看日志时portainer报错信息如下&#xff1a; Error grabbing logs: rpc error: code Unknown desc warning: incomplete log stream. some logs could not be retrieved for the following reasons: node klf9fdsjjt5tb0w4hxgr4s231 is not available报错…

【Flutter】App内购支付集成 Google和Apple支付和服务器验证全流程

Flutter支付集成 前言&#xff1a; 以谷歌内购为例&#xff0c;我们需要做的总共为三步 需要在谷歌市场配置商品&#xff0c;设置测试渠道&#xff0c;配置开发者账号&#xff0c;设置对应权限。配置完商品之后&#xff0c;如何在 Flutter 中获取到商品&#xff0c;购买指定…

大历史下的 tcp:一个松弛的传输协议

如果 tcp 是一个相对松弛的协议&#xff0c;会发生什么。 所谓松弛感&#xff0c;意思是它允许 “漏洞”&#xff0c;允许可靠传输的不封闭&#xff0c;大致就是&#xff1a;“不求 100% 可靠&#xff0c;只要 90%(或多或少) 可靠&#xff0c;另外 10% 的错误可检测到” or “…