深入实战:ElasticSearch的Rest API与迭代器模式在高效查询中的应用

在我们公司,大多数Java开发工程师在项目中都有使用Elasticsearch的经验。通常,他们会通过引入第三方工具包或使用Elasticsearch Client等方式来进行数据查询。然而,当涉及到基于Elasticsearch Rest API的/_sql?format=json接口时,即使是有Elasticsearch使用经验的开发人员也可能感到困惑。这是因为在开发过程中,我们通常习惯于使用基于JSON定义的DSL语言,利用Elasticsearch的标准工具包、Query、Filter、termsQuery等方法,或使用scrollId来查询大量数据集。

在开发某个客户定制项目过程中,,客户提出了希望能够依据SQL查询设定的条件来执行数据查询的需求。鉴于此种情况,我们必须舍弃原先常用的DSL语言,而转向利用/_sql?format=json接口实行Elasticsearch数据检索。/_sql?format=json接口进行Elasticsearch数据查询的过程往往在整个项目设计上依赖于Elasticsearch Rest API。这种方式的挑战在于,开发者需要自行处理scrollId的迭代查询,因为没有第三方工具来自动封装这一过程。这意味着我们需要手动控制scrollId,每次查询最多10000条数据,并重复使用该接口直到获取全部所需数据。

本文将结合项目开发过程中的实际经验,详细介绍/_sql?format=json接口的调用机制和返回值格式,深入探讨迭代器模式在实际Elasticsearch查询中的应用。文章内容包括:

  • Elasticsearch SQL Rest API的/_sql?format=json调用机制及其返回值格式。
  • 迭代器模式的实际应用:包括类结构分析、方法定义及Elasticsearch查询实例。

本篇文章的编排旨在将常见的设计模式中的“迭代器模式”与“Elasticsearch RestAPI 查询实战”结合起来。这样的安排虽然提高了代码理解的难度,但对于经验稍显不足的开发人员来说,将是一个极好的挑战和学习机会。

1 ElasticSearch SQL Rest API 机制介绍

1.1 SQL Rest API接口信息和入参

POST /_sql?format=json
{"query": "SELECT * FROM library ORDER BY page_count DESC","fetch_size": 5
}

通过分析图示,我们可以详细地理解该API的工作方式。此API采用POST方法访问,其统一资源标识符(URI)设置为/_sql?format=json。在发送请求时,RequestBody主要包含两个关键属性:

  1. "query"属性:其值为SQL语句。这里使用的SQL语句遵循标准的SQL语法规则,与MySQL的语法极为相似,使得熟悉传统数据库开发的工程师更容易上手。
  2. "fetch_size"属性:这个值为数字类型,用于指定返回结果的限制数量,类似于SQL中的LIMIT子句。

此外,该API允许通过format=json参数来指定返回数据的格式。默认情况下,这一参数设置返回格式为JSON,但API同样支持其他格式,如CSV、TSV、TEXT、YAML、CBOR和SMILE。在我们的项目实践中,JSON格式因其易于解析和通用性而被频繁使用。

1.2 SQL Rest API返回值

{"columns": [{"name": "author",       "type": "text"},{"name": "name",         "type": "text"},{"name": "page_count",   "type": "short"},{"name": "release_date", "type": "datetime"}],"rows": [["Peter F. Hamilton",  "Pandora's Star",       768, "2004-03-02T00:00:00.000Z"],["Vernor Vinge",       "A Fire Upon the Deep", 613, "1992-06-01T00:00:00.000Z"],["Frank Herbert",      "Dune",                 604, "1965-06-01T00:00:00.000Z"],["Alastair Reynolds",  "Revelation Space",     585, "2000-03-15T00:00:00.000Z"],["James S.A. Corey",   "Leviathan Wakes",      561, "2011-06-02T00:00:00.000Z"]],"cursor": "sDXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAAAEWWWdrRlVfSS1TbDYtcW9lc1FJNmlYdw==:BAFmBmF1dGhvcgFmBG5hbWUBZgpwYWdlX2NvdW50AWYMcmVsZWFzZV9kYXRl+v///w8="
}

分析API的响应内容,我们可以明确地识别出其由三个主要部分组成:

  1. columns:这部分包含了所有返回字段的名称和类型。它为数据解析和后续操作提供了必要的结构信息。
  2. rows:此部分包含了查询结果的具体值,其排列顺序与columns部分中定义的字段顺序严格对应。这种一致性确保了数据的完整性和易用性。
  3. cursor:这是实现分页功能的关键元素。cursor的存在表明,当前返回的数据集只是满足查询条件的一部分,由于fetch_size的设置,初次响应只包含了限定数量的数据。要访问后续的数据页,我们需要将cursor值回传至API。这种机制允许高效地遍历大量数据,而不必一次性加载全部结果。

1.3 回传cursor,获取其他的分页

继续使用前述数据,若我们需要访问查询结果的第二页或第三页,可以简单地将cursor值用作RequestBody,并再次调用相同的接口。这个过程遵循与首次查询相同的“配方”。

POST /_sql?format=json
{"cursor": "sDXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAAAEWWWdrRlVfSS1TbDYtcW9lc1FJNmlYdw"}

在后续的响应中,API通常只返回rowscursor属性。这是因为columns属性,即字段的名称和类型,已经在第一次响应中提供,无需重复返回。当我们到达查询结果的最后一页时,响应中将只包含rows属性,不再包含cursor,表明所有数据已被完全检索。

{"rows": [["Peter F. Hamilton",  "Pandora's Star",       768, "2004-03-02T00:00:00.000Z"],["Vernor Vinge",       "A Fire Upon the Deep", 613, "1992-06-01T00:00:00.000Z"],["Frank Herbert",      "Dune",                 604, "1965-06-01T00:00:00.000Z"],["Alastair Reynolds",  "Revelation Space",     585, "2000-03-15T00:00:00.000Z"],["James S.A. Corey",   "Leviathan Wakes",      561, "2011-06-02T00:00:00.000Z"]]
}

例如,若要查询总共49000条数据,流程大致如下:

  1. 首次查询:获取所有字段(columns)和首批10000条数据(rows),同时获得一个cursor值。
  2. 第二次查询:使用已获得的cursor值作为RequestBody,检索下一批10000条数据,并再次获得cursor值。
  3. 第三次和第四次查询:重复第二次查询的步骤。
  4. 第五次查询:最后获取剩余的9000条数据,此时响应不再包含cursor,表示查询已完结。

在编写对应的代码逻辑时,可以考虑使用递归或者while循环来判断cursor值是否为null,从而决定是否继续查询。还可能有其他编程方法可用于实现这一逻辑。

2 迭代器模式实战

2.1 UML类结果分解、方法定义以及实战

迭代器模式是一种常用的设计模式,其主要目的是对数据结构中的所有元素进行逐一遍历,直到所有元素均被访问一次。大多数Java开发人员在学习Java SE时,通过List数据结构就已经接触到了迭代器的概念。利用List的迭代器遍历列表元素通常是一项基本且简单的任务。
在这里插入图片描述

我们将首先学习迭代器模式的UML类图,然后针对每个角色进行具体类的创建和方法的定义。迭代器模式的UML类图主要包含四个角色,但我们只需要创建其中的三个:

  1. Iterator(抽象迭代器) :定义了访问和遍历元素的接口。
  2. ConcreteIterator(具体迭代器) :实现迭代器接口,负责完成对容器元素的实际遍历。
  3. Aggregate(抽象容器) :提供创建具体迭代器对象的接口。
  4. ConcreteAggregate(具体容器) :实现了创建具体迭代器对象的方法。

在UML类图中,除Iterator(JDK的java.util.Iterator)外,我们需要实现其余三个角色。核心的逻辑主要集中在ConcreteIterator中。此外,我们还需要定义一个实体类来接收Elasticsearch SQL Rest API的响应数据,该实体类应包含columnsrowscursor属性,并提供相应的getter和setter方法。接下来,我们将深入探讨UML类结构的分解和方法定义。

  1. 创建与ESSOL RestAPI返回值对应的实体对象一一EsResponseData
    该对象并不是UML类图中的角色,但是要处理ES SQL Rest API 的返回值,此类必不可少。代码和注释如下:
@Data
@Builder
@NoArgsConstructor
@AllArgsConstructor
public class EsResponseData {//所有的字段private List> columns;//返回的数据值private List> rows;//用于分页的 cursor 值private String cursor;
}
  1. 创建Aggregate抽象容器一-EsSqlQueryInterface
    抽象容器角色负资提供创建具体迭代器角色的抽象方法,我们使用泛型T保证了该类的扩展性。我们定义的抽象 iterator 方法,是为了new 一个具体的选代器对象,当然了,这部分逻辑会在子类中进行实现。代码如下:
public interace EsSqlQueryInterface {public T iterator();
}
  1. 创建ConcreteAggregate具体容器-EsSqlQuery
    具体容器实现容器接口定义的抽象方法,创建迭代器对象。代码及注释如下:
@Data
@JsonIgnoreProperties
public class EsSqlQuery implements EsSqlQueryInterface{private String query;private Long fetchSize;private String cursor;public EsSqlQuery(String cursor) {this.cursor = cursor;}public EsSqlQuery(String query, Long fetchSize) {this.query = query;this.fetchSize = fetchSize;}public EsQueryIterator iterator(){return new EsQueryIterator(this.query, this.fetchSize);}
}
  1. 创建ConcreteIterator具体迭代器—EsQueryIterator
    此处代码是核心的代码,需要实现 java.util.Iterator 接口,并覆写 hasNext 以及 next方法,同时需要添加自己的 scrolINext 方法用于判断 cursor 是否为 null.如果 cursor 为 null,则说明已经选代完成
public class EsQueryIterator implements Iterator> {//记录当前cursor分页private String cursor;//记录查询的columns,因为只有第一次查询才会返回columns数据private List columns;//将ES SQL Rest API的返回值封装到List中,以便处理返回值Iterator> iterator;//此处我们从简而行,不再进行@Autowire注入,把更多的精力放到迭代器模式中RestTemplate restTemplate = new RestTemplate();//构造函数进行第一次查询,并且初始化我们后续需要使用的 columns 和 iterator 和 cursorpublic EsQueryIterator(String query, Long fetchSize) {EsResponseData esResponseData = restTemplate.postForObject("http://localhost:9200/_sql?format=json",new EsSqlQuery(query, fetchSize), EsResponseData.class);//第一次访问的结果出来了this.cursor = esResponseData.getCursor();this.columns = esResponseData.getColumns().stream().map(x -> x.get("name")).collect(Collectors.toList());this.iterator = convert(columns, esResponseData).iterator();}// hasNext 根据 是否 cursor 为null进行后续的 第二次,第三次,,,的访问,直到 cursor 为null@Overridepublic boolean hasNext() {return iterator.hasNext() || scrollNext();}//获取第二次及以后的查询结果private boolean scrollNext() {if (iterator == null || this.cursor == null) {return false;}EsResponseData esResponseData = restTemplate.postForObject("http://localhost:9200/_sql?format=json",new EsSqlQuery(this.cursor), EsResponseData.class);this.cursor = esResponseData.getCursor();this.iterator = convert(columns, esResponseData).iterator();return iterator.hasNext();}@Overridepublic Map next() {return iterator.next();}//将 ES SQL Rest API的返回值转化为 Listprivate List> convert(List columns, EsResponseData esResponseData) {List> results = new ArrayList<>();for (List row : esResponseData.getRows()) {Map map = new HashMap<>();for (int i = 0; i < columns.size(); i++) {map.put(columns.get(i), row.get(i));}results.add(map);}return results;}
}

2.2 实战测试

接下来,我们进行迭代器模式的实战测试。测试过程并不复杂,我们会创EsQueryController 和 EsQueryService 类,大家可以更关注 EsOueryService 类的方法,此处我们会使用 Stream 和 Spliterators,可能部分开发未使用过 Spliterators,但是代码不复杂,非常容易理解。

  1. 创建EsQueryController和EsQueryService代码如下:
@RestController
public class EsQueryController {@Autowiredprivate EsQueryService esQueryService;@PostMapping("/queryEsBySql")public Object queryEsBySql(@RequestBody EsSqlQuery esSqlQuery) {return esQueryService.queryEsBySql(esSqlQuery);}
}
@Service
public class EsQueryService {public Object queryEsBySql(EsSqlQuery esSqlQuery) {EsQueryIterator iterator = esSqlQuery.iterator();Stream> resultStream = StreamSupport.stream(Spliterators.spliteratorUnknownSize(iterator, 0), false);return resultStream.collect(Collectors.toList());}
}
  1. 通过PostMan 请求对应的数据
    在这里插入图片描述

总结

本文深入探讨了Elasticsearch SQL Rest API及迭代器模式在高效数据查询中的应用。文章介绍了使用Elasticsearch的/_sql?format=json接口进行数据查询的机制,详细讨论了迭代器模式的实现,包括其在Elasticsearch查询中的具体应用。通过介绍UML类图和相关的类结构,解释了如何创建和应用不同的迭代器角色,如抽象迭代器、具体迭代器和抽象容器等。提供了实际的代码示例,以展示如何在实践中使用迭代器模式高效遍历和管理Elasticsearch的查询结果。

其次,文章详细讨论了迭代器模式的实现,包括其在Elasticsearch查询中的具体应用。通过介绍UML类图和相关的类结构,作者清晰地解释了如何创建和应用不同的迭代器角色,如抽象迭代器、具体迭代器和抽象容器等。特别地,文章提供了实际的代码示例,以展示如何在实践中使用迭代器模式高效遍历和管理Elasticsearch的查询结果。

参考文章:

  1. [迭代器模式 | 菜鸟教程]
  2. Response Data Formats | Elasticsearch Guide [7.17] | Elastic

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2776768.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

通过Harbor构建docker私服仓库

Harbor是一个用于存储和分发Docker镜像的企业级Registry服务器&#xff0c;它扩展了开源的Docker Distribution&#xff0c;通过添加一些企业必需的功能特性&#xff0c;如安全、标识和管理等。Harbor由VMware公司开发并开源&#xff0c;旨在帮助用户迅速搭建一个企业级的Docke…

C语言每日一题(52)单值二叉树

力扣网 965 单值二叉树 题目描述 如果二叉树每个节点都具有相同的值&#xff0c;那么该二叉树就是单值二叉树。 只有给定的树是单值二叉树时&#xff0c;才返回 true&#xff1b;否则返回 false。 示例 1&#xff1a; 输入&#xff1a;[1,1,1,1,1,null,1] 输出&#xff1a;t…

商汤科技「日日新4.0」正式发布,多维度升级大模型体系,能力比肩GPT-4!

文 | BFT机器人 近日&#xff0c;商汤科技正式发布「日日新SenseNova 4.0」&#xff0c;宣告大模型体系多维度全面升级。这款模型具备更全面的知识覆盖、更可靠的推理能力&#xff0c;以及更优越的长文本理解和数字推理能力。同时&#xff0c;它还支持跨模态交互&#xff0c;为…

C++初阶篇----新手进村

目录 一、什么是C二、C关键字三、命名空间3.1命名空间的定义3.2命名空间的使用 四、C输入和输出五、缺省参数5.1缺省参数的概念5.2缺省参数的分类 六、函数重载6.1函数重载的概念6.2函数重载的原理----名字修饰 七、引用7.1引用概念7.2引用特性7.3常引用7.4引用的使用7.5传值、…

解析十六进制雷达数据格式:解析雷达数据长度。

以Cat62格式雷达数据为例&#xff0c;十六进制雷达数据部分代码&#xff1a; 3e0120bf7da4ffee0085 雷达数据长度使用4个字符&#xff08;2个字节&#xff09;标识&#xff0c;在这里是“0120”&#xff0c;转换为十进制数为288。 雷达数据长度父类&#xff1a; base_length_…

Easy Excel动态表头的实现

步骤&#xff1a; 1.查找官方API文档理解实现 2.实现融入到代码里面 一&#xff1a;Easy Excel动态头实时生成头写入 动态头实时生成头写入 二&#xff1a;实现 目的&#xff1a;实现表头为&#xff0c;第一列是固定列&#xff0c;第二列为动态生成的时间段的每一天的日期…

《MySQL 简易速速上手小册》第7章:MySQL监控和日志分析(2024 最新版)

文章目录 7.1 配置和使用 MySQL 监控工具7.1.1 基础知识7.1.2 重点案例&#xff1a;使用 Python 和 Prometheus 监控 MySQL 性能7.1.3 拓展案例 1&#xff1a;自动化 MySQL 慢查询日志分析7.1.4 拓展案例 2&#xff1a;实时警报系统 7.2 解读 MySQL 日志文件7.2.1 基础知识7.2.…

Linux网络编程——udp套接字

本章Gitee地址&#xff1a;udp套接字 文章目录 创建套接字绑定端口号读取数据发送数据聊天框输入框 创建套接字 #include <sys/types.h> #include <sys/socket.h> int socket(int domain, int type, int protocol);int domain参数&#xff1a;表面要创建套接字的域…

07 A B 从计数器到可控线性序列机

07. A.从计数器到可控线性序列机 让LED灯按照亮0.25秒。灭0.75秒的状态循环亮灭让LED灯按照亮0.25秒&#xff0c;灭0.5秒&#xff0c;亮0.75秒&#xff0c;灭1秒的状态循环亮灭让LED灯按照指定的亮灭模式亮灭&#xff0c;亮灭模式未知&#xff0c;由用户随即指定。以0.25秒为一…

Vuex介绍和使用

1. 什么是Vuex Vuex 是一个专为 Vue.js 应用程序开发的状态管理模式和库。它解决了在大型 Vue.js 应用程序中共享和管理状态的问题&#xff0c;使得状态管理变得更加简单、可预测和可维护。 在 Vue.js 应用中&#xff0c;组件之间的通信可以通过 props 和事件进行&#xff0c…

Java基础常见面试题总结-集合(一)

常见的集合有哪些&#xff1f; Java集合类主要由两个接口Collection和Map派生出来的&#xff0c;Collection有三个子接口&#xff1a;List、Set、Queue。 Java集合框架图如下&#xff1a; List代表了有序可重复集合&#xff0c;可直接根据元素的索引来访问&#xff1b;Set代表…

Unity类银河恶魔城学习记录5-3 P64 Foundation of Skill System源代码

Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释&#xff0c;可供学习Alex教程的人参考 此代码仅为较上一P有所改变的代码 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili SkillManager.cs using System.Collections; using System.Collections.G…

(1)短距离(<10KM)

文章目录 1.1 Bluetooth 1.2 CUAV PW-Link 1.3 ESP8266 wifi telemetry 1.4 ESP32 wifi telemetry 1.5 FrSky telemetry 1.6 Yaapu双向遥测地面站 1.7 HOTT telemetry 1.8 MSP(MultiWii 串行协议)(4.1 版) 1.9 MSP (version 4.2) 1.10 SiK Radio v1 1.11 SiK Radio …

速过计算机二级python——第9讲 详解第 2 套真题

第9讲 详解第 2 套真题 基本编程题【15 分】简单应用题【25 分】综合应用题【20 分】**问题 1**【10 分】:**问题 2【10 分】:**基本编程题【15 分】 考生文件夹下存在一个文件 PY101.py,请写代码替换横线,不修改其他代码,实现以下功能:【5 分】题目: import __________ b…

算法---回溯(正文)

1.什么是回溯&#xff1f; 回溯算法的定义就是和暴力枚举一样枚举所有可能并加撤回&#xff0c;也能和暴力一样去掉一些重复&#xff08;在之前就被筛出&#xff0c;但还要枚举这个&#xff0c;我们可以跳过这个了---------这个就是回溯剪枝&#xff09;。但为什么回溯不是暴力…

Python实现文本情感分析

前言 文本情感分析是一种重要的自然语言处理(NLP)任务&#xff0c;旨在从文本数据中推断出情感信息&#xff0c;例如正面、负面或中性情感。它在社交媒体分析、产品评论、市场调研等领域都有广泛的应用。本文将详细介绍如何使用Python进行文本情感分析&#xff0c;包括基础概念…

【从零开始学设计模式】第四章_抽象工厂模式(与工厂方法模式区分)

第四章_抽象工厂模式&#xff08;与工厂模式区分&#xff09; 1.介绍 1.1定义 为访问类提供一个创建一组相关或相互依赖对象的接口&#xff0c;且访问类无须指定所要产品的具体类 就能得到同族的不同等级的产品的模式结构&#xff1b; 1.2解决的问题 主要解决接口选择的问…

解析十六进制雷达数据格式:解析雷达数据类型。

以Cat62格式雷达数据为例&#xff0c;十六进制雷达数据部分代码&#xff1a; 3e0120bf7da4ffee0085 雷达数据使用2个字符&#xff08;1个字节&#xff09;标识&#xff0c;在这里是“3e”&#xff0c;转换为十进制数为62。 雷达数据类型父类&#xff1a; base_header_process…

Git简单了解

文章目录 1、Git概述2、Git下载与安装3、Git代码托管服务3.1、使用码云托管服务 1、Git概述 什么是Git Git是一个分布式版本控制工具&#xff0c;主要用于管理开发过程中的源代码文件&#xff08;Java类、xml文件、html页面等&#xff09;&#xff0c;在软件开发过程中被广泛使…

jvm问题自查思路

本文聊一下最近处理了一些jvm的问题上&#xff0c;将这个排查和学习过程分享一下&#xff0c;看了很多资料&#xff0c;最终都会落地到几个工具的使用&#xff0c;本文主要是从文档学习、工具学习和第三方技术验证来打开认知和实践&#xff0c;希望有用。 一、文档 不仅知道了…