MySQL HeatWave Lakehouse

在今年的Oracle Cloud World,Oracle宣布将发布一款数据库湖仓产品——MySQL HeatWave Lakehouse用以解决存储在数据库之外的文件数据等非结构化数据的查询和处理。

MySQL HeatWave是一个完全管理的数据库服务,将事务处理、分析处理和机器学习服务合并到一个MySQL数据库的云服务,提供简单、实时、安全的分析,无需ETL,并且没有延迟。

IDC预测,保存在数据库之外的文件数据的将呈爆发式增长,产生的数据从2021年的79 ZB到2025年的180 ZB,数据增长将超过一倍,其中99.5%的数据都未被利用,因为没有能够有效处理这些数据的服务。

MySQL HeatWave扩展到MySQL HeatWave Lakehouse,让用户能够处理和查询保存在云对象存储中的数百TB使用文件格式的数据,如CSV、Parquet和Aurora/Redshift备份文件。客户使用标准的MySQL命令既可以查询MySQL数据库中的事务性数据,又可以查询对象存储中各种格式的数据,或者将两者结合进行查询,并能够做到查询数据库中的数据与查询对象存储中的数据速度一样快。

MySQL HeatWave集群可扩展到512个节点,MySQL HeatWave Lakehouse允许客户查询高达400TB的数据。400 TB TPC-H基准测试证明MySQL HeatWave Lakehouse的查询性能比Snowflake17,Amazon Redshift6倍。加载性能比Amazon Redshift8,Snowflake2.7倍。

MySQL HeatWave Lakehouse现在已经发布了测试版供客户试用,计划在2023年上半年全面上市。

1.MySQL HeatWave Lakehouse介绍

MySQL HeatWave Lakehouse除了具有MySQL HeatWave的优势,还提供了以下功能:

1).向外扩展的体系结构,可以快速摄取、管理和执行查询,最多可处理400 TB的数据,同时可以将HeatWave集群扩展到512个节点。

2).MySQL Autopilot,将常见的数据管理任务自动化,包括半结构化数据的自动模式推断和自动加载。

3).数据库和数据湖数据的统一查询引擎。

4).MySQL HeatWave Lakehouse自动将所有数据源转换为单一优化的内部格式。提供了优化和执行查询的能力,无论使用哪种数据源(InnoDB存储引擎中的数据或数据湖中的数据,例如CSV和Parquet格式的数据),都能获得一致的高性能。

5).无需对MySQL进行任何更改,MySQL HeatWave Lakehouse 100%符合MySQL语法。

6).高可用的托管数据库服务,它可以在计算节点故障的情况下自动恢复加载到HeatWave集群中的数据——无需从外部数据格式重新转换。

7).高效地使用集群内存,通过自动压缩相关列,提供高达2倍的压缩比——确保用户从所提供的HeatWave集群中获得最大收益。

8).安全的访问控制方法(如Pre-Authenticated Request (PAR) 或OCI Resource Principal机制)对数据湖源的访问进行完全控制。

2.端到端的扩展架构

MySQL HeatWave Lakehouse由一个大规模并行、高性能、内存查询处理引擎提供动力,优化后可以在节点集群中管理0.5PB级的数据大小。设计一个向外扩展的湖仓系统,不仅需要向外扩展查询处理,还需要将半结构化数据加载并转换为HeatWave的混合列格式。一旦转换成HeatWave内部格式,外部数据就可以大规模被HeatWave并行内存查询处理引擎使用。此外,还需面临如何扩展数据摄取,以及如何将多种文件格式高效地转换为混合列内存数据等挑战。因此,开发团队设计了HeatPump,这是一个大规模并行和可扩展的数据转换引擎,它充分利用集群中的所有节点和核心,提供一个真正向外扩展的湖仓架构。

3.HeatPump经过精心优化,通过以下方式随着节点和数据大小的增加有效地向外扩展:

分布式跨集群扩展数据读取和转换任务,在执行数据驱动的分区时可能会遇到挑战。通过引入虚拟分区的超级分块(super chunking)进程,HeatPump进行了优化,以避免节点间的任何同步。

跨集群的动态任务负载平衡,通过确保集群中没有CPU核心处于空闲状态,从落后节点移取任务,避免掉队。

自适应数据流控制,协调利用跨大型节点集群的对象存储的网络带宽。如果没有自适应的数据流控制,单个节点的过多读请求将导致可伸缩性变差。

4.MySQL Autopilot新功能(适用于MySQL HeatWave Lakehouse)

MySQL Autopilot为MySQL HeatWave提供基于机器学习的自动化。现有的MySQL Autopilot功能,如自动配置和自动查询计划改进已经为MySQL HeatWave Lakehouse进行了增强,进一步减少了数据库管理开销并提高了性能。

当涉及到数据湖时,常见的数据湖文件格式可能不是结构化的,而且通常为此类数据源定义严格的数据模型也不是一件容易的事。具体来说,CSV是半结构化文件的一个很好的例子,其中列类型没有在文件中预定义。如果没有相关经验,用户通常会选择保守的数据类型和大小,这会造成浪费或无法达到最优的查询性能(例如,对所有类型使用varchar)。使用MySQL Autopilot,该过程是完全自动化和数据驱动的,消除了用户的猜测(如下所述)。

MySQLMySQL Autopilot追加了新功能用于MySQL HeatWave Lakehouse。

自动模式推断:Autopilot自动推断文件数据到数据库中的数据类型的映射。用户不需要手动为MySQL HeatWave lakehouse查询的每个新文件指定映射,从而节省了时间和精力。

自适应数据采样:Autopilot对象存储中的文件部分智能采样,以最小的数据访问收集准确的统计数据。MySQL HeatWave使用这些统计信息来生成和改进查询计划,用于确定最佳模式映射。

自动加载:Autopilot分析数据,预测加载到MySQL HeatWave的时间,确定数据类型的映射,并自动生成加载脚本。用户不必手动指定文件到数据库模式和表的映射。

自适应数据流:MySQL HeatWave Lakehouse动态适应底层对象存储的性能。因此,MySQL HeatWave可以从底层云基础设施中获得最大的可用性能,从而提高整体性能、价格优势和可用性。

5.MySQL HeatWave Lakehouse的性能

官方提供了数据的加载性能测试和查询性能测试。

4小时内向对象存储中加载400TB数据

通过一个完全透明的、公开的400 TB TPC-H*基准测试,MySQL HeatWave Lakehouse的加载性能比Amazon Redshift快8倍,比Snowflake快2.7倍。

HeatPump进程的向外扩展架构完美地划分、平衡任务,并利用每一个可用的CPU核心来获得外部文件的查询准备。HeatPump保证了集群中所有512个节点的同时使用,保证了强大的可扩展性。

运行400TB查询——平均42秒

将数据转换为我们专有的混合列格式后,就可以查询外部表。

400 TB TPC-H基准测试所示,MySQL HeatWave Lakehouse的查询性能为比Snowflake快17倍,比Amazon Redshift快6倍。

6.查询性能提高了几个数量级,甚至对于大规模的数据湖也是如此,主要有三个原因:

1).MySQL HeatWave查询引擎是大规模并行和高度可扩展的,充分利用集群中的每个核心。

2).在MySQL Autopilot的帮助下,已经准确地识别了半结构化数据集中每一列的数据类型,提高查询处理性能。

3).尽管HeatWave在大型集群的内存中维护所有数据,但对数据进行显著的压缩。

我们正面临着保存在数据库之外的巨大数据增长(社交媒体文件、来自物联网传感器的数据等),企业希望利用这些数据快速生成新的业务驱动。使用MySQL HeatWave Lakehouse,用户可以在对象存储中的数据上利用HeatWave的所有优势,为事务处理、跨数据仓库和数据湖的分析和机器学习提供了无需跨云进行ETL的云服务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2661698.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Linux中账号和权限管理

目录 一.用户账号和组账号: 1.用户账号类型: 2.组账号类型: 3.系统区别用户的方法 : 4.用户账号文件: 二.Linux中账户相关命令: 1.useradd: 2.passwd: 3.usermod&#xff1a…

Python爬取今日头条热门文章

前言 今日头条文章收益是没有任何门槛,只要是你发布文章,每篇文章的阅读量超过1000就能有收益,阅读量越多收益越高。于是乎我就有了个大胆的想法。何不利用Python爬虫,爬取热门文章,然后完成自动化发布文章呢&#xf…

24年软件测试的晋升之路与能力要求,“我“该何去何从?

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 1、软件测试人员的…

1.DQL查询数据(超重点)以及distinct(去重)

DQL(Data Query Language:数据查询语言) 1.所有查询操作都用 SELECT 2.无论是简单的查询还是复杂的查询它都能做 3.数据库中最核心的语言,最重要的语句 4.使用频率最高的语句 语法: SELECT 字段1,字段2,……FROM 表 有时候…

CISP培训强化研发团队,确保金融科技发展安全无忧

​某金融科技公司是行业领先的平台服务商,凭借其在区块链、物联网、云计算、大数据和人工智能等尖端技术的卓越研发实力,致力于将前沿技术融入金融业务模式和应用场景。公司不断努力为客户提供一个“科技金融行业客户”的综合服务平台,从而实…

引领创业新风潮,花为缘享奢二手奢侈品买卖如何突出重围脱颖而出

数据显示,中国消费者的奢侈品消费金额占全球的份额从2000年的1%左右提升到2017年的33%。奢侈品消费的主战场仍是品牌发源地的欧洲和美国,中国消费者奢侈品消费规模全球第一。奢侈品逆势增长与持续涨价这件事,无疑预示着二级奢侈品转售市场将迎…

大数据引爆点:数据可视化的飞速发展

在信息时代,数据如潮水般涌入,企业和个人面临的挑战前所未有。而在这个数据的浩瀚海洋中,数据可视化如一道明亮的灯塔,引领着信息时代的航行者。近几年,数据可视化以其直观、生动的特性,迅速成为了信息表达…

2024年U.S.News全美最佳大学排名公布(附top100榜单)

9月18日,《美国新闻与世界报道》正式发布了最新的2024全美最佳综合大学排名。知识人网小编整理并附上top100的学校榜单,以供访问学者、博士后及联合培养博士们参考。 2024 US News 排名机制调整 U.S. News的排名综合考虑了包括录取率、师生比例、学生标…

嵌入式SOC之通用图像处理之OSD文字信息叠加的相关实践记录

机缘巧合 机缘巧合下, 在爱芯元智的xx开发板下进行sdk的开发.由于开发板目前我拿到是当前最新的一版(估计是样品),暂不公开开发板具体型号信息.以下简称板子 .很多优秀的芯片厂商,都会提供与开发板配套的完善的软件以及完善的技术支持(FAE),突然觉得爱芯…

win10安装ffmpeg

1 ffmpeg官网下载 官网地址:https://ffmpeg.org/ ffmpeg可执行程序下载地址:https://www.gyan.dev/ffmpeg/builds/ ffmpeg官网文档:https://ffmpeg.org/documentation.html 选择对应的版本点解下载可执行程序包,比如6.1版本的…

Linux操作系统(文件系统管理fdisk)

操作系统的两种启动模式Legacy BIOS 和 UEFI Legacy BIOS(Basic Input/Output System,基本输入/输出系统) 在开机时需要自检,启动过程较复杂。且传统的BIOS无法识别GPT(GUID Partition Table)分区表,只能识…

Windows上ModbusTCP模拟Master与Slave工具的使用

场景 Modbus Slave 与 Modbus Poll主从设备模拟软件与Configure Virtual Serial串口模拟软件使用: Modebus Slave 与 Modbus Poll主从设备模拟软件与Configure Virtual Serial串口模拟软件使用_modbus poll激活-CSDN博客 数据对接协议为Modbus TCP,本地开发需要使…

2023教程发布最后一个教程 | R语言绘图汇总

2023年总结 2023年即将结束,我们即将迎来2024年。2023年,我们做了什么呢??这个是个值得深思的问题…? 12月份是个快乐且痛苦时间节点。前一段时间,单位需要提交2023年工作总结,真的是憋了好久才可以下笔…

众和策略:人工智能风起云涌 算力基建支撑加速前进

2023年,人工智能技术完结质的飞跃。通过生成式AI(AIGC)技术,人们可用自然语言与机器进行便捷交互,并将海量的数据通过训练、推理,快速转化为出产力,发生实践商业价值。 AI技术加快向各行各业渗…

HarmonyOS自学-Day4(TodoList案例)

目录 文章声明⭐⭐⭐让我们开始今天的学习吧!TodoList小案例 文章声明⭐⭐⭐ 该文章为我(有编程语言基础,非编程小白)的 HarmonyOS自学笔记,此类文章笔记我会默认大家都学过前端相关的知识知识来源为 HarmonyOS官方文…

LTPI协议的理解——4、LTPI链路初始化以及运行

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 LTPI协议的理解——4、LTPI链路初始化以及运行 前言状态图Link TrainingLink DetectLink SpeedLink Training Example Link ConfigurationAdvertiseConfigure & AcceptLi…

什么是PD快充诱骗芯片?它的原理是什么?

PD快充诱骗芯片,顾名思义,就是通过LDR6328Q PD取电芯片把pd适配器的电压给诱骗出来固定给后端设备供电。 PD诱骗芯片是受电端的一种PD协议芯片,它内置了PD通讯模块,通过与供电端(如PD充电器)的PD协议芯片握…

微信小程序运行机制分析

setData渲染机制 Native就是微信客户端,逻辑层JsCore(js文件)通过setdata把数据送到渲染层Webview(小程序页面,wxml文件),渲染层接收到数据后就会改变对应的元素值。用户在小程序页面进行操作可…

Element UI之el-tabs的样式修改字体颜色、下划线、选中/未选中

目录 默认样式 修改默认字体颜色&#xff1a; 修改鼠标悬浮/选中字体颜色&#xff1a; 去掉长分割线并修改下划线颜色 完整代码 默认样式 注意事项&#xff1a;一定要在 <style scoped>不然修改的样式不会覆盖生效 修改默认字体颜色&#xff1a; ::v-deep .el-tabs__…

Fiddler 抓包工具的安装与使用

今天分享Fiddler 抓包工具的安装与使用&#xff0c;基于HTTP应用层协议的抓包工具。 一、下载安装 1、下载地址&#xff1a; The Ultimate Web Debugging Tool - Download Fiddler Everywhere | Telerik 选择相应类型&#xff1a; 2、下载完成 3、安装 傻瓜式安装&#xf…