火山引擎VeDI数据技术分享:两个步骤,为Parquet降本提效

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

作者:王恩策、徐庆

火山引擎 LAS 团队

火山引擎数智平台 VeDI 是火山引擎推出的新一代企业数据智能平台,基于字节跳动数据平台多年的“数据驱动”实践经验,为企业提供端到端的数智产品、场景化的行业解决方案和专业的数智转型咨询。

Parquet 在字节跳动内部已广泛使用和深度优化,结合小文件合并、列级 TTL 两个应用场景,我们已经实现兼顾高查询性能下的存储成本优化。

基于 Parquet 的降本增效优化和应用,目前已经通过火山引擎数智平台 VeDI 旗下的湖仓一体 LAS 对外输出。

Parquet 在字节跳动的使用

字节跳动离线数仓默认使用 Parquet 格式进行数据存储。Parquet 作为一种列式存储的开源文件格式,在大数据领域被广泛应用,它所提供的一系列特性,如高压缩率、高查询性能等都非常契合大数据领域。

另外在数据安全方面,它提供的模块化加密功能在对数据进行保护的同时也兼顾了高查询性能。除了社区提供的一些基础能力,字节跳动也基于 Parquet 格式进行了深度优化和应用,其中包括 LocalSort/PreWhere 等功能,进一步提升了 Parquet 的存储和查询性能。另外在数据安全方面,也基于 Parquet 构建了透明加密系统,对底层数据进行加密保护的同时不影响用户的正常使用。

在实际的生产过程中,随着海量数据的持续增长,也遇到了一些问题。其中比较典型的就是小文件问题和存储成本问题。小文件问题指的是在存储系统中存在大量小文件,由于字节跳动离线存储采用的是 HDFS,大量小文件的存在会严重影响 HDFS 集群的稳定性以及数据访问的效率。

经过分析,我们发现 HDFS 中大部分数据来源于 Hive,因此治理的目标将主要针对于 Hive 数据。而在存储成本方面,海量数据带来了高额的存储成本,如何安全高效地控制存储成本也是降本增效的一大难点。

小文件合并

首先介绍在小文件治理方面的一些技术实践,主要包括小文件问题的产生原因以及小文件问题的技术解决方案。

小文件问题是怎么产生的

小文件问题的产生可能是由于数据源本身的问题,比如一些流式任务天然地就会按照一定时间周期产出一些小文件。

另外比较常见的是,用户在使用 Spark 等分布式引擎对数据进行处理的过程中使用了过高的并发,也会产出大量小文件,如果同时又用到了动态分区,还会进一步加剧文件数量的放大。

类似于下图中所示的例子,最终产出的文件数量是并发数乘上分区数,一个作业很容易就会产出上千甚至上万个小文件。

如何解决小文件问题

针对上文中提到的小文件问题,当下已经存在一些常见的解决方法,比如用 repartition 控制输出的并发;或者用 distribute by 控制数据的分布形式,每个分区只输出一个文件;一些情况下甚至还需要把作业拆成 2 个单独处理来应对不同的数据场景。

以上这些方法总的来说都不够灵活,对业务的侵入性较大,并且往往还涉及到繁琐的调参工作,影响工作效率。为此我们提出了一套自动化、声明式的小文件合并方案。用户只需要通过参数开启小文件合并,并设置目标文件大小,就能让作业自动输出合适的文件大小。

这种方式除了简单直接,而且合并效率也很高,这部分内容会在后文的原理中详细展开介绍。此外,该方案对静态分区和动态分区也都能很好地支持。

下面来介绍一下这个功能的实现原理。假设不考虑小文件问题,对于一个普通的 Spark ETL 作业来说,数据经过计算后会先写到目标表的各个分区目录下,然后 Spark 会触发 Hive 表元信息的更新,这时候数据就对下游正式可见了。

而当用户开启了小文件合并后,我们会在更新元数据,也就是数据可见之前插入小文件合并操作。具体来说,就是检查各个分区下的文件是否满足大小要求。如果发现文件太小,就会在这个分区下触发小文件合并。

对于那些已经满足要求的分区,则是直接跳过,不做任何操作。这种按需合并的方式是合并效率高的一个原因,而另一个原因则是我们采用了快速合并技术。

小文件合并的核心是如何把一个分区下的多个 Parquet 小文件合并成一个,由于 Parquet 格式具有特殊的编码规则,文件内部被划分为多个功能子模块,我们不能直接把 2 个 Parquet 文件首尾拼接进行合并。

常规的做法是需要用 Spark 读取这些小文件,提取出文件中的一行行记录,然后再写成新的文件。在这个一读一写的过程中,会涉及到大量的压缩反压缩、编码反编码等等操作,这些操作消耗了大量的计算资源。

为了提高合并速度,我们采用了一种快速合并的方式,这种方式借鉴了 Parquet 社区所提供的 merge 工具,能够快速地将多个 Parquet 文件合并成一个,下面介绍一下它的实现原理。

Parquet 文件的内部有很多内容,例如 Footer、RowGroup 等等。这些内容可以分为 2 类,一类是被压缩和编码后的实际数据,而另一类则是记录了数据是如何被编码和排列的元数据。快速合并的基本思路就是:直接 copy 实际数据所对应的原始二进制 Data(跳过编解码流程),再基于数据在新文件中的位置构建出新的元信息。

元信息构建过程非常快速,因此整体开销近似于直接 copy 整个文件。值得注意的是,这种合并方式并不会合并 RowGroup,因此对压缩率和查询性能并不会有明显提升,但是却极大地提升了合并效率,而文件数量的减少最终有效降低了 HDFS 集群的压力。

经过性能测试, 快速合并上相比于普通合并有 14 倍左右的提升。根据线上任务的实际运行情况,作业在开启快速小文件合并后,平均运行时长只增加了 3.5% 左右,可以看到对业务的影响很小。

另外,在实际生产环境中,为了数据安全,Parquet 文件是被加密存储的,并且为了保证高查询性能,加密存储采用的是模块化加密的方式,也就是对文件中的各个模块分别加密。

这种加密方式保留了 Parquet 文件的基本结构,从而保留了 Parquet 高性能查询的能力。但在小文件合并过程中,这也带来了新的挑战。

我们无法像之前的模式那样直接 copy 二进制数据,因为各个文件的数据是基于不同密钥加密的结果,密钥信息保存在每个文件的 Footer 中,直接 copy 二进制模块到目标文件后,无法用新文件中的统一密钥进行解密。

为此需要在原有快速合并的基础上,在 copy 二进制模块的同时加上解密和再加密操作,用原文件中的密钥解密,然后再用新文件的密钥进行加密。整体流程上还是以 copy 二进制数据为主,跳过了编码反编码之类的多余操作,实现快速合并。

以上介绍了如何在数据产出的同时合并小文件,在实际情况中,HDFS 集群上会存在着大量历史小文件,为此我们提供了存量小文件合并工具进行处理,其使用方法也是非常简单:用户提交一个 SQL,在 SQL 中制定合并的那张表、分区、合并的目标文件大小。SQL 提交后,系统就会启动一个 Spark 作业,再结合刚刚提到的工具和流程对存量数据进行快速合并。

小结:我们在增量和存量场景都提供了对应的小文件合并能力,以一种简单高效的方式对小文件进行综合治理,提升了整个集群的健康度和稳定性,最终有效降低了机器成本和人力运维成本。

列级 TTL

上文介绍了在解决小文件问题时的相关实践。接下来将介绍 Parquet 格式在字节跳动另一降本增效实践——列级 TTL 相关的内容。

列级 TTL 产生的背景

  1. 随着业务发展,海量数据的存储成本逐渐成为离线数仓的一大痛点。而目前离线数仓清理存储只有分区级的行级 TTL 方案,类似于使用 alter table drop partition 的 DDL 来完成分区数据的整体删除。对于具有时间跨度较大汇总需求的表,则需要保留较长时间的历史分区,而这些历史分区中很多明细数据在汇总任务中并不会使用,也就是历史分区中存在很多低频访问字段。如果想删除这些不再使用的字段数据,目前已有的方式就是通过 Spark 等引擎将数据读取出来,并将需要删除的字段设置为 NULL 的覆写方式来完成。这种方式有两个缺点:海量数据的覆写计算资源开销很大;

  2. 对于字段较多的大宽表,用户需要在 select 中罗列出所有字段,并对需要删除的字段逐个置空,TTL 任务运维成本高。

轻量级列级 TTL 方案

针对以上业务存在的痛点,结合 Parquet 列存的特性,提出了一种如下图所示的轻量级的列级 TTL 方案。

该方案按照 Column chunck 直接 Copy 每个 RowGroup 中需要保留的列的二进制数据,跳过编解码流程。举一个例子,假如表有 1、2、3 列,现在需要删除第 2 列数据。

首先要做的是构造新的 schema,从原文件 schema 中删除需要 TTL 的列(第 2 列)并作为新文件的 schema,然后从原文件中按照 Column Chunk copy 第 1 列和第 3 列的数据到新文件中。在进行列级 TTL 时,因为删除了部分列数据,会导致新文件 size 变小,容易出现小文件问题,所以我们支持将原来多个文件的数据合并到同一个文件中。

这种列级 TTL 的方式,相比于 insert overwrite 覆写的方式,速度能够实现提升 14 倍 +。前文还提到 insert overwrite 方式需要在 select 中枚举所有列,为了方便业务方使用这个列级 TTL 功能,我们定义了一种新的语法来支持列级 TTL 功能:alter table ${db.table} partition(${part_name}) drop columns(xxx)。

用户只需指定需要执行列级 TTL 的库表分区以及需要删除的列即可,不用再把其他不需要删除的列也一一列举,然后往数据引擎提交这个 SQL,就能触发列级 TTL 任务的执行。

列级 TTL 功能实现到落地还涉及到一个问题,就是如何高效的发现哪些分区下的哪些列能够进行列级 TTL。

LAS 团队开发了一个列级血缘的分析工具,支持快速分析表历史分区查询情况,然后自动推荐能够进行列级 TTL 的 columns 及对应的 TTL 时间,比如某张表 column A 90 天前基本无用户查询,那么 90 天前的历史分区中 column A 可以进行 TTL;Column B 120 天前的数据无用户查询,可以进行列级 TTL 等。

列级 TTL 在字节跳动主要应用于历史低优数据的清理,大 JSON、大 MAP 类型字段的清理或者明细日志的数据清理。该功能上线后已经为公司清理了大量的无用历史数据,释放了较大的存储空间。

结合字节跳动自身经验,火山引擎数智平台 VeDI 不断对 Parquet 这项开源技术进行优化和重构,进一步提升性能,并兼顾存储成本。未来,火山引擎数智平台 VeDI 也将凭借卓越的技术能力和丰富的行业经验,持续为更多用户提供了优质的数据技术服务,助力企业实现数字化转型。

点击跳转 火山引擎VeDI 了解更多

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3280983.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

迪文屏使用记录

项目中要使用到迪文屏,奈何该屏资料太琐碎,找的人头皮发麻,遂进行相关整理。 屏幕:2.4寸电容屏 型号:DWG32240C024_03WTC 软件:DGUS_V7.647 1.竖屏横显 打开软件左下方的配置文件生成工具&#…

前端如何实现更换项目主题色的功能?

1、场景 有一个换主题色的功能,如下图: 切换颜色后,将对页面所有部分的色值进行重新设置,符合最新的主题色。 2、实现思路 因为色值比较灵活,可以任意选取,所以最好的实现方式是,根据设置的…

解读权限信息

1. 权限信息 在查看工作目录的内容时,经常看到如下格式的信息: 第一列:文件/文件夹的权限(或者叫权限控制信息); 第二列:文件/文件夹的所属用户; 第三列:文件/文件夹…

苹果密码解锁工具已注册专业版_不限制电脑

Aiseesoft iPhone Unlocker:轻松解锁iPhone。功能强大:一键移除4位、6位密码、Touch ID和Face ID。隐私保护:创建密码,安全无忧。数据提醒:解锁时,注意数据和设置将被清除。Apple ID 解锁:快速删…

Redis 与 Scrapy:无缝集成的分布式爬虫技术

1. 分布式爬虫的概念 分布式爬虫系统通过将任务分配给多个爬虫节点,利用集群的计算能力来提高数据抓取的效率。这种方式不仅可以提高爬取速度,还可以在单个节点发生故障时,通过其他节点继续完成任务,从而提高系统的稳定性和可靠性…

信息系统的分类_20240731

1:信息系统的分类 1.1:业务处理系统(TPS) 又称为电子数据处理系统.TPS是服务于组织管理层次中最低层、最基础的信息系统 功能:数据输入、数据处理(批处里、OLTP)1.2:管理信息系统(MIS) 是由业务处理系统发展而来的,是在TPS基础上引进大量管理方法对企业整体信息进行处理 MI…

C#知识|文件与目录操作:目录的操作

哈喽,你好啊,我是雷工! 前边学习了文件的删除、复制、移动,接下来学习目录的操作。 以下为学习笔记。 01 效果演示 1.1、显示指定目录下的所有文件 在左侧的文本框中显示出F:\F004-C#目录下的所有文件, 演示效果: 1.2、显示指定目录下的所有子文件 在左侧的文本框中显…

【机器学习西瓜书学习笔记——模型评估与选择】

机器学习西瓜书学习笔记【第二章】 第二章 模型评估与选择2.1训练误差和测试误差错误率误差 欠拟合和过拟合2.2评估方法留出法交叉验证法自助法 2.3性能度量查准率、查全率与F1查准率查全率F1 P-R曲线ROC与AUCROCAUC 代价敏感错误率与代价曲线代价曲线 2.4比较检验假设检验&…

三品软件与合作伙伴提供管家式服务 推动企业研发管理创新

近日,三品软件携手核心合作伙伴,秉承着为本地客户提供全方位的管家式服务。坚持采用“管理咨询IT整体规划PLM本地交付”的服务模式,凭借卓越的服务质量和专业度,赢得了客户的高度信任和好评,并成功签约多个PLM项目。 …

SAP PowerDesigner@官网下载

背景 略 问题 略 解决 用户可以通过访问SAP支持网站的首页(‌https://support.sap.com/home.html)‌,‌然后导航到“Software Downloads”(‌软件下载)‌部分来访问SAP软件的下载入口。‌在这里,‌用户可…

第一章:为了女神小芳!【配套课时:SQL注入攻击原理 实战演练】

目录 一、原理 二、步骤 1、测试是否存在注入点 2、判断字段数 3、判断回显位置 4、判断数据库和版本 5、判断表名 6、判断字段名 7、获取表的数据 一、原理 SQL数值型注入 二、步骤 点击查看出现id,这里可能存在注入点 1、测试是否存在注入点 http://p…

UVC驱动分析(一)

UVC驱动分析 UVC驱动简介Linux video框架分层UVC驱动注册UVC驱动注册入口函数UVC设备探测初始化UVC描述符解析V4L2设备注册UVC控制参数初始化UVC video驱动注册UVC 状态初始化 UVC驱动简介 UVC全称为USB Video Class,即:USB视频类,是一种为U…

向量数据库性能测试工具(VectorDBBench.com)性价比排名

排名 向量数据库(不同硬件配置) 价格/性能比 QP$(每百万次查询所花费的价格)中型数据集, OpenAI 无标量过滤 QP$(每百万次查询所花费的价格)中型数据集, OpenAI 低标量过滤 QP$(每百万次查询所花费的价格)中型数据集, OpenAI 高标量过滤 QP$(每百万次查询所花费的价…

25考研数据结构复习·7.1/7.2查找的基本概念-顺序查找和折半查找

查找的基本概念 基本概念 查找查找表关键字(唯一标识)对查找表的常见操作 查找符合条件的数据元素——静态查找表插入、删除某个元素——且也要进行操作a的(动态查找表)评价指标 查找长度——需要比较的关键字次数 平均查找长度…

AI鲁迅申请出战?靠谱是最低成本的社交——早读(逆天打工人爬取热门微信文章解读)

AI真不错,多喂点数据给他,然后一点点跟他交流,我现在都直接叫AI鲁迅了 引言Python 代码第一篇 洞见 靠谱是最低成本的社交第二篇 金牌1结尾 引言 最近真是累得够呛 成天埋头研究股票行情 眼睛都快成了望远镜 却还是看不透那股市的风云变幻 公…

如何磁盘覆写

使用命令提示符写0 命令提示符是Windows系统内置的一个非常实用的工具,可以通过几行短短的命令来完成各种各样的电脑相关操作而无需开启应用程序,所以我们可以通过命令提示符中的format命令来完成硬盘写0任务。 步骤1. 在搜索框中输入cmd并以管理员身份…

WordPress建站:如何使用Hostinger搭建WordPress外贸独立站

随着电商平台竞争的加剧,许多外贸从业者意识到减少对平台依赖的重要性,并选择搭建自己的外贸独立站来获得更多的控制权和灵活性。即使是没有建站基础的新手,也可以通过学习建站来实现这一目标。下面是一个适用于新手的外贸建站教程&#xff0…

typescript中interface常见3种用法

文章目录 函数类型对象类型【自命名】: (函数)对象类型 函数类型 作用:声明一个函数接口:可用于类型声明 | 不可implements 对象类型 作用:声明对象具备哪些实例接口:可用于类型 | 可implements 【自命名】&…

浅谈取样器之SSH Command

浅谈取样器之SSH Command JMeter的SSH Command取样器是一个强大的功能,允许用户在JMeter测试计划中执行远程SSH命令。这对于需要与Linux/Unix服务器交互以执行系统命令、脚本或者进行性能测试验证的场景尤为有用。通过这个取样器,您可以集成服务器端操作…

【python】OpenCV—Faster Video File FPS

文章目录 1、需求描述2、正常方法 cv2.read3、加速方法 imutils.video.FileVideoStream4、涉及到的核心库函数4.1、imutils.video.FPS4.2、imutils.video.FileVideoStream 5、参考 1、需求描述 使用线程和队列数据结构将视频文件的 FPS 速率提高 ! 我们的目标是将…