通过强大的语义层增强现代数据湖

在现代数据湖架构中,语义层通过向数据添加有意义的上下文来发挥至关重要的作用,否则这些上下文会丢失。此层充当现代数据湖(数据仓库和查询引擎)处理层中未整理的原始数据与利用此数据的工具和应用程序之间的桥梁。此服务对 AI 特别有用,因为这些关系和模式对于训练准确的模型至关重要。强大的语义层可确保数据干净且经过整理,为模型训练做好准备。如果需要进一步的特征工程,语义层可以为特征存储提供信息,在其中可以共享工程特征。问题在于,要使通用语义层真正扎根,整个组织需要发展以使用它的语义——工具链中的每个工具都需要与所述语义层紧密耦合。如果只有少数数据源使用语义层,那么您又回到了原点,有了另一个工具来照看。因此,为工作选择合适的工具至关重要。这篇博文简要概述了专为现代数据湖设计或与现代数据湖配合使用的工具。

语义层的作用

语义层通过提供数据视图来增强现代数据湖,其中大部分复杂性已被抽象化。此层中数据产品的主要功能包括:

  • 元数据管理:此功能对数据资产进行编目,跟踪其来源、格式、使用情况以及随时间的变化。在 AI 中,元数据管理对于理解数据沿袭至关重要,这是训练和优化机器学习模型的关键因素。准确的元数据可确保 AI 系统获得可靠的数据,从而促进更好的预测和见解。

  • 数据治理和安全:语义层是强制执行数据访问策略并保护敏感信息的地方。这些功能对于保持对现代数据保护法规的遵守至关重要。在 AI 的背景下,强大的治理和安全性对于管理 AI 应用程序的道德影响和防止未经授权访问 AI 模型至关重要。合成数据的最新创新也在数据治理方面取得了长足的进步,实现了数据共享,而不会危及敏感信息。

  • 质量和一致性:此功能可确保整个组织的数据保持一致且高质量,这对于可靠的 AI 操作至关重要。人工智能系统需要高质量的数据来避免“垃圾进,垃圾出”的困境,即糟糕的输入数据会导致有缺陷的输出。通过减少冗余和增强数据可靠性,语义层支持更准确、更有效的 AI 分析。

这一层中的一些产品专注于一个特定的功能,而另一些产品则声称提供一套工具来解决多个问题。需要注意的是,虽然对象存储可以支持广泛的数据,但通常语义层中的产品只能对结构化数据进行操作。

语义层的实际应用示例

1 . Amundsen:由 Lyft 开发的开源数据发现和元数据引擎。Amundsen 帮助索引数据集、管理元数据,并为跨现代数据湖的数据发现提供搜索界面。它与 Delta Lake 和 Apache Iceberg 等开放表格式集成。

2 . DataHub:一个开源元数据平台,用于数据资产的发现、自动化和操作化。DataHub支持元数据收集和搜索功能,与开放表格式集成,以提供对数据沿袭和使用情况的可见性。

3 . DBT(数据构建工具):一种数据转换工具,允许数据分析师和工程师更有效地转换仓库中的数据。它可以使用开放表格式,并确保记录数据转换并进行版本控制。

4 . Apache Atlas:一组可扩展且可扩展的核心基础治理服务,使企业能够在开放表格式的数据仓库中有效且高效地满足其合规性要求。Atlas提供元数据管理和治理功能。

5 . Collibra:用于数据治理、编目和数据质量管理的数据智能云平台。Collibra 与开放表格式集成,有助于管理数据策略、跟踪数据沿袭并确保数据质量和合规性。

与他人合作良好

无论您为语义层选择哪种工具,要使其成功,都需要在组织的数据生态系统中完全集成。通过采用统一的数据策略,组织可以提高其语义层的有效性,确保所有数据源都有助于形成一个有凝聚力和治理良好的数据环境。成功集成的一部分要求工具链中的所有工具都在云运营模型下进行设计。这意味着,无论您的工具位于私有云、公有云还是边缘,它都是可扩展的、高性能的,并且专为现代工作负载而构建。这个工具链的一个重要基础是现代数据湖,它使用高性能的 Kubernetes 原生对象存储(如 MinIO)构建。

湖中的背景

语义层是现代数据湖架构的重要组成部分。它不仅简化了数据管理,还增强了数据的安全性、质量和可用性;成功实施 AI 的关键特征。借助此架构,组织可以确保其现代数据湖不仅是信息存储库,而且是推动业务增长和创新的宝贵资产。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3266578.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

IOS微软语音转文本,lame压缩音频

在IOS开发中,用微软进行语音转文本操作,并将录音文件压缩后返回 项目中遇到了利用微软SDK进行实时录音转文本操作,如果操作失败,那么就利用原始音频文件通过网络请求操作,最终这份文件上传到阿里云保存,考…

Find My电子书|苹果Find My技术与电子书结合,智能防丢,全球定位

电子书是指将文字、图片、声音、影像等讯息内容数字化的出版物和植入或下载数字化文字、图片、声音、影像等讯息内容的集存储和显示终端于一体的手持阅读器。代表人们所阅读的数字化出版物,区别于以纸张为载体的传统出版物。电子书通过数码方式记录在以光、电、磁为…

PostgreSQL性能优化之体系结构

本文介绍 PostgreSQL 数据库的体系结构,包括实例结构(进程与内存)、存储结构(物理与逻辑)以及插件式存储引擎。 实例与数据库聚簇 PostgreSQL 使用典型的客户端/服务器(Client/Server)架构&am…

基于Intel x86+FPGA+AI工业整机,支持医疗CT扫描仪应用

众所周知,医学影像设备是医疗器械行业中最具发展潜力的细分领域之一,诸如CT扫描仪(简称:CT)便是医生用于多种疾病临床检查和诊治时的理想选择。 医疗CT扫描仪的发展潜力及难点 CT,即电子计算机X线断层扫描&…

计算机网络:构建联结的基础

目录 1. 网络拓扑结构 1.1 星型拓扑 1.2 环型拓扑 1.3 总线型拓扑 1.4 网状拓扑 2. 传输介质 2.1 双绞线 2.2 同轴电缆 2.3 光纤 2.4 无线电波 3. 协议栈模型 3.1 OSI模型 3.2 TCP/IP模型 4. 网络设备 4.1 交换机 4.2 路由器 4.3 网关 4.4 防火墙 5. IP地址…

2024年数字化社会、信息科学与风险管理研讨会(ICDIR 2024,9月20-22)

2024年数字化社会、信息科学与风险管理研讨会(ICDIR 2024)作为2024年人工智能与数字管理国际学术会议(ICAIDM 2024)的分论坛,将携手主会齐于2024年9月22-24日在中国江苏省南京市隆重召开。 会议旨在为从事数字化社会、…

DjangoRF实战-2-apps-users

1、用户模块 创建一个用户模块子应用,用来管理用户,和认证和授权。 1.1根目录创建apps, 为了使用方便,还需要再pycharm中设置一下资源路径,就可以自动提示 1.2注册子应用 1.3添加应用根目录到环境变量path python导…

Java---后端文件上传详解

袁门才俊志高远, 震古烁今意决然。 风采翩翩才情显, 雄姿英发立世间。 目录 一,简单案例演示 二,服务器本地存储 三,配置单个文件上传大小限制 一,简单案例演示 首先简单编写一个前端网页: &l…

vue3+openLayers点击标记事件

<template><!--地图--><div class"distributeMap" id"distributeMap"></div> </template> <script lang"ts" setup> import { onMounted, reactive } from "vue"; import { Feature, Map, View }…

C++中的依赖注入

目录 1.概述 2.构造函数注入 3.setter方法注入 4.接口注入 5.依赖注入框架 6.依赖注入容器 7.依赖注入框架的工作原理 8.依赖注入的优势 9.总结 1.概述 依赖注入是一种设计模式&#xff0c;它允许我们在不直接创建对象的情况下为对象提供其依赖项&#xff1b;它通过将…

模拟信号介绍

定义&#xff1a; 模拟信号是指用连续变化的物理量表示的信息&#xff0c;其信号的幅度、频率或相位随时间作连续变化&#xff0c;或在一段连续的时间间隔内&#xff0c;其代表信息的特征量可以在任意瞬间呈现为任意数值的信号。我们通常又把模拟信号称为连续信号&#xff0c;它…

Pytorch使用教学6-张量的分割与合并

在使用PyTorch时&#xff0c;对张量的分割与合并是不可避免的操作&#xff0c;本节就带大家深刻理解张量的分割与合并。 在开始之前&#xff0c;我们先对张量的维度进行深入理解&#xff1a; t2 torch.zeros((3, 4)) # tensor([[0., 0., 0., 0.], # [0., 0., 0., 0.…

java发送https请求支持tls1.3

说明&#xff1a;java 8_u201及以下版本不支持tls1.3协议发送。最直接的方法是升级到该版本之上。 另外&#xff1a;需要修改一下代码强行使用tls1.3协议。如果只修改代码&#xff0c;不升级java版本会报错找不到该协议。

【基于PSINS】UKF/SSUKF对比的MATLAB程序

UKF与SSUKF UKF是&#xff1a;无迹卡尔滤波 SSUKF是&#xff1a;简化超球面无迹卡尔曼滤波 UKF 相较于传统的KF算法&#xff0c;UKF能够更好地处理非线性系统&#xff0c;并且具有更高的估计精度。它适用于多种应用场景&#xff0c;如机器人定位导航、目标跟踪、信号处理等。…

【解决方案】华普微基于CMT2189D的低功耗广域网解决方案

一、方案概述 随着物联网的快速发展&#xff0c;对于无线通信的需求越来越高。传统的通信技术可能无法满足物联网设备的特殊要求&#xff0c;如低功耗、长距离覆盖和大规模连接。LPWAN技术应运而生&#xff0c;旨在为物联网设备提供低成本、低功耗的远距离通信解决方案。ZETA作…

【Qt】Qt容器和STL容器的区别

1、简述 Qt容器和STL容器略有不同,作为一个Qter,应该知道它们之间的异同。 Qt容器官网介绍:https://doc.qt.io/qt-5/containers.html STL容器官网介绍:https://zh.cppreference.com/w/cpp/container 2、Qt容器和STL容器的对应关系 注意:QList 与 std::list 无关,QSet …

<数据集>铁路工人安全帽安全背心识别数据集<目标检测>

数据集格式&#xff1a;VOCYOLO格式 图片数量&#xff1a;3065张 标注数量(xml文件个数)&#xff1a;3065 标注数量(txt文件个数)&#xff1a;3065 标注类别数&#xff1a;3 标注类别名称&#xff1a;[vest, helmet, worker] 序号类别名称图片数框数1vest305978832helmet…

谷粒商城实战笔记-59-商品服务-API-品牌管理-使用逆向工程的前后端代码

文章目录 一&#xff0c; 使用逆向工程生成的代码二&#xff0c;生成品牌管理菜单三&#xff0c;几个小问题 在本次的技术实践中&#xff0c;我们利用逆向工程的方法成功地为后台管理系统增加了品牌管理功能。这种开发方式不仅能快速地构建起功能模块&#xff0c;还能在一定程度…

Go语言常见序列化协议全面对比

先说结论 从易用性、性能、内存占用、编码后大小等几个方面综合考虑 ProtoBuf 胜出。 Gob 从性能和 I/O 带宽占用上都和 ProtoBuf 差不多&#xff0c;唯一劣势是编解码时内存占用较多。考虑到不用再写 IDL 带来的易用性&#xff0c;如果整个系统内不存在使用除 Go 以外其他语言…

使用 Snorkel 和 MinIO 的以数据为中心的 AI

如今&#xff0c;业界都在谈论大型语言模型及其编码器、解码器、多头注意力层和数十亿&#xff08;即将数万亿&#xff09;的参数&#xff0c;人们很容易相信好的人工智能只是模型设计的结果。不幸的是&#xff0c;事实并非如此。好的人工智能需要的不仅仅是一个精心设计的模型…