Hive讲课笔记:内部表与外部表

文章目录

  • 一、导言
  • 二、内部表
    • 1.1 什么是内部表
      • 1.1.1 内部表的定义
      • 1.1.2 内部表的关键特性
    • 1.2 创建与操作内部表
      • 1.2.1 创建并查看数据库
      • 1.2.2 在park数据库里创建student表
      • 1.2.3 在student表插入一条记录
      • 1.2.4 通过HDFS WebUI查看数据库与表
  • 三、外部表
    • 2.1 什么是外部表
    • 2.2 创建与操作外部表
      • 2.2.1 在本地创建user.txt文件
      • 2.2.2 将文件user.txt上传到HDFS的/data目录
      • 2.2.3 创建外部表data管理/data目录的数据文件
      • 2.2.4 查询外部表data的记录
      • 2.2.5 在MySQL里查看hive元数据信息
  • 四、内部表与外部表的区别
    • 3.1 区别体现在删除表
    • 3.2 通过实验进行验证
      • 3.2.1 删除内部表student
      • 3.2.2 删除外部表data
      • 3.2.3 查看MySQL里hive元数据
  • 五、总结与展望

一、导言

  • 本次课程将深入讲解Hive的内部表和外部表。我们会从定义出发,逐步教授如何在park数据库中创建和操作student内部表,包括数据插入和通过HDFS WebUI查看。接着,我们将探讨外部表,从本地文件user.txt的创建与上传到HDFS,再到在Hive中管理/data目录的数据并进行查询,同时展示MySQL中hive元数据的查看方法。

  • 重点环节,我们将揭示内部表和外部表在删除操作上的区别,并通过课堂实验进行验证。同学们将亲自体验删除内部表student和外部表data的过程,并观察MySQL中hive元数据的变化。

  • 最后,我们将对本课程内容进行总结,并展望Hive表管理的未来应用,旨在帮助同学们全面掌握和有效运用Hive内部表和外部表。

二、内部表

1.1 什么是内部表

1.1.1 内部表的定义

  • Hive内部表是Hive数据仓库中的一种表类型。当在Hive中创建一个内部表时,表的数据和元数据都由Hive进行管理。

1.1.2 内部表的关键特性

  1. 存储位置:Hive内部表的数据默认存储在Hadoop Distributed File System (HDFS) 中的一个指定目录下,这个目录由Hive自动管理。

  2. 元数据管理:Hive内部表的元数据(如表结构、分区信息等)存储在 Hive Metastore 中,这是一个集中式的服务,用于存储和管理所有Hive表的元数据。

  3. 数据生命周期:删除Hive内部表时,不仅会删除表的元数据,还会从HDFS中删除与该表相关联的实际数据文件。

  4. 独立性:由于Hive完全管理内部表的数据和元数据,因此这些表对Hive具有完全的依赖性。如果不再使用Hive,内部表的数据将无法直接通过其他方式访问。

  5. 表操作限制:对Hive内部表进行数据修改或移动等操作可能会受到限制,因为这些操作可能会影响Hive对数据的管理和追踪。

  • 总的来说,Hive内部表是一种适合于数据仓库环境中长期存储和管理数据的表类型,它提供了方便的数据管理和查询功能,但同时也要求用户考虑其对数据持久性和访问方式的需求。

1.2 创建与操作内部表

1.2.1 创建并查看数据库

  • 创建park数据库,执行命令CREATE DATABASE park
    在这里插入图片描述
  • 在MySQL里查看数据库信息
    在这里插入图片描述
  • 在HDFS上查看park数据库对应的目录/user/hive/warehouse/park.db
    在这里插入图片描述

1.2.2 在park数据库里创建student表

  • 使用CREATE TABLE命令创建内部表。
  • 查看表信息。

1.2.3 在student表插入一条记录

  • 使用INSERT INTO命令插入数据。

1.2.4 通过HDFS WebUI查看数据库与表

  • 查看HDFS中数据库与表的存储情况。

三、外部表

2.1 什么是外部表

  • 通过CREATE EXTERNAL TABLE...LOCATION...命令创建的表称为外部表。
  • 对应HDFS某一个目录下的数据文件。

2.2 创建与操作外部表

2.2.1 在本地创建user.txt文件

  • 准备外部表的数据文件。

2.2.2 将文件user.txt上传到HDFS的/data目录

  • 通过HDFS Explorer查看上传的文件。

2.2.3 创建外部表data管理/data目录的数据文件

  • 使用CREATE EXTERNAL TABLE命令创建外部表。

2.2.4 查询外部表data的记录

  • 使用SELECT命令查询外部表的记录。

2.2.5 在MySQL里查看hive元数据信息

  • 查询Hive元数据中外部表的信息。

四、内部表与外部表的区别

3.1 区别体现在删除表

  • 内部表删除后,HDFS对应目录被删除。
  • 外部表删除后,HDFS对应目录不被删除。

3.2 通过实验进行验证

3.2.1 删除内部表student

  • 使用DROP TABLE命令删除内部表。

3.2.2 删除外部表data

  • 使用DROP TABLE命令删除外部表。

3.2.3 查看MySQL里hive元数据

  • 查询Hive元数据中表的状态。

五、总结与展望

  • 总结内部表与外部表的特点与操作步骤。
  • 展望在实际应用中的使用场景与注意事项。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2661095.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Android 13 动态启用或禁用IPV6

介绍 客户想要通过APK来控制IPV6的启用和禁用,这里我们通过广播的方式来让客户控制IPV6。 效果展示 adb shell ifconfig 这里我们用debug软件,将下面节点置为1 如图ipv6已被禁用了 echo 1 > /proc/sys/net/ipv6/conf/all/disable_ipv6 修改 接下来…

Linux中proc文件系统相关介绍

proc虚拟文件系统的工作原理 linux 内核是一个非常庞大、非常复杂的一个单独的程序,对于这样一个程序来说调试是非常复杂的。像kernel这样庞大的项目,给里面添加或者修改一个功能是非常麻烦的,因为添加一个功能可能会影响其他已经有的功能。…

ubuntu 开机自报IP地址(用于无屏幕小车-远程连接)

目录 1.环境安装2.代码3.打包成可执行文件4.开启开机自启 1.环境安装 sudo apt-get install espeak #先安装这个库 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyttsx32.90 #再安装pyttsx3 pyinstaller pip install -i https://pypi.tuna.tsinghua.edu.cn/si…

第四章 Consul服务注册与发现

Consul服务注册与发现 gitee:springcloud_study: springcloud:服务集群、注册中心、配置中心(热更新)、服务网关(校验、路由、负载均衡)、分布式缓存、分布式搜索、消息队列(异步通信)、数据库…

关于Unity使用图片字体示例

1.使用TexturePacker打包图集 下载地址 TexturePacker - Create Sprite Sheets for your game! 2.准备好数字图 3. 导入图片 4. 打包图集需要的设置 将重心点设置为左下方 点击回车 > 后点击回 >到精灵列表 选择导出的格式 导出后的内容 >导入unity 导入 >…

初步认识API安全

一、认识API 1. 什么是API API(应用程序接口):是一种软件中介,它允许两个不相关的应用程序相互通信。它就像一座桥梁,从一个程序接收请求或消息,然后将其传递给另一个程序,翻译消息并根据 API 的程序设计执行协议。A…

Xamarin开发:商场促销(策略设计模式)

Xamarin开发:商场促销(策略设计模式) 一、介绍二、需求分析三、实现四、需求分析问题1解决方案问题2解决方案 五、增加新需求六、代码优化与分析总结 一、介绍 本文引用《大话设计模式》第二章节的内容进行学习分析,仅供学习使用 这里接着我…

【Redis前奏曲】初识Redis

文章目录 一.Redis的一些特性(优点)1. 在内存中存储数据2. 可编程的3. 可扩展的4.持久化5. 聚集(集群)6. 高可用Redis快的原因 二. 使用案例1.数据库2. 缓存3. 消息队列 一.Redis的一些特性(优点) 我们在上一篇博客中说到,Redis是一个在内存中存储数据的中间件.用作数据库,数据…

深度解析TB用户购物行为:系统搭建与优化

深度解析TB用户购物行为:系统搭建与优化 引言系统搭建数据集技术选型 系统功能1. 用户维度分析2. 产品维度分析3. 聚类结果分析 创新点系统优化与展望优化展望 结语 引言 在电商时代,了解用户购物行为并从中提取有价值的信息对于企业制定营销策略和优化…

MySQL 8.0 InnoDB Tablespaces之General Tablespaces(通用表空间/一般表空间)

文章目录 MySQL 8.0 InnoDB Tablespaces之General Tablespaces(通用表空间/一般表空间)General tablespaces(通用表空间/一般表空间)通用表空间的功能通用表空间的限制 创建通用表空间(一般表空间)创建语法…

键盘字符(#键)显示错误

当屏幕上显示的键与键盘上按下的键不同时,尤其是 # 键。大多数情况下,此错误是由于 raspbian 和 NOOBS 软件的默认英国键盘配置所致。 解决方案: 要解决此问题,您需要将配置更改为您自己的键盘或语言的配置。这可以通过转到树莓派…

Java 读取超大excel文件

注意&#xff1a;此参考解决方案只是针对xlsx格式的excel文件&#xff01; Maven <dependency><groupId>com.monitorjbl</groupId><artifactId>xlsx-streamer</artifactId><version>2.2.0</version> </dependency>读取方式1…

PostgreSQL 数据库归档最近被问及的问题问题 与 4 毋 处世学

开头还是介绍一下群&#xff0c;如果感兴趣PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, Oceanbase, Sql Server等有问题&#xff0c;有需求都可以加群群内&#xff0c;可以解决你的问题。加群请联系 liuaustin3 &#xff0c;&#xff08;共1790人左右 1 2 3 4 5&#xff0…

LMX2571 芯片配置Verliog SPI驱动

前言 本实验使用ZYNQ的PL(FPGA)对LMX2571芯片进行配置&#xff0c;以下连接为相关的原理和软件使用资料。 TICS Pro 配置时钟芯片 文献阅读–Σ-Δ 小数频率合成器原理 LMX2571芯片数据手册 一、LMX2571配置时序分析 1.1 写时序 LMX2571使用24位寄存器进行编程。一个24位移位…

CSS去掉按钮阴影 | css去掉按钮边框 | 注意改变搜索的关键词、搜索方式

上图是在谷歌浏览器中运行的结果 button {box-shadow: none;height: 50px;width: 100px;background-color: white;border-color: white; }写了以上的css&#xff0c;发现按钮还是有阴影一样的东西&#xff0c;查阅网络资料的时候也一直在搜索“如何去掉按钮阴影”&#xff0c;…

计算数组中某一数字出现次数

计算数组中某一数字出现次数 思路实现普通数组的方法双向列表的方法 总结 思路 这个比较简单&#xff0c;思路其实就是遍历数组中所有的数字做一下对比&#xff0c;有的话记录一下即可。但是这几天看到了个双向列表LinkList的方法&#xff0c;所以拿出来做一下对比看看。 实现…

网站提示“不安全”怎么解决

在互联网中&#xff0c;安全问题至关重要。访问某些网站时&#xff0c;可能会遇到“不安全”警告&#xff0c;通常是由于缺乏SSL证书。SSL证书是数字证书&#xff0c;用于确保互联网通信的安全和保密。 “不安全”问题通常源于缺少SSL证书。SSL通过加密通信&#xff0c;防止第三…

“2023年的技术发展与个人成长:回顾与展望“

文章目录 每日一句正能量前言工作生活未来展望后记 每日一句正能量 凡事顺其自然&#xff0c;遇事处于泰然&#xff0c;得意之时淡然&#xff0c;失意之时坦然&#xff0c;艰辛曲折必然&#xff0c;历尽沧桑悟然。 前言 在这快速发展的信息时代&#xff0c;技术的进步和创新不…

CSS 向上扩展动画

上干货 <template><!-- mouseenter"startAnimation" 表示在鼠标进入元素时触发 startAnimation 方法。mouseleave"stopAnimation" 表示在鼠标离开元素时触发 stopAnimation 方法。 --><!-- 容器元素 --><div class"container&q…

MyBatis标签及其应用示例

MyBatis标签及其应用示例 1. select 1.1 标签属性 id唯一的标识符parameterType传给此语句的参数的全路径名或别名如&#xff1a;com.xxx.xxx.demo.entity.User或userresultType语句返回值类型或别名。如果是集合List&#xff0c;此处填写集合的泛型T&#xff0c;而不是集合…