Spark_Oracle_II_Spark高效处理Oracle时间数据:通过JDBC桥接大数据与数据库的分析之旅

接前文背景,

        当需要从关系型数据库(如Oracle)中读取数据时,Spark提供了JDBC连接功能,允许我们轻松地将数据从Oracle等数据库导入到Spark DataFrame中。然而,在处理时间字段时,可能会遇到一些挑战,特别是在Oracle的DATETIMESTAMP类型与Spark SQL的日期时间类型之间进行转换时。

Spark通过JDBC读取Oracle基本配置

val jdbcUrl = "jdbc:oracle:thin:@hostname:port:sid"  
val connectionProperties = new java.util.Properties()  
connectionProperties.put("user", "username")  
connectionProperties.put("password", "password")  
connectionProperties.put("driver", "oracle.jdbc.driver.OracleDriver")  val df = spark.read.jdbc(jdbcUrl, "your_table", connectionProperties)  df.show()

时间转换

        我一开始的续期就是timestamp类型的且格式为yyyy-mm-dd hh:mm:ss字段转换为特定格式的字符串yyyy-MM-dd的将date类型,这是我最直接的需求。

        我是从Oracle读取出来,在Oracle中字段的类型就是Date,格式是yyyy-mm-dd,但是通过这个spark连接jdbc读取出来,就变成了yyyy-mm-dd hh:mm:ss,字段类型也发生了专变成了timestamp类型,导致后面的处理报错。

  误区:我们能直接将TIMESTAMP类型转换成DateType的同时还保持yyyy-MM-dd的字符串格式,因为DateType在Spark SQL中代表的是没有时间的日期(即只包含年、月、日),但是我们可以迂回啊!

      解决思路:

   //1、先把TIMESTAMP转换为String格式的yyyy-mm-dd
val dfWithStringDate = df.withColumn("stat_date", date_format(col("stat_date"), "yyyy-MM-dd"))  //2、再把String格式的yyyy-mm-dd转为Date类型.withColumn("stat_date", to_date(col("stat_date")))

        这样得到了一个既包含DateType日期字段也包含StringType(yyyy-MM-dd格式)日期字段的DataFrame。。。。。。。。。。。。。。。。。。。。。。。

        如有其他理解,欢迎交流。

N!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3267329.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

计算机网络知识-面试点1

1. 三握四挥 定义: 在计算机网络中,特别是TCP/IP协议中,“三握”指的是三次握手(Three-way Handshake),而“四挥”则指的是四次挥手(Four-way Handshake)。这两个过程分别用于TCP连接…

模式Hash和history

vuerouter有两种路由模式Hash和history。区别:Hash为默认模式,url中包含一个#符号的哈希部分。优势:兼容性好,不需要后端服务器的特殊配置。缺点:不够美观,搜索引擎优化较差。History模式使用的浏览器的His…

多模态大模型应用中的Q-Former是什么?

多模态大模型应用中的Q-Former是什么? Q-Former是一种新型的神经网络架构,专注于通过查询(Query)机制来改进信息检索和表示学习。在这篇博客中,我们将详细探讨Q-Former的工作原理、应用场景,并在必要时通过…

leetcode日记(55)二进制求和

将短的字符串前面补充0,使两字符串对其再进行加法: class Solution { public:string addBinary(string a, string b) {int na.size();int mb.size();if(n>m) b.insert(0,n-m,0);else if(m>n) a.insert(0,m-n,0);string c;int jw0;for(int imax(n,…

【C++指南】类和对象(上)

💓 博客主页:倔强的石头的CSDN主页 📝Gitee主页:倔强的石头的gitee主页 ⏩ 文章专栏:《数据结构与算法》 期待您的关注

PostgreSQL的pg-collector工具

PostgreSQL的pg-collector工具 pg-collector 是一个用于 PostgreSQL 数据库的监控和数据收集工具。它主要用于收集 PostgreSQL 实例的性能指标、查询统计和日志信息,以便进行数据库性能分析和故障排查。通过收集这些数据,管理员可以更好地了解数据库的运…

减少 95% 资源的向量搜索 | 使用云搜索的 DiskANN

当前尖端的向量近邻搜索算法,主要以图搜索算法为主,此类算法为了能够最大化搜索的速度与准确度,需要将对应的索引结构和原始数据存放在内存中,显然这不仅大大提高了成本,还限制了数据集的大小。例如在当前主流的内存型…

快递员工告诉你,寄快递如何薅羊毛(知道这个方法,立省好几百)

谁能想象自从去了快递公司上班后,知道了一个惊人的内幕!!现在发快递和大件的,全国不管寄到哪都才只要5块钱呢!! 上门取件不说,不管寄多少快递,寄到哪里,仅是原价的5折。 …

MongoDB教程(二十):MongoDB正则表达式

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 文章目录 引言一、正则表…

csa笔记6-网络管理命令

nmcli命令 字符终端,可以立即生效且重启系统后配置也不会丢失 nmtui命令 可视终端,立即生效,重启有效 network.service 管理网络 RHEL 7 以前:使用network.service管理网络 RHEL 7:使用network.service和Netwo…

springboot高等职业院校实验室信息管理-计算机毕业设计源码24015

摘 要 本文旨在设计并实现一个基于Spring Boot框架的高等职业院校实验室信息管理系统。该系统采用B/S体系结构,以MySQL作为数据库管理平台,结合前端技术如HTML、CSS和JQuery,为用户提供一个功能全面、操作便捷的实验室信息管理平台。 在系统设…

短视频矩阵管理系统源码可靠吗?

1. 了解短视频矩阵管理系统 短视频矩阵管理系统是一个用于管理和优化短视频内容创作、发布和推广的软件平台。它可以帮助用户分析市场趋势、选择热门话题、智能剪辑视频、发布到多个短视频平台,以及监控和优化视频表现。这种系统对于短视频制作团队、自媒体运营者以…

记录|服务器资源申请评估(CPU,内存,宽带等)

目录 前言一、CPU二、内存三、磁盘四、带宽更新时间 前言 参考内容: CPU、内存、存储、带宽,一次性搞清楚服务器资源评估 在申请服务器时需要评估资源需求。少了不够用,多了也浪费。以下内容是对参考内容的提取和理解。 一、CPU 性能指标&am…

Jsoup爬虫——自学习梳理

——项目已完结(源码在文末) 一个较大的项目,通过后台进行网站爬虫,选择的是一个招聘类型的网站,爬取数据后会选择一部分放入到我们的数据库中,前台通过后台返回的Json数据进行展示;大概就是这样…

SSRF过滤攻击

SSRF绕过: 靶场地址:重庆橙子科技SSRF靶场 这个是毫无过滤的直接读取,但是一般网站会设置有对SSRF的过滤,比如将IP地址过滤。 下面是常用的绕过方式: 1.环回地址绕过 http://127.0.0.1/flag.php http://017700…

Qt基础 | 自定义界面组件 | 提升法 | 为UI设计器设计自定义界面组件的Widget插件 | MSVC2019编译器中文乱码问题

文章目录 一、自定义 Widget 组件1.自定义 Widget 子类2.自定义 Widget 组件的使用 二、自定义 Qt Designer 插件1.创建 Qt Designer Widget 插件项目2.插件项目各文件的功能实现3.插件的编译与安装4.使用自定义插件5.使用 MSVC 编译器输出中文的问题 一、自定义 Widget 组件 当…

primetime如何合并不同modes的libs到一个lib文件

首先,用primetime 抽 timing model 的指令如下。 代码如下(示例): #抽lib时留一些margin, setup -max/hold -min set_extract_model_margin -port [get_ports -filter "!defined(clocks)"] -max 0.1 #抽lib extract_mod…

Adobe正通过数字体验改变世界

在当今这个数字化飞速发展的时代,Adobe公司正以其创新的技术和卓越的产品引领着创意设计领域的变革。从Adobe发布的生成式AI工具(Adobe Firefly),到Illustrator和Photoshop的新AI功能,再到广受认可的Adobe国际认证&…

视频去水印免费电脑版 pdf压缩在线免费网页版 pdf压缩在线免费 简单工具软件详细方法步骤分享

消除视频中的恼人水印,是许多视频编辑爱好者的常见需求。在这篇文章中,我们将探讨几种视频去水印的技巧,在数字化时代,视频和图片的传播越来越方便,但随之而来的水印问题也让人头疼。本文将为您详细介绍视频剪辑去水印…

moviepy:将MP4视频数据每隔10秒裁剪成一个新的视频,并保存在同一个文件夹下

将MP4视频数据每隔10秒裁剪成一个新的视频,并保存在同一个文件夹下。 输入数据, 裁剪结果: import os from moviepy.video.io.VideoFileClip import VideoFileClipdef split_video_into_segments(video_path, segment_duration10):# 获取视…