ETL工具(数据同步)

一、研究了kettle

Kettle最早是一个开源的ETL工具

前置条件,kettle是一个jar包项目,依赖jdk。安装kettle需要安装好jdk环境

二、下载安装

1、源代码下载:

GitHub - pentaho/pentaho-kettle: Pentaho Data Integration ( ETL ) a.k.a KettlePentaho Data Integration ( ETL ) a.k.a Kettle. Contribute to pentaho/pentaho-kettle development by creating an account on GitHub.https://github.com/pentaho/pentaho-kettle/

 kettle工具下载:

Pentaho from Hitachi Vantara - Browse Files at SourceForge.netEnd to end data integration and analytics platformhttps://sourceforge.net/projects/pentaho/files/2、目录说明

Spoon.bat: 图形界面方式启动作业和转换设计器。
Pan.bat: 命令行方式执行转换。
Kitchen.bat: 命令行方式执行作业。
Carte.bat: 启动web服务,用于 Kettle 的远程运行或集群运行。
Encr.bat: 密码加密

三、数据复制使用步骤

1、打开Spoon.bat文件

2、资源库

①选择开发方案,选择资源库方式

文件->新建->转换 打开转换操作界面

② 工具 -> 向导 -> 创建数据库向导

输入数据库连接1

 然后设置JDBC地址

 第一次连接mysql需要下载mysql驱动,下载好驱动,放到你的spoon解压目录中的:data-integration/lib/里面,重启spoon

相关驱动jar:

mysql驱动下载地址:

https://mvnrepository.com/artifact/mysql/mysql-connector-java

oracle驱动下载地址

https://mvnrepository.com/artifact/ojdbc/ojdbc

数据库连接一,连接成功

同理:创建另一个数据库连接,可以是mysql连接2,也可以是oracle连接,SqlServer连接等等

③、通过工具->数据库->浏览分别可以i看到多个数据库连接的,状况,表和视图等等均可以看到

④建立表输入

1、打开核心对象

2、建立表输入-源表连接

选择输入->表输入

修改步骤名称、数据库连接,和对应sql。可以预览数据

⑤建立表输出-目标表连接

选择输出->表输出,同时建立好输入与输出的关联关系

修改步骤名称、数据库连接,和对应sql。可以预览数据

 

 ⑥在输入、输出之前还需要加一个步骤清理SQL

组件库->选择脚本->选择执行SQL脚本

选择数据库连接,一定要确认好,是清理目标地址。不要选成清理源表数据!!!切记

 

四、 测试转换是否正常工作

 查看日志转换正常

目标表也同步完成数据

五、新建作业,更改作业名称与配置

其中transformation所选择文件,是上一步转换保存的脚本路径

选择 Start 、成功、转换任务 可以选择多个转换任务

其中Start组件可以设置任务定时启动的时间配置

 

将转换脚本保存到 文件夹/脚本保存/中

将定时作业保存到 文件夹/job/中

方便下次重新启动

附录:kettle学习路径

1、基础学习-使用方法

ETL工具(数据同步)_无敌小田田的博客-CSDN博客Kettle做跨库数据迁移工作https://blog.csdn.net/qq_36602951/article/details/125898662

2、linux运维部署ETL工具(数据同步) 二_无敌小田田的博客-CSDN博客kettle使用掌握之后,还需要掌握在linux下的定时执行的策略https://blog.csdn.net/qq_36602951/article/details/125959374

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/142845.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

数据同步工具的研究(实时)

数据同步工具的研究(实时同步): FlinkCDC、Canal、Maxwell、Debezium ——2023年01月17日 ——Yahui Di 1. 常用CDC方案比较 2. FlinkCDC FlinkCDC的简介: Flink CDC 连接器是 Apache Flink 的一组源连接器,使用变…

Easy Excel 使用总结

title: Easy Excel 使用总结 date: 2022-10-14 17:33:57 tags: Excel categories:开发技术及框架 cover: https://cover.png feature: false 1. 概述 官网地址:EasyExcel 官方文档 - 基于 Java 的 Excel 处理工具 | Easy Excel (alibaba.com) EasyExcel 是一个基…

数据同步工具

公司要搞数据平台,首当其冲的是把旧库的数据导入到新库中,原本各种数据库大部分都提供了导入导出的工具,但是数据存储到各个地方,mongdb,hbase,mysql,oracle等各种各样的不同数据库,同步起来头都大了 因此最近使用了一…

ETL工具(数据同步) 二

kettle使用掌握之后,还需要掌握在linux下的定时执行的策略 一、kettle使用感觉较为方便 虽然kettle自带调度任务。但是前提是需要保持kettle打开。并且作业处在运行状态。不太适合用与远程服务器安装windows客户端,只限于学习使用 在linux安装kettle并…

数据同步工具之DataX实操

一、DataX部署 上传DataX压缩文件至/opt/software/目录下,并解压文件至/opt/module/下。 自测检查DataX,出现如下截图内容,说明安装成功 二、DataX使用 DataX使用概述 DataX使用还是十分简单的,用户只需要根据自己同步数据的数…

数据同步工具Sqoop

大数据Hadoop之——数据同步工具Sqoop - 掘金 (juejin.cn) 1 概述 Apache Sqoop(SQL-to-Hadoop)项目旨在协助RDBMS(Relational Database Management System:关系型数据库管理系统)与Hadoop之间进行高效的大数据交流。…

本地与服务器文件同步软件哪个好,同步软件哪个好,亲身体验的3款免费同步软件介绍...

数据同步在某些方面是非常的重要,特别是重要数据,做为服务器运维这方面工作的同学应该是深有体会,小编从事运维工作一年中共接触了3款同步软件,每一款都用了一段时间,算是有点小心得,所以分享给大家&#x…

数据同步工具—DataX 初识

DataX 初识 DataX 是阿里云 DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数…

DBSync数据库同步工具

通用型的同步软件,支持SQL、NoSQL各种数据库,用于系统对接、数据备份、异地传输等。 文章目录 通用型的同步软件,支持SQL、NoSQL各种数据库,用于系统对接、数据备份、异地传输等。一、功能特点非侵入式,独立运行支持各…

正版授权 知名专业数据备份和数据同步软件工具 - GoodSync

GoodSync 软件简介 GoodSync 是一款知名的数据备份和数据同步软件工具,可以在多台电脑之间、电脑和移动存储设备之间,或者云存储之间,亦或是电脑的本地文件夹之间来进行数据双向同步或单向备份,支持 Windows、Mac 以及 Linux 平台…

GoodSync 数据自动同步备份工具VS傲梅轻松备份系统数据备份工具 哪款更好?

备份和同步软件的使用越来越广泛,因为在这个数据驱动的时代,数据的备份和恢复非常重要。在这里我想向大家推荐两款备份和同步软件——GoodSync和傲梅轻松备份。 GoodSync是一款备份和同步软件,它可以在多个设备之间同步文件、文件夹、照片、音…

Android开发环境搭建[Java1.7+eclipse+sdk4.0](某高校物联网工程专业必看!)

Android开发环境搭建[Java1.7eclipsesdk4.0](某高校物联网工程专业必看!) 0. 前言1. 资料拷贝2. 配置环境变量2.1新建 Java_Home2.2 编辑Path情况1情况2 2.3 新建sdk环境变量 3. 验证安装3.1 验证java安装情况3.2 验证eclipse安装 4. 导入已有…

mysql-索引_MySQL-索引

mysql-索引 MySQL-索引 (MySQL - INDEXES) A database index is a data structure that improves the speed of operations in a table. Indexes can be created using one or more columns, providing the basis for both rapid random lookups and efficient ordering of acc…

MySql的索引?

MySql的索引? 1 Hash索引? 通过hashCode去匹配,查找数据库中唯一值的速度很快,不支持范围查找,联合索引也不支持 只适用于select * from table where id 5;只适用于等于的情况 2红黑树? 数据量大的情况下,红黑树的树太高了,查询最深处的数据时,磁盘读取次数较多 3 B树? …

mysql中索引

一、概述 1、What? 索引是对数据库表中一列或多列的值进行排序的的一种结构,可以提高数据库中特定的数据查询速度。 索引时一个单独存储在磁盘上的数据库结构,包括对数据表里面的所有记录的引用指针。 索引时在存储引擎中实现的,…

mysql 之索引

什么是索引: 索引是一种高效获取数据的 存储结构,一般包含了 hash 二叉树 红黑树。 但是mysql中索引一般使用的是B树 准确说是使用的B树构建的索引:若仅仅是进行select * from table where id 1,用上述的三种方法都会很轻松的实…

Mysql__索引

1)索引问题----组合索引 最左前缀匹配原则 在mysql建立联合索引时会遵循最左前缀匹配的原则,即最左优先,在检索数据时从联合索引的最左边开始匹配 ALTER TABLE index ADD INDEX test_AA_BB_CC_DD (AA,BB,CC,DD);SHOW INDEX FROM index;EXPLAIN SELECT …

【Mysql 索引】

索引的基本知识 1. 索引介绍 索引的出现就是为了提高数据检索效率,就跟书的目录一样。索引不但在内存中,还写在硬盘中。索引是存储引擎实现的。 2. 索引常见模型 搜索树: 每个节点左儿子小于父节点,父节点小于右节点. select/update 复杂…

Mysql、索引

索引 数据库中的查询操作非常普遍,索引就是提升查找速度的一种手段 索引的类型 从数据结构角度分 1.B索引:传统意义上的索引,最常用最普遍的索引2.hash索引:hash索引是一种自适应的索引,数据库会根据表的使用情况自动生…

MySQL—索引

索引是什么? 索引是一种特殊的文件,它们包含着对数据表里所有记录的引用指针。 索引是一种数据结构,是数据库管理系统中一个排序的数据结构,以协助快速查询、更新数据表中的数据。通俗来说,索引相当与目录&#xff0c…