1. kettle导出表结构和数据
Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。 ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、Trinity、AICloudETL、DataStage、Repository Explorer、Beeload、Kettle、DataSpider
目前,ETL工具的典型代表有:Informatica、Datastage、OWB、微软DTS、Beeload、Kettle……
开源的工具有eclipse的etl插件。cloveretl.
数据集成:快速实现ETL
ETL的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性。而影响质量问题的原因有很多,由系统集成和历史数据造成的原因主要包括:业务系统不同时期系统之间数据模型不一致;业务系统不同时期业务过程有变化;旧系统模块在运营、人事、财务、办公系统等相关信息的不一致;遗留系统和新业务、管理系统数据集成不完备带来的不一致性。
实现ETL,首先要实现ETL转换的过程。它可以集中地体现为以下几个方面:
1、空值处理:可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。
2、规范化数据格式:可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。
3、拆分数据:依据业务需求对字段可进行分解。例,主叫号 861082585313-8148,可进行区域码和电话号码分解。
4、验证数据正确性:可利用Lookup及拆分功能进行数据验证。例如,主叫号861082585313-8148,进行区域码和电话号码分解后,可利用Lookup返回主叫网关或交换机记载的主叫地区,进行数据验证。
5、数据替换:对于因业务因素,可实现无效数据、缺失数据的替换。
6、Lookup:查获丢失数据 Lookup实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性。
7、建立ETL过程的主外键约束:对无依赖性的非法数据,可替换或导出到错误数据文件中,保证主键唯一记录的加载。
2. kettle资源库表结构说明
一、概述
开源产品总是让人欢喜让人忧。喜的是低成本,忧的是低成熟度。所以,不少有Java基础的K友都在研究源代码。掌控源代码,当然是最靠谱的,但对技术水平要求非常高。笔者希望通过介绍Kettle程序启动的基本原理,为源代码研究者打开一扇窗户,一窥源代码的究竟。
以下内容以Spoon为例,但原理适用于Kitchen、Pan、Carte等所有其他应用。
二、环境
硬件:处理器 Intel i7-7700HQ 2.8GHz 内存32G
操作系统:Windows 7 x64 旗舰版。内部版本6.1.7601,SP1
Java版本:1.8.0_181 HotSpot<TM> 64-Bit mixed mode
三、原理解析
1、批处理文件set-pentaho-env.bat
批处理文件一般不会单独执行,因为它的功能是进行环境配置。但是大多数Kettle相关的批处理都会先执行此脚本,以设置以下两个环境变量:
_PENTAHO_JAVA_HOME
_PENTAHO_JAVA
前者是Java环境路径,一般是JDK/JRE所在绝对路径;后者表示启动Java进程需要的java.exe/javaw.exe文件所在绝对路径。由于并不确定用户到底需要使用java.exe还是javaw.exe,所以脚本单独定义了__LAUNCHER环境变量表达此选择。
脚本将按照以下顺序搜索__LAUNCHER的位置:
第一个命令行参数的bin文件夹下
PENTAHO_JAVA_HOME环境变量的bin文件夹下
当前路径下的jre/bin文件夹下
当前路径下的java/bin文件夹下
当前路径上级目录下的jre/bin文件夹下
当前路径上级目录下的java/bin文件夹下
当前路径上上级目录下的jre/bin文件夹下
当前路径上上级目录下的java/bin文件夹下
JAVA_HOME环境变量的bin文件夹下
JRE_HOME环境变量的bin文件夹下
2、批处理文件Spoon.bat
首先会调用相同路径下的批处理文件set-pentaho-env.bat以设置环境变量。接下来一个重要的工作是查找合适的GUI依赖库。
由于Spoon中涉及GUI图形界面,其实现技术为SWT。而SWT的库是依赖于操作系统的,Linux、苹果os、Windows32和Windows
3. kettle excel导入数据库
如果导出xls可以再内容页签 选择分页数 如果想到处xlsx,可以用插件 Microsoft Excel Writer
4. kettle导出资源库
ETL,Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、AICloudETL、DataStage、Repository Explorer、Beeload、Kettle、DataSpider
5. kettle 获取表结构
大数据开发步骤:
第一步:需求:数据的输入和数据的产出;
第二步:数据量、处理效率、可靠性、可维护性、简洁性;
第三步:数据建模;
第四步:架构设计:数据怎么进来,输出怎么展示,最最重要的是处理流出数据的架构;
第五步:再次思考大数据系统和企业IT系统的交互;
第六步:最终确定选择、规范等;
第七步:基于数据建模写基础服务代码;
第八步:正式编写第一个模块;
第九步:实现其它的模块,并完成测试和调试等;
第十步:测试和验收;
大数据流程:
从流程角度上看,整个大数据处理可分成4个主要步骤。
第一步是数据的搜集与存储;
第二步是通过数据分析技术对数据进行探索性研究,包括无关数据的剔除,即数据清洗,与寻找数据的模式探索数据的价值所在;
第三步为在基本数据分析的基础上,选择和开发数据分析算法,对数据进行建模。从数据中提取有价值的信息,这其实是真正的阿里云大数据的学习过程。这当中会涉及很多算法和技术,比如机器学习算法等;
最后一步是对模型的部署和应用,即把研究出来的模型应用到生产环境之中。
1) 数据采集:定制开发采集程序,或使用开源框架flume
2) 数据预处理:定制开发mapreduce程序运行于hadoop集群
3) 数据仓库技术:基于hadoop之上的Hive
4) 数据导出:基于hadoop的sqoop数据导入导出工具
5) 数据可视化:定制开发web程序或使用kettle等产品
- 相关评论
- 我要评论
-