欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
  • ETL-Kettle学习笔记(入门,简介,简单操作)

    KETTLE Kettle:简介 Kettle:概念 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出 ...

    程序员文章站2022-12-22
  • 大数据测试之ETL

    之前发布过一篇关于ETL的文章,无奈被人说太简单。。。。唉,小编也是刚接触啊,自然不能那么高深,所以只是对学习的过程做了记录转换为文章分享给大家,如果对你有帮助,不要吝啬点赞+转发,如果对你没

    程序员文章站2022-10-16
  • 基于 Flink 的实时数仓典型 ETL场景实现方案

    基于 Flink 的实时数仓典型 ETL场景实现方案

    本文将从数仓诞生的背景、数仓架构、离线与实时数仓的对比着手,综述数仓发展演进,然后分享基于 Flink 实现典型 ETL 场景的几个方案。1.实时数仓的相关概述1.1 实时数仓产生背景我们先来回顾一下数据仓库的概念。数据仓库的概念是于 90 年代由 Bill Inmon 提出, 当时的背景是传统的 ...

    程序员文章站2022-09-11
    IT编程
  • 阿里ETL工具datax学习(一)

    阿里ETL工具datax学习(一)

    阿里云开源离线同步工具DataX3.0介绍一. DataX3.0概览​ DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。  ● 设...

    程序员文章站2022-07-12
  • 据库工程师快速上手MaxCompute进行ETL sqlcfreemarkervelocityLotus 

    阅读原文请点击:http://click.aliyun.com/m/22981/摘要: 案例说明 本案例主要是介绍如何通过数加MaxCompute+大数据开发套件两个产品实现简单的网站数据统计分析。 适用人群 MaxCompute初学者,特别是无大数据开发基础但有数据库使用基础。 案例侧重 数据库工...

    程序员文章站2022-07-10
  • ETL中获取公共时间参数变量释义

    ETL中获取公共时间参数变量释义

    ...

    程序员文章站2022-07-09
    IT编程
  • 【实时数仓篇】(02)基于 Flink 的典型 ETL 场景实现

    【实时数仓篇】(02)基于 Flink 的典型 ETL 场景实现

    本文是学习Flink中文社区实时数仓篇的总结,讲师:讲师:买蓉(美团点评 高级技术专家)。

    程序员文章站2022-07-09
    网络运营
  • etl nifi ExecuteScript 一些 Groovy,Jython,Javascript(Nashorn)和JRuby 语言手法

    目录介绍 几个重要的玩意 获取文件前提条件获取流file小李子从回话中获取多个流文件然后弄它小李子用create()搞一个新的FlowFile发送到下一个处理器小李子从基于传入的FlowFile生成新的FlowFile栗子想要添加自定义属性的流文件,为流文件添加一个属性FlowFile对象介绍小李子...

    程序员文章站2022-07-06
  • etl工具nifi使用系列(六):使用ExecuteScript执行脚本(1)

    介绍本文介绍了如何使用NiFi处理器ExecuteScript完成特定任务的各种方法,并给出了Groovy,Jython,Javascript(Nashorn)和JRuby中给出的示例。第1部分 - 介绍NiFi API和FlowFiles 从传入队列获取流文件创建新的流文件使用流文件属性传输流文件...

    程序员文章站2022-07-06
  • Kettle构建Hadoop ETL实践(十):并行、集群与分区

    Kettle构建Hadoop ETL实践(十):并行、集群与分区

    目录一、数据分发方式与多线程1. 数据行分发2. 记录行合并3. 记录行再分发4. 数据流水线5. 多线程的问题6. 作业中的并行执行二、Carte子服务器1. 创建Carte子服务器2. 定义子服务器3. 远程执行4. 监视子服务器5. Carte安全6. 服务三、集群转换1. 定义一个静态集群2. 设计集群转换3. 执行和监控4. 元数据转换5. 配置动态集群四、数据库分区1. 在数据库连接中使用集群2. 创建数

    程序员文章站2022-07-05
    IT编程
  • 【ODI】| 数据ETL:从零开始使用Oracle ODI完成数据集成(一)

    【ODI】| 数据ETL:从零开始使用Oracle ODI完成数据集成(一)

    ODI(Oracle Data Integrator)是Oracle公司提供的一种数据集成工具,能高效地实现批量数据的抽取、转换和加载。ODI可以实现当今大多数的主流关系型数据库(Oracle、DB2、SQL Server、MySQL、SyBase)的集成。ODI提供了图形化客户端和agent(代理... ...

    程序员文章站2022-07-05
    IT编程
  • 数据仓库ETL工具箱——数据流主线详解

    上篇说到ETL的设计需要同时考虑两条主线,一条是数据流主线,一条是规划与设计主线。二者其一是数据为主导,从数据的抽取、清洗、规格化到加载给“最终用户”;其二是以业务为主导,从需求现状、架构、开发实现到测试发布。两者相辅相成缺一不可啊。下面我们来详细说说数据流主线每一步的含义。数据流主线抽取数据抽取是...

    程序员文章站2022-07-03
  • ETL项目2:大数据清洗,处理:使用MapReduce进行离线数据分析并报表显示完整项目

    ETL项目2:大数据清洗,处理:使用MapReduce进行离线数据分析并报表显示完整项目

    ETL项目2:大数据清洗,处理:使用MapReduce进行离线数据分析并报表显示完整项目 思路同我之前的博客的思路 https://www.cnblogs.com/symkmk123/p/10197467.html 但是数据是从web访问的数据 avro第一次过滤 观察数据的格式,我们主要分析第四个 ...

    程序员文章站2022-07-01
    IT编程
  • ETL架构师面试题(ETL知识梳理)

    转载来源:https://blog.csdn.net/nisjlvhudy/article/details/44407173(为了方便手机阅读,对格式做了调整)本文中的题目来自Kimball的ETL Toolkit著作,原著未直接给出答案;中文答案是参考网友整理而得。《Data warehouse ...

    程序员文章站2022-07-01
  • 数据仓库ETL工具箱——ETL的两条线

    数据仓库ETL工具箱——ETL的两条线

    上文书我们说到,大英雄ETL手持两把钢鞭,一条上刻着:需求/现状 -> 架构 -> 实现 -> 测试/发布;另一条隐约闪现着:抽取 -> 清洗 -> 规格化 -> 提交 的字样。大英雄闷闷不乐,因为这俩家伙事儿不一样长。。。。。。为什么是两条线?为什么ETL设计时是这两条线并存。其一我们从名字上就能...

    程序员文章站2022-06-27
    IT编程
  • ETL方法与过程讲解

    etl是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 etl是bi项目重要

    程序员文章站2022-06-24
  • 数据仓库ETL之数据交换

    数据仓库ETL之数据交换

    从1990年数据仓库之父比尔·恩门(Bill Inmon)提出数据仓库的概念,ETL作为数据仓库的核心组件,在传统的数据仓库中是服务于数据采集,数据处理,大数据时代来临,对ETL的理解也由【抽取、转换、加载】升级到【交换】这个层面。如果你也考虑建设企业级数据仓库可以作为参考。0x0 ETL之定位业内...

    程序员文章站2022-06-24
  • 数据仓库ETL之数据交换

    数据仓库ETL之数据交换

    从1990年数据仓库之父比尔·恩门(Bill Inmon)提出数据仓库的概念,ETL作为数据仓库的核心组件,在传统的数据仓库中是服务于数据采集,数据处理,大数据时代来临,对ETL的理解也由【抽取、转换、加载】升级到【交换】这个层面。如果你也考虑建设企业级数据仓库可以作为参考。0x0 ETL之定位业内...

    程序员文章站2022-06-24
  • Oracle 数据仓库ETL技术之多表插入语句的示例详解

    Oracle 数据仓库ETL技术之多表插入语句的示例详解

    大家好!我是只谈技术不剪发的 tony 老师。etl(提取、转换、加载)是指从源系统中提取数据并将其放入数据仓库的过程。oracle 数据库为 etl 流程提供了丰富的功能,今天我们就给大家介绍一下

    程序员文章站2022-06-23
    IT编程
  • python ETL工具 pyetl

    pyetl是一个纯python开发的etl框架, 相比sqoop, datax 之类的etl工具,pyetl可以对每个字段添加udf函数,使得数据转换过程更加灵活,相比专业etl工具pyetl更轻量,

    程序员文章站2022-06-21