关于ETL工具的思考

news/2024/7/20 13:51:52 标签: 数据库, 内存管理
阅读<DataStage 企业版产品白皮书> 有感!
 
通常认为ETL 就是数据抽取, 转换, 加载的过程, 完全正确. 就像数据库就是存储和管理数据的工具一样, 然而数据库并不全部是数据的存储, 最重要的是管理, 即数据的并发性一致性可恢复性管理, 包括一系列的进程和内存的管理等等.ETL 工具本身也是同样的问题. 如果只是抽取转换加载, 相信通过PowerBuilder 的数据管道技术并加以封装或者一系列的语言工具编码可以做到, 并非很难的事情. 之所以思考, 是因为阅读了一下<DataStage 企业版产品白皮书>, 当然也只是粗略的看了一下, 其实所有成熟的ETL 工具都是相类似的, 都是在相互借鉴中不断的完善的结果.
简单的总结一下:
Ø 元数据管理, 不管通过DBMS 进行存储也好, 通过XML 或者自己的管理系统也好. 元数据的管理是必须的, 提供了一个可视化的数据字典.
Ø 和配置工具的集成, 或者内置一个配置库管理工具.
Ø 项目化管理和集成环境, 统一对系统内的工作流和任务进行管理
Ø 任务包中都包含源数据, 目标数据的管理, 其中也包括关系数据库, 平面文件,XML 文件,WebService,COBOL 等文件的管理
Ø 任务包中提供了一系列的排序, 转换, 合并, 连接, 过滤, 聚合, 查找表, 复制, 分裂, 条件分割等等一些通用的数据转换.
Ø 数据流架构和流水线即工作流管理, 几乎所有的ETL 工具都是根据时序进行任务流的处理, 这也符合数据仓库的过程化处理要求. 其中包括错误处理方式, 错误报表, 并行处理, 时序等待等等.
Ø 可伸缩硬件环境支持, 最大限度的利用硬件的支持.
Ø 并行支持, 发挥DBMS 的优势, 或者通过内置的内存管理进行处理.
 
不过我有些怀疑ETL 的功效, 据权威人士统计80% 的时间和IO 消耗是集中在ETL 的抽取和加载环节, 而抽取和加载的速度是由DBMS 或者其他数据源所决定的, 也就是说无论怎么优化,ETL 工具的优化也只有20% 的余地. 有个玩笑:ETL 工具执行的效率肯定比不上最好的程序员写的代码的效率, 但是起码要比最差的程序员写的代码要强.
也许ETL 工具本身就是一个管理的平台, 它的意义在于屏蔽底层编码的细节和异构数据源, 通过图形化的方式实现数据流程的调度, 从而提供开发和管理上的效率, 而并非程序执行效率.
 

http://www.niftyadmin.cn/n/1683439.html

相关文章

verbose的第一次接触

今天学习反射&#xff0c;第一次接触到了verbose参数&#xff0c; -verbose[:class|gc|jni] enable verbose output。 verbose [və:ˈbəus] a.冗长的只加 -verbose这个参数&#xff0c;那么会显示所有加载的jar包的信息。1&#xff0c;>java -verbose:class 可以查看J…

【转载】博客二三事

本篇转载自博客园老赵点滴。老赵的博客我一直在关注&#xff0c;也转载过不少&#xff0c;其中不乏高质量的技术类文章和趋势点评。应该说&#xff0c;做为编辑&#xff0c;最喜欢的莫过于这种高产、质量又好的博文作者。虽然这样说感觉有些像是无良搬运工的口吻&#xff0c;不…

SSIS OLE DB Source中执行带参数的存储过程

问题描述&#xff1a;执行一个存储过程得到一个多条记录的结果集&#xff0c;然后循环这个结果集的每一条记录&#xff0c;根据这条记录的某几个字段执行一个带参数的存储过程&#xff0c;再将返回的结果集插入到一张表中。 Execute SQL Task “Get master records”中通过执行…

使用mount命令在Ubuntu上挂接Windows的共享文件夹

sudo mount //192.168.0.1/linux /mnt/win -o usernameuser,passwordpass dir_mode777 file_mode777说明&#xff1a;//192.168.0.1/linux windows共享文件夹路径/mnt/win ubuntu中的挂载点适用于ubuntu9.10版本转载于:https://blog.51cto.com/unetman/21…

Webarok: 用 Web 浏览器控制 Amarok2

Webarok 并不是 Amarok 脚本&#xff0c;它是独立的 Python 程序&#xff0c;它启动一个简单的 Web 服务器&#xff0c;然后通过 Dbus 控制 Amarok。 图片1从 KDE-Apps 下载 Webarok 后&#xff0c;Dolphin 右击文件解压缩&#xff0c;然后进入文件夹&#xff0c;按住 F4&…

纯python实现的web: tornado性能测试

测试环境: 服务器配置: 4 x Intel(R) Xeon(R) CPU E5405 2.00GHz&#xff0c; 4G内存, 操作系统: CentOS 5.3 x86_64 nginx前端 4 tornado(0.2) web process tornado: http://www.tornadoweb.org (已被墙) 测试场景: http get请求&#xff0c;服务器端直接返回"hello…

windows 7 下ASP.net 本地配置 ( IIS 7)

今天调试blend 3的一个Zune3D样例时, 运行后生成的是sliverlight程序, 由于我的机器是刚从vista升级到windows 7, iis都没有配置, 因此无法预览.现给出步骤: (一. 配置IIS) 1. 打开"Control Panel" / "Programs" / "Turn Windows features on or off&…

二十万评论告诉你,周董的『说好不哭』有多火

2019 年 9 月 10 日&#xff0c;周杰伦在 Instagram 上传九宫格照片宣布新歌歌名为《说好不哭》&#xff0c;并且表示新歌公开时间为 9 月 16 日 23:00。他还配文「16 号晚上 11 点首播&#xff0c;我只能说&#xff0c;如果没赶上首播的话你会哭哦&#xff01;就像看球赛别人已…