BIML 101 - ETL数据清洗 系列 - BIML 快速入门教程 - 序

Posted lizardbi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了BIML 101 - ETL数据清洗 系列 - BIML 快速入门教程 - 序相关的知识,希望对你有一定的参考价值。

 BIML 101 - BIML 快速入门教程

做大数据的项目,最花时间的就是数据清洗。

没有一个相对可靠的数据,数据分析就是无木之舟,无水之源。

 

如果你已经进了ETL这个坑,而且预算有限,并且有大量的活要做;

时间紧,任务多,是不是有点菊花一紧的感觉。

 

多少次,你对着几个月前自己写的代码在挠头,

多少次,指着屏幕上别人写的代码目瞪口呆,心中默默数有多少头草泥马。WTF。

 

不管你是做数据仓库,还是做数据转换,数据集成等等,大量的重复性的工作令人乏味;

但是,如果没有好的设计和遵从一致的流程,后期的维护就是一个更大的坑。

 

BIML,

就是你的救星。

 

码农们应该都知道一个叫DRY的原则:Don‘t Repeat Yourself.

强调的是代码的复用性。用BIML的最重要的一个目的就是这个 - 减少重复性代码。

当然有些其他一些软件设计的原则,譬如SOLID,也适用。

 

BIML由Varigence公司开发,语言格式类似于html,用于商业智能和数据仓库开发,它能够生成兼容Visual Studio的SSIS包,这方便日后查看和修改。

 

基于BIML,Varigence公司还有其他版本的工具(https://www.varigence.com/Products),有些有高级功能,适合企业级的商业应用。例如,CI(continues integration),版本发布和管理等。 - 本文非安利文,请自行查阅。

 

开源版本的BIML: https://varigence.com/BimlExpress

  

所需技能:

  1. 基本SQL,如:create table,select等
  2. 熟悉基本的html或者xml语法,非常简单
  3. 知道一丢丢的C#,变量,连接数据库,读表
  4. SSIS的一些组件

 

本系列会从基本的创建biml入手,通过实战案例,创建一个完整的数据流。

 

其它付费商业软件由:Wherescape RED/3D, Informatica等。

 

注:

1)本系列可能稍微涉及详细的SSIS包管理和部署,但是详细的请参考别的文章。

2)本系列可能会涉及到一些数据仓库建模,星型,Data Vault等概念。

以上是关于BIML 101 - ETL数据清洗 系列 - BIML 快速入门教程 - 序的主要内容,如果未能解决你的问题,请参考以下文章

MapReduce数据清洗(ETL)

BI项目中的ETL设计详解(数据抽取清洗与转换 )

以太坊系节点数据清洗组件--Ethereum ETL

Spark-ETL日志数据清洗分析项目(上)--个人学习解析(保姆级)

大数据框架之Hadoop:MapReduceMapReduce框架原理——数据清洗(ETL)

Hive| ETL清洗& 查询练习