干货 | 数据仓库工程师难道真的是把数据装进仓库吗?
Posted 携程校园招聘
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了干货 | 数据仓库工程师难道真的是把数据装进仓库吗?相关的知识,希望对你有一定的参考价值。
写在前面的话
秋招开始以来,许多同学在后台留言表示对数据仓库工程师一脸问号?难道真的是和传说中一样,把数据一股脑儿的倒进一个“仓库”里吗?
为此我们特别邀请了携程资深数据仓库专家来为大家答疑解惑~
岳扶天老师,国际业务研发部BI团队的资深数据仓库(ETL)工程师,2011年11月以实习生身份加入携程从事ETL工作。
以下是他的分享供大家学习分享~
数据仓库是什么?
数据仓库,Data Warehouse,顾名思义就是一个存储数据的仓库,是一个比较抽象的概念。简单来讲,就是把公司的各种交易数据、用户行为数据、财务数据、日志数据等需要用作日常分析的数据,汇聚在一个数据库当中。数据仓库可以是传统的Oracle、SQLServer、mysql、Teredata等数据库,也可以是在互联网行业中比较流行的Hive、HBase,甚至是多种数据库组合成整个数据仓库。
数据仓库可以包含不同粒度的数据层,比如存放每日增量数据的缓冲层,存放明细数据的明细层,区分主题及经过模型设计的模型层,包含各类宽表的集市层,存放粗粒度报表数据的应用层。
数据来源可以是公司的生产环境数据库、消息队列、第三方提供的外部数据等等,把这些数据源的数据集成到数据仓库的过程就叫ETL。ETL是Extract-Transform-Load的缩写,包括了数据抽取、数据转换和数据加载的过程。
数据仓库工程师是做什么的呢?
数据工程师负责数据仓库的搭建、维护,同时也需具备报表设计能力以及一定的数据分析能力。平时的工作大部分围绕着ETL过程进行,但也不局限于数据仓库的维护和ETL。数据工程师理应是对数据仓库中的数据最熟悉的人,很多时候需要负责一些取数以及报表工作,如何更好的将数据通过各种方式呈现给公司的其他同事,也是其工作的重点。
随着技术的发展,数据工程师所需具备的技能也在不断更新。比如目前数据工程师需要对分布式计算、Hadoop、Spark、Kafka等流行框架有所熟悉,接触的数据库也逐渐从传统数据库转变成Hive、HBase这样的分布式数据库。平时更需要用Python、Java对ETL或者数据分析工作进行辅助。但是万变不离其宗的技能就是SQL以及对数据库的理解。熟练掌握SQL是保证数据仓库中数据准确性的核心要素,深入理解数据库则是能直接反应在数据仓库的效率、结构的合理性上。
数据工程师的工作十分重要,因为数据仓库是公司数据分析的基础,直接给数据科学家、开发、产品和其他业务同事提供数据支持,数据仓库的好坏也直接影响了围绕数据进行的后续一系列工作的质量。
老师寄语
大数据是当前非常火的一个行业,很多同学都对机器学习、数据分析相当感兴趣,但对于数据仓库的认知似乎总会有一些偏差。但实际上数据仓库也是大数据中的一个核心环节,而这方面的人才较为紧缺。
非常欢迎有兴趣的同学能够加入到携程各个BU的数据团队。而在参与这份工作之前,一定要熟练掌握SQL,熟悉至少一种传统数据库,并学习Hadoop、Hive、Spark等大数据工具。
点击“阅读原文”,一键投递简历
↓↓↓
以上是关于干货 | 数据仓库工程师难道真的是把数据装进仓库吗?的主要内容,如果未能解决你的问题,请参考以下文章