数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备

Posted 丝丝呀

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备相关的知识,希望对你有一定的参考价值。

1 DataGrip准备

1.1 启动HiveServer2

[zhang@hadoop102 hive]$ hiveserver2

1.2 配置DataGrip连接

启动DataGrip,创建连接

 

配置连接属性

所有属性配置,和Hive的beeline客户端配置一致即可。初次使用,配置过程会提示缺少JDBC驱动,按照提示下载即可。

 测试时,根据提示下载驱动。

测试使用

创建数据库gmall,并观察是否创建成功。

注意当前使用的数据库是谁,默认default

 

 修改连接,指明连接数据库,这样以后打开默认数据库就是gmall

 在文件中查看

 

 重命名操作

 2 数据准备

回顾:数据仓库的数据来源
(1)用户行为日志:采集通道,Flume+Kafak+Flume

(2)业务数据:采集通道,sqoop

一般企业在搭建数仓时,业务系统中会存在一定的历史数据,此处为模拟真实场景,需准备若干历史数据。假定数仓上线的日期为2020-06-14,具体说明如下。

2.1  用户行为日志

用户行为日志,一般是没有历史数据的,故日志只需要准备2020-06-14一天的数据。具体操作如下:

1)启动日志采集通道,包括Flume、Kafak等

2)修改两个日志服务器(hadoop102、hadoop103)中的/opt/module/applog/application.yml配置文件,将mock.date参数改为2020-06-14。

3)执行日志生成脚本lg.sh。

4)观察HDFS是否出现相应文件。

启动日志采集通道:

[zhang@hadoop102 hadoop]$ zk.sh start

[zhang@hadoop102 hadoop]$ kf.sh start

[zhang@hadoop102 hadoop]$ f1.sh start

[zhang@hadoop102 hadoop]$ f2.sh start

(前一个老师配置了集群脚本,老师应该是忘了,所以只需要cluster.sh start,即可)

 [zhang@hadoop102 hadoop]$ cd /opt/module/applog/
[zhang@hadoop102 applog]$ ll

 [zhang@hadoop102 applog]$ vim application.yml

 对hadoop103做同样的修改

 先进去web端,把之前的origin_data文件删除

[zhang@hadoop102 applog]$ lg.sh 

 

 证明用户行为日志数据已经准备好了。

2.2 业务数据

业务数据一般存在历史数据,此处需准备2020-06-10至2020-06-14的数据。具体操作如下。

1)修改hadoop102节点上的/opt/module/db_log/application.properties文件,将mock.date、mock.clear,mock.clear.user三个参数调整为如图所示的值。

[zhang@hadoop102 applog]$ cd /opt/module/db_log/
[zhang@hadoop102 db_log]$ ll

[zhang@hadoop102 db_log]$ vim application.properties

 [zhang@hadoop102 db_log]$ java -jar gmall2020-mock-db-2021-01-22.jar

 再打开配置文件,修改6月11号

[zhang@hadoop102 db_log]$ vim application.properties

写入11号的文件  [zhang@hadoop102 db_log]$ java -jar gmall2020-mock-db-2021-01-22.jar

 修改6月12日

 

  修改6月13日

   修改6月14日

[zhang@hadoop102 ~]$ cd bin/

 [zhang@hadoop102 bin]$ ./mysql_to_hdfs_init.sh all 2020-06-14

 

 

以上是关于数仓4.0笔记——数仓环境搭建—— DataGrip准备和数据准备的主要内容,如果未能解决你的问题,请参考以下文章

电商数仓数仓环境搭建

数仓采集之环境搭建hadoop,zookeeper,kafka,flume

Hive数仓项目之基本优化方案学生出勤主题看板分析

使用 Docker 搭建离线数仓环境

全国大学生大数据技能竞赛(数仓部署)

Hive数仓项目之数仓分层数仓工具的使用