非关系型数据库实训-大数据平台及应用
Posted Time木0101
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了非关系型数据库实训-大数据平台及应用相关的知识,希望对你有一定的参考价值。
毕业整理,无原始代码有相关截图,文末可直接获取实验文档。
大数据平台及应用
目录
- 1总概
- 2课题设计(详细描述课题设计思路):
- 3数据集预处理
- 4导入数据库
- 5Hive数据分析
- 6 hive、mysql、hbase互导
- 7Python进行数据可视化分析
- 8参考资料:
- 9实现环境(系统环境和所使用的开发软件):
1总概
本课程通过实际问题的分析与建模、数据模式选择等环节,提升学生利用非关系型解决实际问题的能力。为了实现课程目标,本课程通过一个实际案例、综合性、稍具规模的非关系型数据库系统的分析、设计、实现、调试、测试和演示。课程考核采用过程考核和结果考核相结合,即考查学生在设计中理解和解决问题的能力,也对最终设计结果的实用性、合理性进行考核。总之,本课程的教学通过在设计解决方案、设计开发系统等环节充分贯彻培养学生解决复杂工程问题能力的理念和要求,实现本课程支撑课程目标的达成。
2课题设计(详细描述课题设计思路):
1、数据集下载,数据预处理(会得到一个可移动文件)
2、本地数据集导入Hive,进行数据分析
3、Hive\\mysql\\Hbase数据互导
4、利用Python进行数据可视化分析
本地数据集上传到数据仓库Hive
Hive数据分析
Hive\\Mysql\\Hbase数据互导
本报告采用的数据集为user. zip,它包含一个大规模数据集raw_user.csv(包含2000万条记录)和一个小数据集small_user.csv(只包含30万条记录)。小数据集small_usercsv是从大规模数据集raw_user. csv中抽取的一小部分数据。之所以抽取出一少部分记录单独构成一个小数据集,是因为在第一遍跑通整个实验流程时,会遇到各种错误、各种问题,先用小数据集测试,可以大量节约程序运行时间。等到第一次完整实验流程都顺利跑通以后,可以最后用大规模数据集进行最后的测试。
实训报告是大数据技术体系学习的重要内容,可以形成对大数据技术综合运用方法的全局性认识,让所学的技术有效融会贯通,通过多种技术的组合来解决实际应用问题。其涵Linux、MySQL、Hadoop、HBase、Hive、Sqoop、Python、Eclipse等系统和软件的安装和使用方法,这些软件的安装和使用方法,被有效融合到实验的各个流程,可以有效加深对各种技术的理解。
六、项目详细实现过程或程序源码清单:
一、实验数据集的下载和保存
1、数据集的下载,从参考书的官网下载一个小数据集small_user.csv(包含30万条记录)
2、首先在/usr/local下创建一个运行本案例的目录bigdatacase
3、在/usr/local/bigdatacase/下创建dataset用于保存数据集
4、将数据集/home/hadoop/下载/下的small_user.csv移动至dataset
5、查看前small_user.csv数据集前的五条记录
3数据集预处理
1、删除文件第一行字段名称
2、对字段进行预处理,建立一个脚本文件pre_deal.sh并插入内容
4导入数据库
1、启动HDFS
2、把user_table.txt上传到HDFS中
3、在Hive上创建数据库并启动Hive
4、创建外部表
5、查询数据
5Hive数据分析
1、简单查询分析
A查询前10位用户对商品的行为
B查询前20位用户购买商品的时间和种类
C嵌套语句
2、查询条数统计分析
A用聚合函数count()计算出表内有多少行数据
B在函数内部加上distinct,查出uid不重复的数据有多少条
3、关键字条件查询分析
A以关键字的存在区间为条件的查询
B关键字赋予定值为条件,对其他数据进行分析
4、根据用户行为分析
A查询一件商品在某天的购买比例或浏览比例
B查询某个用户在某一天点击网站占该天所有点击行为的比例
C给定购买商品的数量范围,查询某一天在该网站的购买该数量商品的用户id
5、用户实时查询分析
查询某个地方的用户当天浏览网站的次数
6 hive、mysql、hbase互导
1、创建临时表user_action
2、将bigdata_user表中的数据插入到user_action(执行时间:10秒左右)
3.登录MySQL(从Hive导入到MyAQL)
4.创建数据库
5.创建表
下面在MySQL的数据库dblab中创建一个新表user_action,并设置其编码为utf-8:
6.导入数据
7.查看MySQL中user_action表数据
8.启动Hbase(从MySQL导入到Hbase)
- 创建表user_action
10.导入数据
- 查看HBase中user_action表数据
12.数据准备(使用HBase Java API把数据从本地导入到HBase中)
-
编写数据导入程序
-
导出为jar包
-
清空user_action表
-
运行hadoop jar命令运行程序
-
查看HBase中user_action表数据
7Python进行数据可视化分析
- 分析消费者对商品的行为
- 分析销量排名前十的商品及其销售
8参考资料:
大数据基础编程、实验和案例教程
林子雨博客
NOSQL数据库原理
大数据技术原理与应用
9实现环境(系统环境和所使用的开发软件):
Linux:Ubuntu(VMware Workstation Pro)
九、总结和体会(在完成课题时遇到的问题或个人体会):
文档内有
关注公众号:Time木
回复:非关系型数据实训
可获得相关代码,数据,文档
更多大学课业实验实训可关注公众号回复相关关键词
学艺不精,若有错误还望指点
以上是关于非关系型数据库实训-大数据平台及应用的主要内容,如果未能解决你的问题,请参考以下文章