大数据应用技术课程实践--选题与实践方案
Posted A1高闪来一个,秋梨膏!
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据应用技术课程实践--选题与实践方案相关的知识,希望对你有一定的参考价值。
一、选题与意义
1.Hadoop平台应用
2.Kaggle分析数据项目
选择题目:1、Hadoop平台应用:淘宝双11数据分析与预测
意义:因为之前学过,所以有一定的基础,可以复习一下之前的知识。
二、实践方案
步骤零:实验环境准备
所需知识储备 | Windows操作系统、Linux操作系统、大数据处理架构Hadoop的关键技术及其基本原理、列族数据库HBase概念及其原理、数据仓库概念与原理、关系型数据库概念与原理 |
训练技能 | 双操作系统安装、虚拟机安装、Linux基本操作、Hadoop安装、HBase安装、Sqoop安装、Eclipse安装 |
任务清单 | 1. 安装Linux系统;2. 安装Hadoop;3. 安装mysql;4. 安装Hive;5. 安装Sqoop;6. 安装Spark;7. 安装Eclipse |
步骤一:本地数据集上传到数据仓库Hive
所需知识储备 | Linux系统基本命令、Hadoop项目结构、分布式文件系统HDFS概念及其基本原理、数据仓库概念及其基本原理、数据仓库Hive概念及其基本原理 |
训练技能 | Hadoop的安装与基本操作、HDFS的基本操作、Linux的安装与基本操作、数据仓库Hive的安装与基本操作、基本的数据预处理方法 |
任务清单 | 1. 安装Linux系统;2. 数据集下载与查看;3. 数据集预处理;4. 把数据集导入分布式文件系统HDFS中;5. 在数据仓库Hive上创建数据库 |
步骤二:Hive数据分析
所需知识储备 | 数据仓库Hive概念及其基本原理、SQL语句、数据库查询分析 |
训练技能 | 数据仓库Hive基本操作、创建数据库和表、使用SQL语句进行查询分析 |
任务清单 | 1. 启动Hadoop和Hive;2. 创建数据库和表;3. 简单查询分析;4. 查询条数统计分析;5. 关键字条件查询分析;6. 根据用户行为分析;7. 用户实时查询分析 |
步骤三:将数据从Hive导入到MySQL
所需知识储备 | 数据仓库Hive概念与基本原理、关系数据库概念与基本原理、SQL语句 |
训练技能 | 数据仓库Hive的基本操作、关系数据库MySQL的基本操作、Sqoop工具的使用方法 |
任务清单 | 1. Hive预操作;2. 使用Sqoop将数据从Hive导入MySQL |
步骤四:利用ECharts进行数据可视化分析
所需知识储备 | 数据可视化、Java、JSP、javascript、html |
训练技能 | 利用JSP语言获取MySQL中的数据、搭建一个简单的动态Web应用、ECharts可视化应用 |
任务清单 | 1. 搭建tomcat+mysql+JSP开发环境2. 利用Eclipse新建可视化Web应用3. 前后端代码编写, 并添加ECharts可视化分析 |
步骤五:利用Spark预测回头客行为
所需知识储备 | Spark、机器学习 |
训练技能 | Spark的安装与基本操作、利用Spark 自带的MLlib库,对数据集进行分类预测 |
任务清单 | 1. 安装Spark 2.预处理训练集和测试集3.使用支持向量机SVM分类器预测回客行为 |
三、实践任务分解
- 安装Linux操作系统
- 安装关系型数据库MySQL
- 安装大数据处理框架Hadoop
- 安装数据仓库Hive
- 安装Sqoop
- 安装Eclipse
- 安装 Spark
- 对文本文件形式的原始数据集进行预处理
- 把文本文件的数据集导入到数据仓库Hive中
- 对数据仓库Hive中的数据进行查询分析
- 使用Sqoop将数据从Hive导入MySQL
- 利用Eclipse搭建动态Web应用
- 利用ECharts进行前端可视化分析
- 利用Spark MLlib进行回头客行为预测
四、实践计划
1.
- 网站用户购物行为分析
- 官网:http://dblab.xmu.edu.cn/post/7499/
- 淘宝双11数据分析与预测
- 官网:http://dblab.xmu.edu.cn/post/8116/
- 电信用户行为分析
- http://dblab.xmu.edu.cn/post/useranalysis/
大数据平台安装软件:
链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A
提取码:ao1m
虚拟机镜像文件:
链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw
提取码:q0lt
2.
https://www.kaggle.com/competitions
说明:
- 个人项目,不要求组队,确实需要组队的说明理由。
- 边操作边记录;
- 每天完成当天文档;
- 最后综合成课程实践报告。
以上是关于大数据应用技术课程实践--选题与实践方案的主要内容,如果未能解决你的问题,请参考以下文章