Hadoop学习系列(2.Hadoop框架介绍与搜索技术体系介绍)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop学习系列(2.Hadoop框架介绍与搜索技术体系介绍)相关的知识,希望对你有一定的参考价值。

第一天

2.Hadoop框架介绍与搜索技术体系介绍

1.大数据典型特性与分布式开发难点
2.Hadoop框架介绍与搜索技术体系介绍
3.Hadoop版本与特性介绍
4.Hadoop核心模块之HDFS分布式文件系统架构介绍
5.Hadoop核心模块之Yarn操作系统架构介绍
6.Linux安全禁用设置与JDK安装讲解
7.Hadoop伪分布式环境部署HDFS部分
8.Hadoop伪分布式环境部署Yarn和MR部分
9.Hadoop环境使用常见的错误集合
10.Hadoop环境常规设置与辅助功能讲解(-)
11.Hadoop环境常规设置与辅助功能讲解(二)
12.Windows环境下部署Eclipse插件注意事项

2.Hadoop框架介绍与搜索技术体系介绍

1.hadoop介绍

       -》官网:http://hadoop.apache.org

   -》hadoop商业三大发行版

      -》Apache         -》apache

      -》cloudera       -》CDH

      -》hostonwork  -》HDP

    -》分布式

       -》爬虫

       -》存储(加硬盘,但是单台机器是有限的)&处理分析

       -》快速查询

       -》分开计算,结果合并

       -》google-》Mapreduce论文

                        -》map 

                        -》reduce

       -》HDFS   文件系统和数据库是不一样的

       -》HBase 

    -》搜索引擎的技术体系

         -》数据获取 

            -》(外网,互联网抓取数据)

            -》数据库

         -》数据存储-》HDFS&Hbase

               -》yarn操作系统

         -》数据计算

               -》sql实时查询(消息队列,监控系统)

               -》辅助型框架,比如zookeeper

         -》生成索引,搜索的索引(商品推荐和自己平时搜索的信息有关) 

         -》返回个前端用户

    -》离线系统-》hadoop生态圈

         -》数据获取

         -》(外网,互联网抓取数据)

         -》云存储

             -》全量或者增量导入(同步到hbase当中,sql语句当中)

         -》复杂离线处理的过程(job运行,业务的逻辑,表的join,字段的合并)

             -》mapreduce(实现全量或者增量数据的更新)

             -》其他的框架实现实时数据的更新

            这样我整个的数据变化就可以实现秒级的速度   更新到搜索引擎




以上是关于Hadoop学习系列(2.Hadoop框架介绍与搜索技术体系介绍)的主要内容,如果未能解决你的问题,请参考以下文章

学习笔记Hadoop—— Hadoop介绍

Hadoop工作流概念学习系列总述

hadoop的学习路线图

Hadoop的学习路线图

Hadoop的学习路线图

大数据技术之_03_Hadoop学习_01_入门_大数据概论+从Hadoop框架讨论大数据生态+Hadoop运行环境搭建(开发重点)