数据开发_数据湖

Posted ytwang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据开发_数据湖相关的知识,希望对你有一定的参考价值。

数据湖技术

数据湖(Data Lake)
开源的数据湖技术: delta、hudi、iceberg

存储--数据组织的管理

 逻辑上存储通常分为块存储 文件存储 对象存储
  文件存储
       阿里云        文件存储  CPFS(Cloud Paralleled File System)
	   腾讯          文件存储   CFS(Cloud File Storage)
	   华为   弹性   文件服务   SFS(Scalable File Service)   
       百度   智能云 文件存储   CFS(Cloud File System)
   对象存储
       阿里云     对象存储 服务 OSS(Object Storage Service)
  	   腾讯       对象存储      COS(Cloud Object Storage)
  	   华为       对象存储 服务 OBS(Object Storage Service)  
  	   百度       对象存储      BOS(Baidu Object Storage)
说明: 
  系统层级的分布
      底层往上看,最底层就是硬盘
	  三种存储是按照块->文件->对象逐级向上
  数据结构:
     块存储的数据结构是数组,而文件存储是二叉树(B,B-,B ,B*各种树),对象存储基本上都是哈希表。

大数据平台系统

 ###调度系统

 资源调度 : 如何将集群的CPU、Memory资源在多个任务之间调度
    YARN

任务调度 : DAG有向无环图
  Apache Airflow 
    1.时区和时间
	2.时间: 执行时间(execute date)
  Airflow 有着非常完备的 UI 界面和监控手段
   资源调度和任务调度
   Quartz 为代表的定时类调度系统 和 以 DAG 为核心的工作流调度系统
     Quartz 适用于后端业务开发
  1.Linux 系统自带的定时任务(Crontab)
  2.Apache Airflow  调度系统
       核心的有 DAG 、Operators 、Tasks 三个概念
服务调度
伏羲 - 阿里云分布式调度系统

其他

批流一体化
存储和计算分离
业务系统和数据系统复用
云端计算和边缘计算

以上是关于数据开发_数据湖的主要内容,如果未能解决你的问题,请参考以下文章

腾讯大数据云原生数据湖技术分享

POJ_1042_贪心

字节跳动数据湖技术选型的思考与落地实践

大数据架构系列:如何理解湖仓一体?

大数据架构系列:如何理解湖仓一体?

数据湖:数据库数据迁移工具Sqoop