我对中国企业SaaS不推荐数据湖,也不推荐Spark和Flink

Posted david_lv

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了我对中国企业SaaS不推荐数据湖,也不推荐Spark和Flink相关的知识,希望对你有一定的参考价值。

(1)软件时代

我记得SQLServer过去产品线很全:

1、数据库:Database

2、ETL、DTS、订阅分发

3、元数据管理:Meta Service

4、主数据管理:MDM

5、数据仓库:WareHouse

6、多维计算和多维分析:MDX、Cube

7、可视化:Report Service

8、数据挖掘:Analysis Service

9、检索搜索:FullText

我因为很多年不用微软技术了,不知道现在怎么样了。

但我们过去把这套东西叫做:Data Platform。

(2)互联网时代

自从互联网兴起以后,随着电子邮件、即时通信、音视频、BBS、博客、微博、问答、用户行为跟踪、云盘、云文档等等各种互联网应用的普及,对这些内容的存储、查询、统计、挖掘,要求海量、高性能、实时,所以就出现了各种SQL和NOSQL数据库,以及大数据查询引擎、搜索引擎、计算引擎、存储引擎、调度引擎。

一、OLTP数据生产类

如缓存:MemCache、Redis

如NewSQL:TiDB/TiKV、CockroachDB

如NOSQL:MongoDB、Neo4J、InfluxDB

如对象存储/文件存储:Ceph、MinIO、HDFS

二、数据传输类

如DTS/ETL:Sqoop、kafka/Pulsar

三、OLAP数据存储类

如OLAP数据库:Greenplum、Hbase、ClickHouse、Doris

如数据湖仓:Hudi、Iceberg、Delta

四、OLAP数据计算类

如计算引擎:MR、Storm、Spark、Flink

五、OLAP数据消费类

如查询引擎:Hive、HAWQ、Impala、Druid、Presto

如搜索引擎:ElasticSearch、Milvus

如可视化:SuperSet

如多维计算和多维分析:Kylin

如数据挖掘:Spark ML

我和软件时代的Data Platform对比了一下,主要是增加了专门的数据湖仓(如

Hudi、Iceberg、Delta)、专门的计算引擎(如Spark、Flink)这两样东西。但不知道为啥,就因为增加了这两样东西,Data Platform就变成了Data Middleware,数据平台就变成了只有中国人流行的数据中台。难道就是因为计算引擎(如Spark、Flink)像中间件?

谁知道原因,告诉我一声。

(3)中国企业SaaS云时代

现在大数据技术还都处于发展变化当中,所以产生了一堆大数据技术,意味着每个都只能干一点事,需要互相搭配着瞎子背瘸子,所以把事情搞的特别复杂。

这对于从中国企业软件时代走到企业SaaS时代的IT厂商来说,特别不适应。毕竟,过去的数据处理,都直接放给微软、Oracle、IBM这样的商用数据库套件厂商即可。现如今在中国,开源的不成熟,中国的云计算巨头们的大数据产品套件也不成熟,这就造成了旧的商用数据库套件时代已去,但新的商用大数据套件时代还未顶上来,这就不上不下尴尬了。这个尴尬,估计还需要持续三年。咱们2025年再看。

所以,在2025年之前怎么办?除了分库分表、归档、优化SQL、加索引、写JOB这些常规了20多年的动作以外,我们能做些什么?

一、建议1

我个人建议:先别追风扎入湖仓(如Hudi、Iceberg)。毕竟数据仓库擅长处理结构化数据、入仓前需要做好数据清洗,还得做好数据建模。而数据湖擅长处理非结构化数据、数据入湖之前不用做严格的数据清洗和数据建模。而现在互联网人想在数据湖技术基础之上建立数据仓库,Hudi、Iceberg之类的就是这个搞法。

但事实上,中国的企业SaaS,大部分都是把过去的企业内部管理软件重新开发一遍放到云上,哪有什么海量的非结构化数据?所以我个人不赞成中国企业SaaS厂商好奇害死猫地搞数据湖仓。

所以,我建议:先用好MPP数据库。如ClickHouse、Doris。我看字节用了上万台服务器ClickHouse,我也看百度也用了上万台服务器Doris。

另外,你看AWS的RedShift,人家也是来自PostgreSQL衍生。你看Pivotal的Greenplum,人家也是来自PostgreSQL。为啥咱们中国人老说PostgreSQL性能顶不住,老说Greenplum性能也顶不住?

二、建议2

我个人建议:也先别追计算引擎(如Spark、Flink)。用计算引擎的,都是搞复杂数据计算的。中国企业SaaS哪里有什么复杂数据计算?过去用SQL就能开发,现在就不能用SQL查询引擎(如Presto)了?

所以,我建议:先用好Presto(查询)、ES(搜索)。我看京东也用了好几千台服务器Presto。

如果需要多维计算和多维分析,我推荐Kylin。

如果需要做复杂数据计算的数据挖掘,我也不建议使用Spark ML。这个问题让搞机器学习、深度学习、人工智能的人去考虑他们的乘手工具。现在数据挖掘越来越靠近机器学习,而不是靠近数据科学。

以上是关于我对中国企业SaaS不推荐数据湖,也不推荐Spark和Flink的主要内容,如果未能解决你的问题,请参考以下文章

万字干货:如何从零开始构建企业级推荐系统?

从零开始构建企业级推荐系统

给大家再重复推荐一些管理类的图书

微软亚研:谢幸结合知识的推荐系统,附30页PPT

第一年SaaS收入100%给伙伴,泛微推鲲鹏要干嘛!

从SaaS到互联网+,这家企业对云计算有不一样的想法