我对中国企业SaaS不推荐数据湖，也不推荐Spark和Flink

Posted 2021-12-19 david_lv

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了我对中国企业SaaS不推荐数据湖，也不推荐Spark和Flink相关的知识，希望对你有一定的参考价值。

（1）软件时代

我记得SQLServer过去产品线很全：

1、数据库：Database

2、ETL、DTS、订阅分发

3、元数据管理：Meta Service

4、主数据管理：MDM

5、数据仓库：WareHouse

6、多维计算和多维分析：MDX、Cube

7、可视化：Report Service

8、数据挖掘：Analysis Service

9、检索搜索：FullText

我因为很多年不用微软技术了，不知道现在怎么样了。

但我们过去把这套东西叫做：Data Platform。

（2）互联网时代

自从互联网兴起以后，随着电子邮件、即时通信、音视频、BBS、博客、微博、问答、用户行为跟踪、云盘、云文档等等各种互联网应用的普及，对这些内容的存储、查询、统计、挖掘，要求海量、高性能、实时，所以就出现了各种SQL和NOSQL数据库，以及大数据查询引擎、搜索引擎、计算引擎、存储引擎、调度引擎。

一、OLTP数据生产类

如缓存：MemCache、Redis

如NewSQL：TiDB/TiKV、CockroachDB

如NOSQL：MongoDB、Neo4J、InfluxDB

如对象存储/文件存储：Ceph、MinIO、HDFS

二、数据传输类

如DTS/ETL：Sqoop、kafka/Pulsar

三、OLAP数据存储类

如OLAP数据库：Greenplum、Hbase、ClickHouse、Doris

如数据湖仓：Hudi、Iceberg、Delta

四、OLAP数据计算类

如计算引擎：MR、Storm、Spark、Flink

五、OLAP数据消费类

如查询引擎：Hive、HAWQ、Impala、Druid、Presto

如搜索引擎：ElasticSearch、Milvus

如可视化：SuperSet

如多维计算和多维分析：Kylin

如数据挖掘：Spark ML

我和软件时代的Data Platform对比了一下，主要是增加了专门的数据湖仓（如

Hudi、Iceberg、Delta）、专门的计算引擎（如Spark、Flink）这两样东西。但不知道为啥，就因为增加了这两样东西，Data Platform就变成了Data Middleware，数据平台就变成了只有中国人流行的数据中台。难道就是因为计算引擎（如Spark、Flink）像中间件？

谁知道原因，告诉我一声。

（3）中国企业SaaS云时代

现在大数据技术还都处于发展变化当中，所以产生了一堆大数据技术，意味着每个都只能干一点事，需要互相搭配着瞎子背瘸子，所以把事情搞的特别复杂。

这对于从中国企业软件时代走到企业SaaS时代的IT厂商来说，特别不适应。毕竟，过去的数据处理，都直接放给微软、Oracle、IBM这样的商用数据库套件厂商即可。现如今在中国，开源的不成熟，中国的云计算巨头们的大数据产品套件也不成熟，这就造成了旧的商用数据库套件时代已去，但新的商用大数据套件时代还未顶上来，这就不上不下尴尬了。这个尴尬，估计还需要持续三年。咱们2025年再看。

所以，在2025年之前怎么办？除了分库分表、归档、优化SQL、加索引、写JOB这些常规了20多年的动作以外，我们能做些什么？

一、建议1

我个人建议：先别追风扎入湖仓（如Hudi、Iceberg）。毕竟数据仓库擅长处理结构化数据、入仓前需要做好数据清洗，还得做好数据建模。而数据湖擅长处理非结构化数据、数据入湖之前不用做严格的数据清洗和数据建模。而现在互联网人想在数据湖技术基础之上建立数据仓库，Hudi、Iceberg之类的就是这个搞法。

但事实上，中国的企业SaaS，大部分都是把过去的企业内部管理软件重新开发一遍放到云上，哪有什么海量的非结构化数据？所以我个人不赞成中国企业SaaS厂商好奇害死猫地搞数据湖仓。

所以，我建议：先用好MPP数据库。如ClickHouse、Doris。我看字节用了上万台服务器ClickHouse，我也看百度也用了上万台服务器Doris。

另外，你看AWS的RedShift，人家也是来自PostgreSQL衍生。你看Pivotal的Greenplum，人家也是来自PostgreSQL。为啥咱们中国人老说PostgreSQL性能顶不住，老说Greenplum性能也顶不住？

二、建议2

我个人建议：也先别追计算引擎（如Spark、Flink）。用计算引擎的，都是搞复杂数据计算的。中国企业SaaS哪里有什么复杂数据计算？过去用SQL就能开发，现在就不能用SQL查询引擎（如Presto）了？

所以，我建议：先用好Presto（查询）、ES（搜索）。我看京东也用了好几千台服务器Presto。

如果需要多维计算和多维分析，我推荐Kylin。

如果需要做复杂数据计算的数据挖掘，我也不建议使用Spark ML。这个问题让搞机器学习、深度学习、人工智能的人去考虑他们的乘手工具。现在数据挖掘越来越靠近机器学习，而不是靠近数据科学。

以上是关于我对中国企业SaaS不推荐数据湖，也不推荐Spark和Flink的主要内容，如果未能解决你的问题，请参考以下文章

万字干货：如何从零开始构建企业级推荐系统？

从零开始构建企业级推荐系统

给大家再重复推荐一些管理类的图书

微软亚研：谢幸结合知识的推荐系统，附30页PPT

第一年SaaS收入100%给伙伴，泛微推鲲鹏要干嘛！

从SaaS到互联网+，这家企业对云计算有不一样的想法