大数据学习与分享

专注于大数据领域常用技术，如Spark、Hadoop、Hive、HBase、Kafka、Zookeeper等技术的使用、实战技巧、源码解读，语言主要以Java和Scala为主

最新文章

如果设计分布式文件系统，该从哪些方面考虑?

漫谈 | 大牛带你从0到1构建数据仓库实战

Spark推荐系统实践

Spark在处理数据的时候，会将数据都加载到内存再做处理吗？

自适应查询执行：在运行时提升Spark SQL执行性能

通过Spark生成HFile，并以BulkLoad方式将数据导入到HBase

Hadoop支持的压缩格式对比和应用场景以及Hadoop native库

从HBase底层原理解析HBASE列族不能设计太多的原因？