分布式存储选型中常见的 9 个问题

Posted twt企业IT社区

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了分布式存储选型中常见的 9 个问题相关的知识,希望对你有一定的参考价值。

如何针对结构化与非结构化数据,进行分布式存储的选型?尤其像客服中心语音数据与信贷类交易系统的影像文件等非结构化数据,如何既经济又安全地选择市场上高口碑和好评的分布式存储进行对接?本文分享了分布式存储相关选型中常见的一些典型问题,来自社区交流,供大家参考。


1、和传统存储相比,分布式存储在哪些应用场景比较有优势?

@宁泽阳 中信银行信用卡中心 系统工程师:

分布式存储适用于虚拟化、云平台对接场景,海量非结构化数据保存场景(如图片、影音等)。

@priest  系统架构师:

数据量大、高吞吐量、高性能、高扩展 等场景。

@荣重实 XSKY 架构师: 

分布式在整体架构设计上,可按需配置,灵活扩展;

分布式存储性能上限高,传统存储传输接口数量受限制有天花板;

分布式存储容量上限高,横向扩展能力强;

分布式存储硬件节点做替换对应用影响小;

综上所述,在私有云部署,海量非结构化数据,高性能计算,流媒体和视频监控场景有比较大的优势。


2、关于主流分布式文件存储的适用场景?

【问题描述】主流分布式文件存储,比如Ceph、MogileFS、TFS、FastDFS、GlusterFS 的适用场景有什么区别?哪些适合单集群,哪些适合跨集群?

@宁泽阳 中信银行信用卡中心 系统工程师:

分布式文件存储的功能、架构设计大同小异,适用场景也基本一致,如何选择更大程度上还是取决于社区的活跃度,一般用户很少有能力去做代码级别的研究,因此社区中安装、部署、运维文档的完整度,社区的活跃度是选择产品时重要的决策点。


3、各大分布式文件系统优劣势对比,读写对比,性能对比,数据安全性对比,使用场景对比?

@宁泽阳 中信银行信用卡中心 系统工程师:

各分布式文件系统数据安全性、使用场景区别不大,读写性能更取决于硬件配置,各产品区别主要在于发展过程不同带来的使用场景倾向不同,如Ceph之于OpenStack,Glusterfs之于OpenShift,建议根据不同用途选择该用途下使用最多的产品,一般这种常见的坑都被踩过了,更稳定、性能更好一些。


4、Ceph、MogileFS、TFS、FastDFS、GlusterFS,是否都支持跨集群同步?

@宁泽阳 中信银行信用卡中心 系统工程师:

分布式存储一般不建议配置跨集群同步,其本来就是采用网络IO的方式,如果配置跨集群同步,会导致IO过长,可能影响读写延迟,建议配置重要数据同步复制即可,可使用rsync之类的工具。


5、块存储与文件存储的对比?

【问题描述】我想请问一下块存储与文件存储的详细对比?比如说,块存储比文件更稳定,时延低,为什么?块协议比文件协议怎么稳定,体现在哪?文件协议开销大,体现在哪?

@宁泽阳 中信银行信用卡中心 系统工程师:

实际测试结果来看,块存储和文件存储的稳定性、时延并没有明显区别。块存储和文件存储的使用场景不一样,块存储主要用于提供VMware或者OpenStack做存储卷用,而文件系统存储主要用于文件在容器、虚拟机及物理机之间的文件共享存储。


6、在 Kubernetes 上用分布式的存储方案进行容器数据的存储,哪个分布式的存储系统可以直接部署起来使用?

@宁泽阳 中信银行信用卡中心 系统工程师:

GlusterFS、Ceph都可以直接使用

@zhuqibs Mcd 软件开发工程师:

使用GlanceFS、GFS或Ceph都可以,但是如果是用于数据库的话,不得不说,效率不高啊!  就算使用flash disk,效率也基本上等于SAS盘的速度。


7、影像数据,如果是图像比较大的情况,一张图接近GB时,选择哪种开源产品比较合适?

@宁泽阳 中信银行信用卡中心 系统工程师:

可以使用Ceph对象存储协议来保存,建议单独建设一个资源池针对这种大图像来进行存储,可以通过增大对象条带大小的方式获得更好的读写性能。

@zhuqibs Mcd 软件开发工程师: 

首先表个态,图像照片,特别是尺寸大的,是不太适合直接存放在数据库中的,但如果要存放,开源的数据库mysql就可以,其实就是放在clob字段中,clob字段是MySQL从Oracle继承过来的,Oracle8i的时候,就可以存放4g的二进制文件,所以,现在MySQL完全可以存放。

其次,正确的方法,是在数据库中存放一个链接,将图像照片存放在oss对象存储上,或干脆在磁盘上。存放在数据库中效率怎么都是不高的。


8、金融行业如何针对结构化与非结构化数据,进行分布式存储的选型?

【问题描述】金融行业如何针对结构化与非结构化数据,进行分布式存储的选型?尤其像客服中心语音数据与信贷类交易系统的影像文件等非结构化数据,如何既经济又安全地选择市场上高口碑和好评的分布式存储进行对接?

@宁泽阳 中信银行信用卡中心 系统工程师:

需要结合不同的使用场景进行POC测试,有些产品可能在特定的场景下比较合适,因此可针对非结构化数据存储和结构化数据存储分别进行POC测试。

@zhuqibs Mcd 软件开发工程师: 

结构化数据的分布式存储,实际上就是分布式关系型数据库的存储,使用的2pc或3pc的提交模式。为了保证结构化数据的事物一致性,这类数据的分布式存储比较好的是选用raft架构。

非结构化数据,大都是非关系型数据库,只要保证数据的最终一致性,一致性的要求比较低,所以比较自由,HDFS、GFS都可以选择,最简单的就是Hive,你可以把它理解成为一个非结构化数据仓库,底层是对HDFS等分布式存储的的读写。


9、把现有影像系统的非结构化数据集中存贮到一起,供AI、BI等平台使用,使用对象存储是否合适?

@宁泽阳 中信银行信用卡中心 系统工程师:

特别合适,对象存储比较适合存储影像、语音等非结构化数据。

@zhuqibs Mcd 软件开发工程师: 

对象存储的特点是, 你可以理解为是个大U盘,可以读,但不适合于写。放置只读不改的影像数据是合适的。事实上,对象存储通常也放置一些网站的图片,供网站加载时使用,只是没有CDN强。缺点是,安全性较差,你要确定你的影像数据无敏感数据,如果有对象存储中,可以有多种加密手段。

觉得本文有用,请转发、点赞或点击“在看”,让更多同行看到
社区正在进行“  ”,欢迎参与


 资料/文章推荐:




下载 twt 社区客户端 APP

分布式存储选型中常见的 9 个问题

或到应用商店搜索“twt”


长按二维码关注公众号

以上是关于分布式存储选型中常见的 9 个问题的主要内容,如果未能解决你的问题,请参考以下文章

《分布式技术原理与算法解析》学习笔记Day22

45 个分布式存储典型问题解读,看完成半个高手

分布式存储技术应用 10 个常见问题解读

朝阳医院分布式存储选型启示录

ceph分布式存储-常见 PG 故障处理

分布式系统中数据存储方案实践