商品 Linux 存储场的最佳分布式文件系统 [关闭]

Posted

技术标签:

【中文标题】商品 Linux 存储场的最佳分布式文件系统 [关闭]【英文标题】:Best distributed filesystem for commodity linux storage farm [closed] 【发布时间】:2010-09-21 02:47:01 【问题描述】:

我有很多闲置的英特尔 Linux 服务器(数百台),并希望将它们用于 Web 托管和文件共享环境中的分布式文件系统。这不适用于 HPC 应用程序,因此高性能并不重要。主要要求是高可用性,如果一台服务器离线,存储在其硬盘驱动器上的数据仍然可以从其他节点获得。它必须通过 TCP/IP 运行并提供标准 POSIX 文件权限。

我看过以下内容:

Lustre (http://wiki.lustre.org/index.php?title=Main_Page):真的关闭,但它不为节点上的数据提供冗余。您必须使用 RAID 或 DRBD 使数据成为 HA。由 Sun 和开源支持,所以应该会存在一段时间

gfarm (http://datafarm.apgrid.org/):看起来它提供了冗余,但以复杂性和可维护性为代价。不如 Lustre 得到很好的支持。

是否有人对这些或任何其他可能有效的系统有任何经验?

【问题讨论】:

您愿意与我们分享您对此的最终决定吗? 【参考方案1】:

还要检查GlusterFS

编辑(2012 年 8 月): Ceph 终于准备好了。最近,作者成立了Inktank,这是一家独立公司,为其出售商业支持。根据一些介绍,可挂载的 POSIX 兼容文件系统是最上层,尚未真正经过测试,但下层已经在生产中使用了一段时间。

有趣的部分是 RADOS 层,它提供了一个基于对象的存储,通过 librados 库(可用于多种语言)和与 Amazon S3 兼容的 RESP API 进行“本机”访问。任何一个都足以为 Web 服务添加大量存储。

This video 很好地描述了理念、架构、能力和现状。

【讨论】:

我对 glusterfs 在高 IO 负载下的性能/可靠性感到失望。 您能分享一下“沉重的 IO 负载”是什么意思吗?多少 IOPS? 如果一个节点掉了怎么办?我对类似设置的“gluster”很好奇,集群可以提供数据(用于冗余或额外存储,由服务器选择),并在不破坏“raid 阵列”的情况下随时断开连接。 在广泛使用它之后,我将 ceph 的 POSIX 文件系统层描述为实验性的并且存在可怕的错误,仅供参考。 @PaulWheeler:我同意。我想指出的是,其他非 fs 层(RADOS、rdb)变得非常可靠。对于 POSIX 兼容性,MooseFS 似乎要好得多。我希望看到 ceph-fs 成熟,因为 rdb 非常希望在同一个集群中拥有......【参考方案2】:

在我看来,最好的 Linux 文件系统是 MooseFS,它很新,但我有机会将它与 Ceph 和 Lustre 进行比较,我肯定 MooseFS 是最好的。

【讨论】:

同意更正:MooseFS 现在是专有的,所以它的继任者 LizardFS 是最好的恕我直言。 @Onlyjob - MooseFS 不再是专有的 从技术上讲。但它没有公共 VCS 也没有错误跟踪器。如果作者删除源存档并通过请求再次提供它怎么办? LizardFS 已经有社区支持,并且(与 MooseFS 不同)LizardFS 将很快出现在 Debian 中。 LizardFS 不受限制(即没有“社区版”等)。 MooseFS 源代码在 GitHub 上可用:github.com/moosefs/moosefs【参考方案3】:

Gluster 目前受到了很多媒体的关注:

http://www.gluster.org/

【讨论】:

@dpavlin - 是否重复是否重要?是的,回答者不应该添加它,因为它已经在那里了,但是仅仅因为它是重复的而拒绝投票似乎是错误的 Glusterfs 很胖,在高 IO 负载时会占用大量内存,而且速度非常慢。【参考方案4】:

Lustre 一直在为我们工作。它并不完美,但它是我们尝试过的唯一没有因负载过大而崩溃的东西。我们仍然不时收到 LBUGS,处理 100TB 以上的文件系统绝非易事,但 Lustre 系统已经工作并提高了性能和可用性。

【讨论】:

【参考方案5】:

如果不是有人强迫你使用它,我也强烈建议你使用 Lustre 以外的任何东西。从我从其他人那里听到的以及也让我自己做噩梦的事实来看,Lustre 很容易在各种情况下崩溃。如果系统中只有一个客户端发生故障,它通常会在持有一些重要的全局锁的同时将自己置于无休止的 do_nothing_loop 模式 - 所以下次另一个客户端尝试访问相同的信息时,它也会挂起。因此,您通常最终会重新启动整个集群,我想这是您通常会尝试避免的事情;)

像 FhGFS (http://www.fhgfs.com) 这样的现代并行文件系统在这里更加健壮,并且还允许您做一些不错的事情,例如在同一台机器上运行服务器和客户端组件(尽管内置 HA 功能正如他们团队中的某个人告诉我的那样,仍在开发中,但据我所知,他们的实施将非常棒)。

【讨论】:

fhghfs,来自给我们 mp3 专利的人?【参考方案6】:

Ceph 看起来是一个很有前途的新进入竞技场。该网站声称它尚未准备好用于生产用途。

【讨论】:

经验证实了这种说法。【参考方案7】:

我阅读了很多关于分布式文件系统的文章,我认为 FhGFS 是最好的。

http://www.fhgfs.com/

值得一试。在以下位置查看更多信息:

http://www.fhgfs.com/wiki/

【讨论】:

FhGFS 是一个没有源的专有软件。请不要浪费大家的时间。 -1.

以上是关于商品 Linux 存储场的最佳分布式文件系统 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

分布式文件系统--------GlusterFS最佳实战

python学习之美多商城(十三):商品部分:FastDFSDocker安装FastDFSFastDFS客户端与自定义文件存储系统

MongoDB

分布式存储最佳缓存比

分布式爬虫系统设计实现与实战:爬取京东苏宁易购全网手机商品数据+MySQLHBase存储

分布式爬虫系统设计实现与实战:爬取京东苏宁易购全网手机商品数据+MySQLHBase存储