Alluxio 2.5版本新功能介绍
Posted Alluxio
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Alluxio 2.5版本新功能介绍相关的知识,希望对你有一定的参考价值。
我们非常高兴地宣布Alluxio 2.5版本正式发布!
Alluxio 2.5专注于通过改善接口支持来扩大受益数据编排的数据驱动应用的范围。在来自AI/ML工应用和广泛使用需求与系统管理的需求下,POSIX与S3客户端接口在性能与功能上有了很大的提升。Alluxio正在快速迭代以满足企业将其部署为AI/ML堆栈的关键组件的需求。
Alluxio软件可以点击此处下载。加入我们Slack频道,成为数千名成员中的一员,可以提出任何相关问题并提供您的反馈!感谢为这个版本发布作出贡献的所有人!
面向AI/ML工作负载的数据编排
Alluxio的数据编排能力对于提升AI/ML工作负载的性能和数据流水线非常有价值。比如说,阿里巴巴通过部署Alluxio在训练时间和花费上有超过40%的提升(详情见此处)。
AI/ML工作负载天生会使用配备昂贵GPU的高规格机器。将这些GPU与对应的I/O配对对于训练效率与成本效益至关重要。硬件成本与较长的训练时间使得加速成为我们用户的主要目标。通过在这些机器上部署Alluxio,用户可以享受到分布式高性能存储和数据管理功能带来的便利。具体而言,我们用户看到了使用Alluxio层来满足快速增长的GPU I/O需求,这方面的增长速度超过了对象存储/网络I/O的需求。最后,我们注意到,我们用户能够只在未必充分利用的资源,比如内存、磁盘、GPU节点上的CPU,运行Alluxio,这样不会产生额外的成本或部署开销。
尽管Alluxio非常适合AI/ML体系结构,我们仍然需要克服API兼容性的挑战。Tensorflow、PyTorch这样的应用大多使用POSIX API而不是分析型工作负载的HDFS兼容性API。因此,AlluxioFUSE层是一个非常合适的适配。为了进一步提升接口的性能与功能,我们实现了自己的JNI FUSE层,该层替代了传统的基于JNR FUSE的集成。JNI FUSE已经解决了兼容性问题,并在高度并发的工作负载中提供了更好的延迟和吞吐量。我们希望在即将发布的Alluxio版本中进一步增强这方面的功能。
如需更多信息,请查看来自Microsoft的分享报告,并加入我们的特殊兴趣小组,该小组每周会进行一次关于进行中开发的会议。
云原生集成
很大一部分的Alluxio用户将其部署在云上。因此Alluxio系统致力于以最先进的方式与云生态系统集成。Alluxio 2.5包含了面向三大公共云提供商(AWS、GCP、Azure),以及Kubernetes(容器编排事实标准)的改进。
最新的云存储连接器使得用户可以从云中推荐的安全模型比如AWS的安全令牌服务(STS)、GCP的服务账号密钥中受益。我们还引入了Azure Data Lake Storage Gen 2的原生支持,它是Azure上构建大数据应用程序的推荐服务。ADLS Gen 2提供了文件级语义、优化及安全。
如需更多信息,请查看AWS、Azure、GCP的文档。
更多信息
您可以在2.5.0官方发行说明(见链接9)中找到更多信息。如果您有任何问题,欢迎加入Alluxio社区Slack。
以上是关于Alluxio 2.5版本新功能介绍的主要内容,如果未能解决你的问题,请参考以下文章
上新啦|请查收StarRocks 2.5 LTS 版本特性介绍
Alluxio 2.9新版发布 | 重塑架构,支持大规模多租户环境
Presto Iceberg 数据源 + Alluxio 使用以及最新进展介绍