Spark发布了MLflow 0.2 内置TensorFlow 继承

Posted 2021-04-24 ARFinger

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spark发布了MLflow 0.2 内置TensorFlow 继承相关的知识，希望对你有一定的参考价值。

Spark 开源了全流程机器学习平台 MLflow，这是一个用于简化机器学习生命周期的平台。

从首次发布到现在的时间里，已经有很多数据科学家和工程师，对使用 MLflow 和为其贡献代码感兴趣。MLFlow 的 GitHub 仓库已经有 180 个分支，其中有十几个贡献者提交了问题和拉取请求。

近日，Spark 宣布推出 MLflow 0.2 版本，这一版本包含了由内部客户和开源用户提出的一些功能。

据了解，MLflow 让开发者可以基于任意机器学习库进行模型训练，只要可以将它们包装在 Python 函数中，但是对于常用的库，MLflow 团队希望能够提供内置的支持。

该版本内置了 TensorFlow 集成，增加了一个 mlflow.tensorflow 包，借助这个包，开发者可以轻松地将 TensorFlow 模型记录到 MLflow 跟踪服务器中。在记录模型之后，可以立即将其传给 MLflow 支持的各种部署工具（例如本地 REST 服务器、Azure ML 服务或 Apache Spark）。

MLflow 0.2 还增加了一个新的 mlflow server 命令，该命令将启动 MLflow 跟踪服务器的生产版本，用于跟踪和查询运行过的实验。它可以支持多个工作线程和基于 S3 的存储，

在最先发布的 MLflow 第一个版本中，一个关键功能是记录训练的输出，其中可能包括被称为“构件”的任意文件。不过，这个版本只能支持将构件保存到共享的 POSIX 文件系统。

而 MLflow 0.2 版本添加了对 S3 存储的支持，通过给 mlflow server 命令添加一个参数（artifact-root）即可。这样可以轻松地在多个云实例上，运行 MLflow 训练作业并跟踪结果。

另外，除了这些较大的功能，该版本还包含了一些错误和文档问题的修复。

下一步，MLflow 团队计划在 alpha 版本中继续更新 MLflow。例如，该团队正在进行与更多库（如 PyTorch、Keras 和 MLlib）的集成，并进一步改进跟踪服务器的可用性。

以上是关于Spark发布了MLflow 0.2 内置TensorFlow 继承的主要内容，如果未能解决你的问题，请参考以下文章

Spark大咖说：MLFlow和spark在机器学习方面的进展Project Hydrogen和spark在深度学习方面的进展

外媒：中兴已与美国签署撤销 7 年禁购令初步协议；Apache Spark 技术团队开源机器学习平台 MLflow

Pytorch基础教程33spark或dl模型部署（MLFlow/ONNX/Runtime/tensorflow serving）

mlflow R 安装 MLFLOW_PYTHON_BIN

更改 MLflow 工件存储的子目录

如何在 Scala Spark 项目中使用 PySpark UDF？