DVC - 数据版本控制入门详解

Posted liferecords

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DVC - 数据版本控制入门详解相关的知识,希望对你有一定的参考价值。

一、简介

DVCData Version Control)) 是一种利用现有工程工具集(Git、CI/CD 等)来实现数据和机器学习实验管理工具,DVC 的存在使 ML 模型可共享且可复现。它旨在处理大型文件、数据集、机器学习模型、指标和代码。

DVC 主要有以下几个强大的功能:

  • ML项目版本管理

    DVC 对机器学习的模型、数据集和中间文件进行版本控制。

    支持多种格式存储:Amazon S3Microsoft Azure Blob StorageGoogle DriveGoogle Cloud StorageAliyun OSSSSH/SFTPHDFSHTTP网络连接存储(NAS)磁盘

  • ML实验管理

    DVC设计目的类似于Git的版本控制功能,但针对大文件的支持更加友好,不同版本切换更加流畅。

  • 模型部署与团队协作

    DVC使用push/pull命令将ML模型、数据和代码移动到生产环境、远程机器或同事的计算机中。

    DVC在Git中引入了轻量级流水线作为一级公民,它们与语言无关,并将多个步骤连接成DAG。 这些流水线用于消除将代码投入生产环境而产生分歧。

DVC实现了类似Git的功能,也就兼具了类似Git的特性,同时为数据科学工作流程带来敏捷性、可重复性和协作性。

  • 兼容 Git
  • 对存储没有限制
  • 可复现实验
  • 低冲突分支
  • 指标跟踪
  • 机器学习流水线框架
  • 与语言和框架无关
  • 支持HDFS、Hive 和 Apache Spark
  • 故障跟踪

二、安装

1. pip/conda(推荐)

#### pip 安装方式
pip install dvc

# 或指定存储类型,选择安装
## 类型:[s3] [azure] [gdrive] [gs] [oss] [ssh] [all] 
## [all]表示安装所有的
pip install "dvc[s3]"

#### conda 安装方式
conda install -c conda-forge mamba
mamba install -c conda-forge dvc
# 类型:dvc-s3 dvc-azure dvc-gdrive dvc-gs dvc-oss dvc-ssh
mamba install -c conda-forge dvc-s3

2. Windows/Linux/Macos

# 当前最新版为2.9.5
#### Windows 
choco install dvc
https://download.fastgit.org/iterative/dvc/releases/download/2.9.5/dvc-2.9.5.exe

#### Linux
snap install --classic dvc
https://download.fastgit.org/iterative/dvc/releases/download/2.9.5/dvc_2.9.5_amd64.deb

#### Macos
brew install dvc
https://download.fastgit.org/iterative/dvc/releases/download/2.9.5/dvc-2.9.5.pkg

其他的安装方式,详细请点击

以上是关于DVC - 数据版本控制入门详解的主要内容,如果未能解决你的问题,请参考以下文章

版本控制系统-SVN

如何使用SVN进行版本控制

万字详解!Git 入门最佳实践

SVN的安装配置 及详解SVN的使用

不只是支持Windows, PyTorch 0.4新版本变动详解与升级指南

variance是什么意思