DVC - 数据版本控制入门详解
Posted liferecords
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DVC - 数据版本控制入门详解相关的知识,希望对你有一定的参考价值。
一、简介
DVC
(Data Version Control)) 是一种利用现有工程工具集(Git、CI/CD 等)来实现数据和机器学习实验管理工具,DVC 的存在使 ML 模型可共享且可复现。它旨在处理大型文件、数据集、机器学习模型、指标和代码。
DVC
主要有以下几个强大的功能:
-
ML项目版本管理
DVC
对机器学习的模型、数据集和中间文件进行版本控制。支持多种格式存储:
Amazon S3
、Microsoft Azure Blob Storage
、Google Drive
、Google Cloud Storage
、Aliyun OSS
、SSH/SFTP
、HDFS
、HTTP
、网络连接存储(NAS)
、磁盘
-
ML实验管理
DVC
设计目的类似于Git的版本控制功能,但针对大文件的支持更加友好,不同版本切换更加流畅。 -
模型部署与团队协作
DVC
使用push/pull
命令将ML模型、数据和代码移动到生产环境、远程机器或同事的计算机中。DVC
在Git中引入了轻量级流水线作为一级公民,它们与语言无关,并将多个步骤连接成DAG。 这些流水线用于消除将代码投入生产环境而产生分歧。
DVC
实现了类似Git
的功能,也就兼具了类似Git的特性,同时为数据科学工作流程带来敏捷性、可重复性和协作性。
- 兼容 Git
- 对存储没有限制
- 可复现实验
- 低冲突分支
- 指标跟踪
- 机器学习流水线框架
- 与语言和框架无关
- 支持HDFS、Hive 和 Apache Spark
- 故障跟踪
二、安装
1. pip/conda
(推荐)
#### pip 安装方式
pip install dvc
# 或指定存储类型,选择安装
## 类型:[s3] [azure] [gdrive] [gs] [oss] [ssh] [all]
## [all]表示安装所有的
pip install "dvc[s3]"
#### conda 安装方式
conda install -c conda-forge mamba
mamba install -c conda-forge dvc
# 类型:dvc-s3 dvc-azure dvc-gdrive dvc-gs dvc-oss dvc-ssh
mamba install -c conda-forge dvc-s3
2. Windows/Linux/Macos
# 当前最新版为2.9.5
#### Windows
choco install dvc
https://download.fastgit.org/iterative/dvc/releases/download/2.9.5/dvc-2.9.5.exe
#### Linux
snap install --classic dvc
https://download.fastgit.org/iterative/dvc/releases/download/2.9.5/dvc_2.9.5_amd64.deb
#### Macos
brew install dvc
https://download.fastgit.org/iterative/dvc/releases/download/2.9.5/dvc-2.9.5.pkg
其他的安装方式,详细请点击
以上是关于DVC - 数据版本控制入门详解的主要内容,如果未能解决你的问题,请参考以下文章