使用版本控制存储大型 CSV 文件

Posted

技术标签:

【中文标题】使用版本控制存储大型 CSV 文件【英文标题】:Storing large CSV file with version control 【发布时间】:2014-06-15 04:31:11 【问题描述】:

我们有一个用例,我们需要存储大型 csv(每个文件可以是 1-5 GB,总共可以有大约 50-100 个文件)文件并为它们管理版本控制。 我们还需要支持像

这样的操作
    导出文件 更新、添加、删除文件中的行并将它们存储为新版本。编辑/添加/删除操作可能会更小(比如最多 1000 行) 查找文件的两个版本之间的差异。 将文件加载到数据库中。 将文件从数据库导出到版本控制系统 获取特定版本号的文件。

文件大小和操作将是更好的选择,例如 Perforce Vs Git Vs SVN。

【问题讨论】:

这些都是非常基本的操作,并且得到广泛的版本控制系统的支持。您的具体问题是什么? 【参考方案1】:

版本控制大文件的最佳选择是启用 LargeFiles 扩展的 Mercurial

【讨论】:

以上是关于使用版本控制存储大型 CSV 文件的主要内容,如果未能解决你的问题,请参考以下文章

DVC - 数据版本控制入门详解

版本控制系统-Git

git:版本控制系统简介

如何避免在版本控制中存储密码?

使用 Git 进行版本控制

关于大型项目的版本控制和避免包含表达式的版本的 Maven 建议