使用 tarfile (Python) 仅压缩给定目录中的文件

Posted

技术标签:

【中文标题】使用 tarfile (Python) 仅压缩给定目录中的文件【英文标题】:Compressing only the files inside a given directory using tarfile (Python) 【发布时间】:2018-03-02 08:07:50 【问题描述】:

我编写了以下脚本,允许我将src(可以是单个文件或目录)压缩到目标“dst”:

#!/usr/bin/env python2

import tarfile
from ntpath import basename, dirname
from os import path, listdir, makedirs, chdir
import errno
import sys

class Archivator:
    @staticmethod
    def compress(src='input/test', dst='output'):
        # if not path.isfile(src_file):
        #     print('Expecting absolute path to file (not directory) as "src". If "src" does contain a file, the file does not exist')
        #     return False

        if not path.isdir(dst):
            return False
            # try:
            #     makedirs(dst_dir)
            # except OSError as err:
            #     if err.errno != errno.EEXIST:
            #         return False

        filename = basename(src) if path.isdir(src) else src
        tar_file = dst + '/' + filename + '.tar.gz'
        print(tar_file)
        print(src)
        with tarfile.open(tar_file, 'w:gz') as tar:
            print('Creating archive "' + tar_file + '"')
            # chdir(dirname(dst_dir))
            recr = path.isdir(src)
            if recr:
                print('Source is a directory. Will compress all contents using recursion')
            tar.add(src, recursive=recr)

        return True


if __name__ == '__main__':
    import argparse

    parser = argparse.ArgumentParser(description='Uses tar to compress file')
    parser.add_argument('-src', '--source', type=str,
                        help='Absolute path to file (not directory) that will be compressed')
    parser.add_argument('-dst', '--destination', type=str, default='output/',
                        help='Path to output directory. Create archive inside the directory will have the same name as value of "--src" argument')

    # Generate configuration
    config = parser.parse_args()

    Archivator.compress(config.source, config.destination)

对于单个文件,到目前为止我还没有遇到过问题。然而,虽然src(作为目录)的压缩确实有效(递归和所有),但我注意到一个非常烦人的问题,即完整的目录结构在tar.gz 存档中复制。

例子:

假设我有以下文件结构:

./
 |---compression.py (script above)
 |
 |---updates/
 |       |
 |       |---package1/
 |               |
 |               |---file1
 |               |---file2
 |               |---dir/
 |                     |
 |                     |---file3
 |
 |---compressed/

src = 'updates/package1'dst = 'compressed' 我希望生成的存档将

被放置在dst 中(这个工作) 包含file1file2

关于我期待的第二点

./
 |---compression.py (script above)
 |
 |---updates/
 |       |
 |       |---package1/
 |               |
 |               |---file1
 |               |---file2
 |               |---dir/
 |                    |
 |                    |---file3
 |
 |---compressed/
          |
          |---package1.tar.gz
                 |
                 |---file1
                 |---file2
                 |---dir/
                      |
                      |---file3

但我得到了

./
 |---compression.py (script above)
 |
 |---updates/
 |       |
 |       |---package1/
 |               |
 |               |---file1
 |               |---file2
 |               |---dir/
 |                    |
 |                    |---file3
 |
 |---compressed/
         |
         |---package1.tar.gz
                 |
                 |---updates/
                        |
                        |---package1/
                                |
                                |---file1
                                |---file2
                                |---dir/
                                     |
                                     |---file3

虽然解决方案可能真的很简单,但我似乎无法弄清楚。我什至在src(如果是目录)中尝试了chdir-ing,但它没有用。我的一些实验甚至导致OSError(由于缺少预期存在的目录)和损坏的存档。

【问题讨论】:

【参考方案1】:

首先,您错误地使用了参数recursive

根据tarfile的官方文档:

def add(self, name, arcname=None, recursive=True, exclude=None):
    """Add the file `name' to the archive. `name' may be any type of file
       (directory, fifo, symbolic link, etc.). If given, `arcname'
       specifies an alternative name for the file in the archive.
       Directories are added recursively by default. This can be avoided by
       setting `recursive' to False. `exclude' is a function that should
       return True for each filename to be excluded.
    """

您可以使用arcname 指定存档中的备用名称。而recursive用于控制是否递归创建目录。

tarfile可以直接添加目录。

回到您的问题,您可以手动添加每个文件并指定它们的arcname。例如,tar.add("updates/package1/file1", "file1")

更新

或者您可以将arcname 设置为空字符串。因为它会省略根目录。

【讨论】:

我实际上在package1 中有目录。 file1file2 只是一个例子。 啊,你的解释给了一个尝试arcname的想法。如果你设置arcname=''(空字符串)它正是我想要的!请编辑您的答案,以便我将其标记为正确答案。 :) 好的,现在我完全理解你了。首先,我以为您想展平所有文件... 不,我只是想删除上面的所有目录,包括package1。感谢您的帮助!【参考方案2】:

我基本上使用.replace 来删除带有arcname 的基本文件夹路径。

        with tarfile.open(tar_path, tar_compression) as tar_handle:
            for root, dirs, files in os.walk(test_data_path):
                for file in files:
                    tar_handle.add(os.path.join(root, file), arcname=os.path.join(root, file).replace(test_data_path, ""))

【讨论】:

以上是关于使用 tarfile (Python) 仅压缩给定目录中的文件的主要内容,如果未能解决你的问题,请参考以下文章

Python中使用tarfile压缩解压tar归档文件示例(最新+全面=强烈推荐! ! !)

tarfile/zipfile/shutil

python常用标准库(压缩包模块zipfile和tarfile)

如何使用仅包含数据但没有文件名的python解压缩xz文件?

使用 Python 从仅具有基本名称的 tarfile 中提取文件

Python 压缩文件处理 zipfile & tarfile