为啥 netCDF4 文件大小与写入方式如此不同?

Posted

技术标签:

【中文标题】为啥 netCDF4 文件大小与写入方式如此不同?【英文标题】:Why the netCDF4 file size are so different from the write ways?为什么 netCDF4 文件大小与写入方式如此不同? 【发布时间】:2020-04-17 05:28:38 【问题描述】:

我有几个文本文件存储具有不同时间和不同组的二维数据(相同形状)。现在我想将这些数据转换为一个包含多个 netCDF 组的 netCDF 文件。每个组的变量具有相同的维度,例如:dimensions:time=62, lat=118, lon=104。我以三种方式写入数据。代码用python3.7和netCDF4包编写。

from netCDF4 import Dataset, date2num, date2index
import numpy as np
import os
from datetime import datetime, timedelta


def initialize(fpath):
    rootgrp = Dataset(fpath, 'w')
    rootgrp.createDimension('time', 62)
    rootgrp.createDimension('lat', 118)
    rootgrp.createDimension('lon', 104)

    times = rootgrp.createVariable('time', 'f8', ('time', ))
    lats = rootgrp.createVariable('lat', 'f4', ('lat', ))
    lons = rootgrp.createVariable('lon', 'f4', ('lon', ))

    lats.units = 'degrees north'
    lons.units = 'degrees east'
    times.units = 'hours since 1900-01-01 00:00:00.0'
    times.calendar = 'gregorian'
    datetimes = [
        datetime(2020, 3, 1, 8) + n * timedelta(hours=12) for n in range(62)
    ]

    lats[:] = np.linspace(-40, 40, 118)
    lons[:] = np.linspace(80, 160, 104)
    times[:] = date2num(datetimes, times.units, times.calendar)
    return rootgrp


def write(fpath, data, **kwargs):
    if not os.path.exists(fpath):
        rootgrp = initialize(fpath)
    else:
        rootgrp = Dataset(fpath, 'r+')

    grppath = kwargs['grppath']
    varname = kwargs['varname']
    grp = rootgrp.createGroup(grppath)
    if varname in grp.variables:
        var = grp.variables[varname]
    else:
        var = grp.createVariable(varname,
                                 'f4', ('time', 'lat', 'lon'),
                                 zlib=True,
                                 least_significant_digit=1)

    times = rootgrp.variables['time']
    datetimes = kwargs.get('datetimes', None)
    if datetimes is None:
        time_index = slice(None)
    else:
        time_index = date2index(datetimes, times, calendar=times.calendar)

    print(var[time_index, :, :].shape)
    print(data.shape)
    var[time_index, :, :] = data
    rootgrp.close()


def get_data(groups, datetimes):
    shape = (118, 104)
    size = shape[0] * shape[1]
    all_group = 
    for group in groups:
        data_list = []
        for time in datetimes:
            data = np.random.random(size).reshape(shape)
            data_list.append(data)
        all_group[group] = data_list
    return all_group


def way1(dateimes, grouped_data):
    for i, time in enumerate(datetimes):
        for group, data in grouped_data.items():
            write('way1.nc',
                  data[i],
                  grppath=group,
                  varname='random',
                  datetimes=time)


def way2(datetimes, grouped_data):
    for group in grouped_data:
        all_data = np.stack(grouped_data[group])
        write('way2.nc',
              all_data,
              grppath=group,
              varname='random',
              datetimes=datetimes)


def way3(datetimes, grouped_data):
    for group, data in grouped_data.items():
        for i, time in enumerate(datetimes):
            write('way3.nc',
                  data[i],
                  grppath=group,
                  varname='random',
                  datetimes=time)


groups = list('abcdefghijklmnopqrstuvwxyz')
datetimes = [
    datetime(2020, 3, 1, 8) + n * timedelta(hours=12) for n in range(62)
]
grouped_data = get_data(groups, datetimes)
way1(datetimes, grouped_data)
way2(datetimes, grouped_data)
way3(datetimes, grouped_data)

这三种方式写入的文件,除了文件大小,都是一样的(Variable的ChunkSizes = (62U, 118U, 104U))。

方式一:495,324,392 Bytes(磁盘503.3 MB)

方式2:15,608,108 Bytes(磁盘16.7 MB)

方式3:15,608,108 Bytes(磁盘16.7 MB)

我想知道是否有人可以为我解释一下。 谢谢!

【问题讨论】:

你确定实际的数组和块大小是一样的吗?您可以使用h5ls 命令行工具(包含在 HDF-5 安装中)来获取有关存储和卡盘的更多信息(因为 NetCDF-4 文件也是 HDF-5 文件)。也许这些信息也可以通过 HDF-Viewer 找到。但我会在你的两个文件上使用h5ls -r -v yourfile.nc,然后使用差异查看器来比较和查找差异。 嗨,@titusjan。谢谢你的帮助。我已按照您的指示打印出h5ls 命令的结果。它们之间有很多差异,但我不明白这是什么意思。我的代码创建的两个 NC 文件完全相同,这意味着导出到 NC 文件的数据都是我想要的,除了文件大小不一样。我想了解为什么这些差异如此之大。 对于每个数据集,都有一个 Chunks 行显示实际的块大小。这些符合预期吗? Storage 行的相同问题。如果没有,您必须进行一些调试。以一个数据集为例,详细看看它是如何创建的。如果您需要我们的进一步帮助,您必须使用人工数据制作测试程序,以便我们可以重现问题。创建MRE。你给的sn-ps不完整。也就是说,我无法运行它们并重现您的问题。 @titusjan 你给我这些建议真是太好了。我已经编辑了问题,给出了完整的代码 sn-ps 使用了一些硬编码,并添加了第三种写入数据的方式。我认为代码 sn-ps 现在可以在安装了所需软件包的计算机上运行。我仍然很困惑为什么way1和way2的文件大小不同,但是way2和way3的文件大小是一样的。 我对创建合适的 MRE 表示赞赏和支持。请参阅我迄今为止发现的答案。 【参考方案1】:

不是一个完整的答案,但我现在必须去睡觉,并想分享我到目前为止发现的东西。 h5ls 的输出确实表明所有数据集的大小和块都相同,所以这不是问题。

在您的程序中,您测试 netCDF 文件或变量是否存在,然后仅在尚不存在时创建它。但是,您不测试组,您总是创建它们。通过将grp = rootgrp.createGroup(grppath) 更改为以下行,way1.nc 的大小减少到 19 MB。

if grppath in rootgrp.groups:
    grp = rootgrp[grppath]
else:
    grp = rootgrp.createGroup(grppath)

当您从 HDF5 文件中删除对象时,文件大小保持不变(请参阅第 5.5.2 节。从文件中删除数据集并回收HDF5 user guide 的空间)。所以我怀疑一遍又一遍地创建一个同名的组会分配存储空间但不会释放旧组的磁盘空间,从而造成内存泄漏。我不知道为什么这种情况只发生在方式 1 中,而不发生在方式 3 中。

我也不明白为什么way1.nc 仍然比其他人 (15 MB) 稍大 (19 MB)。

最后,因为只有在netCDF文件不存在的情况下才调用initialize函数,所以在启动程序之前必须小心删除之前运行的输出。您很容易忘记这一点,因此我建议您修改代码,以便始终在程序启动时执行 initialize

【讨论】:

initialize 函数移到程序开始是一个很好的建议。但问题仍然没有弄清楚。在创建之前是否需要测试组是否存在不是重点,请参阅netCDF4_API_documentation。即使我在创建组之前测试它的存在,way1.nc 在我的计算机中的大小仍然约为 490MB(macOS 10.13.6)。也许我需要阅读您提供的链接以查找是否有答案。还是谢谢!

以上是关于为啥 netCDF4 文件大小与写入方式如此不同?的主要内容,如果未能解决你的问题,请参考以下文章

与 BigQuery 表输入大小相比,为啥我的 PCollection (SCollection) 大小如此之大?

为啥HDFS写入速度如此之慢

为啥光栅文件大小与对象大小有很大不同?

为啥在 Chrome 中转换字体大小如此不稳定?

为啥 XMLHttpRequest 响应的长度与请求文件的大小不同?

我可以从多个进程/线程写入 HDF5 文件吗?