将带有 timedeltas 的 pandas 数据帧写入镶木地板

Posted

技术标签:

【中文标题】将带有 timedeltas 的 pandas 数据帧写入镶木地板【英文标题】:writing pandas dataframe with timedeltas to parquet 【发布时间】:2018-12-22 05:23:05 【问题描述】:

我似乎无法通过 pyarrow 将包含 timedeltas 的 pandas 数据帧写入镶木地板文件。

pyarrow 文档指定它可以处理具有 ms 精度的 numpy timedeltas64。但是,当我从 numpy 的 timedelta64[ms] 构建数据框时,该列的数据类型是 timedelta64[ns]

Pyarrow 会因此引发错误。

这是 pandas 或 pyarrow 中的错误吗?有没有简单的解决方法?

以下代码:

df = pd.DataFrame(
    'timedelta': np.arange(start=0, stop=1000,
        step=10,
         dtype='timedelta64[ms]')
)

print(df.timedelta.dtypes)

df.to_parquet('test.parquet', engine='pyarrow', compression='gzip')

产生以下输出:timedelta64[ns] 和错误:

---------------------------------------------------------------------------
ArrowNotImplementedError                  Traceback (most recent call last)
<ipython-input-41-7df28b306c1e> in <module>()
      3                                    step=10,
      4                                    dtype='timedelta64[ms]')
----> 5             ).to_parquet('test.parquet', engine='pyarrow', compression='gzip')

~/miniconda3/envs/myenv/lib/python3.6/site-packages/pandas/core/frame.py in to_parquet(self, fname, engine, compression, **kwargs)
   1940         from pandas.io.parquet import to_parquet
   1941         to_parquet(self, fname, engine,
-> 1942                    compression=compression, **kwargs)
   1943 
   1944     @Substitution(header='Write out the column names. If a list of strings '

~/miniconda3/envs/myenv/lib/python3.6/site-packages/pandas/io/parquet.py in to_parquet(df, path, engine, compression, **kwargs)
    255     """
    256     impl = get_engine(engine)
--> 257     return impl.write(df, path, compression=compression, **kwargs)
    258 
    259 

~/miniconda3/envs/myenv/lib/python3.6/site-packages/pandas/io/parquet.py in write(self, df, path, compression, coerce_timestamps, **kwargs)
    116 
    117         else:
--> 118             table = self.api.Table.from_pandas(df)
    119             self.api.parquet.write_table(
    120                 table, path, compression=compression,

table.pxi in pyarrow.lib.Table.from_pandas()

~/miniconda3/envs/myenv/lib/python3.6/site-packages/pyarrow/pandas_compat.py in dataframe_to_arrays(df, schema, preserve_index, nthreads)
    369         arrays = [convert_column(c, t)
    370                   for c, t in zip(columns_to_convert,
--> 371                                   convert_types)]
    372     else:
    373         from concurrent import futures

~/miniconda3/envs/myenv/lib/python3.6/site-packages/pyarrow/pandas_compat.py in <listcomp>(.0)
    368     if nthreads == 1:
    369         arrays = [convert_column(c, t)
--> 370                   for c, t in zip(columns_to_convert,
    371                                   convert_types)]
    372     else:

~/miniconda3/envs/myenv/lib/python3.6/site-packages/pyarrow/pandas_compat.py in convert_column(col, ty)
    364 
    365     def convert_column(col, ty):
--> 366         return pa.array(col, from_pandas=True, type=ty)
    367 
    368     if nthreads == 1:

array.pxi in pyarrow.lib.array()

array.pxi in pyarrow.lib._ndarray_to_array()

error.pxi in pyarrow.lib.check_status()

ArrowNotImplementedError: Unsupported numpy type 22

【问题讨论】:

这是 Arrow 中缺少的功能,错误类型 ArrowNotImplementedError 已经说明了该功能。请在issues.apache.org/jira/projects/ARROW 提出问题,如果您需要,最快的方法是自己实现。 这是自 2019 年以来在 ARROW-6780 中跟踪的,看起来卡住了。 【参考方案1】:

fastparquet 支持 timedelta 类型。

首先installfastparquet,例如:

pip install fastparquet

那么你可以使用这个:

df.to_parquet('test.parquet.gzip', engine='fastparquet', compression='gzip')

【讨论】:

使用 fastparquet 保存只能部分工作,(也直接使用:fastparquet.write(output_file, df, compression='gzip'))我在阅读时收到以下错误:ValueError: hour must be in 0..23 尽管 pd.Timedelta 之前在 df 中没有 24 小时值。

以上是关于将带有 timedeltas 的 pandas 数据帧写入镶木地板的主要内容,如果未能解决你的问题,请参考以下文章

如何将 timedelta 转换为 pandas 中的时间?

如何将 timedelta 与 pandas df.query() 一起使用?

查询pandas中的timedelta列,过滤行

如何在转换 timedelta 变量时消除 pandas 中的错误?

从 Pandas Timedelta 获取总小时数?

pandas使用dataframe中的两列时间对象数据列作差生成时间差数据列将时间差(timedelta对象)与特定时间长度进行比较