Dataprep将具有不同列数的文件导入数据集

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Dataprep将具有不同列数的文件导入数据集相关的知识,希望对你有一定的参考价值。

我正在尝试创建一个参数化数据集,该数据集从GCS导入文件并将它们放在彼此之下。一切正常(导入数据>参数化)。

为了给出一些上下文,我每天都会存储一个.csv文件,该文件使用不同的名称来引用该日期。

现在,我的提供商自上个月以来在文件中添加了一个新列。这意味着此日期之前的文件有8列,而从此日期开始有9列。

但是,当我参数化时,Dataprep仅考虑匹配的列(因此仅限8列)。理想情况下,我希望对来自没有此新列的文件的行进行空观察。

怎么能实现这一目标?

答案

参数化数据集仅适用于documentation中提到的固定模式:

避免使用参数创建数据集,其中单个文件或表具有不同的模式。

使用在使用参数创建数据集期间找到的文件之一生成此固定模式。

如果架构已更改,则可以通过使用参数编辑数据集并单击“保存”来“刷新”它。如果所有匹配的文件包含9列,您现在应该在变换器中看到9列。

以上是关于Dataprep将具有不同列数的文件导入数据集的主要内容,如果未能解决你的问题,请参考以下文章

Pandas:使用多张工作表导入 xlsx,将列添加到每个 df 及其所属工作表的名称,将具有相同列数的 df 连接起来

如何在 R 中读取具有不同列数的 CSV 文件

将数据集参数添加到列中,以便稍后通过 DataPrep 在 BigQuery 中使用它们

如何使用 vim 命令或 sed/awk 命令将具有不同列数的行分隔到另一个文件中? [关闭]

组合具有不同列数的 Spark 数据帧

自动 CSV 文件生成,在 Oracle 10g 中具有不同列数的两个标题级别的标题