向 100K+ 数据集添加行

Posted

技术标签:

【中文标题】向 100K+ 数据集添加行【英文标题】:Adding rows to a 100K+ dataset 【发布时间】:2020-02-09 08:01:26 【问题描述】:

我对 Python 和数据科学真的很陌生。

我有一个包含 30 列的 100K+ CSV 数据集。目标是在满足某些条件时向数据集添加一些行。

为了方便起见,假设我只有三个名为“A”、“B”和“C”的列,A 和 B 的类型是整数。 C 是一个字符串。

我们不用担心 B 和 C,因为我会把所有 B 列的值都设置为 0,然后我会计算 C。

下面是我的“虚构”数据集的快速视图:

   A
 _____
|  1  |
|  4  |
|  3  |
|  7  |
_______

我在 Dataframe 中解析了我的数据集,并按“A”的值对其进行了排序。

所以,现在,它看起来像这样:

   A
 _____
|  1  |
|  3  |
|  4  |
|  7  |
_______

现在,我想遍历我的 DataFrame 并检查我是否在两行之间缺少一些数字并将它们添加到数据框中,即:如果 A[i+1]-A[i]>1,我想添加 A [i]+1 之间。

   A
 _____
|  1  |
|  2  |
|  3  |
|  4  |
|  5  |
|  6  |
|  7  |
_______

据我所知,我有以下选择:

    将我的新行直接附加到新数据框。我不知道为什么 但我认为这不是一个好主意。如果我是对的,你们可以 解释为什么 ?如果我错了,你们能解释一下原因吗? 将我的新行附加到一个列表中,从该列表中创建一个 DataFrame,然后将我的旧 DataFrame 与我的新数据“加入”。 Idk,有什么建议吗?

我现在的主要问题是,处理大型 DataFrame 很麻烦,而且我的脚本需要很长时间才能完成这项工作。你们能引导我找到处理如此大量数据的“正确方法”吗?

顺便说一句,这是我为选择 n°2 制作的代码:

df=pd.read_csv("dataset.csv")
df.sort_values(by="A")
L=[]
for i in range (0, len(df)-1):
    actual=df.at[i, 'A']
    next=df.at[(i+1), 'A']
    diff=actual-next-1
    for j in range(1, diff):
        L.append(actual+1)
        actual +=1
df=pd.DataFrame(data=L, columns=list(df))
df.to_csv("my_output.csv", sep=',')

【问题讨论】:

其他列应该如何处理? @WillemVanOnsem 我只是要把 int 列的它们归零,我有一个分类列,我稍后会计算,很好的评论,我会在我的帖子中指定这个,谢谢 【参考方案1】:

reindex

'A' 设置为索引,reindex 将为我们指定的每个值创建一行,通过range 完成。所有其他列的缺失单元格是(分别为浮点数和对象)。 reindex之前不需要排序。

df = pd.DataFrame('A': [4, 3, 1, 7], 
                   'B': [10, 11, 12, 13], 
                   'C': ['B1', 'B2', 'B3', 'B4'],
                   'D': [True, False, True, True])

idx = range(df.A.min(), df.A.max()+1)  # All 'A' values you want to represent
df.set_index('A').reindex(idx).reset_index()
#   A     B    C      D
#0  1  12.0   B3   True
#1  2   NaN  NaN    NaN
#2  3  11.0   B2  False
#3  4  10.0   B1   True
#4  5   NaN  NaN    NaN
#5  6   NaN  NaN    NaN
#6  7  13.0   B4   True

如果'A' 是重复的,那么我们需要一个outer 连接来完成相同的操作。

(df.set_index('A')
   .join(pd.DataFrame(index=pd.Index(idx, name='A')), how='outer')
   .reset_index())

【讨论】:

如果“A”是一个日期时间,我们可以使用同样的东西吗? @lefragan 是的。如果它是 datetime dtype,那么您可以设置索引并使用 DataFrame.resample 假设您想要一个常规频率。同样,您可以使用pd.date_range 创建时间列表并重新索引,就像上面一样。 B 列用零填充,C 列用空字符串填充,有没有快速的方法来实现这一点? @lefragan 如果您想保留原始数据并仅填充缺失值,您可以添加.fillna('B': 0, 'C': '')。如果您想覆盖所有值,请添加:.assign(**'B': 0, 'C': '')。如果是后者,如果您不需要来自其他列的信息并且只需要 A 值的范围,您几乎可能只想从头开始重建 DataFrame。类似pd.DataFrame('A': idx, 'B': 0, 'C': '')【参考方案2】:

让我们重新创建您的 DataFrame 并通过 A 对其进行索引:

rows = [1, 4, 3, 7]
df = pd.DataFrame("A": rows, "B": [1] * len(rows), "C": ["string"] * len(rows))
N = df.A.max()
df = df.set_index("A")

一种选择是创建一个新的DataFrame,其中填充A 的所有可能条目,并在B 中填充零:

complete_df = pd.DataFrame("A": range(1, N + 1), "B": [0] * N)
complete_df = complete_df.set_index("A")

现在您可以使用df 中的值进行更新并删除A 上的索引:

complete_df = df.combine_first(complete_df)
complete_df = complete_df.reset_index()

这样,您将保留所有列,在 B 列中为所有新行添加零,并在所有其他列中使用 NaN

【讨论】:

以上是关于向 100K+ 数据集添加行的主要内容,如果未能解决你的问题,请参考以下文章

如何在数据集c#中向现有数据表添加行?

在 50 个变量 x 100k 行数据集上优化 K-最近邻算法

通过添加具有条件的两个相邻行来创建列

根据前一行的内容向行添加新值

使用 sklearn.utils.shuffle 向 K 邻居分类器中的数据集添加一些噪声

向MongoDB中的现有集合添加具有大量行的新字段