pandas 将excel中的一列文本数据拆分成多列如何操作

Posted 2023-04-08

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了pandas 将excel中的一列文本数据拆分成多列如何操作相关的知识，希望对你有一定的参考价值。

例如如何把如下C列短期劳务拆分成两列短期劳务和短期，意思是取c列的字符的前两位生成新的一列。多谢

参考技术A 假设c列第一组数据在C2，则在d2手动输入短期，在E2输入劳务。选中D2和E2，下拉，然后在最后一个格子旁边，有填充选项，选择快速填充，就可以了。C列的数据会自动被拆分成两列在D和E里。参考技术B 选择该列列号（选中整列）——“数据”菜单——分列——按固定宽度——下一步——在标尺上需要的位置分别点击一次（自动显示出分隔线）——完成。参考技术C D1=LEFT(C1,2)

将分组后列的多个值合并为python pandas中的一列

【中文标题】将分组后列的多个值合并为python pandas中的一列【英文标题】：Merge multiple values of a column after group by into one column in python pandas 【发布时间】：2020-07-02 09:10:56 【问题描述】：

我正在寻找与此线程中类似的任务：Merge multiple column values into one column in python pandas

但不同的是，我想创建一个新列，在按另一列分组后合并一列中的所有非空值。这是一个玩具示例：

df= pd.DataFrame('ID1' : [1,1,2,2,3,3,3],'ID2' : ['a','a','b','b','c','c','c'],
             'Status' : pd.Series([np.nan,'1', np.nan,'1','2',np.nan,'1'], 
                                  dtype="category"))

 df
Out[74]: 
     ID1 ID2 Status
 0    1   a    NaN
 1    1   a      1
 2    2   b    NaN
 3    2   b      1
 4    3   c      2
 5    3   c    NaN
 6    3   c      1

然后我想groupbyID1和ID2：

gr = df.groupby(['ID1','ID2'])

然后，我希望我的结果如下所示：

Out:
   NewCol
0   1
1   1
2   2,1

所以它是一个新的DataFrame，其中包含Status 列的non-null 值，该列按ID1 和ID2 分组。

提前致谢。

【问题讨论】：

【参考方案1】：

使用 GroupBy.agg 和 lambda 函数是最通用的解决方案：

df1 = df.groupby(['ID1','ID2'])['Status'].agg(lambda x: ','.join(x.dropna())).reset_index()
print (df1)
   ID1 ID2 Status
0    1   a      1
1    2   b      1
2    3   c    2,1

另一个想法是在第一步中删除重复的，但是如果某个组只有错误值，它会从输出中删除，所以接下来的处理是必要的，比如merge：

#first group with only NaNs
df= pd.DataFrame('ID1' : [1,1,2,2,3,3,3],'ID2' : ['a','a','b','b','c','c','c'],
             'Status' : pd.Series([np.nan,np.nan, np.nan,'1','2',np.nan,'1'], 
                                  dtype="category"))


#first group is dropped
df11 = (df.dropna(subset=['Status'])
          .groupby(['ID1','ID2'])['Status']
          .agg(','.join)
          .reset_index())
print (df11)
   ID1 ID2 Status
0    2   b      1
1    3   c    2,1

#added missing pairs and `NaN`s converted to empty strings:
df2 = df.drop_duplicates(['ID1','ID2'])[['ID1','ID2']].merge(df11, how='left').fillna('')
print (df2)
   ID1 ID2 Status
0    1   a       
1    2   b      1
2    3   c    2,1

第一个解决方案：

df1 = df.groupby(['ID1','ID2'])['Status'].agg(lambda x: ','.join(x.dropna())).reset_index()
print (df1)
   ID1 ID2 Status
0    1   a       
1    2   b      1
2    3   c    2,1

【讨论】：

是的，完全正确。非常感谢。

以上是关于pandas 将excel中的一列文本数据拆分成多列如何操作的主要内容，如果未能解决你的问题，请参考以下文章

pandas 将excel中的一列文本数据拆分成多列 如何操作

将分组后列的多个值合并为python pandas中的一列

pandas 将excel中的一列文本数据拆分成多列如何操作