使用 pd.read_clipboard 时如何处理包含空格的列名？

Posted 2023-03-11

技术标签:

【中文标题】使用 pd.read_clipboard 时如何处理包含空格的列名？【英文标题】：How do you handle column names having spaces in them when using pd.read_clipboard? 【发布时间】：2018-01-13 15:43:38 【问题描述】：

这是我长期面临的一个真正问题。

获取这个数据框：

         A         B  THRESHOLD
       NaN       NaN        NaN
 -0.041158 -0.161571   0.329038
  0.238156  0.525878   0.110370
  0.606738  0.854177  -0.095147
  0.200166  0.385453   0.166235

使用pd.read_clipboard 很容易复制。但是，如果其中一个列名有空格：

         A         B     Col #3
       NaN       NaN        NaN
 -0.041158 -0.161571   0.329038
  0.238156  0.525878   0.110370
  0.606738  0.854177  -0.095147
  0.200166  0.385453   0.166235

然后，它是这样读的：

          A         B       Col  #3
0       NaN       NaN       NaN NaN
1 -0.041158 -0.161571  0.329038 NaN
2  0.238156  0.525878  0.110370 NaN
3  0.606738  0.854177 -0.095147 NaN
4  0.200166  0.385453  0.166235 NaN

我怎样才能防止这种情况发生？

【问题讨论】：

我通常会尝试确保列被多个空格分隔。这样，我可以使用df = pd.read_clipboard(header=0, sep="\s2,", engine="python") 之类的东西。 atom 和 sublime text 都允许您在正则表达式中搜索和替换；这应该会有所帮助。 @Abdou 谢谢，这是有道理的。我一直想知道其他人如何处理这些问题。感谢您将其转化为问题。 @Abdou 是的...pd.read_clipboard 是每个人都在使用但没人谈论的工具...哈哈 【参考方案1】：

在这种情况下，我所做的是将所有列分开两个或多个空格，然后我使用 sep='\s\s+' 作为分隔符，这样当我确实有带有单个空格的列标题时因为，它上面的第 3 列将其视为一列。

         A         B     Col #3
       NaN       NaN        NaN
 -0.041158  -0.161571   0.329038
  0.238156   0.525878   0.110370
  0.606738   0.854177  -0.095147
  0.200166   0.385453   0.166235

df = pd.read_clipboard(sep='\s\s+')

您确实收到此警告，但您可以忽略它，因为它做得对。或者，如果您的强迫症能胜过您，您可以输入engine='python'。 :)

C:\程序文件\Anaconda3\lib\site-packages\pandas\io\clipboards.py:63： ParserWarning：回退到“python”引擎，因为“c” 引擎不支持正则表达式分隔符（分隔符 > 1 char 和不同于 '\s+' 被解释为正则表达式）；你可以避免这种情况通过指定 engine='python' 发出警告。返回 read_table(StringIO(text), sep=sep, **kwargs)

print(df)

          A         B    Col #3
0       NaN       NaN       NaN
1 -0.041158 -0.161571  0.329038
2  0.238156  0.525878  0.110370
3  0.606738  0.854177 -0.095147
4  0.200166  0.385453  0.166235

【讨论】：

当你说你让它们分开 2 个空格时，你的意思是你将它粘贴到记事本中并手动输入这些空格？好吧，这与 Abdou 所说的相似，而且很有道理。我有更多问题会在以后的问题中提出，但这个答案解决了这个问题，所以谢谢。 @cᴏʟᴅsᴘᴇᴇᴅ 通常，当我看到标题带有空格或带有时间的日期时，我总是输入 sep='\s\s+'，因为通常有日期空间时间，这被视为单列.【参考方案2】：

使用 re、io 和 pd.read_table 来推动我在 cmets 中提出的观点，我复制了您在帖子中的确切文本，应用了第一轮 re.sub 以删除任何前导空格.然后，我用 2 个空格替换了前面有数字的任何空格——这是手头的情况所独有的，因为列名主要是字符串字符。完成所有这些后，我将生成的字符串转换为 io.StringIO 对象并将后者提供给 pd.read_table 函数。这与复制文本并将其粘贴到sublime text，然后在最终复制结果字符串并将其提供给pd.read_clipboard 之前应用搜索和替换操作基本相同。

下面的sn-p代码说明了这一点：