在 Cloud Datalab 中使用 Pandas 删除重复项(来自 bigquery)回溯错误

Posted

技术标签:

【中文标题】在 Cloud Datalab 中使用 Pandas 删除重复项(来自 bigquery)回溯错误【英文标题】:Remove duplicates with Pandas in Cloud Datalab (from bigquery) traceback error 【发布时间】:2017-02-28 03:44:54 【问题描述】:

我正在尝试在 Pandas 中使用 drop_duplicates 函数:http://pandas.pydata.org/pandas-docs/version/0.17.1/generated/pandas.DataFrame.drop_duplicates.html

ssc_df = bq.Query(ssc_ciq_match).to_dataframe()
ssc_df.drop_duplicates(ssc_df.ssc_ssc_key, keep = False)

我收到此错误:

ErrorTraceback (most recent call last)
<ipython-input-9-3b85467271be> in <module>()
----> 1 ssc_df.drop_duplicates(ssc_df.ssc_ssc_key, keep = False)

/usr/local/lib/python2.7/dist-packages/pandas/util/decorators.pyc in wrapper(*args, **kwargs)
     89                 else:
     90                     kwargs[new_arg_name] = new_arg_value
---> 91             return func(*args, **kwargs)
     92         return wrapper
     93     return _deprecate_kwarg

/usr/local/lib/python2.7/dist-packages/pandas/core/frame.pyc in drop_duplicates(self, subset, keep, inplace)
   3136         deduplicated : DataFrame
   3137         """
-> 3138         duplicated = self.duplicated(subset, keep=keep)
   3139 
   3140         if inplace:

/usr/local/lib/python2.7/dist-packages/pandas/util/decorators.pyc in wrapper(*args, **kwargs)
     89                 else:
     90                     kwargs[new_arg_name] = new_arg_value
---> 91             return func(*args, **kwargs)
     92         return wrapper
     93     return _deprecate_kwarg

【问题讨论】:

【参考方案1】:

我最初的想法是第一个参数(subset)应该是一个字符串,或者字符串列表。请问您可以尝试以下方法吗?

ssc_df = bq.Query(ssc_ciq_match).to_dataframe()
ssc_df.drop_duplicates('ssc_ssc_key', keep = False)

如果这不能解决您的问题,请您提供完整的堆栈跟踪信息吗?该问题仅包含堆栈跟踪的一部分。

【讨论】:

以上是关于在 Cloud Datalab 中使用 Pandas 删除重复项(来自 bigquery)回溯错误的主要内容,如果未能解决你的问题,请参考以下文章

如何使用R将Google Cloud Datalab输出保存到BigQuery中

如何在cloud datalab上创建和使用UDF?

如何使用 R 将 Google Cloud Datalab 输出保存到 BigQuery

Google Cloud Datalab 中的 BigQuery - 获取查询文本?

删除 Google Cloud Datalab SQL 模块参数中的引号?

使用 Google Cloud Datalab 时如何将 .gz 文件加载到 BigQuery?