在 Cloud Datalab 中使用 Pandas 删除重复项(来自 bigquery)回溯错误
Posted
技术标签:
【中文标题】在 Cloud Datalab 中使用 Pandas 删除重复项(来自 bigquery)回溯错误【英文标题】:Remove duplicates with Pandas in Cloud Datalab (from bigquery) traceback error 【发布时间】:2017-02-28 03:44:54 【问题描述】:我正在尝试在 Pandas 中使用 drop_duplicates 函数:http://pandas.pydata.org/pandas-docs/version/0.17.1/generated/pandas.DataFrame.drop_duplicates.html
ssc_df = bq.Query(ssc_ciq_match).to_dataframe()
ssc_df.drop_duplicates(ssc_df.ssc_ssc_key, keep = False)
我收到此错误:
ErrorTraceback (most recent call last)
<ipython-input-9-3b85467271be> in <module>()
----> 1 ssc_df.drop_duplicates(ssc_df.ssc_ssc_key, keep = False)
/usr/local/lib/python2.7/dist-packages/pandas/util/decorators.pyc in wrapper(*args, **kwargs)
89 else:
90 kwargs[new_arg_name] = new_arg_value
---> 91 return func(*args, **kwargs)
92 return wrapper
93 return _deprecate_kwarg
/usr/local/lib/python2.7/dist-packages/pandas/core/frame.pyc in drop_duplicates(self, subset, keep, inplace)
3136 deduplicated : DataFrame
3137 """
-> 3138 duplicated = self.duplicated(subset, keep=keep)
3139
3140 if inplace:
/usr/local/lib/python2.7/dist-packages/pandas/util/decorators.pyc in wrapper(*args, **kwargs)
89 else:
90 kwargs[new_arg_name] = new_arg_value
---> 91 return func(*args, **kwargs)
92 return wrapper
93 return _deprecate_kwarg
【问题讨论】:
【参考方案1】:我最初的想法是第一个参数(subset
)应该是一个字符串,或者字符串列表。请问您可以尝试以下方法吗?
ssc_df = bq.Query(ssc_ciq_match).to_dataframe()
ssc_df.drop_duplicates('ssc_ssc_key', keep = False)
如果这不能解决您的问题,请您提供完整的堆栈跟踪信息吗?该问题仅包含堆栈跟踪的一部分。
【讨论】:
以上是关于在 Cloud Datalab 中使用 Pandas 删除重复项(来自 bigquery)回溯错误的主要内容,如果未能解决你的问题,请参考以下文章
如何使用R将Google Cloud Datalab输出保存到BigQuery中
如何使用 R 将 Google Cloud Datalab 输出保存到 BigQuery
Google Cloud Datalab 中的 BigQuery - 获取查询文本?