我可以为这个大型 excel 文件数据集运行啥样的分析?

Posted

技术标签:

【中文标题】我可以为这个大型 excel 文件数据集运行啥样的分析?【英文标题】:What kind of analysis can I run for this large excel file dataset?我可以为这个大型 excel 文件数据集运行什么样的分析? 【发布时间】:2020-06-13 18:15:13 【问题描述】:

我在一家向客户销售桶的公司工作。我正在为一个班级项目做这件事,但在 Python 方面我并不是最好的。该文件列出了 2015-2019 年间购买不同类型桶的数千名客户。我的财务部门想知道谁退还了他们,谁没有退还,退还的速度是多少?

我设法使用 python 仅使用与我的分析相关的选定列 (see this data)。一旦我导出到 csv 文件,我应该在 Python 中运行什么样的分析来帮助回答我的问题?我已经做了一个数据透视表和图表(计算有多少客户退回桶以及哪一年),但我想使用 Python 使事情更易于阅读和分析,以便我可以回答这个问题。

import pandas as pd

data = pd.read_excel (r'C:\Users\Vilma\Documents\CIS450\Inidividual project\ContainerTracker.xlsx',
sheet_name='2015-2019') 
df = pd.DataFrame(data, columns= ['Customer for Tracking::CustomerName',
          'Customer for Tracking::CustomerID',
          'Order for Tracking::OrderDate',
          'Products for Tracking::ProdName',
          'Transaction Items for Tracking::Description',
          'RemovalNote',
          'RemovalDate',
          'OrderID'])


df.to_csv(r'C:\Users\Vilma\Documents\CIS450\Inidividual project\ContainerTrackerTrimmed.csv',index = False)
print (df)

【问题讨论】:

您好,请阅读this 文章,了解如何发布可重现的 Python pandas 问题。 【参考方案1】:

请阅读我关于发布可复制问题的评论,并附上示例,我们可以复制和粘贴这些示例并继续努力以提出解决方案。

话虽如此,如果我对您的理解正确,我相信.groupby() 功能可能有助于您的事业:

# fill your black entries with something like No Return

df = df[df['RemovalNote'] == ''] = 'No Return' # fill empty rows

df1 = df.groupby('Customer for Tracking::CustomerName')['RemovalNote'].value_counts()

print(df1)

我希望这会有所帮助,即使您的问题非常模棱两可。

【讨论】:

以上是关于我可以为这个大型 excel 文件数据集运行啥样的分析?的主要内容,如果未能解决你的问题,请参考以下文章

我应该在原则上为这个数据库结构创建啥样的实体

“版本文件”是啥样的?

听说python可以写自动办公脚本。那能达到一个啥样的效果呢?或者说在啥样的环境下,会比手动处理更好

这个 wcf 服务正在运行……那是啥样的绑定?哪个是默认绑定?有人解释吗?

有人可以告诉我它是啥样的加密吗?

在Excel中用啥样的公式可以实现,按照时间将销售员的客户接待情况用公式去重并进行分类统计?