如何为csv文件的column2,column 3编写if条件
Posted
技术标签:
【中文标题】如何为csv文件的column2,column 3编写if条件【英文标题】:how to write if condition for column2 , column 3 of a csv file 【发布时间】:2017-06-15 01:03:50 【问题描述】:我有一个包含 3 列的 CSV 文件。
这是我必须做的:
我想写一个if
条件或类似if Divi == 'core'
的任何东西,然后我需要没有冗余的标签计数(不同的),即(核心划分标签中的两个sand1 应该被视为只有一个计数)。
如果条件像Div === saturn or core && type == dev
,那么同样的事情需要计算标签的数量(不同)
谁能帮我解决这个问题?因为这是我的想法..如果满足要求,任何新想法都将被接受
【问题讨论】:
你能展示一下你尝试过的东西吗? 【参考方案1】:首先,使用 pandas 加载您的数据。
import pandas as pd
dataframe = pd.read_csv(path_to_csv)
其次,正确格式化您的数据(您的示例中的“除”列中可能有小写/大写数据)
对于 dataframe.columns 中的列: 数据框[列] = 数据框[列].lower()
如果您只想按一列计算频率,您可以:
dataframe['Division'].value_counts()
如果您想按两列计算,您可以:
dataframe.groupby(['Division','tag']).count()
希望对您有所帮助 编辑: 虽然这不会只计算满足 2 个条件的时间,这正是你所要求的,但它会给你一个更“完整”的答案,显示所有两列组合的计数
【讨论】:
以上是关于如何为csv文件的column2,column 3编写if条件的主要内容,如果未能解决你的问题,请参考以下文章
处理 CSV 文件中的 JSON 对象并保存到 PySpark DataFrame