python处理excel填补日期空缺值

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python处理excel填补日期空缺值相关的知识,希望对你有一定的参考价值。

在做excel表格的时候,需要筛选18年3月之前的数据,但是 因为日期有为空值的,本应该也筛选出来的,但是pandas dataframe,将其忽视了,所以用了fillna填充"1900/1/0",再用loc去筛选的时候,error显示str类型不能筛选,然后填充完又用了datetime.to_datetime,在筛选的时候还是出错,我该怎么处理啊?脑阔疼

代码:
#coding=utf-8import pandas as pd #导入pandas模块inputfile = \'C:/Users/DELL/Desktop/heart.xls\'outputfile = \'C:/Users/DELL/Desktop/hearted.xls\'#创建源文件和目标文件路径def FillNa(input,output):data = pd.read_excel(input, header=None, as_index=False) #读取excel文件data0 = data.iloc[1:-1] #进行数据处理,只余可供操作数据data1 = data.fillna(data0.mean()) #填补空缺值data1.to_excel(output, header=None, index=False) #导出目标文件FillNa(inputfile,outputfile)
参考技术A pandas的文档里有专门章节论述如何处理空缺值 参考技术B 把程序源码贴出来看看呀兄dei,还有第二个错是什么错也不说追问

fillna填充空格进去的是不是str类型,筛选的时候pandas才不能与日期直接相比较,我用to_datetime转一下,还是不能筛选。哪里错了吗

面经|缺失值填补的7种方法(使用场景+Python代码)

新专栏《数据挖掘(分析)面经》
第一篇:缺失值处理方法

对于从事数据相关工作的小伙伴,面试的时候经常会被问到如何进行缺失值/异常值的处理,本文来梳理一下填补缺失值的7种方法。

示例数据
本文所使用的示例数据创建如下:

import pandas as pd
import numpy as np

data = pd.DataFrame(
    'name': ['Bob', 'Mary', 'Peter', np.nan, 'Lucy'],
    'score': [99, 100, np.nan, 91, 95],
    'class': ['class1', 'class2', 'class1', 'class2', np.nan],
    'sex': ['male', 'fmale', 'male', 'male', 'fmale'],
    'age': [23, 25, 20, 19, 24]
)

一、均值填充

  • 适用数据类型:数值类型
  • 适用场景:数据整体极值差异不大时
  • 举例:对成年男性身高的缺失值进行填充
  • 代码示例:对data数据中的score进行均值填充
data['score'].fillna(data['score'].mean())
# 结果如下
0     99.00
1    100.00
2     96.25
3     91.00
4     95.00

二、中位数填充

  • 适用数据类型:数值类型
  • 适用场景:数据整体极值差异较大时
  • 举例:对人均收入进行填充(数据中含有高收入人群:如马总)
  • 代码示例:对data数据中的score进行中位数填充
data['score'].fillna(data['score'].median())
# 结果如下
0     99.0
1    100.0
2     97.0
3     91.0
4     95.0

三、众数填充

  • 适用数据类型:字符类型|没有大小关系的数值类型数据
  • 适用场景:大多数情况下
  • 举例:对城市信息的缺失进行填充/对工人车间编号进行填充
  • 代码示例:对data数据中的class进行众数填充(注意:众数填充时要通过索引0进行取值,一组数据的众数可能有多个,索引为0的数据一定会存在)
data['class'].fillna(data['class'].mode()[0])
# 结果如下
0    class1
1    class2
2    class1
3    class2
4    class1

四、前后数据填充

  • 适用数据类型:数值类型|字符类型
  • 适用场景:数据行与行之间具有前后关系时
  • 举例:学年成绩排行中的某同学某科目成绩丢失
  • 代码示例:对data数据中的score进行前后数据填充
# 前文填充
data['score'].fillna(method='pad')
# 后文填充
data['score'].fillna(method='bfill')
# 前文填充结果
0     99.0
1    100.0
2    100.0
3     91.0
4     95.0
# 后文填充结果
0     99.0
1    100.0
2     91.0
3     91.0
4     95.0

五、自定义数据填充

  • 适用数据类型:数值类型|字符类型
  • 适用场景:业务规定外的数据
  • 举例:某调查问卷对婚后幸福程度进行调查,到那时很多人是未婚,可以自定义内容表示未婚人群
  • 代码示例:对data数据中的name进行自定义数据填充
data['name'].fillna('no_name')
# 结果如下
0        Bob
1       Mary
2      Peter
3    no_name
4       Lucy

六、Pandas插值填充

  • 适用数据类型:数值类型
  • 适用场景:数据列的含义较为复杂,需要更精确的填充方法时
  • 举例:对所有带有nan的数值列dataframe进行填充
  • 说明:pandas中进行空值填充的方法为interpolate(),该方法的本质是使用各种数学(统计学)中的插值方法进行填充,其中包含最近邻插值法、阶梯插值、线性插值、B样条曲线插值等多种方法。
  • 参数说明:interpolate()参数介绍
  • 代码示例:
data['score'].interpolate()
# 结果如下
0     99.0
1    100.0
2     95.5
3     91.0
4     95.0

七、机器学习算法填充

  • 适用数据类型:数值类型|字符类型
  • 适用场景:具有多种数据维度的场景
  • 说明:可以选择不同的回归|分类模型对数据进行填充
  • 注意:下面的例子中不考虑具体场景,只是用于举例
  • 数值类型数据填充代码示例(线性回归):
from sklearn.linear_model import LinearRegression

# 获取数据
data_train = data.iloc[[0, 1, 3]]

data_train_x = data_train[['age']]
data_train_y = data_train['score']
# 使用线性回归进行拟合
clf = LinearRegression()
clf.fit(data_train_x, data_train_y)
# 使用预测结果进行填充
data['score'].iloc[2] = clf.predict(pd.DataFrame(data[['age']].iloc[2]))

  • 字符类型数据填充代码示例(决策树):
from sklearn.tree import DecisionTreeClassifier

# 获取数据
data_train = data.iloc[[0, 1, 3]]

data_train_x = data_train[['age']]
data_train_y = data_train['class']
# 使用决策树进行拟合
clf = DecisionTreeClassifier()
clf.fit(data_train_x, data_train_y)
# 使用分类结果进行填充
data['class'].iloc[4] = clf.predict(pd.DataFrame(data[['age']].iloc[4]))[0]

以上是关于python处理excel填补日期空缺值的主要内容,如果未能解决你的问题,请参考以下文章

其他国产手机未能填补华为的空缺,苹果在高端手机市场已无对手

数据挖掘工作经验

fints储存金融时间序列

Python读取Excel,日期列读出来是数字的处理

luogu3960 列队

SQL Server 填补时间序列中的空白