python使用箱图法和业务规则进行异常数据处理并检查预测使用的数据特征是否有字段缺失的情况并补齐
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python使用箱图法和业务规则进行异常数据处理并检查预测使用的数据特征是否有字段缺失的情况并补齐相关的知识,希望对你有一定的参考价值。
python使用箱图法和业务规则进行异常数据处理并检查预测使用的数据特征是否有字段缺失的情况并补齐
关于预测或者推理的时候特征补齐的情况是这样的:
你在模型训练的时候使用了多少特征,那么在模型预测和推理的时候也要按照顺序给出同样个数的特征去进行预测和推理;
类似的情况还包括,例如你在训练的时候用了训练集的许多年或者月相关的统计信息,而你在预测的那么几条数据上很难得到类似的信息,那么怎么办那,我们可以把这些长域的统计信息保存下来,在预测的原始数据进行清洗处理之后把统计信息也拼接上去,这样形成最终的送入模型进行推理的特征;
#训练过程中的异常数据所在样本的删除操作,仅仅使用箱图法
def outlier_process_remove(df_out,col_list):
# outlier processing
# outlier processing
import copy
df_out = copy.deepcopy(df)
for col in
以上是关于python使用箱图法和业务规则进行异常数据处理并检查预测使用的数据特征是否有字段缺失的情况并补齐的主要内容,如果未能解决你的问题,请参考以下文章
机器学习数据预处理之离群值/异常值:箱图法(boxplot method)