利用分箱光滑技术可以进行啥
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了利用分箱光滑技术可以进行啥相关的知识,希望对你有一定的参考价值。
给定一个数据集waitakere.txt,该数据集中含有大量的噪音数据。具体操作要求:1)该数据集的偶数位均为噪音数据,判断偶数位是否为0,若为0,利用1替换。2)对转换后的数据集进行排序,利用分箱技术来光滑数据。假设有10个桶,实现“用箱均值光滑”、 “用箱中位数光滑”、“用箱边界光滑”三种技术。waitakere.txt:
这只是一部分数据,只是为了示例噪音数据
1 0 3 2 0 3
4 0 1 0 0 0
0 0 0 1 0 0
0 0 0 0 7 0
0 8 9 0 9 0
0 6 0 5 0 3
6 0 7 0 1 0
......
登录后复制
解题思路:首先读入数据到列表里,然后对数据进行排序,将数据划分到10个箱中。对于箱均值光滑,箱中每一个值都被替换为箱中的均值。对于箱中位数光滑,箱中每一个值都被替换为箱中的中位数。对于箱边界光滑,箱中每一个值都被替换为最近的边界值。
以下为python代码实现部分:
import numpy as np
def binning(filename,box_num):
my_list=[]
my_list1=[]
noise_data = open(filename)
for line in noise_data.readlines():
dataline=line.strip()
my_list.append(dataline)
for i in range(0,len(my_list)):
my_list[i]=int(my_list[i])
if (i+1) % 2==0 and my_list[i]==0:
my_list[i]=1
my_list1=sorted(my_list)
#print my_list1
box_list=[]
len_box=int(np.ceil(len(my_list1)/float(box_num)))
for i in range(0,10):
each_box=my_list1[i*len_box:(i+1)*len_box]
box_list.append(each_box)
return box_list
def box_mean_smooth(box_list):
for i in range(0,len(box_list)):
box_avg=int(np.average(box_list[i]))
for j in range(0,len(box_list[i])):
box_list[i][j]=box_avg
return box_list
def box_mid_smooth(box_list):
for i in range(0,len(box_list)):
box_mid=int(np.median(box_list[i]))
for j in range(0,len(box_list[i])):
box_list[i][j]=box_mid
return box_list
def box_boundary_smooth(box_list):
for i in range(0,len(box_list)):
left_bdy=box_list[i][0]
right_bdy=box_list[i][-1]
for j in range(0,len(box_list[i])):
if abs(box_list[i][j]-left_bdy)<abs(box_list[i][j]-right_bdy):
box_list[i][j]=left_bdy
else:
box_list[i][j]=right_bdy
return box_list
filename='waitakere.txt'
box_list=binning(filename,10)
print box_list
print box_mean_smooth(box_list)
print box_mid_smooth(box_list)
print box_boundary_smooth(box_list)
登录后复制
下图为实验结果截图:
由于数据较多,截图只是一部分
python
数据
银川旅游景点攻略,这个地方驴友必去之一!良心推荐
精选推荐
广告
python 等深分箱法(均值平滑技术、边界值平滑技术)
1.3W阅读·6评论·24点赞
2020年12月10日
数据挖掘概念与技术(第三版)课后答案——第三章
2.2W阅读·201评论·119点赞
2020年7月3日
python S-G (Savitzky–Golay filter) 平滑滤波和kalman滤波滤掉噪声实现实例,有可视化结果
357阅读·0评论·0点赞
2022年11月10日
R语言数据挖掘(2) 数据预处理
2292阅读·0评论·1点赞
2017年10月10日
数据认知与数据预处理--数据预处理
348阅读·0评论·0点赞
2022年6月23日
数据挖掘复习
815阅读·0评论·0点赞
2021年12月20日
美人鱼公主参加聚会装扮美人鱼游戏
精选推荐
广告
python 数据、曲线平滑处理
9904阅读·0评论·16点赞
2022年4月21日
数据挖掘如何分箱以及如何对每个箱子中的数据进行平滑处理
2.0W阅读·2评论·38点赞
2019年6月24日
数据挖掘概念与技术(原书第三版)范明 孟小峰译-----第三章课后习题答案
2.6W阅读·13评论·21点赞
2017年5月21日
python 数据可视化 -- 真实数据的噪声平滑处理
2779阅读·0评论·2点赞
2019年2月11日
【6】python生成数据曲线平滑处理——(Savitzky-Golay 滤波器、convolve滑动平均滤波)方法介绍,推荐玩强化学习的小伙伴收藏
2612阅读·2评论·3点赞
2021年8月12日
数据挖掘理论与算法笔记
368阅读·0评论·0点赞
2021年6月10日
《数据挖掘概念与技术》学习笔记-第三章
3957阅读·0评论·6点赞
2020年2月14日
这个神奇的库,可以将数据平滑化并找到异常点
135阅读·0评论·0点赞
2022年6月9日
python数据平滑处理,numpy之数据平滑处理
3253阅读·0评论·0点赞
2021年4月27日
python 数据平滑_数据平滑方法的原理和应用
1394阅读·0评论·0点赞
2020年12月9日
python使曲线变得平滑_如何在Python中平滑数据?
3234阅读·0评论·1点赞
2020年12月4日
numpy模块的使用(二)
257阅读·0评论·2点赞
2020年10月3日
去首页
看看更多热门内容
评论1
扣尼奇哇
赞
写得好 参考技术A 利用分箱光滑技术可以进行对转换后的数据集进行排序。
电脑atl是啥意思
电脑atl是什么意思
参考技术A ATL,Active Template Library活动模板库,是一种微软程序库,支持利用C++语言编写ASP代码以及其它ActiveX程序。通过活动模板库,可以建立COM组件,然后通过ASP页面中的脚本对COM对象进行调用。这种COM组件可以包含属性页、对话框等等控件。 参考技术B ATL,Active Template Library活动模板库,是一种微软程序库,支持利用C++语言编写ASP代码以及其它ActiveX程序。通过活动模板库,可以建立COM组件.用于windows shell <extension> 编程。 参考技术C alternate key交替键本回答被提问者采纳
以上是关于利用分箱光滑技术可以进行啥的主要内容,如果未能解决你的问题,请参考以下文章
评分卡应用 - 利用Toad进行有监督分箱(卡方分箱/决策树分箱)
评分卡应用 - 利用Toad进行有监督分箱(卡方分箱/决策树分箱)