上个一篇博客讲解了如何进行数据的缺失值处理,本篇就来讲解一下如何进行数据转换的一系列操作。
一:删除重复值
由于各种原因,DataFrame中会出现重复行,如下:
用duplicated方法可以返回一个布尔值Series,找出每一行是否有重复情况。
而drop_duplicates返回的是DataFrame,内容是duplicated返回数组中为False的部分。
上面的方法默认是对列进行操作,可以在drop_duplicates方法的括号里边加入参数指定需要去除重复的列,加入参数keep = \'last\'将会返回最后一个观测到的值,如下:
二:使用函数或映射进行数据转换
可以用map函数把一个函数或者包含映射关系的字典型对象加入到我们的数据列表中,如下:
三:替代值
可以用replace方法替换一些值,生成新的对象,也可以用字典的形式。