Python数据分析pandas去重和替换

Posted 奔跑的金鱼

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python数据分析pandas去重和替换相关的知识,希望对你有一定的参考价值。

1.去重复:duplicated

import pandas as pd

s = pd.Series([1,1,1,1,2,2,2,3,3,4,4,5,6])

# 通过duplicated判断是否重复
print(s.duplicated())

# 通过布尔判断,得到不重复的值
print(s[s.duplicated() == False])

# 移除重复drop_duplicates
s_re = s.drop_duplicates()
print(s_re)

# Dataframe中使用duplicated
df = pd.DataFrame({\'key1\':[\'a\',\'a\',\'b\',\'a\',\'b\'],
                  \'key2\':[\'a\',\'a\',\'c\',5,\'c\']
                  })
print(\'------------df----------------\')
print(df)
print(\'-----------df.duplicated()-----------------\') # 第2行与第1行重复了,所以为True,第5行与第3行重复,所以为True
print(df.duplicated())

print(\'-----------df[\\\'key1\\\'].duplicated()-----------------\')
print(df[\'key1\'].duplicated())

输出结果:

2.替换:replace

import pandas as pd
import numpy as np
s = pd.Series(list(\'aseaasasx\'))
print(s.replace(\'a\', np.nan)) # 替换a为np.nan
print(s.replace([\'a\',\'s\'], np.nan)) # a替换为s,然后再将s替换为np.nan
print(s.replace({\'a\':\'@@@\',\'s\':\'***\'})) # 一次性替换为多个值

输出结果:

以上是关于Python数据分析pandas去重和替换的主要内容,如果未能解决你的问题,请参考以下文章

Python列表合并去重和排序

大数据学习之十——MapReduce代码实例:数据去重和数据排序

常用的去重和排序

数据库:去重和查询重复数据

oracle如何实现去重和分页

Apache Doris 基于 Bitmap 的精确去重和用户行为分析