PandasPandas Daframe 常用用法
Posted Better Bench
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PandasPandas Daframe 常用用法相关的知识,希望对你有一定的参考价值。
(1)取某列等于某个值的所有行数据
df.loc[df['A']==999]
(2)datetime作为索引取行数据
# 第一种方式
df_index = list(df.index)
for index in df_index:
tmp = df.loc[[str(index)]]
# 第二种方式
df_index = list(df.index)
for index in df_index:
tag = df.loc[str(index),'B']
(3)取某列等于某个值的所有行
df = df[df.tag==False]
(4)合并list中的dataframe
df_list = [df1,df2,df3]
all_df = pd.concat(df_list)
(5)将某一列作为index索引
df.set_index(["Column"], inplace=True)
(6)根据index索引排序
df.sort_index(inplace=True)
(7)利用tqdm对一列进行处理
from tqdm import tqdm
tqdm.pandas()
def clearTxt(line):
if line != '':
line = line.strip()
#去除文本中的英文和数字
line = re.sub("[a-zA-Z0-9]", "", line)
#去除文本中的中文符号和英文符号
line = re.sub("[\\s+\\.\\!\\/_,$%^*(+\\"\\';:“”.]+|[+——!,。??、~@#¥%……&*()]+", "", line)
#分词
segList = jieba.cut(line, cut_all=False)
segSentence = ''
for word in segList:
if word != '\\t':
segSentence += word + " "
return segSentence.strip()
train_data['Text'].progress_apply(clearTxt)
(8)将city一列拆分为city1和city2两列
df['city1'] = df['city'].map(lambda x:x.split("|")[0])
df['city2'] = df['city'].map(lambda x:x.split("|")[1])
以上是关于PandasPandas Daframe 常用用法的主要内容,如果未能解决你的问题,请参考以下文章
pandaspandas.to_datatime()---时间格式转换