pandas 处理 纽约签到数据集

Posted lixyuan

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pandas 处理 纽约签到数据集相关的知识,希望对你有一定的参考价值。

pandas 处理 纽约签到数据集

import pandas as pd 
import numpy as np 
import datetime
names = [‘User_id‘,‘Venue_id‘,‘Venue_category_id‘,‘Venue_name‘,‘Latitude‘, ‘Longitude‘,‘Timezone_offset‘,‘UTC_time‘]
file01 = ‘datadataset_TSMC2014_NYC.txt‘
file02 = ‘datadataset_TSMC2014_TKY.txt‘
save_file01 = ‘nyc_data.csv‘
save_file02 = ‘tky_data.csv‘
select = 1
if select == 1:
    file = file01
    save_file = save_file01
else :
    file = file02
    save_file = save_file02


papa = pd.read_csv(file, sep=‘	‘, header=None, names=names) 

def get_stamp(df):
    time_str = df[‘UTC_time‘]
    datetime_obj = datetime.datetime.strptime(time_str,‘%a %b %d %H:%M:%S %z %Y‘)
    return int(datetime_obj.timestamp())


papa[‘Timestamp‘] = papa.apply(lambda df: get_stamp(df) , axis=1)
papa.drop([‘Timezone_offset‘,‘UTC_time‘], inplace=True, axis=1)


papa = papa.sort_values(axis=0,ascending= True, by=[‘User_id‘,‘Timestamp‘]).reset_index(drop=True)

papa.to_csv(save_file,index=False,header=True,na_rep="NULL")

data = pd.read_csv(save_file, sep=‘,‘)
print(data.head())
print(data.describe())

技术图片
[1] pandas DataFrame 文档
[2] 超好用的 pandas 之 groupby

以上是关于pandas 处理 纽约签到数据集的主要内容,如果未能解决你的问题,请参考以下文章

机器学习预测Facebook签到位置

从 pandas 大数据集中获取犯罪“计数”

text [处理大型数据集]使用chunksizes控制大型数据集(无内存错误)#pandas

处理来自不同函数的多个返回数据集 python pandas

Pandas - 基于另一列(城市名称)创建一个新列(分支名称)

数据预处理基于Pandas的数据预处理技术前七个任务