如何从导入的 csv 文件中索引日期时间列 - pandas

Posted

技术标签:

【中文标题】如何从导入的 csv 文件中索引日期时间列 - pandas【英文标题】:How to index a datetime column from imported csv file - pandas 【发布时间】:2016-11-08 21:31:22 【问题描述】:

我正在尝试合并和附加不同的时间序列,从 csv 文件中导入它们。我尝试了以下基本代码:

import pandas as pd
import numpy as np
import glob
import csv
import os

path = r'./A08_csv'     # use your path
#all_files = glob.glob(os.path.join(path, "A08_B1_T5.csv"))

df5 = pd.read_csv('./A08_csv/A08_B1_T5.csv', parse_dates='Date Time')
df6 = pd.read_csv('./A08_csv/A08_B1_T6.csv', parse_dates='Date Time')

print len(df5)
print len(df6)

df = pd.concat([df5],[df6], join='outer')
print len(df)

结果是:

12755 (df5)
24770 (df6)
12755 (df)

df 不应该与两个文件中最长的文件一样长(就 ['Date Time'] 列的值而言,它们有很多共同的行)??

我尝试根据日期时间索引数据,添加以下行:

#df5.set_index(pd.DatetimeIndex(df5['Date Time']))

但是我收到了错误:

KeyError: 'Date Time'

关于为什么会发生这种情况的任何线索?

【问题讨论】:

【参考方案1】:

我认为你需要:

df5.set_index(['Date Time'], inplace=True)

或者更好的在read_csv添加参数index_col:

import pandas as pd
import io

temp=u"""Date Time,a
2010-01-27 16:00:00,2.0
2010-01-27 16:10:00,2.2
2010-01-27 16:30:00,1.7"""

df = pd.read_csv(io.StringIO(temp), index_col=['Date Time'], parse_dates=['Date Time'])
print (df)
                       a
Date Time               
2010-01-27 16:00:00  2.0
2010-01-27 16:10:00  2.2
2010-01-27 16:30:00  1.7

print (df.index)
DatetimeIndex(['2010-01-27 16:00:00', '2010-01-27 16:10:00',
               '2010-01-27 16:30:00'],
              dtype='datetime64[ns]', name='Date Time', freq=None)

另一种解决方案是按顺序将列添加到参数列 - 如果列Date Time 是第一个,则将0 添加到index_colparse_dates(python 计数来自0):

import pandas as pd
import io


temp=u"""Date Time,a
2010-01-27 16:00:00,2.0
2010-01-27 16:10:00,2.2
2010-01-27 16:30:00,1.7"""

df = pd.read_csv(io.StringIO(temp), index_col=0, parse_dates=[0])
print (df)
                       a
Date Time               
2010-01-27 16:00:00  2.0
2010-01-27 16:10:00  2.2
2010-01-27 16:30:00  1.7

print (df.index)
DatetimeIndex(['2010-01-27 16:00:00', '2010-01-27 16:10:00',
               '2010-01-27 16:30:00'],
              dtype='datetime64[ns]', name='Date Time', freq=None)

【讨论】:

谢谢。代码df5 = pd.read_csv('./A08_csv/A08_B1_T5.csv', index_col=['Date Time'], parse_dates=['Date Time']) 返回ValueError: 'Date Time' is not in list 您还需要从列Date Time 设置索引吗?还是现在不需要了? 如果需要,df5 = pd.read_csv('./A08_csv/A08_B1_T5.csv', parse_dates=['Date Time'])print df.dtypes之后是什么? 是的,我需要它,否则 pd.concat (如上所述)将无法工作(另外我需要重新采样和计算均值等)。为什么这不起作用?? 你能回答我最后的评论吗? print df.dtypes 是什么?【参考方案2】:

这是不正确的:

pd.concat([df5],[df6], join='outer')

concat 的第二个参数是axis。相反,你想要:

pd.concat([df5, df6], join='outer')

【讨论】:

以上是关于如何从导入的 csv 文件中索引日期时间列 - pandas的主要内容,如果未能解决你的问题,请参考以下文章

使用 pandas 索引 csv 文件中的日期时间列

使用 SQL Developer 将 CSV 文件导入 Oracle

如何使用python从csv中的同一列拆分日期和时间?

如何对日期时间索引数据框进行排序

phpmyadmin 导入日期格式困难的 csv

如何从 Perl 快速访问许多大型 CSV 文件中的数据?