如何从导入的 csv 文件中索引日期时间列 - pandas

Posted 2023-03-11

技术标签:

【中文标题】如何从导入的 csv 文件中索引日期时间列 - pandas【英文标题】：How to index a datetime column from imported csv file - pandas 【发布时间】：2016-11-08 21:31:22 【问题描述】：

我正在尝试合并和附加不同的时间序列，从 csv 文件中导入它们。我尝试了以下基本代码：

import pandas as pd
import numpy as np
import glob
import csv
import os

path = r'./A08_csv'     # use your path
#all_files = glob.glob(os.path.join(path, "A08_B1_T5.csv"))

df5 = pd.read_csv('./A08_csv/A08_B1_T5.csv', parse_dates='Date Time')
df6 = pd.read_csv('./A08_csv/A08_B1_T6.csv', parse_dates='Date Time')

print len(df5)
print len(df6)

df = pd.concat([df5],[df6], join='outer')
print len(df)

结果是：

12755 (df5)
24770 (df6)
12755 (df)

df 不应该与两个文件中最长的文件一样长（就 ['Date Time'] 列的值而言，它们有很多共同的行）？？

我尝试根据日期时间索引数据，添加以下行：

#df5.set_index(pd.DatetimeIndex(df5['Date Time']))

但是我收到了错误：

KeyError: 'Date Time'

关于为什么会发生这种情况的任何线索？

【问题讨论】：

【参考方案1】：

我认为你需要：

df5.set_index(['Date Time'], inplace=True)

或者更好的在read_csv添加参数index_col:

import pandas as pd
import io

temp=u"""Date Time,a
2010-01-27 16:00:00,2.0
2010-01-27 16:10:00,2.2
2010-01-27 16:30:00,1.7"""

df = pd.read_csv(io.StringIO(temp), index_col=['Date Time'], parse_dates=['Date Time'])
print (df)
                       a
Date Time               
2010-01-27 16:00:00  2.0
2010-01-27 16:10:00  2.2
2010-01-27 16:30:00  1.7

print (df.index)
DatetimeIndex(['2010-01-27 16:00:00', '2010-01-27 16:10:00',
               '2010-01-27 16:30:00'],
              dtype='datetime64[ns]', name='Date Time', freq=None)

另一种解决方案是按顺序将列添加到参数列 - 如果列Date Time 是第一个，则将0 添加到index_col 和parse_dates（python 计数来自0）：

import pandas as pd
import io


temp=u"""Date Time,a
2010-01-27 16:00:00,2.0
2010-01-27 16:10:00,2.2
2010-01-27 16:30:00,1.7"""

df = pd.read_csv(io.StringIO(temp), index_col=0, parse_dates=[0])
print (df)
                       a
Date Time               
2010-01-27 16:00:00  2.0
2010-01-27 16:10:00  2.2
2010-01-27 16:30:00  1.7

print (df.index)
DatetimeIndex(['2010-01-27 16:00:00', '2010-01-27 16:10:00',
               '2010-01-27 16:30:00'],
              dtype='datetime64[ns]', name='Date Time', freq=None)

【讨论】：

谢谢。代码df5 = pd.read_csv('./A08_csv/A08_B1_T5.csv', index_col=['Date Time'], parse_dates=['Date Time']) 返回ValueError: 'Date Time' is not in list 您还需要从列Date Time 设置索引吗？还是现在不需要了？如果需要，df5 = pd.read_csv('./A08_csv/A08_B1_T5.csv', parse_dates=['Date Time'])print df.dtypes之后是什么？是的，我需要它，否则 pd.concat （如上所述）将无法工作（另外我需要重新采样和计算均值等）。为什么这不起作用？？你能回答我最后的评论吗？ print df.dtypes 是什么？【参考方案2】：

这是不正确的：

pd.concat([df5],[df6], join='outer')

concat 的第二个参数是axis。相反，你想要：

pd.concat([df5, df6], join='outer')

【讨论】：

以上是关于如何从导入的 csv 文件中索引日期时间列 - pandas的主要内容，如果未能解决你的问题，请参考以下文章