如何使用 scikit-learn for python 分析和预测(机器学习)时间序列数据集

Posted

技术标签:

【中文标题】如何使用 scikit-learn for python 分析和预测(机器学习)时间序列数据集【英文标题】:how to analyse and predict(machine learning) a time series data set using scikit-learn for python 【发布时间】:2014-04-20 19:25:37 【问题描述】:

我得到了这样的数据集

我需要分析和预测状态列。这只是训练数据集中的 2 个主菜。在这个数据集中有心率模式(以 1 秒的间隔收集,总共 10 个数字)它是一个时间序列数组(如果我错了,请纠正我)我只需要知道分析和使用预测的最佳方法这个数据。我正在使用 scikit-learning 进行数据挖掘和机器学习。

我只想知道分析这些时间序列数据的最佳方法是什么?我应该使用基于矢量的方法还是其他方法。如果你能给我一些示例代码,我会很好地理解它。

【问题讨论】:

基于向量是完全合法的。鉴于您的问题,您可能需要标准化。您可能还想调查一下:en.wikipedia.org/wiki/Dynamic_time_warping 这个问题太宽泛了,我相信。能否请您在这里放一些数据集和暂定代码部分? 【参考方案1】:

将心率时间序列中的每个点作为单独的列提供,并为所有其他数据点提供单独的列(特征)。对整个数据集的每一列进行特征归一化(减去均值,除以标准差),然后输入分类器。

【讨论】:

这样做是什么意思?你能解释一下它将如何优化挖矿吗? 它将允许 sklearn 算法以向量形式对其进行处理,并考虑过去不同时间点之间的相关性。您可能还需要考虑添加一些特征,这些特征是不同类型输入的移动平均值,尽管我不确定它与您的特定数据集的匹配程度。

以上是关于如何使用 scikit-learn for python 分析和预测(机器学习)时间序列数据集的主要内容,如果未能解决你的问题,请参考以下文章

如何在 scikit-learn 中使用正确的 pyprint?

为啥 scikit-learn 中的 GridSearchCV 会产生这么多线程

Python 3.7 - 安装 Scikit-Learn 的问题

scikit-learn:如何使用拟合概率模型?

如何使用 scikit-learn 创建我自己的数据集?

如何使用 scikit-learn 进行高斯/多项式回归?