如何使用 scikit-learn for python 分析和预测(机器学习)时间序列数据集
Posted
技术标签:
【中文标题】如何使用 scikit-learn for python 分析和预测(机器学习)时间序列数据集【英文标题】:how to analyse and predict(machine learning) a time series data set using scikit-learn for python 【发布时间】:2014-04-20 19:25:37 【问题描述】:我得到了这样的数据集
我需要分析和预测状态列。这只是训练数据集中的 2 个主菜。在这个数据集中有心率模式(以 1 秒的间隔收集,总共 10 个数字)它是一个时间序列数组(如果我错了,请纠正我)我只需要知道分析和使用预测的最佳方法这个数据。我正在使用 scikit-learning 进行数据挖掘和机器学习。
我只想知道分析这些时间序列数据的最佳方法是什么?我应该使用基于矢量的方法还是其他方法。如果你能给我一些示例代码,我会很好地理解它。
【问题讨论】:
基于向量是完全合法的。鉴于您的问题,您可能需要标准化。您可能还想调查一下:en.wikipedia.org/wiki/Dynamic_time_warping 这个问题太宽泛了,我相信。能否请您在这里放一些数据集和暂定代码部分? 【参考方案1】:将心率时间序列中的每个点作为单独的列提供,并为所有其他数据点提供单独的列(特征)。对整个数据集的每一列进行特征归一化(减去均值,除以标准差),然后输入分类器。
【讨论】:
这样做是什么意思?你能解释一下它将如何优化挖矿吗? 它将允许 sklearn 算法以向量形式对其进行处理,并考虑过去不同时间点之间的相关性。您可能还需要考虑添加一些特征,这些特征是不同类型输入的移动平均值,尽管我不确定它与您的特定数据集的匹配程度。以上是关于如何使用 scikit-learn for python 分析和预测(机器学习)时间序列数据集的主要内容,如果未能解决你的问题,请参考以下文章
如何在 scikit-learn 中使用正确的 pyprint?
为啥 scikit-learn 中的 GridSearchCV 会产生这么多线程