如何将此 KNN 代码应用于我的数据集?

Posted

技术标签:

【中文标题】如何将此 KNN 代码应用于我的数据集?【英文标题】:How to apply this KNN code to my data set? 【发布时间】:2021-12-01 00:46:11 【问题描述】:

我有这个 KNN 代码,我想将它应用到我的数据框。它有 2 列:一列是 X,另一列是 Y。如何应用它?我需要把它们放在generate_data 吗?我不知道将它们连接起来。 (他们已经连接了吗?)

import pandas as pd
from pyod.models.knn import KNN
from pyod.utils.data import generate_data
from pyod.utils.data import evaluate_print
from pyod.utils.example import visualize

# Import data
AAPL= pd.read_csv('AAPL.csv', header=0, squeeze=True)

# Independent variables - Matrix
X = AAPL.iloc[:,1].squeeze()

# Dependent variables - vector
Y = AAPL.iloc[:,2].squeeze()

if __name__ == "__main__":
    contamination = 0.1  # percentage of outliers
    n_train = 200  # number of training points
    n_test = 100  # number of testing points

    # Generate sample data
    X_train, y_train, X_test, y_test = \
        generate_data(n_train=n_train,
                      n_test=n_test,
                      n_features=2,
                      contamination=contamination,
                      random_state=42)

    # train kNN detector
    clf_name = 'KNN'
    clf = KNN()
    clf.fit(X_train)

    # get the prediction labels and outlier scores of the training data
    y_train_pred = clf.labels_  # binary labels (0: inliers, 1: outliers)
    y_train_scores = clf.decision_scores_  # raw outlier scores

    # get the prediction on the test data
    y_test_pred = clf.predict(X_test)  # outlier labels (0 or 1)
    y_test_scores = clf.decision_function(X_test)  # outlier scores

    # evaluate and print the results
    print("\nOn Training Data:")
    evaluate_print(clf_name, y_train, y_train_scores)
    print("\nOn Test Data:")
    evaluate_print(clf_name, y_test, y_test_scores)

    # visualize the results
    visualize(clf_name, X_train, y_train, X_test, y_test, y_train_pred,
              y_test_pred, show_figure=True, save_figure=True)

【问题讨论】:

【参考方案1】:

如果您有自己的数据,则不需要generate_data()。它只是用于生成示例数据。

如果您只有一个特征(X 中的一列),那么您需要将其作为np.atleast_2d(X) 传递给fit() 方法,因为输入数据X 必须是二维矩阵(每条记录一行,每个特征一列)。您只使用一列,因此它将是一维的。来自the docs:

X (numpy array of shape (n_samples, n_features)) – 输入样本。

如果您想使用训练和验证数据集(推荐),您需要以某种方式拆分数据。例如,您可以使用 400 行进行训练,使用 100 行进行验证。或者,如果pyod 没有为您提供随机拆分工具,请考虑使用sklearn.preprocessing.train_test_split() 之类的工具。

【讨论】:

以上是关于如何将此 KNN 代码应用于我的数据集?的主要内容,如果未能解决你的问题,请参考以下文章

我应该为 knn 标准化还是标准化我的数据集?

knn算法错误百分比

如何让 CSS 文件正确应用于我的 PHP/HTML 代码?

内存使用、cpu 时间、数据输出和文件系统存储如何应用于我的网站?

使用 sklearn 或 pandas 进行一次热编码后,如何在混合数据集(数值 + 分类)上应用 KNN

邻居数 KNN 算法