如何将此 KNN 代码应用于我的数据集?
Posted
技术标签:
【中文标题】如何将此 KNN 代码应用于我的数据集?【英文标题】:How to apply this KNN code to my data set? 【发布时间】:2021-12-01 00:46:11 【问题描述】:我有这个 KNN 代码,我想将它应用到我的数据框。它有 2 列:一列是 X,另一列是 Y。如何应用它?我需要把它们放在generate_data
吗?我不知道将它们连接起来。 (他们已经连接了吗?)
import pandas as pd
from pyod.models.knn import KNN
from pyod.utils.data import generate_data
from pyod.utils.data import evaluate_print
from pyod.utils.example import visualize
# Import data
AAPL= pd.read_csv('AAPL.csv', header=0, squeeze=True)
# Independent variables - Matrix
X = AAPL.iloc[:,1].squeeze()
# Dependent variables - vector
Y = AAPL.iloc[:,2].squeeze()
if __name__ == "__main__":
contamination = 0.1 # percentage of outliers
n_train = 200 # number of training points
n_test = 100 # number of testing points
# Generate sample data
X_train, y_train, X_test, y_test = \
generate_data(n_train=n_train,
n_test=n_test,
n_features=2,
contamination=contamination,
random_state=42)
# train kNN detector
clf_name = 'KNN'
clf = KNN()
clf.fit(X_train)
# get the prediction labels and outlier scores of the training data
y_train_pred = clf.labels_ # binary labels (0: inliers, 1: outliers)
y_train_scores = clf.decision_scores_ # raw outlier scores
# get the prediction on the test data
y_test_pred = clf.predict(X_test) # outlier labels (0 or 1)
y_test_scores = clf.decision_function(X_test) # outlier scores
# evaluate and print the results
print("\nOn Training Data:")
evaluate_print(clf_name, y_train, y_train_scores)
print("\nOn Test Data:")
evaluate_print(clf_name, y_test, y_test_scores)
# visualize the results
visualize(clf_name, X_train, y_train, X_test, y_test, y_train_pred,
y_test_pred, show_figure=True, save_figure=True)
【问题讨论】:
【参考方案1】:如果您有自己的数据,则不需要generate_data()
。它只是用于生成示例数据。
如果您只有一个特征(X
中的一列),那么您需要将其作为np.atleast_2d(X)
传递给fit()
方法,因为输入数据X
必须是二维矩阵(每条记录一行,每个特征一列)。您只使用一列,因此它将是一维的。来自the docs:
X (numpy array of shape (n_samples, n_features)) – 输入样本。
如果您想使用训练和验证数据集(推荐),您需要以某种方式拆分数据。例如,您可以使用 400 行进行训练,使用 100 行进行验证。或者,如果pyod
没有为您提供随机拆分工具,请考虑使用sklearn.preprocessing.train_test_split()
之类的工具。
【讨论】:
以上是关于如何将此 KNN 代码应用于我的数据集?的主要内容,如果未能解决你的问题,请参考以下文章
如何让 CSS 文件正确应用于我的 PHP/HTML 代码?
内存使用、cpu 时间、数据输出和文件系统存储如何应用于我的网站?