第四节 数据降维案列
Posted kogmaw
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第四节 数据降维案列相关的知识,希望对你有一定的参考价值。
import pandas as pd from sklearn.decomposition import PCA # 数据地址:https://www.kaggle.com/c/instacart-market-basket-analysis/data # 读取表 prior = pd.read_csv(r"E:360DownloadsSoftware降维案列数据order_products__prior.csv") products = pd.read_csv(r"E:360DownloadsSoftware降维案列数据products.csv") order = pd.read_csv(r"E:360DownloadsSoftware降维案列数据order.csv") aisles = pd.read_csv(r"E:360DownloadsSoftware降维案列数据aisles.csv") # 合并表,prodyct_id按该列合并 _mg = pd.merge(prior, products, on=[‘prodyct_id‘, ‘product_id‘]) _mg = pd.merge(_mg, order, on=[‘order_id‘, ‘order_id‘]) mt = pd.merge(_mg, aisles, on=[‘aisle_id‘, ‘aisle_id‘]) # 使用交叉表,构造用户-购买商品类别表 cross = pd.crosstab(mt[‘user_id‘], mt[‘aisle‘]) # 进行主成分分析,将冗余的商品类别过滤掉,即将少量或者几乎没有人购买的商品类别过滤掉 pca = PCA(n_components=0.9) data = pca.fit_transform(cross)
以上是关于第四节 数据降维案列的主要内容,如果未能解决你的问题,请参考以下文章