二维数据集取子集的3种办法

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了二维数据集取子集的3种办法相关的知识,希望对你有一定的参考价值。

参考技术A 矩阵及数据框是平常我们处理数据时候常用到的原始数据,特别是数据框data.frame,其不要求每列向量的类型一致,最为常用。在处理数据时,我们经常需要对data.frame取子集,并赋值给新的data.frame,这样可以在不更改原始数据的前提下进行下一步处理,以下以data.frame为例介绍3中常用的二维数据集取子集,矩阵的办法是完全相同的

我们需要取cyl和wt这两列前4行的内容可以用以下方法

str_detect为stringr包的函数,其作用是在给定的字符串向量中寻找目标向量,简单理解为搜索就好
str_detect(row.names(df),"Merc")的意思是在row.names(df)的字符型向量中寻找"Merc"这一内容,返回为逻辑值,如下图

然后把此逻辑值带入取子集的中括号内就可以了
后续可以把这个子集赋值给一个新名字就可以啦

Sklearn|报错<Expected 2D array, got 1D array instead:...>的3种解决办法

当我们使用sklearn进行fit或者predict等操作的时候,经常会遇到Expected 2D array, got 1D array instead一类的报错,其根本原因是因为最新的sklearn必须要传入一个二维矩阵所导致的,解决办法有如下三种。

一、numpy将行转成列

一行数据是一维数据,我们转成一列数据自然就是二维数据了。

import numpy as np

x = [1, 2, 3]
x = np.array(x).reshape(1, -1)

二、Pandas取一列数据问题

通常我们使用Pandas取出DataFrame中的一列数据时,也会出现此类报错,其原因是因为一列数据正常取出之后类型为Series,这时我们需要换一种方式进行数据提取:

# 原提取方式示例,为Series
data_train_x = data_train['age']
# 多加一个[]的提取结果为DataFrame
data_train_x = data_train[['age']]

三、Pandas取一个数据问题

当我们进行单个数据提取并操作时,无论使用上述的那种办法都会出现错误,这时我们需要将单独的数据提取后再次转换为DataFrame进行操作即可。

import pandas as pd
# 使用pd.DataFrame进行操作
clf.predict(pd.DataFrame(data[['age']].iloc[2]))

以上是关于二维数据集取子集的3种办法的主要内容,如果未能解决你的问题,请参考以下文章

VOC2012数据集取需要的几个类别

26《MySQL 教程》聚合函数(聚合函数 MIN、MAX)

Pentaho 数据集成 从数据库导入大型数据集

数据集的划分

sklearn交叉验证-老鱼学sklearn

找到形成凸多边形的最大点子集