Python 包含子采样
Posted
技术标签:
【中文标题】Python 包含子采样【英文标题】:Python contained subsampling 【发布时间】:2019-05-06 13:46:43 【问题描述】:我正在尝试以包含的方式对数据集进行二次抽样,因为在装袋时没有获得全部样本。
例子:
数据集
dataset = array([[ 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9],
[ 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8, 2.9],
[ 3.1, 3.2, 3.3, 3.4, 3.5, 3.6, 3.7, 3.8, 3.9],
[ 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7, 4.8, 4.9],
[ 5.1, 5.2, 5.3, 5.4, 5.5, 5.6, 5.7, 5.8, 5.9],
[ 6.1, 6.2, 6.3, 6.4, 6.5, 6.6, 6.7, 6.8, 6.9],
[ 7.1, 7.2, 7.3, 7.4, 7.5, 7.6, 7.7, 7.8, 7.9],
[ 8.1, 8.2, 8.3, 8.4, 8.5, 8.6, 8.7, 8.8, 8.9],
[ 9.1, 9.2, 9.3, 9.4, 9.5, 9.6, 9.7, 9.8, 9.9],
[10.1, 10.2, 10.3, 10.4, 10.5, 10.6, 10.7, 10.8, 10.9],
[11.1, 11.2, 11.3, 11.4, 11.5, 11.6, 11.7, 11.8, 11.9],
[12.1, 12.2, 12.3, 12.4, 12.5, 12.6, 12.7, 12.8, 12.9],
[13.1, 13.2, 13.3, 13.4, 13.5, 13.6, 13.7, 13.8, 13.9],
[14.1, 14.2, 14.3, 14.4, 14.5, 14.6, 14.7, 14.8, 14.9],
[15.1, 15.2, 15.3, 15.4, 15.5, 15.6, 15.7, 15.8, 15.9],
[16.1, 16.2, 16.3, 16.4, 16.5, 16.6, 16.7, 16.8, 16.9],
[17.1, 17.2, 17.3, 17.4, 17.5, 17.6, 17.7, 17.8, 17.9]])
所需的子样本:
array([[5.5, 5.6, 5.7],
[6.5, 6.6, 6.7]])
这可以通过双切片来完成:
dataset[4:, 4:][:2, :3]
现在,这种二次抽样的方式似乎一切都不是最佳的(它相当慢)。如果有更好的方法可以做到这一点,我正在徘徊,也许使用np.sample
或np.take
的列表理解。
编辑:我希望从数据集中获取多个子样本,每个子样本都是随机的。
编辑 2:关于每个子样本的特征数,> 2 和
编辑 3:所有子样本的形状应该相同。 shape = (X, 0.6*len(dataset)) where X is in range [2, number_of_columns]
【问题讨论】:
使用布尔掩码怎么样? 为什么dataset[4:, 4:][:2, :3]
看起来不是最优的?
您只想要一个子样本?或者你想要很多? - 许多子样本的标准是什么?
你总是想要一个“矩形切片”还是类似 [[5.1, 5.2, 5.3], [14.3, 14.4, 14.5]] 的东西?
@wwii 编辑了这个问题。我正在寻找多个随机子样本。关于标准,特征数 > 2 和
【参考方案1】:
如果您总是从数据中采样连续的矩形,那么索引使用
dataset[4:6, 4:7]
应该比“更好”(更快)
dataset[4:, 4:][:2, :3]
因为前者避免创建中间视图,而是直接迭代 2d-ndarray。
这可以使用 ipython %timeit
魔法来确认:
In [11]: %timeit dataset[4:6, 4:7]
216 ns ± 0.896 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
In [12]: %timeit dataset[4:, 4:][:2, :3]
419 ns ± 11.9 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
【讨论】:
以上是关于Python 包含子采样的主要内容,如果未能解决你的问题,请参考以下文章