[ python知识 ] 关于随机抽样函数random
Posted 无水先生
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[ python知识 ] 关于随机抽样函数random相关的知识,希望对你有一定的参考价值。
一、说明
本篇专门对python的numpy库中的random函数进行详细专门的阐述。凡数据挖掘中要分清楚什么是概率模型,什么是抽样数据。
二、随机函数的案例集合
2.1 从指定样本中随机抽选出一个序列
np.random.choice(a, size=None, replace=True, p=None)
- 从数列a中随机选择size个元素。
- replace为True表示选出的元素允许重复。
- p为元素被选中的概率数列
举例:投掷六面体骰子100次后,得到的结果
import numpy as np
a = np.arange(1,7)
n2 = np.random.choice(a,100,replace=True, p=[1/6,1/6,1/6,1/6,1/6,1/6] )
print(a),print(n2)
2.2 随机一个N维张量的正态分布抽样
np.random.rand(d0, d1, ..., dn)
产生维度为n的值属于[0,1)的正太分布抽样,(d0, d1, ..., dn)是每个维度的数组长度。
例一:产生一个二维的,张量为<10,10>的正态分布随机数
np.random.rand(2,5)
array([[0.76591557, 0.51328605, 0.6392731 , 0.29288276, 0.06521177],
[0.95525581, 0.45215736, 0.99532118, 0.59897804, 0.52397141]])
2.3 整数均匀分布抽样函数
np.random.randint(low, high=None, size=None, dtype='l'))
- 均匀分布的起始和终止值 [ low, high)
- 抽样数size数量的离散均匀分布,默认数据类型为int;dtypf''http://np.int。
- 如果high为None,则产生属于[0,low)的离散均匀分布
- size值可以为数值(产生结果为一维),
- size也可以为list或者tuple(产生结果为二维或者多维)
- dtype: dtype(可选):想要输出的格式。如‘l’是
int64
、否则int
等等
np.random.randint(0,10,5)
array([0, 8, 7, 8, 9])
np.random.randint(0,10,(2,5))
array([[4, 8, 3, 3, 8],
[8, 3, 2, 5, 7]])
np.random.randint(2,size=10)
array([1, 0, 0, 0, 1, 1, 1, 1, 1, 1])
2.4 标准正态分布
np.random.randn(d0, d1, ..., dn)
- 产生维度为(d0, d1, ..., dn)的标准正太分布。
- 同np.random.standard_uniform(),这两个函数功能相同,只是参数写法不同
标准正态分布又称为u分布,是以0为均数、以1为标准差的正态分布(mean=0, stdev=1),记为N(0,1)
np.random.randn(2,5)
array([[-1.07605751, 0.31317055, -0.22755171, 1.20909518, -2.19104446],
[-0.55637002, -0.22598989, 0.33682028, -1.37535475, -1.39989454]])
2.5. 产生出连续的【0-1】的均匀分布
np.random.random(size=None)
- size:任意的张量
产生属于[0.0, 1.0)的size数量的连续均匀分布。size为list或者tuple时,产生相应维度的结果。
>>> np.random.random((2,5))
array([[0.57479102, 0.93349977, 0.5211282 , 0.69889345, 0.42233586],
[0.9814506 , 0.64438959, 0.46074951, 0.35429536, 0.2283257 ]])
>>> np.random.random( 10)
array([0.93207672, 0.47943899, 0.69978292, 0.59946767, 0.33657945,
0.8585162 , 0.56134744, 0.9577701 , 0.70489856, 0.70900494])
2.6. 产生出连续的【0-1】的均匀分布
np.random.random_sample(size=None)
- 结果来自于规定间隔内的“连续均匀”分布。
- size:任意的张量
生成任意位置的均匀分布:样本 Unif[a, b), b > a 乘以的输出 random_sample 通过 (b-a) 并添加 a ::
(b - a) * np.random.random_sample() + a
>>> 5*np.random.random_sample((2,5))+10
array([[13.02700564, 10.0586121 , 12.72167752, 11.38157269, 10.30069212],
[12.96813519, 12.69532928, 10.33805862, 13.7314778 , 13.45160027]])
( 同:np.random.random(size=None) )
2.7 产生出连续的【0-1】的均匀分布
np.random.sample(size=None)
( 同:np.random.random(size=None) )
2.8 生成标准正态分布
np.random.standard_normal(size=None)
同:np.random.randn(d0, d1, ..., dn),参数形式不同
np.random.standard_normal((2,5))
array([[ 0.9860204 , -0.01338097, -2.35422435, -0.46540609, 1.86221193],
[-0.52405505, 0.07280193, -0.13776652, -1.03335881, -1.62485683]])
2.9 二项式分布的样本生成
np.random.binomial(n,p,size=None)
参数 | 解释 |
---|---|
n | int型或者一个int型的数组,大于等于0,接受浮点数但是会被截断(官方解释:n is truncated to an integer,例如:输入4.6或者4.2都会被当做4来计算)成整数来使用。 |
p | float或者一组float的数组,0≤p≤1; |
size | 可选项,int或者int的元组,表示的输出的大小,如果提供了size,例如(m,n,k),那么会返回m×n×k个数值。如果size=None,也就是默认没有的情况,当n和p都是一个数字的时候只会返回一个值,否则返回的是np.broadcast(n,p).size个数值。 |
return | 返回值。size是一个整数N时,返回一个长度为N的一维数组;size是(X,Y)类型元组时,返回一个X行Y列二维数组;size是(X,Y,Z)类型元组时,返回一个三维数组(三维数组不能以三维形式直接输出,会输出X个Y行Z列的二维数组,以此类推)。 |
对二项分布进行采样。n表示采样次数,p表示成功的概率,size表示输出结果的形状(shape)
例1: n=1时,重复伯努利试验。
一次抛一枚硬币试验,正面朝上发生的概率为0.5,做10次实验,求每次试验发生正面朝上的硬币个数:
test = np.random.binomial(1, 0.5, 10)
print(test)
输出:[1 1 1 0 1 1 1 0 0 0]
例2: n>1时,多个样本进行试验:
一次抛5枚硬币,每枚硬币正面朝上概率为0.5,做10次试验,求每次试验发生正面朝上的硬币个数:
test = np.random.binomial(5, 0.5, 10)
print(test)
输出:[1 5 5 2 4 2 3 3 2 3]
例3: size为元组的形式时:
一次抛5枚硬币,每硬币正面朝上概率为0.5,做50次试验,求每次试验发生正面朝上的硬币个数:
test = np.random.binomial(5, 0.5, (10, 5))
print(test)
输出二维数组(ndarray类型):
[[1 2 2 4 1]
[2 5 3 4 3]
[1 4 1 2 4]
[3 1 1 3 1]
[1 4 2 4 2]
[0 1 3 2 2]
[4 2 1 1 2]
[2 5 3 2 3]
[1 1 2 2 2]
[3 2 1 4 2]]
例4: 一次抛2个硬币,每枚硬币抛到正反两面的概率都是0.5,那么两个硬币都是正面的概率是多少?发生一正一反的概率是多少?
显然答案是0.25和0.5,试验次数越大,越能接近理论概率:
test = sum(np.random.binomial(2, 0.5, 100000) == 2) / 100000
print(test)
输出:0.24843
test = sum(np.random.binomial(2, 0.5, 100000) == 1) / 100000
print(test)
输出:0.49938
C语言的随机抽样怎么编程
用rand函数或srand函数rand和srand的用法
首先我们要对rand&srand有个总体的看法:srand初始化随机种子,rand产生随机数,下面将详细说明。
rand(产生随机数)
表头文件: #include<stdlib.h>
定义函数 :int rand(void)
函数说明 :
因为rand的内部实现是用线性同余法做的,他不是真的随机数,只不过是因为其周期特别长,所以有一定的范围里可看成是随机的,rand()会返回一随机数值,范围在0至RAND_MAX 间。在调用此函数产生随机数前,必须先利用srand()设好随机数种子,如果未设随机数种子,rand()在调用时会自动设随机数种子为1。rand ()产生的是假随机数字,每次执行时是相同的。若要不同,以不同的值来初始化它.初始化的函数就是srand()。
返回值:
返回0至RAND_MAX之间的随机整数值,RAND_MAX的范围最少是在32767之间(int),即双字节(16位数)。若用unsigned int 双字节是65535,四字节是4294967295的整数范围。
0~RAND_MAX每个数字被选中的机率是相同的。
范例:
/* 产生介于1 到10 间的随机数值,此范例未设随机数种子,完整的随机数产生请参考
srand()*/
#include<stdlib.h>
main()
int i,j;
for(i=0;i<10;i++)
j=1+(int)(10.0*rand()/(RAND_MAX+1.0));
printf("%d ",j);
执行:
9 4 8 8 10 2 4 8 3 6
9 4 8 8 10 2 4 8 3 6 //再次执行仍然产生相同的随机数
srand(设置随机数种子)
表头文件:#include<stdlib.h>
定义函数:void srand (unsigned int seed);
函数说明:
srand()用来设置rand()产生随机数时的随机数种子。参数seed必须是个整数,通常可以利用geypid()或time(0)的返回值来当做seed。如果每次seed都设相同值,rand()所产生的随机数值每次就会一样。
范例
/* 产生介于1 到10 间的随机数值,此范例与执行结果可与rand()参照*/
#include<time.h>
#include<stdlib.h>
main()
int i,j;
srand((int)time(0));
for(i=0;i<10;i++)
j=1+(int)(10.0*rand()/(RAND_MAX+1.0));
printf(" %d ",j);
执行:与rand范例比较
5 8 8 8 10 2 10 8 9 9
2 9 7 4 10 3 2 10 8 7
又或:
用"int x = rand() % 100;"来生成 0 到 100 之间的随机数这种方法是不或取的,比较好的做法是: j=(int)(n*rand()/(RAND_MAX+1.0))产生一个0到n之间的随机数
int main(void)
int i;
time_t t;
srand((unsigned) time(&t));
printf("Ten random numbers from 0 to 99\n\n");
for(i=0; i<10; i++)
printf("%d\n", rand() % 100);
return 0;
除以上所说的之外,补充一点就是srand这个函数一定要放在循环外面或者是循环调用的外面,否则的话得到的是相同的数字。
MSDN中的例子。
// crt_rand.c
// This program seeds the random-number generator
// with the time, then displays 10 random integers.
//
#include <stdlib.h>
#include <stdio.h>
#include <time.h>
int main( void )
int i;
// Seed the random-number generator with current time so that
// the numbers will be different every time we run.
//
srand( (unsigned)time( NULL ) );
// Display 10 numbers.
for( i = 0; i < 10;i++ )
printf( " %6d\n", rand() );
printf("\n");
// Usually, you will want to generate a number in a specific range,
// such as 0 to 100, like this:
int RANGE_MIN = 0;
int RANGE_MAX = 100;
for (i = 0; i < 10; i++ )
int rand100 = (((double) rand() /
(double) RAND_MAX) * RANGE_MAX + RANGE_MIN);
printf( " %6d\n", rand100);
总结:
我们知道rand()函数可以用来产生随机数,但是这不是真真意义上的随机数,是一个伪随机数,是根据一个数,我们可以称它为种了,为基准以某个递推公式推算出来的一系数,当这系列数很大的时候,就符合正态公布,从而相当于产生了随机数,但这不是真正的随机数,当计算机正常开机后,这个种子的值是定了的,除非你破坏了系统,为了改变这个种子的值,C提供了 srand()函数,它的原形是void srand( int a) 功能是
初始化随机产生器既rand()函数的初始值,即使把种子的值改成a; 从这你可以看到通过sand()函数,我们是可以产生可以预见的随机序列,
那我们如何才能产生不可预见的随机序列呢?我们可能常常需要这样的随机序列,是吧。利用srand((unsign)(time(NULL))是一种方法,因为每一次运行程序的时间是不同的,对了,你知道time() 函数的功能是返回从1970/01/01到现在的秒数的吧,可能这个起始时间不正确,你查一下对不对吧,C还提供了另一个更方便的函数, randomize()
原形是void randomize(),功能是用来始初rand() 的种子的初始值,而且该值是不确定的,它相当于srand((unsign)(time(NULL)) 不过应注意的是randomize()的功能要通过time来实现所以在调用它时头文件要包含time.h罢了
参考资料:http://zhidao.baidu.com/question/115416879.html
参考技术A 用rand函数本回答被提问者采纳以上是关于[ python知识 ] 关于随机抽样函数random的主要内容,如果未能解决你的问题,请参考以下文章