[ python知识 ] 关于随机抽样函数random

Posted 无水先生

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[ python知识 ] 关于随机抽样函数random相关的知识,希望对你有一定的参考价值。

一、说明

        本篇专门对python的numpy库中的random函数进行详细专门的阐述。凡数据挖掘中要分清楚什么是概率模型,什么是抽样数据。

二、随机函数的案例集合

2.1 从指定样本中随机抽选出一个序列

        np.random.choice(asize=Nonereplace=Truep=None)

  • 从数列a中随机选择size个元素。
  • replace为True表示选出的元素允许重复。
  • p为元素被选中的概率数列

举例:投掷六面体骰子100次后,得到的结果

import numpy as np
a = np.arange(1,7)
n2 = np.random.choice(a,100,replace=True, p=[1/6,1/6,1/6,1/6,1/6,1/6] )
print(a),print(n2)

2.2 随机一个N维张量的正态分布抽样

       np.random.rand(d0d1...dn)

       产生维度为n的值属于[0,1)的正太分布抽样,(d0d1...dn)是每个维度的数组长度。

       例一:产生一个二维的,张量为<10,10>的正态分布随机数

np.random.rand(2,5)                                                                                                                                                 
array([[0.76591557, 0.51328605, 0.6392731 , 0.29288276, 0.06521177],
       [0.95525581, 0.45215736, 0.99532118, 0.59897804, 0.52397141]])

2.3 整数均匀分布抽样函数

        np.random.randint(lowhigh=Nonesize=Nonedtype='l'))

  •         均匀分布的起始和终止值 [ low, high)
  •         抽样数size数量的离散均匀分布,默认数据类型为int;dtypf''http://np.int
  •         如果high为None,则产生属于[0,low)的离散均匀分布
  •         size值可以为数值(产生结果为一维),
  •         size也可以为list或者tuple(产生结果为二维或者多维)
  •         dtype: dtype(可选):想要输出的格式。如‘l’是int64、否则int等等

np.random.randint(0,10,5)                                                                                                                                           
array([0, 8, 7, 8, 9])
np.random.randint(0,10,(2,5))                                                                                                                                       
array([[4, 8, 3, 3, 8],
       [8, 3, 2, 5, 7]])
np.random.randint(2,size=10)                                                                                                                                        
array([1, 0, 0, 0, 1, 1, 1, 1, 1, 1])

2.4 标准正态分布

        np.random.randn(d0d1...dn)

  •         产生维度为(d0d1...dn)的标准正太分布。
  •         同np.random.standard_uniform(),这两个函数功能相同,只是参数写法不同

        标准正态分布又称为u分布,是以0为均数、以1为标准差的正态分布(mean=0, stdev=1),记为N(0,1)

np.random.randn(2,5)                                                                                                                                                
array([[-1.07605751,  0.31317055, -0.22755171,  1.20909518, -2.19104446],
       [-0.55637002, -0.22598989,  0.33682028, -1.37535475, -1.39989454]])

2.5. 产生出连续的【0-1】的均匀分布

        np.random.random(size=None)

  • size:任意的张量

        产生属于[0.0, 1.0)的size数量的连续均匀分布。size为list或者tuple时,产生相应维度的结果。

>>> np.random.random((2,5))
array([[0.57479102, 0.93349977, 0.5211282 , 0.69889345, 0.42233586],
       [0.9814506 , 0.64438959, 0.46074951, 0.35429536, 0.2283257 ]])
>>> np.random.random( 10)
array([0.93207672, 0.47943899, 0.69978292, 0.59946767, 0.33657945,
       0.8585162 , 0.56134744, 0.9577701 , 0.70489856, 0.70900494])

2.6. 产生出连续的【0-1】的均匀分布

        np.random.random_sample(size=None)

  •         结果来自于规定间隔内的“连续均匀”分布。
  •         size:任意的张量

        生成任意位置的均匀分布:样本 Unif[a, b), b > a 乘以的输出 random_sample 通过 (b-a) 并添加 a ::

        (b - a)  *  np.random.random_sample() + a

>>> 5*np.random.random_sample((2,5))+10
array([[13.02700564, 10.0586121 , 12.72167752, 11.38157269, 10.30069212],
       [12.96813519, 12.69532928, 10.33805862, 13.7314778 , 13.45160027]])

( 同:np.random.random(size=None) )

2.7 产生出连续的【0-1】的均匀分布

        np.random.sample(size=None)

( 同:np.random.random(size=None) )

2.8 生成标准正态分布

        np.random.standard_normal(size=None)

        同:np.random.randn(d0d1...dn),参数形式不同

np.random.standard_normal((2,5))                                                                                                                                    
array([[ 0.9860204 , -0.01338097, -2.35422435, -0.46540609,  1.86221193],
       [-0.52405505,  0.07280193, -0.13776652, -1.03335881, -1.62485683]])

2.9 二项式分布的样本生成

        np.random.binomial(n,p,size=None)

参数   解释
nint型或者一个int型的数组,大于等于0,接受浮点数但是会被截断(官方解释:n is truncated to an integer,例如:输入4.6或者4.2都会被当做4来计算)成整数来使用。
p    float或者一组float的数组,0≤p≤1;
size    可选项,int或者int的元组,表示的输出的大小,如果提供了size,例如(m,n,k),那么会返回m×n×k个数值。如果size=None,也就是默认没有的情况,当n和p都是一个数字的时候只会返回一个值,否则返回的是np.broadcast(n,p).size个数值。
return    返回值。size是一个整数N时,返回一个长度为N的一维数组;size是(X,Y)类型元组时,返回一个X行Y列二维数组;size是(X,Y,Z)类型元组时,返回一个三维数组(三维数组不能以三维形式直接输出,会输出X个Y行Z列的二维数组,以此类推)。

        对二项分布进行采样。n表示采样次数,p表示成功的概率,size表示输出结果的形状(shape)

    

        例1: n=1时,重复伯努利试验。
        一次抛一枚硬币试验,正面朝上发生的概率为0.5,做10次实验,求每次试验发生正面朝上的硬币个数:

test = np.random.binomial(1, 0.5, 10)
print(test)

      
        输出:[1 1 1 0 1 1 1 0 0 0]

        例2: n>1时,多个样本进行试验:
        一次抛5枚硬币,每枚硬币正面朝上概率为0.5,做10次试验,求每次试验发生正面朝上的硬币个数:

test = np.random.binomial(5, 0.5, 10)
print(test)

输出:[1 5 5 2 4 2 3 3 2 3]

        例3: size为元组的形式时:
        一次抛5枚硬币,每硬币正面朝上概率为0.5,做50次试验,求每次试验发生正面朝上的硬币个数:

test = np.random.binomial(5, 0.5, (10, 5))
print(test)

输出二维数组(ndarray类型):

[[1 2 2 4 1]
 [2 5 3 4 3]
 [1 4 1 2 4]
 [3 1 1 3 1]
 [1 4 2 4 2]
 [0 1 3 2 2]
 [4 2 1 1 2]
 [2 5 3 2 3]
 [1 1 2 2 2]
 [3 2 1 4 2]]

        例4: 一次抛2个硬币,每枚硬币抛到正反两面的概率都是0.5,那么两个硬币都是正面的概率是多少?发生一正一反的概率是多少?
        显然答案是0.25和0.5,试验次数越大,越能接近理论概率:

    test = sum(np.random.binomial(2, 0.5, 100000) == 2) / 100000
    print(test)

        输出:0.24843

    test = sum(np.random.binomial(2, 0.5, 100000) == 1) / 100000
    print(test)

        输出:0.49938

C语言的随机抽样怎么编程

用rand函数或srand函数
rand和srand的用法
首先我们要对rand&srand有个总体的看法:srand初始化随机种子,rand产生随机数,下面将详细说明。

rand(产生随机数)
表头文件: #include<stdlib.h>

定义函数 :int rand(void)

函数说明 :
因为rand的内部实现是用线性同余法做的,他不是真的随机数,只不过是因为其周期特别长,所以有一定的范围里可看成是随机的,rand()会返回一随机数值,范围在0至RAND_MAX 间。在调用此函数产生随机数前,必须先利用srand()设好随机数种子,如果未设随机数种子,rand()在调用时会自动设随机数种子为1。rand ()产生的是假随机数字,每次执行时是相同的。若要不同,以不同的值来初始化它.初始化的函数就是srand()。

返回值:
返回0至RAND_MAX之间的随机整数值,RAND_MAX的范围最少是在32767之间(int),即双字节(16位数)。若用unsigned int 双字节是65535,四字节是4294967295的整数范围。
0~RAND_MAX每个数字被选中的机率是相同的。

范例:
/* 产生介于1 到10 间的随机数值,此范例未设随机数种子,完整的随机数产生请参考
srand()*/
#include<stdlib.h>
main()

int i,j;
for(i=0;i<10;i++)

j=1+(int)(10.0*rand()/(RAND_MAX+1.0));
printf("%d ",j);


执行:

9 4 8 8 10 2 4 8 3 6
9 4 8 8 10 2 4 8 3 6 //再次执行仍然产生相同的随机数

srand(设置随机数种子)
表头文件:#include<stdlib.h>

定义函数:void srand (unsigned int seed);

函数说明:
srand()用来设置rand()产生随机数时的随机数种子。参数seed必须是个整数,通常可以利用geypid()或time(0)的返回值来当做seed。如果每次seed都设相同值,rand()所产生的随机数值每次就会一样。

范例
/* 产生介于1 到10 间的随机数值,此范例与执行结果可与rand()参照*/
#include<time.h>
#include<stdlib.h>
main()

int i,j;
srand((int)time(0));
for(i=0;i<10;i++)

j=1+(int)(10.0*rand()/(RAND_MAX+1.0));
printf(" %d ",j);


执行:与rand范例比较
5 8 8 8 10 2 10 8 9 9
2 9 7 4 10 3 2 10 8 7
又或:
用"int x = rand() % 100;"来生成 0 到 100 之间的随机数这种方法是不或取的,比较好的做法是: j=(int)(n*rand()/(RAND_MAX+1.0))产生一个0到n之间的随机数
int main(void)

int i;
time_t t;
srand((unsigned) time(&t));
printf("Ten random numbers from 0 to 99\n\n");
for(i=0; i<10; i++)
printf("%d\n", rand() % 100);
return 0;

除以上所说的之外,补充一点就是srand这个函数一定要放在循环外面或者是循环调用的外面,否则的话得到的是相同的数字。

MSDN中的例子。
// crt_rand.c
// This program seeds the random-number generator
// with the time, then displays 10 random integers.
//
#include <stdlib.h>
#include <stdio.h>
#include <time.h>
int main( void )

int i;

// Seed the random-number generator with current time so that
// the numbers will be different every time we run.
//
srand( (unsigned)time( NULL ) );
// Display 10 numbers.
for( i = 0; i < 10;i++ )
printf( " %6d\n", rand() );
printf("\n");
// Usually, you will want to generate a number in a specific range,
// such as 0 to 100, like this:

int RANGE_MIN = 0;
int RANGE_MAX = 100;
for (i = 0; i < 10; i++ )

int rand100 = (((double) rand() /
(double) RAND_MAX) * RANGE_MAX + RANGE_MIN);
printf( " %6d\n", rand100);


总结:
我们知道rand()函数可以用来产生随机数,但是这不是真真意义上的随机数,是一个伪随机数,是根据一个数,我们可以称它为种了,为基准以某个递推公式推算出来的一系数,当这系列数很大的时候,就符合正态公布,从而相当于产生了随机数,但这不是真正的随机数,当计算机正常开机后,这个种子的值是定了的,除非你破坏了系统,为了改变这个种子的值,C提供了 srand()函数,它的原形是void srand( int a) 功能是
初始化随机产生器既rand()函数的初始值,即使把种子的值改成a; 从这你可以看到通过sand()函数,我们是可以产生可以预见的随机序列,
那我们如何才能产生不可预见的随机序列呢?我们可能常常需要这样的随机序列,是吧。利用srand((unsign)(time(NULL))是一种方法,因为每一次运行程序的时间是不同的,对了,你知道time() 函数的功能是返回从1970/01/01到现在的秒数的吧,可能这个起始时间不正确,你查一下对不对吧,C还提供了另一个更方便的函数, randomize()
原形是void randomize(),功能是用来始初rand() 的种子的初始值,而且该值是不确定的,它相当于srand((unsign)(time(NULL)) 不过应注意的是randomize()的功能要通过time来实现所以在调用它时头文件要包含time.h罢了

参考资料:http://zhidao.baidu.com/question/115416879.html

参考技术A 用rand函数本回答被提问者采纳

以上是关于[ python知识 ] 关于随机抽样函数random的主要内容,如果未能解决你的问题,请参考以下文章

#yyds干货盘点#Hive数据抽样与存储格式详解

[总结]随机抽样与蓄水池抽样问题

【Hive】数据抽样

hive 随机抽样 distribute by rand() sort by rand() limit n

随机抽样 (numpy.random)

HiveSql抽样