t按性别测试用户总数 - python
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了t按性别测试用户总数 - python相关的知识,希望对你有一定的参考价值。
我想评估男性和女性用户群的总体游戏的统计差异(见下面的例子):
Example of female entries
female
users artist plays gender age
0 48591 sting 12763 f 25.0
1 48591 stars 8192 f 25.0
Sum plays per unique female user
female_user_plays = female.groupby('users').plays.sum()
female_user_plays
users
5 5479
6 3782
7 7521
11 7160
Example of male entries
female
users artist plays gender age
51 56496 iron maiden 456 m 28.0
52 56496 elle 407 m 28.0
Sum plays per unique male user
male_user_plays = male.groupby('users').plays.sum()
male_user_plays
users
0 3282
1 25329
2 51522
3 1590
Average plays per gender
Average Total Male Plays: 11880
Average Total Female Plays: 13104
在尝试t测试之前,我将每个系列转换为值列表:
female_plays_list = female_user_plays.values.tolist()
male_plays_list = male_user_plays.values.tolist()
对于t测试:
ttest_ind(female_plays_list, male_plays_list, equal_var=False)
结果是让我感到困惑,因为输出看起来非常偏离,我认为这不是由于两个样本大小的差异....
Ttest_indResult(statistic=-8.9617251652001002, pvalue=3.3195063228833119e-19)
数组长度之外是否有任何原因导致这种情况?
答案
对0-10000的两个100000000个随机整数值的数组进行测试,结果如下:
In []: try1 = np.random.randint(1, 10000, 100000000)
In []: try2 = np.random.randint(1, 10000, 100000000)
In []: ttest_ind(try1, try2, equal_var=False)
Out[]: Ttest_indResult(statistic=-0.67549204672468233, pvalue=0.49936320345035146)
不等长度给出以下内容:
In []: try1 = np.random.randint(1, 10000, 1000000)
In []: ttest_ind(try1, try2, equal_var=False)
Out[]: Ttest_indResult(statistic=-0.39754328321364363, pvalue=0.6909669583715552)
所以,除非我的测试中忽略了一个洞察力,否则你的数组的长度更长,它必须是数组特定值的东西。
以上是关于t按性别测试用户总数 - python的主要内容,如果未能解决你的问题,请参考以下文章