t按性别测试用户总数 - python

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了t按性别测试用户总数 - python相关的知识,希望对你有一定的参考价值。

我想评估男性和女性用户群的总体游戏的统计差异(见下面的例子):

Example of female entries

female

    users   artist  plays   gender  age
0   48591   sting   12763   f       25.0
1   48591   stars   8192    f       25.0

Sum plays per unique female user

female_user_plays = female.groupby('users').plays.sum()

female_user_plays

users
5         5479
6         3782
7         7521
11        7160

Example of male entries

female
    users   artist         plays    gender  age
51  56496   iron maiden    456      m       28.0
52  56496   elle           407      m       28.0

Sum plays per unique male user

male_user_plays = male.groupby('users').plays.sum()
male_user_plays

users
0         3282
1        25329
2        51522
3         1590

Average plays per gender

Average Total Male Plays: 11880
Average Total Female Plays: 13104

在尝试t测试之前,我将每个系列转换为值列表:

female_plays_list = female_user_plays.values.tolist()
male_plays_list = male_user_plays.values.tolist()

对于t测试:

ttest_ind(female_plays_list, male_plays_list, equal_var=False)

结果是让我感到困惑,因为输出看起来非常偏离,我认为这不是由于两个样本大小的差异....

Ttest_indResult(statistic=-8.9617251652001002, pvalue=3.3195063228833119e-19)

数组长度之外是否有任何原因导致这种情况?

答案

对0-10000的两个100000000个随机整数值的数组进行测试,结果如下:

In []: try1 = np.random.randint(1, 10000, 100000000)

In []: try2 = np.random.randint(1, 10000, 100000000)

In []: ttest_ind(try1, try2, equal_var=False)
Out[]: Ttest_indResult(statistic=-0.67549204672468233, pvalue=0.49936320345035146)

不等长度给出以下内容:

In []: try1 = np.random.randint(1, 10000, 1000000)

In []: ttest_ind(try1, try2, equal_var=False)
Out[]: Ttest_indResult(statistic=-0.39754328321364363, pvalue=0.6909669583715552)

所以,除非我的测试中忽略了一个洞察力,否则你的数组的长度更长,它必须是数组特定值的东西。

以上是关于t按性别测试用户总数 - python的主要内容,如果未能解决你的问题,请参考以下文章

查找数字除数的总数,用于python中的t测试用例

选择计算 SQL 的正/负值

scrapy按顺序启动多个爬虫代码片段(python3)

如何在Django中获取按用户过滤的关注者总数?

;~ 小部分AutoHotkey源代码片段测试模板2019年10月9日.ahk

学习笔记:python3,代码片段(2017)