Data - 深入浅出学统计 - 摘要

Posted anliven

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Data - 深入浅出学统计 - 摘要相关的知识,希望对你有一定的参考价值。

本文是已读书籍的内容摘要,少部分有轻微改动,但不影响原文表达。

<深入浅出学统计>

引言:统计无处不在

统计值无处不在。我们伴随着统计值出生,离开后也会化为统计值。
统计帮助我们把握重要事件的大量数据。进而帮助我们更好地理解这个千变万化的世界,并操纵世界。

统计的真正力量更为特别,统计帮助我们在信息有限的情况下,做出充满信心的决策。
我们总是希望能够得到所有数据,接着算出结果,但显然这很难做到。
实际上,我们只能得到的有限的信息,但好在通过统计工具,能使用这些有限的信息,对所有的情况做出充满信心的描述。

以下内容主要讲的就是统计学的基本问题:如何通过样本来充满信心的描述整体。

  • 如何采集和调查样本。
  • 如何通过样本探索总体的各种特质(统计推论过程:筛选数据、计算置信区间、进行假设检验)

特别注意:可以通过统计进行充满信心的猜测,但永远无法通过统计得出确定无疑的结果。

1 - 收集统计数据

1.1 - 数字

统计并不只关系到数字,而且也关系到我们的信心。
统计的确需要处理大量数字,而且处理起来并不是总是那么简单。

数字很容易被用于撒谎。这通常会让人们对数字过度怀疑,从而忽略了数字的真正威力。
这要求我们在处理任何数字时,都必须带着适当的怀疑。
不管拿到什么数字,都应该问这样几个问题:

  • 你从哪里来?
  • 谁导致你出现?
  • 为什么?

1.2 - 随机原始数据

很多时候,我们都不可能清楚所有要了解的东西,只能通过研究样本,进而了解总体。

必须知晓的事实:

  • 不可能通过样本完全确定一个总体。统计指的是做出最佳猜测,而绝非确凿无疑的判断。
  • 采集样本犯下的任何错误,都可能会彻底扭曲对较大总体的结论。

通过各种方法采集样本观测值,这个过程并不简单。
最大的挑战可能在于要准确地指出样本中包含哪些内容。目的是避免样本出现偏差,因为偏差可能会导致我们曲解总体。
理想情况是,采集的样本能正确反映总体。

通过随机采集样本来避免偏差。
实践中。我们常常需要设想所有可能令样本发生偏差的问题,并确保这种问题不会出现。
随机样本效果显著的原因是,它表明我们抽取的任何一个样本的可能性都和抽取任何其他样本的可能性是一样大的。
确保样本必须正确是重中之重,因为随机抽样是一切统计调查的关键。

1.3 - 排序

问题的特性十分重要,因为我们的提问类型决定我们最终得到的是类别型数据,还是数值型数据。
这两种数据各自为政,根本差别:是否能够对其进行数学运算。

在下列情况下采集类别数据:

  • 在研究只用文字就能描述的特性时
  • 在能够用“是”或“否”回答问题时

在下列情况下采集数值型数据:

  • 在研究可以用数字进行比较的特性时

尽管可以通过类别数据来了解样本的构成比例,但总得来说,数值型数据更为有用。
在采集到大量数值型数据后,首先要做的就是利用这些数据“画图”,也就是观察现有的数据。
简单的图形能让我们集中关注数据表达的确切意义。

  • 直方图:最基本的数值型数据图形,可以对整个数据集进行整体描述,包含精确的细节。
  • 箱线图:希望了解数据的概要情况,或者希望对不同样本和群组进行比较时,可以迅速了解数据的汇聚情况。

1.4 - 侦探工作

1.5 - 怪异的错误

1.6 - 样本到总体

2 - 探寻参数

2.1 - 中心极限定理

2.2 - 概率

2.3 - 推断

2.4 - 信心

2.5 - 恨之深

2.6 - 假设检验

2.7 - 破立之争

2.8 - 走向高级

以上是关于Data - 深入浅出学统计 - 摘要的主要内容,如果未能解决你的问题,请参考以下文章

Elasticsearch学习之深入聚合分析三---案例实战

[白话解析] 深入浅出 极大似然估计 & 极大后验概率估计

Elasticsearch学习之深入聚合分析四---案例实战

分库分表方案深入讲解,学不会你捶我

第2节 mapreduce深入学习:8手机流量汇总求和

从零开始学自然语言处理-十万字长文带你深入学习自然语言处理全流程