3星|《数据的真相》:常见的数据误导与反误导方法
Posted zuoqs
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了3星|《数据的真相》:常见的数据误导与反误导方法相关的知识,希望对你有一定的参考价值。
全书由许多小章节组成,每一小章节是一篇相对独立的短文,讲一种数据造成的误解/误导,和读者的反误解/反误导方法。比如说看数据的话美国的副市长的平均工资高于市长的平均工资,细究的话实际是许多小镇没有副市长,只有一个低薪的市长,有副市长的都是相对较大的市镇。
这些内容还都比较有意思,也有实用价值。没看过类似资料的读者可以看看。对我来说大部分信息与观点都见过了。
kindel电子书有一个小错误:目录弄错了,成了《韩国式资本主义》的目录了。
总体评价3星,有参考价值。
以下是书中一些内容的摘抄,#号后面是kindle电子版中的页码:
1:有些人可能听说有三起食品召回事件都发生在明尼苏达州,就认为那个地区的食品不安全。但事实并非如此。恰恰相反,由于明尼苏达州健康农业部工作出色,你的健康在那里可能比在美国其他地区得到更好的保障。#67
2:但如你所见,正是那些小数据——那每天环绕你周围的以字节记的数据——对你每天的健康、开销、工作、人际关系等诸多方面产生了巨大影响。从食品标签到天气预报,从银行账户到医疗卫生,小数据无所不在。#207
3:在美国,一项研究表明绝大多数心理学研究“在很长时间以来一直以大学生为研究对象——尤其是以上心理学课程的本科生为研究对象。这样的情况已经持续了近50年”。#461
4:AC尼尔森公司创立者阿瑟·查尔斯·尼尔森说过:“如果你不相信抽样,那下次抽血的时候,让护士把你全身的血全抽光算了。”#700
5:这儿有个例子可以说明基本数据是如何影响平均值的。在美国,市长/镇长的平均工资为62000美元。副市长/副镇长的平均工资为83000美元。#878
6:再考虑一下,截尾取平均数这一方式将最高值和最低值当作离群值看待,而不管其是否真的是离群值。这样的评分方式真的公平吗?#992
7:问题出在了这项分析把华盛顿哥伦比亚特区——相比较而言,该地区的市场极小——包含了进去。这就意味着哪怕康伍德公司的产品销售量产生了很小的变化(仅仅在几家店里积压)都会大大改变市场占有率。#1029
8:我们先从研究苹果手机开始,这份研究调查了美国每一个州的苹果手机使用量和持有学士学位(及其他情况)人口的比例,发现“苹果手机使用率和教育水平呈正相关”。#1172
9:你知道加利福尼亚的阳光和美属萨摩亚岛上的律师数量相关吗?你是否还知道全美国保龄球馆的年收入和人均酸奶的消耗量有关?这些只是我们在虚假关联网站(tylervigen.com)上找到的虚假(即误导性)关联例子中较为好玩的几个。#1382
10:1970年《纽约时报》上有一篇文章的标题为——《统计学家指出征兵抽签并非随机》。[3]该文章指出,12月出生的人和1月出生的人相比,会更容易在抽签中编号靠前。#1540
11:但如果你读了原始材料,你会发现18%这个值“置信区间为8.8%到28%,而置信水平为95%”。[2]所以的确有可能患病概率会上升18%,但更加准确的表达方式应该是患病概率的幅度在8.8%~28%之间。#1746
12:视觉图形还可以让数据看起来更加可信。正如《哈佛商业评论》所提到的,引用了康奈尔大学的研究成果,“当有关新药疗效的声明以文本形式呈现出来时,67%的研究对象称他们会相信,但是当同样的声明以文本和一幅简单的图表一起呈现时,则有97%的人会相信”。#2076
13:记住,每当一幅图像出现在你眼前,那都是有人有意为之,以达成某一目的。比如,餐馆菜单展示出来的图标和照片能够带动销售额上涨多达30%。#2087
14:在典型的电视辩论会中,话题的正反方各有一个或者两个辩手,而奥利弗则不同以往,决定正反方辩手的人数要体现出持相应观点的人数。因此,他邀请了97个人作为正方,认为气候变化是真实的——3个人为反方,持反对观点。仅凭借这一简单的举动,他彻底改变了普通人看待这场辩论的视角#2117
15:仔细玩味以下句子:22%的鲨鱼攻击事件是致命的。仅有22%的鲨鱼攻击事件是致命的。加上“仅有”(only)一词,我们就不会很重视其后的数据——这是歪曲数据的另一手段。#2126
16:如果任何网民都可以在这个全世界最受欢迎的网站更新内容,究竟凭什么要相信上面的信息?答案很明了:不能相信。#2200
17:这一数据是精准的。谷歌收购Nest的消息是确凿无误的,然而投资者没有去核实,结果购买了仙股而不是谷歌新公司的股票。#2245
18:在20世纪80年代,A&W连锁餐厅欲与麦当劳及其著名的“1/4磅牛肉汉堡”争个高下。因此,A&W决定推出1/3磅牛肉汉堡。顾客认为后者口味更佳,结果却销量惨淡。显然人们以为1/4磅的汉堡比1/3磅的汉堡大。#2254
19:你可能听过“摘樱桃法则”。实际上,你可能自己也这么做过。摘樱桃法则意味着你从数据中挑选吸引人眼球的例子来证明自己的观点,同时无视那些可能跟自己观点相悖的数据。嘉宝绝对不是唯一一家通过筛选数据来营销的公司。#2313
20:政客们是筛选数据的专家。如果你在竞选公职,并在步枪协会(NRA)筹款活动上发表演说,你会强调成长过程中与父亲在肯塔基州荒郊野外狩猎的经历。但你若在好莱坞发起募捐活动,你则会谈起在演艺圈大红大紫的舅舅。#2475
21:在你观看电视商业广告的时候,通常来说,你所看到、听到的一切都是经过精挑细选的。无一例外。演员是根据他们的年龄、性别、族裔、体重、发型、雀斑数目等条件精心筛选出来的。尤其是台词,每个字至少要经过12人审查。#2516
22:你在欧洲度假或者在品牌折扣店血突然接到了来自信用卡公司的电话,原因是该公司担心你的卡出现了欺诈行为。为什么呢?可能是因为公司参照了以往的数据,并以此创建了你未来购买行为的模型。#2756
23:如果你抛10次,硬币5次正面朝上5次反面朝上的概率不是50%,实际概率甚至低于25%。如果你抛100次,硬币50次正面50次反面朝上的概率大概为8%。#2826
24:人们的这种直觉被称为“赌徒谬论”——认为你输一阵之后,就会赢了。根据得州农工大学(TexasA&M)做的研究来看,“实际上,你赢的概率跟先前并无区别”。#2849
25:民调者“提早几周”就停止调研了。民调者认为在选举前的最后几周民众的意见不会有太大的变化了——然而实际上有变化,因为杜鲁门的支持者集合了工人们的选票。#2973
更多良心书评参见我的公众号:左其盛经管新书点评
以上是关于3星|《数据的真相》:常见的数据误导与反误导方法的主要内容,如果未能解决你的问题,请参考以下文章
Tensorflow text_generation 教程中对有状态 GRU 的误导性训练数据洗牌