20120810-统计数字会撒谎

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

读《Howtoliewithstatistics》后感Jocelyn统计数字会撒谎---案例与改进的方法22案例一内在有偏样本IBMInstituteforBusinessValue1936年美国选举时,所有民调都显示共和党的兰登会获胜,结果却是兰登败给了民主党人杜鲁门,这是美国历史上至今最大的“选举惊奇”。各种民调包括1000万个电话以及当时某著名杂志的订户。这样调查对象数量庞大的民调怎么会出错呢?原因是当时有能力购买电话和订阅杂志的人不能代表所有的选民,至少在经济上是有偏的,后来证实他们中许多事共和党的选民。该样本选择了兰登,而全国选民却心系罗斯福。2013/4/25随机抽样----每个个体被选进样本的几率相同。纯随机样本的成本过于昂贵,可以选择分层随机抽样(一定比例的黑人/收入阶层/年龄阶层/地域分布等)。改进方法33IBMInstituteforBusinessValue2013/4/25案例二精心挑选的平均数首先明确是哪一种平均数;然后在这个均值上加上一个显著性程度(概率和误差范围)。如,某年美国家庭的平均收入是6940美元,并以19/20的概率保证真实的数值会落在估计值的±71美元范围内。改进方法44IBMInstituteforBusinessValue2013/4/25案例三Simpson'sparadox辛普森悖论某大学历史系和地理系招生,共有13男13女报名。录取率MenWomenHistory1/52/8Geography6/84/5University7/136/13分母很重要。小结55IBMInstituteforBusinessValue2013/4/25案例四阿吉利斯悖论(AchillesParadox)-----神一样的乌龟假设阿吉利斯的速度是乌龟的10倍,乌龟速度为1米/分钟,乌龟先跑100米,当阿吉利斯跑到乌龟的位置时,乌龟向前跑了10米,阿吉利斯跑完这10米时,乌龟向前跑1米,阿吉利斯跑完1米时,乌龟向前跑0.1米,阿吉利斯跑完0.1米时,乌龟向前跑0.01米,照此趋势,阿吉利斯永远都追不上他前面那只乌龟。乌龟跑1米是一分钟,0.1米是0.1分钟,0.01米是0.01分钟.....这样你把时间加一下1+0.1+0.01+0.001+0.0001....这样一直加下去是一个无限的数列,但这个数列的值是能求出来的,就等于10/9,显然是一秒多一点的时间,还不到两秒,而你却把他当成了“永远”。在这里无限个时间加起来并不等于无限大的时间。这就是我们被误导的地方。在这里无限个时间加起来并不等于无限大的时间。这就是我们被误导的地方。小结66案例五令人惊奇的图形IBMInstituteforBusinessValue2013/4/25图形总是比文字更加有效,因为图形中不存在任何形容词和副词来破坏它所具有的客观幻觉,而且谁也无法指责你。100101100.5102101.5103102.5101.5103105010203040506070809010011012345678910100101100.5102101.5103102.5101.510310510010110210310410512345678910100101102103104105123456789小结77IBMInstituteforBusinessValue2013/4/25案例六不完全匹配的资料挂羊头卖狗肉的不完全匹配资料是一种保证你处在有利位置上的武器,而且屡试不爽。小结“据统计,早上7点发生车祸的生还率是晚上7点的4倍。所以早上比较安全。”-----晚上7点车本来就多。“美国与西班牙战争期间,美国海军的死亡率是9‰,而同期纽约市居民的死亡率是16‰,所以参军更加安全。”-----城市居民包括了婴儿、老人、病人。“24%的交通事故是由于酒后驾车造成的!”------76%的交通事故是由没有饮酒的驾驶者造成的,所以酒后驾车也没有关系。“据统计,有27%的著名医师抽“喉宝”牌香烟,那你呢?”-----Sowhat.88IBMInstituteforBusinessValue2013/4/25案例七相关关系的误解经过大容量的样本,认真仔细的计算,科学家们证实了抽烟者的大学成绩比不吸烟者的成绩差,所以吸烟使人变笨。这是大家想要的结论。会不会是相反的作用关系呢?也许不理想的分数促使学生不喝酒而变得爱抽烟?这种说法与前一种说法一样不靠谱,而且都能得到证据的充分支撑。面对我们这个时代的任何一对数据时:如大学生的人数、患某种病的人数、香烟的消费量、X光的使用次数、假牙的产量、某大学老师的薪水等都很容易显示出正相关关系。这些相关都是事物变迁或时代趋势的产物。数据是真实的,而不妥的是依据这些数据和事实推断出了一个未经证实的结论。小结99IBMInstituteforBusinessValue2013/4/25案例八如何进行统计操纵统计是一门艺术,学者许多控制和扭曲都是在合理范围内进行的。每个学者都带有自己的偏见。在各种媒体中看到统计数据是需要认真思考后再接受,进一步了解真相,不能因噎废食。小结假设去年1升牛奶=10¥1条面包=10¥今年1升牛奶=5¥1条面包=20¥1)物价上涨:以去年的价格为100%,牛奶价格降了50%,面包价格涨了200%,将50%与200%平均的125%,所以物价涨了25%。2)物价下降:以今年的价格为100%,去年牛奶价格为今年的200%,而面包价格是今年的50%,平均数是125%,所以去年的价格比今年高25%,物价下降了25%。3)物价没变:将去年的每种商品价格看成100%,将两个100%相乘在开平方根,得到100%,是去年价格的几何平均数。今年牛奶是去年的50%,面包是去年的200%,50%乘以200%的10000%,再开平方根得100%。所以物价没变。1010IBMInstituteforBusinessValue2013/4/25总结如何炼就火眼金睛1)谁说的?“08年奥运会期间”几大门户网站都说自己的报道水平第一,到底谁第一呢?当然找对自己有利的数据说。2)他是如何知道的?各家选用的调研公司和样本指标都略有偏差,都是样本惹的祸,还好不是临时工。3)是否有遗漏?看单一指标难免一叶障目,有时候,比比更健康。4)是否偷换了概念?田忌赛马中那拿自己的长处和别人的短处比是不地道的。5)这个数据对我有意义吗?让人印象深刻的精确数据也会与实际情况向左。(人们平均每晚睡7.8个小时)Thankyou~2013/4/2511

1 / 11
下载文档,编辑使用

©2015-2020 m.111doc.com 三一刀客.

备案号:赣ICP备18015867号-1 客服联系 QQ:2149211541

×
保存成功