设为首页     加入收藏     联系我们                            社会镜像      中产平台  
 
法治热点  反贪防腐
依法治假  见义勇为
创业就业 薪酬社保 消费住房
环境保护 食品安全 医药安全
婚姻家庭 教育文化 养老休闲
统计分析 法规政策 财金 行业地方
能源矿产 进出口  三农 土地海洋
科 技  国 企  民企 企业家富豪榜
股 票
彩 票
收 藏
你的位置:  您的位置:首 页经济统计分析

抽样调查能让统计数字说谎

来源:凤凰WEEKLY 佳星 闫如意  发布时间:2019-03-03 20:16:19

 中国平均工资都 7000 了,为什么我还这么穷?                                 这星期,一条关于 " 平均工资 " 的报告,被顶上了热搜。

报告显示:春节后招聘市场很火,平均薪资高达 6014 元。上海连基层岗位薪资,都高达 8389 元。

评论区一片哀嚎," 我又拖祖国后腿了 " 的喊声不绝于耳。

近年来,这类 " 权威调查 " 层出不穷:

《2018 年全国平均工资 7850 元,你拖后腿了吗?》

《90 后没有性生活了:30% 的人无性且单身 5 年以上》

《互联网巨头:公司员工平均年薪 50 万!》

《就业寒冬来了!全国平均 32 人竞争一个岗位》

《中国男女比 7 连降,3000 万男性将 " 打光棍 "!》

《长期单身会短命:单身男性比已婚死亡风险增加 20%》

看到这些报告,很多人大呼:我不信!但是除了翻个白眼之外,好像也说不出哪里有问题。毕竟 " 数据不会说谎 "。

数据真的那么可靠吗?

并非如此。恰恰相反的是,有大把方法,能让统计数字说谎。

你看到的数据

很可能是 " 高级订制 "

年初,某招聘平台发布报告,报告中显示,2018 年年末,全国半数白领拿到年终奖,并且平均奖金高达 7100 元。

真有这么多人拿到了年终奖??难道 1 毛钱都没拿到的,只有我一个???

点开评论区,原来大家都一样。

当数据和感受严重不符时,很多人会认为是自己错了。或许自己就是混的比较差的那批人 ...

可是错的不一定是你,也可能是数据本身。

这类数据,通常都以问卷抽样调查形式进行。偏偏抽样调查,是一种很容易被干扰的调查方式。

首先是样本规模。

我们可以在广州市,调查冬天穿羽绒服的人群比例。但不能声称:调查显示,全国人民冬天几乎都不穿羽绒服。

我们看到的很多调查报告,实际上就是类似这样操作的。一个网站可能只发了几百份问卷,就敢发布 " 全国 XX 调查 "。

其次是抽样方法。

不是样本规模够大,数据就一定准确。

有一个经典段子:

电话调查显示,美国 100% 的家庭拥有电话。

同样的例子有很多。譬如某招聘平台,通过对平台的数据库分析,得出了 "2018 年夏季,求职人才需求量最多的 10 大城市 "。

这份报告其实该叫 "2018 年夏季,在该招聘平台发布职位最多的城市 "。

要保证调查数据的准确,需要花费不少精力。

但如果想要 " 私人订制 " 一个对自己有利的数据,就轻松很多了。

例如某线上理财平台,做了一个调查。他们得出结论:超过半数的受访者,倾向于使用互联网理财平台。

但这份报告中,对于样本的介绍只有一句话:对全国多个城市年终奖数据进行调查。

用这种调查方式,甚至可以调查出:全国超半数受访者,都使用本平台理财呢。

同样的骚操作,很多招聘网站也干过。某招聘平台有过一个报告:近八成的白领,都在寻找新的工作机会。

但有一个问题,那些不想找工作的人,上招聘网站干啥?闲着没事?(真的有 4.4% 的用户这么闲)

这类调查无异于在饭店外面问排队的顾客:会不会选择在该店就餐?属于废话。

不规范的数据源有多不靠谱呢?

这么说吧,只要人群找的好,想证明中国人 100% 都下载了 " 学习强国 "app 也是可能的——去政府大楼里做统计嘛。

数据解读方式

是如何指鹿为马的?

即使样本够大,抽样方法也足够科学,调查呈现的结果,仍然可以被主观意志所左右。

修改数值、编造数据是最低劣的手段,更高明的是,根据需求采用不同的分析策略。

最典型的例子就是人尽皆知的 " 被平均 "。

有网友云 " 拿我的工资和马云平均,我也能进福布斯 "。

我们可以把这个案例放大到现实世界。据统计,全球最富有的 26 个人的财富总和,相当于最贫穷 38 亿人的财富总和。这 38 亿人构成全球一半人口。

假设最富有的 26 人财富共 2600000000 元,每人平均 100000000 元资产,那最贫穷的 38 亿人平均只有 0.68 元的资产。

如果 " 被平均 " 一下呢?

38 亿最贫穷的人,人均资产变为了 1.36 元,直接翻了一倍。

资源是不会平均分配的。比起均值,众数和中位数也许更能说明问题。

2018 年上半年居民人均可支配收入平均数与中位数 图片、数据来源:国家统计局

众数是指在统计中,具有明显集中趋势点的样本,代表统计样本的一般水平;中位数是按顺序排列的一组样本数据中,居于中间位置的样本。

以马云和网友的故事为例:

假设两名网友收入为 0 元,一名网友的收入为 1 元,马云的收入为 100 元,那么统计数据的整体众数为 0 元。

将 4 个人的收入按顺序排列,排在最中间的两个数之和为 1,取个平均数,可以得出四人年收入的中位数是 0.5。

收入的众数,可以体现多数人的收入水平。收入的中位数,可以让大家知道,自己的收入,处在什么位置。

一份统计报告中,只要列出众数和中位数,就能得到相对中肯的结果。但就是有人故意回避这些数据,专拿平均数说事,非蠢既坏。

除了有目的地选用数据,还可以别有用心地解读数据。

下图中的两个对比项曲线无比吻合,如果不知道图表的具体内容,一定会认为两项数据,有紧密的相关性。

 

其实这两条曲线,分别代表 [ 尼古拉斯凯奇每年在电影中的出镜次数 ] 及 [ 每年游泳池里溺死的人数 ] 。

显然这是八竿子打不着的两件事,曲线的吻合实属巧合。

谁让这是个充满巧合的世界呢?

在 1989 年的一次调查里,调查者发现法国人爱吃的食物高脂肪、高蛋白、高热量,但法国的肥胖人口却只有 10%,冠心病发病率和死亡率,还比其它西方国家低得多。

鉴于法国盛产红酒,法国人也向来有喝红酒的习惯,研究人员便 " 顺理成章 " 地推测:" 每天适当饮用红酒有利于心血管健康,可预防心血管疾病的发生 "。

实际上,并没有医学证据支持红酒有利于心血管健康的结论。 [ 法国人心血管疾病发病率低 ] 与 [ 法国人爱喝红酒 ] 只是两个独立事件。

这样的谣言广为传播,要拜红酒商人所赐。

巧合无处不在,但是把巧合放在一起,并暗示相关性或因果关系,就其心可诛了。

不仅能用数字骗人

图表形状也能用来误导

在数据领域,谎言绝不仅仅限于数字和样本,它同样是视觉的艺术。

为了直观解读,数据通常会做成图表。在设计图表过程中,有许多误导性的手法。

修改坐标轴

修改坐标轴中,截断 Y 轴的操作最为常见。

上图是 08 年金融危机后,美国领取政府福利的人数增长情况。

乍一看,每个季度都有巨量增长。柱状图赫然呈现出:联邦政府与日俱增的财政压力。

美国人民看到后,内心对政府充满了感激。

但如果仔细观察,会发现这张图的 Y 轴不是从 0 开始,而是从 94M 开始的。如果将 Y 轴展开,改为从 0 开始,这张图就会呈现以下效果:

是不是马上变得平平无奇了?

美国民众的感激之情,瞬间能消散 80%。

还可以换一个更直观的例子。

上图是 2017 年维密大秀的现场采访。

图中左侧是主持人,右侧是身高为 178cm 的超模何穗、奚梦瑶。

图中看到,主持人和两位超模几乎平起平坐,观众可以大胆推测:主持人的身材一定也相当优越。

事实并非如此,因为这张图截去了 Y 轴。我们将 Y 轴打开,这张图长这个样子:

此外,还可以拉伸、挤压坐标轴。同一份数据,做出的图坐标刻度不同,可以呈现出完全不同的效果。

选用不同的图表

除了利用坐标轴误导读者之外,作图者还经常利用图表特性掩盖、扭曲关键信息。

比如用累积数据图代替阶段数据图。

上图是苹果手机的历年销量,图中可以看到 2016 年销量数据预测,将出现较大下滑。

如果作图人想掩盖这一信息,可以将历年销量图改为累计销量图,这部分信息就会在图中消失无踪。

利用图表特性扭曲关键信息

比如利用 3D 图表的特殊透视误导读者。

下图是 2008 年乔布斯在发布会上引用的数据,显示当时苹果占据了智能手机市场 19.5% 的份额。

在这张 3D 图中,由于阴影的存在,iPhone 所占据的绿色区域会看起来会比实际上更大。

将这张 3D 饼状图还原为平面图,如下,视觉效果明显差了很多。

 

作为世界级的演讲大师,这种失真的细节是不会逃过乔布斯的眼睛的。

换句话说,他故意的。

看了上述这些,通过人为手段操纵数据,得到某个结论的伎俩后,再来看看那些 " 耸人听闻 " 的标题:

是不是焦虑的感觉少了许多?

此外,即使统计者没有数据曲解,而是竭力想从数据中得出准确信息,也未必能如愿。

因为现实世界的变量实在太多。

譬如说预测天气吧。我们早就会呼风唤雨 ( 人工降雨 ) ,还能控制蓝天 ( G20 蓝、APEC 蓝 ) ,天上还飘着数以百计的卫星,结果呢?

天气预报还没有萧敬腾准。

 
 友情链接:人民网  新华网  法治网   澎湃新闻  中国新闻  新京报  每日经济新闻  搜狐  国家卫健委  北青网

版权所有@中实弘扬(北京)文化传媒有限公司2011

电话:(029)88866888转6388   E-mail:sx_szlef@163.com

公安备案号:京公网安备 110106006042    网站备案号:京ICP备 18003823号