《統(tǒng)計數(shù)字會說謊》
推薦指數(shù):★★★★
作者:[美] 達萊爾·哈夫
出版社:中信出版社
出版時間:2018年1月
作者簡介:
[美] 達萊爾·哈夫
美國統(tǒng)計專家,1913年出生在美國愛荷華州,畢業(yè)于愛荷華州立大學(xué)(the State University of lowa),獲得學(xué)士學(xué)位和碩士學(xué)位。他的文章多見于《哈潑斯》《星期六郵報》《時尚先生》以及《紐約時報》等美國媒體。1963年,被授予國家學(xué)院鐘獎(National School Bell )。
編輯:蔣莉莉
并不是你遇見的所有統(tǒng)計信息都能用化學(xué)分析或化驗室里那一套設(shè)備來檢驗。但是你可以提出幾個簡單的問題來探討,從而通過問題的答案來避免被一些明顯似是而非的東西所迷惑。
首先,要找的第一樣?xùn)|西是偏差。
要找有意識的偏差。這種偏差可以體現(xiàn)為直接的錯誤陳述或是含糊不清的措辭,這兩種手段都很高明,一般情況下人們不會覺得它們有問題。有意識的偏差還可以體現(xiàn)為選出對自己有利的數(shù)據(jù),剔除對自己不利的數(shù)據(jù);也可以改變衡量的標準,比如在對比時先用某一年為基期,而后又選擇對自己更為有利的另一年為基期;或是使用不恰當?shù)臏y算方式,例如,明明是中位數(shù)更能說明問題(或許是過于能夠說明問題),卻使用了均值來計算,最后還用了一個狡猾的措辭——平均數(shù)——來掩蓋事實真相。
更要注意那些無意識的偏差,因為它的危害更大。1928年,正是由于無意識的偏差使得不少統(tǒng)計學(xué)家和經(jīng)濟學(xué)家通過圖表,預(yù)測出驚人的結(jié)論。經(jīng)濟結(jié)構(gòu)中出現(xiàn)的漏洞被過于樂觀地忽略,專家們不但引用了各種各樣的證據(jù),還從統(tǒng)計學(xué)的角度予以支持,從而試圖說明國家已進入繁榮時期。
之前提到的那個聲稱上大學(xué)會導(dǎo)致女性結(jié)婚概率降低的作者正是利用了康奈爾大學(xué)的“專家”地位。請注意,這里雖然作者使用的數(shù)據(jù)來自康奈爾大學(xué),但結(jié)論卻完全是作者自行研究得出。但是康奈爾大學(xué)的“專家”聲譽卻讓你糊里糊涂地將結(jié)論看成了康奈爾大學(xué)說的。
當你再看見“專家”的字樣,先確定字面信息下隱藏的那個人到底是不是權(quán)威人士,還是說只和權(quán)威沾了點邊兒。
也許你曾看過芝加哥《商業(yè)日報》上一份引以為豪的聲明。報紙做了一個關(guān)于囤積物品、哄抬物價的調(diào)查,在169 家公司的答復(fù)中,有2/3 的公司認為自己是朝鮮戰(zhàn)爭造成的物價上漲的受害者?!罢{(diào)查表明,”這份報紙如是說(看到這里你要格外警惕這些字眼?。?,“這些公司的做法與美國商業(yè)系統(tǒng)的敵人所控訴的完全相反?!庇捎凇渡虡I(yè)日報》是這件事的相關(guān)一方,因此我們要問清“是誰這么說”。這里,我們更應(yīng)該提出我們的第二個問題。
事實證明,起初該報社是向1200家大型公司發(fā)去了調(diào)查問卷,但只有14%的公司予以回復(fù)。86%的公司壓根兒就不愿意公開表明自己對“囤積物品、哄抬物價”這一問題的看法。
《商業(yè)日報》對這件事表面上是一副若無其事的態(tài)度,但事實表明它沒有什么可以炫耀的資本。據(jù)說情況是這樣的:收到問卷的1200 家公司中,9%的公司表示它們沒有抬高物價,5%的公司表示它們抬高了,還有86%的公司什么都沒說。這些回復(fù)了問卷的公司就組成了一個可能帶有偏差的樣本。
要格外注意那些帶有偏差的樣本,到底是因為選擇不當,還是像這個案例一樣,調(diào)查者有意識地選擇對自己有利的資料從而造成了偏差?不妨提出一個問題:這個樣本的規(guī)模是否足夠龐大,以確保任何根據(jù)這個樣本而得出的結(jié)論都真實可信?
同樣,當你看到關(guān)于“相關(guān)性”的報道時也要想想:它的規(guī)模是否大到足以說明問題?案例是否多到具備顯著性?作為一般讀者,你無法使用顯著性檢驗或通過足夠大的樣本得出一個準確結(jié)論。但對于許多報道中的內(nèi)容,你在一瞥之下(或者是長長的一瞥),就能發(fā)現(xiàn)這些內(nèi)容都缺乏足夠的案例,無法讓人信服。
通常,你無法得知樣本中包含了多少案例。尤其是當數(shù)據(jù)來源關(guān)系到利益問題時,數(shù)據(jù)缺乏就會讓人對整件事情產(chǎn)生懷疑。同樣,一個相關(guān)如果缺乏可信的測算方式(比如概率誤差、標準誤差)檢驗,那么也就沒必要把這個相關(guān)當真。
要留心那些未加說明的平均數(shù),因為無論在什么時候,均值和中位數(shù)都有著本質(zhì)的差別。
許多數(shù)據(jù)由于無法進行對比而變得沒有意義。《觀察》(Look)雜志上的一篇文章在講到唐氏綜合征時曾說:“在2800個案例中,一大半患者母親的年齡都達到或超過了35歲?!笔聦嵣希绻阆氆@知更有意義的信息,你還需要了解一下這些母親普遍的生育年齡。但很少有人知道這些。
有時,材料只給出了百分數(shù),卻沒有給出原始數(shù)據(jù),這種數(shù)據(jù)也帶有欺騙性。很久之前,約翰·霍普金斯大學(xué)開始招收女性學(xué)生,有個特別反對男女同校的人報道了一則讓人大吃一驚的消息:約翰·霍普金斯大學(xué)33%(也就是1/3)的女生嫁給了該校的男老師!最后還是原始數(shù)據(jù)還原了事實的真相——其實當年只有3 名女生入學(xué),其中之一嫁給了大學(xué)老師。
一家公司宣布3003人持有該公司的股份,每人平均持有約660股。這倒是實話。不過同樣是實話的還有,公司共有200萬股股票,其中,3位大股東的股份就占了3/4,而剩下的3000人總共持有的股份只占1/4。
如果給你一個指數(shù),你也許要問是不是漏掉了什么。該指數(shù)也許是被挑來用以扭曲事實的。一個全國性的工人組織曾經(jīng)表示:經(jīng)濟蕭條過后,利潤和生產(chǎn)指數(shù)的增長要比工資指數(shù)的增長快得多。但是,有人找到漏掉的數(shù)據(jù)時,這個作為要求漲工資的論據(jù)就失去了效力。這是因為經(jīng)濟蕭條時期利潤已經(jīng)降至一個較低水平,其基數(shù)較小,所以利潤在此基數(shù)上增長的百分比一定會比工資的大。
(本文節(jié)選自《統(tǒng)計數(shù)字會說謊》一書,內(nèi)容略有刪節(jié),標題為編輯所加。)