生活的經(jīng)歷告訴我們做事情一定要“心中有數(shù)”,但心中有數(shù)首先要眼里有數(shù),所以我們習慣于“實證方法”,通過調(diào)查得出統(tǒng)計數(shù)據(jù),再做成表格、數(shù)字,生產(chǎn)車間里有箭頭圖,研究報告里有餅圖、柱狀圖、折線圖、曲線圖、模擬曲線、回歸曲線,好了,這下,我們踏實了。
可是,由于商業(yè)利益的存在,統(tǒng)計數(shù)據(jù)也會表現(xiàn)出傾向性,或者預(yù)先設(shè)定了傾向性。所以,讓我們感到踏實的數(shù)字未必反映真實狀況,我們依賴的“實證方法”未必就“實”,其過程可能是把一種傾向研究成“事實”或證明成“事實”,與其說是“實證”,還不如說是“證實”。
美國著名統(tǒng)計學(xué)家達萊爾#8226;哈夫的名著《統(tǒng)計數(shù)字會撒謊》或許能讓我們對于統(tǒng)計中的陷阱有入木三分的認識。自1954年出版至今,這本書多次重印,歷久彌新。達萊爾舉出許多活生生的案例,向我們一一解讀了統(tǒng)計中的陷阱,讀起來很有味道。
達萊爾提出,當你面對統(tǒng)計數(shù)據(jù)時,先要問自己5個問題:誰說的?他是如何知道的?遺漏了什么?是否有人偷換了概念?這個資料有意義嗎?
筆者很注意電視、報紙上賣藥的廣告,“中國有百分之××”的人“缺鈣”、“前列腺”、“性機能”這個“百分之××”是多少呢?一般是70%、80%、90%。很奇怪,過去憑票過日子的時候,中國人啥成分不缺,現(xiàn)在怎么什么都缺?如果把廣告所警告的疾病、營養(yǎng)不良的百分比都攏一下,這個結(jié)果夠嚇人的。問題的根本在于,這個危言聳聽的統(tǒng)計是誰做的?當然是廠商做的,那么出現(xiàn)如此荒誕不經(jīng)的統(tǒng)計也就不足為怪了。
統(tǒng)計的陷阱在哪里呢?首先是統(tǒng)計本身的不真實性,比如統(tǒng)計樣本的選擇偏差,或是樣本空間過小,導(dǎo)致代表性差。統(tǒng)計樣本的選擇偏差是比較常見的,由于受調(diào)查者的主觀意向或者客觀失誤的影響,統(tǒng)計樣本的選擇偏差直接影響到統(tǒng)計的結(jié)果。
如果抽取開發(fā)商作為樣本調(diào)查房價是不是高?抽取醫(yī)藥人員作為樣本調(diào)研醫(yī)療費高不高?說得再搞笑一些,抽取交通違章者作為樣本去調(diào)查交通警察的形象。那么,看似科學(xué)的統(tǒng)計會得出相當滑稽的結(jié)果。
統(tǒng)計的另一個陷阱在于統(tǒng)計之后的分析過程,在分析中,統(tǒng)計者是否遺漏了什么?或者忽視了統(tǒng)計所依賴的條件?哈夫在書中舉了個例子:“某年公布的數(shù)據(jù)顯示,該年4月的零售額高于去年同期,于是證明經(jīng)濟開始進入復(fù)蘇階段,但遺漏的內(nèi)容是前一年的復(fù)活節(jié)在3月,而該年的復(fù)活節(jié)在4月,所以復(fù)活節(jié)帶來的消費高峰在4月?!睍簳r的消費高峰顯然不能代表經(jīng)濟的轉(zhuǎn)向。
我們經(jīng)??吹竭@樣的分析報告,某產(chǎn)品價格為1000元,目前消費群體是10萬,年收入1億元,如果全國有百分之一的人消費該產(chǎn)品,就會有1300萬消費群體,年收入將高達130億元,帶來××億元的稅后利潤。
類似的分析過程我們并不陌生,但統(tǒng)計者忽略了一個事實,那就是從10萬消費群體增加到1300萬的前提是價格的大幅降低,而價格大幅降低之后,收入就不會那么多了,利潤更會有很大的變化。試想,如果現(xiàn)在的手機還是當年大哥大的價格,能做到如此普及嗎?
以突發(fā)事件代替常態(tài),以小樣本推廣到大樣本,如果忽視了一些重要的因素,分析過程就會產(chǎn)生缺陷。即使是正確的統(tǒng)計數(shù)字也未必能得到正確的結(jié)論。
桑普拉斯說,統(tǒng)計分析讓一切假象原形畢露。但遺憾的是,統(tǒng)計未必能夠揭示真實,有時候還可能制造假象。當我們面對生活中形形色色的統(tǒng)計數(shù)據(jù)的時候,千萬要多保持一些理智和清醒。
中銀國際證券金融分析師張曉輝