岑嶸
2006年,美國佐治亞州亞特蘭大市如期舉行了一次大統(tǒng)考(CRCT)。不久,相關人員發(fā)現了這次考試的不同尋常之處:答題紙上出現了大量“由錯變對”的更正痕跡,導致這次考試的分數出奇地高。
在現實中,學生在考試中肯定會對答案進行修改,而且總有一些學生會將錯誤的答案改成正確的,比如通過再次驗算發(fā)現了錯誤,這也許是湊巧一大幫學生撞了好運,因此,這也不能判斷為作弊。
不過,概率很容易讓這種所謂“巧合”穿幫。一些考場的學生答題紙上“由錯改對”的痕跡數量高于全州正常水平20~50個標準差,而在一個分布中,絕大多數數據都會落在平均值的兩個標準差范圍以內。
那么這么多學生在那么短的時間內僅憑“運氣”,改正了那么多錯題的概率是多大?打個形象的比喻,這個概率相當于有7萬名身高7英尺(2.13米)以上的觀眾,同時出現在佐治亞穹頂體育場觀看足球比賽。你能想象這個場面嗎?
CRCT是佐治亞州的統(tǒng)一考試,而根據美國2002年開始實施的《不讓一個孩子掉隊》法案,如果學校的數學統(tǒng)考通過率不及58%,語文統(tǒng)考通過率不及67%,州政府就有權關閉這所學校。中南部地區(qū)的公立學校在教學質量和學生成績上差一大截,因而面臨關閉的危險。美國的媒體后來調查發(fā)現,正是這種制度,使得一些老師鋌而走險,制造了這起美國歷史上最大的作弊丑聞。
概率發(fā)現了作弊事件,更揭露出教育制度中的弊端。事實上,概率在生活中方方面面使用的廣泛,超出我們的想象。
我們在享受電子郵件的便利時,也會碰到一種煩惱——垃圾郵件的騷擾。一個叫做“貝葉斯定理”的概率計算法則對我們擺脫垃圾郵件有幫助。
不同詞語在垃圾郵件和正常郵件中出現的概率是不同的。比如,在垃圾郵件中常??吹健案咝焦ぷ鳌保谡`]件中很少看到它。但是垃圾郵件過濾器事先并不知道這些概率(即出現“高薪工作”這個詞的郵件是垃圾郵件的概率),所以必須訓練它,讓它知道某個詞有多大的概率是屬于垃圾郵件的。為了訓練過濾器,需要收集大量的郵件,并手工標注其是否為垃圾郵件。
對于每封訓練郵件中的每個詞,過濾器會調整它在垃圾郵件和正常郵件中的概率,舉例來說,“貝葉斯垃圾郵件過濾器”會學習到“銷售主管”是屬于垃圾郵件的概率很高,而像朋友姓名、家庭成員這些只能在正常郵件中看到的詞,具有很低的垃圾概率。經過訓練之后,垃圾郵件過濾器就會像狗鼻子一樣靈敏,如果某封郵件的垃圾概率超過某個預先設定的閾值(如95%),過濾器就將其標注為垃圾郵件。
貝葉斯定理由英國數學家貝葉斯 ( Thomas Bayes) 發(fā)展而來,用來描述兩個條件概率之間的關系。貝葉斯1701年出生于倫敦,做過神甫。1742年成為英國皇家學會會員。1761年4月7日逝世。貝葉斯在數學方面主要研究概率論,并首先將歸納推理法用于概率論基礎理論,并創(chuàng)立了貝葉斯統(tǒng)計理論。
內特?西爾弗是一位美國統(tǒng)計學家,他在紐約時報網站上開有一個博客,估算2012年兩個總統(tǒng)候選人的得票,最終他準確預測了所有 50 個州的選舉結果。他還把貝葉斯定理應用在家庭婚姻上。西爾弗說,假設你是一位女性,你在衣櫥里發(fā)現了其他女人的內褲,這說明你的丈夫很有可能出軌了。但問題是如果他有外遇,應該很小心才是,所以內衣的出現可能還有其他原因。
首先假設他真的出軌了,那么其他女人的內衣會出現在你衣櫥里的概率假定為50%(y)。他要是沒有出軌,或許有其他無辜的原因。雖然這些情況也令人不快,比如那就是他自己穿的,或者他的行李被弄錯了,也可能是他想送給你的禮物,但他忘記打開了。這些說法都站不住腳,就像家庭作業(yè)被狗給吃了的借口,這些加在一起把它們的概率定為5%(z)。
最后,研究表明,每年大概有4%(x)的已婚夫婦出軌。即使你沒有看到任何證據,你丈夫也有4%的出軌可能,神秘內褲出現后,根據貝葉斯定理的計算公式xy/xy+z*(1-x),你丈夫出軌概率提高到29%,比一般情況的4%高很多,但仍然低于50%。所以你最好的選擇是不露聲色,繼續(xù)觀察。
然而真實的概率常會被噪音所掩蓋(噪音是妨礙和誤導我們尋找信號的無關信息)。以“9?11”恐怖襲擊為例,這種襲擊方法令人感到非常意外,但不是沒有貝葉斯式的先例——1985年印度航空的例子和在那三年之后的洛克比空難,因此類似襲擊的發(fā)生概率至少有4%。
在2001年夏天,明尼蘇達州一家飛行學校的工作人員告訴FBI探員,有一位出生于摩洛哥的學員想學習如何在飛行途中駕駛波音747,略過起飛和著陸課程。幾位探員認真對待這一消息,但其搜查和竊聽要求被否決。還有一位飛行教師說,裝滿燃油的飛機是可怕的武器。至少,這些信號應該把使用飛機發(fā)起襲擊的概率提高到比如15%,所以調查人員應該去認真調查飛行學校。
但令人遺憾的是,FBI和CIA每天得到海量的信息,所以忽視了這個珍貴的概率,最終導致了巨大災難的發(fā)生。
責任編輯:張蕾磊