林衍
頭一回在美國(guó)上統(tǒng)計(jì)課,在國(guó)內(nèi)政府部門(mén)做過(guò)近10年數(shù)據(jù)統(tǒng)計(jì)工作的涂子沛覺(jué)得“眼前一亮”。這一講的內(nèi)容是統(tǒng)計(jì)學(xué)的意義。印度裔教授一本正經(jīng)地對(duì)學(xué)生們說(shuō):“除了上帝,任何人都必須用數(shù)據(jù)來(lái)說(shuō)話(huà)。”
教授的觀點(diǎn)一下子震撼了涂子沛。在他的印象中,數(shù)據(jù)往往被當(dāng)成論證工具,更像是一種“證明領(lǐng)導(dǎo)意圖的手段”。但在這里,“數(shù)據(jù)”似乎有另外的含義。
2007年底,奧巴馬訪(fǎng)問(wèn)谷歌總部并做了演講:
“人民知道的越多,政府官員才可能更加負(fù)責(zé)任……我將把聯(lián)邦政府的相關(guān)數(shù)據(jù)用通用的格式推上互聯(lián)網(wǎng)。我要讓公民可以跟蹤、查詢(xún)政府的資金、合同、專(zhuān)門(mén)款項(xiàng)和游說(shuō)人員的信息?!?/p>
涂子沛記得,演講在此時(shí)被熱烈的掌聲所打斷。
這是涂子沛第一次將“公民權(quán)利”這樣的大詞與“數(shù)據(jù)”聯(lián)系起來(lái)。也正是從那時(shí)起,這個(gè)從卡內(nèi)基·梅隆大學(xué)畢業(yè),并已經(jīng)在一家美國(guó)公司就職的數(shù)據(jù)庫(kù)程序員萌生了一個(gè)系統(tǒng)的寫(xiě)作計(jì)劃。2012年7月,他的《大數(shù)據(jù)》一書(shū)出版,扉頁(yè)上的題記別具一格:“一個(gè)真正的信息社會(huì),首先是一個(gè)公民社會(huì)?!?/p>
大數(shù)據(jù)時(shí)代
涂子沛在美國(guó)匹茲堡市一家聯(lián)邦政府的合同商公司做程序員,每天面對(duì)的東西就是數(shù)據(jù)、代碼以及大大小小的表格。
20世紀(jì)70年代初,涂子沛出生在一個(gè)法官家庭。因?yàn)閺男】锤赣H斷案,他很早就開(kāi)始思考什么是“正義”這樣的大問(wèn)題。90年代中期,他進(jìn)入華中理工大學(xué)讀書(shū)。學(xué)校里有“人文講堂”的講座活動(dòng),這個(gè)計(jì)算機(jī)專(zhuān)業(yè)的學(xué)生是其最忠實(shí)的擁躉之一。時(shí)任中國(guó)人民大學(xué)副校長(zhǎng)的謝韜也來(lái)講過(guò),當(dāng)時(shí)他給涂子沛簽名并留下這樣一句贈(zèng)語(yǔ):“要做新世紀(jì)國(guó)家的建設(shè)者?!比缃衲暌巡换蟮耐孔优嫒匀槐A糁@份情懷。當(dāng)看到“7·21”北京暴雨的新聞后,他連夜寫(xiě)了一篇介紹美國(guó)如何發(fā)布?xì)庀鬄?zāi)害信息的文章。
“沒(méi)有有效的預(yù)警,再準(zhǔn)確的數(shù)據(jù)預(yù)報(bào)也是一個(gè)零?!蓖孔优娼榻B,美國(guó)國(guó)家天氣服務(wù)局不僅開(kāi)通了推特、臉譜等社交媒體賬號(hào),還推出了一個(gè)叫做“天氣收音機(jī)”的預(yù)警產(chǎn)品,一旦發(fā)出氣象預(yù)警,平時(shí)沉默不語(yǔ)的“收音機(jī)”會(huì)立刻變?yōu)椤棒[鐘”。
涂子沛慢慢意識(shí)到,原來(lái)自己一直關(guān)心的“公平正義”,竟然與每天朝夕相處的數(shù)據(jù)有著如此緊密的聯(lián)系。
在此之前,和大部分人一樣,涂子沛更愿意從技術(shù)層面去關(guān)注什么是“大數(shù)據(jù)”——這是對(duì)信息爆炸時(shí)代的嶄新描述,它的基本單位是“太”(TB),而1000個(gè)“太”則等于一“拍”(PB)。打個(gè)直觀的比方,美國(guó)國(guó)會(huì)圖書(shū)館是世界上最大的圖書(shū)館之一,它所有印刷品的信息量加起來(lái)只有15太,而全美國(guó)僅在2010年一年的新增數(shù)據(jù)量就足足有3500拍。
麥肯錫咨詢(xún)公司曾做出估測(cè),未來(lái)數(shù)據(jù)仍會(huì)以每年50%的速度增長(zhǎng),需要大量擁有“深度分析數(shù)據(jù)”專(zhuān)長(zhǎng)的工作者。涂子沛便是其中之一。他會(huì)在自己的專(zhuān)欄中記錄那些數(shù)據(jù)改變商業(yè)的故事:沃爾瑪?shù)难芯咳藛T通過(guò)數(shù)據(jù)挖掘,發(fā)現(xiàn)四成左右的年輕爸爸在購(gòu)買(mǎi)嬰兒尿布時(shí)會(huì)順手買(mǎi)點(diǎn)啤酒犒勞自己,便對(duì)這兩種商品進(jìn)行了捆綁銷(xiāo)售,結(jié)果銷(xiāo)售量雙雙增加。更夸張的事例是,一個(gè)高中女孩某天突然收到了超市寄來(lái)的嬰兒服廣告,其父大為光火,但就在超市公開(kāi)道歉幾天后,這位父親發(fā)現(xiàn)自己的女兒真的懷孕了。原來(lái),超市已經(jīng)可以通過(guò)顧客的食品消費(fèi)數(shù)據(jù)做出趨勢(shì)判斷。
但當(dāng)涂子沛開(kāi)始寫(xiě)作《大數(shù)據(jù)》時(shí),商業(yè)已經(jīng)不再重要,他想講述一個(gè)數(shù)據(jù)與正義的故事。
信息之于民主,就如貨幣之于經(jīng)濟(jì)
2009年1月17日,美國(guó)新任總統(tǒng)奧巴馬簽署了他的首份總統(tǒng)備忘錄《透明和開(kāi)放的政府》。
120天后,一個(gè)叫做Data.gov的網(wǎng)站正式上線(xiàn),這是一個(gè)數(shù)據(jù)開(kāi)放的門(mén)戶(hù)網(wǎng)站,旨在全面開(kāi)放美國(guó)聯(lián)邦政府擁有的數(shù)據(jù)。
項(xiàng)目的負(fù)責(zé)人是維偉克·昆德拉——美國(guó)歷史上的第一位首席信息官,他說(shuō):“這是一場(chǎng)數(shù)據(jù)民主化的運(yùn)動(dòng),我們正在把信息的力量放到美國(guó)人民手中?!?/p>
起初,這個(gè)數(shù)據(jù)開(kāi)放網(wǎng)站有點(diǎn)名不副實(shí),即使包括地理數(shù)據(jù)在內(nèi),這個(gè)新生網(wǎng)站也僅僅只有47組數(shù)據(jù)和27個(gè)數(shù)據(jù)分析工具。要知道,年輕的首席信息官要面對(duì)的,“是一種沿襲了上百年的行政文化。面對(duì)龐大的公共信息,政府官員的第一反應(yīng)往往是安全第一、保密為上”。盡管早在建國(guó)之初,《獨(dú)立宣言》的起草人之一、美國(guó)第3任總統(tǒng)托馬斯·杰斐遜就曾說(shuō):“信息之于民主,就如貨幣之于經(jīng)濟(jì)。”但事實(shí)上,在美國(guó)200多年的歷史中,開(kāi)放政府信息的雄心并不多見(jiàn)。
1789年,美國(guó)國(guó)會(huì)制定了《管家法》,規(guī)定了行政機(jī)關(guān)必須在統(tǒng)一的出版物上公開(kāi)政務(wù)信息,但對(duì)于公開(kāi)的內(nèi)容,行政長(zhǎng)官有自由裁定權(quán)。進(jìn)入20世紀(jì)后,政府規(guī)模不斷膨脹,國(guó)會(huì)先后通過(guò)了《聯(lián)邦登記法》和《行政程序法》,規(guī)定公眾可以向政府提出信息公開(kāi)的要求,但如果危及公共利益,政府有權(quán)拒絕。
簡(jiǎn)言之,信息是否公開(kāi),還是政府說(shuō)了算。到了1951年,在當(dāng)時(shí)的冷戰(zhàn)格局下,“保密”之風(fēng)蔓延一時(shí)。
同一時(shí)期,哥倫比亞大學(xué)的新聞學(xué)教授克勞斯對(duì)當(dāng)時(shí)的信息管理情況進(jìn)行了調(diào)研,并出版了《人民的知情權(quán)》一書(shū)。他在書(shū)中明確提出:只有擁有信息自由,人民才能真正擁有對(duì)公共事務(wù)的發(fā)言權(quán)。后來(lái),這本書(shū)被譽(yù)為美國(guó)信息自由運(yùn)動(dòng)的“圣經(jīng)”。
書(shū)出版的那一年,一個(gè)叫約翰·摩斯的新任國(guó)會(huì)議員提出了《信息自由法》草案。摩斯任職25年,經(jīng)歷了數(shù)任總統(tǒng),然而即使以開(kāi)明著稱(chēng)的肯尼迪,也對(duì)這個(gè)草案避猶不及。約翰遜在聽(tīng)到這個(gè)草案后的第一反應(yīng)則是:“摩斯想干什么?他想搞砸我這屆政府嗎?”
直到1964年,摩斯的提案才進(jìn)入辯論階段。那時(shí)候的聯(lián)邦政府有27個(gè)部門(mén),無(wú)一例外地在聽(tīng)證會(huì)上大聲反對(duì)。
1966年,由于參眾兩院對(duì)該法案的支持率都高于三分之二,無(wú)法動(dòng)用否決權(quán)的總統(tǒng)約翰遜在家中簽署了這份法案。
多年后,被稱(chēng)為“《信息自由法》之父”的摩斯回顧說(shuō):“我們所做的,只是一個(gè)開(kāi)始。那最好的仗,我已經(jīng)打過(guò)。”
Data.gov的出現(xiàn)則為信息公開(kāi)的發(fā)展注入了新的活力。昆德拉在演講中表示,政府?dāng)?shù)據(jù)作為一項(xiàng)公共資源,應(yīng)該像天氣預(yù)報(bào)、體育賽事和股票信息一樣實(shí)時(shí)公開(kāi)。
充滿(mǎn)了挑戰(zhàn)性的新事物同樣引發(fā)了聯(lián)邦政府各部門(mén)頭頭腦腦的憂(yōu)慮。有人擔(dān)心,萬(wàn)一民間機(jī)構(gòu)根據(jù)原始數(shù)據(jù)分析出的結(jié)論與政府不一樣,豈不是“搬起石頭砸自己的腳”?還有人認(rèn)為,這場(chǎng)面對(duì)全世界的數(shù)據(jù)開(kāi)放運(yùn)動(dòng),會(huì)在不知不覺(jué)間讓國(guó)家利益受到損害。
但改革并沒(méi)有止步。截至2009年底,這個(gè)網(wǎng)站收到了社會(huì)各界約900項(xiàng)開(kāi)放數(shù)據(jù)的申請(qǐng)。聯(lián)邦政府最后回復(fù):16%的數(shù)據(jù)立即開(kāi)放、26%的將在短期內(nèi)開(kāi)放、36%的將計(jì)劃開(kāi)放,還有22%因?yàn)閲?guó)家安全、個(gè)人隱私以及技術(shù)方面的限制無(wú)法開(kāi)放。
在Data.gov上線(xiàn)發(fā)布一周年的時(shí)候,聯(lián)邦政府開(kāi)放的數(shù)據(jù)總數(shù)已經(jīng)達(dá)到了27萬(wàn)項(xiàng)。
因?yàn)檫@些創(chuàng)新型的應(yīng)用,數(shù)據(jù)的能量將層層放大
在涂子沛看來(lái),創(chuàng)建Data.gov的價(jià)值并不僅僅在于滿(mǎn)足民眾的知情權(quán)。
2009年1月,美國(guó)聯(lián)邦政府跨部門(mén)工作組曾將一份報(bào)告提供給總統(tǒng)科學(xué)技術(shù)委員會(huì):一組數(shù)據(jù),可能會(huì)得到數(shù)據(jù)收集人難以想象的應(yīng)用,也可能會(huì)在另一個(gè)看起來(lái)毫不相關(guān)的領(lǐng)域得到應(yīng)用,而因?yàn)檫@些創(chuàng)新型的應(yīng)用,數(shù)據(jù)的能量將層層放大。
某種程度上,Data.gov的確掀起了社會(huì)創(chuàng)新的浪潮。截至2011年12月,在這個(gè)政府主導(dǎo)的數(shù)據(jù)開(kāi)放網(wǎng)站上,匯集了1140個(gè)應(yīng)用程序、軟件工具和85個(gè)手機(jī)插件,其中有近300個(gè)應(yīng)用程序由民間的程序員、公益組織自發(fā)開(kāi)發(fā)。
就在Data.gov上線(xiàn)不到一個(gè)月的時(shí)候,民間的一位程序員便利用美國(guó)交通部開(kāi)放的數(shù)據(jù),開(kāi)發(fā)了一個(gè)航班延誤的免費(fèi)查詢(xún)系統(tǒng)。如2010年波士頓至紐約的航線(xiàn)情況:
這一年總共有6735次航班,其中62%準(zhǔn)點(diǎn)或提前到達(dá),14%有20分鐘以?xún)?nèi)的延誤,20%有20分鐘以上的延誤,還有4%的航班最終取消。
就“打飛的”而言,出行的時(shí)間至關(guān)重要。通常星期六有78%的最高準(zhǔn)點(diǎn)率,而不幸趕上星期一坐飛機(jī)的人則要承受30%的最高延誤率。在一天之內(nèi),每天早晨5點(diǎn)到6點(diǎn)起飛的航班有83%的最高準(zhǔn)點(diǎn)率,而晚上9點(diǎn)到10點(diǎn)的準(zhǔn)點(diǎn)率則低至53%。
當(dāng)然,這個(gè)應(yīng)用程序最有力度的數(shù)據(jù)還是所有航班的延誤大排名,“Delta1807”以平均延誤26分鐘成了最不靠譜的航班。
這樣的數(shù)據(jù)挖掘,直接給那些落后的航空公司敲響了警鐘。
類(lèi)似的事例并不鮮見(jiàn)。不少人習(xí)慣于在購(gòu)物前,先到Data.gov上查詢(xún)?cè)撋唐肥欠翊嬖谝蛸|(zhì)量問(wèn)題而被召回的記錄。而在2010年發(fā)生的一起礦難中,網(wǎng)民們通過(guò)Data.gov上的煤老板捐款記錄發(fā)現(xiàn),接收款項(xiàng)最多的個(gè)人居然是地方上訴法庭的法官。后來(lái),最高法院依此認(rèn)定這名法官存在“重大偏袒”的可能。
“數(shù)據(jù)權(quán)”是信息時(shí)代每一個(gè)公民都應(yīng)擁有的一項(xiàng)基本權(quán)利
推動(dòng)數(shù)據(jù)開(kāi)放運(yùn)動(dòng)的國(guó)家并不只有美國(guó)。
2006年3月,英國(guó)《衛(wèi)報(bào)》刊登了一篇名為《把皇冠上的明珠還給我們》的文章,這被視為英國(guó)數(shù)據(jù)開(kāi)放運(yùn)動(dòng)的序幕。
設(shè)計(jì)了全世界第一個(gè)網(wǎng)站的蒂姆·伯納斯·李曾被評(píng)選為“最偉大的英國(guó)人”。2009年2月,他受邀在TED(技術(shù)、娛樂(lè)、設(shè)計(jì))大會(huì)上發(fā)表演講。
“你想象不出政府會(huì)找出多少個(gè)借口來(lái)拒絕開(kāi)放數(shù)據(jù)?!边@一天,一向以?xún)?nèi)向聞名的伯納斯·李一改往日作風(fēng),甚至在講臺(tái)上帶領(lǐng)聽(tīng)眾喊起了口號(hào):
“原始數(shù)據(jù),現(xiàn)在就要!”
此后不久,他和時(shí)任英國(guó)首相的戈登·布朗一同出席一次頒獎(jiǎng)典禮。布朗問(wèn)他:“英國(guó)政府應(yīng)該如何利用互聯(lián)網(wǎng)?”伯納斯·李立即回答說(shuō):“把政府的數(shù)據(jù)推上互聯(lián)網(wǎng)?!?/p>
2010年1月,英國(guó)政府的Data.gov.uk正式上線(xiàn)發(fā)布,第一天就公布了3000多項(xiàng)民生數(shù)據(jù)。而卡梅倫出任首相后,更是率先提出了“數(shù)據(jù)權(quán)”的概念,并將其視為信息時(shí)代每一個(gè)公民都應(yīng)擁有的一項(xiàng)基本權(quán)利。
2011年,這場(chǎng)“美麗的競(jìng)賽”擴(kuò)展到了全世界。9月20日,由8個(gè)國(guó)家發(fā)起的“開(kāi)放政府聯(lián)盟”在紐約成立。幾個(gè)月后,開(kāi)放政府聯(lián)盟又迅速收到了加拿大、意大利、韓國(guó)等42個(gè)國(guó)家和地區(qū)的加盟申請(qǐng)。
這個(gè)聯(lián)盟里,最引人矚目的國(guó)家并非美、英,而是來(lái)自非洲大陸的肯尼亞。
2010年8月,肯尼亞通過(guò)了新的《憲法》,其中第35條規(guī)定:“每一個(gè)公民都有權(quán)獲得政府擁有的信息……每一個(gè)公民都有權(quán)修改、刪除(政府保存的)不真實(shí)、有誤導(dǎo)傾向的錯(cuò)誤信息。”
一個(gè)真正的信息社會(huì)是一個(gè)信息自由流動(dòng)而不受操縱的社會(huì)
2011年,麥肯錫咨詢(xún)公司曾以2010年度各國(guó)新增的存儲(chǔ)器為基準(zhǔn),對(duì)全世界大數(shù)據(jù)的分布做了一個(gè)調(diào)查,結(jié)果發(fā)現(xiàn),中國(guó)這一年的新增數(shù)據(jù)量約為250拍,與日本的400拍、歐盟的2000拍和美國(guó)的3500拍比,相去甚遠(yuǎn)。與此相對(duì)應(yīng)的另一個(gè)數(shù)據(jù)是,中國(guó)擁有4.8億互聯(lián)網(wǎng)用戶(hù),幾乎是美國(guó)的兩倍;擁有近9億部手機(jī),是美國(guó)的3倍,而互聯(lián)網(wǎng)和手機(jī)正是數(shù)據(jù)的重要來(lái)源。
在涂子沛看來(lái),這意味著中國(guó)并不缺乏可供收集的數(shù)據(jù),而是缺乏收集、挖掘數(shù)據(jù)的意識(shí)。
他回憶起在卡內(nèi)基·梅隆大學(xué)讀書(shū)時(shí),有一回師門(mén)聚會(huì),大家相約每個(gè)人貢獻(xiàn)一個(gè)拿手菜。一位來(lái)自中國(guó)的博士以一道鹵牛肉贏得滿(mǎn)堂彩,但當(dāng)他公布自己的烹飪配方時(shí),卻令一位美國(guó)教授不知所措。原來(lái),這位教授不太能理解“鹽少許”“酒若干”“醋一勺”這樣的表述到底是什么意思。
涂子沛記得,在國(guó)內(nèi)做程序員的時(shí)候,要是做一個(gè)數(shù)據(jù)系統(tǒng)供本單位使用,那么上級(jí)和下級(jí)單位一般都無(wú)法登錄這個(gè)系統(tǒng)。還有人告訴他,國(guó)內(nèi)有些城市會(huì)把環(huán)境監(jiān)測(cè)點(diǎn)刻意設(shè)在人工湖畔的樹(shù)林中或湖中心的亭子里。
這些都讓他想起美國(guó)《數(shù)據(jù)質(zhì)量法》中的嚴(yán)苛規(guī)定:任何聯(lián)邦政府部門(mén)收集的數(shù)據(jù),必須無(wú)償與其他部門(mén)共享。而在發(fā)布數(shù)據(jù)時(shí),必須同時(shí)發(fā)布一系列的文檔,說(shuō)明數(shù)據(jù)的來(lái)源、采集的方法以及用戶(hù)復(fù)制過(guò)程當(dāng)中可能出現(xiàn)的問(wèn)題和錯(cuò)誤。
涂子沛把他的這些思考都寫(xiě)進(jìn)了書(shū)的尾聲,題為“挑戰(zhàn)中國(guó),摘下‘差不多先生的標(biāo)簽”。他在文中提到胡適對(duì)于中國(guó)人“凡事差不多、凡事只講大致如此”的判斷,也引用了史學(xué)家黃仁宇認(rèn)為中國(guó)在歷史上缺乏“數(shù)目字管理”這種現(xiàn)代治國(guó)手段的觀點(diǎn),說(shuō)明“數(shù)據(jù)不是任人打扮的小姑娘,漠視精確就是不尊重事實(shí)”。
前不久,國(guó)內(nèi)一位學(xué)者針對(duì)一項(xiàng)社會(huì)調(diào)查,得出“科學(xué)主義一定會(huì)導(dǎo)致嚴(yán)重的偏頗,其具體弊端就是迷信數(shù)據(jù)”的觀點(diǎn)。
涂子沛反駁道:中國(guó)社會(huì)治理領(lǐng)域的問(wèn)題恰恰不是數(shù)據(jù)迷信,相反,現(xiàn)實(shí)情況往往是,決策者沒(méi)有合理使用數(shù)據(jù),同時(shí)又受制于錯(cuò)綜復(fù)雜的理念和利益之爭(zhēng),導(dǎo)致數(shù)據(jù)意識(shí)形態(tài)化,在中國(guó)缺乏公信力。
他的觀點(diǎn)是,收集數(shù)據(jù),使用數(shù)據(jù),開(kāi)放數(shù)據(jù),“如果前兩者是文化和習(xí)慣,那后者則是一種態(tài)度?!蓖孔优鎻?qiáng)調(diào),一個(gè)真正的信息社會(huì)是一個(gè)信息自由流動(dòng)而不受操縱的社會(huì),這種開(kāi)放意味著信息與每一個(gè)公民之間都是等距的,當(dāng)然,也意味著公平與正義。