頭一回在美國上統(tǒng)計課,在國內政府部門做過近十年數(shù)據(jù)統(tǒng)計工作的涂子沛覺得“眼前一亮”。這一講的內容是統(tǒng)計學的意義。大胡子的印度裔教授一本正經地對學生們說:“除了上帝,任何人都必須用數(shù)據(jù)來說話?!?/p>
教授的觀點一下子震撼了涂子沛。在他的印象中,數(shù)據(jù)往往被當成論證工具,更像是一種“證明領導意圖的手段”。
但在這里,“數(shù)據(jù)”二字似乎有另一重含義。
2007年年底,奧巴馬訪問谷歌公司總部,并發(fā)表演講: “人民知道得越多,政府官員才可能更加負責任……我將把聯(lián)邦政府的數(shù)據(jù)用通用的格式推上互聯(lián)網。我要讓公民可以跟蹤、查詢政府的資金、合同、專門款項和游說人員等信息。”
涂子沛記得,奧巴馬的演講在此時被熱烈的掌聲所打斷。
這是涂子沛第一次將“公民權利”與“數(shù)據(jù)”聯(lián)系起來。也正是從那時起,這個從卡內基·梅隆大學畢業(yè),并已經在一家美國公司就職的數(shù)據(jù)庫程序員萌生了一個系統(tǒng)的寫作計劃。
2012年7月,涂子沛的《大數(shù)據(jù)》一書出版,扉頁上的題記別具一格:“一個真正的信息社會,首先是一個公民社會?!?/p>
大數(shù)據(jù)時代
涂子沛在美國匹茲堡市一家聯(lián)邦政府的合同商公司做程序員,每天面對的東西都是數(shù)據(jù)、代碼或大大小小的表格。
上世紀70年代初,涂子沛出生在中國一個法官家庭。因為從小看父親斷案,他很早就開始思考什么是“正義”這樣的大問題。90年代中期,他進入當時的華中理工大學讀書。學校里有人文講堂的講座活動,這個計算機專業(yè)的學生是最忠實的擁躉之一。年已不惑的涂子沛至今仍然保留著這分情懷。當看到“7·21”北京暴雨的新聞后,他連夜寫了一篇介紹美國如何發(fā)布氣象災害信息的文章。
“沒有有效的預警,再準確的數(shù)據(jù)預報也是一個零?!蓖孔优嬖谖闹薪榻B說,美國國家天氣服務局不僅開通了推特、臉譜等社交媒體賬號,還推出了一種叫做天氣收音機的預警產品。一旦氣象預警后,平時沉默不語的“收音機”會立刻成為“鬧鐘”。
涂子沛慢慢意識到,原來自己一直關心的“公平正義”,竟然與每天朝夕相處的數(shù)據(jù)有著如此緊密的聯(lián)系。
在此以前,和大部分人一樣,涂子沛更愿意從技術層面去關注什么才是“大數(shù)據(jù)”——這是對信息爆炸時代的嶄新描述。它的基本單位是“太”(TB),而1024個太則等于一“拍”(PB)。打個直觀的比方,美國國會圖書館是世界上最大的圖書館之一,它所有印刷品的信息量加起來只有15太。而全美國僅在2010年一年的新增數(shù)據(jù)量就足足有3500拍,這比13億中國人人手一本1500頁的書加起來的信息量還要大。
麥肯錫咨詢顧問公司曾估測,未來數(shù)據(jù)仍然會以每年50%的速度增長,美國還需要14萬至19萬名擁有“深度分析數(shù)據(jù)”專長的工作者。涂子沛便是其中之一。他會在自己的專欄文章中記錄那些數(shù)據(jù)改變商業(yè)的故事。比如,沃爾瑪?shù)难芯咳藛T通過數(shù)據(jù)挖掘,發(fā)現(xiàn)四成左右的年輕爸爸在購買嬰兒尿布時會順手買點啤酒犒勞自己,便對這兩種商品進行了捆綁銷售,結果銷售量雙雙增加。更夸張的事例是,一個高中女孩某天突然收到超市寄來的嬰兒服廣告,父親為此大為光火。但就在超市公開道歉幾天后,這位父親發(fā)現(xiàn)自己的女兒真的懷孕了。原來,超市已經可以通過顧客的食品消費數(shù)據(jù)作出趨勢判斷。
但當涂子沛開始寫作《大數(shù)據(jù)》一書時,商業(yè)已經不再重要,他想講述一個數(shù)據(jù)與正義的故事。
信息之于民主,就如貨幣之于經濟
2009年1月17日,新任美國總統(tǒng)奧巴馬簽署了他的首份總統(tǒng)備忘案《透明和開放的政府》。
120天后,一個叫做Data.gov的網站正式上線發(fā)布。這是一個數(shù)據(jù)開放的門戶網站,旨在全面開放美國聯(lián)邦政府擁有的數(shù)據(jù)。
項目的負責人是維偉克·昆德拉,美國政府歷史上第一位首席信息官。他說:“這是一場數(shù)據(jù)民主化的運動,我們正在把信息的力量放到美國人民手中?!?/p>
起初,這個數(shù)據(jù)開放網站有點名不副實,即使包括地理數(shù)據(jù)在內,這個新生網站上也僅僅只有47組數(shù)據(jù)和27個數(shù)據(jù)分析工具。要知道,首席信息官要面對的,“是一種沿襲了上百年的行政文化。面對龐大的公共信息,政府首腦的第一反應往往是安全第一,保密為上”。盡管早在美國建國之初,《獨立宣言》的起草人、美國第三任總統(tǒng)托馬斯·杰斐遜就曾說:“信息之于民主,就如貨幣之于經濟?!钡聦嵣?,在美國200多年的歷史中,開放政府信息的雄心并不多見。
1789年,美國國會制定了《管家法》,規(guī)定行政機關必須在統(tǒng)一的出版物上公開政務信息,但對于公開的內容,行政長官有自由裁定權。進入20世紀后,政府規(guī)模不斷膨脹,國會先后通過了《聯(lián)邦登記法》和《行政程序法》,規(guī)定公眾可以向政府提出信息公開的要求,但如果危及公共利益,政府有權拒絕。
簡言之,信息是否公開,最終還是要政府說了算。
同一時期,哥倫比亞大學新聞學教授克勞斯對當時的信息管理情況進行了調研,并出版了《人民的知情權》一書。他在書中明確提出:只有擁有信息自由,人民才能真正擁有對公共事務的發(fā)言權。后來,這本書被譽為美國信息自由運動的“圣經”。
在書出版的那一年,一個叫約翰·摩斯的新任國會議員提出了《信息自由法》的草案。在摩斯任職國會議員的25年里,經歷了數(shù)任美國總統(tǒng)。然而,即使是以開明著稱的肯尼迪,也對這個草案避猶不及。約翰遜在聽到這個草案后的第一反應則是:“摩斯想干什么?他想搞砸我這屆政府嗎?”
直到1964年,摩斯的提案才進入辯論階段。那時候的聯(lián)邦政府有27個部門,無一例外地在聽證會上大聲反對。
1966年7月4日,由于參眾兩院對于該提案的支持率都高于三分之二,無法動用否決權的約翰遜總統(tǒng)在家中簽署了這份法案。
Data.gov的出現(xiàn)則為信息公開的發(fā)展注入了新的活力。昆德拉在演講中表示,政府數(shù)據(jù)作為一項公共資源,應該像天氣預報、體育賽事和股票信息一樣實時公開。
充滿了挑戰(zhàn)性的新事物同樣引發(fā)了聯(lián)邦政府各部門頭頭腦腦們的憂慮。有人擔心,萬一民間機構根據(jù)原始數(shù)據(jù)分析出的結論與政府不一樣,是不是等于“搬起石頭砸自己的腳”;還有人認為,這場面對全世界的數(shù)據(jù)開放運動,會在不知不覺間讓國家利益受到損害。
但改革并沒有止步。截至2009年底,網站收到了社會各界約900項開放數(shù)據(jù)的申請。聯(lián)邦政府最后回復:16%的數(shù)據(jù)立即開放、26%將在短期內開放、36%將計劃開放,還有22%因為國家安全、個人隱私以及技術方面的限制無法開放。
在Data.gov上線發(fā)布一周年的時候,聯(lián)邦政府開放數(shù)據(jù)的總數(shù)已經達到了27萬項。
因為這些創(chuàng)新型的應用,數(shù)據(jù)的能量將層層放大
在涂子沛看來,創(chuàng)建Data.gov的價值并不僅僅在于滿足民眾的知情權。
2009年1月,美國聯(lián)邦政府跨部門工作組曾將一份報告提供給總統(tǒng)科學技術委員會,該報告這樣寫道:一組數(shù)據(jù),可能會得到數(shù)據(jù)收集人難以想象的應用,也可能會在另一個看起來毫不相關的領域中得到應用,而因為這些創(chuàng)新型的應用,數(shù)據(jù)的能量將層層放大。
在某種程度上,Data.gov的確掀起了一個社會創(chuàng)新的浪潮。截至2011年12月,在這個政府主導的數(shù)據(jù)開放網站上,匯集了1140個應用程序和軟件工具、85個手機插件。其中有近300個應用程序由民間的程序員、公益組織自發(fā)開發(fā)。
就在Data.gov上線不到一個月的時候,民間一位程序員便利用美國交通部開放的數(shù)據(jù)開發(fā)了一個航班延誤的免費查詢系統(tǒng)。
在這一系統(tǒng)涉及的2009年的6735次航班中,62%準點或提前到達,14%有20分鐘以內的延誤,20%有20分鐘以上的延誤,還有4%的航班最終被取消。
當然,這個查詢系統(tǒng)最有力度的數(shù)據(jù)還是一份所有航班的延誤大排名, “Delta1807”便以平均延誤26分鐘成了最不靠譜的航班。這樣的數(shù)據(jù)挖掘,直接給那些落后的航空公司敲響了警鐘。
類似的故事并不鮮見。不少人習慣于在購物時,先到 Data.gov上查詢商品是否存在因質量問題而被召回的記錄。而在2010年發(fā)生的一起礦難案件中,網民們通過Data.gov上的煤老板捐款數(shù)據(jù)記錄,發(fā)現(xiàn)接收款項最多的個人居然是地方上訴法庭的法官。后來,最高法院依此認定這名法官存在“重大偏袒”的可能。
“數(shù)據(jù)權”是信息時代每一個公民都擁有的一項基本權利
推動數(shù)據(jù)開放運動的國家并不只有美國。
2006年3月,英國《衛(wèi)報》刊登了一篇題為《把皇冠上的明珠還給我們》的專欄文章,這被視為英國數(shù)據(jù)開放運動的序幕。
2010年1月,英國政府的Data.gov.uk正式上線發(fā)布,第一天就公布了3000多項民生數(shù)據(jù)。而這個時候,已經經營半年多的美國Data.gov還僅僅只有1000多項民生數(shù)據(jù)。
而在卡梅倫出任英國首相后,更是率先提出了“數(shù)據(jù)權”的概念,并將其視為信息時代每一個公民都擁有的一項基本權利。
2011年9月20日,由八個國家發(fā)起的“開放政府聯(lián)盟”在紐約成立。幾個月后,“開放政府聯(lián)盟”又迅速收到了加拿大、意大利、韓國等42個國家或地區(qū)的加盟申請。其中,有31個國家或地區(qū)都建立了公共數(shù)據(jù)的開放網站。
在這個聯(lián)盟里,最引人矚目的國家并非美英,而是來自非洲大陸的肯尼亞。
2010年8月,肯尼亞通過了新的憲法,其中第35條規(guī)定:“每一個公民都有權獲得政府擁有的信息……每一個公民都有權修改、刪除(政府保存的)不真實、有誤導傾向的錯誤信息?!?/p>
一個真正的信息社會是一個信息自由流動而不受操縱的社會
2011年,麥肯錫公司曾以2010年度各國新增的存儲器為基準,對全世界大數(shù)據(jù)的分布做了一個研究,結果發(fā)現(xiàn)中國在這一年新增數(shù)據(jù)量約為250拍,不及日本的400拍、歐洲的2000拍,同美國的3500拍相比,則連十分之一都不到。與此相對應的另一個數(shù)據(jù)是,中國擁有4.8億互聯(lián)網用戶,幾乎是美國的兩倍;擁有近九億部手機,是美國的三倍,而互聯(lián)網和手機正是產生數(shù)據(jù)的重要來源。
在涂子沛看來,這意味著中國并不缺乏可供收集的數(shù)據(jù),而是缺乏收集數(shù)據(jù)的意識。
他回憶起,還在卡內基·梅隆大學讀書時,有一回師門聚會,大家相約每個人都要貢獻一個拿手菜。一位來自中國的博士生以一道鹵牛肉贏得滿堂彩,但當他公布自己的烹飪配方時,卻令一位美國教授不知所措。原來,這位教授不太能理解“鹽少許”、“酒若干”、“醋一勺”這樣的表述到底是什么意思。
涂子沛記得,在國內做程序員的時候,要是做一個數(shù)據(jù)系統(tǒng)供本單位使用,那么上級和下級單位一般都無法登錄這個系統(tǒng)。還有人告訴他,國內有些城市會把環(huán)境監(jiān)測點刻意設在人工湖畔的柳樹林中,或湖中心的小亭子里。
這些都讓涂子沛想起美國《數(shù)據(jù)質量法》中的嚴苛規(guī)定:任何聯(lián)邦政府部門收集的數(shù)據(jù),必須無償與其他部門共享。而在發(fā)布數(shù)據(jù)時,必須同時發(fā)布一系列的文檔,說明數(shù)據(jù)的來源、產生的方法,以及用戶在復制過程當中可能出現(xiàn)的問題和錯誤。
涂子沛把他的鄉(xiāng)愁寫進了書的尾聲,題為:《挑戰(zhàn)中國,摘下“差不多先生”的標簽》。他在文中提到胡適對于中國人“凡事差不多、凡事只講大致如此”的判斷,也引用了史學家黃仁宇認為中國在歷史上缺乏“數(shù)目字管理”這種現(xiàn)代治國手段的觀點。
前不久,國內一位學者針對一項社會調查,得出了“科學主義一定會導致嚴重的偏頗,其具體弊端就是迷信數(shù)據(jù)”的結論。
涂子沛反駁道:中國社會治理領域的問題恰恰不是數(shù)據(jù)迷信。相反,現(xiàn)實情況往往是,決策者沒有合理使用數(shù)據(jù),同時又受制于錯綜復雜的理念和利益之爭,導致數(shù)據(jù)意識形態(tài)化,在中國缺乏公信力。
涂子沛的觀點是,收集數(shù)據(jù),使用數(shù)據(jù),開放數(shù)據(jù),“如果前兩者是文化和習慣,那后者則是一種態(tài)度”。涂子沛強調:“一個真正的信息社會是一個信息自由流動而不受操縱的社會,這種開放意味著信息與每一個公民之間都是等距的,當然,也意味著公平與正義?!?/p>
(摘自2012年8月22日《中國青年報》)</