吳 軍
((豐元創(chuàng)投 美國加利福尼亞州薩拉托加 95070)
過去50年,人類GDP增長根本的動力是摩爾定律。20世紀60年代中期大規(guī)模集成電路(后來是超大規(guī)模集成電路)的出現(xiàn),不僅帶動了整個IT行業(yè)的技術(shù)革命,而且導致了全球的自動化和信息化,這是在過去的半個世紀里拉動世界經(jīng)濟增長的根本動力(雖然在中國還有房地產(chǎn)和基本建設,但是在世界范圍內(nèi),這個市場是在萎縮的)。
圖1為1971-2011年微處理器中晶體管數(shù)量的變化,圖中的點是不同時期具有代表性的處理器。摩爾定律帶來的一個結(jié)果就是互聯(lián)網(wǎng)的興起以及產(chǎn)業(yè)的數(shù)字化,而這也帶來了一個沒有預想到的結(jié)果,就是各種數(shù)據(jù)量的急劇增長(如圖2所示),最終導致了大數(shù)據(jù)的應用。摩爾定律和大數(shù)據(jù)共同帶來的另一個結(jié)果就是“機器智能”將成為可能。在未來的20年(甚至更長時間)里,大數(shù)據(jù)和機器智能的結(jié)合不僅將引領IT發(fā)展,而且將徹底改變?nèi)祟惖纳罘绞揭约吧鐣Y(jié)構(gòu)和社會形態(tài),如今正處在這樣一個變革的關(guān)鍵時期。為了說明這一點,本文先從機器智能談起,然后談到大數(shù)據(jù)的作用,最后分析它們對今后社會的影響。
圖1 微處理器中晶體管數(shù)量變化與摩爾定律
圖2 各種數(shù)據(jù)量的增長趨勢(數(shù)據(jù)來源于美國Gartner公司)
自從1946年第一臺電子計算機誕生,人類就開始思考是否有一天計算機能夠在智力上超過人類。早在1950年,計算機科學的先驅(qū)圖靈博士就提出了一種衡量機器(包括計算機)是否有類似于人類智能的方法:讓一臺機器和一個人坐在幕后,與一個人展開對話(回答人的問題),而這個人無法辨別和他講話的是另一個人還是一臺機器,那么稱這臺機器具有和人等同的智能。這種方法被稱為圖靈測試[1],如圖3所示。
圖3 圖靈測試
圖靈當時只是給出了一個測試機器是否有智能的方法,但是并沒有指出機器是否有可能獲得類似于人類的智能,如果有這種可能,應該怎么做才能實現(xiàn)?計算機科學家們在20世紀50年代和60年代一直在考慮這個問題,他們最初的思路是讓計算機仿造人的做法,并且提出了人工智能的概念。簡單地講,就是讓計算機能夠?qū)W習人的思維方式,掌握邏輯推理,以期望最終能像人一樣根據(jù)已知條件,應用推理規(guī)則推出新的知識。這種設想符合人的直覺,因此在機器智能的發(fā)展初期它成為了主流的方法。后來在學術(shù)界,把這樣的方法論稱作“鳥飛派”,意思是看鳥是怎樣飛的就能模仿鳥造出飛機,而不需要了解空氣動力學。事實上,懷特兄弟發(fā)明飛機靠的是空氣動力學,而不是仿生學。雖然當時計算機科學和認知科學對機器智能的認識并不深刻,但是整個學術(shù)界還是充滿了樂觀情緒,在后來的10年里,美國在經(jīng)費上對人工智能的研究也是非常支持的。
從20世紀50年代到60年代,機器智能按照傳統(tǒng)人工智能的路線走得非常不順利,幾乎沒有拿得出手的成果。而與此同時,計算機科學的其他分支都發(fā)展得非常迅速。因此,美國計算機學界開始反思,機器智能是否走錯了路?1968年,著名計算機科學家明斯基在Semantic Information Process一書[2]中分析了所謂人工智能的局限性,他引用了Bar-Hillel使用過的一個非常簡單的例子:The pen was in the box,這句話很好理解,如果讓計算機理解它,做一個簡單的語法分析即可。但是,另一句語法相同的話:The box was in the pen,就讓人頗為費解。在英語中,pen還有另外一個不太常用的意思,即小孩玩耍的圍欄,在這里理解成這個意思整個句子就通順了。但是,如果用同樣的語法分析,這兩句話會得到相同的語法分析樹,而僅僅根據(jù)這兩句話本身是無法判定pen在哪一句話中應該作為圍欄,哪一句話應該是鋼筆的意思。事實上,人對這兩句話的理解并非來源于語法分析和語意本身,而來自于他們的常識或者說關(guān)于世界的知識(world knowledge),這個問題是傳統(tǒng)的人工智能方法解決不了的。因此,明斯基給出了結(jié)論:“目前”(即當時)的方法無法讓計算機真正有類似人的智能。由于明斯基在計算機科學界具有崇高的聲望,他的這篇論文導致美國政府削減了幾乎全部人工智能研究的經(jīng)費。
在機器智能的發(fā)展史上,賈里尼克是一個劃時代的人物。1972年,康奈爾大學教授賈里尼克來到IBM沃森實驗室進行學術(shù)休假,并且承擔IBM研制智能計算機的工作。當時,計算機專家們認為如果計算機實現(xiàn)了下面幾件事情中的一件,就可以認為它有圖靈所說的“智能”:語音識別;機器翻譯;自動回答問題。賈里尼克挑選了一個他認為最有可能突破的課題,即語音識別。
賈里尼克不是真正的計算機科學家,他的專長是信息論和通信,因此他看待語音識別問題完全不同于人工智能的專家們,在他看來這是一個通信問題。人的大腦是一個信息源,從思考到找到合適的語句,再通過發(fā)音說出來,是一個編碼的過程;經(jīng)過媒介(空氣或者電話線)傳播到聽眾耳朵里,是經(jīng)過了一個長長的信道的信息傳播問題;聽話人把它聽懂,是一個解碼的過程。既然是一個典型的通信問題,就可以用解決通信問題的方法來解決,為此賈里尼克用兩個馬爾可夫模型分別描述信源和信道。為了訓練和使用這兩個馬爾可夫模型,需要使用大量的數(shù)據(jù)。采用馬爾可夫模型,IBM將當時的語音識別率從70%左右提高到90%以上,同時語音識別的規(guī)模從幾百詞上升到兩萬多詞[3],這樣,語音識別就能夠從實驗室走向?qū)嶋H應用。賈里尼克和他的同事在無意中開創(chuàng)了一種采用統(tǒng)計的方法解決智能問題的途徑,因為這種方法需要使用大量的數(shù)據(jù),因此又被稱為數(shù)據(jù)驅(qū)動的方法。
賈里尼克的同事彼得·布朗在20世紀80年代,將這種數(shù)據(jù)驅(qū)動的方法應用于機器翻譯[4]。由于缺乏數(shù)據(jù),最初的翻譯結(jié)果并不令人滿意,雖然一些學者認可這種方法,但是其他學者尤其是早期從事這項工作的學者認為,解決機器翻譯這樣智能的問題只靠基于數(shù)據(jù)的統(tǒng)計是不夠的。因此,當時SYSTRAN等公司依然在組織大量的人力,寫機器翻譯使用的語法規(guī)則。
如果說在20世紀80年代還看不清楚布朗的方法和傳統(tǒng)人工智能的方法哪一個更適合計算機解決機器智能問題,那么在20世紀90年代以后,數(shù)據(jù)的優(yōu)勢就凸顯出來了。從20世紀90年代中期之后的10年里,語音識別的錯誤率減少了一半,而機器翻譯的準確性提高了一倍,其中20%左右的貢獻來自于方法的改進,而80%則來自于數(shù)據(jù)量的提升,這背后的一個原因是互聯(lián)網(wǎng)的普及使可使用的數(shù)據(jù)量呈指數(shù)增長。
最能夠說明數(shù)據(jù)對解決機器翻譯等智能問題有幫助的是2005年NIST對全世界各家機器翻譯系統(tǒng)評測的結(jié)果[5]。之前沒有做過機器翻譯的Google不僅一舉奪得了各項評比的第一名,而且將其他單位的系統(tǒng)遠遠拋在了后面。例如在阿拉伯語到英語翻譯的封閉集測試中,Google系統(tǒng)的BLEU評分為51.31%,領先第二名將近5%,而提高這5個百分點在過去需要研究7~10年;在開放集的測試中,Google以51.37%的得分比第二名領先了17%,可以說整整領先了一代人的水平。大家能想到的原因是它請到了世界著名的機器翻譯專家弗朗茲·奧科(Franz Och),但是參加評測的南加州大學系統(tǒng)和德國亞琛工學院系統(tǒng)也是奧科寫的姊妹系統(tǒng)。從奧科在Google開始工作到提交評比結(jié)果,中間只有半年多的時間,奧科在方法上沒有做任何改進。Google系統(tǒng)和之前的兩個系統(tǒng)唯一的不同之處在于,前者使用了后者近萬倍的數(shù)據(jù)量。
表1是2005年NIST評比的結(jié)果。值得一提的是,SYSTRAN公司的系統(tǒng)是唯一采用傳統(tǒng)語法規(guī)則進行機器翻譯的。它和那些采用數(shù)據(jù)驅(qū)動的系統(tǒng)相比,差距之大已經(jīng)不在一個時代了。
表1 2005年NIST從阿拉伯語到英語的翻譯(封閉集)評比結(jié)果
2000年之后,雖然還有一些舊式的學者死守著傳統(tǒng)人工智能的方法不放,但是無論是學術(shù)界還是工業(yè)界,機器智能的主流方法是基于統(tǒng)計或者說數(shù)據(jù)驅(qū)動的方法。與此同時,機器學習和數(shù)據(jù)挖掘開始熱門起來。
數(shù)據(jù)驅(qū)動的方法需要大量的數(shù)據(jù)。從理論上講,切比雪夫不等式保證了在具有大量代表性的數(shù)據(jù)后,統(tǒng)計模型的準確性。從應用上講,Google等公司的成功也驗證了這一點。既然數(shù)據(jù)是非常有用的,如果具有更多、更完備、全方位的數(shù)據(jù),就可能從中挖掘出很多預想不到的驚喜。大數(shù)據(jù)這個概念就在這樣的背景下應運而生。什么是大數(shù)據(jù)?現(xiàn)在很多人都愛講這個時髦的詞,但是大多數(shù)人對它的理解不僅有很大的局限性,有些甚至完全是錯誤的。
人們對大數(shù)據(jù)的第一個誤解就是將大數(shù)據(jù)和大量的數(shù)據(jù)混為一談,大數(shù)據(jù)的數(shù)據(jù)量確實非常大,但是只是量大還不是大數(shù)據(jù)。一個人的DNA的原始數(shù)據(jù),單純從量上來講也是非常大的,但是做不了什么事情,因為不具備統(tǒng)計意義。類似地,歐洲核子研究中心(CERN)每一個對撞實驗的數(shù)據(jù)量都很大(一年產(chǎn)生的數(shù)據(jù)量和整個互聯(lián)網(wǎng)的數(shù)據(jù)量在同一個數(shù)量級),但是這些數(shù)據(jù)都被限制在特定的維度,雖然能夠驗證很多理論(如證實了希格斯玻色子的存在),但是它們只是圍繞特定的問題,而不會對其他領域產(chǎn)生影響。
大數(shù)據(jù)不同于大量數(shù)據(jù)的第一個關(guān)鍵點是數(shù)據(jù)的多維度性質(zhì)。2013年9月,百度發(fā)布了一個頗有意思的統(tǒng)計結(jié)果——中國十大“吃貨”省市排行榜。百度沒有做任何的民意調(diào)查和各地飲食習慣的研究,只是從“百度知道”的7 700萬條和吃有關(guān)的問題里“挖掘”出來一些結(jié)論,而這些結(jié)論看上去比任何學術(shù)研究的結(jié)論更能反映中國不同地區(qū)的飲食習慣。百度給出的結(jié)論:在關(guān)于“什么能吃嗎”的問題中,福建、浙江、廣東、四川等地的網(wǎng)友最經(jīng)常問的是“什么蟲能吃”;江蘇、上海、北京等地的網(wǎng)友最經(jīng)常問“什么的皮能不能吃”;內(nèi)蒙古、新疆、西藏的網(wǎng)友則是最關(guān)心“蘑菇能吃嗎”;而寧夏網(wǎng)友最關(guān)心的竟然是“螃蟹能吃嗎”。寧夏網(wǎng)友關(guān)心的事情一定讓福建網(wǎng)友大跌眼鏡,反過來也一樣,寧夏網(wǎng)友會驚訝于有人居然要吃蟲子。
百度做的這件小事就是大數(shù)據(jù)的一個典型應用,它有幾個特點:首先,數(shù)據(jù)本身非?!按蟆保? 700萬個問題和回答不是一個小數(shù)字;第二,數(shù)據(jù)維度非常多,涉及食物的做法、吃法、成份、營養(yǎng)價值、價格、問題來源的地域和時間等,而且這些維度也不是明確給出的(這與傳統(tǒng)的數(shù)據(jù)庫不一樣)。在外面人看來,這些原始的數(shù)據(jù)“相當雜亂”,但是恰恰是這些看上去雜亂無章的數(shù)據(jù)將原來看似無關(guān)的維度(時間、地域、食品、做法和成份等)聯(lián)系起來。經(jīng)過對這些信息的挖掘、加工和整理,得到了有意義的統(tǒng)計規(guī)律,例如不同地域的人的飲食習慣。
百度只公布了一些大家感興趣的結(jié)果,只要它愿意,還可以從這些數(shù)據(jù)中得到更多有價值的統(tǒng)計結(jié)果。例如,它很容易得到不同年齡人、性別和文化背景的飲食習慣(假如百度知道用戶的注冊信息是可靠的,即使不可靠也可以通過其他方式獲取可靠的年齡信息),不同生活習慣的人(例如正常作息的人、夜貓子們、經(jīng)常出差的人或者不愛運動的人等)的飲食習慣。如果百度的數(shù)據(jù)收集時間跨度足夠長,還可以看出不同地區(qū)人的飲食習慣的變化,尤其是在不同經(jīng)濟發(fā)展階段飲食習慣的改變。而這些看似很簡單的問題(如飲食習慣的變化)沒有“百度知道”的大數(shù)據(jù)將很難得到。
上面這些統(tǒng)計似乎并不復雜,按照傳統(tǒng)的統(tǒng)計方法應該也可以獲得,但是采用傳統(tǒng)方法的難度比一般人想象得大。如果在過去想要獲得這些統(tǒng)計結(jié)果必須做的事情:首先,需要先設計一個非常好的問卷,然后要從不同地區(qū)尋找具有代表性的人群進行調(diào)查(這就是蓋洛普一直在做的事情),最后要半人工地處理和整理數(shù)據(jù)。這樣不僅成本高,而且如同蓋洛普民調(diào)一樣,很難在采樣時對各種因素考慮周全。如果在后來統(tǒng)計時發(fā)現(xiàn)調(diào)查問卷中還應該再增加一項,而補上這一項的成本幾乎要翻倍。
傳統(tǒng)方法難度大的另一個原因是填寫的問卷未必反映被調(diào)查人真實的想法。大家在百度知道上提問和回答是沒有壓力也沒有功利的,有什么問題就提什么問題,知道什么答案就回答什么,但是在填寫調(diào)查問卷時就不同了。大部分人都不想讓自己表現(xiàn)得“非常怪”,因此不會在答卷上寫下自己有“愛吃臭豆腐”的習慣或者“喜歡吃蟲子”的嗜好。據(jù)著名媒體人羅振宇介紹,中央電視臺過去在調(diào)查收視率時就遇到這樣的情況,他們發(fā)現(xiàn)通過用戶填寫的收視卡片調(diào)查得出的收視率和自動收視統(tǒng)計盒子得到結(jié)果完全不同。從收視卡得到的統(tǒng)計結(jié)果中,那些大牌主持人和所謂高品位的節(jié)目收視率明顯地被夸大了,因為用戶本能地要填一些讓自己顯得有面子的節(jié)目。筆者也做過類似的實驗,從社交網(wǎng)絡的數(shù)據(jù)得到的對奧巴馬醫(yī)療改革的支持率(大約只有24%)比蓋洛普的結(jié)果(41%)要低得多。
大數(shù)據(jù)的好處遠不止是成本和準確性的問題,還有它的多維度(或者說全方位)。過去計算機能夠存儲和處理的數(shù)據(jù)有限,因此只收集與問題相關(guān)的數(shù)據(jù),這些數(shù)據(jù)只有很少的幾個維度,而看似無關(guān)的維度都被省略掉了。這種限制也決定了特定的數(shù)據(jù)使用方式,即通常是先有假設或者結(jié)論,然后再用數(shù)據(jù)來驗證。如今云計算的出現(xiàn)可以存儲和處理大量的、關(guān)系很復雜的甚至是原本看上去沒有用途的數(shù)據(jù),工作的方法因此而改變。除了使用數(shù)據(jù)驗證已有的結(jié)論之外,還可以從這些數(shù)據(jù)本身出發(fā),不帶任何固有的想法,看看數(shù)據(jù)本身能夠給出什么新的結(jié)論,這樣就發(fā)現(xiàn)了很多新規(guī)律。例如,百度百科中的數(shù)據(jù)乍一看是雜亂無章的,其實數(shù)據(jù)之間有很多內(nèi)在聯(lián)系。在對這些大數(shù)據(jù)進行分析之前,產(chǎn)品經(jīng)理們的頭腦里并沒有預先的假設,也不知道能得出什么樣的結(jié)論。但是,通過對這些數(shù)據(jù)的分析發(fā)現(xiàn)了很多新的規(guī)律。
大數(shù)據(jù)和大量數(shù)據(jù)的另一個不同之處在于它的完備性。在1936年的美國總統(tǒng)大選前夕,當時著名的民意調(diào)查機構(gòu)“文學文摘”(the literary digest)預測共和黨候選人蘭登會贏。此前,文學文摘已經(jīng)連續(xù)4次成功地預測了總統(tǒng)大選的結(jié)果,這一次它收回來240萬份問卷,比前幾次多得多,統(tǒng)計量應該是足夠了,因此民眾們相信他們的預測結(jié)果。而當時一位名不見經(jīng)傳的新聞學教授(也是統(tǒng)計學家)蓋洛普卻對大選結(jié)果提出了相反的看法,他通過對5萬人意見的統(tǒng)計,得到了民主黨候選人羅斯福會連任的結(jié)論。大選的結(jié)果出來后,采用了少量樣本的蓋洛普預測對了,面對迷惑的民眾蓋洛普解釋了其中的原因:文學文摘統(tǒng)計的樣本數(shù)雖然多,但是卻不具有代表性,它的調(diào)查員們是根據(jù)電話本上的地址發(fā)送問卷的,而當年美國只有一半的家庭安裝了電話,這些家庭的收入相對偏高,他們大多支持共和黨。而蓋洛普自己在設計統(tǒng)計樣本時,考慮到了美國選民種族、性別、年齡和收入等各種因素,因此雖然只有5萬個樣本,卻更有代表性。這個例子說明統(tǒng)計樣本代表性的重要性。1936年的大選預測還催生出一個現(xiàn)在最權(quán)威的民調(diào)公司——蓋洛普公司,在這之后該公司又成功地預測了1940年和1944年兩次大選。在1948年底美國大選的前夕,蓋洛普公布了一個自認為頗為準確的結(jié)論:共和黨候選人杜威將在大選中以比較大的優(yōu)勢擊敗當時的總統(tǒng),即民主黨候選人杜魯門。由于蓋洛普公司前3次的成功,在大選前很多人都相信這個結(jié)論。但是,大選的結(jié)果是杜魯門以比較大的優(yōu)勢獲勝,這讓大家對蓋洛普公司的民調(diào)方法產(chǎn)生了質(zhì)疑。雖然蓋洛普公司考慮了選民的收入、性別、種族和年齡的因素,但是還有非常多的其他因素以及上述因素的組合他們沒有考慮。
在隨后的幾十年,蓋洛普公司不斷地改進采樣方法,力求統(tǒng)計準確,但是它對美國大選結(jié)果的預測是大局(全國)尚準確,但是細節(jié)(每一個州)常常出錯,因為再好的采樣方法也有考慮不周全之處。
2012年總統(tǒng)選舉時,這種“永遠預測不準”的情況得到了改變。一位統(tǒng)計學家Nerd Silver通過對互聯(lián)網(wǎng)上能夠取得的各種數(shù)據(jù)(包括社交網(wǎng)絡上用戶發(fā)表的信息、新聞信息和其他網(wǎng)絡信息)進行大數(shù)據(jù)分析,準確地預測了全部50個州的選舉結(jié)果(如圖4所示),而蓋洛普從來沒有做到這一點。這個結(jié)果是否是蒙的?這個可能性或許存在,但是概率只有10-15,因此可以認為這是大數(shù)據(jù)分析的結(jié)果。Silver并沒有好的采樣方法,只是收集的數(shù)據(jù)很完備。大數(shù)據(jù)的完備性不僅有用,甚至有點可怕。
圖4 Nerd Silver對2012年美國大選的預測和實際結(jié)果的對比[6](深灰色表示共和黨獲勝,淺灰色表示民主黨獲勝)
大數(shù)據(jù)的第三個特征體現(xiàn)在它的英文提法big data上,這里使用的是big data,而不是large data。big更強調(diào)抽象意義上的大,而large是強調(diào)數(shù)量(或者尺寸)大。big data的提法不僅表示大的數(shù)據(jù)量,更重要地是強調(diào)思維方式的不同。這種以數(shù)據(jù)為主的新做法,在某種程度上顛覆了長期以來在科學和工程上的方法論。過去強調(diào)做一件事情的因果關(guān)系,通過前提和假設推導出結(jié)果。本文以Google和微軟在網(wǎng)頁搜索上的工作為例來說明這個方法論的變化。
大多數(shù)人認為Google的搜索比微軟的Bing(在質(zhì)量上)做得略好一點的原因是Google的算法好,這種看法2010年以前是對的,因為那時Bing搜索在技術(shù)和工程方面確實明顯落后于Google。但是如今這兩家公司在技術(shù)上已經(jīng)相差無幾,Google還能稍稍占優(yōu),除了產(chǎn)品設計略微好一些之外,主要是數(shù)據(jù)的力量。在2006年以前,Google改進產(chǎn)品的思路是先找到產(chǎn)品的不足再研究改進的方法,同時進行大量的實驗,最后在工程上實現(xiàn)。但是,從2004年開始Google發(fā)現(xiàn),在歷史上無意間收集到的大量關(guān)于用戶使用互聯(lián)網(wǎng)習慣的數(shù)據(jù)對產(chǎn)品質(zhì)量的提升有意想不到的好處。由于大數(shù)據(jù)的完備性,通過分析數(shù)據(jù)可以先得到正確的結(jié)論,即使它背后的原因一時還考慮不清楚。這樣,公司就面臨一個選擇——是否相信這些無法解釋的結(jié)論。起初,很多人還試圖在找到合理的解釋后才使用通過數(shù)據(jù)得到的結(jié)論,但是當商業(yè)上的競爭不斷加劇時,2006年之后大家的工作方式不自覺地轉(zhuǎn)到了先相信結(jié)論,再搞清楚原因這樣一種新思路上。久而久之,Google在工作中對數(shù)據(jù)產(chǎn)生了嚴重的依賴。如今它的產(chǎn)品比微軟和雅虎等競爭對手做得稍好一些,主要的原因是它不僅擁有更多的數(shù)據(jù),而且比其他公司更早地具有了大數(shù)據(jù)的思維方式,即不再刻意追求假設條件、推理過程和結(jié)論之間的因果關(guān)系,而是直接得到問題的解答。
綜上所述,大數(shù)據(jù)不僅僅是大量的數(shù)據(jù),也不僅僅是一些公司為了推銷產(chǎn)品而強調(diào)的異構(gòu)數(shù)據(jù)或者非結(jié)構(gòu)化數(shù)據(jù),而是具有了以往數(shù)據(jù)中難以具備的多維度和完備性等特點,更重要的是它是一種新的思維方式、一種新的方法論。
現(xiàn)在大數(shù)據(jù)炙手可熱的原因不僅是各行各業(yè)都可以通過對數(shù)據(jù)的分析極大地提升自身的業(yè)務,更重要的是它將帶來機器智能的全面革命,并且最終改變世界的產(chǎn)業(yè)格局和社會生活。
從數(shù)據(jù)驅(qū)動的時代開始,計算機領域的科學家和工程師已經(jīng)意識到,讓機器具有所謂的智能需要走一條和人的認知方法完全不同的道路,這就是發(fā)揮計算機在計算和存儲方面的特長,利用大數(shù)據(jù)的完備性,發(fā)現(xiàn)人難以發(fā)現(xiàn)的規(guī)律,得到傳統(tǒng)方式無法得到的結(jié)果,從而在某些方面超越人的智力。概括起來,如今從學術(shù)界到工業(yè)界都意識到,實現(xiàn)機器智能需要3個支柱:摩爾定律、大數(shù)據(jù)、數(shù)學模型。
摩爾定律的作用是保證計算機的計算能力和存儲能力能夠適應解決復雜智能問題的需求;大數(shù)據(jù)的多維度和完備性特點是保證智能性問題能夠找到答案的關(guān)鍵;數(shù)學模型則是將現(xiàn)實生活中的問題轉(zhuǎn)化成計算的橋梁。本文的重點是闡述大數(shù)據(jù)扮演的角色,下面通過Google的兩個例子來說明。
第一個例子是關(guān)于計算機自動回答人的問題。根據(jù)圖靈的觀點,當機器可以回答人的問題而提問者無法判定回答問題的是機器還是人時,機器就有了和人同等的智能。這要求計算機不僅能夠識別人的語音,還能回答人的提問,而后面一件事在半個多世紀里都做得不是很好。雖然可以通過模式匹配找到一些簡單問題的答案,但是直到2012年,機器自動回答復雜問題(如“為什么”和“怎么辦”)在學術(shù)界依然被認為是一個尚未解決的難題。
2012年,在Google內(nèi)筆者領導的研究小組開始著手解決這個問題,直到2014年年初,Google的搜索引擎已經(jīng)能夠回答30%的復雜問題了,這遠遠超過了學術(shù)界迄今為止同類研究的水平。究其原因,除了Google在自然語言處理等基礎算法上做到了世界領先之外,更重要的是Google將這個過去認為是自然語言理解的問題變成了一個大數(shù)據(jù)的問題。首先,Google發(fā)現(xiàn)對于用戶在互聯(lián)網(wǎng)上問的各種復雜問題,有70%~80%可以在前10條自然搜索結(jié)果(去掉廣告、圖片和視頻等結(jié)果)中找到答案,而只有20%左右的復雜問題,答案存在于搜索結(jié)果的摘要里。因此,Google將機器自動問答這樣一個難題轉(zhuǎn)換成了在大數(shù)據(jù)中尋找答案的摘要問題。這里有3個前提:首先,答案存在,這就是大數(shù)據(jù)的完備性;其次,計算能力足夠,Google回答這樣一個問題的時間小于10 ms,但是需要上萬臺服務器同時工作;最后,要用到非常多的自然語言處理算法,包括對全部的搜索內(nèi)容進行語法分析和語義分析,能夠從文字的片段合成符合語法而且讀起來通順的自然語言等。第一個前提只有Google等少數(shù)大公司具備,而學術(shù)界不具備,因此決定了Google而非學術(shù)界最早解決圖靈留下的這個難題。圖5為Google自動問答的實例。
第二個例子是關(guān)于Google無人駕駛汽車。無人駕駛汽車可以算是一個機器人,因為它需要像人一樣對各種隨機突發(fā)性事件快速地做出判斷。2004年,經(jīng)濟學家們[7]依然認為開車這件事是計算機難以取代人的幾件事之一,他們在得出這個結(jié)論時,除了分析技術(shù)上和心理上的難度外,還參考了當年DARPA組織的自動駕駛汽車拉力賽的結(jié)果:當時排名第一的汽車花了幾個小時才開出8英里,然后就拋錨了。但是僅僅過了6年,2010年Google的自動駕駛汽車不僅被研制出來,而且已經(jīng)在高速公路和繁華的市區(qū)行駛了14萬英里,沒有出一次事故[8]。
為什么Google能在不到6年的時間里研制出自動駕駛汽車?最根本的原因是它把這個機器人問題變成了一個大數(shù)據(jù)問題。首先,自動駕駛汽車項目是Google街景項目的延伸,Google自動駕駛汽車能去的地方都是它“掃過街”的地方,這個汽車在行駛到任何地方時,對周圍的環(huán)境是非常了解的,不像過去那些研究所里研制的自動駕駛汽車每到一處要臨時識別目標。其次,Google的自動駕駛汽車上面裝了十幾個傳感器,每秒鐘幾十次的各種掃描,這不僅超過了人所謂的“眼觀六路、耳聽八方”,而且積攢下來的大量數(shù)據(jù)對各地的路況以及不同交通狀況下車輛行駛模式有準確的了解,計算機學習這些“經(jīng)驗”的速度遠遠比人快得多。這兩點是過去學術(shù)界所不具備的條件,因此Google才能在非常短的時間里實現(xiàn)汽車的自動駕駛。
無論是計算機自動回答問題還是智能汽車的自動駕駛,都涉及大量的預先完成的離線計算。為了實現(xiàn)計算機的自動問答,需要事先對全部網(wǎng)頁的內(nèi)容進行語法和語義分析;為了實現(xiàn)自動駕駛,要事先識別出各個街道上的所有目標,這些都需要海量的計算。因此,世界上最強大的機器人其實不是那些做成人形、能夠活動的機器,而是在數(shù)據(jù)中心里面幾萬、幾十萬甚至上百萬的服務器。
最后,回顧一下Bar-Hillel和明斯基用的那個關(guān)于pen含義的實例。明斯基指出,傳統(tǒng)人工智能的方法無法讓機器獲得世界的知識,這是機器產(chǎn)生智能的障礙?,F(xiàn)在有了大數(shù)據(jù)的完備性,從某種角度上講,解決了世界知識的障礙,因此使機器具有智能成為可能。
圖5 Google自動問答(問題為“天為什么是藍色的”,問題下面是計算機產(chǎn)生的答案)
實現(xiàn)大數(shù)據(jù)的應用和機器智能涉及很多關(guān)鍵技術(shù),涵蓋了計算機科學、電機工程、通信、應用數(shù)學和認知科學等許多方面,本文重點介紹其中最主要的幾項。
大數(shù)據(jù)離不開數(shù)據(jù),而數(shù)據(jù)的收集非常關(guān)鍵。與傳統(tǒng)的利用采樣收集數(shù)據(jù)不同,大數(shù)據(jù)需要全面地、在無意間收集各種可能有用的數(shù)據(jù)。強調(diào)“無意間”是因為有時可以收集的數(shù)據(jù)會變形,不具有統(tǒng)計意義,關(guān)于央視收視率調(diào)查的例子就說明了這個道理。
雖然收集大量的數(shù)據(jù)并不難,但是收集全面卻不容易。在Silver所做的美國大選預測的例子中,準確性來自于數(shù)據(jù)的全面性。下面用Google產(chǎn)品中另外一個例子來說明收集完備的數(shù)據(jù)和大量的數(shù)據(jù)在難度上的區(qū)別。
統(tǒng)計語言模型[9]是語音識別、機器翻譯甚至輸入法的基礎,而訓練一個好的統(tǒng)計語言模型需要大量的數(shù)據(jù)。過去為了保證訓練數(shù)據(jù)具有代表性,通常是從各種來源的文本數(shù)據(jù)中抽樣,湊足即可。這樣得到的模型是針對所有人的,當然對于用詞非常怪異的人(小概率事件)來講,通用的模型就未必合適。在大數(shù)據(jù)時代,有可能為每一個用戶量身定做一個語言模型,這就要收集每一個用戶完備的輸入數(shù)據(jù),要做到這一點而不涉及用戶的隱私就有相當大的難度了。在大數(shù)據(jù)時代,擁有數(shù)據(jù)就等于擁有了財富。2014年初,Google以32億美元的天價收購幾乎沒有什么收入的智能空調(diào)控制器公司Nest,這不是為了給家庭省一點電,而是通過Nest的產(chǎn)品收集人們在家活動的數(shù)據(jù),而這些數(shù)據(jù)采用傳統(tǒng)的數(shù)據(jù)采集方法是得不到的。
摩爾定律使存儲成本成倍下降,但是當大數(shù)據(jù)出現(xiàn)后,數(shù)據(jù)量增長的速度可能超過摩爾定律增長的速度(如圖2所示)。例如,Google眼鏡可能將人一輩子看到的事情全部記錄下來,如果這件事做成了,會徹底改變?nèi)藗儗κ澜纾踔翆ψ约喝松牧私?。但是,將這些視頻(包括音頻)數(shù)據(jù)都存下來不是一件容易的事情。
對于擁有和使用大數(shù)據(jù)的公司,存儲數(shù)據(jù)的數(shù)據(jù)中心就成了未來業(yè)務的關(guān)鍵點。如果這個點出了故障,如何保證業(yè)務的正常運行就是一個挑戰(zhàn)。另外,在很多時候數(shù)據(jù)的存儲不僅僅是成本問題。處于保護隱私的考慮,很多與用戶相關(guān)的數(shù)據(jù)還不能集中存儲,而是需要存在每一個人的智能終端上,這也給數(shù)據(jù)的存儲和使用帶來了挑戰(zhàn)。
對于互聯(lián)網(wǎng)的網(wǎng)頁數(shù)據(jù)、公司運營的日志數(shù)據(jù)、用戶使用互聯(lián)網(wǎng)習慣的數(shù)據(jù),雖然其數(shù)據(jù)量大,但是顆粒度都很小(一個字段一般只有幾個字節(jié)到幾十個字節(jié)),因此它們的表示(描述)、檢索和隨機訪問并不是大問題。但是,對于富媒體數(shù)據(jù)(如視頻),要想隨機訪問其中一個畫面就不是一件容易的事情。還有很多比網(wǎng)絡富媒體顆粒度大得多的數(shù)據(jù),例如很多和醫(yī)療相關(guān)的數(shù)據(jù),一個基本單元就幾百兆甚至更多。目前,檢索一個詞組是件容易的事情,但是檢索一段基因就不容易。除了醫(yī)療,很多行業(yè)(如半導體設計、飛機設計制造)的數(shù)據(jù)量都很大。
在過去,各個領域甚至各個公司會有自己的數(shù)據(jù)格式,它們只在自己的領域使用自己的數(shù)據(jù)。但是,到了大數(shù)據(jù)時代,希望通過數(shù)據(jù)之間的相關(guān)性尤其是大數(shù)據(jù)多維度的特性,找到各種事務之間的關(guān)聯(lián)。例如第4節(jié)的“百度知道”的例子,如果能夠?qū)⒚恳粋€用戶的飲食習慣收集起來,通過可穿戴式設備了解他們的生活習慣,然后再與他們的醫(yī)療數(shù)據(jù)甚至是基因數(shù)據(jù)聯(lián)系起來,就能研究出不同人、不同生活習慣下各種疾病的發(fā)病可能性,并且可以建議他們改進飲食習慣,預防疾病。這個前景看起來很美好,但是要實現(xiàn)它就必須先解決數(shù)據(jù)的表示、檢索和隨機訪問等問題。顯然,對于世界上各種各樣的大數(shù)據(jù),無法用一個統(tǒng)一的格式來描述,但是需要一些標準的格式,以便于相互交換數(shù)據(jù)和使用數(shù)據(jù)。
數(shù)據(jù)表示的另一個挑戰(zhàn)來自于數(shù)據(jù)保密和對隱私的訴求。很多時候,希望處理/使用大數(shù)據(jù)的人,既能得到想要的統(tǒng)計規(guī)律,又無法看到數(shù)據(jù)的內(nèi)容。
使用大數(shù)據(jù),相當于在一堆沙子中淘金,不經(jīng)過處理的原始數(shù)據(jù)給不出新知識,大數(shù)據(jù)能產(chǎn)生的效益在很大程度上取決于使用和挖掘數(shù)據(jù)的水平。在Google,至少有四成的工程師每天在處理數(shù)據(jù)。
大數(shù)據(jù)不同于過去為了某個特定目的獲取或者產(chǎn)生的數(shù)據(jù),在結(jié)構(gòu)和格式上比較規(guī)范,大數(shù)據(jù)的原始數(shù)據(jù)常常是雜亂無章的,因此“從沙子里淘金”的本領是使用大數(shù)據(jù)的必要條件。在第5節(jié)的機器自動問答的例子中,雖然問題的答案存在于網(wǎng)頁之中,但是答案的內(nèi)容通常是零碎地分布在不同網(wǎng)頁里,對網(wǎng)頁的結(jié)構(gòu)、內(nèi)容進行分析就成為了使用大數(shù)據(jù)的先決條件。而對于文本大數(shù)據(jù)來說,自然語言理解技術(shù)是使用它們的前提。
從紛雜的數(shù)據(jù)中獲取有用的信息,通常只是使用大數(shù)據(jù)實現(xiàn)機器智能的第一步,而接下來關(guān)鍵的一步就是機器學習。對于同樣的數(shù)據(jù)、同樣的算法,采用不同深度的機器學習方法得到的結(jié)果不同。Google的Jeff Dean等人采用大規(guī)模并行的人工神經(jīng)網(wǎng)絡,對語音識別的參數(shù)重新訓練,將識別的錯誤率降低了15%(相對值)[10]。對于機器翻譯,效果同樣顯著。這說明機器學習的重要性。
大數(shù)據(jù)由于數(shù)據(jù)量大而且完備,一旦丟失,損失將是巨大的,而一旦被盜取,后果更是不可想象。因此,大數(shù)據(jù)的安全性是IT領域新的挑戰(zhàn)。
大數(shù)據(jù)的完備性可以帶來很多好處,例如很多原本針對一個群體的產(chǎn)品和服務可以做到針對每一個人,但是同時也會帶來隱私的憂患。對隱私的保護不是僅在法律層面,而是指如何通過技術(shù)手段,使得在使用大數(shù)據(jù)時既能夠發(fā)揮它的功效,還能夠維護個人的隱私。
目前,機器智能做得最好的領域都有一個共同的特點,就是找到了把實際問題變成計算的數(shù)學模型和智能算法。為了讓計算機發(fā)揮更大的作用,變得更加智能,需要在數(shù)學模型研究上進行更大的投入,而這需要一個漫長的技術(shù)積累,很難在一夜之間有突破,因此除了長期堅持研究,別無他法。
機器智能可以幫助改善人類的生活,但是人們在歡呼機器智能到來的同時,是否準備好了它對未來社會帶來的沖擊?2011年德國提出工業(yè)4.0的概念,即通過數(shù)字化和智能化提升制造業(yè)的水平。其核心是通過智能機器、大數(shù)據(jù)分析來幫助工人甚至取代工人,實現(xiàn)制造業(yè)的全面智能化。這在提高設計、制造和供應銷售效率的同時,也會大大減少產(chǎn)業(yè)工人的數(shù)量。在中國,全球最大的OEM制造商富士康,一直在研制取代生產(chǎn)線上工人的工業(yè)機器人。未來將有上百萬的機器人取代裝配線上的工人,這使得工人們不再需要到生產(chǎn)線上從事繁重而重復的工作,也使工廠里的工人數(shù)量大幅度地減少。
很多人會說,自從大機器出現(xiàn)后工人的數(shù)量就在減少,勞動力會被分配到其他行業(yè)。但是,如同在2004年經(jīng)濟學家低估了機器可以取代駕駛員的可能性一樣,如今可能在低估機器智能對未來社會的沖擊。這一次由機器智能引發(fā)的技術(shù)革命不僅替代那些簡單的勞動,而且將在各個行業(yè)取代原有的從業(yè)人員,因為這將是人類歷史上第一次機器在智能方面超越人類。
在美國,??漆t(yī)生(如放射科醫(yī)生)是社會地位和收入最高的群體,也是需要專業(yè)知識最多、智力水平最高的群體,他們需要在大學和醫(yī)院學習和訓練13年才能獲得行醫(yī)的執(zhí)照,過去認為這樣的工作是不可能被機器取代的。但是,現(xiàn)在智能的模式識別軟件通過醫(yī)學影像的識別和分析,可以比有經(jīng)驗的放射科醫(yī)生更好地診斷病情,而這個成本只是人工的1%[11]。
律師也被認為是最“高大上”的職業(yè),但是他們的工作受到了自然語言處理軟件的威脅。如今打一場像蘋果和三星這樣的官司,要分析和處理上百萬份法律文件(因為美國是判例型法律),律師費高得驚人。但是,位于硅谷Palo Alto的Blackstone Discovery公司發(fā)明了一種處理法律文件的自然語言處理軟件,使得律師的效率可以提高500倍,而打官司的成本可以下降99%。這意味著未來將有相當多的律師可能失去工作。事實上,這件事情在美國已經(jīng)發(fā)生,新畢業(yè)的法學院學生找到正式工作的時間比以前長了很多。
面對勢不可擋的機器智能大潮,人類在未來需要重新考慮工作和生活的方式,尤其是勞動力的出路問題。從100多年前開始的農(nóng)業(yè)革命使得發(fā)達國家2%~5%(根據(jù)美國勞工部的統(tǒng)計,美國農(nóng)業(yè)工人與勞動力人口的比例不到2%)的人提供了全部人口所需的食品,隨著機器智能的發(fā)展,或許只需要5%以下的勞動力就能提供人類所需的所有工業(yè)品和大部分的服務工作。當然,會有一小部分人參與智能機器的研發(fā)和制造,但是這只會占勞動力的很小一部分。現(xiàn)在必須考慮未來勞動力的出路,這是一個在機器智能發(fā)展過程中無法回避的問題。
機器智能曾經(jīng)是無數(shù)代人的夢想。在1946年人類制造出第一臺電子計算機以后,這個夢想似乎離人們非常近了,但是直到上個世紀末,機器的智能水平還比較低。主要有兩個原因:一是很多技術(shù)條件還不具備,機器智能的發(fā)展在整體上還處于早期階段;二是人們習慣于按照人的思維方式去要求機器,并且讓機器模擬人,導致走了很多彎路。但是,人類最終認識到計算機實現(xiàn)智能和人采用的方法是完全不同的。經(jīng)過半個多世紀的摸索,人類找到了采用適合機器特長(計算快、容量大、知識復制容易等)的發(fā)展機器智能的方式。由于人類的智能水平在過去的幾千年里沒有太大的變化,但是機器的智能水平卻可以隨著摩爾定律呈指數(shù)增長,因此在某個時間點,一定會出現(xiàn)機器在智能上超過人類的可能性,如今人們可能就處在這個轉(zhuǎn)折點,而這一切在很大程度上是因為有了大數(shù)據(jù)。
1 Turing A M.Computing machinery and intelligence.Mind,1959:433~460
2 Minsky M.Semantic Information Process.Cambridge MA:MIT Press,1968
3 Jelinek F.Continuous speech recognition by statistical methods.Proceedings of the IEEE,1976,64(4):532~556
4 Brown P F,Cocke J,Della Pietra S A,et al.A statistical approach to machine translation.Computational Linguistics,1990,16(2):79~85
5 NIST.NIST 2005 Machine Translation Evaluation Official Results.http://www.itl.nist.gov/iad/mig/tests/mt/2005/doc/mt05eval_official_results_release_20050801_v3.html,2005
6 Watercutter A.Fact:Nate Silver Predicts Election Outcome,Becomes Nerdy Chuck Norris.http://www.wired.com/2012/11/nate-silver-facts-election/,2012
7 Murnane F L.The New Division of Labor.Princeton:Princeton Press,2004
8 Markoff J.Google cars drive themselves,in traffic.The New York Times,2010
9 吳軍.數(shù)學之美.北京:人民郵電出版社,2014 Wu J.Beauty of Mathematics.Beijing:Posts & Telecom Press,2014
10 Le Q,Ranzato M R,Monga R,et al.Building high-level features using large scale unsupervised learning.Proceedings of the 29th International Conference in Machine Learning,Edinburgh,Scotland,UK,2012
11 Brynjolfsson E,McAfee A.Race Against the Machine.Lexington:Digital Frontier Press,2011