吳軍
在無(wú)法確定因果關(guān)系時(shí),數(shù)據(jù)為我們提供了解決問(wèn)題的新方法,數(shù)據(jù)中所包含的信息可以幫助我們消除不確定性,而數(shù)據(jù)之間的相關(guān)性在某種程度上可以取代原來(lái)的因果關(guān)系,幫助我們得到我們想知道的答案,這便是大數(shù)據(jù)思維的核心。
在過(guò)去被認(rèn)為非常難以解決的問(wèn)題,會(huì)因?yàn)榇髷?shù)據(jù)和機(jī)器智能的使用而迎刃而解。同時(shí),大數(shù)據(jù)和機(jī)器智能還會(huì)徹底改變未來(lái)時(shí)代的商業(yè)模式,很多傳統(tǒng)的行業(yè)都將采用智能技術(shù)實(shí)現(xiàn)升級(jí)換代,同時(shí)改變?cè)械纳虡I(yè)模式。另一方面,智能化也會(huì)對(duì)整個(gè)社會(huì)帶來(lái)巨大的沖擊,尤其是在智能革命的初期。
有了信息論這樣一個(gè)工具和方法論,我們便很容易認(rèn)清大數(shù)據(jù)的本質(zhì)了。首先我們必須承認(rèn)世界的不確定性,這樣我們就不會(huì)采用確定性的思維方式去面對(duì)一個(gè)不確定性的世界。當(dāng)我們了解到信息或者說(shuō)數(shù)據(jù)能夠消除不確定性之后,便能理解為什么大數(shù)據(jù)的出現(xiàn)能夠解決那些智能的問(wèn)題,因?yàn)楹芏嘀悄軉?wèn)題從根本上來(lái)講無(wú)非是消除不確定性的問(wèn)題。對(duì)于前面提到的大數(shù)據(jù)的三個(gè)特征,即數(shù)據(jù)量大、多維度和完備性,我們可以從信息論出發(fā),對(duì)它們的重要性和必要性一一做出解釋。在這個(gè)基礎(chǔ)之上,我們就能夠講清楚大數(shù)據(jù)的本質(zhì)。
數(shù)據(jù)量的問(wèn)題
在過(guò)去,由于數(shù)據(jù)量不夠,即使使用了數(shù)據(jù),依然不足以消除不確定性,因此數(shù)據(jù)的作用其實(shí)很有限,很多人忽視它的重要性是必然的。在那種情況下,哪個(gè)領(lǐng)域先積攢下足夠多的數(shù)據(jù),它的研究進(jìn)展就顯得快一些。具體到機(jī)器智能方面,語(yǔ)音識(shí)別是最早獲得比較多數(shù)據(jù)的領(lǐng)域,因此數(shù)據(jù)驅(qū)動(dòng)的方法從這個(gè)領(lǐng)域產(chǎn)生也就不足為奇了。
大數(shù)據(jù)多維度的重要性
可以從兩個(gè)角度來(lái)看待它。第一個(gè)視角是前面提及的“互信息”,為了獲得相關(guān)性通常需要多個(gè)維度的信息。比如我們要統(tǒng)計(jì)“央行調(diào)整利息”和“股市波動(dòng)”的相關(guān)性,只有歷史上央行調(diào)整利息一個(gè)維度的信息顯然是不夠的,需要上述兩個(gè)維度的信息同時(shí)出現(xiàn)。第二個(gè)視角是所謂的“交叉驗(yàn)證”,我們不妨看這樣一個(gè)例子:夏天的時(shí)候,如果我們感覺(jué)很悶熱,就知道可能要下雨了。也就是說(shuō),“空氣濕度較高”和“24小時(shí)內(nèi)要下雨”之間的互信息較大。但是,這件事并非很確定,因?yàn)橛行r(shí)候濕度大卻沒(méi)有下雨。不過(guò),如果結(jié)合氣壓信息、云圖信息等其他維度的信息,也能驗(yàn)證“24小時(shí)內(nèi)要下雨”這件事,那么預(yù)測(cè)的準(zhǔn)確性就要大很多。因此,大數(shù)據(jù)多維度的重要性,也是有信息論做理論基礎(chǔ)的。
最后,我們從信息論的角度來(lái)看看數(shù)據(jù)完備性的重要性。在說(shuō)明這件事情之前,我們還需要介紹信息論里一個(gè)重要的概念——交叉熵,這個(gè)概念并非由香農(nóng)提出的,而是由庫(kù)爾貝克等人提出的,因此在英文里更多地被稱為庫(kù)爾貝克–萊伯勒距離(Kullback-Leibler Divergence),它可以反映兩個(gè)信息源之間的一致性,或者兩種概率模型之間的一致性。當(dāng)兩個(gè)數(shù)據(jù)源完全一致時(shí),它們的交叉熵等于零,當(dāng)它們相差很大時(shí),交叉熵也很大。所有采用數(shù)據(jù)驅(qū)動(dòng)的方法,建立模型所使用的數(shù)據(jù)和使用模型的數(shù)據(jù)之間需要有一致性,也就是蓋洛普所講的代表性,否則這種方法就會(huì)失效,而交叉熵就是對(duì)這種代表性或者一致性的一種精確的量化度量。
回過(guò)頭來(lái)講大數(shù)據(jù)的完備性。在過(guò)去,使用任何基于概率統(tǒng)計(jì)的模型都會(huì)有很多小概率事件覆蓋不到,這在過(guò)去被認(rèn)為是數(shù)據(jù)驅(qū)動(dòng)方法的死穴。很多學(xué)科把這種現(xiàn)象稱為“黑天鵝效應(yīng)”。在大數(shù)據(jù)出來(lái)之前,這件事是無(wú)法避免的,就連提出數(shù)據(jù)驅(qū)動(dòng)方法的鼻祖賈里尼克也認(rèn)為,不論統(tǒng)計(jì)數(shù)據(jù)量多大,都會(huì)有漏網(wǎng)的情況。這些漏網(wǎng)的情況反映到交叉熵時(shí),它的值會(huì)達(dá)到無(wú)窮大,也就是說(shuō)數(shù)據(jù)驅(qū)動(dòng)方法在這個(gè)時(shí)候就失效了。
怎樣防止出現(xiàn)漏網(wǎng)?
這就要求大數(shù)據(jù)的完備性了。在大數(shù)據(jù)時(shí)代,在某個(gè)領(lǐng)域里獲得數(shù)據(jù)的完備性還是可能的。比如在過(guò)去把全國(guó)所有人的面孔收集全是一件不可想象的事情,但是今天這件事情完全能做到。當(dāng)數(shù)據(jù)的完備性具備了之后,就相當(dāng)于訓(xùn)練模型的數(shù)據(jù)集合和使用這個(gè)模型的測(cè)試集合是同一個(gè)集合,或者是高度重復(fù)的,這樣,它們的交叉熵近乎零。在這種情況下,就不會(huì)出現(xiàn)覆蓋不了很多小概率事件的災(zāi)難。這樣數(shù)據(jù)驅(qū)動(dòng)才具有普遍性,而不再是時(shí)靈時(shí)不靈的方法論。
由此可見(jiàn),大數(shù)據(jù)的科學(xué)基礎(chǔ)是信息論,它的本質(zhì)就是利用信息消除不確定性。雖然人類(lèi)使用信息由來(lái)已久,但是到了大數(shù)據(jù)時(shí)代,量變帶來(lái)質(zhì)變,以至于人們忽然發(fā)現(xiàn),采用信息論的思維方式可以讓過(guò)去很多難題迎刃而解。