胡光能
2016年5月,魏則西事件將百度的網(wǎng)頁(yè)競(jìng)價(jià)排序模式推向了風(fēng)口浪尖。排除網(wǎng)頁(yè)排序背后的商業(yè)因素,搜索引擎是怎樣在紛繁復(fù)雜的信息中快速搜得所需的呢?
從現(xiàn)實(shí)生活到虛擬網(wǎng)絡(luò)
去圖書(shū)館查找書(shū)籍時(shí),書(shū)是按文學(xué)、數(shù)學(xué)、計(jì)算機(jī)等科目分類(lèi)放置的;去超市購(gòu)物時(shí),物品也是按生鮮、日用品、糕點(diǎn)等門(mén)類(lèi)分區(qū)放置的。這樣的安排“合情合理”,能夠幫助我們迅速找到自己所需的書(shū)或物品。
從真實(shí)世界到虛擬世界,互聯(lián)網(wǎng)猶如一張巨大的虛擬網(wǎng),匯聚各類(lèi)網(wǎng)頁(yè)。互聯(lián)網(wǎng)中的網(wǎng)頁(yè)就好比是圖書(shū)館里的書(shū)或超市中的物品,如果不對(duì)其進(jìn)行排序,要想從數(shù)量驚人的網(wǎng)頁(yè)中“海選”出所需的信息,那就如同天方夜譚。在這樣的背景下,搜索引擎應(yīng)運(yùn)而生。
搜索引擎的“工作”是將用戶(hù)需要的網(wǎng)頁(yè)“搜索”出來(lái),并展現(xiàn)給用戶(hù)。例如在百度搜索框中輸入“科學(xué)不倒問(wèn)”后,可能會(huì)得到如右下圖所示的搜索結(jié)果(搜索結(jié)果一般會(huì)隨著時(shí)間而變化)。觀察搜索引擎給出的搜索結(jié)果,確實(shí)與“科學(xué)不倒問(wèn)”這個(gè)“主題”相關(guān),而且相關(guān)性越高,它就會(huì)被排在越靠前的位置。
排序的奧秘
要探究搜索引擎背后的奧秘,那就需要了解搜索結(jié)果的網(wǎng)頁(yè)排序方法。觀察“科學(xué)不倒問(wèn)”的搜索結(jié)果,直觀上說(shuō),將“《中學(xué)科技》雜志科學(xué)不倒問(wèn)欄目”排在第一的排序應(yīng)是合理的,因?yàn)橄啾扔谄渌W(wǎng)頁(yè),此網(wǎng)頁(yè)與“科學(xué)不倒問(wèn)”這個(gè)主題的相關(guān)程度更高,而網(wǎng)頁(yè)的排序也在一定程度上反映出在此關(guān)鍵詞下此網(wǎng)頁(yè)的“受歡迎程度”。
網(wǎng)頁(yè)的“受歡迎程度”通??梢杂镁W(wǎng)頁(yè)的訪問(wèn)量來(lái)衡量,它和網(wǎng)頁(yè)的訪問(wèn)量成正比。但依據(jù)訪問(wèn)量對(duì)網(wǎng)頁(yè)進(jìn)行排序也會(huì)存在一些現(xiàn)實(shí)的問(wèn)題。訪問(wèn)量雖能體現(xiàn)網(wǎng)頁(yè)的“受歡迎程度”,但卻并不能體現(xiàn)網(wǎng)頁(yè)的“權(quán)威性”,例如許多低俗網(wǎng)頁(yè)便有較高的訪問(wèn)量。此外,依據(jù)訪問(wèn)量排序還易受到“刷流量”的惡意誤導(dǎo)。更為重要的是,網(wǎng)頁(yè)的訪問(wèn)量是動(dòng)態(tài)變化的,如要及時(shí)更新排序,代價(jià)也非常巨大。因此,要解決網(wǎng)頁(yè)排序中所遇到的問(wèn)題就要充分挖掘網(wǎng)頁(yè)的特征,確定評(píng)價(jià)網(wǎng)頁(yè)“權(quán)威性”和“受歡迎程度”的綜合指標(biāo)。
網(wǎng)頁(yè)特征包含網(wǎng)頁(yè)的內(nèi)容(圖片及文字等)以及其中指向其他網(wǎng)頁(yè)地址的超鏈接。一個(gè)網(wǎng)頁(yè)越“重要”,理論上就應(yīng)該會(huì)有越多的用戶(hù)瀏覽。網(wǎng)頁(yè)間的超鏈接結(jié)構(gòu)能夠影響用戶(hù)的瀏覽行為,因此,可以依據(jù)各網(wǎng)頁(yè)之間的超鏈接關(guān)系來(lái)確定各網(wǎng)頁(yè)的綜合瀏覽量,并由此對(duì)網(wǎng)頁(yè)進(jìn)行排序。
巧妙的循環(huán)分配
如右上圖,假定一個(gè)用戶(hù)U正在瀏覽網(wǎng)頁(yè)A,A含有兩個(gè)超鏈接(藍(lán)色橫線表示),分別指向網(wǎng)頁(yè)B和C,那么U在瀏覽完A后,可能會(huì)沿著超鏈接繼續(xù)瀏覽B或C,由此B或C的“重要性”便可以由A的“重要性”來(lái)體現(xiàn)。依據(jù)同樣的原理,B的“重要性”便可由指向B的所有網(wǎng)頁(yè)的“重要性”之和來(lái)表示。
與此同時(shí),處于整個(gè)網(wǎng)絡(luò)之中的B對(duì)其他網(wǎng)頁(yè)也是有影響的,例如網(wǎng)頁(yè)B中包含指向網(wǎng)頁(yè)C的鏈接,即C也影響指向B的網(wǎng)頁(yè)A的“重要性”,由此便會(huì)陷入一個(gè)兩難的境地:要想知道網(wǎng)頁(yè)B的“重要性”,就必須知道指向它的所有的網(wǎng)頁(yè)(A和C)的“重要性”之和;而要想知道所有這些網(wǎng)頁(yè)的“重要性”之和,又需要先知道對(duì)其有影響的網(wǎng)頁(yè)B的“重要性”。這便讓人困惑了,猶如陷入了“先有雞還是先有蛋”的怪圈。
為了打破這個(gè)循環(huán),谷歌的創(chuàng)始人佩奇和布林提出了PageRank算法來(lái)衡量網(wǎng)頁(yè)的重要性程度。他們首先給所有的網(wǎng)頁(yè)設(shè)置了相同的“初始得分”,然后依據(jù)網(wǎng)頁(yè)間的超鏈接結(jié)構(gòu)不斷運(yùn)行,經(jīng)過(guò)一系列的迭代計(jì)算之后,得到終止?fàn)顟B(tài)下的“網(wǎng)頁(yè)得分”,由此便可依據(jù)“得分”確定網(wǎng)頁(yè)的排列順序。得益于在網(wǎng)頁(yè)排序算法上的創(chuàng)新,谷歌在短短數(shù)年間橫掃整個(gè)互聯(lián)網(wǎng),成為搜索引擎業(yè)的一代霸主。
依據(jù)網(wǎng)頁(yè)排序算法,我們可以確定網(wǎng)頁(yè)A和C的得分較B高。仔細(xì)分析三者的關(guān)系,這樣的結(jié)果的確也是合理的。網(wǎng)頁(yè)A和B中都包含指向網(wǎng)頁(yè)C的超鏈接,這說(shuō)明網(wǎng)頁(yè)C的“重要性”較高;與此同時(shí),網(wǎng)頁(yè)C中也包含指向網(wǎng)頁(yè)A的超鏈接,網(wǎng)頁(yè)C從側(cè)面反映了網(wǎng)頁(yè)A的“重要性”,因此網(wǎng)頁(yè)A的得分也較高。
谷歌的網(wǎng)頁(yè)排序算法對(duì)網(wǎng)頁(yè)排序的過(guò)程僅僅是對(duì)簡(jiǎn)單思維的巧妙運(yùn)用,它將網(wǎng)頁(yè)排序變成了一個(gè)簡(jiǎn)單的數(shù)學(xué)問(wèn)題,也使互聯(lián)網(wǎng)擺脫了依據(jù)網(wǎng)頁(yè)訪問(wèn)量進(jìn)行排序的種種弊端。