全立新
(湖南財(cái)政經(jīng)濟(jì)學(xué)院信息管理系,長(zhǎng)沙 410205)
互聯(lián)網(wǎng)是當(dāng)今世界上最大的信息資源庫(kù),在世界上很多國(guó)家的信息化進(jìn)程中處于國(guó)家戰(zhàn)略資源地位,如何充分利用這些信息資源是各國(guó)都無法回避的重大問題。
主題資源自動(dòng)采集是目前Web資源自動(dòng)采集的重要技術(shù)手段之一,它是將互聯(lián)網(wǎng)看作是一個(gè)有向圖,讓網(wǎng)絡(luò)蜘蛛智能地判斷爬行的路線和采集信息資源。但是,互聯(lián)網(wǎng)內(nèi)容和規(guī)模呈現(xiàn)幾何級(jí)數(shù)的增長(zhǎng),這種主題爬行方法很容易受到“Web孤島[1]”和“蜘蛛陷阱”等問題的制約,導(dǎo)致信息采集效率低下甚至失效。本文設(shè)想解決上述問題的一種方案是讓網(wǎng)絡(luò)蜘蛛在有效范圍內(nèi)進(jìn)行爬行,因此,面對(duì)海量的Web信息資源,如何確定有效的采集范圍是主題爬行技術(shù)亟待解決的問題。
互聯(lián)網(wǎng)是當(dāng)今人類社會(huì)活動(dòng)的主要網(wǎng)絡(luò)空間。由此誕生了新型社會(huì):網(wǎng)絡(luò)社會(huì),它的實(shí)質(zhì)是人類社會(huì)生活的另一種社會(huì)形態(tài)[2]?;ヂ?lián)網(wǎng)正如人與自然環(huán)境所構(gòu)成的生態(tài)系統(tǒng)一樣,網(wǎng)絡(luò)主體與網(wǎng)絡(luò)環(huán)境構(gòu)成了網(wǎng)絡(luò)生態(tài)系統(tǒng)。網(wǎng)絡(luò)生態(tài)系統(tǒng)不僅僅是一個(gè)網(wǎng)絡(luò)技術(shù)的系統(tǒng),更是一個(gè)與網(wǎng)絡(luò)發(fā)展有關(guān)的社會(huì)環(huán)境、信息與信息主體,人與人交互而組成的龐大網(wǎng)絡(luò)社會(huì)系統(tǒng)。如果把信息的產(chǎn)生、加工處理、傳遞與共享等視為人與人交互的結(jié)果,那么網(wǎng)站的構(gòu)建、運(yùn)營(yíng)、競(jìng)爭(zhēng)等在某種程度上反映了人的思想活動(dòng),因此,網(wǎng)站之間的關(guān)聯(lián)關(guān)系變化也就蘊(yùn)含了生態(tài)學(xué)的特征。
從網(wǎng)絡(luò)生態(tài)學(xué)視角下,可得出網(wǎng)站的主題相對(duì)于特定內(nèi)容表現(xiàn)出某些特殊的關(guān)聯(lián)關(guān)系,且主題相關(guān)度較高的網(wǎng)站將形成網(wǎng)絡(luò)空間的網(wǎng)站群落(即“抱團(tuán)”現(xiàn)象),其分布呈現(xiàn)顯著的生態(tài)學(xué)特性。本文以此觀點(diǎn)作為理論依據(jù),以廣度優(yōu)先為原則設(shè)計(jì)主題網(wǎng)站群發(fā)現(xiàn)算法。
目前,國(guó)內(nèi)外對(duì)網(wǎng)站信息資源有多種評(píng)價(jià)方法,不同的研究者或研究機(jī)構(gòu)根據(jù)不同的研究目的,提出了不同的評(píng)價(jià)指標(biāo)。文獻(xiàn)[3]、[4]從信息內(nèi)容、用戶服務(wù)、網(wǎng)站結(jié)構(gòu)、技術(shù)支持、使用情況等方面,建立分類指標(biāo)評(píng)價(jià)體系對(duì)網(wǎng)站資源進(jìn)行評(píng)價(jià);CNNIC每年發(fā)布的中國(guó)互聯(lián)網(wǎng)發(fā)展調(diào)查報(bào)告中也包含了很多評(píng)價(jià)指標(biāo);1991年Betsy Richmond提出“10C”原則;1994年David Stoker等提出8條標(biāo)準(zhǔn);1999年Robert Harris提出了“CARS檢驗(yàn)體系[5]”等,這些方法中的大多數(shù)評(píng)價(jià)標(biāo)準(zhǔn)是基于人工分析方法,以定性評(píng)價(jià)為主。
對(duì)網(wǎng)站資源的定量分析一般采用鏈接分析法[6],其中 PageRank 算法[5]和 HITs 算法[6]是定量評(píng)價(jià)網(wǎng)站信息資源的典型代表。PageRank算法由Google的創(chuàng)始人Page提出,通過網(wǎng)頁間相互的鏈接關(guān)系來確定網(wǎng)頁的重要性和等級(jí),是Google搜索引擎的關(guān)鍵算法之一。HITs是由康奈爾大學(xué)的Kleinberg提出,是從圖論的角度出發(fā)分析網(wǎng)頁的重要性。HITS算法的設(shè)計(jì)目標(biāo)是查找最符合用戶查詢的網(wǎng)頁。這2種算法雖然都能較好地對(duì)網(wǎng)頁的重要性給予定量評(píng)價(jià),但是它們并不關(guān)心網(wǎng)頁的主題內(nèi)容。通過這2種算法得到的權(quán)威網(wǎng)站只能說明網(wǎng)站具較大的影響力,但并不能說明網(wǎng)站具有權(quán)威的主題特性。此外,這2種算法的迭代運(yùn)算對(duì)于普通規(guī)模的主題信息資源采集系統(tǒng)缺乏完整的鏈接推薦關(guān)系,將影響算法的效率和效果。
定義1 鏈接:本文特指不同網(wǎng)站之間,通過傳統(tǒng)意義上的超鏈接而形成的2個(gè)網(wǎng)頁間的指向連接關(guān)系。
定義2 網(wǎng)站入鏈:指其他網(wǎng)站的任何網(wǎng)頁指向某一網(wǎng)站內(nèi)任何網(wǎng)頁的鏈接。
定義3 網(wǎng)站出鏈:指某一網(wǎng)站的任何網(wǎng)頁指向其他網(wǎng)站的任何網(wǎng)頁的鏈接。
定義4 主題網(wǎng)站群:在互聯(lián)網(wǎng)中,一些內(nèi)容相關(guān)度較高的網(wǎng)站,因生存,發(fā)展和競(jìng)爭(zhēng)等需要,通過鏈接存在一定的交叉和聯(lián)結(jié)關(guān)系,形成彼此抱團(tuán)的現(xiàn)象,從而形成特定的互聯(lián)網(wǎng)上的網(wǎng)站群。
當(dāng)前對(duì)網(wǎng)站的評(píng)價(jià)方法很多,評(píng)價(jià)指標(biāo)也各不相同。通??梢酝ㄟ^點(diǎn)擊率、下載次數(shù)、在線評(píng)價(jià)等指標(biāo)能夠?qū)W(wǎng)站進(jìn)行有效評(píng)價(jià)[9],但是,資源自動(dòng)采集系統(tǒng)一般無法實(shí)時(shí)地獲取這些指標(biāo)數(shù)據(jù),從而不可能實(shí)時(shí)地對(duì)某一網(wǎng)站按上述方法進(jìn)行有效評(píng)價(jià)。本文基于生態(tài)學(xué)視角,通過鏈接分析法[10]給出網(wǎng)站相關(guān)評(píng)價(jià)指標(biāo),可能這種評(píng)價(jià)指標(biāo)存在一定的缺陷,但是,它能完全滿足自動(dòng)化信息資源采集的工作需要。
式中:Us—某一網(wǎng)站的實(shí)用性;Tp— 它的主題網(wǎng)頁數(shù);Ti—它的網(wǎng)站入鏈數(shù);T—它的總網(wǎng)頁數(shù)。
主題網(wǎng)站的實(shí)用性與它所包含的主題信息資源數(shù)量和信息質(zhì)量成正相關(guān)。主題網(wǎng)站的實(shí)用性在某種程度上體現(xiàn)了它在主題網(wǎng)站群中的地位。一般而言,網(wǎng)站的信息資源數(shù)量在一定程度上反映了網(wǎng)站的知名度,規(guī)模大的網(wǎng)站信息資源豐富,知名度通常比較高;相反,信息資源規(guī)模較少的網(wǎng)站知名度相對(duì)也較低。例如,搜狐、新浪、網(wǎng)易等門戶網(wǎng)站幾乎是家喻戶曉,而一些個(gè)人網(wǎng)站和專業(yè)性很強(qiáng)的網(wǎng)站,知道它存在的人相對(duì)較少。但是,網(wǎng)站的信息資源數(shù)量并不一定代表它具有某一主題的信息資源數(shù)量多。實(shí)用性較強(qiáng)的網(wǎng)站大多是專業(yè)型網(wǎng)站,不是領(lǐng)域外的大型綜合型網(wǎng)站。比如,網(wǎng)易教育頻道的信息數(shù)量較多,但是,有效的教育資源并不多,實(shí)用性有限。由此可見,主題網(wǎng)站的實(shí)用性還取決于它的主題信息資源質(zhì)量。如果一個(gè)網(wǎng)站的信息資源被其他網(wǎng)站引用較多,即網(wǎng)站入鏈數(shù)較大,則說明它的資源被其他網(wǎng)站廣泛認(rèn)同,這在一定程度上說明它的信息資源質(zhì)量較高。
對(duì)于關(guān)心主題信息資源的用戶而言,網(wǎng)站的實(shí)用性既取決于網(wǎng)站的信息資源質(zhì)量,同時(shí),也取決于主題信息資源的數(shù)量。如果網(wǎng)站的主題信息資源數(shù)量較少,類別不全,信息資源的質(zhì)量一般,那么,滿足用戶需求的機(jī)會(huì)較少,則它的實(shí)用性就較低。
式中:Cs—某一網(wǎng)站的相似度;Tp— 它的主題網(wǎng)頁數(shù);T—它的總網(wǎng)頁數(shù)。
主題網(wǎng)站的相似度直接反映了網(wǎng)站的主題特征。主題網(wǎng)站的相似度越高,其包含的主題信息資源比例就越高,其主題特征越明顯,相反,它的主題特征越模糊。主題網(wǎng)站的信息資源主要是以主題信息資源為主,如果它具有鮮明的主題特征,可能它在專業(yè)領(lǐng)域外的影響并不大,但是,在專業(yè)領(lǐng)域內(nèi)往往被很多人認(rèn)同。
式中:Ds—網(wǎng)站的遞減度;l—網(wǎng)站的層級(jí)。
從生態(tài)學(xué)角度考慮,某一物種距離種群核心的距離越近,其對(duì)整個(gè)種群影響越大。由此可以設(shè)想,一個(gè)主題網(wǎng)站距離核心主題網(wǎng)站的距離越近,則它的主題特征越明顯,它在整個(gè)主題網(wǎng)站群中的影響力相對(duì)較大,反之,它的主題特性就較弱,在整個(gè)主題網(wǎng)站群中影響力也就越小。
設(shè)主題網(wǎng)站W(wǎng)S={WS1,WS2,…,WSn},其中,核心主題網(wǎng)站的l=0。假設(shè)某一網(wǎng)站有核心網(wǎng)站發(fā)出的入鏈,則此網(wǎng)站的層級(jí)l=1,如果此網(wǎng)站還有與其他非核心網(wǎng)站的網(wǎng)站出鏈,則這個(gè)網(wǎng)站的層級(jí)l=1+1=2,依次類推。
定義8 影響力:Fs=α×Us+β×Cs+δ×Ds式中:Us—實(shí)用性;Cs—相似度;Ds—遞減度;α,β,δ — 經(jīng)驗(yàn)調(diào)節(jié)系數(shù),α =0.9,β =0.35,δ=0.4。
本文將以影響力這個(gè)指標(biāo)來評(píng)判一個(gè)網(wǎng)站是否是某一類型的主題網(wǎng)站。評(píng)判方法是設(shè)定一個(gè)閥值,如果某網(wǎng)站的影響力指標(biāo)沒有超過閥值,則此網(wǎng)站不是該類型的主題網(wǎng)站,如果超過閥值,它就被認(rèn)為是某一主題的主題網(wǎng)站。按此方法認(rèn)定的主題網(wǎng)站,如果網(wǎng)站的影響力指標(biāo)越高,則該網(wǎng)站在此類型主題網(wǎng)站群中的影響力越大,反之,越小。
本文研究的假設(shè)之一是主題信息資源的采集活動(dòng)在一定的采集規(guī)模范圍之內(nèi)。同時(shí),還認(rèn)為,面對(duì)海量的互聯(lián)網(wǎng)信息,主題信息的自動(dòng)采集應(yīng)該追求信息的查準(zhǔn)率而不是查全率。下文將給出基于以上原則設(shè)計(jì)的主題網(wǎng)站群的發(fā)現(xiàn)算法。
為了提高主題信息資源的采集效率,非常有必要在采集之前確定有效的采集范圍。如果把主題爬行路線限定在有限規(guī)模且有效的區(qū)域內(nèi),這樣就可以避免主題爬蟲以網(wǎng)絡(luò)漫游的方式采集資源,導(dǎo)致效率低下或者錯(cuò)失優(yōu)質(zhì)資源等問題。
根據(jù)定義8,能夠從互聯(lián)網(wǎng)中有效地發(fā)現(xiàn)某一主題的主題資源網(wǎng)站群,并能確定核心主題信息資源網(wǎng)站。具體算法如下:
Step 1:人為選取某一個(gè)或幾個(gè)網(wǎng)站為某一主題網(wǎng)站群的核心主題網(wǎng)站。
Step 2:以這些網(wǎng)站為種子網(wǎng)站,利用這些網(wǎng)站的網(wǎng)站出鏈獲取與之關(guān)聯(lián)的所有外圍網(wǎng)站。
Step 3:對(duì)獲取的外圍網(wǎng)站計(jì)算影響力分值,設(shè)定一個(gè)網(wǎng)站影響力閥值,如果某外圍網(wǎng)站的影響力分值大于等于設(shè)定的閥值,則認(rèn)為此網(wǎng)站是該主題的網(wǎng)站群成員;相反,如果某網(wǎng)站的影響力分值小于設(shè)定的閥值,則認(rèn)定此網(wǎng)站不是該主題網(wǎng)站群成員。
Step 4:按一定比例選擇影響力分值高的網(wǎng)站為核心網(wǎng)站,并對(duì)新獲取的網(wǎng)站群成員繼續(xù)利用它們的網(wǎng)站出鏈獲取新的外圍網(wǎng)站。
Step 5:重復(fù)Step 3,直到?jīng)]有再發(fā)現(xiàn)新的網(wǎng)站群成員為止。當(dāng)然,也可以設(shè)置主題網(wǎng)站群成員規(guī)模,當(dāng)達(dá)到一定規(guī)模時(shí),可人工中斷外圍網(wǎng)站的發(fā)現(xiàn)工作。
這里需要說明2點(diǎn):
(1)通過此算法得到的某一主題的網(wǎng)站群屬于預(yù)判。在這里只能說明它們屬于某一主題資源的機(jī)率較大,較準(zhǔn)確的判斷需要通過對(duì)這些網(wǎng)站進(jìn)行實(shí)際采集活動(dòng)后才能確定。對(duì)網(wǎng)站主題信息資源的判斷方法在此不作討論。
(2)由于互聯(lián)網(wǎng)上的網(wǎng)站存在生命周期,因此,主題網(wǎng)站群的成員,網(wǎng)站的信息資源,以及核心主題網(wǎng)站都是在不斷變化。在實(shí)際操作過程中,需要通過定期的迭代計(jì)算,確定在某一個(gè)時(shí)間范圍的主題網(wǎng)站群落和核心網(wǎng)站。
該算法已應(yīng)用在《主題信息采集原型系統(tǒng)》中,試驗(yàn)表明此算法在一定范圍內(nèi)是可行和有效的。
如何從互聯(lián)網(wǎng)上發(fā)現(xiàn)主題信息資源網(wǎng)站群是本文給出的主題網(wǎng)站群發(fā)現(xiàn)算法的目標(biāo)。本文的算法把預(yù)測(cè)對(duì)象定位為網(wǎng)站,試圖通過對(duì)網(wǎng)站主題的影響力判斷來決定主題爬行路線。該算法通過計(jì)算關(guān)聯(lián)網(wǎng)站的評(píng)價(jià)指標(biāo)(實(shí)用性、相似度、遞減度和影響力等指標(biāo))值,確定某一網(wǎng)站是否是主題網(wǎng)站群成員,再通過迭代計(jì)算,發(fā)現(xiàn)更多的主題網(wǎng)站群成員,這些成員的集合構(gòu)成了某一主題的網(wǎng)站群落,這個(gè)群落可以作為具體有限信息資源采集活動(dòng)的設(shè)想采集范圍。
[1]喬建忠.需求驅(qū)動(dòng)的主題爬行技術(shù)研究[J].圖書情報(bào)工作,2011(13):108-111.
[2]周興茂,汪玲麗.人類學(xué)視野下的網(wǎng)絡(luò)社會(huì)與虛擬族群[J].黑龍江民族叢刊,2009(1):128-132.
[3]王知津,李明珍.網(wǎng)站評(píng)價(jià)指標(biāo)體系的方法與過程[J].圖書與情報(bào),2009(3):45-52.
[4]呂靜,鄒小筑.國(guó)內(nèi)網(wǎng)絡(luò)信息資源評(píng)價(jià)研究綜述[J].圖書館學(xué)研究,2010(8):8-10.
[5]高凌云.網(wǎng)絡(luò)信息資源評(píng)價(jià)研究綜述[J].情報(bào)探索,2010(9):31-33.
[6]邱均平,李嬌翠.網(wǎng)絡(luò)鏈接分析論文的計(jì)量研究[J].情報(bào)科學(xué),2008(8):1130-1134.
[7]Page L.The PageRanK Citation Ranking:Bringing Order to the Web[R].Stanford DigitalLibraries Working Paper,1999.
[8]王宇新,劉海峰,郭禾.一種有效的專題信息集中和檢索策略[J].計(jì)算機(jī)應(yīng)用研究,2009(6):2106-2108.
[9]張洋.網(wǎng)絡(luò)影響因子研究綜述[J].中國(guó)圖書館學(xué)報(bào),2010(1):63-79.
[10]文庭孝,王堯,楊雅惟.網(wǎng)絡(luò)鏈接分析應(yīng)用研究綜述[J].圖書情報(bào)知識(shí),2011(4):84-90.