〔摘 要〕本文對鏈接分析法的概況、發(fā)展背景等情況作了簡單介紹并以西部地區(qū)10所高校網站為對象對鏈接分析法在情報學中的應用進行了分析,并利用相關分析法計算出鏈接分析法變量間的相關系數(shù),從而確定出與高校綜合實力顯著相關的因子。
〔關鍵詞〕鏈接分析;網絡影響因子;WIF
〔中圖分類號〕G350 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)01-0184-04
Link Analysis Method and Its Application in Intelligence
——Taking 10 South Western Universitys Sites as Example
Yu Xiaoping1 Yan Xianyang2
(1.School of Economics and Business Administration;Chongqing University,Chongqing 400500,China;
2.Library,Southwest University,ChongQing 400715,China)
〔Abstract〕Based on the discussion of the link analysis method,10 southwestern universitys sites were taken as example,researches for the application of the method in intelligence,the relations between the WIFs and the strength of the universities were made.
〔Key words〕 link analysis;web impact factor;WIF
隨著網絡的發(fā)展和普及,互聯(lián)網逐漸成了人們搜集、檢索、利用和發(fā)布信息的主要平臺,網絡上信息急劇增加,信息爆炸、信息超載等現(xiàn)象給人們有序的利用信息帶來很大麻煩,對網上信息進行計量研究暨利用鏈接分析法以發(fā)現(xiàn)網絡鏈接和內容之間的聯(lián)系成為人們面臨的一個新課題。
鏈接分析法是網絡信息計量學中的一個重要方法,本文擬以西部10所高校網站為研究對象對鏈接分析法在情報學中的應用進行分析并探討大學的網站的總鏈接量和外部鏈接量及網絡影響因子是否與其在大學排名中的綜合排名和綜合得分存在相關關系。
1 鏈接分析法概述
1.1 鏈接分析法的背景
Mc Kiernan于1996年首先提出了sitation這一新術語,用以研究網頁之間的引用關系。Roussea認為對網頁鏈接關系的研究與對發(fā)表文章的引文研究相似,但又不盡相同。他對網址的分布模式和進入網頁的鏈接作了分析,發(fā)現(xiàn)在他所研究的343個網址中最高層域名服從洛特卡分布,而且對這些網址的引用也符合洛特卡分布,自引比例約為30%。
李彥宏于1996年率先提出使用超鏈分析增加網頁排序的相關性。
Ingwersen則受期刊影響因子的概念的啟發(fā)于1998年提出了網絡影響因子的概念來評價網站在網上的影響力。Rousseau通過對域名和網站鏈接的研究,發(fā)現(xiàn)域名和網站鏈接的分布都服從洛特卡定律。GOOGLE則通過對搜索到的網頁的超鏈接進行定量分析來對搜索結果排序。
1.2 鏈接分析法的定義
鏈接是因特網的重要元素,它將分散在各個物理地域的信息有機地結合在一起,使人們能夠在網上方便、自在地游歷,獲取所需的信息。網絡鏈接之間的關系非常復雜,鏈接分析法通過研究網絡鏈接自身屬性、鏈接對象及鏈接網絡之間的復雜的關系,對網絡鏈接進行定量化分析,從而發(fā)現(xiàn)復雜的網絡鏈接背后存在的特征和規(guī)律。它就是運用網絡數(shù)據(jù)庫、數(shù)據(jù)分析軟件等工具,利用數(shù)學(主要是統(tǒng)計學和拓撲學)和情報學方法,對網絡鏈接自身屬性、鏈接對象、鏈接網絡等各種對象進行分析,以便揭示其數(shù)量特征和內在規(guī)律,并用以解決各方面問題的一種研究方法[1]。
1.3 鏈接關系的復雜性
鏈接是因特網的重要元素,是網頁之間關系的紐帶,它將分散在各個物理地域的信息有機地結合在一起,使人們能夠在網上方便、自在地游歷,獲取所需的信息。所有網頁通過鏈接相互關聯(lián)在一起,形成交錯復雜的網絡即互聯(lián)網。
1.3.1 根據(jù)網站的外部特征,鏈接的類型可分為[4]:
推薦鏈接:施鏈網頁多在“精彩網站鏈接”、“推薦網站”、“熱門網站”等標題下列出他認為質量好或熱門的站點,使施鏈網頁對被鏈網頁的直接肯定。
合作鏈接:合作鏈接的主要原因:①使用了被鏈網頁的服務功能;②主辦單位之一;③信息來源;④內容相關。
相關鏈接:施鏈網頁與被鏈網頁內容關聯(lián)程度最高。
資源鏈接:鏈接了被鏈網頁的某種資源。如:通訊鏈接(郵箱、論壇、聊天室等)。
廣告鏈接:通常在網頁、訪問量多的頻道和網頁上設一個Banner,再由此鏈到相關網頁上去。4種類型:①為其他企業(yè)做廣告;②為自己的商業(yè)性服務做廣告;③個人網站資助性廣告;④上午咨詢公司監(jiān)理的與電子商務網站的鏈接)。
1.3.2 從相關性角度,根據(jù)鏈接的特性可將鏈接類型分為[1]:
內容相關性:網絡信息從整體看是離散的,但是就某一局部而言,往往表現(xiàn)為相關內容的聚集。如:學科導航。
結構相關性:這是指在內容上沒有太大關聯(lián)的鏈接,他的存在是為了將特定網頁組織到一起,其紐帶作用。常出現(xiàn)在同一網站的不同內容板塊之間如:西南大學圖書館網站內容板塊之間。
功能相關性:為實現(xiàn)特定的功能而建立的鏈接。如:網頁上的廣告鏈接,搜索引擎的導航鏈接等。
1.3.3 根據(jù)鏈接的指向不同,鏈接的類型可分為:
自鏈接:一個鏈接指向自己所在的網絡實體,稱其為自鏈接。如:西南大學圖書館。
互鏈接:這種鏈接的兩個鏈接的起止點正好相反,一般揭示了實體間的密切聯(lián)系。
傳遞鏈接:如果甲實體鏈接到乙實體,而乙實體又鏈接到丙實體,則我們可以稱甲實體傳遞鏈接到丙實體。
同被鏈接:甲乙同被丙實體所鏈接,主要應用于信息檢索。
鏈接耦合:甲乙兩實體同時鏈接到丙實體,甲乙之間必然也在特性上存在一定關系。
1.4 鏈接分析的基本理論前提
鏈接分析之所以能夠在一定程度上對復雜的鏈接現(xiàn)象進行測度,在于承認引文分析中的基本假設在網絡環(huán)境下的可推廣性。
假設之一:網頁間鏈接的存在表明,網頁間必然存在某種內在相關性,如內容相關性、結構相關性、功能相關性以及其他相關性等,并且網頁與被鏈網頁的質量有正向的聯(lián)系。
假設之二:若鏈接形式一樣,則網頁間內容聯(lián)系的程度一樣,對于每種內容間的聯(lián)系均可定義相應的計量單位。
假設之三:上述聯(lián)系均具有簡單的可加性[1]。
因此,鏈接分析通過特定網絡空間被鏈接的次數(shù)(尤其是外部鏈接數(shù))反映該網絡空間的質量。外部鏈接數(shù)越多,其影響力越大。上述3條假設實現(xiàn)了網頁間聯(lián)系到形式間的數(shù)量聯(lián)系的轉換,使鏈接分析法的實現(xiàn)存在現(xiàn)實基礎。
1.5 鏈接分析法的基本評價指標——網絡影響因子
網絡影響因子是指指向該網站的鏈接數(shù)除以該網站的網頁數(shù)所得到的一個比率,它可以反映出網站的被重視和利用的程度,并由此確定網上的核心網站。
Ingwersen計算了3種網絡影響因子:
①自鏈接WIF,測度在特定網頁空間內的鏈接;
②外部WIF,測度外部空間指向特定網頁空間的鏈接;
③全面WIF,測度所有指向網頁空間的鏈接。
2 鏈接分析法在情報學中的應用
2.1 鏈接分析在網站評價和發(fā)現(xiàn)中的應用
運用網絡搜索引擎和數(shù)據(jù)庫等工具,對鏈接進行數(shù)量上的統(tǒng)計分析,主要用于評價網頁和網站,測度網絡影響因子等。通過對網站、數(shù)據(jù)庫的定量分析評價,確定某些專業(yè)的核心網站或核心信息來源,確定圖書館特色館藏,重點建設特色主題。
2.2 鏈接分析在搜索引擎中的應用
這種應用是指在沒有進行檢索時,先用鏈接分析法分析并評價網絡上的信息資源,然后在檢索時,按信息的評價順序提交結果。這種方法最具代表性的就是Google搜索引擎所采用的PageRank算法。
2.3 鏈接分析在社會網絡研究中的應用
運用鏈接分析法,對不同鏈接之間的關系和鏈接網絡進行研究,以揭示學科的發(fā)展與聯(lián)系,并展望學科未來前景。
3 鏈接分析法在情報學中的應用實例分析
3.1 研究對象的選擇
筆者有選擇性地挑選了西部地區(qū)10所高校的網站為研究對象,對西部地區(qū)高校網站的總鏈接量、外部鏈接量和網絡影響因子進行比較,并利用相關分析法對各變量間的關系進行計算、比較分析,從而確定出西部地區(qū)高校網站的網絡影響度,探究西部地區(qū)高校網站哪些指標與其高校在大學綜合實力排名顯著相關。
3.2 檢索工具的選擇
我們主要使用搜索引擎和檢索工具來測度網絡影響因子。在檢索工具的選擇上,搜索引擎應對所選擇的網頁空間有最大的覆蓋率,能較為全面的統(tǒng)計網頁和鏈接的情況;能夠提供多樣化的檢索命令表達檢索意圖,并且能夠對檢索結果進行布爾邏輯運算,以便對結果進行處理。
AltaVasta能夠提供網站鏈接的搜索功能,可為網絡信息計量研究提供有效的數(shù)據(jù)源。能夠提供多種類型的限制檢索如:主機名限制、域名限制、link限制、文件類型限制、主題限制等,同時它還支持布爾邏輯檢索、截詞檢索等多種檢索功能。故筆者在借鑒前人的基礎上,最后選擇AltaVasta為檢索工具。
3.3 統(tǒng)計鏈接分析數(shù)據(jù)
利用AltaVista的高級檢索界面,我們對每個大學都是用2個檢索式進行檢索,重慶大學的檢索式為:
(1)Link:www.cqu.edu.cn(檢索所有指向重慶大學的鏈接的網頁鏈接,得到總鏈接量)
(2)Link:www.cqu.edu.cn AND NOT host:www.cqu.edu.cn(剔除重慶大學內部的網頁鏈接,得到外部鏈接量)
而對于有些高校有幾個域名或者近期合并的高校,我們結合采用多個域名進行檢索,如:西南大學2005年由西南師范大學和西南農業(yè)大學合并組建,故其檢索式為:
(1)檢索其總鏈接量的布爾邏輯檢索式為:
link:www.swu.cn OR link:www.swu.edu.cn OR link:www.swnu.edu.cn OR link:www.swau.edu.cn
(2)檢索其外部鏈接量的布爾邏輯檢索式為:
(link:www.swu.edu.cn OR link:www.swu.cn OR link:www.swnu.edu.cn OR link:www.swau.edu.cn)NOT host:www.swu.edu.cn AND NOT host:www.swu.cn AND NOT host:www.swnu.edu.cn AND NOT host:www.swau.edu.cn
(3)網站的網頁數(shù)的布爾檢索式:
host:www.swu.edu.cn OR host:www.swnu.edu.cn OR host:www.swau.edu.cn
3.4 網站原始數(shù)據(jù)
根據(jù)表3,我們可以得出各變量間的相關系數(shù),對變量間的相關系數(shù)進行假設檢驗,結合圖1、圖2可以得出如下結論:外部網絡影響因子與全面網絡影響因子顯著相關。外部網絡影響因子與大學綜合實力排名中的綜合得分顯著相關,全面網絡影響因子與高校綜合實力總得分次顯著相關。網站的總鏈接量、外部鏈接量與大學的綜合實力不具備顯著的相關性。
3.5 結論分析
綜合以上數(shù)據(jù)分析得出,大學網站的外部網絡影響因子與大學的綜合實力排名顯著相關。大學網站的全面網絡影響因子與大學的綜合實力排名次顯著相關。大學網站的外部鏈接量與大學的綜合實力排名有一定的相關性。大學網站的網絡影響因子與全面網絡影響因子可以作為評價大學綜合水平的2個主要評價指標,大學網站的外部鏈接量可以作為評價大學綜合水平的參考指標。
4 鏈接分析法的局限性和前景
鏈接分析法借鑒了引文分析法的方法和思路,是引文分析法在網絡環(huán)境下的新應用,但是網絡環(huán)境和網絡鏈接本身的復雜性、鏈接分析前提的假設性及鏈接分析工具的不成熟等問題必然導致鏈接分析法應用存在很多問題。
但隨著網絡信息技術如人工智能、網絡信息檢索、計算機網絡、知識挖掘、自然語言處理等的發(fā)展和搜索引擎等專業(yè)工具的完善和統(tǒng)計學方法在情報學中的廣泛應用,鏈接分析法作為情報學的新方法必然得到更為廣泛的應用。
參考文獻
[1]董江山,等.鏈接分析法及其應用[J].情報科學,2004,(9):1082-1084.
[2]吳華香,鐘少丹.鏈接分析法——網絡計量學方法初探[J].情報科學,2002,(1):71-73.
[3]楊濤.鏈接分析法存在的問題及改進方法[J].圖書情報知識,2002,(3):641-647.
[4]劉雁書.Web網站站外鏈接類型與特征調查——鏈接分析法可行性研究[J].大學圖書館學報,2001,(5):65-68.
[5]吳華香.鏈接分析法在網絡計量中的應用[J].情報雜志,2003,(6):75-76.
[6]姚湘中.我國211重點大學圖書館網站的鏈接分析[J].圖書館學刊,2007,(4):138-140.
[7]邱均平,等.中國大學網站鏈接分析及網絡影響因子探討[J].中國軟科學,2007,(6):151-155.
[8]邱均平.信息計量學[M].武漢:武漢大學出版社,2007.1.
[9]張梅琳.應用統(tǒng)計學[M].上海:復旦大學出版社,2004.11.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文