〔摘 要〕文獻鏈接分析以文獻間的“同瀏覽”現(xiàn)象為研究對象,在3個基本假設(shè)的基礎(chǔ)上展開,充分借鑒引文分析的思想和方法,挖掘文獻間的客觀關(guān)聯(lián),具有適用面廣、簡單易用的特點。分析結(jié)果受瀏覽動機、信息能力和信息環(huán)境等多種因素影響,其可信度主要取決于來源數(shù)據(jù)的積累量。同時,分析過程中采用的文獻聚類技術(shù)也十分關(guān)鍵。只有采用合適的數(shù)理統(tǒng)計手段對足夠多的數(shù)據(jù)進行處理分析,才能有效縮小誤差,得出有意義的結(jié)論。
〔關(guān)鍵詞〕文獻鏈接分析;用戶瀏覽行為;引文分析;聚類
〔中圖分類號〕G203 〔文獻標(biāo)識碼〕B 〔文章編號〕1008-0821(2009)04-0150-03
Analysis of the Literature Links Based on Users Browsing BehaviorsWang Li
(Institute of Scientific Technical Information of China,Beijing 100038,China)
〔Abstract〕Taking the literatures co-browsing phenomenon as the research object,analysis of literature links gives three basic assumptions,andtries to dig the objective relationship among literatures by using for reference from citation analysis.Analysis of literature links can be used widely and simply.Influenced by browse motivation,information ability and information environment,the credibility of analysis results depends on the accumulation of source data.Clustering technology used in analysis processes is very important.Only by adopting the appropriate means of mathematical statistics and analyzing a large amount of data,can we reduce errors effectively,and come to meaningful conclusions.
〔Key words〕analysis of the literature links;users browsing behaviors;citation analysis;clustering
人們在日常生活中經(jīng)常根據(jù)朋友同事的推薦做出選擇,這一思想運用到信息推薦中產(chǎn)生了協(xié)同過濾技術(shù)。協(xié)同過濾技術(shù)一經(jīng)出現(xiàn)即在推薦系統(tǒng)中得到廣泛應(yīng)用,雖然面臨若干不足,但其算法不斷改進,迄今為止仍然是最成功的信息過濾技術(shù)之一。筆者認為這種成功主要源于協(xié)同過濾技術(shù)的基礎(chǔ)思想,即人們在獲取信息的過程中,人際關(guān)系可能是一個比數(shù)據(jù)庫或其他信息資源更為重要的渠道。甚至有研究顯示,“人們傾向于向朋友或同事求助的程度,比向其它信息資源如數(shù)據(jù)庫或文件資料求助的程度要多出5倍。[1]”
從信息傳播的角度看,協(xié)同過濾利用的是社會網(wǎng)絡(luò)現(xiàn)象,然而人與人之間的這種行為上的相似性折射出信息之間的相似性。能否將社會網(wǎng)絡(luò)轉(zhuǎn)化為信息網(wǎng)絡(luò),進而研究信息之間的關(guān)系?基于這一想法,本文提出利用用戶瀏覽行為建立文獻鏈接網(wǎng)絡(luò),以文獻間的“同瀏覽”現(xiàn)象為研究對象,借鑒引文分析的思想和方法,采用數(shù)理統(tǒng)計的手段挖掘文獻之間的隱性關(guān)系。
1 基于用戶瀏覽行為的文獻鏈接網(wǎng)絡(luò)
用戶查找文獻的過程代表用戶一次比較完整的瀏覽行為,是由一組復(fù)雜而有序的操作構(gòu)成的,本文借用計算機網(wǎng)絡(luò)技術(shù)里的會話概念,稱之為一個會話單元。對于一個典型的B/S結(jié)構(gòu)的文獻服務(wù)系統(tǒng)來說,一個會話單元產(chǎn)生的基本數(shù)據(jù)包括鼠標(biāo)點擊、鍵盤輸入、頁面停留時間、網(wǎng)頁跳轉(zhuǎn)等等,數(shù)量龐大,且雜亂無章。去繁就簡,將文獻作為最低層的數(shù)據(jù)節(jié)點,用戶在多篇文獻之間的瀏覽跳躍行為可以用網(wǎng)狀圖表示,如圖1所示。
其中,每一個節(jié)點表示1篇文獻,簡單的連線則表示因“同瀏覽”而建立的文獻鏈接關(guān)系,忽略了瀏覽過程中的先后順序。
圖1 一次用戶瀏覽行為反映的文獻鏈接關(guān)系表
每一個會話并不是孤立的,圖1僅僅描述了一個會話單元。搜集多個會話數(shù)據(jù),對若干個鏈接關(guān)系圖進行疊加處理,可以形成一個復(fù)雜的文獻鏈接網(wǎng)絡(luò),如圖2所示。
圖2展示了3個會話單元疊加形成的文獻鏈接網(wǎng)絡(luò),直線上標(biāo)注的數(shù)字表示2篇文獻之間建立鏈接的次數(shù),如文獻D1與文獻D2之間的連線標(biāo)注“2”,表示2篇文獻之間有2次因“同瀏覽”建立起來的聯(lián)系。顯然,該數(shù)字越大表示文獻間的聯(lián)系越密切。隨著用戶行為不斷發(fā)生,這個文獻鏈接網(wǎng)絡(luò)將逐漸收斂,揭示利用率高的核心文獻,并呈現(xiàn)出若干相對穩(wěn)定的文獻群落。 圖2 文獻鏈接網(wǎng)絡(luò) 2009年4月第29卷第4期現(xiàn)?代?情?報Journal of Modern InformationApr.,2009Vol.29 No.42009年4月第29卷第4期基于用戶瀏覽行為的文獻鏈接分析Apr.,2009Vol.29 No.42 文獻鏈接分析
文獻鏈接分析受協(xié)同過濾技術(shù)的啟發(fā),認為“人與人行為上的相似性折射出信息之間的相似性”,并且這種相似性在足夠多的數(shù)據(jù)支持下將逐漸逼近文獻間的客觀關(guān)聯(lián)。以此為基本思想,文獻鏈接分析以文獻間的“同瀏覽”現(xiàn)象為研究對象,希望利用數(shù)學(xué)及統(tǒng)計學(xué)的手段揭示文獻間的內(nèi)在規(guī)律。
基于用戶瀏覽行為建立的文獻鏈接網(wǎng)絡(luò)與引文的鏈狀結(jié)構(gòu)極其相似,因而文獻鏈接分析可以直接借鑒引文分析的理論和方法[2-4]。
2.1 文獻鏈接分析的基本假設(shè)
將用戶瀏覽文獻的行為采用簡單的“有/無”來描述,可以構(gòu)造出一個m×n階的關(guān)于用戶——文獻瀏覽情況的矩陣R(見圖3)。R=r11r12…r1n
r21r22…r2n
rm1rm2…rmn圖3 用戶——文獻瀏覽情況矩陣
其中,m行表示m個會話單元,n列表示n篇文獻,矩陣中的每個元素rij表示在第i次會話中用戶是否瀏覽了第j篇文獻,取值為0或1。注意,這里采用“會話”的概念將同一用戶的若干次瀏覽行為區(qū)分開,以一個會話單元為觀察周期,只有在同一個觀察周期內(nèi)發(fā)生的瀏覽行為才稱作“同瀏覽”。
基本假設(shè)一:文獻之間的“同瀏覽”關(guān)系反映了文獻內(nèi)容上的相關(guān)性。
在圖3所示的用戶——文獻瀏覽情況矩陣R中,行可以用文獻集合D={d1,d2,…,dn}來表示,在某個具體會話單元中包含的文獻集合 則是D的子集,對于該集合中的任意一篇文獻j(j∈Ds),rsj=1。這時,可以用函數(shù)fs(i,j)表示集合Ds中任意2篇文獻(i,j∈Ds)在內(nèi)容上的相關(guān)性。
基本假設(shè)二:將每一次“同瀏覽”行為揭示出的文獻耦合程度視為一樣,并記為一個計量單位。
根據(jù)基本假設(shè)一,在某個具體會話單元中文獻i和j之間的相關(guān)性用fs(i,j)表示。如果兩篇文獻在同一次會話單元中被用戶瀏覽,則認為它們之間有一個由于有共同瀏覽者而存在的文獻耦合聯(lián)系,fs(i,j)=1;反之,fs(i,j)=0表示不存在同時瀏覽這2篇文獻的用戶。
基本假設(shè)三:文獻之間的耦合度具有簡單的可加性。
在圖3所示的用戶——文獻瀏覽情況矩陣R中,列可以用會話集合S={s1,s2,…,sn}來表示。定義文獻i的瀏覽集合為Si,則Si是S的子集,rki=1(k∈Si)。同理,定義文獻j的瀏覽集合為Sj,如果Si、Sj集合間存在N個相同元素,則表示在N次會話單元中用戶同時瀏覽了文獻i和文獻j,根據(jù)可加性,得到兩篇文獻的聯(lián)系為N個單位。
如果將文獻i和文獻j之間的聯(lián)系記為Cij,則Cij=∑ms=1fs(i,j)(s∈S)。經(jīng)過簡單加合得到的絕對數(shù)量結(jié)果可用來度量文獻間的耦合強度。
通過3個基本假設(shè),圖3所示的用戶——文獻瀏覽情況矩陣R可以轉(zhuǎn)化為表示文獻關(guān)聯(lián)的n階方陣C(見圖4)。C=c11c12…c1n
c21c22…c2n
cn1cn2…cnn圖4 文獻關(guān)聯(lián)矩陣
其中,行與列都表示文獻,矩陣中的每個元素Cij表示文獻i和j之間的耦合強度,通過對用戶瀏覽行為的匯總統(tǒng)計得到。
2.2 聚 類
通過“同瀏覽”關(guān)系建立的文獻耦合強度可以反映文獻間的親疏關(guān)系,這是文獻聚類的基礎(chǔ)。然而圖4中展示的Cij是經(jīng)過簡單加合得到的絕對數(shù)量結(jié)果,是不穩(wěn)定的,將隨著用戶行為的不斷發(fā)生而變化,筆者采用歐氏距離算法對其進行處理。
首先,可以將給定的文獻集合{d1,d2,…,dn}表示為n維空間,文獻i和k間的耦合強度Cik可以看作文獻i在第k維的坐標(biāo),同樣,Cik也可以轉(zhuǎn)化為文獻j在第k維的坐標(biāo)。利用歐氏算法公式,可以用∑nk=1(Cik-Cjk)2得到文獻i和j之間的距離,記為sim(i,j)。如果sim(i,j)越小,那么文獻i和j之間的相關(guān)度越高。
通過文獻間的相關(guān)度計算,可以將給定文獻集合進一步劃分為若干個文獻群,這是一個聚類的過程,相關(guān)算法很多[5-8],本文不再贅述。聚類的結(jié)果可以采用可視化方式展示出來,直觀描述各個文獻群的分布情況,以及文獻間的親疏關(guān)系。
3 文獻鏈接分析的特點
文獻鏈接分析具有適用面廣、簡單易用的特點。
適用面廣主要體現(xiàn)于統(tǒng)計素材的易獲取性。文獻鏈接分析觀察用戶瀏覽行為,研究“同瀏覽”這種普遍存在的現(xiàn)象。對于圖書情報單位的傳統(tǒng)文獻服務(wù)來說,統(tǒng)計數(shù)據(jù)(如:讀者借閱歷史)主要來源于流通工作;對于一個典型的文獻服務(wù)系統(tǒng)來說,用戶查找文獻的過程則詳細記錄在系統(tǒng)日志中,可以借用相關(guān)工具軟件篩選出有用數(shù)據(jù)??梢姡灰嬖谖墨I服務(wù),就會記錄下用戶的瀏覽行為,進而展開文獻鏈接分析。
文獻鏈接分析借用了引文分析的研究方法,通過簡單易懂的統(tǒng)計手段和比較成熟的聚類技術(shù)挖掘文獻間隱含的客觀關(guān)聯(lián),分析方法簡單。通過文獻鏈接分析發(fā)現(xiàn)的文獻群不是根據(jù)圖書情報人員對文獻特征的判斷來發(fā)現(xiàn)的,而是在使用過程中自然形成的,可直接應(yīng)用于實際工作。分析結(jié)果通過統(tǒng)計數(shù)據(jù)的積累可能無限逼近文獻的客觀聯(lián)系,同時也帶有用戶查找文獻過程中的普遍特征,在資推薦源、優(yōu)化搜索引擎、輔助知識挖掘等應(yīng)用場合中具有較高的參考價值。
4 文獻鏈接分析的局限
用戶瀏覽行為是特定信息環(huán)境下用戶自由心智的體現(xiàn),由用戶主觀驅(qū)動,直接受當(dāng)時的信息環(huán)境以及用戶信息能力的制約?;跒g覽行為建立的文獻鏈接網(wǎng)絡(luò)受這些因素的影響,必然難以完全準(zhǔn)確的反應(yīng)文獻之間的客觀聯(lián)系。概括起來,影響分析結(jié)果準(zhǔn)確度的主要因素包括瀏覽動機、信息能力,以及行為發(fā)生時所處的信息環(huán)境。
用戶瀏覽動機復(fù)雜多樣,當(dāng)他抱有明確目的發(fā)起一次檢索活動時,該過程中涉及的文獻具有極強的內(nèi)容相關(guān)性;如果用戶只是漫無目的的瀏覽,在瀏覽過程中就很容易轉(zhuǎn)換注意力,那么基于該過程建立的文獻鏈接可能是虛假的,即在當(dāng)前的瀏覽文獻集合中,某篇文獻被瀏覽的行為不一定反映著該文獻與其他“同瀏覽”文獻內(nèi)容相關(guān)。文獻瀏覽過程中存在的這種隨機現(xiàn)象直接影響文獻鏈接分析方法的應(yīng)用和效果。
用戶信息能力的差異表現(xiàn)為獲取文獻在質(zhì)和量上能否滿足需求。簡單的說,即使2個用戶有完全相同的信息需求,他們在查找文獻的過程中,在判斷哪些文獻與需求相關(guān)時,也可能產(chǎn)生極大的差異。
同樣,信息環(huán)境的差異直接影響著用戶查找文獻的效率。檢索系統(tǒng)是信息環(huán)境中最重要的部分之一。顯然,面對同樣的文獻集合,發(fā)出同樣的查詢指令,不同性能的檢索系統(tǒng)可能帶給用戶不同的搜索結(jié)果。
5 結(jié) 語
本文提出的文獻鏈接分析以文獻間的“同瀏覽”現(xiàn)象為研究對象,在3個基本假設(shè)的基礎(chǔ)上展開,充分借鑒了引文分析法的思想和方法,希望利用數(shù)學(xué)及統(tǒng)計學(xué)的手段揭示文獻間的內(nèi)在規(guī)律,應(yīng)用于信息服務(wù)的實際工作中。
需要注意的是,該分析方法對用戶瀏覽過程中的隨機現(xiàn)象不加區(qū)分,認為所有“同瀏覽”行為都是等價的,因而只是簡單的賦予了一個相關(guān)度計量單位。這種單純的計量方式雖然有效的簡化了分析過程,但是在用戶瀏覽動機、使用環(huán)境等多種因素的影響下,很難有效發(fā)掘文獻之間的客觀聯(lián)系,一定程度上降低了分析結(jié)果的準(zhǔn)確度。因此,文獻鏈接分析結(jié)果的可信度主要取決于來源數(shù)據(jù)的積累量。同時,分析過程中采用的文獻聚類技術(shù)也十分重要。只有采用合適的數(shù)理統(tǒng)計手段對足夠多的數(shù)據(jù)進行處理分析,才能有效縮小誤差,從而得出有意義的結(jié)論。
參考文獻
[1]Rob Cross,Andrew Parker,Steve Borgatti.用社會網(wǎng)絡(luò)分析(Social Network Analysis;SNA)改進知識的創(chuàng)新與共享[EB/OL].http:∥www-900.ibm.com/cn/services/strategy/estrategy/socialnetwork.html#analysis(Accessed Sep.25,2008)
[2]丁學(xué)東.文獻計量學(xué)基礎(chǔ)[M].北京:北京大學(xué)出版社,1993.
[3]陳光華,江玉婷,莊雅蓁,等.引文分析研究發(fā)展現(xiàn)況[EB/OL].http:∥www.lis.ntu.edu.tw/~khchen/writtings/pdf/bookshelf1997.pdf(Accessed Sep.25,2008)
[4]洪光宗.從引文分析看網(wǎng)絡(luò)結(jié)構(gòu)挖掘[J].圖書館學(xué)研究,2006,(12):45-47,49.
[5]王劍輝,姜龍濱,楊姝.網(wǎng)頁文獻的快速模糊聚類[J].長安大學(xué)學(xué)報:自然科學(xué)版,2007,27(2):107-110.
[6]鐘偉金,李佳,楊興菊.共詞分析法研究(三)——共詞聚類分析法的原理與特點[J].情報雜志,2008,(7):118-120.
[7]李慧,劉東蘇,任志純.文獻聚類技術(shù)及其評價函數(shù)[J].情報雜志,2004,(7):17-18.
[8]夏詠梅.基于文本挖掘的分類與聚類技術(shù)[J].情報探索,2005,(3):65-67.