唐蓓 夏秋菊
摘 要:通過構(gòu)建基于Prefuse的知識圖譜系統(tǒng)框架,在此框架基礎(chǔ)上采用社會網(wǎng)絡(luò)算法構(gòu)建信息檢索學(xué)科合作網(wǎng)絡(luò)知識圖譜并進(jìn)行了分析。發(fā)現(xiàn)信息檢索研究人員在高產(chǎn)、高被引和高合作群體中不存在很強(qiáng)的一致性。合著網(wǎng)絡(luò)中形成以Zhang, L、Sprink, A和Schacter, DL為中心的最大規(guī)模科研群體,以Tulving, E和Cabeza, R為代表的凝聚力最強(qiáng)的合作群體。
關(guān)鍵詞:Prefuse 社會網(wǎng)絡(luò) 知識圖譜 信息檢索 合作網(wǎng)絡(luò)
中圖分類號: G254.9文獻(xiàn)標(biāo)識碼: A 文章編號: 1003-6938(2012)05-0079-06
近年來,隨著多種知識圖譜分析工具的出現(xiàn),一些研究者利用知識圖譜軟件(主要是CiteSpaceⅡ)對信息檢索學(xué)科進(jìn)行了分析,如Rorissa A和Yuan X(2011)在2000~2009年數(shù)據(jù)的基礎(chǔ)上用CiteSpaceⅡ?qū)π畔z索學(xué)科進(jìn)行知識圖譜構(gòu)建和學(xué)科分析[1];國內(nèi)同樣有學(xué)者利用該軟件對信息檢索的子領(lǐng)域進(jìn)行分析,但這些研究存在數(shù)據(jù)源時間跨度短、在一定程度上依賴于知識圖譜軟件的功能,而且未對信息檢索學(xué)科合作網(wǎng)絡(luò)進(jìn)行分析研究。通過上述考慮,本文嘗試一種新的知識圖譜框架,基于該框架通過社會網(wǎng)絡(luò)算法構(gòu)建信息檢索合作網(wǎng)絡(luò)并進(jìn)行解讀,以便為國內(nèi)外從事信息檢索研究的有關(guān)學(xué)者提供參考借鑒。
1 基于Prefuse的知識圖譜系統(tǒng)設(shè)計
2005年,Heer J、Card SK、Landay JA三人共同撰文提出了Prefuse的信息可視化框架[2]。Prefuse為數(shù)據(jù)建模、數(shù)據(jù)可視化以及用戶交互提供了豐富的軟件庫,可以支持表格、圖和樹顯示,還具有支持動態(tài)顯示、動態(tài)查詢等功能。Prefuse基于傳統(tǒng)的MVC架構(gòu)進(jìn)行開發(fā),其可視化時需要經(jīng)過如下處理過程[3]:
(1)抽象數(shù)據(jù)(Abstract Data)。Prefuse對數(shù)據(jù)進(jìn)行可視化的首要步驟是獲取數(shù)據(jù),并為數(shù)據(jù)提供了指定的接口和程序,可以顯示表、圖和多種樹形結(jié)構(gòu)。本文主要使用XML格式的數(shù)據(jù),通過把數(shù)據(jù)轉(zhuǎn)化成XML格式,如DOITrees、GraphML、TreeML格式,完成抽象數(shù)據(jù)的處理過程。
(2)數(shù)據(jù)過濾(Filtering)。主要是將抽象數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)化,使其適用于顯示。首先選取要進(jìn)行可視化的一系列元素,如一個圖形或顯示在散點(diǎn)圖上的重點(diǎn)區(qū)域。然后形成一些可視化的屬性(稱為VisualItems),如源數(shù)據(jù)中顯示的文字、數(shù)字,顯示時的坐標(biāo)點(diǎn)、顏色、大小等等。然后通過Action提供為上層組件。
(3)數(shù)據(jù)渲染(Rendering)。即圖形繪制的過程,可視化元素(VisualItems)通過渲染器(Renderers)繪制到屏幕上,其中用到上面形成的組件如顏色、位置、大小等等。Prefuse實現(xiàn)了一些基本渲染器,通過渲染器工廠RenderFactory進(jìn)行管理。
(4)交互顯示(Interactive Display)。功能由Display組件完成,用于顯示ItemRegistry中注冊的組件??梢暬换スδ芡ㄟ^ControlListener接口實現(xiàn),主要是提供對鼠標(biāo)、鍵盤的監(jiān)聽功能。
本文通過對數(shù)據(jù)的預(yù)處理、數(shù)據(jù)抽取、矩陣形成,進(jìn)行聚類或社會網(wǎng)絡(luò)以后,把生成結(jié)果轉(zhuǎn)化成Prefuse可支持的TreeML、GraphML格式,借助Prefuse可視化框架,完成聚類顯示、社會網(wǎng)絡(luò)顯示的功能。
2 信息檢索學(xué)科分析的知識圖譜構(gòu)建
2.1 數(shù)據(jù)源獲取
本研究數(shù)據(jù)來源于Web of Science的SCI-EXPANDED、SSCI、A&HCI、CPCI-S、CPCI-SSH數(shù)據(jù)庫,用“Information Retriev*”作主題檢索,檢索時間選擇20世紀(jì)50年代至今(截止至2011年11月25日),詞形還原打開,得到的檢索結(jié)果共計46561條記錄。以此作為構(gòu)建信息檢索學(xué)科知識圖譜的數(shù)據(jù)集,以下簡稱為“數(shù)據(jù)集”。
2.2 數(shù)據(jù)處理
(1)提取作者數(shù)據(jù)。在原數(shù)據(jù)庫中,通過數(shù)據(jù)表paper的“authors”字段,可以獲得每篇文獻(xiàn)的作者數(shù)據(jù),在作者字段中,為方便去重和區(qū)別不同作者,每個作者姓名以數(shù)據(jù)集中提供的全名進(jìn)行表示,當(dāng)文獻(xiàn)是合作文獻(xiàn)時,作者之間以分號進(jìn)行分隔。選擇paper的“authors”字段的所有數(shù)據(jù),通過編程對獲取的每個作者條目進(jìn)行切分,從而得到所有作者數(shù)據(jù)。
(2)構(gòu)建合作者對應(yīng)關(guān)系。建立表author_author,其中包括兩個字段“firstauthor”和“secondauthor”。通過處理,共得到548,182條作者與作者對應(yīng)數(shù)據(jù)。在構(gòu)建“作者——作者”對應(yīng)表時,第一作者與第二作者及其他作者不分權(quán)重,即所有作者的重要程度相同。構(gòu)建作者與作者對應(yīng)關(guān)系表時,通過對步驟一獲得的每一條合作者數(shù)據(jù)進(jìn)行遍歷,得到作者與作者對應(yīng)關(guān)系。
(3)生成合作者數(shù)據(jù)。對表author_author中的數(shù)據(jù),根據(jù)“firstauthor”字段進(jìn)行分組合并,對“secondauthor”進(jìn)行合并,合并過程中剔除重復(fù)元素,“secondauthor”對應(yīng)數(shù)據(jù)以分號進(jìn)行連接,同時統(tǒng)計出每個作者的合作次數(shù),然后將合作者數(shù)據(jù)插入表coauthor中。
處理完成后,共得到96,778個作者的合作者信息,其中與其他作者合作頻次最高的為Bryant, Stephen H.,合作頻次為245。與其他作者合作頻次達(dá)到200次以上的作者共22人(見表1)。
2.3 合作者網(wǎng)絡(luò)構(gòu)建
由于本文的研究重點(diǎn)是確定合作者中的團(tuán)體和其研究內(nèi)容,所以文中采用無向無權(quán)網(wǎng)絡(luò),構(gòu)建過程如下:
(1)定義社會網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)。合作者網(wǎng)絡(luò)的定義包括節(jié)點(diǎn)、邊和社會網(wǎng)絡(luò)三個部分。節(jié)點(diǎn)包括aid和aname兩個字段,為網(wǎng)絡(luò)中最基本的構(gòu)成元素,由類Node表示;邊由節(jié)點(diǎn)和與該節(jié)點(diǎn)關(guān)聯(lián)度為1的節(jié)點(diǎn)的集合構(gòu)成,其中與該節(jié)點(diǎn)關(guān)聯(lián)的節(jié)點(diǎn)數(shù)即為該節(jié)點(diǎn)的度,由類Edges表示;社會網(wǎng)絡(luò)由節(jié)點(diǎn)的集合和邊的集合兩部分構(gòu)成,其中社會網(wǎng)絡(luò)還可以獲取子網(wǎng)絡(luò),由類SocialNetwork表示(見圖1)。
(2)構(gòu)建合作者網(wǎng)絡(luò)。合作者網(wǎng)絡(luò)的構(gòu)建根據(jù)數(shù)據(jù)庫中的合作者表coauthor和作者文獻(xiàn)產(chǎn)量表author_paper進(jìn)行構(gòu)建,合作者網(wǎng)絡(luò)的節(jié)點(diǎn)基于合作者的合作頻次和每一位作者的文獻(xiàn)產(chǎn)量進(jìn)行選擇,然后根據(jù)其合作情況提取邊信息。在coauthor表格中有96,778條合作者信息,表author_paper中存儲有數(shù)據(jù)集中所有作者的文獻(xiàn)產(chǎn)量信息,共100,985條。
由于本文的研究目的是提取代表性的合作者社團(tuán)及其研究方向,所以在合作者數(shù)據(jù)中作者提取了合作頻次超過53的前300條合作數(shù)據(jù);另一方面,為了減少網(wǎng)絡(luò)復(fù)雜度高從而導(dǎo)致信息表征的不足的影響,僅提取文獻(xiàn)產(chǎn)量在10以上的作者,共407位高產(chǎn)作者。
以上步驟具體由類SocialNetworking完成(UML結(jié)構(gòu)見圖2)。通過合作者網(wǎng)絡(luò)構(gòu)建,共得到142個節(jié)點(diǎn)和71條邊。
(3)獲取合作者群體。在得到的合作者網(wǎng)絡(luò)中,每個子網(wǎng)絡(luò)代表一個合作群體,通過獲取子網(wǎng)絡(luò),可以得到合作者網(wǎng)絡(luò)中最大合作群體以及其他合作群體。通過對各群體中的節(jié)點(diǎn)數(shù)、各節(jié)點(diǎn)的度、以及作者、作者發(fā)表的文獻(xiàn)特征進(jìn)行提取,可以獲得各個合作群體的研究重點(diǎn)、研究特征等特性。
本文對合作群體的獲取,通過社團(tuán)結(jié)構(gòu)搜索算法進(jìn)行,算法具體在SocialNetworking類的getSubNetWorkNodes方法完成,經(jīng)過對合作者網(wǎng)絡(luò)的合作群體進(jìn)行搜索,共得到21個合作群體,節(jié)點(diǎn)數(shù)最多的合作群體包括45個節(jié)點(diǎn),節(jié)點(diǎn)數(shù)為22的群體有1個,節(jié)點(diǎn)數(shù)為11的群體有2個,節(jié)點(diǎn)數(shù)為5的群體有2個(見表2)。
[子網(wǎng)節(jié)點(diǎn)數(shù)\&45\&22\&11\&5\&4\&3\&2\&\&子網(wǎng)數(shù)\&1\&1\&2\&2\&2\&9\&4\&共計21個\&][表2 合作群體數(shù)及相應(yīng)節(jié)點(diǎn)數(shù)]
2.4 知識圖譜生成
對社會網(wǎng)絡(luò)的可視化基于GraphML文件和Prefuse可視化框架進(jìn)行。首先需要把上一步生成的合作者網(wǎng)絡(luò)轉(zhuǎn)化為進(jìn)行可視化的GraphML文件,然后通過Prefuse框架提供的可視化接口,對GraphML進(jìn)行讀取、渲染以及最后的展示。詳細(xì)流程為:
(1)生成可視化表征文件。采用GraphML進(jìn)行圖形描述。GraphML格式最初由GML轉(zhuǎn)化而來,符合XML語言規(guī)范。通過編程將得到的合作者網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行轉(zhuǎn)化,轉(zhuǎn)化為GraphML格式的文檔(結(jié)構(gòu)見圖3)。
(2)知識圖譜顯示。生成代表類別的GraphML文件以后,就可以通過Prefuse所提供的可視化組件進(jìn)行圖譜顯示了,完成信息檢索合作者網(wǎng)絡(luò)的知識圖譜繪制。
從整個合作者網(wǎng)絡(luò)圖(見圖4)可以看出整個網(wǎng)絡(luò)圖可以分為不同的子圖,對其中各個子圖的節(jié)點(diǎn)分布并不均衡,最大的子圖有45個節(jié)點(diǎn)(見圖5),位于圖中央,依次是有22個節(jié)點(diǎn)的子圖(見圖6),最小的子圖僅僅2個節(jié)點(diǎn),位于整個圖的邊緣。
3 信息檢索合作網(wǎng)絡(luò)知識圖譜的解讀
3.1 整體合作網(wǎng)絡(luò)特性分析
其中,fj表示合著者人數(shù)為j的論文數(shù);N表示論文總數(shù),k表示合著者人數(shù)的最大值。
經(jīng)過統(tǒng)計,在得到的46,561條數(shù)據(jù)中合著文獻(xiàn)數(shù)達(dá)到38,506條,占文獻(xiàn)總數(shù)的82.70%,所以合著率為82.70%。其中合著人數(shù)最多的文獻(xiàn)有54個作者,合作者人數(shù)分別為2人、3人和4人的文獻(xiàn)數(shù)及所占合著文獻(xiàn)比例如表3所示,這三種情況共占合著文獻(xiàn)的79.13%。通過計算得到其合作指數(shù)CI為2.99,說明篇均作者2.99人。
3.2 最大子網(wǎng)絡(luò)分析
針對合著網(wǎng)絡(luò)中的節(jié)點(diǎn)最多的兩個子網(wǎng)絡(luò)進(jìn)行具體分析,包括節(jié)點(diǎn)的度分析和子網(wǎng)絡(luò)中的合著子群分析。
通過編程統(tǒng)計,得到兩個子網(wǎng)絡(luò)中每個節(jié)點(diǎn)的度,表4顯示了節(jié)點(diǎn)數(shù)為45和22的子網(wǎng)絡(luò)中度數(shù)較高的前10為作者。
圖7中以徑向圖形式顯示了節(jié)點(diǎn)數(shù)為45和22的合著網(wǎng)絡(luò)子圖,結(jié)合表4,可以從圖中直觀的看到以Zhang, L、Sprink, A和Schacter, DL為中心,組成了網(wǎng)絡(luò)中規(guī)模較大的科研群體。節(jié)點(diǎn)數(shù)為22的子圖中形成了整個網(wǎng)絡(luò)中節(jié)點(diǎn)數(shù)最多、邊最為密集的凝聚子群,在這個凝聚子群中,節(jié)點(diǎn)度數(shù)最少的是Kohler, S和Markowitsch, HJ,度值為3,Tulving, E和Cabeza, R節(jié)點(diǎn)度值最大為9,共有10個節(jié)點(diǎn),平均節(jié)點(diǎn)數(shù)為6.2,該凝聚子群是信息檢索領(lǐng)域凝聚力最強(qiáng)的合作群體,是信息檢索研究的重要科研群體。
[節(jié)點(diǎn)數(shù)為45的子網(wǎng)絡(luò)\&節(jié)點(diǎn)數(shù)為22的子網(wǎng)絡(luò)\&節(jié)點(diǎn)姓名\&節(jié)點(diǎn)度\&節(jié)點(diǎn)姓名\&節(jié)點(diǎn)度\&Zhang, L\&8\&Cabeza, R\&9\&Spink, A\&8\&Tulving, E\&9\&Zhang, Y\&6\&Houle, S\&9\&Huang, HL\&6\&McIntosh, AR\&8\&Li, J\&5\&Schacter, DL\&7\&Ma, WY\&5\&Craik, FIM\&6\&Zhang, J\&4\&MOSCOVITCH, M\&5\&Liu, Y\&4\&Nyberg, L\&5\&Chen, J\&4\&Nilsson, LG\&5\&Zhang, HJ\&3\&Rugg, MD\&4\&][表4 節(jié)點(diǎn)數(shù)為45和22的子網(wǎng)絡(luò)
中度數(shù)較高的前10為作者]
3.3 合作網(wǎng)絡(luò)研究者分析
評價科學(xué)家在網(wǎng)絡(luò)中的地位及其影響力通常有:發(fā)表文獻(xiàn)數(shù)、文獻(xiàn)被引次數(shù)、度值、中間中介數(shù)等指標(biāo)。本文選用發(fā)表論文數(shù)、作者被引次數(shù)和節(jié)點(diǎn)度值三個指標(biāo)。 表5顯示了發(fā)表論文數(shù)、作者被引次數(shù)和作者節(jié)點(diǎn)度值較高的研究人員,通過表格可以看出,Sprink A發(fā)表論文數(shù)和網(wǎng)絡(luò)中的節(jié)點(diǎn)度值都位于前列,Tulving E的作者被引次數(shù)和節(jié)點(diǎn)度位于前列,其他的28位研究人員并不存在同時在高產(chǎn)、高被引和高合作群體同時出現(xiàn)的情況,所以通過表格可以反映出信息檢索研究人員在高產(chǎn)、高被引和高合作群體中不存在很強(qiáng)的一致性。
[作者\&產(chǎn)出\&作者\&被引次數(shù)\&作者\&節(jié)點(diǎn)度數(shù)\&Chen, HC\&60\&Salton G\&4145\&Cabeza, R\&9\&Spink, A\&54\&Tulving E\&1494\&Tulving, E\&9\&Zhang, J\&42\&Baezayates R\&1084\&Houle, S\&9\&Crestani, F\&39\&Belkin NJ\&1054\&Zhang, L\&8\&Schacter, DL\&38\&Vanrijsbergen CJ\&965\&Spink, A\&8\&Del Bimbo, A\&36\&Deerwester S\&767\&McIntosh, AR\&8\&Jarvelin, K\&35\&Robertson SE\&717\&Schacter, DL\&7\&Snasel, Vaclav\&35\&Squire LR\&633\&Zhang, Y\&6\&Zhang, HJ\&33\&Porter MF\&569\&Huang, HL\&6\&Rugg, MD\&32\&Anderson JR\&558\&Craik, FIM\&6\&][表5 發(fā)表論文數(shù)、作者被引次數(shù)和節(jié)點(diǎn)度值統(tǒng)計表]
4 結(jié)語
本文主要對信息檢索領(lǐng)域的合作網(wǎng)絡(luò)進(jìn)行知識圖譜構(gòu)建和解析。通過數(shù)據(jù)預(yù)處理提取構(gòu)建合作者網(wǎng)絡(luò)的合著數(shù)據(jù),然后通過社會網(wǎng)絡(luò)算法構(gòu)建合作網(wǎng)絡(luò),再通過編程將網(wǎng)絡(luò)轉(zhuǎn)化為GraphML格式的文件,提供給Prefuse可視化接口進(jìn)行知識圖譜顯示,完成合作網(wǎng)絡(luò)的知識圖譜構(gòu)建。在此過程中自行實現(xiàn)社會網(wǎng)絡(luò)算法,實現(xiàn)合作者網(wǎng)絡(luò)的提取。借助構(gòu)建知識圖譜和數(shù)據(jù)統(tǒng)計,對信息檢索的合作網(wǎng)絡(luò)進(jìn)行分析,分析了合作網(wǎng)絡(luò)的整體特性、最大的兩個合作者網(wǎng)絡(luò)、凝聚性最強(qiáng)的合作網(wǎng)絡(luò),然后對信息檢索的合作網(wǎng)絡(luò)研究者與高產(chǎn)作者和高被引作者進(jìn)行了綜合分析。
參考文獻(xiàn):
[1]Rorissa A, Yuan X. Visualizing and Mapping the Intellectual Structure of Information Retrieval[J]. Information Processing and Management, 2011,(48):120-135.
[2]Heer J,Card SK, Landay JA. Prefuse: A Tookit for Interactive Information Visualization[C].CHI,Portland, 2005:
421-430.
[3]Chu H. Research in Image Indexing and Retrieval as Reflected in the Literature[J]. JASIST, 2001, 52(12):1011-1018.
[4]劉鵬.科研合作復(fù)雜網(wǎng)絡(luò)模型的研究[D].廣州:暨南大學(xué)信息科學(xué)技術(shù)學(xué)院數(shù)學(xué)系, 2011.
[5]Suyeon Kim, Euiho Suh, Hyunseok Hwang. Building the knowledge map:an industrial case study[J].Journal of
Knowledge Management,2003,7(2):34-45.
[6]Ding Y, Yan E, Frazho A etc. PageRank for Ranking Authors in Co-citation Networks[J].Journal of the American Society for Information Science and Technology,2009, 60(11):2229-2243.
[7]林莉. 科研論文合著網(wǎng)絡(luò)結(jié)構(gòu)與合作關(guān)系研究[D].長春:吉林大學(xué)社會醫(yī)學(xué)與衛(wèi)生事業(yè)管理, 2010.
[8]李亮,朱慶華. 社會網(wǎng)絡(luò)分析方法在合著分析中的實證研究[J]. 情報科學(xué),2008,26(4): 549-554.
[9]張英杰,冷伏海. Twitter類網(wǎng)站微信息組織及用戶關(guān)系網(wǎng)絡(luò)研究[J].圖書情報工作,2010,54(16):116-119.
[10]Hsinchun Chen[EB/OL].[2012-03-20].http://en.wikip
edia.org/ wiki/Hsinchun_Chen.
[11]王知津等. 十五年來我國網(wǎng)絡(luò)信息檢索研究述評[J]. 情報科學(xué),2004,22(4):385-389.
[12]王智紅等.近十年來我國網(wǎng)絡(luò)信息檢索研究主題分析[J].情報雜志,2009,28(7):1-6.
作者簡介:唐蓓(1979-),女,碩士,上海工程技術(shù)大學(xué)圖書館館員,研究方向:信息可視化;夏秋菊(1985-),女,碩士,上海工程技術(shù)大學(xué)圖書館助理館員,研究方向:知識管理。