支鳳穩(wěn) 鄭彥寧 杜薇薇
(1.河北大學(xué)管理學(xué)院,河北 保定 071002;2.中國科學(xué)技術(shù)信息研究所,北京 100038)
2000年12月18日,萬維網(wǎng)創(chuàng)始人Tim Berners-Lee在XML2000會議上正式提出了語義網(wǎng)概念,并在2001年對語義網(wǎng)體系架構(gòu)進(jìn)行了論述。依據(jù)Tim等的描述,語義網(wǎng)不同于以前的網(wǎng)絡(luò),是一個機器可理解的立體網(wǎng)絡(luò),包括7個層級,由低到高依次為:Unicode和URI、XML+NS+XML Schema、RDF和RDF Schema、Ontology Vocabulary、Logic、Proof、Trust[1]。由上可知,語義網(wǎng)研究關(guān)聯(lián)多個學(xué)科:計算機科學(xué)、圖書情報等,涉及多個主題領(lǐng)域:語義組織、語義檢索、機器推理、語義服務(wù)等。語義網(wǎng)將是未來WWW發(fā)展的主要方向,作為WWW環(huán)境下開展的重要服務(wù),數(shù)字圖書館將因此獲得新的發(fā)展契機,但同時語義網(wǎng)理論及技術(shù)也將對已有資源標(biāo)注及主題關(guān)聯(lián)方式等提出了更高要求。數(shù)字圖書館是館藏電子資源服務(wù)的窗口和平臺,在海量信息環(huán)境下,其所提供使用資源列表也在不斷增多,不同分布式數(shù)據(jù)庫資源異構(gòu)、用于資源標(biāo)注主題詞的不一致、資源主題聚合粒度過粗等語義化問題日漸凸顯。鑒于此,語義網(wǎng)規(guī)范化的體系架構(gòu)將在數(shù)字圖書館資源語義化建設(shè)中起到正向增益作用,如借助本體改變傳統(tǒng)書目組織基于MARC的線性的一維結(jié)構(gòu),提升資源檢索效率[2];實現(xiàn)基于語義的館藏數(shù)字資源深度聚合[3];加強詞表資源關(guān)聯(lián),提升資源標(biāo)注語義水平[4]等。國內(nèi)外學(xué)者從不同的視角進(jìn)行了相關(guān)研究:國外學(xué)者Guns討論了資源描述框架(RDF)中的數(shù)據(jù)網(wǎng)絡(luò)為何以及如何被稱為Web的問題,并基于(語義)Web的早期設(shè)計文檔進(jìn)行分析,認(rèn)為已經(jīng)出現(xiàn)在早期的web標(biāo)準(zhǔn)和草案中的鏈接類型和在線元數(shù)據(jù)是主要決定因素,發(fā)現(xiàn)語義網(wǎng)與早期的人工智能工作直接相關(guān)[5]。Neish描述了關(guān)聯(lián)數(shù)據(jù)是如何在澳大利亞和全球的圖書館及相關(guān)機構(gòu)中應(yīng)用的,并通過關(guān)聯(lián)數(shù)據(jù)應(yīng)用實踐的案例來說明一些項目比其他項目更成功的原因[6]。國內(nèi)相關(guān)研究成果主要體現(xiàn)在如下方面:1)關(guān)注理論框架構(gòu)建。如邱均平等引入了計量分析方法,構(gòu)建了基于計量分析的館藏資源語義化理論模型[7];張洋等提出基于資源本體的館藏資源語義化理論體系框架以及語義體系層次結(jié)構(gòu)模型,形成了更有效的館藏資源知識組織方法[8]。2)關(guān)注館藏資源語義化技術(shù)。樓雯從微觀層面設(shè)計了館藏資源語義化模型,描述了館藏資源語義化的關(guān)鍵技術(shù),并進(jìn)行了實證檢驗[9]。3)關(guān)注資源的聚合服務(wù)方式及實現(xiàn)。如賀德方等探討了基于語義的館藏資源聚合方式,構(gòu)建了館藏資源聚合服務(wù)所需要的語義描述框架和可視化展示機制[10];韓璽等從多維度聚合和語義關(guān)聯(lián)兩個方面分析了數(shù)字資源聚合的理論基礎(chǔ),構(gòu)建了基于語義關(guān)聯(lián)的圖書館移動視覺搜索資源多維度聚合模型,并分析了圖書館移動視覺搜索服務(wù)的實現(xiàn)流程[11]。4)關(guān)注計量學(xué)研究綜述的應(yīng)用,如趙蓉英等借助文獻(xiàn)計量學(xué)和共現(xiàn)分析的方法對國內(nèi)外館藏資源語義化研究進(jìn)展進(jìn)行了對比分析[12],這是該領(lǐng)域的最新研究綜述??梢姡瑖鴥?nèi)外學(xué)者在館藏(數(shù)字)資源語義化研究不斷取得進(jìn)展,為相關(guān)學(xué)者提借了重要的理論借鑒與實證證據(jù),然而,近幾年來的研究進(jìn)展特別國外的研究現(xiàn)狀并不清晰。館藏數(shù)字資源語義化工作開展始于國外,為了弄清楚這一研究領(lǐng)域進(jìn)展,本研究以WOS數(shù)據(jù)庫相關(guān)文獻(xiàn)資源為對象進(jìn)行計量分析,并分析揭示文獻(xiàn)的時間分布、作者分布、地區(qū)(機構(gòu))分布、主題分布等,總結(jié)梳理國外在館藏數(shù)字資源語義化方面的研究進(jìn)展,以全面了解目前的研究現(xiàn)狀,為國內(nèi)相關(guān)工作開展提供參考。
Web of Knowledge(WOS)是由美國科學(xué)情報所(ISI)開發(fā)的信息檢索平臺,它包括SCI、SSCI、A&HCI等7個子庫,索引9 000多種世界范圍內(nèi)最具影響力的、經(jīng)過同行專家評審的高質(zhì)量的期刊,其數(shù)據(jù)庫資源每周更新。用戶可以通過WOS檢索關(guān)于自然科學(xué)、社會科學(xué)、藝術(shù)與人文學(xué)科的文獻(xiàn)信息,并可以同時對多個數(shù)據(jù)庫進(jìn)行單庫或跨庫檢索。因此,對WOS中收錄的有關(guān)館藏數(shù)字資源語義化的文獻(xiàn)進(jìn)行計量分析,有助于了解世界范圍內(nèi)館藏數(shù)字資源語義化研究的現(xiàn)狀及代表性成果。
在文獻(xiàn)來源甄選階段,本研究依次開展了以下工作:①確認(rèn)檢索數(shù)據(jù)庫。本文選取的數(shù)據(jù)庫依次為科學(xué)引文索引(SCI-E)、社會科學(xué)引文索引(SSCI)、藝術(shù)與人文科學(xué)引文索引(A&HCI)、科技會議錄引文索引(CPCI-S)。②確認(rèn)檢索式和檢索年限。數(shù)據(jù)庫選擇好之后,需要對研究主題進(jìn)行凝練,提取主題詞并構(gòu)造檢索式。依據(jù)文章主題提取兩個主題詞:館藏數(shù)字資源和語義,并確認(rèn)主題詞對應(yīng)的翻譯名:Library Digital Collection和Semantic,考慮英文中存在同根詞(如Semantical、Semantic、Semantically、Semantics),因此使用通配符(?、*等)來輔助檢索式構(gòu)造,最終得到的檢索式為:Topic=(Library Digital Collection)AND(Semantic*)。鑒于語義網(wǎng)概念正式提出是在2000年,考慮到之前所做的預(yù)研究,選擇文獻(xiàn)發(fā)表時間跨度為:1996-2018年。③篩選檢索記錄。初次檢索后得到127條記錄(檢索日期為2018年7月5日),對每篇論文的摘要進(jìn)行了瀏覽,刪除主題不太相關(guān)的5篇論文,最后保留得到122條記錄,包括78篇會議論文和54篇期刊文章(部分論文既出現(xiàn)在論文集中,又發(fā)表于期刊,這種情況按期刊論文處理),這些論文主要分布在計算機科學(xué)信息系統(tǒng)、計算機科學(xué)人工智能、計算機科學(xué)軟件工程、信息科學(xué)等學(xué)科領(lǐng)域。保存這些記錄的題錄信息,包括題名、作者、關(guān)鍵詞、國家、機構(gòu)、發(fā)表時間、被引次數(shù)等字段,以此為基礎(chǔ)展開國外館藏數(shù)字資源語義化的文獻(xiàn)計量分析工作。
基于題錄中的字段信息,本研究對國外館藏數(shù)字資源語義化文獻(xiàn)的時間分布、地域分布、作者分布等情況進(jìn)行了統(tǒng)計分析,從而揭示出世界范圍內(nèi)該主題領(lǐng)域研究的發(fā)展態(tài)勢、熱點國家、典型機構(gòu)和核心作者。
文獻(xiàn)時間分布規(guī)律描述了文獻(xiàn)在過去一段時間內(nèi)產(chǎn)出的效率及影響力,因此文獻(xiàn)時間分布研究包括文獻(xiàn)數(shù)量時間分布和文獻(xiàn)被引時間分布[13],通過這兩個維度可以評測該主題領(lǐng)域發(fā)展態(tài)勢和預(yù)測其未來發(fā)展。從保存題錄信息中提取出年限、被引次數(shù)等基本字段,按照年限分組獲得每年發(fā)文章量、論文被引總次數(shù)。這些統(tǒng)計指標(biāo)在一定程度上反映該主題領(lǐng)域?qū)W術(shù)研究的理論水平和發(fā)展速度,近23年有關(guān)文章數(shù)及被引的時間分布如圖1所示。
通過圖1可得出以下結(jié)論:1)館藏數(shù)字資源語義化研究始于1996年,之后文章產(chǎn)出量呈現(xiàn)出遞增趨勢,2007年達(dá)到高峰,達(dá)到13篇,以后文章產(chǎn)出量有所下降,呈現(xiàn)出高低震蕩的態(tài)勢,但幅度不大??傮w分析可知,該主題領(lǐng)域的研究相對穩(wěn)定,還有待在基礎(chǔ)理論和關(guān)鍵技術(shù)方面取得突破性研究。
2)從1996年開始,論文的被引次數(shù)呈現(xiàn)上升趨勢,并在2000年達(dá)到第一個峰值,之后論文被引次數(shù)呈現(xiàn)震蕩態(tài)勢。2015年度文章對于該主題領(lǐng)域發(fā)展具有較大影響,被引頻次達(dá)到61次,推測應(yīng)該是該學(xué)科的開創(chuàng)性或奠基性成果。2007年發(fā)文數(shù)量最大,共13篇,被引次數(shù)為23,篇均被引次數(shù)只有1.77??傮w上來看,發(fā)文數(shù)量與被引次數(shù)呈現(xiàn)出一致性的分布(個別年份除外,如2018年的文獻(xiàn)還未全部出版)。
圖1 1996-2018年發(fā)文數(shù)量與被引頻次的時間分布
文獻(xiàn)地域分布規(guī)律旨在揭示該主題領(lǐng)域的熱點研究區(qū)域和研究機構(gòu),對于科研合作及其國家、機構(gòu)影響力評價研究都能起到良好的導(dǎo)向作用。CiteSpace能夠通過識別并可視化表示文獻(xiàn)的地域分布、作者、期刊、關(guān)鍵詞、被引文獻(xiàn)等信息的關(guān)系,從而展現(xiàn)一個學(xué)科或知識領(lǐng)域在一定時間的發(fā)展趨勢與動向。本研究提取題錄信息中的國家(地區(qū))、機構(gòu)、題目等字段值,分別以國家或者機構(gòu)為分組類別,借助CiteSpace軟件統(tǒng)計每一國家(地區(qū))或者機構(gòu)在統(tǒng)計年限內(nèi)的發(fā)文量,近23年文獻(xiàn)國家(地區(qū))和機構(gòu)分布情況見圖2和表1。
圖2 文獻(xiàn)國家(地區(qū))分布
圖2中節(jié)點代表國家(地區(qū)),節(jié)點大小表示發(fā)文量多少,節(jié)點越大,表明該國家(地區(qū))的發(fā)文量越多,節(jié)點之間的連線代表國家之間存在合作關(guān)系。統(tǒng)計結(jié)果顯示,122篇文獻(xiàn)是由37個國家或地區(qū)撰寫的,發(fā)文3篇以上的國家有15個,其中美國發(fā)文29篇,德國發(fā)文12篇,西班牙發(fā)文10篇,英國和意大利均發(fā)文8篇,法國發(fā)文6篇,中國臺灣地區(qū)發(fā)文5篇,日本發(fā)文4篇,和奧地利、加拿大、希臘、印度、巴基斯坦、波蘭和韓國均發(fā)文3篇,前15個國家共發(fā)文104篇,占總發(fā)文量的85.25%??梢姡煌瑖以陴^藏數(shù)字資源語義化研究中存在著較大差距,美國和歐洲是該主題領(lǐng)域研究的熱點國家或地區(qū),美國相關(guān)文獻(xiàn)數(shù)量最多,德國次之,其中排名前15為國家中,歐洲占據(jù)7個,北美占據(jù)2個,亞洲占據(jù)5個(中國臺灣地區(qū)和日本),大洋洲占據(jù)1個,非洲和南美洲在該領(lǐng)域鮮有文章。
表1 文獻(xiàn)機構(gòu)分布
由表1(只統(tǒng)計了發(fā)文量大于等于3的機構(gòu))可知,發(fā)文比較多的機構(gòu)大部分為大學(xué)(UNIV),通過數(shù)值觀察發(fā)現(xiàn),發(fā)文最多的機構(gòu)是Univ Illinois(6篇),其次是Univ Belgrade(6篇),前10的機構(gòu)共發(fā)文40篇,占文獻(xiàn)總量的32.79%。機構(gòu)發(fā)文量差別不是很明顯(極差為6),但是可以推測的是發(fā)文量較多的機構(gòu)大部分都在美國和歐洲,其他國家或地區(qū)研究工作亟待拓展和開啟。最后,多種機構(gòu)類型參與到館藏數(shù)字資源語義化研究進(jìn)程中有利于該主題領(lǐng)域快速發(fā)展起來,如IBM CORP開發(fā)的數(shù)字圖書館系統(tǒng)平臺在我國數(shù)字圖書館建設(shè)中發(fā)揮著重要作用[14]。
文獻(xiàn)作者分布規(guī)律旨在揭示該主題領(lǐng)域內(nèi)的核心作者,核心作者的提取存在著兩種方法:主觀提取方法和客觀提取方法。主觀提取方法就是要選取描述作者類(見圖3)的屬性或者操作,根據(jù)統(tǒng)計值高低排序,并設(shè)定相應(yīng)閾值來提取核心作者的過程??陀^提取方法是通過分析文獻(xiàn)作者分布規(guī)律,借助以往經(jīng)驗公式來提取核心作者的過程。雖然兩種方法各有優(yōu)缺點,但主觀方法操作簡單,應(yīng)用更加廣泛,本研究也采用主觀提取的方法。圖3中作者和文章之間是發(fā)布關(guān)系(issue),文章和關(guān)鍵詞之間是組成關(guān)系(composite),在此主觀提取方法僅利用發(fā)布關(guān)系及其關(guān)聯(lián)實體,組成關(guān)系及其關(guān)聯(lián)實體在第4部分應(yīng)用,有關(guān)實體及其多重性描述可參考UML內(nèi)容[15],在此不再贅述。
本研究的122篇文獻(xiàn)共由359個作者撰寫,其中105篇文獻(xiàn)是由多個作者共同完成,17篇文獻(xiàn)是由單個作者獨立完成。發(fā)文量為4的作者有3人,他們是來自東京大學(xué)的KUO PJ、AOKI T、YASUDA H;發(fā)文量為3的作者為來自美國的亞利桑那大學(xué)的CHEN HC,發(fā)文量為2的作者有16人,發(fā)文量為1的作者有339人。設(shè)定主觀提取方法的閾值為2,提取核心作者列表,如表2所示。
本研究還借助中國科學(xué)院國家科學(xué)圖書館研發(fā)的文獻(xiàn)計量在線分析平臺繪制了作者合作網(wǎng)絡(luò),對作合作情況進(jìn)行可視化展示,以直觀地了解國外館藏資源語義化研究的核心作者和合作團(tuán)體,如圖4所示。圖中節(jié)點代表發(fā)文作者,節(jié)點之間的連線代表作者之間存在合作關(guān)系。作者合作關(guān)系反映了該領(lǐng)域的研究力量分布情況,合作程度越高,越有利于加深該領(lǐng)域的縱向研究和結(jié)合其他學(xué)科領(lǐng)域的橫向發(fā)展[12]。文獻(xiàn)的合作度(作者總數(shù)/論文總數(shù))與合作率(合作論文數(shù)/論文總數(shù)×100%)是反映合作程度的重要指標(biāo),據(jù)此可以算出國外館藏資源語義化研究的合作程度,合作度為2.94,說明平均每篇論文由3個作者共同,合作率為86.07%,約有13.93%的論文是單個作者獨立完成的。
圖3 作者(Expert)——文章(Knowledge)屬性特征及關(guān)系特征描述
表2 核心作者列表
由表2可知,KUO PJ、AOKI T、YASUDA H和CHEN HC是館藏數(shù)字資源語義化研究領(lǐng)域的核心作者。進(jìn)一步分析表2和圖4可以發(fā)現(xiàn),KUO PJ作為第一和通訊作者,AOKI T和YASUDA H分別為第二和第三作者,合作發(fā)表了4篇會議論文,3人形成合作網(wǎng)絡(luò)A??梢?,東京大學(xué)在該領(lǐng)域的研究實力較強,然而,遺憾的是這些論文是日本在該領(lǐng)域的所有成果,其他機構(gòu)在該領(lǐng)域還未取得突破。這些論文發(fā)表于2004-2005年,至今還被引用,可見這些文獻(xiàn)還未引起學(xué)者們的足夠重視。另外,近年來,該作者團(tuán)隊沒有在該領(lǐng)域進(jìn)展緩慢,還未發(fā)表新的研究成果。由圖4可知,國外館藏數(shù)字資源語義化研究領(lǐng)域的合作網(wǎng)絡(luò)以以3~4人為主,但也有10人以上的合作網(wǎng)絡(luò)B和C,B是以亞利桑那大學(xué)的CHEN HC為中心的15人合作網(wǎng)絡(luò),共發(fā)表論文3篇。C是由來自德國8個不同的機構(gòu)14位作者組成的合作網(wǎng)絡(luò),該網(wǎng)絡(luò)雖然人數(shù)較多,但僅2013年合作發(fā)表了1篇論文??傮w而言,國外館藏數(shù)字資源語義化研究領(lǐng)域還未形成穩(wěn)定的核心作者群和合作團(tuán)體,作者之間關(guān)聯(lián)不是很緊密,相關(guān)研究合作還需要進(jìn)一步加強。
本部分將從內(nèi)容特征出發(fā)去揭示國外館藏數(shù)字資源語義化研究的熱點,以期為國內(nèi)數(shù)字圖書館建設(shè)方向提供指導(dǎo)。關(guān)鍵詞是文獻(xiàn)內(nèi)容特征的核心與精髓,是對文章主題的高度概括和凝練,出現(xiàn)頻次高的關(guān)鍵詞常被用于確定一個研究領(lǐng)域的熱點問題。文獻(xiàn)內(nèi)容特征分析主要圍繞題名[16]、摘要和關(guān)鍵詞[17]等字段信息展開,分析方法主要包括共現(xiàn)分析、聚類、因子分析、多維尺度分析等。常用可視化分析工具CiteSpace可以通過對熱點關(guān)鍵詞進(jìn)行聚類分析,探測學(xué)科領(lǐng)域的研究熱點。CiteSpace依據(jù)譜聚類算法實現(xiàn)自動聚類,譜聚類本身就是基于圖論的一種算法,它對共引網(wǎng)絡(luò)這種基于鏈接關(guān)系而不是節(jié)點屬性的聚類具有天然的優(yōu)勢。為保證數(shù)據(jù)的準(zhǔn)確性和結(jié)果的科學(xué)性,本研究對122條文獻(xiàn)記錄進(jìn)行了數(shù)據(jù)清洗,主要包括:單復(fù)數(shù)合并(如libraries和library、collections和collection、models和model、archive和archives),詞的原形合并(如searching和search),刪除無實際意義且題名頻率較高的代詞、介詞(如based、towards)等。在CiteSpace軟件中,Node Types設(shè)定Keyword,選擇探索關(guān)鍵詞的路徑算法(Pathfinder),剪切網(wǎng)絡(luò)中大部分不重要的關(guān)聯(lián)節(jié)點,最大程度上將原網(wǎng)絡(luò)簡化為一個最小值網(wǎng)絡(luò)18,并進(jìn)行相應(yīng)的參數(shù)調(diào)整,生成研究熱點聚類知識圖譜,如圖5所示。圖5中的每個十字型的節(jié)點代表一個關(guān)鍵詞,節(jié)點越大,表示該關(guān)鍵詞出現(xiàn)的頻次越大,黑色字體的是關(guān)鍵詞的標(biāo)簽(設(shè)定閾值為2,只顯示出現(xiàn)2次以上的關(guān)鍵詞標(biāo)簽)。
圖4 作者合作網(wǎng)絡(luò)
CiteSpace還能生成關(guān)鍵詞出現(xiàn)頻次、中心性列表,本研究提取了高頻(≥4)和高中心度(≥0.05)關(guān)鍵詞,如表4所示。國外館藏數(shù)字資源語義化研究的高頻關(guān)鍵詞有digital library、ontology、semantic web、metadata、information retrieval、collection、linked data、system等;高中心度的關(guān)鍵詞有ontology、retrieval、digital library、information retrieval、search、collection、science等,比較高頻關(guān)鍵詞與高中心度關(guān)鍵詞可知,兩者大體上保持一致,所以這些關(guān)鍵詞在一定程度上能夠反映館藏數(shù)字資源語義化研究的熱點。進(jìn)一步分析文獻(xiàn)信息可以發(fā)現(xiàn),2000年以前,有些學(xué)者們開始關(guān)注數(shù)字圖書館、信息檢索、建模、語義網(wǎng)的相關(guān)研究,2001年以后,學(xué)者們開始關(guān)注本體、分類、元數(shù)據(jù)、標(biāo)引、分類、抽取信息組織工作流程等相關(guān)內(nèi)容,關(guān)鍵詞在不斷增多,這說明研究范圍在不斷擴展、不斷豐富。該主題領(lǐng)域內(nèi)容繁雜,涉及多個學(xué)科,既包括傳統(tǒng)基礎(chǔ)研究,如metadata、又包括前沿?zé)狳c,如ontology、semantic等。
表4 高頻(≥4)和高中心度(≥0.05)關(guān)鍵詞
圖5中,不同顏色的填充區(qū)域代表不同的聚類,紅色字體是聚類的標(biāo)簽,國外館藏數(shù)字資源語義化研究可以生成12個聚類(軟件只顯示含有10個成員以上的聚類),分別是semantic search、creating engineering、concept space、users behaviour pattern、semantic retrieval、scientific publication、exploratory search、4th zarih、metadata、management、hopfield net、text categorization、evaluation study、reference map??梢钥闯鰢怵^藏數(shù)字資源語義化研究視角廣泛,內(nèi)容豐富。表5顯示了每個聚類的Cluster ID(編號)、Label(標(biāo)簽)、size(規(guī)模)和silhouette(輪廓系數(shù))。silhouette是用來衡量聚類網(wǎng)絡(luò)不確定性的指標(biāo)[19],取值范圍是(-1,1),如果一個聚類的silhouette值為1,代表它能夠與其他聚類完美地區(qū)分開來,Chen C希望silhouette值為0.7~0.9之間,或更高[20],因此可以認(rèn)為本研究的聚類效果良好。
圖5 國外館藏數(shù)字資源語義化研究熱點圖譜
表5
綜合分析圖5和表5可以現(xiàn),最大的聚類是“semantic search”,它有47個關(guān)鍵詞,輪廓系數(shù)為0.89,該聚類最活躍的引證文獻(xiàn)是Nandzik J于2013年發(fā)表在《MULTIMEDIA TOOLS AND APPLICATIONS》上的“CONTENTUS—Technologies for Next Generation Multimedia Libraries”。第二個聚類是“creating engineering concept space”,它有31個關(guān)鍵詞,輪廓系數(shù)為0.855,該聚類最活躍的引證文獻(xiàn)是Chen HC于1996年發(fā)表在《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》上的“A Parallel Computing Approach to Creating Engineering Concept Spaces for Semantic Retrieval:The Illinois Digital Library Initiative Project”。第三個聚類是“users behaviour pattern”,它有30個關(guān)鍵詞,輪廓系數(shù)為0.942,該聚類最活躍的引證文獻(xiàn)是Chen YN于2013年發(fā)表在《ONLINE INFORMATION REVIEW》上的“An Analysis of Users’ Behaviour Patterns in the Organisation of Information a Case Study of Citeulike”。第四個聚類是“semantic retrieval”,它有27個關(guān)鍵詞,輪廓系數(shù)為0.942,該聚類最活躍的引證文獻(xiàn)是Kherfi,ML于2007年發(fā)表在《IEEE TRANSACTIONS ON MULTIMEDIA》上的“Image Collection Organization and Its Application to Indexing,Browsing,Summarization,and Semantic Retrieval”。以上聚類是既是國外館藏數(shù)字資源語義化領(lǐng)域現(xiàn)有研究的重點,也是未來研究需要繼續(xù)深化拓展的方向。
語義網(wǎng)為數(shù)字圖書館資源深度聚合提供了新的途徑和方法,為了弄清楚目前國外館藏數(shù)字資源語義化研究的現(xiàn)狀,本研究對WOS數(shù)據(jù)庫該主題領(lǐng)域文獻(xiàn)進(jìn)行了計量分析,得出以下結(jié)結(jié)論:1)從發(fā)展趨勢來看,國外館藏數(shù)字資源語義化研究已經(jīng)過20多年的發(fā)展,但研究進(jìn)展緩慢,相關(guān)研究成果還處于早期積累階段。2)從研究成果的地域分布來看,不同國家間的研究差別很大,美國和歐洲優(yōu)勢明顯,主要研究力量也集中于此。3)從核心作者發(fā)文量和作者合著網(wǎng)絡(luò)來看,該領(lǐng)域高影響力的作者總體偏少,還未形成穩(wěn)定的核心作者群,研究合作還有待進(jìn)一步加強。4)通過研究熱點分析,發(fā)現(xiàn)該領(lǐng)域內(nèi)容繁雜,立足基礎(chǔ)研究之上的數(shù)字圖書館、信息檢索、用戶行為模式、元數(shù)據(jù)管理、本體理論及方法等是該領(lǐng)域研究熱點,該領(lǐng)域在理論基礎(chǔ)和方法技術(shù)方面還有很大的發(fā)展空間??傮w而言,該領(lǐng)域的研究以理論構(gòu)建為主,研究方法相對單一。理論框架仍然比較模糊,理論分析還不夠深入,研究內(nèi)容缺乏系統(tǒng)性與綜合性。學(xué)者們已經(jīng)認(rèn)識語義化為館藏數(shù)字資源建設(shè)和利用帶來的美好前景,對本體、關(guān)聯(lián)數(shù)據(jù)等語義化技術(shù)應(yīng)用也進(jìn)行了實證探索,但大多基于傳統(tǒng)信息計量學(xué)和文獻(xiàn)外部特征元數(shù)據(jù)而展開,計量本體及其基礎(chǔ)上的計量語義化應(yīng)用還有一定的局限。
無論是在技術(shù)實現(xiàn)層面,還是在實踐應(yīng)用層面,都有學(xué)者進(jìn)行了探索和研究,但相比其他傳統(tǒng)學(xué)科,語義網(wǎng)的基礎(chǔ)理論體系尚不健全,鮮有研究專門對其進(jìn)行梳理、界定和闡釋[21]。因此,館藏資源語義化依然任重道遠(yuǎn),建立能夠很好地揭示并序化文獻(xiàn)實體和屬性之間的關(guān)系的語義化的、統(tǒng)一的、規(guī)范的館藏數(shù)字資源組織與檢索方式,不僅是圖書館應(yīng)對大數(shù)據(jù)時代挑戰(zhàn),提高知識服務(wù)能力的必然要求,也是學(xué)者們應(yīng)該繼續(xù)關(guān)注的重點。未來研究不僅要關(guān)注基礎(chǔ)研究,還應(yīng)該注重應(yīng)用研究,同時,還要進(jìn)一步進(jìn)行多學(xué)科交叉研究,在模型構(gòu)建和研究方法方面做出更大努力。本研究展示國外館藏資源語義化研究現(xiàn)狀,能為學(xué)者們進(jìn)行深入研究提供一些參考,但未能進(jìn)行深入系統(tǒng)的討論,希望后續(xù)學(xué)者補充完善,在豐富相關(guān)領(lǐng)域研究成果的同時,為我國館藏數(shù)字資源建設(shè)和有效利用提供必要的指導(dǎo)。