王 飛,徐 芳(蘇州大學(xué) .圖書館,b.社會學(xué)院)
關(guān)聯(lián)數(shù)據(jù)(Linked Data)是由Web的發(fā)明人Tim Berners-Lee提出的一種數(shù)據(jù)規(guī)范,用來在萬維網(wǎng)上發(fā)布和連接各類數(shù)據(jù)、信息和知識,使人們能借助互聯(lián)網(wǎng)發(fā)現(xiàn)更多相互關(guān)聯(lián)的信息[1]。由于關(guān)聯(lián)數(shù)據(jù)是一種較為容易掌握的技術(shù)規(guī)范,隨著關(guān)聯(lián)數(shù)據(jù)發(fā)布工具的日益成熟,瑞典、美國、英國、法國、德國等國家圖書館開始創(chuàng)建和傳播自己圖書館書目記錄、主題詞表(LCSH)的關(guān)聯(lián)數(shù)據(jù)[2-3]。2015年,國務(wù)院印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》明確提出要大力推動政府?dāng)?shù)據(jù)共享,穩(wěn)步進(jìn)行公共數(shù)據(jù)資源開放[4]。截至2021年5月,關(guān)聯(lián)開放數(shù)據(jù)(LinkedOpenData,LOD)云圖中收集的全球地理、政府、媒體及用戶等機(jī)構(gòu)和個人發(fā)布的開放關(guān)聯(lián)數(shù)據(jù)集已經(jīng)達(dá)到1,301個,鏈接 16,283 條[5]。
國內(nèi)對于關(guān)聯(lián)數(shù)據(jù)的研究始于2006年,2011年之前的研究成果以關(guān)聯(lián)數(shù)據(jù)概念介紹和文獻(xiàn)綜述為主,少有對關(guān)聯(lián)數(shù)據(jù)實(shí)踐應(yīng)用的研究。此后,關(guān)聯(lián)數(shù)據(jù)吸引了更多學(xué)者的關(guān)注,相關(guān)研究成果的數(shù)量和質(zhì)量都有了明顯增長,已有文獻(xiàn)對2016年之前傳統(tǒng)受控詞表的語義化描述、關(guān)聯(lián)數(shù)據(jù)成果發(fā)布、計(jì)算機(jī)與圖書情報(bào)領(lǐng)域關(guān)聯(lián)數(shù)據(jù)的研究現(xiàn)狀進(jìn)行了文獻(xiàn)計(jì)量分析[6-7]。隨著我國將構(gòu)建全國信息資源共享體系上升為國家戰(zhàn)略[4],作為數(shù)據(jù)共享開放的重要基礎(chǔ),關(guān)聯(lián)數(shù)據(jù)研究的重要性進(jìn)一步提升。2017年至今,CNKI(中國知網(wǎng))中收錄的相關(guān)新增文獻(xiàn)超過383篇,約占所有相關(guān)文獻(xiàn)總數(shù)的一半。有鑒于此,本研究旨在通過對我國圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究現(xiàn)狀進(jìn)行全面的梳理與分析,挖掘該領(lǐng)域的核心主題和前沿?zé)狳c(diǎn),以期為后續(xù)研究提供參考和借鑒。
本文選擇CNKI為文獻(xiàn)數(shù)據(jù)來源,以 “主題” 為檢索選項(xiàng), “關(guān)聯(lián)數(shù)據(jù)” 為檢索詞,限定學(xué)科為 “圖書情報(bào)與數(shù)字圖書館” 與 “檔案及博物館” ,檢索時限為2006—2020年,共檢索到中文文獻(xiàn)874篇,去除序言、報(bào)紙文章等非研究型文獻(xiàn)及外文文獻(xiàn)后,將剩余的867篇文獻(xiàn)作為本文分析的對象。
本研究一方面利用SATI文獻(xiàn)題名信息統(tǒng)計(jì)分析工具[8]對研究機(jī)構(gòu)、學(xué)者、期刊等主體關(guān)系進(jìn)行計(jì)量分析,以了解其知識關(guān)系模式;另一方面綜合利用詞頻分析、共詞分析以及聚類分析對文獻(xiàn)的關(guān)鍵詞進(jìn)行研究和可視化展示,以厘清該領(lǐng)域的核心主題和發(fā)展趨勢。最后,筆者選擇重點(diǎn)文獻(xiàn)對該領(lǐng)域的研究內(nèi)容進(jìn)行述評,揭示該領(lǐng)域研究的核心內(nèi)容和熱點(diǎn)前沿。
筆者對我國圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究的文獻(xiàn)發(fā)表數(shù)量按年份進(jìn)行了統(tǒng)計(jì)分析,2006—2020年我國圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究的發(fā)文量和增長率見表1。
表1 2006—2020年我國圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究的發(fā)文量和增長率
從表1可以看出,2010年之前相關(guān)研究的年發(fā)文量均為個位數(shù),研究的開展尚處于萌芽階段。從2011年起,該領(lǐng)域的研究熱度逐年提升,2012年發(fā)文量迎來爆發(fā)性增長,增長率達(dá)到了200%,并且這種增長趨勢一直持續(xù)到2015年,發(fā)文量達(dá)到125篇。此后兩年發(fā)文量趨于平穩(wěn),均在120篇上下。這一時間線與我國一系列推動數(shù)據(jù)資源開放共享文件的發(fā)布時間點(diǎn)基本重合,反映了我國圖情檔領(lǐng)域?qū)W者對國家政策的敏感性,以及研究開展的果斷與快速。2018年,發(fā)文量出現(xiàn)較明顯回落,但此后兩年又基本維持在同一水平,關(guān)聯(lián)數(shù)據(jù)的研究進(jìn)入第二個平穩(wěn)期。
科學(xué)文獻(xiàn)與研究機(jī)構(gòu)之間的數(shù)量關(guān)系和分布情況反映了研究主體的文獻(xiàn)產(chǎn)出能力。表2為筆者利用SATI和EXCEL統(tǒng)計(jì)出的發(fā)文數(shù)量大于或等于10篇的研究機(jī)構(gòu)分布情況。為了更客觀地了解機(jī)構(gòu)分布情況,筆者對機(jī)構(gòu)更名,學(xué)院或圖書館下屬的系、研究所(中心)和部門的數(shù)據(jù)做了合并處理。
根據(jù)表2數(shù)據(jù),發(fā)文數(shù)量超過10篇的研究機(jī)構(gòu)共有18個,發(fā)文量之和約占總體1,034個機(jī)構(gòu)全部發(fā)文量的40%,表明我國圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究機(jī)構(gòu)分布比較分散。進(jìn)一步統(tǒng)計(jì)發(fā)現(xiàn),這18個核心機(jī)構(gòu)由高校院系、公共圖書館和中國科學(xué)院研究所組成,其中高校院系有13家,占據(jù)了絕對主力地位,這與高校學(xué)術(shù)氛圍濃厚、科研隊(duì)伍強(qiáng)大密不可分。筆者對18個機(jī)構(gòu)的發(fā)文量按年份統(tǒng)計(jì)發(fā)現(xiàn),上海圖書館開展關(guān)聯(lián)數(shù)據(jù)研究的時間最早(2009年),且延續(xù)性最強(qiáng),他們的研究隊(duì)伍遍布圖書館的所有部門。中國科學(xué)技術(shù)信息研究所和中國科學(xué)院國家科學(xué)圖書館也較早開展了相關(guān)研究(2010年)。兩者不同的是:前者將研究一直延續(xù)了下來,而后者在2013之后暫停了相關(guān)研究??傮w而言,高校開展關(guān)聯(lián)數(shù)據(jù)研究的時間較晚,2014年之前13所高校的發(fā)文量之和與另外5家機(jī)構(gòu)相比還有不小差距,而近7年的發(fā)文量統(tǒng)計(jì)情況則展現(xiàn)了高校在研究持續(xù)性和爆發(fā)性上的優(yōu)勢。
表2 總發(fā)文數(shù)量≥10篇的研究機(jī)構(gòu)分布
SATI統(tǒng)計(jì)顯示,本研究搜集的867篇文獻(xiàn)共有1,652位作者,其中夏翠娟發(fā)文量最多(20篇)。根據(jù)普萊斯定律,本項(xiàng)研究中核心作者的最Nmax為最高產(chǎn)作者的發(fā)文量[9]),計(jì)算得出M≈3.35,即核心作者的最低發(fā)文量為4篇。符合這一要求的作者共有63位,他們的總發(fā)文量為388篇,約占全部論文的45%,基本符合普萊斯 “核心作者集群發(fā)文量約占總發(fā)文量的一半” 的理論,由此說明我國圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究核心作者集群已經(jīng)基本形成。對核心作者發(fā)文的總被引量進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),劉煒撰寫的16篇文獻(xiàn)總被引835次,夏翠娟撰寫的20篇文獻(xiàn)總被引690次,歐石燕撰寫的13篇文獻(xiàn)總被引356次,陳濤撰寫的12篇文獻(xiàn)總被引216次,以他們?yōu)榇淼暮诵淖髡咴谠撗芯款I(lǐng)域具有很大的影響力。
為進(jìn)一步分析學(xué)者間的合作關(guān)系,筆者采用知識圖譜對63位核心作者之間的合作網(wǎng)絡(luò)進(jìn)行描繪(見圖1)。為了更清楚地顯示主要合作者間的關(guān)系,筆者在數(shù)據(jù)處理中進(jìn)行了去除噪點(diǎn)處理。
圖1 我國圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究核心作者合作網(wǎng)絡(luò)
從圖1中可以看出,核心作者之間的合作度較弱,63位作者僅形成了12個合作集群,且只有3個集群的合作者超過了5人。其中,夏翠娟、劉煒、陳濤等組成的集群規(guī)模最大,發(fā)文量最多,他們來自上海圖書館的不同部門,屬于內(nèi)部合作,具有很強(qiáng)的專業(yè)能力和文獻(xiàn)產(chǎn)出能力。規(guī)模第二的集群由中國科學(xué)院文獻(xiàn)情報(bào)中心的李春旺、中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所的黃永文等組成,調(diào)研發(fā)現(xiàn)他們是以師生關(guān)系為基礎(chǔ)構(gòu)建的合作網(wǎng)絡(luò)。同樣地,規(guī)模第三的集群也是基于師生和同事關(guān)系形成的山西大學(xué)、中國人民大學(xué)以及中國科學(xué)院之間的合作網(wǎng)絡(luò)??傊m然我國圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究已經(jīng)形成了具有一定影響力的核心作者集群,但學(xué)者之間的合作交流還不夠密切,大部分都是師生或同一機(jī)構(gòu)內(nèi)部的合作,高校內(nèi)部各院系之間的合作以及高校與公共圖書館之間的合作都不常見。
一般來說,核心期刊刊載的論文質(zhì)量較高,論文的研究主題具有一定的學(xué)術(shù)創(chuàng)新力,因此對刊載論文的期刊進(jìn)行統(tǒng)計(jì)分析不僅可以在宏觀上判斷關(guān)聯(lián)數(shù)據(jù)研究主題的創(chuàng)新力,還有助于挖掘該領(lǐng)域的高影響力期刊。筆者利用UCINET進(jìn)行統(tǒng)計(jì)分析,構(gòu)建期刊載文量分布圖,并將載文量低于10篇的期刊歸于其他類(見圖2)。
圖2 期刊載文量分布圖
從圖2可以看出,在載文量大于10篇的22種期刊中,核心期刊有15種,占比68%;CSSCI來源期刊1種,CSSCI擴(kuò)展版來源期刊2種,一般期刊僅有4種??梢?,我國圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究的學(xué)術(shù)成果大部分都刊載在核心期刊上,論文整體質(zhì)量較高,論文的研究主題具有較強(qiáng)的學(xué)術(shù)創(chuàng)新性。根據(jù)布拉德福定律,筆者將各種期刊的載文量降序排列,并將論文數(shù)量劃分為數(shù)量大致相等的三個區(qū)域,得到三個區(qū)域的期刊數(shù)為5∶17∶100,近似等于1∶3.4∶4.472,其中第二區(qū)在嚴(yán)格數(shù)值(4.49)的基礎(chǔ)上下浮動了約24%,可以認(rèn)為此種情況符合布拉德福定律[10]。據(jù)此,我國圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究的 “核心區(qū)” 期刊為《圖書情報(bào)工作》《圖書館學(xué)研究》《數(shù)字圖書館論壇》《圖書館理論與實(shí)踐》《圖書館雜志》和《情報(bào)理論與實(shí)踐》(兩者載文量相同,排序不分先后)。
關(guān)鍵詞是文章核心內(nèi)容的高度凝練,體現(xiàn)了作者的學(xué)術(shù)思想和觀點(diǎn),詞頻分析法是利用關(guān)鍵詞在某一研究領(lǐng)域文獻(xiàn)中出現(xiàn)的頻次高低來確定該領(lǐng)域研究熱點(diǎn)和發(fā)展動向的文獻(xiàn)計(jì)量方法[11]。筆者利用SATI對本研究所選文獻(xiàn)的關(guān)鍵詞進(jìn)行統(tǒng)計(jì)分析,共得到1,536個關(guān)鍵詞,由于詞頻最高的 “關(guān)聯(lián)數(shù)據(jù)” 與數(shù)據(jù)采集所用的主題檢索詞一致,且詞頻與其他關(guān)鍵詞相差太大,因此在下面的分析中將 “關(guān)聯(lián)數(shù)據(jù)” 一詞去除。其中,關(guān)鍵詞詞頻大于10的關(guān)鍵詞有43個,詞頻之和為955次,占總詞頻3,169次的30%,根據(jù) “二八定律”[11],上述43個關(guān)鍵詞為高頻關(guān)鍵詞,從中可以分析出該領(lǐng)域的研究特點(diǎn)。圖3為這43個高頻關(guān)鍵詞云圖,圖中的字體越大表示該關(guān)鍵詞的詞頻越高。
圖3 前43個高頻關(guān)鍵詞云圖
從圖3可以看出,國內(nèi)學(xué)者圍繞關(guān)聯(lián)數(shù)據(jù)在圖情檔領(lǐng)域應(yīng)用的研究主要集中在書目數(shù)據(jù)、書目框架發(fā)布、數(shù)字資源、資源整合、數(shù)據(jù)模型構(gòu)建、知識組織、知識服務(wù)、知識發(fā)現(xiàn)等領(lǐng)域,反映出圖情檔機(jī)構(gòu)和學(xué)者緊跟時代發(fā)展,注重利用新興技術(shù)為用戶提供更好的服務(wù),提升用戶體驗(yàn)。同時,國內(nèi)學(xué)者對關(guān)聯(lián)數(shù)據(jù)相關(guān)的關(guān)鍵技術(shù)也進(jìn)行了深入研究,產(chǎn)生了本體、元數(shù)據(jù)、RDF、RDA、D2R等研究主題。科學(xué)數(shù)據(jù)、機(jī)構(gòu)知識庫、科技文獻(xiàn)等高頻關(guān)鍵詞則顯示了關(guān)聯(lián)數(shù)據(jù)在促進(jìn)科技資源開放共享、提升知識資產(chǎn)管理效能方面應(yīng)用的潛力。
筆者利用UCINET對高頻關(guān)鍵詞進(jìn)行聚類分析,分析得到的8個聚類可以看作8個研究領(lǐng)域,包括:圖書館數(shù)據(jù)模型構(gòu)建、書目數(shù)據(jù)語義化編制、科學(xué)數(shù)據(jù)和科技文獻(xiàn)開放共享、知識組織系統(tǒng)SKOS化和關(guān)聯(lián)化、元數(shù)據(jù)與本體、高校圖書館知識發(fā)現(xiàn)系統(tǒng)建設(shè)、數(shù)字圖書館資源整合和機(jī)構(gòu)知識庫建設(shè)、博物館資源整合和數(shù)據(jù)關(guān)聯(lián)。這8個研究領(lǐng)域在一定程度上集中體現(xiàn)出圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)的研究狀況。為了更直觀展示高頻關(guān)鍵詞之間的共現(xiàn)關(guān)系,筆者利用知識圖譜進(jìn)行可視化描述(見圖4)。
圖4 高頻關(guān)鍵詞共現(xiàn)關(guān)系
從圖4可以看出,關(guān)鍵詞層層相連,形成了一張完整的網(wǎng)絡(luò)圖,沒有出現(xiàn)孤立的點(diǎn)。其中,圖書館的節(jié)點(diǎn)最大,與周圍關(guān)鍵詞形成網(wǎng)絡(luò)連線最多,知識服務(wù)、機(jī)構(gòu)知識庫、數(shù)字資源、數(shù)據(jù)關(guān)聯(lián)、大數(shù)據(jù)、書目數(shù)據(jù)、數(shù)據(jù)模型等都與圖書館聯(lián)系密切,說明關(guān)聯(lián)數(shù)據(jù)在圖書館的應(yīng)用研究涉及圖書館服務(wù)的多個方面。此外,本體、語義網(wǎng)、元數(shù)據(jù)占據(jù)了中心位置,幾乎與每個關(guān)鍵詞都有聯(lián)系,是關(guān)聯(lián)數(shù)據(jù)應(yīng)用研究的重要技術(shù)基礎(chǔ)和支撐。而數(shù)字人文、知識圖譜、知識發(fā)現(xiàn)、共詞分析、開放數(shù)據(jù)、語義關(guān)聯(lián)等關(guān)鍵詞也聯(lián)系緊密,同樣是研究的熱點(diǎn)主題。
在聚類和共現(xiàn)分析的基礎(chǔ)上,筆者按年份對高頻關(guān)鍵詞進(jìn)行統(tǒng)計(jì)分析,進(jìn)一步理清了熱點(diǎn)研究主題的動態(tài)發(fā)展脈絡(luò)。分析表明,高頻關(guān)鍵詞的數(shù)量逐年增加,2010年以前,所有關(guān)鍵詞的頻次均低于5;2011—2015年,頻次達(dá)到5的關(guān)鍵詞快速增長,共有22個;2016—2020年,這一數(shù)字增長到了40個。15年內(nèi)高頻關(guān)鍵詞增長速度近似等差數(shù)列,一方面說明我國圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究的逐漸擴(kuò)展,另一方面也表明研究熱點(diǎn)正在快速形成。筆者根據(jù)上文聚類分析的結(jié)果,將8個聚類內(nèi)的關(guān)鍵詞分別相加,繪制出8個研究主題的頻次隨時間變化的圖像(見圖5)。
圖5 高頻關(guān)鍵詞頻次時間圖(基于8個聚類)
從圖5可以看出,高校圖書館知識發(fā)現(xiàn)系統(tǒng)建設(shè)這一研究熱點(diǎn)近年來一直處于上升趨勢,2020年更是迎來爆發(fā)性增長,關(guān)鍵詞頻次在2019年的基礎(chǔ)上翻倍增長,達(dá)到了41次。書目數(shù)據(jù)語義化編制、圖書館數(shù)據(jù)模型構(gòu)建、數(shù)字圖書館資源整合和機(jī)構(gòu)知識庫建設(shè)、科學(xué)數(shù)據(jù)和科技文獻(xiàn)開放共享、博物館資源整合和數(shù)據(jù)關(guān)聯(lián)五個研究熱點(diǎn)的波動性較大,在2015—2017年之間達(dá)到峰值后,整體均呈下降趨勢。元數(shù)據(jù)與本體的研究在經(jīng)歷了2016—2018年的短暫降溫后,又恢復(fù)了上升趨勢。相對而言,知識組織系統(tǒng)SKOS化和關(guān)聯(lián)化的研究熱度一直不高。以上結(jié)果在很大程度上反映了我國圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究的發(fā)展方向。
關(guān)聯(lián)數(shù)據(jù)在圖書館、檔案館和博物館(以下簡稱LAM)中的應(yīng)用可以歸納為發(fā)布、消費(fèi)、服務(wù)和平臺四種模式,其中數(shù)據(jù)的發(fā)現(xiàn)和檢索機(jī)制是關(guān)聯(lián)數(shù)據(jù)成功應(yīng)用的關(guān)鍵。與此同時,關(guān)聯(lián)數(shù)據(jù)與其他Web服務(wù)的整合、不同語義描述系統(tǒng)之間的互操作、消費(fèi)關(guān)聯(lián)數(shù)據(jù)在本地系統(tǒng)的功能實(shí)現(xiàn)、嵌入外部社會信息環(huán)境的穩(wěn)定性等都是關(guān)聯(lián)數(shù)據(jù)應(yīng)用面臨的技術(shù)性挑戰(zhàn)[12]。各類信息資源的關(guān)聯(lián)數(shù)據(jù)化發(fā)布可以分解為六個關(guān)鍵步驟:數(shù)據(jù)建模、實(shí)體命名、實(shí)體RDF化、實(shí)體關(guān)聯(lián)化、實(shí)體發(fā)布、開放查詢[13],發(fā)布方式主要包括靜態(tài)發(fā)布、批量存儲、調(diào)用時生成、事后轉(zhuǎn)換(D2R)四種類型,常見的實(shí)現(xiàn)技術(shù)和工具有VoID詞表、前端轉(zhuǎn)換工具、OWL及SKOS相關(guān)工具、Web Services、Web應(yīng)用框架、CMS及RDFa、Drupal等[14]。為了實(shí)現(xiàn)LAM中不同類型的數(shù)據(jù)、信息和知識的發(fā)現(xiàn)與共享,需要以O(shè)AI-PMH協(xié)議為基礎(chǔ),構(gòu)建由數(shù)字圖書館(DL)、數(shù)字檔案館(DA)、數(shù)字博物館(DM)和圖檔博數(shù)字化協(xié)作中心(DLAM)組成的D-LAM框架,通過DLAM對DL、DA、DM的元數(shù)據(jù)進(jìn)行收割、語義映射和關(guān)聯(lián)標(biāo)引,形成面向用戶的一體化信息服務(wù)體系[15]。此外,隨著關(guān)聯(lián)數(shù)據(jù)集的快速增加,基于關(guān)聯(lián)數(shù)據(jù)的服務(wù)平臺、監(jiān)護(hù)平臺建設(shè)與信息資源的移動視覺搜索和可視化展示逐漸成為高效消費(fèi)和利用關(guān)聯(lián)數(shù)據(jù)的熱點(diǎn)主題。為了保障關(guān)聯(lián)數(shù)據(jù)發(fā)布及消費(fèi)參與者的合法權(quán)益,提升關(guān)聯(lián)數(shù)據(jù)集的質(zhì)量,關(guān)聯(lián)數(shù)據(jù)的開放應(yīng)用協(xié)議、建設(shè)標(biāo)準(zhǔn)、發(fā)布規(guī)范以及質(zhì)量評價(jià)方法的制定與實(shí)施也是關(guān)聯(lián)數(shù)據(jù)在LAM中應(yīng)用發(fā)展迫切需要解決的問題[16]。
LAM兼有資源收集、管理和服務(wù)功能,在關(guān)聯(lián)數(shù)據(jù)運(yùn)動中扮演著發(fā)布者、信度驗(yàn)證者、消費(fèi)者和組織協(xié)調(diào)者的角色[17],關(guān)聯(lián)數(shù)據(jù)的發(fā)展為數(shù)據(jù)資源的獨(dú)立標(biāo)識、結(jié)構(gòu)化描述和語義化關(guān)聯(lián)提供了契機(jī)。數(shù)據(jù)資源視角的關(guān)聯(lián)數(shù)據(jù)研究大致可以分為三個階段。
第一階段,數(shù)據(jù)資源的發(fā)布。在關(guān)聯(lián)數(shù)據(jù)發(fā)展初期以中國科技信息研究所、中國科學(xué)院文獻(xiàn)情報(bào)中心為代表的機(jī)構(gòu)對書目組織語義化,詞表、分類法、規(guī)范數(shù)據(jù)等知識組織關(guān)聯(lián)化展開了大量研究。此后,更多的機(jī)構(gòu)參與進(jìn)來,進(jìn)一步完善了科學(xué)數(shù)據(jù)、科技文獻(xiàn)、科研實(shí)體、檔案與異構(gòu)數(shù)據(jù)等更多形式數(shù)據(jù)資源的關(guān)聯(lián)數(shù)據(jù)化[18-19]。目前,國家圖書館已經(jīng)建設(shè)了關(guān)聯(lián)數(shù)據(jù)注冊與服務(wù)系統(tǒng),實(shí)現(xiàn)了涵蓋關(guān)聯(lián)數(shù)據(jù)整個生命周期的管理,發(fā)布了中分表、國圖公開課、館藏文獻(xiàn)3個數(shù)據(jù)集[20],書目數(shù)據(jù)涵蓋了目錄資源、期刊、引文、手稿、家譜等多種資源類型,規(guī)范數(shù)據(jù)已經(jīng)擴(kuò)展到生物、醫(yī)學(xué)、農(nóng)業(yè)、經(jīng)濟(jì)、信息技術(shù)、藝術(shù)圖像等眾多領(lǐng)域[21]。
第二階段,數(shù)據(jù)資源的聚合。數(shù)據(jù)資源的關(guān)聯(lián)數(shù)據(jù)化滿足了用戶的一般需求,但主動、多元、深層次的信息服務(wù)還需要數(shù)據(jù)資源的深度聚合,關(guān)聯(lián)數(shù)據(jù)強(qiáng)大的語義聚合能力促進(jìn)了數(shù)據(jù)集中URI的開放復(fù)用,語義鏈接機(jī)制將各類客觀實(shí)體與抽象概念關(guān)聯(lián)在一起,從而為數(shù)據(jù)資源的聚合提供了一種現(xiàn)實(shí)可行的途徑[22]。與元數(shù)據(jù)、本體、敘詞表等資源聚合模式相比,關(guān)聯(lián)數(shù)據(jù)在關(guān)聯(lián)強(qiáng)度、關(guān)聯(lián)維度、關(guān)聯(lián)階度、關(guān)聯(lián)粒度等方面都具有獨(dú)特優(yōu)勢[23]。
第三階段,知識發(fā)現(xiàn)。人類知識活動的價(jià)值在于可用知識的發(fā)現(xiàn),從知識生命周期來看,知識發(fā)現(xiàn)包含數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、關(guān)聯(lián)數(shù)據(jù)生成和數(shù)據(jù)表示等階段,數(shù)據(jù)資源的關(guān)聯(lián)數(shù)據(jù)化發(fā)布與多維度聚合為知識發(fā)現(xiàn)打下了堅(jiān)實(shí)基礎(chǔ),關(guān)聯(lián)數(shù)據(jù)提升了半結(jié)構(gòu)化與非結(jié)構(gòu)化文檔的知識發(fā)現(xiàn)能力,增強(qiáng)了知識發(fā)現(xiàn)結(jié)果的語義驗(yàn)證能力[24]。通過關(guān)聯(lián)數(shù)據(jù)的語義關(guān)聯(lián),可以更準(zhǔn)確地發(fā)現(xiàn)所需知識,拓展知識發(fā)現(xiàn)的范圍,簡化知識發(fā)現(xiàn)的過程。然而,由于關(guān)聯(lián)數(shù)據(jù)只是 “弱連接的三元組” 構(gòu)成的數(shù)據(jù)網(wǎng)絡(luò),需要進(jìn)一步的知識發(fā)現(xiàn)才能滿足用戶的深層知識需求,因此關(guān)聯(lián)數(shù)據(jù)的發(fā)展離不開知識發(fā)現(xiàn)的推動,知識發(fā)現(xiàn)是關(guān)聯(lián)數(shù)據(jù)應(yīng)用的基本方法和最終目標(biāo)[25]。雖然將關(guān)聯(lián)數(shù)據(jù)應(yīng)用于知識發(fā)現(xiàn)仍然面臨著關(guān)聯(lián)數(shù)據(jù)的制備問題、不同語言的語義差異問題以及可信度的挑戰(zhàn),但關(guān)聯(lián)數(shù)據(jù)依然是LAM擴(kuò)展資源發(fā)現(xiàn)平臺、推進(jìn)知識服務(wù)的有效方案,基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)研究將會是未來一段時期內(nèi)的研究熱點(diǎn)[24]。
智能技術(shù)和信息技術(shù)的發(fā)展促進(jìn)了LAM服務(wù)由大眾化向個性化、由一般向精準(zhǔn)轉(zhuǎn)變。由用戶需求驅(qū)動,通過數(shù)據(jù)資源的聚合與知識發(fā)現(xiàn),提供知識資源與用戶需求高度匹配的知識服務(wù)是當(dāng)前關(guān)聯(lián)數(shù)據(jù)研究的熱點(diǎn)。用戶視角的關(guān)聯(lián)數(shù)據(jù)研究主要包含兩方面內(nèi)容。① 基于關(guān)聯(lián)數(shù)據(jù)的用戶需求與行為研究。用戶需求組織是對用戶需求進(jìn)行描述和揭示的過程,將關(guān)聯(lián)數(shù)據(jù)應(yīng)用于用戶需求組織,利用關(guān)聯(lián)數(shù)據(jù)技術(shù)創(chuàng)建和發(fā)布關(guān)于用戶需求及其相互間聯(lián)系的規(guī)范化描述信息,可以形成以用戶需求為節(jié)點(diǎn),以用戶需求之間的關(guān)系為邊界的語義化用戶需求網(wǎng)絡(luò)[26]。利用物聯(lián)網(wǎng)、大數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)等技術(shù),收集并關(guān)聯(lián)用戶與LAM交互中產(chǎn)生的各類數(shù)據(jù),構(gòu)建用戶小數(shù)據(jù)行為的關(guān)聯(lián)數(shù)據(jù)庫,進(jìn)而更清楚地了解用戶需求[27]。在保護(hù)用戶隱私的前提下,將用戶信息通過關(guān)聯(lián)數(shù)據(jù)的方式發(fā)布有利于擴(kuò)展知識發(fā)現(xiàn)服務(wù),實(shí)現(xiàn)數(shù)據(jù)融合與語義檢索[28]。② 用戶需求與知識資源的關(guān)聯(lián)匹配與精準(zhǔn)服務(wù)。在通過調(diào)查問卷、用戶行為本體模型、FP-growth關(guān)聯(lián)挖掘算法、科研本體等方式深入了解用戶的顯性興趣和隱性需求的基礎(chǔ)上,將關(guān)聯(lián)數(shù)據(jù)、書目框架技術(shù)引入學(xué)科信息資源、科研實(shí)體資源、紙電資源等資源體系中形成基于用戶需求的信息資源規(guī)范化語義描述,并在此基礎(chǔ)上實(shí)現(xiàn)個性化精準(zhǔn)服務(wù),幫助用戶形成關(guān)聯(lián)知識發(fā)現(xiàn)[29-30]?;谟脩粢暯堑年P(guān)聯(lián)數(shù)據(jù)研究已經(jīng)覆蓋科研服務(wù)、學(xué)科服務(wù)、文獻(xiàn)傳遞、閱讀推廣等多個領(lǐng)域,而基于用戶需求和關(guān)聯(lián)數(shù)據(jù)技術(shù)的自動問答、智能參考咨詢服務(wù)研究也取得了一定進(jìn)展。
從實(shí)踐角度來看,數(shù)字人文就是利用數(shù)字工具、技術(shù)和媒體改變藝術(shù)、人類和社會科學(xué)知識的生產(chǎn)和傳播,其本質(zhì)上是一種知識創(chuàng)新[31]。LAM擁有規(guī)模龐大、種類豐富的數(shù)字化館藏資源,以上海圖書館劉煒、夏翠娟等為代表的研究團(tuán)隊(duì)已經(jīng)探索出了一個讓人類記憶和文化遺產(chǎn)在數(shù)字時代充分發(fā)揮價(jià)值的實(shí)現(xiàn)方案。上海圖書館以家譜為實(shí)踐探索的起點(diǎn),利用關(guān)聯(lián)數(shù)據(jù)的知識組織功能,把散落在不同家譜文獻(xiàn)中的人、地、時、事關(guān)聯(lián)起來,并進(jìn)行可視化展示[32],于2016年推出了上海圖書館家譜知識服務(wù)平臺,同時推出了開放數(shù)據(jù)應(yīng)用開發(fā)競賽。日前,該競賽已經(jīng)成功舉辦了5屆,匯聚了豐富、海量的歷史人文數(shù)據(jù),其中家譜元數(shù)據(jù)有72,593余條,家譜的家規(guī)家訓(xùn)全文文本300余種,世系表3家[33]。經(jīng)過6年的發(fā)展,上海圖書館已將家譜的成功經(jīng)驗(yàn)應(yīng)用到了歷史地理數(shù)據(jù)、名人檔案、人物傳記、古籍等其他歷史文化記憶資源,數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)也取得了顯著進(jìn)展。除上海圖書館外,吉林大學(xué)、武漢大學(xué)、華東師范大學(xué)、山東大學(xué)等研究團(tuán)隊(duì)也紛紛加入該研究領(lǐng)域,在LAM資源整合、視覺資源知識組織、城市記憶資源整合[34]等方面作出了重要貢獻(xiàn)。
作為一種數(shù)據(jù)發(fā)布規(guī)范,關(guān)聯(lián)數(shù)據(jù)已成為影響互聯(lián)網(wǎng)基礎(chǔ)結(jié)構(gòu)的關(guān)鍵技術(shù)之一,在全球開放數(shù)據(jù)運(yùn)動的推動下,國內(nèi)學(xué)者對關(guān)聯(lián)數(shù)據(jù)展開了跨學(xué)科、多視角的研究,取得了豐碩的研究成果。
(1)我國圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)的研究正處于第二個平穩(wěn)期,形成了以夏翠娟、劉煒、賈君枝、歐石燕、李春旺等為代表的核心作者集群,研究期刊分布呈現(xiàn)出核心化趨勢,研究成果具有較強(qiáng)的創(chuàng)新性和影響力。但另一方面,也存在著核心作者集群規(guī)模小、研究機(jī)構(gòu)分散、學(xué)者間合作度低、多數(shù)學(xué)者研究持續(xù)性不強(qiáng)等問題。
(2)國內(nèi)學(xué)者能夠緊跟國家宏觀政策走向和時代熱點(diǎn),及時調(diào)整研究方向,不斷豐富關(guān)聯(lián)數(shù)據(jù)研究的理論體系和實(shí)踐成果,對關(guān)聯(lián)數(shù)據(jù)的關(guān)鍵核心技術(shù)、在圖情檔領(lǐng)域的實(shí)踐應(yīng)用、對促進(jìn)信息資源開放共享、提升知識資產(chǎn)管理效能等方面的作用均展開了大量的研究,形成了圖書館數(shù)據(jù)模型構(gòu)建、書目數(shù)據(jù)語義編制、科學(xué)數(shù)據(jù)和科技文獻(xiàn)開放共享、知識組織系統(tǒng)SKOS化和關(guān)聯(lián)化、元數(shù)據(jù)與本體、高校圖書館知識發(fā)現(xiàn)系統(tǒng)建設(shè)、數(shù)字圖書館資源整合和機(jī)構(gòu)知識庫建設(shè)、博物館資源整合和數(shù)據(jù)關(guān)聯(lián)8個聚類。此外,一些學(xué)者在不斷延伸研究廣度的同時,也在不斷拓展研究深度,關(guān)聯(lián)數(shù)據(jù)的研究已經(jīng)覆蓋了圖情檔領(lǐng)域業(yè)務(wù)工作和理論體系的方方面面。
(3)我國圖情檔領(lǐng)域關(guān)聯(lián)數(shù)據(jù)的研究主要從技術(shù)與平臺、數(shù)據(jù)資源、用戶和數(shù)字人文四個視角展開,隨著關(guān)聯(lián)數(shù)據(jù)相關(guān)技術(shù)的不斷完善以及數(shù)據(jù)資源關(guān)聯(lián)數(shù)據(jù)化覆蓋面的不斷擴(kuò)大,以用戶需求為驅(qū)動,提升關(guān)聯(lián)數(shù)據(jù)服務(wù)平臺的資源聚合度和顆粒度、促進(jìn)用戶需求與知識資源的高效匹配、支持用戶便捷知識發(fā)現(xiàn)與精準(zhǔn)服務(wù)是該領(lǐng)域研究的核心主題和熱點(diǎn)前沿。關(guān)聯(lián)數(shù)據(jù)的開放應(yīng)用協(xié)議、建設(shè)標(biāo)準(zhǔn)以及質(zhì)量評價(jià)方法的制定與實(shí)施是當(dāng)下迫切需要解決的問題。與此同時,主動參與數(shù)字人文研究,將數(shù)字化的館藏資源融入數(shù)字人文基礎(chǔ)設(shè)施,充分發(fā)揮人類記憶和文化遺產(chǎn)的巨大價(jià)值也是圖情檔領(lǐng)域必須抓住的重要機(jī)遇。