康雨培,李重陽,周 杰(華中師范大學信息管理學院)
科技報告作為重要的戰(zhàn)略新興資源,蘊涵著極大的科研價值,它詳細地記錄了科研活動的整個流程,以及失敗的教訓,因而獨具特色。在知識全球化背景下,具有開放和共享特色的科技報告的階段性成果更需要與科技和經(jīng)濟進行快速、深度融合,對科技報告的集中管理與合理使用成為各國學術(shù)界的共識。國家科技報告服務系統(tǒng)(http://www.nstrs.cn/)于2014年3月正式上線,標志著我國科技報告管理工作取得重大進展。[1]
然而目前的科技報告資源組織粒度較大,用戶只能按照來源、學科、地域、類型這四種粗粒度的分類方式進行瀏覽或檢索。與之形成鮮明對比的是,期刊論文等則允許用戶按照作者、機構(gòu)等多種方式來獲取資源。究其原因在于:粗粒度的資源組織與集成方式只做到了對科技報告的簡單分類,而沒有建立科技報告與這些科研實體間的關(guān)聯(lián)網(wǎng)絡??蒲袑嶓w是科研活動中的重要組成部分,包括科研主體(科研人員、科研機構(gòu))、科研活動、科研條件(科研方法)、科研產(chǎn)出(科研成果)等,[2]而一份科技報告的形成過程中涉及許多科研實體,對這些科研實體間的關(guān)系進行探討,對于科研管理者和用戶來說,都具有重大意義。
科技報告的生成涉及多個科研實體,主要包括科研人員、科研機構(gòu)和科研項目等,本研究主要探討這幾者間的關(guān)聯(lián)。① 基于科研人員建立的關(guān)聯(lián),有助于科學家共同體或群體了解彼此的工作,進行借鑒和學習;可以更好地保障作者的知識產(chǎn)權(quán);可以有效避免重復立項和重復申請的現(xiàn)象。② 基于科研機構(gòu)進行關(guān)聯(lián),除了加強科技報告資源的統(tǒng)一管理外,更有助于管理人員、專業(yè)人員和社會公眾方便準確地獲取相關(guān)資源。③ 基于科技項目建立關(guān)聯(lián),一方面有助于科研人員了解整個科研過程,另一方面有利于科研管理部門加強對科研項目的過程管理和實時監(jiān)測。此外,在科研項目的實施過程中可能會召開會議,因此一些事件資源也是關(guān)聯(lián)的一部分。分析這些實體間的聯(lián)系,并向用戶提供服務,應該成為科技報告制度建設的重要議題之一。
關(guān)聯(lián)數(shù)據(jù)(Linked Data)[3]作為萬維網(wǎng)推薦的最佳的語義網(wǎng)實現(xiàn)方式,為實現(xiàn)科技報告相關(guān)實體間的關(guān)聯(lián)提供了有效途徑。近幾年,一種關(guān)聯(lián)數(shù)據(jù)的最新實踐——書目框架格式(BibliographicFrameworkInitiative,BIBFRAME),[4]得到學界的普遍關(guān)注。BIBFRAME也指由美國國會圖書館于2011年5月發(fā)起的倡議行動,該行動旨在創(chuàng)建一套能夠全球統(tǒng)一使用,涵蓋所有文獻類型,并支持圖書館于其他信息系統(tǒng)進行內(nèi)容整合的編目規(guī)則。[5]BIBFRAME書目框架既克服了MARC將圖書資源局限在圖書館系統(tǒng)內(nèi)部的不足,又適用于所有的文獻類型,同時使圖書館資源成為語義Web的一部分,因此具有強大的生命力。[6]
BIBFRAME是一個書目數(shù)據(jù)描述框架,更加側(cè)重于資源外部特征,因此,本研究試圖將基于關(guān)聯(lián)數(shù)據(jù)的BIBFRAME書目框架應用于科技報告資源的描述與著錄,在此基礎上構(gòu)建一個基于科技報告資源外部特征的關(guān)聯(lián)整合框架。一方面,將知識單元從文獻單元拓展至實體單元,實現(xiàn)科技報告資源的多粒度語義揭示;另一方面,通過多維度、多層次的互聯(lián)關(guān)系實現(xiàn)科技報告資源與其他實體資源的深度聚合,最終助力知識發(fā)現(xiàn)和科研創(chuàng)新。
本研究與“科技報告資源的組織和整合”及關(guān)聯(lián)數(shù)據(jù)領域“BIBFRAME”兩個主題相關(guān)。
科技報告在二戰(zhàn)期間得到發(fā)展,因其能夠反映國家科技創(chuàng)新能力與科研實力,故而成為國家重要戰(zhàn)略資源。為了實現(xiàn)科技報告資源的高效共享與有效利用,前人在標準建設和技術(shù)實踐方面做了大量工作。美國國家技術(shù)情報服務局(National Technical and Information Service,NTIS)制定了科技報告信息質(zhì)量標準[7]、信息處理標準[8]等一系列標準,以期更好地實現(xiàn)科技報告的共享和利用。此外,NTIS還專門針對科技報告的學科主題編制了CAST(Clearinghouse Announcements in Science and Technology) 分 類表[9]等。我國學者也強調(diào)要統(tǒng)一科技報告資源描述、揭示識別和信息組織的加工標準,包括元數(shù)據(jù)規(guī)范、著錄規(guī)則、標引規(guī)則、分類范疇等,以促進我國科技報告體系的建設。[10]2014年5月,中國科學技術(shù)信息研究所等機構(gòu)正式發(fā)布了一系列標準規(guī)范,包括《科學技術(shù)報告編寫規(guī)則 (GB/T 7713.3-2014)》[11]、《科技報告元數(shù)據(jù)規(guī)范(GB/T 30535-2014)》[12]等,為科技報告相關(guān)工作提供了指導。除了標準建設方面的工作,NTIS還開通了國家科技報告數(shù)據(jù)庫(National TechnicalReportsLibrary,NTRL),為全球范圍內(nèi)的用戶提供科技報告查詢服務。[13]我國除了國家科技報告服務系統(tǒng)外,還專門建設了國家科技計劃項目科技報告呈交系統(tǒng)(http://program.most.gov.cn/)來規(guī)范科技報告的撰寫、呈交和審核工作。然而已有的工作更側(cè)重于對科技報告資源的管理,在深層次的整合與利用方面存在諸多不足之處,也未能充分揭示針對同一科研問題的多份科技報告之間的關(guān)聯(lián),未能充分揭示科技報告與科研實體(如科研人員、科研機構(gòu)、科研項目)的內(nèi)在關(guān)聯(lián)[14]等。雖然科研關(guān)系網(wǎng)絡作為科學知識網(wǎng)絡的重要擴展,一直是學者們的研究熱點,但目前的科研關(guān)系網(wǎng)絡主要集中在引文關(guān)系網(wǎng)絡[15]、科學合作網(wǎng)絡[16,17]和主題共現(xiàn)網(wǎng)絡[18]這幾個方面,并且都是單維度的??萍紙蟾骖I域資源涉及的實體關(guān)系網(wǎng)絡是一個同時包含文獻單元和實體單元的多維度的網(wǎng)狀組織結(jié)構(gòu),從多維視角來構(gòu)建科研關(guān)系網(wǎng)絡的探討還很少,[19]專門針對科技報告資源的科研關(guān)系網(wǎng)絡構(gòu)建則更少。
關(guān)聯(lián)數(shù)據(jù)作為一種旨在提高網(wǎng)絡數(shù)據(jù)機器可讀性的技術(shù)框架,借助網(wǎng)絡環(huán)境下數(shù)據(jù)的引用和解引(reference/dereference)機制來建立數(shù)據(jù)間的關(guān)聯(lián),實現(xiàn)數(shù)據(jù)的分享與重用,[20]則為彌補上述不足提供了可能性。目前已有關(guān)聯(lián)數(shù)據(jù)在科技數(shù)據(jù)服務方面的一些研究和實踐,如Linked Life Data,包含100億條RDF語句,用戶可以通過單獨的SPARQL端點訪問25個公共生物醫(yī)學數(shù)據(jù)庫。[21]Linked Sensor Data,將大量氣象傳感數(shù)據(jù)上傳至Linked Open Data(LOD)云,通過構(gòu)建RDF數(shù)據(jù),實現(xiàn)與LOD上其他數(shù)據(jù)集的關(guān)聯(lián)。[22]沈志宏等以中國科學引文數(shù)據(jù)庫和中國生態(tài)系統(tǒng)研究網(wǎng)絡通量數(shù)據(jù)為例,探討了科學數(shù)據(jù)發(fā)布流程和關(guān)鍵問題。[23]鮮國建將農(nóng)業(yè)科學敘詞表向關(guān)聯(lián)數(shù)據(jù)進行了轉(zhuǎn)化,并建立了書目資源主體類和科技文獻主體類(期刊文摘類、會議論文、文集匯編文摘類、作者類)及核心屬性的關(guān)聯(lián)數(shù)據(jù)等。[24]在專門的科技報告領域,也有少數(shù)學者進行了研究與嘗試。賴院根[25]針對科技報告整合模式提出了元數(shù)據(jù)整合、關(guān)聯(lián)整合和知識整合3種管理體系,其中,在關(guān)聯(lián)整合中提出了基于科技報告文獻外部特征進行關(guān)聯(lián)整合的3種方式,在知識整合中,提出了基于領域本體的著錄標引、主題聚類、知識單元鏈接3種方式。該研究雖然包含了關(guān)聯(lián)數(shù)據(jù)的基本思想,但并未深入探討其實現(xiàn)細節(jié)。李成龍[26]研究了科技報告中粒度關(guān)聯(lián)數(shù)據(jù)的創(chuàng)建與發(fā)布,他將一篇科技報告作為根節(jié)點(即最粗粒度),將科技報告中某一具體知識點作為葉節(jié)點(即最細粒度),介于根節(jié)點和葉節(jié)點之間的節(jié)點即中粒度(比如前置部分、正文部分、結(jié)尾部分等),并對其進行自動標引和語義描述,從而實現(xiàn)關(guān)聯(lián)。夏立新[14]提出了基于關(guān)聯(lián)數(shù)據(jù)的科技報告語義組織與共享框架,將框架分為原始數(shù)據(jù)層、語義描述層、語義關(guān)聯(lián)層和語義服務層,在語義描述時復用了不同類別的規(guī)范詞匯或本體,如DC、BIBO、SWRC、FOAF等,在充分利用已有本體或詞表的基礎上,更好地整合了科技報告各類資源等。但是專門探討科技報告資源中涉及的各類實體間的關(guān)聯(lián)整合的較少。
隨著語義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)的不斷發(fā)展,MARC已經(jīng)成為圖書館數(shù)據(jù)開放利用的最大障礙,圖書館界急需一種新的書目數(shù)據(jù)格式,BIBFRAME應運而生。BIBFRAME因其面向語義網(wǎng)的技術(shù)架構(gòu)和本體模型,可以使圖書館數(shù)據(jù)成為萬維網(wǎng)甚至是語義網(wǎng)的一部分,自被提出至現(xiàn)在,學者對其展開了激烈討論。[27-30]而BIBFRAME自身也在不斷得到完善和發(fā)展。2015年10月,美國國會圖書館發(fā)布了BIBFRAME 2.0草案,宣布將原始的作品、實例、規(guī)范、注釋四個核心類變?yōu)樽髌?、實例、單?個核心類;取消規(guī)范核心類,規(guī)范控制不再依賴于規(guī)范檢索點;取消注釋核心類,可以復用成熟關(guān)聯(lián)詞表數(shù)據(jù);新增單件核心類,可以跨越書目和館藏格式;核心類的變化使得信息揭示更加靈活、輕便、準確。[31]目前,國內(nèi)關(guān)于BIBFRAME的研究僅限于理論介紹[32-35]方面,僅上海圖書館開展了基于BIBFRAME的家譜本體設計,并取得了實質(zhì)性實踐成果。[36,37]
書目框架BIBFRAME作為下一代取代MARC的書目數(shù)據(jù)格式標準,能夠為“人類文化記憶機構(gòu)”(如圖書館、檔案館、博物館等)共同使用,具有較好的包容性、可擴展性和開放性,其詞匯也可以反映科技報告資源的文獻特征;同時,它也是一個基于關(guān)聯(lián)數(shù)據(jù)的書目數(shù)據(jù)模型,包含人、機構(gòu)等概念,適用于科技報告資源內(nèi)容相關(guān)實體的描述,滿足規(guī)范控制的需求。因此,利用BIBFRAME書目框架對科技報告資源進行描述和組織,將科技報告之間、科技報告與其他實體資源之間進行關(guān)聯(lián),能夠提高科技報告資源的利用程度,為改善國內(nèi)科技資源缺乏統(tǒng)籌協(xié)調(diào),呈現(xiàn)低效、重復、分散、封閉、碎片化的局面而提供建議與指導。
BIBFRAME應用于科技報告資源相關(guān)實體間的關(guān)聯(lián)構(gòu)建方面,在理論上和技術(shù)上均具有可行性。在理論方面,基于BIBFRAME的科技報告描述可以將其中蘊含的知識內(nèi)容與物理載體形式區(qū)分開來,并可以很好地識別信息實體,揭示和利用實體間的關(guān)聯(lián)的核心思想也與科技報告領域資源實體關(guān)系不謀而合。在技術(shù)方面,BIBFRAME采用關(guān)聯(lián)數(shù)據(jù)的規(guī)則來組織、展示和分享數(shù)據(jù),可實現(xiàn)資源的識別和定位。BIBFRAME采用知識本體對數(shù)據(jù)建模,其框架模型用OWL本體詞表發(fā)布,同時提供RDF文件以供下載。本體的核心概念是類與屬性,屬性可以表示類與類之間的關(guān)系??萍紙蟾骖I域核心概念如人員、項目、機構(gòu)等可以用類表示,而對象屬性則可以刻畫它們之間的聯(lián)系。在整個詞表體系下,科技報告相關(guān)數(shù)據(jù)成為類的實例,進而成為嚴格規(guī)范的語義單元,數(shù)據(jù)之間的關(guān)系可以用規(guī)范謂詞來表達,可以被機器理解與處理,從而具備了語義。
這里提出科技報告資源描述與組織框架的主要目的有兩個:一是實現(xiàn)對科技報告資源的語義化描述與組織;二是實現(xiàn)相關(guān)科研實體間的關(guān)聯(lián)構(gòu)建,并在此基礎上提供服務。因此本框架主要涉及的流程是元數(shù)據(jù)的抽取、元數(shù)據(jù)與BIBFRAME詞表的映射、關(guān)聯(lián)數(shù)據(jù)的發(fā)布和最終的語義服務4個層次步驟 (見圖 1)。
整個描述與組織框架面臨的資源主要是存儲在數(shù)據(jù)庫中的科技報告,而管理這些資源的基本手段是利用元數(shù)據(jù)對其進行描述與組織。元數(shù)據(jù)是人為設計的、用來描述各種資源的規(guī)范標準,如書目元數(shù)據(jù)MARC、DC等。由于資源種類的不斷增多,同一機構(gòu)的不同類資源、不同機構(gòu)同類型資源間都有可能采用不同的元數(shù)據(jù)標準。我國科技報告元數(shù)據(jù)規(guī)范包括13個核心元素,27個元素修飾詞,根據(jù)國家科技報告服務系統(tǒng)收錄信息對其進行抽取,并歸納為描述性元數(shù)據(jù)(題目、交替題名、關(guān)鍵詞、摘要、報告類型、頁碼、科技報告編號、語種、報告密級、提交日期)、作者元數(shù)據(jù)(作者、作者單位)、項目元數(shù)據(jù)(項目/課題名稱、項目/課題承擔單位)、館藏元數(shù)據(jù)(館藏號、館藏機構(gòu))和機構(gòu)元數(shù)據(jù)五大類,此處可以將機構(gòu)定義為作者、館藏、項目/課題對象的屬性即可。普通的元數(shù)據(jù)標準雖然提供了資源描述的語義基礎,但是不能完全解決語義異構(gòu)問題以及資源對象之間存在的復雜的關(guān)聯(lián)關(guān)系,[38]因此需要將其與BIBFRAME等元數(shù)據(jù)進行映射。
圖1 科技報告資源描述與組織框架示意圖
BIBFRAME書目框架是圖書館領域一個最新的元數(shù)據(jù)本體模型,包含許多不同的實體類和屬性,并由專門的書目框架術(shù)語詞表進行定義??萍紙蟾孀鳛橐环N文獻資源,其元數(shù)據(jù)規(guī)范在很大程度上和書目元數(shù)據(jù)規(guī)范是共通的,如都有題目、責任者、主題、館藏、語種、格式等描述項,因此可以將書目框架模型作為基礎,將科技報告元數(shù)據(jù)與書目框架元數(shù)據(jù)詞表建立映射。需要指出的是,這里的映射包含元數(shù)據(jù)項目本身的映射,也包括關(guān)系的映射,如人員是科技報告的作者或責任者,那么BIBFRAME中將會有bf:agent和bf:contributor等屬性與其對應。對于無法利用書目框架建立映射的項目,考慮采用復用其他詞表的方法來解決。在整個關(guān)聯(lián)網(wǎng)絡中,還存在人員、機構(gòu)等其他科學數(shù)據(jù),主要利用現(xiàn)有本體詞表或者現(xiàn)有詞表的擴展進行描述。
通過元數(shù)據(jù)映射和關(guān)系映射,框架可以描述元數(shù)據(jù)信息和揭示它們之間的顯性語義關(guān)系,但無法揭示深層次的語義關(guān)系;而且元數(shù)據(jù)本體多是基于領域的,無法揭示資源與其他領域資源的關(guān)系。而關(guān)聯(lián)數(shù)據(jù)作為信息庫對外發(fā)布并提供數(shù)據(jù)訪問服務的形式,可以很好地解決這個問題。關(guān)聯(lián)數(shù)據(jù)借助HTTP URI的方式表示和存取“資源”,[33]此處“資源”既可以是信息資源,也可以是非信息資源,如果是前者,則通過傳統(tǒng)的Web方式獲取,后者則需要鏈接到一個以RDF/XML編碼的數(shù)據(jù)文件,該編碼文件包含了該“非信息資源”的元數(shù)據(jù)描述及其與其他實體對象的關(guān)系描述。借助關(guān)聯(lián)數(shù)據(jù)可以在不同領域本體間建立關(guān)聯(lián),從而將科技報告與科技報告、科技報告與其他實體資源關(guān)聯(lián)起來,更進一步地講,還可以將科技報告與其他知識組織系統(tǒng)(如DBpedia等)關(guān)聯(lián)起來,從而使科技報告資源成為整個語義網(wǎng)的一部分。
在服務層/應用層需要實現(xiàn)的是對關(guān)聯(lián)數(shù)據(jù)的統(tǒng)一瀏覽和檢索以及其他語義互操作。關(guān)聯(lián)數(shù)據(jù)層實現(xiàn)科技報告語義數(shù)據(jù)的構(gòu)建與關(guān)聯(lián),而服務層則要實現(xiàn)關(guān)聯(lián)數(shù)據(jù)的Web發(fā)布與查詢。在選擇合適的發(fā)布方式時,需要考慮待發(fā)布數(shù)據(jù)的數(shù)據(jù)量、存儲方式、更新頻率等因素。根據(jù)上述因素選擇發(fā)布靜態(tài)RDF文檔,或基于關(guān)系型數(shù)據(jù)庫的發(fā)布方式,或基于API封裝的發(fā)布方式等。科技報告關(guān)聯(lián)數(shù)據(jù)的查詢目前有很多不同的RDF查詢語言,應用最廣泛的是SPARQL查詢語言。更進一層的是,可以提供界面更加友好的問答式檢索,并允許用戶以自然語言的方式表達需求并獲取結(jié)果。
書目框架BIBFRAME的核心數(shù)據(jù)模型為Work—Instance—Item,即作品—實例—單件。按照BIBFRAME的定義,作品—實例—單件之間的實體關(guān)系模型是1:n:n的關(guān)系,即1個作品對應多個實例,1個實例對應多個單件。同樣地,將一件科技報告作為一個“作品”,那么該科技報告的不同版本(電子版、紙質(zhì)版等)可以看成是不同的“實例”,每一次出版的情況,包括出版時間、地點等都有相關(guān)描述。國家科技報告服務系統(tǒng)的上線,以及我國科技報告呈繳開發(fā)系統(tǒng)的使用,表明未來科技報告的管理和服務將日趨網(wǎng)絡化、電子化。因此,本文將書目框架模型進行適當?shù)恼{(diào)整,在只考慮科技報告電子版的情況下,構(gòu)建了科技報告書目結(jié)構(gòu)模型(見圖2)。
圖2 科技報告書目結(jié)構(gòu)模型
以獲2013年度國家科學技術(shù)進步獎的《超強化旋浮銅冶煉和無氧化還原精煉工藝研發(fā)及產(chǎn)業(yè)化應用》報告為例,該報告有不同的收藏機構(gòu),包括中國國家科技報告服務系統(tǒng)、山東科技報告服務系統(tǒng)和國家科技圖書文獻中心等。對于某些國際合作科技項目來說,收藏者還包括其他國家或者國際機構(gòu)等。而館藏信息正是“單件”的顯著特征,因此將這些不同館藏地的電子版科技報告作為其“單件”。在單純考慮電子版的情況下,將BIBFRAME核心模型簡化為1:1:n的關(guān)系,即一件科技報告對應一個實例(電子版),一個實例對應多個單件(存儲在國家科技報告服務系統(tǒng)、地方科技報告服務系統(tǒng)等的版本)。
知識本體包含每一個術(shù)語的明確定義及其關(guān)系,術(shù)語包括類(Class)和屬性(Property),類是同一類實體對象的抽象,屬性是對類的各種特征的抽象,對象屬性(Object Property)用于表示類與類之間的關(guān)系,數(shù)值屬性(Data Property)用于表示實體的內(nèi)在屬性。BIBFRAME書目框架模型作為本體詞表發(fā)布,命名空間為http://bibframe.org/vocab/,前綴為bf。BIBFRAME書目框架除了定義核心類外,一些與資源相關(guān)的其他資源也被定義為資源類bf:Resource的子類??萍紙蟾孀鳛槊枋隹蒲谢顒舆^程、進展與結(jié)果的科技文獻,作為非正式出版物,與圖書、期刊論文、檔案等有著明顯的區(qū)別,因而將BIBFRAME引入科技報告元數(shù)據(jù)規(guī)范中需要考慮容納現(xiàn)有的數(shù)據(jù)項,基于現(xiàn)有數(shù)據(jù)結(jié)構(gòu)來厘清數(shù)據(jù)之間的關(guān)系,根據(jù)元數(shù)據(jù)元素來決定需要哪些屬性??萍紙蟾嫖墨I資源中包含資源相關(guān)的特征如題名、作者、語種等均可以在書目框架中找到對應的屬性來表達科技報告的特征。對于無法找到對應的屬性來描述的項目,則復用已有本體中的屬性,如報告密級。本體是建立在元數(shù)據(jù)方案之上的,科技報告文獻資源核心元數(shù)據(jù)與BIBFRAME詞表映射關(guān)系見下表。
表 科技報告核心元數(shù)據(jù)與BIBFRAME2.0詞匯映射關(guān)系
我國目前的科技報告依據(jù)保密等級分為公開、限制、機密和絕密四個級別,而書目數(shù)據(jù)中并沒有合適字段來進行描述,因此借用其他描述詞匯dc:access-Rights來進行描述。屬性bf:date下有許多子屬性,包括bf:originDate、bf:legalDate、bf:copyrightDate等,每個屬性都代表不同的日期,可見BIBFRAME詞匯語義的豐富性和靈活性,選取bf:originDate來對完成日期進行描述等。元數(shù)據(jù)與BIBFRAME 2.0詞表的映射不僅實現(xiàn)了從元數(shù)據(jù)向元數(shù)據(jù)本體的轉(zhuǎn)化,更將文獻資源與實體資源之間的關(guān)系包含在其中。
在書目框架中,很多在元數(shù)據(jù)記錄中取值范圍為字符串的屬性被作為實體對象屬性來處理,如作者項bf:agent,其屬性類別為Object Property,這說明作者是一個類,據(jù)此可以聯(lián)系科技報告與科研人員,揭示實體間的關(guān)聯(lián)。而有些元數(shù)據(jù)項既可以選擇為數(shù)值屬性(Data Property),也可以選擇為對象屬性(Object Property),根據(jù)實際情況選擇是否實現(xiàn)與其他類的聯(lián)系。
科技報告元數(shù)據(jù)與BIBFRAME詞表映射,解決了科技報告文獻資源的語義描述問題,對于整個關(guān)聯(lián)網(wǎng)絡中的其他資源,如人員、機構(gòu)、項目、會議等,BIBFRAME 2.0中也定義了相關(guān)實體類來對其進行描述。BIBFRAME 2.0中的Agent類其上位類是FOAF本體中的 Agent類。FOAF (Friend of Friend)[39]本體是一個面向社會網(wǎng)絡關(guān)系的領域本體,其中foaf:Agent類下有foaf:Person、foaf:Group、foaf:Organization三個子類,屬性包括 foaf:gender、foaf:birthday、foaf:topic_interests等。BIBFRAME 2.0中,bf:Agent類即來源于foaf:Agent類,包括bf:Person、bf:Organization、bf:Family、bf:Meeting和bf:Jurisdiction五類。對于項目資源,復用foaf:Project,如上表中所示。此外,科學研究會議會產(chǎn)生一些事件等,不少應用乃至本體中都有“事件”實體,比如BIBFRME中的Event類,很多時候復用“事件本體”。Event[40]本體由倫敦瑪麗皇后大學的數(shù)字音樂中心開發(fā),將圍繞事件的實體分為6類,事件/子事件、代理、因子、產(chǎn)品、時間、空間,其中“代理”是指起作用者,即人或計算機,“因子”指除了代理外的其他參與因素。事件本體只提供一個簡單的框架,對象與類都沒有細化,由于其簡單性和可用性,事件本體已經(jīng)在廣泛語境下被證明有用。事件本體使用4個命名空間,除本身(http://purl.org/NET/c4dm/event.owl#)外,復用人物、時間、地理3個本體。因此會議事件既可以用Event本體來表示,也可以用Agent類中的bf:Meeting來表示。
科技報告資源關(guān)聯(lián)整合網(wǎng)絡作為包含文獻資源與其他實體資源的網(wǎng)絡,文獻資源之間更多依賴主題特征建立關(guān)聯(lián),比如內(nèi)容上存在引用與被引用或部分與整體的關(guān)系等,而文獻資源與其他實體資源之間的關(guān)聯(lián)多依賴于外部特征?;谙嚓P(guān)本體的設計,作者構(gòu)建了科技報告領域語義關(guān)聯(lián)模型,該模型并不試圖容納揭示相關(guān)資源間的全部關(guān)聯(lián),而是形式化描述各種類與類間的關(guān)聯(lián)(見圖3)。
圖3 科技報告領域資源關(guān)聯(lián)示意圖
圖3中科技報告文獻資源用橢圓表示,其他實體資源用矩形表示,用帶箭頭的有向線條表示屬性,類及屬性的適用對象和期望值可從圖中的有向線條及其起止點看出。一個科研項目可能會產(chǎn)生多份科技報告,因此科技報告之間會存在bf:references與bf:referencedBy(引用與被引用)、bf:partOf和bf:hasPart(部分與整體)、bf:continues和bf:continuedBy(前后連續(xù)關(guān)系)等互逆關(guān)系,不同科技報告之間還可以借助bf:subject(主題)建立關(guān)聯(lián)。此外,科技報告與科研人員之間通過bf:agent和bf:contributor等建立關(guān)聯(lián);科技報告與機構(gòu)之間借助bf:heldBy和bf:provisionActivity等建立關(guān)聯(lián);項目/課題通過foaf:currentProject建立與科研人員之間的關(guān)聯(lián),借助bf:eventContentOf和bf:event-Content建立與科技報告間的關(guān)聯(lián)。此外科技報告與會議事件、機構(gòu)與事件等也存在關(guān)聯(lián)??萍紙蟾骖I域各種資源間的聯(lián)系是復雜多樣的,BIBFRAME詞匯也是極其豐富的,也可以復用其他已有本體,根據(jù)實際資源關(guān)聯(lián)整合情況進行擴展。
實證研究部分主要是對框架中的關(guān)鍵步驟,即元數(shù)據(jù)抽取、映射和關(guān)聯(lián)數(shù)據(jù)發(fā)布進行了實現(xiàn)。本研究選擇國家科技報告服務系統(tǒng)中國家科技重大專項“高檔數(shù)字機床與基礎制造技術(shù)”的134篇科技報告為研究對象,下載其題名、關(guān)鍵詞、作者等元數(shù)據(jù)記錄,其元數(shù)據(jù)與上表中類與屬性相對應,并保存在關(guān)系型數(shù)據(jù)庫中。通過其他數(shù)據(jù)庫,補充并完善科技報告中所含人員(姓名、工作單位等)、科研項目(項目名稱、參與人員、承擔單位等)和科研機構(gòu)(機構(gòu)名稱、通訊地址等)相關(guān)信息。根據(jù)實際情況和現(xiàn)有數(shù)據(jù),本實驗選取的實體內(nèi)容包括報告(Paper)、人員(Person)、項目(Project)和承擔機構(gòu)(Organization)四類。為每個實體分配一個URI,形式為
本研究在充分考察科技報告領域資源特征、相關(guān)實體及聯(lián)系的基礎上,指出了BIBFRAME應用于科技報告資源關(guān)聯(lián)整合的可行性,并據(jù)此提出了一個基于外部特征的科技報告資源描述與組織框架?;谡麄€框架,本文首先提出改進的科技報告書目概念模型,接著將科技報告的元數(shù)據(jù)與BIBFRAME詞表進行映射,實現(xiàn)科技報告資源的描述與著錄,并利用BIBFRAME相關(guān)屬性實現(xiàn)了科技報告領域相關(guān)實體間的關(guān)系描述。
書目框架作為基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的本體模型,既可以揭示科技報告文獻資源的特征,也可以揭示圍繞科技報告的各種實體,如科技人員、科研機構(gòu)和科技項目之間的關(guān)聯(lián)關(guān)系,能夠有效提高科技報告利用率和加強對科技活動的監(jiān)測和管理等,提升了科技報告領域的服務和管理水平。然而,目前書目框架項目尚在進行之中,一些細節(jié)問題并未得到解決或者正處于討論階段,因此基于BIBFRAME書目框架的科技報告資源關(guān)聯(lián)整合研究主要以書目框架的核心模型為基礎,之后可能需要進一步完善和修訂,并要考慮書目框架和其他已成熟本體的關(guān)系,深入考慮基于內(nèi)容特征的科技報告資源與其他科技資源的關(guān)聯(lián)整合和知識發(fā)現(xiàn),是BIBFRAME書目框架需要解決的問題,也是本課題后續(xù)的研究方向。