?!《?,孫文佳
學(xué)科領(lǐng)域關(guān)聯(lián)詞匯集構(gòu)建研究*
常娥,孫文佳
為了提供規(guī)范的資源屬性、概念取值和關(guān)聯(lián)類型描述,文章以間質(zhì)性疾病領(lǐng)域?yàn)閷?shí)驗(yàn)對(duì)象,構(gòu)建了包含元數(shù)據(jù)元素集和取值詞匯集在內(nèi)的領(lǐng)域關(guān)聯(lián)詞匯集。首先,借鑒領(lǐng)域已有的詞表、類表和規(guī)范文檔等,創(chuàng)建了通用關(guān)聯(lián)詞匯集;其次,采用N-gram統(tǒng)計(jì)分詞、命名實(shí)體識(shí)別、模式識(shí)別等多種技術(shù)方法,構(gòu)建了領(lǐng)域核心關(guān)聯(lián)詞匯集,以更好地引出和關(guān)聯(lián)該主題領(lǐng)域的各種資源與數(shù)據(jù)。
關(guān)聯(lián)詞匯集元數(shù)據(jù)知識(shí)本體知識(shí)組織
引用本文格式常娥,孫文佳.學(xué)科領(lǐng)域關(guān)聯(lián)詞匯集構(gòu)建研究[J].圖書館論壇,2016(8):13-19.
自英國學(xué)者John Taylor提出科學(xué)研究信息化(e-Science)概念后[1],經(jīng)過10多年的發(fā)展,世界各國已建成規(guī)模龐大的各種科研信息化平臺(tái)和研究數(shù)據(jù)存儲(chǔ)中心。近10年來,我國也投入大量資金,積極建設(shè)云計(jì)算、移動(dòng)互聯(lián)、物聯(lián)網(wǎng)、數(shù)字圖書館,以及科學(xué)數(shù)據(jù)存儲(chǔ)中心等項(xiàng)目,極大地推進(jìn)了我國科學(xué)研究信息化工作。然而如今e-Science的發(fā)展已到了瓶頸期,它雖突破了傳統(tǒng)科研封閉、重復(fù)勞動(dòng)等局限性,卻仍無法有效解決科研的可重復(fù)性以及科學(xué)數(shù)據(jù)共享問題[2]。為此,德國學(xué)者于2011年提出了關(guān)聯(lián)科學(xué)(Linked Science)這一概念。關(guān)聯(lián)科學(xué)指的是全面關(guān)聯(lián)與共享包含出版物、研究方法和研究數(shù)據(jù)等在內(nèi)的科學(xué)資源,以支持透明、可重復(fù)和跨學(xué)科的研究[3],被認(rèn)為是e-Science發(fā)展的新階段。
關(guān)聯(lián)科學(xué)是為組織科學(xué)資源而提出的一種新理論,與未來圖書館資源組織的目標(biāo)一致。圖書館資源組織研究經(jīng)歷了分類法、主題法、元數(shù)據(jù)、知識(shí)本體、關(guān)聯(lián)數(shù)據(jù)等多種知識(shí)組織方法后,學(xué)者們認(rèn)為,未來館藏資源組織必將轉(zhuǎn)向以關(guān)聯(lián)數(shù)據(jù)為核心的細(xì)粒度、開放、關(guān)聯(lián)與語義化的資源組織模式,并廣泛關(guān)聯(lián)圖書館外部網(wǎng)絡(luò)資源。無論是關(guān)聯(lián)科學(xué),還是未來館藏資源組織,兩者都需深入研究關(guān)聯(lián)數(shù)據(jù)、語義網(wǎng)、云計(jì)算等技術(shù)如何解決各種科學(xué)資源的組織、關(guān)聯(lián)與發(fā)現(xiàn)。眾所周知,關(guān)聯(lián)數(shù)據(jù)僅是一套在網(wǎng)絡(luò)上發(fā)布數(shù)據(jù)的原則,類似于行動(dòng)指南,對(duì)于實(shí)際應(yīng)用領(lǐng)域,需設(shè)計(jì)出具體數(shù)據(jù)關(guān)聯(lián)模型才能有效組織資源。
綜合借鑒各種知識(shí)組織理論與方法,本研究提出了3層架構(gòu)的圖書館資源底層通用的整體數(shù)據(jù)關(guān)聯(lián)模型(Bottom Common Organization Model of the Whole Library Knowledge Resource,BCOM),可滿足關(guān)聯(lián)科學(xué)的所有愿景,無論是從資源出發(fā),還是從知識(shí)單元出發(fā),都能迅速關(guān)聯(lián)并發(fā)現(xiàn)用戶所需的知識(shí)或資源,因此增強(qiáng)了館藏資源數(shù)據(jù)關(guān)聯(lián)網(wǎng)絡(luò)的整體連通性。無論是本體模型,還是元數(shù)據(jù)模型,最后都可形成一組組詞匯集合,BCOM模型亦不例外??傮w而言,目前BCOM模型僅是一個(gè)普適性的資源組織概念框架,針對(duì)不同應(yīng)用領(lǐng)域,需建立更加具體的學(xué)科領(lǐng)域關(guān)聯(lián)詞匯集,以提供規(guī)范的資源屬性、概念取值和關(guān)聯(lián)類型描述,從而深刻揭示與表達(dá)館藏資源、知識(shí)單元各自及其之間的復(fù)雜語義關(guān)系。
1.1圖書情報(bào)領(lǐng)域
近年來圖書館界在開放數(shù)據(jù)網(wǎng)絡(luò)中發(fā)布了大量的包含書目、分類詞表、規(guī)范主題詞、規(guī)范人名等資源在內(nèi)的關(guān)聯(lián)數(shù)據(jù)集,并積極尋求新一代資源組織框架,書目記錄的功能需求FRBR是當(dāng)前討論最為熱烈的館藏資源組織模型。FRBR框架采用實(shí)體關(guān)系(E-R)模型,突破了傳統(tǒng)MARC書目數(shù)據(jù)的線性資源模式。然而,由于FRBR模型的網(wǎng)狀結(jié)構(gòu)完全顛覆了編目員傳統(tǒng)的思維模式,無法適應(yīng)編目工作便利性的實(shí)踐要求,并且它只是一個(gè)概念架構(gòu),新一代資源描述標(biāo)準(zhǔn)(Resource Description and Access,RDA)便應(yīng)運(yùn)而生,以支撐該框架的具體實(shí)施。RDA實(shí)際上是對(duì)FRBR模型中實(shí)體概念、屬性,以及實(shí)體間關(guān)系的集中序化和表達(dá),從而形成的一套附加了資源描述和檢索的原則與說明的元數(shù)據(jù)詞匯表。
由于FRBR模型W(作品)、E(內(nèi)容表達(dá))、M(載體表現(xiàn))、I(單件)分層的抽象與復(fù)雜性,讓人難以理解,目前作為其簡化模型的BIBFRAME框架備受關(guān)注,MARC、RDA、DC、VAR等業(yè)界標(biāo)準(zhǔn)均是其術(shù)語來源[4]。因此,F(xiàn)RBR模型本身并不完善,它將不斷地被修補(bǔ)甚至完全改變,或許會(huì)成為一個(gè)過渡性工具,然而最基本的RDA元素集及其基本含義構(gòu)成了圖書館資源組織的基礎(chǔ)[5]。RDA詞匯集詳見國際圖聯(lián)(IFLA)網(wǎng)站[6]。傳統(tǒng)知識(shí)組織領(lǐng)域已經(jīng)積累的大量的諸如RDA詞匯集、分類詞表、主題詞表等各種知識(shí)組織術(shù)語詞匯表為本文領(lǐng)域關(guān)聯(lián)詞匯集的構(gòu)建奠定了基礎(chǔ)。
1.2關(guān)聯(lián)科學(xué)領(lǐng)域
關(guān)聯(lián)科學(xué)的概念被提出后,研究者們?cè)O(shè)計(jì)了關(guān)聯(lián)科學(xué)核心詞匯規(guī)范(Linked Science Core Vocabulary Specification,LSCVS),以提供概念將科學(xué)研究中涉及的研究人員、數(shù)據(jù)、方法、假設(shè)、結(jié)果、出版物等互聯(lián)起來,并將這些事物同時(shí)間、空間以及主題聯(lián)系起來[7]。LSCVS的概念類包括研究者、研究、數(shù)據(jù)、假設(shè)、預(yù)測、出版物、結(jié)論、地區(qū)和時(shí)間,屬性關(guān)系包括“參與”“產(chǎn)生”“利用”“測驗(yàn)”“證實(shí)”“證偽”等17種。LSCVS旨在為科學(xué)研究定義基本的概念或類,是一個(gè)輕量級(jí)、簡單的詞匯集,需要在此基礎(chǔ)上進(jìn)行擴(kuò)展,以滿足不同學(xué)科領(lǐng)域研究需要的更為具體的概念、類別和屬性關(guān)系??傮w而言,LSCVS屬于通用詞匯集范疇,側(cè)重于從內(nèi)容層面揭示科學(xué)研究出版物中的知識(shí)單元及其語義關(guān)系。
1.3數(shù)據(jù)管理領(lǐng)域
目前元數(shù)據(jù)是科學(xué)數(shù)據(jù)管理的主要方式,在科學(xué)數(shù)據(jù)的保存、檢索與利用中發(fā)揮了重要的作用[8]。學(xué)術(shù)界普遍認(rèn)為,描述科學(xué)數(shù)據(jù)的元數(shù)據(jù)項(xiàng)越豐富,越有利于用戶共享、發(fā)現(xiàn)與再利用科學(xué)數(shù)據(jù)[9]。各學(xué)科領(lǐng)域構(gòu)建了復(fù)雜的科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn),如FGDC(地理空間)、DDI(社會(huì)科學(xué))、EML(生態(tài)學(xué))、CF(氣象學(xué))。在實(shí)踐應(yīng)用領(lǐng)域,科學(xué)數(shù)據(jù)元數(shù)據(jù)的學(xué)科通用性與專指度始終無法得到統(tǒng)一,目前解決方案主要有兩種:(1)忽略科學(xué)數(shù)據(jù)的學(xué)科差異性,構(gòu)建通用元數(shù)據(jù)標(biāo)準(zhǔn)。國際上的典型代表是DataCite[10],其核心必備元素包含:識(shí)別符、創(chuàng)作者、題名、出版者和出版年。此外,學(xué)者們還總結(jié)出描述科學(xué)數(shù)據(jù)生命周期中所有特征的元數(shù)據(jù)維度。例如,Ball等人認(rèn)為應(yīng)包含6類元數(shù)據(jù)信息:標(biāo)識(shí)、責(zé)任、數(shù)據(jù)存檔、主題覆蓋和派生、時(shí)間與空間覆蓋、來源[11];張華等人則總結(jié)出科學(xué)數(shù)據(jù)元數(shù)據(jù)的7個(gè)重要屬性維度:主題內(nèi)容、存儲(chǔ)、責(zé)任、質(zhì)量、使用與評(píng)價(jià)、來源、關(guān)聯(lián)[12];(2)構(gòu)建元數(shù)據(jù)之元數(shù)據(jù),以實(shí)現(xiàn)不同學(xué)科領(lǐng)域科學(xué)數(shù)據(jù)的集成與共享問題。元數(shù)據(jù)編碼和傳輸標(biāo)準(zhǔn)METS是這一解決方案的典型代表,它可將數(shù)字資源庫中各種形式的元數(shù)據(jù)進(jìn)行打包,目前已成為諸如Hathitrust等大型數(shù)字圖書館項(xiàng)目資源組織的基礎(chǔ)[13]。
除元數(shù)據(jù)外,生物醫(yī)學(xué)領(lǐng)域還構(gòu)建了知識(shí)本體來組織與關(guān)聯(lián)科學(xué)數(shù)據(jù),如Tan等人構(gòu)建了生物芯片本體[14],徐坤等人構(gòu)建了中醫(yī)藥數(shù)據(jù)本體[15]。通過本體構(gòu)建,將科學(xué)數(shù)據(jù)存在于一個(gè)知識(shí)環(huán)境中進(jìn)行完整描述。
BCOM模型包含3層結(jié)構(gòu):資源層、中間層和知識(shí)層。資源層顯示了粗粒度資源與資源之間的關(guān)系,主要表現(xiàn)為引用和同現(xiàn)關(guān)系,學(xué)科領(lǐng)域差異性較弱;中間層描述了資源與知識(shí)單元之間的關(guān)系,由于學(xué)術(shù)論文通常具有固定的內(nèi)容框架結(jié)構(gòu),因此學(xué)科差異性亦較弱;知識(shí)層則揭示了細(xì)粒度知識(shí)單元之間的關(guān)系,由于不同學(xué)科領(lǐng)域的知識(shí)概念及其語義關(guān)系千差萬別,因此學(xué)科領(lǐng)域差異性顯著。
有鑒于此,從詞匯通用性來看,學(xué)科領(lǐng)域關(guān)聯(lián)詞匯集包含領(lǐng)域通用關(guān)聯(lián)詞匯集和領(lǐng)域核心關(guān)聯(lián)詞匯集兩種類型。其中,領(lǐng)域通用關(guān)聯(lián)詞匯集主要建立在BCOM模型的資源層和中間層,與具體應(yīng)用領(lǐng)域無關(guān),提供通用的資源屬性、概念取值和關(guān)聯(lián)類型描述,而領(lǐng)域核心關(guān)聯(lián)詞匯集則建立在知識(shí)層,與具體應(yīng)用領(lǐng)域相關(guān),提供該領(lǐng)域特有的資源屬性、概念取值和關(guān)聯(lián)類型描述,以更好地揭示與關(guān)聯(lián)該主題領(lǐng)域的各種資源與數(shù)據(jù)。
此外,從詞匯功能上看,學(xué)科領(lǐng)域關(guān)聯(lián)詞匯集包含屬性元素集和取值詞匯集兩種類型。其中,屬性元素集的功能在于建立資源、概念各自及其之間的語義關(guān)系,取值詞匯集的功能在于提供資源概念、實(shí)例的各種表達(dá)形式。
2.1資料來源
本文將以間質(zhì)性疾病主題領(lǐng)域?yàn)槔瑖L試構(gòu)建BCOM模型框架下的學(xué)科領(lǐng)域關(guān)聯(lián)詞匯集。間質(zhì)性疾病涉及呼吸病學(xué)、風(fēng)濕病學(xué)、心肺血管學(xué),以及病理學(xué)、影像學(xué)等多個(gè)學(xué)科領(lǐng)域,形成了以疾病為中心的多學(xué)科聯(lián)合研究模式,內(nèi)容豐富而新穎,是醫(yī)學(xué)領(lǐng)域的前沿課題之一。我國對(duì)于間質(zhì)性疾病的研究,除了借鑒西醫(yī)技術(shù)外,還較多地融入了中醫(yī)理論與方法,從而形成具有中醫(yī)特色的間質(zhì)性疾病研究成果。因此,本研究將重點(diǎn)收集國內(nèi)間質(zhì)性疾病領(lǐng)域的研究資料,嘗試構(gòu)建其中文關(guān)聯(lián)詞匯集,以探索BCOM模型的具體應(yīng)用方法與實(shí)施路徑。學(xué)科領(lǐng)域關(guān)聯(lián)詞匯集的構(gòu)建語料主要來源于以下3個(gè)方面:
(1)國內(nèi)知識(shí)組織領(lǐng)域已有的各種詞表、分類表、元數(shù)據(jù)標(biāo)準(zhǔn)等,以及國內(nèi)生物醫(yī)學(xué)領(lǐng)域特有的敘詞表、分類表、術(shù)語表等詞匯表中與間質(zhì)性疾病有關(guān)的概念、詞匯、術(shù)語等,如《中文醫(yī)學(xué)主題詞表》(CMeSH)、《中國圖書館分類法》(醫(yī)學(xué)專業(yè)分類表)。
(2)國內(nèi)間質(zhì)性疾病相關(guān)研究論文。首先分別從中國知網(wǎng)(CNKI)、重慶維普(Cqvip)以及中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(SinoMed),下載、合并及去重后,獲得間質(zhì)性疾病研究論文題錄11245篇,其中核心期刊4948篇,數(shù)據(jù)采集日期截止到2015年9月底??紤]到研究語料應(yīng)盡可能權(quán)威和完整,本文選擇了4948篇核心期刊論文題錄,以及676篇期刊論文全文作為研究語料,被選論文全文要求至少同時(shí)出現(xiàn)在3大數(shù)據(jù)庫中的某兩個(gè)數(shù)據(jù)庫中。
(3)美國國立醫(yī)學(xué)圖書館的統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(Unified Medical Language System,UMLS)。UMLS提供了生物醫(yī)學(xué)領(lǐng)域最為豐富的知識(shí)源,包括3個(gè)核心部分[16]:①超級(jí)敘詞表,詞匯來源于生物醫(yī)學(xué)領(lǐng)域上百種敘詞表、分類法、代碼集等,具有空前的廣泛性、異構(gòu)性和多語言性;②語義網(wǎng)絡(luò),為超級(jí)敘詞表中的概念、術(shù)語、詞匯等提供統(tǒng)一分類體系,并定義它們之間的語義關(guān)系;③專家詞典,主要用于自然語言處理,以生成、規(guī)范生物醫(yī)學(xué)領(lǐng)域詞匯。
由于UMLS并不是高度概念化的生物醫(yī)學(xué)領(lǐng)域本體,因而無法保證它在某個(gè)領(lǐng)域中的應(yīng)用是最優(yōu)的,需要根據(jù)特定任務(wù)進(jìn)行個(gè)性化定制[17]。國內(nèi)以UMLS為基礎(chǔ)構(gòu)建了中文一體化醫(yī)學(xué)語言系統(tǒng)(Chinese Unified Medical Language System,CUMLS),然而CUMLS還未完全實(shí)現(xiàn)統(tǒng)一結(jié)構(gòu)體下的詞表整合機(jī)制,其開放性和成熟度遠(yuǎn)不如UMLS[18]。因此,本研究仍以UMLS為基礎(chǔ),下載了超級(jí)敘詞表和語義網(wǎng)絡(luò)作為本文的另一項(xiàng)重要研究語料。
2.2領(lǐng)域通用關(guān)聯(lián)詞匯集構(gòu)建
在BCOM模型的資源層和中間層,領(lǐng)域通用關(guān)聯(lián)詞匯集只需提供資源屬性與關(guān)系類型描述,無需提供知識(shí)概念及其不同取值,因此其實(shí)質(zhì)是構(gòu)建由屬性關(guān)系構(gòu)成的元數(shù)據(jù)元素集。資源層主要以同現(xiàn)、引文為基礎(chǔ)建立文獻(xiàn)之間的各種關(guān)聯(lián);中間層主要利用學(xué)術(shù)元數(shù)據(jù)和書目元數(shù)據(jù)建立文獻(xiàn)與知識(shí)單元之間的關(guān)聯(lián)。
同現(xiàn)關(guān)聯(lián)實(shí)現(xiàn)路徑主要包含作者同現(xiàn)、機(jī)構(gòu)同現(xiàn)、期刊同現(xiàn)和同現(xiàn)這4種方式。引文是學(xué)術(shù)文獻(xiàn)特有的結(jié)構(gòu),然而為進(jìn)一步揭示引文之間的語義關(guān)聯(lián),需深入研究引文動(dòng)機(jī),并對(duì)其進(jìn)行分類。目前,一般從引用功能和觀點(diǎn)傾向兩個(gè)角度出發(fā)確定引文的類別,但引文類型定義仍未形成統(tǒng)一標(biāo)準(zhǔn)[19]。本研究根據(jù)學(xué)術(shù)論文寫作方式的規(guī)律性,結(jié)合學(xué)術(shù)文章的內(nèi)容結(jié)構(gòu),從引文內(nèi)容、引文位置等方面對(duì)引文功能進(jìn)行分析,將其分成背景引用、數(shù)據(jù)引用、方法引用、理論引用、觀點(diǎn)引用、結(jié)果引用這6種類型。值得注意的是,引文關(guān)聯(lián)是人為主觀選擇而建立資源之間的主題關(guān)聯(lián),而
關(guān)聯(lián)則是資源之間客觀存在的主題關(guān)聯(lián)。換言之,資源之間若存在引文關(guān)聯(lián),則一定存在
同現(xiàn)關(guān)聯(lián),而存在
同現(xiàn)的資源,則不一定存在引文關(guān)系。
中間層學(xué)術(shù)元數(shù)據(jù)實(shí)質(zhì)上是學(xué)術(shù)文章內(nèi)容的另一種結(jié)構(gòu)化表達(dá),同時(shí)反映的亦是資源與知識(shí)單元的一種映射關(guān)系。本研究已撰文詳細(xì)論述了資源與數(shù)據(jù)的關(guān)聯(lián)特征,此處不再贅述。本文通過廣泛調(diào)研學(xué)術(shù)文章的篇章結(jié)構(gòu),抽取、統(tǒng)計(jì)、分析并總結(jié)出一般性表達(dá)結(jié)構(gòu),形成了學(xué)術(shù)元數(shù)據(jù)框架中4種基本屬性關(guān)系:研究問題、研究方法、研究數(shù)據(jù)和研究結(jié)果。其中,研究問題包含研究背景、研究目的、研究意義等元素項(xiàng);研究方法包含研究方法、研究材料、研究過程等元素項(xiàng);研究數(shù)據(jù)包含原始數(shù)據(jù)、校準(zhǔn)數(shù)據(jù)、驗(yàn)證數(shù)據(jù)等元素項(xiàng);研究結(jié)果包含實(shí)驗(yàn)結(jié)果、研究結(jié)論、未來工作等元素項(xiàng)。
中間層書目元數(shù)據(jù)旨在描述文獻(xiàn)信息資源的一般外部特征。迄今為止,MARC是描述文獻(xiàn)信息資源特征最為詳盡的通用元數(shù)據(jù)標(biāo)準(zhǔn),因此本文主要參考MARC元數(shù)據(jù)標(biāo)準(zhǔn),同時(shí)綜合考慮BCOM模型中各種關(guān)聯(lián)屬性的統(tǒng)一性,為中間層書目元數(shù)據(jù)定義了8種核心元數(shù)據(jù)項(xiàng),分別為:題名、作者、機(jī)構(gòu)、語種、國別、日期、類型和統(tǒng)一標(biāo)識(shí)符。資源層和中間層中領(lǐng)域通用的元數(shù)據(jù)元素集詳見表1。
2.3領(lǐng)域核心關(guān)聯(lián)詞匯集構(gòu)建
表1 領(lǐng)域通用關(guān)聯(lián)詞匯集
知識(shí)層完全由細(xì)粒度的知識(shí)單元構(gòu)成,其語義關(guān)系最為豐富和復(fù)雜,且具有較強(qiáng)領(lǐng)域特點(diǎn)。諸如通用知識(shí)本體、學(xué)科分類法等通用知識(shí)組織模型,由于其知識(shí)概念和語義關(guān)系抽象層次高,無法滿足BCOM模型知識(shí)層相關(guān)概念及其關(guān)系細(xì)致、具體而深入的表達(dá)需求,進(jìn)而影響B(tài)COM模型的整體功能。因此,本研究在知識(shí)層構(gòu)建了領(lǐng)域核心關(guān)聯(lián)詞匯集,豐富了領(lǐng)域知識(shí)概念及其關(guān)系的表達(dá)。該詞匯集主要包含屬性元素集和取值詞匯集,其實(shí)質(zhì)是領(lǐng)域本體的另一種表達(dá)形式。囿于研究時(shí)間和精力,本文將以間質(zhì)性疾病為例,構(gòu)建中文領(lǐng)域核心關(guān)聯(lián)詞匯集,探索BCOM模型知識(shí)層概念聯(lián)通的實(shí)現(xiàn)路徑。具體構(gòu)建方法如下:
第一步,獲得本領(lǐng)域知識(shí)概念的基礎(chǔ)取值詞匯。首先,在《中文醫(yī)學(xué)主題詞表》和全國科學(xué)技術(shù)名詞術(shù)語數(shù)據(jù)庫(http://www.cnctst.cn)中查找篩選出與間質(zhì)性疾病直接相關(guān)的知識(shí)概念共39個(gè);其次,采用N-gram統(tǒng)計(jì)分詞、命名實(shí)體識(shí)別、模式識(shí)別等多種技術(shù)方法,從4948篇核心期刊論文題錄中,挖掘出更加具體的與間質(zhì)性疾病相關(guān)的其他知識(shí)概念;最后,由領(lǐng)域?qū)<覍?duì)所有相關(guān)概念詞匯進(jìn)行篩選并給出UMLS語義類型,構(gòu)建核心取值詞匯集。為了包含中醫(yī)治療間質(zhì)性疾病有關(guān)知識(shí)概念,本研究在UMLS材料(substance)語義類型中增加了“中草藥”語義類型,在完整的解剖結(jié)構(gòu)(fully formed anatomical structure)中增加了“經(jīng)絡(luò)”和“腧穴”兩個(gè)語義類型。領(lǐng)域核心取值詞匯集共包含4292個(gè)詞語,表2列舉了該詞匯集前10項(xiàng)詞語示例。
第二步,抽取本領(lǐng)域知識(shí)概念之間的各種關(guān)聯(lián)關(guān)系,構(gòu)建屬性元素集。知識(shí)概念間的關(guān)系主要包含同義關(guān)系、等級(jí)關(guān)系和相關(guān)關(guān)系這3種類型。比較而言,同義和等級(jí)關(guān)系較易識(shí)別,而相關(guān)關(guān)系則較難識(shí)別。相關(guān)關(guān)系提供了不同層面知識(shí)概念間細(xì)致而深入的語義關(guān)聯(lián)。例如,“治療”關(guān)系建立了藥物和疾病這兩組不同知識(shí)概念間的聯(lián)結(jié);若沒有“治療”關(guān)系,藥物和疾病僅可能具備各自知識(shí)樹上的等級(jí)關(guān)系而已,而無法實(shí)現(xiàn)概念間的連通。因此,相關(guān)關(guān)系抽取是本研究的重點(diǎn)。文獻(xiàn)全文是語義關(guān)系最豐富的來源,本文以676篇間質(zhì)性疾病研究論文為基礎(chǔ),同時(shí)結(jié)合UMLS中語義關(guān)系,抽取間質(zhì)性疾病領(lǐng)域的語義關(guān)系,構(gòu)建領(lǐng)域?qū)傩栽丶>唧w方法如下:
表2 間質(zhì)性疾病領(lǐng)域核心取值詞匯集樣例
首先,以領(lǐng)域核心取值詞匯集為基礎(chǔ),對(duì)676篇間質(zhì)性疾病研究論文進(jìn)行全文掃描,提取至少包含兩個(gè)取值詞匯的句子;其次,以UMLS中的54種語義關(guān)系為識(shí)別模式,自動(dòng)過濾、刪除候選句,即若UMLS中的語義關(guān)系出現(xiàn)在候選句中,則將該候選句刪除,并記錄語義關(guān)系;再次,由人工判別剩余候選句中的語義關(guān)系,并進(jìn)行記錄。最后,將所有語義關(guān)系合并、去重后,添加進(jìn)屬性元素集中。經(jīng)研究發(fā)現(xiàn),間質(zhì)性疾病領(lǐng)域不僅包含了UMLS的54種基本語義關(guān)系,還有所拓展,本文共篩選出73種屬性元素。為了完整定義這些元素,在屬性元素表中給出了各元素的使用范圍和取值范圍說明,樣例詳見表3。
在知識(shí)組織領(lǐng)域,一直無法有效解決知識(shí)組織系統(tǒng)的學(xué)科通用性和專指度的問題。例如元數(shù)據(jù)的學(xué)科專指度越高,其通用性就越差,可跨學(xué)科使用的可能性越低[20]。反之,元數(shù)據(jù)的通用性越強(qiáng),其學(xué)科專指度就越差,關(guān)聯(lián)與發(fā)現(xiàn)特定領(lǐng)域資源與數(shù)據(jù)的能力越弱。本文以間質(zhì)性疾病為主題領(lǐng)域,構(gòu)建了領(lǐng)域通用關(guān)聯(lián)詞匯集和領(lǐng)域核心關(guān)聯(lián)詞匯集,盡可能兼顧了知識(shí)組織系統(tǒng)的學(xué)科通用性和專指度,增強(qiáng)了BCOM模型的整體功能。主要體現(xiàn)在以下3個(gè)方面:
(1)領(lǐng)域通用關(guān)聯(lián)詞匯集提供了規(guī)范的資源屬性,建立了資源與資源、資源與知識(shí)概念間的關(guān)聯(lián)。通用詞匯集與具體應(yīng)用領(lǐng)域無關(guān),增強(qiáng)了BCOM模型的學(xué)科通用性。
(2)領(lǐng)域核心關(guān)聯(lián)詞匯集則提供了豐富的領(lǐng)域概念取值和概念關(guān)系描述,可以更好地引出和關(guān)聯(lián)來自某主題領(lǐng)域的各種資源與數(shù)據(jù)。核心詞匯集與具體應(yīng)用領(lǐng)域相關(guān),使BCOM模型可滿足學(xué)科特定知識(shí)的組織需求,具有專指性。
(3)學(xué)術(shù)元數(shù)據(jù)框架和書目元數(shù)據(jù)框架關(guān)聯(lián)的知識(shí)概念只是知識(shí)層概念的一小部分,大量的領(lǐng)域知識(shí)概念將由領(lǐng)域核心取值詞匯集提供,同時(shí)借助領(lǐng)域核心屬性元素集在知識(shí)層可構(gòu)建更廣泛的知識(shí)關(guān)聯(lián),增強(qiáng)了BCOM模型的整體功能。
換言之,知識(shí)層的概念節(jié)點(diǎn)要明顯多于資源可關(guān)聯(lián)到的概念節(jié)點(diǎn),即存在著大量未與資源建立關(guān)聯(lián)的概念節(jié)點(diǎn)。但由于概念節(jié)點(diǎn)間總是存在著某種關(guān)聯(lián),通過知識(shí)推理,這些概念節(jié)點(diǎn)可與資源實(shí)現(xiàn)間接連通,其功能類似于主題詞的入口詞。
表3 間質(zhì)性疾病領(lǐng)域核心屬性元素集樣例
為了提供學(xué)科領(lǐng)域內(nèi)規(guī)范的資源屬性、概念取值和關(guān)聯(lián)類型描述,本文以間質(zhì)性疾病領(lǐng)域?yàn)閷?shí)驗(yàn)對(duì)象,構(gòu)建了包含屬性元素集和取值詞匯集在內(nèi)的關(guān)聯(lián)詞匯集。該詞匯集是構(gòu)建知識(shí)本體的核心要素,其中取值詞匯集對(duì)應(yīng)著知識(shí)本體的概念類,屬性詞匯集對(duì)應(yīng)著知識(shí)本體的概念間語義關(guān)系,利用關(guān)聯(lián)詞匯集可以搭建領(lǐng)域知識(shí)網(wǎng)絡(luò),即知識(shí)本體的基本框架。由于關(guān)聯(lián)詞匯集暫未涉及領(lǐng)域關(guān)系的函數(shù)和公理約束條件,而且沒有進(jìn)行形式化,因此它又不完全等同于知識(shí)本體。接下來,本研究將在BCOM模型框架下,以關(guān)聯(lián)詞匯集為基礎(chǔ),繼續(xù)深入研究包括URIs命名處理、RDF創(chuàng)建與復(fù)用等在內(nèi)的館藏資源關(guān)聯(lián)數(shù)據(jù)集的發(fā)布問題。
[1]曾偉忠.科學(xué)研究的信息化:e-Science的產(chǎn)生和發(fā)展[J].現(xiàn)代情報(bào),2006(2):6-8.
[2]唐義,肖希明.關(guān)聯(lián)科學(xué):一種全新的科研支撐方式[J].圖書館雜志,2013(8):4-11.
[3]關(guān)聯(lián)科學(xué)[EB/OL].[2016-03-25].http://Linked-Science.org.
[4]劉煒,夏翠娟.書目數(shù)據(jù)新格式BIBFRAME及其應(yīng)用[J].大學(xué)圖書館學(xué)報(bào),2014(1):5-13.
[5]編目精靈.“重溫永恒的價(jià)值”以及關(guān)于RDA的觀點(diǎn)對(duì)立[EB/OL].[2016-03-25].http://catwizard.net/ posts/20151031172826.html.
[6]ISBDProfileinRDA[EB/OL].[2016-03-25].http:// www.ifla.org/publications/international-standard-bibliographic-description.
[7]唐義.關(guān)聯(lián)科學(xué)核心詞匯規(guī)范:提出、優(yōu)化及展望[J].圖書館雜志,2013(3):55-60.
[8]黃如花,邱春艷.圖書館參與科學(xué)數(shù)據(jù)管理中的元數(shù)據(jù)應(yīng)用實(shí)踐研究[J].圖書與情報(bào),2014(5):65-69.
[9]趙華,王健.科學(xué)數(shù)據(jù)元數(shù)據(jù)功能與內(nèi)容分析[J].科技管理研究,2015(3):232-235.
[10]STARR J,GASTL A.IsCitedBy:A metadata schema for DataCite[J].California Digital Library,2011,17 (1):1-6.
[11]Ball Alexander.Overview of scientific metadata for data publishing“citation”and curation[C].Eleventh International Conference on Dublin Core and Metadata Application(DC-2011).Bath:UniversityofBath,2011.
[12]趙華,周國民,王健.基于元數(shù)據(jù)的科學(xué)數(shù)據(jù)屬性特征分析[J].情報(bào)雜志,2015(7):173-178.
[13]李蓓.數(shù)字化圖書館資源倉庫的基礎(chǔ)[J].情報(bào)科學(xué),2004(11):1375-1379.
[14]TanCS,Ting WS,Mohamad M S,etal.A review of featureextractionsoftware for microarray gene expression data[J].BioMed Research International,2014,8:1-15.
[15]徐坤,蔚曉慧,畢強(qiáng).基于數(shù)據(jù)本體的科學(xué)數(shù)據(jù)語義化組織研究[J].圖書情報(bào)工作,2015(9):120-126.
[16]UMLS[EB/OL].[2016-03-25].https://www.nlm. nih.gov/research/umls/.
[17]Metathesaurus[EB/OL].[2016-03-25].http://www. ncbi.nlm.nih.gov/books/NBK9684/.
[18]李丹亞,胡鐵軍,李軍蓮,等.中文一體化醫(yī)學(xué)語言系統(tǒng)的構(gòu)建與應(yīng)用[J].情報(bào)雜志,2011(2):147-151.
[19]祝清松,冷伏海.引文類型識(shí)別研究進(jìn)展[J].圖書情報(bào)知識(shí),2013(6):70-76.
[20]常穎聰,何琳.科學(xué)實(shí)驗(yàn)數(shù)據(jù)元數(shù)據(jù)模型構(gòu)建研究——以植物學(xué)基因表達(dá)實(shí)驗(yàn)為例[J].圖書情報(bào)工作,2015(13):117-125.
(責(zé)任編輯:付偉棠)
Research on Construction of the Domain Linked Vocabulary
CHANG E,SUN Wen-jia
In order to provide standard description of resource concepts,attributes and relationship,the domain linked vocabulary of interstitial disease is constructed in this article,which contains metadata element set and the vocabulary of domain concepts.Firstly,the domain general linked vocabulary is created using the existing thesaurus,classifications and normalized documents for reference.Secondly,the domain core lined vocabulary is built to link different resources and data in the field by using N-gram to count the word segmentations,to name the entity recognition and the pattern recognition.
linked vocabulary;metadata;ontology;knowledge organization
*本文系國家社會(huì)科學(xué)基金項(xiàng)目“圖書館資源組織中的數(shù)據(jù)關(guān)聯(lián)機(jī)制研究”(項(xiàng)目編號(hào):14CTQ005)研究成果之一
常娥,東南大學(xué)圖書館副研究館員;孫文佳,東南大學(xué)2015級(jí)圖書情報(bào)專業(yè)碩士研究生。
2016-04-06