宋 佳 高少華 楊 杰 諸云強(qiáng),5
(1.中國科學(xué)院地理科學(xué)與資源研究所資源與環(huán)境信息系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.武漢大學(xué)資源與環(huán)境科學(xué)學(xué)院,湖北武漢 430079;3.中國科學(xué)院大學(xué),北京 100049;4.江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇南京 210023;5.白洋淀流域生態(tài)保護(hù)與京津冀可持續(xù)發(fā)展協(xié)同創(chuàng)新中心,河北保定 071002)
科技資源元數(shù)據(jù)的關(guān)聯(lián)與推薦方法
宋 佳1,4高少華2楊 杰1,3諸云強(qiáng)1,4,5
(1.中國科學(xué)院地理科學(xué)與資源研究所資源與環(huán)境信息系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.武漢大學(xué)資源與環(huán)境科學(xué)學(xué)院,湖北武漢 430079;3.中國科學(xué)院大學(xué),北京 100049;4.江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇南京 210023;5.白洋淀流域生態(tài)保護(hù)與京津冀可持續(xù)發(fā)展協(xié)同創(chuàng)新中心,河北保定 071002)
大數(shù)據(jù)背景下,科技資源發(fā)現(xiàn)和推薦的關(guān)鍵是建立海量、多類型科技資源間的關(guān)聯(lián),并對(duì)其進(jìn)行相關(guān)度排序。在深入研究科技基礎(chǔ)性工作專項(xiàng)科技資源核心元數(shù)據(jù)的基礎(chǔ)上,選擇科技資源的內(nèi)容特征、資源地點(diǎn)和資源時(shí)間為關(guān)聯(lián)要素。然后結(jié)合專家打分和層次分析法,提出了科技資源元數(shù)據(jù)語義相關(guān)度算法,建立了科技資源間的關(guān)聯(lián)。進(jìn)一步按照相關(guān)度計(jì)算結(jié)果對(duì)科技資源進(jìn)行排序,并將相關(guān)度高的科技資源優(yōu)先推薦給用戶。最后以科技基礎(chǔ)性工作專項(xiàng)項(xiàng)目匯交的科技資源元數(shù)據(jù)為例,開展了科技資源元數(shù)據(jù)關(guān)聯(lián)與推薦的實(shí)踐。本研究提出的方法為促進(jìn)海量科技資源的精準(zhǔn)發(fā)現(xiàn)、智能推薦與共享應(yīng)用提供了借鑒。
科技資源;元數(shù)據(jù);語義關(guān)聯(lián);語義相關(guān)度
科技資源包括科學(xué)數(shù)據(jù)、圖集、志書/典籍、標(biāo)本資源、標(biāo)準(zhǔn)規(guī)范、論文專著或研究報(bào)告等。在大數(shù)據(jù)背景下,各類科技資源實(shí)體的數(shù)量以前所未有的速度增長,如何有效地將這些實(shí)體進(jìn)行關(guān)聯(lián)并在檢索過程中為用戶推薦最相關(guān)的科技資源,已經(jīng)成為一個(gè)迫切需要解決的科學(xué)問題。
元數(shù)據(jù)的提出為科技資源之間的關(guān)聯(lián)提供了必要條件。所謂元數(shù)據(jù),就是關(guān)于數(shù)據(jù)的數(shù)據(jù)。王國復(fù)等[1]認(rèn)為,元數(shù)據(jù)是對(duì)數(shù)據(jù)資源的規(guī)范化描述,它是按照一定標(biāo)準(zhǔn)(即元數(shù)據(jù)標(biāo)準(zhǔn)),從數(shù)據(jù)資源中抽象出相應(yīng)的特征屬性,組成的一個(gè)特征元素幾何(即元數(shù)據(jù)元素)。元數(shù)據(jù)不僅方便用戶使用數(shù)據(jù)資源,而且隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和數(shù)字化資源的猛增,元數(shù)據(jù)在數(shù)據(jù)共享、資源的發(fā)現(xiàn)以及知識(shí)管理方面的作用越來越明顯,越來越為人們所重視[2]。雖然目前眾多項(xiàng)目、系統(tǒng)和平臺(tái)在建設(shè)過程中紛紛涉及并頒布共享相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn)[3]。但是,由于科技資源類型較多,其中涉及的學(xué)科領(lǐng)域也很多。所以,在數(shù)據(jù)描述等方面普遍存在語義異構(gòu)現(xiàn)象,以及關(guān)鍵詞在表達(dá)搜索意圖時(shí)的局限性,使得以關(guān)鍵詞匹配為主的檢索方法在效率和結(jié)果質(zhì)量上不再滿足用戶需求[4]。
為了解決這個(gè)問題,面向語義的數(shù)據(jù)關(guān)聯(lián)的研究應(yīng)運(yùn)而生,其主要是通過數(shù)據(jù)語義,建立數(shù)據(jù)間的關(guān)聯(lián)。目前的研究方法大致有兩類:一是通過建立相應(yīng)的領(lǐng)域本體進(jìn)行推理,實(shí)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)。如王東旭[5]、侯志偉[6]、孫凱[7]分別研究了地學(xué)領(lǐng)域的本體,并構(gòu)建了地學(xué)數(shù)據(jù)的空間本體、時(shí)間本體以及形態(tài)本體,并將其應(yīng)用于對(duì)地理空間數(shù)據(jù)的語義檢索和發(fā)現(xiàn)中,取得了較好的檢索結(jié)果。但是,科技資源涉及多個(gè)學(xué)科及多個(gè)領(lǐng)域,采用基于本體的語義推理方法需要構(gòu)建面向多學(xué)科、多領(lǐng)域的完整的知識(shí)概念體系,這將導(dǎo)致面向科技資源的本體構(gòu)建過程變得極為復(fù)雜而難以完全實(shí)現(xiàn)。二是通過定量地描述元數(shù)據(jù)之間的相關(guān)度來建立數(shù)據(jù)之間的關(guān)聯(lián)。該方法具有構(gòu)建過程簡單且適用于多學(xué)科、多領(lǐng)域、多來源科技資源的特點(diǎn)?,F(xiàn)在已有很多學(xué)者在此方面展開研究。例如,在對(duì)地理空間數(shù)據(jù)的研究上,諸云強(qiáng)[8,11]通過考慮數(shù)據(jù)主題、分類、空間拓?fù)?、時(shí)間拓?fù)?、空間精度、時(shí)間粒度、數(shù)據(jù)類型、數(shù)據(jù)格式等8個(gè)基本特征提出了地理空間元數(shù)據(jù)的多尺度和定量的關(guān)聯(lián)方法,并通過計(jì)算相似度實(shí)現(xiàn)數(shù)據(jù)的推薦。趙紅偉[9-10]根據(jù)地理空間數(shù)據(jù)在空間、時(shí)間、內(nèi)容上的語義關(guān)系,提出了地理空間數(shù)據(jù)本質(zhì)特征語義相關(guān)度計(jì)算模型,并利用RDF設(shè)計(jì)了地理空間元數(shù)據(jù)關(guān)聯(lián)模型。通過計(jì)算元數(shù)據(jù)之間的語義相關(guān)度構(gòu)建了地理空間元數(shù)據(jù)關(guān)聯(lián)網(wǎng)絡(luò),從而有效地支持了地理空間語義關(guān)聯(lián)檢索與推薦等,提高了檢索的查準(zhǔn)率。針對(duì)極地科學(xué)數(shù)據(jù),羅侃[12]建立了極地科學(xué)元數(shù)據(jù)關(guān)聯(lián)指標(biāo)體系,實(shí)現(xiàn)極地科學(xué)數(shù)據(jù)的關(guān)聯(lián)查詢應(yīng)用。由以上研究可以看出,通過建立元數(shù)據(jù)之間的語義關(guān)聯(lián),可以豐富檢索結(jié)果,使用戶更容易得到所需要的數(shù)據(jù),并且基于元數(shù)據(jù)語義關(guān)聯(lián)的方法還可以實(shí)現(xiàn)數(shù)據(jù)的推薦,即在基于元數(shù)據(jù)語義相關(guān)度計(jì)算的基礎(chǔ)上,將相關(guān)度高的數(shù)據(jù)排在前面,優(yōu)先推薦給用戶。
目前,針對(duì)計(jì)算元數(shù)據(jù)間的語義相關(guān)度,進(jìn)行關(guān)聯(lián)與推薦的研究,主要以空間數(shù)據(jù)為代表。對(duì)于科技資源來說,空間數(shù)據(jù)只是其中的一部分資源,而對(duì)于其他類型科技資源的關(guān)聯(lián)與推薦鮮有研究。本文以科技基礎(chǔ)性工作專項(xiàng)項(xiàng)目產(chǎn)生的科學(xué)數(shù)據(jù)、圖集、志書/典籍、標(biāo)本資源、標(biāo)準(zhǔn)物質(zhì)、論文專著和研究報(bào)告等科技資源為研究對(duì)象,通過元數(shù)據(jù)語義相關(guān)度的計(jì)算探討科技資源的關(guān)聯(lián)與推薦。
作為科技創(chuàng)新活動(dòng)的要素,科技資源是一切科技活動(dòng)的核心??萍假Y源涵蓋的學(xué)科領(lǐng)域眾多,具有資源類型種類繁多、結(jié)構(gòu)差異較大的特點(diǎn)。而元數(shù)據(jù)則是對(duì)各種科技資源的外部形式和內(nèi)部形態(tài)的詳細(xì)描述,為了能夠?qū)Σ煌愋偷男畔①Y源進(jìn)行描述和處理,不同領(lǐng)域的專業(yè)人員研究并定制了用于各個(gè)領(lǐng)域和各種場(chǎng)合的元數(shù)據(jù)標(biāo)準(zhǔn)[13]。其中,在國際上常用的元數(shù)據(jù)標(biāo)準(zhǔn)包括描述網(wǎng)絡(luò)信息資源的都柏林核心元數(shù)據(jù)、描述國家數(shù)字地理空間數(shù)據(jù)的術(shù)語及其定義集合的地理空間元數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)、地理信息元數(shù)據(jù)(ISO 19115)、地理信息服務(wù)(ISO 19119)等。除此之外,還有各學(xué)科領(lǐng)域的相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn),如生態(tài)科學(xué)數(shù)據(jù)元數(shù)據(jù)、氣象數(shù)據(jù)核心元數(shù)據(jù)等。
現(xiàn)有元數(shù)據(jù)標(biāo)準(zhǔn)主要適應(yīng)各學(xué)科領(lǐng)域的特定資源,而科技資源包含數(shù)據(jù)、志書/典籍、標(biāo)本資源、標(biāo)準(zhǔn)物質(zhì)等,難以直接采用現(xiàn)有的元數(shù)據(jù)標(biāo)準(zhǔn)。所以,在綜合考慮各類科技資源共性特征的基礎(chǔ)上,提出了科技基礎(chǔ)性工作專項(xiàng)科技資源核心元數(shù)據(jù)規(guī)范,如表1所示,包括19個(gè)核心元數(shù)據(jù)項(xiàng)。其中,必選項(xiàng)有16項(xiàng),可選項(xiàng)有3項(xiàng)。該規(guī)范已經(jīng)應(yīng)用在科技基礎(chǔ)性工作專項(xiàng)項(xiàng)目的科技資源匯交工作中。
通過對(duì)表1所述科技基礎(chǔ)性專項(xiàng)科技資源的核心元數(shù)據(jù)項(xiàng)進(jìn)行選擇,下文選擇了表達(dá)科技資源核心特征的三要素,即資源內(nèi)容(中文名稱、關(guān)鍵詞、資源類型、資源描述摘要、資源學(xué)科分類)、資源地點(diǎn)和資源時(shí)間,建立了科技資源之間的關(guān)聯(lián),并計(jì)算相應(yīng)的語義相關(guān)度,為用戶進(jìn)行推薦。
語義相關(guān)度的計(jì)算不僅包括傳統(tǒng)字面匹配的相關(guān)度,還包括體現(xiàn)語義層次上概念間關(guān)系的計(jì)算。例如,用戶需要與“北京市”有關(guān)的科技資源,而像“京津冀地區(qū)”的科技資源在字面匹配相關(guān)度上與“北京市”不相關(guān),但在空間概念上相關(guān)。即兩種資源的字面匹配相關(guān)度很小,但空間概念上的語義相關(guān)度很大。因此,在基于元數(shù)據(jù)的語義關(guān)聯(lián)時(shí),需要綜合考慮詞匯層面之間的相關(guān)度,以及詞匯在空間關(guān)系、時(shí)間關(guān)系等其他語義關(guān)系上的相關(guān)度。
本文通過計(jì)算元數(shù)據(jù)在資源內(nèi)容、資源地點(diǎn)和資源時(shí)間上的相關(guān)度,采用層次分析法,確定不同層次下各因素在本層次中的影響程度,即權(quán)重值,最終計(jì)算出不同科技資源對(duì)象之間的語義相關(guān)度。
資源內(nèi)容包括中文名稱、關(guān)鍵詞、資源類型、資源描述摘要和資源學(xué)科分類。為了建立元數(shù)據(jù)的關(guān)聯(lián),前三者需要計(jì)算兩兩科技資源的字面匹配相關(guān)度,后者屬于資源所屬的學(xué)科,需要計(jì)算類與類之間的相關(guān)度。因此,資源內(nèi)容相關(guān)度計(jì)算如式(1)所示。
在式(1)中,S1表示內(nèi)容相關(guān)度;S11、S12、S13和S14分別表示中文名稱、關(guān)鍵詞、資源類型和資源描述摘要的內(nèi)容字面匹配相關(guān)度;S15表示資源學(xué)科的類別相關(guān)度;W11、W12、W13、W14和W15表示各因素的權(quán)重值。
內(nèi)容字面匹配相關(guān)度計(jì)算首先要對(duì)文本進(jìn)行分詞,可借助IkAnalyzer分詞軟件[14]實(shí)現(xiàn)分詞,兩兩對(duì)比計(jì)算所包含的相同詞語的個(gè)數(shù)所占比例,分別得到中文名稱、關(guān)鍵詞、資源類型和資源描述摘要在字面上的匹配相關(guān)度。
表1 科技基礎(chǔ)性工作專項(xiàng)科技資源核心元數(shù)據(jù)規(guī)范
類別相關(guān)度計(jì)算采用文獻(xiàn)[15]提供的方法。本文采用的學(xué)科分類參照國家標(biāo)準(zhǔn)《學(xué)科分類與代碼GB/T 13745-2008》。具體做法是:假設(shè)需要計(jì)算相關(guān)度的兩個(gè)類別在分類樹上的節(jié)點(diǎn)分別為X和Y,找到距離X和Y最近的父節(jié)點(diǎn)P,可根據(jù)式(2)計(jì)算類別相關(guān)度。
在式(2)中, N(X)、 N(Y)分別表示X和Y到P的距離, N( P)表示P到根節(jié)點(diǎn)的距離。
若存在兩個(gè)科技資源實(shí)體屬于多個(gè)類別,分別計(jì)算每個(gè)類別的相關(guān)度,并取最大值作為這兩個(gè)科技資源實(shí)體最終的類別相關(guān)度。
資源地點(diǎn)是資源內(nèi)容所表述的地理位置。資源地點(diǎn)相關(guān)度的計(jì)算首先需要根據(jù)該地理位置,得到其地理坐標(biāo)后,將其表達(dá)為一個(gè)空間幾何對(duì)象;然后根據(jù)空間幾何對(duì)象之間的空間關(guān)系,計(jì)算對(duì)象之間的空間語義相關(guān)度。
對(duì)于具體的空間幾何對(duì)象,其類型包括點(diǎn)狀對(duì)象、線狀對(duì)象和面狀對(duì)象。鑒于科技資源的復(fù)雜性,為了實(shí)現(xiàn)統(tǒng)一表達(dá),均將其所描述的地理位置映射到同一尺度下的空間面狀對(duì)象上。
空間關(guān)系包括空間拓?fù)潢P(guān)系、空間度量關(guān)系和空間方位關(guān)系。對(duì)于空間語義相關(guān)度的計(jì)算,空間方位關(guān)系對(duì)空間語義相關(guān)度計(jì)算的影響不大,空間度量關(guān)系與具體的拓?fù)潢P(guān)系相關(guān),而空間拓?fù)潢P(guān)系較為復(fù)雜,因此,如何根據(jù)實(shí)體之間的拓?fù)潢P(guān)系計(jì)算資源地點(diǎn)相關(guān)度是解決問題的關(guān)鍵。對(duì)于面狀實(shí)體之間的拓?fù)潢P(guān)系,本文將考慮空間拓?fù)潢P(guān)系即相等、相接、相交、包含、被包含和相離6種關(guān)系,如表2所示。假設(shè)用戶需要的科技資源地理位置映射到的空間實(shí)體為X,關(guān)聯(lián)的科技資源的地理位置映射到的空間實(shí)體為Y,則根據(jù)X和Y的空間拓?fù)潢P(guān)系在計(jì)算資源地點(diǎn)相關(guān)度S2時(shí),可以分為以下幾種情形。
(1)當(dāng)X和Y的拓?fù)潢P(guān)系為相等或是Y被包含于X時(shí),S2=1;
(2)當(dāng)X和Y的拓?fù)潢P(guān)系為相接時(shí),可根據(jù)相交邊界的長度以及Y的邊界長度進(jìn)行計(jì)算,具體的可由式(3)求得:
在式(3)中,L( Y)表示實(shí)體Y的邊界長度,L( XY)表示實(shí)體X與實(shí)體Y兩個(gè)實(shí)體相接的邊界長度。
(3)當(dāng)X和Y的拓?fù)潢P(guān)系為相交或是X包含于Y時(shí),具體的可由式(4)得到:
在式(4)中, A( Y)表示實(shí)體Y的面積, A( XY)表示實(shí)體X與實(shí)體Y兩個(gè)實(shí)體相交的面積。
(4)當(dāng)X和Y的拓?fù)潢P(guān)系為相離時(shí),可根據(jù)X和Y的空間距離進(jìn)行計(jì)算,具體的可由式(5)得到:
在式(5)中, D( X , Y)表示實(shí)體X和實(shí)體Y之間的空間距離。
資源時(shí)間指的是資源內(nèi)容的時(shí)間點(diǎn)或時(shí)間范圍。對(duì)于采用時(shí)間點(diǎn)描述的資源時(shí)間,例如科技資源中標(biāo)本的采集、制備時(shí)間,為統(tǒng)一時(shí)間描述,需要將其轉(zhuǎn)化為時(shí)間段。對(duì)于所有的時(shí)間段,均統(tǒng)一為以天為最小時(shí)間單位,然后采用Allen[16]提出的時(shí)間區(qū)間代數(shù)理論,根據(jù)時(shí)間段之間的13種拓?fù)潢P(guān)系如表3[9]所示,計(jì)算資源時(shí)間相關(guān)度S3。
根據(jù)時(shí)間拓?fù)潢P(guān)系,假設(shè)用戶需要的科技資源的時(shí)間段為X,推薦的科技資源的時(shí)間段為Y,計(jì)算資源時(shí)間相關(guān)度S3,可將其分為以下幾種情況:
當(dāng)時(shí)間拓?fù)潢P(guān)系為相交、包含等的時(shí)間段時(shí),可依據(jù)X和Y重疊的時(shí)間長度,由式(6)得到:
在式(6)中, L( Y)表示時(shí)間段Y的時(shí)間長度,L( X Y)表示時(shí)間段X與時(shí)間段Y重疊部分的時(shí)間長度。
當(dāng)時(shí)間拓?fù)潢P(guān)系為相接、相離的時(shí)間段時(shí),可依據(jù)X和Y的時(shí)間距離,由式(7)得到;
在式(7)中,D( X, Y)表示時(shí)間段X和時(shí)間段Y之間的時(shí)間距離。
表2 面狀實(shí)體—面狀實(shí)體拓?fù)潢P(guān)系
表3 時(shí)間段—時(shí)間段拓?fù)潢P(guān)系
根據(jù)對(duì)資源內(nèi)容相關(guān)度、資源地點(diǎn)相關(guān)度和資源時(shí)間相關(guān)度的計(jì)算,元數(shù)據(jù)語義相關(guān)度S可由式(8)得到:
在式(8)中,S表示元數(shù)據(jù)語義相關(guān)度;S1、S2、S3分別表示上文計(jì)算得到的資源內(nèi)容相關(guān)度、資源地點(diǎn)相關(guān)度和資源時(shí)間相關(guān)度;W1,W2,W3表示各相關(guān)度的權(quán)重值。
元數(shù)據(jù)語義相關(guān)度的計(jì)算還需確定各因素的權(quán)重值大小。權(quán)重的確定可以由層次分析法獲得。層次分析法(AHP)是由美國運(yùn)籌學(xué)家Saaty[17]提出來的,其原理簡單,且數(shù)學(xué)推理嚴(yán)格,具有很廣泛的應(yīng)用。根據(jù)層次分析法,首先對(duì)各種因素按照其影響程度分級(jí)分類,本文將影響元數(shù)據(jù)語義相關(guān)度的因素分為兩級(jí),分別為一級(jí)因素(資源內(nèi)容、資源地點(diǎn)和資源時(shí)間)和二級(jí)因素(中文名稱、關(guān)鍵詞、資源類型、資源描述摘要和資源學(xué)科分類);然后按照層次構(gòu)造判斷矩陣;最后通過相關(guān)計(jì)算得到每個(gè)因素的權(quán)重值。具體方法如圖1所示。
圖1 元數(shù)據(jù)語義相關(guān)度計(jì)算
判斷矩陣表示在同一層次下不同因素對(duì)上一級(jí)某因素的重要程度,將因素之間的相對(duì)重要性用數(shù)值表示,構(gòu)成矩陣形式。因此,對(duì)于構(gòu)造的判斷矩陣A=(aij)n╳n,其中aij為因素i與因素j重要性比較結(jié)果,aij的取值一般為1,2,…,9以及它們的倒數(shù)。1表示因素i與因素j同等重要,3表示因素i比因素j稍微重要,5表示因素i比因素j明顯重要,7表示因素i比因素j強(qiáng)烈重要,9表示因素i比因素j極端重要,而2、4、6、8分別有3、5、7、9相應(yīng)的類似含義,只是程度稍小,可由專家打分得到。
在利用判斷矩陣計(jì)算各因素的權(quán)重前,首先要對(duì)判斷矩陣進(jìn)行一致性檢驗(yàn)。判斷矩陣是否滿足一致性檢驗(yàn),關(guān)系到后續(xù)由判斷矩陣得到的權(quán)向量是否能真實(shí)反映各因素之間的客觀權(quán)重。一致性檢驗(yàn)主要由“一致性比例(CR)”來確定,其計(jì)算方法如式(9):
其中,CI為一致性指標(biāo),RI為平均隨機(jī)一致性指標(biāo)。當(dāng)CR<0.10時(shí),則認(rèn)為判斷矩陣一致性是可以接受的,否則需要對(duì)判斷矩陣進(jìn)行適當(dāng)?shù)母恼?。一致性指?biāo)CI的計(jì)算方法如式(10):
在式(10)中,λmax為判斷矩陣的最大特征值;n為判斷矩陣的階數(shù)。
平均隨機(jī)一致性指標(biāo)RI是通過多次重復(fù)進(jìn)行隨機(jī)判斷矩陣特征值的計(jì)算后取算術(shù)平均值得到的,其值可根據(jù)判斷矩陣的階數(shù),經(jīng)查表得到。
計(jì)算同一層次下各種因素對(duì)上一層次中相關(guān)聯(lián)因素的影響程度,即權(quán)重值,歸結(jié)為計(jì)算判斷矩陣的特征向量的問題。具體的計(jì)算方法有和積法、特征向量法和最小二乘法等,為了計(jì)算簡便,本文將采用近似計(jì)算和積法。
根據(jù)圖1,對(duì)影響元數(shù)據(jù)語義相關(guān)度計(jì)算的各級(jí)因素,通過組織相關(guān)專家進(jìn)行打分,得到各級(jí)因素的判斷矩陣如表4、表5所示。經(jīng)過計(jì)算,表4和表5兩個(gè)判斷矩陣均滿足一致性檢驗(yàn)。因此,利用這兩個(gè)判斷矩陣得到的權(quán)向量可以真實(shí)反映各因素之間的客觀權(quán)重。
基于表4和表5判斷矩陣的結(jié)果,利用近似計(jì)算和積法,得到各因素的權(quán)重值,如表6所示。
表4 資源內(nèi)容判斷矩陣
表5 元數(shù)據(jù)語義相關(guān)度判斷矩陣
表6 各因素權(quán)重值
本文以資源中文名稱為“2009—2010年中國森林土壤剖面調(diào)查數(shù)據(jù)”的元數(shù)據(jù)為被關(guān)聯(lián)對(duì)象,利用提出的科技資源元數(shù)據(jù)關(guān)聯(lián)方法計(jì)算其他資源對(duì)象與被關(guān)聯(lián)對(duì)象之間的語義相關(guān)度。按第3節(jié)方法和表6權(quán)重進(jìn)行計(jì)算,得到語義相關(guān)度排序后前15條的計(jì)算結(jié)果,如表7所示。
表7 “2009—2010年中國森林土壤剖面調(diào)查數(shù)據(jù)”相關(guān)的元數(shù)據(jù)及相關(guān)度計(jì)算結(jié)果
表7列出的資源在相關(guān)性上隨著相關(guān)度的減小而減弱,并且用本文方法計(jì)算得到的相關(guān)度與資源的實(shí)際相關(guān)程度有較好的吻合。被關(guān)聯(lián)資源“2009—2010年中國森林土壤剖面調(diào)查數(shù)據(jù)”所屬學(xué)科為農(nóng)學(xué),資源類型為數(shù)據(jù),資源時(shí)間為2009年1月1日至2010年12月31日,資源地點(diǎn)為中國。由表7可以看出,前2條資源在資源學(xué)科分類、資源時(shí)間、資源地點(diǎn)、資源類型的特征上與被關(guān)聯(lián)資源完全相同,因此綜合后的語義相關(guān)度最高。而第3條和第4條資源在資源學(xué)科分類、資源時(shí)間、資源地點(diǎn)的特征上與被關(guān)聯(lián)資源完全相同,而在資源類型上與被關(guān)聯(lián)資源不同,因此綜合后的語義相關(guān)度較前2條略低。從表7中還可以看出,因?yàn)榭紤]了資源的學(xué)科特征,除了被關(guān)聯(lián)資源所屬的農(nóng)學(xué)外,地球科學(xué)、生物學(xué)等其他相關(guān)學(xué)科的資源也可以被關(guān)聯(lián)起來。同理,因?yàn)榭紤]了資源的類型特征,除數(shù)據(jù)類型以外的其他資源類型,如志書、圖集等也可以被關(guān)聯(lián)起來。這些不同學(xué)科、不同類型的科技資源不僅豐富了關(guān)聯(lián)與推薦的結(jié)果,而且可以作為原有科技資源的一種補(bǔ)充,使用戶從多個(gè)方面充分獲得所需科技資源的相關(guān)信息。
本文以多學(xué)科、多領(lǐng)域、多渠道、多類型的海量科技資源為研究對(duì)象,在綜合考慮科技資源共性特征的基礎(chǔ)上,提出科技基礎(chǔ)性工作專項(xiàng)科技資源核心元數(shù)據(jù)規(guī)范,并選擇了最能表達(dá)科技資源核心特征的幾個(gè)要素,即科技資源內(nèi)容(中文名稱、關(guān)鍵詞、資源類型、資源描述摘要、資源學(xué)科分類)、資源地點(diǎn)和資源時(shí)間作為關(guān)聯(lián)項(xiàng),提出面向科技資源的語義相關(guān)度算法。最后對(duì)語義相關(guān)度計(jì)算結(jié)果進(jìn)行排序,優(yōu)先將相關(guān)度高的科技資源推薦給用戶。
(1)通過提出科技基礎(chǔ)性工作專項(xiàng)科技資源核心元數(shù)據(jù)規(guī)范來降低關(guān)聯(lián)和推薦的復(fù)雜性,以元數(shù)據(jù)作為科技資源關(guān)聯(lián)的中介對(duì)象,經(jīng)對(duì)元數(shù)據(jù)相關(guān)項(xiàng)之間語義相關(guān)度的計(jì)算,提取并定量地表達(dá)了其中隱含的語義信息,間接地建立了科技資源之間的語義關(guān)聯(lián)方法。
(2)根據(jù)語義相關(guān)度對(duì)關(guān)聯(lián)資源進(jìn)行排序,定量地反映了資源之間的關(guān)聯(lián)程度,為科技資源的精準(zhǔn)發(fā)現(xiàn)、資源推薦和共享應(yīng)用提供了方法支撐。實(shí)驗(yàn)結(jié)果表明,通過計(jì)算元數(shù)據(jù)之間的語義相關(guān)度對(duì)科技資源進(jìn)行關(guān)聯(lián)與推薦的方法,具有操作簡單、構(gòu)建方便的特點(diǎn);通過計(jì)算語義相關(guān)度,可避免傳統(tǒng)檢索方法的局限性,推薦結(jié)果在一定程度上可以滿足用戶的不同需要;通過元數(shù)據(jù)建立科技資源之間的關(guān)聯(lián),具有較好的可擴(kuò)展性。
(3)本文在層次分析法中確定的權(quán)重帶有一定程度的主觀性,后續(xù)研究可考慮引入機(jī)器學(xué)習(xí)的方法,通過訓(xùn)練樣本確定權(quán)重大小,并在計(jì)算語義相關(guān)度時(shí)適當(dāng)加入其他項(xiàng)進(jìn)行計(jì)算。
[1]王國復(fù), 涂勇, 王卷樂, 等.科學(xué)數(shù)據(jù)共享中的元數(shù)據(jù)技術(shù)研究[J].中國科技資源導(dǎo)刊, 2008, 40(1): 30-36.DOI: 10.3772/j. issn. 1674-1544. 2008. 01. 006.
[2]徐楓.元數(shù)據(jù)技術(shù)及其在科學(xué)數(shù)據(jù)共享中的應(yīng)用.科學(xué)數(shù)據(jù)共享管理研究[J].北京: 中國科學(xué)技術(shù)出版社,2002: 178-196.
[3]黃如花, 邱春艷.國內(nèi)外科學(xué)數(shù)據(jù)元數(shù)據(jù)研究進(jìn)展[J].圖書與情報(bào), 2014(6): 102-109.
[4]侯志偉.地學(xué)數(shù)據(jù)時(shí)間本體及其在語義檢索中的應(yīng)用:以地質(zhì)年代本體為例[D].北京: 中國科學(xué)院大學(xué), 2016.
[5]王東旭, 諸云強(qiáng), 潘鵬, 等.地理數(shù)據(jù)空間本體構(gòu)建及其在數(shù)據(jù)檢索中的應(yīng)用[J].地球信息科學(xué)學(xué)報(bào), 2016,18(4): 443-452.DOI: 10.3724/SP. J. 1047. 2016. 00443.
[6]侯志偉, 諸云強(qiáng), 高星, 等.時(shí)間本體及其在地學(xué)數(shù)據(jù)檢索中的應(yīng)用[J].地球信息科學(xué)學(xué)報(bào), 2015, 17(4):379-390.DOI: 10.3724/SP. J. 1047. 2015. 00379.
[7]孫凱, 諸云強(qiáng), 潘鵬, 等.形態(tài)本體及其在地理空間數(shù)據(jù)發(fā)現(xiàn)中的應(yīng)用研究[J].地球信息科學(xué)學(xué)報(bào), 2016,18(8): 1011-1021.DOI: 10.3724/SP. J. 1047. 2016.01011.
[8]ZHU Y, ZHU A, SONG J, et al. Multidimensional and quantitative interlinking approach for Linked Geospatial Data [J]. International Journal of Digital Earth, 2017,10(9): 1-21.DOI: 10.1080/17538947. 2016. 1266041.
[9]趙紅偉, 諸云強(qiáng), 楊宏偉, 等. 地理空間數(shù)據(jù)本質(zhì)特征語義相關(guān)度計(jì)算模型[J].地理研究, 2016, 35(1): 58-70.DOI: 10.11821/dlyj2016.01.006.
[10]趙紅偉, 諸云強(qiáng), 侯志偉, 等.地理空間元數(shù)據(jù)關(guān)聯(lián)網(wǎng)絡(luò)的構(gòu)建[J].地理科學(xué), 2016, 36(8): 1180-1189.DOI:10.13249/j. cnki. sgs. 2016. 08. 008.
[11]ZHU Y, ZHU A, FENG M, et al. A similaritybased automatic data recommendation approach forgeographicmodels[J].International Journal of Geographical Information Science, 2017, 31(7): 1403-1424. DOI:10.1080/13658816. 2017. 1300805.
[12]羅侃, 諸云強(qiáng), 程文芳, 等.極地科學(xué)數(shù)據(jù)關(guān)聯(lián)方法及應(yīng)用研究[J].極地研究, 2016, 28(3): 361-369.DOI:10.13679/j. jdyj. 2016. 3. 361.
[13]許鑫, 張悅.非遺數(shù)字資源的元數(shù)據(jù)規(guī)范與應(yīng)用研究[J].圖書情報(bào)工作, 2014, 58(21): 13-20.DOI: 10.13266/j. issn. 0252 – 3116.2014.21.002.
[14]IK-Analyzer.v[EB/OL].[2017-08-23].http: //code.google.com/p/ik-analyzer/.
[15]WU Z, PALMER M. Verb semantics and lexical selection[C]//32nd annual meeting of the association for computational linguistics. Las Cruces, New Mexico,Stroudsburg: Association for Computational Linguistics,1994: 133-138.
[16]ALLEN J F. Maintaining knowledge about temporal intervals[J].Communications of the ACM, 1983, 26(11):832-843. DOI: 10.1145/182.358434.
[17]SAATY T L. How to make a decision: the analytic hierarchy process[J]. European Journal of Operational Research, 1990, 48(1): 9–26.
Association and Recommendation Method for Metadata of Scientific and Technical Resources
SONG Jia1,4, GAO Shaohua2, YANG Jie1,3, ZHU Yunqiang1,4,5
(1.State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, CAS, Beijing 100101;2.School of Resource and Environment Science, Wuhan University, Wuhan, Hubei 430079;3.University of Chinese Academy of Sciences, Beijing 100049;4.Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing, Jiangsu 210023;5.Collaborative Innovation Centre for Baiyangdian Basin Ecological Protection and Jingjinji Regional Sustainable Development, Hebei University, Baoding, Hebei, 071002)
In the context of big data, e ffi cient discovery and recommendation for scientific and technical data resources is to build the association between these data resources and then sort them by relevancy. Based on the investigation of core metadata of National Special Program on Basic Works for Science and Technology of China, this study chooses the content, location and temporal information of the data resources as associationfactors. Then, a semantic relevance algorithm is proposed based on the method of expert scoring and analytic hierarchy process, and the semantic association between these data resources is achieved in this study. These data resources are able to be sorted in terms of the semantic relevance, and the data resources with high relevance value can be recommended to the users. The proposed method is validated in the application case of data archiving and sharing for the projects of National Special Program on Basic Works for Science and Technology of China, and it has great significance in promoting the accurate discovery, intelligent recommendation and sharing for scientific data.
scientific and technical resources, metadata, semantic association, semantic relevance
G203
A
10.3772/j.issn.1674-1544.2017.05.005
宋佳(1980—),男,博士,中國科學(xué)院地理科學(xué)與資源研究所助理研究員,研究方向:地球信息科學(xué)(通訊作者);高少華(1993—),女,武漢大學(xué)資源與環(huán)境科學(xué)學(xué)院碩士研究生,研究方向:地圖學(xué)與地理信息系統(tǒng);楊杰(1990—),男,中國科學(xué)院地理科學(xué)與資源研究所碩士研究生,研究方向:地學(xué)模型數(shù)據(jù)匹配方法;諸云強(qiáng)(1977—),男,博士,中國科學(xué)院地理科學(xué)與資源研究所研究員,主要研究方向:地學(xué)數(shù)據(jù)本體與共享、資源環(huán)境信息系統(tǒng)。
科技基礎(chǔ)性工作專項(xiàng)項(xiàng)目“科技基礎(chǔ)性工作數(shù)據(jù)資料集成與規(guī)范化整編”(2013FY110900);國家自然科學(xué)基金重點(diǎn)項(xiàng)目“網(wǎng)絡(luò)文本蘊(yùn)含信息理解與知識(shí)圖構(gòu)建”(41631177)。
2017年7月31日。