黃筱瑾
(成都理工大學(xué)圖書館,四川 成都 610059)
·理論探索·
基于內(nèi)容特征的科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)研究
黃筱瑾
(成都理工大學(xué)圖書館,四川 成都 610059)
科學(xué)數(shù)據(jù)和科技文獻(xiàn)是科研成果產(chǎn)出的兩個重要表現(xiàn)形式??萍紨?shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)分析對于實(shí)現(xiàn)集成信息服務(wù)、促進(jìn)知識發(fā)現(xiàn)和完善E-science環(huán)境具有重要意義。文章從科學(xué)數(shù)據(jù)和科技文獻(xiàn)的元數(shù)據(jù)出發(fā),從兩者的元數(shù)據(jù)描述中提取出表達(dá)內(nèi)容特征的元數(shù)據(jù)項,并利用向量空間模型進(jìn)行特征的相似性計算,從而關(guān)聯(lián)科學(xué)數(shù)據(jù)與科技文獻(xiàn)。
科學(xué)數(shù)據(jù);科技文獻(xiàn);元數(shù)據(jù);向量空間模型;特征提取
隨著科學(xué)數(shù)據(jù)的高速增長和科學(xué)數(shù)據(jù)驅(qū)動的科研范式的逐步形成,科學(xué)數(shù)據(jù)在整個科研流程中的重要性越來越受到重視。對于科研工作者而言,學(xué)術(shù)資源已不再僅僅是指期刊文獻(xiàn)和專著等傳統(tǒng)文獻(xiàn)類型,科學(xué)數(shù)據(jù)和科研記錄資料等也逐漸成為科研人員學(xué)術(shù)信息需求的重點(diǎn)。將科學(xué)數(shù)據(jù)與現(xiàn)有的基于科技文獻(xiàn)的科研信息支撐系統(tǒng)有效地關(guān)聯(lián),提供高質(zhì)量集成信息服務(wù),進(jìn)而提高科學(xué)研究活動效率,成為一個迫切需要解決的問題。
開展科學(xué)數(shù)據(jù)與科技文獻(xiàn)之間的關(guān)聯(lián)對于科學(xué)數(shù)據(jù)的獲取與共享、科學(xué)數(shù)據(jù)的復(fù)用和科研創(chuàng)新、科技文獻(xiàn)的評價與評審乃至學(xué)術(shù)交流體系的轉(zhuǎn)變等都有極其重要的意義。為此,一些研究者也開展了相關(guān)的研究,文獻(xiàn)[1]以Elsevier出版集團(tuán)的科學(xué)文獻(xiàn)與科學(xué)數(shù)據(jù)關(guān)聯(lián)實(shí)踐為研究對象,深入分析其4種關(guān)聯(lián)方式;文獻(xiàn)[2]分析了科學(xué)數(shù)據(jù)的不同來源以及科學(xué)數(shù)據(jù)與科技文獻(xiàn)的不同關(guān)聯(lián)模式;文獻(xiàn)[3]分析了當(dāng)前期刊、出版商、數(shù)據(jù)庫商等不同主體,探索通過期刊與數(shù)據(jù)互聯(lián)、數(shù)據(jù)庫服務(wù)、科學(xué)數(shù)據(jù)期刊等途徑提供關(guān)聯(lián)服務(wù)的嘗試;文獻(xiàn)[4]基于引文進(jìn)行了科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)研究。同時,本文作者在對科學(xué)數(shù)據(jù)與科技文獻(xiàn)的關(guān)聯(lián)研究中,提出了基于元數(shù)據(jù)進(jìn)行兩者的關(guān)聯(lián),并就關(guān)聯(lián)的模式及可行性進(jìn)行了分析[5]。在該研究的基礎(chǔ)上,本文從科學(xué)數(shù)據(jù)和科技文獻(xiàn)的元數(shù)據(jù)中提取出表達(dá)內(nèi)容特征的元數(shù)據(jù)項,基于內(nèi)容特征進(jìn)行科學(xué)數(shù)據(jù)與科技文獻(xiàn)的關(guān)聯(lián)研究。
特征是對一個客體或一組客體特性的抽象結(jié)果??茖W(xué)數(shù)據(jù)和科技文獻(xiàn)的特征都可以分為外部特征和內(nèi)部特征??茖W(xué)數(shù)據(jù)的外部特征是指創(chuàng)建者、數(shù)據(jù)來源、發(fā)布機(jī)構(gòu)、數(shù)據(jù)量、格式、語種等與其表達(dá)內(nèi)容沒有過多關(guān)系的特征,內(nèi)部特征是指數(shù)據(jù)名稱、關(guān)鍵詞、摘要(簡介)等表達(dá)數(shù)據(jù)內(nèi)容的特征??萍嘉墨I(xiàn)的外部特征是指著者、著者單位、著者機(jī)構(gòu)等,而內(nèi)部特征是指題名、摘要、主題詞、關(guān)鍵詞等反映文獻(xiàn)內(nèi)容的特征。如果能提取科學(xué)數(shù)據(jù)和科技文獻(xiàn)的內(nèi)容特征,并建立他們之間的關(guān)聯(lián),就能將其背后的科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)起來。
科學(xué)數(shù)據(jù)是指各類科技活動產(chǎn)生的原始性基礎(chǔ)性數(shù)據(jù)及按照不同需求加工后的數(shù)據(jù)集和相關(guān)信息[6]。作為一種信息資源,科學(xué)數(shù)據(jù)的具體格式和類型包括:觀察模擬數(shù)據(jù);分類術(shù)語表;數(shù)學(xué)表達(dá)式;分子、化學(xué)、基因表達(dá)式;結(jié)構(gòu)、物理、計算模型;表格、圖形、圖表、地圖、圖片;實(shí)地與試驗筆記等??茖W(xué)數(shù)據(jù)由于其具有數(shù)據(jù)的大量性、不均勻性、不規(guī)整性、動力學(xué)性、高維性等特點(diǎn)[7],對其特征進(jìn)行描述是比較困難的。作者對一些科學(xué)數(shù)據(jù)庫及共享平臺進(jìn)行了研究分析,其在對科學(xué)數(shù)據(jù)的特征進(jìn)行揭示時,主要是通過元數(shù)據(jù)來進(jìn)行描述的。元數(shù)據(jù)以其互操作性、可擴(kuò)展性、語言互用性、可映射性等特點(diǎn),已成為科學(xué)數(shù)據(jù)管理的基礎(chǔ),目前各科學(xué)數(shù)據(jù)倉儲大多使用元數(shù)據(jù)來描述科學(xué)數(shù)據(jù)的外部特征和內(nèi)容特征,進(jìn)行科學(xué)數(shù)據(jù)的管理以及實(shí)現(xiàn)不同平臺間科學(xué)數(shù)據(jù)的交換與整合。
作者在對國內(nèi)建設(shè)得比較完善的10個科學(xué)數(shù)據(jù)平臺做了分析[5]。這些科學(xué)數(shù)據(jù)平臺通過元數(shù)據(jù)來描述數(shù)據(jù)本身的特征和屬性,從而利于科學(xué)數(shù)據(jù)的存儲、利用和管理。各科學(xué)數(shù)據(jù)平臺多以DC定義的15個基本的核心元數(shù)據(jù)作為科學(xué)數(shù)據(jù)基本元數(shù)據(jù)。除此之外,再根據(jù)各學(xué)科科學(xué)數(shù)據(jù)的特點(diǎn),進(jìn)行有效拓展,定義一些和基本元素不重復(fù)的新元素。從調(diào)查發(fā)現(xiàn),主要的元數(shù)據(jù)描述項包括數(shù)據(jù)名稱、格式、關(guān)鍵詞、摘要(簡介)、數(shù)據(jù)量、語種、分類、數(shù)據(jù)來源、創(chuàng)建者、其他貢獻(xiàn)者、創(chuàng)建日期、發(fā)布機(jī)構(gòu)、關(guān)聯(lián)信息、范圍(時間范圍、空間范圍)、聯(lián)系信息等。
國外的科學(xué)數(shù)據(jù)倉儲平臺同樣通過元數(shù)據(jù)進(jìn)行數(shù)據(jù)描述。Dryad數(shù)據(jù)庫旨在實(shí)現(xiàn)對進(jìn)化生物學(xué)領(lǐng)域期刊論文的支撐數(shù)據(jù)的保存、發(fā)現(xiàn)、復(fù)用和管理的科學(xué)數(shù)據(jù)倉儲[8]。
Dryad的元數(shù)據(jù)描述以DC元數(shù)據(jù)元素為基礎(chǔ),融合了其他元數(shù)據(jù)標(biāo)準(zhǔn)的元素。目前Dryad的元數(shù)據(jù)元素包括數(shù)據(jù)名稱、類型、作者、國家、提交日期、可獲取日期、卷期、DOI識別符、引用、統(tǒng)一資源標(biāo)識符、描述、主題詞、關(guān)聯(lián)信息(來源文獻(xiàn)DOI識別符、來源文獻(xiàn)PMID號)。PANGAEA[9]是一個地球環(huán)境科學(xué)領(lǐng)域的數(shù)據(jù)倉儲,PANGAEA允許數(shù)據(jù)提交者通過使用都柏林核心、DIF或ISO 19115元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行地球環(huán)境科學(xué)科學(xué)數(shù)據(jù)的描述。目前PANGAEA的元數(shù)據(jù)元素主要包括數(shù)據(jù)名稱、關(guān)聯(lián)信息(來源文獻(xiàn)DOI識別符)、摘要、空間范圍、空間參數(shù)、知識共享署名許可協(xié)議、引用和責(zé)任方信息等。基于此,從元數(shù)據(jù)中提取科學(xué)數(shù)據(jù)的內(nèi)容特征既具有高效性又具有可行性。
元數(shù)據(jù)的目的之一是用于有效地描述文獻(xiàn)的原始數(shù)據(jù),保存文獻(xiàn)數(shù)據(jù)的內(nèi)在本質(zhì),特別是對于文獻(xiàn)類電子資源。雖然,元數(shù)據(jù)的出現(xiàn)是網(wǎng)絡(luò)發(fā)展的產(chǎn)物,但是從其出現(xiàn)之初,就受到了圖書館界和數(shù)據(jù)庫商的青睞。圖書館在建立數(shù)字圖書館時,數(shù)據(jù)庫商對文獻(xiàn)類電子資源進(jìn)行發(fā)展、推廣和應(yīng)用時,都迫切需要一種標(biāo)準(zhǔn)和規(guī)范來描述文獻(xiàn)類電子資源的原始屬性,因此,元數(shù)據(jù)成為對文獻(xiàn)原始屬性進(jìn)行描述的一大選擇。文獻(xiàn)[10]對萬方等幾個數(shù)字圖書館系統(tǒng)元數(shù)據(jù)使用情況進(jìn)行了統(tǒng)計。中科院文獻(xiàn)情報中心的研究人員也針對期刊論文的元數(shù)據(jù)描述規(guī)范進(jìn)行了專門的研究,其元數(shù)據(jù)元素見表1[11]。由此可見,一篇科技文獻(xiàn)可以從它的元數(shù)據(jù)元素中提取題名、主題、描述等來表示科技文獻(xiàn)的內(nèi)容特征。因此,從元數(shù)據(jù)中提取科技文獻(xiàn)的內(nèi)容特征同樣是具有可行性的。
表1 期刊論文元數(shù)據(jù)構(gòu)成
由此可見,元數(shù)據(jù)已經(jīng)廣泛地存在于文獻(xiàn)數(shù)據(jù)庫和科學(xué)數(shù)據(jù)倉儲中,為兩者的關(guān)聯(lián)提供了較為豐富的數(shù)據(jù)基礎(chǔ)。表2中對科學(xué)數(shù)據(jù)與科技文獻(xiàn)的元數(shù)據(jù)元素進(jìn)行對比,在元數(shù)據(jù)元素名稱上雖然兩者的表述方式存在差異,但是其描述的實(shí)質(zhì)內(nèi)容卻是一樣的,特別是在內(nèi)容特征元素的描述上是可以相互映射的。通過提取兩者元數(shù)據(jù)中的標(biāo)題、摘要、關(guān)鍵詞等文本描述字段,可以進(jìn)行兩者內(nèi)容特征的關(guān)聯(lián),從而實(shí)現(xiàn)科學(xué)數(shù)據(jù)與科技文獻(xiàn)的關(guān)聯(lián)。
表2 科學(xué)數(shù)據(jù)與科技文獻(xiàn)元數(shù)據(jù)映射表
基于以上的研究分析,本研究通過對科學(xué)數(shù)據(jù)和科技文獻(xiàn)元數(shù)據(jù)項中的內(nèi)容特征進(jìn)行提取,并對提取的特征信息進(jìn)行相似性計算,從而判斷科學(xué)數(shù)據(jù)和科技文獻(xiàn)是否具有內(nèi)容相似性,見圖1。
利用文本進(jìn)行相似性計算的方法有多種,本研究主要采用向量空間模型(Vector Space Model,VSM)進(jìn)行文本特征表示,通過TF-IDF方法進(jìn)行特征的權(quán)值計算,采用余弦相似度計算方法來衡量資源對象的相似性。
圖1 科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)圖
向量空間模型的基本思想是[12]:設(shè)自然語言文本表示為D,預(yù)定義的特征詞集合表示為(T0,T1,…,Tn-1。通過計算機(jī)自動分詞并計算出相應(yīng)特征詞的權(quán)重(W0,W1,…,Wn-1)后,文本D可用特征項及相應(yīng)的權(quán)重表示為D(T0,W0,T1,W1,…,Tn-1,Wn-1),其中n為文本D所含特征詞的個數(shù),Ti為某一特征詞,Wi為根據(jù)某種規(guī)則計算出的該特征詞的權(quán)重。若不考慮Ti在文獻(xiàn)中出現(xiàn)的先后順序且Ti,i=0,1,…,n-1互異時,可以把(T0,T1,…,Tn-1)看作是一個n維坐標(biāo)系,(W0,W1,…,Wn-1)則代表該坐標(biāo)系構(gòu)成的n維空間中的一個點(diǎn)或向量,這個向量為文本D的向量表示或者向量空間模型。
使用TF-IDF(Term Frequency-Inverse Document Frequency)方法進(jìn)行特征的權(quán)值計算,文獻(xiàn)Di中第j個特征詞的權(quán)值Wij可以通過TF×TIF得到,其中TF(Term Frequency)和IDF(Inverse Document Frequency)分別表示術(shù)語頻率和逆文檔頻率。TF用于度量特征詞在特定文獻(xiàn)的重要程度,其值越大說明這個特征詞越能反映文獻(xiàn)的核心問題。文獻(xiàn)Di中第j個特征詞術(shù)語頻率為:
(1)
其中,|Tj|表示在文獻(xiàn)Di中特征詞Tj出現(xiàn)的次數(shù),|Di|表示Di中所有單詞的個數(shù)IDF用于度量特征詞在整個文獻(xiàn)集中的重要性。一般來說,整個文獻(xiàn)集包含某一項T的文獻(xiàn)越多,則表明這個特征項在該文獻(xiàn)集中區(qū)分不同文獻(xiàn)的能力較差,對特定文獻(xiàn)的專指度也比較低,因而其值也就越小。Di中第j個特征詞的倒文本率為:
(2)
其中,Num表示文獻(xiàn)集中的文獻(xiàn)總數(shù),df(j)表示在所有被分析的文獻(xiàn)中,包含了特征詞Tj的文獻(xiàn)數(shù)目。根據(jù)公式(1)、(2)分別計算出某特征詞的TF和IDF值,并將這兩個值相乘就得到了該特征詞的權(quán)值。從科技文獻(xiàn)的元數(shù)據(jù)文本內(nèi)容中抽取的特征向量表示為D(Ti0,Wi0,Ti1,Wi1,…,Tin-1,Win-1),其中Ti表示第i個文本特征項,Wi表示該特征項的權(quán)重,從科學(xué)數(shù)據(jù)的元數(shù)據(jù)文本內(nèi)容中抽取的特征向量表示為Sj(Tj0,Wj0,Tj1,Wj1,…,Tjm-1,Wjm-1,其中Tj表示第j個文本特征項,WJ表示該特征項的權(quán)重。
當(dāng)文本以向量形式表示時,文本的相似度用文本特征向量的距離來衡量,即使用向量間夾角θ的余弦來計算,余弦計算正好是一個介于0~1的數(shù),如果向量一致就是1,如果正交就是0,符合相似度百分比的特性:
(3)
選用國家地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺中的“青藏高原東緣森林生態(tài)系統(tǒng)土壤有機(jī)質(zhì)和養(yǎng)分?jǐn)?shù)據(jù)”[13]作為測試數(shù)據(jù),在科技文獻(xiàn)的選取上,采用人工判定的方法,選取了4篇相關(guān)性的文獻(xiàn)及2篇不相關(guān)的文獻(xiàn),具體見表3。通過對該科學(xué)數(shù)據(jù)與各科技文獻(xiàn)的特征向量進(jìn)行相似性計算,來驗證該科學(xué)數(shù)據(jù)與科技文獻(xiàn)的相關(guān)性是否與人工設(shè)定的一致。
表3 實(shí)驗分析來源數(shù)據(jù)
我們利用文本特征詞提取工具ROST TF-IDF[14]及內(nèi)容挖掘工具ROST Content Mining分析科學(xué)數(shù)據(jù)及科技文獻(xiàn)的元數(shù)據(jù)中表示內(nèi)容特征的元素項的文本內(nèi)容,ROST TFIDF嵌入了tf-idf Chinese模塊,根據(jù)特征詞權(quán)重的TF-IDF量化方法原理,對文本進(jìn)行分詞和詞頻統(tǒng)計,得到“逆文本頻率指數(shù)”IDF和TF以及TF*IDF的值,見圖2。提取出科學(xué)數(shù)據(jù)和各科技文獻(xiàn)的特征向量,通過公式3進(jìn)行科學(xué)數(shù)據(jù)與預(yù)先設(shè)定的科技文獻(xiàn)的相似性計算和判定,結(jié)果證明通過向量空間模型計算出的科學(xué)數(shù)據(jù)與科技文獻(xiàn)的關(guān)聯(lián)性與人工判斷的關(guān)聯(lián)性是一致的。
圖2 ROST CM使用過程圖
近年來,一批具有高使用價值的科學(xué)數(shù)據(jù)共享平臺逐步建立起來并投入使用,同時,地球科學(xué)、生物學(xué)、空間科學(xué)、材料科學(xué)等學(xué)科領(lǐng)域在科學(xué)數(shù)據(jù)元數(shù)據(jù)的標(biāo)準(zhǔn)、結(jié)構(gòu)、管理體系、互操作性等方面進(jìn)行了研究,建立了相應(yīng)的科學(xué)數(shù)據(jù)共享服務(wù)的元數(shù)據(jù)體系結(jié)構(gòu),這些都為筆者從科學(xué)數(shù)據(jù)與科技文獻(xiàn)的元數(shù)據(jù)中提取內(nèi)容特征奠定了良好的基礎(chǔ)。本文提出了從題名、主題、描述等元數(shù)據(jù)項中提取科學(xué)數(shù)據(jù)與科技文獻(xiàn)的內(nèi)容特征,通過向量空間模型進(jìn)行兩者相似度計算,從而進(jìn)行科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)的方法。在實(shí)踐過程中還會涉及元數(shù)據(jù)收割、元數(shù)據(jù)映射等相關(guān)內(nèi)容。同時,由于自然語言的復(fù)雜性,提取出的特征詞在表達(dá)對象內(nèi)容時可能存在語義上的不確定性。針對以上問題,將在今后進(jìn)行更加深入的研究。
[1]衛(wèi)軍朝.科學(xué)文獻(xiàn)與科學(xué)數(shù)據(jù)關(guān)聯(lián)實(shí)踐研究——以Elsevier為例[J].國家圖書館學(xué)刊,2017,(3):93-101.
[2]孫文佳,常娥.科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)分析[J].圖書館理論與實(shí)踐,2017,(3):49-53.
[3]邱春艷.期刊文獻(xiàn)與科學(xué)數(shù)據(jù)的關(guān)聯(lián)服務(wù)研究[J].情報資料工作,2014,(2):63-66.
[4]郭學(xué)武.基于引文的科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)研究[J].情報科學(xué),2014,(4):59-62,125.
[5]黃筱瑾.基于元數(shù)據(jù)的科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)研究[J].情報理論與實(shí)踐,2013,(7):27-30.
[6]鄭淑容,趙培云.科學(xué)數(shù)據(jù)共享管理:問題及對策[J].中國科技成果,2003,(23):8-10
[7]秦?。獢?shù)據(jù)與科學(xué)數(shù)據(jù)信息的組織與管理[EB].2004年數(shù)字圖書館前沿問題高級研討班.http://www.docin.com/p-19306708.html,2015-04-04.
[8]黃如花,邱春艷.Dryad數(shù)據(jù)倉儲的元數(shù)據(jù)管理[J].圖書館雜志,2014,(1):68-73.
[9]PANGAEA[EB].https://www.pangaea.de/?t=Oceans,2017-07-17.
[10]金更達(dá).文獻(xiàn)類電子資源元數(shù)據(jù)發(fā)展淺議[J].大學(xué)圖書館學(xué)報,2003,(6):15-19.
[11]我國數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范建設(shè):期刊論文描述元數(shù)據(jù)規(guī)范[EB].https://wenku.baidu.com/view/7934fe2bccbff121dd3683 a4.html,2004.5.
[12]劉斌,陳樺.向量空間模型信息檢索技術(shù)討論[J].情報雜志,2006,(7):92-93,91.
[13]國家地球系統(tǒng)科學(xué)數(shù)據(jù)共享服務(wù)平臺.青藏高原東緣森林生態(tài)系統(tǒng)土壤有機(jī)質(zhì)和養(yǎng)分?jǐn)?shù)據(jù)[EB].http://www.geodata.cn/data/datadetails.html?dataguid=243357923654808&docId=576,2017-07-17.
[14]ROST虛擬學(xué)習(xí)團(tuán)隊.ROST Content Mining System User Manual[EB].http://wenku.baidu.com/view/e7a62df3f90f76c661371a 76.html?re=view,2017-04-02.
LinkStudyofScientificDataandScientificLiteratureBasedonContentFeatures
Huang Xiaojin
(Library,Chengdu University of Technology,Chengdu 610059,China)
Scientific data and scientific literature are two important forms of scientific research outputs.Link application of scientific data and scientific literature plays a vital part in realizing integrated information service,facilitating knowledge discovery and improving e-science environment.The paper extracted content features from the metadata of both,used vector space model to perform similarity calculation of content features.So then,it associated the scientific data and scientific literature on the basement of content features.
scientific data;scientific literature;metadata;vector space model;feature extraction
10.3969/j.issn.1008-0821.2018.01.008
G257.3
A
1008-0821(2018)01-0056-04
2017-09-13
四川省高校人文社會科學(xué)重點(diǎn)研究基地科研項目“社會科學(xué)數(shù)據(jù)與社科文獻(xiàn)關(guān)聯(lián)性研究”(項目編號SCAA14B18)。
黃筱瑾(1984-),女,館員,碩士,研究方向:信息資源組織與建設(shè)。
(實(shí)習(xí)編輯:陳 媛)