黃筱瑾
(成都理工大學(xué)圖書(shū)館,四川 成都 610059)
·理論探索·
基于內(nèi)容特征的科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)研究
黃筱瑾
(成都理工大學(xué)圖書(shū)館,四川 成都 610059)
科學(xué)數(shù)據(jù)和科技文獻(xiàn)是科研成果產(chǎn)出的兩個(gè)重要表現(xiàn)形式??萍紨?shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)分析對(duì)于實(shí)現(xiàn)集成信息服務(wù)、促進(jìn)知識(shí)發(fā)現(xiàn)和完善E-science環(huán)境具有重要意義。文章從科學(xué)數(shù)據(jù)和科技文獻(xiàn)的元數(shù)據(jù)出發(fā),從兩者的元數(shù)據(jù)描述中提取出表達(dá)內(nèi)容特征的元數(shù)據(jù)項(xiàng),并利用向量空間模型進(jìn)行特征的相似性計(jì)算,從而關(guān)聯(lián)科學(xué)數(shù)據(jù)與科技文獻(xiàn)。
科學(xué)數(shù)據(jù);科技文獻(xiàn);元數(shù)據(jù);向量空間模型;特征提取
隨著科學(xué)數(shù)據(jù)的高速增長(zhǎng)和科學(xué)數(shù)據(jù)驅(qū)動(dòng)的科研范式的逐步形成,科學(xué)數(shù)據(jù)在整個(gè)科研流程中的重要性越來(lái)越受到重視。對(duì)于科研工作者而言,學(xué)術(shù)資源已不再僅僅是指期刊文獻(xiàn)和專著等傳統(tǒng)文獻(xiàn)類型,科學(xué)數(shù)據(jù)和科研記錄資料等也逐漸成為科研人員學(xué)術(shù)信息需求的重點(diǎn)。將科學(xué)數(shù)據(jù)與現(xiàn)有的基于科技文獻(xiàn)的科研信息支撐系統(tǒng)有效地關(guān)聯(lián),提供高質(zhì)量集成信息服務(wù),進(jìn)而提高科學(xué)研究活動(dòng)效率,成為一個(gè)迫切需要解決的問(wèn)題。
開(kāi)展科學(xué)數(shù)據(jù)與科技文獻(xiàn)之間的關(guān)聯(lián)對(duì)于科學(xué)數(shù)據(jù)的獲取與共享、科學(xué)數(shù)據(jù)的復(fù)用和科研創(chuàng)新、科技文獻(xiàn)的評(píng)價(jià)與評(píng)審乃至學(xué)術(shù)交流體系的轉(zhuǎn)變等都有極其重要的意義。為此,一些研究者也開(kāi)展了相關(guān)的研究,文獻(xiàn)[1]以Elsevier出版集團(tuán)的科學(xué)文獻(xiàn)與科學(xué)數(shù)據(jù)關(guān)聯(lián)實(shí)踐為研究對(duì)象,深入分析其4種關(guān)聯(lián)方式;文獻(xiàn)[2]分析了科學(xué)數(shù)據(jù)的不同來(lái)源以及科學(xué)數(shù)據(jù)與科技文獻(xiàn)的不同關(guān)聯(lián)模式;文獻(xiàn)[3]分析了當(dāng)前期刊、出版商、數(shù)據(jù)庫(kù)商等不同主體,探索通過(guò)期刊與數(shù)據(jù)互聯(lián)、數(shù)據(jù)庫(kù)服務(wù)、科學(xué)數(shù)據(jù)期刊等途徑提供關(guān)聯(lián)服務(wù)的嘗試;文獻(xiàn)[4]基于引文進(jìn)行了科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)研究。同時(shí),本文作者在對(duì)科學(xué)數(shù)據(jù)與科技文獻(xiàn)的關(guān)聯(lián)研究中,提出了基于元數(shù)據(jù)進(jìn)行兩者的關(guān)聯(lián),并就關(guān)聯(lián)的模式及可行性進(jìn)行了分析[5]。在該研究的基礎(chǔ)上,本文從科學(xué)數(shù)據(jù)和科技文獻(xiàn)的元數(shù)據(jù)中提取出表達(dá)內(nèi)容特征的元數(shù)據(jù)項(xiàng),基于內(nèi)容特征進(jìn)行科學(xué)數(shù)據(jù)與科技文獻(xiàn)的關(guān)聯(lián)研究。
特征是對(duì)一個(gè)客體或一組客體特性的抽象結(jié)果??茖W(xué)數(shù)據(jù)和科技文獻(xiàn)的特征都可以分為外部特征和內(nèi)部特征。科學(xué)數(shù)據(jù)的外部特征是指創(chuàng)建者、數(shù)據(jù)來(lái)源、發(fā)布機(jī)構(gòu)、數(shù)據(jù)量、格式、語(yǔ)種等與其表達(dá)內(nèi)容沒(méi)有過(guò)多關(guān)系的特征,內(nèi)部特征是指數(shù)據(jù)名稱、關(guān)鍵詞、摘要(簡(jiǎn)介)等表達(dá)數(shù)據(jù)內(nèi)容的特征。科技文獻(xiàn)的外部特征是指著者、著者單位、著者機(jī)構(gòu)等,而內(nèi)部特征是指題名、摘要、主題詞、關(guān)鍵詞等反映文獻(xiàn)內(nèi)容的特征。如果能提取科學(xué)數(shù)據(jù)和科技文獻(xiàn)的內(nèi)容特征,并建立他們之間的關(guān)聯(lián),就能將其背后的科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)起來(lái)。
科學(xué)數(shù)據(jù)是指各類科技活動(dòng)產(chǎn)生的原始性基礎(chǔ)性數(shù)據(jù)及按照不同需求加工后的數(shù)據(jù)集和相關(guān)信息[6]。作為一種信息資源,科學(xué)數(shù)據(jù)的具體格式和類型包括:觀察模擬數(shù)據(jù);分類術(shù)語(yǔ)表;數(shù)學(xué)表達(dá)式;分子、化學(xué)、基因表達(dá)式;結(jié)構(gòu)、物理、計(jì)算模型;表格、圖形、圖表、地圖、圖片;實(shí)地與試驗(yàn)筆記等??茖W(xué)數(shù)據(jù)由于其具有數(shù)據(jù)的大量性、不均勻性、不規(guī)整性、動(dòng)力學(xué)性、高維性等特點(diǎn)[7],對(duì)其特征進(jìn)行描述是比較困難的。作者對(duì)一些科學(xué)數(shù)據(jù)庫(kù)及共享平臺(tái)進(jìn)行了研究分析,其在對(duì)科學(xué)數(shù)據(jù)的特征進(jìn)行揭示時(shí),主要是通過(guò)元數(shù)據(jù)來(lái)進(jìn)行描述的。元數(shù)據(jù)以其互操作性、可擴(kuò)展性、語(yǔ)言互用性、可映射性等特點(diǎn),已成為科學(xué)數(shù)據(jù)管理的基礎(chǔ),目前各科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)大多使用元數(shù)據(jù)來(lái)描述科學(xué)數(shù)據(jù)的外部特征和內(nèi)容特征,進(jìn)行科學(xué)數(shù)據(jù)的管理以及實(shí)現(xiàn)不同平臺(tái)間科學(xué)數(shù)據(jù)的交換與整合。
作者在對(duì)國(guó)內(nèi)建設(shè)得比較完善的10個(gè)科學(xué)數(shù)據(jù)平臺(tái)做了分析[5]。這些科學(xué)數(shù)據(jù)平臺(tái)通過(guò)元數(shù)據(jù)來(lái)描述數(shù)據(jù)本身的特征和屬性,從而利于科學(xué)數(shù)據(jù)的存儲(chǔ)、利用和管理。各科學(xué)數(shù)據(jù)平臺(tái)多以DC定義的15個(gè)基本的核心元數(shù)據(jù)作為科學(xué)數(shù)據(jù)基本元數(shù)據(jù)。除此之外,再根據(jù)各學(xué)科科學(xué)數(shù)據(jù)的特點(diǎn),進(jìn)行有效拓展,定義一些和基本元素不重復(fù)的新元素。從調(diào)查發(fā)現(xiàn),主要的元數(shù)據(jù)描述項(xiàng)包括數(shù)據(jù)名稱、格式、關(guān)鍵詞、摘要(簡(jiǎn)介)、數(shù)據(jù)量、語(yǔ)種、分類、數(shù)據(jù)來(lái)源、創(chuàng)建者、其他貢獻(xiàn)者、創(chuàng)建日期、發(fā)布機(jī)構(gòu)、關(guān)聯(lián)信息、范圍(時(shí)間范圍、空間范圍)、聯(lián)系信息等。
國(guó)外的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)平臺(tái)同樣通過(guò)元數(shù)據(jù)進(jìn)行數(shù)據(jù)描述。Dryad數(shù)據(jù)庫(kù)旨在實(shí)現(xiàn)對(duì)進(jìn)化生物學(xué)領(lǐng)域期刊論文的支撐數(shù)據(jù)的保存、發(fā)現(xiàn)、復(fù)用和管理的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)[8]。
Dryad的元數(shù)據(jù)描述以DC元數(shù)據(jù)元素為基礎(chǔ),融合了其他元數(shù)據(jù)標(biāo)準(zhǔn)的元素。目前Dryad的元數(shù)據(jù)元素包括數(shù)據(jù)名稱、類型、作者、國(guó)家、提交日期、可獲取日期、卷期、DOI識(shí)別符、引用、統(tǒng)一資源標(biāo)識(shí)符、描述、主題詞、關(guān)聯(lián)信息(來(lái)源文獻(xiàn)DOI識(shí)別符、來(lái)源文獻(xiàn)PMID號(hào))。PANGAEA[9]是一個(gè)地球環(huán)境科學(xué)領(lǐng)域的數(shù)據(jù)倉(cāng)儲(chǔ),PANGAEA允許數(shù)據(jù)提交者通過(guò)使用都柏林核心、DIF或ISO 19115元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行地球環(huán)境科學(xué)科學(xué)數(shù)據(jù)的描述。目前PANGAEA的元數(shù)據(jù)元素主要包括數(shù)據(jù)名稱、關(guān)聯(lián)信息(來(lái)源文獻(xiàn)DOI識(shí)別符)、摘要、空間范圍、空間參數(shù)、知識(shí)共享署名許可協(xié)議、引用和責(zé)任方信息等。基于此,從元數(shù)據(jù)中提取科學(xué)數(shù)據(jù)的內(nèi)容特征既具有高效性又具有可行性。
元數(shù)據(jù)的目的之一是用于有效地描述文獻(xiàn)的原始數(shù)據(jù),保存文獻(xiàn)數(shù)據(jù)的內(nèi)在本質(zhì),特別是對(duì)于文獻(xiàn)類電子資源。雖然,元數(shù)據(jù)的出現(xiàn)是網(wǎng)絡(luò)發(fā)展的產(chǎn)物,但是從其出現(xiàn)之初,就受到了圖書(shū)館界和數(shù)據(jù)庫(kù)商的青睞。圖書(shū)館在建立數(shù)字圖書(shū)館時(shí),數(shù)據(jù)庫(kù)商對(duì)文獻(xiàn)類電子資源進(jìn)行發(fā)展、推廣和應(yīng)用時(shí),都迫切需要一種標(biāo)準(zhǔn)和規(guī)范來(lái)描述文獻(xiàn)類電子資源的原始屬性,因此,元數(shù)據(jù)成為對(duì)文獻(xiàn)原始屬性進(jìn)行描述的一大選擇。文獻(xiàn)[10]對(duì)萬(wàn)方等幾個(gè)數(shù)字圖書(shū)館系統(tǒng)元數(shù)據(jù)使用情況進(jìn)行了統(tǒng)計(jì)。中科院文獻(xiàn)情報(bào)中心的研究人員也針對(duì)期刊論文的元數(shù)據(jù)描述規(guī)范進(jìn)行了專門(mén)的研究,其元數(shù)據(jù)元素見(jiàn)表1[11]。由此可見(jiàn),一篇科技文獻(xiàn)可以從它的元數(shù)據(jù)元素中提取題名、主題、描述等來(lái)表示科技文獻(xiàn)的內(nèi)容特征。因此,從元數(shù)據(jù)中提取科技文獻(xiàn)的內(nèi)容特征同樣是具有可行性的。
表1 期刊論文元數(shù)據(jù)構(gòu)成
由此可見(jiàn),元數(shù)據(jù)已經(jīng)廣泛地存在于文獻(xiàn)數(shù)據(jù)庫(kù)和科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)中,為兩者的關(guān)聯(lián)提供了較為豐富的數(shù)據(jù)基礎(chǔ)。表2中對(duì)科學(xué)數(shù)據(jù)與科技文獻(xiàn)的元數(shù)據(jù)元素進(jìn)行對(duì)比,在元數(shù)據(jù)元素名稱上雖然兩者的表述方式存在差異,但是其描述的實(shí)質(zhì)內(nèi)容卻是一樣的,特別是在內(nèi)容特征元素的描述上是可以相互映射的。通過(guò)提取兩者元數(shù)據(jù)中的標(biāo)題、摘要、關(guān)鍵詞等文本描述字段,可以進(jìn)行兩者內(nèi)容特征的關(guān)聯(lián),從而實(shí)現(xiàn)科學(xué)數(shù)據(jù)與科技文獻(xiàn)的關(guān)聯(lián)。
表2 科學(xué)數(shù)據(jù)與科技文獻(xiàn)元數(shù)據(jù)映射表
基于以上的研究分析,本研究通過(guò)對(duì)科學(xué)數(shù)據(jù)和科技文獻(xiàn)元數(shù)據(jù)項(xiàng)中的內(nèi)容特征進(jìn)行提取,并對(duì)提取的特征信息進(jìn)行相似性計(jì)算,從而判斷科學(xué)數(shù)據(jù)和科技文獻(xiàn)是否具有內(nèi)容相似性,見(jiàn)圖1。
利用文本進(jìn)行相似性計(jì)算的方法有多種,本研究主要采用向量空間模型(Vector Space Model,VSM)進(jìn)行文本特征表示,通過(guò)TF-IDF方法進(jìn)行特征的權(quán)值計(jì)算,采用余弦相似度計(jì)算方法來(lái)衡量資源對(duì)象的相似性。
圖1 科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)圖
向量空間模型的基本思想是[12]:設(shè)自然語(yǔ)言文本表示為D,預(yù)定義的特征詞集合表示為(T0,T1,…,Tn-1。通過(guò)計(jì)算機(jī)自動(dòng)分詞并計(jì)算出相應(yīng)特征詞的權(quán)重(W0,W1,…,Wn-1)后,文本D可用特征項(xiàng)及相應(yīng)的權(quán)重表示為D(T0,W0,T1,W1,…,Tn-1,Wn-1),其中n為文本D所含特征詞的個(gè)數(shù),Ti為某一特征詞,Wi為根據(jù)某種規(guī)則計(jì)算出的該特征詞的權(quán)重。若不考慮Ti在文獻(xiàn)中出現(xiàn)的先后順序且Ti,i=0,1,…,n-1互異時(shí),可以把(T0,T1,…,Tn-1)看作是一個(gè)n維坐標(biāo)系,(W0,W1,…,Wn-1)則代表該坐標(biāo)系構(gòu)成的n維空間中的一個(gè)點(diǎn)或向量,這個(gè)向量為文本D的向量表示或者向量空間模型。
使用TF-IDF(Term Frequency-Inverse Document Frequency)方法進(jìn)行特征的權(quán)值計(jì)算,文獻(xiàn)Di中第j個(gè)特征詞的權(quán)值Wij可以通過(guò)TF×TIF得到,其中TF(Term Frequency)和IDF(Inverse Document Frequency)分別表示術(shù)語(yǔ)頻率和逆文檔頻率。TF用于度量特征詞在特定文獻(xiàn)的重要程度,其值越大說(shuō)明這個(gè)特征詞越能反映文獻(xiàn)的核心問(wèn)題。文獻(xiàn)Di中第j個(gè)特征詞術(shù)語(yǔ)頻率為:
(1)
其中,|Tj|表示在文獻(xiàn)Di中特征詞Tj出現(xiàn)的次數(shù),|Di|表示Di中所有單詞的個(gè)數(shù)IDF用于度量特征詞在整個(gè)文獻(xiàn)集中的重要性。一般來(lái)說(shuō),整個(gè)文獻(xiàn)集包含某一項(xiàng)T的文獻(xiàn)越多,則表明這個(gè)特征項(xiàng)在該文獻(xiàn)集中區(qū)分不同文獻(xiàn)的能力較差,對(duì)特定文獻(xiàn)的專指度也比較低,因而其值也就越小。Di中第j個(gè)特征詞的倒文本率為:
(2)
其中,Num表示文獻(xiàn)集中的文獻(xiàn)總數(shù),df(j)表示在所有被分析的文獻(xiàn)中,包含了特征詞Tj的文獻(xiàn)數(shù)目。根據(jù)公式(1)、(2)分別計(jì)算出某特征詞的TF和IDF值,并將這兩個(gè)值相乘就得到了該特征詞的權(quán)值。從科技文獻(xiàn)的元數(shù)據(jù)文本內(nèi)容中抽取的特征向量表示為D(Ti0,Wi0,Ti1,Wi1,…,Tin-1,Win-1),其中Ti表示第i個(gè)文本特征項(xiàng),Wi表示該特征項(xiàng)的權(quán)重,從科學(xué)數(shù)據(jù)的元數(shù)據(jù)文本內(nèi)容中抽取的特征向量表示為Sj(Tj0,Wj0,Tj1,Wj1,…,Tjm-1,Wjm-1,其中Tj表示第j個(gè)文本特征項(xiàng),WJ表示該特征項(xiàng)的權(quán)重。
當(dāng)文本以向量形式表示時(shí),文本的相似度用文本特征向量的距離來(lái)衡量,即使用向量間夾角θ的余弦來(lái)計(jì)算,余弦計(jì)算正好是一個(gè)介于0~1的數(shù),如果向量一致就是1,如果正交就是0,符合相似度百分比的特性:
(3)
選用國(guó)家地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺(tái)中的“青藏高原東緣森林生態(tài)系統(tǒng)土壤有機(jī)質(zhì)和養(yǎng)分?jǐn)?shù)據(jù)”[13]作為測(cè)試數(shù)據(jù),在科技文獻(xiàn)的選取上,采用人工判定的方法,選取了4篇相關(guān)性的文獻(xiàn)及2篇不相關(guān)的文獻(xiàn),具體見(jiàn)表3。通過(guò)對(duì)該科學(xué)數(shù)據(jù)與各科技文獻(xiàn)的特征向量進(jìn)行相似性計(jì)算,來(lái)驗(yàn)證該科學(xué)數(shù)據(jù)與科技文獻(xiàn)的相關(guān)性是否與人工設(shè)定的一致。
表3 實(shí)驗(yàn)分析來(lái)源數(shù)據(jù)
我們利用文本特征詞提取工具ROST TF-IDF[14]及內(nèi)容挖掘工具ROST Content Mining分析科學(xué)數(shù)據(jù)及科技文獻(xiàn)的元數(shù)據(jù)中表示內(nèi)容特征的元素項(xiàng)的文本內(nèi)容,ROST TFIDF嵌入了tf-idf Chinese模塊,根據(jù)特征詞權(quán)重的TF-IDF量化方法原理,對(duì)文本進(jìn)行分詞和詞頻統(tǒng)計(jì),得到“逆文本頻率指數(shù)”IDF和TF以及TF*IDF的值,見(jiàn)圖2。提取出科學(xué)數(shù)據(jù)和各科技文獻(xiàn)的特征向量,通過(guò)公式3進(jìn)行科學(xué)數(shù)據(jù)與預(yù)先設(shè)定的科技文獻(xiàn)的相似性計(jì)算和判定,結(jié)果證明通過(guò)向量空間模型計(jì)算出的科學(xué)數(shù)據(jù)與科技文獻(xiàn)的關(guān)聯(lián)性與人工判斷的關(guān)聯(lián)性是一致的。
圖2 ROST CM使用過(guò)程圖
近年來(lái),一批具有高使用價(jià)值的科學(xué)數(shù)據(jù)共享平臺(tái)逐步建立起來(lái)并投入使用,同時(shí),地球科學(xué)、生物學(xué)、空間科學(xué)、材料科學(xué)等學(xué)科領(lǐng)域在科學(xué)數(shù)據(jù)元數(shù)據(jù)的標(biāo)準(zhǔn)、結(jié)構(gòu)、管理體系、互操作性等方面進(jìn)行了研究,建立了相應(yīng)的科學(xué)數(shù)據(jù)共享服務(wù)的元數(shù)據(jù)體系結(jié)構(gòu),這些都為筆者從科學(xué)數(shù)據(jù)與科技文獻(xiàn)的元數(shù)據(jù)中提取內(nèi)容特征奠定了良好的基礎(chǔ)。本文提出了從題名、主題、描述等元數(shù)據(jù)項(xiàng)中提取科學(xué)數(shù)據(jù)與科技文獻(xiàn)的內(nèi)容特征,通過(guò)向量空間模型進(jìn)行兩者相似度計(jì)算,從而進(jìn)行科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)的方法。在實(shí)踐過(guò)程中還會(huì)涉及元數(shù)據(jù)收割、元數(shù)據(jù)映射等相關(guān)內(nèi)容。同時(shí),由于自然語(yǔ)言的復(fù)雜性,提取出的特征詞在表達(dá)對(duì)象內(nèi)容時(shí)可能存在語(yǔ)義上的不確定性。針對(duì)以上問(wèn)題,將在今后進(jìn)行更加深入的研究。
[1]衛(wèi)軍朝.科學(xué)文獻(xiàn)與科學(xué)數(shù)據(jù)關(guān)聯(lián)實(shí)踐研究——以Elsevier為例[J].國(guó)家圖書(shū)館學(xué)刊,2017,(3):93-101.
[2]孫文佳,常娥.科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)分析[J].圖書(shū)館理論與實(shí)踐,2017,(3):49-53.
[3]邱春艷.期刊文獻(xiàn)與科學(xué)數(shù)據(jù)的關(guān)聯(lián)服務(wù)研究[J].情報(bào)資料工作,2014,(2):63-66.
[4]郭學(xué)武.基于引文的科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)研究[J].情報(bào)科學(xué),2014,(4):59-62,125.
[5]黃筱瑾.基于元數(shù)據(jù)的科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)研究[J].情報(bào)理論與實(shí)踐,2013,(7):27-30.
[6]鄭淑容,趙培云.科學(xué)數(shù)據(jù)共享管理:?jiǎn)栴}及對(duì)策[J].中國(guó)科技成果,2003,(23):8-10
[7]秦?。獢?shù)據(jù)與科學(xué)數(shù)據(jù)信息的組織與管理[EB].2004年數(shù)字圖書(shū)館前沿問(wèn)題高級(jí)研討班.http://www.docin.com/p-19306708.html,2015-04-04.
[8]黃如花,邱春艷.Dryad數(shù)據(jù)倉(cāng)儲(chǔ)的元數(shù)據(jù)管理[J].圖書(shū)館雜志,2014,(1):68-73.
[9]PANGAEA[EB].https://www.pangaea.de/?t=Oceans,2017-07-17.
[10]金更達(dá).文獻(xiàn)類電子資源元數(shù)據(jù)發(fā)展淺議[J].大學(xué)圖書(shū)館學(xué)報(bào),2003,(6):15-19.
[11]我國(guó)數(shù)字圖書(shū)館標(biāo)準(zhǔn)規(guī)范建設(shè):期刊論文描述元數(shù)據(jù)規(guī)范[EB].https://wenku.baidu.com/view/7934fe2bccbff121dd3683 a4.html,2004.5.
[12]劉斌,陳樺.向量空間模型信息檢索技術(shù)討論[J].情報(bào)雜志,2006,(7):92-93,91.
[13]國(guó)家地球系統(tǒng)科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái).青藏高原東緣森林生態(tài)系統(tǒng)土壤有機(jī)質(zhì)和養(yǎng)分?jǐn)?shù)據(jù)[EB].http://www.geodata.cn/data/datadetails.html?dataguid=243357923654808&docId=576,2017-07-17.
[14]ROST虛擬學(xué)習(xí)團(tuán)隊(duì).ROST Content Mining System User Manual[EB].http://wenku.baidu.com/view/e7a62df3f90f76c661371a 76.html?re=view,2017-04-02.
LinkStudyofScientificDataandScientificLiteratureBasedonContentFeatures
Huang Xiaojin
(Library,Chengdu University of Technology,Chengdu 610059,China)
Scientific data and scientific literature are two important forms of scientific research outputs.Link application of scientific data and scientific literature plays a vital part in realizing integrated information service,facilitating knowledge discovery and improving e-science environment.The paper extracted content features from the metadata of both,used vector space model to perform similarity calculation of content features.So then,it associated the scientific data and scientific literature on the basement of content features.
scientific data;scientific literature;metadata;vector space model;feature extraction
10.3969/j.issn.1008-0821.2018.01.008
G257.3
A
1008-0821(2018)01-0056-04
2017-09-13
四川省高校人文社會(huì)科學(xué)重點(diǎn)研究基地科研項(xiàng)目“社會(huì)科學(xué)數(shù)據(jù)與社科文獻(xiàn)關(guān)聯(lián)性研究”(項(xiàng)目編號(hào)SCAA14B18)。
黃筱瑾(1984-),女,館員,碩士,研究方向:信息資源組織與建設(shè)。
(實(shí)習(xí)編輯:陳 媛)