李鵬程 劉應(yīng)波, 王 鋒 文若瑾
1(昆明理工大學(xué)計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室 云南 昆明 650504)2(云南省科學(xué)技術(shù)情報(bào)研究院 云南 昆明 650051)
云南省科學(xué)技術(shù)情報(bào)研究院已建成包括科技文獻(xiàn)服務(wù)平臺(tái)、科學(xué)數(shù)據(jù)共享平臺(tái)、大型科學(xué)儀器數(shù)據(jù)庫等多個(gè)支撐云南省科技創(chuàng)新和科技服務(wù)管理需要的科技信息資源綜合服務(wù)平臺(tái)和數(shù)據(jù)庫。其中科技文獻(xiàn)服務(wù)管理平臺(tái)的數(shù)據(jù)量已經(jīng)達(dá)到30 TB規(guī)模,包含與云南科技管理服務(wù)需要的8個(gè)相關(guān)子庫,合計(jì)超過4億條文獻(xiàn)信息數(shù)據(jù),且每年正在以2千多萬條的速率增長。這些數(shù)據(jù)資源從來源形式、數(shù)據(jù)格式、數(shù)據(jù)類型、服務(wù)方式、數(shù)據(jù)管理方式等方面體現(xiàn)出極大的異構(gòu)性、分散性以及海量性。這些特性導(dǎo)致了科技文獻(xiàn)信息資源在服務(wù)過程中出現(xiàn)整合度不高、利用率低以及難以共享等缺點(diǎn),特別是在大數(shù)據(jù)環(huán)境下,為異構(gòu)數(shù)據(jù)資源的數(shù)據(jù)挖掘以及綜合服務(wù)帶來了巨大的影響。如何有效地對(duì)其進(jìn)行描述和統(tǒng)一存儲(chǔ)是科技文獻(xiàn)信息資源服務(wù)應(yīng)用的基礎(chǔ),也是當(dāng)前必須解決的問題。
目前,這些數(shù)據(jù)大多以關(guān)系型數(shù)據(jù)庫存儲(chǔ)為主,隨著數(shù)據(jù)量的增長,分庫、分表的問題越來越顯著,對(duì)數(shù)據(jù)管理的挑戰(zhàn)也越來越嚴(yán)峻。因此,急需研究探索新型的異構(gòu)科技文獻(xiàn)信息資源的整合方法和存儲(chǔ)模式。特別是大數(shù)據(jù)環(huán)境下,如何利用非結(jié)構(gòu)化數(shù)據(jù)庫來存儲(chǔ)異構(gòu)科技文獻(xiàn)資源,滿足它們分散、異構(gòu)和海量等特性的需求也變得越來越重要。
非結(jié)構(gòu)化數(shù)據(jù)庫NoSQL[1-3]被認(rèn)為是應(yīng)對(duì)大數(shù)據(jù)應(yīng)用挑戰(zhàn),解決大規(guī)模數(shù)據(jù)集合存儲(chǔ)和管理的有效方案[4],已經(jīng)得到了廣泛應(yīng)用,如文獻(xiàn)[4-8]。國內(nèi)外對(duì)科技文獻(xiàn)領(lǐng)域內(nèi)的NoSQL存儲(chǔ)研究的文獻(xiàn)較少,研究工作幾乎都是在傳統(tǒng)關(guān)系型數(shù)據(jù)庫平臺(tái)上,如文獻(xiàn)[9, 10],對(duì)于異構(gòu)科技文獻(xiàn)資源的存儲(chǔ)研究,江云等[11]論述了基于NoSQL的圖書館異構(gòu)數(shù)據(jù)集成方式,提出了將異構(gòu)數(shù)據(jù)進(jìn)行包裝對(duì)外提供統(tǒng)一的數(shù)據(jù)訪問服務(wù)。溫浩宇等[12]提出了基于NoSQL中間件模型的數(shù)據(jù)基礎(chǔ)方法,能夠有利于數(shù)字圖書館存儲(chǔ)各種結(jié)構(gòu)的數(shù)據(jù)。張紅[13]闡述了國家圖書館在構(gòu)建“文津搜索”系統(tǒng)服務(wù)平臺(tái)時(shí),結(jié)合各種NoSQL數(shù)據(jù)庫,解決海量數(shù)據(jù)帶來的數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理和數(shù)據(jù)挖掘等問題。在異構(gòu)科技文獻(xiàn)整合方面,衛(wèi)軍朝對(duì)山西高校科技文獻(xiàn)數(shù)據(jù)庫進(jìn)行了異構(gòu)整合[14]。曹畋[15]通過大數(shù)據(jù)技術(shù)中的服務(wù)數(shù)據(jù)對(duì)象SDO(Service Data Objects)技術(shù)大大簡(jiǎn)化了異構(gòu)數(shù)據(jù)統(tǒng)一訪問的難題。王石榴等[16]提出利用語義Web解決科技期刊元數(shù)據(jù)異構(gòu)共享問題的具體方案。
綜合來看目前科技文獻(xiàn)領(lǐng)域的主要研究工作集中在:1) 基于XML的文獻(xiàn)信息資源整合,缺乏全面的異構(gòu)數(shù)據(jù)模式分析及實(shí)現(xiàn);2) NoSQL論述性及體系結(jié)構(gòu)對(duì)比研究,缺乏具體針對(duì)性實(shí)例;3) 關(guān)系型數(shù)據(jù)庫平臺(tái)上的異構(gòu)科技文獻(xiàn)服務(wù),缺乏大數(shù)據(jù)支持研究。
當(dāng)前科技服務(wù)部門通常會(huì)構(gòu)建并整合來自多個(gè)機(jī)構(gòu)部門的科技數(shù)據(jù)信息資源,需要建立海量數(shù)據(jù)存儲(chǔ)及管理服務(wù)系統(tǒng),能夠有效管理億級(jí)別的文獻(xiàn)數(shù)據(jù),其中關(guān)鍵技術(shù)是如何對(duì)海量異構(gòu)的科技文獻(xiàn)數(shù)據(jù)進(jìn)行描述以及如何存儲(chǔ)這些描述數(shù)據(jù)。本文針對(duì)這兩方面的問題,從非關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)模式角度開展如何描述異構(gòu)的科技文獻(xiàn)信息資源,以及研究如何有效存儲(chǔ)這些描述數(shù)據(jù)。
1.1 科技文獻(xiàn)信息資源特征
科技文獻(xiàn)信息資源主要包括科技圖書、科技期刊、科技報(bào)告、會(huì)議文獻(xiàn)、專利文獻(xiàn)、標(biāo)準(zhǔn)文獻(xiàn)、學(xué)位論文、產(chǎn)品資料以及技術(shù)檔案等,是網(wǎng)絡(luò)環(huán)境下較為便捷的資源表現(xiàn)方式,從資源本身來看具有如下幾方面的特征。1) 文獻(xiàn)資源的規(guī)范性。文獻(xiàn)資源的組織形式通常具有一定的規(guī)范性。例如文獻(xiàn)的標(biāo)題、摘要、關(guān)鍵字等。2) 資源之間的關(guān)聯(lián)性。文獻(xiàn)之間通常以某種規(guī)范的引用方式相互聯(lián)系,例如,期刊論文的引用信息。3) 描述文獻(xiàn)資源的元數(shù)據(jù)信息具有結(jié)構(gòu)化特征,而文獻(xiàn)本身一般屬于非結(jié)構(gòu)化數(shù)據(jù)。
1.2 科技文獻(xiàn)元數(shù)據(jù)
通常來說,元數(shù)據(jù)的提取及辨識(shí)是提供資源檢索的直接方式。元數(shù)據(jù)又稱中介數(shù)據(jù),主要用于描述數(shù)據(jù)的屬性,為了進(jìn)一步加強(qiáng)數(shù)據(jù)交互,提供更強(qiáng)的數(shù)據(jù)共享、管理和檢索服務(wù),目前國內(nèi)外已經(jīng)制定了一些通用性的元數(shù)據(jù)規(guī)范,例如Dublin Core、PICS、Web Collections等。國際標(biāo)準(zhǔn)(ISO)和國家標(biāo)準(zhǔn)(GB)均對(duì)不同類型的資源有不同的元數(shù)據(jù)規(guī)范準(zhǔn)則。雖然科技文獻(xiàn)的元數(shù)據(jù)具有相關(guān)的規(guī)范標(biāo)準(zhǔn),但是各家機(jī)構(gòu)所參照的元數(shù)據(jù)標(biāo)準(zhǔn)不一樣,再加上自身的一些特色信息,導(dǎo)致了即便是基于元數(shù)據(jù)標(biāo)準(zhǔn),但是依然會(huì)有差異性的存在。例如專家元數(shù)據(jù)包括:姓名、教育背景、最高學(xué)位、專業(yè)領(lǐng)域與研究方向、國內(nèi)外學(xué)術(shù)或?qū)I(yè)團(tuán)體任職情況、院士、專家榮譽(yù)、專家特色等。而法規(guī)元數(shù)據(jù)包括:標(biāo)題、發(fā)文文號(hào)、頒布部門、效力級(jí)別、效力代碼、時(shí)效性、批準(zhǔn)日期、簽字日期、頒布日期、實(shí)施日期、失效日期等。
為了方便后續(xù)討論,首先對(duì)科技文獻(xiàn)進(jìn)行抽象化描述:
定義科技文獻(xiàn)信息數(shù)據(jù)資源為二元組S:
S={M,C}
(1)
M為元數(shù)據(jù)描述信息,C為內(nèi)容,其中M是由n個(gè)描述C的特征值f構(gòu)成的集合:
M={f1,f2,…,fn}
(2)
可以把法規(guī)表示為:
(3)
為了便于表示,定義fref作為C的引用,加入到M特征集合中,用于描述C的位置信息。例如,文獻(xiàn)的存儲(chǔ)路徑或者網(wǎng)絡(luò)地址等。則文獻(xiàn)類型ST的元數(shù)據(jù)最終用下式描述:
Mst={f1,f2,…,fn,fref}
(4)
在強(qiáng)調(diào)特征量順序關(guān)系的時(shí)候,也可以表示成向量的形式:
VMst=[f1,f2,…,fn,fref]T
(5)
這樣可以很方便地獲得文獻(xiàn)的位置:
Posref=Size(VMst)-1
對(duì)于科技文獻(xiàn)信息資源的各種類型就可以很方便地描述如下:
很顯然,這種方式非常適合傳統(tǒng)關(guān)系型數(shù)據(jù)庫的關(guān)系模式存儲(chǔ)。每一種類型可以對(duì)應(yīng)一張關(guān)系型數(shù)據(jù)庫的表,特征量對(duì)應(yīng)于關(guān)系型數(shù)據(jù)庫中的字段,所有的類型則對(duì)應(yīng)于一個(gè)規(guī)范的數(shù)據(jù)庫。這在異構(gòu)的數(shù)據(jù)存儲(chǔ)過程中帶來了巨大的難度,因?yàn)椴煌瑪?shù)據(jù)庫對(duì)于每一類型的f定義不同,它在數(shù)據(jù)庫中的類型,長度存在很大的不同。所以造成了統(tǒng)一存儲(chǔ)的困難性,并且對(duì)應(yīng)動(dòng)態(tài)擴(kuò)展f較為困難,一旦表結(jié)構(gòu)發(fā)生變化,不可避免地要修改相應(yīng)的應(yīng)用程序。為了克服這種不足,本文采用Schema-Free的非結(jié)構(gòu)化數(shù)據(jù)模型來存儲(chǔ)異構(gòu)科技文獻(xiàn)數(shù)據(jù)。下面以Cassandra非關(guān)系型數(shù)據(jù)庫為例,研究存儲(chǔ)異構(gòu)科技文獻(xiàn)信息資源的數(shù)據(jù)模式。
Cassandra[17]是一個(gè)開源的面向列的分布式非關(guān)系型數(shù)據(jù)庫,也可以把它看成4維的哈希結(jié)構(gòu)構(gòu)成的Key/Value數(shù)據(jù)模式(見圖1)。這種數(shù)據(jù)模式不需要像數(shù)據(jù)庫一樣預(yù)先設(shè)計(jì)Schema,可以非常方便地隨時(shí)進(jìn)行模式更改、增加或者刪除字段,同時(shí)該數(shù)據(jù)庫具備高可用、高擴(kuò)展的特點(diǎn),研究將基于Cassandra構(gòu)建異構(gòu)科技文獻(xiàn)信息資源的數(shù)據(jù)存儲(chǔ)模型。
圖1 Cassandra數(shù)據(jù)模型
Cassandra表中的每個(gè)列都?xì)w屬于某個(gè)列族。列族由邏輯容器Keyspaces裝載,每一個(gè)列族都被設(shè)計(jì)為一組數(shù)據(jù)關(guān)聯(lián)或排,用戶可以根據(jù)需求場(chǎng)景只保存所需數(shù)據(jù),而不必拘泥于早前定義的表結(jié)構(gòu)。通常我們用三種方式檢索Cassandra表中的數(shù)據(jù),分別為:指定單個(gè)行鍵查詢、指定行鍵范圍查詢以及掃面(Scan)構(gòu)成Cassandra表數(shù)據(jù)的四個(gè)核心基礎(chǔ)是Column Family(簡(jiǎn)寫為CF)、Column Key(簡(jiǎn)寫為CK)、Keyspaces還有RowKey。其特點(diǎn)是:鍵空間是Cassandra的數(shù)據(jù)容器,列族和列關(guān)鍵字都可以動(dòng)態(tài)增長,一個(gè)列族可能包括若干列關(guān)鍵字。行的標(biāo)識(shí)用RowKey表示。式(1)的關(guān)系型模型可以通過如下公式描述,表關(guān)系ψ有s個(gè)列族構(gòu)成:
ψ={CFi|0≤i≤s}
(6)
列族i包含的k個(gè)列,表示如下:
CFij={CKj|0≤j≤k}
(7)
3.1 多列族
為了方便理解,列族可以想象成嵌套并排序的map,map可以進(jìn)行高效查詢,同時(shí)排序的特性可以進(jìn)行高效的Column掃描。在Cassandra中,可以使用RowKey和CK進(jìn)行高效查詢和范圍掃描。式的關(guān)系如表1所示。表1是一種理論上的表示,列族可以無限制動(dòng)態(tài)增加。
表1 Cassandra多列族科技文獻(xiàn)信息資源存儲(chǔ)
3.2 單列族
在對(duì)查詢性能要求不高的應(yīng)用中,使用多列族的數(shù)據(jù)模型會(huì)額外增加數(shù)據(jù)查詢所需要的性能開銷。因此,大多數(shù)情況下,基于Cassandra的數(shù)據(jù)模型的創(chuàng)建同樣會(huì)考慮采用單列族的形式。使用單列族的方式如表2所示。
表2 Cassandra單列族科技文獻(xiàn)信息資源存儲(chǔ)
3.3 NoSQL數(shù)據(jù)適配器設(shè)計(jì)
目前,云南省科學(xué)技術(shù)情報(bào)研究院的科技文獻(xiàn)資源多數(shù)基于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫實(shí)現(xiàn)例如SQLServer和MySQL。為了能夠利用大數(shù)據(jù)處理工具,如Hadoop、Spark等,需要把這些信息資源轉(zhuǎn)移到NoSQL上,本文設(shè)計(jì)了如下傳統(tǒng)SQL數(shù)據(jù)庫到NoSQL數(shù)據(jù)庫的數(shù)據(jù)轉(zhuǎn)換框架,如圖2所示。
圖2 數(shù)據(jù)轉(zhuǎn)換框架
該數(shù)據(jù)轉(zhuǎn)換框架主要由兩部分構(gòu)成:數(shù)據(jù)傳輸模塊和NoSQL適配器模塊。其中NoSQL適配器主要包括:符號(hào)命名分析、視圖分析、結(jié)構(gòu)分析、類型轉(zhuǎn)換、表關(guān)系分析以及類型檢測(cè)等功能。
各功能作用介紹如下:符號(hào)命名分析用于對(duì)現(xiàn)有SQL資源庫中的數(shù)據(jù)庫名字、表名、字段名進(jìn)行分析并做相應(yīng)的轉(zhuǎn)換以便于Cassandra進(jìn)行處理;結(jié)構(gòu)分析用于對(duì)SQL資源庫中的數(shù)據(jù)庫結(jié)構(gòu)進(jìn)行分析,統(tǒng)計(jì)數(shù)據(jù)庫中有多少個(gè)表、視圖以及字段從而可以根據(jù)這些分析對(duì)重復(fù)的字段進(jìn)行預(yù)處理,以便于Cassandra處理重復(fù)的內(nèi)容;視圖分析與表結(jié)構(gòu)分析作用類似,只是專門針對(duì)視圖處理;表關(guān)系分析用于對(duì)SQL資源庫中的表之間的關(guān)系進(jìn)行處理;類型轉(zhuǎn)換和類型檢測(cè),由于SQLServer和MySQL之間存在很多不一致的字段,例如類型和長度等,這就需要結(jié)合Cassandra支持的數(shù)據(jù)字段對(duì)其進(jìn)行分析。
從流程上來看,可以通過NoSQL數(shù)據(jù)類型適配器預(yù)先執(zhí)行圖2中①,再通過數(shù)據(jù)傳輸方式,以每個(gè)庫中每個(gè)表為單位,以CSV文件的方式進(jìn)行導(dǎo)出,然后通過Cassandra提供的相關(guān)工具導(dǎo)入到NoSQL中,如圖2中②。
實(shí)驗(yàn)數(shù)據(jù)來源于云南省科學(xué)技術(shù)情報(bào)研究院所提供的科技文獻(xiàn)信息資源的元數(shù)據(jù)庫,其中包括期刊、會(huì)議、電子書籍等資源,并分別抽取了其中1千萬、5千萬和1億條記錄用以進(jìn)行實(shí)驗(yàn),環(huán)境的構(gòu)建使用表3的多列族數(shù)據(jù)模式。
表3 科技文獻(xiàn)在NoSQL中的數(shù)據(jù)模式
所有的實(shí)驗(yàn)結(jié)果基于如下環(huán)境配置:5臺(tái)曙光天闊620R 4 GB內(nèi)存服務(wù)器,希捷500 GB 7 200轉(zhuǎn),SATA硬盤;其中4臺(tái)安裝 CentOS6.6操作系統(tǒng),Cassandra 版本為3.9,由于Cassandra是多機(jī)環(huán)境。因此,實(shí)驗(yàn)把MySQL搭建為集群的形式,版本MySQL Cluster 7.5.6,機(jī)器數(shù)量與Cassandra相同,二者均采用默認(rèn)配置。適配器基于Python2.7實(shí)現(xiàn),操作系統(tǒng)為Windows Server 2008 R2,適配器通過OLEDB的方式分析SQLServer的情況如表4所示。
表4 適配器數(shù)據(jù)導(dǎo)入性能
由表中數(shù)據(jù)可以看到在不同數(shù)據(jù)量時(shí)候的數(shù)據(jù)容量以及數(shù)據(jù)導(dǎo)入時(shí)間,其中數(shù)據(jù)導(dǎo)入平均速度為11 700條/秒。NoSQL適配器在不同數(shù)據(jù)量的情況下,性能都在350 ms左右,與數(shù)據(jù)量相關(guān)性不大,原因在于NoSQL適配器在執(zhí)行的時(shí)候不需要讀取數(shù)據(jù),只需要讀取關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)庫結(jié)構(gòu)元數(shù)據(jù)和非關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)信息。因此,即使數(shù)據(jù)量很大,對(duì)數(shù)據(jù)庫表結(jié)構(gòu)的元數(shù)據(jù)信息的影響也會(huì)較小。
數(shù)據(jù)導(dǎo)入完成后,接下來針對(duì)科技文獻(xiàn)信息資源檢索從不同角度對(duì)兩類數(shù)據(jù)庫進(jìn)行的評(píng)估,如圖3、圖4、圖5所示。
(a)
(b)圖3 數(shù)據(jù)量和查詢維度不同時(shí),科技文獻(xiàn)信息資源的檢索性能對(duì)比
(a)
(a)
(b)圖5 查詢維度和節(jié)點(diǎn)數(shù)不同時(shí),科技文獻(xiàn)信息資源的檢索性能對(duì)比
圖3(a)根據(jù)節(jié)點(diǎn)數(shù)相同的情況,測(cè)試了兩種數(shù)據(jù)庫在如表3存儲(chǔ)科技文獻(xiàn)信息資源時(shí),數(shù)據(jù)量不同的情況下性能的差異,從圖中可以看到Cassandra的檢索性能要優(yōu)于MySQL。從圖4可以看出數(shù)據(jù)量和節(jié)點(diǎn)數(shù)均可導(dǎo)致數(shù)據(jù)庫的性能發(fā)生變化,例如在(b)中,在Cassandra中檢索科技文獻(xiàn)信息比在MySQL中檢索科技文獻(xiàn)信息的響應(yīng)時(shí)間縮短了61%。從圖5(b)則可以看出,當(dāng)數(shù)據(jù)量為5千萬時(shí),節(jié)點(diǎn)數(shù)越多,Cassandra的數(shù)據(jù)檢索性能越優(yōu)于MySQL。
通過本文設(shè)計(jì)的數(shù)據(jù)模式實(shí)驗(yàn)來看,在集群節(jié)點(diǎn)數(shù)和查詢維度相同的情況下,在兩類數(shù)據(jù)庫中檢索科技文獻(xiàn)信息資源都會(huì)隨數(shù)據(jù)量的增多而使查詢速度變慢。但Cassandra數(shù)據(jù)庫的檢索性能所受的影響要小于MySQL數(shù)據(jù)庫,如圖3(a)和圖4(b)所示。因?yàn)镃assandra分別建立索引樹節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)分?jǐn)倝毫?,所以相?duì)影響較小。MySQL數(shù)據(jù)庫采用共享內(nèi)存的方式,索引較大,且多個(gè)進(jìn)程同時(shí)增加數(shù)據(jù),對(duì)索引形成巨大壓力,因此會(huì)導(dǎo)致其性能顯著下降。另外,Cassandra放棄強(qiáng)一致性,退而追求最終一致性,也是使其性能優(yōu)異的主要原因。
在數(shù)據(jù)量和查詢維度相同的情況下,隨著集群節(jié)點(diǎn)數(shù)的增加,Cassandra檢索科技文獻(xiàn)信息資源需要的性能開銷明顯少于MySQL數(shù)據(jù)庫,如圖4(a)和圖5(b)所示。這一性能優(yōu)勢(shì)來源于它的高水平擴(kuò)展性。Cassandra可以隨時(shí)停用和啟用某個(gè)節(jié)點(diǎn),相比于需要進(jìn)行負(fù)載均衡的MySQL來說,只需要很少的性能開銷就可以做到系統(tǒng)的復(fù)制、新增等[18]。
結(jié)合如上幾組實(shí)驗(yàn)結(jié)果,可以看出非關(guān)系型數(shù)據(jù)庫在處理科技文獻(xiàn)信息資源時(shí)的性能要高于關(guān)系型數(shù)據(jù)庫,驗(yàn)證了用非關(guān)系型數(shù)據(jù)庫存儲(chǔ)科技文獻(xiàn)信息資源的可行性和高效性。
本文研究異構(gòu)環(huán)境下科技文獻(xiàn)信息資源的描述模式及如何利用非關(guān)系型數(shù)據(jù)存儲(chǔ)這些描述的實(shí)現(xiàn)方式。首先對(duì)于異構(gòu)科技文獻(xiàn)信息資源存儲(chǔ)中的問題進(jìn)行了分析,并重點(diǎn)闡述了非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)模式的應(yīng)用以及原理,為科技文獻(xiàn)信息資源的非結(jié)構(gòu)化存儲(chǔ)提供了理論依據(jù)。然后設(shè)計(jì)了關(guān)系型數(shù)據(jù)庫的NoSQL適配器,能夠方便地融合現(xiàn)有存量關(guān)系型數(shù)據(jù)信息資源。最后基于真實(shí)的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),對(duì)比了非關(guān)系型數(shù)據(jù)庫和關(guān)系型數(shù)據(jù)庫在存儲(chǔ)具有分散、異構(gòu)、動(dòng)態(tài)、海量等特性的科技文獻(xiàn)數(shù)據(jù)時(shí)的性能差異,驗(yàn)證了NoSQL適配器設(shè)計(jì)的合理性以及非關(guān)系型數(shù)據(jù)庫在科
技文獻(xiàn)領(lǐng)域應(yīng)用中的高效性及可行性,所使用的研究方案能夠滿足當(dāng)前科技文獻(xiàn)數(shù)據(jù)資源異構(gòu)、分散及海量等特性需要。研究方法可以為其他領(lǐng)域的異構(gòu)資源整合及應(yīng)用提供借鑒和參考。
參考文獻(xiàn)
[1] 申德榮,于戈,王習(xí)特,等.支持大數(shù)據(jù)管理的NoSQL系統(tǒng)研究綜述[J].軟件學(xué)報(bào),2013(8):1786-1803.
[2] Stonebraker M. SQL databases v. NoSQL databases[J]. Communications of the Acm, 2010,53(4):10-11.
[3] Cattell Rick. Scalable SQL and NoSQL data stores[J]. Acm Sigmod Record,2010, 39(4):12-27.
[4] Han M. The application of NoSQL database in Air Quality Monitoring[J]. Journal of Composite Materials,2015,49(6):685-697.
[5] 郭星. 基于Mongodb的分布式圖片存儲(chǔ)系統(tǒng)的研究及實(shí)現(xiàn)[D]. 北京:中國科學(xué)院大學(xué),2015.
[6] 侯朋朋. 一種高性能NoSQL存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 北京:中國科學(xué)院大學(xué),2013.
[7] 田野,袁博,李廷力. 物聯(lián)網(wǎng)海量異構(gòu)數(shù)據(jù)存儲(chǔ)與共享策略研究[J]. 電子學(xué)報(bào),2016, 44(2):247-257.
[8] 王智慧. 基于NoSQL的智能電網(wǎng)數(shù)據(jù)云存儲(chǔ)研究及應(yīng)用[D]. 河北:華北電力大學(xué),2015.
[9] 王蘭成. 科技檔案異構(gòu)數(shù)據(jù)整合及其檢索的研究[J]. 中國科技資源導(dǎo)刊,2009,41(5):36-41.
[10] 王文哲. 多源異構(gòu)科技共享資源管理系統(tǒng)的研究與實(shí)現(xiàn) [D]. 湖北:武漢理工大學(xué),2012.
[11] 江云,李鳳蘭. 大數(shù)據(jù)在我國圖書館的應(yīng)用及推進(jìn)研究 [J]. 圖書館工作與研究,2014(6):35-41.
[12] 溫浩宇,李京京. 大數(shù)據(jù)時(shí)代的數(shù)字圖書館異構(gòu)數(shù)據(jù)集成研究[J]. 情報(bào)雜志,2013(9):138-141.
[13] 張紅. 基于大數(shù)據(jù)技術(shù)的資源發(fā)現(xiàn)平臺(tái)構(gòu)建——以國家圖書館“文津搜索”系統(tǒng)為例[J]. 數(shù)字圖書館論壇,2016 (1):61-67.
[14] 衛(wèi)軍朝. 山西高??萍嘉墨I(xiàn)平臺(tái)異構(gòu)數(shù)據(jù)整合研究[D]. 山西:山西大學(xué),2009.
[15] 曹畋. 大數(shù)據(jù)環(huán)境下的圖書館異構(gòu)數(shù)據(jù)統(tǒng)一訪問與轉(zhuǎn)化系統(tǒng)[J]. 圖書館理論與實(shí)踐,2016(2):80-84.
[16] 王石榴, 謝文亮. 數(shù)字圖書館建設(shè)中科技期刊元數(shù)據(jù)異構(gòu)共享研究[J]. 圖書館工作與研究,2015(2):53-56.
[17] Lakshman A,Malik P.Cassandra:a decentralized structured storage system[J]. Acm Sigops Operating Systems Review,2010,44(2):35-40.
[18] 胡超曄. 基于Cassandra數(shù)據(jù)庫集群的高并發(fā)讀寫系統(tǒng)的分析和應(yīng)用研究[D]. 上海交通大學(xué),2013.