汪飛飛+唐智川
摘 要:數(shù)據(jù)開(kāi)放共享已經(jīng)成為大數(shù)據(jù)競(jìng)爭(zhēng)戰(zhàn)略的核心。如何有效促進(jìn)大數(shù)據(jù)環(huán)境下的學(xué)術(shù)交流與知識(shí)共享,對(duì)高校圖書(shū)館信息資源實(shí)現(xiàn)有效管理和共享利用,已經(jīng)成為當(dāng)今的研究熱點(diǎn)。文章首先概述了實(shí)現(xiàn)圖書(shū)館資源開(kāi)放共享的重要性,其次分析了大數(shù)據(jù)環(huán)境下圖書(shū)館信息資源的特點(diǎn),最后基于數(shù)據(jù)建設(shè)、機(jī)構(gòu)知識(shí)庫(kù)和移動(dòng)圖書(shū)館,提出了適合高校圖書(shū)館信息資源開(kāi)放共享的相關(guān)途徑和建議。
關(guān)鍵詞:大數(shù)據(jù);開(kāi)放共享;數(shù)據(jù)建設(shè);機(jī)構(gòu)知識(shí)庫(kù);移動(dòng)圖書(shū)館
隨著社會(huì)信息技術(shù)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,科研人員開(kāi)始使用并逐漸依賴各種電子產(chǎn)品以輔助其研究成果的生成和共享。這些科研成果數(shù)據(jù)構(gòu)成了科學(xué)大數(shù)據(jù)的主體,并以前所未有的速度在增長(zhǎng)。國(guó)家“十三五”規(guī)劃建議提出:“實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,推進(jìn)數(shù)據(jù)資源開(kāi)放共享。”可見(jiàn),數(shù)據(jù)開(kāi)放共享已經(jīng)成為大數(shù)據(jù)戰(zhàn)略的核心。
目前,圖書(shū)館資源普遍具有數(shù)據(jù)規(guī)模龐大、數(shù)據(jù)資源載體和結(jié)構(gòu)多樣化、信息資源不能充分共享等特點(diǎn),且所管理的科學(xué)數(shù)據(jù)具有零星分散、類型復(fù)雜、無(wú)統(tǒng)一格式與標(biāo)準(zhǔn)等問(wèn)題。因此,在大數(shù)據(jù)環(huán)境下,如何推進(jìn)學(xué)術(shù)交流與知識(shí)共享,對(duì)高校圖書(shū)館信息資源實(shí)現(xiàn)有效管理和共享利用,是順應(yīng)大數(shù)據(jù)時(shí)代發(fā)展的必然趨勢(shì),已經(jīng)成為了當(dāng)今的研究熱點(diǎn)。
一、大數(shù)據(jù)環(huán)境下圖書(shū)館信息資源的特點(diǎn)
1.大數(shù)據(jù)的特點(diǎn)
大數(shù)據(jù)是一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。大數(shù)據(jù)以一種前所未有的方式,通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品和服務(wù)或深刻的洞見(jiàn),最終形成變革之力。
2.大數(shù)據(jù)環(huán)境下圖書(shū)館信息資源的特點(diǎn)
大數(shù)據(jù)環(huán)境下圖書(shū)館信息資源包含以下幾方面特點(diǎn):
(1)信息資源規(guī)模龐大,質(zhì)量參差不齊。隨著時(shí)間的積累,圖書(shū)館紙質(zhì)資源和電子資源的數(shù)量一直在不斷增長(zhǎng)。此外,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)的使用成本也越來(lái)越低,因此每天都有大量的網(wǎng)絡(luò)信息資源產(chǎn)生,從而導(dǎo)致網(wǎng)絡(luò)信息資源的規(guī)模越來(lái)越龐大,且質(zhì)量參差不齊。
(2)信息資源載體和結(jié)構(gòu)多樣化。隨著信息技術(shù)的飛速發(fā)展和應(yīng)用,信息資源先后經(jīng)歷了從紙質(zhì)時(shí)代到電子時(shí)代再到網(wǎng)絡(luò)時(shí)代的過(guò)程,信息資源結(jié)構(gòu)亦多呈現(xiàn)半結(jié)構(gòu)化或非結(jié)構(gòu)化特征。
(3)信息資源不能充分共享。一方面,由于傳統(tǒng)圖書(shū)館的共享意識(shí)淡薄,對(duì)于珍貴的、稀缺的資源,大部分圖書(shū)館不愿意共享其全部資源;另一方面,傳統(tǒng)的共享模式已經(jīng)很難滿足讀者的多層次需求。
二、圖書(shū)館信息資源開(kāi)放共享的途徑和建議
結(jié)合圖書(shū)館信息資源在大數(shù)據(jù)時(shí)代的特點(diǎn),圍繞圖書(shū)館數(shù)據(jù)建設(shè)、機(jī)構(gòu)知識(shí)庫(kù)和移動(dòng)圖書(shū)館,提出以下高校圖書(shū)館信息資源開(kāi)放共享的相關(guān)途徑和建議。
1.加強(qiáng)圖書(shū)館數(shù)據(jù)建設(shè)
由于圖書(shū)館信息數(shù)據(jù)規(guī)模龐大、質(zhì)量參差不齊的特點(diǎn),科學(xué)數(shù)據(jù)又具有零星分散、類型復(fù)雜、無(wú)統(tǒng)一格式與標(biāo)準(zhǔn)等問(wèn)題,如何對(duì)這些大數(shù)據(jù)進(jìn)行有效的數(shù)據(jù)建設(shè)和管理,直接影響到讀者的共享需求。
數(shù)據(jù)建設(shè)流程如下圖所示:
(1)需求分析。需求分析是數(shù)據(jù)建設(shè)和管理的第一步也是最關(guān)鍵的一步。因各學(xué)科結(jié)構(gòu)、科研規(guī)模、數(shù)據(jù)類型不同,基礎(chǔ)設(shè)施條件也存在較大差異,在數(shù)據(jù)建設(shè)時(shí),應(yīng)根據(jù)實(shí)際需求,制訂切實(shí)可行的目標(biāo),然后根據(jù)目標(biāo)對(duì)外部數(shù)據(jù)進(jìn)行采集。
(2)數(shù)據(jù)采集??茖W(xué)數(shù)據(jù)采集內(nèi)容包括科研成果(包含作者、論文、專利、專著、項(xiàng)目)、圖書(shū)信息、多媒體資源等。大部分內(nèi)容都可以采用網(wǎng)絡(luò)爬行器進(jìn)行批量采集,個(gè)別零散的數(shù)據(jù)可能需要人工采集。
(3)數(shù)據(jù)清洗。高質(zhì)量的數(shù)據(jù)是數(shù)據(jù)建設(shè)完成預(yù)期功能的基礎(chǔ),因此數(shù)據(jù)采集后要對(duì)數(shù)據(jù)進(jìn)行清洗。從外部系統(tǒng)采集到的數(shù)據(jù)避免不了存在人工錄入時(shí)出錯(cuò)、數(shù)據(jù)重復(fù)以及數(shù)據(jù)沖突的問(wèn)題,對(duì)數(shù)據(jù)進(jìn)行清洗的過(guò)程尤為重要,目的是處理無(wú)效數(shù)據(jù)、刪除重復(fù)數(shù)據(jù)和糾正錯(cuò)誤數(shù)據(jù),從而達(dá)到數(shù)據(jù)的正確性和一致性。
(4)數(shù)據(jù)整合。針對(duì)不同用戶的具體需求,還需要將清洗后的基礎(chǔ)數(shù)據(jù)整合起來(lái),以便得到最終想要的業(yè)務(wù)邏輯數(shù)據(jù)。為了保證數(shù)據(jù)的準(zhǔn)確性,數(shù)據(jù)可經(jīng)過(guò)抽取、轉(zhuǎn)換和裝載,合并到一個(gè)數(shù)據(jù)倉(cāng)庫(kù)里。在清洗完海量數(shù)據(jù)之后,可利用大數(shù)據(jù)搜索引擎對(duì)數(shù)據(jù)進(jìn)行分析和處理,從而將知識(shí)更好地呈現(xiàn)給用戶,并為數(shù)據(jù)管理者提供數(shù)據(jù)支持。
2.完善機(jī)構(gòu)知識(shí)庫(kù)共享機(jī)制
圖書(shū)館機(jī)構(gòu)知識(shí)庫(kù)一般由高校圖書(shū)館建立,基于網(wǎng)絡(luò)對(duì)高校成員在工作過(guò)程中所創(chuàng)建的各種數(shù)字化產(chǎn)品加以收集、整理、保存、檢索、傳播、共享和利用?;陂_(kāi)放存取的機(jī)構(gòu)知識(shí)庫(kù)支持任何用戶隨時(shí)通過(guò)互聯(lián)網(wǎng)不受限制地合理利用其中的知識(shí)資源,有利于跨學(xué)科、跨地域的學(xué)術(shù)交流,全面系統(tǒng)地反映高校的教學(xué)和科研成果。機(jī)構(gòu)知識(shí)庫(kù)能夠提供知識(shí)傳遞服務(wù)、促進(jìn)信息資源的管理,同時(shí)也能夠有效促進(jìn)大數(shù)據(jù)環(huán)境下高校學(xué)術(shù)交流和知識(shí)共享。因此,基于數(shù)據(jù)資源結(jié)構(gòu)呈現(xiàn)多樣化的特點(diǎn),完善機(jī)構(gòu)知識(shí)庫(kù)共享機(jī)制有利于結(jié)構(gòu)化信息資源的共享與傳播。
3.實(shí)現(xiàn)移動(dòng)圖書(shū)館的多模式共享
隨著移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來(lái),通過(guò)各種移動(dòng)設(shè)備產(chǎn)生的信息資源不斷增長(zhǎng),造就了移動(dòng)圖書(shū)館具有多資源化、多平臺(tái)化和多服務(wù)的形式的特點(diǎn)。同時(shí),由于圖書(shū)館資源不能充分共享的特點(diǎn),傳統(tǒng)資源共享模式已經(jīng)很難滿足讀者多層次需求,因此,針對(duì)不同的信息資源,在資源共享的過(guò)程應(yīng)該存在多種模式共存的共享機(jī)制。基于移動(dòng)圖書(shū)館具有良好的多模式信息資源融合處理能力,因此,移動(dòng)圖書(shū)館應(yīng)該整合更加豐富的資源,提供多元、多方位的移動(dòng)圖書(shū)館服務(wù)。
參考文獻(xiàn):
[1] 賴劍菲,洪正國(guó).對(duì)高??茖W(xué)數(shù)據(jù)管理平臺(tái)建設(shè)的建議[J].圖書(shū)情報(bào)工作,2013(6):23-27.
[2] 曲翌敏,江 宇.健康大數(shù)據(jù)的來(lái)源與應(yīng)用[J].中華流行病學(xué)雜志,2015,36(10).
[3] 李建偉,宋 文,湯怡潔,等.科研本體知識(shí)庫(kù)數(shù)據(jù)建設(shè)研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013(11):15-21.
[4] 周美華,魏文杰.建設(shè)高校圖書(shū)館機(jī)構(gòu)知識(shí)庫(kù)的研究——以揚(yáng)州大學(xué)為例[J].圖書(shū)館,2010(5): 62-64.
[5] 員 媛.基于數(shù)據(jù)管理的高校圖書(shū)館機(jī)構(gòu)知識(shí)庫(kù)的構(gòu)建分析[J].高校圖書(shū)情報(bào)論壇,2016(3): 16-22.
[6] 李 懿,徐升繼.多信息融合技術(shù)在移動(dòng)圖書(shū)館服務(wù)的應(yīng)用研究[J].河南圖書(shū)館學(xué)刊,2013(11):120-122.
[7]韓翠峰.大數(shù)據(jù)時(shí)代帶給圖書(shū)館的影響與挑戰(zhàn)[J].圖書(shū)與情報(bào),2012(5).
[8]姜 山,王剛.大數(shù)據(jù)對(duì)圖書(shū)館的啟示[J].圖書(shū)館工作與研究,2013(4).