馬曉瑾
忻州市科學技術情報研究所,山西 忻州 034000
圖書情報領域就是利用大數(shù)據(jù)系統(tǒng)處理、分析數(shù)據(jù)的典型機構。分析大數(shù)據(jù)在圖書情報領域的應用熱點,有利于我國圖書資源數(shù)字化進程,也有利于完善圖書網(wǎng)絡信息資源統(tǒng)一建設和信息共享,使圖書情報工作與網(wǎng)絡信息化進程更好地接軌,形成具有自身特色的網(wǎng)站平臺和數(shù)據(jù)資源[1],為廣大讀者、編者和作者提供更好的服務。
相比其他技術,大數(shù)據(jù)具有更廣泛的數(shù)據(jù)資源背景、并且速度更快,性價比更高,所以具有很高的商業(yè)價值。大數(shù)據(jù)在我國圖書情報領域的應用現(xiàn)狀如下。
(1)數(shù)據(jù)資源共享共建體系不完善。在我國數(shù)據(jù)研究是以各高校為主體展開工作,各研究機構之間雖然存在合作關系,但合作覆蓋領域有限。因為資源共享建設是一項復雜的工程,涉及各部門之間的協(xié)調、資金投入以及信息安全和版權等各類問題。再者,大數(shù)據(jù)技術在圖書情報領域應用時間并不長,要形成資源共享、共建的體系,還需要各方不斷協(xié)調。我國的許多學科領域每年會把自己部門的研究課題和研究數(shù)據(jù)整理分析[2],存貯到各自專業(yè)領域的數(shù)據(jù)管理系統(tǒng),但這些專業(yè)數(shù)據(jù)一般會被加密保管,所以不能起到共享的作用,導致大數(shù)據(jù)圖書情報系統(tǒng)有效數(shù)據(jù)少,利用率低下。
(2)數(shù)字化圖書資源少。眾所周知,我國紙質版圖書文獻資料豐富,但形成數(shù)字化圖書的并不多,主要是因為網(wǎng)絡配套硬件基礎薄弱,存儲能力有限。
在世界范圍來看,大數(shù)據(jù)技術正處于發(fā)展階段,所以還沒形成成熟的理論體系。發(fā)達國家可能研究起步早一些,所以在大數(shù)據(jù)驅動下的圖書情報研究具有一些領先優(yōu)勢。大數(shù)據(jù)技術應用為我國圖書情報工作帶來新的發(fā)展機遇。雖然現(xiàn)階段對大數(shù)據(jù)的研究處于探索階段,但也要結合具體工作實踐應用,不斷總結經驗,形成一套有效的處理模式[3]。
圖書情報數(shù)據(jù)庫建設中版權問題是最常見的問題。國家通過頒布各種法律法規(guī),保障網(wǎng)絡圖書資源的健康發(fā)展。 比如,近年頒布的《著作權法》對復制權、網(wǎng)絡轉載、署名侵權等各類問題的解釋和定位十分明確。同時,網(wǎng)絡安全也是建立圖書情報數(shù)據(jù)庫要注意的問題,做好數(shù)據(jù)資源的安全系統(tǒng),防止網(wǎng)絡病毒侵襲也是當前的重要工作。
由于大數(shù)據(jù)技術在世界各國都備受青睞,所以相對應的專業(yè)技術人才很搶手。因此吸收專業(yè)水平高的信息技術人員,培養(yǎng)在職人員的專業(yè)技術水平很重要。如果圖書情報工作人員的專業(yè)水平不夠,將無法適應信息社會的工作效率和工作模式,只會造成資源的浪費。
大數(shù)據(jù)網(wǎng)絡信息資源具有存儲數(shù)字化、內容形式多樣化、數(shù)量巨大、處理速度快、以網(wǎng)絡為傳播媒介、動態(tài)傳播的特點。所以信息數(shù)據(jù)資源管理最好的方法是建立大規(guī)模并行處理的數(shù)據(jù)庫、云計算平臺和可擴展的內存系統(tǒng)。雖然我國將大數(shù)據(jù)應用到圖書情報領域時間不長,但我國的圖書網(wǎng)絡數(shù)據(jù)資源的開發(fā)建設工作也取得了一些成就。如:重慶維普資訊公司推出的“中文科技期刊數(shù)據(jù)庫”,還有萬方數(shù)據(jù)集團的“萬方數(shù)據(jù)庫”等。有必要特別一提的是一些學術期刊雜志社也順應時代需求建立了學術期刊數(shù)據(jù)庫,開發(fā)與建設這些數(shù)據(jù)庫不僅具有實用價值,而且為我國圖書情報工作的大數(shù)據(jù)技術應用積累了很多經驗,也將圖書情報工作推向了新的發(fā)展階段。
圖書情報常用的分析方法是內容分析法,一般從定量、定性以及定量定性相結合的方法入手。大數(shù)據(jù)技術時代,圖書情報對大數(shù)據(jù)信息分析提出更高標準的要求。為了方便大眾理解,數(shù)據(jù)分析結果的展現(xiàn)方式更加直觀具體,所以可視化分析得到越來越多人的認同。 大數(shù)據(jù)可視化處理架構規(guī)劃誕生后,特別是Twitter 嘗試將大數(shù)據(jù)信息進一步精細分析之后,可視化分析逐漸成為主流發(fā)展趨勢。大數(shù)據(jù)信息資源內容錯綜復雜,應用方向也不相同,所以多數(shù)情況下要根據(jù)具體研究內容和分析對象,選擇運用不同的分析方法或靈活組合運用。
5G 技術即將走進人們的生活,所以未來移動設備中的大數(shù)據(jù)技術開發(fā),將是主要的發(fā)展方向。雖然移動設備的運算、數(shù)據(jù)處理功能以及存儲功能還不能滿足數(shù)據(jù)處理需要,但也由此衍生了云端處理模式。云計算的出現(xiàn)為信息資源共享和溝通帶來更大的便利。近年來,各高校圖書館都在深入研究云計算在本領域的應用,并取得一定成果,希望在實踐中不斷完善,能真正地把圖書情報服務的成本降下來。移動設備和云端處理結合就能實現(xiàn)用手機處理網(wǎng)絡大數(shù)據(jù)信息。雖然現(xiàn)在移動云處理研究處于起步階段,但伴隨5G 技術的推廣應用,移動終端結合云端大數(shù)據(jù)處理應用研究將會得到更多研究群體的重視。同時大數(shù)據(jù)和移動云計算融合也有很多阻力,例如,安全隱私、模型架構等諸多問題,但為了方便更多人能隨時隨地處理數(shù)據(jù)文件,涉及這方面的研究正在進行,攻克技術難題也將指日可待。
關鍵詞是作者提煉出的文章的核心內容,通過統(tǒng)計詞頻能發(fā)現(xiàn)區(qū)域性數(shù)據(jù)的研究熱點。 聚類分析通俗來講就是把相似問題歸類,實質上就是把主題關系相近的數(shù)據(jù)歸為一類。 同群要盡量相似,用可視化分析方法描述該領域的相關聯(lián)系。 通過聚類分析能最直觀地發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中有用的知識,如該領域研究熱點,各學科之間的交叉點,未來研究目標等。 目前國內研究的方向是將關鍵詞與共引聚類分析相結合來揭示文獻的主體結構,即提出了基于摘要對關鍵詞加權貢獻的相似度模型,使得文獻的空間向量更加精確。
綜上所述,如今將大數(shù)據(jù)應用到圖書情報工作領域的研究成果豐碩,雖然國外發(fā)達國家的相關研究比我們起步早一些,但只要我們選對方向對大數(shù)據(jù)視閾下的圖書情報熱點認真研究梳理,不但能促進大數(shù)據(jù)和圖書情報工作的融合,還能為創(chuàng)新圖書情報工作開辟一條新路徑。網(wǎng)絡信息時代,大數(shù)據(jù)的研究和應用勢必會成為未來各行業(yè)關注的焦點,而圖書情報領域的大數(shù)據(jù)技術開發(fā)更是當前的核心工作,作為從業(yè)人員我們必須要引起重視,積極地吸取和借鑒國內外相關領域的研究經驗,使圖書情報服務工作做得更好。