劉曉亮
摘要:大數(shù)據(jù)的關(guān)鍵在于數(shù)據(jù)的分析與應(yīng)用,提高圖書館基于數(shù)據(jù)挖掘的處理分析能力是開展知識服務(wù)的必然要求。文章首先闡述了圖書館的大數(shù)據(jù)服務(wù)應(yīng)用特征,接著提出大數(shù)據(jù)階段圖書館數(shù)據(jù)挖掘面臨的挑戰(zhàn),并給出相應(yīng)對策,最后探討了數(shù)據(jù)挖掘中值得關(guān)注的重點(diǎn)技術(shù)以及圖書館開展知識服務(wù)應(yīng)用的一些做法。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;圖書館;信息服務(wù)
1.圖書館的大數(shù)據(jù)應(yīng)用特征
大數(shù)據(jù)是一場革命,將改變?nèi)藗兊纳?、工作和思維方式。大數(shù)據(jù)至今并無統(tǒng)一定義,通常以“4v”特征或?qū)Υ髷?shù)據(jù)進(jìn)行描述性解釋:規(guī)模(Volume)指數(shù)據(jù)的數(shù)量規(guī)模大;類型(Variety)指數(shù)據(jù)類型多樣復(fù)雜,混合結(jié)構(gòu)化與非結(jié)構(gòu)化多種類型;實(shí)時(Velocity)一方面是數(shù)據(jù)增長速度快,另一方面要求在合理的時間內(nèi)處理數(shù)據(jù);價值(Value)反映了大數(shù)據(jù)隱含著價值轉(zhuǎn)化。大數(shù)據(jù)發(fā)展的最終目標(biāo)是分析挖掘數(shù)據(jù)的價值,其重點(diǎn)在于數(shù)據(jù)的分析和應(yīng)用,“大”不過是信息技術(shù)不斷發(fā)展所產(chǎn)生的海量數(shù)據(jù)的表象而己。
社會進(jìn)步和信息技術(shù)不斷改變著圖書館的服務(wù)內(nèi)容與模式,網(wǎng)絡(luò)環(huán)境下要求將這些信息資源組合成整體并延伸至更大的范圍。隨著數(shù)字圖書館的興起,圖書館數(shù)字化文獻(xiàn)信息、數(shù)據(jù)庫的數(shù)量種類不斷增加,各地市級圖書館都已具有海量信息規(guī)模,比如上海圖書館提供的數(shù)據(jù)庫已多達(dá)400余個。這些數(shù)據(jù)包括類型多樣的文本、圖片、音頻與視頻各類非結(jié)構(gòu)化數(shù)據(jù),滿足大數(shù)據(jù)的基本特征。然而,這些數(shù)據(jù)資源價值遠(yuǎn)未得到有效體現(xiàn)與利用。一個重要的原因是缺乏有效的數(shù)據(jù)挖掘技術(shù)方法。通過人工從大量結(jié)構(gòu)繁雜的數(shù)據(jù)中發(fā)現(xiàn)價值,是難以實(shí)現(xiàn)的。隨著大數(shù)據(jù)技術(shù)的發(fā)展與應(yīng)用,必然要求圖書館重點(diǎn)利用數(shù)據(jù)挖掘技術(shù)從大量的信息中發(fā)掘數(shù)據(jù)價值,以此推出知識化產(chǎn)品化的服務(wù)應(yīng)用。同時,通過大數(shù)據(jù)處理分析對信息資源進(jìn)行深度、動態(tài)、廣泛的知識挖掘,便于揭示信息內(nèi)容中各個要素及其相互之間的聯(lián)系,促進(jìn)信息交流,實(shí)現(xiàn)信息資源共享,提高文獻(xiàn)信息的利用效率,從而實(shí)現(xiàn)圖書館信息增值服務(wù)并提高信息服務(wù)的競爭力。因此,探索數(shù)據(jù)挖掘方法技術(shù)提高圖書館的服務(wù)水平是亟須思考和解決的問題。
2.大數(shù)據(jù)時代圖書館數(shù)據(jù)挖掘面臨的挑戰(zhàn)
大數(shù)據(jù)時代的到來,極大地促進(jìn)了數(shù)據(jù)科學(xué)的興起。數(shù)據(jù)科學(xué)包括用科學(xué)的方法研究數(shù)據(jù)與用數(shù)據(jù)的方法研究科學(xué),后者主要的實(shí)現(xiàn)方式就是數(shù)據(jù)挖掘方法與技術(shù)。數(shù)據(jù)挖掘是指從數(shù)據(jù)源中發(fā)現(xiàn)知識的過程。實(shí)現(xiàn)數(shù)據(jù)價值的關(guān)鍵環(huán)節(jié)在于數(shù)據(jù)的挖掘方法技術(shù)。所以,如何充分有效地利用數(shù)據(jù)挖掘方法對圖書館大數(shù)據(jù)進(jìn)行開發(fā)處理,是開展圖書館知識服務(wù)的重要研究方向,也是服務(wù)創(chuàng)新的關(guān)鍵途徑與支撐服務(wù)技術(shù)。大數(shù)據(jù)時代圖書館的數(shù)據(jù)數(shù)量大、類型多,對數(shù)據(jù)挖掘提出新的需求與挑戰(zhàn),主要有以下方面。
2.1大規(guī)模數(shù)據(jù)量
數(shù)字館藏?cái)?shù)據(jù)規(guī)模與數(shù)據(jù)類型在不斷增長,對于數(shù)據(jù)挖掘算法的能力要求也在不斷提高。傳統(tǒng)對于大規(guī)模數(shù)據(jù)的分析一般采用隨機(jī)取樣,以較少數(shù)據(jù)獲得最多的信息,其準(zhǔn)確性會隨著隨機(jī)性增加而提高。這是在計(jì)算機(jī)性能較低特別是無法收集全部數(shù)據(jù)的情況下的選擇。然而,大數(shù)據(jù)環(huán)境數(shù)據(jù)價值隱匿于海量數(shù)據(jù)中,單靠取樣是無法捕捉到這些細(xì)節(jié)的,需要采用全集數(shù)據(jù)進(jìn)行處理分析。如此大量的數(shù)據(jù)分析僅靠單機(jī)是無法完成的,分析挖掘模型必然要借助分布式計(jì)算框架,比如,Map Reduce或者當(dāng)前流行的Spark,將分析模型遷移至集群計(jì)算環(huán)境。大數(shù)據(jù)應(yīng)用具有實(shí)時性,如智能推薦、文獻(xiàn)關(guān)聯(lián)等,需要在合理的時間完成分析過程,采用集群計(jì)算環(huán)境也是提高計(jì)算效率的選擇。另外,數(shù)據(jù)量增加的同時,噪音數(shù)據(jù)也會增加。因此,在數(shù)據(jù)分析之前必須進(jìn)行數(shù)據(jù)清洗等預(yù)處理工作。
2.2數(shù)據(jù)的高維特征
圖書館數(shù)據(jù)的多樣性能夠提供更多維度的客觀對象描述屬性。數(shù)據(jù)從過去的一維、多維逐漸發(fā)展為巨量維度。雖然能夠建立豐富的多維數(shù)據(jù)模型與方法,但在構(gòu)建的大數(shù)據(jù)特征空間中,往往會超出傳統(tǒng)方法的處理能力。可以考慮引入維度規(guī)約技術(shù),比如主成分分析、奇異值分解來降低數(shù)據(jù)維度。同時,數(shù)據(jù)屬性可能過于稀疏,也會極大影響數(shù)據(jù)模型的有效性。
2.3數(shù)據(jù)關(guān)系廣泛
圖書館服務(wù)應(yīng)用過程中的信息、用戶對象之間存在多種行為與內(nèi)容關(guān)聯(lián),從而組成多關(guān)系網(wǎng)絡(luò)。大數(shù)據(jù)的多源性、多樣性正是構(gòu)建這種復(fù)雜關(guān)系的基礎(chǔ)。比如,用戶的查詢詞、借閱記錄、瀏覽記錄、圖書館文獻(xiàn)信息內(nèi)容之間形成的多關(guān)系網(wǎng)絡(luò)。特別是社交網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用,更使其趨于多元化。許多圖書館實(shí)踐中,比如基于用戶的信息推薦就是利用這種關(guān)系作為分析依據(jù)。過多關(guān)系的簡單鏈接應(yīng)用,反而會削弱關(guān)鍵特征的作用和導(dǎo)致語義缺失。如何廣泛利用大數(shù)據(jù)提供的各類數(shù)據(jù)類型與數(shù)據(jù)關(guān)系,成為實(shí)際應(yīng)用中的一個重點(diǎn)。實(shí)際中,需要重視運(yùn)用關(guān)系選擇、組合及判斷函數(shù),提高分析的正確性有效性。
2.4數(shù)據(jù)保護(hù)要求不斷增長
數(shù)據(jù)是圖書館信息服務(wù)的核心和基礎(chǔ),數(shù)據(jù)的安全性就顯得尤為重要。用戶在享受精準(zhǔn)個性化推薦帶來的便捷的同時,也在深深擔(dān)心個人隱私安全問題。一些敏感信息以明文存儲也會有安全風(fēng)險。這些會導(dǎo)致數(shù)據(jù)挖掘方或者任何可以接近數(shù)據(jù)集的人,能夠辨別特定的用戶個體或內(nèi)容信息,存在利益侵犯的可能性。數(shù)據(jù)挖掘在發(fā)現(xiàn)數(shù)據(jù)價值的同時,也對隱私安全和數(shù)據(jù)安全帶來了威脅。這就需利用數(shù)據(jù)修改、數(shù)據(jù)模糊、數(shù)據(jù)加密、加密檢索等隱私保護(hù)技術(shù)提高數(shù)據(jù)的安全性和可控性。
2.5自然語言理解程度較低
當(dāng)前,在信息檢索、自動摘要等常見的數(shù)據(jù)挖掘任務(wù)中,仍無法有效識別同義詞、近義詞以及詞語間的語義關(guān)聯(lián),特別是一些短文本處理中,無法有效識別詞語語義,造成處理效果不理想。雖然一些圖書館建設(shè)了知識庫,但僅限于研究層面,距離實(shí)用在規(guī)模上有相當(dāng)差距,在應(yīng)用方法上也沒有大的突破。同時,圖書館存在大量圖片、音頻、視頻數(shù)據(jù),這些數(shù)據(jù)的加工處理也沒有引入有效的自動圖像、音頻識別技術(shù),圖書館難以基于數(shù)據(jù)挖掘提供全方位的信息服務(wù)。
3.大數(shù)據(jù)時代圖書館數(shù)據(jù)挖掘的關(guān)鍵技術(shù)方法
3.1數(shù)據(jù)存儲
圖書館數(shù)據(jù)類型眾多,需要引入非結(jié)構(gòu)化數(shù)據(jù)存儲技術(shù)。比如典型的HDFS,No SOL(Not Only SOL),已廣泛用于非結(jié)構(gòu)化數(shù)據(jù)的分布式存儲。傳統(tǒng)關(guān)系型數(shù)據(jù)庫適合結(jié)構(gòu)化數(shù)據(jù)存儲。需要注意的是,要區(qū)分結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),針對數(shù)據(jù)特點(diǎn)使用相應(yīng)的存儲技術(shù)。在實(shí)際中,難以使用一種數(shù)據(jù)存儲方式存儲管理所有的數(shù)據(jù),即使谷歌也是將結(jié)構(gòu)化數(shù)據(jù)存儲在關(guān)系型數(shù)據(jù)庫中。同時,需要運(yùn)用高效存儲技術(shù),比如數(shù)據(jù)壓縮、自動精簡配置、自動分層存儲、存儲虛擬化等解決或緩解數(shù)據(jù)量過大、存儲利用率、存儲效率低等難題。
3.2數(shù)據(jù)集成
目前,相當(dāng)數(shù)量圖書館的一個重要問題是數(shù)據(jù)資源分散化、碎片化,數(shù)據(jù)存儲在不能相互訪問的數(shù)據(jù)庫與系統(tǒng)中,形成數(shù)據(jù)孤島。孤立的數(shù)據(jù)是難以發(fā)揮出數(shù)據(jù)價值的,如何連接這些數(shù)據(jù),實(shí)現(xiàn)資源交互共享,是數(shù)據(jù)價值最大化的關(guān)鍵。數(shù)據(jù)集成將不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,經(jīng)過關(guān)聯(lián)和聚合之后采用統(tǒng)一定義的標(biāo)準(zhǔn)來存儲數(shù)據(jù),從而應(yīng)對大數(shù)據(jù)數(shù)量眾多、類型廣泛等問題給數(shù)據(jù)管理服務(wù)所帶來的挑戰(zhàn)。數(shù)據(jù)的集成連接涉及異構(gòu)數(shù)據(jù)的統(tǒng)一語義描述、多維特征關(guān)聯(lián)。同時,要保證數(shù)據(jù)質(zhì)量,需要對數(shù)據(jù)進(jìn)行清洗。但清洗的粒度過細(xì),容易過濾有效數(shù)據(jù);反之,無法達(dá)清洗效果。所以,在質(zhì)與量之間需要做出一定權(quán)衡。
3.3數(shù)據(jù)處理加工
語義處理技術(shù)能夠?yàn)樯顚拥臄?shù)據(jù)分析提供支持,提高各種數(shù)據(jù)挖掘算法的語義化程度與性能,提高機(jī)器可理解數(shù)據(jù)的能力。語義知識庫是語義處理的基礎(chǔ)支撐,典型的知識庫有WordNet、中文知網(wǎng),但其構(gòu)建存在人工成本高、更新慢的問題。實(shí)踐中,可以從維基百科、互動百科等結(jié)構(gòu)化程度較高的海量數(shù)據(jù)中抽取詞語關(guān)系,以低成本方式自動構(gòu)建語義知識庫獲取語義知識,也可以利用大規(guī)模語料構(gòu)建概念詞語矩陣或利用Word2 Vector工具,提高數(shù)據(jù)挖掘的語義化處理程度。圖書館需要采用圖像、音視頻內(nèi)容檢索技術(shù),提高多媒體數(shù)據(jù)的處理能力。比如利用語音識別技術(shù),將音頻數(shù)據(jù)處理為文本并記錄聲音信號在音頻中的時間位置,以此提高用戶獲取音頻數(shù)據(jù)的快速性與準(zhǔn)確性。通過語義標(biāo)注從圖書館數(shù)據(jù)中識別概念本體,實(shí)現(xiàn)信息之間的關(guān)聯(lián),形成知識網(wǎng)絡(luò),為個性化、語義化服務(wù)應(yīng)用提供支撐,進(jìn)而可通過分類、聚類等數(shù)據(jù)挖掘加工處理從多維度滿足用戶的信息需求。另外,可借助微博、微信等社會化網(wǎng)絡(luò)提供的API接口,獲得更廣泛的用戶數(shù)據(jù),展開用戶需求與圖書館信息之間的深層處理分析,利用APP等多種方式為圖書館與用戶之間搭建有效的服務(wù)橋梁。
3.4數(shù)據(jù)可視化
數(shù)據(jù)可視化是關(guān)于數(shù)據(jù)視覺表現(xiàn)形式的技術(shù),其借助圖形化手段,清晰、有效地傳達(dá)與表示信息。一般以圖形、圖表等概要形式展現(xiàn)數(shù)據(jù)的各種屬性和變量值。比如,通過數(shù)據(jù)餅圖、柱狀圖、趨勢圖、關(guān)系網(wǎng)絡(luò)圖將處理分析結(jié)果或過程與用戶進(jìn)行交互,以此提高用戶對查詢結(jié)果的理解程度和興趣。
4.結(jié)語
本文介紹探討了圖書館大數(shù)據(jù)知識挖掘技術(shù)中值得關(guān)注的一些技術(shù)問題和重點(diǎn),以及圖書館開展知識服務(wù)應(yīng)用的一些做法。在大數(shù)據(jù)時代,拓展提高圖書館的信息服務(wù)水平,必須把握數(shù)據(jù)挖掘方法技術(shù)的發(fā)展趨勢與特點(diǎn),才能為滿足時代需求改進(jìn)與創(chuàng)新圖書館服務(wù)應(yīng)用的方法與模式。