摘 要:隨著計算機行業(yè)的不斷發(fā)展,滋生出了數(shù)據(jù)挖掘這個行業(yè)新領(lǐng)域,數(shù)據(jù)挖掘可以給圖書館帶來更多的新應用、新服務(wù)。簡述大數(shù)據(jù)及數(shù)據(jù)挖掘的概念,結(jié)合圖書館大數(shù)據(jù)的來源,探討了數(shù)據(jù)挖掘在圖書館日常業(yè)務(wù)中的應用場景,以期為讀者提供更優(yōu)質(zhì)的個性化服務(wù)。
關(guān)鍵詞:大數(shù)據(jù);圖書館;數(shù)據(jù)挖掘
中圖分類號:G251.4 " 文獻標志碼:A " 文章編號:1002-2589(2015)16-0211-02
近年來,隨著物聯(lián)網(wǎng)和云計算的興起,“大數(shù)據(jù)”已然成為當下最時髦的詞匯。從IT界到金融界,再到物流界、營銷界,乃至醫(yī)療界、教育界……無論是業(yè)內(nèi)業(yè)外人士幾乎都已快形成“言必談大數(shù)據(jù)”的繁榮景象,大數(shù)據(jù)的研究正如火如荼,圖書館界也不例外。我們面臨一個尷尬的境地:數(shù)據(jù)豐富,信息匱乏。隨著計算機行業(yè)的不斷發(fā)展,滋生出了數(shù)據(jù)挖掘這個行業(yè)新領(lǐng)域,數(shù)據(jù)挖掘可以給圖書館帶來更多的新應用、新服務(wù)。
一、認識大數(shù)據(jù)
(一)大數(shù)據(jù)的概念
大數(shù)據(jù)并不是一個嚴格的專業(yè)術(shù)語,至今還沒有一個統(tǒng)一的定義。目前大數(shù)據(jù)方面的文獻大多聚焦在它的四個“V”上,即數(shù)據(jù)容量、數(shù)據(jù)多樣性、隱藏的價值及訪問速度上。第一個“V”就是它的實際規(guī)模(volume),從早先的KB到TB,一直到后來的PB、EB,數(shù)據(jù)的量在不斷地增加,這是一個表面的現(xiàn)象。第二個“V”是多樣的數(shù)據(jù)類型(variety),尤其是里面包含了大量的非結(jié)構(gòu)化的數(shù)據(jù)。第三個“V”講的是價值(value),有兩點:一個是價值大,未來大數(shù)據(jù)的產(chǎn)業(yè)規(guī)模將會至少以萬億美元來進行衡量,大數(shù)據(jù)將會給信息技術(shù)領(lǐng)域帶來一個新的增長點;另外一個比較重要的是,它雖然量很大、價值也很大,但是密度很低。第四個“V”就是動態(tài)數(shù)據(jù)的快速處理(velocity),由于數(shù)據(jù)的多樣化和巨量化,要求對數(shù)據(jù)進行實時快速的處理,才能了解迅速變化的環(huán)境并做出反應,才能快速制定出合理準確的應對策略。
(二)圖書館的大數(shù)據(jù)
經(jīng)過多年數(shù)字圖書館的建設(shè),圖書館擁有大量的數(shù)字化資源,包括各種數(shù)據(jù)庫、電子書、音頻、視頻和紙本圖書加工的數(shù)字資源。隨著圖書館自身的發(fā)展需要,各種資源的量呈逐漸上升的趨勢。當前,由于互聯(lián)網(wǎng)的發(fā)展和智能終端(智能手機、pad)的普及應用,人們已經(jīng)進入虛擬社交的時代。以微信、微博、個人空間為載體的新興社交平臺,更多的讀者信息散落在社交網(wǎng)絡(luò)上,這些數(shù)據(jù)量大散亂、價值密度低,資源總量很大,且數(shù)據(jù)結(jié)構(gòu)多樣,給圖書館服務(wù)提升提出了艱巨的挑戰(zhàn)。如何利用數(shù)據(jù)挖掘,發(fā)掘更多有用、創(chuàng)新的潛在數(shù)據(jù),成為圖書館發(fā)展的必然要求。
二、數(shù)據(jù)挖掘
(一)什么是數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是隨著計算機行業(yè)的發(fā)展而衍生出的一個新領(lǐng)域,涉及人工智能、機器學習、數(shù)據(jù)庫和可視化等多學科知識。運用計算機方法、技術(shù),尋找隱藏在數(shù)據(jù)中的信息(趨勢、特征及相關(guān)性)的過程,就叫作數(shù)據(jù)挖掘[1]。
(二)數(shù)據(jù)挖掘的方法論
數(shù)據(jù)挖掘的過程或者步驟有很多。然而,每一個步驟從方法論上來說沒有太大的區(qū)別。許多研究機構(gòu)和公司結(jié)合自身的數(shù)據(jù)挖掘工具,提出數(shù)據(jù)挖掘過程模型,目前最流行的兩種基于數(shù)據(jù)挖掘工具的方法論是由SAS公司提出的SEMMA過程模型和SPSS公司提出的5A過程模型[2]。整個數(shù)據(jù)挖掘是一個反復迭代的過程,一般都需要通過多輪迭代才能獲得最終結(jié)果。
SAS公司提出的SEMMA過程模型,其實是數(shù)據(jù)挖掘工具EnterpriseMiner進行數(shù)據(jù)挖掘分析時的5個步驟即Sample、Explore、Modify、Model、Assess的首字母縮寫,在進行數(shù)據(jù)挖掘時通常按照以下5個步驟進行。
(1)Sample——取樣:理解應用的領(lǐng)域,提出有意義的問題陳述,指定相關(guān)性變量,從目標數(shù)據(jù)集中抽取與問題有關(guān)的數(shù)據(jù)子集;
(2)Explore——探索:數(shù)據(jù)收集取樣后的分布是未知的,探索數(shù)據(jù)的樣本分布;
(3)Modify——調(diào)整:從目的數(shù)據(jù)中作預處理,去除異常的數(shù)據(jù);
(4)Model——建模:通過數(shù)據(jù)挖掘的技術(shù)建立模型,從中選擇最好的模型;
(5)Access——評價:評價數(shù)據(jù)挖掘結(jié)果的有效性和可靠性。
基于數(shù)據(jù)挖掘軟件ClementineSPSS公司提出了5A(Assess、Assess、Analyze、Act、Automate)過程模型,在方法論上與SEMMA相似,同樣要經(jīng)過陳述問題、搜集信息、預處理、數(shù)據(jù)挖掘及評價結(jié)果的過程。
三、圖書館數(shù)據(jù)挖掘的應用
數(shù)據(jù)是對事物的客觀存在的一種描述、表現(xiàn),信息則賦予了數(shù)據(jù)一種環(huán)境,而知識則是經(jīng)過實踐證明的、可以用來決策和行動的,從數(shù)據(jù)到知識發(fā)現(xiàn),數(shù)據(jù)挖掘承擔了重要角色,根據(jù)行業(yè)性質(zhì),企業(yè)和組織都在努力探尋數(shù)據(jù)挖掘的應用方式并從中獲得豐厚的收益。下面是一些數(shù)據(jù)挖掘在商業(yè)、營銷、體育等方面的應用類型:在財務(wù)金融方面,預測市場動向,防范犯罪欺詐;在銷售數(shù)據(jù)中,發(fā)掘顧客的消費習性;在NBA球賽數(shù)據(jù)中,找出球員的強弱點……數(shù)據(jù)挖掘在商業(yè)、營銷、體育等各方面已嶄露頭角,成為企業(yè)或組織重要的策略性計劃?;趫D書館的數(shù)據(jù),圖書館員應該嘗試用數(shù)據(jù)挖掘再現(xiàn)業(yè)務(wù)背后隱藏的規(guī)律,不斷探索優(yōu)化業(yè)務(wù)途徑,提升服務(wù)形象。結(jié)合圖書館自身的業(yè)務(wù),數(shù)據(jù)挖掘主要有三個方面的應用,分別是讀者關(guān)系管理、推薦系統(tǒng)以及輔助決策分析。
(一)讀者關(guān)系管理
“客戶是上帝”,如果企業(yè)或組織無法對客戶提供更高價值或更好的服務(wù),企業(yè)或組織就失去了存在的價值,從廣義上講凡是單位或機構(gòu)所服務(wù)的對象都應該稱為“客戶”,對于圖書館來說讀者就是我們的客戶[2]。隨著人們閱讀方式的改變,人們開始接受網(wǎng)絡(luò)上的碎片化閱讀,同時智能終端的普及也在擴充人們獲取知識的方式。圖書館的整體業(yè)務(wù)環(huán)境發(fā)生了變化,紙質(zhì)圖書借閱量每年呈一定比例在下降成為每個圖書館必須面對的現(xiàn)實。面對學校成千上萬的師生,如何提升服務(wù)來留住原來的讀者和尋找新的讀者成為圖書館人首要考慮的問題。在硬件方面很多圖書館已經(jīng)做得很好了,設(shè)置了總服務(wù)咨詢臺和讀者連線專區(qū),不過在讀者關(guān)系管理方面還有很多工作要做。
圖書館是典型的服務(wù)部門,很多有價值的服務(wù)活動都必須通過館員參與提供,典型的顧客關(guān)系存在于館員與讀者之間。傳統(tǒng)的讀者關(guān)系管理,主要靠館員與讀者的點對點的聯(lián)系,而現(xiàn)在加入了很多信息科技的因素,數(shù)據(jù)集挖掘就是一個典型的技術(shù)應用,通過數(shù)據(jù)挖掘收集和讀者有關(guān)數(shù)據(jù)做分析,找出他們的特征,把原始數(shù)據(jù)轉(zhuǎn)換成新服務(wù)策略,利用這些特征尋找潛在讀者,有針對性地進行資源推介,學科服務(wù)就是一個很好的例子。學科服務(wù)指的是基于學科信息為讀者提供個性化服務(wù),設(shè)立學科館員,可以為科研人員提供所需文獻信息服務(wù),包括科技查新和文獻計量分析;與學科館員密切聯(lián)系,為開展學科服務(wù)提供指導意見;為學科館員進入院系服務(wù)提供便利。
(二)推薦系統(tǒng)
全世界推薦系統(tǒng)做得做好的就是亞馬遜,據(jù)說亞馬遜銷售額的三分之一都是來自于它的個性化推薦系統(tǒng)。在國內(nèi)的電子商務(wù)平臺當當網(wǎng)、京東商城、淘寶網(wǎng)上買過東西的顧客,都有相似的感受,當我們再次登錄網(wǎng)站時,網(wǎng)站上及時推薦了與之前搜索或購買過商品類似的物品,我們不禁驚嘆系統(tǒng)怎會如此精準的把握消費者的喜好和需求,這就是推薦系統(tǒng):知道是什么就夠了,沒必要知道為什么。推薦系統(tǒng)用在圖書館領(lǐng)域可以這樣理解:利用算法,通過對讀者的行為、興趣等分析,將讀者的個性化需求與系統(tǒng)的服務(wù)平臺結(jié)合起來,為每個讀者提供更有針對性的服務(wù),提高圖書資源的利用效率[3]。
根據(jù)推薦對象的內(nèi)容和特點,目前廣泛應用的有兩種類型的推薦系統(tǒng),一種是以網(wǎng)頁為推薦對象的搜索系統(tǒng),主要采用Web數(shù)據(jù)挖掘的方法與技術(shù),為用戶推薦符合其興趣愛好的網(wǎng)頁,如百度、Google等;另一種是電子商務(wù)環(huán)境下以商品為推薦對象的個性化推薦系統(tǒng),為用戶推薦符合興趣愛好的商品,如圖書、音像等。就圖書館而言,讀者就是消費者,圖書就是我們?yōu)橄M者提供的商品,只有把合適的資源推介給需要的人,才實現(xiàn)了圖書流通的最大價值?!白吭降牟湃A并不依賴于數(shù)據(jù)”但這只適用于像喬布斯那樣的天才,喬布斯有一句經(jīng)典的話:“消費者沒有義務(wù)去了解自己想要什么”,對于更多的產(chǎn)品還是要需求來引導市場。圖書館個性化推薦系統(tǒng),根據(jù)讀者興趣愛好、研究方向為其推薦圖書、報紙和期刊,甚至還可以推薦具有相同興趣和研究領(lǐng)域的其他讀者,創(chuàng)建一種讀者之間的興趣聯(lián)系[4]。
(三)輔助決策分析
圖書館存儲空間與紙本文獻增長的矛盾日益凸顯,對圖書館館藏建設(shè)提出了嚴峻考驗。圖書管理系統(tǒng)每天都會產(chǎn)生大量的統(tǒng)計數(shù)據(jù)、日志和表單,通過數(shù)據(jù)挖掘手段找出圖書借閱流通量與讀者需求內(nèi)在隱含的關(guān)聯(lián)信息,深入院系開展學科服務(wù),指導相關(guān)學科的文獻資源建設(shè)及館藏調(diào)整方向,積極推動圖書館與院系合作購買文獻信息資源,為建設(shè)科學化、規(guī)范化、現(xiàn)代化的館藏結(jié)構(gòu)體系提供參考意見,確保有限的圖書經(jīng)費發(fā)揮出更大的作用[5]。
大數(shù)據(jù)背景下,各圖書館相繼采用了各種信息化手段優(yōu)化服務(wù)模式和提升服務(wù)質(zhì)量,不過在書庫管理上還存在較大挑戰(zhàn),圖書頻繁倒架和高丟失率一直困擾著圖書館工作人員,數(shù)據(jù)挖掘為解決這一難題提供了有效的決策支持:通過對歷年圖書借閱量和圖書種類的關(guān)聯(lián)分析,對圖書種類借閱量做出預測趨勢分析,在圖書上架時預留架位;通過對圖書進行盤點,統(tǒng)計分析出圖書丟失率,查找出圖書丟失的原因,為圖書館人員管理和制度建設(shè)提供建議[6]。
四、結(jié)語
數(shù)據(jù)挖掘只是一種手段,它能發(fā)現(xiàn)數(shù)據(jù)中的潛在有用知識,解釋數(shù)據(jù)背后隱含的規(guī)律。結(jié)合圖書館現(xiàn)有的數(shù)據(jù),文章分析了數(shù)據(jù)挖掘在圖書館的應用場景,但具體的數(shù)據(jù)建模過程、最優(yōu)算法比較及分析結(jié)果展示等問題,尚有待進一步研究。數(shù)據(jù)挖掘可以描述現(xiàn)象、預測結(jié)果,它提供的只是參考答案,不是最終答案,這也提醒我們在使用這個工具的時候,應當懷有謙恭之心,且思且行。
參考文獻:
[1][美]Mehmed Kantardzic.數(shù)據(jù)挖掘——概念、模型、方法和算法[M].閃四清,等譯.北京:清華大學出版社,2003.
[2]謝邦昌.數(shù)據(jù)挖掘Clementine應用實務(wù)[M].北京:機械工業(yè)出版社,2008:3.
[3]侯蕾.基于借閱數(shù)據(jù)分析的讀者閱讀傾向及服務(wù)對策[J].圖書館學刊,2012(12).
[4]趙衛(wèi)軍.數(shù)據(jù)挖掘技術(shù)在高校圖書館中的應用[J].圖書館論壇,2007(4).
[5]周佳麗.借閱數(shù)據(jù)分析背景下的館藏結(jié)構(gòu)調(diào)整建議——以江蘇技術(shù)師范學院為例[J].圖書館學刊,2009(7).
[6]何少卓.淺談數(shù)據(jù)挖掘及其在圖書館的應用[J].圖書館界,2004,9(3).