摘 要:圖書館管理者需要從龐大的數(shù)據(jù)中篩選出可讀性高的知識(shí)信息任務(wù)量很大,且效率比較低。本文分析了圖書館應(yīng)用數(shù)據(jù)挖掘的必要性,闡述了圖書館個(gè)性化服務(wù)的內(nèi)涵,提出了基于數(shù)據(jù)挖掘技術(shù)的圖書館個(gè)性化服務(wù)應(yīng)用流程,有效的提高了圖書館管理的效率。
關(guān)鍵詞:圖書館;個(gè)性化服務(wù);數(shù)據(jù)挖掘技術(shù);應(yīng)用
1 圖書館應(yīng)用數(shù)據(jù)挖掘技術(shù)的必要性
1.1 信息化需求
圖書館數(shù)據(jù)庫之中包含用戶使用記錄,如借閱記錄、檢索記錄、網(wǎng)頁瀏覽記錄等。由于圖書館用戶需求不同,在使用過程中就會(huì)產(chǎn)生種類繁多、信息量大的數(shù)據(jù)。圖書館管理者需要從龐大的數(shù)據(jù)中篩選出可讀性高的知識(shí)信息任務(wù)量很大,且效率比較低。而通過數(shù)據(jù)挖掘技術(shù),就能夠快速地將大量的數(shù)據(jù)轉(zhuǎn)換為游泳的知識(shí)信息,為圖書館管理決策提供參考。
1.2 管理需求
傳統(tǒng)圖書館系統(tǒng)一般只具備簡單的檢索、訪問等功能,而這已經(jīng)不能滿足現(xiàn)代用戶對(duì)圖書館管理功能的需求,亟需對(duì)系統(tǒng)功能進(jìn)行升級(jí)改造。數(shù)據(jù)挖掘就能夠滿足為用戶提供個(gè)性化服務(wù)的技術(shù)要求,通過分析用戶使用數(shù)據(jù),挖掘隱含的關(guān)聯(lián)性信息,并發(fā)現(xiàn)相關(guān)的知識(shí)信息。
2 高校圖書館個(gè)性化服務(wù)的表現(xiàn)形式
所謂圖書館個(gè)性化服務(wù),就是能夠?yàn)椴煌愋偷挠脩籼峁┯嗅槍?duì)性信息服務(wù),滿足其知識(shí)查閱需求。而就個(gè)性化服務(wù)具體內(nèi)容而言,其表現(xiàn)形式主要有以下四個(gè)方面:
1)用戶能夠根據(jù)自身不同的需求定制有關(guān)的信息,并可從圖書館獲取有效的信息資源;圖書館一方可通過數(shù)據(jù)挖掘方式掌握用戶興趣,并可針對(duì)性地提供訪問空間,滿足用戶需求。圖書館在獲取用戶興趣愛好數(shù)據(jù)時(shí),主要是通過用戶瀏覽路徑信息時(shí)間來分析的,一般情況下用戶對(duì)感興趣的內(nèi)容會(huì)花較多的時(shí)間來閱讀。分析用戶在頁面的停留時(shí)間長短,即可掌握用戶對(duì)信息資源的感興趣程度,這可為圖書館管理提供很好的參考。
2)進(jìn)一步提高館藏信息資源的利用率。圖書館資源得到利用才能保證知識(shí)的廣泛傳播,圖書館可利用數(shù)據(jù)挖掘技術(shù)掌握用戶訪問圖書館網(wǎng)站的信息,包括瀏覽路徑、經(jīng)常訪問頁面,通過在路徑上增加針對(duì)性的信息資源的推送,引導(dǎo)用戶對(duì)信息資源進(jìn)行訪問,進(jìn)而提高圖書資源的利用率。
3)為用戶提供快速便捷的訪問條件。挖掘用戶網(wǎng)絡(luò)日志數(shù)據(jù),分析其訪問頁面之間的共同點(diǎn),圖書館可加強(qiáng)那些關(guān)聯(lián)性比較強(qiáng)的網(wǎng)頁之間的聯(lián)系,便于用戶對(duì)相關(guān)內(nèi)容的獲取。通過數(shù)據(jù)挖掘了解圖書館用戶的期望位置,并分析用戶在期望位置與實(shí)際位置二者訪問頻率的差異,如若前者頻率高于后者,則可以在兩者之間創(chuàng)建一個(gè)導(dǎo)航鏈接,便于用戶獲得更全面的信息。
4)查新、定題服務(wù)。傳統(tǒng)紙質(zhì)版、光盤類數(shù)據(jù)庫已經(jīng)跟不上新時(shí)期信息資源的查新服務(wù),并且隨著網(wǎng)絡(luò)技術(shù)不斷進(jìn)步與普及,圖書館內(nèi)容網(wǎng)絡(luò)在信息發(fā)布、更新方面具有明顯的滯后性,其服務(wù)內(nèi)容的真實(shí)性與可靠性亦值得商榷。因此,強(qiáng)化網(wǎng)絡(luò)平臺(tái)建設(shè)已成為圖書館發(fā)展的必由之路。數(shù)字圖書館已經(jīng)較為普及,但其自身的查新與定題服務(wù)仍有很大的差距,而可視化技術(shù)將成為即時(shí)信息分析的重要選擇之一。
3 基于數(shù)據(jù)挖掘技術(shù)的圖書館個(gè)性化服務(wù)的應(yīng)用實(shí)現(xiàn)
3.1 讀者數(shù)據(jù)倉庫的建立
數(shù)據(jù)準(zhǔn)備過程中的關(guān)鍵步驟是選擇一個(gè)樣板數(shù)據(jù)子集,該子集內(nèi)容需與挖掘目標(biāo)有較強(qiáng)的關(guān)聯(lián)性。由于所挖掘數(shù)據(jù)信息量較大,需要通過一個(gè)數(shù)據(jù)倉庫將所挖掘的目標(biāo)數(shù)據(jù)進(jìn)行保存,這是保證數(shù)據(jù)挖掘成功實(shí)現(xiàn)的重要內(nèi)容。所建立數(shù)據(jù)庫的類型主要有兩類:其一,用戶的興趣庫,可結(jié)合以往用戶在借閱圖書過程中的信息記錄、網(wǎng)站訪問記錄,并通過調(diào)查問卷的方式對(duì)用戶借閱興趣愛好進(jìn)行了解;其二,有自身特點(diǎn)的特色資源數(shù)據(jù)庫,對(duì)館藏資源進(jìn)行有效匯總分類,篩選出有特色的數(shù)據(jù)資源。
3.2 數(shù)據(jù)收集
數(shù)據(jù)庫建立之后,還需要對(duì)其中數(shù)據(jù)進(jìn)行處理,包括分析、調(diào)整等,通過這種方式來提高數(shù)據(jù)庫原始數(shù)據(jù)的質(zhì)量,保障數(shù)據(jù)挖掘過程的順利實(shí)現(xiàn)。數(shù)據(jù)的分析、調(diào)整過程主要是對(duì)原始數(shù)據(jù)進(jìn)行抽取、清洗和轉(zhuǎn)換等。所謂數(shù)據(jù)抽取,就是通過對(duì)原有數(shù)據(jù)庫信息進(jìn)行篩選,選擇與挖掘目標(biāo)相關(guān)的數(shù)據(jù)信息;在數(shù)據(jù)抽取基礎(chǔ)上,數(shù)據(jù)清洗再對(duì)所選擇的數(shù)據(jù)信息進(jìn)行噪聲、重復(fù)記錄的消除工作,并結(jié)合挖掘目標(biāo)計(jì)算得出相應(yīng)的缺值數(shù)據(jù)。由于圖書館自身數(shù)據(jù)量龐大,且每天都有大量新的用戶信息數(shù)據(jù)產(chǎn)生,而如果對(duì)所有的數(shù)據(jù)都進(jìn)行挖掘,則勢必影響挖掘效率與質(zhì)量,甚至可能出現(xiàn)負(fù)面影響,因此,清除與挖掘目標(biāo)不相關(guān)的數(shù)據(jù)就顯得十分重要。數(shù)據(jù)轉(zhuǎn)換的目的是對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步提煉,精簡數(shù)據(jù)的維數(shù),縮減挖掘變量數(shù),從而從眾多數(shù)據(jù)的原始特征中選擇出所需的特征。
3.3 挖掘算法選擇與模型建立
針對(duì)同一個(gè)系統(tǒng)任務(wù),通過不同的運(yùn)算方法可能得到相同的數(shù)據(jù)挖掘結(jié)果,但其運(yùn)算過程有很大的相似之處。因此,為提高運(yùn)算效率與質(zhì)量,數(shù)據(jù)挖掘算法的選擇應(yīng)結(jié)合數(shù)據(jù)特點(diǎn)、系統(tǒng)運(yùn)行要求,選擇最簡便、最快捷的挖掘算法。由于圖書館用戶群體較大,對(duì)知識(shí)獲取的需求差異性大,需要根據(jù)用戶的不同選擇適宜的挖掘算法,并據(jù)此建立有效的數(shù)據(jù)挖掘模型。通過一定的方法將用戶進(jìn)行分類,分析不同類型用戶的普遍性需求與個(gè)性化需求,并從中抽象出來,以此建立相對(duì)應(yīng)的關(guān)聯(lián)規(guī)則模型。但需要注意的一點(diǎn),是模型的建立并不一定能夠解決實(shí)際問題,其還需要通過驗(yàn)證不斷地進(jìn)行完善。
3.4 數(shù)據(jù)挖掘結(jié)果的驗(yàn)證、應(yīng)用與評(píng)價(jià)
數(shù)據(jù)結(jié)果的驗(yàn)證涉及到應(yīng)用過程中許多關(guān)鍵的環(huán)節(jié),且各個(gè)環(huán)節(jié)之間有很強(qiáng)的邏輯關(guān)系,上一步結(jié)果解釋實(shí)踐情況可對(duì)最終結(jié)果的實(shí)用性造成影響,可通過這種關(guān)系來對(duì)結(jié)果實(shí)用性進(jìn)行進(jìn)一步驗(yàn)證。但在應(yīng)用過程中需要注意挖掘模型與數(shù)據(jù)之間的匹配問題,不可能使一個(gè)模型與數(shù)據(jù)在所有情況下都能夠完全相符。因此,需要通過對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行評(píng)價(jià),在結(jié)合用戶反饋信息基礎(chǔ)上,挖掘結(jié)果能夠解決問題,達(dá)到開始的挖掘目標(biāo),滿足用戶需求,這也就意味著該挖掘模型是可行的、合理的。同時(shí),用戶需求得到滿足之后會(huì)做出滿意的反饋,決策者根據(jù)用戶所反饋的信息會(huì)對(duì)下一步做出合理的規(guī)劃,通過這一過程不斷對(duì)服務(wù)進(jìn)行完善,這也就實(shí)現(xiàn)了以用戶需求為前提的圖書館個(gè)性化服務(wù)數(shù)據(jù)挖掘過程。但是,還需要考慮到評(píng)價(jià)結(jié)果與用戶需求之間的較大差距情況,這一情形需要系統(tǒng)重新進(jìn)行數(shù)據(jù)處理,由系統(tǒng)決定選擇其他的處理方式,如改變轉(zhuǎn)換方法、設(shè)定新參數(shù)、選擇其他挖掘算法等,循環(huán)多次地對(duì)數(shù)據(jù)進(jìn)行處理,直至滿足用戶需求。
4 結(jié)語
新時(shí)期圖書館用戶數(shù)量倍增,信息服務(wù)需求也出現(xiàn)了多樣化、復(fù)雜化的特點(diǎn)。在如此龐大的信息資源中,數(shù)據(jù)挖掘技術(shù)能夠高效、快捷地發(fā)掘有用的知識(shí)信息,有針對(duì)性地提供個(gè)性化的服務(wù)內(nèi)容。當(dāng)然,圖書館個(gè)性化服務(wù)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用尚屬于初級(jí)階段,需要在挖掘方法、數(shù)據(jù)可視化、挖掘語言標(biāo)準(zhǔn)化等多個(gè)方面進(jìn)行完善,相信其會(huì)在數(shù)字圖書館建設(shè)中發(fā)揮不可替代的作用。
參考文獻(xiàn)
[1]李艷,呂鵬,李瓏.基于大數(shù)據(jù)挖掘與決策分析體系的高校圖書館個(gè)性化服務(wù)研究[J].圖書情報(bào)知識(shí),2016,02:60-68.
[2]侯振興,崔虹燕.數(shù)字圖書館個(gè)性化主動(dòng)信息服務(wù)模型研究[J].情報(bào)科學(xué),2013,03:35-39.
[3]王立偉.基于圖書館流通日志信息的維度建模[J].圖書館論壇,2008,03:58-60+120.
[4]周軍.基于數(shù)據(jù)挖掘的數(shù)字圖書館個(gè)性化服務(wù)系統(tǒng)的構(gòu)建[J].圖書館學(xué)研究,2007,03:15-17.
作者簡介
康潔(1987-),女,陜西人,本科,研究方向:圖書館學(xué)。