孫燕(泰州職業(yè)技術(shù)學(xué)院圖書館,江蘇泰州225300)
?
高校圖書館個(gè)性化服務(wù)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用
孫燕
(泰州職業(yè)技術(shù)學(xué)院圖書館,江蘇泰州225300)
[摘要]個(gè)性化服務(wù)即根據(jù)信息用戶的知識(shí)結(jié)構(gòu)、信息需求、使用行為、習(xí)慣偏好等為其提供的信息服務(wù)。分析了數(shù)據(jù)挖掘技術(shù)在高校圖書館中應(yīng)用的必要性與可行性,總結(jié)個(gè)性化服務(wù)的表現(xiàn)形式,并提出數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用流程。
[關(guān)鍵詞]高校圖書館個(gè)性化服務(wù)數(shù)據(jù)挖掘
[分類號(hào)]G252.6
個(gè)性化服務(wù)是根據(jù)信息用戶的知識(shí)結(jié)構(gòu)、信息需求、信息使用行為、習(xí)慣偏好等為其提供與其個(gè)性化需求相符的信息服務(wù),圖書館數(shù)據(jù)庫中積累了大量的讀者借閱行為數(shù)據(jù),而利用數(shù)據(jù)挖掘技術(shù)可以將其中隱含的關(guān)聯(lián)規(guī)則的知識(shí)充分挖掘出來,根據(jù)讀者的個(gè)性、特點(diǎn)發(fā)掘出讀者的借閱傾向,為個(gè)性化信息服務(wù)提供指導(dǎo)。
1.1數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘即從大量的、隨機(jī)的、模糊的實(shí)際應(yīng)用數(shù)據(jù)中,挖掘出其潛在的、事先不為人所知的、有用的數(shù)據(jù),數(shù)據(jù)挖掘的過程就是發(fā)現(xiàn)知識(shí)的過程,其主要包括關(guān)聯(lián)分析、聚類、分類、預(yù)測、時(shí)序模式等5個(gè)方面[1]。
關(guān)聯(lián)分析即找出兩個(gè)或以上變量之間同時(shí)出現(xiàn)的規(guī)律、因果結(jié)構(gòu),即通過其他事物可對某個(gè)與之相關(guān)的事物做出預(yù)測。數(shù)據(jù)挖掘關(guān)聯(lián)分析的主要作用就是分析海量數(shù)據(jù)中潛在的關(guān)聯(lián)規(guī)則,對于高校圖書館個(gè)性化服務(wù)而言,即從圖書館數(shù)據(jù)庫中發(fā)現(xiàn)相關(guān)的關(guān)聯(lián)規(guī)則,針對用戶的信息需求做出準(zhǔn)確預(yù)測,提高信息推送的針對性,便于用戶獲取所需的信息。
聚類即將數(shù)據(jù)庫中的一組個(gè)體按照相似性歸結(jié)為若干類型,應(yīng)用于圖書館系統(tǒng)中,就是將相似的文獻(xiàn)集中在一起,用戶在搜索相關(guān)文獻(xiàn)時(shí)可以查閱更多其他相關(guān)內(nèi)容,便于其總結(jié)、歸納;在個(gè)性化服務(wù)中還可以通過聚類匯總用戶所需的特定信息。
分類與聚類相似,是按照分析對象的屬性建立類組,用戶查閱資料的過程中,每種信息的重要程度有所不同,通過分類可以將用戶所需求的知識(shí)分為高度需求、中度需求及低度需求。在高校圖書館個(gè)性化服務(wù)中要對用戶的使用規(guī)律做出預(yù)測,即根據(jù)用戶歷史查閱記錄對用戶所需的文獻(xiàn)種類、特征等做出預(yù)測。
時(shí)序模式主要是通過時(shí)間段對用戶的訪問記錄、檢索過程做出標(biāo)志,再通過時(shí)間序列將重復(fù)率較高的內(nèi)容挖掘出來,以預(yù)測其下個(gè)信息需求,提高用戶查閱資料的便利性。
1.2圖書館中應(yīng)用數(shù)據(jù)挖掘的必要性與可行性分析
圖書館應(yīng)用數(shù)據(jù)挖掘技術(shù)的必要性體現(xiàn)在以下幾個(gè)方面:
首先,信息化需求。用戶的借閱記錄、檢索記錄均存儲(chǔ)于圖書館數(shù)據(jù)庫中,需要利用數(shù)據(jù)挖掘技術(shù)將這些海量數(shù)據(jù)轉(zhuǎn)換為有用的知識(shí)信息,以便于館員做出決策。
其次,圖書館的管理需求。傳統(tǒng)圖書館系統(tǒng)僅能為用戶提供簡單的訪問、檢索等功能,這些功能無法滿足圖書館個(gè)性化的技術(shù)要求,因此要利用數(shù)據(jù)挖掘技術(shù)將用戶借閱數(shù)據(jù)中隱含的關(guān)聯(lián)性發(fā)掘出來,從中發(fā)現(xiàn)有用的知識(shí)信息。
最后,用戶服務(wù)的需求。數(shù)字化圖書館的發(fā)展越來越迅速,用戶通過圖書館獲得的資源也越來越豐富,如何從海量的信息資源中發(fā)掘出對用戶有用的知識(shí)信息,僅依靠傳統(tǒng)的圖書館管理系統(tǒng)無法解決這一問題,因此要利用數(shù)據(jù)挖掘技術(shù)對用戶的借閱記錄進(jìn)行分析,從中獲得更多有價(jià)值的信息,以提高圖書館的服務(wù)質(zhì)量及館藏利用率。
而在圖書館個(gè)性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)也是可行的,一方面很多圖書館已具備比較好的物質(zhì)條件及人才條件,這些均是圖書館個(gè)性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)的必要條件,而且政府在經(jīng)濟(jì)方面、政策方面也為數(shù)據(jù)挖掘的應(yīng)用提供了更多保障;另一方面,近年來數(shù)據(jù)挖掘技術(shù)也有了長足的發(fā)展,其足以為圖書館的個(gè)性化服務(wù)提供必要的技術(shù)支持[2]。圖書館數(shù)字化發(fā)展過程中需要采集、購置更多的數(shù)據(jù)資源,而利用數(shù)據(jù)挖掘技術(shù)可以為圖書館資源建設(shè)提供指導(dǎo)作用,挖掘圖書館的歷史借閱記錄,可進(jìn)一步了解用戶的借閱習(xí)慣、閱讀興趣及信息需求,并且可以對不同圖書之間的關(guān)聯(lián)性進(jìn)行深入分析,圖書館員根據(jù)這些信息記錄、分析結(jié)果等提供指導(dǎo),可以提高圖書資源分配的合理性,對館藏布局進(jìn)行優(yōu)化。由此可見,數(shù)字化圖書館個(gè)性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)十分必要。
高校圖書館個(gè)性化服務(wù)是指根據(jù)每個(gè)用戶的專業(yè)、愛好、研究方向、探索領(lǐng)域及特殊服務(wù)為其提供更具針對性的信息服務(wù),幫助用戶查閱更加完整的信息資料,便于其學(xué)習(xí)、研究[3]。其中,高校圖書館個(gè)性化服務(wù)的模型如下[4]。
圖1 高校圖書館個(gè)性化服務(wù)模型
高校圖書館個(gè)性化服務(wù)具體體現(xiàn)在以下3個(gè)方面:①用戶可根據(jù)自己的需求定制相關(guān)信息,以保證其在圖書館中能夠查閱到相關(guān)資料;圖書館利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)用戶的興趣愛好,為其定制個(gè)性化的訪問空間。用戶訪問圖書館數(shù)據(jù)庫時(shí)會(huì)將其興趣愛好間接地反映出來,如果用戶不感興趣,在頁面停留的時(shí)間會(huì)較短,停留時(shí)間較長則說明比較感興趣;利用用戶的瀏覽路徑信息時(shí)間即可將用戶對信息資源的感興趣程度發(fā)掘出來。②提高圖書館資源利用率。利用數(shù)據(jù)挖掘技術(shù)可以識(shí)別圖書館網(wǎng)站內(nèi)頻繁訪問的路徑及用戶訪問次數(shù)較多的頁面,可以將新書信息、重要的分類信息放在這些路徑上,從而向用戶主動(dòng)推送其所需要的信息資源,提高圖書的利用率。③優(yōu)化鏈接結(jié)構(gòu),提高用戶應(yīng)用的便利性。對Web log進(jìn)行挖掘,可以發(fā)現(xiàn)用戶訪問頁面的相關(guān)性,增加聯(lián)系比較密切的網(wǎng)頁之間的關(guān)聯(lián)性;發(fā)現(xiàn)用戶的期望位置,如果用戶訪問期望位置的頻率高于對實(shí)際位置的訪問頻率,則可在二者之間建立導(dǎo)航鏈接,優(yōu)化站點(diǎn)。④查新服務(wù)與定題服務(wù)。傳統(tǒng)圖書館主要通過查詢光盤數(shù)據(jù)庫、文獻(xiàn)數(shù)據(jù)庫等進(jìn)行查新服務(wù),而隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展與應(yīng)用,外部網(wǎng)絡(luò)信息發(fā)布及更新的速度遠(yuǎn)遠(yuǎn)超過圖書館內(nèi)部網(wǎng)絡(luò),因此要加強(qiáng)網(wǎng)絡(luò)平臺(tái)的建設(shè),以保證服務(wù)結(jié)果的真實(shí)性與可靠性。數(shù)字圖書館在進(jìn)行查新與定題服務(wù)過程中,可以利用可視化技術(shù)為用戶提供在線即時(shí)信息分析。
圖書館個(gè)性化服務(wù)數(shù)據(jù)挖掘技術(shù)的應(yīng)用流程如下:建立讀者數(shù)據(jù)倉庫——數(shù)據(jù)收集——挖掘算法的選擇——挖掘結(jié)果的顯示——對結(jié)果的評價(jià)。具體如圖2所示[5]。
圖2 圖書館個(gè)性化服務(wù)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用流程
3.1建立讀者數(shù)據(jù)倉庫
數(shù)據(jù)挖掘過程中,在確定了挖掘目標(biāo)后,即開始進(jìn)行數(shù)據(jù)準(zhǔn)備,從大量數(shù)據(jù)中選擇一個(gè)與需挖掘目標(biāo)相關(guān)的樣板數(shù)據(jù)子集。此時(shí)需要建立一個(gè)數(shù)據(jù)倉庫,其主要作用是將所有挖掘目標(biāo)所需的數(shù)據(jù)保存其中,如果未建立數(shù)據(jù)倉庫直接進(jìn)行數(shù)據(jù)挖掘,可能會(huì)導(dǎo)致挖掘失敗,因此數(shù)據(jù)挖掘的前期工作大部分用于準(zhǔn)備數(shù)據(jù),因此建立數(shù)據(jù)倉庫是一個(gè)至關(guān)重要的準(zhǔn)備工作[6]。高校圖書館個(gè)性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù),第一步就是建立用戶的興趣庫及圖書館自身的特色資源數(shù)據(jù)庫。用戶使用圖書館的過程中,必然會(huì)產(chǎn)生大量的借閱記錄,訪問圖書館網(wǎng)站會(huì)留下訪問記錄,這其中均潛藏了大量有意義的信息。
3.2數(shù)據(jù)收集
在建立用戶興趣庫及特色資源數(shù)據(jù)庫后,必須對這兩個(gè)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析、調(diào)整,以保證原始數(shù)據(jù)的質(zhì)量,從而保證數(shù)據(jù)挖掘結(jié)果的質(zhì)量。數(shù)據(jù)收集即數(shù)據(jù)的分析與調(diào)整可以分為數(shù)據(jù)抽取、數(shù)據(jù)清洗及數(shù)據(jù)轉(zhuǎn)換等3個(gè)步驟。其中數(shù)據(jù)抽取的主要作用是將與挖掘目標(biāo)相關(guān)的數(shù)據(jù)信息搜索出來;數(shù)據(jù)清洗則是對數(shù)據(jù)進(jìn)行噪聲消除、重復(fù)記錄的消除及推導(dǎo)計(jì)算缺值數(shù)據(jù)等。圖書館每天會(huì)產(chǎn)生大量的用戶相關(guān)的數(shù)據(jù),并非所有的數(shù)據(jù)均對整個(gè)挖掘處理過程有正面作用,有些數(shù)據(jù)可能會(huì)對挖掘效果產(chǎn)生負(fù)面影響,因此剔除這些無用的數(shù)據(jù)十分必要。數(shù)據(jù)轉(zhuǎn)換的主要作用是精減數(shù)據(jù)維數(shù),從初始特征中分析出真正有用的特征,通過數(shù)據(jù)轉(zhuǎn)換可有效減少數(shù)據(jù)挖掘時(shí)需要考慮的變量數(shù)[7]。
3.3選擇算法及建立模型
數(shù)據(jù)挖掘過程中不同的算法可能會(huì)實(shí)現(xiàn)同一個(gè)任務(wù),但過程卻大相徑庭,因此要根據(jù)數(shù)據(jù)的特點(diǎn)、實(shí)際運(yùn)行系統(tǒng)的要求選擇適用的算法。有些用戶比較傾向于獲取描述型的、容易理解的知識(shí),有些用戶則希望獲取預(yù)測型知識(shí),因此要針對不同的用戶選擇對應(yīng)的算法,之后就要進(jìn)行數(shù)據(jù)挖掘模型的建立。通過對用戶分類、聚類及時(shí)間序列的分析,將每類用戶的普遍性需求及個(gè)性化需求抽象出來,從而建立一系列的關(guān)聯(lián)規(guī)則模型。一個(gè)模型完成后不一定可以立刻解決問題,需要對其進(jìn)行反復(fù)驗(yàn)證,如果可以解決問題證明模型有效;如模型存在缺陷,則要通過反饋對模型進(jìn)行修改、調(diào)整,或者選擇新算法,建立新模型,對不同的模型進(jìn)行全面考察。
3.4結(jié)果解釋與知識(shí)表示
在建立數(shù)據(jù)挖掘模型后,可利用建立挖掘模型時(shí)所用的算法規(guī)則進(jìn)行運(yùn)算,即可產(chǎn)生數(shù)據(jù)挖掘結(jié)果,圖書館只需對挖掘結(jié)果進(jìn)行可視化、可理解化處理即可。要將抽象的數(shù)據(jù)解釋成易讀、易懂的結(jié)果,圖書館決策者及管理者即可根據(jù)可視化的挖掘結(jié)果進(jìn)行決策。比如圖書館新引進(jìn)了一批考古專業(yè)的學(xué)術(shù)論文,由數(shù)據(jù)挖掘模型分析結(jié)果可知,該批論文的查閱者90%均為考古專業(yè)的老師與學(xué)生,其他專業(yè)的師生查閱率不到10%,根據(jù)這一結(jié)果,即可將論文信息傳遞給考古專業(yè)的相關(guān)用戶,以提高信息推送的針對性。
3.5結(jié)果的驗(yàn)證、應(yīng)用及評價(jià)
產(chǎn)生挖掘結(jié)果后需要進(jìn)一步實(shí)踐,以驗(yàn)證結(jié)果的有效性與可用性,及對模型的實(shí)用性進(jìn)行評價(jià),并且挖掘結(jié)果還具備預(yù)測未來數(shù)據(jù)的功能。上一步的結(jié)果解釋經(jīng)過實(shí)踐后,可對應(yīng)用過程進(jìn)行跟蹤了解,獲得用戶的反饋信息,對結(jié)果的實(shí)用性進(jìn)行驗(yàn)證。需要注意一點(diǎn),即一個(gè)數(shù)據(jù)挖掘的模型與已有數(shù)據(jù)完全相符比較困難,且并非所有的環(huán)境、每個(gè)時(shí)間節(jié)點(diǎn)均適用于同一個(gè)數(shù)據(jù)挖掘模型,因此要對挖掘結(jié)果做出評價(jià),如經(jīng)過用戶的反饋,數(shù)據(jù)挖掘出來的結(jié)果可以解決問題,實(shí)現(xiàn)了最初的挖掘目標(biāo),滿足了用戶需求,則可判定該模型是合理的。挖掘結(jié)果可以滿足用戶的要求,用戶就會(huì)做出滿意的反饋,將這一反饋信息提供給決策者即可做下一步的實(shí)施,完成該階段后,圖書館就基本上實(shí)現(xiàn)了以用戶為中心的個(gè)性化服務(wù)的數(shù)據(jù)挖掘過程。不過某些情況下模型的評價(jià)結(jié)果可能不盡如人意,即數(shù)據(jù)挖掘的結(jié)果無法滿足用戶的要求,這種情況就要由系統(tǒng)進(jìn)行重新處理,重復(fù)上述步驟,重新抽取數(shù)據(jù)、選擇另外一種數(shù)據(jù)轉(zhuǎn)換方法、設(shè)定新的數(shù)據(jù)挖掘參數(shù)值、選擇另外的挖掘算法等。由此可見,數(shù)據(jù)挖掘的過程是一個(gè)不斷反饋的過程,體現(xiàn)出反復(fù)性的特點(diǎn)。
從某種程度上講,個(gè)性化服務(wù)模式是圖書館傳統(tǒng)被動(dòng)服務(wù)的變革,其遵循“一切以用戶為中心”的服務(wù)理念,真正實(shí)現(xiàn)了“用戶需要什么,圖書館就提供什么”的主動(dòng)的服務(wù)模式,可以預(yù)見,個(gè)性化服務(wù)模式必將成為數(shù)字圖書館技術(shù)發(fā)展的主要趨勢?,F(xiàn)階段,我國網(wǎng)絡(luò)用戶數(shù)量呈幾何倍數(shù)增加,用戶的需求也呈現(xiàn)多樣化、復(fù)雜化的特點(diǎn),圖書館只有向其提供更具針對性、個(gè)性化的信息服務(wù),才能滿足其越來越高的信息服務(wù)要求。在海量的信息資源中,數(shù)據(jù)挖掘技術(shù)可以提供極具智能化的個(gè)性服務(wù),因此已逐漸成為數(shù)字圖書館建設(shè)中非常重要的技術(shù)支持與保障。當(dāng)然,數(shù)據(jù)挖掘技術(shù)還屬于一種新興技術(shù),尚存在一些不足與缺陷,比如數(shù)據(jù)的可視化、數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化、多層次、多種類知識(shí)的高效挖掘方法等,這些均是后續(xù)需要不斷探索與研究的課題。但是我們相信,未來的數(shù)字圖書館建設(shè)過程中,數(shù)據(jù)挖掘技術(shù)的作用將越來越不可替代。
參考文獻(xiàn):
[1]鄧愛東.數(shù)字圖書館個(gè)性化服務(wù)模型研究[J].圖書館學(xué)研究,2011(4):93-94.
[2]鄧守微.基于數(shù)據(jù)挖掘的數(shù)字圖書館個(gè)性化服務(wù)[J].圖書館學(xué)研究,2012(1):231-233.
[3]汪琴,王婷.數(shù)字圖書館個(gè)性化服務(wù)系統(tǒng)研究[J].情報(bào)理論與實(shí)踐,2013(6):87-90.
[4]熊擁軍.數(shù)據(jù)挖掘在數(shù)字圖書館個(gè)性化服務(wù)中的應(yīng)用[D].長沙:中南大學(xué),2012:13.
[5]夏南強(qiáng),張紅梅.基于數(shù)據(jù)挖掘的數(shù)字圖書館個(gè)性化服務(wù)[J].圖書館學(xué)研究,2011(1):32-34,43.
[6]周軍.基于數(shù)據(jù)挖掘的數(shù)字圖書館個(gè)性化服務(wù)系統(tǒng)的構(gòu)建[J].圖書館學(xué)研究,2012(3):15-17.
[7]駱穎.基于數(shù)據(jù)挖掘的數(shù)字圖書館個(gè)性化服務(wù)[J].黑龍江科技信息,2012(5):92.
孫燕女,1982年生。本科學(xué)歷,館員。研究方向:圖書館管理、圖書館情報(bào)。
·文獻(xiàn)考略·
收稿日期:(2014-11-26;責(zé)編:楊新寬。)