摘 要:隨著社會的發(fā)展和科技的進(jìn)步,應(yīng)用在圖書館領(lǐng)域的先進(jìn)技術(shù)也與日俱增,圖書館能夠為用戶提供的服務(wù)越來越受到業(yè)內(nèi)人士的關(guān)注。通過研究筆者發(fā)現(xiàn),傳統(tǒng)的數(shù)字圖書館一般無法給顧客提供個性化的準(zhǔn)確圖書推薦服務(wù),因此本文中筆者提出了一種圖書館智能推薦系統(tǒng),通過數(shù)據(jù)挖掘技術(shù)來實現(xiàn)智能推薦功能,分析數(shù)據(jù)挖掘技術(shù)中關(guān)聯(lián)的適用原因和規(guī)則,并介紹設(shè)計框架和結(jié)構(gòu),最后得出結(jié)論,以期能夠為業(yè)內(nèi)的研究和應(yīng)用者提供參考和借鑒。
關(guān)鍵詞:圖書館;智能推薦系統(tǒng);數(shù)據(jù)挖掘技術(shù)
中圖分類號:TP311.13;TP18
隨著社會的信息化飛速發(fā)展,圖書館在逐漸建設(shè)的過程中也吸納了越來越多的數(shù)據(jù),這些數(shù)據(jù)呈現(xiàn)復(fù)雜化和海量化的趨勢,由此造成了一般用戶在手工檢索的過程中需要很大工作量的結(jié)果,用戶在這樣的檢索中不僅很難準(zhǔn)確找到所需的結(jié)果,而且圖書館也很難在這一過程中發(fā)揮更多的作用提供更好的服務(wù)。下文中介紹的智能推薦系統(tǒng)能夠很大程度上緩解這一問題,對存儲的海量數(shù)據(jù)進(jìn)行挖掘和整理,通過用戶的特征和偏好來預(yù)測用戶行為,同事根據(jù)讀者數(shù)據(jù)中的潛在模式和關(guān)系信息改進(jìn)圖書館智能推薦系統(tǒng)。
1 智能推薦的核心技術(shù)
在智能推薦的技術(shù)領(lǐng)域,由數(shù)據(jù)挖掘技術(shù)產(chǎn)生的技術(shù)有如下三種:首先是關(guān)聯(lián)規(guī)則推薦,其次是基于用戶聚類的協(xié)同過濾推薦,最后是基于內(nèi)容聚類的協(xié)同過濾推薦
1.1 三種推薦技術(shù)簡介
(1)關(guān)聯(lián)規(guī)則推薦。通過關(guān)聯(lián)規(guī)則來進(jìn)行推薦的過程是一個搜尋頻繁相關(guān)的項集的過程,這一過程中通過對客戶經(jīng)常訪問和搜索情況的記錄和分析處理,找到客戶的直觀意向,探尋使用者的傾向,從而推薦出使用者在選擇了某一選項之后最有可能選擇的其他選項。
(2)基于用戶聚類的協(xié)同過濾推薦。通過用戶聚類來協(xié)同過濾推薦的方法一般是根據(jù)已有的最近鄰技術(shù),從用戶的興趣信息得到用戶之間的遠(yuǎn)近程度,用戶遠(yuǎn)近從興趣度的相似程度來判別,最后根據(jù)最近鄰用戶找到目標(biāo)用戶,預(yù)測目標(biāo)用戶的興趣來進(jìn)行推薦。
(3)基于內(nèi)容聚類的協(xié)同過濾推薦。根據(jù)內(nèi)容聚類進(jìn)行的協(xié)同過濾是通過對項目的實際內(nèi)容進(jìn)行分析,更多更好的利用計算機(jī)對內(nèi)容的分析和特征提取來實現(xiàn)興趣度的計算,不需要訪問用戶評價信息。
1.2 選擇關(guān)聯(lián)規(guī)則推薦技術(shù)的原因
根據(jù)以上信息可以看出,上述三種推薦技術(shù)的適用范圍各不相同,通過內(nèi)容協(xié)同過濾的方法在用戶推薦之后再將推薦結(jié)果轉(zhuǎn)給其他用戶,能夠?qū)崿F(xiàn)良好的使用反饋,但是由于方法限制容易出現(xiàn)稀疏問題;通過用戶類聚實現(xiàn)協(xié)同推薦的方法能夠處理較復(fù)雜的非結(jié)構(gòu)化對象,但是依舊存在冷啟動和稀疏的問題。由此分析可以采取關(guān)聯(lián)規(guī)則進(jìn)行自動推薦,理由如下:首先,采用關(guān)聯(lián)規(guī)則進(jìn)行自動推薦不存在冷啟動中的新用戶出現(xiàn)問題,通過大量的對借閱記錄的離線生成來尋找關(guān)聯(lián)規(guī)則,這樣既可在用戶上線之后給用戶提供推薦;其次,可以解決圖書名稱重復(fù)的問題,通過詞庫和語義的定義可以一定程度上改善產(chǎn)品名同一性的問題;最后,通過關(guān)聯(lián)規(guī)則還可以進(jìn)行離線抽取,能夠良好的解決圖書借閱在線費時的問題。
2 關(guān)聯(lián)規(guī)則的概念及算法
2.1 關(guān)聯(lián)規(guī)則的相關(guān)概念
關(guān)聯(lián)規(guī)則的挖掘時挖掘數(shù)據(jù)集中項集之間有“聯(lián)系”的關(guān)聯(lián),是數(shù)據(jù)挖掘領(lǐng)域的重要環(huán)節(jié)。設(shè)I={i1,i2,…,im}是項的集合,D是數(shù)據(jù)庫事務(wù)的集合,每個事務(wù)T是不同項的集合,使得T包含于I。規(guī)則A,B在事務(wù)集D中成立,具有支持度s和置信度c,同時滿足最小支持度閾值和最小置信度閾值的規(guī)則,就可以認(rèn)為是知識輸出的強(qiáng)關(guān)聯(lián)規(guī)則。
2.2 關(guān)聯(lián)規(guī)則的相關(guān)步驟
挖掘關(guān)聯(lián)規(guī)則是一種非常重要的方法,Agrawal等曾在多年以前提出過一個Apriori算法,該方法首先會生成頻繁項集,這也是決定挖掘效率的關(guān)鍵一步,之后通過對相應(yīng)數(shù)據(jù)庫的掃描,設(shè)置適當(dāng)?shù)闹С侄?,計算?shù)據(jù)庫內(nèi)容,找到頻繁項集,為關(guān)聯(lián)規(guī)則的提取提供基礎(chǔ),之后如果數(shù)據(jù)庫中找到了頻繁項集,則通過他們產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,滿足最小置信度和最小支持度。
3 圖書智能推薦系統(tǒng)框架設(shè)計
為了進(jìn)一步提高系統(tǒng)效率,且在設(shè)計關(guān)聯(lián)規(guī)則算法時又需要對整個數(shù)據(jù)庫進(jìn)行掃描,所以需要在Offline部分處理規(guī)則生成?,F(xiàn)擬將圖書智能推薦系統(tǒng)的框架分為兩個部分,分別是Online部分和Offline部分。這一流程可以從下圖得到。如圖1所示:
圖1 圖書智能推薦系統(tǒng)框架
3.1 Offline部分
這一部分是通過關(guān)聯(lián)規(guī)則的挖掘和數(shù)據(jù)的準(zhǔn)備來完成的。關(guān)聯(lián)規(guī)則的挖掘是由頻繁項集的掃描和關(guān)聯(lián)規(guī)則生成這兩部分組成,而數(shù)據(jù)準(zhǔn)備則是將圖書館的web服務(wù)器實時用戶文件和借閱歷史進(jìn)行掃描并生成相應(yīng)文件。
首先進(jìn)行的是數(shù)據(jù)準(zhǔn)備工作,這一工作過程中會對數(shù)據(jù)進(jìn)行必要的預(yù)先處理,規(guī)則挖掘的正確度和效率也受這一結(jié)果的影響。另外由于圖書的歷史數(shù)據(jù)和實時數(shù)據(jù)都存在大量冗余,也需要對數(shù)據(jù)進(jìn)行必要的去噪和整理。之后進(jìn)行的是關(guān)聯(lián)規(guī)則的挖掘,這里會利用關(guān)聯(lián)模式來發(fā)現(xiàn)用戶瀏覽模式,通過對模式的分析得到讀者的借閱規(guī)則,存儲之后為后面的online部分服務(wù)。
3.2 Online部分
Online部分運用Offline部分生成關(guān)聯(lián)規(guī)則的集合,并且在同一時間內(nèi)記錄和檢測用戶的瀏覽過程,動態(tài)地為用戶推薦相應(yīng)的鏈接或者書目操作等服務(wù)。由讀者推薦和圖書館服務(wù)器組成,服務(wù)器記錄用戶的操作數(shù)據(jù),讀者推薦服務(wù)通過匹配讀者行為數(shù)據(jù)和Offline部分產(chǎn)生的有趣規(guī)則,給用戶進(jìn)行圖書推薦服務(wù)。
4 結(jié)束語
隨著數(shù)字圖書館朝著越來越智能化的方向發(fā)展,圖書館需要提供給讀者更加有針對性的圖書自動推薦服務(wù)。通過本文的研究能夠得到,可以將關(guān)聯(lián)規(guī)則作為圖書智能推薦系統(tǒng)的核心技術(shù),提高圖書館的服務(wù)水平和質(zhì)量,為圖書館管理提供數(shù)據(jù)支持。在今后的研究中還需要進(jìn)一步對數(shù)據(jù)挖掘和關(guān)聯(lián)規(guī)則進(jìn)行深入研究,以期能夠更好的改進(jìn)圖書館的服務(wù)質(zhì)量和效率。
參考文獻(xiàn):
[1]高鳳榮,馬文峰,王珊.數(shù)字圖書館個性化信息推薦系統(tǒng)研究[J].情報理論與實踐,2003(04).
[2]姚罡,麥永浩,黨選舉.數(shù)據(jù)挖掘在電子商務(wù)推薦系統(tǒng)中的應(yīng)用設(shè)計[J].計算機(jī)與現(xiàn)代化,2002(12).
[3]錢衛(wèi)寧,魏藜,王焱,錢海蕾,周傲英.一個面向大規(guī)模數(shù)據(jù)庫的數(shù)據(jù)挖掘系統(tǒng)[J].軟件學(xué)報,2002(08).
作者簡介:成果(1983-),男,遼寧營口市人,圖書館管理員,助理館員,碩士,研究方向:圖書館信息化。
作者單位:大連理工大學(xué),遼寧大連 116000