楊雪
(陜西國際商貿(mào)學(xué)院 圖書館, 陜西 咸陽 712046)
隨著人們生活水平的不斷提高,人們對精神生活的追求也日益提高,圖書館已經(jīng)成為人們經(jīng)常停留的地方。隨著無線移動網(wǎng)絡(luò)技術(shù)的成熟,許多電子圖書被保存于圖書館中,人們?nèi)绾螐拇罅康臅姓业阶约盒枰膱D書十分重要[1-3]。圖書館書目推薦系統(tǒng)可以幫助人們快速定位到需要的書籍,提高了圖書館資源利用率,因此設(shè)計性能良好的圖書館書目推薦系統(tǒng)已成為圖書館研究領(lǐng)域的一個重要方向[4-6]。
圖書館書目推薦系統(tǒng)解決了傳統(tǒng)圖書查找方式,具有一定的智能性,是圖書館管理的一個重要組成部分,當(dāng)前存在許多有效的圖書館書目推薦系統(tǒng)[7-9]。最常用的圖書館書目推薦系統(tǒng)為:基于樸素貝葉斯算法的圖書館書目推薦系統(tǒng),基于人工智能技術(shù)的圖書館書目協(xié)同推薦系統(tǒng)等,它們根據(jù)一定的規(guī)則將圖書書目推薦給用戶,減少了用戶選擇圖書時間,但是這些系統(tǒng)存在一定的缺陷,如:無法滿足不同用戶對圖書館書籍的個性化需求,針對性不強,而且圖書館書目協(xié)同推薦精度低[10-11]。
為了解決圖書館書目推薦系統(tǒng)無法滿足用戶對書目的個性化要求的缺陷,提出了基于協(xié)同過濾的圖書館書目個性化推薦系統(tǒng)。首先建立了圖書館書目個性化推薦系統(tǒng)的總體結(jié)構(gòu),然后根據(jù)協(xié)同過濾算法計算圖書和用戶間的相似度,最后根據(jù)相似度對書目進(jìn)行排序,并根據(jù)排序結(jié)果向用戶推薦真正需要的書目,測試結(jié)果表明,該系統(tǒng)充分考慮了每一個用戶的不同需求,降低了圖書館書目推薦誤差,圖書館書目推薦結(jié)果更加具有針對性,相對其他圖書館書目推薦系統(tǒng)具有十分顯著的優(yōu)越性。
結(jié)合用戶對圖書的實際要求,協(xié)同過濾的圖書館書目個性化推薦系統(tǒng)結(jié)構(gòu),如圖1所示。
圖1 圖書館書目個性化推薦系統(tǒng)的總體結(jié)構(gòu)
從圖1可知,該系統(tǒng)主要包含圖書館書目、用戶數(shù)據(jù)庫、用戶需要書目推薦。數(shù)據(jù)庫主要保存圖書館書目的相關(guān)信息以及用戶信息,是系統(tǒng)最為重要的部分,便于協(xié)同過濾算法對圖書館書目進(jìn)行個性化數(shù)據(jù)和推薦。書目推薦模塊是本文要重點研究的內(nèi)容,主要包括:協(xié)同過濾算法,書目推薦規(guī)則,因此也是圖書館書目個性化推薦系統(tǒng)的核心部分。
基于協(xié)同過濾的圖書館書目個性化推薦系統(tǒng)工作流程如圖2所示。
圖2 圖書館書目個性化推薦系統(tǒng)的工作流程
對圖2的工作過程進(jìn)行分析可以發(fā)現(xiàn),首先對用戶個性需求進(jìn)行分析,從數(shù)據(jù)庫中提取相關(guān)的圖書書目信息,并對信息進(jìn)行一定分類預(yù)處理,將分類結(jié)果存儲于數(shù)據(jù)庫中,然后采用協(xié)同過濾計算用戶與圖書之間的相似度,并對兩者的關(guān)系進(jìn)行挖掘,建立圖書館書目個性化推薦關(guān)聯(lián)規(guī)則,最后將圖書館書目推薦結(jié)果Web服務(wù)器發(fā)送給用戶。
現(xiàn)代圖書館包含海量圖書數(shù)據(jù),不同的圖書具有不同的關(guān)鍵詞,因此可以根據(jù)關(guān)鍵詞區(qū)別相應(yīng)的書籍[12]。首先抽取圖書的一些關(guān)鍵詞,然后計算關(guān)鍵詞的權(quán)重,并根據(jù)權(quán)重計算圖書相似度,最后根據(jù)圖書相似度進(jìn)行書目推薦。
2.3.1 計算圖書關(guān)鍵詞的權(quán)重
當(dāng)前計算圖書館書目的關(guān)鍵詞權(quán)值方法很多,相對其他方法,TF-IDF得到圖書館書籍關(guān)鍵詞的權(quán)重更加科學(xué)、合理,因此本文選擇其計算圖書關(guān)鍵詞的權(quán)重。TF表示圖書館書目的詞頻,用于描述關(guān)鍵詞對圖書的重要程度;而IDF表示圖書館書籍的反向詞頻,用于描述關(guān)鍵的普遍重要性。設(shè)圖書館書籍有F個關(guān)鍵詞,它們在圖書館書籍中出現(xiàn)的次數(shù)為K,那么TF可以表示為式(1)。
TF=K/F
(1)
設(shè)圖書總數(shù)量為N,包含某個關(guān)鍵詞的圖書數(shù)量為k,那么IDF可以表示為式(2)。
(2)
采用TF-IDF方法可以得到圖書館書籍的關(guān)鍵詞權(quán)重,具體可以表示為式(3)。
TF-IDF=TF×IDF
(3)
2.3.2 根據(jù)圖書關(guān)鍵詞權(quán)重計算圖書相似度
圖書Bi與Bj包含共同關(guān)鍵詞數(shù)量為t,對于圖書Bi和Bj,第k個關(guān)鍵詞的權(quán)重值分別為Wik和Wjk,那么圖書Bi與Bj的相似度為式(4)。
(4)
2.3.3 計算用戶相似度
(1) 計算用戶屬性相似度。用戶屬性包括數(shù)值型和本文型。設(shè)用戶Ui與Uj的數(shù)值型屬性的相似度為simnum(i,j),用戶Ui與Uj的文本型屬性的相似度為simt(i,j),用戶屬性相似度為式(5)。
simatt(i,j)=simnum(i,j)+simt(i,j)
(5)
(2) 計算用戶活躍相似度。用戶Ui與Uj包含共同動態(tài)信息的數(shù)量為m,第k個動態(tài)信息的權(quán)重值分別為Uik和Ujk,那用戶活躍相似度simact為式(6)。
(6)
(3) 用戶相似度包括兩部分:屬性相似度和活躍相似度,這樣可以得到用戶Ui與Uj的最終相似度為式(7)。
sim(Ui,Uj)=αsimatt(i,j)+βsimact(i,j)
(7)
2.3.4 計算用戶與圖書之間的關(guān)聯(lián)性
設(shè)用戶Ui與圖書Bj存在z個聯(lián)系,那么用戶Ui與圖書Bj的關(guān)聯(lián)性計算式為式(8)。
(8)
式中,Rik表示Ui與圖書Bj的第k個聯(lián)系值。
2.3.5 用戶的圖書館書止推薦規(guī)則
設(shè)圖書集合為:P={P1,P2,…,Pm},事務(wù)記錄集合為T={t1,t2,…,tn},根據(jù)匹配樹機制得到支持度和置信度為式(9)、式(10)。
采用K-Means聚類算法將圖書館圖書進(jìn)行分析,劃分為K個類型,然后根據(jù)匹配樹機制建立各類圖書匹配規(guī)則,計算最小支持度和最小置信度,最后根據(jù)最小支持度和最小置信度給用戶推薦書目。
為分析協(xié)同過濾的圖書館書目個性化推薦系統(tǒng)推薦的有效性,采用某高校圖書館作為測試目標(biāo),該高校圖書館包含了大量的書籍,書籍類別眾多,大致可以劃分為20多類,面向的讀者主要是本校的老師和學(xué)生。當(dāng)一個自動化專業(yè)學(xué)生進(jìn)入基于協(xié)同過濾的圖書館書目個性化推薦系統(tǒng)后,系統(tǒng)會自動給他推薦相關(guān)的書目,具體結(jié)果如圖3所示。
圖3 本文系統(tǒng)的圖書館書目推薦結(jié)果
對圖3進(jìn)行分析可以知道,系統(tǒng)給該學(xué)生推薦的書目與其專業(yè)十分相關(guān),可以滿足用戶的個性需求,獲得了十分理想的書目推薦結(jié)果,實驗結(jié)果證明了本文設(shè)計的圖書館書目個性化推薦系統(tǒng)的有效性。
為了測試本文圖書館書目個性化推薦的優(yōu)越性,采用文獻(xiàn)[10]的超圖排序的圖書館書目個性化推薦系統(tǒng)和文獻(xiàn)[11]的SOM神經(jīng)網(wǎng)絡(luò)的圖書館書目個性化推薦系統(tǒng)進(jìn)行對比實驗,選擇8類圖書和相關(guān)用戶進(jìn)行仿真對比實驗,采用推薦召回率、推薦覆蓋率、推薦準(zhǔn)確度、推薦新穎度對實驗結(jié)果進(jìn)行評價,它們分別描述如下。
(1) 推薦召回率指針對用戶所推薦圖書與圖書館內(nèi)排除無關(guān)圖書外剩余圖書的比例,推薦召回率可有效體現(xiàn)系統(tǒng)的推薦性能;
(2) 推薦覆蓋率指推薦書目結(jié)果在圖書館內(nèi)全部圖書中分布的廣泛程度,覆蓋率越高表明系統(tǒng)可挖掘圖書館內(nèi)圖書范圍越廣,推薦性能越高;
(3) 推薦準(zhǔn)確度指系統(tǒng)所推薦書目內(nèi)圖書被用戶點擊次數(shù)占全部推薦書目比例;
(4) 推薦新穎度指推薦書目內(nèi)出版年限為近三年的圖書占全部圖書館圖書數(shù)量百分比。
3種系統(tǒng)對于8類圖書推薦性能對比結(jié)果,如圖4所示。
(a) 召回率對比結(jié)果
(b) 覆蓋率對比結(jié)果
(c) 準(zhǔn)確度對比結(jié)果
(d) 新穎度對比結(jié)果圖4 推薦性能對比結(jié)果
圖4(a)召回率對比結(jié)果可以看出,采用本文系統(tǒng)推薦8類圖書書目的推薦召回率在93%以上,明顯高于超圖排序系統(tǒng)和SOM神經(jīng)網(wǎng)絡(luò)系統(tǒng)。本文系統(tǒng)采用協(xié)同過濾的書目推薦算法,可有效排除圖書館內(nèi)無關(guān)圖書,有效驗證本文系統(tǒng)的推薦性能。
圖4(b)實驗結(jié)果可以看出,本文系統(tǒng)推薦圖書館書目的覆蓋率在95%以上,明顯高于超圖排序系統(tǒng)和SOM神經(jīng)網(wǎng)絡(luò)系統(tǒng)。本文系統(tǒng)數(shù)據(jù)挖掘過程中可從圖書館全部圖書內(nèi)搜尋適合用戶的書目,具有更大的挖掘范圍,有效驗證本文系統(tǒng)具有更高的推薦性能。
圖4(c)系統(tǒng)測試結(jié)果可以看出,本文系統(tǒng)推薦圖書館書目準(zhǔn)確度在90%以上,明顯高于超圖排序系統(tǒng)和SOM神經(jīng)網(wǎng)絡(luò)系統(tǒng)。系統(tǒng)測試結(jié)果說明本文系統(tǒng)所推薦書目被用戶接受概率明顯高于另外兩種系統(tǒng),本文系統(tǒng)所推薦書目具有更高的實用性。
圖4(d)系統(tǒng)測試結(jié)果可以看出,本文系統(tǒng)推薦圖書館書目新穎度在82%以上,明顯高于超圖排序系統(tǒng)和SOM神經(jīng)網(wǎng)絡(luò)系統(tǒng)。本文系統(tǒng)推薦圖書館書目內(nèi)新書比例明顯高于另兩種系統(tǒng),本文系統(tǒng)推薦過程中充分考慮圖書館內(nèi)新書,令系統(tǒng)推薦結(jié)果更加新穎,提升了用戶興趣度,令所推薦書目結(jié)果更加具有個性化。
為進(jìn)一步驗證本文推薦系統(tǒng)的有效性,利用匹配樹機制對5類圖書構(gòu)建關(guān)聯(lián)分析,對各專業(yè)進(jìn)行圖書類別匹配,匹配內(nèi)容如表1所示。
表1 圖書匹配結(jié)果
從表1可以看出,本文系統(tǒng)采用匹配樹機制對5類圖書構(gòu)建關(guān)聯(lián)結(jié)果十分合理。
以表1中的樣本為基礎(chǔ),測試本文系統(tǒng)與超圖排序系統(tǒng)和SOM神經(jīng)網(wǎng)絡(luò)系統(tǒng)在某地某高校圖書館學(xué)生以及教師中的推薦有效性,得到成功率對比結(jié)果如圖5所示。
圖5 不同系統(tǒng)的圖書館書目推薦成功率對比
由圖5的對比結(jié)果可知,本文系統(tǒng)采用的協(xié)同過濾算法可針對不同用戶充分考慮用戶需求,推薦用戶所需圖書,因此推薦成功率較高,在92%以上,比超圖排序系統(tǒng)和SOM神經(jīng)網(wǎng)絡(luò)系統(tǒng)成功率更高,因此可以驗證本文系統(tǒng)推薦性能的有效性。
由于不同用戶喜歡不同的書籍,因此圖書館書目個體性要求具有一定的實際應(yīng)用價值,當(dāng)前圖書館書目推薦系統(tǒng)忽略用戶的個性需求,存在一定的缺陷,如:圖書館書目推薦偏差大等,為了提高圖書館書目推薦精度,提出了基于協(xié)同過濾的圖書館書目個性化推薦系統(tǒng),采用協(xié)同過濾算法計算用戶與書籍之間的關(guān)系,充分考慮用戶的個性化需求,改善用戶對圖書館書目推薦結(jié)果的滿意度,并通過具體的圖書館作為研究對象,與其他圖書館書目推薦系統(tǒng)進(jìn)行了仿真對比測試,結(jié)果表明,本文系統(tǒng)解決了當(dāng)前圖書館書目推薦系統(tǒng)存在的數(shù)據(jù)稀疏和冷啟動弊端,是一種精度高、用戶滿意的圖書館書目推薦系統(tǒng),實際應(yīng)用價值較高。