傅漢霖++顧小宇
摘 要: 圖書館的信息庫中保存著大量的讀者檢索信息和借閱記錄,充分利用這些信息并結合高效的圖書推薦算法可以充分地滿足讀者的借閱需求。綜述了目前常用的圖書推薦算法的思想、特點及應用,根據(jù)對圖書館的適用性分析了各推薦算法的優(yōu)缺點,并提出了將適用性廣泛的協(xié)同過濾算法推廣為多特征的混合推薦算法策略的研究方向。
關鍵詞: 圖書推薦算法; 協(xié)同過濾; 多特征; 綜述
中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2016)12-21-03
Abstract: There are a lot of readers' retrieval information and borrowing records in the library information database, to fully utilize the information and combine with the high efficient books recommendation algorithm can fully meet the needs of readers. This paper reviews the thoughts, characteristics and application of the current commonly used books recommendation algorithms, according to the applicability of the library, analyzes the advantages and disadvantages of each recommendation algorithm, and proposes a research direction to extend the collaborative filtering algorithm to the multi-feature mixed books recommendation algorithm.
Key words: books recommendation algorithm; collaborative filtering; multi-feature; summary
0 引言
在每座圖書館的數(shù)據(jù)庫中都保存著大量的讀者檢索信息和借閱記錄,這些信息蘊含著讀者對館藏圖書資源的需求,使用相關推薦算法可以對數(shù)據(jù)庫中所保存的讀者檢索信息和借閱記錄進行歸納和整理,有助于圖書館進一步對館藏資源的優(yōu)化,預測讀者對圖書信息的潛在需求,也有助于圖書館個性化服務的智能化。本文參考了國內外關于圖書推薦算法的相關文獻,從多角度探討了現(xiàn)有算法的核心思想,以推動圖書館相關推薦算法的深入研究。
1 推薦算法綜述
1.1 基于密度的協(xié)同過濾算法
該算法的核心思想是:根據(jù)圖書的歸還時間,利用模糊理論的隸屬函數(shù)來計算讀者對圖書的興趣程度,并篩除讀者不感興趣的借閱記錄。讀者借閱的圖書信息可以反映其偏好的圖書類別;讀者歸還已借閱圖書的時間可以反映讀者對該書的興趣;讀者對續(xù)借的書一定是感興趣的。
1.1.1 圖書歸還
圖書歸還時間可以反映讀者對所借閱圖書的偏好程度。如果剛借圖書就立即歸還,說明讀者對該書不感興趣;如果圖書被續(xù)借,則表明對該圖書感興趣。
定義圖書歸還集:。
其中,分別為讀者對某冊圖書的借閱時間和歸還時間,T為圖書借閱規(guī)定還書周期。
1.1.2 模糊值函數(shù)定義
用隸屬函數(shù)ulike和udislike分別表示對圖書感興趣與不感興趣的模糊程度,flike(ri)為讀者基于圖書歸還的感興趣與不感興趣的模糊值。
其中,a和c是隸屬函數(shù)ulike和udislike的界定參數(shù)值。圖書的歸還時間區(qū)域ra-rmin用來篩選出不感興趣的書目,歸還時間區(qū)域rmax-rc篩選出感興趣的書目。如果借閱時間超過規(guī)定的歸還周期,則該圖書的借閱時間信息無效。
1.1.3 推薦估值
讀者借閱記錄的聚類區(qū)域反映了讀者對圖書的興趣特征,采用距離平方反比進行推薦:距離越近者,權重值越大。根據(jù)距離點q0的最近質心所屬的聚類區(qū)域,點q0的推薦估值定義為
其中,αCR(i)為點q0最近聚類區(qū)域的區(qū)域權重;權重,為點q0聚類區(qū)域中離點q0最近x個點的歐式距離[1]。
1.2 基于中圖分類法的推薦算法
該算法的核心思想是:根據(jù)中圖分類法和圖書的特征向量計算圖書的相似性,依據(jù)讀者的特征向量和借閱記錄計算讀者的相似性,對其進行加權,產(chǎn)生最終推薦結果。
1.2.1 基于中圖分類號的圖書相似性
中國圖書館分類法,簡稱中圖分類法,具有從總到分、從一般到具體的特點。采用漢語拼音字母與阿拉伯數(shù)字相結合的混合號碼[2]。中圖分類法把屬于相同學科、具有相同主題的圖書歸為一個類。依次歸類后,相似度最高的圖書的分類號處于中途分類樹的底層。
所以如果要比較兩本圖書的相似性,應先比較中圖分類號最左邊的字母。字母相同時,比較字母后的第一位數(shù)字,若相同,則比較第二位數(shù)字,以此類推??蓸嫿繕俗x者r未外借圖書i與已外借圖書j基于中圖分類號特征向量的相似度simL(i,j):
其中,Layer(i,j)為圖書i的分類號c(i)與圖書j的分類號c(j)在中圖分類樹中最近的父節(jié)點所在的層數(shù);Layer(all)為中圖分類樹的總層數(shù)。
1.2.2 圖書的受歡迎程度
設頁數(shù)為Page(i)的圖書j的所有讀者集合為
R(all),讀者r'∈R(all),外借的日期為Borrowdate(r',i)和Returndate(r',i),圖書j基于頁數(shù)特征向量的外借與歸還時間間隔為:
所有借閱過該圖書的讀者,平均每次從外借到歸還圖書的時間間隔為Ainterval(i)。
設圖書j入庫的日期為Indate(i),當前日期為Nowdate,Borrow(i)為該圖書在時間段Nowdate-Indate(i)內被借閱的總次數(shù)。圖書j在某時間段內平均被借閱次數(shù)ABorrow(i)。當前日期與出版日期之差的倒數(shù)衡量圖書j的新舊程度New(i),New(i)的值越大,表明圖書i越新。
綜上所述,可得出圖書j受廣大讀者的歡迎程度Welcome(i)為:
其中,α、β、分別為該方程的系數(shù)[3]。
1.3 基于主題模型的推薦算法
該算法的核心思想是:通過對讀者的歷史借閱記錄與其他圖書數(shù)據(jù)進行相似度分析,得到與讀者歷史借閱圖書相似度較高的圖書;通過對讀者的歷史借閱記錄與其他讀者的歷史借閱記錄進行相似度分析,得到最近鄰讀者的歷史借閱記錄。通過求解圖書被推薦的概率,最終得到讀者潛在感興趣的圖書。
1.3.1 圖書內容相似度
讀者的歷史借閱圖書類別的集合G=(g1,g2,…,gi,…,gI)及每一類所對應的關鍵詞集合J=(j1,j2,…,ji,…,jI),其中ji=(m1,m2,…,mv)。對于一本非目標讀者借閱過的圖書,可以根據(jù)圖書對應的關鍵詞集合與目標讀者歷史借閱記錄中各類別的圖書關鍵詞進行相似度分析,得到:
其中,vi為目標讀者歷史借閱圖書類別i的關鍵詞個數(shù)。
由此可知,sim1的值大則相似度越大,此圖書被推薦的可能性也越大。取d0=1,若nk=mi(即此圖書的關鍵詞與目標讀者的歷史借閱記錄中某一類圖書的關鍵詞匹配),則dr取值為1,否則取值為0。
1.3.2 最近鄰借閱者
通過其他借閱者的歷史借閱記錄,可能從中挖掘出目標借閱者新的感興趣的圖書。設有矩陣U(n,m)表示有n個目標讀者與最近鄰借閱者集合P=(p1,p2,…,pn)及m個圖書集合Q=(q1,q2,…,qn)的評分矩陣,利用余弦相似度計算公式計算與讀者相似程度較高的其他讀者作為目標讀者的最近鄰。相似度計算公式如下:
其中,Q1,2表示兩個讀者p1,p2具有共同評分的圖書,Q1為讀者p1有過評分的圖書,Q2為讀者p2有過評分的圖書,Up,q表示讀者p1對圖書q的評分。與分別表示讀者p1,p2對圖書的平均評分。評分Up,q的計算公式如下:
其中,tq為讀者所花時間,Tmin為統(tǒng)計開始時刻,Tmax為統(tǒng)計結束時刻[4]。
2 結束語
基于內容相似度的推薦算法的推薦結果直觀,但面對新用戶和復雜情況無法對讀者進行合適的圖書推薦;協(xié)同過濾推薦算法的推薦個性化和自動化程度高[5],但是面對新用戶、新項目仍無法進行合適的圖書推薦,對歷史數(shù)據(jù)質量要求較高;基于中圖分類法的推薦算法推薦結果直觀,但個性化程度低。
將普通的協(xié)同過濾算法推廣為多特征推薦算法,在此設計一種混合圖書推薦策略,可以充分利用各種算法的優(yōu)點,有關的研究表明這些混合算法的準確率要高于單獨算法[6-7]。在該混合圖書推薦策略中,若是新用戶,則根據(jù)圖書受大眾讀者歡迎程度對用戶進行推薦,使得新用戶即使剛使用系統(tǒng),也可以獲得推薦結果。用戶開始借閱和檢索圖書,在數(shù)據(jù)庫中留下歷史借閱記錄,可以基于中圖分類法對用戶進行相關書籍推薦。當用戶的歷史借閱記錄達到一定數(shù)量時,可根據(jù)基于內容、最近鄰讀者、密度等算法進行有效的推薦。
參考文獻(References):
[1] 武建偉,俞曉紅,陳文清.基于密度的動態(tài)協(xié)同過濾圖書推薦
算法[J].計算機應用研究,2010.27(8).
[2] 國家圖書館《中國圖書館分類書》編輯委員會.中國圖書館分
類法(5版)[M].北京圖書館出版社,2010.
[3] 李克潮,梁正友.基于多特征的個性化圖書推薦算法[J].計算
機工程,2012.38(11)
[4] 鄭祥云,陳志剛,黃瑞,李博.基于主題模型的個性化圖書推薦
算法[J].計算機應用,2015.9.
[5] 陳永光.基于OPAC的高校圖書館個性化圖書推薦算法研究[D].
南京理工大學,2013.4.
[6] Soboroff I, Nicholas C. Combining content and
collaboration in text filtering[C].ProcIn'l Joint Conf Artificial Intelligence Work-shop: Machine Learning for Information Filtering, Stockholm,1999:86-91
[7] Tran T, Cohen R. Hybrid recommender systems for
electronic commerce. Proc. Knowledge-Based Electronic Markets[C].the AAAI Workshop. Menlo Park: AAAIPress,2000:78-83