隨著信息爆炸時代的來臨以及網(wǎng)絡上大數(shù)據(jù)的不斷增長,用戶越來越難以將那些真正有價值的信息從無數(shù)無用的信息中篩選出來,越來越難以找到自己真正所需要的真正信息。因此,便產(chǎn)生了“信息過載”的問題。圖書領域也面臨著相同的問題,各大高校圖書館的紙質(zhì)資源和電子資源,都不斷以指數(shù)形式增長,在數(shù)以萬計的圖書面前找到自己喜歡和合適的圖書,對于讀者變得越來越困難。目前絕大多數(shù)高校圖書館都提供了圖書檢索功能,但是只能根據(jù)讀者輸入的關鍵字做簡單排序檢索,不能提供深層次的推薦功能,其效率低下、方式單一,無法提高服務的主動性,更無法提高圖書的利用率[1]。因此,個性化圖書推薦系統(tǒng)應運而生,它可以快速推薦合適的圖書給讀者,提高圖書館主動服務的效率,增加讀者與圖書館之間的黏性。
高校圖書館是高校的樞紐和心臟,是傳播知識和文化的中心,是廣大師生學習和科研的陣地。傳統(tǒng)的圖書館都是以紙質(zhì)資源為基礎,隨著大數(shù)據(jù)時代的來臨,現(xiàn)在的高校圖書館越來越重視數(shù)字化資源的建設,也在不斷更新服務模式,變被動服務為主動服務。讀者來圖書館閱讀,往往通過檢索機來查詢自己所要尋找的相應圖書,但是這種方式太過單一和局限。許多讀者并不知道自己所需要和感興趣的圖書,在數(shù)以萬計的圖書面前,往往無所適從。因此,個性化圖書推薦服務應運而生。對于個性化圖書推薦的研究,國內(nèi)外的學者大多選擇基于協(xié)同過濾的推薦、基于聚類的推薦、基于關聯(lián)規(guī)則的推薦、基于數(shù)據(jù)挖掘的推薦以及混合推薦等[2]。除此以外,也有其他一些技術被用于圖書推薦服務中,例如,基于Spark 的高校圖書館書目推薦系統(tǒng)、高校智慧圖書館智能推薦系統(tǒng)、基于標簽的高校圖書館個性化推薦系統(tǒng)等。
協(xié)同過濾算法是根據(jù)其他用戶對物品的評分,從而產(chǎn)生對目標用戶的推薦列表[3]。該算法主要是從用戶的已知數(shù)據(jù)中出發(fā),尋找目標用戶的相似用戶,然后從這些相似用戶中,預測出當前用戶對目標項目可能的評分。協(xié)同過濾主要依據(jù)用戶對物品的歷史評分來產(chǎn)生預測,在協(xié)同過濾算法中,最重要的就是計算目標與周圍鄰居之間的距離,找到目標的相似鄰居進行排序,在排序列表中產(chǎn)生推薦。所以,相似度計算的準確性直接關系著推薦系統(tǒng)的效果。協(xié)同過濾技術因其高效、操作性強和準確率高等優(yōu)點,正逐步成為廣受歡迎的一種推薦技術。協(xié)同過濾常用推薦算法包括:基于用戶的協(xié)同過濾,基于項目的協(xié)同過濾,基于模型的協(xié)同過濾?;谟脩舻膮f(xié)同過濾是利用用戶對于物品評分的數(shù)據(jù),根據(jù)不同用戶對相同物品的評分,計算用戶之間的相似度,對有相同偏好的用戶進行物品推薦;基于項目的協(xié)同過濾是通過用戶對不同物品的評分,計算物品之間的相似度,根據(jù)用戶的歷史記錄,推薦給用戶之前喜歡物品的相似物品。一般來說,基于用戶和項目的協(xié)同過濾在數(shù)據(jù)信息簡單以及數(shù)據(jù)內(nèi)容完整的情況下,能夠較好地完成快速準確的推薦;如果出現(xiàn)數(shù)據(jù)信息復雜并且存在許多數(shù)據(jù)缺失的情況,則不能很好地應對。而基于模型的協(xié)同過濾能夠更好地解決大數(shù)據(jù)量情況下的數(shù)據(jù)稀疏性問題。
與基于用戶和項目的推薦方法不同的是,基于模型的協(xié)同過濾是使用用戶的歷史評分數(shù)據(jù)來學習預測模型,通過機器學習方法先建立一個推薦模型,然后通過訓練數(shù)據(jù)來對完成對未評分項目的計算預測,并將預測值的前幾項推薦給用戶。模型的建立可以通過離線模式完成,當用戶上線時能夠產(chǎn)生實時推薦,這樣提高了系統(tǒng)的響應度并增加了與用戶之間的黏合度。同時,在用戶評分矩陣稀疏的情況下,使用基于模型的推薦方法可以很好的計算用戶未評分項目,填充稀疏項,增加了預測的精度。常用模型包括:聚類模型、貝葉斯模型、隱語義模型、圖模型等。下面重點介紹本文用到的隱語義模型。
隱語義模型[4](Latent Factor Model,LFM)是屬于機器學習算法的一種,其中包含了隱藏因子,相當于神經(jīng)網(wǎng)絡的隱藏層。從數(shù)據(jù)的方向,用戶與物品之間通過中間隱含因子進行聯(lián)系,從而更好地挖掘出用戶特征,解決用戶物品特征向量中的稀疏性問題,推薦系統(tǒng)和文本分類里面會經(jīng)常用到此模型。
LFM 原理矩陣表示如圖1 所示:
圖1 LFM矩陣表示圖
其中矩陣R 表示用戶對物品的興趣度,矩陣P表示用戶對物品類別的偏好度,矩陣Q 表示物品屬于哪個類別的概率。
隱語義模型就是通過將矩陣R 分解成P 和Q的乘積,通過P 矩陣物品類別將用戶User 與物品Item 聯(lián)系起來。從而得出用戶對物品評分的公式:
其中公式(1)中,PU,K 和QK,I 是該模型的參數(shù),Pu,k 代表用戶U 的興趣與第K 個隱含因子的關系,QK,I 表示第K 個隱含因子與物品I 之間的關系。
通過公式(2),采用最優(yōu)化損失函數(shù)C 來求解P 和Q,得到最合適的P 和Q。
其中,λ||PU||2+λ||QI||2是用來防止過擬合的正則化項,λ 是需要根據(jù)模型算法訓練數(shù)據(jù)反復實驗得到。
從圖書館借閱管理系統(tǒng)導出近一年的用戶借閱歷史記錄,將數(shù)據(jù)進行預處理,用聚類方式先將同一專業(yè)的用戶分在同一類里;然后對于每個類別,通過隱語義模型預測用戶未評分圖書的得分,將TOP-N 項推薦給用戶。
首先,建立用戶對于圖書的評分矩陣,其中,U={u1,u2,…,um}為用戶向量,I={i1,i2,…,in}為圖書向量,R 用來表示用戶對圖書的評分矩陣。利用公式(1)中的矩陣分解將矩陣R 分解為矩陣P 和Q,即R=P*Q。初始化用戶對每個圖書類別的偏好為矩陣P,每個圖書所屬圖書類別為矩陣Q;將用戶數(shù)據(jù)集進行訓練,通過梯度下降算法,根據(jù)公式(2),不斷更新矩陣P 和Q,以至損失函數(shù)達到最小,得出P 和Q,從而建立模型(LFM),用來預測矩陣R中的缺失值rui,即是用戶對未評分圖書的興趣度。
隨機抽取一名ID 為100 的用戶,對沒有評分過的圖書通過建立好的模型進行興趣度預測,選取興趣度前5 位的圖書推薦給該用戶。結(jié)果如下:
圖2
查詢借閱歷史,發(fā)現(xiàn)該用戶看過機器學習的圖書并且評分很高,故從推薦結(jié)果來看,興趣度靠前的索書號都是跟機器學習和數(shù)據(jù)分析相關的圖書。
在如今信息不斷增加和冗余的時代里,推薦系統(tǒng)已經(jīng)成為如今信息時代人們獲取關鍵信息的重要手段,可以幫助人們獲取到真正感興趣和有用的信息。本文采用協(xié)同過濾推薦技術的方法,提出了基于隱語義模型的推薦,選取了圖書館近一年的借閱歷史記錄,經(jīng)過數(shù)據(jù)預處理,建立模型,通過計算預測用戶對于圖書的興趣度來推薦給用戶未評分過的圖書,改善了用戶評分的稀疏性問題,提高了推薦系統(tǒng)精度,方便用戶更加快捷地找到合適的圖書。