楊永權(quán)
關(guān)鍵詞:圖書館;協(xié)同過濾;推薦系統(tǒng)
摘 要:針對傳統(tǒng)的大眾化推薦如熱門圖書推薦、新書推薦等無法為讀者提供個(gè)性化的圖書推薦服務(wù),提出了構(gòu)建在協(xié)同過濾技術(shù)之上的圖書個(gè)性化推薦系統(tǒng)模型,分析了協(xié)同過濾技術(shù)在圖書推薦中的運(yùn)用原理及可行性,最后總結(jié)其優(yōu)缺點(diǎn)。
中圖分類號:G250 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-1588(2014)06-0119-04
收稿日期:2014-05-13
*本文系2013年度廣東外語藝術(shù)職業(yè)學(xué)院立項(xiàng)課題《高職院校圖書館數(shù)字資源整合研究》(項(xiàng)目編號:2013G04)的研究成果之一。
1 協(xié)同過濾技術(shù)
1.1 算法介紹
協(xié)同過濾算法是在1992 年由 Goldberg 等人首先提出[1],并將其成功應(yīng)用在研究型郵件推薦系統(tǒng) Tap-estry 中。協(xié)同過濾算法是利用集體智慧的一個(gè)典型方法,簡單來說,就是利用興趣相近、擁有共同經(jīng)驗(yàn)群體的喜好來推薦使用者感興趣的資訊,個(gè)人透過合作的機(jī)制給予資訊相當(dāng)程度的回應(yīng)(如評分、點(diǎn)評、購買等),并記錄下來以達(dá)到過濾的目的進(jìn)而幫助別人篩選資訊。該算法能夠?yàn)橛脩舭l(fā)現(xiàn)新興趣或者將用戶之前喜歡的類似物品推薦給用戶,相比基于內(nèi)容的過濾方法具有如下優(yōu)點(diǎn):一是能夠過濾難以進(jìn)行機(jī)器自動(dòng)內(nèi)容分析的如藝術(shù)品和音樂等信息[2];二是可以對他人的經(jīng)驗(yàn)進(jìn)行共享;三是能夠利用相似用戶的反饋信息如評分或評價(jià),增強(qiáng)系統(tǒng)的學(xué)習(xí)能力,從而不斷完善推薦系統(tǒng)的推薦功能。
1.2 算法過程
1.2.1 收集用戶偏好??煞譃轱@性和隱形收集,顯性如評分、評論、投票,隱形如購買、借閱、查看等[3]。在通常實(shí)際應(yīng)用中,我們提取的用戶行為一般都不止一種。收集了用戶行為數(shù)據(jù)后,還需要對數(shù)據(jù)進(jìn)行一定的預(yù)處理,之后,根據(jù)不同應(yīng)用的行為分析方法,得到一個(gè)用戶偏好的二維矩陣,一維是用戶列表,另一維是物品列表,值是用戶對物品的偏好。
接著是建立用戶模型過程,協(xié)同過濾算法的輸入數(shù)據(jù)通常表示為一個(gè)m*n的用戶——評價(jià)矩陣R(m,n),m行表示m個(gè)用戶數(shù),n列表示n個(gè)項(xiàng)目,其中Rij表示第i個(gè)用戶對第j個(gè)物品的評分值。這里的評分值可以是用戶的瀏覽次數(shù),購買次數(shù)等隱式的評分,還可以采用顯示評分,如用戶對商品的直接評分,如表1所示。
表1 用戶——項(xiàng)目評價(jià)矩陣R(m,n)
item 1 ...... Item j ...... Item n
user 1 R11 ...... R1j ...... R1n
...... ...... ...... ...... ...... ......
user i Ri1 ...... Rij ...... Rin
....... ...... ...... ...... ...... ......
user m Rm1 ...... Rmi ...... Rmn
1.2.2 找到相似的用戶或者物品,尋找最近鄰居。尋找距離最近的用戶,測算距離一般采用以下三種算法:基于相關(guān)系數(shù)的相似度、基于余弦相似度和基于調(diào)整余弦相似度計(jì)算。
第一,基于相關(guān)相似性(經(jīng)常使用皮爾森相關(guān)系數(shù))計(jì)算。用于計(jì)算兩個(gè)變量之間的線性關(guān)系。假設(shè)用Iij表示用戶i和用戶j共同評分過的項(xiàng)目集合,那么可以利用皮爾森相關(guān)系數(shù)來度量用戶i和用戶j之間的相似性sim(i,j),其中Ri,c是用戶i對項(xiàng)目c的評分,Rj,c是用戶j對項(xiàng)目c的評分, 和分別表示用戶i和j在已經(jīng)評價(jià)過的項(xiàng)目上的平均分,如公式1所示。
(公式1)
第二,基于余弦相似性計(jì)算。把用戶評分看做n維空間上的向量,將那些用戶沒有評過分的項(xiàng)目的評分統(tǒng)一設(shè)置為0,那么就可以用矢量間的余弦夾角來表示用戶間的相似度。設(shè)用戶i和j在n維項(xiàng)目空間上的評分分別表示為向量I、J,則可以用公式2表示來用戶i和j之間的相似度,如公式2所示。
(公式2)
其中Ri,c、Rj,c分別為用戶i和用戶j對項(xiàng)目c的評分,分子為兩個(gè)向量的內(nèi)積,即兩個(gè)向量相同位置的數(shù)字相乘。
第三,基于調(diào)整的余弦(Adjusted Cosine)相似度計(jì)算:由于基于余弦的相似度計(jì)算沒有考慮不同用戶的打分情況,可能有的用戶偏向于給高分,而有的用戶偏向于給低分,基于調(diào)整的余弦方法通過減去用戶打分的平均值消除不同用戶打分習(xí)慣的影響。設(shè)用戶i和j共同評分過的項(xiàng)目集合用Iij表示,Ii和Ij分別表示用戶i和j評過分的項(xiàng)目集合,則用戶i和j之間的相似性表示成公式3。
(公式3)
其中Ri和Rj分別表示用戶i和j在已經(jīng)打分項(xiàng)目上的平均分。
1.2.3 產(chǎn)生推薦結(jié)果。主要包含有TOP-N型推薦和預(yù)測型推薦兩種推薦類型。Top-N型推薦是指產(chǎn)生一個(gè)目標(biāo)用戶a最喜歡的N個(gè)項(xiàng)目的集合,即Top-N推薦集,可以記作TPa={tp1,tp2,...,tpN},該集合中的每一個(gè)項(xiàng)目通常包含的是目標(biāo)用戶a沒有購買的,但是值得給用戶推薦的商品。而預(yù)測型推薦是指產(chǎn)生一個(gè)預(yù)測值R(a,j),其中R(a,j)表示目標(biāo)客戶a對商品j的預(yù)測評分值,他的值域范圍由客戶a所決定。
2 推薦系統(tǒng)模型
圖書推薦系統(tǒng)模型如圖1所示,①讀者從流通書庫進(jìn)行借還圖書操作,經(jīng)過多年的積累形成了大量借閱歷史,記錄存儲(chǔ)在流通數(shù)據(jù)庫里。②推薦系統(tǒng)首先需要對不規(guī)范的數(shù)據(jù)進(jìn)行清洗和預(yù)處理,為數(shù)據(jù)挖掘做好數(shù)據(jù)準(zhǔn)備。③對處理好的數(shù)據(jù)進(jìn)行協(xié)同過濾挖掘(也可以同時(shí)綜合多種算法進(jìn)行挖掘),形成離線規(guī)則庫。④系統(tǒng)能根據(jù)讀者的信息和借閱歷史自動(dòng)推送不同的圖書推薦信息。圖書個(gè)性化推薦系統(tǒng)可以通過以下兩種方式向讀者提供推薦系統(tǒng)信息。第一種是采取被動(dòng)方式。只有當(dāng)讀者登陸個(gè)人數(shù)字圖書館,推薦系統(tǒng)才會(huì)推送推薦圖書信息,類似于登陸亞馬遜賬號之后的推薦方式。另一種是主動(dòng)方式。有條件的單位,可將推薦書目信息通過郵件系統(tǒng)或手機(jī)短信平臺發(fā)送;不管使用哪種方式,推薦系統(tǒng)和挖掘模型連接必須通過接口,向算法模型發(fā)送查詢指令,然后圖書推薦信息將作為結(jié)果返回給推薦系統(tǒng)。另外,為了提升推薦信息的準(zhǔn)確度,挖掘模型的原始數(shù)據(jù)應(yīng)該定期更新。
圖書推薦系統(tǒng)主要由離線規(guī)則庫和在線圖書推薦構(gòu)成。圖書推薦系統(tǒng)的核心環(huán)節(jié)是離線規(guī)則庫的構(gòu)建,此過程是分別基于用戶和基于項(xiàng)目的協(xié)同過濾技術(shù)處理讀者借閱數(shù)據(jù),挖掘出圖書之間相似性以及與鄰居之間的形成,在線圖書推薦是基于以上結(jié)果,通過推薦界面將推薦信息呈現(xiàn)給讀者,為讀者提供個(gè)性化推薦圖書的服務(wù)。此外,假如該讀者是新用戶,或者借閱量太少,系統(tǒng)一時(shí)無法做出個(gè)性化推薦,可以向讀者提供諸如“新書推薦”、“熱門圖書”以及“館員推薦”等符合各種大眾化圖書信息。后臺管理可以實(shí)現(xiàn)對圖書信息進(jìn)行更新和對各種推薦進(jìn)行設(shè)置。
3 協(xié)同過濾個(gè)性化推薦設(shè)計(jì)原理
協(xié)同過濾可分成基于用戶和基于項(xiàng)目的協(xié)同過濾兩種算法。如圖2所示,在基于協(xié)同過濾算法中,首先輸入用戶-項(xiàng)目的二維矩陣,利用相似度公式計(jì)算出用戶之間的相似度,得出用戶偏好的項(xiàng)目集合,最后為每個(gè)用戶產(chǎn)生推薦列表。
3.1 建立讀者-圖書的二維矩陣模型
建立數(shù)據(jù)庫,用于存放推薦系統(tǒng)過程中所用到的各種數(shù)據(jù)表,將從圖書館流通系統(tǒng)導(dǎo)出來、經(jīng)過清理后的讀者借閱記錄導(dǎo)入到相應(yīng)數(shù)據(jù)表中。從讀者借閱歷史記錄表中獲取圖書信息和讀者信息,為建立讀者-圖書模型做好數(shù)據(jù)準(zhǔn)備。
endprint
3.2 尋找最近鄰居用戶集
[JP2]在進(jìn)行基于用戶的協(xié)同過濾計(jì)算中,主要目標(biāo)是得到與目標(biāo)用戶的相似用戶集。在這里,可以根據(jù)需要設(shè)定最多有n個(gè)鄰居用戶,其中用戶相似性是以借閱相同圖書的冊數(shù)來衡量的,借閱過相同圖書越多說明他們的興趣愛好越相似;而圖書的相似性是一起被借閱過的次數(shù)來衡量的,經(jīng)常被一起借閱過的說明圖書之間的相似性越高。我們已經(jīng)將讀者借閱記錄填充到二維借閱矩陣?yán)锪?,有借閱記錄的平分設(shè)置為1,沒有借閱的評分設(shè)置為0,如圖4所示。
表2 評分后的二維矩陣
讀者1 讀者2 …… 讀者n
圖書1 1 0 1 1
圖書2 1 1 1 1
圖書3 1 1 1 0
…… 1 1 1 1
圖書n 0 1 1 1
在這里,用戶i和用戶j的相似度用公式[HZ(][XC6Q30.TIF][HZ)][KG*2]來計(jì)算。
3.3 產(chǎn)生圖書推薦
到此為止,基于協(xié)同過濾結(jié)果已經(jīng)被保存在對應(yīng)表里,用戶登錄系統(tǒng)后,系統(tǒng)會(huì)自動(dòng)辨別該用戶信息,并推薦出相關(guān)圖書。
4 協(xié)同過濾技術(shù)優(yōu)缺點(diǎn)分析
4.1 優(yōu)點(diǎn)
4.1.1 較好的運(yùn)用到了“人以群分”思想。利用集體的力量,計(jì)算出不同用戶之間對物品的喜好程度,然后根據(jù)不同特點(diǎn)給這些人群進(jìn)行分類[4],好處在于:由于人類能夠?qū)σ恍┍容^抽象的、傳統(tǒng)的基于內(nèi)容分析算法難以過濾和理解的東西進(jìn)行歸類,所以挖掘質(zhì)量相對會(huì)大大提高。
4.1.2 由于采用了評價(jià)反饋機(jī)制如評分、劃分等級,其他用戶能從已經(jīng)體驗(yàn)過的鄰居評價(jià)中得到反饋信息,用戶的反饋信息量越大,個(gè)性化系統(tǒng)學(xué)習(xí)速度提升也就越快,只要每個(gè)用戶為系統(tǒng)貢獻(xiàn)一份力量,系統(tǒng)的性能就會(huì)越來越完善。
4.1.3 可以幫助用戶發(fā)現(xiàn)自己潛在的但還沒有發(fā)現(xiàn)的新興趣。由于用戶與用戶之間接觸新事物時(shí)間不一致,有些用戶比其他的鄰居提早接觸到自己喜歡的新事物,就通過基于用戶的協(xié)同過濾推薦,將這些新的信息推薦給后來的鄰居們[5]。
4.1.4 基于項(xiàng)目協(xié)同過濾推薦是根據(jù)項(xiàng)目之間的相似性來完成推薦任務(wù)的,所以很好解釋推薦結(jié)果的理由和依據(jù),從而滿足特定用戶的興趣需求。
4.2 不足
如基于項(xiàng)目協(xié)同過濾推薦給用戶的物品是與用戶以前所喜歡的物品相似的物品,該算法是通過分析用戶對項(xiàng)目的評分得出項(xiàng)目之間的相似度,因此他給目標(biāo)用戶所推薦的,僅局限于和用戶之前購買過的相似物品。所以缺乏挖掘用戶潛在需求的能力,難以向用戶產(chǎn)生新穎的推薦結(jié)果。
4.2.1 稀疏性問題。在類似于亞馬遜和淘寶這些采用了數(shù)據(jù)挖掘推薦技術(shù)的大型電子購物網(wǎng)站中,他們所擁有的物品都是難以計(jì)數(shù),用戶可能購買的不到1%的物品[6],不同用戶之間購買的物品的重疊性較低,或者幾乎為零,而且用戶很少會(huì)對購買的產(chǎn)品給出評分。據(jù)研究結(jié)果表明,當(dāng)用戶評價(jià)項(xiàng)目數(shù)少于總項(xiàng)目數(shù)的10%[7],就很容易造成評價(jià)矩陣數(shù)據(jù)稀疏,導(dǎo)致算法難以找到一個(gè)用戶的偏好相似鄰居。而在圖書館中也會(huì)遇到同樣的問題,圖書館的圖書數(shù)目必然是遠(yuǎn)遠(yuǎn)超過學(xué)生人數(shù),并且隨著時(shí)間的推移這個(gè)問題會(huì)越發(fā)突出。
4.2.2 [JP2]冷啟動(dòng)問題。基于用戶協(xié)同過濾是建立在有大量用戶對某個(gè)產(chǎn)品的評價(jià)上的,由于在新產(chǎn)品開始階段沒有人購買或者新圖書在開始會(huì)沒有人借閱,也沒有對其進(jìn)行評價(jià),那么在開始階段也將無法對其進(jìn)行推薦,因此推薦質(zhì)量主要是取決于歷史數(shù)據(jù)集。
4.2.3 算法擴(kuò)展性問題。隨著物品數(shù)尤其是用戶數(shù)的劇烈增加,最近鄰居算法的計(jì)算量也相應(yīng)增加,不太適合數(shù)據(jù)量大的情況使用,所以推薦系統(tǒng)性能也會(huì)大受影響,而現(xiàn)在的推薦系統(tǒng)幾乎是B/S結(jié)構(gòu),沒有快速的相應(yīng)速度,對網(wǎng)絡(luò)用戶來說是無法忍受的,因此這在某種程度上限制了基于用戶協(xié)同過濾在推薦系統(tǒng)中的使用。
4.2.4特殊用戶問題。在生活中,有一部分人的偏好是比較特殊的,他沒有相對固定的興趣愛好,而這剛好是基于用戶協(xié)同過濾的前提,那么系統(tǒng)很難為他找出鄰居,也就是很難給出比較精確的推薦信息了。
5 結(jié)語
基于協(xié)同過濾技術(shù)的圖書推薦系統(tǒng)對于提高圖書館的服務(wù)具有重大意義和價(jià)值,他能夠根據(jù)用戶的借閱歷史進(jìn)行圖書推薦,當(dāng)讀者閱讀興趣發(fā)生變化時(shí),系統(tǒng)也能自動(dòng)更新規(guī)則庫,主動(dòng)向讀者推送滿足其個(gè)性化需求的推薦內(nèi)容。個(gè)性化圖書推薦是數(shù)字圖書館做好服務(wù)的根本要求,在實(shí)現(xiàn)個(gè)性化的方法上,有一些值得改進(jìn)的地方,如對現(xiàn)有協(xié)同過濾算法的改進(jìn),或者同時(shí)采用多種推薦算法,充分發(fā)揮各個(gè)算法的優(yōu)勢,達(dá)到提高推薦的精度。
參考文獻(xiàn):
[1]李瑋平.基于數(shù)據(jù)挖掘的圖書館讀者需求分析[J]. 圖書館論壇, 2004(3):86-88.
[2] 郁 雪.基于協(xié)同過濾技術(shù)的推薦方法研究[D]. 天津:天津大學(xué),2009.
[3] 張光衛(wèi)等.基于云模型的協(xié)同過濾推薦算法[J].軟件學(xué)報(bào),2007(10):2403-2411.
[4] 吳 顏等.協(xié)同過濾推薦系統(tǒng)中數(shù)據(jù)稀疏問題的解決[J]. 計(jì)算機(jī)應(yīng)用研究,2007(6): 94-97.
[5] 鄧愛林.電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究[D]. 上海:復(fù)旦大學(xué),2003.
[6] 孔小華.協(xié)同過濾系統(tǒng)的稀疏性與冷啟動(dòng)問題研究[D]. 杭州:浙江大學(xué),2005.
[7] 張 亮.推薦系統(tǒng)中協(xié)同過濾算法問題的研究[D]. 北京: 北京郵電大學(xué),2009.
(編校:馬懷云)
endprint
3.2 尋找最近鄰居用戶集
[JP2]在進(jìn)行基于用戶的協(xié)同過濾計(jì)算中,主要目標(biāo)是得到與目標(biāo)用戶的相似用戶集。在這里,可以根據(jù)需要設(shè)定最多有n個(gè)鄰居用戶,其中用戶相似性是以借閱相同圖書的冊數(shù)來衡量的,借閱過相同圖書越多說明他們的興趣愛好越相似;而圖書的相似性是一起被借閱過的次數(shù)來衡量的,經(jīng)常被一起借閱過的說明圖書之間的相似性越高。我們已經(jīng)將讀者借閱記錄填充到二維借閱矩陣?yán)锪?,有借閱記錄的平分設(shè)置為1,沒有借閱的評分設(shè)置為0,如圖4所示。
表2 評分后的二維矩陣
讀者1 讀者2 …… 讀者n
圖書1 1 0 1 1
圖書2 1 1 1 1
圖書3 1 1 1 0
…… 1 1 1 1
圖書n 0 1 1 1
在這里,用戶i和用戶j的相似度用公式[HZ(][XC6Q30.TIF][HZ)][KG*2]來計(jì)算。
3.3 產(chǎn)生圖書推薦
到此為止,基于協(xié)同過濾結(jié)果已經(jīng)被保存在對應(yīng)表里,用戶登錄系統(tǒng)后,系統(tǒng)會(huì)自動(dòng)辨別該用戶信息,并推薦出相關(guān)圖書。
4 協(xié)同過濾技術(shù)優(yōu)缺點(diǎn)分析
4.1 優(yōu)點(diǎn)
4.1.1 較好的運(yùn)用到了“人以群分”思想。利用集體的力量,計(jì)算出不同用戶之間對物品的喜好程度,然后根據(jù)不同特點(diǎn)給這些人群進(jìn)行分類[4],好處在于:由于人類能夠?qū)σ恍┍容^抽象的、傳統(tǒng)的基于內(nèi)容分析算法難以過濾和理解的東西進(jìn)行歸類,所以挖掘質(zhì)量相對會(huì)大大提高。
4.1.2 由于采用了評價(jià)反饋機(jī)制如評分、劃分等級,其他用戶能從已經(jīng)體驗(yàn)過的鄰居評價(jià)中得到反饋信息,用戶的反饋信息量越大,個(gè)性化系統(tǒng)學(xué)習(xí)速度提升也就越快,只要每個(gè)用戶為系統(tǒng)貢獻(xiàn)一份力量,系統(tǒng)的性能就會(huì)越來越完善。
4.1.3 可以幫助用戶發(fā)現(xiàn)自己潛在的但還沒有發(fā)現(xiàn)的新興趣。由于用戶與用戶之間接觸新事物時(shí)間不一致,有些用戶比其他的鄰居提早接觸到自己喜歡的新事物,就通過基于用戶的協(xié)同過濾推薦,將這些新的信息推薦給后來的鄰居們[5]。
4.1.4 基于項(xiàng)目協(xié)同過濾推薦是根據(jù)項(xiàng)目之間的相似性來完成推薦任務(wù)的,所以很好解釋推薦結(jié)果的理由和依據(jù),從而滿足特定用戶的興趣需求。
4.2 不足
如基于項(xiàng)目協(xié)同過濾推薦給用戶的物品是與用戶以前所喜歡的物品相似的物品,該算法是通過分析用戶對項(xiàng)目的評分得出項(xiàng)目之間的相似度,因此他給目標(biāo)用戶所推薦的,僅局限于和用戶之前購買過的相似物品。所以缺乏挖掘用戶潛在需求的能力,難以向用戶產(chǎn)生新穎的推薦結(jié)果。
4.2.1 稀疏性問題。在類似于亞馬遜和淘寶這些采用了數(shù)據(jù)挖掘推薦技術(shù)的大型電子購物網(wǎng)站中,他們所擁有的物品都是難以計(jì)數(shù),用戶可能購買的不到1%的物品[6],不同用戶之間購買的物品的重疊性較低,或者幾乎為零,而且用戶很少會(huì)對購買的產(chǎn)品給出評分。據(jù)研究結(jié)果表明,當(dāng)用戶評價(jià)項(xiàng)目數(shù)少于總項(xiàng)目數(shù)的10%[7],就很容易造成評價(jià)矩陣數(shù)據(jù)稀疏,導(dǎo)致算法難以找到一個(gè)用戶的偏好相似鄰居。而在圖書館中也會(huì)遇到同樣的問題,圖書館的圖書數(shù)目必然是遠(yuǎn)遠(yuǎn)超過學(xué)生人數(shù),并且隨著時(shí)間的推移這個(gè)問題會(huì)越發(fā)突出。
4.2.2 [JP2]冷啟動(dòng)問題?;谟脩魠f(xié)同過濾是建立在有大量用戶對某個(gè)產(chǎn)品的評價(jià)上的,由于在新產(chǎn)品開始階段沒有人購買或者新圖書在開始會(huì)沒有人借閱,也沒有對其進(jìn)行評價(jià),那么在開始階段也將無法對其進(jìn)行推薦,因此推薦質(zhì)量主要是取決于歷史數(shù)據(jù)集。
4.2.3 算法擴(kuò)展性問題。隨著物品數(shù)尤其是用戶數(shù)的劇烈增加,最近鄰居算法的計(jì)算量也相應(yīng)增加,不太適合數(shù)據(jù)量大的情況使用,所以推薦系統(tǒng)性能也會(huì)大受影響,而現(xiàn)在的推薦系統(tǒng)幾乎是B/S結(jié)構(gòu),沒有快速的相應(yīng)速度,對網(wǎng)絡(luò)用戶來說是無法忍受的,因此這在某種程度上限制了基于用戶協(xié)同過濾在推薦系統(tǒng)中的使用。
4.2.4特殊用戶問題。在生活中,有一部分人的偏好是比較特殊的,他沒有相對固定的興趣愛好,而這剛好是基于用戶協(xié)同過濾的前提,那么系統(tǒng)很難為他找出鄰居,也就是很難給出比較精確的推薦信息了。
5 結(jié)語
基于協(xié)同過濾技術(shù)的圖書推薦系統(tǒng)對于提高圖書館的服務(wù)具有重大意義和價(jià)值,他能夠根據(jù)用戶的借閱歷史進(jìn)行圖書推薦,當(dāng)讀者閱讀興趣發(fā)生變化時(shí),系統(tǒng)也能自動(dòng)更新規(guī)則庫,主動(dòng)向讀者推送滿足其個(gè)性化需求的推薦內(nèi)容。個(gè)性化圖書推薦是數(shù)字圖書館做好服務(wù)的根本要求,在實(shí)現(xiàn)個(gè)性化的方法上,有一些值得改進(jìn)的地方,如對現(xiàn)有協(xié)同過濾算法的改進(jìn),或者同時(shí)采用多種推薦算法,充分發(fā)揮各個(gè)算法的優(yōu)勢,達(dá)到提高推薦的精度。
參考文獻(xiàn):
[1]李瑋平.基于數(shù)據(jù)挖掘的圖書館讀者需求分析[J]. 圖書館論壇, 2004(3):86-88.
[2] 郁 雪.基于協(xié)同過濾技術(shù)的推薦方法研究[D]. 天津:天津大學(xué),2009.
[3] 張光衛(wèi)等.基于云模型的協(xié)同過濾推薦算法[J].軟件學(xué)報(bào),2007(10):2403-2411.
[4] 吳 顏等.協(xié)同過濾推薦系統(tǒng)中數(shù)據(jù)稀疏問題的解決[J]. 計(jì)算機(jī)應(yīng)用研究,2007(6): 94-97.
[5] 鄧愛林.電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究[D]. 上海:復(fù)旦大學(xué),2003.
[6] 孔小華.協(xié)同過濾系統(tǒng)的稀疏性與冷啟動(dòng)問題研究[D]. 杭州:浙江大學(xué),2005.
[7] 張 亮.推薦系統(tǒng)中協(xié)同過濾算法問題的研究[D]. 北京: 北京郵電大學(xué),2009.
(編校:馬懷云)
endprint
3.2 尋找最近鄰居用戶集
[JP2]在進(jìn)行基于用戶的協(xié)同過濾計(jì)算中,主要目標(biāo)是得到與目標(biāo)用戶的相似用戶集。在這里,可以根據(jù)需要設(shè)定最多有n個(gè)鄰居用戶,其中用戶相似性是以借閱相同圖書的冊數(shù)來衡量的,借閱過相同圖書越多說明他們的興趣愛好越相似;而圖書的相似性是一起被借閱過的次數(shù)來衡量的,經(jīng)常被一起借閱過的說明圖書之間的相似性越高。我們已經(jīng)將讀者借閱記錄填充到二維借閱矩陣?yán)锪耍薪栝営涗浀钠椒衷O(shè)置為1,沒有借閱的評分設(shè)置為0,如圖4所示。
表2 評分后的二維矩陣
讀者1 讀者2 …… 讀者n
圖書1 1 0 1 1
圖書2 1 1 1 1
圖書3 1 1 1 0
…… 1 1 1 1
圖書n 0 1 1 1
在這里,用戶i和用戶j的相似度用公式[HZ(][XC6Q30.TIF][HZ)][KG*2]來計(jì)算。
3.3 產(chǎn)生圖書推薦
到此為止,基于協(xié)同過濾結(jié)果已經(jīng)被保存在對應(yīng)表里,用戶登錄系統(tǒng)后,系統(tǒng)會(huì)自動(dòng)辨別該用戶信息,并推薦出相關(guān)圖書。
4 協(xié)同過濾技術(shù)優(yōu)缺點(diǎn)分析
4.1 優(yōu)點(diǎn)
4.1.1 較好的運(yùn)用到了“人以群分”思想。利用集體的力量,計(jì)算出不同用戶之間對物品的喜好程度,然后根據(jù)不同特點(diǎn)給這些人群進(jìn)行分類[4],好處在于:由于人類能夠?qū)σ恍┍容^抽象的、傳統(tǒng)的基于內(nèi)容分析算法難以過濾和理解的東西進(jìn)行歸類,所以挖掘質(zhì)量相對會(huì)大大提高。
4.1.2 由于采用了評價(jià)反饋機(jī)制如評分、劃分等級,其他用戶能從已經(jīng)體驗(yàn)過的鄰居評價(jià)中得到反饋信息,用戶的反饋信息量越大,個(gè)性化系統(tǒng)學(xué)習(xí)速度提升也就越快,只要每個(gè)用戶為系統(tǒng)貢獻(xiàn)一份力量,系統(tǒng)的性能就會(huì)越來越完善。
4.1.3 可以幫助用戶發(fā)現(xiàn)自己潛在的但還沒有發(fā)現(xiàn)的新興趣。由于用戶與用戶之間接觸新事物時(shí)間不一致,有些用戶比其他的鄰居提早接觸到自己喜歡的新事物,就通過基于用戶的協(xié)同過濾推薦,將這些新的信息推薦給后來的鄰居們[5]。
4.1.4 基于項(xiàng)目協(xié)同過濾推薦是根據(jù)項(xiàng)目之間的相似性來完成推薦任務(wù)的,所以很好解釋推薦結(jié)果的理由和依據(jù),從而滿足特定用戶的興趣需求。
4.2 不足
如基于項(xiàng)目協(xié)同過濾推薦給用戶的物品是與用戶以前所喜歡的物品相似的物品,該算法是通過分析用戶對項(xiàng)目的評分得出項(xiàng)目之間的相似度,因此他給目標(biāo)用戶所推薦的,僅局限于和用戶之前購買過的相似物品。所以缺乏挖掘用戶潛在需求的能力,難以向用戶產(chǎn)生新穎的推薦結(jié)果。
4.2.1 稀疏性問題。在類似于亞馬遜和淘寶這些采用了數(shù)據(jù)挖掘推薦技術(shù)的大型電子購物網(wǎng)站中,他們所擁有的物品都是難以計(jì)數(shù),用戶可能購買的不到1%的物品[6],不同用戶之間購買的物品的重疊性較低,或者幾乎為零,而且用戶很少會(huì)對購買的產(chǎn)品給出評分。據(jù)研究結(jié)果表明,當(dāng)用戶評價(jià)項(xiàng)目數(shù)少于總項(xiàng)目數(shù)的10%[7],就很容易造成評價(jià)矩陣數(shù)據(jù)稀疏,導(dǎo)致算法難以找到一個(gè)用戶的偏好相似鄰居。而在圖書館中也會(huì)遇到同樣的問題,圖書館的圖書數(shù)目必然是遠(yuǎn)遠(yuǎn)超過學(xué)生人數(shù),并且隨著時(shí)間的推移這個(gè)問題會(huì)越發(fā)突出。
4.2.2 [JP2]冷啟動(dòng)問題?;谟脩魠f(xié)同過濾是建立在有大量用戶對某個(gè)產(chǎn)品的評價(jià)上的,由于在新產(chǎn)品開始階段沒有人購買或者新圖書在開始會(huì)沒有人借閱,也沒有對其進(jìn)行評價(jià),那么在開始階段也將無法對其進(jìn)行推薦,因此推薦質(zhì)量主要是取決于歷史數(shù)據(jù)集。
4.2.3 算法擴(kuò)展性問題。隨著物品數(shù)尤其是用戶數(shù)的劇烈增加,最近鄰居算法的計(jì)算量也相應(yīng)增加,不太適合數(shù)據(jù)量大的情況使用,所以推薦系統(tǒng)性能也會(huì)大受影響,而現(xiàn)在的推薦系統(tǒng)幾乎是B/S結(jié)構(gòu),沒有快速的相應(yīng)速度,對網(wǎng)絡(luò)用戶來說是無法忍受的,因此這在某種程度上限制了基于用戶協(xié)同過濾在推薦系統(tǒng)中的使用。
4.2.4特殊用戶問題。在生活中,有一部分人的偏好是比較特殊的,他沒有相對固定的興趣愛好,而這剛好是基于用戶協(xié)同過濾的前提,那么系統(tǒng)很難為他找出鄰居,也就是很難給出比較精確的推薦信息了。
5 結(jié)語
基于協(xié)同過濾技術(shù)的圖書推薦系統(tǒng)對于提高圖書館的服務(wù)具有重大意義和價(jià)值,他能夠根據(jù)用戶的借閱歷史進(jìn)行圖書推薦,當(dāng)讀者閱讀興趣發(fā)生變化時(shí),系統(tǒng)也能自動(dòng)更新規(guī)則庫,主動(dòng)向讀者推送滿足其個(gè)性化需求的推薦內(nèi)容。個(gè)性化圖書推薦是數(shù)字圖書館做好服務(wù)的根本要求,在實(shí)現(xiàn)個(gè)性化的方法上,有一些值得改進(jìn)的地方,如對現(xiàn)有協(xié)同過濾算法的改進(jìn),或者同時(shí)采用多種推薦算法,充分發(fā)揮各個(gè)算法的優(yōu)勢,達(dá)到提高推薦的精度。
參考文獻(xiàn):
[1]李瑋平.基于數(shù)據(jù)挖掘的圖書館讀者需求分析[J]. 圖書館論壇, 2004(3):86-88.
[2] 郁 雪.基于協(xié)同過濾技術(shù)的推薦方法研究[D]. 天津:天津大學(xué),2009.
[3] 張光衛(wèi)等.基于云模型的協(xié)同過濾推薦算法[J].軟件學(xué)報(bào),2007(10):2403-2411.
[4] 吳 顏等.協(xié)同過濾推薦系統(tǒng)中數(shù)據(jù)稀疏問題的解決[J]. 計(jì)算機(jī)應(yīng)用研究,2007(6): 94-97.
[5] 鄧愛林.電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究[D]. 上海:復(fù)旦大學(xué),2003.
[6] 孔小華.協(xié)同過濾系統(tǒng)的稀疏性與冷啟動(dòng)問題研究[D]. 杭州:浙江大學(xué),2005.
[7] 張 亮.推薦系統(tǒng)中協(xié)同過濾算法問題的研究[D]. 北京: 北京郵電大學(xué),2009.
(編校:馬懷云)
endprint