林 麗
(集美大學(xué) 圖書館,福建 廈門 361021)
高校圖書館擁有豐富的圖書文獻資源,而讀者獲取文獻資源主要通過圖書館的OPAC 系統(tǒng)檢索、再瀏覽、篩選感興趣的圖書。這種服務(wù)模式下,讀者需要有明確需求及相應(yīng)的檢索技能,且檢索結(jié)果較多,難以快速、精準獲取所需要的文獻資源。此外,高校圖書館流行的Top-N 熱門圖書推薦一般是基于全館的熱門圖書統(tǒng)計,無法滿足讀者的個性化需求。
圖書館個性化推薦是指根據(jù)讀者歷史借閱行為、個人信息等主動向讀者推薦相關(guān)文獻資源,實現(xiàn)“千人千面”的推薦服務(wù)。協(xié)同過濾算法[1]是圖書推薦系統(tǒng)中廣泛采用的推薦算法,該算法基于一個“物以類聚,人以群分”的假設(shè),研究圖書或用戶之間的相似性,然后借助用戶對圖書的評分數(shù)據(jù)做Top-N 相似圖書推薦。但是,由于高校圖書館缺乏圖書評分數(shù)據(jù)且借閱數(shù)據(jù)稀疏,導(dǎo)致協(xié)同過濾算法推薦性能差。針對此問題,本文以某高校圖書館近5 年借閱數(shù)據(jù)及讀者信息為實驗數(shù)據(jù)集,通過層次分析法[2](Analytic Hierarchy Process,AHP)構(gòu)建圖書熱度評價模型解決圖書評分問題。協(xié)同過濾算法則是基于圖書的中圖分類號[3]相似實現(xiàn)圖書熱度Top-N 和新書熱度Top-N 推薦,不僅可提升推薦類別的準確率,也可改進協(xié)同過濾算法冷啟動問題,提高推薦結(jié)果新穎度。
圖書評價是圖書推薦算法的一個重要指標,通過圖書評價結(jié)果,推薦系統(tǒng)可以向讀者推薦高質(zhì)量圖書。如何評價圖書一直是圖情領(lǐng)域的研究熱點。邱悅等[4]提出基于圖書利用、圖書關(guān)注和圖書評論3 個維度的評價體系,引入情感傾向分析進行評論處理,應(yīng)用CRITIC 方法為指標賦權(quán),并對心理學(xué)圖書評價體系可靠性進行實證分析。姜春林等[5]基于學(xué)術(shù)圖書被引次數(shù)、評論數(shù)、下載量、讀者數(shù)、在線提及5 個指標數(shù)據(jù),分析學(xué)術(shù)圖書的Bookmetirx 指標數(shù)據(jù)特征和動態(tài)變化規(guī)律。王蘿娜等[6]基于圖書聲譽、圖書引用、圖書評價和圖書利用4 個層次的指標體系,利用CRITIC 法確定指標權(quán)重,加權(quán)TOPSIS 法計算圖書影響力綜合排名。這些研究一般集中于線上圖書或?qū)W術(shù)圖書,而高校圖書館圖書缺少圖書的書評及引文數(shù)據(jù),故當前圖書評價指標方法應(yīng)用程度較低。本研究選擇圖書借閱次數(shù)作為圖書評價主要依據(jù),基于AHP 分析法構(gòu)建圖書熱度評價模型,并將圖書的熱度值作為推薦算法Top-N 的評分指標。
圖書協(xié)同過濾推薦算法一般是依據(jù)讀者借閱列表相似或圖書內(nèi)容相似向讀者推薦評分Top-N 圖書。相關(guān)研究包括:林曉霞等[7]利用借閱記錄數(shù)據(jù)構(gòu)建評分矩陣,融合信任度改進用戶相似度計算方法,根據(jù)鄰居用戶計算圖書推薦度,實現(xiàn)圖書推薦,提高推薦精度。梁思怡等[8]提出基于時間上下文優(yōu)化的協(xié)同過濾推薦算法,構(gòu)建了閱讀興趣評分模型、時間衰減模型和內(nèi)容興趣捕捉模型,從時間軸提取用戶興趣變化,提高推薦準確度。王剛等[9]基于用戶的圖書借閱行為序列提取用戶之間的最長公共子序列和所有公共興趣子序列作為用戶相似度計算方式,再通過借閱時長、借閱形式及用戶類型構(gòu)建讀者圖書評分矩陣,提出改進協(xié)同過濾的圖書推薦算法。劉佳奇等[10]提出以用戶圖書借閱信息相似度、用戶上網(wǎng)日志聚類相似度及用戶學(xué)院信息相似度加權(quán)和作為用戶相似度計算方法,通過熱門圖書打壓過濾方法解決冷啟動問題,提升推薦覆蓋率。張金柱等[11]引入異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法,融合圖書多維特征包括書名、購買者、作者、類別、關(guān)鍵詞等形成圖書語義向量,基于向量相似度做圖書推薦,實驗證明推薦準確率、推薦類別多樣性、推薦內(nèi)容多樣性指標都有所提升。董楊帆[12]通過圖書借閱記錄和圖書關(guān)鍵詞屬性建立流通矩陣和關(guān)鍵詞矩陣,建立概率關(guān)鍵詞模型,生成Top-N 圖書推薦列表,提升推薦性能。
上述圖書協(xié)同過濾推薦算法從讀者或圖書特征分析入手,采用不同的相似度計算方法做Top-N 推薦算法研究,實現(xiàn)個性化推薦目標。但也存在如下問題:①相似度計算方法基于借閱列表或書名的語義相似,保證了推薦準確率,但是由于高校用戶借閱數(shù)據(jù)稀疏,有些用戶長時間沒有借閱行為,導(dǎo)致推薦結(jié)果新穎度和多樣性差;②協(xié)同過濾算法自帶冷啟動問題,如果用戶沒有借閱記錄或圖書為新書,則推薦算法失效;③由于用戶興趣變化,無法及時推薦新物品。
綜上所述,本研究對圖書相似度計算方法進行改進,利用中圖分類號能夠準確表示圖書學(xué)科主題的特點,圖書的相似通過中圖分類號值是否相似表示,保證推薦圖書所屬學(xué)科主題的準確率。本文還基于讀者借閱記錄,推薦圖書熱度Top-N 新書推薦列表,解決協(xié)同過濾算法冷啟動問題。
實際應(yīng)用中,高校圖書館雖然提供圖書評分功能,但是讀者對圖書的評分數(shù)據(jù)很少。因此,圖書的熱度值可通過圖書的借閱信息進行構(gòu)建。陳宇奇等[13]提出基于客戶關(guān)系管理RFM 模型改進的圖書熱度評價模型BRFM,評價指標包括圖書首次借閱間隔時長(Beginning)、最近借閱間隔時長(Recency)、借閱頻率(Frequency)和借閱總時長(Monetary)。本文分析館藏借閱數(shù)據(jù)后發(fā)現(xiàn):①對于長期沒有被借閱的圖書,即Recency 指標為0,Beginning 指標大小都不能說明圖書熱度。而Recency 指標不為0,首次借閱圖書時長和圖書檢索結(jié)果關(guān)系大,不能說明圖書本身熱度,故加入Beginning 指標會干擾圖書熱度值計算結(jié)果;②館藏借閱數(shù)據(jù)中,90%圖書的借閱時長指標都是90 天。因為圖書館給予讀者的最長借閱時長是90 天,大部分讀者都是一次借多本圖書,等收到圖書館催還短信后才還,專業(yè)圖書體現(xiàn)更為明顯,導(dǎo)致Monetary 這個指標數(shù)據(jù)差異不大,不適合作為圖書熱度指標。
基于上述問題,本文提出AHP-BP 圖書熱度計算模型,保留了Frequency 和Recency 指標,加入書齡指標。3 個指標計算方法如下:
(1)圖書書齡A(Age)。在館藏圖書中,不同年份出版的圖書中,新書顯然更受讀者歡迎。在借閱熱度計算模型中加入書齡指標,也有助于提升新書熱度值。書齡表示圖書的老舊程度,可通過圖書的出版時間計算獲取,書齡越大,圖書老舊程度越高,則圖書熱度越低。
(2)觀測時間內(nèi)的圖書借閱次數(shù)F(Frequency)。圖書借閱次數(shù),是圖書熱度的核心指標,借閱次數(shù)越多,表示圖書越受歡迎,圖書熱度越高??紤]到部分舊書雖然借閱次數(shù)多,但近幾年借閱次數(shù)較少或為0,說明這部分圖書借閱熱度趨勢降低,熱度值也減少,故不能用圖書總的借閱次數(shù)作為指標,改成選擇近期的圖書借閱次數(shù)。本文選擇觀測時間為2017-2022 年即近5 年的圖書借閱次數(shù)作為熱度指標。
(3)最近圖書借閱間隔R(Recency)。最近圖書借閱間隔表示讀者最后一次借閱行為發(fā)生的年份距離分析時間點(本文選擇2022 年)的間隔,最近借閱時間間隔越短,說明圖書近期還有關(guān)注度,相應(yīng)的熱度值也越高。
圖書熱度的3 個指標對圖書熱度的影響程度,可以通過設(shè)置不同指標權(quán)重表示。權(quán)重計算方法采用AHP 層次分析法。AHP 是對定性問題進行定量分析的一種簡便、靈活而又實用的多準則決策方法。該方法的主要思想是將復(fù)雜問題分解成若干層次和若干因素,對兩兩指標之間的重要程序進行比較判斷,建立判斷矩陣,再計算判斷矩陣最大特征值及對應(yīng)特征向量,可得出不同方案的重要性程序的權(quán)重。
2.2.1 圖書熱度指標權(quán)重計算
圖書熱度指標權(quán)重計算過程如下:
(1)構(gòu)造判斷矩陣。判斷矩陣是對所有指標因素兩兩比較,采用相對尺度,盡可能減少不同因素相互比較的困難,提高準確性,值采用1-9標度。
Table 1 Judgment matrix scale definition表1 判斷矩陣標度定義
通過對館藏借閱數(shù)據(jù)預(yù)處理后獲得圖書熱度3 個指標數(shù)值,經(jīng)過對比不同指標之間對圖書熱度決策的影響程度,最終構(gòu)建判斷矩陣如圖1 所示。其中,借閱次數(shù)因素比書齡因素極端重要,比最近借閱間隔因素明顯重要,最近借閱間隔因素比書齡稍微重要。
Fig.1 Book popularity judgment matrix圖1 圖書熱度判斷矩陣
(2)指標權(quán)重計算。每個因素的權(quán)重計算步驟為:①先將矩陣的每列進行歸一化為[0,1]的數(shù)值;②將標準化后的各元素按行求平均值。算出權(quán)重為:A 指標權(quán)重為0.071,F(xiàn)為0.748,R 為0.18。
(3)判斷矩陣一致性檢驗。判斷矩陣是否符合邏輯,需要計算一致性指標CI,CI越接近0,則矩陣越一致,符合邏輯。CI越大,判斷矩陣不一致性越嚴重,越不符合邏輯。CI計算方法如式(1)所示。
其中,λmax為判斷矩陣最大特征值,n為判斷矩陣的階數(shù),本文有3 個指標因素,故n為3。λmax的計算方法如式(2)所示,其中A為判斷矩陣,W為權(quán)重矩陣。
為了衡量CI的大小,引入隨機一致性指標RI。RI是隨機模擬1 000 次取得,數(shù)值如表2 所示。本模型的判斷矩陣階數(shù)為3,則RI值為0.58。
Table 2 The value of the random consistency indicator RI表2 隨機一致性指標RI的數(shù)值
一致性比例CR計算如式(3)所示。其中CI為式(1)計算所得。當CR<0.1 時,則判斷矩陣的不一致程度在容許范圍之內(nèi),一致性檢驗通過。表2 的判斷矩陣通過式(3)計算的不一致性比例CR值為0.028,小于0.1,故表2 所示的判斷矩陣通過一致性檢驗。
2.2.2 圖書熱度值計算模型
綜上所述,基于AHP 模型構(gòu)建圖書熱度值A(chǔ)HP-BP(Book Popularity)為書齡A、借閱次數(shù)F、最近時間間隔R等 3 個指標的加權(quán)值。其中:A=2022-出版時間;F=近5 年借閱總次數(shù);R=2022-最后一次借閱年份。
A 和R 指標越大,則AHP-BP 值越低,故A、R 和AHPBP 都是負相關(guān)。F 越大,則AHP-BP 值越大,故F 和AHPBP 是正相關(guān)。此外,由于3 個指標數(shù)據(jù)分布不一致,數(shù)據(jù)差異大,故需要先對數(shù)據(jù)進行歸一化處理。如式(4)所示,使3 個指標的數(shù)據(jù)都分布在[0,1]內(nèi)。其中,X 為原始數(shù)據(jù),Xmin和Xmax為元數(shù)據(jù)的最小值和最大值。經(jīng)過式(4)作歸一化計算后,A、F、R 轉(zhuǎn)為A1、F1、R1,代入式(5)加權(quán)計算后得到圖書熱度值A(chǔ)HP-BP 如下:
中文圖書包含的中圖分類號(中國圖書館分類法號碼)屬性,指采用《中國圖書館分類法》對科技文獻進行主題分析,并依照文獻內(nèi)容的學(xué)科屬性和特征,分門別類地組織文獻,所獲取的分類代號。若兩本圖書的中文圖分類號一樣,則表示圖書屬于同一學(xué)科類別,可判斷為學(xué)科主題相似。如《明朝那些事兒》和《世間再無張居正》兩本圖書的中圖分類號均為“K248.09”,雖然書名不相似,但是中圖分類號表示的學(xué)科主題“歷史、地理,中國史,明”是一樣,即主題相似。主題相似結(jié)果用于推薦算法,雖然推薦精準率降低,但推薦主題的準確率得以提升。主題相似條件下,推薦內(nèi)容可以更多樣,用戶可以有更多選擇。
故圖書相似的計算方法為:2 本書的中圖分類號一致,則相似度值為1,否則為0。如式(6)所示。
基于中圖分類號相似的圖書推薦方法為:先基于AHP-BP 模型計算館藏圖書熱度值,再讀取讀者的借閱列表,推薦與借閱圖書的學(xué)科主題相似的Top-N 熱度圖書。基于中圖分類號相似的圖書個性化推薦算法模型如圖2所示。為了解決冷啟動問題,本文將推薦結(jié)果分為3 類:熱門圖書推薦單、熱門新書推薦單、專業(yè)圖書推薦單。
Fig.2 Personalized recommendation model for popular books圖2 熱門圖書個性化推薦模型
(1)熱門圖書推薦單。熱門圖書推薦單的做法是先對館藏借閱數(shù)據(jù)按照中圖分類號分類,每個分類按照圖書借閱熱度排序,生成館藏Top-N 熱門圖書表;再提取讀者近期的10條借閱記錄所對應(yīng)的中圖分類號,在館藏Top-N 熱門圖書表中查找對應(yīng)記錄,按照分類號依次提取一定數(shù)量的圖書生成熱門圖書推薦單。這種方法不僅實現(xiàn)學(xué)科主題相似的圖書推薦,也保證了推薦的圖書質(zhì)量。
(2)熱門新書推薦單。協(xié)同過濾算法存在新物品冷啟動問題,既新書由于借閱數(shù)據(jù)少,導(dǎo)致借閱熱度低,無法進入Top-N 圖書推薦列表中。而新書一般是圖書館重點推薦的圖書,故本文將館藏的新書單獨作為一個分類推薦,即熱門新書推薦單。推薦做法為:首先對館藏新書(出版年為當前年份的圖書)基于中圖分類號分類,每個分類按照新書借閱熱度做排序,生成館藏Top-N 熱門新書表;再讀取讀者借閱記錄,進行中圖分類號相似熱門新書的推薦和借閱。
(3)專業(yè)圖書推薦單。高校師生是圖書館主要讀者對象,而師生的主要任務(wù)是教授課程和學(xué)習(xí)課程。如何精準向師生推薦專業(yè)圖書是高校圖書館學(xué)科服務(wù)的主要任務(wù)。通過提取讀者專業(yè)信息,獲取學(xué)科專業(yè)對應(yīng)的中圖分類號,再從館藏熱門圖書表中查找對應(yīng)學(xué)科分類的Top-N 圖書做為專業(yè)圖書推薦單。通過讀者專業(yè)信息推薦學(xué)科圖書,也可以解決協(xié)同過濾算法的用戶冷啟動問題,即新用戶如新生,沒有借閱記錄,則可以向用戶主動推薦其所學(xué)的專業(yè)圖書,有助于用戶及時獲取熱門專業(yè)圖書信息。
推薦算法設(shè)計步驟為:
輸入:讀者借閱數(shù)據(jù):ReaderList={B1,B2,B3,B4,...Bm}
輸出:熱門圖書推薦單HotBookRecommendList、熱門新書推薦單NewBookRecommendList、專業(yè)圖書推薦單Professional-BookRecommendList
(1)基于APH_BP 模型計算館藏圖書的借閱熱度值。對每一條借閱數(shù)據(jù),統(tǒng)計書目的借閱次數(shù)、最后一次借閱年份,基于式(5)計算圖書的借閱熱度值,存入圖書借閱熱度表。
(2)對步驟(1)生成的圖書借閱熱度表按照中圖分類號進行分組排序,提取前N 條的圖書id 生成圖書熱度Top-N 圖書和新書列表。以中圖分類號為關(guān)鍵字,構(gòu)建Top-N熱門圖書字典TopBookDict 及Top-N 熱門新書(新書為當年發(fā)行時間的圖書)字典TopNewBookDict。通過字典,可快速獲取每個中圖分類號所對應(yīng)的熱門圖書列表。
TopBookDict[中文圖分類號]=[BookID1,BookID2,...BookID10]
TopNewBookDict[中文圖分類號]=[BookID1,BookID2,...BookID10]
(3)讀取讀者的借閱數(shù)據(jù)列表ReaderList,若借閱記錄為空,則讀取讀者專業(yè)信息,生成專業(yè)信息對應(yīng)的中圖分類號。若借閱記錄不空,則讀取最近的10 條借閱記錄,查找每條借閱記錄所對應(yīng)的中圖分類號。
(4)基于Top-N 圖書字典生成圖書推薦單Hot-BookRecommendList、Top-N 新書字典生成熱門新書推薦單NewBookRecommendList、Top-N 圖書字典生成專業(yè)圖書推薦單ProfessionalBookRecommendList。
推薦流程如圖3所示。
Fig.3 Recommendation flow圖3 推薦流程
本實驗數(shù)據(jù)源為某圖書館2018—2022 年的圖書借閱記錄,借閱記錄共425 615 條,借閱圖書種數(shù)203 613 種,用于圖書熱度評價AHP-BP 模型構(gòu)建。推薦算法選擇讀者2個月借閱記錄作為實驗數(shù)據(jù),前一個月的數(shù)據(jù)作為歷史借閱數(shù)據(jù)即訓(xùn)練數(shù)據(jù)集,后一個月數(shù)據(jù)作為算法性能指標的驗證數(shù)據(jù)即測試數(shù)據(jù)集。
通過AHP 層次分析法構(gòu)建的AHP-BP 模型可以判斷觀測周期內(nèi)圖書的熱門程度,從而為圖書檢索、Top-N 圖書推薦提供數(shù)據(jù)支持。為了檢測模型有效性,將AHP-BP模型計算的中圖分類號為“TP3”的Top10 熱門圖書和借閱次數(shù)最多的Top10熱門圖書進行對比。
如表3 所示,AHP-BP 模型計算的借閱熱度前10 圖書和借閱次數(shù)前10 圖書重合率達到70%。借閱次數(shù)是反映圖書是否熱門的重要指標,但是單靠借閱次數(shù),并不能很好地反映圖書的熱門程度。AHP-BP 模型計算的圖書熱度在借閱次數(shù)差距不大的情況下,還考慮了書齡、最近借閱間隔時間兩個指標。故同等借閱次數(shù)下,對于書齡越小或最后一次借閱時間越近的圖書,表明越受讀者歡迎,圖書熱度越高。因此,表3中《Python實戰(zhàn)編程》《Arduino程序設(shè)計與實踐》《深度學(xué)習(xí)框架PyTorch 入門與實踐》等書在借閱次數(shù)差距不大的情況下,綜合了書齡、最后一次借閱間隔指標,圖書熱度更高。由此可知,AHP-BP 模型不僅能夠量化評價圖書的熱門程度,而且評價結(jié)果更有效、合理。
Table 3 Top 10 book ranking comparison表3 Top10圖書排名對比
(1)查準率。查準率表示正確推薦給用戶的項目占推薦總數(shù)的比例。協(xié)同過濾算法生成的Top-N 推薦物品中,若出現(xiàn)在用戶的測試數(shù)據(jù)集中,則生成一個正確推薦。準確率越高,表示推薦性能越好。查準率如式(7)所示,N表示用戶總數(shù),Ru表示用戶u的圖書推薦列表,Bu表示用戶u真實借閱的圖書集合。
(2)多樣性。多樣性一般被定義為相似性的反面[14]。圖書推薦系統(tǒng)中,讀者希望推薦的圖書是主題相似,但主題內(nèi)的圖書差異大,以避免同質(zhì)化推薦,且更好地了解不同內(nèi)容的圖書。因此,推薦圖書列表中的圖書越不相似,多樣性的推薦能力越強,讀者的選擇越豐富。
圖書多樣性的度量可以通過計算推薦圖書列表的內(nèi)部相似性表示[15]。相似度計算方法不一致,導(dǎo)致數(shù)據(jù)不平衡,故本文采用標準偏差值度量推薦列表的內(nèi)部相似性。式(8)中的σ 為相似度標準差,xi為某本圖書和其推薦圖書的相似度,μ為推薦列表中所有圖書相似度的均值,N為推薦圖書列表數(shù)量。標準差可以很好地衡量數(shù)據(jù)與均值的偏離程度,標準差越大,說明樣本之間的差異越大,多樣性推薦能力也越強。
(3)新穎度?,F(xiàn)有推薦算法評價指標都基于用戶的歷史借閱行為相似推薦,造成推薦結(jié)果的冗余和同質(zhì)化問題,使用戶難以接觸到新鮮、多樣的內(nèi)容,導(dǎo)致用戶對推薦結(jié)果不滿意。新穎度評價方式中,基于冷啟動的新穎性分析方法[16]是計算推薦列表中冷啟動項目數(shù)量num 占推薦列表項目總數(shù)R 的比例,能有效評價推薦商品的新穎度。本實驗選擇新書作為冷啟動項目,新穎度即推薦新書數(shù)量占推薦列表項目總數(shù)的比例,如式(9)所示。
為了對本文算法(CLCS-CF)(Chinese Library Classification Similarity-Collaborative Filtering)的性能指標進行評估,對比分析其他協(xié)同過濾算法,具體包括:①Item-CF:基于項目的協(xié)同過濾算法,利用評分矩陣計算物品相似度預(yù)測評分,本實驗沒有評分數(shù)據(jù),改成與讀者借閱圖書的書名相似且圖書熱度前10 的項目推薦;②PW-IBCF[17]:改進相似度計算方法,設(shè)置流行度閾值,對大于閾值的流行項目設(shè)計懲罰權(quán)重,降低對相似度的貢獻,提高推薦多樣性和新穎度,該算法沒有對項目聚類;③IACSO-CF[18]:從項目屬性特征相似性分析出發(fā),利用K-Means 聚類算法對項目進行聚類,再進行圖書所屬類相似度前10的項目推薦。
上述3 個算法中,圖書相似度是基于Doc2Vec(Document to Vector)[19]模型計算書名相似度。Doc2Vec 算法是將文本轉(zhuǎn)成向量的深度學(xué)習(xí)算法,繼承了word2vec 模型的優(yōu)點,考慮上下文單詞順序關(guān)系,能從語義上表示語句相似度。圖書的書名作為語句,館藏所有圖書書名作為語料庫,將其裝入Doc2Vec 模型訓(xùn)練。通過訓(xùn)練后的Doc2Vec模型能夠方便獲取與圖書書名相似的Top-N 圖書。
4.4.1 查準率比較
查準率比較結(jié)果如圖4 所示,隨著推薦列表長度增加,各算法查準率都有所上升。但是,本文提出的CLCSCF 算法的查準率低于PW-IBCF、IACSO-CF,主要原因在于CLCS-CF 是基于中圖分類號即學(xué)科主題相似推薦,故推薦圖書與實驗數(shù)據(jù)是學(xué)科主題相似,但是書名相似度沒有其他3 個算法準確。IACSO-CF 中引入K-Means 聚類算法并優(yōu)化相似度計算方法,圖書相似度準確率更高。
Fig.4 Comparison of the accuracy of different algorithms圖4 不同算法查準率比較
4.4.2 多樣性比較
多樣性比較結(jié)果如圖5 所示,CLCS-CF 是基于圖書主題相似,故推薦列表中圖書的相似度差距大,多樣性指標明顯高于其他算法。推薦列表長度為20,相比PW-BCF 模型,多樣性提升19%;相比IACSO-CF 模型,提升47%。由此可見,CLCS-CF 算法雖然查準率低于其他算法,但是在推薦主題相似前提下,更側(cè)重于提高推薦多樣性指標。
Fig.5 Comparison of the diversity of different algorithms圖5 不同算法多樣性比較
4.4.3 新穎度比較
新穎度比較結(jié)果如圖6 所示,隨著推薦列表長度增加,各算法新穎度都有所上升。CLCS-CF 算法的新穎度穩(wěn)定0.67 左右,相比PW-IBCF 算法,新穎度平均提升47%;相比IACSO-Cf 算法,新穎度平均提升65%。由此可見,CLCS-CF 算法引入新書推薦列表,可在一定程度上解決新物品冷啟動問題,提升推薦新穎度,擴大用戶選擇范圍。
Fig.6 Comparison of the novelty of different algorithms圖6 不同算法新穎度比較
高校圖書館由于評分數(shù)據(jù)缺乏,基于用戶需求的主動推薦應(yīng)用較少。當前的圖書協(xié)同過濾推薦算法一般是基于用戶借閱列表相似或評分相似的推薦,存在推薦結(jié)果和歷史記錄同質(zhì)化嚴重、推薦多樣性及新穎度差等問題,而協(xié)同過濾算法自帶的冷啟動問題也導(dǎo)致新書、新用戶無法有效推薦。
針對評分數(shù)據(jù)缺乏問題,本文加入圖書書齡、借閱次數(shù)及最近借閱時間指標,并應(yīng)用層次分析法分析各指標權(quán)重后構(gòu)建AHP-BP 模型評價圖書熱度,有效評價圖書的熱門程度,為推薦算法提供評分指標。針對協(xié)同過濾算法推薦同質(zhì)化及冷啟動問題,本文將圖書的推薦結(jié)果分成館藏熱門圖書列表和館藏熱門新書列表。本文利用中圖分類號可精準表示圖書學(xué)科主題特點,改進圖書相似度度量方式,以圖書的中圖分類號是否相似表示圖書間的相似度,再基于中圖分類號相似推薦圖書熱度Top-N 圖書和Top-N 新書。實驗結(jié)果表明,基于中圖分類號相似的協(xié)同過濾推薦算法,能提升推薦類別準確率和推薦內(nèi)容多樣性。同時,熱門新書推薦列表可解決協(xié)同過濾算法的冷啟動問題,有助于新書推廣。
當然,為了進一步提高圖書推薦準確率,圖書相似度還可以加入語義度量指標,但如何實現(xiàn)推薦結(jié)果準確率和多樣性平衡,還需作進一步研究。