亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于層次分析法的圖書協(xié)同過濾推薦算法研究

        2023-10-31 11:40:02
        軟件導(dǎo)刊 2023年10期
        關(guān)鍵詞:模型

        林 麗

        (集美大學(xué) 圖書館,福建 廈門 361021)

        0 引言

        高校圖書館擁有豐富的圖書文獻(xiàn)資源,而讀者獲取文獻(xiàn)資源主要通過圖書館的OPAC 系統(tǒng)檢索、再瀏覽、篩選感興趣的圖書。這種服務(wù)模式下,讀者需要有明確需求及相應(yīng)的檢索技能,且檢索結(jié)果較多,難以快速、精準(zhǔn)獲取所需要的文獻(xiàn)資源。此外,高校圖書館流行的Top-N 熱門圖書推薦一般是基于全館的熱門圖書統(tǒng)計(jì),無法滿足讀者的個(gè)性化需求。

        圖書館個(gè)性化推薦是指根據(jù)讀者歷史借閱行為、個(gè)人信息等主動(dòng)向讀者推薦相關(guān)文獻(xiàn)資源,實(shí)現(xiàn)“千人千面”的推薦服務(wù)。協(xié)同過濾算法[1]是圖書推薦系統(tǒng)中廣泛采用的推薦算法,該算法基于一個(gè)“物以類聚,人以群分”的假設(shè),研究圖書或用戶之間的相似性,然后借助用戶對(duì)圖書的評(píng)分?jǐn)?shù)據(jù)做Top-N 相似圖書推薦。但是,由于高校圖書館缺乏圖書評(píng)分?jǐn)?shù)據(jù)且借閱數(shù)據(jù)稀疏,導(dǎo)致協(xié)同過濾算法推薦性能差。針對(duì)此問題,本文以某高校圖書館近5 年借閱數(shù)據(jù)及讀者信息為實(shí)驗(yàn)數(shù)據(jù)集,通過層次分析法[2](Analytic Hierarchy Process,AHP)構(gòu)建圖書熱度評(píng)價(jià)模型解決圖書評(píng)分問題。協(xié)同過濾算法則是基于圖書的中圖分類號(hào)[3]相似實(shí)現(xiàn)圖書熱度Top-N 和新書熱度Top-N 推薦,不僅可提升推薦類別的準(zhǔn)確率,也可改進(jìn)協(xié)同過濾算法冷啟動(dòng)問題,提高推薦結(jié)果新穎度。

        1 相關(guān)研究

        1.1 圖書評(píng)價(jià)

        圖書評(píng)價(jià)是圖書推薦算法的一個(gè)重要指標(biāo),通過圖書評(píng)價(jià)結(jié)果,推薦系統(tǒng)可以向讀者推薦高質(zhì)量圖書。如何評(píng)價(jià)圖書一直是圖情領(lǐng)域的研究熱點(diǎn)。邱悅等[4]提出基于圖書利用、圖書關(guān)注和圖書評(píng)論3 個(gè)維度的評(píng)價(jià)體系,引入情感傾向分析進(jìn)行評(píng)論處理,應(yīng)用CRITIC 方法為指標(biāo)賦權(quán),并對(duì)心理學(xué)圖書評(píng)價(jià)體系可靠性進(jìn)行實(shí)證分析。姜春林等[5]基于學(xué)術(shù)圖書被引次數(shù)、評(píng)論數(shù)、下載量、讀者數(shù)、在線提及5 個(gè)指標(biāo)數(shù)據(jù),分析學(xué)術(shù)圖書的Bookmetirx 指標(biāo)數(shù)據(jù)特征和動(dòng)態(tài)變化規(guī)律。王蘿娜等[6]基于圖書聲譽(yù)、圖書引用、圖書評(píng)價(jià)和圖書利用4 個(gè)層次的指標(biāo)體系,利用CRITIC 法確定指標(biāo)權(quán)重,加權(quán)TOPSIS 法計(jì)算圖書影響力綜合排名。這些研究一般集中于線上圖書或?qū)W術(shù)圖書,而高校圖書館圖書缺少圖書的書評(píng)及引文數(shù)據(jù),故當(dāng)前圖書評(píng)價(jià)指標(biāo)方法應(yīng)用程度較低。本研究選擇圖書借閱次數(shù)作為圖書評(píng)價(jià)主要依據(jù),基于AHP 分析法構(gòu)建圖書熱度評(píng)價(jià)模型,并將圖書的熱度值作為推薦算法Top-N 的評(píng)分指標(biāo)。

        1.2 圖書協(xié)同過濾推薦算法

        圖書協(xié)同過濾推薦算法一般是依據(jù)讀者借閱列表相似或圖書內(nèi)容相似向讀者推薦評(píng)分Top-N 圖書。相關(guān)研究包括:林曉霞等[7]利用借閱記錄數(shù)據(jù)構(gòu)建評(píng)分矩陣,融合信任度改進(jìn)用戶相似度計(jì)算方法,根據(jù)鄰居用戶計(jì)算圖書推薦度,實(shí)現(xiàn)圖書推薦,提高推薦精度。梁思怡等[8]提出基于時(shí)間上下文優(yōu)化的協(xié)同過濾推薦算法,構(gòu)建了閱讀興趣評(píng)分模型、時(shí)間衰減模型和內(nèi)容興趣捕捉模型,從時(shí)間軸提取用戶興趣變化,提高推薦準(zhǔn)確度。王剛等[9]基于用戶的圖書借閱行為序列提取用戶之間的最長(zhǎng)公共子序列和所有公共興趣子序列作為用戶相似度計(jì)算方式,再通過借閱時(shí)長(zhǎng)、借閱形式及用戶類型構(gòu)建讀者圖書評(píng)分矩陣,提出改進(jìn)協(xié)同過濾的圖書推薦算法。劉佳奇等[10]提出以用戶圖書借閱信息相似度、用戶上網(wǎng)日志聚類相似度及用戶學(xué)院信息相似度加權(quán)和作為用戶相似度計(jì)算方法,通過熱門圖書打壓過濾方法解決冷啟動(dòng)問題,提升推薦覆蓋率。張金柱等[11]引入異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法,融合圖書多維特征包括書名、購(gòu)買者、作者、類別、關(guān)鍵詞等形成圖書語(yǔ)義向量,基于向量相似度做圖書推薦,實(shí)驗(yàn)證明推薦準(zhǔn)確率、推薦類別多樣性、推薦內(nèi)容多樣性指標(biāo)都有所提升。董楊帆[12]通過圖書借閱記錄和圖書關(guān)鍵詞屬性建立流通矩陣和關(guān)鍵詞矩陣,建立概率關(guān)鍵詞模型,生成Top-N 圖書推薦列表,提升推薦性能。

        上述圖書協(xié)同過濾推薦算法從讀者或圖書特征分析入手,采用不同的相似度計(jì)算方法做Top-N 推薦算法研究,實(shí)現(xiàn)個(gè)性化推薦目標(biāo)。但也存在如下問題:①相似度計(jì)算方法基于借閱列表或書名的語(yǔ)義相似,保證了推薦準(zhǔn)確率,但是由于高校用戶借閱數(shù)據(jù)稀疏,有些用戶長(zhǎng)時(shí)間沒有借閱行為,導(dǎo)致推薦結(jié)果新穎度和多樣性差;②協(xié)同過濾算法自帶冷啟動(dòng)問題,如果用戶沒有借閱記錄或圖書為新書,則推薦算法失效;③由于用戶興趣變化,無法及時(shí)推薦新物品。

        綜上所述,本研究對(duì)圖書相似度計(jì)算方法進(jìn)行改進(jìn),利用中圖分類號(hào)能夠準(zhǔn)確表示圖書學(xué)科主題的特點(diǎn),圖書的相似通過中圖分類號(hào)值是否相似表示,保證推薦圖書所屬學(xué)科主題的準(zhǔn)確率。本文還基于讀者借閱記錄,推薦圖書熱度Top-N 新書推薦列表,解決協(xié)同過濾算法冷啟動(dòng)問題。

        2 基于層次分析法的圖書熱度評(píng)價(jià)模型

        2.1 圖書熱度評(píng)價(jià)指標(biāo)

        實(shí)際應(yīng)用中,高校圖書館雖然提供圖書評(píng)分功能,但是讀者對(duì)圖書的評(píng)分?jǐn)?shù)據(jù)很少。因此,圖書的熱度值可通過圖書的借閱信息進(jìn)行構(gòu)建。陳宇奇等[13]提出基于客戶關(guān)系管理RFM 模型改進(jìn)的圖書熱度評(píng)價(jià)模型BRFM,評(píng)價(jià)指標(biāo)包括圖書首次借閱間隔時(shí)長(zhǎng)(Beginning)、最近借閱間隔時(shí)長(zhǎng)(Recency)、借閱頻率(Frequency)和借閱總時(shí)長(zhǎng)(Monetary)。本文分析館藏借閱數(shù)據(jù)后發(fā)現(xiàn):①對(duì)于長(zhǎng)期沒有被借閱的圖書,即Recency 指標(biāo)為0,Beginning 指標(biāo)大小都不能說明圖書熱度。而Recency 指標(biāo)不為0,首次借閱圖書時(shí)長(zhǎng)和圖書檢索結(jié)果關(guān)系大,不能說明圖書本身熱度,故加入Beginning 指標(biāo)會(huì)干擾圖書熱度值計(jì)算結(jié)果;②館藏借閱數(shù)據(jù)中,90%圖書的借閱時(shí)長(zhǎng)指標(biāo)都是90 天。因?yàn)閳D書館給予讀者的最長(zhǎng)借閱時(shí)長(zhǎng)是90 天,大部分讀者都是一次借多本圖書,等收到圖書館催還短信后才還,專業(yè)圖書體現(xiàn)更為明顯,導(dǎo)致Monetary 這個(gè)指標(biāo)數(shù)據(jù)差異不大,不適合作為圖書熱度指標(biāo)。

        基于上述問題,本文提出AHP-BP 圖書熱度計(jì)算模型,保留了Frequency 和Recency 指標(biāo),加入書齡指標(biāo)。3 個(gè)指標(biāo)計(jì)算方法如下:

        (1)圖書書齡A(Age)。在館藏圖書中,不同年份出版的圖書中,新書顯然更受讀者歡迎。在借閱熱度計(jì)算模型中加入書齡指標(biāo),也有助于提升新書熱度值。書齡表示圖書的老舊程度,可通過圖書的出版時(shí)間計(jì)算獲取,書齡越大,圖書老舊程度越高,則圖書熱度越低。

        (2)觀測(cè)時(shí)間內(nèi)的圖書借閱次數(shù)F(Frequency)。圖書借閱次數(shù),是圖書熱度的核心指標(biāo),借閱次數(shù)越多,表示圖書越受歡迎,圖書熱度越高。考慮到部分舊書雖然借閱次數(shù)多,但近幾年借閱次數(shù)較少或?yàn)?,說明這部分圖書借閱熱度趨勢(shì)降低,熱度值也減少,故不能用圖書總的借閱次數(shù)作為指標(biāo),改成選擇近期的圖書借閱次數(shù)。本文選擇觀測(cè)時(shí)間為2017-2022 年即近5 年的圖書借閱次數(shù)作為熱度指標(biāo)。

        (3)最近圖書借閱間隔R(Recency)。最近圖書借閱間隔表示讀者最后一次借閱行為發(fā)生的年份距離分析時(shí)間點(diǎn)(本文選擇2022 年)的間隔,最近借閱時(shí)間間隔越短,說明圖書近期還有關(guān)注度,相應(yīng)的熱度值也越高。

        2.2 圖書熱度指標(biāo)權(quán)重分析

        圖書熱度的3 個(gè)指標(biāo)對(duì)圖書熱度的影響程度,可以通過設(shè)置不同指標(biāo)權(quán)重表示。權(quán)重計(jì)算方法采用AHP 層次分析法。AHP 是對(duì)定性問題進(jìn)行定量分析的一種簡(jiǎn)便、靈活而又實(shí)用的多準(zhǔn)則決策方法。該方法的主要思想是將復(fù)雜問題分解成若干層次和若干因素,對(duì)兩兩指標(biāo)之間的重要程序進(jìn)行比較判斷,建立判斷矩陣,再計(jì)算判斷矩陣最大特征值及對(duì)應(yīng)特征向量,可得出不同方案的重要性程序的權(quán)重。

        2.2.1 圖書熱度指標(biāo)權(quán)重計(jì)算

        圖書熱度指標(biāo)權(quán)重計(jì)算過程如下:

        (1)構(gòu)造判斷矩陣。判斷矩陣是對(duì)所有指標(biāo)因素兩兩比較,采用相對(duì)尺度,盡可能減少不同因素相互比較的困難,提高準(zhǔn)確性,值采用1-9標(biāo)度。

        Table 1 Judgment matrix scale definition表1 判斷矩陣標(biāo)度定義

        通過對(duì)館藏借閱數(shù)據(jù)預(yù)處理后獲得圖書熱度3 個(gè)指標(biāo)數(shù)值,經(jīng)過對(duì)比不同指標(biāo)之間對(duì)圖書熱度決策的影響程度,最終構(gòu)建判斷矩陣如圖1 所示。其中,借閱次數(shù)因素比書齡因素極端重要,比最近借閱間隔因素明顯重要,最近借閱間隔因素比書齡稍微重要。

        Fig.1 Book popularity judgment matrix圖1 圖書熱度判斷矩陣

        (2)指標(biāo)權(quán)重計(jì)算。每個(gè)因素的權(quán)重計(jì)算步驟為:①先將矩陣的每列進(jìn)行歸一化為[0,1]的數(shù)值;②將標(biāo)準(zhǔn)化后的各元素按行求平均值。算出權(quán)重為:A 指標(biāo)權(quán)重為0.071,F(xiàn)為0.748,R 為0.18。

        (3)判斷矩陣一致性檢驗(yàn)。判斷矩陣是否符合邏輯,需要計(jì)算一致性指標(biāo)CI,CI越接近0,則矩陣越一致,符合邏輯。CI越大,判斷矩陣不一致性越嚴(yán)重,越不符合邏輯。CI計(jì)算方法如式(1)所示。

        其中,λmax為判斷矩陣最大特征值,n為判斷矩陣的階數(shù),本文有3 個(gè)指標(biāo)因素,故n為3。λmax的計(jì)算方法如式(2)所示,其中A為判斷矩陣,W為權(quán)重矩陣。

        為了衡量CI的大小,引入隨機(jī)一致性指標(biāo)RI。RI是隨機(jī)模擬1 000 次取得,數(shù)值如表2 所示。本模型的判斷矩陣階數(shù)為3,則RI值為0.58。

        Table 2 The value of the random consistency indicator RI表2 隨機(jī)一致性指標(biāo)RI的數(shù)值

        一致性比例CR計(jì)算如式(3)所示。其中CI為式(1)計(jì)算所得。當(dāng)CR<0.1 時(shí),則判斷矩陣的不一致程度在容許范圍之內(nèi),一致性檢驗(yàn)通過。表2 的判斷矩陣通過式(3)計(jì)算的不一致性比例CR值為0.028,小于0.1,故表2 所示的判斷矩陣通過一致性檢驗(yàn)。

        2.2.2 圖書熱度值計(jì)算模型

        綜上所述,基于AHP 模型構(gòu)建圖書熱度值A(chǔ)HP-BP(Book Popularity)為書齡A、借閱次數(shù)F、最近時(shí)間間隔R等 3 個(gè)指標(biāo)的加權(quán)值。其中:A=2022-出版時(shí)間;F=近5 年借閱總次數(shù);R=2022-最后一次借閱年份。

        A 和R 指標(biāo)越大,則AHP-BP 值越低,故A、R 和AHPBP 都是負(fù)相關(guān)。F 越大,則AHP-BP 值越大,故F 和AHPBP 是正相關(guān)。此外,由于3 個(gè)指標(biāo)數(shù)據(jù)分布不一致,數(shù)據(jù)差異大,故需要先對(duì)數(shù)據(jù)進(jìn)行歸一化處理。如式(4)所示,使3 個(gè)指標(biāo)的數(shù)據(jù)都分布在[0,1]內(nèi)。其中,X 為原始數(shù)據(jù),Xmin和Xmax為元數(shù)據(jù)的最小值和最大值。經(jīng)過式(4)作歸一化計(jì)算后,A、F、R 轉(zhuǎn)為A1、F1、R1,代入式(5)加權(quán)計(jì)算后得到圖書熱度值A(chǔ)HP-BP 如下:

        3 基于 中圖分類號(hào)相似的圖書推薦算法設(shè)計(jì)

        3.1 計(jì)算方法

        中文圖書包含的中圖分類號(hào)(中國(guó)圖書館分類法號(hào)碼)屬性,指采用《中國(guó)圖書館分類法》對(duì)科技文獻(xiàn)進(jìn)行主題分析,并依照文獻(xiàn)內(nèi)容的學(xué)科屬性和特征,分門別類地組織文獻(xiàn),所獲取的分類代號(hào)。若兩本圖書的中文圖分類號(hào)一樣,則表示圖書屬于同一學(xué)科類別,可判斷為學(xué)科主題相似。如《明朝那些事兒》和《世間再無張居正》兩本圖書的中圖分類號(hào)均為“K248.09”,雖然書名不相似,但是中圖分類號(hào)表示的學(xué)科主題“歷史、地理,中國(guó)史,明”是一樣,即主題相似。主題相似結(jié)果用于推薦算法,雖然推薦精準(zhǔn)率降低,但推薦主題的準(zhǔn)確率得以提升。主題相似條件下,推薦內(nèi)容可以更多樣,用戶可以有更多選擇。

        故圖書相似的計(jì)算方法為:2 本書的中圖分類號(hào)一致,則相似度值為1,否則為0。如式(6)所示。

        基于中圖分類號(hào)相似的圖書推薦方法為:先基于AHP-BP 模型計(jì)算館藏圖書熱度值,再讀取讀者的借閱列表,推薦與借閱圖書的學(xué)科主題相似的Top-N 熱度圖書?;谥袌D分類號(hào)相似的圖書個(gè)性化推薦算法模型如圖2所示。為了解決冷啟動(dòng)問題,本文將推薦結(jié)果分為3 類:熱門圖書推薦單、熱門新書推薦單、專業(yè)圖書推薦單。

        Fig.2 Personalized recommendation model for popular books圖2 熱門圖書個(gè)性化推薦模型

        (1)熱門圖書推薦單。熱門圖書推薦單的做法是先對(duì)館藏借閱數(shù)據(jù)按照中圖分類號(hào)分類,每個(gè)分類按照?qǐng)D書借閱熱度排序,生成館藏Top-N 熱門圖書表;再提取讀者近期的10條借閱記錄所對(duì)應(yīng)的中圖分類號(hào),在館藏Top-N 熱門圖書表中查找對(duì)應(yīng)記錄,按照分類號(hào)依次提取一定數(shù)量的圖書生成熱門圖書推薦單。這種方法不僅實(shí)現(xiàn)學(xué)科主題相似的圖書推薦,也保證了推薦的圖書質(zhì)量。

        (2)熱門新書推薦單。協(xié)同過濾算法存在新物品冷啟動(dòng)問題,既新書由于借閱數(shù)據(jù)少,導(dǎo)致借閱熱度低,無法進(jìn)入Top-N 圖書推薦列表中。而新書一般是圖書館重點(diǎn)推薦的圖書,故本文將館藏的新書單獨(dú)作為一個(gè)分類推薦,即熱門新書推薦單。推薦做法為:首先對(duì)館藏新書(出版年為當(dāng)前年份的圖書)基于中圖分類號(hào)分類,每個(gè)分類按照新書借閱熱度做排序,生成館藏Top-N 熱門新書表;再讀取讀者借閱記錄,進(jìn)行中圖分類號(hào)相似熱門新書的推薦和借閱。

        (3)專業(yè)圖書推薦單。高校師生是圖書館主要讀者對(duì)象,而師生的主要任務(wù)是教授課程和學(xué)習(xí)課程。如何精準(zhǔn)向師生推薦專業(yè)圖書是高校圖書館學(xué)科服務(wù)的主要任務(wù)。通過提取讀者專業(yè)信息,獲取學(xué)科專業(yè)對(duì)應(yīng)的中圖分類號(hào),再?gòu)酿^藏?zé)衢T圖書表中查找對(duì)應(yīng)學(xué)科分類的Top-N 圖書做為專業(yè)圖書推薦單。通過讀者專業(yè)信息推薦學(xué)科圖書,也可以解決協(xié)同過濾算法的用戶冷啟動(dòng)問題,即新用戶如新生,沒有借閱記錄,則可以向用戶主動(dòng)推薦其所學(xué)的專業(yè)圖書,有助于用戶及時(shí)獲取熱門專業(yè)圖書信息。

        3.2 算法設(shè)計(jì)步驟

        推薦算法設(shè)計(jì)步驟為:

        輸入:讀者借閱數(shù)據(jù):ReaderList={B1,B2,B3,B4,...Bm}

        輸出:熱門圖書推薦單HotBookRecommendList、熱門新書推薦單NewBookRecommendList、專業(yè)圖書推薦單Professional-BookRecommendList

        (1)基于APH_BP 模型計(jì)算館藏圖書的借閱熱度值。對(duì)每一條借閱數(shù)據(jù),統(tǒng)計(jì)書目的借閱次數(shù)、最后一次借閱年份,基于式(5)計(jì)算圖書的借閱熱度值,存入圖書借閱熱度表。

        (2)對(duì)步驟(1)生成的圖書借閱熱度表按照中圖分類號(hào)進(jìn)行分組排序,提取前N 條的圖書id 生成圖書熱度Top-N 圖書和新書列表。以中圖分類號(hào)為關(guān)鍵字,構(gòu)建Top-N熱門圖書字典TopBookDict 及Top-N 熱門新書(新書為當(dāng)年發(fā)行時(shí)間的圖書)字典TopNewBookDict。通過字典,可快速獲取每個(gè)中圖分類號(hào)所對(duì)應(yīng)的熱門圖書列表。

        TopBookDict[中文圖分類號(hào)]=[BookID1,BookID2,...BookID10]

        TopNewBookDict[中文圖分類號(hào)]=[BookID1,BookID2,...BookID10]

        (3)讀取讀者的借閱數(shù)據(jù)列表ReaderList,若借閱記錄為空,則讀取讀者專業(yè)信息,生成專業(yè)信息對(duì)應(yīng)的中圖分類號(hào)。若借閱記錄不空,則讀取最近的10 條借閱記錄,查找每條借閱記錄所對(duì)應(yīng)的中圖分類號(hào)。

        (4)基于Top-N 圖書字典生成圖書推薦單Hot-BookRecommendList、Top-N 新書字典生成熱門新書推薦單NewBookRecommendList、Top-N 圖書字典生成專業(yè)圖書推薦單ProfessionalBookRecommendList。

        推薦流程如圖3所示。

        Fig.3 Recommendation flow圖3 推薦流程

        4 實(shí)驗(yàn)與結(jié)果分析

        4.1 數(shù)據(jù)集

        本實(shí)驗(yàn)數(shù)據(jù)源為某圖書館2018—2022 年的圖書借閱記錄,借閱記錄共425 615 條,借閱圖書種數(shù)203 613 種,用于圖書熱度評(píng)價(jià)AHP-BP 模型構(gòu)建。推薦算法選擇讀者2個(gè)月借閱記錄作為實(shí)驗(yàn)數(shù)據(jù),前一個(gè)月的數(shù)據(jù)作為歷史借閱數(shù)據(jù)即訓(xùn)練數(shù)據(jù)集,后一個(gè)月數(shù)據(jù)作為算法性能指標(biāo)的驗(yàn)證數(shù)據(jù)即測(cè)試數(shù)據(jù)集。

        4.2 借閱模型評(píng)價(jià)結(jié)果

        通過AHP 層次分析法構(gòu)建的AHP-BP 模型可以判斷觀測(cè)周期內(nèi)圖書的熱門程度,從而為圖書檢索、Top-N 圖書推薦提供數(shù)據(jù)支持。為了檢測(cè)模型有效性,將AHP-BP模型計(jì)算的中圖分類號(hào)為“TP3”的Top10 熱門圖書和借閱次數(shù)最多的Top10熱門圖書進(jìn)行對(duì)比。

        如表3 所示,AHP-BP 模型計(jì)算的借閱熱度前10 圖書和借閱次數(shù)前10 圖書重合率達(dá)到70%。借閱次數(shù)是反映圖書是否熱門的重要指標(biāo),但是單靠借閱次數(shù),并不能很好地反映圖書的熱門程度。AHP-BP 模型計(jì)算的圖書熱度在借閱次數(shù)差距不大的情況下,還考慮了書齡、最近借閱間隔時(shí)間兩個(gè)指標(biāo)。故同等借閱次數(shù)下,對(duì)于書齡越小或最后一次借閱時(shí)間越近的圖書,表明越受讀者歡迎,圖書熱度越高。因此,表3中《Python實(shí)戰(zhàn)編程》《Arduino程序設(shè)計(jì)與實(shí)踐》《深度學(xué)習(xí)框架PyTorch 入門與實(shí)踐》等書在借閱次數(shù)差距不大的情況下,綜合了書齡、最后一次借閱間隔指標(biāo),圖書熱度更高。由此可知,AHP-BP 模型不僅能夠量化評(píng)價(jià)圖書的熱門程度,而且評(píng)價(jià)結(jié)果更有效、合理。

        Table 3 Top 10 book ranking comparison表3 Top10圖書排名對(duì)比

        4.3 推薦算法評(píng)價(jià)指標(biāo)

        (1)查準(zhǔn)率。查準(zhǔn)率表示正確推薦給用戶的項(xiàng)目占推薦總數(shù)的比例。協(xié)同過濾算法生成的Top-N 推薦物品中,若出現(xiàn)在用戶的測(cè)試數(shù)據(jù)集中,則生成一個(gè)正確推薦。準(zhǔn)確率越高,表示推薦性能越好。查準(zhǔn)率如式(7)所示,N表示用戶總數(shù),Ru表示用戶u的圖書推薦列表,Bu表示用戶u真實(shí)借閱的圖書集合。

        (2)多樣性。多樣性一般被定義為相似性的反面[14]。圖書推薦系統(tǒng)中,讀者希望推薦的圖書是主題相似,但主題內(nèi)的圖書差異大,以避免同質(zhì)化推薦,且更好地了解不同內(nèi)容的圖書。因此,推薦圖書列表中的圖書越不相似,多樣性的推薦能力越強(qiáng),讀者的選擇越豐富。

        圖書多樣性的度量可以通過計(jì)算推薦圖書列表的內(nèi)部相似性表示[15]。相似度計(jì)算方法不一致,導(dǎo)致數(shù)據(jù)不平衡,故本文采用標(biāo)準(zhǔn)偏差值度量推薦列表的內(nèi)部相似性。式(8)中的σ 為相似度標(biāo)準(zhǔn)差,xi為某本圖書和其推薦圖書的相似度,μ為推薦列表中所有圖書相似度的均值,N為推薦圖書列表數(shù)量。標(biāo)準(zhǔn)差可以很好地衡量數(shù)據(jù)與均值的偏離程度,標(biāo)準(zhǔn)差越大,說明樣本之間的差異越大,多樣性推薦能力也越強(qiáng)。

        (3)新穎度?,F(xiàn)有推薦算法評(píng)價(jià)指標(biāo)都基于用戶的歷史借閱行為相似推薦,造成推薦結(jié)果的冗余和同質(zhì)化問題,使用戶難以接觸到新鮮、多樣的內(nèi)容,導(dǎo)致用戶對(duì)推薦結(jié)果不滿意。新穎度評(píng)價(jià)方式中,基于冷啟動(dòng)的新穎性分析方法[16]是計(jì)算推薦列表中冷啟動(dòng)項(xiàng)目數(shù)量num 占推薦列表項(xiàng)目總數(shù)R 的比例,能有效評(píng)價(jià)推薦商品的新穎度。本實(shí)驗(yàn)選擇新書作為冷啟動(dòng)項(xiàng)目,新穎度即推薦新書數(shù)量占推薦列表項(xiàng)目總數(shù)的比例,如式(9)所示。

        4.4 結(jié)果分析

        為了對(duì)本文算法(CLCS-CF)(Chinese Library Classification Similarity-Collaborative Filtering)的性能指標(biāo)進(jìn)行評(píng)估,對(duì)比分析其他協(xié)同過濾算法,具體包括:①Item-CF:基于項(xiàng)目的協(xié)同過濾算法,利用評(píng)分矩陣計(jì)算物品相似度預(yù)測(cè)評(píng)分,本實(shí)驗(yàn)沒有評(píng)分?jǐn)?shù)據(jù),改成與讀者借閱圖書的書名相似且圖書熱度前10 的項(xiàng)目推薦;②PW-IBCF[17]:改進(jìn)相似度計(jì)算方法,設(shè)置流行度閾值,對(duì)大于閾值的流行項(xiàng)目設(shè)計(jì)懲罰權(quán)重,降低對(duì)相似度的貢獻(xiàn),提高推薦多樣性和新穎度,該算法沒有對(duì)項(xiàng)目聚類;③IACSO-CF[18]:從項(xiàng)目屬性特征相似性分析出發(fā),利用K-Means 聚類算法對(duì)項(xiàng)目進(jìn)行聚類,再進(jìn)行圖書所屬類相似度前10的項(xiàng)目推薦。

        上述3 個(gè)算法中,圖書相似度是基于Doc2Vec(Document to Vector)[19]模型計(jì)算書名相似度。Doc2Vec 算法是將文本轉(zhuǎn)成向量的深度學(xué)習(xí)算法,繼承了word2vec 模型的優(yōu)點(diǎn),考慮上下文單詞順序關(guān)系,能從語(yǔ)義上表示語(yǔ)句相似度。圖書的書名作為語(yǔ)句,館藏所有圖書書名作為語(yǔ)料庫(kù),將其裝入Doc2Vec 模型訓(xùn)練。通過訓(xùn)練后的Doc2Vec模型能夠方便獲取與圖書書名相似的Top-N 圖書。

        4.4.1 查準(zhǔn)率比較

        查準(zhǔn)率比較結(jié)果如圖4 所示,隨著推薦列表長(zhǎng)度增加,各算法查準(zhǔn)率都有所上升。但是,本文提出的CLCSCF 算法的查準(zhǔn)率低于PW-IBCF、IACSO-CF,主要原因在于CLCS-CF 是基于中圖分類號(hào)即學(xué)科主題相似推薦,故推薦圖書與實(shí)驗(yàn)數(shù)據(jù)是學(xué)科主題相似,但是書名相似度沒有其他3 個(gè)算法準(zhǔn)確。IACSO-CF 中引入K-Means 聚類算法并優(yōu)化相似度計(jì)算方法,圖書相似度準(zhǔn)確率更高。

        Fig.4 Comparison of the accuracy of different algorithms圖4 不同算法查準(zhǔn)率比較

        4.4.2 多樣性比較

        多樣性比較結(jié)果如圖5 所示,CLCS-CF 是基于圖書主題相似,故推薦列表中圖書的相似度差距大,多樣性指標(biāo)明顯高于其他算法。推薦列表長(zhǎng)度為20,相比PW-BCF 模型,多樣性提升19%;相比IACSO-CF 模型,提升47%。由此可見,CLCS-CF 算法雖然查準(zhǔn)率低于其他算法,但是在推薦主題相似前提下,更側(cè)重于提高推薦多樣性指標(biāo)。

        Fig.5 Comparison of the diversity of different algorithms圖5 不同算法多樣性比較

        4.4.3 新穎度比較

        新穎度比較結(jié)果如圖6 所示,隨著推薦列表長(zhǎng)度增加,各算法新穎度都有所上升。CLCS-CF 算法的新穎度穩(wěn)定0.67 左右,相比PW-IBCF 算法,新穎度平均提升47%;相比IACSO-Cf 算法,新穎度平均提升65%。由此可見,CLCS-CF 算法引入新書推薦列表,可在一定程度上解決新物品冷啟動(dòng)問題,提升推薦新穎度,擴(kuò)大用戶選擇范圍。

        Fig.6 Comparison of the novelty of different algorithms圖6 不同算法新穎度比較

        5 結(jié)語(yǔ)

        高校圖書館由于評(píng)分?jǐn)?shù)據(jù)缺乏,基于用戶需求的主動(dòng)推薦應(yīng)用較少。當(dāng)前的圖書協(xié)同過濾推薦算法一般是基于用戶借閱列表相似或評(píng)分相似的推薦,存在推薦結(jié)果和歷史記錄同質(zhì)化嚴(yán)重、推薦多樣性及新穎度差等問題,而協(xié)同過濾算法自帶的冷啟動(dòng)問題也導(dǎo)致新書、新用戶無法有效推薦。

        針對(duì)評(píng)分?jǐn)?shù)據(jù)缺乏問題,本文加入圖書書齡、借閱次數(shù)及最近借閱時(shí)間指標(biāo),并應(yīng)用層次分析法分析各指標(biāo)權(quán)重后構(gòu)建AHP-BP 模型評(píng)價(jià)圖書熱度,有效評(píng)價(jià)圖書的熱門程度,為推薦算法提供評(píng)分指標(biāo)。針對(duì)協(xié)同過濾算法推薦同質(zhì)化及冷啟動(dòng)問題,本文將圖書的推薦結(jié)果分成館藏?zé)衢T圖書列表和館藏?zé)衢T新書列表。本文利用中圖分類號(hào)可精準(zhǔn)表示圖書學(xué)科主題特點(diǎn),改進(jìn)圖書相似度度量方式,以圖書的中圖分類號(hào)是否相似表示圖書間的相似度,再基于中圖分類號(hào)相似推薦圖書熱度Top-N 圖書和Top-N 新書。實(shí)驗(yàn)結(jié)果表明,基于中圖分類號(hào)相似的協(xié)同過濾推薦算法,能提升推薦類別準(zhǔn)確率和推薦內(nèi)容多樣性。同時(shí),熱門新書推薦列表可解決協(xié)同過濾算法的冷啟動(dòng)問題,有助于新書推廣。

        當(dāng)然,為了進(jìn)一步提高圖書推薦準(zhǔn)確率,圖書相似度還可以加入語(yǔ)義度量指標(biāo),但如何實(shí)現(xiàn)推薦結(jié)果準(zhǔn)確率和多樣性平衡,還需作進(jìn)一步研究。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        在线高清亚洲精品二区| 亚洲中文无码av在线| 日韩国产成人精品视频| 国产自产自现在线视频地址| 国产精品亚洲av高清二区| 99久久精品国产一区二区| 久久婷婷香蕉热狠狠综合| 亚洲h电影| 亚洲国产丝袜美女在线| 嗯啊好爽高潮了在线观看| 国产无遮挡又黄又爽在线观看| 国产一级大片免费看| 国产成人自拍小视频在线| 黄色影院不卡一区二区| 久久天天躁狠狠躁夜夜av| 杨幂AV污网站在线一区二区| 国产三级在线观看性色av| 日本一区二区视频在线| 国产精品女人呻吟在线观看| 日韩在线无| 日韩人妻系列在线视频| 国产草逼视频免费观看| 亚洲加勒比久久88色综合| 亚洲h视频| 国产av一区网址大全| 亚洲一区二区三区中文字幕网| 国产免费拔擦拔擦8x高清在线人| 亚洲无码专区无码| 亚洲中文字幕不卡一区二区三区| 国产亚洲视频在线播放| 中文成人无码精品久久久不卡| 欧美日韩一区二区三区色综合| 久久国产精品精品国产色| 欧洲女人与公拘交酡视频| 亚洲 欧美 激情 小说 另类| 亚洲最新中文字幕一区| 免费人成视频网站在在线| 久久国产劲暴∨内射| 亚洲欧美国产日产综合不卡| 国产黄色一区二区三区av| 又嫩又硬又黄又爽的视频|