摘? 要:通過(guò)構(gòu)建個(gè)性化圖書(shū)推薦系統(tǒng),圖書(shū)館可以為讀者提供更加準(zhǔn)確的圖書(shū)檢索推薦服務(wù),也可以通過(guò)對(duì)讀者借閱興趣的分析來(lái)提高圖書(shū)館的館藏借閱率,降低閑置圖書(shū)的管理成本。本文從圖書(shū)的特征值分析入手,研究了目前國(guó)內(nèi)通用的中圖分類(lèi)法圖書(shū)相似度算法,分析了兩種基于數(shù)據(jù)挖掘技術(shù)的圖書(shū)過(guò)濾推薦算法的優(yōu)缺點(diǎn),提出了一種基于協(xié)同和內(nèi)容混合過(guò)濾的圖書(shū)推薦算法。
關(guān)鍵詞:圖書(shū)推薦;過(guò)濾推薦算法;混合過(guò)濾
中圖分類(lèi)號(hào):TP311.13;TP391.3 ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)23-0020-03
Research and Application of Book Recommendation
Algorithm Based on Data Mining
WANG Hong
(Northeast Agriculture University Library,Harbin? 150030,China)
Abstract:By building personalized book recommendation system,library can provide most accurate book searching and recommendation for the users. By studying the book interest to the users,library can advance the rate of book circulation and cost reduction of idle books. In this paper,starting from the analysis of book eigenvalues,we study the book similarity algorithm of Chinese library classification,analyze the advantages and disadvantages of two kinds of book filtering and recommendation algorithms based on data mining technology,and propose a book recommendation algorithm based on collaborative and content mixed filtering.
Keywords:book recommendation;filtering recommendation algorithm;hybrid filtering
0? 引? 言
通過(guò)圖書(shū)館信息管理系統(tǒng)來(lái)提高讀者檢索和借閱圖書(shū)的效率是目前各圖書(shū)館提高服務(wù)質(zhì)量和客戶(hù)滿(mǎn)意度的有效手段。借閱者能夠在使用圖書(shū)管理系統(tǒng)時(shí)快速檢索到所需的書(shū)籍,有助于提高圖書(shū)借閱率,也能為圖書(shū)管理節(jié)省一些成本。在圖書(shū)館系統(tǒng)中對(duì)檢索結(jié)果的處理和顯示是提高檢索效率的關(guān)鍵技術(shù),這些檢索推薦算法也都是建立在圖書(shū)特征劃分體系基礎(chǔ)上的。目前圖書(shū)館圖書(shū)管理系統(tǒng)的圖書(shū)特征信息劃分采用的是中圖分類(lèi)法,圖書(shū)推薦算法基于聚類(lèi)分析技術(shù),分別從內(nèi)容和協(xié)同過(guò)濾兩個(gè)方面進(jìn)行計(jì)算和推薦。
1? 中圖法圖書(shū)相似度計(jì)算
圖書(shū)館現(xiàn)有的圖書(shū)信息管理系統(tǒng)會(huì)根據(jù)圖書(shū)的特征信息對(duì)圖書(shū)進(jìn)行劃分,具體包括圖書(shū)分類(lèi)號(hào)、題名、學(xué)科、作者、ISBN號(hào)、館藏時(shí)間等,這些能夠區(qū)分圖書(shū)類(lèi)別的信息稱(chēng)為圖書(shū)特征值。圖書(shū)信息管理系統(tǒng)就是根據(jù)特征值數(shù)據(jù)的結(jié)構(gòu)化存儲(chǔ)和管理來(lái)實(shí)現(xiàn)圖書(shū)檢索和借閱服務(wù)的。特征值中被用于圖書(shū)檢索和推薦服務(wù)的關(guān)鍵信息就是圖書(shū)分類(lèi)號(hào),目前國(guó)內(nèi)最為通用的圖書(shū)分類(lèi)號(hào)計(jì)算方式就是中國(guó)圖書(shū)館圖書(shū)分類(lèi)法(下文簡(jiǎn)稱(chēng)中圖法)。中圖法按照樹(shù)狀結(jié)構(gòu)劃分圖書(shū)類(lèi)別,從上至下按照由一般到具體的過(guò)程分為5大部類(lèi),22個(gè)基本大類(lèi)。中圖法計(jì)算生成的圖書(shū)分類(lèi)號(hào),不僅可以確保圖書(shū)分類(lèi)的準(zhǔn)確性,還能確保推送項(xiàng)目的真實(shí)性,對(duì)于圖書(shū)推薦算法的研究具有非常重要的參考價(jià)值。中圖法的分類(lèi)樹(shù)結(jié)構(gòu)如圖1所示。
從分類(lèi)樹(shù)的結(jié)構(gòu)可以看出,分類(lèi)樹(shù)的同級(jí)節(jié)點(diǎn)會(huì)隨著層級(jí)的下降逐漸失去關(guān)聯(lián)性,同一分支的節(jié)點(diǎn)則在延伸過(guò)程中逐步提高關(guān)聯(lián)性。由此可以得出結(jié)論,在分類(lèi)樹(shù)中統(tǒng)一分支的節(jié)點(diǎn),可以視為同學(xué)科類(lèi)型的特征值。
圖書(shū)推薦算法是一種典型的聚類(lèi)分析技術(shù),是按照數(shù)據(jù)對(duì)象集合的相似程度進(jìn)行分類(lèi)的非假設(shè)性算法。圖書(shū)推薦的核心問(wèn)題就是如何通過(guò)相似度的計(jì)算來(lái)劃分?jǐn)?shù)據(jù)集合。作為圖書(shū)分類(lèi)的主要特征值,中圖法分類(lèi)號(hào)的相似度計(jì)算對(duì)于提高圖書(shū)推薦算法的準(zhǔn)確性有非常重要的意義。中圖法圖書(shū)相似度是依據(jù)分類(lèi)樹(shù)的最近公共父節(jié)點(diǎn)深度進(jìn)行計(jì)算得出的,計(jì)算公式如下:
SIM(U,V)=DEPTH(LCA(U),LCA(V))/MAX-DEPTH
式中,U和V分別代表分類(lèi)樹(shù)的任意兩個(gè)節(jié)點(diǎn),SIM(U,V)用于計(jì)算分類(lèi)樹(shù)節(jié)點(diǎn)的相似度,LCA(U)用于計(jì)算與U節(jié)點(diǎn)最近的父節(jié)點(diǎn),DEPTH用于計(jì)算得出父節(jié)點(diǎn)深度,MAX_DEPTH是該分類(lèi)樹(shù)的深度最大值。DEPTH的計(jì)算過(guò)程使用了Tarjan算法和倍增法。
2? 基于內(nèi)容的圖書(shū)推薦算法
基于特征值計(jì)算和用戶(hù)檔案信息的圖書(shū)推薦算法是目前圖書(shū)推薦系統(tǒng)最為常見(jiàn)的內(nèi)容推薦算法?;趦?nèi)容的圖書(shū)推薦算法首先對(duì)館藏?cái)?shù)據(jù)和借閱數(shù)據(jù)進(jìn)行分析,得出用戶(hù)的檢索關(guān)鍵詞和圖書(shū)特征值,分別得出關(guān)鍵詞集合和特征值集合并建立圖書(shū)屬性數(shù)據(jù)庫(kù);然后利用圖書(shū)屬性數(shù)據(jù)庫(kù)進(jìn)行用戶(hù)借閱特征分析,得出用戶(hù)特征與圖書(shū)特征之間的關(guān)聯(lián)關(guān)系;最后使用余弦相似度算法來(lái)得出特征值關(guān)聯(lián)性較高的圖書(shū)推薦給讀者。計(jì)算過(guò)程中要根據(jù)推薦項(xiàng)目的數(shù)量適當(dāng)調(diào)整計(jì)算參數(shù),調(diào)節(jié)推薦書(shū)目的特征值范圍和用戶(hù)特征范圍。
圖書(shū)推薦算法的優(yōu)勢(shì)首先是無(wú)需考慮用戶(hù)的借閱記錄數(shù)據(jù),這對(duì)于借閱數(shù)據(jù)積累不足的館藏系統(tǒng)有較大幫助,可以避免因數(shù)據(jù)不足造成的推薦偏離現(xiàn)象;其次,對(duì)用戶(hù)檢索關(guān)鍵詞的計(jì)算可以最大限度獲取用戶(hù)閱讀興趣信息,提高推薦算法的準(zhǔn)確性,也能保證推薦項(xiàng)目集中在統(tǒng)一分支的區(qū)域內(nèi),保證關(guān)聯(lián)性;第三,圖書(shū)特征和用戶(hù)特征相關(guān)聯(lián)的推薦算法,可以將新增館藏加入推薦體系,解決了以往推薦算法無(wú)法為用戶(hù)推薦新增館藏的問(wèn)題?;趦?nèi)容的圖書(shū)推薦算法的局限性在于:用戶(hù)特征值的獲取如果不是在一個(gè)較長(zhǎng)周期內(nèi),會(huì)造成推薦圖書(shū)與用戶(hù)借閱偏好的一定偏離,新用戶(hù)的借閱推薦則更加沒(méi)有準(zhǔn)確性的保證。
3? 基于協(xié)同過(guò)濾的圖書(shū)推薦算法
協(xié)同過(guò)濾是一種互聯(lián)網(wǎng)領(lǐng)域炙手可熱的信息過(guò)濾和推薦算法,它利用具有共同經(jīng)驗(yàn)的群體喜好來(lái)給用戶(hù)推薦信息。協(xié)同過(guò)濾算法是以合作為基礎(chǔ),使用評(píng)分機(jī)制或群體過(guò)濾等方式來(lái)給予信息一定的評(píng)價(jià),記錄評(píng)價(jià)信息(最好的與最不好的)并篩選得出推薦結(jié)果。圖書(shū)推薦系統(tǒng)應(yīng)用協(xié)同過(guò)濾算法也比較適合,針對(duì)用戶(hù)的不同教育背景、身份以及職業(yè)都可以區(qū)分經(jīng)驗(yàn)群體,借閱過(guò)程給出的反饋信息也可以形成過(guò)濾的數(shù)據(jù)支持。協(xié)同過(guò)濾算法的推薦過(guò)程與用戶(hù)的群體和偏好有直接的聯(lián)系,選擇相似偏好的用戶(hù)組成用戶(hù)群體,根據(jù)用戶(hù)對(duì)館藏圖書(shū)的評(píng)價(jià)得分來(lái)進(jìn)行具有普遍性的偏好分析,得出該群體的推薦結(jié)果。
基于過(guò)濾協(xié)同的圖書(shū)推薦算法有兩個(gè)思路:一是可以基于用戶(hù)的借閱數(shù)據(jù)進(jìn)行相似度矩陣分析,得出群體興趣特征,劃分組別后進(jìn)行定向過(guò)濾推薦;另一種是基于建立項(xiàng)目相似度矩陣,將用戶(hù)感興趣或不感興趣的項(xiàng)目進(jìn)行組別劃分后進(jìn)行定向過(guò)濾推薦。
3.1? 基于用戶(hù)的協(xié)同過(guò)濾
基于用戶(hù)的協(xié)同過(guò)濾算法的核心內(nèi)容就是確定項(xiàng)目偏好度相似的臨近用戶(hù)組別,通過(guò)其他臨近用戶(hù)組別的項(xiàng)目推薦評(píng)分得出目標(biāo)用戶(hù)的項(xiàng)目興趣權(quán)重系數(shù),從而推斷出用戶(hù)感興趣但未曾評(píng)分的項(xiàng)目來(lái)進(jìn)行定向的圖書(shū)推薦。除了圖書(shū)推薦外,圖書(shū)館可以根據(jù)臨近興趣組別來(lái)為用戶(hù)推薦好友,為目標(biāo)用戶(hù)推薦偏好相似度較高的其他用戶(hù),并對(duì)結(jié)為書(shū)友的用戶(hù)進(jìn)行加權(quán)興趣組別計(jì)算,構(gòu)建更加準(zhǔn)確的圖書(shū)推薦系統(tǒng)應(yīng)用。
3.2? 基于項(xiàng)目的協(xié)同過(guò)濾
基于項(xiàng)目的協(xié)同過(guò)濾的核心內(nèi)容是以相似度為加權(quán)系數(shù),對(duì)已評(píng)價(jià)的項(xiàng)目進(jìn)行加權(quán)計(jì)算,得出未評(píng)價(jià)項(xiàng)目的預(yù)測(cè)評(píng)分。相比基于用戶(hù)的協(xié)同過(guò)濾算法,基于項(xiàng)目的協(xié)同過(guò)濾的項(xiàng)目關(guān)系相對(duì)穩(wěn)定,只要定期對(duì)相似度加權(quán)系數(shù)進(jìn)行更新就可以實(shí)現(xiàn)準(zhǔn)確的推薦,可以保證推薦系統(tǒng)的系統(tǒng)性能,這也是目前各領(lǐng)域商業(yè)網(wǎng)站采用較多的推薦算法。
對(duì)項(xiàng)目相似度的計(jì)算,基礎(chǔ)數(shù)據(jù)源是該項(xiàng)目的用戶(hù)群體,使用Jaccard相似度算法來(lái)進(jìn)行相似度計(jì)算,得出的相似度加權(quán)系數(shù)再作用于已評(píng)價(jià)項(xiàng)目的評(píng)分結(jié)果之上,得出目標(biāo)用戶(hù)群體的未推薦項(xiàng)目加權(quán)評(píng)分,將評(píng)分較低的項(xiàng)目去除后按照評(píng)分高低為用戶(hù)進(jìn)行定向圖書(shū)推薦。除了圖書(shū)推薦應(yīng)用外,基于項(xiàng)目的協(xié)同過(guò)濾算法也可以應(yīng)用于用戶(hù)圖書(shū)檢索的結(jié)果集生成,將相似度加權(quán)系數(shù)作為檢索條件排序的參考依據(jù)之一,可以有效提高用戶(hù)檢索結(jié)果的準(zhǔn)確性,提高用戶(hù)體驗(yàn)。
基于協(xié)同過(guò)濾的推薦算法的優(yōu)勢(shì)在于:首先,算法的數(shù)據(jù)源面向所有用戶(hù)群體和館藏項(xiàng)目,根據(jù)預(yù)先設(shè)定的計(jì)算程序就可以實(shí)現(xiàn)推薦項(xiàng)目的自動(dòng)更新,保證了推薦算法的準(zhǔn)確性;第二,用戶(hù)評(píng)分可以有效提高資源項(xiàng)目的相似度分析數(shù)據(jù)的采集準(zhǔn)確性,可以解決一些采集難度較大的多媒體資源無(wú)法進(jìn)行相似度計(jì)算的問(wèn)題;最后,臨近群體的興趣推薦可以為借閱傾向較為單一的用戶(hù)推薦接近的圖書(shū)項(xiàng)目,有助于用戶(hù)擴(kuò)寬閱讀范圍?;趨f(xié)同過(guò)濾的推薦算法的主要缺點(diǎn)就是對(duì)新項(xiàng)目的推薦更新較慢,當(dāng)數(shù)據(jù)源較為稀疏時(shí)會(huì)出現(xiàn)冷啟動(dòng)現(xiàn)象等。
4? 基于混合過(guò)濾的推薦系統(tǒng)
通過(guò)比較和分析基于協(xié)同過(guò)濾、基于內(nèi)容過(guò)濾的推薦算法的優(yōu)缺點(diǎn),為了進(jìn)一步提升推薦系統(tǒng)的用戶(hù)體驗(yàn),本文設(shè)計(jì)了一種基于混合過(guò)濾的推薦系統(tǒng),實(shí)現(xiàn)了兩種推薦算法的優(yōu)勢(shì)互補(bǔ)?;诨旌线^(guò)濾的推薦系統(tǒng)工作示意圖如圖2所示。
(1)從圖2可以看出,基于混合過(guò)濾的推薦系統(tǒng)首先采集用戶(hù)的借閱記錄信息,對(duì)于并未進(jìn)行過(guò)圖書(shū)借閱的用戶(hù)進(jìn)行非推薦算法處理,按照用戶(hù)注冊(cè)信息中的性別、年齡、教育背景、工作單位等信息進(jìn)行熱門(mén)圖書(shū)推薦。
(2)對(duì)于有借閱記錄的用戶(hù)群體,根據(jù)預(yù)先設(shè)定的借閱量閾值進(jìn)行區(qū)分計(jì)算,借閱量低于閾值的用戶(hù)采用基于內(nèi)容的推薦算法進(jìn)行推薦。推薦算法首先采集圖書(shū)中圖法分類(lèi)號(hào)信息,構(gòu)建圖書(shū)的屬性數(shù)據(jù)表得出中圖法分類(lèi)號(hào)集合;然后利用中圖法圖書(shū)相似度計(jì)算公式得出用戶(hù)閱讀特征值;最后使用余弦相似度算法對(duì)圖書(shū)特征值進(jìn)行加權(quán)排序得到推薦結(jié)果序列。
(3)借閱量高于閾值的用戶(hù)采用基于協(xié)同過(guò)濾的圖書(shū)推薦算法。該過(guò)程首先以用戶(hù)興趣群體和項(xiàng)目信息為源數(shù)據(jù),通過(guò)Jaccard算法計(jì)算得出項(xiàng)目相似度加權(quán)系數(shù);然后對(duì)臨近項(xiàng)目的相似度進(jìn)行加權(quán)計(jì)算,得到推薦集合推薦給用戶(hù)群體。
5? 結(jié)? 論
基于混合過(guò)濾的圖書(shū)推薦算法,整合了基于內(nèi)容和基于協(xié)同過(guò)濾兩種推薦算法的優(yōu)點(diǎn),對(duì)圖書(shū)推薦的場(chǎng)景進(jìn)行劃分并有針對(duì)性地利用中圖法、用戶(hù)閱讀特征值計(jì)算、余弦相似度算法、Jaccard算法等先進(jìn)算法進(jìn)行處理,有效提高了推薦算法的準(zhǔn)確性,提高了用戶(hù)借閱率。
參考文獻(xiàn):
[1] 高晟.基于關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)的高校圖書(shū)館個(gè)性化圖書(shū)推薦服務(wù) [J].情報(bào)探索,2019(8):87-94.
[2] 彭文惠.基于數(shù)據(jù)挖掘的自動(dòng)化推薦系統(tǒng)改進(jìn)ART算法探究 [J].現(xiàn)代信息科技,2019,3(8):44-46.
[3] 任杰.關(guān)聯(lián)規(guī)則應(yīng)用下的高校圖書(shū)館圖書(shū)推薦服務(wù) [J].辦公室業(yè)務(wù),2018(23):148.
作者簡(jiǎn)介:王紅(1969-),女,漢族,遼寧沈陽(yáng)人,副研究館員,碩士,研究方向:文獻(xiàn)信息服務(wù)。