胡 清
(青島市圖書館,山東 青島 266000)
個性化館藏資源推薦是指根據(jù)用戶的行為習(xí)慣、個性特點以及特定需求,通過語義匹配、協(xié)同過濾等技術(shù)自動將館藏資源推送給潛在讀者用戶的過程。個性化館藏資源推薦是圖書館傳統(tǒng)信息檢索發(fā)展演化的新形式,是圖書館從被動服務(wù)向主動服務(wù)轉(zhuǎn)型的標(biāo)志性技術(shù)之一。早在1999年,美國圖書館信息技術(shù)協(xié)會(LITA)的10位著名的數(shù)字圖書館專家就把個性化定制服務(wù)列為數(shù)字圖書館技術(shù)發(fā)展的七大趨勢之首。進入21世紀(jì),大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)等新一代信息技術(shù)蓬勃發(fā)展,用戶對信息的需求、傳遞、交流、獲取發(fā)生本質(zhì)變化,多元化、知識化、專業(yè)化、個性化成為信息需求新的主要特征。同時,資源過載、資源長尾現(xiàn)象、館藏資源利用率低等問題更加突出,傳統(tǒng)信息檢索已無法滿足用戶對信息獲取的迫切需求,這進一步加強了用戶對館藏資源個性化推薦的需求。根據(jù)郭婧婧等、李民等對個性化館藏資源推薦的必要性與滿意度調(diào)研結(jié)果顯示,從需求角度來看,71%的高校圖書館認(rèn)為開展個性化館藏資源推薦具有必要性,而公共圖書館需求更高,有91%的參調(diào)人員認(rèn)為個性化推薦具有必要性。從滿意度來看,有61%的高校圖書館參調(diào)人員與23%的公共圖書館參調(diào)人員認(rèn)為個性化館藏資源推薦未達到用戶預(yù)期(見表1)。
表1 個性化館藏資源推薦的必要性與滿意度分析
個性化館藏資源推薦自提出后便受到了廣泛的關(guān)注,學(xué)界圍繞個性化館藏資源推薦在圖書館應(yīng)用的理論、技術(shù)以及實踐等方面開展了豐富的研究,隨著深度學(xué)習(xí)、機器學(xué)習(xí)、自然語言處理以及圖理論等相關(guān)研究的深入,個性化館藏資源推薦算法逐漸突破了基于內(nèi)容、協(xié)同過濾等傳統(tǒng)的算法思路,引入了本體、環(huán)境捕捉、位置感知等技術(shù),大大提高了推薦的準(zhǔn)確度、多樣性、新鮮度等關(guān)鍵指標(biāo)。然而,目前絕大多數(shù)研究聚焦于較少區(qū)分高校圖書館與公共圖書館在推薦需求方面的差異,而在算法的設(shè)計與技術(shù)指標(biāo)的選擇上并未充分考慮公共圖書館與高校圖書館在數(shù)據(jù)特征、讀者特征方面的特殊性。
公共圖書館在數(shù)據(jù)基礎(chǔ)、推薦受眾、推薦內(nèi)容以及推薦需求等方面與高校圖書館存在一定程度的客觀差異,影響著推薦算法的選擇。一方面,相較于高校圖書館,公共圖書館的服務(wù)對象較廣泛,用戶數(shù)量龐大,但受限于圖書館數(shù)字化水平與數(shù)據(jù)收集策略,用戶建模的基礎(chǔ)數(shù)據(jù)較少,冷啟動和數(shù)據(jù)稀疏的問題更加突出;另一方面,公共圖書館與高校圖書館的社會功能定位不同,導(dǎo)致推薦的館藏結(jié)構(gòu)和內(nèi)容等存在較大差異,如在藏書結(jié)構(gòu)方面,公共圖書館注重館藏資源的普適性,而高校圖書館則注重專業(yè)數(shù)字資源建設(shè),在推薦算法的選擇上要依據(jù)數(shù)據(jù)差異進行有針對性的選擇。
為此,本研究在分析公共圖書館在數(shù)據(jù)基礎(chǔ)、推薦受眾、館藏結(jié)構(gòu)、推薦需求等方面特殊性的基礎(chǔ)上,對個性化館藏資源推薦技術(shù)在公共圖書館中的技術(shù)適用性進行分析討論。首先總結(jié)圖書館開展個性化資源推薦現(xiàn)狀研究,厘清主流的推薦技術(shù)以及其適用范圍與優(yōu)缺點;然后討論公共圖書館資源推薦需求,著重分析公共圖書館與高校圖書館在數(shù)據(jù)基礎(chǔ)、推薦受眾、推薦內(nèi)容以及推薦算法需求等方面的具體差異;最后分析個性化館藏資源推薦技術(shù)的技術(shù)適用性,提出技術(shù)選擇建議(見圖1)。
圖1 研究思路圖示
與傳統(tǒng)資源推薦相似,圖書館館藏資源推薦的研究主要集中在數(shù)據(jù)采集、館藏資源與用戶興趣特征提取、推薦算法設(shè)計3個方面,擬解決的問題主要有冷啟動、數(shù)據(jù)稀疏以及推薦結(jié)果相關(guān)性、權(quán)威度、新鮮度等關(guān)鍵指標(biāo)計算等方面,技術(shù)手段主要有基于內(nèi)容的推薦方法、協(xié)同過濾的推薦方法和混合推薦方法,具體研究進展如下。
基于內(nèi)容的推薦方法是指根據(jù)用戶查閱過的館藏資源,將其他相似的館藏資源推薦給讀者用戶,最早提出并應(yīng)用的基于規(guī)則的推薦算法便屬于該類算法的一種。此類方法主要借鑒圖書館信息檢索系統(tǒng)的理念,以讀者興趣與待推薦資源的相關(guān)性作為主要的推薦依據(jù)。例如,鄭祥云等提出一種基于主題模型的個性化圖書推薦算法,在主題模型LDA的基礎(chǔ)上進行適應(yīng)性改造,提出BR_LDA算法,依據(jù)讀者的歷史借閱記錄與待推薦資源的語義相似度來獲得推薦結(jié)果。高晟等提出一種基于關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)的高校圖書館個性化圖書推薦方法,綜合了學(xué)科、興趣、需求等特征遴選館藏資源。王剛提出一種融合用戶行為分析和興趣序列相似性的個性化推薦方法,融入時間特征、相關(guān)性以及興趣序列等特征,綜合多維度特征開展推薦工作。
基于協(xié)同過濾的推薦方法是從圖書館用戶的角度出發(fā),根據(jù)與該用戶相似用戶間興趣偏好來定義被推薦對象的用戶偏好。例如,程秀峰對傳統(tǒng)協(xié)同過濾的推薦算法進行改造,提出一種融入樸素貝葉斯算法與情景的協(xié)同推薦算法,使推薦準(zhǔn)確率有一定的提升。盛先鋒提出一種基于聚類優(yōu)化的數(shù)字圖書館協(xié)同過濾個性化推薦方法,在協(xié)同過濾前利用聚類算法初步數(shù)據(jù)填充與經(jīng)驗積累,在一定程度上緩解了數(shù)據(jù)稀疏的問題,提高了協(xié)同過濾的準(zhǔn)確性。田磊提出一種基于聚類優(yōu)化的協(xié)同過濾個性化圖書推薦方法,利用改進的K-means算法對用戶偏好進行提前分析,然后通過用戶借閱偏好性矩陣實現(xiàn)基于協(xié)同過濾的推薦?;趨f(xié)同過濾的推薦方法可以在一定程度上解決數(shù)據(jù)稀疏、冷啟動的問題。
混合推薦方法是一種組合式的推薦方法,旨在對待推薦文獻與用戶興趣的多維特征進行深度探析。該類方法能克服上述兩種推薦方法的弱點,同時綜合了效用、知識、動態(tài)特征、環(huán)境特征等維度開展資源推薦。例如,劉曉艷提出一種融合情境感知的移動圖書館個性化推薦技術(shù)方法,假設(shè)用戶所處的位置不同所需要的資源也不同,從而依據(jù)情境環(huán)境來預(yù)測讀者偏好信息。黃濤提出一種地方志資源的混合推薦模型,基于協(xié)同過濾技術(shù),改進TopN和關(guān)聯(lián)規(guī)則算法,解決了數(shù)據(jù)稀疏、內(nèi)容特征提取難度大、新用戶推薦冷啟動等問題。鐘克吟提出一種基于混合推薦的學(xué)術(shù)資源推薦系統(tǒng),可以從瀏覽行為、關(guān)聯(lián)數(shù)據(jù)、搜索習(xí)慣等多維度進行特征提取,采用基于內(nèi)容、規(guī)則的方法構(gòu)建用戶需求庫。
隨著各研究學(xué)者對技術(shù)的深耕,研究重點由理論研究轉(zhuǎn)向技術(shù)研究,特別是深度學(xué)習(xí)、機器學(xué)習(xí)、自然語言處理以及圖理論的進一步豐富,個性化館藏資源推薦算法逐漸突破了基于內(nèi)容、協(xié)同過濾等傳統(tǒng)的算法思路,引入了本體、環(huán)境捕捉、位置感知等技術(shù),大大提高了推薦的準(zhǔn)確度、多樣性、新鮮度等關(guān)鍵指標(biāo)。目前,常見個性化館藏資源推薦的主流技術(shù)的優(yōu)缺點如表2所示。但目前相關(guān)研究主要存在以下問題:1)絕大多數(shù)研究聚焦于未區(qū)分公共圖書館與高校圖書館的區(qū)別,在算法的設(shè)計與技術(shù)指標(biāo)的選擇上未充分考慮公共圖書館的在數(shù)據(jù)特征、讀者特征方面的特殊性。2)技術(shù)維度較單一,仍然局限于對單個技術(shù)的應(yīng)用,未考慮公共圖書館數(shù)據(jù)源復(fù)雜,系統(tǒng)異構(gòu)、數(shù)據(jù)交叉等基礎(chǔ)性問題,影響用戶興趣的建模與推薦質(zhì)量。
表2 常見個性化館藏資源推薦技術(shù)的優(yōu)缺點分析
公共圖書館與高校圖書館在功能定位上存在客觀差異,個性化館藏資源推薦技術(shù)的選擇需要根據(jù)各自的特點而有所不同。高校圖書館主要為在校大學(xué)生學(xué)習(xí)專業(yè)知識以及教師開展教學(xué)科研提供資源服務(wù),而公共圖書館主要為社會公眾提供免費服務(wù),承擔(dān)大眾服務(wù)、文化引導(dǎo)的責(zé)任,故二者在館藏資源、服務(wù)對象、服務(wù)目標(biāo)、功能定位以及推薦需求等方面存在一些差別。高校圖書館與公共圖書館的差別主要體現(xiàn)在以下方面。
圖書館收集的數(shù)據(jù)是用戶真實需求和興趣建模的基礎(chǔ),是后續(xù)算法設(shè)計的保障與依據(jù)。相較于高校圖書館,公共圖書館用戶數(shù)據(jù)量大,且更新相對頻繁,但用戶關(guān)鍵屬性數(shù)據(jù)較少,存在數(shù)據(jù)稀疏與冷啟動的問題。主要表現(xiàn)在以下方面:1)從用戶個體數(shù)據(jù)來看,高校圖書館憑借校園卡以及學(xué)號使用圖書館資源服務(wù),校園卡與學(xué)號通常會關(guān)聯(lián)較為豐富的個體關(guān)鍵屬性數(shù)據(jù),如學(xué)院、專業(yè)、性別、年齡、年級、發(fā)表論文等,為用戶興趣的建模提供了必要的數(shù)據(jù)源,能在一定程度上解決推薦冷啟動的問題,而公共圖書館較難掌握例如專業(yè)、論文發(fā)表等數(shù)據(jù)。2)從用戶規(guī)模上來看,高校圖書館服務(wù)對象為在校大學(xué)生以及教職員工,用戶數(shù)量較少且較為穩(wěn)定,用戶數(shù)據(jù)更新慢。而公共圖書館尤其是省市級公共圖書館面對的讀者數(shù)量眾多,部分大城市公共圖書館用戶量達到百萬級甚至千萬級,且用戶數(shù)據(jù)更新頻繁。3)從用戶參與度角度來看,高校圖書館是獲取學(xué)術(shù)資源的主要途徑,在校師生對其依賴性強,訪問比較頻繁,由于用戶參與較多,高校圖書館獲取用戶痕跡數(shù)據(jù)較容易。而用戶去公共圖書館借閱的頻次較少,參與程度較低,公共圖書館很難依靠訪問痕跡與瀏覽記錄真正了解、掌握和預(yù)測他們在閱讀方面的真實需求。
推薦受眾是推薦算法服務(wù)的主要對象,分析推薦受眾的分布特點、文化層次以及關(guān)注點有助于推薦算法參數(shù)、特征的選擇。高校圖書館主要為在校師生提供科研、教學(xué)的基礎(chǔ)資源服務(wù),而公共圖書館的服務(wù)對象比較廣泛,涉及各類職業(yè)、各種文化層次的讀者。在推薦受眾上,主要有兩點差異影響推薦算法的選擇。1)職業(yè)不同。推薦人群的職業(yè)不同,所關(guān)注的推薦點也不同。高校圖書館面向人群主要為在校大學(xué)生與教職員工,成分比較單一,專業(yè)較為具體,興趣需求易于掌握與分析。而公共圖書館面向人群更多樣,既有學(xué)術(shù)研究的需求,又存在愛好閱讀、休閑欣賞的需求,需求具多樣性、復(fù)雜性,較難捕捉與分析。2)知識層次不同。高校圖書館服務(wù)人群一般有教師、研究生、本科生等,而公共圖書館面向人群知識層次差異較大,關(guān)注點也不統(tǒng)一,對館藏文獻的需求也存在差別。
推薦資源內(nèi)容結(jié)構(gòu)直接決定其語義建模與特征提取方式。因公共圖書館與高校圖書館兩者在功能定位、服務(wù)受眾等方面存在客觀差異,故二者在館藏結(jié)構(gòu)與館藏內(nèi)容上也存在一些區(qū)別。公共圖書館藏資源更注重資源的普適性,以科普類、休閑娛樂類、專業(yè)文文獻為主,部分區(qū)域級公共圖書館在傳統(tǒng)資源建設(shè)的基礎(chǔ)上,館藏資源更強調(diào)本地特色,如典藏地方古籍文獻等;高校圖書館是學(xué)術(shù)性機構(gòu),主要為高校教學(xué)、學(xué)術(shù)研究提供服務(wù),在滿足在校大學(xué)生與教職員工公共閱讀需求的同時,更加強調(diào)館藏資源的專業(yè)性。因此,在待推薦文獻的語義提取、主題挖掘方面有不一樣的選擇。
一般來說,考核推薦系統(tǒng)的主要指標(biāo)有相關(guān)性、權(quán)威度、新穎度、啟發(fā)性、長尾資源挖掘能力、主題多樣性等。其中,相關(guān)性是主要的考核指標(biāo),一般指推薦資源與用戶興趣的直接匹配度,是考核推薦算法最基本的指標(biāo),公共圖書館與高校圖書館均對此要求較高。權(quán)威度是指推薦結(jié)果的知名度與影響力,高校圖書館以推薦文獻資源為主,且用戶較為專業(yè),故對推薦資源的權(quán)威度與啟發(fā)性要求較高。公共圖書館資源結(jié)構(gòu)以科普文獻、休閑娛樂文獻、專業(yè)文獻、地方特色文獻為主,普及性、普適性、區(qū)域特色性較強,且用戶層次較為廣泛,故在保證資源準(zhǔn)確性的基礎(chǔ)上,對推薦結(jié)果的權(quán)威度要較低,對新穎性、主題多樣性以及部分長尾資源挖掘能力要求較高(見表3)。
表3 公共圖書館與高校圖書館推薦算法要求指標(biāo)的差異
結(jié)合公共圖書館在數(shù)據(jù)基礎(chǔ)、推薦受眾、資源結(jié)構(gòu)等方面的特點,本研究從數(shù)據(jù)采集與預(yù)處理、特征提取、算法設(shè)計3個方面討論個性化館藏資源推薦技術(shù)的適用性。
源數(shù)據(jù)是讀者用戶興趣和需求建模的基礎(chǔ)。受限于數(shù)字化水平、服務(wù)機制、用戶參與度,公共圖書館存在不同程度的用戶數(shù)據(jù)單一、數(shù)據(jù)稀疏、數(shù)據(jù)零散、數(shù)據(jù)痕跡單薄等問題,導(dǎo)致冷啟動、長尾資源等現(xiàn)象較為普遍,但公共圖書館用戶規(guī)模數(shù)據(jù)大,存在數(shù)據(jù)的規(guī)模優(yōu)勢。
在數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理算法的選擇方面,公共圖書館應(yīng)注重對數(shù)據(jù)融合算法、聚類算法(預(yù)測算法)的應(yīng)用,解決冷啟動與數(shù)據(jù)稀疏的問題。主要有:1)數(shù)據(jù)融合。公共圖書館僅僅依賴于靜態(tài)資源只能開展一般性的推薦,如利用點擊量進行熱門數(shù)字資源的推薦;依靠訪問痕跡進行同類資源的推薦,導(dǎo)致在個性化、長尾資源挖掘、推薦結(jié)果新鮮度等方面表現(xiàn)較弱。因此,在資源推薦過程中,公共圖書館應(yīng)利用外部環(huán)境數(shù)據(jù),對用戶興趣進行預(yù)測,主要包括外部熱門數(shù)據(jù)、館外閱讀熱點、場景數(shù)據(jù)等,同時與其他單位如高校圖書館、學(xué)術(shù)資源數(shù)據(jù)庫等開放接口對接,主動分析讀者的需求與興趣的變化,并作為前置經(jīng)驗嵌入模型中。此外,還應(yīng)加強對質(zhì)量數(shù)據(jù)的挖掘,利用爬蟲程序爬取相關(guān)圖書的評論數(shù)據(jù),對館藏圖書資源進行評價,利用內(nèi)外部評論數(shù)據(jù)、訪問量數(shù)據(jù)對資源進行客觀評價,用于矯正推薦結(jié)果。2)聚類算法。對大城市公共圖書館來說用戶通常為百萬級甚至千萬級的,用戶量大,且用戶數(shù)據(jù)更新頻繁。公共圖書館應(yīng)加強K-means、基于密度的聚類方法、凝聚層次聚類等算法,對部分稀疏的數(shù)據(jù)進行必要字段的填充與預(yù)測,豐富建模的基礎(chǔ)數(shù)據(jù),避免空數(shù)據(jù)。
特征提取分為館藏資源的特征提取與讀者興趣的特征提取。公共圖書館個性化館藏資源推薦存在受眾廣、推薦內(nèi)容多樣、讀者層次差異大等問題。公共圖書館在館藏結(jié)構(gòu)方面更注重資源的普及性與普適性,在推薦結(jié)果方面更注重推薦主題多樣性,在算法的選擇上應(yīng)注重對文獻資源主題的提取,且注重多維度主題的挖掘。一是主題提取應(yīng)利用多維主題挖掘模型——LDA,該模型可深度挖掘文獻潛在的多個研究主題并計算出其中與用戶需求相近的主題,實現(xiàn)對用戶興趣的延展。二是質(zhì)量特征可利用內(nèi)網(wǎng)外網(wǎng)兩個來源的評論數(shù)據(jù)與情感傾向數(shù)據(jù),對館藏資源的質(zhì)量進行評級,推薦質(zhì)量高的館藏資源。
基于內(nèi)容的推薦方法依靠文獻資源與用戶興趣的語義相關(guān)性進行推薦,推薦結(jié)果具有較強的可解釋性,推薦結(jié)果比較直觀,不需要先驗知識,但存在冷啟動、數(shù)據(jù)稀疏的問題,對新用戶的推薦效果不太理想。采用熱門資源推薦可解決冷啟動問題,但其弊端是過于普適性和大眾化,缺乏個性化與針對性,無法達到理想的效果。同時,圖書館用戶和館藏資源通常具有多個屬性,對于復(fù)雜屬性的情況而言,基于內(nèi)容的推薦方法效果不佳。相較于基于內(nèi)容的推薦方法來看,基于協(xié)同過濾的推薦方法其推薦結(jié)果具有新鮮感,主題分散且多樣,不需要先驗知識來對算法進行提前干預(yù),較適用于館藏資源這樣的結(jié)構(gòu)化數(shù)據(jù),但該算法的推薦質(zhì)量過于依賴歷史數(shù)據(jù),推薦結(jié)果的質(zhì)量需要不斷依賴反饋修正才能達到預(yù)期效果?;旌贤扑]方法因集成了基于內(nèi)容與基于協(xié)同過濾兩種推薦方法的優(yōu)缺點,并融入了地理位置、上下文等情景因素,故該類算法能夠很好地克服其他推薦算法的缺點,但不足是通常需要較大的計算能力作支撐。同時,該方法因融合了多種特征與因素,推薦計算時間較長,推薦結(jié)果較難解釋。
基于對數(shù)據(jù)的采集與預(yù)處理,結(jié)合對館藏資源與用戶興趣的特征提取,綜合利用基于內(nèi)容的推薦方法、基于協(xié)同過濾的推薦方法、基于混合推薦方法的思想,采用加權(quán)的方式,整合相關(guān)性、多樣性、新鮮度、文獻質(zhì)量等特征,篩選出符合用戶需求的館藏資源。同時,根據(jù)用戶對推薦資源的點擊量、閱讀時長等指標(biāo)進行數(shù)據(jù)反饋,逐步調(diào)整各模型的權(quán)重,實現(xiàn)最優(yōu)的推薦結(jié)果。