摘 要:文章簡(jiǎn)述了用戶(hù)畫(huà)像概念及相關(guān)研究,分析了用戶(hù)畫(huà)像構(gòu)建過(guò)程,包括用戶(hù)畫(huà)像構(gòu)建步驟、標(biāo)簽分類(lèi)、標(biāo)簽維度等,以及混合推薦算法,在此基礎(chǔ)上提出了圖書(shū)館個(gè)性推薦服務(wù)系統(tǒng)架構(gòu),以期為圖書(shū)館開(kāi)展個(gè)性化推薦服務(wù)提供助力。
關(guān)鍵詞:用戶(hù)畫(huà)像;圖書(shū)館;個(gè)性推薦;服務(wù)體系
中圖分類(lèi)號(hào):G250 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-1588(2024)05-0079-04
當(dāng)前,公眾閱讀需求呈現(xiàn)明顯的差異化需求,圖書(shū)館只有對(duì)其進(jìn)行精準(zhǔn)分類(lèi),深入挖掘閱讀行為數(shù)據(jù),才能為其提供精準(zhǔn)的閱讀推薦服務(wù)。圖書(shū)館可利用人工智能、大數(shù)據(jù)等技術(shù)構(gòu)建圖書(shū)館個(gè)性推薦服務(wù)系統(tǒng),精準(zhǔn)勾勒用戶(hù)畫(huà)像,對(duì)用戶(hù)閱讀需求進(jìn)行精準(zhǔn)預(yù)測(cè),以增強(qiáng)其閱讀體驗(yàn)。
1 用戶(hù)畫(huà)像概念及相關(guān)研究
“用戶(hù)畫(huà)像”的概念最早由阿蘭·庫(kù)柏(Alan Cooper)于1998年提出,其將用戶(hù)畫(huà)像定義為基于用戶(hù)真實(shí)數(shù)據(jù)的虛擬代表[1]。用戶(hù)畫(huà)像可對(duì)用戶(hù)需求、用戶(hù)興趣、用戶(hù)特征進(jìn)行描述,并可對(duì)用戶(hù)的信息全貌進(jìn)行精準(zhǔn)勾勒,以便為其提供個(gè)性化服務(wù)。為用戶(hù)“打標(biāo)簽”是用戶(hù)畫(huà)像的核心內(nèi)容,標(biāo)簽通常有三大特征:一是動(dòng)態(tài)變化性,即隨著應(yīng)用情境的改變和時(shí)間的推移,用戶(hù)的興趣愛(ài)好會(huì)出現(xiàn)變化,需要隨時(shí)修正畫(huà)像模型。二是短文本性,即一個(gè)標(biāo)簽對(duì)應(yīng)一種含義。三是語(yǔ)義化,即讓用戶(hù)迅速理解標(biāo)簽含義。
在圖書(shū)館用戶(hù)畫(huà)像的相關(guān)研究中,汪強(qiáng)兵等收集了大量的用戶(hù)手勢(shì)行為數(shù)據(jù)信息,并通過(guò)關(guān)鍵詞對(duì)用戶(hù)的閱讀興趣進(jìn)行挖掘,以勾勒用戶(hù)興趣畫(huà)像[2];韓梅花等通過(guò)對(duì)抑郁情感指數(shù)計(jì)算描述用戶(hù)畫(huà)像,從而有針對(duì)性地為抑郁癥用戶(hù)推送閱讀治療資源[3];胡媛等依托用戶(hù)畫(huà)像構(gòu)建數(shù)字圖書(shū)館知識(shí)社區(qū)用戶(hù)模型,以提供多元化、精準(zhǔn)化、差異化的知識(shí)服務(wù)[4]。由此可見(jiàn),圖書(shū)館基于用戶(hù)畫(huà)像開(kāi)展個(gè)性推薦服務(wù)系統(tǒng)建設(shè),無(wú)論是技術(shù)層面還是理論層面均具備了較強(qiáng)的可操作性。
2 圖書(shū)館推薦服務(wù)系統(tǒng)構(gòu)建概述
圖書(shū)館的推薦服務(wù)系統(tǒng)通常包括兩種經(jīng)典算法,即協(xié)同過(guò)濾(CF)算法[5]和基于內(nèi)容(CB)算法[6]。CF算法的優(yōu)點(diǎn)是能夠?yàn)橛脩?hù)推薦其感興趣的Top-N物品或有相似興趣的其他用戶(hù)所喜愛(ài)的Top-N物品,并有效激發(fā)其潛在熱情;缺點(diǎn)是需冷啟動(dòng)、可解釋性不強(qiáng)等。CF算法可細(xì)分為基于物品的協(xié)同過(guò)濾(ItemCF)算法和基于用戶(hù)的協(xié)同過(guò)濾(UserCF)算法[7,8],其中ItemCF算法適用于用戶(hù)數(shù)遠(yuǎn)大于物品數(shù)的場(chǎng)景,如視頻網(wǎng)站、電子商務(wù)網(wǎng)站等;UserCF算法則適用于用戶(hù)數(shù)遠(yuǎn)小于物品數(shù)的場(chǎng)景,如圖書(shū)推薦、新聞網(wǎng)站等。CB算法是對(duì)物品特征進(jìn)行構(gòu)造,可自動(dòng)向用戶(hù)推薦與其喜歡物品特征類(lèi)似的物品,并利用自然語(yǔ)言處理技術(shù)對(duì)用戶(hù)感興趣的關(guān)鍵詞進(jìn)行深入挖掘,分別賦予不同的權(quán)重,逐漸形成用戶(hù)興趣空間向量模型,優(yōu)點(diǎn)是可妥善解決冷啟動(dòng)問(wèn)題,適用于向用戶(hù)推薦非結(jié)構(gòu)化的文本資源,如電子文獻(xiàn)數(shù)據(jù)庫(kù)、新聞報(bào)道等;缺點(diǎn)是工作量大、難以提取屬性特征等。
筆者綜合考慮各類(lèi)算法的優(yōu)缺點(diǎn)后,決定選取UserCF算法和CB算法構(gòu)建基于用戶(hù)畫(huà)像的圖書(shū)館個(gè)性推薦服務(wù)系統(tǒng)。
3 用戶(hù)畫(huà)像構(gòu)建過(guò)程
3.1 用戶(hù)畫(huà)像構(gòu)建步驟
圖書(shū)館提供個(gè)性化服務(wù)的前提是為用戶(hù)精準(zhǔn)畫(huà)像。用戶(hù)畫(huà)像包括用戶(hù)的環(huán)境屬性、社會(huì)屬性、行為屬性等,圖書(shū)館的用戶(hù)畫(huà)像構(gòu)建通常分為三個(gè)階段:第一階段是數(shù)據(jù)處理階段,第二階段是標(biāo)簽構(gòu)建階段,第三階段是形成畫(huà)像階段,詳見(jiàn)圖1。數(shù)據(jù)處理是圖書(shū)館對(duì)各類(lèi)與用戶(hù)相關(guān)的非結(jié)構(gòu)化數(shù)據(jù)(評(píng)論、留言等)、結(jié)構(gòu)化數(shù)據(jù)(用戶(hù)紙本圖書(shū)借閱、電子書(shū)下載、信息瀏覽等)進(jìn)行系統(tǒng)收集與管理,并將其導(dǎo)入用戶(hù)數(shù)據(jù)庫(kù);標(biāo)簽構(gòu)建是指圖書(shū)館深入挖掘用戶(hù)數(shù)據(jù)的技術(shù)性?xún)r(jià)值,并描述其特征,再依托關(guān)聯(lián)分析構(gòu)建對(duì)應(yīng)的標(biāo)簽信息;形成畫(huà)像是最后一步,圖書(shū)館進(jìn)行標(biāo)簽分類(lèi)后通過(guò)勾勒出的畫(huà)像直觀呈現(xiàn)用戶(hù)需求,并可在后期進(jìn)行動(dòng)態(tài)優(yōu)化調(diào)整,使用戶(hù)畫(huà)像更加精準(zhǔn)。
3.2 標(biāo)簽分類(lèi)
由于計(jì)算方式不同,圖書(shū)館用戶(hù)畫(huà)像中的標(biāo)簽可分為三類(lèi),即統(tǒng)計(jì)標(biāo)簽、屬性標(biāo)簽、算法標(biāo)簽。其中,統(tǒng)計(jì)標(biāo)簽是度量與維度的組合,如用戶(hù)的月均下載量、閱讀主要時(shí)間段、閱讀文獻(xiàn)類(lèi)型等;屬性標(biāo)簽是對(duì)實(shí)體基本性質(zhì)的勾畫(huà),包括用戶(hù)年齡、職業(yè)、性別、學(xué)歷等;算法標(biāo)簽則可間接獲得,如通過(guò)大數(shù)據(jù)技術(shù)挖掘用戶(hù)的閱讀偏好等。
3.3 標(biāo)簽維度
梁建春:基于用戶(hù)畫(huà)像的圖書(shū)館個(gè)性推薦服務(wù)系統(tǒng)建設(shè)*
圖書(shū)館用戶(hù)畫(huà)像的標(biāo)簽維度包括圖書(shū)標(biāo)簽維度和用戶(hù)標(biāo)簽維度。其中,圖書(shū)標(biāo)簽維度分為兩個(gè):一是圖書(shū)屬性標(biāo)簽,包括圖書(shū)的CN號(hào)、ISBN號(hào)、出版時(shí)間、版次、著者等。二是圖書(shū)類(lèi)型標(biāo)簽,與《中圖法》對(duì)應(yīng)。用戶(hù)標(biāo)簽維度細(xì)分為三個(gè):一是用戶(hù)屬性標(biāo)簽,包括用戶(hù)的姓名、年齡、性別、所在地等。二是用戶(hù)行為標(biāo)簽,包括用戶(hù)月均圖書(shū)借閱頻次、月均電子書(shū)下載頻次、月均紙本圖書(shū)借閱頻次,活躍度為三者數(shù)值的求和,求和值不小于10的判定為高活躍度,求和值在5~10之間的判定為中活躍度,求和值小于5的判定為低活躍度。三是用戶(hù)興趣標(biāo)簽,用于詳細(xì)描述用戶(hù)的閱讀偏好。
4 混合推薦算法
4.1 UserCF算法
4.1.1 特征構(gòu)造與K近鄰搜尋。中圖分類(lèi)號(hào)的分類(lèi)形式為樹(shù)狀結(jié)構(gòu),有22個(gè)大類(lèi),由上而下逐層擴(kuò)展,為避免因多個(gè)讀者借閱而出現(xiàn)的數(shù)據(jù)稀疏問(wèn)題,筆者以用戶(hù)行為標(biāo)簽所對(duì)應(yīng)的3個(gè)數(shù)值之和為興趣向量特征,在分類(lèi)層級(jí)方面選擇二級(jí),共計(jì)222個(gè)小類(lèi),假定用戶(hù)的興趣特征向量為U=(u1,u2,u3,u4,…,un),首先對(duì)其進(jìn)行歸一化處理,其次通過(guò)余弦相似公式
對(duì)不同用戶(hù)間的相似度進(jìn)行計(jì)算,以構(gòu)建不同用戶(hù)之間的相似度矩陣,從中找出與目標(biāo)用戶(hù)相似度最大的K個(gè)鄰居用戶(hù)集合,用Uk代表。
4.1.2 興趣度提取因子。UserCF算法需要結(jié)合有相似興趣的其他用戶(hù)對(duì)某物品的評(píng)分來(lái)預(yù)測(cè)用戶(hù)評(píng)分,評(píng)分高低與用戶(hù)興趣度呈正關(guān)聯(lián)。用戶(hù)—物品評(píng)分矩陣為R=U×I。由于絕大多數(shù)圖書(shū)館都未形成詳盡的圖書(shū)評(píng)分?jǐn)?shù)據(jù),因此本研究采用基于興趣度與類(lèi)型因子的高校圖書(shū)推薦算法,選擇續(xù)借次數(shù)、借閱持續(xù)時(shí)間為興趣度提取因子,為使評(píng)價(jià)更準(zhǔn)確,將豆瓣讀書(shū)評(píng)分、電子書(shū)下載頻次也納入興趣度提取因子之列,以全面獲取用戶(hù)對(duì)圖書(shū)的興趣度。
4.1.3 興趣度計(jì)算。興趣度計(jì)算若要精準(zhǔn)需要綜合考慮相關(guān)參數(shù),首先要考慮的參數(shù)是借閱時(shí)長(zhǎng),借閱時(shí)長(zhǎng)與用戶(hù)興趣度通常呈正比關(guān)系。用戶(hù)u對(duì)圖書(shū)i的借閱時(shí)長(zhǎng)百分比p如公式
所示,其中Ta(u,i)是歸還圖書(shū)的時(shí)間點(diǎn),Tb(u,i)是借閱圖書(shū)的時(shí)間點(diǎn),Tc是圖書(shū)館規(guī)定的超期有效期。將p值映射成5個(gè)興趣度值,興趣度公式如
所示。其次是電子書(shū)下載。為滿(mǎn)足用戶(hù)日益高漲的數(shù)字閱讀需求,圖書(shū)館會(huì)為用戶(hù)提供易于獲取的電子書(shū)。用戶(hù)試讀電子書(shū)產(chǎn)生強(qiáng)烈的閱讀興趣后會(huì)有下載行為,可將其興趣度分值設(shè)得相對(duì)高一些,如
所示。再次是豆瓣評(píng)分。無(wú)論是借閱時(shí)長(zhǎng)還是電子書(shū)下載,都存在或多或少的不確定性,因此為使UserCF算法更精準(zhǔn),本研究引入了豆瓣評(píng)分,豆瓣讀書(shū)內(nèi)用戶(hù)對(duì)圖書(shū)的評(píng)論及星級(jí)評(píng)分相對(duì)較客觀、公正,因此將圖書(shū)的豆瓣評(píng)分作為pref3(u,i),最終的用戶(hù)綜合平均興趣度值如公式
所示,同時(shí)基于UserCF算法對(duì)用戶(hù)閱讀興趣度進(jìn)行計(jì)算,如公式
所示。
4.2 冷啟動(dòng)問(wèn)題
冷啟動(dòng)包括用戶(hù)冷啟動(dòng)和物品冷啟動(dòng)。其中,用戶(hù)冷啟動(dòng)要解決的問(wèn)題是如何及時(shí)為新用戶(hù)推薦圖書(shū),物品冷啟動(dòng)要解決的問(wèn)題是如何在第一時(shí)間為用戶(hù)推薦新書(shū)。用戶(hù)冷啟動(dòng)可基于用戶(hù)的自然屬性對(duì)不同用戶(hù)間的相似度進(jìn)行計(jì)算,并向目標(biāo)用戶(hù)實(shí)時(shí)推薦相似度高的其他用戶(hù)所借閱的圖書(shū)。物品冷啟動(dòng)最直接的方式是隨機(jī)展示新書(shū),但隨機(jī)展示的新書(shū)很難與讀者的需求相契合,而CB算法可妥善解決這一問(wèn)題,具體操作步驟為:為新書(shū)構(gòu)造特征向量→提取用戶(hù)的興趣特征向量→計(jì)算新書(shū)特征向量與用戶(hù)的興趣特征向量的相似度,若相似度高,則可及時(shí)向目標(biāo)用戶(hù)推薦。
5 圖書(shū)館個(gè)性推薦服務(wù)系統(tǒng)的架構(gòu)設(shè)計(jì)
為防止數(shù)據(jù)量過(guò)大而出現(xiàn)性能瓶頸問(wèn)題,圖書(shū)館需謹(jǐn)慎選擇個(gè)性推薦服務(wù)系統(tǒng)的搭建環(huán)境。Hadoop分布式集群環(huán)境可對(duì)大規(guī)模數(shù)據(jù)進(jìn)行高性能、高可靠性處理,圖書(shū)館可將Hadoop分布式集群環(huán)境作為個(gè)性推薦服務(wù)系統(tǒng)的搭建環(huán)境,系統(tǒng)架構(gòu)詳見(jiàn)下頁(yè)圖2。
圖2顯示,圖書(shū)館的個(gè)性推薦服務(wù)系統(tǒng)由上而下分為表現(xiàn)層、邏輯層、處理層、數(shù)據(jù)層。數(shù)據(jù)層的數(shù)據(jù)包括用戶(hù)數(shù)據(jù)、豆瓣讀書(shū)評(píng)分?jǐn)?shù)據(jù)、電子書(shū)下載數(shù)據(jù)、圖書(shū)借閱數(shù)據(jù)等;處理層主要是構(gòu)建圖書(shū)畫(huà)像模型和用戶(hù)畫(huà)像模型,所有的圖書(shū)畫(huà)像數(shù)據(jù)和用戶(hù)畫(huà)像數(shù)據(jù)都存儲(chǔ)在HBase分布式數(shù)據(jù)庫(kù)中,且為動(dòng)態(tài)更新?tīng)顟B(tài),可將畫(huà)像模型的更新頻率設(shè)定為每日1次;邏輯層是圖書(shū)館個(gè)性推薦服務(wù)系統(tǒng)架構(gòu)的核心,兼具CB算法與UserCF算法的優(yōu)點(diǎn),形成多元化推薦引擎,可向不同的目標(biāo)用戶(hù)個(gè)性化推薦其所需的圖書(shū)資源;表現(xiàn)層通過(guò)調(diào)用邏輯層的應(yīng)用程序編程接口(API)為用戶(hù)提供可視化界面,分別向新老用戶(hù)展示推薦的圖書(shū)。
6 結(jié)語(yǔ)
綜上所述,用戶(hù)畫(huà)像是大數(shù)據(jù)時(shí)代的產(chǎn)物,已被廣泛應(yīng)用于廣告投放、精準(zhǔn)營(yíng)銷(xiāo)等領(lǐng)域,并取得了較好效果。本研究將用戶(hù)畫(huà)像應(yīng)用于圖書(shū)館個(gè)性推薦服務(wù)系統(tǒng)建設(shè),可精準(zhǔn)勾畫(huà)用戶(hù)的閱讀行為、閱讀傾向等,便于圖書(shū)館精準(zhǔn)掌握用戶(hù)的基本特征和閱讀需求,進(jìn)而為其提供個(gè)性化圖書(shū)推薦服務(wù),值得推廣和應(yīng)用。
參考文獻(xiàn):
[1] 郭亞軍,李帥,張?chǎng)蔚希?元宇宙賦能虛擬圖書(shū)館:理念、技術(shù)、場(chǎng)景與發(fā)展策略[J].圖書(shū)館建設(shè),2022(6):112-122.
[2] 汪強(qiáng)兵,章成志.融合內(nèi)容與用戶(hù)手勢(shì)行為的用戶(hù)畫(huà)像構(gòu)建系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017(2):80-86.
[3] 韓梅花,趙景秀.基于“用戶(hù)畫(huà)像”的閱讀療法模式研究:以抑郁癥為例[J].大學(xué)圖書(shū)館學(xué)報(bào),2017(6):105-110.
[4] 胡媛,毛寧.基于用戶(hù)畫(huà)像的數(shù)字圖書(shū)館知識(shí)社區(qū)用戶(hù)模型構(gòu)建[J].圖書(shū)館理論與實(shí)踐,2017(4):82-85.
[5] 董坤.基于協(xié)同過(guò)濾算法的高校圖書(shū)館圖書(shū)推薦系統(tǒng)研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2011(11):44-47.
[6] 耿立校,晉高杰,李亞函,等.基于改進(jìn)內(nèi)容過(guò)濾算法的高校圖書(shū)館文獻(xiàn)資源個(gè)性化推薦研究[J].圖書(shū)情報(bào)工作,2018(21):112-117.
[7] 蔣濱澤,鄧欣,杜雨露,等.基于物品關(guān)聯(lián)協(xié)同過(guò)濾的下一購(gòu)物籃推薦算法[J].計(jì)算機(jī)科學(xué),2023(S2):486-491.
[8] 汪圳,李建苗.基于用戶(hù)情境的高校圖書(shū)館書(shū)目協(xié)同過(guò)濾推薦研究[J].圖書(shū)館研究與工作,2021(1):63-68.