趙萌萌
摘 要:文章論述了用戶畫像的概念,介紹了用戶畫像視角下數(shù)字圖書館服務(wù)的相關(guān)內(nèi)容,探討了用戶畫像相關(guān)技術(shù)的具體應(yīng)用,即數(shù)據(jù)采集和標(biāo)簽提取技術(shù)、數(shù)據(jù)儲存技術(shù)、個(gè)性化推薦技術(shù)等,分析了數(shù)字圖書館服務(wù)體系建設(shè)的重點(diǎn),旨在提高圖書館各類資源的利用率,為用戶提供個(gè)性化的資源推薦服務(wù)。
關(guān)鍵詞:數(shù)字圖書館;服務(wù)體系;用戶畫像
中圖分類號:G250.76?? 文獻(xiàn)標(biāo)識碼:A?? 文章編號:1003-1588(2023)05-0094-03
1 用戶畫像
用戶畫像是指收集和分析目標(biāo)用戶的基礎(chǔ)信息、歷史行為、生活習(xí)慣等數(shù)據(jù),挖掘其中與用戶需求和偏好相關(guān)的信息內(nèi)容,再利用各類算法提取能夠體現(xiàn)用戶特征的核心指標(biāo),從而給目標(biāo)用戶貼上全維度的標(biāo)簽[1,2]。用戶畫像具有目標(biāo)性、獨(dú)特性、真實(shí)性和移情性等特征[3],是建立在一系列真實(shí)數(shù)據(jù)之上的目標(biāo)用戶模型。在產(chǎn)品設(shè)計(jì)、精準(zhǔn)營銷、教育、廣告等領(lǐng)域中使用用戶畫像技術(shù),能夠進(jìn)一步分析用戶需求,從而對市場進(jìn)行更細(xì)致的劃分。隨著數(shù)據(jù)挖掘技術(shù)、大數(shù)據(jù)技術(shù)的應(yīng)用,用戶畫像技術(shù)已經(jīng)實(shí)現(xiàn)了自動畫像,即基于定期更新的海量用戶數(shù)據(jù)自動進(jìn)行信息挖掘,分析勾勒用戶的行為偏好、場景、價(jià)值取向及背景等多維度特征,對用戶形象進(jìn)行全面精準(zhǔn)的刻畫,進(jìn)而有效預(yù)測用戶需求并提供與之相適應(yīng)的服務(wù)。相較于傳統(tǒng)討論小組、問卷調(diào)查等信息數(shù)據(jù)采集方式,自動用戶畫像的數(shù)據(jù)采集過程更加智能,收集的數(shù)據(jù)信息更加豐富,應(yīng)用前景更為廣闊。
2 用戶畫像視角下的數(shù)字圖書館服務(wù)
在數(shù)字圖書館服務(wù)中應(yīng)用用戶畫像技術(shù),是指搜集并分析用戶的基礎(chǔ)信息、閱讀偏好和借閱歷史等數(shù)據(jù),提取與用戶閱讀特點(diǎn)相關(guān)的核心指標(biāo),再利用聚類算法對用戶進(jìn)行分類,分析挖掘不同用戶群體的閱讀信息全貌與需求,進(jìn)而建設(shè)更高效的服務(wù)體系,全面滿足用戶的信息需求。將用戶畫像技術(shù)應(yīng)用于數(shù)字圖書館服務(wù)領(lǐng)域是互聯(lián)網(wǎng)技術(shù)發(fā)展的必然趨勢,其應(yīng)用具有三大特征:一是交互性。交互性是指在使用數(shù)字圖書館過程中,不同用戶的終端和圖書館系統(tǒng)之間產(chǎn)生了大量互動行為和數(shù)據(jù)信息,這些數(shù)據(jù)是分析用戶行為的前提和基礎(chǔ)。二是動態(tài)性。動態(tài)性是指用戶的各類操作處于持續(xù)變化中,其訪問偏好、閱讀興趣等標(biāo)簽信息也會隨之不斷調(diào)整與更新。三是跨時(shí)空性??鐣r(shí)空性體現(xiàn)在受諸多因素影響,用戶的閱讀偏好和興趣會存在短期遷移,從而使相同的書籍內(nèi)容在不同時(shí)間、空間上對用戶的吸引性存在差異,精準(zhǔn)化的用戶畫像能夠?qū)τ脩羝眠M(jìn)行及時(shí)跟蹤,并對畫像結(jié)果進(jìn)行反饋更新[4]。
3 用戶畫像相關(guān)技術(shù)
3.1 數(shù)據(jù)采集和標(biāo)簽提取技術(shù)
利用數(shù)據(jù)采集技術(shù)能夠全面準(zhǔn)確地采集用戶的數(shù)據(jù)信息,該技術(shù)是建立用戶畫像的基礎(chǔ),如日志挖掘技術(shù)、平臺數(shù)據(jù)庫采集技術(shù)、埋點(diǎn)監(jiān)控、網(wǎng)絡(luò)爬蟲技術(shù)等[5]。日志挖掘和平臺數(shù)據(jù)庫采集技術(shù)通常被用于采集用戶的社交數(shù)據(jù)和行為數(shù)據(jù)等。圖書館只有對采集到的數(shù)據(jù)做更深層次的分析挖掘,才能實(shí)現(xiàn)數(shù)據(jù)價(jià)值。Web日志與平臺數(shù)據(jù)庫詳細(xì)記錄了用戶的行為軌跡,而海量行為數(shù)據(jù)中蘊(yùn)含了相應(yīng)的規(guī)律,分析這些數(shù)據(jù)能夠了解用戶的深層次需求。與自動化數(shù)據(jù)采集相比,日志挖掘與平臺數(shù)據(jù)庫采集的成本偏高,但對于數(shù)字圖書館服務(wù)體系建設(shè)而言,系統(tǒng)日志與數(shù)據(jù)庫中的數(shù)據(jù)價(jià)值又極高,無法完全放棄。埋點(diǎn)監(jiān)控是利用SDK對系統(tǒng)頁面操作節(jié)點(diǎn)進(jìn)行搜集,埋點(diǎn)出現(xiàn)行為變化時(shí),系統(tǒng)便能夠自動傳輸數(shù)據(jù)。網(wǎng)絡(luò)爬蟲技術(shù)能夠自動收集用戶的基礎(chǔ)信息,有效降低了數(shù)據(jù)采集的成本[6]。標(biāo)簽提取是指提取源數(shù)據(jù)中的用戶特征和偏好并對其進(jìn)行格式化處理,進(jìn)而構(gòu)建用戶的虛擬化模型,形成具有標(biāo)簽特征與應(yīng)用價(jià)值的用戶畫像。
3.2 數(shù)據(jù)儲存技術(shù)
HBase和Hive數(shù)據(jù)倉庫是應(yīng)用較為廣泛的數(shù)據(jù)標(biāo)簽存儲方式。HBase是一個(gè)分布式的開源數(shù)據(jù)庫,能夠?qū)崟r(shí)儲存、讀寫數(shù)據(jù)信息。Hive是依托Hadoop的數(shù)據(jù)倉庫基礎(chǔ)架構(gòu),能夠?qū)A繑?shù)據(jù)信息進(jìn)行提取和轉(zhuǎn)換、加載,更適用于處理結(jié)構(gòu)化信息[7]。數(shù)據(jù)庫主要被用于儲存原始數(shù)據(jù),處理相關(guān)事務(wù),數(shù)據(jù)倉庫則主要被用于計(jì)算分析數(shù)據(jù),能夠?qū)?shù)據(jù)信息進(jìn)行加載、轉(zhuǎn)換和抽取等操作。Hive負(fù)責(zé)儲存源數(shù)據(jù),HBase負(fù)責(zé)對需實(shí)時(shí)查詢的軌跡和日志等進(jìn)行處理,二者表現(xiàn)出了較高的兼容性。
3.3 個(gè)性化推薦技術(shù)
個(gè)性化推薦技術(shù)主要包括機(jī)器學(xué)習(xí)技術(shù)、協(xié)同過濾算法等。機(jī)器學(xué)習(xí)是人工智能技術(shù)的一個(gè)分支,是指通過綜合運(yùn)用統(tǒng)計(jì)、概率等學(xué)科知識和算法,使計(jì)算機(jī)能夠盡可能模擬人類的學(xué)習(xí)模式,并在持續(xù)的學(xué)習(xí)經(jīng)驗(yàn)積累中優(yōu)化算法性能[8]。大數(shù)據(jù)背景下,圖書館可以借助機(jī)器學(xué)習(xí)技術(shù)對海量數(shù)據(jù)進(jìn)行深度和智能化的數(shù)據(jù)分析,為個(gè)性化推薦提供支持。協(xié)同過濾算法是應(yīng)用較為廣泛的個(gè)性化推薦算法之一,其原理是基于用戶歷史操作信息計(jì)算不同用戶的距離,參考與目標(biāo)用戶相距最近的用戶加權(quán)評價(jià)值,對目標(biāo)用戶對產(chǎn)品的喜愛程度進(jìn)行預(yù)測,系統(tǒng)根據(jù)預(yù)測結(jié)果向目標(biāo)用戶推薦其可能感興趣的產(chǎn)品。協(xié)同過濾算法具體可以被劃分為基于用戶的協(xié)同過濾、基于物品的協(xié)同過濾等,在數(shù)字圖書館服務(wù)體系建設(shè)中,筆者更傾向利用基于用戶的協(xié)同過程算法,即通過計(jì)算用戶的相似性,向其推薦同類型用戶感興趣的資訊信息,同時(shí)也能夠挖掘用戶尚未表現(xiàn)出的喜好興趣,防范出現(xiàn)推薦內(nèi)容同質(zhì)化等問題。
4 基于用戶畫像的數(shù)字圖書館服務(wù)體系建設(shè)
4.1 精準(zhǔn)化推薦
目前,圖書館提供的泛在化推薦服務(wù)已經(jīng)很難滿足用戶的個(gè)性化資源獲取需求。隨著人工智能技術(shù)和大數(shù)據(jù)技術(shù)的應(yīng)用,精準(zhǔn)化推薦服務(wù)成為數(shù)字圖書館服務(wù)體系的重要構(gòu)成部分。精準(zhǔn)化推薦以圖書館用戶為核心,通過分析用戶在圖書館借閱、搜索的行為數(shù)據(jù),挖掘其深層次的信息需求,從而針對性地調(diào)整資源配置,為用戶提供精準(zhǔn)化的資源推薦服務(wù)。精準(zhǔn)化推薦以建立用戶標(biāo)簽體系為基礎(chǔ),用戶標(biāo)簽體系主要包括用戶基本屬性、閱讀興趣與偏好、閱讀主題、心理特征等。圖書館應(yīng)按照用戶標(biāo)簽的相似性和關(guān)聯(lián)性對其進(jìn)行劃分,如按專業(yè)、年齡、性別等將用戶分為不同群體,形成相應(yīng)的群體畫像,從而明確不同群體用戶的活躍度、借閱特點(diǎn)和閱讀偏好等,這是圖書館提供精準(zhǔn)化服務(wù)的依據(jù)。
4.2 個(gè)性化智慧搜索
信息資源的爆炸式增長導(dǎo)致當(dāng)代社會信息焦慮現(xiàn)象日益嚴(yán)重,難以高效滿足用戶知識需求成為突出問題[9]。個(gè)性化搜索可以幫助圖書館用戶快速精準(zhǔn)檢索到所需內(nèi)容,一定程度上緩解了用戶的信息焦慮。個(gè)性化智慧搜索是數(shù)字圖書館服務(wù)體系的核心業(yè)務(wù)之一,其在數(shù)據(jù)分析的基礎(chǔ)上對用戶在特定和普遍情景中的偏好興趣進(jìn)行挖掘,并根據(jù)用戶每次的檢索行為及時(shí)調(diào)整分析結(jié)果。當(dāng)用戶檢索時(shí),系統(tǒng)會將檢索詞與數(shù)據(jù)庫主題詞做匹配,并根據(jù)用戶顯性和隱性需求調(diào)整主題。
4.3 智能化隱私保護(hù)
隨著數(shù)字圖書館資源的開放共享,用戶的信息安全與個(gè)人隱私安全成為業(yè)界廣泛關(guān)注的焦點(diǎn)之一。數(shù)字圖書館服務(wù)體系隱私安全問題主要涉及身份污染與隱私泄漏兩個(gè)方面:身份污染問題是由于用戶賬號綁定了過多身份信息,進(jìn)而產(chǎn)生各種無用數(shù)據(jù);隱私泄漏是指未經(jīng)圖書館用戶允許私自使用用戶信息并獲取利益[10]。數(shù)字圖書館在提供精準(zhǔn)化推薦、智慧化預(yù)測等服務(wù)時(shí),會實(shí)時(shí)監(jiān)測、搜集用戶行為信息并上傳至云端,而云空間的不確定性與虛擬性,導(dǎo)致信息收集傳輸期間極易發(fā)生隱私泄露或數(shù)據(jù)丟失等問題。圖書館可采取數(shù)據(jù)脫敏的方式處理用戶行為數(shù)據(jù),即基于用戶所處情景將數(shù)據(jù)信息分為不可恢復(fù)和可恢復(fù)兩種類型,同時(shí)構(gòu)建隱藏式用戶標(biāo)簽體系,對行為數(shù)據(jù)的共享和使用權(quán)限進(jìn)行控制,并通過隱藏用戶標(biāo)簽進(jìn)一步防范數(shù)據(jù)信息泄露,保證用戶個(gè)人隱私信息的安全。
5 結(jié)語
用戶畫像作為利用大數(shù)據(jù)技術(shù)精準(zhǔn)定位用戶的一種重要方式,被運(yùn)用到圖書館閱讀推薦、知識服務(wù)等方面,基于此,圖書館能夠?yàn)橛脩籼峁﹤€(gè)性化的閱讀推廣服務(wù)。數(shù)字圖書館應(yīng)充分重視新興技術(shù)的應(yīng)用,積極構(gòu)建科學(xué)合理的服務(wù)體系,降低運(yùn)營成本,減少資源浪費(fèi),全方位提升用戶體驗(yàn)。
參考文獻(xiàn):
[1] 韓秋萍.基于用戶畫像的圖書館個(gè)性化推薦體系構(gòu)建策略研究[J].河南圖書館學(xué)刊,2022(9):59-60,70.
[2] 程光勝.基于“大數(shù)據(jù)+小數(shù)據(jù)”的智慧圖書館用戶精準(zhǔn)畫像模型構(gòu)建[J].圖書館理論與實(shí)踐,2022(5):90-95,104.
[3] 徐玉虹.基于用戶畫像的公共圖書館精準(zhǔn)服務(wù)對策研究[J].河南圖書館學(xué)刊,2022(4):42-45.
[4] 湯麗媛,王俏.數(shù)據(jù)驅(qū)動下的圖書館用戶畫像構(gòu)建與信息資源精準(zhǔn)服務(wù)研究[J].晉圖學(xué)刊,2021(6):39-44.
[5] 王毅,吳睿青.公共圖書館數(shù)字文化資源服務(wù)用戶畫像研究[J].圖書情報(bào)工作,2021(16):42-55.
[6] 劉海鷗,李凱,姜波.移動圖書館推薦系統(tǒng)中的用戶畫像與資源畫像情境化融合研究[J].圖書館,2021(6):66-71,93.
[7] 楊正.大數(shù)據(jù)環(huán)境下用戶畫像在圖書館個(gè)性化服務(wù)中的研究[J].中國新通信,2021(8):55-56.
[8] 王靈萱.基于用戶畫像的圖書館聯(lián)盟用戶數(shù)據(jù)個(gè)性化服務(wù)分析[J].信息與電腦(理論版),2020(14):165-168.
[9] 張宇,阮雪靈,閆幸.基于情境化用戶畫像的圖書館知識服務(wù)方法研究[J].中國新通信,2020(7):86-88.
[10] 許鵬程,畢強(qiáng),張晗,等.數(shù)據(jù)驅(qū)動下數(shù)字圖書館用戶畫像模型構(gòu)建[J].圖書情報(bào)工作,2019(3):30-37.
(編校:周雪芹)