賈薔
(首都圖書館,北京 100021)
近十年,我國圖書館事業(yè)處于快速發(fā)展中。在大規(guī)模興建各級圖書館的同時(shí),圖書館也在認(rèn)真思考未來發(fā)展的方向。圖書館承擔(dān)以滿足知識信息資源需求為基礎(chǔ)的信息服務(wù),如何提供更為精準(zhǔn)與定制化的服務(wù),成為業(yè)界日益關(guān)注的焦點(diǎn)。
隨著大數(shù)據(jù)技術(shù)的應(yīng)用及用戶需求的多元化,圖書館服務(wù)逐漸向集中、開放的網(wǎng)絡(luò)平臺轉(zhuǎn)移,對用戶和資源數(shù)據(jù)的分析為關(guān)注重點(diǎn),了解用戶需求,采用現(xiàn)代信息技術(shù)手段,拓展新型服務(wù)模式,從而滿足用戶精細(xì)、精準(zhǔn)和個(gè)性化需求,有助于信息服務(wù)價(jià)值的體現(xiàn)。這就為大規(guī)模收集用戶數(shù)據(jù)、開展以用戶為中心的信息服務(wù)研究提供了可能。用戶畫像可以勾畫出用戶信息全貌,挖掘信息資源與用戶的內(nèi)在關(guān)系,完成發(fā)現(xiàn)與提煉,深入揭示潛在信息服務(wù)模式和規(guī)律,最終在海量數(shù)據(jù)中轉(zhuǎn)化為精準(zhǔn)信息資源數(shù)據(jù),以滿足用戶的個(gè)性化信息需求。
Cooper最早提出用戶畫像的概念,指出用戶畫像是真實(shí)用戶的虛擬代表,是建立在一系列真實(shí)數(shù)據(jù)上的目標(biāo)用戶模型[1]。Travis[2]更進(jìn)一步提出用戶畫像的7個(gè)條件,即基本性、移情性、真實(shí)性、獨(dú)特性、目標(biāo)性、數(shù)量、應(yīng)用性。
用戶畫像是用戶基本屬性、生活習(xí)慣和消費(fèi)行為等因素信息,通過信息識別,完成貼“標(biāo)簽”的核心工作。標(biāo)簽通常是精練的特征標(biāo)識(如年齡、性別、興趣等),將所有標(biāo)簽集合起來,可以勾勒出該用戶的“畫像”[3]。
用戶畫像最先應(yīng)用于電子商務(wù)和門戶平臺,如阿里巴巴、京東、百度等科技公司已在多年前就開始著手用戶畫像的建構(gòu),基于已有信息數(shù)據(jù),分析用戶關(guān)注點(diǎn)、興趣點(diǎn),推測用戶潛在需求,從而制定精準(zhǔn)、優(yōu)化的營銷策略,對推送個(gè)性化服務(wù)產(chǎn)生了積極作用,引領(lǐng)與帶動(dòng)潛在消費(fèi)、拓展用戶,亦收到很好的經(jīng)濟(jì)效益。
查詢cNKI可知,截至2018年12月,共檢索到相關(guān)論文205篇,學(xué)科分布集中在計(jì)算機(jī)、工商管理、商業(yè)經(jīng)濟(jì)等領(lǐng)域。圖書檔案情報(bào)學(xué)科共計(jì)43篇,其中2014年李業(yè)根[4]在《圖書館學(xué)刊》發(fā)表的《基于大數(shù)據(jù)的圖書館信息營銷策略》,標(biāo)志著用戶畫像的到來??v覽圖書檔案情報(bào)學(xué)科用戶畫像相關(guān)論文,發(fā)現(xiàn)研究多集中于資源推薦、知識發(fā)現(xiàn)和數(shù)據(jù)模型與算法等內(nèi)容,而用戶畫像在圖書館服務(wù)應(yīng)用中所能達(dá)到的深度與廣度尚在探討與摸索階段。
在大數(shù)據(jù)全面推廣的社會(huì)背景下,圖書館所擁有的信息數(shù)據(jù)顯現(xiàn)出多維度、多層次交叉重疊的特性,其中個(gè)體信息數(shù)據(jù)和行為信息數(shù)據(jù)尤為重要。用戶畫像是基于圖書館用戶信息數(shù)據(jù)分析平臺,運(yùn)用統(tǒng)計(jì)分析與數(shù)據(jù)算法等技術(shù)集群,完成各類異構(gòu)系統(tǒng)的數(shù)據(jù)挖掘技術(shù)。通過對信息數(shù)據(jù)的挖掘、分析及顯現(xiàn),精準(zhǔn)勾畫出用戶需求畫像,從而提供精準(zhǔn)化、定制化的信息服務(wù)。
用戶畫像是在海量數(shù)據(jù)基礎(chǔ)上產(chǎn)生的,通過確認(rèn)數(shù)據(jù)來源、用戶數(shù)據(jù)的分析與處理、用戶畫像數(shù)據(jù)標(biāo)簽和用戶畫像模型構(gòu)建等過程,對個(gè)體用戶和用戶群準(zhǔn)確地標(biāo)簽化,從而細(xì)致描繪出用戶特征。
作為構(gòu)建用戶畫像的基本要素,圖書館需要大量的可用于數(shù)據(jù)處理的基礎(chǔ)數(shù)據(jù),這些基礎(chǔ)數(shù)據(jù)可以最大限度地顯現(xiàn)個(gè)體用戶信息、行為信息;基礎(chǔ)數(shù)據(jù)的全面獲取,可以提高用戶畫像的精準(zhǔn)度。
用戶畫像數(shù)據(jù)被保存在不同的異構(gòu)系統(tǒng)中,數(shù)據(jù)之間沒有融合甚至沒有關(guān)聯(lián),且數(shù)據(jù)獲取時(shí)需要從不同系統(tǒng)中逐項(xiàng)單獨(dú)獲取,整個(gè)獲取過程的進(jìn)度與系統(tǒng)集群的規(guī)模有直接關(guān)系。獲取的數(shù)據(jù)來源可分為基本數(shù)據(jù)和變化數(shù)據(jù)?;緮?shù)據(jù)相對穩(wěn)定,主要由用戶自身數(shù)據(jù)組成,包括用戶基本信息,如性別、年齡、職業(yè)、聯(lián)系方式和地址等,其更新點(diǎn)大多是聯(lián)系方式和地址。
變化數(shù)據(jù)是相對復(fù)雜的用戶行為痕跡信息,行為日志數(shù)據(jù)、興趣數(shù)據(jù)、交互數(shù)據(jù)等都是變化數(shù)據(jù),其來自用戶在文獻(xiàn)利用時(shí)產(chǎn)生的使用數(shù)據(jù)、獲取知識庫的交互數(shù)據(jù)、移動(dòng)端的訪問數(shù)據(jù),甚至用戶的登錄次數(shù)、登錄設(shè)備、頁面瀏覽時(shí)長、頁面點(diǎn)擊位置信息和頁面復(fù)制粘貼內(nèi)容等[5],這些數(shù)據(jù)會(huì)隨著用戶環(huán)境、焦點(diǎn)興趣、社會(huì)趨勢等不斷變化。
基本數(shù)據(jù)與變化數(shù)據(jù)分別從各種異構(gòu)系統(tǒng)中采集出來,借助統(tǒng)一認(rèn)證和用戶管理手段,識別與獲取用戶行為數(shù)據(jù)[6],把握和跟蹤用戶需求變化[7]。當(dāng)某位用戶的借還記錄與上網(wǎng)行為記錄完成同一比對認(rèn)證后,其自身的基本數(shù)據(jù)和變化數(shù)據(jù)就構(gòu)成了個(gè)體畫像數(shù)據(jù);當(dāng)大量與該用戶相似的個(gè)體共性數(shù)據(jù)被識別,這位用戶所屬的群體數(shù)據(jù)即形成,無形中群體關(guān)聯(lián)關(guān)系得以建立。關(guān)聯(lián)關(guān)系具有動(dòng)態(tài)屬性,個(gè)體變化數(shù)據(jù)的不斷改變,決定并影響了個(gè)體數(shù)據(jù)在群體數(shù)據(jù)歸屬的持續(xù)重組與更新,此時(shí)這位用戶所在的群體會(huì)發(fā)生改變。關(guān)聯(lián)關(guān)系的建立是提高信息服務(wù)有效性和專指性的必要條件,是用戶畫像模型構(gòu)建的基礎(chǔ)。
用戶數(shù)據(jù)具有采集來源廣、數(shù)量大的特點(diǎn),并且由結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)組成,其中半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)超過大數(shù)據(jù)總量的85%[8]。結(jié)構(gòu)化數(shù)據(jù)主要是個(gè)體數(shù)據(jù)、借閱數(shù)據(jù)和日志數(shù)據(jù),雖然依自身結(jié)構(gòu)利用的需要存儲于不同的系統(tǒng)模塊中,但存儲要求基本統(tǒng)一,存儲位置相對固定,數(shù)據(jù)較為規(guī)范、差錯(cuò)率可控。相對而言,這類數(shù)據(jù)容易獲取和分析。
半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)大多是行為數(shù)據(jù),產(chǎn)生于不同的系統(tǒng)模塊中,如書目檢索系統(tǒng)中的檢索數(shù)據(jù)、電子閱覽管理系統(tǒng)的登錄數(shù)據(jù)、網(wǎng)頁界面的瀏覽數(shù)據(jù)、數(shù)據(jù)庫操作數(shù)據(jù)等。由于數(shù)據(jù)產(chǎn)生的形式不同,標(biāo)準(zhǔn)與規(guī)范各不相同,存儲方式與數(shù)據(jù)格式具有一定的獨(dú)享性,獲取與分析相對復(fù)雜。以整合系統(tǒng)、統(tǒng)一管理數(shù)據(jù)為基點(diǎn),使采集各類數(shù)據(jù)、完成數(shù)據(jù)清洗操作更加便捷和可操作[9]。
對用戶數(shù)據(jù)進(jìn)行整合、清洗、認(rèn)證、管理,從而得到用戶畫像的有效數(shù)據(jù)。無用數(shù)據(jù)是與用戶數(shù)據(jù)無關(guān)的數(shù)據(jù),包括干擾數(shù)據(jù)和噪聲數(shù)據(jù),如登錄數(shù)據(jù)中的進(jìn)程中斷產(chǎn)生的錯(cuò)誤數(shù)據(jù)、讀者數(shù)據(jù)中修改前的個(gè)人口令數(shù)據(jù)、檢索數(shù)據(jù)中輸入的誤操作數(shù)據(jù)等。剔除這些數(shù)據(jù)需要運(yùn)用數(shù)據(jù)挖掘技術(shù)手段,從而達(dá)到清洗的目的,有利于數(shù)據(jù)的精準(zhǔn)和有效,對之后開展信息服務(wù)的準(zhǔn)確性提供有效數(shù)據(jù)的保證。
用戶畫像的核心就是完成用戶標(biāo)簽描述,即給用戶打標(biāo)簽。用戶畫像標(biāo)簽體系的建立,以人為干預(yù)為前提,梳理與排除數(shù)據(jù)挖掘過程中產(chǎn)生的數(shù)據(jù)偏差,概括與制定精練的標(biāo)簽特征標(biāo)識。標(biāo)簽通常是年齡、性別、興趣等,將所有標(biāo)簽綜合后,可以勾畫出該用戶的“畫像”[3]。
用戶數(shù)據(jù)標(biāo)簽化的目的,是將處于模糊狀態(tài)下的用戶個(gè)體形象化、生動(dòng)化,并通過打標(biāo)簽的方式,將其個(gè)體特征信息有效揭示。具體實(shí)施過程是采集獲取用戶數(shù)據(jù),包括用戶基本信息、用戶行為信息、互動(dòng)上傳操作信息等數(shù)據(jù),提煉關(guān)鍵信息點(diǎn),利用主題詞表或者其他可作為標(biāo)簽詞表的參照詞表,基本形成與用戶畫像需求相匹配的標(biāo)簽詞表。標(biāo)簽詞表的維度不宜過粗或過細(xì),過粗起不到區(qū)分的作用,過細(xì)不具有典型性和代表性,維度的粗細(xì)可在打標(biāo)簽中不斷完善。
每個(gè)用戶的個(gè)體標(biāo)簽的數(shù)量取決于用戶個(gè)體產(chǎn)生的行為和生成數(shù)據(jù)的多少。用戶標(biāo)簽的可識別性為信息服務(wù)的定制化和專屬化提供依據(jù)。其中,對用戶基礎(chǔ)特征的描述數(shù)據(jù)包括性別、年齡、職業(yè)數(shù)據(jù)等;對用戶在各類系統(tǒng)的操作行為描述,用來反映用戶潛在特征的數(shù)據(jù)包括借閱、點(diǎn)擊登錄、網(wǎng)頁瀏覽、資源下載等行為數(shù)據(jù)。依據(jù)相鄰歸類、聚類算法,形成聚合后的上位類標(biāo)簽[10],利用現(xiàn)有的標(biāo)簽詞表以簡單直觀地打標(biāo)簽方式將用戶畫像的特征逐一顯現(xiàn)出來,當(dāng)標(biāo)簽描述與分析維度契合后,進(jìn)而匯合成為標(biāo)簽群和標(biāo)簽集群,最終建立用戶畫像數(shù)據(jù)標(biāo)簽體系,為信息服務(wù)的用戶畫像模型構(gòu)建提供指引和幫助。
圍繞用戶自身及日常行為來構(gòu)建用戶畫像模型,提供個(gè)性化服務(wù),以用戶的需求、習(xí)慣和興趣喜好為精準(zhǔn)推送點(diǎn)。
構(gòu)建用戶畫像模型過程中,可以利用文本挖掘與分析、過濾與推薦算法、自然語言處理、聚類算法、關(guān)聯(lián)規(guī)則等大數(shù)據(jù)技術(shù),進(jìn)行用戶數(shù)據(jù)建模,結(jié)合機(jī)器訓(xùn)練學(xué)習(xí)來完成數(shù)據(jù)模型的不斷修正與精準(zhǔn),隨著用戶變化數(shù)據(jù)的更新,模型也會(huì)同步更新和優(yōu)化,從而得到精準(zhǔn)有效的數(shù)據(jù)模型,為后續(xù)數(shù)據(jù)處理提供保障。
用戶畫像模型的構(gòu)建可分為三層,即數(shù)據(jù)來源層、數(shù)據(jù)分析整合層及數(shù)據(jù)挖掘?qū)印?/p>
數(shù)據(jù)來源層是用戶畫像的原始基礎(chǔ)數(shù)據(jù)層,其數(shù)據(jù)形式由原始數(shù)據(jù)服務(wù)的系統(tǒng)功能決定,按照一定的順序排列并存儲在相應(yīng)的系統(tǒng)中。
數(shù)據(jù)分析整合層是實(shí)現(xiàn)跨系統(tǒng)數(shù)據(jù)獲取、整合的數(shù)據(jù)層,其通過數(shù)據(jù)清洗等技術(shù)手段對原始數(shù)據(jù)進(jìn)行前期處理,運(yùn)用專業(yè)技術(shù)進(jìn)行數(shù)據(jù)分析,建立用戶畫像的有效數(shù)據(jù)集群;同時(shí),數(shù)據(jù)分析整合層還要兼顧用戶變化數(shù)據(jù)的時(shí)時(shí)更新,以確保數(shù)據(jù)分析過程中產(chǎn)生的新數(shù)據(jù)或者更新數(shù)據(jù),可以及時(shí)劃入數(shù)據(jù)分析范圍。
數(shù)據(jù)挖掘?qū)邮怯脩舢嬒駱?gòu)建過程中的關(guān)鍵層,它是在利用數(shù)據(jù)分析整合層的前期處理結(jié)果,結(jié)合用戶畫像標(biāo)簽體系,完成對用戶的比對與識別,采用數(shù)據(jù)挖掘等技術(shù)對用戶進(jìn)行聚類分析,建立數(shù)據(jù)模型,從而實(shí)現(xiàn)用戶畫像的直觀展現(xiàn)。數(shù)據(jù)挖掘?qū)有枰獜亩嘟嵌榷嗑S度組合進(jìn)行數(shù)據(jù)挖掘,包括行為規(guī)律的挖掘、知識庫的挖掘、空間利用的挖掘、利用周期的挖掘和需求采集的挖掘等多種組合方式。
最后,通過用戶畫像的模型預(yù)測,可以對用戶未來行為進(jìn)行預(yù)測判斷,使用戶特征得以具體化、形象化,從而完成精準(zhǔn)推送服務(wù),為用戶提供全方位、個(gè)性化的特定服務(wù),增強(qiáng)與用戶的互動(dòng)交流,最終提高信息資源的有效利用率。
用戶畫像已經(jīng)進(jìn)入公眾生活的方方面面,包括電子商務(wù)、aPP、微信、微博等營銷手段和新媒體在內(nèi)的各個(gè)領(lǐng)域,對圖書館用戶畫像的構(gòu)建起到“試金石”的作用。用戶畫像的應(yīng)用將是圖書館精準(zhǔn)服務(wù)的基本條件,甚至可以看作前提條件,為有效的信息服務(wù)提供價(jià)值幫助?;趫D書館對于知識用戶構(gòu)建的深入研究,使圖書館領(lǐng)域的用戶畫像應(yīng)用成為趨勢。
目前,國內(nèi)的專業(yè)圖書館和高校圖書館已經(jīng)在深入研究與構(gòu)建用戶畫像,公共圖書館也開始了用戶畫像的構(gòu)建工作,特別是經(jīng)歷2017年第6次縣級以上公共圖書館評估定級工作后,服務(wù)數(shù)據(jù)的公眾顯現(xiàn)度被強(qiáng)行列入公共圖書館的服務(wù)范疇,但將大數(shù)據(jù)體系混同為大數(shù)據(jù)發(fā)布系統(tǒng)是知識體系中狹義且片面的認(rèn)知錯(cuò)誤。用戶畫像作為大數(shù)據(jù)體系的重要組成部分,將引領(lǐng)圖書館服務(wù)的創(chuàng)新與變革。
深入研究用戶畫像,挖掘與獲取用戶的關(guān)注點(diǎn)、興趣點(diǎn)與潛在需求?;谟脩粜枨笤O(shè)計(jì)構(gòu)建系統(tǒng),精準(zhǔn)顯現(xiàn)用戶需求,通過對個(gè)體信息、行為痕跡及關(guān)注點(diǎn)的獲取,了解用戶的資源利用行為,精準(zhǔn)推送用戶需求資源,收集用戶畫像對信息資源利用的效果,評估階段時(shí)間內(nèi)資源推送和信息服務(wù)精準(zhǔn)率的實(shí)際利用效果,進(jìn)而促進(jìn)知識服務(wù)、智能服務(wù)[11]。
圖書館信息服務(wù)資源中,信息資源繁多各異,用戶選擇難度大、查全率和查準(zhǔn)率不高,是用戶利用效果有限的主要障礙。用戶畫像的數(shù)據(jù)挖掘是完善個(gè)性化信息推送與檢索的重要手段,通過深度挖掘用戶的個(gè)體畫像信息與關(guān)聯(lián)信息,結(jié)合周期感知的變化與更新,利用數(shù)據(jù)關(guān)聯(lián)原則和聚類算法等方式,構(gòu)建特征用戶畫像群體,完成個(gè)體個(gè)性化信息推送,提升信息服務(wù)質(zhì)量與有效性,實(shí)現(xiàn)對用戶的精準(zhǔn)服務(wù)。
用戶畫像使得用戶個(gè)體信息清晰化,其興趣與行為數(shù)據(jù)也趨于扁平化,信息資源的精準(zhǔn)推送成功率不斷提高,信息資源的實(shí)際利用效果顯而易見。以用戶為主體的信息服務(wù),與圖書館信息服務(wù)發(fā)展方向相吻合,通過對用戶畫像的不斷“繪制”與更新,建立個(gè)體用戶標(biāo)簽庫和標(biāo)簽庫集群,分析用戶個(gè)體與用戶群體的需求動(dòng)向與趨勢,規(guī)劃圖書館的未來發(fā)展方向和建設(shè)思路,完善資源建設(shè)體系、調(diào)整空間布局和功能等,從而為科學(xué)決策提供依據(jù)與參考。
現(xiàn)有的信息服務(wù)分為被動(dòng)推送和主動(dòng)推送,被動(dòng)推送一般是根據(jù)用戶的文獻(xiàn)借閱與檢索記錄,提供主題詞相關(guān)性的信息資源推送,準(zhǔn)確性有限、局限性大,還會(huì)由于關(guān)鍵信息不足導(dǎo)致信息服務(wù)推送的偏差。主動(dòng)推送多是依據(jù)借閱記錄和預(yù)約記錄,結(jié)合主題關(guān)鍵詞提供的初級推送服務(wù)。
用戶畫像構(gòu)建完成后,用戶個(gè)體畫像已經(jīng)形成,用戶個(gè)體行為的預(yù)測會(huì)以用戶屬性數(shù)據(jù)與行為數(shù)據(jù)為依據(jù),結(jié)合用戶自身的多種“變化”,得到用戶個(gè)體行為預(yù)測的結(jié)論。信息資源的服務(wù)依據(jù)預(yù)測結(jié)論,可達(dá)到用戶信息服務(wù)完全的定制化和個(gè)性化,提高信息服務(wù)的效能。
用戶通過標(biāo)簽完成聚類與聯(lián)合,也通過標(biāo)簽查找和確定用戶。當(dāng)信息資源需要完成定向推送時(shí),標(biāo)簽作為決定性要素,從用戶群中精準(zhǔn)選擇有效用戶。例如,攝影類資源的推送,可推送的用戶一般具有的標(biāo)簽包括攝影攝像、戶外運(yùn)動(dòng)、旅行、發(fā)燒友等,由于標(biāo)簽之間存在聯(lián)合關(guān)系,推送范圍可擴(kuò)大至地理學(xué)、生物學(xué)、野外生存等標(biāo)簽。較之大面積推送,有針對性的推送可以獲得更好的效果,也可以節(jié)省人財(cái)物力。同理,如果開展主題為戶外運(yùn)動(dòng)類的讀者活動(dòng)時(shí),通過標(biāo)簽查找,可以精準(zhǔn)定位到擁有運(yùn)動(dòng)達(dá)人、野外探險(xiǎn)、旅行家、登山愛好者等標(biāo)簽的用戶,結(jié)合相關(guān)宣傳完成主題類信息資源的梳理,將包含主題信息資源和本次活動(dòng)內(nèi)容一并推送給這部分群體,活動(dòng)的關(guān)注程度將達(dá)到最大化,亦完成了主題信息資源的推送服務(wù)。
國內(nèi)用戶畫像的研究與應(yīng)用正在悄然興起。借鑒用戶畫像在電子商務(wù)和門戶平臺成功的應(yīng)用經(jīng)驗(yàn),結(jié)合圖書館用戶畫像的研究現(xiàn)狀,提出以下思考。
用戶畫像的研究與應(yīng)用正在興起,特別是在大數(shù)據(jù)時(shí)代,雖然社會(huì)背景與技術(shù)手段等為用戶畫像原始數(shù)據(jù)的獲取提供了基礎(chǔ),但尚未進(jìn)入成熟階段,用戶個(gè)體信息的隱私憂慮尤為突出。用戶畫像數(shù)據(jù)中,涵蓋有用戶大量的私人數(shù)據(jù),個(gè)性化推送服務(wù)越精準(zhǔn),則表示其個(gè)體數(shù)據(jù)越全面、數(shù)據(jù)類型越豐富,這對隱私安全帶來挑戰(zhàn)。Henczel[12]提出可以從只收集必要信息、盡量利用現(xiàn)有信息和確保受訪用戶充分了解收集信息的原因和用途的3個(gè)方面,來解決涉及用戶隱私的問題。
圖書館應(yīng)建立健全信息安全和隱私保護(hù)規(guī)范,作為安全管理機(jī)制的組成部分;加大相應(yīng)的防火墻模塊功能建設(shè),從技術(shù)手段力求杜絕信息威脅;提高技術(shù)人員的業(yè)務(wù)素質(zhì)與防隱私泄露意識,在數(shù)據(jù)調(diào)取與使用上實(shí)行分級管理,嚴(yán)格操作流程和手續(xù),確保用戶信息安全。
將用戶信息運(yùn)用立體化交叉分析的描述方法逐項(xiàng)打標(biāo)簽,一個(gè)標(biāo)簽代表一個(gè)維度。以標(biāo)簽和標(biāo)簽群的描述為基礎(chǔ),針對個(gè)體用戶的標(biāo)簽各異且側(cè)重不同,用戶標(biāo)簽庫需對集中特征與重要屬性的標(biāo)簽予以加權(quán)操作和更新加權(quán),不斷優(yōu)化標(biāo)簽結(jié)構(gòu)。一方面,用戶畫像處于動(dòng)態(tài)變化中,其個(gè)體標(biāo)簽作為動(dòng)態(tài)變量產(chǎn)生新生標(biāo)簽,為保證精準(zhǔn)推送信息資源,就必須完成動(dòng)態(tài)標(biāo)簽的實(shí)時(shí)更新,將動(dòng)態(tài)變化同步至動(dòng)態(tài)標(biāo)簽庫;另一方面,減少冗余標(biāo)簽可以幫助建立用戶畫像與用戶數(shù)據(jù)的映射關(guān)系,篩選有效信息。改進(jìn)用戶畫像的標(biāo)簽庫是提高用戶畫像準(zhǔn)確度的有效方式。
基于個(gè)體動(dòng)態(tài)標(biāo)簽的更新,發(fā)現(xiàn)與關(guān)注個(gè)體用戶的動(dòng)態(tài)變化,及時(shí)掌握由于個(gè)體動(dòng)態(tài)變化引發(fā)的群體動(dòng)態(tài)變化,關(guān)注用戶群體的特征,及時(shí)了解和預(yù)測個(gè)體用戶及用戶群的需求,可以提高信息資源的利用率,完成信息資源精準(zhǔn)推送,提升用戶體驗(yàn)。
大數(shù)據(jù)時(shí)代下,用戶畫像不斷應(yīng)用于各領(lǐng)域各行業(yè),但其側(cè)重點(diǎn)和用途不同。同樣,當(dāng)用戶畫像被大眾普遍接受時(shí),圖書館也在積極探索用戶畫像的應(yīng)用潛能,特別是在圖書館信息服務(wù)要求日益精準(zhǔn)化、個(gè)性化的當(dāng)下,用戶畫像的發(fā)展前景已經(jīng)被業(yè)界廣泛認(rèn)同。圖書館還需進(jìn)一步研究如何有效利用大數(shù)據(jù)分析手段,充分運(yùn)用數(shù)據(jù)挖掘技術(shù)和分析處理方法,精準(zhǔn)分析和預(yù)測用戶行為趨勢,從而完成知識數(shù)據(jù)轉(zhuǎn)化為有效信息,為信息資源精準(zhǔn)推送提供支撐。