鄧志文
【摘 要】用戶畫像作為精準(zhǔn)服務(wù)的重要手段為圖書館主動(dòng)信息服務(wù)的水平提升提供了有效途徑。本文詳細(xì)闡述了圖書館通過用戶畫像進(jìn)行主動(dòng)服務(wù)的主要流程,并從多角度對(duì)其用戶畫像的標(biāo)簽?zāi)P瓦M(jìn)行了定義,為圖書館用戶畫像提供參考。
【關(guān)鍵詞】用戶畫像;數(shù)據(jù)清洗;主動(dòng)服務(wù)
中圖分類號(hào): TP391.41文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào): 2095-2457(2019)32-0225-002
DOI:10.19694/j.cnki.issn2095-2457.2019.32.106
【Abstract】User portrait,as an important means of precise service, provides an effective way to improve the level of library information active service.This paper elaborates on the main process of library's active service through user portraits,and defines the label model of user portraits from various angles,which can provide reference for library user portraits.
【Key words】User portrait;Data cleaning;Active service
智慧圖書館伴隨著信息挖掘技術(shù)、知識(shí)可視化技術(shù)、大數(shù)據(jù)技術(shù)的發(fā)展,在主動(dòng)分析用戶需求和合理配置圖書館資源等方面起到了關(guān)鍵的促進(jìn)作用,同時(shí)也驅(qū)動(dòng)著圖書館的信息服務(wù)向主動(dòng)性、個(gè)性化、精準(zhǔn)化方向發(fā)展,而這其中用戶畫像作為大數(shù)據(jù)時(shí)代實(shí)現(xiàn)精準(zhǔn)服務(wù)的工具之一,已被越來越多圖情領(lǐng)域的研究者關(guān)注。
用戶畫像(persona)的概念最早由交互設(shè)計(jì)之父Alan Cooper最早提出,指出用戶畫像是真實(shí)用戶的虛擬代表,是建立在一系列真實(shí)數(shù)據(jù)之上的目標(biāo)用戶模型。進(jìn)行用戶畫像的前提需要有大量的真實(shí)數(shù)據(jù),它包括了用戶在網(wǎng)絡(luò)環(huán)境下留下的基本屬性、興趣偏好、網(wǎng)絡(luò)行為等各種信息。通過這些真實(shí)數(shù)據(jù)對(duì)用戶進(jìn)行分析,進(jìn)而提煉出高度精練的特征標(biāo)識(shí)來描述用戶,形成標(biāo)簽化用戶模型。它是數(shù)據(jù)對(duì)現(xiàn)實(shí)世界的人進(jìn)行的刻畫,能讓機(jī)器更容易解讀用戶,并且可以方便的進(jìn)行計(jì)算處理,幫助機(jī)器變得更加智能。
1 圖書館用戶畫像研究現(xiàn)狀
高校圖書館作為機(jī)構(gòu)知識(shí)數(shù)據(jù)的中心,擁有著巨大的數(shù)據(jù)資源,如何從這些海量的數(shù)據(jù)中準(zhǔn)確檢索出用戶期望的信息一直是信息檢索專家們研究和努力的工作;同時(shí)高校的讀者都是對(duì)現(xiàn)代新技術(shù)應(yīng)用熟練,根深在網(wǎng)絡(luò)社交中的用戶,他們?cè)诨ヂ?lián)網(wǎng)上都產(chǎn)生了大量的個(gè)人信息數(shù)據(jù)、網(wǎng)絡(luò)社交數(shù)據(jù),都無(wú)時(shí)無(wú)刻的不斷產(chǎn)生各種網(wǎng)絡(luò)行為數(shù)據(jù);可以說知識(shí)的密集和用戶形為信息的豐富讓圖書館開展用戶畫像的應(yīng)用有了先天的條件,這其中也不乏有很多研究成果。劉海鷗等對(duì)圖書館用戶畫像做了很廣泛的研究,提出通過融合圖書館用戶基本信息標(biāo)簽、內(nèi)容偏好標(biāo)簽、互動(dòng)標(biāo)簽、會(huì)話標(biāo)簽、情境標(biāo)簽等來構(gòu)建用戶畫像模型,并將其引用到情境化推薦系統(tǒng)中[1];姚遠(yuǎn)等給出了一種基于本體構(gòu)建圖書館讀者學(xué)術(shù)行為的用戶畫像,以知識(shí)圖譜的視角考察用戶畫像的構(gòu)建方法[2];陳臣等利用圖書館讀者小數(shù)據(jù)構(gòu)建讀者畫像系統(tǒng),實(shí)現(xiàn)讀者的動(dòng)態(tài)畫像,為圖書館個(gè)性化服務(wù)的決策、定制與推送提供支撐作用[3];何娟通過構(gòu)建讀者的個(gè)人畫像與群體畫像,并綜合兩者所反映出的讀者借閱行為特征,實(shí)現(xiàn)圖書的個(gè)性化推薦。圖書館用戶畫像的核心不在于擁有豐富的數(shù)據(jù),而在于能對(duì)用戶信息分析提取出高度精練有用的信息用于標(biāo)識(shí)用戶,本文將圍繞著圖書館用戶精準(zhǔn)畫像過程展開討論和論述。
2 圖書館用戶畫像構(gòu)建流程
圖1 圖書館用戶畫像構(gòu)建流程
精準(zhǔn)的圖書館用戶畫像是依托圖書館各種業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)去勾勒用戶信息全貌,圖書館用戶畫像的構(gòu)建可以分為畫像建模、數(shù)據(jù)采集、數(shù)據(jù)清洗、特征工程、數(shù)據(jù)標(biāo)簽化、推送服務(wù),如圖1所示。
2.1 畫像建模
畫像建模是非?;A(chǔ)也是關(guān)鍵的一步,建模又依據(jù)所要應(yīng)用的業(yè)務(wù)領(lǐng)域不同其建模的內(nèi)容也會(huì)不同,圖書館用戶畫像建模就需要分析圖書館用戶的各動(dòng)屬性特征,并建立相應(yīng)的特征模型。同時(shí)要了解構(gòu)建圖書館用戶畫像期望達(dá)到什么樣的應(yīng)用效果,從而在標(biāo)簽體系構(gòu)建時(shí)對(duì)數(shù)據(jù)深度、廣度及時(shí)效性方面做出規(guī)劃,確保底層設(shè)計(jì)科學(xué)合理。
2.2 數(shù)據(jù)采集
只有建立在客觀真實(shí)的數(shù)據(jù)基礎(chǔ)上,生成的畫像才有效。在采集數(shù)據(jù)時(shí),需要從用戶畫像模型出發(fā),考慮多種維度,比如用戶基礎(chǔ)數(shù)據(jù)、用戶行為數(shù)據(jù)、用戶學(xué)歷學(xué)術(shù)數(shù)據(jù)、用戶社交絡(luò)信息、用戶發(fā)文信息、用戶位置等,并通過圖書館主動(dòng)調(diào)查、用戶訪談、網(wǎng)絡(luò)爬蟲、平臺(tái)日志數(shù)據(jù)等方式獲得。
2.3 數(shù)據(jù)清洗
原始數(shù)據(jù)采集上來時(shí)往往都是不規(guī)則、非結(jié)構(gòu)化的數(shù)據(jù),而且數(shù)據(jù)大量存在重復(fù)、缺失、錯(cuò)誤等問題。所以需要進(jìn)行數(shù)據(jù)清洗也就是數(shù)據(jù)畫像分析,并將清洗的結(jié)果傳輸?shù)椒治黾斑\(yùn)用系統(tǒng)中以供使用。數(shù)據(jù)清洗主要工作就是將重復(fù)、多余的數(shù)據(jù)篩選清除,將缺失的數(shù)據(jù)補(bǔ)充完整,將錯(cuò)誤的數(shù)據(jù)糾正或者刪除,最后整理成為我們可以進(jìn)一步加工、使用的數(shù)據(jù)。數(shù)據(jù)清洗的一般步驟:分析數(shù)據(jù)、缺失值處理、異常值處理、去重處理、噪音數(shù)據(jù)處理。
2.4 特征工程
在用戶畫像整個(gè)流程中,特征工程扮演著重要的角色。從數(shù)學(xué)的角度講,特征工程就是將原始數(shù)據(jù)空間變換到新的特征空間,或者說是換一種數(shù)據(jù)的表達(dá)方式。在這個(gè)過程中,需要剔除數(shù)據(jù)中的異常值,將得到的數(shù)據(jù)映射到構(gòu)建的用戶模型中。特征工程首先需要將原始數(shù)據(jù)轉(zhuǎn)化為實(shí)向量,原始數(shù)據(jù)有很多類型,比如數(shù)值類型、離散類型,還有文本、圖像以及視頻等,然后將原始數(shù)據(jù)空間變換為模型向量空間,最后將用戶的多種特征組合到一起。用戶數(shù)據(jù)標(biāo)簽化結(jié)果直接影響最終畫像的準(zhǔn)確度,因而數(shù)據(jù)標(biāo)簽化時(shí)需要與應(yīng)用平臺(tái)的功能與特點(diǎn)相結(jié)合。如圖書館用戶標(biāo)簽化需要采用多級(jí)標(biāo)簽、多級(jí)分類,第一級(jí)標(biāo)簽是基本信息(姓名、性別等),第二級(jí)是上網(wǎng)行為、借書行為、下載行為;第三級(jí)是讀者的社會(huì)屬性(地理位置、工作地址、家庭地址等),總之要為用戶提供盡可能多的標(biāo)簽去描述個(gè)性愛好。
2.5 推送服務(wù)
在信息量超大的互聯(lián)網(wǎng)時(shí)代,主動(dòng)服務(wù)已成為圖書館吸引讀者、推廣資源、提升服務(wù)能力的有效手段。圖書館基于用戶畫像的主動(dòng)服務(wù)要依據(jù)前期勾勒的用戶畫像,對(duì)用戶偏好和潛在需求進(jìn)行分析預(yù)測(cè),掌握用戶需求進(jìn)而提供精準(zhǔn)化的服務(wù)內(nèi)容。并借助移動(dòng)終端、門戶網(wǎng)站等渠道,采用個(gè)性化定制、主動(dòng)推送等方式,滿足用戶對(duì)個(gè)性化服務(wù)的要求。
3 圖書館用戶畫像建模
高校圖書館最主要的職責(zé)是為師生提供紙本、電子等信息服務(wù),在構(gòu)建用戶畫像模型中,除分析用戶的基本屬性名,更多的是需要關(guān)注用戶的學(xué)術(shù)行為,為用戶提供精準(zhǔn)的學(xué)術(shù)資源信息服務(wù),如表1是圖書館用戶畫像模型。
表1 圖書館用戶畫像模型
圖書館服務(wù)平臺(tái)中的用戶畫像的建模,主要通過獲取并將這些信息進(jìn)行模型化表示,從而提取出用戶需求偏好和趨向。
用戶的性別、年齡、單位、學(xué)歷、職稱等靜態(tài)數(shù)據(jù),構(gòu)成了讀者的基本信息。用戶的學(xué)科專業(yè)背景、學(xué)術(shù)研究領(lǐng)域、知識(shí)資源使用情況、借書記錄等構(gòu)成了讀者的學(xué)術(shù)行為屬性集。讀者閱覽電子圖書、檢索數(shù)據(jù)庫(kù)、瀏覽論文、下載論文、收藏論文、咨詢等行為軌跡,構(gòu)成了讀者網(wǎng)上行為歷史。讀者的學(xué)術(shù)合作網(wǎng)絡(luò)、社交網(wǎng)絡(luò)、微信QQ中的朋友圈構(gòu)成了社會(huì)網(wǎng)絡(luò)屬性集。學(xué)術(shù)行業(yè)、網(wǎng)上行為、社會(huì)網(wǎng)絡(luò)這些都是動(dòng)態(tài)屬性,這些靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)共同構(gòu)成了圖書館用戶畫像層次模型。
在這4類模型標(biāo)簽的基礎(chǔ)上進(jìn)一步確定預(yù)測(cè)標(biāo)簽,可歸納為:讀者屬性、讀者所在的領(lǐng)域、讀者關(guān)注的領(lǐng)域、讀者所活躍的領(lǐng)域,這4種預(yù)測(cè)標(biāo)簽為用戶的特征標(biāo)簽集,并按照讀者的標(biāo)簽集分別推送典型的信息資源。
4 圖書館用戶畫像應(yīng)用
4.1 信息主動(dòng)推送
圖書館實(shí)施用戶畫像的目的是為讀者進(jìn)行精準(zhǔn)推薦。以讀者在圖書館借還書記錄、學(xué)術(shù)信息、網(wǎng)上行為記錄等大量數(shù)據(jù)為依托,對(duì)數(shù)據(jù)進(jìn)行分析和整理,借助標(biāo)簽化、信息化、可視化的手段,獲取用戶的基本特征,構(gòu)建出完善的讀者畫像模型,通過關(guān)聯(lián)規(guī)則計(jì)算,精準(zhǔn)實(shí)時(shí)地獲取符合讀者興趣和需求的信息,主動(dòng)地為用戶提供個(gè)性化知識(shí)推送服務(wù),進(jìn)而提升圖書館知識(shí)服務(wù)能力。
4.2 個(gè)性化交互服務(wù)
通過分析用戶在圖書館各業(yè)務(wù)系統(tǒng)中的頁(yè)面瀏覽行為、檢索歷史、下載記錄、社交記錄、關(guān)注記錄等各種數(shù)據(jù)分析,形成興趣標(biāo)簽與用戶上網(wǎng)行為數(shù)據(jù)的關(guān)聯(lián),構(gòu)建數(shù)字圖書館智能檢索系統(tǒng)。借助用戶畫像所提供的用戶信息需求、檢索行為、瀏覽習(xí)慣、瀏覽主題等數(shù)據(jù),通過大數(shù)據(jù)挖掘和分析為用戶量身定制檢索方式,為用戶提供個(gè)性化檢索服務(wù)[4]。
4.3 決策支持
用戶畫像通過對(duì)用戶建設(shè)的標(biāo)簽化模型進(jìn)行可視化展示,為用戶進(jìn)行自我認(rèn)知提供了依據(jù),同時(shí)也為用戶在學(xué)習(xí)研究、興趣培養(yǎng)等方面提供決策參考。對(duì)圖書館而言,圖書館可以對(duì)用戶畫像進(jìn)行聚類分析,能迅速定位具有共同特征的服務(wù)群體,評(píng)估某一群體的整體興趣和需求走向,提升服務(wù)的準(zhǔn)確度和滿意度;同時(shí)通過精準(zhǔn)的定位目標(biāo)讀者,為圖書館資源采購(gòu)、空間布局、知識(shí)服務(wù)、營(yíng)銷推廣等提供參考,為規(guī)劃圖書館的未來發(fā)展提供建設(shè)思路。
5 結(jié)語(yǔ)
在大數(shù)據(jù)環(huán)境下,用戶畫像技術(shù)是各服務(wù)行業(yè)提升服務(wù)準(zhǔn)確度的一種主要途徑,圖書館領(lǐng)域也不例外。數(shù)字圖書館如何挖掘用戶數(shù)據(jù),全面了解用戶需求,發(fā)揮數(shù)據(jù)價(jià)值,是實(shí)現(xiàn)圖書館精準(zhǔn)服務(wù)的關(guān)鍵點(diǎn)。圖書館積極引入用戶畫像技術(shù),為知識(shí)服務(wù)創(chuàng)新,實(shí)現(xiàn)用戶需求與服務(wù)內(nèi)容的匹配,全面提高主動(dòng)服務(wù)質(zhì)量提供了有效途徑。
【參考文獻(xiàn)】
[1]劉海鷗,黃文娜,謝姝琳.面向情境化推薦服務(wù)的圖書館用戶畫像研究[J].圖書館學(xué)研究,2018(20):62-68.
[2]姚遠(yuǎn),張惠,郝群.基于本體的用戶畫像構(gòu)建方法[J].計(jì)算機(jī)科學(xué),2018(10):226-231.
[3]陳臣,馬曉亭.基于小數(shù)據(jù)的圖書館用戶精準(zhǔn)畫像研究[J].情報(bào)資料工作,2018(05):57-61.
[4]許鵬程,畢強(qiáng),張晗等.數(shù)據(jù)驅(qū)動(dòng)下數(shù)字圖書館用戶畫像模型構(gòu)建[J].圖書情報(bào)工作,2019,63(03):30-37.