鄧志文
【摘 要】用戶(hù)畫(huà)像作為精準(zhǔn)服務(wù)的重要手段為圖書(shū)館主動(dòng)信息服務(wù)的水平提升提供了有效途徑。本文詳細(xì)闡述了圖書(shū)館通過(guò)用戶(hù)畫(huà)像進(jìn)行主動(dòng)服務(wù)的主要流程,并從多角度對(duì)其用戶(hù)畫(huà)像的標(biāo)簽?zāi)P瓦M(jìn)行了定義,為圖書(shū)館用戶(hù)畫(huà)像提供參考。
【關(guān)鍵詞】用戶(hù)畫(huà)像;數(shù)據(jù)清洗;主動(dòng)服務(wù)
中圖分類(lèi)號(hào): TP391.41文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào): 2095-2457(2019)32-0225-002
DOI:10.19694/j.cnki.issn2095-2457.2019.32.106
【Abstract】User portrait,as an important means of precise service, provides an effective way to improve the level of library information active service.This paper elaborates on the main process of library's active service through user portraits,and defines the label model of user portraits from various angles,which can provide reference for library user portraits.
【Key words】User portrait;Data cleaning;Active service
智慧圖書(shū)館伴隨著信息挖掘技術(shù)、知識(shí)可視化技術(shù)、大數(shù)據(jù)技術(shù)的發(fā)展,在主動(dòng)分析用戶(hù)需求和合理配置圖書(shū)館資源等方面起到了關(guān)鍵的促進(jìn)作用,同時(shí)也驅(qū)動(dòng)著圖書(shū)館的信息服務(wù)向主動(dòng)性、個(gè)性化、精準(zhǔn)化方向發(fā)展,而這其中用戶(hù)畫(huà)像作為大數(shù)據(jù)時(shí)代實(shí)現(xiàn)精準(zhǔn)服務(wù)的工具之一,已被越來(lái)越多圖情領(lǐng)域的研究者關(guān)注。
用戶(hù)畫(huà)像(persona)的概念最早由交互設(shè)計(jì)之父Alan Cooper最早提出,指出用戶(hù)畫(huà)像是真實(shí)用戶(hù)的虛擬代表,是建立在一系列真實(shí)數(shù)據(jù)之上的目標(biāo)用戶(hù)模型。進(jìn)行用戶(hù)畫(huà)像的前提需要有大量的真實(shí)數(shù)據(jù),它包括了用戶(hù)在網(wǎng)絡(luò)環(huán)境下留下的基本屬性、興趣偏好、網(wǎng)絡(luò)行為等各種信息。通過(guò)這些真實(shí)數(shù)據(jù)對(duì)用戶(hù)進(jìn)行分析,進(jìn)而提煉出高度精練的特征標(biāo)識(shí)來(lái)描述用戶(hù),形成標(biāo)簽化用戶(hù)模型。它是數(shù)據(jù)對(duì)現(xiàn)實(shí)世界的人進(jìn)行的刻畫(huà),能讓機(jī)器更容易解讀用戶(hù),并且可以方便的進(jìn)行計(jì)算處理,幫助機(jī)器變得更加智能。
1 圖書(shū)館用戶(hù)畫(huà)像研究現(xiàn)狀
高校圖書(shū)館作為機(jī)構(gòu)知識(shí)數(shù)據(jù)的中心,擁有著巨大的數(shù)據(jù)資源,如何從這些海量的數(shù)據(jù)中準(zhǔn)確檢索出用戶(hù)期望的信息一直是信息檢索專(zhuān)家們研究和努力的工作;同時(shí)高校的讀者都是對(duì)現(xiàn)代新技術(shù)應(yīng)用熟練,根深在網(wǎng)絡(luò)社交中的用戶(hù),他們?cè)诨ヂ?lián)網(wǎng)上都產(chǎn)生了大量的個(gè)人信息數(shù)據(jù)、網(wǎng)絡(luò)社交數(shù)據(jù),都無(wú)時(shí)無(wú)刻的不斷產(chǎn)生各種網(wǎng)絡(luò)行為數(shù)據(jù);可以說(shuō)知識(shí)的密集和用戶(hù)形為信息的豐富讓圖書(shū)館開(kāi)展用戶(hù)畫(huà)像的應(yīng)用有了先天的條件,這其中也不乏有很多研究成果。劉海鷗等對(duì)圖書(shū)館用戶(hù)畫(huà)像做了很廣泛的研究,提出通過(guò)融合圖書(shū)館用戶(hù)基本信息標(biāo)簽、內(nèi)容偏好標(biāo)簽、互動(dòng)標(biāo)簽、會(huì)話標(biāo)簽、情境標(biāo)簽等來(lái)構(gòu)建用戶(hù)畫(huà)像模型,并將其引用到情境化推薦系統(tǒng)中[1];姚遠(yuǎn)等給出了一種基于本體構(gòu)建圖書(shū)館讀者學(xué)術(shù)行為的用戶(hù)畫(huà)像,以知識(shí)圖譜的視角考察用戶(hù)畫(huà)像的構(gòu)建方法[2];陳臣等利用圖書(shū)館讀者小數(shù)據(jù)構(gòu)建讀者畫(huà)像系統(tǒng),實(shí)現(xiàn)讀者的動(dòng)態(tài)畫(huà)像,為圖書(shū)館個(gè)性化服務(wù)的決策、定制與推送提供支撐作用[3];何娟通過(guò)構(gòu)建讀者的個(gè)人畫(huà)像與群體畫(huà)像,并綜合兩者所反映出的讀者借閱行為特征,實(shí)現(xiàn)圖書(shū)的個(gè)性化推薦。圖書(shū)館用戶(hù)畫(huà)像的核心不在于擁有豐富的數(shù)據(jù),而在于能對(duì)用戶(hù)信息分析提取出高度精練有用的信息用于標(biāo)識(shí)用戶(hù),本文將圍繞著圖書(shū)館用戶(hù)精準(zhǔn)畫(huà)像過(guò)程展開(kāi)討論和論述。
2 圖書(shū)館用戶(hù)畫(huà)像構(gòu)建流程
圖1 圖書(shū)館用戶(hù)畫(huà)像構(gòu)建流程
精準(zhǔn)的圖書(shū)館用戶(hù)畫(huà)像是依托圖書(shū)館各種業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)去勾勒用戶(hù)信息全貌,圖書(shū)館用戶(hù)畫(huà)像的構(gòu)建可以分為畫(huà)像建模、數(shù)據(jù)采集、數(shù)據(jù)清洗、特征工程、數(shù)據(jù)標(biāo)簽化、推送服務(wù),如圖1所示。
2.1 畫(huà)像建模
畫(huà)像建模是非?;A(chǔ)也是關(guān)鍵的一步,建模又依據(jù)所要應(yīng)用的業(yè)務(wù)領(lǐng)域不同其建模的內(nèi)容也會(huì)不同,圖書(shū)館用戶(hù)畫(huà)像建模就需要分析圖書(shū)館用戶(hù)的各動(dòng)屬性特征,并建立相應(yīng)的特征模型。同時(shí)要了解構(gòu)建圖書(shū)館用戶(hù)畫(huà)像期望達(dá)到什么樣的應(yīng)用效果,從而在標(biāo)簽體系構(gòu)建時(shí)對(duì)數(shù)據(jù)深度、廣度及時(shí)效性方面做出規(guī)劃,確保底層設(shè)計(jì)科學(xué)合理。
2.2 數(shù)據(jù)采集
只有建立在客觀真實(shí)的數(shù)據(jù)基礎(chǔ)上,生成的畫(huà)像才有效。在采集數(shù)據(jù)時(shí),需要從用戶(hù)畫(huà)像模型出發(fā),考慮多種維度,比如用戶(hù)基礎(chǔ)數(shù)據(jù)、用戶(hù)行為數(shù)據(jù)、用戶(hù)學(xué)歷學(xué)術(shù)數(shù)據(jù)、用戶(hù)社交絡(luò)信息、用戶(hù)發(fā)文信息、用戶(hù)位置等,并通過(guò)圖書(shū)館主動(dòng)調(diào)查、用戶(hù)訪談、網(wǎng)絡(luò)爬蟲(chóng)、平臺(tái)日志數(shù)據(jù)等方式獲得。
2.3 數(shù)據(jù)清洗
原始數(shù)據(jù)采集上來(lái)時(shí)往往都是不規(guī)則、非結(jié)構(gòu)化的數(shù)據(jù),而且數(shù)據(jù)大量存在重復(fù)、缺失、錯(cuò)誤等問(wèn)題。所以需要進(jìn)行數(shù)據(jù)清洗也就是數(shù)據(jù)畫(huà)像分析,并將清洗的結(jié)果傳輸?shù)椒治黾斑\(yùn)用系統(tǒng)中以供使用。數(shù)據(jù)清洗主要工作就是將重復(fù)、多余的數(shù)據(jù)篩選清除,將缺失的數(shù)據(jù)補(bǔ)充完整,將錯(cuò)誤的數(shù)據(jù)糾正或者刪除,最后整理成為我們可以進(jìn)一步加工、使用的數(shù)據(jù)。數(shù)據(jù)清洗的一般步驟:分析數(shù)據(jù)、缺失值處理、異常值處理、去重處理、噪音數(shù)據(jù)處理。
2.4 特征工程
在用戶(hù)畫(huà)像整個(gè)流程中,特征工程扮演著重要的角色。從數(shù)學(xué)的角度講,特征工程就是將原始數(shù)據(jù)空間變換到新的特征空間,或者說(shuō)是換一種數(shù)據(jù)的表達(dá)方式。在這個(gè)過(guò)程中,需要剔除數(shù)據(jù)中的異常值,將得到的數(shù)據(jù)映射到構(gòu)建的用戶(hù)模型中。特征工程首先需要將原始數(shù)據(jù)轉(zhuǎn)化為實(shí)向量,原始數(shù)據(jù)有很多類(lèi)型,比如數(shù)值類(lèi)型、離散類(lèi)型,還有文本、圖像以及視頻等,然后將原始數(shù)據(jù)空間變換為模型向量空間,最后將用戶(hù)的多種特征組合到一起。用戶(hù)數(shù)據(jù)標(biāo)簽化結(jié)果直接影響最終畫(huà)像的準(zhǔn)確度,因而數(shù)據(jù)標(biāo)簽化時(shí)需要與應(yīng)用平臺(tái)的功能與特點(diǎn)相結(jié)合。如圖書(shū)館用戶(hù)標(biāo)簽化需要采用多級(jí)標(biāo)簽、多級(jí)分類(lèi),第一級(jí)標(biāo)簽是基本信息(姓名、性別等),第二級(jí)是上網(wǎng)行為、借書(shū)行為、下載行為;第三級(jí)是讀者的社會(huì)屬性(地理位置、工作地址、家庭地址等),總之要為用戶(hù)提供盡可能多的標(biāo)簽去描述個(gè)性愛(ài)好。
2.5 推送服務(wù)
在信息量超大的互聯(lián)網(wǎng)時(shí)代,主動(dòng)服務(wù)已成為圖書(shū)館吸引讀者、推廣資源、提升服務(wù)能力的有效手段。圖書(shū)館基于用戶(hù)畫(huà)像的主動(dòng)服務(wù)要依據(jù)前期勾勒的用戶(hù)畫(huà)像,對(duì)用戶(hù)偏好和潛在需求進(jìn)行分析預(yù)測(cè),掌握用戶(hù)需求進(jìn)而提供精準(zhǔn)化的服務(wù)內(nèi)容。并借助移動(dòng)終端、門(mén)戶(hù)網(wǎng)站等渠道,采用個(gè)性化定制、主動(dòng)推送等方式,滿(mǎn)足用戶(hù)對(duì)個(gè)性化服務(wù)的要求。
3 圖書(shū)館用戶(hù)畫(huà)像建模
高校圖書(shū)館最主要的職責(zé)是為師生提供紙本、電子等信息服務(wù),在構(gòu)建用戶(hù)畫(huà)像模型中,除分析用戶(hù)的基本屬性名,更多的是需要關(guān)注用戶(hù)的學(xué)術(shù)行為,為用戶(hù)提供精準(zhǔn)的學(xué)術(shù)資源信息服務(wù),如表1是圖書(shū)館用戶(hù)畫(huà)像模型。
表1 圖書(shū)館用戶(hù)畫(huà)像模型
圖書(shū)館服務(wù)平臺(tái)中的用戶(hù)畫(huà)像的建模,主要通過(guò)獲取并將這些信息進(jìn)行模型化表示,從而提取出用戶(hù)需求偏好和趨向。
用戶(hù)的性別、年齡、單位、學(xué)歷、職稱(chēng)等靜態(tài)數(shù)據(jù),構(gòu)成了讀者的基本信息。用戶(hù)的學(xué)科專(zhuān)業(yè)背景、學(xué)術(shù)研究領(lǐng)域、知識(shí)資源使用情況、借書(shū)記錄等構(gòu)成了讀者的學(xué)術(shù)行為屬性集。讀者閱覽電子圖書(shū)、檢索數(shù)據(jù)庫(kù)、瀏覽論文、下載論文、收藏論文、咨詢(xún)等行為軌跡,構(gòu)成了讀者網(wǎng)上行為歷史。讀者的學(xué)術(shù)合作網(wǎng)絡(luò)、社交網(wǎng)絡(luò)、微信QQ中的朋友圈構(gòu)成了社會(huì)網(wǎng)絡(luò)屬性集。學(xué)術(shù)行業(yè)、網(wǎng)上行為、社會(huì)網(wǎng)絡(luò)這些都是動(dòng)態(tài)屬性,這些靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)共同構(gòu)成了圖書(shū)館用戶(hù)畫(huà)像層次模型。
在這4類(lèi)模型標(biāo)簽的基礎(chǔ)上進(jìn)一步確定預(yù)測(cè)標(biāo)簽,可歸納為:讀者屬性、讀者所在的領(lǐng)域、讀者關(guān)注的領(lǐng)域、讀者所活躍的領(lǐng)域,這4種預(yù)測(cè)標(biāo)簽為用戶(hù)的特征標(biāo)簽集,并按照讀者的標(biāo)簽集分別推送典型的信息資源。
4 圖書(shū)館用戶(hù)畫(huà)像應(yīng)用
4.1 信息主動(dòng)推送
圖書(shū)館實(shí)施用戶(hù)畫(huà)像的目的是為讀者進(jìn)行精準(zhǔn)推薦。以讀者在圖書(shū)館借還書(shū)記錄、學(xué)術(shù)信息、網(wǎng)上行為記錄等大量數(shù)據(jù)為依托,對(duì)數(shù)據(jù)進(jìn)行分析和整理,借助標(biāo)簽化、信息化、可視化的手段,獲取用戶(hù)的基本特征,構(gòu)建出完善的讀者畫(huà)像模型,通過(guò)關(guān)聯(lián)規(guī)則計(jì)算,精準(zhǔn)實(shí)時(shí)地獲取符合讀者興趣和需求的信息,主動(dòng)地為用戶(hù)提供個(gè)性化知識(shí)推送服務(wù),進(jìn)而提升圖書(shū)館知識(shí)服務(wù)能力。
4.2 個(gè)性化交互服務(wù)
通過(guò)分析用戶(hù)在圖書(shū)館各業(yè)務(wù)系統(tǒng)中的頁(yè)面瀏覽行為、檢索歷史、下載記錄、社交記錄、關(guān)注記錄等各種數(shù)據(jù)分析,形成興趣標(biāo)簽與用戶(hù)上網(wǎng)行為數(shù)據(jù)的關(guān)聯(lián),構(gòu)建數(shù)字圖書(shū)館智能檢索系統(tǒng)。借助用戶(hù)畫(huà)像所提供的用戶(hù)信息需求、檢索行為、瀏覽習(xí)慣、瀏覽主題等數(shù)據(jù),通過(guò)大數(shù)據(jù)挖掘和分析為用戶(hù)量身定制檢索方式,為用戶(hù)提供個(gè)性化檢索服務(wù)[4]。
4.3 決策支持
用戶(hù)畫(huà)像通過(guò)對(duì)用戶(hù)建設(shè)的標(biāo)簽化模型進(jìn)行可視化展示,為用戶(hù)進(jìn)行自我認(rèn)知提供了依據(jù),同時(shí)也為用戶(hù)在學(xué)習(xí)研究、興趣培養(yǎng)等方面提供決策參考。對(duì)圖書(shū)館而言,圖書(shū)館可以對(duì)用戶(hù)畫(huà)像進(jìn)行聚類(lèi)分析,能迅速定位具有共同特征的服務(wù)群體,評(píng)估某一群體的整體興趣和需求走向,提升服務(wù)的準(zhǔn)確度和滿(mǎn)意度;同時(shí)通過(guò)精準(zhǔn)的定位目標(biāo)讀者,為圖書(shū)館資源采購(gòu)、空間布局、知識(shí)服務(wù)、營(yíng)銷(xiāo)推廣等提供參考,為規(guī)劃圖書(shū)館的未來(lái)發(fā)展提供建設(shè)思路。
5 結(jié)語(yǔ)
在大數(shù)據(jù)環(huán)境下,用戶(hù)畫(huà)像技術(shù)是各服務(wù)行業(yè)提升服務(wù)準(zhǔn)確度的一種主要途徑,圖書(shū)館領(lǐng)域也不例外。數(shù)字圖書(shū)館如何挖掘用戶(hù)數(shù)據(jù),全面了解用戶(hù)需求,發(fā)揮數(shù)據(jù)價(jià)值,是實(shí)現(xiàn)圖書(shū)館精準(zhǔn)服務(wù)的關(guān)鍵點(diǎn)。圖書(shū)館積極引入用戶(hù)畫(huà)像技術(shù),為知識(shí)服務(wù)創(chuàng)新,實(shí)現(xiàn)用戶(hù)需求與服務(wù)內(nèi)容的匹配,全面提高主動(dòng)服務(wù)質(zhì)量提供了有效途徑。
【參考文獻(xiàn)】
[1]劉海鷗,黃文娜,謝姝琳.面向情境化推薦服務(wù)的圖書(shū)館用戶(hù)畫(huà)像研究[J].圖書(shū)館學(xué)研究,2018(20):62-68.
[2]姚遠(yuǎn),張惠,郝群.基于本體的用戶(hù)畫(huà)像構(gòu)建方法[J].計(jì)算機(jī)科學(xué),2018(10):226-231.
[3]陳臣,馬曉亭.基于小數(shù)據(jù)的圖書(shū)館用戶(hù)精準(zhǔn)畫(huà)像研究[J].情報(bào)資料工作,2018(05):57-61.
[4]許鵬程,畢強(qiáng),張晗等.數(shù)據(jù)驅(qū)動(dòng)下數(shù)字圖書(shū)館用戶(hù)畫(huà)像模型構(gòu)建[J].圖書(shū)情報(bào)工作,2019,63(03):30-37.