吳紫山 陳 哲
(廣州番禺職業(yè)技術(shù)學(xué)院圖書館,廣東 廣州 511483)
教育部于2015年頒布了《普通高等學(xué)校圖書館規(guī)程》,把圖書館的館員分為“專業(yè)館員和輔助館員”,同時(shí)指出“專業(yè)館員的數(shù)量不低于館員總數(shù)的50%”,并將專業(yè)館員的培養(yǎng)納入高校人才培養(yǎng)計(jì)劃[1]。據(jù)此規(guī)程,專業(yè)館員服務(wù)工作作為高校教輔工作的重要組成部分,對(duì)圖書館的發(fā)展和轉(zhuǎn)型也起到重要的戰(zhàn)略意義。圖書館如何開展專業(yè)館員服務(wù)工作,《規(guī)程》中表述比較模糊,這就需要圖書館館員在實(shí)踐中進(jìn)行探索和研究。筆者利用大數(shù)據(jù)的分析方法——用戶畫像,以廣州番禺職業(yè)技術(shù)學(xué)院圖書館(以下簡(jiǎn)稱番職圖書館)開展專業(yè)館員服務(wù)工作產(chǎn)生的數(shù)據(jù)為基礎(chǔ),對(duì)高校館專業(yè)館員如何開展專業(yè)服務(wù)進(jìn)行研究,總結(jié)出一套更科學(xué)、更高效的專業(yè)館員服務(wù)方法,為圖書館服務(wù)創(chuàng)新和轉(zhuǎn)型提供參考和借鑒。
由AlanCooper 提出的建立在一系列真實(shí)數(shù)據(jù)(MarketingData)之上的目標(biāo)用戶模型即用戶畫像(UserPersona)[2]。圖情領(lǐng)域用戶畫像相關(guān)研究主要有:劉海鷗等提出國(guó)內(nèi)外用戶畫像研究綜述對(duì)圖情領(lǐng)域的用戶畫像概念起到定義作用[3];陳慧香等歸納了圖書館應(yīng)用用戶畫像的經(jīng)驗(yàn),指出用戶畫像為精準(zhǔn)個(gè)性化服務(wù)提供了基礎(chǔ)[4];劉速以天津圖書館為例,從數(shù)據(jù)來源、數(shù)據(jù)采集、信息識(shí)別、模型搭建等方面就用戶畫像的構(gòu)建進(jìn)行了闡述,提出可視化統(tǒng)計(jì)描述、多維度交叉分析、用戶關(guān)系圖譜等用戶畫像分析方法[5];胡媛等對(duì)數(shù)字圖書館用戶畫像建模分析,并對(duì)構(gòu)建綜合服務(wù)能力評(píng)價(jià)指標(biāo)體系進(jìn)行研究。[6]
基于“用戶畫像”的信息智能推送服務(wù)已經(jīng)廣泛應(yīng)用于各行各業(yè),如阿里巴巴、京東、蘇寧易購(gòu)、攜程等電商。以在某APP 上搜索瀏覽需求商品、旅游目的、住宿酒店等信息為例,再次打開該APP時(shí)就會(huì)自動(dòng)在首頁推薦相關(guān)商品信息、旅游線路、住宿優(yōu)惠等廣告內(nèi)容,甚至?xí)鶕?jù)用戶注冊(cè)的手機(jī)號(hào)發(fā)來推薦信息。這些推薦信息是怎么得來的呢?為什么APP 知道你想購(gòu)買什么,要去哪里呢?這就是電商根據(jù)用戶行為大數(shù)據(jù)分析了用戶的需求,再根據(jù)這些需求進(jìn)行廣告推送。國(guó)內(nèi)利用用戶畫像研究運(yùn)用到現(xiàn)實(shí)場(chǎng)景的有:劉巖等的《淺析大數(shù)據(jù)在京東商城精準(zhǔn)營(yíng)銷中的應(yīng)用》[7],單曉紅等的《基于在線評(píng)論的用戶畫像研究——以攜程酒店為例》[8]。圖情領(lǐng)域利用用戶畫像運(yùn)用到現(xiàn)實(shí)場(chǎng)景有:楊帆的《畫像分析為基礎(chǔ)的圖書館大數(shù)據(jù)實(shí)踐——以國(guó)家圖書館大數(shù)據(jù)項(xiàng)目為例》[9],其文以國(guó)家圖書館數(shù)據(jù)管理與分析平臺(tái)項(xiàng)目為背景,根據(jù)數(shù)據(jù)計(jì)算結(jié)算加載到讀者模型以及資源數(shù)據(jù)模型中,逐步實(shí)現(xiàn)構(gòu)建讀者以及資源畫像。裘惠麟、邵波的《基于用戶畫像的高校圖書館精準(zhǔn)服務(wù)設(shè)計(jì)》[10]搭建了高校圖書館精準(zhǔn)服務(wù)系統(tǒng)邏輯平臺(tái),從數(shù)據(jù)庫層、中間層和客戶層方面利用用戶畫像工具對(duì)圖書館的精準(zhǔn)服務(wù)加以技術(shù)實(shí)現(xiàn)。據(jù)此研究與現(xiàn)狀,圖書館專業(yè)館員服務(wù)可以借鑒該領(lǐng)域的成功模式,將用戶畫像及智能推薦技術(shù)融合引入專業(yè)館員個(gè)性化服務(wù)應(yīng)用領(lǐng)域。
圖書館的信息數(shù)據(jù)量比較龐大,一般包括讀者用戶使用圖書館各項(xiàng)資源情況,如各庫室使用情況、館藏書目借閱情況和數(shù)字資源閱讀、下載信息,另外還有內(nèi)部產(chǎn)生的館員的工作日志、圖書編目數(shù)據(jù)、視頻監(jiān)控?cái)?shù)據(jù)、各庫室環(huán)境監(jiān)控等。這些數(shù)據(jù)受存儲(chǔ)能力限制沒能及時(shí)保存和利用,但隨著智慧圖書館的建設(shè),機(jī)房的數(shù)據(jù)存儲(chǔ)計(jì)算能力不斷提高,這些結(jié)構(gòu)和非結(jié)構(gòu)化,表面上看似關(guān)聯(lián)度不大的數(shù)據(jù)經(jīng)過分析挖掘,可以找出很多隱性的、未知的但卻非常有價(jià)值的信息。例如,通過對(duì)數(shù)字資源檢索、閱讀、下載情況的分析,可以得到包括讀者的信息需求分類、數(shù)字資源使用習(xí)慣、館內(nèi)參考咨詢效率等信息。通過用戶畫像處理這些大量涌現(xiàn)的信息數(shù)據(jù)可以更加高效地服務(wù)讀者。
專業(yè)館員是知識(shí)服務(wù)中必不可少的角色。通過用戶畫像工具可以在學(xué)科服務(wù)方面分析師生學(xué)術(shù)畫像,根據(jù)師生的科研方向開展定題服務(wù)、參考咨詢等,實(shí)現(xiàn)專業(yè)館員和對(duì)口院系的精準(zhǔn)對(duì)接,提升服務(wù)效率。對(duì)圖書館系統(tǒng)已形成的用戶數(shù)據(jù)則需對(duì)咨詢的讀者進(jìn)行識(shí)別和判斷,進(jìn)而推測(cè)其愛好及需求,并據(jù)此提供相關(guān)的搜索建議及幫助,使讀者可以又快又準(zhǔn)獲取信息。專業(yè)館員也可以根據(jù)用戶畫像對(duì)用戶行為進(jìn)行分析,根據(jù)其收藏以及訂閱的內(nèi)容進(jìn)行定期文獻(xiàn)更新及消息推送,減少用戶搜索文獻(xiàn)的時(shí)間成本,為數(shù)字圖書館知識(shí)社區(qū)中的讀者用戶提供方便的服務(wù)。
在采編工作方面,分析師生閱讀畫像,可以幫助采編部門了解師生的借閱需求,從而建立精準(zhǔn)、科學(xué)的采編機(jī)制。專業(yè)館員在開展服務(wù)工作時(shí)可以聯(lián)動(dòng)采編部,整理讀者借閱和偏好的數(shù)據(jù),通過用戶畫像工具進(jìn)行分析、推薦購(gòu)買相關(guān)的圖書和期刊,經(jīng)采購(gòu)編目并完成上架后,及時(shí)推送給所屬學(xué)院的師生和相關(guān)讀者,從而建立精準(zhǔn)、科學(xué)、及時(shí)的采編機(jī)制。
圖書館藏書由大量的實(shí)體圖書、期刊、數(shù)字資源等文獻(xiàn)信息資源組成,如何開發(fā)利用好這些資源并推薦給讀者用戶就成為了專業(yè)館員工作的重點(diǎn)和難點(diǎn)。通過計(jì)算機(jī)系統(tǒng)開發(fā)利用文獻(xiàn)信息資源是主要的技術(shù)手段,但目前大部分專業(yè)館員對(duì)信息加工仍以手工為主,尚未建立科學(xué)系統(tǒng)的分析模型,資源的開發(fā)利用在很大程度上受到局限。以番職圖書館為例,該館的專業(yè)館員每月會(huì)統(tǒng)計(jì)各書庫暢銷書籍的借閱量、借閱頻率,通過宣傳海報(bào)、微信公眾號(hào)等媒介向讀者有針對(duì)性地推送好書。而如何精準(zhǔn)選擇用戶群、推送適合的書籍就成了該館專業(yè)館員服務(wù)面臨的難題,利用用戶畫像原理設(shè)計(jì)系統(tǒng)模型就可以解決這方面的問題。首先由專業(yè)館員建立數(shù)據(jù)后臺(tái),利用用戶畫像原理,對(duì)讀者群體、專業(yè)分類、內(nèi)容興趣,閱讀行為等數(shù)據(jù)粘貼用戶標(biāo)簽,最后計(jì)算分析出新一期圖書和期刊投放的媒介、時(shí)間、位置等信息,通過這樣系統(tǒng)的處理就可以實(shí)現(xiàn)精準(zhǔn)地推薦好書。
圖書館OPAC 館藏圖書查詢系統(tǒng)是讀者用戶最熟悉、最常用的平臺(tái)檢索系統(tǒng)。目前OPAC系統(tǒng)不僅可以檢索館藏圖書資源,還整合了各種類型的數(shù)字資源和服務(wù)。如何利用該系統(tǒng)的用戶信息流,深入挖掘分析用戶行為,提高圖書館的資源檢索效率也成為專業(yè)館員的工作重點(diǎn)。將用戶畫像原理加入到OPAC 檢索系統(tǒng)可以設(shè)計(jì)出精準(zhǔn)檢索查詢系統(tǒng),增加用戶體驗(yàn)好感,方便讀者快捷地檢索到所需內(nèi)容。以一位讀者在OPAC 系統(tǒng)中輸入“微信小程序”為關(guān)鍵字搜索閱讀資料為例,精準(zhǔn)的畫像推薦系統(tǒng)就會(huì)發(fā)起請(qǐng)求命令并記錄下來,下一次該讀者再次登記OPAC系統(tǒng)時(shí),與之相關(guān)的同類書目將出現(xiàn)在該用戶界面的顯著位置上,從而完善圖書館智慧化檢索查詢系統(tǒng)。
以番職圖書館進(jìn)行閱讀推廣為例,有些主題活動(dòng)并未了解大學(xué)生的真實(shí)需求,使得提供的服務(wù)適應(yīng)性不足,某些情況下造成資源浪費(fèi)[11]。利用用戶畫像工具則可在前期策劃時(shí)深度挖掘相關(guān)用戶的閱讀時(shí)間、個(gè)性需求、閱讀特征等數(shù)據(jù),分析讀者的閱讀偏好,篩選出比較受讀者用戶喜愛的項(xiàng)目主題,進(jìn)而提供差異化的主題服務(wù),使閱讀與用戶需求有機(jī)結(jié)合[12],以便有的放矢地有開展閱讀推廣活動(dòng)。
要獲得圖書館用戶畫像首先要獲取用戶的行為數(shù)據(jù)。高校圖書館用戶行為按用戶使用群體劃分可分為教職工和學(xué)生兩種,按使用資源類型又可以分為實(shí)體資源和數(shù)字資源兩種。
以數(shù)字資源為例,用戶先注冊(cè)一個(gè)賬號(hào),基本上是名字、手機(jī)、性別、所屬學(xué)校、專業(yè)等,但這只是基礎(chǔ)數(shù)據(jù)。更重要的是用戶的使用記錄,如搜索內(nèi)容、瀏覽內(nèi)容、訪問數(shù)量、關(guān)注方向等一系列用戶行為軌跡,通過這些行為最后會(huì)變成幾千個(gè)事實(shí)標(biāo)簽,成為分析用戶行為數(shù)據(jù)的一部分。目前數(shù)字資源用戶的行為數(shù)據(jù)多來源于資源商提供的日志和統(tǒng)計(jì),得到行為數(shù)據(jù)后使用大數(shù)據(jù)分析函數(shù)進(jìn)行分析。筆者對(duì)番職圖書館2018年1月至12月超星讀秀資源的使用數(shù)據(jù)進(jìn)行簡(jiǎn)單加工后生成的餅狀分析圖,如圖1所示。通過該分析圖得出,電子圖書(23187 次)的瀏覽量排第一位;期刊(10347 次)瀏覽排第三位(第二位首頁瀏覽排除)進(jìn)行分析,提取的主要行為信息包括用戶的瀏覽內(nèi)容、訪問數(shù)量,利用這些相關(guān)的信息進(jìn)行歸屬,構(gòu)成用戶的靜態(tài)信息庫,對(duì)收集得到的靜態(tài)信息庫數(shù)據(jù)進(jìn)行分析,利用數(shù)據(jù)挖掘算法模型,抽取出用戶畫像標(biāo)簽,構(gòu)建用戶畫像標(biāo)簽體系。
圖1
通過簡(jiǎn)單的數(shù)據(jù)獲取分類后,圖書館專業(yè)館員可以按類型將這些數(shù)據(jù)打標(biāo)簽,使計(jì)算機(jī)能夠程序化處理這部分信息,如用戶的姓名、性別、年齡、專業(yè)、研究方向、職稱等級(jí)和該用戶的搜索內(nèi)容、瀏覽內(nèi)容、訪問數(shù)量等關(guān)鍵信息,然后根據(jù)數(shù)據(jù)的關(guān)聯(lián)程度和用戶所需求的專業(yè)服務(wù)進(jìn)行偏好分析,也可以通過網(wǎng)絡(luò)爬蟲技術(shù),跟蹤用戶在圖書館數(shù)字資源中的行為數(shù)據(jù),如設(shè)置“攝影”或“會(huì)計(jì)”等這樣的關(guān)鍵字,對(duì)瀏覽借閱過的用戶的次數(shù)、頻率進(jìn)行統(tǒng)計(jì)。通過以上數(shù)據(jù)挖掘的方式獲取到更加精準(zhǔn)的信息數(shù)據(jù),從而進(jìn)行精準(zhǔn)的信息推送和定題服務(wù)。
設(shè)置以下樣例進(jìn)行用戶畫像行為數(shù)據(jù)分析:(1)某讀者用戶;(2)某個(gè)時(shí)間段;(3)借閱了一本《大眾攝影》書籍。
對(duì)該樣例簡(jiǎn)單分析可以得出,這個(gè)借閱行為標(biāo)簽不能判斷目標(biāo)用戶是專業(yè)攝影的師生,有可能是隨手翻閱的師生,也有可能是非攝影專業(yè)的師生,這個(gè)時(shí)候就需要通過更多的行為標(biāo)簽來判斷用戶群體的屬性。
設(shè)定一個(gè)比較簡(jiǎn)單的標(biāo)簽權(quán)重算法:
興趣標(biāo)簽(攝影)權(quán)重=行為權(quán)重*訪問時(shí)長(zhǎng)*衰減因子
行為權(quán)重:什么都不干+1,參與書評(píng)+0.5,續(xù)借+1,再借閱同類書籍+2
時(shí)長(zhǎng)權(quán)重:3天以內(nèi)權(quán)重為0.5,3-10天為1,10天以上為2
衰減因子:0-3 天內(nèi)權(quán)重為 0.5,3-7 天權(quán)重為1,7-15 天權(quán)重為0.8,15-30 天權(quán)重為0.5,30 天以上權(quán)重為0.1
興趣標(biāo)簽權(quán)重=行為權(quán)重*訪問時(shí)長(zhǎng)*衰減因子
行為權(quán)重?cái)?shù)值是指參與書評(píng)、續(xù)借、再借同類書籍等行為操作后產(chǎn)生的不同的數(shù)值,對(duì)其累加構(gòu)成行為權(quán)重。
時(shí)長(zhǎng)權(quán)重?cái)?shù)值指借閱停留時(shí)長(zhǎng)。借閱時(shí)長(zhǎng)一般代表對(duì)該書的興趣程度,停留的時(shí)間越長(zhǎng),時(shí)間權(quán)重也越高。但借閱時(shí)間并不能代表最佳的閱讀興趣,需加入衰減因子進(jìn)行控制。
衰減因子數(shù)值指最佳閱讀時(shí)長(zhǎng)。一般認(rèn)為,正常的一本書3~7 天的借閱時(shí)間長(zhǎng)是最有興趣愛好的閱讀時(shí)間,短期借閱行為和逾期行為均無法代表正常的閱讀習(xí)慣,所以衰減因子權(quán)重呈波浪型曲線。
根據(jù)以上標(biāo)簽權(quán)重算法,圖書館用戶每次的借閱行為都會(huì)生成一個(gè)加了權(quán)重的興趣標(biāo)簽,這個(gè)標(biāo)簽會(huì)將該用戶一段時(shí)間內(nèi)所有的借閱類目進(jìn)行興趣權(quán)重累加計(jì)算,再用S 形函數(shù)標(biāo)準(zhǔn)化,就可以得到一個(gè)介于0至10的區(qū)間興趣標(biāo)簽值。標(biāo)簽值越高,用戶對(duì)該類目(如攝影)的偏好程度就會(huì)越高。接下來這些偏好會(huì)被轉(zhuǎn)換為特征向量。假設(shè)攝影標(biāo)簽值是8,閱讀時(shí)間段是5,閱讀時(shí)長(zhǎng)段是2,就可以用向量表示為r(8,5,2)。這樣就可以把特征向量理解成三維空間上的一個(gè)坐標(biāo),通過把每一個(gè)用戶的向量坐標(biāo)代入余弦公式或距離公式(見圖2)中,就能計(jì)算出相似的用戶,進(jìn)而把用戶分類畫像,專業(yè)館員就可以按用戶畫像分類提供針對(duì)性服務(wù)。
圖2 用戶特征三維圖
根據(jù)以上方法計(jì)算出用戶特征三維圖后,用戶畫像系統(tǒng)就能獲得基本計(jì)算方法,將搜索內(nèi)容、瀏覽內(nèi)容、訪問數(shù)量等信息組成模型,通過模型使計(jì)算機(jī)程序化、系統(tǒng)化處理這部分信息,進(jìn)而從雜亂的標(biāo)簽中找到用戶真正的興趣點(diǎn),勾勒出讀者用戶基本面貌和需求,實(shí)現(xiàn)構(gòu)建用戶畫像,指導(dǎo)專業(yè)館員進(jìn)行精準(zhǔn)服務(wù)。
目前通過以上這些行為數(shù)據(jù)只能計(jì)算出偏好,無法判斷出用戶的性別、學(xué)術(shù)研究程度等更加具體的個(gè)人屬性。這就需要把已知性別和學(xué)歷的用戶作為樣本,一部分用來訓(xùn)練模型,一部分用來測(cè)試準(zhǔn)確度。測(cè)試最后專業(yè)館員就能得到一個(gè)相似程度達(dá)80%以上的用戶畫像模型,專業(yè)館員可以通過這個(gè)模型圖歸納并定位到對(duì)應(yīng)服務(wù)群體,完善精準(zhǔn)度。
筆者提出一種以用戶畫像為工具的高校圖書館專業(yè)館員學(xué)科服務(wù)方法,闡述了從采集數(shù)據(jù)到形成標(biāo)簽、計(jì)算權(quán)重、建立模型等利用讀者用戶畫像數(shù)據(jù)進(jìn)行專業(yè)服務(wù)的思路,使專業(yè)館員開展工作時(shí)能夠更加精確地服務(wù)到有需求的人群。利用圖書館用戶畫像還可以使用戶在利用圖書館的實(shí)體資源和數(shù)字資源的過程中得到更加人性化的體驗(yàn)。