吳紫山 陳 哲
(廣州番禺職業(yè)技術學院圖書館,廣東 廣州 511483)
教育部于2015年頒布了《普通高等學校圖書館規(guī)程》,把圖書館的館員分為“專業(yè)館員和輔助館員”,同時指出“專業(yè)館員的數量不低于館員總數的50%”,并將專業(yè)館員的培養(yǎng)納入高校人才培養(yǎng)計劃[1]。據此規(guī)程,專業(yè)館員服務工作作為高校教輔工作的重要組成部分,對圖書館的發(fā)展和轉型也起到重要的戰(zhàn)略意義。圖書館如何開展專業(yè)館員服務工作,《規(guī)程》中表述比較模糊,這就需要圖書館館員在實踐中進行探索和研究。筆者利用大數據的分析方法——用戶畫像,以廣州番禺職業(yè)技術學院圖書館(以下簡稱番職圖書館)開展專業(yè)館員服務工作產生的數據為基礎,對高校館專業(yè)館員如何開展專業(yè)服務進行研究,總結出一套更科學、更高效的專業(yè)館員服務方法,為圖書館服務創(chuàng)新和轉型提供參考和借鑒。
由AlanCooper 提出的建立在一系列真實數據(MarketingData)之上的目標用戶模型即用戶畫像(UserPersona)[2]。圖情領域用戶畫像相關研究主要有:劉海鷗等提出國內外用戶畫像研究綜述對圖情領域的用戶畫像概念起到定義作用[3];陳慧香等歸納了圖書館應用用戶畫像的經驗,指出用戶畫像為精準個性化服務提供了基礎[4];劉速以天津圖書館為例,從數據來源、數據采集、信息識別、模型搭建等方面就用戶畫像的構建進行了闡述,提出可視化統(tǒng)計描述、多維度交叉分析、用戶關系圖譜等用戶畫像分析方法[5];胡媛等對數字圖書館用戶畫像建模分析,并對構建綜合服務能力評價指標體系進行研究。[6]
基于“用戶畫像”的信息智能推送服務已經廣泛應用于各行各業(yè),如阿里巴巴、京東、蘇寧易購、攜程等電商。以在某APP 上搜索瀏覽需求商品、旅游目的、住宿酒店等信息為例,再次打開該APP時就會自動在首頁推薦相關商品信息、旅游線路、住宿優(yōu)惠等廣告內容,甚至會根據用戶注冊的手機號發(fā)來推薦信息。這些推薦信息是怎么得來的呢?為什么APP 知道你想購買什么,要去哪里呢?這就是電商根據用戶行為大數據分析了用戶的需求,再根據這些需求進行廣告推送。國內利用用戶畫像研究運用到現實場景的有:劉巖等的《淺析大數據在京東商城精準營銷中的應用》[7],單曉紅等的《基于在線評論的用戶畫像研究——以攜程酒店為例》[8]。圖情領域利用用戶畫像運用到現實場景有:楊帆的《畫像分析為基礎的圖書館大數據實踐——以國家圖書館大數據項目為例》[9],其文以國家圖書館數據管理與分析平臺項目為背景,根據數據計算結算加載到讀者模型以及資源數據模型中,逐步實現構建讀者以及資源畫像。裘惠麟、邵波的《基于用戶畫像的高校圖書館精準服務設計》[10]搭建了高校圖書館精準服務系統(tǒng)邏輯平臺,從數據庫層、中間層和客戶層方面利用用戶畫像工具對圖書館的精準服務加以技術實現。據此研究與現狀,圖書館專業(yè)館員服務可以借鑒該領域的成功模式,將用戶畫像及智能推薦技術融合引入專業(yè)館員個性化服務應用領域。
圖書館的信息數據量比較龐大,一般包括讀者用戶使用圖書館各項資源情況,如各庫室使用情況、館藏書目借閱情況和數字資源閱讀、下載信息,另外還有內部產生的館員的工作日志、圖書編目數據、視頻監(jiān)控數據、各庫室環(huán)境監(jiān)控等。這些數據受存儲能力限制沒能及時保存和利用,但隨著智慧圖書館的建設,機房的數據存儲計算能力不斷提高,這些結構和非結構化,表面上看似關聯度不大的數據經過分析挖掘,可以找出很多隱性的、未知的但卻非常有價值的信息。例如,通過對數字資源檢索、閱讀、下載情況的分析,可以得到包括讀者的信息需求分類、數字資源使用習慣、館內參考咨詢效率等信息。通過用戶畫像處理這些大量涌現的信息數據可以更加高效地服務讀者。
專業(yè)館員是知識服務中必不可少的角色。通過用戶畫像工具可以在學科服務方面分析師生學術畫像,根據師生的科研方向開展定題服務、參考咨詢等,實現專業(yè)館員和對口院系的精準對接,提升服務效率。對圖書館系統(tǒng)已形成的用戶數據則需對咨詢的讀者進行識別和判斷,進而推測其愛好及需求,并據此提供相關的搜索建議及幫助,使讀者可以又快又準獲取信息。專業(yè)館員也可以根據用戶畫像對用戶行為進行分析,根據其收藏以及訂閱的內容進行定期文獻更新及消息推送,減少用戶搜索文獻的時間成本,為數字圖書館知識社區(qū)中的讀者用戶提供方便的服務。
在采編工作方面,分析師生閱讀畫像,可以幫助采編部門了解師生的借閱需求,從而建立精準、科學的采編機制。專業(yè)館員在開展服務工作時可以聯動采編部,整理讀者借閱和偏好的數據,通過用戶畫像工具進行分析、推薦購買相關的圖書和期刊,經采購編目并完成上架后,及時推送給所屬學院的師生和相關讀者,從而建立精準、科學、及時的采編機制。
圖書館藏書由大量的實體圖書、期刊、數字資源等文獻信息資源組成,如何開發(fā)利用好這些資源并推薦給讀者用戶就成為了專業(yè)館員工作的重點和難點。通過計算機系統(tǒng)開發(fā)利用文獻信息資源是主要的技術手段,但目前大部分專業(yè)館員對信息加工仍以手工為主,尚未建立科學系統(tǒng)的分析模型,資源的開發(fā)利用在很大程度上受到局限。以番職圖書館為例,該館的專業(yè)館員每月會統(tǒng)計各書庫暢銷書籍的借閱量、借閱頻率,通過宣傳海報、微信公眾號等媒介向讀者有針對性地推送好書。而如何精準選擇用戶群、推送適合的書籍就成了該館專業(yè)館員服務面臨的難題,利用用戶畫像原理設計系統(tǒng)模型就可以解決這方面的問題。首先由專業(yè)館員建立數據后臺,利用用戶畫像原理,對讀者群體、專業(yè)分類、內容興趣,閱讀行為等數據粘貼用戶標簽,最后計算分析出新一期圖書和期刊投放的媒介、時間、位置等信息,通過這樣系統(tǒng)的處理就可以實現精準地推薦好書。
圖書館OPAC 館藏圖書查詢系統(tǒng)是讀者用戶最熟悉、最常用的平臺檢索系統(tǒng)。目前OPAC系統(tǒng)不僅可以檢索館藏圖書資源,還整合了各種類型的數字資源和服務。如何利用該系統(tǒng)的用戶信息流,深入挖掘分析用戶行為,提高圖書館的資源檢索效率也成為專業(yè)館員的工作重點。將用戶畫像原理加入到OPAC 檢索系統(tǒng)可以設計出精準檢索查詢系統(tǒng),增加用戶體驗好感,方便讀者快捷地檢索到所需內容。以一位讀者在OPAC 系統(tǒng)中輸入“微信小程序”為關鍵字搜索閱讀資料為例,精準的畫像推薦系統(tǒng)就會發(fā)起請求命令并記錄下來,下一次該讀者再次登記OPAC系統(tǒng)時,與之相關的同類書目將出現在該用戶界面的顯著位置上,從而完善圖書館智慧化檢索查詢系統(tǒng)。
以番職圖書館進行閱讀推廣為例,有些主題活動并未了解大學生的真實需求,使得提供的服務適應性不足,某些情況下造成資源浪費[11]。利用用戶畫像工具則可在前期策劃時深度挖掘相關用戶的閱讀時間、個性需求、閱讀特征等數據,分析讀者的閱讀偏好,篩選出比較受讀者用戶喜愛的項目主題,進而提供差異化的主題服務,使閱讀與用戶需求有機結合[12],以便有的放矢地有開展閱讀推廣活動。
要獲得圖書館用戶畫像首先要獲取用戶的行為數據。高校圖書館用戶行為按用戶使用群體劃分可分為教職工和學生兩種,按使用資源類型又可以分為實體資源和數字資源兩種。
以數字資源為例,用戶先注冊一個賬號,基本上是名字、手機、性別、所屬學校、專業(yè)等,但這只是基礎數據。更重要的是用戶的使用記錄,如搜索內容、瀏覽內容、訪問數量、關注方向等一系列用戶行為軌跡,通過這些行為最后會變成幾千個事實標簽,成為分析用戶行為數據的一部分。目前數字資源用戶的行為數據多來源于資源商提供的日志和統(tǒng)計,得到行為數據后使用大數據分析函數進行分析。筆者對番職圖書館2018年1月至12月超星讀秀資源的使用數據進行簡單加工后生成的餅狀分析圖,如圖1所示。通過該分析圖得出,電子圖書(23187 次)的瀏覽量排第一位;期刊(10347 次)瀏覽排第三位(第二位首頁瀏覽排除)進行分析,提取的主要行為信息包括用戶的瀏覽內容、訪問數量,利用這些相關的信息進行歸屬,構成用戶的靜態(tài)信息庫,對收集得到的靜態(tài)信息庫數據進行分析,利用數據挖掘算法模型,抽取出用戶畫像標簽,構建用戶畫像標簽體系。
圖1
通過簡單的數據獲取分類后,圖書館專業(yè)館員可以按類型將這些數據打標簽,使計算機能夠程序化處理這部分信息,如用戶的姓名、性別、年齡、專業(yè)、研究方向、職稱等級和該用戶的搜索內容、瀏覽內容、訪問數量等關鍵信息,然后根據數據的關聯程度和用戶所需求的專業(yè)服務進行偏好分析,也可以通過網絡爬蟲技術,跟蹤用戶在圖書館數字資源中的行為數據,如設置“攝影”或“會計”等這樣的關鍵字,對瀏覽借閱過的用戶的次數、頻率進行統(tǒng)計。通過以上數據挖掘的方式獲取到更加精準的信息數據,從而進行精準的信息推送和定題服務。
設置以下樣例進行用戶畫像行為數據分析:(1)某讀者用戶;(2)某個時間段;(3)借閱了一本《大眾攝影》書籍。
對該樣例簡單分析可以得出,這個借閱行為標簽不能判斷目標用戶是專業(yè)攝影的師生,有可能是隨手翻閱的師生,也有可能是非攝影專業(yè)的師生,這個時候就需要通過更多的行為標簽來判斷用戶群體的屬性。
設定一個比較簡單的標簽權重算法:
興趣標簽(攝影)權重=行為權重*訪問時長*衰減因子
行為權重:什么都不干+1,參與書評+0.5,續(xù)借+1,再借閱同類書籍+2
時長權重:3天以內權重為0.5,3-10天為1,10天以上為2
衰減因子:0-3 天內權重為 0.5,3-7 天權重為1,7-15 天權重為0.8,15-30 天權重為0.5,30 天以上權重為0.1
興趣標簽權重=行為權重*訪問時長*衰減因子
行為權重數值是指參與書評、續(xù)借、再借同類書籍等行為操作后產生的不同的數值,對其累加構成行為權重。
時長權重數值指借閱停留時長。借閱時長一般代表對該書的興趣程度,停留的時間越長,時間權重也越高。但借閱時間并不能代表最佳的閱讀興趣,需加入衰減因子進行控制。
衰減因子數值指最佳閱讀時長。一般認為,正常的一本書3~7 天的借閱時間長是最有興趣愛好的閱讀時間,短期借閱行為和逾期行為均無法代表正常的閱讀習慣,所以衰減因子權重呈波浪型曲線。
根據以上標簽權重算法,圖書館用戶每次的借閱行為都會生成一個加了權重的興趣標簽,這個標簽會將該用戶一段時間內所有的借閱類目進行興趣權重累加計算,再用S 形函數標準化,就可以得到一個介于0至10的區(qū)間興趣標簽值。標簽值越高,用戶對該類目(如攝影)的偏好程度就會越高。接下來這些偏好會被轉換為特征向量。假設攝影標簽值是8,閱讀時間段是5,閱讀時長段是2,就可以用向量表示為r(8,5,2)。這樣就可以把特征向量理解成三維空間上的一個坐標,通過把每一個用戶的向量坐標代入余弦公式或距離公式(見圖2)中,就能計算出相似的用戶,進而把用戶分類畫像,專業(yè)館員就可以按用戶畫像分類提供針對性服務。
圖2 用戶特征三維圖
根據以上方法計算出用戶特征三維圖后,用戶畫像系統(tǒng)就能獲得基本計算方法,將搜索內容、瀏覽內容、訪問數量等信息組成模型,通過模型使計算機程序化、系統(tǒng)化處理這部分信息,進而從雜亂的標簽中找到用戶真正的興趣點,勾勒出讀者用戶基本面貌和需求,實現構建用戶畫像,指導專業(yè)館員進行精準服務。
目前通過以上這些行為數據只能計算出偏好,無法判斷出用戶的性別、學術研究程度等更加具體的個人屬性。這就需要把已知性別和學歷的用戶作為樣本,一部分用來訓練模型,一部分用來測試準確度。測試最后專業(yè)館員就能得到一個相似程度達80%以上的用戶畫像模型,專業(yè)館員可以通過這個模型圖歸納并定位到對應服務群體,完善精準度。
筆者提出一種以用戶畫像為工具的高校圖書館專業(yè)館員學科服務方法,闡述了從采集數據到形成標簽、計算權重、建立模型等利用讀者用戶畫像數據進行專業(yè)服務的思路,使專業(yè)館員開展工作時能夠更加精確地服務到有需求的人群。利用圖書館用戶畫像還可以使用戶在利用圖書館的實體資源和數字資源的過程中得到更加人性化的體驗。