孫彥、向彩霞、趙曉媛、鄒翼/北京航天長征科技信息研究所
本項目基于航天某研究院圖書館APP 用戶應用場景,引入用戶畫像技術(shù),將研究院數(shù)字圖書館用戶數(shù)據(jù)可視化與文獻資源建設(shè)相融合,通過了解不同讀者的文獻使用需求,重點標識關(guān)鍵用戶,并通過技術(shù)手段了解用戶文獻信息需求變化趨勢;加強用戶管理和研究,構(gòu)建研究院圖書館APP 用戶需求數(shù)據(jù)模型,為研究院圖書館服務模式創(chuàng)新開辟新路徑。
該技術(shù)在國外圖書館領(lǐng)域的應用始于20 世紀80 年代中,其研究范圍包括定義、方法等理論方面;具體實踐應用方面,對應用技術(shù)、系統(tǒng)平臺等開展了相應工作。人們逐步認識到用戶畫像可以實現(xiàn)精準文獻信息服務。隨著信息化技術(shù)的迅猛發(fā)展,用戶畫像技術(shù)算法正逐漸成為國外學者的主要研究方向,采用特定的算法構(gòu)建不同的場景用戶模型,成為研究文獻用戶特征的重要手段之一。
該方法在國內(nèi)行業(yè)領(lǐng)域的探索和使用也逐漸增多,相關(guān)研究主要集中在定義內(nèi)涵外延等方面。與圖書館具體業(yè)務工作相結(jié)合的實踐主要表現(xiàn)在定制化服務方面?;谀承?shù)字圖書館應用場景,通過深入分析相關(guān)算法與技術(shù)、框架模型設(shè)計及構(gòu)建流程,構(gòu)建標簽體系,利用因子分析等篩選符合條件的用戶畫像數(shù)量,為技術(shù)運用奠定基礎(chǔ)。
交互設(shè)計之父AlanCooper 最早提出用戶畫像是真實用戶的虛擬表現(xiàn),是建立在一系列真實數(shù)據(jù)之上的目標用戶模型,這是針對該技術(shù)較早的概念研究。在數(shù)字圖書館用戶服務中,會產(chǎn)生大量的使用痕跡,如登錄、瀏覽、檢索、下載等數(shù)據(jù),我們稱之為行為數(shù)據(jù)。結(jié)合用戶基礎(chǔ)信息數(shù)據(jù),利用計算機技術(shù)模擬出用戶的虛擬畫像,勾勒出不同用戶的信息全貌,呈現(xiàn)出不同用戶利用、獲取數(shù)字資源的行為特點。
時效性。用戶在使用數(shù)字圖書館文獻資源的過程中,經(jīng)常會因工作計劃、研究方向、項目調(diào)整等因素影響,對文獻資源的獲取產(chǎn)生不同的行為特征,這些特征時效性顯著。
迭代性。行為特征構(gòu)成的用戶畫像會隨著時間的變化不斷更迭,不同的時間段會呈現(xiàn)出不同的結(jié)果。因此,該技術(shù)具有迭代性。
可視性。通過收集用戶使用的各種數(shù)據(jù),篩選甄別后進行多角度的統(tǒng)計分析,利用信息技術(shù)描繪出用戶的整體模型,統(tǒng)計維度越多模型越明晰具體,表現(xiàn)出了可視性。
群集性。通過分析統(tǒng)計相關(guān)用戶的數(shù)據(jù),展現(xiàn)某一類用戶的相同特點,具備了群集的特征。同一集合中用戶對象具有鮮明的相似點,利用計算機技術(shù)將這些相似點進行連接可制作出關(guān)聯(lián)圖譜。
構(gòu)建完整的用戶畫像,需要對用戶的基本數(shù)據(jù)和行為數(shù)據(jù)從多維度、多層次進行描述?;跀?shù)字圖書館的實際情況,基本數(shù)據(jù)主要包括機構(gòu)用戶的賬號名稱、個人用戶的讀者卡號。行為數(shù)據(jù)主要包括登錄時長、登錄次數(shù)、下載量、檢索量、檢索關(guān)鍵詞、各數(shù)據(jù)庫訪問量、點擊量等。
用戶畫像的流程建構(gòu)主要有采集并過濾數(shù)據(jù)、畫像建模、完成畫像三個步驟。
第一步,采集并過濾數(shù)據(jù)。數(shù)據(jù)來源按照構(gòu)建維度分為基礎(chǔ)數(shù)據(jù)和行為數(shù)據(jù)。通過對注冊系統(tǒng)、登錄賬號等進行采集可獲得基礎(chǔ)數(shù)據(jù);行為數(shù)據(jù)一般通過智能采集系統(tǒng)的日志方式獲取。采集到的原始數(shù)據(jù)存在數(shù)據(jù)缺失、錯誤、冗余等問題,為了減少這些數(shù)據(jù)對建模的影響,需要進行篩選、過濾等,并對數(shù)據(jù)進行標準化,確保數(shù)據(jù)的有效性。
第二步,畫像建模。本階段是對過濾后的數(shù)據(jù)進行建模的過程,抽取用戶基本數(shù)據(jù)和行為數(shù)據(jù),運用相關(guān)的計算機技術(shù)為用戶進行標簽。
第三步,畫像完成。在第二步的基礎(chǔ)上,加入可視化技術(shù)因素對用戶標簽體系進行系統(tǒng)梳理,呈現(xiàn)用戶畫像。
為提升航天某院數(shù)字圖書館文獻服務能力,2019 年底,該館完成了數(shù)字移動圖書館APP 的開發(fā),2020 年初,該院圖書館APP 正式上線,為研究院讀者提供文獻資源服務。用戶可以利用碎片時間,充分發(fā)揮智能移動平臺的優(yōu)勢提高工作和學習效率。
用戶畫像作為一種服務創(chuàng)新,是對用戶獲取文獻的行為軌跡進行重構(gòu),通過計算機技術(shù)得到虛擬化的用戶形象,迅速定位服務對象、為實施文獻資源的精準采購提供重要參考。
該技術(shù)在該院掌上圖書館APP 的運用主要基于該APP 的歷史數(shù)據(jù)為用戶進行行為描繪。通過對其進行有目標的篩選與標準化處理,過濾掉無效數(shù)據(jù),大幅度提升數(shù)據(jù)的可用性。
構(gòu)建用戶畫像主要通過挖掘用戶獲取文獻資源背后的痕跡,采用可視化的方式將獲取的有效數(shù)據(jù)進行呈現(xiàn)。挖掘信息包括基礎(chǔ)數(shù)據(jù)和行為數(shù)據(jù)兩個主要方面。基礎(chǔ)數(shù)據(jù)指的是用戶在注冊登錄時主動提供的信息。行為數(shù)據(jù)指的是用戶在使用研究院圖書館APP 時根據(jù)自己的主觀意識行為留下的使用足跡。這兩種數(shù)據(jù)組成了用戶畫像的體系架構(gòu)。
圖書館在用戶數(shù)據(jù)的采集中,緊密圍繞用戶展開?;A(chǔ)數(shù)據(jù)主要包括姓名、性別、職稱、單位、專業(yè)、注冊時間、電話、郵箱、通訊地址等。行為數(shù)據(jù)主要包括登錄、登錄時長、瀏覽、檢索、常用檢索詞下載量、收藏、發(fā)送分享等。
用戶畫像獲取的具體方法是采用日志采集系統(tǒng)實時收集用戶行為數(shù)據(jù),包括用戶打開APP 的時間、使用時長、檢索、瀏覽、下載等行為,記錄為行為數(shù)據(jù)日志。存儲在系統(tǒng)處理(hdfs/kafka)系統(tǒng)中的hBase 表中。
通過數(shù)據(jù)源管理、數(shù)據(jù)映射、抽取任務管理等技術(shù),從hBase 表中提取用戶標簽。利用支持主流結(jié)構(gòu)化數(shù)據(jù)直接通過可視化方式生成知識圖譜,再采用可編程關(guān)系設(shè)置的D2R 組件生成畫像,如圖1 所示。
圖1 用戶畫像獲取方法流程圖
航天某院圖書館APP 有兩種注冊方式,第一種需提供機構(gòu)賬號和讀者卡號,機構(gòu)賬號和讀者卡號關(guān)聯(lián)的具體信息只儲存在內(nèi)部電腦中,不進入互聯(lián)網(wǎng)環(huán)境。第二種需提供手機號便可注冊,未與其它個人信息關(guān)聯(lián)。這兩種方式注冊后,在登錄使用中的權(quán)限不同,關(guān)聯(lián)賬號用戶可實現(xiàn)研究院圖書館APP 所有功能的操作。無論哪種用戶在使用過程中均會產(chǎn)生大量的行為數(shù)據(jù),如登錄時間、登錄時長、瀏覽的界面、使用的數(shù)據(jù)庫、使用的檢索詞、下載量(手機號用戶除外)、收藏情況等。
在航天某院圖書館APP 系統(tǒng)統(tǒng)計模塊集中采集數(shù)據(jù),形成用戶標簽數(shù)據(jù)庫。其中針對有關(guān)用戶基本屬性進行描述可形成用戶基本信息標簽,這類標簽只有關(guān)聯(lián)機構(gòu)賬號的讀者卡號和沒有與信息關(guān)聯(lián)的手機號兩種。行為屬性的特征描述形成行為標簽,通過標簽體系,對信息進行分類整合,形成畫像數(shù)據(jù)庫,再通過抽取分析,最終形成畫像模型。具體標簽分類見表1。
表1 航天某院圖書館APP系統(tǒng)用戶標簽體系
通過一系列信息抽取技術(shù),在獲取了用戶信息標簽后,再通過對復雜文檔數(shù)據(jù)進行有效的加工、處理、整合,轉(zhuǎn)化為簡單、清晰的“標簽、關(guān)系、標簽”的三元組,聚合大量信息,實現(xiàn)信息的快速響應和推理,最后生成可視化的用戶統(tǒng)計分析的畫像,完成用戶畫像。
通過多維度對機構(gòu)用戶、個人用戶數(shù)據(jù)統(tǒng)計形成畫像,尤其對檢索詞的統(tǒng)計分析,能夠準確地得知用戶的需求,為研究院圖書館的資源建設(shè)提供技術(shù)支撐。
用戶畫像技術(shù)在研究院圖書館APP 上的應用,促使該館由過去以資源為主轉(zhuǎn)型到以服務為主,創(chuàng)新了圖書館服務理念。通過技術(shù)引進優(yōu)化了傳統(tǒng)的服務模式,使線上服務更精準。
該技術(shù)在研究院圖書館APP 的成功應用,是基于用戶在該APP 實際應用場景開展的。構(gòu)建研究院圖書館APP 用戶畫像,為實現(xiàn)精準信息服務奠定了良好的技術(shù)基礎(chǔ)。
通過對用戶畫像的研究分析,將研究結(jié)果應用到資源采購的流程中,可為實現(xiàn)精準采購的決策提供重要參考,從而確保文獻資源建設(shè)的質(zhì)量、節(jié)約了建設(shè)成本。由于服務模式的轉(zhuǎn)型帶來管理方法的改變,進而實現(xiàn)了管理效能的提升。
航天某院數(shù)字圖書館是該院科研生產(chǎn)、管理決策的有效支撐和重要保障。后續(xù),該館將基于用戶畫像推薦內(nèi)容,進一步完善、豐富用戶畫像,使用戶畫像從針對用戶潛在需求的研究,延伸到對用戶持續(xù)性、實時性需求的研究;通過抓住用戶興趣,滿足用戶需求,提升其閱讀專注度、愉悅度,建立起用戶對數(shù)字圖書館的長期依賴。未來可以實現(xiàn)跨部門跨項目組共性需求的畫像呈現(xiàn)。