賀幸陽 高明澤
(湘潭大學 湖南湘潭 411105)
泛在信息環(huán)境下,高校用戶不再滿足于圖書館被動的傳統(tǒng)文獻服務模式,多元的信息需求正推動著知識服務向精準化、個性化的方向發(fā)展。因此,高校圖書館不僅需要在日常業(yè)務中熟悉自身資源優(yōu)勢,更應對該單位用戶現(xiàn)實需求、潛在需要有系統(tǒng)的了解。早在1998 年,交互設計之父Alan Cooper 就已提出“用戶畫像”這一概念。近年來,這一精準營銷技術被廣泛應用于各行各業(yè),在勾畫用戶、捕獲需求方面取得了相當不錯的成績[1]。當前語境下,用戶畫像技術通常是指將采集來的用戶數(shù)據(jù)抽象化并深度挖掘(聚類、關聯(lián)等)獲得可視化圖形的信息處理過程[2]。國外學者認為通過引入用戶畫像技術,可以發(fā)現(xiàn)讀者階段性的閱讀偏好與行為規(guī)律,從而解釋不同用戶群體間的行為差異,以此為突破口實現(xiàn)知識服務模式的轉(zhuǎn)型升級。目前,我國高校圖書館,尤其是以湖南省為代表的中西部地區(qū)高校尚在智能化轉(zhuǎn)型過程中,數(shù)據(jù)容量與數(shù)據(jù)分析處理能力相對較弱,故而,該研究立足高校圖書館“小數(shù)據(jù)”的當前特點[3],秉承數(shù)字生態(tài)的系統(tǒng)理念,制訂出高效率、差異化的數(shù)據(jù)采集方案,將模型體系的數(shù)據(jù)預處理層、標簽建模層、用戶畫像生成層環(huán)環(huán)緊扣,使信息得以被各個環(huán)節(jié)高效利用。通過成功的用戶畫像體系實時跟進高校圖書館用戶畫像,并在此基礎之上,設計建構(gòu)出針對個體讀者、群體用戶的不同服務模式,改善高校圖書館服務環(huán)境與知識服務使用率,提升用戶體驗感與滿意度,促進高校學科發(fā)展。
1.1.1 需求之維
高校圖書館面向本單位廣大知識人才,提供著高質(zhì)量的教學科研服務,在日常工作中不僅需要保證一定的時效性,同時也需要滿足用戶主體多方位、高層次的專業(yè)需求并對館藏資源就內(nèi)容與結(jié)構(gòu)做出階段性的反饋、優(yōu)化。采取用戶畫像技術根據(jù)用戶的檢索記錄、興趣范圍等,對其個性化的知識需求做出高效、客觀的預判,從而針對性地輸送知識服務,及時滿足高校用戶豐富需求,極大程度上改變當前知識供需不平衡的窘境,有效推動“互聯(lián)網(wǎng)+”時代高校圖書館服務質(zhì)量轉(zhuǎn)型升級。
1.1.2 技術之維
用戶畫像技術的基礎理論、系統(tǒng)框架已經(jīng)十分成熟,廣泛應用于企業(yè)營銷、行業(yè)研究、產(chǎn)品效率優(yōu)化事業(yè),這為高校圖書館勾畫精準用戶“肖像”提供了有力的理論支持與參考經(jīng)驗。針對不同結(jié)構(gòu)化程度的館藏信息資源,通過多種算法的協(xié)同調(diào)用,可以形成分布式平臺對數(shù)據(jù)進行收集與統(tǒng)一,從而為分層標簽、分群標簽再到個性化標簽這一深度細化過程提供客觀依據(jù),最終獲悉用戶的現(xiàn)實知識需求、潛在信息需要。與此同時,多數(shù)高校圖書館已經(jīng)具備實時獲取并保存用戶行為數(shù)據(jù)的能力[4],這為構(gòu)建全面、真實的用戶畫像提供了數(shù)據(jù)基礎與保障。
1.2.1 了解個性需求,提升用戶體驗
近年來,高校圖書館信息資源系統(tǒng)不斷疊加,用戶往往需要在浩如煙海的內(nèi)容中檢索出極少數(shù)相關的部分,這為廣大用戶帶來了不小的干擾。通過用戶實時行為數(shù)據(jù)的積累,利用關聯(lián)和聚類算法構(gòu)建用戶畫像,能夠及時、有效地對用戶需求及偏好做出預判,實現(xiàn)需求的“可視化”、服務的主動性,優(yōu)化知識獲取效率,提高用戶滿意度、忠誠度。
1.2.2 助力學科服務,發(fā)揮高校優(yōu)勢
通過對用戶需求偏好的挖掘,高校圖書館可以將碎片化、特質(zhì)化的微知識實現(xiàn)精準推送,這對于提高高校圖書館信息資源利用率起到了橋梁作用[5]。與此同時,對用戶畫像系統(tǒng)的反饋結(jié)果進行解讀分析,有效減少了長期存在的重復建設問題并對現(xiàn)有學科服務體系的缺失做出及時的填補、完善。憑借微知識服務推送平臺,高校圖書館用戶的學習與科研興趣被大大激發(fā),碎片化的啟發(fā)逐漸向系統(tǒng)性研究過渡,高校圖書館館藏資源優(yōu)勢、用戶群體力量得以充分發(fā)揮。
根據(jù)相關性原則與適度性原則,綜合考慮到小數(shù)據(jù)迭代快、維度高等特點[6],高校圖書館并不需要處理全部的用戶信息,這樣既規(guī)避了多余數(shù)據(jù)的干擾,又保證了用戶畫像良好的價值密度。因此,及時、精準的多維度用戶數(shù)據(jù)是成功構(gòu)建用戶畫像的重要前提。在基本的數(shù)據(jù)預處理后,時效性強、準確性高的數(shù)據(jù)集能夠?qū)τ脩舻牟町惢瘶撕炦M行清晰的描述。在高校圖書館業(yè)務中,圖書館門戶網(wǎng)站、學校圖書檢索平臺、科研成果管理系統(tǒng)、門禁系統(tǒng)數(shù)據(jù)庫、用戶社交平臺等構(gòu)成了用戶數(shù)據(jù)的主要來源,通過上述渠道,高校圖書館可以有效獲取用戶的個人基本信息、實時行為數(shù)據(jù)、研究偏好信息等[7]。目前,高校圖書館一般采取用戶一卡通賬號作為登錄端口,構(gòu)建用戶畫像的數(shù)據(jù)基礎。
目前高校圖書館所能收集并充分利用的用戶信息主要包含以下四類:用戶基本信息數(shù)據(jù)、用戶行為日志數(shù)據(jù)、用戶社交網(wǎng)絡數(shù)據(jù)、用戶科研成果數(shù)據(jù)。其中,用戶基本信息數(shù)據(jù)囊括高校圖書館用戶的姓名、年齡段、專業(yè)、教育層次、職稱等,其作用在于初步還原用戶的自然屬性及社會屬性;用戶行為日志數(shù)據(jù)是由圖書檢索平臺、移動閱讀終端等記錄的數(shù)據(jù)構(gòu)成,主要包括:訪問時間、訂閱渠道、下載頻次、登錄頻率、檢索途徑、停留時間、移動終端設備、內(nèi)容收藏、檢索速度等。除此之外,圖書館綜合管理系統(tǒng)數(shù)據(jù)庫會記錄下用戶的借閱次數(shù)、歸還狀態(tài),門禁系統(tǒng)也會保存用戶個人的刷卡信息;用戶社交網(wǎng)絡數(shù)據(jù)則是用戶通過慕課平臺、微信、QQ進行的轉(zhuǎn)發(fā)分享、業(yè)務咨詢等組成;用戶科研成果數(shù)據(jù)是用戶學術研究成果的記錄,由科研成果管理系統(tǒng)、機構(gòu)數(shù)據(jù)庫獲取,包括用戶科研項目、發(fā)表學術論文、出版專著、引用文獻等,反映了高校圖書館用戶的研究主題與脈絡。
筆者基于生態(tài)系統(tǒng)能量傳遞的相關理論,仿照生態(tài)系統(tǒng)中的各主要元素對高校圖書館用戶畫像模型架構(gòu)進行基本規(guī)劃。由此構(gòu)建出如下的數(shù)據(jù)傳遞生態(tài)模型:實時的用戶信息流(數(shù)據(jù)采集層)作為最初的“能量”,提供著模型建構(gòu)的基礎依據(jù);合理的信息組織及處理(數(shù)據(jù)預處理層)如同“植被”一類的生產(chǎn)者,將海量無序的信息固化為具有較高價值密度的規(guī)范化數(shù)據(jù)集;數(shù)據(jù)的存儲與分析(數(shù)據(jù)標簽建模層)發(fā)揮著初級消費者的作用,使得數(shù)據(jù)可以更為輕松地被下一層級“利用吸收”;數(shù)據(jù)的可視化(用戶畫像生成層)作為二級或三級消費者,生成可供直接使用的模型結(jié)果。在此期間,各層級間信息的反饋如同分解者,再次促進信息的流動。綜上,數(shù)據(jù)采集層通過實時更近用戶信息,獲取可靠數(shù)據(jù)來源,數(shù)據(jù)預處理層完成數(shù)據(jù)的基本梳理工作,數(shù)據(jù)標簽建模層進一步優(yōu)化其價值密度,最終由用戶畫像生成層獲取可視性成果。
3.2.1 數(shù)據(jù)采集層
數(shù)據(jù)采集層由圖書館用戶管理系統(tǒng)、高校圖書館信息門戶網(wǎng)站、社交網(wǎng)絡平臺、檢索系統(tǒng)、科研成果管理系統(tǒng)等共同組成,作為用戶畫像模型構(gòu)建的基礎設施層,起著溝通用戶、設施與管理系統(tǒng)的重要作用。程真提出圖書館可以依據(jù)年齡、職業(yè)、教育背景等社會屬性對用戶進行初步分類,使用戶的知識需求、價值取向呈現(xiàn)出較小的組內(nèi)差異與較顯著的組間差異[8],再依據(jù)各自需求特點,對用戶進行大致分層,繼而針對不同層次的用戶采取最適宜的數(shù)據(jù)收集方案,這將大大提高建模的效率與適用性。鑒于高校圖書館面向用戶的特定性,該文將用戶主要劃分為通識導向型用戶與專識導向型用戶兩類[9]。通識導向型用戶是以獲取非專業(yè)、非職業(yè)性知識為主要需求的用戶,大量分布于本科低年級學生中;專識導向型用戶則是以獲取專業(yè)性、職業(yè)性知識信息為主要需求的用戶群體,主要分布于高校教師、科研人員、本科高年級學生與研究生群體。通過圖書館管理系統(tǒng),可以輕松獲取高校讀者的屬性信息數(shù)據(jù)集。由于在較長時間內(nèi)用戶的屬性信息基本穩(wěn)定,故而設計重心應是對不同群體的行為信息采取有差異的收集方案。基于對以上兩類群體的訪談調(diào)研與大量文獻閱讀,筆者認為通識導向型用戶的數(shù)據(jù)維度應聚焦于行為日志數(shù)據(jù)、社交數(shù)據(jù),而專識導向型用戶的數(shù)據(jù)采集應當考慮科研成果的更新。
3.2.2 數(shù)據(jù)預處理層
數(shù)據(jù)預處理是針對數(shù)據(jù)采集層所獲得的原始數(shù)據(jù)進行分組前必要的審核、篩選、排序。就目前高校圖書館數(shù)據(jù)集成與管理狀況來看,數(shù)據(jù)格式不齊、不規(guī)范乃至缺失等一系列問題仍然廣泛存在,這一方面是涉及多系統(tǒng)平臺的參與,另一方面實則是海量數(shù)據(jù)下操作不規(guī)范、系統(tǒng)bug在所難免。因此,對原始數(shù)據(jù)進行預處理就成為了高校圖書館建構(gòu)用戶畫像模型的必要環(huán)節(jié)。在數(shù)據(jù)預處理層,將逐一完成數(shù)據(jù)的清理、集成、變換和歸約。這些必要的處理操作大大提高了數(shù)據(jù)資料的價值密度,進一步確保了數(shù)據(jù)挖掘工作的效率。與此同時,規(guī)范、完整、格式適用的數(shù)據(jù)集合,也為用戶畫像模型平穩(wěn)運行筑起了一道“數(shù)據(jù)長城”。
3.2.3 數(shù)據(jù)標簽建模層
構(gòu)建用戶畫像的核心工作是對用戶屬性數(shù)據(jù)與行為數(shù)據(jù)提取特征因子并做出標簽化的自然語言描述,繼而形成一套兼具準確性與泛化性的多層分類標簽體系。首先,鑒于高校圖書館自身資源特性,在標簽粒度的關鍵問題上既要防止粒度過粗缺乏區(qū)分度,又要避免由于粒度過細影響實用性。結(jié)合對相關文獻的閱讀,本文將標簽體系設計為精細的多層架構(gòu)。其中,每類一級標簽經(jīng)過細化衍生出若干二級標簽、三級標簽,通過對三級標簽進行賦值,使信息關聯(lián)到用戶數(shù)據(jù),成為用戶的事實標簽。接著,通過對事實標簽進行數(shù)據(jù)挖掘獲取關鍵的特征標簽。目前,用戶畫像技術主要有人工方式、計算機方式兩類方法完成對用戶特征的提取。其中,人工提取的方法對研究人員的知識、經(jīng)驗背景具有較高要求,其結(jié)果也具有較強主觀性,故而該研究主要探討計算機方式下的用戶畫像建模。計算機提取方法是通過機器學習的方式,自動獲取用戶特征因子,主要利用了決策樹、神經(jīng)網(wǎng)絡、K均值聚類算法、邏輯回歸、支持向量機等常用算法,具有高效快速、實時跟進的特點,更能適應信息體量不斷膨脹、用戶范圍日益擴大的現(xiàn)狀。例如:高校圖書館需要在短時間內(nèi)了解該單位用戶的主要研究方向時,就可以調(diào)用科研項目名稱和參與人員、科研論文題目與合作者、出版專著題名及合著者等事實標簽,再結(jié)合興趣衰減法給予相應權(quán)重,快速獲取用戶研究方向的特征標簽。
3.2.4 用戶畫像生成層
在完成數(shù)據(jù)標簽體系構(gòu)建后,通過對用戶標簽的深度處理可以形成直觀、生動的可視化圖形。在此基礎上,高校圖書館可以從微觀層面完成用戶需求的合理預測。此外,對本單位全部用戶的個人數(shù)據(jù)(如專業(yè)信息、文獻下載等)進行關聯(lián)分析、相似度分析、降維處理(聚類)后,系統(tǒng)可以構(gòu)建出交叉關聯(lián)的群體用戶畫像,這在中觀層面實現(xiàn)了協(xié)同過濾、優(yōu)先排序的個性化推薦,并在宏觀的角度上為用戶群體劃分、服務定位等戰(zhàn)略決策提供易于理解的依據(jù)。值得注意的是,在實際應用中,根據(jù)特定場景的需要,用戶畫像可視圖在表現(xiàn)形式上也具有相當大的靈活性,常用的形式主要包括詞云圖、人物頭像搭配個性化標簽、扇形圖、雷達圖等。
從服務對象的維度看,基于用戶畫像技術的精準知識服務模式主要分為:個體用戶服務模式和群體用戶服務模式兩類。個體用戶服務模式是依據(jù)個體畫像,開展一對一的個性化知識資源推送與學科服務跟進,實現(xiàn)對其文獻資源需求、學科服務需求的精準識別、快速匹配。針對個人用戶,服務主要包括線上推薦與線下咨詢兩種。線上推薦模式作為個體用戶獲取服務的主要途徑,通過在線個性化推薦系統(tǒng)將個人用戶畫像與本館文獻資源庫、學科服務數(shù)據(jù)庫進行實時匹配,調(diào)用協(xié)同過濾推薦算法列出用戶所需的“Top N”目錄,從而實現(xiàn)高效、快速的個性化知識服務,緩解了高校圖書館人力資源不足與服務需求激增的重要矛盾。線下咨詢模式具有更高知識價值,主要針對部分專識導向型用戶的特殊知識、情報需求,對高校圖書館人力資源條件有一定限制,適用于特定情境下的學科服務推薦、學科信息咨詢。
由于高校圖書館面向用戶的局限性,使其可以根據(jù)用戶院校專業(yè)、所在年級、參與項目經(jīng)歷等不同條件劃分出若干相對獨立的群體。群體用戶服務模式便是通過挖掘具有共同特征因子的讀者需求,了解其整體需要的時序特性,按照所得規(guī)律展開精準、及時的文獻資源輸送、學科服務推送等。與個體用戶服務模式不同,由于群體數(shù)量相對較少且易于集中,線下推薦的模式通常能夠得以推廣。在基礎的專業(yè)文獻資源推薦、學科服務項目推廣之外,學科館員通過與二級學院合作,可以有效地展開針對性的學術交流會、信息資源利用講座,解決讀者在科研選題、資料收集、研究實驗、論文撰寫等不同階段的迫切問題;同時針對院??蒲袌F隊在項目申請、驗收鑒定及成果申報中的需求,制訂個性化的知識服務方案,為高校學科發(fā)展保駕護航。
面對當前日益復雜的用戶需求,如果不能準確全面地洞悉讀者相關信息,精準化的知識服務將缺乏客觀依據(jù),從而導致方案適應性不強、用戶活躍度不高等一系列棘手問題。為此,該研究將用戶畫像技術與圖書館精準知識服務結(jié)合,首先在需求與技術兩個維度上論證了用戶畫像技術應用于高校圖書館精準化知識服務的可行性,并提出通過用戶畫像技術的引入,高校圖書館可以更好地提升讀者體驗、助力學科發(fā)展。繼而在數(shù)據(jù)來源、模型建構(gòu)規(guī)劃與流程上進行詳細說明。在模型建構(gòu)中保持著“生態(tài)一體”的理念,設計了高效、差異化的數(shù)據(jù)采集方案,將其后的數(shù)據(jù)預處理層、標簽建模層、用戶畫像生成層環(huán)環(huán)緊扣,使信息得以被各個環(huán)節(jié)高效利用。最后從服務群體維度,展開對服務模式的探討、建構(gòu),為高校圖書館利用用戶畫像技術實現(xiàn)全面精準化知識服務提供參考。