潘永紅
(河源市圖書館,廣東 河源 517000)
數(shù)字信息時代,我國圖書館的數(shù)字資源建設(shè)步入飛速發(fā)展時期,呈現(xiàn)數(shù)字資源發(fā)展快于數(shù)字資源服務能力的現(xiàn)狀[1]。同時,圖書館的用戶需求也呈現(xiàn)個性化和多樣化特征,這就需要圖書館尋求新技術(shù)方案以建立新型資源管理系統(tǒng),以滿足用戶的新需求[2]。在此背景下,公共圖書館積極探索以用戶為中心的個性化服務模式,其實質(zhì)就是公共圖書館文獻資源的重組與再造,高效匹配用戶的個性化需求,切實提高服務效率。
公共圖書館進行文獻資源重組與再造是文獻資源多樣性發(fā)展和用戶需求復雜性發(fā)展的必然要求。一方面,由于數(shù)字資源開發(fā)商在建設(shè)數(shù)字資源時未按照統(tǒng)一的數(shù)據(jù)格式標準或采用一些國際標準,導致文獻資源呈現(xiàn)多樣化特征,期刊文獻、會議文獻、專利文獻等被基于文獻類別或信息類型制作成文獻資源,公共圖書館則主要通過購買形成各種類型的文獻資源庫,而因部分文獻資源的檢索手段存在差異,降低了用戶的查詢使用效率,因此,公共圖書館有必要重組與再造文獻資源,形成統(tǒng)一的服務界面[3]。另一方面,由于用戶存在隱性需求和顯性需求,他們難以有效辨別自身的有效需求,這就導致用戶需求呈現(xiàn)復雜性特征,這就需要公共圖書館立足于用戶有效需求,實現(xiàn)文獻資源的重組與再造,切實做到精準服務[4]。
公共圖書館文獻資源重組與再造就是基于資源優(yōu)化重新配置文獻資源,不僅要求專業(yè)性和針對性強,即根據(jù)各個知識節(jié)點重組與再造文獻資源,還要求具備可擴充性和可移植性,即重組與再造的文獻資源能夠隨時填充文獻和實現(xiàn)即時多平臺共享[5]。在信息化和數(shù)字化時代,文獻資源的海量化、多樣化、復雜化對資源重組與再造提出了新的挑戰(zhàn),而大數(shù)據(jù)技術(shù)能夠提高文獻資源的處理效率,助力文獻資源重組與再造。
大數(shù)據(jù)指的是數(shù)據(jù)集合,該數(shù)據(jù)集合無法在有限時間內(nèi)被獲取、存儲、檢索、分享、分析和可視化[6]。大數(shù)據(jù)具備4V特征,即數(shù)據(jù)量大(Volume)、數(shù)據(jù)處理速度快(Velocity)、數(shù)據(jù)種類繁多(Variety)、數(shù)據(jù)價值密度低(Value)。大數(shù)據(jù)技術(shù)是對傳統(tǒng)數(shù)據(jù)技術(shù)的升級,貫穿數(shù)據(jù)處理流的各個環(huán)節(jié),如數(shù)據(jù)查詢、數(shù)據(jù)存儲、數(shù)據(jù)分享、數(shù)據(jù)展現(xiàn)、數(shù)據(jù)應用等環(huán)節(jié)。當前,社會已步入大數(shù)據(jù)時代,這是一個數(shù)據(jù)驅(qū)動的智慧時代,社會各領(lǐng)域都被大數(shù)據(jù)技術(shù)所改變,圖書館領(lǐng)域也受到大數(shù)據(jù)技術(shù)的顯著影響。
圖書館文獻資源重組與再造是通過對現(xiàn)有數(shù)據(jù)資源進行關(guān)聯(lián)、重組、加工、再造,從而提高數(shù)據(jù)資源價值的過程[7],其中,數(shù)據(jù)信息資源主要包括存儲的文字、圖像、視頻等各種數(shù)字資源。
公共圖書館文獻資源重組與再造包括構(gòu)建與推薦兩個層面。構(gòu)建層面主要是基于某種“情境”對文獻資源進行重組與再造,形成學科庫、知識庫、智庫等情境化資源庫,情境化資源庫是精準化、個性化的文獻資源重組與再造結(jié)果,能夠有效實現(xiàn)數(shù)據(jù)資源的價值增值。推薦層面主要是基于用戶對重組與再造的情境化資源庫進行個性化推送,其策略機制是通過用戶偏好、用戶需求、用戶習慣、用戶行為等定制各種個性化推薦策略,最終實現(xiàn)精準化推薦。公共圖書館文獻資源重組與再造要素見圖1。
公共圖書館文獻資源重組與再造是在傳統(tǒng)“用戶—資源”模型的基礎(chǔ)上加入情境,比如位置、時間、需求、偏好,形成“用戶—情境—資源”模型,見下頁圖2。“用戶—情境—資源”模型的突出貢獻是對用戶、情境、資源之間的三元關(guān)系進行有效整合,將情境因素引入文獻資源重組與再造系統(tǒng),從而實現(xiàn)為不同情境、不同興趣的用戶推薦其個性化需求信息。在“用戶—情境—資源”模型中,資源與情境相關(guān)聯(lián),情境與用戶相關(guān)聯(lián),情境將用戶和資源結(jié)合起來,為資源與用戶的關(guān)聯(lián)架起橋梁,形成圖書館文獻資源重組與再造情境過程?!坝脩簟榫场Y源”模型的文獻資源服務是三階段的遞進式服務:首先,將用戶弱相似關(guān)系變?yōu)閺娤嗨脐P(guān)系,資源弱關(guān)聯(lián)關(guān)系變?yōu)閺婈P(guān)聯(lián)關(guān)系;其次,通過文獻資源重組與再造情境產(chǎn)生個性化文獻資源集合;再次,結(jié)合情境信息和內(nèi)容過濾,獲取與用戶的弱相似用戶的偏好信息或其歷史情境信息,為用戶推送適合當前情境的信息。
3.2.1 以大數(shù)據(jù)為基礎(chǔ),基于歷史和內(nèi)容相結(jié)合的情境算法。首先,采用大數(shù)據(jù)技術(shù)獲取用戶的歷史偏好和內(nèi)容;其次,采用大數(shù)據(jù)技術(shù)計算用戶在不同情境下對不同文獻資源的偏好概率;再次,采用大數(shù)據(jù)技術(shù)測算用戶偏好與待測文獻資源的相似度,推薦資源屬性與用戶當前情境最匹配的N個文獻資源。在該情境算法中,Context(C)為當前情境,包括位置、時間、天氣等;Context(H)為歷史情境,是Context(H1)、Context(H2)......Context(Hn)等特定歷史時期的集合。
3.2.2 以大數(shù)據(jù)為基礎(chǔ),基于協(xié)同過濾的情境算法。首先,采用大數(shù)據(jù)技術(shù)界定與目標用戶某一文獻資源相關(guān)的m個弱相似用戶,并且將這m個弱相似用戶的偏好文獻資源歸入推薦集;其次,采用大數(shù)據(jù)技術(shù)界定與目標用戶所有關(guān)聯(lián)文獻資源相關(guān)的所有弱相似用戶,并將所有弱相似用戶喜歡的文獻資源歸入推薦集;再次,根據(jù)相似性算法選取與目標用戶類似且排名最靠前的N個文獻資源并推薦給目標用戶。在該情境算法中,如果用戶k、j在某個時間段同時查閱了文獻r,則用戶k與用戶j為弱相似用戶,文獻r為關(guān)聯(lián)文獻資源。
“用戶—情境—資源”模型借助大數(shù)據(jù)整合與處理技術(shù)、語義挖掘和關(guān)聯(lián)技術(shù),實現(xiàn)公共圖書館文獻的重組與再造,并將重組與再造的文獻資源推薦給目標用戶。在重組與再造的文獻資源推薦過程中,將區(qū)分老用戶與新用戶,并針對不同用戶采用不同情境算法,如:對老用戶采用基于歷史和內(nèi)容相結(jié)合的情境算法,對新用戶采用基于協(xié)同過濾的情境算法。具體步驟如下。
3.3.1 針對老用戶的文獻資源推薦。①初始化。設(shè)定目標用戶的情境相似度閡值a,以及設(shè)定預推薦的文獻資源數(shù)N。②測算目標用戶當前情境Context(C)與歷史情境Context(H)的相似度。
其中,Count(C1c)、Count(C2c)....Count(Cnc)表示在歷史情境信息Context(H)中出現(xiàn)的頻數(shù)。分子為匹配頻數(shù)之和,分母為情境維度與預推薦的文獻資源數(shù)N之積。③判斷情境相似度。如果目標用戶當前情境Context(C)與歷史情境Context(H)的相似度大于閡值a,則直接計算用戶興趣度,否則引入位置、時間天氣等情境計算用戶興趣度,否則則引入位置、時間、天氣等歷史情境,計算興趣度,并采用加權(quán)法計算推薦得分:
Scoreij=Weighti*Sim(Topici,Resoj)
其中,Topici為第i個相似歷史情境下的興趣;weighti為第i個相似歷史情境下興趣的權(quán)重,Resoj為第j個信息資源,Scoreij為第i個興趣與第j個信息資源的興趣度加權(quán)得分。④文獻資源輸出。依據(jù)Score得分,從高到低取前N個文獻資源進行推薦。
3.3.2 針對新用戶的文獻資源推薦。①界定目標用戶的弱相似用戶集合。假設(shè)U為所有用戶的集合,U0為目標用戶,采用大數(shù)據(jù)技術(shù)查詢U0在某個時間段T內(nèi)使用過的文獻資源信息,并將其中評價最高的N個文獻資源整合為文獻資源集,并查詢在該時間段內(nèi)使用過上述文獻資源集信息的其他用戶,界定為U1、U2......Un,則Ui(i=1、2......n)為弱相似用戶集。②計算基于某個關(guān)聯(lián)文獻資源的偏好集合。假設(shè)目標用戶U0在T時間內(nèi)文獻資源集的某個文獻資源為k,查詢在T時間內(nèi)使用了文獻資源k的j個弱相似用戶,即U1、U2......Uj,分析整理上述j個弱相似用戶的文獻資源使用記錄,選擇與k最相似的、評價最高的文獻資源列入偏好集合,形成目標用戶U0在T時間內(nèi)基于文獻資源k的相似文獻資源集。③計算基于所有關(guān)聯(lián)文獻資源的偏好集合。依據(jù)上述方法,得出目標用戶U0在T時間內(nèi)其他k-1個文獻資源的相似文獻資源集,將所有的相似文獻資源集進行統(tǒng)計分析,計算各個文獻資源的頻數(shù),依據(jù)頻數(shù)大小由高到低對所有相似文獻資源集的文獻資源進行排序,篩選出排名前N名的文獻資源,并將這N個文獻資源推薦給目標用戶?;凇坝脩簟榫场Y源”模型的重組與再造的文獻資源推薦見圖3。
文獻資源的多樣性和用戶需求的復雜性特征要求圖書館進行文獻資源重組與再造,以精準匹配用戶的有效需求。大數(shù)據(jù)技術(shù)為公共圖書館文獻資源重組與再造提供了技術(shù)支撐,在融入情境要素的“用戶—情境—資源”模型中,基于大數(shù)據(jù)的歷史和內(nèi)容相結(jié)合的情境算法以及協(xié)同過濾的情境算法,可以有效實現(xiàn)文獻資源的重組與再造,并分別為老用戶和新用戶匹配精準資源。