李云華 李新廣
[摘要]個性化推薦是解決數(shù)字圖書館資源“既多又少”矛盾的有效途徑,分發(fā)模式是個性化推薦研究的重要內(nèi)容。本文系統(tǒng)研究了數(shù)字圖書館資源個性化推薦所涉及的各種分發(fā)模式,給出了分發(fā)模式的執(zhí)行流程和形式化定義,并提供相應實例。
[關鍵詞]數(shù)字圖書館;分發(fā)模式;個性化推薦;形式化定義
DOI:10 3969/j.issn 1008-0821.2015.06.011
[中圖分類號]G250.73 [文獻標識碼]A [文章編號]1008-0821(2015)06-0054-04
隨著數(shù)字圖書館館藏資源的急劇增加、人們生活節(jié)奏和知識更新速度的不斷加快,數(shù)字圖書資源“既多又少”的矛盾日益突出。如何從浩瀚的圖書資源中準確和及時地獲取用戶感興趣的內(nèi)容,已成為大數(shù)據(jù)時代數(shù)字圖書館領域亟待解決的迫切課題?;跀?shù)據(jù)挖掘技術的數(shù)字圖書的個性化推薦是解決該問題的有效途徑。分發(fā)模式是個性化推薦研究的重要內(nèi)容,合適的分發(fā)模式能夠針對特定用戶實現(xiàn)圖書資源的高效分發(fā)。根據(jù)用戶和系統(tǒng)互動角色的不同,數(shù)字圖書資源的分發(fā)可分為拉取模式和推送模式兩類:拉取模式是用戶提供檢索條件,系統(tǒng)被動返回檢索結(jié)果的分發(fā)模式;推送模式則根據(jù)用戶的需求特征,系統(tǒng)主動推薦滿足用戶需求的圖書資源。為了使計算機能夠準確理解分發(fā)模式的相關算法,進而實現(xiàn)圖書資源的高效分發(fā),分發(fā)模式的形式化表達尤為重要。本文系統(tǒng)研究了數(shù)字圖書館資源個性化推薦所涉及的各種分發(fā)模式,設計了分發(fā)模式的執(zhí)行流程,并給予形式化定義。
1.拉取模式
拉取模式是用戶主動提供查詢條件,系統(tǒng)根據(jù)用戶給定的查詢條件,返回查詢結(jié)果的信息分發(fā)模式。標準檢索和智能檢索是拉取模式的兩種實現(xiàn)方式,其區(qū)別在于拉取過程中用戶的興趣偏好是否被考慮在內(nèi)。
1.1標準檢索
標準檢索是一種傳統(tǒng)的檢索方式,是用戶通過數(shù)字圖書館的借閱端瀏覽器獲取圖書資源的常用方式。在標準檢索中,系統(tǒng)嚴格匹配用戶輸入的檢索條件,并返回符合檢索條件的圖書資源。其執(zhí)行流程如圖1所示,形式化定義如定義1。標準檢索的執(zhí)行流程為:①用戶通過人機交互界面輸入檢索條件;②Web服務器接收到檢索條件后,遍歷數(shù)據(jù)服務器中的圖書資源,根據(jù)檢索條件對資源進行過濾;③web服務器將檢索結(jié)果返回給用戶;④若有新資源入館,圖書館員通過管理端將新資源的信息入庫并予以維護。
由于標準檢索不考慮用戶的偏好特征,因而即便用戶需求有所差異,只要檢索條件相同,返回的結(jié)果就完全一致。估值函數(shù)μ(Bi)的值域為[0,1],當目標資源Bi完全符合用戶的需求時,估值函數(shù)取值為1,完全不符合用戶需求時取值為0,否則根據(jù)符合程度的不同取值為介于0和1之間的某個值;T為估值函數(shù)的閾值;R(retr)為針對檢索條件retr和用戶需求特征的系統(tǒng)返回結(jié)果,它是由滿足條件retr且由估值函數(shù)μ(Bi)算得的效用度大于閾值T的B中的資源Bj(j=1,2,…,m)的集合;m為返回的結(jié)果集中的資源數(shù)量;e為不滿足條件retr的B中的資源的集合。
例如,假設數(shù)字圖書館中存在資源集合B={《人工免疫系統(tǒng)與GIS空間分析應用》,《地理信息系統(tǒng)(GIS)與森林資源管理》,《GIS設計與實現(xiàn)》,《城市地理學》},用戶的題名檢索條件為retr=“GIS”,則日中的前三項資源由于均包含了“GIS”關鍵詞,因而布爾函數(shù)h(Bi,retr)的取值均為true,最后一項資源則取值為false,相應地,經(jīng)過匹配函數(shù)h(Bk,retr)過濾的結(jié)果為R1={《人工免疫系統(tǒng)與GIS空間分析應用》,《GIS設計與實現(xiàn)》,《地理信息系統(tǒng)(GIS)與森林資源管理》}。若估值函數(shù)μ(Bi)相應的用戶模型為userPro={(人工免疫,0.5),(森林,0.8),(城市,0.2)},估值函數(shù)的閾值為T=0.3,則由估值函數(shù)對R1中的資源排序并去除效用度小于閾值T的資源,最終系統(tǒng)的返回結(jié)果為R(retr)={(《地理信息系統(tǒng)(GIS)與森林資源管理》0.8),(《人工免疫系統(tǒng)與GIS空間分析應用》0.5)}。
2.推送模式
推送模式是根據(jù)用戶的需求特征,系統(tǒng)主動返回相關結(jié)果的信息分發(fā)模式,主要包括系統(tǒng)主動推薦、用戶訂閱推送或者兩種推送形式相結(jié)合等類型。在推送模式中,系統(tǒng)根據(jù)用戶的定制條件、訂閱內(nèi)容,或者通過分析用戶的信息獲取歷史發(fā)掘其偏好特征,進而確定用戶感興趣的內(nèi)容,并將其主動推送給用戶。推送模式能夠主動搜集用戶感興趣的信息并予以推薦,幫助用戶高效發(fā)掘潛在的有價值的信息。
2.1主動推薦
主動推薦不需要用戶輸入檢索條件,而是根據(jù)用戶偏好模型等用戶需求表達,估算目標圖書資源滿足用戶需求的程度,并將估算值大于所設閾值的資源主動推薦給用戶。其執(zhí)行流程如圖3所示,形式化定義如定義3。主動推薦的執(zhí)行流程為:①根據(jù)用戶的圖書資源獲取歷史,建立用戶偏好模型等用戶需求表達;②Web服務器動態(tài)監(jiān)控數(shù)據(jù)服務器中的資源變更,若有新資源入庫,則啟動主動推薦機制;③Web服務器根據(jù)用戶的偏好特征計算資源的效用度,并根據(jù)效用度的大小對資源進行優(yōu)劣排序;④Web服務器將排序后的結(jié)果返回給用戶;⑤若有新資源入館,圖書館員通過管理端將新資源的信息入庫并予以維護。
定義3:設數(shù)字圖書館中的資源集合B={B1,B2,…,BN},描述資源滿足用戶需求程度的估值函數(shù)為μ(Bi)估值函數(shù)由反映用戶需求特征的用戶偏好模型等決定,其值域為[0,1],閾值為T),則滿足用戶需求的資源對象的集合為,該種資源的獲取方式即為數(shù)字圖書館資源的主動推薦。n為B中的資源數(shù)量;估值函數(shù)μ(Bi)的值域為[0,1],當目標資源Bi完全符合用戶的需求時,估值函數(shù)取值為1,完全不符合用戶需求時取值為0,否則根據(jù)符合程度的不同取值為介于0和1之間的某個值;T為估值函數(shù)的閾值;R為針對用戶需求特征的系統(tǒng)推薦結(jié)果,它是由估值函數(shù)μ(Bi)算得的效用度值大于閾值T的B中的資源Bi(i=1,2,…,m)的集合;m為返回的結(jié)果集中的資源數(shù)量。endprint
例如,假設數(shù)字圖書館中存在資源集合B={《人工免疫系統(tǒng)與GIS空間分析應用》,《地理信息系統(tǒng)(GIS)與森林資源管理》,《GIS設計與實現(xiàn)》,《城市地理學》},若估值函數(shù)μ(Bi)相應的用戶偏好模型為userPro={(人工免疫,0.5),(森林,0.8),(城市,0.2)},估值函數(shù)的閾值為T=0.3,則由估值函數(shù)對B的資源進行排序并去除小于閾值T的資源,系統(tǒng)推薦的資源為R={(《地理信息系統(tǒng)(GIS)與森林資源管理》,0.8),(《人工免疫系統(tǒng)與GIS空間分析應用》,0.5)}??梢姡鲃油扑]過程中,不需要用戶輸入檢索條件,系統(tǒng)直接根據(jù)先前建立的用戶偏好模型決定推薦的資源內(nèi)容及推薦強度。
2.2訂閱推送
訂閱推送,或叫訂閱分發(fā),它根據(jù)用戶事先訂制的條件和方式主動分發(fā)符合用戶要求的資源。與主動推薦不同的是,訂閱推送一般不具備強大的用戶偏好建模功能,不能進行用戶偏好特征的挖掘。一般而言,訂閱推送的功能較為單一,用戶的定制條件較為簡單和機械。其執(zhí)行流程如圖4所示,形式化定義如定義4。訂閱推送的執(zhí)行流程為:①用戶定制訂閱推送的條件;②Web服務器動態(tài)監(jiān)控數(shù)據(jù)服務器中的圖書資源變更,若有新資源入庫,則啟動訂閱推送機制;③Web服務器根據(jù)用戶的訂閱推送條件過濾圖書資源;④Web服務器將符合用戶訂閱條件的結(jié)果返回給用戶;⑤若有新資源入館,圖書館員通過管理端將新資源的信息入庫并予以維護。
例如,假設數(shù)字圖書館中存在資源集合B={《人工免疫系統(tǒng)與GIS空間分析應用》,《地理信息系統(tǒng)(GIS)與森林資源管理》,《GIS設計與實現(xiàn)》,《城市地理學》},其中,《地理信息系統(tǒng)(GIS)與森林資源管理》為期刊,其余均為圖書。用戶的訂閱條件為retr=“type”=‘圖書&title llke,%GIS%”,則《地理信息系統(tǒng)(GIS)與森林資源管理》和《城市地理學》由于分別不屬于圖書和不包含“GIS”關鍵詞而被濾去,從而系統(tǒng)的推送結(jié)果R(subs)={《人工免疫系統(tǒng)與GIS空間分析應用》,《GIS設計與實現(xiàn)》}。
3.結(jié)束語
本文系統(tǒng)分析數(shù)字圖書館資源個性化推薦所涉及的各種分發(fā)模式,設計標準檢索、智能檢索、主動推薦、訂閱推送等分發(fā)模式的執(zhí)行流程,并給予形式化定義。鑒于分發(fā)模式在數(shù)字圖書資源個性化推薦過程中的重要性,本文的研究具有一定的理論和現(xiàn)實意義。同時,本文數(shù)字圖書館資源分發(fā)模式的形式化定義方法,對其他領域的信息分發(fā)研究與實踐,也具有通用意義。
(本文責任編輯:郭沫含)endprint