胡薇薇
關(guān)鍵詞:多源數(shù)據(jù);數(shù)據(jù)融合;數(shù)字圖書館;用戶偏好挖掘模型
摘?要:文章介紹了多源數(shù)據(jù)融合技術(shù)的概念和功用,分析了數(shù)字圖書館構(gòu)建用戶偏好挖掘模型的目的,探討了用戶偏好挖掘模型的設(shè)計原則、設(shè)計目標、設(shè)計框架,提出了基于多源數(shù)據(jù)融合的數(shù)字圖書館用戶偏好挖掘模型的構(gòu)建策略,以期提升數(shù)字圖書館的服務(wù)水平,為用戶提供優(yōu)質(zhì)的信息服務(wù)。
中圖分類號:G250文獻標識碼:A文章編號:1003-1588(2020)02-0075-02
隨著計算機技術(shù)的發(fā)展及信息資源數(shù)量的增多,數(shù)字圖書館數(shù)據(jù)呈多源數(shù)據(jù)發(fā)展趨勢,用戶的信息需求也更加多元化。因此,如何將多源數(shù)據(jù)與用戶的個性化信息需求結(jié)合起來,方便用戶在海量的數(shù)據(jù)資源中提取所需信息,已成為數(shù)字圖書館亟須解決的問題。筆者利用多源數(shù)據(jù)融合技術(shù)建立了數(shù)字圖書館用戶偏好挖掘模型,以期提升數(shù)字圖書館的信息資源利用率和服務(wù)水平,為用戶提供優(yōu)質(zhì)的信息服務(wù)。
1?多源數(shù)據(jù)融合技術(shù)
多源數(shù)據(jù)融合技術(shù)指采用特定算法和手段對多個信息分析調(diào)查結(jié)果進行有效綜合和評價,并將評價結(jié)果進行有效統(tǒng)一的技術(shù)。該技術(shù)的目的是將各種不同的數(shù)據(jù)信息進行綜合,根據(jù)不同數(shù)據(jù)源的特點,從中提取出統(tǒng)一的、比單一數(shù)據(jù)更好、更豐富的信息。由于錯誤的數(shù)據(jù)對象直接影響多源數(shù)據(jù)融合的結(jié)果,不同類型的數(shù)據(jù)有不同的用途,數(shù)字圖書館要對多源數(shù)據(jù)進行篩選,確定合適的融合對象,并對確定的數(shù)據(jù)源進行預(yù)處理。數(shù)據(jù)源的不同使數(shù)據(jù)在類型、結(jié)構(gòu)方面存在不同,不同的數(shù)據(jù)類型和結(jié)構(gòu)會大大增加多源數(shù)據(jù)融合的難度,有時甚至?xí)?dǎo)致多源數(shù)據(jù)融合的失敗,因此數(shù)字圖書館有必要對多源數(shù)據(jù)進行預(yù)處理。數(shù)字圖書館不僅可采用現(xiàn)有的數(shù)據(jù)預(yù)處理技術(shù),如數(shù)據(jù)流技術(shù)等,對多源數(shù)據(jù)的格式、類型、結(jié)構(gòu)進行統(tǒng)一處理,確保所有數(shù)據(jù)的互聯(lián)互通,還可利用數(shù)據(jù)庫技術(shù)、圖像處理技術(shù)等對多源數(shù)據(jù)進行有效處理,確保所選多源數(shù)據(jù)的真正融合、統(tǒng)一。
2?數(shù)字圖書館用戶偏好挖掘的需求分析
隨著信息技術(shù)的不斷發(fā)展,用戶個人隱私被泄露的現(xiàn)象越來越多,很多用戶在訪問網(wǎng)絡(luò)時通常會采用匿名訪問的方式,以便對自己的隱私信息進行有效保護。因此,學(xué)術(shù)界主要對注冊用戶的偏好進行了研究,卻忽略了匿名訪問用戶的偏好。數(shù)字圖書館應(yīng)根據(jù)用戶偏好,如專業(yè)特長、行為習(xí)慣、個人愛好等,對用戶的信息需求進行挖掘。
2.1?用戶檢索需求的分析
隨著人工智能、云計算技術(shù)的不斷發(fā)展,圖書館應(yīng)利用先進技術(shù)對館藏資源進行有效管理,調(diào)整信息檢索方式,為用戶檢索信息提供便利。事實上,用戶在圖書館查閱館藏紙質(zhì)資源的過程中需要花費大量的時間。因此,數(shù)字圖書館應(yīng)及時調(diào)整信息檢索方式,滿足用戶的多元化信息需求,提升館藏資源利用率。
2.2?用戶偏好模型分析
用戶檢索、借閱紙質(zhì)圖書資源會在圖書館管理系統(tǒng)中產(chǎn)生操作記錄,如圖書信息、用戶信息等。數(shù)字圖書館可對這些信息數(shù)據(jù)進行深入分析,挖掘用戶的閱讀偏好,建立科學(xué)的用戶偏好模型,為用戶提供優(yōu)質(zhì)的信息服務(wù)。
2.3?用戶偏好推薦需求分析
目前,多數(shù)圖書館根據(jù)圖書資源的類型及存儲檢索方式建立了數(shù)字圖書館服務(wù)平臺。隨著圖書資源的日益增多,用戶不能快速獲取所需資源。因此,數(shù)字圖書館應(yīng)對館藏紙質(zhì)資源進行數(shù)字化,將相關(guān)資源的鏈接放到網(wǎng)站主頁,根據(jù)用戶的閱讀偏好,為他們推薦合適的資源,滿足他們的多元化信息需求。
3?基于多源數(shù)據(jù)融合的數(shù)字圖書館用戶偏好挖掘模型設(shè)計
數(shù)字圖書館應(yīng)采用多源數(shù)據(jù)融合技術(shù)對用戶偏好進行挖掘分析,建立用戶偏好挖掘模型,為他們推薦合適的資源,滿足他們的信息需求。數(shù)字圖書館在設(shè)計用戶偏好模型的過程中要制定明確的設(shè)計目標和設(shè)計原則,并對設(shè)計框架的可行性進行分析。
3.1?用戶偏好挖掘模型的設(shè)計原則
數(shù)字圖書館在設(shè)計用戶偏好挖掘模型的過程中應(yīng)結(jié)合館藏資源的特點和用戶的閱讀偏好,以實用性為設(shè)計原則,同時兼顧個性化。數(shù)字圖書館應(yīng)根據(jù)用戶的閱讀偏好設(shè)計模型流程,確定系統(tǒng)內(nèi)容,及時滿足用戶的多元化信息需求。
3.2?用戶偏好挖掘模型的設(shè)計目標
構(gòu)建用戶偏好挖掘模型,為用戶提供個性化信息服務(wù)是數(shù)字圖書館體系建設(shè)的核心內(nèi)容,該模型常常也被應(yīng)用于指導(dǎo)其他方面的工作。針對目前數(shù)字圖書館龐大的信息資源,其構(gòu)建用戶偏好挖掘模型的主要目的是為了有效化解館藏資源過載問題。因此,數(shù)字圖書館應(yīng)根據(jù)體系建設(shè)要求,將技術(shù)支持、資源配置及服務(wù)水平作為基于多源數(shù)據(jù)融合的用戶偏好挖掘模型設(shè)計的三個目標。技術(shù)支持目標是指數(shù)字圖書館基于多源數(shù)據(jù)融合技術(shù)建立一個操作性強、功能完備的框架體系,并與其他數(shù)字化技術(shù)進行無縫連接;資源配置目標是指數(shù)字圖書館根據(jù)用戶的閱讀偏好收集與處理信息資源,建設(shè)科學(xué)的信息資源數(shù)據(jù)庫;服務(wù)水平目標是指數(shù)字圖書館基于用戶偏好挖掘模型提高服務(wù)效率和服務(wù)質(zhì)量,展現(xiàn)清晰的服務(wù)流程和服務(wù)內(nèi)容。
3.3?用戶偏好挖掘模型的設(shè)計框架
基于多源數(shù)據(jù)融合的數(shù)字圖書館用戶偏好挖掘需要通過相應(yīng)的系統(tǒng)模塊實現(xiàn),因此數(shù)字圖書館可將B/S作為模塊構(gòu)建的架構(gòu)?;诙嘣磾?shù)據(jù)融合的數(shù)字圖書館在堅持設(shè)計原則和設(shè)計目標的前提下,可從數(shù)據(jù)應(yīng)用層、信息服務(wù)層、數(shù)據(jù)存儲層和基礎(chǔ)資源層四個層面構(gòu)建用戶偏好挖掘模型?;A(chǔ)資源層是整個用戶偏好挖掘模型構(gòu)建的基礎(chǔ),主要包括模塊構(gòu)建的物理資源,如高速無線網(wǎng)絡(luò)、圖書館網(wǎng)絡(luò)安全系統(tǒng)、數(shù)據(jù)交換服務(wù)器等;數(shù)據(jù)存儲層主要是為用戶偏好挖掘模型構(gòu)建的數(shù)據(jù)資源提供存儲支持,數(shù)據(jù)資源主要包括館藏資源、用戶信息及一些動態(tài)數(shù)據(jù)資源;信息服務(wù)層是用戶偏好挖掘模型構(gòu)建的重要環(huán)節(jié),主要是為整個模型流程提供功能支持;數(shù)據(jù)應(yīng)用層是展現(xiàn)用戶偏好數(shù)據(jù)信息的層面。
4?基于多源數(shù)據(jù)融合的數(shù)字圖書館用戶偏好挖掘模型的構(gòu)建
4.1?用戶偏好信息提取
用戶在使用數(shù)字圖書館過程中留下了大量的記錄信息,這些信息包括用戶的借閱信息、瀏覽網(wǎng)頁信息、檢索關(guān)鍵詞及專業(yè)特長等,數(shù)據(jù)量大,呈多源特點。數(shù)字圖書館可采用多源數(shù)據(jù)融合技術(shù)對用戶的記錄信息進行統(tǒng)一整理與分析,提取用戶的偏好數(shù)據(jù)信息。數(shù)字圖書館可根據(jù)用戶的偏好數(shù)據(jù)信息,構(gòu)建用戶偏好挖掘模型,進而為他們提供優(yōu)質(zhì)的信息服務(wù)。
4.2?用戶偏好挖掘模型的構(gòu)建
用戶偏好挖掘模型具有一定的特殊性和使用局限性,因此,數(shù)字圖書館要利用數(shù)據(jù)過濾技術(shù)對多源數(shù)據(jù)進行過濾,利用多源數(shù)據(jù)融合技術(shù)對海量用戶偏好數(shù)據(jù)進行挖掘,找出有價值的數(shù)據(jù)信息,分析內(nèi)在規(guī)律,為用戶偏好挖掘模型的構(gòu)建奠定基礎(chǔ)。數(shù)字圖書館可通過分析用戶偏好信息的規(guī)律,找出對用戶借閱產(chǎn)生影響的關(guān)鍵因素。影響用戶借閱的主要因素包括用戶特征信息、借閱信息及圖書特征信息。數(shù)字圖書館可設(shè)置一類、二類特征索引,將圖書頁碼、圖書標識號、圖書出版日期及用戶注冊時間、登錄次數(shù)、登錄時間等設(shè)置為一類特征索引,將圖書借閱時間、借閱次數(shù)、標注習(xí)慣及用戶學(xué)歷、專業(yè)方向、性別、愛好等設(shè)置為二類特征索引,利用多源數(shù)據(jù)融合技術(shù)對影響用戶的借閱因素進行歸類分析,準確描述與用戶偏好相關(guān)的信息,進而構(gòu)建用戶偏好挖掘模型。
參考文獻:
[1] 武龍龍,李桂華.高校數(shù)字圖書館匿名用戶偏好模型研究[J].情報科學(xué),2014(2):21-23.
[2] 孫雨生,仇蓉蓉,黃傳慧,等.國內(nèi)數(shù)字圖書館個性化服務(wù)研究主題演化分析[J].情報理論與實踐,2014(8):104-107.
[3] 沈敏,楊新涯,王楷.基于機器學(xué)習(xí)的高校圖書館用戶偏好檢索系統(tǒng)研究[J].圖書情報工作,2015(11):14-17.
[4] 李娜.數(shù)字圖書館個性化推薦系統(tǒng)研究[J].農(nóng)業(yè)圖書情報學(xué)刊,2015(9):76-77.
[5] 王偉.基于數(shù)據(jù)挖掘的圖書館用戶行為分析與偏好研究[J].情報科學(xué),2012(3):51-53.
[6] 葉春蕾,馮璐,冷伏海.數(shù)字圖書館個性化服務(wù)中用戶弱信息需求模型研究[J].圖書情報工作,2012(15):121-123.
(編校:孫新梅)