宋 翠
(河南水利與環(huán)境職業(yè)學院,鄭州 450000)
基于云計算的數(shù)字圖書館研究
宋 翠
(河南水利與環(huán)境職業(yè)學院,鄭州 450000)
為提高數(shù)字圖書館智能化與個性化服務,借助云計算強大的計算及后臺處理能力,實現(xiàn)數(shù)字圖書館的智能化服務。首先,對云環(huán)境下數(shù)字圖書館的自適應系統(tǒng)內容及形式做詳細介紹;其次,對關鍵模塊進行了詳細闡述;最后,運用實例仿真,驗證本文方法在數(shù)字圖書館智能化及個性化服務的性能表現(xiàn)。
云計算;數(shù)字圖書館;自適應系統(tǒng);FCM聚類;Apriori關聯(lián)規(guī)則
1.1自適應系統(tǒng)作用
數(shù)字圖書館的自適應系統(tǒng)在傳統(tǒng)數(shù)字圖書館的基礎上增加了智能反饋,負責適應性推送和更新閱讀內容、智能檢索以及個性化首頁呈現(xiàn)。這種自適應系統(tǒng),能夠更好地增強數(shù)字圖書館的智能化、個性化和交互性。
自適應的其他作用還有個人首頁的定制,界面風格的個性化等。用戶首頁提示用戶的登陸次數(shù),用戶關注領域的信息更新動態(tài),如新書預告,資源預覽等。
1.2自適應主要表現(xiàn)形式
1.2.1自適應信息檢索
信息檢索是用戶查找資源的主要方法,現(xiàn)有的數(shù)字圖書館大部分沒有考慮用戶的差異,對于所有用戶,輸入相同,反饋搜索結構就相同,用戶要找到自己的需求,還需要在大量的搜索結果中逐一尋找,搜索效率低。這種方法沒有考慮用戶的知識背景、興趣愛好,自適應檢索根據(jù)不同用戶的只是背景及興趣愛好返回不同的結果,最接近用戶專業(yè)的結果將返回在最前頁。
自適應檢索將用戶檢索條件列為關鍵字列表,將用關鍵字列表搜索得到的結果與用戶個性化信息相結合,最后返回搜索結果至頁面,可以運用向量空間和矢量模型將用戶信息進行節(jié)點歸類,并與關鍵字搜索結果匹配后進行結果輸出。
1.2.2自適應推薦
自適應推薦是根據(jù)用戶信息將滿足用戶習慣的資源進行線上線下的個性化推薦,用戶登錄圖書館系統(tǒng)后,進行在線推送符合用戶習慣的信息,比如新書推薦、用戶感興趣領域新文獻等,不再呈現(xiàn)統(tǒng)一的登陸首頁;同時在線下推薦,當有了滿足用戶需求的文獻資料后,及時通過郵件和短信方式通知用戶。
2.1用戶數(shù)據(jù)標準化
可以得到原始數(shù)據(jù)矩陣為
獲得原始數(shù)據(jù)之后,便可以對數(shù)據(jù)進行標準差變換:
變換之后,所有變量單位量綱都去除,且均值為0,標準差為1,下面進行極差變換:
變換之后,所有變量取值均為[0,1]之間。
已經建立了原始矩陣后,根據(jù)原始矩陣,建立模糊相似矩陣,模糊相似矩陣表示的是各對象之間的相似程度,計算ijr的方法主要有如下6種:
夾角余弦法求解相似系數(shù)
相關系數(shù)法求解相似系數(shù)
最大最小值法
算術平均與最小值法
幾何平均與最小值法:
計算出rij后便可以得到模糊相似矩陣,得到的是不同元素之間的相似度,比如現(xiàn)在可以確定某一用戶的專業(yè)為工科專業(yè),且計算機專業(yè)還是通信專業(yè)這兩者之間的相似程度較高,至于用戶具體是什么專業(yè)還需要通過聚類來完成。
2.2FCM聚類
數(shù)字圖書館的聚類主要實現(xiàn)三方面內容:圖書館資源項聚類、用戶檢索項聚類、用戶推薦項聚類。
根據(jù)圖書資源項聚類,可以根據(jù)所有用戶的搜索情況,及用戶的專業(yè)及學歷,聚類分析得到不同圖書類別的需求情況,從而及時補充供給相應圖書;用戶檢索項聚類主要是根據(jù)用戶的檢索情況,記錄用戶的搜索偏好,以便為用戶提供個性化服務,聚類分析根據(jù)用戶多次的搜索情況及模糊矩陣結果,進行歸類,判斷該用戶檢索分類屬于哪個類別;用戶推薦類是根據(jù)用戶的訪問數(shù)據(jù)進行聚類,決定給用戶推薦相關類型的文獻資料。
本文采用模糊聚類C算法(FCM)進行用戶數(shù)據(jù)聚類。首先需要明確4個基本定義:
定義二:數(shù)據(jù)樣本XA的完整率η:
定義三:數(shù)據(jù)樣本kx對聚類分析的影響因子kα
定義四:數(shù)據(jù)樣本xi與xj之間的相似度βij:
樣本kx與子集的隸屬關系用來表示,為了記錄多個子集的隸屬函數(shù),采用矩陣的方式來完成,記作
X的模糊C劃分空間fcM:
FCM算法的計算過程是在保證目標函數(shù)mJ最小的同時,求解劃分矩陣與聚類原型的過程。mJ的計算表達式為:
迭代規(guī)則公式如下:
2.3Apriori關聯(lián)規(guī)則應用
關聯(lián)規(guī)則為自適應檢索和自適應推薦提供過濾標準的,當用戶輸入關鍵字進行信息檢索時,系統(tǒng)首先會返回所有關于該關鍵字的搜索結果,然后將這些結果通過關聯(lián)規(guī)則過濾,優(yōu)先顯示與用戶訪問習慣相關的內容,與用戶搜索習慣不一致的內容放在后續(xù)頁面顯示,以便最大程度地保證客戶在首頁就能找到用戶需要的內容。
關聯(lián)規(guī)則挖掘用于發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關聯(lián)或相關聯(lián)系,可以根據(jù)用戶檢索資源的某一項因素來多用戶資源需求的整個行為模式進行判別。
定義1:關聯(lián)規(guī)則的關聯(lián)度:即同時包含X和Y的事務集與所有事務集之間的比例,記為support(X?Y)。即:
定義2:關聯(lián)規(guī)則的可信度:即同時包含X和Y的事務集與僅包含X的事務集之間的比例,記為confidence(X?Y),即:
定義3:當項目集關聯(lián)度support(X)大于閾值minsup,稱該項目集是頻繁項目集。
云計算為數(shù)字圖書館建設提供了便捷,本文從數(shù)字圖書館的智能化與個性化服務角度出發(fā),分析云計算在數(shù)字圖書館建設中所起作用,借助云計算的強大計算能力的優(yōu)勢,建立數(shù)字圖書館的自適應系統(tǒng),為用戶提供個性化服務,這對數(shù)字圖書館建設具有深遠意義,擁有廣闊的市場應用前景。
主要參考文獻
[1]邱瑾,吳丹.協(xié)同信息檢索用戶行為研究方法綜述[J].信息資源管理學報,2012(1).
[2]王偉.基于數(shù)據(jù)挖掘的圖書館用戶行為分析與偏好研究[J].情報科學,2012(3).
10.3969/j.issn.1673-0194.2015.02.125
G250.76
A
1673-0194(2015)02-0170-02
2014-12-26