●張立春(中共太原市委黨校 圖書館,太原 030012)
圖書館服務平臺的管理方法非常多,由于其大量的信息流,采用不同的數據處理手段對平臺性能的影響也是很大的。[1]Web數據流控制技術是目前流行的一種技術手段,它的特點是針對大量的數據資源進行快速的處理、分類等。[2]對于高等院校的圖書館而言,充分利用網絡資源可以為廣大師生提供完善的數據信息,對于教育、科研都具有重要的意義。
采用先進的網絡化技術可以高效地利用教育教學資源,能提高教學質量,拓寬教學層次,使師生的思想更具備發(fā)散性,有利于高校教學綜合素質的提高。所以,開發(fā)高校的網絡教育平臺資源,是實現(xiàn)網絡資源整合服務的核心。
通過圖書館服務平臺的Web資源平臺實現(xiàn)整體網絡資源的整合,包括數據挖掘、資源分類、決策處理、網絡服務等的研究。應用Web資源與圖書館服務平臺相結合的思想,可以使整個高校的信息平臺更加完善。以Web資源數據挖掘等手段的平臺更適應多樣化用戶的使用,兼容了科研型教師梯隊、教學型教師梯隊以及學習型學生網絡的特點,有利于廣大師生在圖書館的大量數據中更快、更好地發(fā)現(xiàn)對應的有效信息。
目前,國內外對數據挖掘技術的研究日益火爆,在圖書館中應用數據挖掘技術從海量信息中提取有用信息已經是重要的發(fā)展方向之一。不但有助于圖書館的數字化、自動化的形成,還可以針對不同用戶的需求采取不同的應對措施。所以,基于Web資源平臺的數據挖掘技術在圖書館信息整理、處理等方面是非常實用的,也是世界各國的很多圖書館服務平臺的發(fā)展趨勢。
高校圖書館利用數據挖掘等技術主要是在文獻信息管理、信息服務和人員管理方面。因為傳統(tǒng)的圖書信息采集由專人完成,存在主觀因素,所以各分類學科的分配上有偏差,常常不能達到最佳利用的效果。采用數據挖掘、有效地分類,通過一些相關算法可以有效地將利用率不同的書刊資料區(qū)分出來,更好地完成圖書資源的分配。如通過數據挖掘中的動態(tài)關系圖找出圖書類別和借閱次數之間的函數關系,通過綜合分析而完成新書資源配比的問題。在信息服務方面,不再是被動式的借書還書模式,而是主動配置模式,根據不同的用戶特征為其提供不同的搜索服務,根據用戶的檢所要求,設計直接檢索效果以及一些相關鏈接,使數據資源更全面的展現(xiàn)在用戶面前。在人員管理方面,不再是簡單的層次管理和個人信息記錄等,而要求圖書館員的服務幫助等建立評價體系等,使服務更加的完善,從而激發(fā)館員的工作熱情,提供信息交流的平臺,提高其業(yè)務能力,為廣大讀者提供不同的服務。
利用統(tǒng)計分析、邏輯回歸、決策樹、粗糙集分類、BP神經網絡等多種算法,通過對用戶的行為、興趣等分析,將用戶的個性化需求與系統(tǒng)的服務平臺結合起來,為每個用戶提供更有針對性的服務,提高圖書資源的利用效率。
由于社會信息化過程中各個系統(tǒng)、軟件及數據庫之間關聯(lián)性差,而造成的數據共享性差,無法實現(xiàn)資源共享模式而導致系統(tǒng)效率低。各高校圖書館都有大量的數字化資源,如館藏圖書、全文期刊數據庫、學位論文數據庫等。如果能進行有效的數據交換,可以極大地拓寬各個高校的數字資源服務平臺。這個過程就需要Web資源共享技術,結合數據挖掘等技術手段實現(xiàn)圖書館服務平臺性能的高效化。綜合Web數據的特點,在短時間內可以處理大量數據,時間動態(tài)變化等情況,將Web數據挖掘技術應用于圖書館服務平臺建設中非常合適。
圖書館的數字化程度越來越高,通過數據挖掘技術為圖書館服務平臺提供技術支持。通過信息的整合,主動發(fā)掘各種讀者的閱讀需求,滿足讀者的不同想法,有利于信息多元化的發(fā)展。每種數據挖掘都有各自的特點和方式,對于Web數據挖掘技術也是如此,整個過程是一個相當復雜的算法處理的過程。這一過程是人機結合、處理循環(huán)、逼近目標、知識發(fā)現(xiàn)的過程,包括了數據的收集、整理、挖掘等,同時,不是簡單地單次模式,而是一個循環(huán)迭代的工作模式,也只有這樣才可以使其實現(xiàn)最終的要求。
完整的數據庫是數據挖掘技術應用的基本條件,數據庫的建立一般采用常用的數據庫建立手段,將可以用于決策的海量數據信息從操作環(huán)境中取出來,形成獨立的數據資源體系。在圖書館服務平臺中的數據庫和傳統(tǒng)的數據庫是有有所不同的,其更加強調系統(tǒng)的集中性、統(tǒng)一性。數據庫是決策系統(tǒng)的基本組成單元,是管理信息的基本元素,數據庫提供了整理處理后的數據,給決策者提供信息保障,并通過這些數據完成決策。所以建立數據庫對于圖書館服務平臺的數據挖掘是很重要的。
在目前絕大部分圖書館中,都已經采用完整的圖書卡借閱模式,在高校的圖書館中更是常見,如校園一卡通等。這種形式非常適合收集讀者的各種信息,包括讀者的個人簡介信息,借閱數據等。在借閱過程中,以身份、書籍類型、借閱時間作為主要的分類方式,定義一個3維度的數據空間,建立數據表收集信息。維表上對應記錄著對應維度的信息,用于查詢對應的約束條件,通常是離散分布的,不具備可加性。由于要記錄的數據量大,所以一般采用多維數據的記錄形式,這樣可以更好地實現(xiàn)多維數據的記錄、分析、處理等。多維數據結構普遍采用星形模式,對于星形模式而言,由事實表及維表通過星形結構連接成,其中,事實表存儲有借閱數據信息,用于查詢和分析。因為數據取值一般是可以度量的,并且具有可加性的,同時數據信息量很大。與此同時,借閱數據的信息可通過多個維度獲得,每個維度都可以產生相應的維表。
在數據庫星形工作模式建立完畢以后,就可以數據聚集了。數據聚集是數據庫的重要組成部分,可以用于分析對應應用的需求關系,與事實表及維表都有著緊密的關系。
創(chuàng)建數據聚集的方法如下:
(1) 在各個維向上分析需要聚集的屬性數據,以時間作為橫軸,圖書種類作為縱軸,依據借閱人的身份特征(例如是學生、老師等) 建立對應的數據聚集。
(2)組合不同維的屬性。數據聚集后,分析、查詢的過程都是復雜的,所以數據庫的資源數據都很大,所以需要建立索引從而提高數據庫的訪問能力。只有在明確數據庫體系及其結構的基礎上,完成數據模型的設計才能實現(xiàn)對后續(xù)問題的預處理。也就是需要對事實表及維表中的數據流進行分類、凈化等處理。數據庫經建設后還需要定期的維護。
(1)數據的預儲存。對采集得到的數據首先需要進行預處理,包括凈化、識別、路徑補充等。在本文設計的Web數據挖掘方式基礎上,采用的預處理主要是只收集數據資源的記錄信息,這樣保證了數據的完整性,同時又不需要在收集過程中占用大量的時間,在建立數據庫的過程中再根據需要從中獲取相應的數據信息,結合IP地址信息實現(xiàn)網站的拓撲結構,從而實現(xiàn)聯(lián)機采集的效果。
(2)數據的算法。挖掘數據是一個長期、動態(tài)的工作過程,對于不同的數據而言,需要不同的數據挖掘處理算法。例如有滑動窗口模型(針對最近時間段的數據進行處理)、定期抽取模型(按固定時間進行采集的方式)、特征時間模型(按特定時間進行采集的方式)等。利用分類、聚類、關聯(lián)等算法對資源進行整合,將數據中近似的、相近的、相關聯(lián)的提取出來。
(3)模式的構建。通過分類、聚類、關聯(lián)的方法進行模式的自組織。分類通過分類模型實現(xiàn),利用分類函數獲得類別信息,分析相應的公共屬性,分類后可以通過類型特征進行聚類。聚類可以將Web數據庫中存在相似屬性的用戶資源相關聯(lián),同時分析他們的相似性,找出共同特性,從而更好地掌握用戶的需求。最后,由關聯(lián)規(guī)則完成用戶對網站上各種資源的相互關系,通過對規(guī)則的設定挖掘出用戶的閱讀趨向及規(guī)律,從而實現(xiàn)主動服務的高級功能。
(4) 整合資源信息。由于Web資源信息的多樣性、廣泛性,所以需要有合理的資源導航及檢索能力,通過資源的發(fā)現(xiàn)、分類及標注功能完成資源的有效定位。通過資源的名稱、URL地址、簡介、關鍵詞以及類型等特征信息,完成數據庫的掃描檢索功能。例如針對某個需要查找的內容信息進行檢索,信息的特種特征越是具體,檢索效果就會越好,這樣才能實現(xiàn)檢索結果的具體化,這需要在檢索過濾方面采用相關技術進行有效地定位。在搜索過程中,應該存在細線條、深層次、大范圍的搜索,找到用戶需要的資源信息,隨著特征的具體化而越具體,避免了造成搜索過程中產生大量的冗余信息。方便快捷地找到需要的搜索結果是用戶的目的。根據對資源的不同請求情況,對資源實時分類,從而滿足不同用戶的信息檢索要求,提供用戶需要的文獻服務。
圖書館資源服務平臺是根據讀者用戶所提出的問題在傳統(tǒng)功能的基礎上改進、更新的服務方式。雖然具有網絡化的新功能,但是需要建立在原有信息資源的基礎上,同時結合讀者用戶的各種需求。利用Web數據挖掘技術,對數據的分析提取、整合聚類、綜合整理完成相應的功能模塊。為了實現(xiàn)對應的應用功能,形成易于理解、操作簡潔的用戶數據檢索形式,充分體現(xiàn)數據資源有效性,需要在了解掌握傳統(tǒng)數據庫工作機理上添加Web數據挖掘的相關功能。實現(xiàn)Web資源平臺的方法是以分類為基礎,將各種不同的資源信息離散化,將分類完畢的資源信息利用決策樹等算法手段,把讀者用戶的閱讀請求及目的抽象出來,發(fā)給圖書館綜合服務平臺,同時,服務平臺會根據不同的請求,建立新的鏈接及提供原始服務,依據分析算法實現(xiàn)挖掘結果的附加服務。
讀者用戶是資源使用者,是資源對外服務的載體,是資源溝通的橋梁。圖書館資源是否能方便地使用和資源服務方式方法有著密切的關系,因此設計較好的可視化的信息服務平臺是優(yōu)化的一個重要方面。除可視化服務平臺外,還需要制定一些服務策略,提高擴大讀者用戶的被服務范圍。主動分析讀者用戶的需求,利用信息資源的優(yōu)勢,提高數據服務的綜合質量及效率,從而體現(xiàn)數據時代數據挖掘的特色。
本文通過采用Web數據挖掘技術設計了一種更利于讀者獲取所需信息的工作模式。系統(tǒng)通過對樣本庫的分類分析,將分類后的相應數據進行處理,從而構建了基于Web數據挖掘的圖書館服務平臺。數據庫是數據挖掘的基礎,在完成了數據收集、處理、存儲等工作的基礎上,數據挖掘技術實現(xiàn)了知識的特征提取,最終達到圖書館服務平臺功能的提升,使其能夠充分地發(fā)揮數據信息的力量。
[1]李征.云計算在圖書館建設與信息服務中潛在價值探析 [J].大學圖書館學報,2011,(1) :59-62,82.
[2]姚玉閣.淺析數據挖掘技術[J].信息與電腦,2010 (11):115.