肖柳珠
(北海藝術設計學院,廣西北海,536000)
數(shù)據(jù)挖掘最初的概念始于20世紀末期,當時學者們指出在海量的信息數(shù)據(jù)中隱藏著大量的有用信息需要挖掘與提取。信息數(shù)據(jù)挖掘技術就是通過利用統(tǒng)計技術與人工技術將海量的信息數(shù)據(jù)進行整合分析,并從這些海量的信息數(shù)據(jù)中提取出對人們有用的信息數(shù)據(jù),實現(xiàn)人們高效率獲取信息數(shù)據(jù)的目的。資料顯示,數(shù)據(jù)挖掘分析方法主要有描述與可視化,基于可視化工具將人們所需要的目標信息進行分析,鉆取有用信息,使得信息數(shù)據(jù)挖掘的結果更加的生動形象。其中,分類是指通過系統(tǒng)預設的信息數(shù)據(jù)分類模型,對海量的信息數(shù)據(jù)進行篩選分類;估計是指將篩選得出的信息數(shù)據(jù)基于估值計算得到連續(xù)變量值,并由系統(tǒng)預設的閥值(常用的閥值為0-9級)進行合理的分級管理;預測是指通過前述的分類與估值,并基于所獲取的信息數(shù)據(jù)進行分類分析,得出計算模型,滿足對信息變量的預估;聚類是指對所挖掘的信息數(shù)據(jù)進行記錄,并將具有相似性特點的信息數(shù)據(jù)整合在一個序列內,從而確保每一個分組的信息數(shù)據(jù)均形成具有預測性或暗示性的特征。相關性分組是指,基于模型中既定的信息數(shù)據(jù)特征量關聯(lián)度的分析,進行預測。數(shù)據(jù)挖掘技術的實現(xiàn)需要借助強大的數(shù)據(jù)庫系統(tǒng)來實現(xiàn),為數(shù)據(jù)挖掘提供存儲、索引與查詢支持,并能夠滿足運用高性能計算手段達到對海量信息數(shù)據(jù)的集成化處理,例如常使用的分布式技術。20世紀中后期,學者們開始嘗試將數(shù)據(jù)挖掘技術應用到圖書館中。近些年來,各高校為滿足用戶對信息數(shù)據(jù)服務質量的要求,逐漸開始在高效圖書館內推廣使用數(shù)字信息技術,海量的信息數(shù)據(jù)充斥在圖書館內,數(shù)據(jù)挖掘技術在高效圖書館內的應用逐漸變寬,并滲入高效圖書信息服務、圖書管理各個領域。
完備的數(shù)據(jù)是進行大數(shù)據(jù)分析的基礎,對大數(shù)據(jù)的利用與分析有著重要意義。但在現(xiàn)實生活中,在各種因素的影響下,信息數(shù)據(jù)出現(xiàn)缺失、殘缺的現(xiàn)象層出不窮,可以說信息數(shù)據(jù)不完備問題嚴重制約了信息的高質量利用。因此,通過填補技術對海量的信息數(shù)據(jù)進行填補成為解決信息數(shù)據(jù)不完備的主要途徑。目前,最常使用的填補技術是動態(tài)概率數(shù)據(jù)填補法,首先根據(jù)已經(jīng)被挖掘出來的信息進行邏輯順序的確定,并基于挖掘出的信息數(shù)據(jù)預測后期事件發(fā)生情況以及填補,該填補技術具有操作簡單、功能性強等優(yōu)點,且在使用的過程中其填補的準確性有待提高。我國學者鄭啟瑞提出了一種基于局部敏感哈希數(shù)據(jù)填補算法,通過哈希數(shù)值的計算找尋出各信息數(shù)據(jù)間的相似程度,最終達到相似度更高的若干數(shù)據(jù),之后使用KNN算法對那些不完整的數(shù)據(jù)進行填補。經(jīng)研究發(fā)現(xiàn),該填補技術具有較高的填補準確性,但由于在填補過程中沒有對信息數(shù)據(jù)進行統(tǒng)一歸類處理,影響了填補的效率。
大數(shù)據(jù)的挖掘與填補必然需要借助強大的數(shù)據(jù)中心服務平臺完成,尤其是隨著高校圖書館信息數(shù)量的劇增,對信息管理系統(tǒng)質量要求越來越高。
基于logistic不完備信息數(shù)據(jù)的填補技術,首先需要將信息數(shù)據(jù)的作歸一化處理,基于預估規(guī)則把采集到的信息數(shù)據(jù)做協(xié)方差函數(shù),做模擬填補,之后通過使用回歸模型分析信息數(shù)據(jù)中缺失的數(shù)據(jù),按照數(shù)據(jù)分布的特征完成缺失變量的填補,進而獲取到完備的信息數(shù)據(jù)。然后對信息數(shù)據(jù)平均向量和協(xié)方差函數(shù)進行再次估計,通過不斷的迭代完成不完備數(shù)據(jù)的填補輸出。具體過程如下:首先通過估計計算獲取出信息數(shù)據(jù)的平均向量和協(xié)方差函數(shù),并通過對待填補信息數(shù)據(jù)的觀察,對缺失值進行模擬填補。假定Q為其中的一個待估計參數(shù),可以通過點估值Q1進行保證,此時由于具有M個完備的信息數(shù)據(jù)集合,那么就存在著M個Q1標準誤,由此可以得出:
由公式(1)可以計算得出協(xié)方函數(shù):
利用公式(1)、公式(2)即可滿足對待填補對象缺失值獨立模型的填補,通過回歸模型制定不存在缺失值變量的后概率分布結果,選擇相應的填補值,計算出需要填補信息數(shù)據(jù)的全部部分。反復進行迭代,直至迭代結果滿足要求。
(1)高效處理圖書館信息數(shù)據(jù)管理系統(tǒng)中的海量數(shù)據(jù)。如圖1所示為海量數(shù)據(jù)處理流程。
圖1 海量數(shù)據(jù)處理流程
首先對信息管理系統(tǒng)中的海量數(shù)據(jù)做離散化處理,將各種形式的繁雜信息數(shù)據(jù)按照統(tǒng)一歸類原則劃分成子集合,之后以子集合中的某一項特征屬性對各個子集合完成區(qū)分,各子集合間可能存在這相類似的特征量,此時利用決策樹剪枝功能對各子集合中的信息數(shù)據(jù)進行剪枝,把子集中的無效信息數(shù)據(jù)做集合處理,以此達到降低信息數(shù)據(jù)挖掘難度。之后再利用決策樹算法對信息數(shù)據(jù)處理,降低信息數(shù)據(jù)的緯度。
(2)滿足用戶個性化圖書服務。每一位用戶對信息數(shù)據(jù)的需求是存在較大差異性的,為提升圖書館信息服務質量,就需要做到專職服務。而填補技術的應用就可以滿足個性化需求,通過對用戶所具備的共同特點的挖掘,總結歸納出用戶對信息需求相似之處,進而為每一位用戶提供具體的圖書信息需求。通過不斷的聚類、計算均值,確保目標測度逐漸區(qū)域收斂,進而得到具體的信息集合,滿足用戶個性化需求。如圖2所示為系統(tǒng)挖掘用戶個性化需求過程。
圖2 挖掘用戶個性化需求流程圖
(3)預測讀者需求,指導圖書決策的制定??茖W合理長效機制的建立能夠幫助圖書館精準地預測客戶對圖書信息的需求,并根據(jù)采集到的信息數(shù)據(jù)進行圖書信息服務的調整與優(yōu)化,進而滿足用戶的個性化需求。其中,支持向量機本質上可以說是一種監(jiān)督學習模型,通過把那些滿足整體特征的信息數(shù)據(jù)進行整合,并做歸一分析,進而構建能夠對用戶未來閱讀信息的預測,幫助圖書館完成信息服務管理系統(tǒng)的優(yōu)化升級。向量機在對用戶閱讀信息進行預測時,首先會把兩種信息數(shù)據(jù)隔離開,通過對比分析選擇使用適宜的支持向量,并按照各信息數(shù)據(jù)點的就近原則完成相應信息數(shù)據(jù)的處理,并計算得出最優(yōu)邏輯。比如,在分析哪一類人員對某種書籍需求度較高進行分析時,可以利用系統(tǒng)把原始信息數(shù)據(jù)投射至高緯度特征空間,實現(xiàn)對各專業(yè)使用該本數(shù)據(jù)的占比,并基于分析將給本書籍推廣到定位人群。
在信息時代背景下,大數(shù)據(jù)驅動決策成為必然。我國高校逐漸開始應用大數(shù)據(jù)技術,高校圖書館作為一個大數(shù)據(jù)信息的生產者,要想發(fā)揮信息數(shù)據(jù)的活力,就需要基于圖書館特點,構建相應的系統(tǒng),對其中各種形式的信息數(shù)據(jù)進行采集、整理、分析,發(fā)掘信息數(shù)據(jù)價值,為用戶提供高質量的信息服務質量。