[摘要]詮釋OLAP聯(lián)機(jī)分析技術(shù)在數(shù)字圖書館“數(shù)字資源利用分析”多維數(shù)據(jù)庫(kù)中的應(yīng)用;簡(jiǎn)述數(shù)字圖書館“數(shù)字資源利用分析”多維數(shù)據(jù)庫(kù)MDDB模型的設(shè)計(jì)。
[關(guān)鍵詞]OLAP 數(shù)字資源 多維數(shù)據(jù)庫(kù) 聯(lián)機(jī)分析
中圖分類號(hào):TP-9文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-7597(2009)0910130-01
OLAP(On-Line Analytical Processing)在線聯(lián)機(jī)分析處理技術(shù),是對(duì)特定主題進(jìn)行聯(lián)機(jī)查詢、分析處理,從多角度對(duì)數(shù)據(jù)深入了解,將復(fù)雜的多維數(shù)據(jù)以靈活、直觀的查詢結(jié)果提供給決策人員、管理人員以供決策分析的軟件技術(shù)。目前,高校圖書館投入大量經(jīng)費(fèi)購(gòu)買國(guó)內(nèi)外學(xué)術(shù)數(shù)據(jù)庫(kù)數(shù)字資源,但對(duì)需求利用、資源選擇、投入效應(yīng)缺乏具體分析措施,存在盲目投資;數(shù)字資源膨脹、重疊現(xiàn)象。OLAP聯(lián)機(jī)分析技術(shù)用于數(shù)字圖書館數(shù)字資源利用分析,將數(shù)字圖書館購(gòu)買的各學(xué)術(shù)數(shù)據(jù)庫(kù)在一定時(shí)期內(nèi)用戶以各種方式訪問(wèn)的利用情況以表格的形式加以描述,建立“數(shù)字資源利用分析”多維數(shù)據(jù)庫(kù)MDDB(multi dimensional database),對(duì)數(shù)字資源利用狀況進(jìn)行量化,分析數(shù)字資源利用效益,優(yōu)化數(shù)字資源利用。
一、基于OLAP技術(shù)的數(shù)字資源利用分析模型
(一)確定維表與事數(shù)表
“數(shù)字資源利用分析”的多維數(shù)據(jù)庫(kù)應(yīng)先確定四個(gè)維表、一個(gè)事實(shí)表。描述數(shù)字圖書館購(gòu)進(jìn)學(xué)術(shù)數(shù)據(jù)庫(kù)在本年內(nèi)用戶以各種方式訪問(wèn)的次數(shù)。
四個(gè)維表:1.時(shí)間ID:月份;2.數(shù)據(jù)庫(kù)ID:CNKI數(shù)據(jù)庫(kù)、RSC英國(guó)皇家化學(xué)會(huì)電子刊、維普科技期刊、萬(wàn)方數(shù)據(jù)庫(kù)(筆者所在圖書館購(gòu)進(jìn)24個(gè)國(guó)內(nèi)外學(xué)術(shù)數(shù)據(jù)庫(kù),由于篇幅有限只列舉以上幾個(gè));3.訪問(wèn)方式ID:瀏覽、檢索、登錄、下載、引用;4.用戶ID:化工學(xué)院、高分子科學(xué)工程學(xué)院、機(jī)電學(xué)院、信息科學(xué)技術(shù)學(xué)院等。
事實(shí)表描述多維模型維度的交叉點(diǎn):時(shí)間、購(gòu)買數(shù)據(jù)庫(kù)、訪問(wèn)方式、利用值。
(二)建立“數(shù)字資源利用分析”的多維數(shù)據(jù)庫(kù)MDDB的立方體模型
“數(shù)字資源利用分析”的三維立方體模型如(圖1)所示,實(shí)為一個(gè)四維數(shù)組(維1,維2,維3,數(shù)值變量),創(chuàng)建本模型目的不在觀察其結(jié)構(gòu),而是描述三維交點(diǎn)表達(dá)的變量,如(圖1)本模型描述的是數(shù)字資源的利用值,如利用值A(chǔ)(萬(wàn)方數(shù)據(jù)庫(kù),4月,檢索,1250次)即萬(wàn)方數(shù)據(jù)庫(kù)在4月份被檢索1250次。需要說(shuō)明的是數(shù)據(jù)資源利用總值不能簡(jiǎn)單地將各利用方式次數(shù)相加,瀏覽、檢索、登錄、下載、引用依次反映的利用價(jià)值權(quán)數(shù)(利用值/次數(shù))是逐漸上升的,應(yīng)分別給予逐漸上升的權(quán)數(shù):W1、W2、W3、W4、W5,如萬(wàn)方數(shù)據(jù)庫(kù)換算出的利用值U=瀏覽次數(shù)*W1+檢索次數(shù)*W2+登錄次數(shù)*W3+下載次數(shù)*W4+引用次數(shù)*W5。
二、基于0LAP技術(shù)的數(shù)字資源利用模型聯(lián)機(jī)分析技術(shù)
目前數(shù)據(jù)庫(kù)供應(yīng)商以捆綁式整體銷售,數(shù)字資源利用分析模型維度鎖定各大數(shù)據(jù)庫(kù)中,而圖書館非常關(guān)注按分庫(kù)、篇、刊購(gòu)買方式,可預(yù)見未來(lái)數(shù)字資源購(gòu)買將打破整盤預(yù)定方式,如CNKI數(shù)據(jù)庫(kù)有十個(gè)分?jǐn)?shù)據(jù)庫(kù),萬(wàn)方數(shù)據(jù)庫(kù)有五大分?jǐn)?shù)據(jù)庫(kù);用戶維學(xué)院可細(xì)分為系,系又可細(xì)分為專業(yè);時(shí)間維可細(xì)分為季度、月、日。這樣在原維表上出現(xiàn)分支,原ROLAP(Rela
tional OLAP)星型模型中的數(shù)據(jù)庫(kù)資源、用戶、時(shí)間、維表變成了事實(shí)表,而它們的分支出現(xiàn)了新的維表,形成MOLAP(Multidimensional OLAP)雪花模型構(gòu)架的多層維表組成的結(jié)構(gòu)。
在以MOLAP雪花型架構(gòu)創(chuàng)建了“數(shù)據(jù)資源利用分析”MDDB模型后,為深入了解立方體數(shù)據(jù)中的信息,OLAP聯(lián)機(jī)分析引擎從多個(gè)角度可利用切片、切塊、鉆取、旋轉(zhuǎn)技術(shù)剖析數(shù)據(jù),從更深、更細(xì)的層次對(duì)數(shù)據(jù)模型進(jìn)行分析。
(一)數(shù)字資源利用分析模型的切片、切塊分析
模型切片(slice)分析是針對(duì)某一維成員進(jìn)行分析操作的,如在(圖1)維普維上橫切片可研究維普數(shù)據(jù)庫(kù)的利用情況,得(圖2)橫切片,分析維普數(shù)據(jù)庫(kù)每月以各種方式訪問(wèn)的次數(shù)及利用值;豎切片可分析某月份所有數(shù)據(jù)資源數(shù)據(jù)庫(kù)訪問(wèn)情況或以某種利用方式訪問(wèn)數(shù)資源數(shù)據(jù)庫(kù)情況。
模型切塊(dice)從“數(shù)字資源利用分析”立方體模型中抽出一個(gè)子立方體進(jìn)行分析,可以看成多次切片疊合而成,提供不同數(shù)據(jù)資源、月份、訪問(wèn)方式之間進(jìn)行比較。
(二)數(shù)字資源利用模型的鉆取分析
在MOLAP雪花模型結(jié)構(gòu)中,維成員是有層次的,OLAP的鉆取分析提供了在各不同維層次中的聚合與細(xì)分,上鉆取(drill-up)、下鉆取(drill-down)。
上鉆取亦稱聚合,它是在維層次中將低層次維的數(shù)據(jù)匯總到高層次維的數(shù)據(jù),如在時(shí)間維一、二、三月份中上鉆取可得一季度的數(shù)字資源利用值。
下鉆取是上鉆取的反運(yùn)算,它是從匯總的維層次數(shù)據(jù)深入到細(xì)節(jié)層次數(shù)據(jù)或在最底維層次上增加新的維分支,詳細(xì)了解立方體中的具體利用情況。
筆者所在學(xué)校數(shù)學(xué)圖書館已購(gòu)買24個(gè)國(guó)內(nèi)外著名的數(shù)據(jù)庫(kù)數(shù)字資源,現(xiàn)已研制出“數(shù)字資源利用分析”的基本模型,下一步將研制開發(fā)利用SQL server語(yǔ)言創(chuàng)建“數(shù)字資源利用分析數(shù)據(jù)庫(kù)”,利用數(shù)據(jù)庫(kù)結(jié)構(gòu)查詢語(yǔ)言
SQL Server的Analysis Manager控制臺(tái)中的“共享維度”、“多維數(shù)據(jù)集”創(chuàng)建存儲(chǔ)時(shí)間維、數(shù)據(jù)庫(kù)資源維、訪問(wèn)方式維及數(shù)據(jù)集事實(shí)表。利用OLAP工具具體分析各大數(shù)據(jù)庫(kù)利用情況(待續(xù))。重組數(shù)字資源,實(shí)現(xiàn)數(shù)字資源最佳配置。
參考文獻(xiàn):
[1]王麗珍、周麗華等,數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理及應(yīng)用[M].北京:科學(xué)出版社,2005.
[2]張?jiān)茲?、龔?數(shù)據(jù)挖掘原理與技術(shù)[M].北京:電子工業(yè)出版社,2004.
[3]http://library.qust.edu.cn/old/ziyuan.asp.
作者簡(jiǎn)介:
譚春曦(1962-),女,館員,從事電子信息資源研究。