黃 兵,曹建國
(安徽工貿(mào)職業(yè)技術(shù)學院a.基礎(chǔ)部;b.教務處,安徽淮南 232007)
隨著我國經(jīng)濟體制轉(zhuǎn)軌的逐步完成和全球化的迫切需求,政府的決策內(nèi)容、決策范圍和決策方式已經(jīng)發(fā)生了很大的變化。因此,通過整合政府內(nèi)外各方面的技術(shù)力量和信息資源,建立合適的決策咨詢支持系統(tǒng),是當前政府決策制定的前提條件和必要基礎(chǔ)。隨著數(shù)據(jù)倉庫技術(shù)、OLAP技術(shù)及數(shù)據(jù)挖掘技術(shù)的逐步成熟和完善,為其決策咨詢支持系統(tǒng)的實現(xiàn)提供了一條新的途徑。基于目前傳統(tǒng)事務數(shù)據(jù)庫決策支持系統(tǒng)數(shù)據(jù)分析能力的有限性,尤其是非結(jié)構(gòu)化的查詢操作要涉及到上千萬行數(shù)據(jù),復雜的表鏈接嚴重影響了系統(tǒng)的快速性能,而以多維數(shù)據(jù)為核心的數(shù)據(jù)分析為信息決策提供了很好的技術(shù)手段。同時,數(shù)據(jù)倉庫的多維特征滿足了系統(tǒng)從多種角度對數(shù)據(jù)進行快速、交互、動態(tài)和一致性的分析,克服了傳統(tǒng)決策支持系統(tǒng)交互性能差、速度慢的弊端,使決策者能夠?qū)?shù)據(jù)進行深入細致地分析和梳理。當前較好的解決方案是以數(shù)據(jù)倉庫(data warehouse)技術(shù)為支撐,借助于聯(lián)機分析處理(OLAP)和數(shù)據(jù)挖掘(data mining)工具,設(shè)計并開發(fā)政府決策系統(tǒng)。
依托中心數(shù)據(jù)倉庫的決策支持系統(tǒng)是決策咨詢基本信息管理系統(tǒng)與中心數(shù)據(jù)倉庫的中心樞紐,其關(guān)鍵是數(shù)據(jù)挖掘和OLAP聯(lián)機分析與設(shè)計,這兩項工作的完成是成功實現(xiàn)決策支持系統(tǒng)的重要條件。
原有數(shù)據(jù)庫系統(tǒng)記錄的是相關(guān)每一項業(yè)務處理的具體的細節(jié)性數(shù)據(jù),因此中心數(shù)據(jù)倉庫中的綜合數(shù)據(jù)是不能從原有數(shù)據(jù)庫系統(tǒng)中直接得到的。這些數(shù)據(jù)在進入數(shù)據(jù)倉庫之前必須經(jīng)過提煉和整理,剔除無用的數(shù)據(jù)項,引進一些相關(guān)聯(lián)的外部數(shù)據(jù),從而形成各行業(yè)類型的數(shù)據(jù)集市。本文中心數(shù)據(jù)倉庫根據(jù)行業(yè)類別將信息劃分為12個數(shù)據(jù)集市,其主要集市有產(chǎn)業(yè)經(jīng)濟結(jié)構(gòu)數(shù)據(jù)集市、政策法規(guī)數(shù)據(jù)集市、物價指數(shù)數(shù)據(jù)集市、財政金融數(shù)據(jù)集市、人口就業(yè)數(shù)據(jù)集市、突發(fā)應急事件數(shù)據(jù)集市等。本文中的中心數(shù)據(jù)倉庫設(shè)計分為4大步驟。
(1)確定分析主題。結(jié)合用戶的需求和所要實現(xiàn)的目標,在熟悉業(yè)務分析需求和報表需求的基礎(chǔ)上,總結(jié)并且制定數(shù)據(jù)分析的各個主題。例如:分析者希望分析某年某月某地區(qū)的生產(chǎn)總值情況,那么這就是一個主題。主題需要體現(xiàn)出決策所要分析問題的各個分析角度以及統(tǒng)計數(shù)值型數(shù)據(jù)(度量)之間的關(guān)系。
(2)確定度量。在確定了主題后,就需要考慮要分析的技術(shù)指標,諸如財政收入、財政支出等。一般都為數(shù)值型數(shù)據(jù),對于度量還需要考慮一些其他的計算問題,如度量是由底層數(shù)據(jù)進行匯總而得,還是由數(shù)據(jù)的最大值、最小值,或者是多個度量之間的關(guān)系這種聚集方式。
(3)確定事實數(shù)據(jù)的粒度。設(shè)計和實現(xiàn)其他問題的解決,必須在數(shù)據(jù)倉庫的粒度合理確定以后。如果沒有合理地確定粒度,勢必會影響其他方面的確定。例如:假設(shè)目前某系統(tǒng)的數(shù)據(jù)最小記錄單位為s,如果分析需求的時間需要精確到d,那么在ETL的實際處理過程中,數(shù)據(jù)倉庫度量的粒度就是d,可以按數(shù)據(jù)流量的d數(shù)來匯總數(shù)據(jù)。粒度級別的合適選擇是體系結(jié)構(gòu)設(shè)計環(huán)境成功的關(guān)鍵因素。其一般方法是利用日常理論和知識,首先建立數(shù)據(jù)倉庫的一小部分,然后適時讓用戶去訪問這些數(shù)據(jù),并提煉出自己所需要的最終數(shù)據(jù)。
(4)分析所需維度。確定主題過程舉的例子中,時間、地區(qū)等就是這個分析主題的維度。在設(shè)計維度的時候需要考慮維度的層次結(jié)構(gòu)和級別,層次結(jié)構(gòu)是用來定義數(shù)據(jù)聚集的,它是對維度中成員的集合以及成員之間的相對位置的描述,是組織數(shù)據(jù)的邏輯結(jié)構(gòu)的體現(xiàn)。維成員的劃分和設(shè)計必須遵循從頂部到底部逐步細化的原則,底層的數(shù)據(jù)值聚集和匯總到上層。例如用年、季度和月定義的時間維度中,年處于層次結(jié)構(gòu)的頂層,季度處于中層,月處于底層。國民經(jīng)濟數(shù)據(jù)維分析星型圖如圖1所示。
通過以上4個步驟,數(shù)據(jù)倉庫中主題的模型設(shè)計已經(jīng)完成,但僅僅完成模型設(shè)計才只完成了整個數(shù)據(jù)倉庫設(shè)計的30%,還需要從各種復雜的業(yè)務系統(tǒng)中抽取數(shù)據(jù),加載到事實表中。數(shù)據(jù)倉庫的ETL過程是數(shù)據(jù)倉庫成功實施的關(guān)鍵,具體來說,數(shù)據(jù)倉庫的ETL過程是指從實際的業(yè)務需求出發(fā),結(jié)合已經(jīng)設(shè)計好的數(shù)據(jù)倉庫模型進行具體實施的過程。整個數(shù)據(jù)倉庫的ETL過程需要有業(yè)務人員適時地參與進來,幫助開發(fā)人員梳理業(yè)務數(shù)據(jù)的邏輯結(jié)構(gòu)和數(shù)據(jù)校對的準確性等工作。ETL過程是一個復雜的過程,占用了整個數(shù)據(jù)倉庫開發(fā)周期60%~70%的時間。一般來說,ETL過程包括3個功能。
(1)獲取數(shù)據(jù)。從系統(tǒng)數(shù)據(jù)源中提煉數(shù)據(jù)倉庫所需要的數(shù)據(jù)[1]。
(2)轉(zhuǎn)換數(shù)據(jù)。首先對數(shù)據(jù)源中的數(shù)據(jù)進行適當?shù)那逑?,接著轉(zhuǎn)換成數(shù)據(jù)倉庫所需的格式,最后再對這些數(shù)據(jù)進行適當?shù)霓D(zhuǎn)換。
(3)加載數(shù)據(jù)。將上述轉(zhuǎn)換后的數(shù)據(jù)及時進行加載并安全地裝入數(shù)據(jù)倉庫[2-3]。
數(shù)據(jù)挖掘設(shè)計是指從不完全的、大量的、不準確的、有噪聲的和模糊隨機的各行業(yè)類型的數(shù)據(jù)信息中甄別有價值的、新穎的、潛在的信息和知識的過程。從主要的6大類任務(數(shù)據(jù)總結(jié)、概念描述、分類、聚類、關(guān)聯(lián)分析、偏差分析)出發(fā)制定現(xiàn)實可行的工作過程。數(shù)據(jù)挖掘設(shè)計歸根結(jié)底也就是算法的設(shè)計,本文采用傳統(tǒng)的決策樹算法。
決策樹算法是采用自頂向下遞歸的各個擊破方式構(gòu)造決策樹的經(jīng)典的分類算法。在樹的每一個結(jié)點上使用信息增益度量來選擇測試的屬性。決策樹中的每個內(nèi)部節(jié)點表示對某個屬性的一次測試,每條邊表示一個測試結(jié)果,葉子表示某個類的分布,頂部的節(jié)點代表根結(jié)點。圖2決策樹是一個固定資產(chǎn)投資使用的例子,通過對此圖的分析,用戶可以預測是否對某固定資產(chǎn)進行意向投資,數(shù)據(jù)挖掘流程圖如圖2所示。
圖1 國民經(jīng)濟數(shù)據(jù)維分析星型圖Fig.1 Digital analysis of national economic data
圖2 數(shù)據(jù)挖掘流程圖Fig.2 Process of data mining
(1)分析目標和維度的確定。對實際業(yè)務進行OLAP分析時,應該首先制定分析的目標,只有在分析目標確定之后,才能根據(jù)已確定的分析目標確定分析的維度和指標。當然,分析的維度和指標也不能一概而論,一定要結(jié)合實際的需求進行細化。只有這樣,分析維度和指標的確定才具有實際的意義和較強的針對性。
(2)分析模型的構(gòu)造。分析模型的構(gòu)造是OLAP分析設(shè)計的關(guān)鍵環(huán)節(jié),模型一般包括邏輯模型和物理模型。邏輯模型采用的星型結(jié)構(gòu)主要由事實表和維表構(gòu)成。細節(jié)數(shù)據(jù)存放在事實表中,各分析維度的屬性存放在維表中。物理模型是OLAP分析設(shè)計的物理存儲結(jié)構(gòu),實際存儲中多以關(guān)系型數(shù)據(jù)庫架構(gòu)或多維立方體形式的構(gòu)建存放邏輯模型所采用的星型結(jié)構(gòu)。
(3)前端分析與展現(xiàn)。在完成分析模型的構(gòu)造之后可以配置前端展現(xiàn)工具,由于訪問方式的不同,其相應的配置也不盡相同。例如:如果采用Web訪問方式,則根據(jù)需要將有關(guān)內(nèi)容加載到OLAP服務器中的同時,對Web服務器作相應的配置。如果采用傳統(tǒng)的客戶端訪問方式,則需要對客戶端軟件作相應的配置。配置工作完成以后,用戶就可以針對相應的主題進行各種分析操作[4]。以多種圖形或表格的形式提供的界面其優(yōu)點是直觀、簡單和快捷。
本系統(tǒng)是基金項目中的一個子任務。本文針對數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在政府決策中的設(shè)計與應用,采用了當今主流的VS2010開發(fā)工具,使用在VS2010開發(fā)平臺,快速高效地搭建系統(tǒng)軟件的用戶界面和編寫相關(guān)的底層源代碼。
本文中采用B/S模式與C/S模式相結(jié)合的開發(fā)方式,既可以提供Web界面又可以提供Windows界面,這樣結(jié)合了兩種模式的優(yōu)點使本文的開發(fā)更加科學高效,同時利于今后的系統(tǒng)維護工作。另外,本文結(jié)合兩種模式,服務端提供了成熟的Web接口服務,Web接口服務既可以在本文所設(shè)計的系統(tǒng)中使用,也可以提供給第3方。
[1] 靳守軍.移動通信網(wǎng)管信息經(jīng)營分析與實踐[D].上海:復旦大學,2008.
[2] 張美圖.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在電信領(lǐng)域經(jīng)營分析中的應用研究[D].長春:吉林大學,2005.
[3] 李杰.甘肅移動經(jīng)營分析系統(tǒng)的研究與設(shè)計[D].北京:北京郵電大學,2008.
[4] 李永祥.基于OLAP的電力客戶能效評估方法及應用[D].蘭州:蘭州理工大學,2012.
[5] 丁知斌,袁方.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)在高校學生成績分析中的應用[J].河北大學成人教育學院學報,2004,6(4):19-21.
[6] 崔志明,王鑫印.基于虛擬數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)研究[J].微電子學與計算機,2003(12):76-78,81.
[7] 楊越.數(shù)據(jù)挖掘在政府部門決策管理系統(tǒng)中的數(shù)據(jù)與應用[D].鄭州:解放軍信息工程大學,2013.
[8] 李耿.基于數(shù)據(jù)倉庫技術(shù)的政府經(jīng)濟決策支持系統(tǒng)[D].上海:華東師范大學,2007.
[9] 朱姝.基于SQL數(shù)據(jù)挖掘在書目推薦中的應用[J].淮海工學院學報:自然科學版,2013,22(2):35-38.
[10] 康曉東.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)[M].北京:機械工業(yè)出版社,2004.
[11] 高洪深.決策支持系統(tǒng)(DSS):理論與方法[M].4版.北京:清華大學出版社,2009.
[12] 鄭阿奇,劉啟芬,顧韻華.SQL Server數(shù)據(jù)庫教程[M].北京:人民郵電出版社,2008.