劉 堅
[摘 要] 針對供水調(diào)度系統(tǒng)在決策支持方面的不足,本文提出利用SQL Server Analysis Services在OLAP及數(shù)據(jù)挖掘方面的技術(shù),建立數(shù)據(jù)倉庫、OLAP和數(shù)據(jù)挖掘三者相結(jié)合的決策支持系統(tǒng)的方案,討論了基于Analysis Services實現(xiàn)供水調(diào)度決策支持系統(tǒng)的技術(shù)。
[關(guān)鍵詞] 決策支持系統(tǒng);數(shù)據(jù)倉庫;OLAP;數(shù)據(jù)挖掘;Analysis Services
[中圖分類號]F270.7[文獻標識碼]A[文章編號]1673-0194(2009)02-0074-05
1 引 言
供水企業(yè)是服務(wù)于公共事業(yè)的國有企業(yè),企業(yè)的目的是為社會提供優(yōu)質(zhì)的服務(wù),而不是利用自己的壟斷地位,通過提價來獲得最大利益。企業(yè)只能通過挖掘自身的潛力,降低成本來獲得最大利益。供水調(diào)度是供水企業(yè)控制生產(chǎn)成本,提高生產(chǎn)效率的重要手段。目前供水企業(yè)在供水調(diào)度方面基本都應(yīng)用了無線測控系統(tǒng),用于定時測量供水管網(wǎng)的水壓、各水廠水泵開停機狀態(tài)、出廠水流量、清水池水位等生產(chǎn)數(shù)據(jù),如何從這些豐富的業(yè)務(wù)數(shù)據(jù)中獲得有用的知識,幫助工作人員提高供水調(diào)度質(zhì)量,幫助企業(yè)管理人員提高決策能力,已成為供水企業(yè)信息化工作的當務(wù)之急。
2 實現(xiàn)決策支持的相關(guān)技術(shù)
2. 1決策支持系統(tǒng)(DSS)
決策支持系統(tǒng)是指具有輔助決策能力的高級計算機信息管理系統(tǒng),它是能利用各種數(shù)據(jù)、信息、知識,特別是模型技術(shù),輔助各級決策者解決半結(jié)構(gòu)化和非結(jié)構(gòu)化的決策問題的人機交互系統(tǒng)。決策支持系統(tǒng)能為企業(yè)和組織提供各種決策信息以及問題的解決方案,將決策者從低層次的信息分析處理工作中解放出來,使他們擁有更多的時間專注于最需要決策智慧和經(jīng)驗的工作,從而提高決策的質(zhì)量和效率。
傳統(tǒng)的決策支持系統(tǒng)建立在業(yè)務(wù)數(shù)據(jù)庫基礎(chǔ)之上,以模型庫為主體,只能進行定量分析,而對于定性的決策分析顯得力不從心;隨著企業(yè)業(yè)務(wù)數(shù)據(jù)量迅速增長,企業(yè)需要保存大量的歷史數(shù)據(jù),需要在大量的歷史數(shù)據(jù)中進行定量和定性分析以獲取有用的信息,為企業(yè)提供決策依據(jù),因此企業(yè)需要重新組織業(yè)務(wù)數(shù)據(jù),建立基于數(shù)據(jù)倉庫的決策支持系統(tǒng)。
數(shù)據(jù)倉庫之父W. H. Inmon對數(shù)據(jù)倉庫的定義是:數(shù)據(jù)倉庫是面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持經(jīng)營管理中的決策。
目前,數(shù)據(jù)倉庫技術(shù)的運用正在向廣度和深度兩個方向擴展。廣度擴展指的是數(shù)據(jù)源的廣泛化,即不僅可以從各種異構(gòu)的數(shù)據(jù)庫中獲取數(shù)據(jù),還可以從互聯(lián)網(wǎng)上獲取數(shù)據(jù)。而深度方向的研究指的是基于已有信息,面向數(shù)據(jù)分析的應(yīng)用,包括數(shù)據(jù)挖掘技術(shù)和聯(lián)機分析處理技術(shù)。
數(shù)據(jù)倉庫系統(tǒng)是多種技術(shù)的綜合體,由數(shù)據(jù)倉庫、數(shù)據(jù)庫管理系統(tǒng)、數(shù)據(jù)倉庫工具3部分組成:
(1) 數(shù)據(jù)庫管理系統(tǒng)(DBMS)負責(zé)管理整個系統(tǒng)的運轉(zhuǎn),是整個系統(tǒng)的引擎。
(2) 數(shù)據(jù)倉庫包括遠期基本數(shù)據(jù)、近期基本數(shù)據(jù)、輕度綜合數(shù)據(jù)和高度綜合數(shù)據(jù),是整個系統(tǒng)的核心。
(3) 數(shù)據(jù)倉庫工具則是通過聯(lián)機分析處理、數(shù)據(jù)挖掘等工具發(fā)揮數(shù)據(jù)倉庫的作用。
2. 2數(shù)據(jù)挖掘(DM)
數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中通過自動化或半自動化的方法挖掘出有用的模式和規(guī)則,即從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中發(fā)現(xiàn)隱含的、規(guī)律性的、人們事先未知的,但又是潛在有用的并且最終可理解的信息和知識的非平凡過程。它是一門交叉學(xué)科,融合了數(shù)據(jù)庫、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)等多個領(lǐng)域的理論和技術(shù)。數(shù)據(jù)挖掘技術(shù)從數(shù)據(jù)庫、數(shù)據(jù)倉庫中挖掘有用的知識,這些知識以一定的組織方式形成知識庫,利用推理機對知識庫中的知識進行推理即形成智能模型。利用智能模型可以定性分析方式輔助決策。數(shù)據(jù)挖掘技術(shù)使知識庫集成到?jīng)Q策支持系統(tǒng)中形成智能決策支持系統(tǒng),使其能夠?qū)Ψ墙Y(jié)構(gòu)化的問題進行分析推理。數(shù)據(jù)挖掘的方法和技術(shù)主要包括決策樹方法、神經(jīng)網(wǎng)絡(luò)方法、統(tǒng)計分析方法、遺傳算法和模糊論方法等。
2. 3聯(lián)機分析處理(OLAP)
OLAP是一種軟件技術(shù),它使分析人員能夠迅速、一致、交互地從各個方面觀察信息,以達到深入理解數(shù)據(jù)的目的。這些信息是從原始數(shù)據(jù)轉(zhuǎn)換過來的,能夠真正為用戶所理解并真實地反映企業(yè)方方面面特征的信息。OLAP的顯著特征是能提供數(shù)據(jù)的多維概念視圖。數(shù)據(jù)的多維視圖使最終用戶能多角度、多側(cè)面、多層次地考察數(shù)據(jù)庫中的數(shù)據(jù),從而深入地理解包含在數(shù)據(jù)中的信息及其內(nèi)涵。OLAP分析主要是通過對多維組織后的數(shù)據(jù)進行切片、切塊、聚合、鉆取、旋轉(zhuǎn)等分析動作,以求剖析數(shù)據(jù),使用戶能夠從多種維度、多個側(cè)面、多種數(shù)據(jù)綜合度查看數(shù)據(jù),從而了解數(shù)據(jù)背后隱含的規(guī)律。
3 供水調(diào)度決策支持功能需求分析
3. 1供水調(diào)度系統(tǒng)功能簡介
目前供水企業(yè)基本上實現(xiàn)了調(diào)度信息化。該信息系統(tǒng)包括遙測與信息處理兩部分。遙測部分,通過無線通信技術(shù)實現(xiàn)了對管網(wǎng)各測壓點的供水壓力值的采集,對各水廠的出廠水數(shù)據(jù)采集,包括出廠水壓值、流量,水廠水池的水位、余氯等數(shù)據(jù)的采集,以及抽水機電設(shè)備的開關(guān)狀態(tài)、電壓、電流、功率等數(shù)據(jù)的采集。信息處理部分,利用數(shù)據(jù)庫技術(shù)將遙測得到的數(shù)據(jù)存儲在計算機數(shù)據(jù)庫系統(tǒng)中,利用編程技術(shù)對存儲在數(shù)據(jù)庫中的數(shù)據(jù)進行檢索、顯示及報表打印。供水調(diào)度的主要目的是掌握各水廠的生產(chǎn)狀況,統(tǒng)籌安排各水廠的水泵開停,監(jiān)視供水管網(wǎng)運行狀況。高效的供水調(diào)度能讓企業(yè)在最少的投入情況下獲得最好的供水效果,通過減少生產(chǎn)成本實現(xiàn)企業(yè)利潤最大化的目的。
3. 2供水調(diào)度決策支持中的OLAP需求研究
OLAP能夠提供對歷史數(shù)據(jù)的各個維度進行深入觀察和對某一特征的總體描述,能給企業(yè)提供淺層次決策。利用OLAP,能在由業(yè)務(wù)數(shù)據(jù)基礎(chǔ)上形成的具有多維性的數(shù)據(jù)倉庫之上形成涉及時間和地理位置(包括各水廠和城市供水管網(wǎng)測壓點)以及其他維的生產(chǎn)運行數(shù)據(jù)的各種數(shù)據(jù)透視表,通過在這些透視表上實現(xiàn)對數(shù)據(jù)進行切片、切塊、聚合、鉆取、旋轉(zhuǎn)等分析動作,從而發(fā)現(xiàn)一些隱藏的生產(chǎn)運行情況,如分析在各個時段滿足城市管網(wǎng)各測壓點水壓穩(wěn)定的情況下,各水廠的出廠水流量以及水泵開停數(shù)據(jù),實現(xiàn)對各水廠的生產(chǎn)指導(dǎo)。此外,OLAP還可以用于企業(yè)的報表分析,在日常的企業(yè)管理過程中,需要大量的報表,借助于OLAP工具可以方便地生成各種報表。
3. 3供水調(diào)度決策支持系統(tǒng)中的數(shù)據(jù)挖掘需求研究
數(shù)據(jù)挖掘在數(shù)據(jù)倉庫和OLAP的基礎(chǔ)上能夠更好地挖掘隱藏在歷史數(shù)據(jù)背后的知識,有助于企業(yè)深層次決策。在由業(yè)務(wù)數(shù)據(jù)基礎(chǔ)上形成的具有多維性的數(shù)據(jù)倉庫之上,利用決策樹技術(shù),挖掘供水調(diào)度過程中隱藏的規(guī)則,幫助調(diào)度管理人員進行日常的調(diào)度。利用神經(jīng)網(wǎng)絡(luò)技術(shù)挖掘各時段各水廠開停水泵的最佳組合。利用關(guān)聯(lián)規(guī)則技術(shù)挖掘城市管網(wǎng)各測壓點水壓與出現(xiàn)管道爆裂事故的關(guān)聯(lián),幫助決策者合理設(shè)置城市測壓點,以便更好地監(jiān)視城市管網(wǎng)的運行狀態(tài)。
4 供水調(diào)度決策支持系統(tǒng)實現(xiàn)
數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘是計算機領(lǐng)域的新興技術(shù),基于這3項技術(shù)的決策支持系統(tǒng)已成為當前決策支持系統(tǒng)的主流發(fā)展方向。目前,世界上幾大著名的數(shù)據(jù)庫公司和統(tǒng)計軟件公司都相繼推出了自己的DSS解決方案和功能強大的DSS開發(fā)工具,其中微軟公司在它的數(shù)據(jù)庫產(chǎn)品SQL Server中推出的Analysis Services是一個比較流行并且功能強大的產(chǎn)品,它包含了一整套的決策支持引擎和工具,提供了數(shù)據(jù)挖掘和聯(lián)機分析處理兩種服務(wù)。微軟的數(shù)據(jù)挖掘解決方案是基于OLE DB for Data Mining規(guī)范的工業(yè)標準,它是由微軟提出并且由眾多數(shù)據(jù)挖掘公司支持的工業(yè)標準。這個規(guī)范展示了一個新的類似于SQL語言的數(shù)據(jù)挖掘語言,數(shù)據(jù)庫開發(fā)者可以利用它去建立數(shù)據(jù)挖掘應(yīng)用。因此選用微軟決策支持系統(tǒng)解決方案來實現(xiàn)供水調(diào)度決策支持系統(tǒng)是一個可行和可靠的方案。在該方案中(如圖1所示)采用SQL Server作為后臺數(shù)據(jù)庫服務(wù)器,在分析系統(tǒng)中采用SQL Server 的Analysis Services,它是用于OLAP和數(shù)據(jù)挖掘的中間層服務(wù)器。Analysis Services是客戶-服務(wù)器結(jié)構(gòu),它由兩個主要部分組成:Analysis Services服務(wù)器和客戶端的Pivot Table Services(數(shù)據(jù)透視表服務(wù))。
分析服務(wù)器,是微軟Analysis Services的核心,它從異構(gòu)數(shù)據(jù)源中提取和組織數(shù)據(jù),并在多維數(shù)據(jù)庫中對數(shù)據(jù)進行必要的聚集和處理,同時也可以利用存放在OLTP數(shù)據(jù)庫中的匯總表。通過DSO(Decision Support Objects,決策支持對象)能訪問分析服務(wù)器,實現(xiàn)在分析服務(wù)器引擎上執(zhí)行管理任務(wù)。分析服務(wù)器還負責(zé)創(chuàng)建和使用挖掘模型從OLAP數(shù)據(jù)中獲取趨勢信息和進行預(yù)測。
數(shù)據(jù)透視表服務(wù),是一組實現(xiàn)將OLAP立方從OLAP服務(wù)器傳遞到客戶端應(yīng)用程序的工具。數(shù)據(jù)透視表支持在線和離線數(shù)據(jù)分析和數(shù)據(jù)挖掘,為實現(xiàn)這個目標,數(shù)據(jù)透視表服務(wù)向開發(fā)者提供了兩個查詢OLAP數(shù)據(jù)源的編程接口:為OLAP服務(wù)的OLE DB和ActiveX數(shù)據(jù)對象(多維),ADO MD。
4. 1數(shù)據(jù)析取和數(shù)據(jù)倉庫的實現(xiàn)
數(shù)據(jù)倉庫通常以星型模型或雪花型模型組織數(shù)據(jù)并存儲,在這兩種模式中,都是由一個核心事實表和一些與事實表關(guān)聯(lián)的維表組成,并在所有表的主要字段上建立索引。事實表是根據(jù)選定的主題構(gòu)造,主要存儲用于分析數(shù)據(jù)的度量值。維(dimension)是一組對事實進行分析時使用的屬性。維允許用戶從不同角度觀察事實,如時間、地理等。在這兩種模式中,維的層次內(nèi)容等信息保存在維表中,并通過事實表中相應(yīng)維的碼值與事實表相連。這些表都可以通過SQL Server中的數(shù)據(jù)庫創(chuàng)建工具和表創(chuàng)建工具完成。對于數(shù)據(jù)倉庫中的數(shù)據(jù),用戶可以在服務(wù)器端使用SQL Server提供的DTS工具從源數(shù)據(jù)中,進行抽取和轉(zhuǎn)換數(shù)據(jù),然后送到數(shù)據(jù)倉庫中。對于調(diào)度決策支持系統(tǒng),源數(shù)據(jù)包括調(diào)度系統(tǒng)數(shù)據(jù)、管網(wǎng)維修數(shù)據(jù)、水質(zhì)檢驗數(shù)據(jù)。選擇管網(wǎng)維修數(shù)據(jù)的原因是,調(diào)度系統(tǒng)的一個目的是通過管網(wǎng)測壓點的水壓來發(fā)現(xiàn)管道故障,而調(diào)度系統(tǒng)中沒有這方面的數(shù)據(jù),因此需要用管網(wǎng)維修管理系統(tǒng)中的數(shù)據(jù)進行補充。選擇水質(zhì)檢驗數(shù)據(jù)的原因是,調(diào)度系統(tǒng)的一個工作是遙測各水廠的水質(zhì)數(shù)據(jù),而調(diào)度系統(tǒng)中沒有城市管網(wǎng)各取水點的水質(zhì)數(shù)據(jù),因此需要用水質(zhì)管理系統(tǒng)中的數(shù)據(jù)進行補充。
4. 2聯(lián)機分析處理(OLAP)的實現(xiàn)
微軟將OLAP功能集成到SQL Server中,其中Pivot Table Services提供客戶端OLAP數(shù)據(jù)訪問功能,通過這一服務(wù),開發(fā)人員可以用Visual Basic或其他語言開發(fā)用戶前端數(shù)據(jù)展現(xiàn)程序。另外,SQL Server還支持第三方數(shù)據(jù)展現(xiàn)工具。
MDX是微軟Analysis Services專用的多維查詢語言。為了實現(xiàn)OLAP功能,在Analysis Services中需要創(chuàng)建OLAP數(shù)據(jù)庫。OLAP數(shù)據(jù)庫中包括立方、度量、維以及相關(guān)級別的對象。立方是一個多維的數(shù)據(jù)結(jié)構(gòu),它由一個事實表和相關(guān)的維表及度量組成。它實際上是源數(shù)據(jù)倉庫中的一個視圖。
數(shù)據(jù)透視表是立方的合適用戶界面,因為它允許用戶基于所選擇的維將多維數(shù)據(jù)“拉平”。其他的維作為過濾條件。數(shù)據(jù)透視表使用MDX從立方中獲取數(shù)據(jù),而MDX則通過ADO MD來進行多維查詢。通過數(shù)據(jù)透視表提供的功能可以實現(xiàn)切片、切塊、聚合、鉆取、旋轉(zhuǎn)等分析動作。
以下利用Visual Basic實現(xiàn)數(shù)據(jù)透視表來進行OLAP。首先,在VB窗體中增加一個數(shù)據(jù)透視表控件,然后通過執(zhí)行以下程序來實現(xiàn)向控件中填入數(shù)據(jù)。
Dim strSource As String
‘……Store MDX expression in variable
strSource=“MDX表達式”
With Me.PivotTable1
‘……Set the PT connection string using the OLAP OLEDB provider
.ConnectionString=“Data Source=LocalHost;Provider=MSOLAP;”_
& “Initial Catalog=數(shù)據(jù)庫名稱”
‘……Set the PT data source to the MDX expression
.CommandText=strSource
‘……Format the totals as local currency
.ActiveData.DataAxis.Totals(“Amount”).NumberFormat=“Currency”
End With
說明:
LocalHost是指運行在本機上的服務(wù)器;MSOLAP是為SQL Server Analysis Services服務(wù)的OLE DB提供者的名稱。
4. 3數(shù)據(jù)挖掘的實現(xiàn)
在微軟SQL Server中的Analysis Services 提供了數(shù)據(jù)挖掘服務(wù),它提供了一些新的工具,通過發(fā)現(xiàn)數(shù)據(jù)模式和規(guī)則并使用這些模式和規(guī)則進行預(yù)測分析。
SQL Server中的Analysis Services可以對關(guān)系數(shù)據(jù)庫和多維數(shù)據(jù)源中的數(shù)據(jù)進行挖掘。數(shù)據(jù)挖掘主要包括3個步驟:建立數(shù)據(jù)挖掘模型,訓(xùn)練挖掘模型,利用這個已訓(xùn)練好的挖掘模型進行數(shù)據(jù)分析。
數(shù)據(jù)挖掘的基本機制是數(shù)據(jù)挖掘模型,數(shù)據(jù)挖掘模型是在針對數(shù)據(jù)挖掘的OLE DB中介紹的一個新概念。一個數(shù)據(jù)挖掘模型可以被認為是一個關(guān)系表,它是具有不同數(shù)據(jù)類型的列表。數(shù)據(jù)挖掘模型的結(jié)構(gòu)在許多方面與數(shù)據(jù)庫表的結(jié)構(gòu)相似。但是,數(shù)據(jù)庫表代表的是記錄的集合(或記錄集),數(shù)據(jù)挖掘模型的結(jié)構(gòu)表示定義數(shù)據(jù)挖掘模型的事例集,而所存儲的數(shù)據(jù)則表示來自處理事例數(shù)據(jù)的規(guī)則和模式。在Analysis Services中,被分析的項稱為事例(case),所有的事例組成被分析的一組數(shù)據(jù),稱為事例集(case set)。
在微軟的SQL Server中,用戶可以使用挖掘模型向?qū)?chuàng)建數(shù)據(jù)挖掘模型,并可以使用數(shù)據(jù)挖掘模型瀏覽器以圖形格式顯示數(shù)據(jù)挖掘模型的內(nèi)容;還可以編程方式通過用于數(shù)據(jù)挖掘的OLE DB for Data Mining創(chuàng)建、培訓(xùn)和使用數(shù)據(jù)挖掘模型,用于數(shù)據(jù)挖掘的OLE DB for Data Mining是支持數(shù)據(jù)挖掘功能的OLE DB規(guī)范的擴展。
4. 3. 1構(gòu)建、訓(xùn)練數(shù)據(jù)挖掘模型
Analysis Services 提供了服務(wù)器端和客戶端兩種架構(gòu),可以分別從服務(wù)器端和客戶端構(gòu)建數(shù)據(jù)挖掘模型。如果在服務(wù)器端構(gòu)建數(shù)據(jù)挖掘模型,并且模型已經(jīng)得到了訓(xùn)練,那么所有的客戶端都可以訪問該模型,并且利用該模型進行預(yù)測查詢。在客戶端構(gòu)建模型,可以使用戶在網(wǎng)絡(luò)斷開后在本地執(zhí)行數(shù)據(jù)挖掘任務(wù)。
在服務(wù)器端通過應(yīng)用程序創(chuàng)建和訓(xùn)練數(shù)據(jù)挖掘模型,只能使用決策支持對象(DSO),它是一組接口類,它們定義并顯示出了Analysis Services使用COM(Component Object Model)管理的對象。從數(shù)據(jù)挖掘的角度來說,主要關(guān)心3個對象:Server對象,它包含了運行Analysis Services引擎的服務(wù)器信息;特殊的MDStores集,它暴露數(shù)據(jù)庫和立方使用的通用接口;MiningModels對象。以下是利用現(xiàn)有的數(shù)據(jù)庫、數(shù)據(jù)源和多維數(shù)據(jù)集,采用Visual Basic建立數(shù)據(jù)挖掘模型及訓(xùn)練查詢的主要代碼:
Dim dsoServer As New DSO.Server
Dim dsoDB As New DSO. MDStores
Dim dsoDmm As DSO.MiningModel
Dim dsoColumn As DSO.Column
Dim dsoRole As DSO.Role
dsoServer.Connect “servername” ‘連接到OLAP服務(wù)器
Set dsoDB = dsoServer.MDStores(“數(shù)據(jù)庫名”)
Set dsoDmm=dsoDB.MiningModels.AddNew(“新模型名”,sbclsOlap)
Set dsoRole=dsoDmm.Roles.AddNew(“All Users”) ‘創(chuàng)建角色
dsoDmm.MiningAlgorithm= “Microsoft_Decision_
Trees”‘使用決策樹算法
dsoDmm.SourceCube=“數(shù)據(jù)立方名”
dsoDmm.CaseDimension=“選取的事例維度”
dsoDmm.TrainingQuery=“” ‘讓DSO進行訓(xùn)練查詢
dsoDmm.Update
‘以下為設(shè)置定義模型結(jié)構(gòu)的列
Set dsoColumn=dsoDmm.Columns(“列名”) ‘定義輸入列
dsoColumn.IsInput=True
dsoColumn.IsDisabled=False ‘處理前使該列激活
…
Set dsoColumn=dsoDmm.Columns(“列名”) ‘定義預(yù)測列
dsoColumn.IsPredictable=True
dsoColumn.IsDisabled=False
dsoDmm.LastUpdated=Now ‘設(shè)置更新日期為現(xiàn)在
dsoDmm.Update ‘保存模型的元數(shù)據(jù)
dsoDmm.LockObject olapLockProcess‘處理模型前進行鎖定
dsoDmm. Process processFull ‘處理模型
dsoDmm. UnlockObject ‘解鎖
在客戶端應(yīng)用程序中創(chuàng)建數(shù)據(jù)挖掘模型不是使用DSO而是使用數(shù)據(jù)定義語言(DDL)。DDL是在OLE DB For DM里定義的,是SQL語言的擴展,非常類似于SQL,這也使得成千上萬的SQL程序員而不是數(shù)據(jù)挖掘?qū)I(yè)人員,可以方便地利用他們的SQL知識來建立數(shù)據(jù)挖掘模型。如果應(yīng)用程序運行在客戶端,那么首先要在客戶端通過使用PivotTable Service連接到Analysis Services,然后在應(yīng)用程序中運行DDL命令,來完成數(shù)據(jù)挖掘模型創(chuàng)建。以下是用來創(chuàng)建數(shù)據(jù)挖掘模型的命令:
CREATE MINING MODEL [模型名稱]
( [列名] 列的數(shù)據(jù)類型 列類型,
…
[列名] 列的數(shù)據(jù)類型 列類型) USING <算法名稱>
對于使用OLAP立方的數(shù)據(jù)挖掘模型的訓(xùn)練模型命令:
INSERT INTO <model name>
對于使用關(guān)系型數(shù)據(jù)的數(shù)據(jù)挖掘模型的訓(xùn)練模型命令:
INSERT INTO < model name > (<column names> )<source data>
4. 3. 2利用數(shù)據(jù)挖掘模型進行預(yù)測查詢
數(shù)據(jù)挖掘的基本功能是允許最終用戶根據(jù)從訓(xùn)練數(shù)據(jù)挖掘模型時學(xué)到的知識進行預(yù)測。OLE DB For Data Mining中定義了預(yù)測查詢組件的使用,Analysis Services已經(jīng)增加了一個SQL擴展,即預(yù)測連接(Prediction Join),一個預(yù)測連接的完成需要一個已訓(xùn)練好的數(shù)據(jù)挖掘模型并指定它與新數(shù)據(jù)的關(guān)系,然后利用該模型對新數(shù)據(jù)進行預(yù)測。以下是預(yù)測查詢的語句:
SELECT < SELECT-expressions> FROM < model name >
PREDICTION JOIN <被預(yù)測的新事例> ON <join condition>
[WHERE < WHERE- expression >]
表達式中 PREDICTION JOIN … ON字句規(guī)定了數(shù)據(jù)挖掘模型中的列和設(shè)計的輸入數(shù)據(jù)源之間的映射聯(lián)接。同時OLE DB For Data Mining中制定了大量的預(yù)測函數(shù),它們能夠在預(yù)測語句中的SELECT字句中被調(diào)用,利用這些預(yù)測函數(shù)可以得到大量的附加信息,例如預(yù)測精確度,最大可能性的行的統(tǒng)計偏差等信息。詳細的預(yù)測函數(shù)定義可以參考OLE DB For Data Mining。
5 結(jié)束語
決策支持系統(tǒng)的建立是一項復(fù)雜的系統(tǒng)工程。企業(yè)需要決策支持系統(tǒng)提供的決策信息會隨著企業(yè)的發(fā)展和管理的需要不斷地變化,因此決策支持系統(tǒng)的解決方案制訂和實現(xiàn)技術(shù)選擇是決策支持系統(tǒng)高效運行的保障。本文提出了一個適合城市供水調(diào)度決策支持系統(tǒng)建設(shè)的方案及實現(xiàn)方法。供水企業(yè)可以利用該決策支持系統(tǒng)提高企業(yè)的管理質(zhì)量,降低生產(chǎn)成本,提高企業(yè)經(jīng)濟效益。
主要參考文獻
[1] Tony Bain. SQL Server 2000數(shù)據(jù)倉庫與Analysis Services[M]. 邵勇譯. 北京:中國電力出版社,2003.
[2] Margaret H Dunham. 數(shù)據(jù)挖掘教程[M]. 北京:清華大學(xué)出版社,2005.
[3] C Seidman. SQL Server 2000數(shù)據(jù)挖掘技術(shù)指南[M]. 北京:機械工業(yè)出版社,2002.
[4] 王向輝,匡曉寧,劉偉達,等. 數(shù)據(jù)挖掘技術(shù)及其在決策支持系統(tǒng)中的應(yīng)用[J]. 計算技術(shù)與自動化,2004,32(4).
[5] 陳嵐嵐,楊波,李旭霞. 數(shù)據(jù)挖掘技術(shù)及其發(fā)展方向[J]. 武警工程學(xué)院學(xué)報,2002,18(4).