毛 敬 玉
(蘭州職業(yè)技術(shù)學(xué)院,甘肅 蘭州 730070)
SCADA(Supervisory Control And Data Acquisition)系統(tǒng)即數(shù)據(jù)采集與監(jiān)控系統(tǒng),它主要應(yīng)用于電力系統(tǒng)、網(wǎng)絡(luò)服務(wù)、化學(xué)工業(yè)等領(lǐng)域的數(shù)據(jù)的收集與監(jiān)控和設(shè)備流程控制等相關(guān)行業(yè)。通過對運行設(shè)備在不同環(huán)境下的數(shù)據(jù)值進(jìn)行收集和分析,根據(jù)分析值按照事先預(yù)定好的控制邏輯對運行的設(shè)備進(jìn)行控制和操作,以實現(xiàn)操作設(shè)備、檢測程序、收集數(shù)據(jù)、調(diào)整參數(shù)以及系統(tǒng)報警等相關(guān)功能。顯然,SCADA系統(tǒng)的應(yīng)用需要對大量的數(shù)據(jù)進(jìn)行收集和整理,并從中提取可用的知識,這里就需要用到數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)是從數(shù)據(jù)庫中挖掘出有用知識的重要技術(shù),從大量的不完整的并且相互之間沒有明顯關(guān)系的數(shù)據(jù)中提取出人們事先無法預(yù)測和想象的但又潛在隱藏著的有意義的信息和數(shù)據(jù)的過程。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于物聯(lián)網(wǎng)SCADA系統(tǒng)中,有利于改進(jìn)現(xiàn)有SCADA系統(tǒng)存在的不足,提高SCADA系統(tǒng)的總體性能,對物聯(lián)網(wǎng)技術(shù)的發(fā)展起著很大的作用。
數(shù)據(jù)挖掘即根據(jù)某一原則從大量數(shù)據(jù)中提取有意義的信息。一般來說數(shù)據(jù)挖掘是從存放數(shù)據(jù)的數(shù)據(jù)源中挖掘出有價值知識的過程,即從特定的數(shù)據(jù)源中根據(jù)限定要求對數(shù)據(jù)進(jìn)行選取、分析和處理,從中提取關(guān)鍵數(shù)據(jù)和分析出有意義的信息[1]。數(shù)據(jù)挖掘其實是數(shù)據(jù)分析方法的一種深入層次,過去數(shù)據(jù)分析的目的是用于科學(xué)研究,而隨著計算機(jī)應(yīng)用和網(wǎng)絡(luò)技術(shù)的高速發(fā)展,數(shù)據(jù)挖掘技術(shù)已廣泛應(yīng)用于各行各業(yè)。它能代替數(shù)據(jù)分析專家從包含大量數(shù)據(jù)的數(shù)據(jù)源中挖掘出隱藏于其中的相關(guān)知識,找出數(shù)據(jù)之間的內(nèi)在聯(lián)系和數(shù)據(jù)本身固有的規(guī)律。數(shù)據(jù)挖掘是一門綜合性的技術(shù),它集數(shù)量統(tǒng)計學(xué)、數(shù)據(jù)結(jié)構(gòu)、概率論、算法分析與設(shè)計、人工智能、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、計算機(jī)支持的協(xié)同工作以及高性能并行計算等技術(shù)于一體。以前人們對數(shù)據(jù)的使用只是停留在最簡單的查詢功能上,通過對數(shù)據(jù)挖掘技術(shù)的使用,我們可以從數(shù)據(jù)中提取出有用的人們感興趣的信息,為軟件管理者和使用者提供快速而科學(xué)的決策支持依據(jù)。
數(shù)據(jù)挖掘過程分為三個階段: 數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘和解釋評估。其中第一階段數(shù)據(jù)準(zhǔn)備階段包括從存儲數(shù)據(jù)的數(shù)據(jù)源中集成數(shù)據(jù),從集成的數(shù)據(jù)中有目的地選擇數(shù)據(jù),將選擇的數(shù)據(jù)組合成目標(biāo)數(shù)據(jù),對目標(biāo)數(shù)據(jù)進(jìn)行篩選整合等預(yù)處理,最后將預(yù)處理的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換以供第二步使用。第二階段數(shù)據(jù)挖掘階段是對準(zhǔn)備好的數(shù)據(jù)根據(jù)特定的邏輯進(jìn)行分析和整理得出特定的模式。最后第三階段解釋評估階段通過對挖掘出的模式進(jìn)行解釋給出最后所需要的知識。其中在解釋評估的過程中如對模式中的數(shù)據(jù)不滿可重新對數(shù)據(jù)源進(jìn)行收集,再次挖掘,直到得出所需的知識[2]。圖1所示為數(shù)據(jù)挖掘過程。
SCADA系統(tǒng)主要應(yīng)用于電力系統(tǒng)、預(yù)測系統(tǒng)以及其他一些需要對數(shù)據(jù)進(jìn)行收集以及監(jiān)控的系統(tǒng)。要對數(shù)據(jù)進(jìn)行監(jiān)視首先需要對數(shù)據(jù)進(jìn)行分析和整理并最終給出決策依據(jù)所需的數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)在SCADA系統(tǒng)中的使用具有非常重要的意義。以下舉例說明數(shù)據(jù)挖掘技術(shù)在電力系統(tǒng)、電力營銷系統(tǒng)和高速鐵路SCADA系統(tǒng)中的使用。
電力系統(tǒng)是一個龐大而復(fù)雜的互聯(lián)網(wǎng)系統(tǒng),隨著電力系統(tǒng)的廣泛應(yīng)用,在運行過程中產(chǎn)生和堆積的數(shù)據(jù)也不斷增加,而這些數(shù)據(jù)對電力系統(tǒng)今后的運行有很重要的作用,這就需要數(shù)據(jù)挖掘系統(tǒng)來對這些歷史數(shù)據(jù)進(jìn)行分析得出知識。在電力系統(tǒng)中,應(yīng)用理論研究的方法已經(jīng)解決了許多問題,但理論研究的方法只能解決電力系統(tǒng)中已存在的且被發(fā)現(xiàn)的問題,而系統(tǒng)中日積月累的歷史數(shù)據(jù)并沒有得到很好的應(yīng)用,如果能應(yīng)用數(shù)據(jù)挖掘技術(shù),則可以充分地利用這些歷史數(shù)據(jù),分析出電力系統(tǒng)日積月累的數(shù)據(jù)背后隱藏的規(guī)律與原理,找到解決潛在問題的更加高效的辦法[3]。例如利用數(shù)據(jù)挖掘系統(tǒng)通過對電力系統(tǒng)日積月累的大量數(shù)據(jù)的歸納總結(jié),建立起一個預(yù)測系統(tǒng),然后根據(jù)當(dāng)前收集到的實時數(shù)據(jù)來預(yù)測未來可能發(fā)生的情況,對未來可能發(fā)生的情況作提前準(zhǔn)備。其中數(shù)據(jù)挖掘技術(shù)可以對歷史數(shù)據(jù)進(jìn)行整理分析, 提取出電量的使用情況、各地電存量、突然事故時的電量以及與其相關(guān)的一些條件關(guān)系,以此來保證電力系統(tǒng)的正常運行以及對可預(yù)知問題的預(yù)防。
電力營銷系統(tǒng)的核心業(yè)務(wù)是電量記錄、用電控制與管理、營業(yè)計費和線路鋪設(shè)與維護(hù)等,電力營銷系統(tǒng)的核心是通過對營銷數(shù)據(jù)進(jìn)行收集整理使系統(tǒng)更高效。而目前電力營銷系統(tǒng)面臨的主要問題是如何利用這些大量的營銷數(shù)據(jù)提取出有參考價值的知識,進(jìn)而快速地為管理者提供準(zhǔn)確且有科學(xué)依據(jù)的決策數(shù)據(jù)和指標(biāo),提高電力經(jīng)營管理水平, 指導(dǎo)電網(wǎng)順利且高效地運行工作。數(shù)據(jù)挖掘技術(shù)的出現(xiàn),無疑給電力營銷系統(tǒng)帶來了一場革命性的發(fā)展。目前數(shù)據(jù)挖掘技術(shù)在電力營銷系統(tǒng)中已有廣泛的研究與應(yīng)用,侯雪波等將數(shù)據(jù)挖掘技術(shù)引入電力市場的營銷分析中, 利用相關(guān)算法對收集到的數(shù)據(jù)應(yīng)用關(guān)聯(lián)規(guī)則技術(shù)進(jìn)行整理分析,描述各種外部因素和售電量之間的關(guān)聯(lián)關(guān)系,分析出外部因素對售電量的影響,從而對電量的使用作出科學(xué)的分析與預(yù)測,保證電量的供應(yīng)。牛東曉等通過對電力負(fù)荷的數(shù)據(jù)挖掘得出其規(guī)律并通過對電力負(fù)荷預(yù)測上進(jìn)行分析研究,使電力預(yù)測精度得到提高。
高速鐵路SCADA系統(tǒng)產(chǎn)生的數(shù)據(jù)一般應(yīng)用于制作報表、事故統(tǒng)計等。但大量的數(shù)據(jù)僅僅用于記錄太過于浪費。若從大量的數(shù)據(jù)中提取可用數(shù)據(jù)并對SCADA系統(tǒng)設(shè)備的潛在故障進(jìn)行預(yù)測,那無疑將大大提高SCADA系統(tǒng)的綜合分析性能。高速鐵路調(diào)度中心保存了大量的歷史信息,包括火車運行正常、運行中故障、火車到達(dá)終點晚點等相關(guān)數(shù)據(jù),如將這些數(shù)據(jù)進(jìn)行綜合深入分析,可得到更加有用的分析預(yù)測結(jié)果。
數(shù)據(jù)挖掘技術(shù)包括關(guān)聯(lián)規(guī)則、分類、時間序列挖掘和序列挖掘、聚類、Web挖掘以及空間挖掘。其中關(guān)聯(lián)規(guī)則是從大量表面上看上去毫無聯(lián)系的數(shù)據(jù)中挖掘出數(shù)據(jù)項之間具有關(guān)聯(lián)的有參考價值的知識,關(guān)聯(lián)規(guī)則主要用于在具有大量數(shù)據(jù)的數(shù)據(jù)庫中發(fā)現(xiàn)數(shù)據(jù)項目之間存在的有意義的關(guān)聯(lián)關(guān)系,從而對這些關(guān)聯(lián)關(guān)系進(jìn)行有效解釋評估,分析出用戶真正感興趣且有價值的關(guān)聯(lián)規(guī)律,通過這些規(guī)律做出預(yù)測或?qū)ζ渌挛镒鬟M(jìn)一步分析。分類是將存在于數(shù)據(jù)庫中的數(shù)據(jù)根據(jù)一定的規(guī)律分類歸納到給定類別中的一個特定的類別,分類一般用于預(yù)測,預(yù)測的目的是利用通過對歷史數(shù)據(jù)的分析得出的結(jié)果推論出對當(dāng)前給定數(shù)據(jù)的預(yù)測分析,從而根據(jù)當(dāng)前收集到的數(shù)據(jù)對未來可能發(fā)生的情況進(jìn)行預(yù)測。時間序列挖掘和序列挖掘指的是從大量的時間序列數(shù)據(jù)中提取出與時間屬性相關(guān)聯(lián)的有用的信息和數(shù)據(jù),其中這些信息是人們事先無法知道的但又潛在存在的有用的,并用于短中長期各個不同時期的預(yù)測,指導(dǎo)人們在教育、經(jīng)濟(jì)、軍事和娛樂等各方面的行為活動。序列挖掘是指在已經(jīng)相對于時間具有固定序列的隊列中再相對于其他因素作排序,即序列中又有序。聚類就是將數(shù)據(jù)庫中的數(shù)據(jù)項根據(jù)一定的原則分組成多個集合,劃分的依據(jù)是在同一個集合中的數(shù)據(jù)之間按照某一原則具有較高的相似度,這個相似度的確定是事先規(guī)定的,而存在于不同集合中的數(shù)據(jù)具有較低的相似度。Web挖掘可簡單地理解為針對包括頁面內(nèi)容、頁與頁之間的結(jié)構(gòu)以及頁與頁之間的關(guān)聯(lián)關(guān)系等在內(nèi)的各種與Web相關(guān)的數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘技術(shù)以幫助人們從網(wǎng)頁內(nèi)容中提取所需的信息,如信息檢索等??臻g挖掘就是從空間數(shù)據(jù)庫中提取隱藏的信息、數(shù)據(jù)關(guān)系等,用于對空間數(shù)據(jù)做分析解釋、發(fā)現(xiàn)空間數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。
關(guān)聯(lián)規(guī)則技術(shù)是數(shù)據(jù)挖掘技術(shù)中最常用的研究方法之一,最早是通過對購物籃模式的分析提出來的,從海量的數(shù)據(jù)中根據(jù)邏輯要求提取出數(shù)據(jù)項之間具有相互聯(lián)系的有意義的信息。隨著計算機(jī)的普遍使用,數(shù)據(jù)庫中存在的數(shù)據(jù)越來越龐大,通過對數(shù)據(jù)挖掘技術(shù)的理解和使用,人們對從這些數(shù)據(jù)中挖掘出相應(yīng)的關(guān)聯(lián)知識越來越有興趣。其中關(guān)聯(lián)規(guī)則技術(shù)通過對數(shù)據(jù)分析產(chǎn)生規(guī)則,根據(jù)分析出的規(guī)則確定哪些事情應(yīng)該分在一起。關(guān)聯(lián)規(guī)則最典型應(yīng)用是零售商店根據(jù)以往商品銷售記錄和商品擺放位置之間的關(guān)聯(lián)關(guān)系,利用關(guān)聯(lián)規(guī)則技術(shù)分析出它們之間的規(guī)律,以便將其他經(jīng)常被一起購買的物品和暢銷商品擺放在一起,同時提高其他商品的銷售量。關(guān)聯(lián)規(guī)則在電力系統(tǒng)的電力使用情況的分析、高速鐵路運行過程中路況與車速的統(tǒng)計、電力營銷系統(tǒng)中當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù)的對比分析等SCADA系統(tǒng)中都有廣泛的使用。SCADA是物聯(lián)網(wǎng)知識中的一部分,SCADA中通過對數(shù)據(jù)挖掘的使用不僅提高了本身系統(tǒng)的功能性,并且對物聯(lián)網(wǎng)技術(shù)的發(fā)展與改進(jìn)也有很大的作用。
隨著物聯(lián)網(wǎng)技術(shù)的高速發(fā)展以及計算機(jī)的廣泛使用,不論是企業(yè)管理軟件、網(wǎng)上購物系統(tǒng)還是網(wǎng)絡(luò)游戲系統(tǒng)中隨著時間的積累以及使用,其數(shù)據(jù)庫中存在著大量的數(shù)據(jù),有些人覺得這些數(shù)據(jù)毫無用途,但通過數(shù)據(jù)挖掘技術(shù)的使用這些數(shù)據(jù)將變得非常有意義,它能提取出我們無法想象的但是卻有潛在用途的數(shù)據(jù)。各行各業(yè)隨著信息高速化的發(fā)展都積累了大量的數(shù)據(jù),面對如此龐大的數(shù)據(jù)是棄而舍之還是加以利用,隨著數(shù)據(jù)挖掘技術(shù)的出現(xiàn)變得越來越明朗,利用數(shù)據(jù)挖掘技術(shù)不僅可以利用這些數(shù)據(jù)對以往信息作分析,也能給我們將來的決策給出科學(xué)的依據(jù)。比如在網(wǎng)上購物系統(tǒng)中,我們可以根據(jù)分析購買者每次購買衣服的價位以及衣服的款式,在其下次再購買或者上新貨時將適合該客戶的衣服推薦給該客戶,這樣不僅讓購買者感覺到購物的愉悅,同時也提高網(wǎng)上商店的銷售量,但這需要數(shù)據(jù)挖掘系統(tǒng)通過對該客戶的信息進(jìn)行分析整理最后給出有意義的信息。同時隨著物聯(lián)網(wǎng)的快速發(fā)展,作為物聯(lián)網(wǎng)知識之一的SCADA系統(tǒng)也在不斷地發(fā)展,但SCADA系統(tǒng)的發(fā)展離不開數(shù)據(jù)挖掘技術(shù)。
本文對數(shù)據(jù)挖掘技術(shù)和SCADA系統(tǒng)做了簡要介紹,通過對SCADA系統(tǒng)功能的分析,闡述數(shù)據(jù)挖掘技術(shù)在SCADA系統(tǒng)中的作用。目前隨著SCADA系統(tǒng)的廣泛使用,數(shù)據(jù)挖掘技術(shù)也受到越來越多的關(guān)注,這也更突顯出數(shù)據(jù)挖掘技術(shù)在SCADA系統(tǒng)中重要的地位。
參考文獻(xiàn):
[1]于春香.數(shù)據(jù)挖掘技術(shù)簡介[J].福建信息技術(shù)教育,2005,(1).
[2]毛國君,段立娟,王實.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2005.
[3]SFORNA M. Data Mining in a Power Company Customer Database[J].Electric Power System Research,2000,(8).
[4]張新程.物聯(lián)網(wǎng)關(guān)鍵技術(shù)[M].北京:人民郵電出版社,2011.
[5]高飛,薛艷明,王愛華,等.物聯(lián)網(wǎng)核心技術(shù):RFID原理與應(yīng)用[M].北京:人民郵電出版社,2010.
[6]周洪波.物聯(lián)網(wǎng):技術(shù)、應(yīng)用、標(biāo)準(zhǔn)和商業(yè)模式[M].北京:電子工業(yè)出版社,2011.
[7]任宗偉.物聯(lián)網(wǎng)基礎(chǔ)技術(shù)[M].北京:中國物資出版社,2011.
[8]張春紅,等.物聯(lián)網(wǎng)技術(shù)與應(yīng)用[M].北京:人民郵電出版社,2011.
黑龍江生態(tài)工程職業(yè)學(xué)院學(xué)報2013年2期