渠婷婷
(寧夏天地奔牛實業(yè)集團有限公司,寧夏 銀川 750000)
目前煤礦刮板輸送機動力部監(jiān)測系統(tǒng)產(chǎn)品已經(jīng)成熟,監(jiān)測數(shù)據(jù)作為判斷設(shè)備運行狀態(tài)的底層支撐,目前存在以下問題:①數(shù)據(jù)量大,業(yè)務(wù)系統(tǒng)積累的數(shù)據(jù)時間長,類型多,傳感器實時性高,每天產(chǎn)生大量的數(shù)據(jù);②難打通,存儲的數(shù)據(jù)格式多樣,不利于其他軟件讀取分析;③不直觀,行列式,無法交互,統(tǒng)計的數(shù)據(jù)沒有產(chǎn)生價值;④采集設(shè)備存儲的數(shù)據(jù)質(zhì)量需要分析核實,并分析數(shù)據(jù)質(zhì)量低下的原因?,F(xiàn)在存儲的數(shù)據(jù)量已遠超目前人工所能處理的范圍,但這些數(shù)據(jù)對刮板輸送機的設(shè)計制造沒有發(fā)揮其價值,因此需要開發(fā)一套基于Python的數(shù)據(jù)挖掘及可視化軟件,用來整合、歸納、挖掘數(shù)據(jù)之間的關(guān)系,將可視化技術(shù)與數(shù)據(jù)挖掘過程緊密地結(jié)合在一起, 將數(shù)據(jù)與數(shù)據(jù)挖掘結(jié)果可視化。我們采用多種統(tǒng)計、計算手段對數(shù)據(jù)加以詳細研究和總結(jié)歸納,多維度觀察積累的數(shù)據(jù),從大量的歷史數(shù)據(jù)中抽取出潛在的、有價值的信息,發(fā)現(xiàn)數(shù)據(jù)的發(fā)展規(guī)律和預(yù)測趨勢走向,然后轉(zhuǎn)化為可視化的表現(xiàn)形式的過程。
本系統(tǒng)由數(shù)據(jù)轉(zhuǎn)換模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)挖掘模塊、數(shù)據(jù)顯示模塊等組成。數(shù)據(jù)轉(zhuǎn)換模塊負責(zé)將不同格式的數(shù)據(jù)轉(zhuǎn)換為同一種格式;數(shù)據(jù)處理模塊負責(zé)將不同來源的數(shù)據(jù)進行集成,將轉(zhuǎn)換好的數(shù)據(jù)批量導(dǎo)入數(shù)據(jù)庫,并對采集數(shù)據(jù)的頻率進行處理,并執(zhí)行數(shù)據(jù)清洗工作;數(shù)據(jù)挖掘模塊負責(zé)發(fā)現(xiàn)數(shù)據(jù)中的隱含規(guī)律,用于總結(jié)分析;數(shù)據(jù)顯示模塊負責(zé)數(shù)據(jù)分析結(jié)果可視化和數(shù)據(jù)挖掘過程可視化,用于和用戶更好的交流互動。本系統(tǒng)采用B/S架構(gòu),Python開發(fā)語言,后臺服務(wù)應(yīng)用Flask框架,數(shù)據(jù)庫采用MySQL數(shù)據(jù)庫,采用了MVC,Ajax異步加載等技術(shù)可以在不用刷新整個頁面的情況下,與服務(wù)器交換數(shù)據(jù)并更新部分網(wǎng)頁內(nèi)容。用戶可以通過瀏覽器進行人機交互操作,獲取任意時間段的數(shù)據(jù),并按照用戶意愿獲取經(jīng)過分析后的結(jié)論。
需求分析是軟件開發(fā)項目中非常重要的一部分,決定著項目的成敗。準確獲取需求決定了后續(xù)的分析方法和方向。需求分析重點研究人們想從數(shù)據(jù)中獲得怎樣的價值。刮板輸送機監(jiān)測數(shù)據(jù)的數(shù)據(jù)挖掘與可視化分析主要是為了完成以下幾個方面的工作。
驗證:驗證監(jiān)測系統(tǒng)數(shù)據(jù)的數(shù)據(jù)質(zhì)量。
優(yōu)化:通過數(shù)據(jù)分析結(jié)果的研究,對監(jiān)測系統(tǒng)提出優(yōu)化建議。
提升:提升刮板輸送機監(jiān)測系統(tǒng)的附加價值。
發(fā)現(xiàn):發(fā)現(xiàn)符合一定規(guī)律隱含的有用信息并服務(wù)于刮板輸送機的設(shè)計制造。
本次刮板輸送機監(jiān)測數(shù)據(jù)的數(shù)據(jù)挖掘和可視化分析的需求分析工作主要是針對刮板輸送機的業(yè)務(wù)范圍對監(jiān)測系統(tǒng)的數(shù)據(jù)質(zhì)量、數(shù)據(jù)相關(guān)性、數(shù)據(jù)規(guī)律總結(jié)的分析研究。
在智能化礦井建設(shè)過程中,其監(jiān)測系統(tǒng)獲取數(shù)據(jù)的準確性在很大程度上影響著刮板輸送機后續(xù)的控制及分析工作的工作質(zhì)量和整體工作水平,因此刮板輸送機監(jiān)測數(shù)據(jù)的數(shù)據(jù)質(zhì)量至關(guān)重要,是首要的研究內(nèi)容。在獲取的大量數(shù)據(jù)中,需要統(tǒng)計分析數(shù)據(jù)的真實有效性,鑒別數(shù)據(jù)的損壞率及損壞的具體原因,并針對提高監(jiān)測數(shù)據(jù)的數(shù)據(jù)質(zhì)量提出優(yōu)化改進建議。只有建立在高質(zhì)量的數(shù)據(jù)基礎(chǔ)上進行分析總計,分析的結(jié)果才更具說服力,研究的結(jié)果更可靠有效。
數(shù)據(jù)獲取是數(shù)據(jù)挖掘與可視化分析工作的基礎(chǔ),是指根據(jù)需求分析的要求收集數(shù)據(jù)。井下設(shè)備采集、存儲的數(shù)據(jù)意義重大,但由于很多煤礦井下不具備網(wǎng)絡(luò)條件也并未將設(shè)備采集的數(shù)據(jù)通過環(huán)網(wǎng)傳輸?shù)降孛?,只能通過現(xiàn)場拷貝獲取數(shù)據(jù);具備網(wǎng)絡(luò)條件的采用遠程傳輸?shù)姆绞将@取數(shù)據(jù);然后對不同礦井的數(shù)據(jù)進行集成并針對采集數(shù)據(jù)進行數(shù)據(jù)挖掘以及可視化分析。
由于自動化設(shè)備的品牌類型繁多,各廠家的接口類型都不相同,不同設(shè)備采集存儲的數(shù)據(jù)格式多種多樣。刮板輸送機監(jiān)測數(shù)據(jù)主要來源于機器設(shè)備采集的周期性數(shù)據(jù)與用戶的意見和反饋數(shù)據(jù)。本系統(tǒng)主要采集的數(shù)據(jù)包含不同地區(qū)礦井監(jiān)測系統(tǒng)的數(shù)據(jù)。然后通過系統(tǒng)開發(fā)的批量化自動導(dǎo)入程序進行數(shù)據(jù)集成。將不同裝置獲取的值經(jīng)過轉(zhuǎn)換統(tǒng)一導(dǎo)入MySQL數(shù)據(jù)庫,通過程序中的數(shù)據(jù)展示模塊轉(zhuǎn)換為JSON格式的數(shù)據(jù)進行顯示。
數(shù)據(jù)預(yù)處理是指數(shù)據(jù)如何被清洗、集成、變換的過程。由于煤礦設(shè)備容易受到振動、高頻、噪聲等影響,導(dǎo)致實際獲取的數(shù)據(jù)存在臟數(shù)據(jù),比如數(shù)據(jù)值不合理的情況,溫度=-1 000 ℃,突然出現(xiàn)一個很大或者很小的數(shù)(不符合趨勢變化),也可能由于斷電等導(dǎo)致某個時間段出現(xiàn)數(shù)據(jù)為空的情況。因此,需要對這些數(shù)據(jù)進行預(yù)處理,包含數(shù)據(jù)清洗、數(shù)據(jù)類型轉(zhuǎn)換、將多個動力部數(shù)據(jù)合并成一個數(shù)據(jù)庫、添加數(shù)據(jù)描述。數(shù)據(jù)清洗是指出現(xiàn)一些數(shù)據(jù)不合理的情況將這些影響判斷的數(shù)據(jù)篩選掉。
在數(shù)據(jù)預(yù)處理完成后,就會得到一個沒有明顯錯誤的數(shù)據(jù)集所構(gòu)造的數(shù)據(jù)庫。目前已經(jīng)開發(fā)了數(shù)據(jù)預(yù)處理子程序,該程序支持將監(jiān)測獲取的數(shù)據(jù)按照預(yù)期的要求批量導(dǎo)入數(shù)據(jù)庫,并對數(shù)據(jù)進行篩選操作。正確的數(shù)據(jù)預(yù)處理對結(jié)果的可靠性會產(chǎn)生非常重要的影響。
通過對比分析、回歸分析、聚類分析、分組分析、方差、標準差、最小最大值等分析方法,可以發(fā)現(xiàn)數(shù)據(jù)中有價值的信息。使用ecStat數(shù)據(jù)挖掘工具,采用最新的數(shù)據(jù)分析模型,通過數(shù)據(jù)之間的相互關(guān)系、變化趨勢可以產(chǎn)生出許多有關(guān)聯(lián),有價值的結(jié)論。Python語言在數(shù)據(jù)挖掘領(lǐng)域有很大的優(yōu)勢,它編程自由靈活,語法表達優(yōu)美易讀,代碼開發(fā)效率高,因此許多數(shù)據(jù)科學(xué)領(lǐng)域的從業(yè)者都使用Python做數(shù)據(jù)挖掘。
本系統(tǒng)采用回歸算法分析了任意兩路傳感器之間的回歸曲線,回歸算法根據(jù)原始輸入數(shù)據(jù)集中自變量和因變量的值擬合出一條曲線,以反映其變化趨勢。目前研究的是單個自變量的回歸算法,將不同類型的傳感器作為自變量,其他路的傳感器數(shù)據(jù)作為因變量,不考慮時間因素的影響,繪制回歸曲線并將其擬合出一條直線或曲線,將擬合出的直線或曲線總結(jié)為一個公式。本系統(tǒng)主要擬合出4種回歸曲線,分別為線性回歸、指數(shù)回歸、對數(shù)回歸、多項式回歸。將大量的樣本數(shù)據(jù)輸入到數(shù)據(jù)分析模塊,然后通過ecStat得到各擬合的回歸曲線公式。本系統(tǒng)也分析不同條件下的數(shù)據(jù)方差、標準差、最大值、最小值、平均值為后續(xù)的分析提供支持。
由于數(shù)據(jù)量大,不能保證所有數(shù)據(jù)都是真實可靠的,數(shù)據(jù)預(yù)處理只能從取值范圍、趨勢等方面進行篩選,而無法從安裝位置是否合理等方面進行篩選;另外收集到的傳感器的種類和數(shù)量也是有限的,并不是有關(guān)方面的全部數(shù)據(jù)。通過數(shù)據(jù)分析雖然可以獲取有價值的信息,但是分析結(jié)果可能存在偏差,所以需要數(shù)據(jù)挖掘的直觀結(jié)果加上分析人員對于這些數(shù)據(jù)的理解與預(yù)測綜合考慮,不斷糾偏,得到不斷優(yōu)化的數(shù)據(jù)挖掘模型。用戶通過對比性的信息看懂數(shù)據(jù)背后存在的復(fù)雜聯(lián)系,數(shù)據(jù)分析有效性的保證來源于數(shù)據(jù)質(zhì)量。高質(zhì)量的數(shù)據(jù)源能夠保證分析結(jié)果的真實性和有效性。
Echarts是國內(nèi)一個開源的JavaScript的圖表庫,為用戶提供生動直觀、可交互的可視化展示平臺。本系統(tǒng)通過輕量級Web框架Flask向前端傳輸Json數(shù)據(jù),前端通過Echarts定制大屏展示主題,為了提升展示效果,項目采用Ajax異步傳輸方式實現(xiàn)畫面的自動定時更新,方便用戶在自動模式下對數(shù)據(jù)展示的需求。當然前端也可以通過發(fā)送POST請求向業(yè)務(wù)系統(tǒng)發(fā)起數(shù)據(jù)請求,業(yè)務(wù)系統(tǒng)整合處理后以標準的Json格式返回方便人機交互。該系統(tǒng)引入的數(shù)據(jù)可視化技術(shù)包括柱狀圖、餅狀圖、散點圖、三維立方體、回歸曲線、數(shù)據(jù)分布圖表等。
數(shù)據(jù)挖掘結(jié)果可視化是以視圖的形式給出由數(shù)據(jù)挖掘算法得出的結(jié)果或知識, 以提高用戶對結(jié)果的理解。許多挖掘技術(shù)包括不同的數(shù)學(xué)步驟并且要求用戶的干預(yù), 可視化能夠在用戶參與下支持決策過程, 可視化工具可以使用戶在數(shù)據(jù)挖掘過程中根據(jù)領(lǐng)域知識作出判斷, 幫助用戶作出更加合理的挖掘決定。后臺工作人員設(shè)置各種選項供分析人員選擇,對篩選數(shù)據(jù)加以詳細研究并且總結(jié)規(guī)律,最后導(dǎo)出一份包含了描述現(xiàn)狀的數(shù)據(jù)分析報告并且根據(jù)內(nèi)置的邏輯算法得出具體的整改措施和建議。將數(shù)據(jù)展示和數(shù)據(jù)挖掘結(jié)果展示是將復(fù)雜的過程簡單化,具有良好的用戶體驗。
把計算機中的數(shù)據(jù)挖掘與可視化分析技術(shù)應(yīng)用于煤礦設(shè)備的監(jiān)測系統(tǒng)獲取的數(shù)據(jù),將有助于從大量的數(shù)據(jù)中挖掘事先不知道,但又有潛在價值的信息。利用Python可以快速開發(fā)適合于數(shù)據(jù)采集、清洗、整合、數(shù)據(jù)挖掘和展示的平臺,將有助于解決監(jiān)測系統(tǒng)目前存在的不足,促使我們更有效地利用數(shù)據(jù)進行趨勢預(yù)測,為我們更好地服務(wù)于煤礦機械提供可靠的技術(shù)支撐。