楊瑞鳳 季心紅
(宿州市環(huán)境保護(hù)監(jiān)測(cè)站安徽宿州23400)
環(huán)境自動(dòng)監(jiān)測(cè)網(wǎng)絡(luò)的數(shù)據(jù)異常值標(biāo)識(shí)方法及系統(tǒng)
楊瑞鳳 季心紅
(宿州市環(huán)境保護(hù)監(jiān)測(cè)站安徽宿州23400)
本文介紹一種環(huán)境自動(dòng)監(jiān)測(cè)網(wǎng)絡(luò)的數(shù)據(jù)異常值標(biāo)識(shí)方法及系統(tǒng),方法包括:根據(jù)基站系統(tǒng)自動(dòng)識(shí)別、基站人工審核和實(shí)時(shí)數(shù)據(jù)平臺(tái)的專家識(shí)別、平臺(tái)人工審核這四個(gè)數(shù)據(jù)來(lái)源對(duì)環(huán)境監(jiān)測(cè)網(wǎng)絡(luò)的數(shù)據(jù)標(biāo)識(shí)體系進(jìn)行統(tǒng)一定義,得到來(lái)源類型標(biāo)識(shí)、模式標(biāo)識(shí)、模式跟蹤數(shù)據(jù)標(biāo)識(shí)、演繹標(biāo)識(shí)和刪除標(biāo)識(shí)的數(shù)據(jù)結(jié)構(gòu);根據(jù)來(lái)源類型標(biāo)識(shí)、模式標(biāo)識(shí)、模式跟蹤數(shù)據(jù)標(biāo)識(shí)、演繹標(biāo)識(shí)和刪除標(biāo)識(shí)的數(shù)據(jù)結(jié)構(gòu),對(duì)基站層和平臺(tái)層的異常值進(jìn)行識(shí)別,并采用改進(jìn)的數(shù)據(jù)標(biāo)識(shí)同步算法實(shí)現(xiàn)基站層異常值和平臺(tái)層異常值的同步。本方法增設(shè)了模式跟蹤數(shù)據(jù)和標(biāo)識(shí)演繹標(biāo)識(shí),并提出了實(shí)時(shí)數(shù)據(jù)平臺(tái)的異常值識(shí)別算法,溯源效率高、精確度高、全面、可靠、科學(xué)和準(zhǔn)確,可廣泛應(yīng)用于環(huán)境監(jiān)測(cè)領(lǐng)域。
環(huán)境自動(dòng)檢測(cè)網(wǎng)絡(luò);數(shù)據(jù)異常值;識(shí)別
環(huán)境自動(dòng)監(jiān)測(cè)網(wǎng)絡(luò)是環(huán)境質(zhì)量科學(xué)表征的重要數(shù)據(jù)來(lái)源,其目的是獲得高質(zhì)量的環(huán)境監(jiān)測(cè)數(shù)據(jù),并由此推斷整個(gè)環(huán)境現(xiàn)有的質(zhì)量特征。環(huán)境自動(dòng)監(jiān)測(cè)網(wǎng)絡(luò)除了擁有一般環(huán)境監(jiān)測(cè)的要素外,自身還具備基站長(zhǎng)期實(shí)時(shí)不間斷監(jiān)測(cè)、基站與實(shí)時(shí)數(shù)據(jù)平臺(tái)數(shù)據(jù)同步對(duì)接、實(shí)時(shí)數(shù)據(jù)平臺(tái)對(duì)海量數(shù)據(jù)自動(dòng)分析統(tǒng)計(jì)等特點(diǎn)。針對(duì)環(huán)境自動(dòng)監(jiān)測(cè)網(wǎng)絡(luò)獨(dú)有的技術(shù)特點(diǎn),研發(fā)異常值標(biāo)識(shí)技術(shù),將提升環(huán)境自動(dòng)監(jiān)測(cè)網(wǎng)絡(luò)數(shù)據(jù)審核工作的科學(xué)性和邏輯性,極大提高了環(huán)境自動(dòng)監(jiān)測(cè)網(wǎng)絡(luò)的數(shù)據(jù)質(zhì)量,保證數(shù)據(jù)審核質(zhì)量和效率。
1.1 數(shù)據(jù)標(biāo)識(shí)的不完善
目前對(duì)網(wǎng)絡(luò)數(shù)據(jù)的異常值采取在其后嵌入數(shù)據(jù)標(biāo)識(shí)的技術(shù)方法。這種方法可有效地避免異常值納入數(shù)據(jù)統(tǒng)計(jì),但因其對(duì)質(zhì)控工作溯源時(shí)沒有對(duì)異常值的原因(如儀器質(zhì)控和外界環(huán)境因素等)進(jìn)行垂直的追蹤,平臺(tái)數(shù)據(jù)管理人員無(wú)法追蹤判斷數(shù)據(jù)質(zhì)量的真實(shí)情況。為解決此問題,數(shù)據(jù)管理人員需查詢基站的工作日志和詢問基站維護(hù)人員,質(zhì)控工作的溯源工作效率低下且導(dǎo)致容易因詢問導(dǎo)致出錯(cuò)[1]。
1.2 識(shí)別來(lái)源的缺失或不統(tǒng)一
環(huán)境自動(dòng)監(jiān)測(cè)網(wǎng)絡(luò)的數(shù)據(jù)異常值的來(lái)源包括基站系統(tǒng)自動(dòng)識(shí)別、基站人工審核和實(shí)時(shí)數(shù)據(jù)平臺(tái)的專家識(shí)別和平臺(tái)人工審核等,這四種來(lái)源在網(wǎng)絡(luò)的數(shù)據(jù)審核體系里是互相聯(lián)系、互相制約和不可割裂的,應(yīng)作為一個(gè)系統(tǒng)整體的有機(jī)結(jié)合[2]。
但目前仍沒有相關(guān)的技術(shù)把四類數(shù)據(jù)標(biāo)識(shí)歸納統(tǒng)一,導(dǎo)致不同階層的數(shù)據(jù)審核者往往只能考慮一個(gè)來(lái)源的數(shù)據(jù)標(biāo)識(shí),不夠全面和可靠。
1.3 環(huán)境自動(dòng)監(jiān)測(cè)實(shí)時(shí)數(shù)據(jù)平臺(tái)統(tǒng)計(jì)算法的缺失
實(shí)時(shí)數(shù)據(jù)平臺(tái)識(shí)別異常值的技術(shù)源自統(tǒng)計(jì)學(xué)、軟件工程和計(jì)算機(jī)科學(xué)。統(tǒng)計(jì)學(xué)對(duì)統(tǒng)計(jì)數(shù)據(jù)異常值的識(shí)別雖有很多研究成果,但大多是從數(shù)學(xué)的角度并針對(duì)一些特殊分布例如多維正態(tài)分布、r分布等來(lái)實(shí)現(xiàn)的。然而,環(huán)境自動(dòng)監(jiān)測(cè)數(shù)據(jù)大多不符合這些分布,難以直接采用這些研究成果來(lái)進(jìn)行檢驗(yàn)和識(shí)別。因此環(huán)境自動(dòng)監(jiān)測(cè)實(shí)時(shí)數(shù)據(jù)平臺(tái)缺乏能檢查和審核統(tǒng)計(jì)數(shù)據(jù)可靠性和準(zhǔn)確性的統(tǒng)計(jì)算法[3]。
此外,目前的異常值識(shí)別技術(shù)將監(jiān)測(cè)數(shù)據(jù)的異常值直接刪除,很難容納統(tǒng)計(jì)學(xué)理論識(shí)別異常值的方法。因?yàn)榻y(tǒng)計(jì)學(xué)理論能推算監(jiān)測(cè)數(shù)據(jù)里的異常值,但不代表該異常值在真實(shí)環(huán)境是絕對(duì)錯(cuò)誤的,如果直接刪除被推算為異常的數(shù)據(jù)則不尊重客觀現(xiàn)實(shí),不夠科學(xué)和準(zhǔn)確。
2.1 總體思路
環(huán)境自動(dòng)監(jiān)測(cè)網(wǎng)絡(luò)的數(shù)據(jù)異常值標(biāo)識(shí)方法設(shè)計(jì)思路如圖1所示。
圖1 環(huán)境自動(dòng)檢測(cè)網(wǎng)絡(luò)的數(shù)據(jù)異常標(biāo)識(shí)方法設(shè)計(jì)思路圖
2.2 概念描述
2.2.1 根據(jù)基站系統(tǒng)自動(dòng)識(shí)別、基站人工審核和實(shí)時(shí)數(shù)據(jù)平臺(tái)的專家識(shí)別、平臺(tái)人工審核這四個(gè)數(shù)據(jù)來(lái)源對(duì)環(huán)境監(jiān)測(cè)網(wǎng)絡(luò)的數(shù)據(jù)標(biāo)識(shí)體系進(jìn)行統(tǒng)一定義,從而得到來(lái)源類型標(biāo)識(shí)、模式標(biāo)識(shí)、模式跟蹤數(shù)據(jù)標(biāo)識(shí)、演繹標(biāo)識(shí)和刪除標(biāo)識(shí)的數(shù)據(jù)結(jié)構(gòu)。其中,來(lái)源類型標(biāo)識(shí)根據(jù)數(shù)據(jù)的來(lái)源進(jìn)行定義,包括網(wǎng)絡(luò)命令標(biāo)識(shí)、基站系統(tǒng)標(biāo)識(shí)、基站儀器自動(dòng)執(zhí)行命令標(biāo)識(shí)、基站人工審核標(biāo)識(shí)、實(shí)時(shí)數(shù)據(jù)平臺(tái)標(biāo)識(shí);所述模式標(biāo)識(shí)用于對(duì)基站自動(dòng)監(jiān)測(cè)網(wǎng)絡(luò)各種形式的信息進(jìn)行表征、描述和分類,由信息名稱的英文或漢語(yǔ)拼音的第一個(gè)字母的縮寫組成,包括監(jiān)測(cè)數(shù)據(jù)狀態(tài)標(biāo)識(shí)、質(zhì)控質(zhì)保任務(wù)標(biāo)識(shí)和基站監(jiān)測(cè)系統(tǒng)及儀器故障標(biāo)識(shí);所述刪除標(biāo)識(shí),用于表示不能參與統(tǒng)計(jì)的監(jiān)測(cè)數(shù)據(jù),具體數(shù)據(jù)格式為:刪除標(biāo)識(shí)/來(lái)源類型標(biāo)識(shí)。
2.2.2 根據(jù)來(lái)源類型標(biāo)識(shí)、模式標(biāo)識(shí)、模式跟蹤數(shù)據(jù)標(biāo)識(shí)、演繹標(biāo)識(shí)和刪除標(biāo)識(shí)的數(shù)據(jù)結(jié)構(gòu),對(duì)基站層和平臺(tái)層的異常值進(jìn)行識(shí)別,并采用改進(jìn)的數(shù)據(jù)標(biāo)識(shí)同步算法實(shí)現(xiàn)基站層異常值和平臺(tái)層異常值的同步。其中,模式跟蹤數(shù)據(jù)標(biāo)識(shí)包括結(jié)果導(dǎo)向標(biāo)識(shí)和過程導(dǎo)向標(biāo)識(shí);結(jié)果導(dǎo)向標(biāo)識(shí)的數(shù)據(jù)結(jié)構(gòu)為:模式標(biāo)識(shí)(特征標(biāo)識(shí)1,特征標(biāo)識(shí)2,……,特征標(biāo)識(shí)n)/來(lái)源類型標(biāo)識(shí);結(jié)果導(dǎo)向標(biāo)識(shí)的生成過程為:選擇結(jié)果導(dǎo)向標(biāo)識(shí)的數(shù)據(jù)結(jié)構(gòu),然后把代表結(jié)果的模式標(biāo)識(shí)、以及與該模式標(biāo)識(shí)相關(guān)聯(lián)的特征標(biāo)識(shí)1到特征標(biāo)識(shí)n導(dǎo)入到選擇的數(shù)據(jù)結(jié)構(gòu)中;特征標(biāo)識(shí)是指基站監(jiān)測(cè)系統(tǒng)開發(fā)者定義的關(guān)于系統(tǒng)、儀器的狀況標(biāo)識(shí)或基站采集系統(tǒng)的環(huán)境狀況標(biāo)識(shí),特征標(biāo)識(shí)1,特征標(biāo)識(shí)2,……,特征標(biāo)識(shí)n是指與代表結(jié)果的模式標(biāo)識(shí)相關(guān)聯(lián)的特征標(biāo)識(shí);過程導(dǎo)向標(biāo)識(shí)的數(shù)據(jù)結(jié)構(gòu)為:模式標(biāo)識(shí)(數(shù)值基準(zhǔn)標(biāo)識(shí)1,數(shù)值過程標(biāo)識(shí)1,……,數(shù)值基準(zhǔn)標(biāo)識(shí)1,數(shù)值過程標(biāo)識(shí)m)/來(lái)源類型標(biāo)識(shí);所述過程導(dǎo)向標(biāo)識(shí)的生成過程為:選擇過程導(dǎo)向標(biāo)識(shí)的數(shù)據(jù)結(jié)構(gòu);然后把代表過程的模式標(biāo)識(shí)、以及與該模式標(biāo)識(shí)產(chǎn)生過程相關(guān)聯(lián)的基準(zhǔn)標(biāo)識(shí)1,數(shù)值過程標(biāo)識(shí)1……數(shù)值基準(zhǔn)標(biāo)識(shí)1,數(shù)值過程標(biāo)識(shí)m導(dǎo)入到選擇的數(shù)據(jù)結(jié)構(gòu)中;基準(zhǔn)標(biāo)識(shí)是指執(zhí)行質(zhì)控任務(wù)時(shí)所采用標(biāo)準(zhǔn)樣品的濃度值,數(shù)值過程標(biāo)識(shí)是執(zhí)行質(zhì)控任務(wù)時(shí)監(jiān)測(cè)儀器測(cè)標(biāo)準(zhǔn)樣品所得的結(jié)果濃度值,數(shù)值過程標(biāo)識(shí)1,數(shù)值過程標(biāo)識(shí)2,……,數(shù)值過程標(biāo)識(shí)m是指與代表過程的模式標(biāo)識(shí)相關(guān)聯(lián)的數(shù)值過程標(biāo)識(shí),且數(shù)值過程標(biāo)識(shí)m按數(shù)據(jù)標(biāo)識(shí)產(chǎn)生過程的時(shí)間先后順序排列;演繹標(biāo)識(shí)是指容納統(tǒng)計(jì)學(xué)理論識(shí)別異常值的標(biāo)識(shí),具體數(shù)據(jù)格式為:演繹標(biāo)識(shí)/來(lái)源類型標(biāo)識(shí);所述演繹標(biāo)識(shí)并不參與數(shù)據(jù)統(tǒng)計(jì),只用于反映和記錄計(jì)算機(jī)智能診斷出來(lái)的異常值,若人工診斷確認(rèn)該異常值為真實(shí)的異常值,演繹標(biāo)識(shí)會(huì)自動(dòng)轉(zhuǎn)為刪除標(biāo)識(shí)。
2.3 識(shí)別過程及步驟
根據(jù)來(lái)源類型標(biāo)識(shí)、模式標(biāo)識(shí)、模式跟蹤數(shù)據(jù)標(biāo)識(shí)、演繹標(biāo)識(shí)和刪除標(biāo)識(shí)的數(shù)據(jù)結(jié)構(gòu),對(duì)基站層異常值進(jìn)行識(shí)別的步驟如圖2所示。
圖2 基站層面異常值識(shí)別流程圖
步驟B中根據(jù)來(lái)源類型標(biāo)識(shí)、模式標(biāo)識(shí)、模式跟蹤數(shù)據(jù)標(biāo)識(shí)、演繹標(biāo)識(shí)和刪除標(biāo)識(shí)的數(shù)據(jù)結(jié)構(gòu),對(duì)平臺(tái)層異常值進(jìn)行識(shí)別這一步驟,其包括:
圖3 平臺(tái)層異常值識(shí)別流程圖
步驟B中采用改進(jìn)的數(shù)據(jù)標(biāo)識(shí)同步算法實(shí)現(xiàn)基站層和平臺(tái)層異常值的同步這一步驟,其包括:
S1、基站與平臺(tái)建立socket連接;S2、判斷是否需要同步數(shù)據(jù)標(biāo)識(shí)數(shù)據(jù)庫(kù),若是,則執(zhí)行步驟S3,反之,則執(zhí)行步驟S4;S3、基站向平臺(tái)發(fā)送修改數(shù)據(jù)標(biāo)識(shí)數(shù)據(jù)庫(kù)的請(qǐng)求,并在平臺(tái)同意修改和同步標(biāo)識(shí)匹配檢查完成后向平臺(tái)發(fā)送數(shù)據(jù)標(biāo)識(shí)記錄數(shù)據(jù)包,從而使平臺(tái)進(jìn)行應(yīng)答修改;S4、平臺(tái)向基站發(fā)送修改數(shù)據(jù)標(biāo)識(shí)知識(shí)庫(kù)的請(qǐng)求,并在基站同意修改后向基站發(fā)送數(shù)據(jù)標(biāo)識(shí)知識(shí)庫(kù)修改數(shù)據(jù)包,從而使基站進(jìn)行應(yīng)答修改。
上述步驟S3,包括:S31、基站向平臺(tái)發(fā)送修改數(shù)據(jù)標(biāo)識(shí)數(shù)據(jù)庫(kù)的請(qǐng)求;S32、平臺(tái)發(fā)出同意修改請(qǐng)求的響應(yīng);S33、基站接收到同意響應(yīng)后向平臺(tái)發(fā)送同步標(biāo)識(shí)為last的數(shù)據(jù)標(biāo)識(shí)數(shù)據(jù)包M;S34、平臺(tái)檢查數(shù)據(jù)包M是否與平臺(tái)同步數(shù)據(jù)庫(kù)中的同步標(biāo)識(shí)為last的數(shù)據(jù)匹配,若是則執(zhí)行步驟S35,反之,則順序執(zhí)行步驟S36~S38;S35、基站向平臺(tái)傳輸同步標(biāo)識(shí)為next的數(shù)據(jù)包及其后的數(shù)據(jù),然后結(jié)束同步過程;S36、服務(wù)器向基站發(fā)送平臺(tái)同步標(biāo)識(shí)為last的數(shù)據(jù)包L;S37、基站在基站同步數(shù)據(jù)庫(kù)中搜索與數(shù)據(jù)包L匹配的數(shù)據(jù)記錄,并把搜索到的匹配數(shù)據(jù)的同步標(biāo)識(shí)修改為last,同時(shí)基站把下一時(shí)刻數(shù)據(jù)記錄的同步標(biāo)識(shí)修改為next;S38、基站向平臺(tái)傳輸同步標(biāo)識(shí)為next的數(shù)據(jù)標(biāo)識(shí)記錄數(shù)據(jù)包R及其后的數(shù)據(jù),然后結(jié)束同步過程。
其中步驟S4,包括:S41、平臺(tái)向基站發(fā)送修改數(shù)據(jù)標(biāo)識(shí)知識(shí)庫(kù)的請(qǐng)求;S42、基站發(fā)出同意修改的響應(yīng);S43、平臺(tái)在接收到同意的響應(yīng)后向基站發(fā)送數(shù)據(jù)標(biāo)識(shí)知識(shí)庫(kù)修改數(shù)據(jù)包;S44、平臺(tái)通知基站數(shù)據(jù)包發(fā)送完畢,基站應(yīng)答;S45、基站根據(jù)修改數(shù)據(jù)包修改基站的數(shù)據(jù)標(biāo)識(shí)知識(shí)庫(kù)。
3.1 一種全新結(jié)構(gòu)的數(shù)據(jù)標(biāo)識(shí)類型—模式跟蹤數(shù)據(jù)標(biāo)識(shí),能有效地記錄監(jiān)測(cè)網(wǎng)絡(luò)質(zhì)控的歷史過程,為質(zhì)控工作的溯源提供技術(shù)依據(jù),提高了溯源的工作效率,降低了出錯(cuò)率;根據(jù)基站系統(tǒng)自動(dòng)識(shí)別、基站人工審核和實(shí)時(shí)數(shù)據(jù)平臺(tái)的專家識(shí)別、平臺(tái)人工審核這四個(gè)數(shù)據(jù)來(lái)源對(duì)環(huán)境監(jiān)測(cè)網(wǎng)絡(luò)的數(shù)據(jù)標(biāo)識(shí)體系進(jìn)行統(tǒng)一定義,使不同級(jí)別的數(shù)據(jù)審核者在進(jìn)行審核時(shí)能整體考慮四個(gè)來(lái)源的數(shù)據(jù)標(biāo)識(shí),更加全面和可靠;增設(shè)了演繹標(biāo)識(shí),不直接刪除監(jiān)測(cè)數(shù)據(jù)的異常值,而是為監(jiān)測(cè)數(shù)據(jù)的異常值賦予演繹標(biāo)識(shí),以輔助數(shù)據(jù)實(shí)時(shí)平臺(tái)數(shù)據(jù)管理人員準(zhǔn)確識(shí)別監(jiān)測(cè)數(shù)據(jù)的異常值是否為真實(shí)的異常值,能容納統(tǒng)計(jì)學(xué)理論識(shí)別異常值的方法,更加科學(xué)和準(zhǔn)確;
3.2 采用改進(jìn)的數(shù)據(jù)標(biāo)識(shí)同步算法實(shí)現(xiàn)基站層異常值和平臺(tái)層異常值的同步,能保證平臺(tái)層和基站層的數(shù)據(jù)標(biāo)識(shí)能同步更新以及對(duì)基站層的數(shù)據(jù)標(biāo)識(shí)知識(shí)庫(kù)進(jìn)行修改。進(jìn)一步,采用經(jīng)改進(jìn)帶有同步標(biāo)識(shí)的同步算法實(shí)現(xiàn)基站層異常值和平臺(tái)層異常值的同步,能防止平臺(tái)服務(wù)器因停電等因素而導(dǎo)致的數(shù)據(jù)丟失故障,而且可以對(duì)基站人工修改的數(shù)據(jù)標(biāo)識(shí)進(jìn)行更新,更加安全和方便。進(jìn)一步,提出了環(huán)境自動(dòng)監(jiān)測(cè)實(shí)時(shí)數(shù)據(jù)異常值數(shù)據(jù)識(shí)別的完整算法,能很好地對(duì)負(fù)值、超出儀器量程范圍的值、連續(xù)不變的值、基于箱線圖統(tǒng)計(jì)方法判別為離群值的數(shù)據(jù)進(jìn)行識(shí)別,同時(shí)能很好地容納統(tǒng)計(jì)學(xué)理論在平臺(tái)異常值自動(dòng)識(shí)別中的運(yùn)用,更加可靠和科學(xué)。
[1]李艷萍,張浩,周國(guó)棟.完善環(huán)境監(jiān)測(cè)技術(shù)監(jiān)督體系的思考[J].環(huán)境監(jiān)測(cè)管理與技術(shù),2014,26(6):5-8.
[2]李蔚,胡昊,徐富春,等.大數(shù)據(jù)解析技術(shù)在大氣環(huán)境監(jiān)測(cè)中的應(yīng)用研究[J].中國(guó)環(huán)境監(jiān)測(cè),2015,31(3):118-122.
[3]魏晶茹,馬瑜,白冰,等.基于PSO-SVM算法的環(huán)境監(jiān)測(cè)設(shè)局異常檢測(cè)和缺失補(bǔ)缺[J].環(huán)境監(jiān)測(cè)管理與技術(shù),2016,28(4):53-56+68.
楊瑞鳳(1983—),女,漢族,安徽宿州人,本科,工程師,從事監(jiān)測(cè)分析工作。