亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種污水處理RO膜壓差異常數(shù)據(jù)檢測(cè)和處理方法

        2019-02-26 00:50:20劉峻清
        四川環(huán)境 2019年1期
        關(guān)鍵詞:中位數(shù)標(biāo)準(zhǔn)差壓差

        劉峻清,陶 濤

        (同濟(jì)大學(xué)環(huán)境科學(xué)與工程學(xué)院,上海 200092)

        1 污水處理中RO膜壓差數(shù)據(jù)異常值的影響

        隨著社會(huì)的進(jìn)步,污水處理廠的出水不僅被排放到自然水體中,也會(huì)被用于很多其他用途,例如作為工業(yè)冷卻水的來(lái)源。這些用途對(duì)出水的水質(zhì)提出了較高的要求,RO膜處理工藝也因此被更廣泛地應(yīng)用在污水處理中。RO膜壓差作為關(guān)鍵的運(yùn)行指標(biāo),一直被視為實(shí)際運(yùn)營(yíng)中的重要參考數(shù)據(jù)被用以判斷RO膜的運(yùn)行情況及決定是否應(yīng)當(dāng)對(duì)RO膜進(jìn)行人工清洗。實(shí)際運(yùn)營(yíng)中,常使用實(shí)時(shí)檢測(cè)系統(tǒng)對(duì)膜壓差進(jìn)行實(shí)時(shí)檢測(cè)并匯集成數(shù)據(jù)庫(kù),以便運(yùn)營(yíng)人員進(jìn)行分析和判斷。

        由于實(shí)際狀況的復(fù)雜性,檢測(cè)到的膜壓差數(shù)據(jù)中常含有很多異常數(shù)據(jù),這些異常值的來(lái)源很復(fù)雜,有些是因?yàn)閭鞲衅鞯漠惓顩r造成的異常值,有些則是因數(shù)據(jù)傳輸系統(tǒng)的問(wèn)題而產(chǎn)生。這些異常值對(duì)數(shù)據(jù)的質(zhì)量造成了明顯的影響,不利于運(yùn)營(yíng)人員對(duì)數(shù)據(jù)的分析和判斷,如何減少異常值對(duì)數(shù)據(jù)的影響一直是研究的熱點(diǎn)問(wèn)題之一。

        目前被廣泛使用的異常值檢測(cè)方法是“3σ方法”,該方法假設(shè)樣本數(shù)據(jù)服從正態(tài)分布,“正常”的數(shù)據(jù)應(yīng)當(dāng)集中在距離均值三倍樣本標(biāo)準(zhǔn)差的范圍之內(nèi),異常值和均值之間的距離則大于三倍樣本標(biāo)準(zhǔn)差,故該方法將數(shù)值偏離均值超過(guò)三倍樣本標(biāo)準(zhǔn)差的數(shù)據(jù)點(diǎn)判定為異常值。顯然,該方法存在很大的局限性,實(shí)際運(yùn)行數(shù)據(jù)的分布情況和正態(tài)分布之間有很大差距,同時(shí)實(shí)際運(yùn)行中得到的數(shù)據(jù)還會(huì)具有周期性和趨勢(shì)性等特點(diǎn),這就導(dǎo)致了“3σ方法”并不適用于實(shí)際運(yùn)行數(shù)據(jù)的異常值檢測(cè)。圖1為使用“3σ方法”對(duì)某污水廠RO膜壓差監(jiān)測(cè)數(shù)據(jù)進(jìn)行異常值檢測(cè)的結(jié)果,圖中虛線為該方法確定的異常值判定標(biāo)準(zhǔn)(樣本均值 + 3倍樣本標(biāo)準(zhǔn)差),可以明顯地看出該方法漏判了許多不顯著的異常值(虛線之下)。

        虛線表示該方法檢測(cè)到的異常值判斷標(biāo)準(zhǔn),虛線以上的數(shù)據(jù)點(diǎn)被判斷為異常值圖1 “3σ方法”檢測(cè)到的異常值Fig.1 Anomaly detection with 3σ method

        如何處理被判定為異常值的數(shù)據(jù)點(diǎn)也是關(guān)鍵問(wèn)題之一,常用的辦法是刪除異常值,但該方法會(huì)導(dǎo)致數(shù)據(jù)缺失的問(wèn)題,特別是對(duì)異常值較多的樣本,過(guò)多的數(shù)據(jù)缺失會(huì)嚴(yán)重地影響數(shù)據(jù)質(zhì)量。另外一種常見的處理方式是使用樣本的某一個(gè)統(tǒng)計(jì)量來(lái)替代所有異常值,例如樣本均值或者樣本中位數(shù)等,但這樣的處理方式過(guò)于粗糙,忽視了局部樣本可能具有的周期性等特點(diǎn),也不是一個(gè)理想的處理方式。

        2 S-H-ESD算法介紹

        2.1 Grubbs檢測(cè)和ESD

        Grubbs檢驗(yàn)[1-2]多被用于檢驗(yàn)一組數(shù)據(jù)中的最大(小)值是否屬于離群值(異常值),該檢驗(yàn)假設(shè)該組數(shù)據(jù)符合正態(tài)分布。Grubbs檢驗(yàn)一次只能檢驗(yàn)一個(gè)異常值(離群值),但實(shí)際情況中一組數(shù)據(jù)常常會(huì)有多于一個(gè)的異常值。為了解決實(shí)際數(shù)據(jù)集中多個(gè)異常值的問(wèn)題,Rosner[3-4]提出了ESD(Extreme Studentized Deviate test)算法檢驗(yàn)數(shù)據(jù)集中的k個(gè)最大值(最小值)是否為異常值。該算法為Grubbs算法的延伸,依次判斷前k個(gè)最大值(最小值)是否為異常值。該算法的突出優(yōu)點(diǎn)是參數(shù)設(shè)定簡(jiǎn)單,只需指定假設(shè)的異常值數(shù)量k即可,k的數(shù)值最多可以達(dá)到總樣本數(shù)的49.9%。

        2.2 LOESS和STL

        LOESS[5](Local Weighted Regression)是一種局部加權(quán)多項(xiàng)式回歸的算法,該方法的核心思想是在欲估點(diǎn)處利用低階多項(xiàng)式(1階或2階)進(jìn)行加權(quán)擬合,權(quán)重的計(jì)算根據(jù)已知數(shù)據(jù)點(diǎn)和欲估計(jì)點(diǎn)間的距離確定。在選定的窗口寬度內(nèi),離目標(biāo)估計(jì)點(diǎn)越近的數(shù)據(jù)點(diǎn)被給予的權(quán)重越大,離目標(biāo)點(diǎn)越遠(yuǎn)的數(shù)據(jù)點(diǎn)獲得的權(quán)重越小。該算法的優(yōu)勢(shì)是不需要假設(shè)數(shù)據(jù)點(diǎn)的分布,只需要選擇多項(xiàng)式的階數(shù)和窗口寬度即可。

        STL[6](Seasonal Decomposition of Time Series by Loess)是一種基于LOESS的時(shí)間序列分解算法,該算法將時(shí)間序列分解成3個(gè)部分,即趨勢(shì)項(xiàng)(T)、周期項(xiàng)(S)和殘余項(xiàng)(R):

        Y=T+S+R

        該算法主要由兩層循環(huán)構(gòu)成:外部循環(huán)和嵌套在內(nèi)的內(nèi)循環(huán)。內(nèi)循環(huán)負(fù)責(zé)計(jì)算趨勢(shì)項(xiàng)和周期項(xiàng);外循環(huán)負(fù)責(zé)計(jì)算一個(gè)穩(wěn)健(魯棒)權(quán)重,該權(quán)重將被使用在下一步 的內(nèi)循環(huán)中以減小瞬態(tài)狀況和異常值對(duì)趨勢(shì)項(xiàng)和周期項(xiàng)的影響,計(jì)算如下:

        h=6×median(|Rv|)

        ρv=B(|Rv|/h)

        2.3 S-ESD和S-H-ESD

        由于ESD算法并不能很好的處理具有周期性的數(shù)據(jù),同時(shí)由于實(shí)際的數(shù)據(jù)并不一定遵循某一類分布,導(dǎo)致ESD對(duì)某些數(shù)據(jù)中的異常值的偵測(cè)效果并不十分理想?;谝陨蟽牲c(diǎn)不足,提出周期ESD算法(Seasonal ESD,S-ESD)[7]。S-ESD算法的基本思路是使用一種改進(jìn)型的STL算法提取時(shí)間序列的殘余項(xiàng),并在提取到的殘余項(xiàng)上使用ESD算法來(lái)識(shí)別異常值。這樣的設(shè)計(jì)可以保證該算法既可以識(shí)別全局異常值又可以偵測(cè)到局部異常值。改進(jìn)后的STL時(shí)間序列分解算法是使用數(shù)據(jù)的中位數(shù)作為數(shù)據(jù)的“穩(wěn)定趨勢(shì)項(xiàng)”。這樣改進(jìn)的目的是防止引入“假異常值”,即由于時(shí)間序列分解而在殘余項(xiàng)上存在的異常值,但其實(shí)在實(shí)際數(shù)據(jù)集上并不存在。改進(jìn)后的殘余項(xiàng)計(jì)算如下:

        RX=X-SX-median(X)

        其中x為原始時(shí)間序列,SX是STL分解得到的周期項(xiàng),median(X)是原始時(shí)間序列的中位數(shù)。

        S-ESD算法的不足之處也很明顯,當(dāng)數(shù)據(jù)集中有很多異常值時(shí),該算法的效果大打折扣。這是因?yàn)楫?dāng)異常值的數(shù)量增多后,ESD算法所依賴的平均值和標(biāo)準(zhǔn)差會(huì)受到很大的影響[8],這就導(dǎo)致了ESD算法會(huì)漏判很多異常值。針對(duì)這樣的缺陷,提出周期混合ESD算法(Seasonal Hybrid ESD,S-H-ESD)。S-H-ESD是在S-ESD的基礎(chǔ)上通過(guò)提高算法的魯棒性進(jìn)而提高算法對(duì)異常值的識(shí)別能力。改進(jìn)的措施主要是用更加穩(wěn)健的統(tǒng)計(jì)參數(shù)替換原始ESD中使用的易受異常值影響的統(tǒng)計(jì)參數(shù),具體方法如下:

        -使用中位數(shù)替代原始ESD算法中使用的平均值

        -使用絕對(duì)中位差(Median Absolute Deviation,MAD)替代標(biāo)準(zhǔn)差[9]:

        數(shù)據(jù)集的中位數(shù)比平均值具有更強(qiáng)的魯棒性,理論上可以“容忍”不超過(guò)總數(shù)據(jù)量的50%的異常值。因?yàn)橹形粩?shù)來(lái)源于該數(shù)值在排序后的數(shù)據(jù)集中的相對(duì)位置,使用更大(更小)的數(shù)值替換比中位數(shù)更大(小)的數(shù)值并不會(huì)改變中位數(shù)數(shù)值,而相同的替換操作會(huì)改變數(shù)據(jù)平均值的數(shù)值,所以使用中位數(shù)代替平均值可以使得ESD算法的魯棒性更強(qiáng)。絕對(duì)中位差是各個(gè)數(shù)據(jù)與中位數(shù)差值的絕對(duì)值的中位數(shù),它的穩(wěn)健性要強(qiáng)于傳統(tǒng)ESD算法中使用的標(biāo)準(zhǔn)差,計(jì)算公式如下:

        MAD=median(|Xi-median(X)|)

        由于在計(jì)算中只用到取中位數(shù)的計(jì)算,并沒(méi)有涉及到求解數(shù)值上的平均值,因此顯然絕對(duì)中位差比普通的標(biāo)準(zhǔn)差具有更強(qiáng)的穩(wěn)健性。使用MAD改進(jìn)后的ESD算法中的統(tǒng)計(jì)量計(jì)算公式為:

        經(jīng)過(guò)以上的改進(jìn),S-H-ESD算法比傳統(tǒng)ESD具有更強(qiáng)的穩(wěn)健性(魯棒性),尤其是在具有很多異常值的數(shù)據(jù)集上,算法流程見圖 2。但也應(yīng)注意到,由于S-H-ESD算法中需要求取數(shù)據(jù)的中位數(shù),所以需要先對(duì)數(shù)據(jù)進(jìn)行排序,故S-H-ESD算法的計(jì)算量和相應(yīng)的耗時(shí)都要高于S-ESD算法。

        3 案例分析

        圖2 S-H-ESD算法流程圖Fig.2 Flowchart of S-H-ESD algorithm

        本部分將使用S-H-ESD算法對(duì)用于實(shí)際生產(chǎn)中的污水處理的RO膜壓差數(shù)據(jù)進(jìn)行異常值檢測(cè)和處理,并對(duì)結(jié)果進(jìn)行討論。案例數(shù)據(jù)為某污水處理廠三級(jí)RO膜系統(tǒng)的第一級(jí)壓力差的監(jiān)測(cè)數(shù)據(jù),時(shí)間范圍為2013年1月1日至2016年12月31日,共4年。該數(shù)據(jù)以天為最小時(shí)間單位,每日檢測(cè)得到一個(gè)膜壓差。該類數(shù)據(jù)的理想狀況應(yīng)該是數(shù)據(jù)或緩慢或快速地增長(zhǎng),代表因堵塞導(dǎo)致的膜壓差不斷增大,增大到一定程度后在人工清洗的作用下壓力差會(huì)重新恢復(fù)到較低的水平,之后再繼續(xù)增長(zhǎng),從而形成“增長(zhǎng)-清洗-增長(zhǎng)”的循環(huán)周期。原始數(shù)據(jù)如圖2所示,從圖中可以明顯地看出該數(shù)據(jù)集中存在很多離群值,這些離群值都是以“毛刺”的形態(tài)出現(xiàn)在圖中,結(jié)合該類數(shù)據(jù)的理想狀態(tài)可以判定這些離群值為異常值。這些異常值的來(lái)源較復(fù)雜,一般是因?yàn)閭鞲衅鞯膯?wèn)題導(dǎo)致數(shù)據(jù)值出現(xiàn)突然的異常,也存在人為因素導(dǎo)致的數(shù)據(jù)異常。值得注意的是,有些異常值偏離理想狀況較明顯,有些異常值則沒(méi)有較大的偏離。

        圖4中紅色三角形標(biāo)記點(diǎn)為S-H-ESD算法判定為異常值的數(shù)據(jù)點(diǎn),通過(guò)和圖3的對(duì)比可以看出大部分異常值都被準(zhǔn)確的識(shí)別出,算法對(duì)異常值的識(shí)別率較高。以傳統(tǒng)“3σ方法”確定的異常值界限(此案例中約為100psi)作為劃分指標(biāo),高于此界限的異常值被認(rèn)為是顯著異常值(即可以被傳統(tǒng)方法識(shí)別出),低于此界限則被認(rèn)為是不顯著異常值(不能夠被“3σ方法”識(shí)別出)。其中,對(duì)于顯著異常值的識(shí)別率達(dá)到了 78.6%。對(duì)數(shù)值低于100psi的較小異常值也有很好的識(shí)別能力,特別是在2014年末處的較多的較小異常值,幾乎全部被識(shí)別出。同時(shí),2013年和2014年的較小異常值在數(shù)值上小于2016年度的正常數(shù)值,這樣的不顯著異常值很難被傳統(tǒng)的異常值檢測(cè)方法識(shí)別出,但該算法可以準(zhǔn)確偵測(cè)出這些異常值的存在。該算法在正確識(shí)別出異常值的同時(shí),也存在識(shí)別錯(cuò)誤的問(wèn)題,例如存在3個(gè)較大的異常值沒(méi)有被識(shí)別出的情況,即出現(xiàn)“假陰性”問(wèn)題。同時(shí)也應(yīng)注意到,算法將一些正常的數(shù)據(jù)點(diǎn)標(biāo)識(shí)為了異常值,即出現(xiàn)了“假陽(yáng)性”的問(wèn)題,但出現(xiàn)假陽(yáng)性的數(shù)據(jù)比例占總數(shù)據(jù)量的比重很低,可以忽略不計(jì)。

        圖3 原始數(shù)據(jù)Fig.3 Raw data

        ESD檢測(cè)比例k = 0.1,ESD顯著水平 α = 0.05圖4 H-S-ESD算法檢測(cè)出的原始數(shù)據(jù)中的異常值(紅色三角點(diǎn))Fig.4 Anomalies detected (red triangle points) by S-H-ESD in raw data

        如何處理被標(biāo)記出的異常值也是本研究關(guān)心的另一個(gè)重點(diǎn)問(wèn)題。實(shí)際的操作中,如果只是單純地將異常值刪除,則會(huì)增加數(shù)據(jù)的缺失程度,特別是對(duì)于異常值較多的數(shù)據(jù),會(huì)造成大量的數(shù)據(jù)缺失。同時(shí),刪除被標(biāo)記出的異常值也會(huì)將被誤標(biāo)記為異常值的正常數(shù)據(jù)(假陽(yáng)性數(shù)據(jù))一并刪除,因此這樣的處理方式并不適用于所有案例。擬利用原始數(shù)據(jù)在傳統(tǒng)STL算法分解下的趨勢(shì)項(xiàng)和周期項(xiàng)在異常值點(diǎn)的加和(T+S)作為異常值的替換值。這樣處理的基本原理是認(rèn)為非異常值點(diǎn)上STL分解下的殘余項(xiàng)數(shù)值(R)應(yīng)當(dāng)較小,可以忽略不計(jì),故用周期項(xiàng)和趨勢(shì)項(xiàng)之和作為“理想狀況”下的數(shù)據(jù)值。使用上述異常值替換規(guī)則對(duì)圖4中被標(biāo)記的異常值進(jìn)行處理,結(jié)果如圖5所示。可見在進(jìn)行一次完整的異常值檢測(cè)和替換后,得到了與理想狀況較為相近的數(shù)據(jù)樣式,異常值的數(shù)量明顯減少。

        圖5中仍然存在人為可以判斷的異常點(diǎn),尤其是三個(gè)較顯著的異常值點(diǎn)。針對(duì)這樣的問(wèn)題,擬對(duì)獲得的數(shù)據(jù)進(jìn)行第二次異常值檢測(cè)-替換操作,因?yàn)榇藭r(shí)數(shù)據(jù)中的異常值數(shù)量已經(jīng)明顯減少,故第二次異常值檢測(cè)設(shè)定參數(shù)K = 0.025。檢測(cè)到的異常值和替換后的數(shù)據(jù)如圖6和圖7所示,可見在進(jìn)行兩次異常值檢測(cè)-替換操作后,數(shù)據(jù)中的絕大部分異常值已經(jīng)被準(zhǔn)確檢測(cè)和替換,數(shù)據(jù)和理想狀態(tài)已經(jīng)十分相似。

        圖5 經(jīng)過(guò)一次S-H-ESD異常值檢測(cè)和替換后的數(shù)據(jù)Fig.5 Data treated after first anomaly detection and replaced by S-H-ESD

        ESD檢測(cè)比例k = 0.025,ESD顯著水平 α= 0.05圖6 經(jīng)過(guò)第二次S-H-ESD檢測(cè)的異常值(紅色三角點(diǎn))Fig.6 Anomalies detected (red triangle point) by second S-H-ESD

        圖7 經(jīng)過(guò)兩次S-H-ESD異常值檢測(cè)和替換后的數(shù)據(jù)Fig.7 Data treated after anomaly detections twice and replaced by S-H-ESD

        4 結(jié) 論

        4.1 S-H-ESD算法對(duì)污水處理中的RO膜壓差數(shù)據(jù)中的異常值的識(shí)別準(zhǔn)確率較高,識(shí)別速率也較快,可以作為一種常用的異常值檢測(cè)手段處理日常的運(yùn)行數(shù)據(jù)。但該方法仍然存在漏判(假陰性)的可能性,針對(duì)這個(gè)問(wèn)題,可以對(duì)同一數(shù)據(jù)多次進(jìn)行S-H-ESD檢測(cè)可以提高總體異常值檢測(cè)的準(zhǔn)確度,解決單次檢測(cè)中可能出現(xiàn)的“假陰性”的問(wèn)題。同時(shí),由于此方法基于一種普適的數(shù)學(xué)算法,并不涉及具體的學(xué)科內(nèi)容,因此該方法不僅適用于污水處理的RO膜壓差數(shù)據(jù),對(duì)其他時(shí)間序列數(shù)據(jù)都有較好的適用性,例如供水管網(wǎng)的SCADA數(shù)據(jù)和其他水質(zhì)/水量檢測(cè)數(shù)據(jù)等。

        4.2 對(duì)于被S-H-ESD算法檢測(cè)出的異常值,可以使用傳統(tǒng)STL算法中的趨勢(shì)項(xiàng)和周期項(xiàng)的和(T+S)做為異常數(shù)據(jù)點(diǎn)的替換值。這樣的處理方式盡可能地降低了異常值處理對(duì)樣本數(shù)據(jù)質(zhì)量的影響,既沒(méi)有增加數(shù)據(jù)缺失的程度,也沒(méi)有掩蓋數(shù)據(jù)的周期性和趨勢(shì)性等特點(diǎn),最大限度的保證了數(shù)據(jù)的質(zhì)量,為之后基于監(jiān)測(cè)數(shù)據(jù)的分析和判斷、構(gòu)建“智慧水務(wù)”平臺(tái)等提供了良好的基礎(chǔ)。

        猜你喜歡
        中位數(shù)標(biāo)準(zhǔn)差壓差
        用Pro-Kin Line平衡反饋訓(xùn)練儀對(duì)早期帕金森病患者進(jìn)行治療對(duì)其動(dòng)態(tài)平衡功能的影響
        在線處理脫丁烷塔壓差高
        中位數(shù)計(jì)算公式及數(shù)學(xué)性質(zhì)的新認(rèn)識(shí)
        2015年中考數(shù)學(xué)模擬試題(五)
        2015年中考數(shù)學(xué)模擬試題(二)
        對(duì)于平均差與標(biāo)準(zhǔn)差的數(shù)學(xué)關(guān)系和應(yīng)用價(jià)值比較研究
        二維氣體動(dòng)力學(xué)中壓差方程的特征分解和簡(jiǎn)單波
        基于改進(jìn)經(jīng)濟(jì)壓差算法的主站AVC的研究
        淺析濾紙透氣度與初始?jí)翰畹年P(guān)系
        汽車零部件(2014年2期)2014-03-11 17:46:34
        導(dǎo)學(xué)案不能淪落為“習(xí)題單”:以“中位數(shù)和眾數(shù)”的導(dǎo)學(xué)案為例
        久久香蕉免费国产天天看| 国产高清一区二区三区视频| 久久国产色av| 国产丝袜免费精品一区二区 | 国产日韩成人内射视频| 色综合久久久久综合一本到桃花网| 日日高潮夜夜爽高清视频| 美女内射毛片在线看免费人动物| 7777精品伊人久久久大香线蕉| 在线亚洲AV不卡一区二区| 久久综合亚洲鲁鲁五月天| 色欲欲www成人网站| 台湾佬综合网| 久久99久久99精品观看| 天堂网日韩av在线播放一区| 品色堂永远免费| 国产精品美女久久久久久2018| 亚洲熟女国产熟女二区三区| 丝袜美腿视频一区二区| 国产精品伦一区二区三级视频| 欧美亚洲国产日韩一区二区三区| 日韩人妻免费一区二区三区| 精品亚洲一区二区三区四区五区 | 中文亚洲爆乳av无码专区| 国产精品女同二区五区九区| 豆国产96在线 | 亚洲| 亚洲国产精品久久久久秋霞影院| 国产国拍亚洲精品永久69| 五月婷婷开心六月激情| 玩弄丰满奶水的女邻居| 日本午夜精品理论片A级APP发布| 国产无套粉嫩白浆内精| 亚洲自偷精品视频自拍| 亚洲av日韩av永久无码色欲| 97碰碰碰人妻视频无码| 国产乱精品女同自线免费| 天天燥日日燥| 色欧美与xxxxx| 亚洲av乱码一区二区三区人人| 少妇粉嫩小泬喷水视频www| www插插插无码视频网站|