張 鏑,呂言成1,,張 楠,魏景鋒
1(中國(guó)科學(xué)院大學(xué),北京 100049)
2(中國(guó)科學(xué)院 沈陽計(jì)算技術(shù)研究所,沈陽 110168)
3(阜新市生態(tài)環(huán)境保護(hù)服務(wù)中心,阜新 123100)
4(遼寧省醫(yī)療器械檢驗(yàn)檢測(cè)院,沈陽 110000)
隨著時(shí)代飛躍的發(fā)展和提高,人們的生活水平越來越好,城市的擴(kuò)張,以及工業(yè)化的騰飛,對(duì)環(huán)境的影響是越來越大.人們慢慢將環(huán)境資源的可持續(xù)發(fā)展作為茶余飯后的話題[1],尤其是人類生存所必須的水資源,水資源中的污染物濃度值亦不可忽視,污染物個(gè)數(shù)多達(dá)數(shù)十種.因此,伴著社會(huì)的發(fā)展,水環(huán)境質(zhì)量的分析,是完成環(huán)境與經(jīng)濟(jì)的可持續(xù)發(fā)展的重要工作.相關(guān)部門對(duì)水資源的管理和監(jiān)測(cè)也越來越重視,對(duì)各個(gè)流域的水質(zhì)有著周期性的監(jiān)測(cè),但隨著環(huán)境質(zhì)量的變化,水質(zhì)也會(huì)跟隨著變化,主要體現(xiàn)在:(1)比如擴(kuò)建,那原地點(diǎn)的水質(zhì)就會(huì)發(fā)生改變.(2)比如某一處土地集中進(jìn)行綠化,那么土壤的質(zhì)量必然會(huì)隨著變化,這就必定導(dǎo)致水質(zhì)量的變動(dòng).所以各個(gè)流域監(jiān)測(cè)點(diǎn)位都是要隨著時(shí)間,伴著周圍環(huán)境質(zhì)量和土壤的質(zhì)量的變化而變化的.那么就必然涉及到點(diǎn)位優(yōu)化的進(jìn)行.這對(duì)實(shí)時(shí)監(jiān)測(cè)水質(zhì)最新的動(dòng)向很有意義,也讓把控著水質(zhì)的動(dòng)向,對(duì)水資源更好的治理和監(jiān)測(cè)[2].
水質(zhì)監(jiān)測(cè)過程中,點(diǎn)位越多,收集的信息就越多,越能詳細(xì)反映出水中污染物的真實(shí)狀況.然而,礙于監(jiān)測(cè)所需要的人力、資金、設(shè)備等成本的限制,無法對(duì)區(qū)域水質(zhì)進(jìn)行全面,無死角的布點(diǎn)監(jiān)測(cè).因此,為了能得到具有代表性又具有經(jīng)濟(jì)性的監(jiān)測(cè)點(diǎn)位,就需要對(duì)大氣監(jiān)測(cè)點(diǎn)進(jìn)行優(yōu)化處理.本文就是采用auto-encoder結(jié)合聚類進(jìn)行水質(zhì)監(jiān)測(cè)的點(diǎn)位優(yōu)化.遵循了監(jiān)測(cè)點(diǎn)位優(yōu)化的宗旨:以盡量少的數(shù)據(jù),盡可能的代表全部的監(jiān)測(cè)點(diǎn)位的數(shù)據(jù).
根據(jù)要優(yōu)化監(jiān)測(cè)點(diǎn)位這一目的,選用了聚類方面的算法,由于是運(yùn)用在水質(zhì)監(jiān)測(cè)方面,那么選取了適用于水質(zhì)、地質(zhì)、農(nóng)業(yè)、天氣方面的聚類算法.由于樣本中高緯度的數(shù)據(jù)特征,存在各種噪聲,如果不先剔除掉多余的特征和噪聲,模型的效果會(huì)受到很大影響,但是如果只是單純的剔除某些特征,那么就會(huì)把特征之間的聯(lián)系給抹掉,聚類的結(jié)果不理想.為了解決此問題,本文采用了在聚類之前,先用神經(jīng)網(wǎng)絡(luò)降維的方法進(jìn)行特征降維,將樣本中原有的特征降維,重新生成一個(gè)更低維度的新樣本[3-6].但同時(shí)特征降維涉及到有效數(shù)據(jù)的完整性,對(duì)于高緯度的水質(zhì)監(jiān)測(cè)點(diǎn)位數(shù)據(jù),需要將有效的數(shù)據(jù)保存到降維后的數(shù)據(jù)中,剔除無效的數(shù)據(jù).由于數(shù)據(jù)樣本不需要進(jìn)行標(biāo)記,這里采用了無監(jiān)督學(xué)習(xí)的auto-encoder 神經(jīng)網(wǎng)絡(luò)[7-9].對(duì)于水質(zhì)點(diǎn)位監(jiān)測(cè)的數(shù)據(jù),傳統(tǒng)的PCA 方法因?yàn)槠渚€性降維,另外PCA 方法更依賴初始的數(shù)據(jù),不能很好的保留有效信息的完整性,相對(duì)來講,自編碼器可以學(xué)習(xí)非線性關(guān)系,有效數(shù)據(jù)的保留更加充分,同時(shí)剔除無效的數(shù)據(jù),泛化能力更強(qiáng).圖1為研究方法的整體流程圖.
圖1 研究方法流程圖
Auto-encoder是神經(jīng)網(wǎng)絡(luò)的一種,也是最常見的深度學(xué)習(xí)算法之一[10-13],其結(jié)構(gòu)如圖2所示.Autoencoder 主要被用來降維和特征提取,另外該神經(jīng)網(wǎng)絡(luò)屬于無監(jiān)督學(xué)習(xí),不需要標(biāo)記訓(xùn)練數(shù)據(jù),這也是本文采用此種方法的原因[14].
自動(dòng)編碼器包括三層神經(jīng)網(wǎng)絡(luò),第一部分是輸入層,第二部分是隱藏層,隱藏層可以為多層,第三部分是輸出層,輸入層n個(gè)神經(jīng)元對(duì)應(yīng)樣本中的特征,隱藏層k(k 圖2 Auto-encoder 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖 輸入層和隱藏層之間計(jì)算: 在隱藏層和輸出層之間計(jì)算: 其中,f是激活函數(shù),本文選擇Sigmoid 激活函數(shù): 輸出層a3各個(gè)節(jié)點(diǎn)值和輸入層a1的各個(gè)節(jié)點(diǎn)值存在很大誤差.為了讓輸入層和輸出層盡量一致,利用反向傳播算法,通過輸入層和輸出層產(chǎn)生的誤差來更新各層之間的權(quán)重矩陣Wij、和隱藏層、輸出層的偏置b2、b3.此神經(jīng)網(wǎng)絡(luò)用到的是BP算法,思想是采用的梯度下降的算法,即微積分的鏈?zhǔn)狡珜?dǎo)的傳遞求值[15].本文所采用的梯度下降算法:每次只選n個(gè)樣本中的一個(gè)樣本進(jìn)行梯度下降,每次更新需要的時(shí)間少,由于水質(zhì)監(jiān)測(cè)點(diǎn)位本身并不多,所以迭代至收斂的次數(shù)可以容忍,另外適當(dāng)?shù)膶W(xué)習(xí)速率可以平衡訓(xùn)練的速度和收斂到最優(yōu)點(diǎn)的穩(wěn)定性.對(duì)于水質(zhì)點(diǎn)位監(jiān)測(cè)的數(shù)據(jù),單隱層的自編碼器模型易理解,訓(xùn)練成本不高,無論是在計(jì)算成本還是精度方面,自編碼器都是可行的.本文選用簡(jiǎn)單的單隱層自編碼器,相對(duì)于堆疊式的自編碼器,不容易發(fā)生梯度彌散和梯度爆炸. 取誤差公式: 對(duì)權(quán)重進(jìn)行鏈?zhǔn)角髮?dǎo)并更新: 由于輸入層到隱藏層的權(quán)重參數(shù)矩陣和隱藏層到輸出層的權(quán)重參數(shù)矩陣互為轉(zhuǎn)置關(guān)系,因此,只需要把后者的權(quán)重轉(zhuǎn)置賦值到前者. 對(duì)偏置b3進(jìn)行鏈?zhǔn)角髮?dǎo)并更新: 對(duì)偏置b2進(jìn)行鏈?zhǔn)角髮?dǎo)并更新: 式中,η是學(xué)習(xí)速率. 整個(gè)auto-encoder 算法偽代碼如算法1. 算法1.Auto-encoder 1.初始化auto-encoder 中各層之間的連接權(quán)重、偏置和學(xué)習(xí)速率.2.for all 數(shù)據(jù)集中每一個(gè)樣本do 3.while (對(duì)于當(dāng)前樣本)do 4.根據(jù)式(1),式(2)計(jì)算隱藏層的輸出值;5.根據(jù)式(3),式(4)計(jì)算輸出層的輸出值;6.根據(jù)式(5)計(jì)算輸入層和輸出層的誤差;7.if (達(dá)到停止條件) 8.break;9.else if 10.根據(jù)式(6)~式(8)更新權(quán)值和偏置;11.end if 12.end while 13.end for 14.得到更新所有樣本之后最新的權(quán)值和偏置;15.for all 數(shù)據(jù)集中每一個(gè)樣本 do 16.根據(jù)式(1),式(2)計(jì)算隱藏層的輸出值;(此步驟,特征提取并降維)17.將降維后的新樣本存入文件中保存;18.end for 本文采用聚類中的系統(tǒng)聚類方法對(duì)上述神經(jīng)網(wǎng)絡(luò)降維的數(shù)據(jù)樣本進(jìn)行分類.對(duì)于沒有預(yù)先處理的水質(zhì)點(diǎn)位監(jiān)測(cè)數(shù)據(jù),模糊聚類算法是最適合的.但是由于數(shù)據(jù)及預(yù)先用神經(jīng)網(wǎng)絡(luò)進(jìn)行了降維處理,特征數(shù)量減少,原本監(jiān)測(cè)點(diǎn)位有限,因此本文選用了適用于少量特征、少量點(diǎn)位的系統(tǒng)聚類法,并且運(yùn)行速度有一定的提升.首先,將類別分為n類,即每個(gè)監(jiān)測(cè)點(diǎn)位分為一類,計(jì)算各類之間的距離,找出所有類間距中的最短距離的兩個(gè)類,并合并他們?yōu)橐粋€(gè)新類,重新計(jì)算n?1個(gè)類的類間距,找出最短距離并歸類,直到所有類都?xì)w為一類[16]. 歐式距離公式為: 系統(tǒng)聚類算法偽代碼如算法2. 算法2.系統(tǒng)聚類算法1.將降維后的數(shù)據(jù)樣本分為類2.for all 類別do 3.計(jì)算類間距;4.找出類間距中的最短間隔距離;5.找到最短間隔的兩個(gè)類,合并他們;n=n?1 n 6.合并之后新的類別數(shù)目為;n=1 7.if ()8.break;9.end for 本文數(shù)據(jù)集來源為某市實(shí)時(shí)監(jiān)測(cè)的各個(gè)斷面的水質(zhì)污染物濃度值. 首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將數(shù)據(jù)映射到(0,1)之間,即標(biāo)準(zhǔn)化處理,公式如下: 其中,xnorm表示標(biāo)準(zhǔn)、歸一化處理后的數(shù)據(jù),x表示原數(shù)據(jù),xmin表示的是所有監(jiān)測(cè)點(diǎn)位中每個(gè)污染物的最小濃度值,xmax表示的是所有監(jiān)測(cè)點(diǎn)位中每個(gè)污染物的最大濃度值. 實(shí)驗(yàn)過程如圖1所示,將標(biāo)準(zhǔn)化、歸一化處理后的數(shù)據(jù)輸入自編碼器神經(jīng)網(wǎng)絡(luò),初始化各層之間的權(quán)重參數(shù),初始化隱藏層和輸出層的偏置參數(shù),開始訓(xùn)練.將自編碼器神經(jīng)網(wǎng)絡(luò)降維后的新數(shù)據(jù)樣本聚類分析,產(chǎn)生點(diǎn)位優(yōu)化的結(jié)果. 本文首先檢驗(yàn)原點(diǎn)位與優(yōu)化后的點(diǎn)位之前的相關(guān)性,在給定 α=0.05顯著性程度,f=n?2=3,查表r表=0.878,r計(jì)>r表,相關(guān)性結(jié)果如表1. 表1 相關(guān)性檢驗(yàn) 為進(jìn)一步驗(yàn)證,本文采用F檢驗(yàn)法—方差齊性檢驗(yàn)和t檢驗(yàn)法驗(yàn)證原點(diǎn)位與優(yōu)化后的點(diǎn)位之間所監(jiān)測(cè)的數(shù)據(jù)是否具有一致性.結(jié)果如表2.所采用的公式為: 表2 一致性檢驗(yàn) 為了進(jìn)一步驗(yàn)證優(yōu)化后的點(diǎn)位選擇更加精準(zhǔn),本文通過姚式指數(shù)公式同時(shí)計(jì)算優(yōu)化后與優(yōu)化前的水質(zhì)量指數(shù)和原點(diǎn)位的水質(zhì)量指數(shù)進(jìn)行比較.結(jié)果如表3,公式如下: 表3 質(zhì)量指數(shù)對(duì)比 根據(jù)神經(jīng)網(wǎng)絡(luò)降維結(jié)合聚類所產(chǎn)生的點(diǎn)位選擇結(jié)果如圖3. 圖3 實(shí)驗(yàn)結(jié)果圖 如圖3所示,神經(jīng)網(wǎng)絡(luò)降維結(jié)合聚類的算法選出了從9 個(gè)監(jiān)測(cè)點(diǎn)位中選出了5 個(gè)監(jiān)測(cè)點(diǎn)位.而原本單獨(dú)使用的模糊聚類算法選出的是6 個(gè)監(jiān)測(cè)點(diǎn)位.根據(jù)表1所示的相關(guān)性檢驗(yàn),表明原點(diǎn)位與優(yōu)化后的各污染物濃度密切相關(guān),無明顯差異性.根據(jù)表2結(jié)果,進(jìn)一步證實(shí)了原點(diǎn)位和優(yōu)化后點(diǎn)位各污染物這兩組數(shù)據(jù)評(píng)價(jià)結(jié)果一致,表明優(yōu)化后的點(diǎn)位可以替代原點(diǎn)位.根據(jù)表3結(jié)果,表明本文所選的點(diǎn)位優(yōu)化算法所產(chǎn)生的5 個(gè)點(diǎn)位的質(zhì)量指數(shù),比模糊聚類算法產(chǎn)生的6 個(gè)點(diǎn)位更接近原本的9 個(gè)點(diǎn)位的質(zhì)量指數(shù).綜上所述,本文所選算法所產(chǎn)生的點(diǎn)位更能代表全部的9 個(gè)監(jiān)測(cè)點(diǎn)位. 本文針對(duì)水質(zhì)點(diǎn)位優(yōu)化提出了一種神經(jīng)網(wǎng)絡(luò)結(jié)合聚類的點(diǎn)位優(yōu)化算法,通過神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行降維處理,并通過系統(tǒng)聚類的方法選出合適的點(diǎn)位.本文所提出的方法相較于單一的聚類方法,減少了點(diǎn)位的選擇,并且提高了點(diǎn)位選擇的準(zhǔn)確性,實(shí)現(xiàn)了以盡量少的點(diǎn)位,保證數(shù)據(jù)的代表性.1.2 聚類分析
2 實(shí)驗(yàn)分析
2.1 數(shù)據(jù)預(yù)處理
2.2 實(shí)驗(yàn)過程
2.3 評(píng)價(jià)指標(biāo)
2.4 結(jié)果分析
3 結(jié)論
計(jì)算機(jī)系統(tǒng)應(yīng)用2021年3期