薛亞婷 吳升偉 王江濤
(1.中煤航測(cè)遙感集團(tuán)有限公司,陜西 西安 710199;2.中煤地西安地圖制印有限公司,陜西 西安 710199)
隨著社會(huì)的發(fā)展,水環(huán)境污染日益加重,水體污染帶來(lái)的危害也日益凸顯。因此找到一種合適的方法對(duì)小流域水環(huán)境質(zhì)量進(jìn)行評(píng)估,并對(duì)變化趨勢(shì)進(jìn)行預(yù)測(cè),提前采取行動(dòng)緩解污染速度,改善水質(zhì)是非常必要的。機(jī)器學(xué)習(xí)算法提供了一種可靠、有效、先進(jìn)的水質(zhì)預(yù)測(cè)方法,它建立的水質(zhì)預(yù)測(cè)模型屬于非機(jī)理型模型,不依賴于水質(zhì)變化的化學(xué)原理,而是依據(jù)數(shù)據(jù)本身的規(guī)律和特點(diǎn)進(jìn)行預(yù)測(cè)[1]。
當(dāng)前,各國(guó)開(kāi)始將神經(jīng)網(wǎng)絡(luò)、回歸分析、灰色系統(tǒng)理論等融入水質(zhì)預(yù)測(cè)中,提高了預(yù)測(cè)的廣泛性及準(zhǔn)確度[2-5],如肖金球等[6]提出了一種改進(jìn)型的 GA-BP神經(jīng)網(wǎng)絡(luò),采用雙隱含層和7個(gè)隱含層節(jié)點(diǎn)進(jìn)行仿真訓(xùn)練;Amir et al.[7]探討了不同的核函數(shù)對(duì)水質(zhì)預(yù)測(cè)結(jié)果的影響;周志青等[8]提出了一種將ARIMA和RBF-NN耦合的模型;馬晉等[9]基于地下水水質(zhì)指標(biāo),通過(guò)邏輯分析將地下水分為4個(gè)等級(jí)。本文在現(xiàn)有研究的基礎(chǔ)上,為提高預(yù)測(cè)精度,避免模型單一造成的區(qū)域水質(zhì)預(yù)測(cè)結(jié)果偏差,分別利用神經(jīng)網(wǎng)絡(luò)模型、支持向量機(jī)模型和邏輯回歸模型對(duì)赤水河流域的水質(zhì)進(jìn)行預(yù)測(cè),并分析比較3種模型的預(yù)測(cè)結(jié)果。將一部分水質(zhì)、環(huán)境、氣象數(shù)據(jù)作為訓(xùn)練集,利用3種機(jī)器學(xué)習(xí)方法對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練建模,對(duì)之后一段時(shí)間的水質(zhì)等級(jí)進(jìn)行預(yù)測(cè),對(duì)赤水河流域水質(zhì)治理提供思路。
赤水河為簡(jiǎn)陽(yáng)市管河流絳溪河的支流,自成都市龍泉驛區(qū)開(kāi)始,從北向南,途中經(jīng)過(guò)石盤水庫(kù)、赤水鋪等地區(qū),最終匯入絳溪河,流域面積約60km2,平均流量0.68m3/s,流域內(nèi)存在15個(gè)采樣點(diǎn)。流域近年來(lái)存在嚴(yán)重的污染問(wèn)題,一是居民在河邊丟棄大量建筑廢料;二是流域內(nèi)養(yǎng)殖業(yè)管理不嚴(yán),加之一些農(nóng)家樂(lè)整改不到位,使該流域的水質(zhì)問(wèn)題一直受到環(huán)保部門的關(guān)注。
實(shí)驗(yàn)數(shù)據(jù)包括2019年流域內(nèi)15個(gè)采樣點(diǎn)的日實(shí)測(cè)水質(zhì)數(shù)據(jù)、研究區(qū)氣象數(shù)據(jù)、研究區(qū)環(huán)境數(shù)據(jù)。
a.水質(zhì)數(shù)據(jù):利用水質(zhì)監(jiān)測(cè)設(shè)備,采集了2019年流域內(nèi)15個(gè)采樣點(diǎn)的總氮、總磷、COD、氮磷日數(shù)據(jù)。
AntConc統(tǒng)計(jì)結(jié)果表明,在52篇中方報(bào)道中出現(xiàn)906處介入資源的表達(dá)形式,其中“對(duì)話性擴(kuò)展”737處(81.35%),“對(duì)話性壓縮”169處(18.65%),具體分布見(jiàn)表1:
b.氣象數(shù)據(jù):數(shù)據(jù)由中國(guó)氣象數(shù)據(jù)網(wǎng)下載,選擇離流域最近的龍泉驛區(qū)氣象站點(diǎn)數(shù)據(jù)。氣象數(shù)據(jù)包含累計(jì)降水量、風(fēng)速、風(fēng)向、氣溫、濕度、氣壓6項(xiàng)指標(biāo)。
c.環(huán)境數(shù)據(jù):數(shù)據(jù)包含PM2.5、PM10、SO2、NO2、AQI、CO、O37項(xiàng)指標(biāo)。
Python是近些年來(lái)非常流行的一種深度學(xué)習(xí)語(yǔ)言,相對(duì)于Matlab、SPSS這些常規(guī)的水質(zhì)預(yù)測(cè)研究平臺(tái)來(lái)說(shuō),它能夠?qū)λ惴ㄟM(jìn)行修改,將成果制作成程序,既可以用于研究學(xué)習(xí),也可以用于產(chǎn)品開(kāi)發(fā)。研究中主要使用了Python中的statsmodels模塊,以確定計(jì)算自相關(guān)、偏相關(guān)系數(shù),完成ADF單位根檢驗(yàn)等數(shù)據(jù)統(tǒng)計(jì)功能;使用了matplotlib模塊,以實(shí)現(xiàn)繪制自相關(guān)圖和偏相關(guān)圖功能;使用了sklearn模塊,以實(shí)現(xiàn)對(duì)訓(xùn)練集和算法的封裝等功能。
在建模之前需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,確定參數(shù)之后再建立模型,具體流程見(jiàn)圖1。
圖1 3種模型的預(yù)測(cè)流程
1.4.1 數(shù)據(jù)歸一化
BP神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層、輸出層構(gòu)成[13]。輸入層神經(jīng)元即輸入的水質(zhì)指標(biāo),包括2019年每日的總磷、總氮、溫度等17個(gè)指標(biāo)。隱含層層數(shù)及每層神經(jīng)元個(gè)數(shù)需要根據(jù)實(shí)際情況確定,由于輸入神經(jīng)元個(gè)數(shù)過(guò)多,為避免神經(jīng)元過(guò)載,故采用4層隱含層,每層神經(jīng)元個(gè)數(shù)分別為8、16、16、8。輸出層即為水質(zhì)預(yù)測(cè)等級(jí),由《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》(GB 3838—2002)將水質(zhì)分為Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ5個(gè)等級(jí),將其分別對(duì)應(yīng)數(shù)字1、2、3、4、5,并以輸出等級(jí)作為輸出層。
采用雙盲法閱片,與1位病理醫(yī)師一起獨(dú)立觀察每張切片中隨機(jī)5個(gè)不重疊的視野。評(píng)分及陽(yáng)性判斷標(biāo)準(zhǔn)[7,8]:①按著色強(qiáng)度:無(wú)染色為0分,淺黃色為1分,棕黃色為2分,深褐色為3分;②按陽(yáng)性細(xì)胞比例:<5%為 0分,5%~25%為 1分,26%~50%為2分,51%~75%為3分,>75%為4分;兩項(xiàng)相乘,0~1分為陰性,2~4分為弱陽(yáng)性,5~8分為中度陽(yáng)性,9分以上為強(qiáng)陽(yáng)性。
y=(x-xmin)/(xmax-xmin)
(1)
邏輯回歸建模主要過(guò)程為:收集各項(xiàng)相關(guān)數(shù)據(jù),確定正則化項(xiàng)及其參數(shù),以及優(yōu)化方法,進(jìn)行模型訓(xùn)練和精度檢驗(yàn)。本研究選用2019年前255天的17項(xiàng)水質(zhì)影響因子作為訓(xùn)練樣本,將2019年后110天的水質(zhì)預(yù)測(cè)結(jié)果作為驗(yàn)證集,設(shè)置最大循環(huán)次數(shù)為100次,參數(shù)C為1,選用L2正則化項(xiàng),運(yùn)行模型得到預(yù)測(cè)結(jié)果。
1.4.2 劃分訓(xùn)練集與測(cè)試集
本研究以2019年日采樣數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),共有365組實(shí)驗(yàn)數(shù)據(jù),將數(shù)據(jù)以7∶3的比例劃分為訓(xùn)練樣本和測(cè)試樣本,具體來(lái)說(shuō),前255組數(shù)據(jù)為訓(xùn)練樣本,后110組數(shù)據(jù)為測(cè)試樣本。
本文選取總氮、總磷、化學(xué)需氧量(COD)3個(gè)指標(biāo)作為評(píng)價(jià)因子。采用《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》(GB 3838—2002)作為評(píng)價(jià)標(biāo)準(zhǔn),其中總磷、總氮、COD 3項(xiàng)因子具體分類標(biāo)準(zhǔn)見(jiàn)表1。
表1 水質(zhì)等級(jí)分類標(biāo)準(zhǔn)
本研究根據(jù)每個(gè)采樣點(diǎn)的水質(zhì)等級(jí),利用空間插值的方法實(shí)現(xiàn)水質(zhì)等級(jí)的空間可視化,從而對(duì)水質(zhì)污染空間分布和時(shí)間分布進(jìn)行分析。
國(guó)網(wǎng)德陽(yáng)供電公司所轄10 kV風(fēng)孟線線路以110 kV風(fēng)光變電站10 kV母線為電源點(diǎn),線路主要信息如下:
a.根據(jù)《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》(GB 3838—2002)劃分等級(jí)。
b.利用反距離權(quán)重插值表達(dá)空間分布。對(duì)區(qū)域內(nèi)15個(gè)采樣點(diǎn)進(jìn)行空間插值,得到了整個(gè)河流的等級(jí)分布[11],結(jié)果見(jiàn)圖2。
臨床常用糖皮質(zhì)激素助減劑還包括羥氯喹、甲氨蝶呤、環(huán)孢素A等。羥氯喹通過(guò)對(duì)白細(xì)胞的抑制作用起到抗炎效果,同時(shí)可阻止免疫反應(yīng),對(duì)治療DM有一定的效果,與激素同服能顯著改善皮疹癥狀,患者耐受性好,且不良反應(yīng)相對(duì)其他免疫抑制劑小,但也需注意神經(jīng)、肌肉、眼部視網(wǎng)膜的損害。甲氨蝶呤長(zhǎng)期以來(lái)被用于治療IIM 及IIM合并ILD,但此藥可能導(dǎo)致的肺毒性常難以與漸進(jìn)的IIM合并ILD相區(qū)分,因而目前應(yīng)用很少[32]。環(huán)孢素A聯(lián)合激素能更好地改善患者的生存率[33-34],但須監(jiān)測(cè)其血藥濃度及不良反應(yīng)。本研究1例患者治療ARDS后,應(yīng)用環(huán)孢素A效果良好,激素劑量減半。
圖2 2019年每月平均水質(zhì)等級(jí)空間分布
根據(jù)評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行綜合評(píng)價(jià)后,最終將赤水河流域水質(zhì)劃分為5級(jí),各采樣點(diǎn)的水質(zhì)等級(jí)占比見(jiàn)表2。
表2 各采樣點(diǎn)水質(zhì)等級(jí)占比
從圖2來(lái)看,流域上游水質(zhì)污染相對(duì)較輕,基本為Ⅱ類水或Ⅲ類水;而流域中游及下游污染較重,大多數(shù)河段為Ⅲ類水或Ⅳ類水。水質(zhì)在不同的季節(jié)出現(xiàn)了不同的污染情況:當(dāng)天氣逐漸變得炎熱多雨時(shí),水質(zhì)開(kāi)始從Ⅱ類、Ⅲ類水逐漸過(guò)渡到Ⅳ類、Ⅴ類水;而在降溫、降水減少之后,水質(zhì)開(kāi)始好轉(zhuǎn)。7—9月全河段污染最為嚴(yán)重,而其他月份污染相對(duì)較輕。主要是因?yàn)閺?月初開(kāi)始赤水河流域進(jìn)入雨季,一直到9月中旬降雨強(qiáng)度都較大,化肥農(nóng)藥、生活污水、牲畜排泄物等隨著地表徑流進(jìn)入河道,加重了水中的氮、磷等污染。隨著溫度的升高,水中的氮、磷等元素為藻類的生長(zhǎng)提供了條件,水體持續(xù)惡化。大約10月左右,由于雨水的減少及溫度的下降,水質(zhì)開(kāi)始好轉(zhuǎn)。
神經(jīng)網(wǎng)絡(luò)建模主要過(guò)程為:收集各項(xiàng)相關(guān)數(shù)據(jù),確定模型參數(shù)和模型框架,進(jìn)行模型訓(xùn)練和精度檢驗(yàn)。本研究選用2019年前255天的17項(xiàng)水質(zhì)影響因子作為訓(xùn)練樣本,將2019年后110天的水質(zhì)預(yù)測(cè)結(jié)果作為驗(yàn)證集,最大循環(huán)次數(shù)200次,選用L2正則化項(xiàng),設(shè)置最初學(xué)習(xí)速度0.001。
BP神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過(guò)程分為信號(hào)正向、反向傳播兩部分,每一相鄰神經(jīng)元之間具有一定初始權(quán)值。水質(zhì)影響因子作為輸入神經(jīng)元由輸入層進(jìn)入模型,經(jīng)過(guò)隱含層以及激活函數(shù)計(jì)算處理后,將輸出的結(jié)果與預(yù)計(jì)的結(jié)果進(jìn)行對(duì)比,如果相差過(guò)大,則向反方向傳輸信號(hào),從而根據(jù)誤差反饋結(jié)果重新調(diào)節(jié)各層之間的權(quán)值。不斷重復(fù)上述過(guò)程,經(jīng)過(guò)反復(fù)的權(quán)值修正,最后誤差信號(hào)被控制在一定范圍內(nèi),樣本訓(xùn)練結(jié)果也更加接近預(yù)期要求[12](見(jiàn)圖3)。
圖3 神經(jīng)網(wǎng)絡(luò)原理示意圖
3.2.1 確定網(wǎng)絡(luò)結(jié)構(gòu)
在進(jìn)行樣本訓(xùn)練前需要進(jìn)行歸一化操作,以保證各項(xiàng)因子數(shù)量級(jí)在一個(gè)層面,避免某些因子過(guò)大導(dǎo)致占比較大,或某些因子過(guò)小導(dǎo)致占比較小,從而導(dǎo)致一些因子沒(méi)有發(fā)揮作用[10]。歸一化公式為
3)開(kāi)關(guān)量接點(diǎn)豐富,繼電保護(hù)測(cè)試儀7路接點(diǎn)輸入和2對(duì)空接點(diǎn)輸出,輸入接點(diǎn)為空接點(diǎn)和0~250V接點(diǎn)兼容;同時(shí)其自我保護(hù)結(jié)構(gòu)設(shè)計(jì)具備一定散熱性,本身具有可靠完善的多種保護(hù)措施和電源軟啟動(dòng),因此,微機(jī)繼電保護(hù)裝置整體性價(jià)比較高。
對(duì)方似乎是在對(duì)第一句“飛翔的種子”進(jìn)行解釋,但這種解釋,反而令他更加覺(jué)得云山霧罩。鴻鵠、月酌、朱雀、鳶楚……這些東西,他隱約覺(jué)得有些耳熟,似乎是以前從哪里聽(tīng)說(shuō)過(guò),但直到對(duì)方最后說(shuō)出了“青鸞”,他才終于想起,這些東西都是什么了。
網(wǎng)格搜索法(GridSearchCV)是確定最佳參數(shù)C和γ的一個(gè)普遍方法,顧名思義其主要思想就是通過(guò)搜索網(wǎng)格節(jié)點(diǎn)來(lái)確定參數(shù)[14]。設(shè)置C可取數(shù)值為0.1、1、10、100、1000,γ可取數(shù)值為0.001、0.01、0.1、1、10,在網(wǎng)格交點(diǎn)處便可形成兩個(gè)參數(shù)的任意組合,共有20種組合方式,通過(guò)自動(dòng)調(diào)參容器對(duì)這20種組合進(jìn)行遍歷,便可得到精度最佳的一組參數(shù)。經(jīng)過(guò)實(shí)驗(yàn),得到最佳參數(shù)C為100,γ為1。
石城地區(qū)含礦偉晶巖一般分帶狀構(gòu)造不明顯,僅在部分礦體內(nèi)見(jiàn)到一、二帶或部分礦體局部地方見(jiàn)到較好的帶狀構(gòu)造,經(jīng)綜合研究分析,石城地區(qū)含礦偉晶巖原生帶狀構(gòu)造和交代的帶狀構(gòu)造在水平和垂直空間上的變化規(guī)律如下:
選擇L2正則化項(xiàng)。正則化項(xiàng)其實(shí)是對(duì)原函數(shù)的一種約束,它可以避免出現(xiàn)過(guò)度擬合的情況。常見(jiàn)的正則化項(xiàng)有L1、L2,其中,L2正則化適應(yīng)性強(qiáng),能夠有效地抗干擾,它傾向于建立一個(gè)參數(shù)較小的模型,具有較廣的應(yīng)用性。
3.2.3 確定激活函數(shù)
選擇relu作為激活函數(shù)。relu是一種非線性激活函數(shù),對(duì)于深層網(wǎng)絡(luò)具有意義,能夠利用各層的復(fù)雜組合及運(yùn)算,模擬各種函數(shù),被廣泛應(yīng)用于神經(jīng)網(wǎng)絡(luò)之中,效率高且精度高,沒(méi)有經(jīng)過(guò)預(yù)訓(xùn)練也能達(dá)到很好的效果,被廣泛應(yīng)用于深度學(xué)習(xí)。
支持向量機(jī)建模主要過(guò)程為:收集各項(xiàng)相關(guān)數(shù)據(jù),確定核函數(shù)、參數(shù)C和γ,進(jìn)行模型訓(xùn)練和精度檢驗(yàn)。本研究選用2019年前255天的17項(xiàng)水質(zhì)影響因子作為訓(xùn)練樣本,將2019年后110天的水質(zhì)預(yù)測(cè)結(jié)果作為驗(yàn)證集,設(shè)置初始參數(shù)C為1,γ為10,并利用網(wǎng)格搜索法確定最佳參數(shù),最后運(yùn)行模型得到預(yù)測(cè)結(jié)果。
利用支持向量機(jī)進(jìn)行回歸預(yù)測(cè),其實(shí)質(zhì)就是找到一個(gè)分割面來(lái)對(duì)不同類別進(jìn)行分類,這個(gè)平面稱為超平面。一般來(lái)說(shuō)樣本都是非線性的,只能找到一個(gè)曲面來(lái)劃分類別,不可能通過(guò)一個(gè)平面來(lái)實(shí)現(xiàn),由此引入核函數(shù)的概念,通過(guò)升高維數(shù)來(lái)解決這個(gè)問(wèn)題。
式(2)代表了超平面,其中ω為權(quán)值向量,xi為樣本向量,a為分類界值。
ωxi+a=0
(2)
(3)
4.2.1 確定核函數(shù)
榜樣是在學(xué)習(xí)過(guò)程中表現(xiàn)突出的一個(gè)典范,他能帶動(dòng)其他人一起奮進(jìn),影響其他人的學(xué)習(xí)進(jìn)程。教師在教學(xué)活動(dòng)中充當(dāng)著學(xué)生的榜樣,教師的一言一行都在無(wú)形中影響學(xué)生的學(xué)習(xí)態(tài)度、學(xué)習(xí)效果。在小學(xué)生的心里,教師的語(yǔ)言和行為就是自身語(yǔ)言和行為的指標(biāo),他們遵循這個(gè)指標(biāo)來(lái)規(guī)范自己的言行,從而完善自身。教師要注意自己的言行舉止,為學(xué)生打下良好的榜樣,促進(jìn)學(xué)生的發(fā)展。教師還可以將優(yōu)秀的學(xué)生樹(shù)立為班級(jí)的榜樣,以優(yōu)秀生帶普通生,實(shí)現(xiàn)全班的進(jìn)步。在教學(xué)過(guò)程中,教師要讓優(yōu)秀生充分發(fā)揮榜樣的作用,讓學(xué)生跟隨他們的腳步,共同發(fā)展,共同進(jìn)步。
車輛在運(yùn)行過(guò)程中,隨著線路曲線的變化,車端跨接線纜被動(dòng)地進(jìn)行伸展和收縮運(yùn)動(dòng),因此跨接線纜的復(fù)雜受力運(yùn)動(dòng)情況成為影響跨接線纜使用壽命的重要因素[2]。
(4)
式中:xc為核函數(shù)中心;σ為函數(shù)寬度。
4.2.2 確定相關(guān)參數(shù)
模型參數(shù)的選擇決定了模型的優(yōu)劣,當(dāng)參數(shù)過(guò)小時(shí),可能出現(xiàn)訓(xùn)練不夠、精度不高的情況,反之,可能出現(xiàn)過(guò)度學(xué)習(xí)浪費(fèi)系統(tǒng)資源的情況。懲罰系數(shù)C決定了對(duì)實(shí)驗(yàn)誤差的忍受度,C的值越高,表示越不能容忍;γ為徑向基函數(shù)參數(shù),決定了數(shù)據(jù)的學(xué)習(xí)程度。
語(yǔ)言的豐富意蘊(yùn)體現(xiàn)在它所塑造的人物形象身上。從小說(shuō)的語(yǔ)言描寫中,可以發(fā)現(xiàn)蘇比是一個(gè)可憐而又讓人鄙視的人。說(shuō)其可憐,那是因?yàn)槲闹械奶K比生活在一個(gè)貧窮的環(huán)境里。他在寒冷的冬天因沒(méi)有自己的住所而露宿街頭,只好躺在那里因?yàn)楹涠氜D(zhuǎn)反側(cè)。說(shuō)其讓人鄙視,那是因?yàn)樗麘{借自己健壯的身體足以改變自己的命運(yùn),但他卻把監(jiān)獄當(dāng)作自己的最高追求。于是他想盡辦法來(lái)實(shí)現(xiàn)自己的這一偉大的構(gòu)想:
3.2.2 確定正則化項(xiàng)
(1)深一含粉細(xì)砂壓縮層(B5):處于該層組頂部,由細(xì)砂及粉細(xì)砂層組成,底板埋深80~100 m,厚度10~20 m,一般呈中密~密實(shí)狀態(tài)。
選擇徑向基核函數(shù)。徑向基核函數(shù)運(yùn)用廣泛,與其他核函數(shù)相比其參數(shù)較少,可以通過(guò)升維實(shí)現(xiàn)樣本線性可分。其定義為
式中:y為歸一化后的數(shù)值;x為處理前的數(shù)值;xmin、xmax分別為處理前數(shù)據(jù)的最小值和最大值。
邏輯回歸模型可以通過(guò)分類實(shí)現(xiàn)水質(zhì)的等級(jí)劃分,常規(guī)的模型只能實(shí)現(xiàn)二分類,為實(shí)現(xiàn)5個(gè)等級(jí)的劃分,引入累計(jì)回歸模型,其表達(dá)式為