亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GA 優(yōu)化的RF-Softmax 水質預測模型研究

        2022-05-10 05:24:28董陳超田明昊趙偉朝
        湖北農業(yè)科學 2022年7期
        關鍵詞:水質優(yōu)化模型

        董陳超,田明昊,趙偉朝

        (河海大學商學院,江蘇 常州 213022)

        水資源的質量監(jiān)測和保護一直是中國各級環(huán)保部門的重點工作之一。隨著國家近年來經濟快速發(fā)展,工業(yè)化程度進一步提高,偷排污水、生產事故、氣候變化等事件導致水污染問題不斷發(fā)生[1,2],嚴重影響了飲用水安全和工業(yè)、農業(yè)生產秩序[3],加上某些地區(qū)水網復雜,更是增加了水資源保護和水質監(jiān)測的難度。水質預測模型對于水污染監(jiān)測和分析用水質量變化趨勢有著重要作用,由此亟待建立一個高效、準確、低成本以及快速的水質預測模型。

        目前,對于水質的檢測主要可以分為傳統(tǒng)化學法與一些新興的檢測方法。傳統(tǒng)化學法具有成熟度高、精度高、可靠性好等優(yōu)點,但是其流程繁瑣,耗時較長,無法滿足某些水質實時檢測的需求,且部分化學試劑容易產生2 次污染[4]。一些新興的檢測方法在彌補傳統(tǒng)化學法缺點的同時仍面臨著一些問題,光譜法根據水樣本的光譜對水質進行分析,需要使用光譜儀[5],所需儀器成本較高,檢測流程也較為專業(yè);熒光檢測法操作簡單,但是其推廣應用需要檢測不同物質的傳感器作為支持[6],實用性不足。水質檢測分析儀器也是檢測水質的一個重要途徑,但是便攜式的儀器能檢測的參數較少,儀器的購買成本與維護成本同樣較高,目前中國先進的水質檢測儀器較少[7],且短時間內無法實現(xiàn)儀器的低成本與大規(guī)模推廣。對于目前水質檢測的現(xiàn)狀與實時、快捷、低成本的檢測需求之間的矛盾,基于機器學習方法的水質預測模型提供了解決問題的新思路。通過模型建立部分指標與水質之間的數學關系,實現(xiàn)對整體水質的準確預測,從而達到高效、準確、低成本、快速檢測的目的。

        目前國內外眾多學者對水質預測已有較多研究。一類是通過硬件設備對水質進行預測。如呂清等[8]采用三維熒光光譜檢測技術對江蘇地區(qū)地表水建立了水質指紋,通過監(jiān)測水質指紋異常波動確定污染類型,為環(huán)境監(jiān)測部門采取有效措施應對突發(fā)水污染事件提供了技術支撐。鄒凱等[9]基于現(xiàn)有無人機遙感技術提出了無人機高光譜遙感技術,實現(xiàn)了大時空尺度下水域水質變化的預測,并同時得到多種水質參數濃度的空間反演分布圖。另一類是基于機器學習[10,11]、深度學習[12]相關理論。如顧杰等[13]采用了 ARIMA 自回歸模型與改進的 BP 神經網絡算法相結合的方法對嘉興市水質進行建模,研究了水樣本中電導率、溶解氧、總磷等指標與氣象數據所包含的線性關系和非線性關系。張穎等[14]基于灰色模型和模糊神經網絡對太湖流域3 大斷面監(jiān)測點的綜合水質建立預測模型,實現(xiàn)對水體中各理化因子變化趨勢的追蹤和分析,為水質預警的研究提供了新思路。薛同來等[15]以北京市污水處理廠污水數據為例,建立了污水中COD 與BOD5的數學關系模型,并使用遺傳算法對支持向量機回歸模型中的關鍵參數進行尋優(yōu),解決了水質預測模型參數求解困難的問題。

        本研究通過機器學習的相關理論,構建了1 種基于遺傳算法(Genetic algorithm,GA)優(yōu)化的RFSoftmax 水質預測模型。并采用遺傳算法替代傳統(tǒng)Softmax 回歸算法訓練過程中所使用的梯度下降法,有效避免了在目標函數不是嚴格凸函數的情況下,模型陷入局部最優(yōu)解的情況,顯著提高了模型的預測準確率和可用性,實現(xiàn)了高效、準確、低成本、易實施的地表水質預測,為水質的監(jiān)測與預警研究提供了一種新的思路和方法。

        1 數據來源與研究方法

        1.1 數據來源

        研究數據來自江陰市南閘街道地區(qū)2018 年12月 1 日 至 2019 年 1 月 3 日監(jiān) 測得到 的 750 條地 表水質記錄,每條記錄包含高錳酸鹽指數、氨氮、總磷、pH、總氮、電導率、水溫、溶解氧、濁度共9 項水質參數,每條記錄對應國家標準的水質等級實際值,監(jiān)測得到的水質等級包含Ⅲ類、Ⅳ類、Ⅴ類、劣Ⅴ類共4個類別。為建立南閘街道地區(qū)水質預測模型,本研究先使用隨機森林算法對輸入水質參數進行特征選擇,再采用遺傳算法訓練模型。

        1.2 模型原理與構建

        水質中各項參數和等級測量繁瑣且成本較高,難以實現(xiàn)連續(xù)性采集測量,使得水質參數數據樣本量較小,深度學習和部分機器學習算法在小樣本水質數據預測中容易出現(xiàn)誤差較大和過擬合、泛化能力差等問題。由此本研究提出了基于GA 優(yōu)化的RF-Softmax 水質預測模型。RF 算法首先對輸入水質參數進行特征選擇降低輸入參數維度,再通過Softmax 回歸使用概率來預測樣本類別。Softmax 回歸是算法研究的熱門方向[16],且更適合樣本量較少的情況,相比其他算法更適用于水質的預測。最后用遺傳算法替代傳統(tǒng)Softmax 回歸算法訓練過程中所使用的梯度下降法訓練回歸算法。

        1.2.1 GA 優(yōu)化算法 遺傳算法是模擬生物進化論中自然選擇過程的計算模型,是一種基于遺傳機制的搜索方法。該算法能以較短時間和較少計算資源獲取較優(yōu)解,并具備全局尋優(yōu)能力。遺傳算法將生物編碼機制應用到對優(yōu)化目標參數組的編碼中,使用二進制數等方式編碼[15]。該算法對種群不斷進行選擇、交叉、變異,評估參數組的適應度,淘汰適應度低的參數組,并將優(yōu)質個體遺傳到下一代繼續(xù)進化。遺傳算法在搜索過程中能夠向種群中傳播信息,并利用空間知識。遺傳算法的求解過程分為以下5 個階段。

        1)初始化種群。遺傳算法常采用二進制數、浮點數或符號3 大類編碼方式。研究采用浮點數編碼方式對RF-Softmax 回歸中參數進行編碼,每項參數由1 個浮點數代表,每個參數組由回歸模型中所有參數構成。參數組是遺傳算法迭代的基本單位,1個參數組代表了1 個特定參數的Softmax 回歸模型。初始種群通過隨機數產生。

        2)染色體交叉。交叉操作模擬2 個染色體中某一相同位置被切斷,前后2 串分別交叉組合形成2 個新染色體的過程。交叉過程能增加算法的全局尋優(yōu)性能。本研究使用的交叉方式,先以交叉概率μ 選擇2 個個體,再隨機選擇相同位置的一段數組對應交換,并遺傳給下一代。

        3)染色體變異。染色體在復制時會以很小的概率產生差錯,即變異成新的染色體,并產生某些新的特性。變異操作能防止種群陷入局部最優(yōu)并增加種群的多樣性[16]。研究采用的變異方式是先以變異概率γ 選擇個體中某個參數項,再以高斯分布在變異數組[-0.01,0.01,-0.1,0.1,-1.0,1.0]中隨機抽取某個數值加在該參數項上改變參數值,即以68.27%的概率抽取-0.01 和0.01,以27.18%的概率抽取-0.1和0.1,以4.55%的概率抽取-1.0 和1.0。

        4)適應度計算。適應度函數是遺傳算法的關鍵所在,其決定參數組的優(yōu)劣。先以個體參數組為參數構建Softmax 回歸模型,并訓練回歸模型。再計算模型輸出的預測結果的正確率作為適應度。

        5)選擇操作。選擇操作是以一定的概率從種群中選擇若干個體組成新種群的過程,新種群中的個體更加符合目標函數的要求。根據優(yōu)勝劣汰的原則,保留適應度較高的優(yōu)質個體,淘汰適應度低的不良個體。每個個體可被重復選擇,個體i被選擇的概率pi如式(1)所示,式中N表示個體總數,βi表示個體i的適應度。

        遺傳算法優(yōu)化流程如圖1 所示。

        1.2.2 隨機森林算法原理 隨機森林算法通過將多個決策樹進行結合,??色@得比單一學習器顯著優(yōu)越的泛化性能,并通過加入隨機性降低預測產生的方差。決策樹建立的關鍵在于使得決策樹分支結點的“純度”越來越高。隨機森林是決策樹算法的擴展變體,其在決策樹的訓練過程中引入了隨機屬性選擇。隨機森林本質上是許多決策樹的集合,其中每棵樹都與其他樹略有差異,通過引入隨機屬性來增加模型預測精度并且有效地防止過擬合。

        對于樣本集D={(x1,y1),(x2,y2),…,(xm,ym)},其中xi=(xi1,xi2,…,xip)T表示p維特征變量,yi表示該p維特征變量對應的類別。決策樹進行弱學習器算法,對弱分類器進行T次迭代,最終輸出強分類器。在每次迭代過程中,對訓練集進行第t次(t=1,2,…,T)隨機采樣,共采集m次,得到包含m個樣本的采樣集Dt。用采樣集Dt訓練第t個弱學習器Gt(x)。分類算法預測時T個弱學習器投出最多票數的類別為最終類別。其中hi表示第i個個體學習器,wi是hi的權重。

        在單個決策樹中,重要的特征出現(xiàn)在靠近根節(jié)點的位置,且越靠近根節(jié)點特征越重要,相反不重要的特征靠近葉節(jié)點。研究采用隨機森林算法,對江陰市水質數據中9 個水質參數進行特征選擇,通過計算其在隨機森林中所有樹上的平均深度,統(tǒng)計出指標的重要程度,并過濾掉對水質預測影響較小的次要參數,提高模型預測準確率。

        1.2.3 Softmax 回歸 Softmax 回歸是對 Cramer[17]提出的Logistic 回歸模型的擴展,可以直接支持多類別分類,而不需要組合多個二元分類器,在多分類問題上有較高性能。相比SVM 和神經網絡等模型,Softmax 回歸模型在訓練時間和效率上有明顯優(yōu)勢[18]。

        對于樣本空間{(x1,y1),(x2,y2),…,(xm,ym)},其中yi∈ {1,2,…,k}。Softmax 回歸先計算出每個類別k對應的得分χk,再計算出每個類別的概率P,將計算所得概率最高的類作為最終預測結果。

        式中,θ1,θ2,…,θk∈Θ是模型參數θk的行向量矩陣Θ,K為類別總數。χk(xi)為實例xi屬于在類別k上的得分,P(yi=k|xi;Θ)為實例xi屬于類別k的概率,最后選擇最大概率值對應的類別作為模型最終預測水質類別。

        傳統(tǒng)Softmax 回歸模型中行向量矩陣Θ的求解,常采用式(7)所示的交叉熵成本函數作為損失函數,并通過式(8)所示梯度下降法進行求解。

        式中,M為樣本總數,K為類別總數。若樣本i的目標類別為k,則為1,否則為0。

        梯度下降法求解方法較為簡單,但在目標函數非凸的情況下,其解不保證是全局最優(yōu)解,容易陷入局部最優(yōu)解,導致模型預測準確度降低。為解決上述問題,研究采用遺傳算法代替梯度下降法對回歸模型中的向量矩陣Θ進行求解。

        2 結果與分析

        2.1 BF-Softmax 模型構建

        采用江陰市南閘街道地區(qū)2018 年12 月1 日至2019 年1 月3 日監(jiān)測得到的750 條地表水質記錄作為模型的驗證數據集,并以“1.2.2”所述算法對水質參數進行特征選擇,篩選出主要影響特征。輸入9項水質參數的水質數據,模型監(jiān)督標簽值為每條數據對應的水質等級,各水質參數重要性如圖2 所示。

        由圖2 可知,總磷、氨氮2 個水質參數對水質類別預測影響較大,分別達48.66%和39.90%。此外,總氮、高錳酸鹽指數影響程度分別達3.25% 和2.15%,而剩余5 個水質參數影響程度均小于2%??偭?、氨氮2 個水質參數對水質級別預測的影響程度達88.56%,遠超其余7 個參數的影響程度之和。

        圖2 各水質參數重要性

        因此,經過隨機森林進行特征選擇,最終確定氨氮、總磷2 個水質參數作為Softmax 回歸的輸入變量,并舍棄其余影響程度相對較低的水質參數,以此改進“1.2.3”中使用的傳統(tǒng)的未經過特征選擇的Softmax 回歸模型,構建本研究使用的BF-Softmax 水質預測模型。

        2.2 模型預測結果對比與分析

        為驗證模型的有效性和優(yōu)越性,本研究同時使用傳統(tǒng)梯度下降算法訓練的Softmax 回歸模型、BP神經網絡模型、線性回歸模型、SVR 模型進行對比分析。

        選取 12 月 26 日至 1 月 3 日期 間的 150 條 數據 ,將模型預測值與實際值進行對比,結果如圖3 所示。在5 種模型中,GA-Softmax 模型的變異率設置為0.05,交叉率設置為0.03,種群個體數設置為400,迭代次數設置為1 000,預測結果如圖3a 所示。作為對比,傳統(tǒng)采用梯度下降算法訓練的Softmax 回歸模型的預測結果如圖3b 所示,可以看出其預測誤差遠高于GA 優(yōu)化的BF-Softmax 模型,表明本研究構建的GA 優(yōu)化的BF-Softmax 模型的有效性和優(yōu)越性。在作為參照的另外3 個機器學習領域常用模型中,BP 神經網絡模型采用3 層網絡結構,預測結果如圖3c 所示;線性回歸模型的結果如圖3d 所示;SVR 模型中的懲罰函數、不敏感損失函數以及核函數系數分別設置為1.0、0.5、0.5,預測結果如圖3e所示。

        圖3 不同模型的預測結果與實際值對比

        取試驗中的12 組數據作為示例,輸入示例見表1。輸入參數為總磷與總氮2 項水質參數,輸出結果為預測的水質類型。其中,3 對應Ⅲ類水,4 對應Ⅳ類水,5 對應Ⅴ類水,6 對應劣Ⅴ類水,各模型的輸出結果的對比參見表2。

        表1 模型輸入參數

        表2 各模型輸出結果對比

        為定量評價不同模型的預測效果,選取預測正確率、平均誤差(MAPE)、均方根誤差(RMSE)以及決定系數(R2)作為模型優(yōu)劣性的評價指標,各指標的計算方式見式(9)至式(11),其中yi為第i組數據水質的真實值為第i組數據水質的預測值。各模型評價指標對比如表3 所示。

        從圖3 和表3 中可以看出,使用GA 優(yōu)化的RFSoftmax 模型各項評價指標均優(yōu)于傳統(tǒng)Softmax 回歸模型和其余3 個機器學習模型,證明了遺傳算法優(yōu)化和隨機森林特征選擇的有效性和GA 優(yōu)化的RFSoftmax 模型相比其他模型的更加高效、準確,對水質等級的預測誤差更小。

        表3 各模型評價指標對比

        此外,優(yōu)化后Softmax 回歸模型的正確率得到大幅度提高,從77.47%提升至89.20%,同時誤差也顯著降低,平均誤差和均方根誤差分別降低了0.033 和0.210,決定系數R2由 0.728 4 提升到 0.899 0,優(yōu)化后模型的預測能力大幅提升,預測曲線更貼近真實值。

        BP 神經網絡模型、線性回歸模型以及SVR 模型的預測正確率高于傳統(tǒng)Softmax 模型的77.47%,但明顯低于GA 優(yōu)化后的RF-Softmax 模型的89.20%;上述 3 個模型在MAPE、RMSE、R2這 3 個指標上的評價結果也都優(yōu)于傳統(tǒng)Softmax 模型,但明顯低于GA優(yōu)化的RF-Softmax 模型。

        對比各模型除預測正確率外的其他3 項評價指標可以發(fā)現(xiàn),BP 模型的這3 項指標均明顯優(yōu)于除GA優(yōu)化的RF-Softmax 模型之外的其他3 個模型,但預測正確率卻未明顯提升。分析BP 神經網絡模型預測結果后發(fā)現(xiàn),BP 模型在Ⅲ、Ⅳ、Ⅴ類水上預測正確率較高,但在樣本中所占比例較小的劣Ⅴ類水上預測正確率極低,BP 模型為了提高預測正確率而部分舍棄了對劣Ⅴ類水質的預測能力。因此,在實際應用中BP 模型缺乏可行性和泛化能力。GA 優(yōu)化的RF-Softmax 模型在4 個評價指標的表現(xiàn)上相比其他4 個模型均具有明顯優(yōu)勢,其預測正確率最高為89.20%,預測誤差最小,優(yōu)化后的水質預測模型性能明顯優(yōu)于其他4 個模型且能基本滿足水質預測的實際需求,具有實用性。本研究構建的GA 優(yōu)化后的RF-Softmax 水質預測模型參數θk如表4 所示。

        表4 GA 優(yōu)化后的RF-Softmax 模型參數

        3 小結

        針對水質檢測周期長、成本較高等問題,本研究采用機器學習理論,構建了基于GA 優(yōu)化的RF-Softmax 水質預測模型。首先通過隨機森林算法對輸入模型的水質參數進行特征選擇,過濾掉對水質等級影響較小的水質參數,再采用遺傳算法替代傳統(tǒng)Softmax 回歸算法訓練過程中所使用的梯度下降法,避免了模型陷入局部最優(yōu)解的情況,顯著提高了模型的預測準確率和可用性。以江陰市南閘街道地區(qū)水質數據為樣本進行檢驗,并選取了傳統(tǒng)Softmax 模型以及機器學習中應用較為廣泛的BP 神經網絡模型、線性回歸模型與SVR 模型作為對比,分析各模型預測結果。結果表明,基于GA 優(yōu)化的RF-Softmax 水質預測模型與傳統(tǒng)梯度下降法訓練的Softmax模型以及其他3 個模型相比,其在預測正確率和誤差等方面均具有明顯優(yōu)勢,預測正確率達到89.20%,平均誤差僅為0.023,均方根誤差僅為0.335,模型決定系數達到0.899,預測精度高,具有較高的實際應用價值。該方法實現(xiàn)了對水質數據信息的挖掘,有效提高了水質預測精度,并建立了高效、準確、低成本、快速的水質預測模型,為水質的監(jiān)測與預警提供了新的思路,對于水質管理與環(huán)境保護具有重大意義。

        猜你喜歡
        水質優(yōu)化模型
        一半模型
        水質抽檢豈容造假
        環(huán)境(2023年5期)2023-06-30 01:20:01
        超限高層建筑結構設計與優(yōu)化思考
        房地產導刊(2022年5期)2022-06-01 06:20:14
        民用建筑防煙排煙設計優(yōu)化探討
        關于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        一月冬棚養(yǎng)蝦常見水質渾濁,要如何解決?這9大原因及處理方法你要知曉
        當代水產(2019年1期)2019-05-16 02:42:04
        3D打印中的模型分割與打包
        亚洲av午夜一区二区三| 人妻少妇精品无码专区二区| www射我里面在线观看| 日韩av无码成人无码免费| 亞洲綜合一區二區三區無碼| 亚洲国产精品嫩草影院久久| 国产精品亚洲А∨天堂免下载| 无码不卡免费一级毛片视频| 少妇一区二区三区乱码| 免费观看国产激情视频在线观看| 国语对白精品在线观看| 久久久精品国产亚洲av网深田| 国产精品无码人妻在线| 少妇厨房愉情理伦bd在线观看| 男女啪啪永久免费观看网站| 福利视频黄| 日本熟妇hd8ex视频| 蜜桃av区一区二区三| 日本伊人精品一区二区三区| 人妻丰满熟av无码区hd| 亚洲 欧美精品suv| 亚洲九九九| 国产精品自产拍av在线| 久久久久久夜精品精品免费啦| 日韩人妻ol丝袜av一二区| 久热这里只有精品视频6| 国产精品jizz观看| 在线你懂| 亚洲白嫩少妇在线喷水| 国产情侣一区二区| 日韩少妇激情一区二区| 国产高潮流白浆免费观看不卡| 美女和男人一起插插插| 曰批免费视频播放免费| 国产精品第一国产精品| 北条麻妃毛片在线视频| 蜜桃av区一区二区三| 亚洲国产精品无码一线岛国| 亚洲日韩精品欧美一区二区| 欧美一级人与嘼视频免费播放| av资源吧首页在线观看|