亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LightGBM的水質預測模型研究與應用

        2023-01-31 00:15:16歐陽群文
        智能城市 2022年11期
        關鍵詞:查全率查準率河長

        歐陽群文

        (廣州市城建規(guī)劃設計院有限公司,廣東廣州 510000)

        廣州以河長制為“統(tǒng)領”,深入開展清四亂和源頭控污工作,全市水環(huán)境治理水平及治理成效實現(xiàn)了根本性提升,完成了對原有黑臭河湖的治理。然而河道水安全和水環(huán)境依然較為脆弱,各類問題有反彈風險,治水成效難以鞏固,河湖水質存在返黑返臭風險。隨著廣州河長制工作的不斷深入,以信息化為主要手段的河長管理機制不斷更新迭代,并積累了大量數(shù)據(jù)[1-3]。但現(xiàn)有的廣州河長信息管理系統(tǒng)主要功能是收集整理和發(fā)布河湖管理方面的基本信息,缺乏對數(shù)據(jù)的深入分析與挖掘,并沒有結合實際需求進行模型的開發(fā),例如如何進行水質預警、如何根據(jù)預報結果進行針對性治理等[4]。利用數(shù)據(jù)資源指導實際工作是河長制信息化推進的主要方向。鑒于此,文章利用廣州河長管理信息系統(tǒng)中的數(shù)據(jù)(下稱“系統(tǒng)數(shù)據(jù)”),通過對數(shù)據(jù)進行深入挖掘與分析,基于擅長挖掘數(shù)據(jù)縱深的LightGBM(light gradient boosting machine)算法建立水質預測模型。通過建模型預測水質等級,并據(jù)此分析河湖水質變化趨勢及系統(tǒng)數(shù)據(jù)的重要程度,從而提高河長對河湖事件的預測能力以及河湖管理的執(zhí)行能力,全面促進河長制實施。

        1 模型目標及算法選擇

        模型中,采取廣州河長管理信息系統(tǒng)數(shù)據(jù)(河涌問題數(shù)據(jù)、河長行為數(shù)據(jù)等)、河涌上月水質數(shù)據(jù)作為特征數(shù)據(jù),河涌本月水質數(shù)據(jù)作為標簽數(shù)據(jù),通過多分類機器學習算法深入挖掘特征數(shù)據(jù)與標簽數(shù)據(jù)之間的映射關系,得到一個可以根據(jù)上月特征數(shù)據(jù)預測當月水質的機器學習模型,即LightGBM的水質預測模型。通過內業(yè)模型輸出結果指導外業(yè)對于水質較差以及有變差趨勢的河涌,并執(zhí)行定向巡查,通過多分類機器學習算法實現(xiàn)水質預測的目標。

        2 基于LightBGM的水質預測模型構建

        模型構建環(huán)節(jié)包括數(shù)據(jù)整合、樣本劃分、數(shù)據(jù)預處理、特征工程、模型訓練及參數(shù)優(yōu)化、模型結果分析評價、變量重要性評分及內外業(yè)融合分析。

        2.1 數(shù)據(jù)整合

        根據(jù)廣州河長管理信息系統(tǒng)中的不同數(shù)據(jù)源,將不同來源的數(shù)據(jù)整合成一張建模寬表。由于每條河涌對應多個河長,故河涌對應的河長行為數(shù)據(jù)采用均值平滑方法處理,即采用多個河長的行為數(shù)據(jù)均值作為特征數(shù)據(jù)。

        2.2 樣本劃分

        考慮到樣本數(shù)據(jù)比較有限,為了保證模型能夠充分地訓練,需要擴大訓練集的占比,所以采取9∶1的比例將1 771條樣本數(shù)據(jù)劃分成訓練集及測試集,其中訓練集1 593條,測試集178條。

        2.3 數(shù)據(jù)預處理

        鑒于設備故障、網(wǎng)絡通信等不可控因素的影響,原始數(shù)據(jù)中可能存在臟數(shù)據(jù)、缺失數(shù)據(jù)等情況。因此,首先對原始數(shù)據(jù)進行預處理。預處理工作主要包括數(shù)據(jù)清洗、特征分類、缺失值處理、異常值檢測等,包括數(shù)據(jù)清晰、特征分類、數(shù)據(jù)缺失值處理、數(shù)據(jù)異常值處理。

        2.4 特征工程

        特征工程是指將預處理后的數(shù)據(jù)進行加工,轉變?yōu)槟P退枰奶卣鲾?shù)據(jù),同時將原有特征通過計算、組合等方式轉換為新的特征[5-9]。研究中,對于河涌問題數(shù)據(jù)進行了縱向(多級河長)與橫向(同級河長上報的不同問題)的特征工程處理,共得到31個特征數(shù)據(jù)。

        2.5 模型訓練及參數(shù)優(yōu)化

        將上月特征數(shù)據(jù)作為輸入,當月水質等級預測作為輸出,構建基于LightGBM的水質預測模型。采用LightGBM算法在訓練集中訓練模型,并通過模型在驗證集上的表現(xiàn)進行算法參數(shù)優(yōu)化。初步訓練時,設置參數(shù)如下:決策樹的數(shù)量設置為200,樹最大深度設置為3,其他參數(shù)均使用默認參數(shù)。初步訓練的準確率為48.31%,參數(shù)優(yōu)化效果以此基準模型作為參考。

        LightGBM模型參數(shù)較多,研究選取LightGBM最重要的7個參數(shù)進行算法優(yōu)化,以準確率為評價指標通過網(wǎng)格搜索法選取最優(yōu)參數(shù)。優(yōu)化的結果如圖1所示,評價指標均為測試集上的準確率。

        圖1 LightGBM模型參數(shù)調優(yōu)結果

        由圖1可知,將決策樹的數(shù)量初始值設為20,準確率為0.48,當決策樹的數(shù)量取50時,準確率變?yōu)?.51,繼續(xù)增大決策樹的數(shù)量到100、200、300、400、500、600,準確率呈現(xiàn)下降趨勢。將浮點數(shù)設定為0.6~1.0的調整范圍,當浮點數(shù)取值為0.7、0.8、0.9時,準確率趨于穩(wěn)定。當樹最大深度取值小于4時,準確率上升,當取值大于4時,準確率呈上下波動變化,但均小于取值為4的準確率。最小樣本數(shù)量在4種取值下(10、30、50和100)的準確率分別為0.51、0.52、0.47和0.47。將正則化系數(shù)設定為0~3.0的調整范圍,隨著參數(shù)增大,模型預測效果反而變差,調參后最優(yōu)解仍保持為0。選擇兩種正則化系數(shù)進行調參,正則化系數(shù)1.0與正則化系數(shù)2.0參數(shù)取值范圍相同,調參后最優(yōu)解為1。對于學習速率,0.1為最佳取值。由以上分析可知,參數(shù)決策樹的數(shù)量、浮點數(shù)、樹最大深度、最小樣本數(shù)量、正則化系數(shù)1、正則化系數(shù)2.0、學習速率的最優(yōu)取值分別為50.0、0.9、4.0、30.0、0、1.0、0.1。特征選擇結果如表1所示。

        表1 特征選擇結果

        2.6 模型結果分析評價

        研究采用“準確率”為評價指標。將上述尋優(yōu)的參數(shù)代入模型,輸出預測結果。通過混淆矩陣可以得出,Ⅱ類、Ⅵ類(劣五類)水質的河涌預測比較準確,Ⅱ類、Ⅲ類水質容易相互混淆??傮w準確率為53.37%。除了準確率之外,還可以通過針對某一類別的查準率、查全率分析模型的分類結果。對于重點關注的Ⅴ類、Ⅵ類(劣五類)水質,計算其查準率、查全率。Ⅴ類查準率為40%,Ⅴ類查全率為11.76%,Ⅵ類查準率為63.16%,Ⅵ類查全率為68.57%。因此,5類水質河涌的查準及查全表現(xiàn)較低,尤其是查全率,原因在于訓練樣本中Ⅴ類水質河涌的樣本數(shù)過少,模型無法學習到相應特征。雖然Ⅴ類水質的模型效果并不理想,但Ⅵ類水質的查準和查全比較理想,查全率達到68.57%,Ⅵ類水質的模型效果對于河涌黑臭預警、水質惡化預警有重要意義。

        2.7 特征重要性分析

        研究中采用Gini Importance方法得到重要性評估結果如圖2所示。

        圖2 變量重要性評價結果

        由圖2可知,責任一般河湖數(shù)量、上月水質、連續(xù)打卡式巡河的次數(shù)是影響水質的3個重要特征。責任一般河湖數(shù)量是指河涌對應河長所管轄的一般河湖數(shù)量,反映出河涌管理者的精力分散程度,由此結果可以推測,河涌管理者的精力分散程度對水質有較大影響,此結論對于河長的人手分配、河涌分配具有指導意義。連續(xù)打卡式巡河次數(shù)反映出河長巡河行為對水質的影響,此結論對河長管理、培訓、督導具有指導意義。另外,特征重要性分析結果表明,所有問題、問題上報率、一般河湖巡河率等特征對河涌水質也會產(chǎn)生較大影響。此外,可以發(fā)現(xiàn)在眾多河涌問題中,工業(yè)廢水排放是影響水質的最大問題。

        3 模型驗證及模型應用

        3.1 模型驗證

        為了進一步驗證模型效果,采用后一個月具有水質數(shù)據(jù)的河涌共計422條作為驗證樣本,將河涌的前一個月特征數(shù)據(jù)輸入訓練好的模型中,輸出各河涌后一個月水質預測數(shù)據(jù),根據(jù)輸出的預測結果與實際結果進行比對,對模型進行驗證。

        驗證結果顯示其總體準確率為53.10%,基本不變。對于重點關注的Ⅴ類、Ⅵ類(劣五類)水質,計算其查準率、查全率分別為:Ⅴ類查準率為40%、Ⅴ類查全率為18.60%、Ⅵ類查準率為63.63%、Ⅵ類查全率為67.96%。與測試集的模型效果相比,總體準確率略有下降,但Ⅴ類查全率有明顯提升、Ⅵ類查準率略微提升,Ⅵ類查全率略微下降,模型錯分樣本大部分集中在Ⅱ、Ⅲ、Ⅳ類水質??傮w來說,模型效果與測試集上相當,說明模型比較穩(wěn)定、泛化能力強,具有應用價值。

        3.2 模型應用

        根據(jù)LightGBM水質預測多分類模型輸出結果,可以構建兩個重點河涌庫,其一是Ⅵ類(劣Ⅴ類)水質河涌庫;其二是水質惡化河涌庫,根據(jù)預測的水質等級與河涌上月水質等級做對比,等級衰退兩個以上的河涌應被列為“有水質惡化傾向”的河涌。在實際工作過程中,根據(jù)模型分析結果,分別對南沙區(qū)、荔灣區(qū)相關河涌進行現(xiàn)場調研反饋,從現(xiàn)場調研情況看,其河涌存在的問題能夠反映出河涌存在一定的黑臭風險。從而得出,基于LightGBM水質預測模型能有效指導外業(yè)定向巡查、定向督導河長,防患于未然,對于重點河涌進行提前干預,提前發(fā)現(xiàn)問題,防止河涌水質惡化以及反黑反臭。

        4 結語

        以廣州河長管理信息系統(tǒng)中2020年3月—11月的樣本數(shù)據(jù)為例,基于LightGBM的水質預測模型輸出結果,在訓練集和測試集上,準確率都超過了53%,重點類別河涌Ⅵ類(劣Ⅴ類)的查準率達到63%以上、查全率達到68%以上,模型整體預測效果較好,具有應用價值。同時將水質等級預測與重要性評估的內業(yè)工作成果相結合,針對性地對水質有變差趨勢的河涌及疑似劣Ⅴ類河涌開展外業(yè)專項巡查工作,找出重大污染源的來源以及分析河涌流域污染源的分布、特性。通過內業(yè)數(shù)據(jù)挖掘,并結合外業(yè)專項的巡查,能夠彌補內業(yè)發(fā)現(xiàn)問題的局限性,在有限的資源利用背景下,達到最優(yōu)化分配,減少資源浪費,提升督導巡查效率和準確性,實現(xiàn)了對河長的定向督導,進一步壓實河長履職責任,提升履職水平。

        猜你喜歡
        查全率查準率河長
        河長制推行中法律問題探討
        山西省省內主要河流河長調整公示
        山西水利(2019年4期)2019-02-14 14:27:22
        海量圖書館檔案信息的快速檢索方法
        基于數(shù)據(jù)挖掘技術的網(wǎng)絡信息過濾系統(tǒng)設計
        從法律視角看“河長制”對水污染防治的作用
        消費導刊(2018年10期)2018-08-20 02:56:52
        基于詞嵌入語義的精準檢索式構建方法
        大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
        基于深度特征分析的雙線性圖像相似度匹配算法
        圖說河長制
        河北水利(2016年12期)2017-01-04 01:11:37
        中文分詞技術對中文搜索引擎的查準率及查全率的影響
        日本黄页网站免费观看| 久久久熟女一区二区三区| 一本一道久久a久久精品综合蜜桃| 男人一插就想射的原因| 日韩人妻熟女中文字幕a美景之屋| 国产伦精品一区二区三区妓女| 亚洲精品无码国模| 亚洲av永久无码精品水牛影视| 青青草免费在线视频久草| 亚洲av成人无遮挡网站在线观看| 熟女体下毛毛黑森林| 免费视频一区二区| 日韩av无卡无码午夜观看| 国产一区二区不卡av| 精品卡一卡二卡3卡高清乱码| 少妇高潮喷水久久久影院| 免费无码成人av在线播放不卡| 亚洲综合一| 中文字幕乱码亚洲一区二区三区| 欧美四房播播| 五月婷一本到五月天| 国产目拍亚洲精品二区| 人妻久久久一区二区三区蜜臀| 欧美牲交a欧美牲交aⅴ免费真| 少妇被躁爽到高潮无码文| 日韩久久av电影| 亚洲中文字幕乱码一二三| 97在线视频人妻无码| 欧美性大战久久久久久久| 538在线视频| 久久免费看的少妇一级特黄片| 国产麻传媒精品国产av| 亚洲色欲Aⅴ无码一区二区| 中文字幕文字幕一区二区 | 欧美亚洲国产精品久久高清| 人妻av午夜综合福利视频| 五月天中文字幕日韩在线| 亚洲日韩av无码中文字幕美国| 欧美中文字幕在线| 久久精品一区二区三区夜夜| 国产欧美日韩中文久久|