亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        水資源消耗預(yù)測(cè)的異常值檢測(cè)及缺失數(shù)據(jù)填補(bǔ)方法

        2018-09-21 05:42:42宋曉娜薛惠鋒王海寧
        統(tǒng)計(jì)與決策 2018年16期
        關(guān)鍵詞:模型

        張 峰,宋曉娜,薛惠鋒,王海寧

        (1.山東理工大學(xué) 管理學(xué)院,山東 淄博 255012;2.中國(guó)航天系統(tǒng)科學(xué)與工程研究院,北京 100048;3.泰山學(xué)院 商學(xué)院,山東 泰安 271000)

        0 引言

        水資源消耗預(yù)測(cè)是根據(jù)水資源消耗量、社會(huì)、經(jīng)濟(jì)等相關(guān)歷史時(shí)序數(shù)據(jù),挖掘水資源消耗動(dòng)態(tài)演化規(guī)律及其影響要素之間的作用機(jī)理,并構(gòu)建水資源消耗預(yù)測(cè)模型,辨識(shí)水資源消耗程度未來(lái)變動(dòng)趨勢(shì)。因此如何實(shí)現(xiàn)高精度的水資源消耗預(yù)測(cè)對(duì)于保障水資源綜合規(guī)劃、水資源管理等政策制定的科學(xué)性與合理性至關(guān)重要。而要達(dá)到上述目標(biāo),需以完整、高質(zhì)量的歷史時(shí)序數(shù)據(jù)為基礎(chǔ),但是限于現(xiàn)有監(jiān)測(cè)指標(biāo)與統(tǒng)計(jì)手段等因素的約束,其歷史數(shù)據(jù)收集中難免存在數(shù)據(jù)異常、缺失等狀況。其中,數(shù)據(jù)的異??芍饕譃閷?shí)際突變異常和待修正異常2類(lèi),前者是指標(biāo)數(shù)據(jù)由于實(shí)際消耗等而產(chǎn)生的實(shí)際改變,檢測(cè)與統(tǒng)計(jì)過(guò)程中需對(duì)其進(jìn)行保留,而后者主要是在人為操作、設(shè)備使用、統(tǒng)計(jì)口徑差異等因素影響而導(dǎo)致數(shù)據(jù)出現(xiàn)“存在而不正?!爆F(xiàn)象;缺失數(shù)據(jù)則是監(jiān)測(cè)設(shè)備的損壞、數(shù)據(jù)資料的遺失等造成的“數(shù)據(jù)空白”[1]。對(duì)于待修正異常與缺失數(shù)據(jù)均需要采取有效的檢測(cè)與填補(bǔ)方法進(jìn)行完善,以支撐水資源消耗預(yù)測(cè)建模的要求。考慮由于水資源的自然與社會(huì)經(jīng)濟(jì)雙重屬性而導(dǎo)致影響水資源消耗的因素具有復(fù)雜多樣性與不確定性,本文在現(xiàn)有研究成果的基礎(chǔ)上,應(yīng)用偏最小二乘(Partial least squares,PLS)與最小殘差回歸法、粒子群(Particle swarm optimization,PSO)與最小二乘支持向量機(jī)(Least squares support vector machine,LSSVM)分別對(duì)水資源消耗預(yù)測(cè)的異常值進(jìn)行適用性研究,為提升水資源數(shù)據(jù)管理水平提供一定的方法支持。

        1 模型構(gòu)建

        現(xiàn)有諸多研究成果中對(duì)水資源消耗與社會(huì)經(jīng)濟(jì)發(fā)展之間的強(qiáng)相關(guān)性進(jìn)行了論證[2,3],同時(shí)鑒于社會(huì)經(jīng)濟(jì)指標(biāo)可通過(guò)其統(tǒng)計(jì)年鑒取得較高可信度的數(shù)據(jù),對(duì)此考慮選取偏最小二乘法對(duì)年均水資源消耗量與社會(huì)經(jīng)濟(jì)發(fā)展指標(biāo)之間的主成分進(jìn)行提取處理。毛李帆等[4]認(rèn)為該過(guò)程中基于相關(guān)指標(biāo)數(shù)據(jù)構(gòu)建的回歸模型會(huì)受異常值的擴(kuò)大影響,對(duì)主成分的貢獻(xiàn)水平顯著高于常規(guī)數(shù)據(jù),并在電力負(fù)荷異常數(shù)據(jù)分析中得到驗(yàn)證。因此本文利用統(tǒng)計(jì)數(shù)據(jù)樣本對(duì)提取的主成分貢獻(xiàn)程度的方法檢測(cè)水資源數(shù)據(jù)異常值。

        1.1 基于PLS-Q2的異常值檢測(cè)模型

        設(shè)因變量Y和 p個(gè)自變量構(gòu)成自變量集合 X=(x1,x2,...,xp),觀測(cè)n個(gè)樣本點(diǎn),并構(gòu)成n維因變量向量(y1,y2,...,yn)n×1和自變量構(gòu)成n×p觀測(cè)矩陣X=(x1,x2,...,xp)n×p。PLS 回歸的基本原理是逐次對(duì)自變量 X提取主成分qα,α=1,2,...,α ,盡可能多地概括自變量集合 X 中的信息,同時(shí)與因變量Y的相關(guān)性可以達(dá)到最大值。對(duì)此,定義Q為數(shù)據(jù)樣本i對(duì)第v主成分qv的貢獻(xiàn)度,即:

        可推出,若:

        則可判定數(shù)據(jù)樣本i對(duì)主成分qv的貢獻(xiàn)度偏大。多數(shù)情況下對(duì)于樣本信息可通過(guò)2個(gè)以?xún)?nèi)的主成分進(jìn)行概括提取,對(duì)此本文假設(shè)主成分?jǐn)?shù)目為2,即α=2,則將判定條件轉(zhuǎn)為:

        1.2 基于最小殘差的異常值修正

        考慮傳統(tǒng)最小二乘回歸對(duì)于其方差的非穩(wěn)健性,易導(dǎo)致其擬合效果偏向突變數(shù)據(jù)擴(kuò)散,本文擬采用最小殘差的回歸方式修正最小二乘回歸目標(biāo)函數(shù),削弱突變數(shù)據(jù)對(duì)擬合模型的影響。其函數(shù)為:

        其中,Wi指水資源數(shù)據(jù)樣本值;Hi指影響要素指標(biāo);?是待估系數(shù);υi指數(shù)據(jù)樣本擬合誤差。對(duì)于上述公式,可假設(shè):

        即:

        將式(8)代入到模型(6)中,求解規(guī)劃解:

        根據(jù)上述模型,可知利用一次函數(shù)作為基于最小殘差異常值修正的目標(biāo)函數(shù),可有效控制其模型對(duì)水資源異常值的敏感度達(dá)到修正效果。

        1.3 基于LSSVM的缺失數(shù)據(jù)填補(bǔ)

        考慮數(shù)據(jù)樣本的規(guī)模及LSSVM在解決非線性、小樣本等方面問(wèn)題的擬合優(yōu)勢(shì)[5],本文選取該方法對(duì)水資源缺失數(shù)據(jù)進(jìn)行補(bǔ)充。同時(shí),利用粒子群算法優(yōu)化LSSVM核函數(shù)的參數(shù)。步驟如下:

        其中,ρ(x)指非線性變換映射函數(shù);ω指權(quán)系數(shù);b是偏置量。據(jù)此,LSSVM目標(biāo)函數(shù)可寫(xiě)為:

        其中,θ是誤差變量;γ為懲罰因子(γ>0)。引入Lagrange函數(shù)求解:

        式中?i指Lagrange乘子。按照Karush-Kuhn-Tucker條 件[6],分 別 測(cè) 算 ?L ?ω =0 、?L ?b=0 、?L ?θ =0 和?L??i=0,取得方程組:

        鑒于RBF核函數(shù)處理非線性輸入與輸入關(guān)系的適用性,本文采用其作為L(zhǎng)SSVM的核函數(shù):

        1.4 基于PSO的LSSVM參數(shù)優(yōu)化

        通常對(duì)LSSVM模型參數(shù)γ與?的優(yōu)化多采取參數(shù)空間窮盡搜索算法,但該方式難以參數(shù)的閾值范疇進(jìn)行合理界定,對(duì)此,本文利用PSO優(yōu)化其參數(shù),同時(shí)為避免PSO收斂陷入局部極值,在初始粒子群選取時(shí)利用平均粒距函數(shù)對(duì)其離散程度進(jìn)行測(cè)定[7]:

        其中,ο為種群粒子數(shù);L為搜索區(qū)域?qū)亲畲缶嚯x;aid表示粒子i的d維坐標(biāo),而指其平均值。

        此外,對(duì)于PSO粒子是否出現(xiàn)早熟收斂的判定,可依據(jù)種群粒子適應(yīng)值的改變來(lái)分析種群狀態(tài),即設(shè)定粒子適應(yīng)度為Ri,種群平均適應(yīng)度,定義其適應(yīng)度方差:

        選取參數(shù)優(yōu)化后的LSSVM模型,將除了存在數(shù)據(jù)缺失以外的社會(huì)經(jīng)濟(jì)指標(biāo)作為模型輸入,而水資源消耗值作為模型輸出進(jìn)行樣本訓(xùn)練擬合,進(jìn)而根據(jù)擬合結(jié)果對(duì)水資源消耗缺失值進(jìn)行補(bǔ)充。

        2 算例分析

        2.1 水資源數(shù)據(jù)異常值檢測(cè)算例與分析

        以廣東省2000—2015年社會(huì)經(jīng)濟(jì)發(fā)展與水資源消耗量為例①社會(huì)經(jīng)濟(jì)指標(biāo)主要源于《廣東省統(tǒng)計(jì)年鑒》(2000—2016),水資源消耗量通過(guò)求解地區(qū)用水總量與再循環(huán)水資源量之差而得,由于再循環(huán)水資源量測(cè)算過(guò)程較為復(fù)雜,需要對(duì)計(jì)算結(jié)果進(jìn)行二次檢查,其數(shù)據(jù)源于《廣東省水資源統(tǒng)計(jì)公報(bào)》(2004—2015)、《廣東省環(huán)境統(tǒng)計(jì)公報(bào)》(2000—2015)。,其指標(biāo)數(shù)據(jù)見(jiàn)表1。利用PLS-Q2模型對(duì)其2000—2012年歷史數(shù)據(jù)進(jìn)行函數(shù)擬合,同時(shí)檢測(cè)水資源異常數(shù)據(jù),根據(jù)擬合結(jié)果完成異常值修正并預(yù)測(cè)2003—2015年數(shù)據(jù),檢驗(yàn)?zāi)P皖A(yù)測(cè)有效度。

        按照表1中數(shù)據(jù),利用PLS模型對(duì)其指標(biāo)數(shù)據(jù)進(jìn)行主成分提取處理,并利用模型(2)測(cè)算各數(shù)據(jù)樣本的累計(jì)貢獻(xiàn)度Q,見(jiàn)表2。其中,r1、r2分別表示主成分1與主成分2。

        根據(jù)表2可知,2007年、2011年和2012年的數(shù)據(jù)樣本累計(jì)貢獻(xiàn)度Q均已突破0.25水平,并分別達(dá)到0.390802、0.259432和0.268102,與其他樣本之間數(shù)值差異相對(duì)顯著。對(duì)此,參考時(shí)序歷史數(shù)據(jù),選取模型(3)顯著水平τ=0.15。按照模型(7)測(cè)度Q2橢圓式:

        表1 廣東省社會(huì)經(jīng)濟(jì)與水資源消耗指標(biāo)

        表2 主成分r1與r2測(cè)度結(jié)果

        按照式(19)及表2,可繪制其Q2橢圓分布圖,見(jiàn)圖2。

        圖2 異常值修正前Q2橢圓圖

        圖2所示的2007年、2011和2012年數(shù)據(jù)樣本點(diǎn)靠近Q2橢圓的邊緣,需對(duì)其進(jìn)行核定。經(jīng)對(duì)于統(tǒng)計(jì)數(shù)據(jù)重新測(cè)算核定,發(fā)現(xiàn)2007年和2012年水資源消耗量數(shù)據(jù)應(yīng)分別為450.8936和459.2454,而2011年數(shù)據(jù)(442.6194)與核定數(shù)據(jù)相一致,即為實(shí)際突變數(shù)據(jù)。如果按照水資源消耗均值數(shù)據(jù)±5%水平作為劃分依據(jù),則處于(411.278,454.570)以外數(shù)據(jù)均被列為異常值,即2000—2002年、2007年、2009—2010年和2012年為異常點(diǎn);而若以±10%水平為標(biāo)準(zhǔn),(389.6315,476.2163)為其正常區(qū)間,除了2007年、2011年和2012年以外,2000—2001年也被誤列為異常值點(diǎn)??梢?jiàn),利用傳統(tǒng)均值±5%與±10%水平的評(píng)判方法雖然在操作上具有簡(jiǎn)便性,但易造成較大的誤判,而PLS-Q2模型表現(xiàn)出了較強(qiáng)的實(shí)用性。

        對(duì)于重新核定的數(shù)據(jù),建立Q2橢圓式,見(jiàn)模型(20),而其主成分與Q2橢圓分布見(jiàn)圖3。

        圖3 異常值修正后Q2橢圓圖

        觀測(cè)異常修正前后Q2橢圓圖,可知2007年、2012年數(shù)據(jù)樣本點(diǎn)向圓心靠攏,表明由于人為操作等主觀因素造成的異常值已被修正。而2011年數(shù)據(jù)為水資源消耗實(shí)際突變數(shù)據(jù),仍置于橢圓邊界處,對(duì)其無(wú)需進(jìn)行調(diào)整。

        考慮異常值對(duì)擬合方程的影響,利用傳統(tǒng)最小二乘法與本文構(gòu)建的最小殘差的異常值修正模型分別對(duì)數(shù)據(jù)修正前與修正后樣本進(jìn)行回歸分析,依次記為?1(x )、?2(x),再預(yù)測(cè)2013—2015年水資源消耗量。各擬合模型如下:

        其中,x1,x2,…,x4分別指表 1中各產(chǎn)業(yè) GDP 與人均GDP量。據(jù)其取得水資源消耗量預(yù)測(cè)值,見(jiàn)表3。

        表3 ?1()x、?2()x回歸預(yù)測(cè)結(jié)果

        據(jù)表3,可知傳統(tǒng)最小二乘法測(cè)度的?1(x)相對(duì)誤差均大于0.15水平,而基于最小殘差的異常值修正模型?2(x)的預(yù)測(cè)相對(duì)誤差最高值為0.063434,其余均低于0.04水平(0.038418、0.039577)。這說(shuō)明通過(guò)對(duì)水資源消耗量異常值進(jìn)行修正,構(gòu)建基于最小殘差的異常值修正模型在對(duì)其進(jìn)行預(yù)測(cè)分析中具有相對(duì)較高的精度,可滿(mǎn)足對(duì)水資源消耗數(shù)據(jù)時(shí)序動(dòng)態(tài)規(guī)律挖掘的需求。

        2.2 水資源數(shù)據(jù)缺失填補(bǔ)算例與分析

        以廣州市2004—2015年水資源消耗與社會(huì)經(jīng)濟(jì)相關(guān)指標(biāo)數(shù)據(jù)為例,并假設(shè)其2008年與2013年水資源消耗量為缺失值,見(jiàn)表4。

        表4 廣州市社會(huì)經(jīng)濟(jì)與水資源消耗指標(biāo)

        根據(jù)表4,將社會(huì)經(jīng)濟(jì)指標(biāo)作為PSO-LSSVM輸入,而水資源消耗量作為輸出。其中,進(jìn)行PSO測(cè)算時(shí),懲罰因子γ∈[0 . 1,100] ,∈[0 . 1,10],對(duì)此參考樣本數(shù)據(jù)設(shè)置 γ=30,=2,粒子數(shù)ο=30,最大迭代次數(shù)tmax=100;平均粒距可反映種群分布的多樣特征,隨機(jī)粒子產(chǎn)生的粒距D(t)均不低于?,設(shè)其閾值?=0.001;適應(yīng)度方差表征粒子聚集水平,設(shè)其閾值ε=0.01。而表4中各指標(biāo)歸一化模型如下:

        其中,xij指社會(huì)經(jīng)濟(jì)與水資源消耗原始數(shù)據(jù);ij指歸一化后指標(biāo)值;xj表示xij所在 j列數(shù)值。利用RBF核函數(shù),結(jié)合模型(15)對(duì)除2008年、2013年外的其他數(shù)據(jù)分別進(jìn)行LSSVM、PSO-LSSVM模型樣本訓(xùn)練?;谟?xùn)練擬合模型對(duì)其缺失數(shù)據(jù)點(diǎn)進(jìn)行填補(bǔ),結(jié)果見(jiàn)表5與下頁(yè)圖4。

        表5 模型擬合結(jié)果

        圖4 水資源消耗量模擬曲線

        據(jù)表5和圖4可知,通過(guò)LSSVM模型可對(duì)水資源消耗量達(dá)到一定水平的擬合效果,樣本測(cè)度期內(nèi)最大相對(duì)誤差為0.027541,平均相對(duì)誤差0.0036,而基于PSO-LSSVM的水資源消耗量擬合模型通過(guò)引入逐步尋優(yōu)參數(shù)與更新粒子位置,避免了對(duì)γ、選擇的盲目性和隨機(jī)性而陷入局部極值的弊端。通過(guò)圖5對(duì)比LSSVM和PSO-LSSVM的相對(duì)誤差,除于2004年以外,PSO-LSSVM模型在其余樣本年份數(shù)據(jù)的測(cè)度中均呈現(xiàn)較高精度擬合,平均相對(duì)誤差為-0.0006。通過(guò)上述兩種方法分別對(duì)2008年、2013年水資源消耗量缺失數(shù)據(jù)進(jìn)行填補(bǔ),LSSVM擬合值為680047萬(wàn)m3、613497萬(wàn)m3,PSO-LSSVM擬合值分別為683713萬(wàn)m3、604572萬(wàn)m3,而實(shí)際水資源消耗統(tǒng)計(jì)值為689216萬(wàn)m3和602272萬(wàn)m3,相對(duì)誤差對(duì)比中LSSVM達(dá)到0.005391、-0.014548,PSO-LSSVM則為-0.001177、0.003819,該結(jié)果進(jìn)一步印證了PSO-LSSVM模型在水資源消耗擬合中可實(shí)現(xiàn)更精準(zhǔn)的數(shù)據(jù)填補(bǔ)效果。

        圖5 擬合誤差對(duì)比

        3 結(jié)論

        在基于社會(huì)經(jīng)濟(jì)相關(guān)指標(biāo)具有較高可信度的前提下,本文運(yùn)用PLS-Q2方法對(duì)水資源消耗預(yù)測(cè)中的歷史時(shí)序數(shù)據(jù)所存在的異常值進(jìn)行檢測(cè)辨識(shí),基于最小殘差的異常值修正模型對(duì)擁有實(shí)際突變異常數(shù)據(jù)序列進(jìn)行了預(yù)測(cè)驗(yàn)證,再通過(guò)PSO-LSSVM模型對(duì)水資源消耗數(shù)據(jù)缺失樣本進(jìn)行了擬合填補(bǔ)。結(jié)果表明:(1)利用PLS方法提取水資源消耗及社會(huì)經(jīng)濟(jì)指標(biāo)數(shù)據(jù)主成分及其累計(jì)貢獻(xiàn)度的Q2橢圓圖,可合理辨識(shí)出水資源消耗時(shí)序數(shù)據(jù)中異常點(diǎn);(2)相比傳統(tǒng)最小二乘回歸,基于最小殘差的異常值修正模型可有效緩解實(shí)際突變數(shù)據(jù)對(duì)水資源消耗預(yù)測(cè)的拉伸影響,其回歸預(yù)測(cè)精度更高;(3)對(duì)于水資源消耗缺失數(shù)據(jù)的填補(bǔ),LSSVM與PSO-LSSVM均呈現(xiàn)出較高的擬合效果,但同比之下PSO-LSSVM相對(duì)誤差更小,對(duì)其缺失的數(shù)據(jù)填補(bǔ)更加準(zhǔn)確。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        国产在线精彩自拍视频| 亚洲欧美精品suv| 国产高清乱理伦片| 动漫在线无码一区| 国产精品av免费网站| 国产嫩草av一区二区三区| 亚洲av无码av在线播放| 亚洲av无码一区二区乱子伦| 精品欧洲AV无码一区二区免费| 日韩一区二区中文天堂| 丰满人妻被两个按摩师| 久久人人爽天天玩人人妻精品| 日本高清不在线一区二区色| 久久久精品国产老熟女| 少妇愉情理伦片丰满丰满| 亚洲人成网7777777国产| 欧洲AV秘 无码一区二区三| 日本综合视频一区二区| 国产精品人妻一区二区三区四| 久久国产成人午夜av影院| 国产喷白浆精品一区二区| 精品三级国产一区二区三| 曰欧一片内射vα在线影院| 久久青草伊人精品| 亚洲综合天堂av网站在线观看| 嗯啊好爽高潮了在线观看| a级毛片无码免费真人| 免费一级黄色大片久久久| 亚洲精品一区二区三区新线路| 精品国产第一国产综合精品| 国产成人+亚洲欧洲+综合| 国产人成在线成免费视频| 风韵丰满熟妇啪啪区99杏| 天天天天躁天天爱天天碰| 国产成人精品日本亚洲专区6| 亚洲hd高清在线一区二区| 女人色熟女乱| 亚洲制服中文字幕第一区| 国产av区亚洲av毛片| 香蕉视频在线观看亚洲| 天天看片视频免费观看 |