亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于半監(jiān)督學習的克里金插值方法

        2018-11-17 02:51:20盧月明仇阿根張用川趙陽陽
        計算機工程與應用 2018年22期
        關鍵詞:模型

        盧月明,王 亮,仇阿根,張用川,2,趙陽陽

        1.中國測繪科學研究院,北京 100830

        2.武漢大學 資源與環(huán)境科學學院,武漢 430079

        1 引言

        克里金插值法是一種空間最優(yōu)線性無偏估計方法,是基于空間屬性在空間位置上的分布情況,利用半變異函數(shù)確定周圍待插值點的權重以實現(xiàn)待插值點屬性的估計[1]。該方法綜合考慮了變量的空間結構性與隨機性,通過模擬地理現(xiàn)象空間分布的相關性和變異性進行統(tǒng)計分析,因此,克里金插值方法被廣泛應用于氣象[2]、土壤[3]等領域。然而,李杰等的研究結果表明,無論哪種插值方法,都需要足夠數(shù)量的樣本數(shù)據(jù)才能保證插值結果準確可靠[4]。

        半監(jiān)督學習是介于監(jiān)督學習與非監(jiān)督學習之間的一種學習方式,其學習樣本既包括標記樣本,又包括未標記樣本,既可以利用大量容易獲得的未標記樣本,減輕標記樣本的工作量,又可以利用標記樣本獲得更高效的學習模型[5]。協(xié)同訓練是一種半監(jiān)督學習方法,它利用雙視圖訓練兩個分類器來互相標記樣本以擴大訓練集,以此借助未標記樣本提升學習性能[6]。Yang等的實驗結果說明半監(jiān)督協(xié)同訓練可利用未標記樣本輔助訓練,提升只有少量標記樣本時模型的學習性能[7]。協(xié)同訓練法在多視圖數(shù)據(jù)上實驗效果很好,已在理論上得到證明:當兩個充分冗余視圖滿足條件獨立時,通過協(xié)同訓練可以利用未標記樣本把弱分類器的精度提升到任意高[8]。Wang和Zhou證明了協(xié)同訓練法的充分必要性定理,結果表明,協(xié)同訓練只關心權值矩陣的性質,而并不在意權值矩陣是否通過多視圖得到,這確認了基于分歧的學習方法并不需要多視圖,僅要求分類器之間存在適當?shù)姆制纾浔匾詶l件是每個未標記樣本在聯(lián)合圖中都與標記樣本連通[9]。

        近年來,對半監(jiān)督學習方法的研究,主要聚焦于解決半監(jiān)督學習中的分類問題,而對半監(jiān)督學習中的回歸問題的研究相對較少,一個主要原因是半監(jiān)督學習中的聚類假設在回歸問題上不成立,且在回歸分析中標記置信度的計算也比較困難。對此,Zhou等提出一種協(xié)同回歸計算方法(Co-training Regression,COREG),該方法基于不同的距離度量或不同的k值產(chǎn)生不同的k近鄰回歸模型,然后基于預測一致性來選擇置信度高的未標記樣本進行標記[10];馬蕾等利用SVM(Support Vector Machine,SVM)來建立回歸器,實現(xiàn)了基于SVM的半監(jiān)督回歸訓練方法[5];趙陽陽等提出了一種基于半監(jiān)督學習的地理加權回歸方法(Semi-supervised Learning Geographic Weighted Regression,SSLGWR),并分別使用模擬數(shù)據(jù)與真實數(shù)據(jù)說明了SSLGWR的預測結果顯著優(yōu)于單純的地理加權回歸方法[11];趙陽陽等基于協(xié)同訓練,提出了協(xié)同GTWR方法,結果表明協(xié)同GTWR的性能相對于使用不同核函數(shù)的GTWR均有所提升[12];馬蕾等提出基于SVM協(xié)同訓練的回歸模型,該模型適用于處理大量有輸出的輸入情況,緩解了使用單一回歸模型所造成的錯誤累加問題,提升了回歸模型的泛化能力[5]。綜合上述研究發(fā)現(xiàn):半監(jiān)督學習理論可有效提升模型的精度,廣泛應用于樣類分類、語音識別等領域,但隨著訓練的進行,自動標記中的噪音會不斷地累積,其負作用不斷增大。

        在克里金方法建模過程中,標記樣本數(shù)據(jù)量的多少直接關系到模型的精度,當標記樣本較少時,通常難以構建可靠的模型。而在實際應用中,常常難以獲取足夠數(shù)量的標記樣本,如PM2.5濃度觀測數(shù)據(jù)。本文針對克里金模型在樣本較少時模型精度低這一問題,提出基于半監(jiān)督學習的克里金插值方法,即自訓練克里金插值模型(Self-Training Kriging,STK)和協(xié)同訓練克里金插值模型(Co-Training Kriging,CTK),并使用北京地區(qū)2017年4月和5月的PM2.5濃度數(shù)據(jù)進行實驗。通過與普通克里金插值方法進行對比實驗,以平均絕對誤差(Mean Absolute Error,MAE)、均方根誤差(Root Mean Square Error,RMSE)作為評價指標來說明模型的準確性。通過以上方法,可獲得PM2.5在不同地點的濃度,并實現(xiàn)其屬性值從點到面的轉變,從而為PM2.5空間分布的預測及可視化提供一種手段。

        2 研究方法

        2.1 克里金插值

        克里金插值作為地統(tǒng)計學的核心,用來估算未采樣位置的屬性值,其研究對象是區(qū)域化變量,是一種最優(yōu)無偏估計方法。它通過變差函數(shù)來量化觀測數(shù)據(jù)的空間相關性,建立函數(shù)關系,將標記樣本代入函數(shù)關系,計算權重系數(shù),從而建立插值模型,進行分析或預測。這里的標記樣本是指含有自變量和因變量的樣本數(shù)據(jù),未標記樣本指只含有自變量,不含有因變量的樣本數(shù)據(jù)。

        克里金插值法可表示為:

        其中,λi為權重系數(shù),表示各空間樣本點xi處的觀測值Z(xi)對其估計值Z?(x0)的貢獻程度??死锝鸩逯捣椒ǖ年P鍵在于求權重系數(shù),權重系數(shù)的計算需要滿足兩個假設條件:

        通過求解上述克里金方程組,求出權重系數(shù)和拉格朗日因子,代入式(1)、(2),即可求出估計值與估計方差。

        2.2 半監(jiān)督學習

        2.2.1 自訓練克里金模型

        自訓練方法最早由Fralick等[14]提出,自訓練方法是一種半監(jiān)督學習方法,在每一輪的訓練過程中反復運用監(jiān)督學習方法,將上一輪標記結果最優(yōu)的樣例和它的類標簽一起加入到當前訓練樣本集中,用自己產(chǎn)生的結果不斷訓練自己[15]。本文將自訓練理論應用于克里金插值模型,得到自訓練克里金插值模型(STK)。

        STK模型的算法流程圖如圖1所示。

        步驟1確定標記樣本集、未標記樣本集,初始化克里金插值模型參數(shù),該克里金插值模型采用高斯核函數(shù)。

        步驟2 Kriging模型對未標記樣本集進行插值估算。

        步驟3從插值結果中選擇置信度最高的未標記樣本及其預測結果加入到插值模型的標記樣本集中,并從未標記樣本集中去除該樣本。

        步驟4重新訓練克里金插值模型,直至訓練一定數(shù)量的未標記樣本為止。

        2.2.2 協(xié)同訓練克里金模型

        協(xié)同訓練是一種半監(jiān)督學習方法,可以在少量有標記樣本和大量未標記樣本的基礎上,通過不斷迭代,使得不同學習器互相學習[10]。其原理是建立兩個學習器,分別在這兩個學習器上使用標記數(shù)據(jù)與未標記數(shù)據(jù),利用學習器和標記數(shù)據(jù)來標記未標記數(shù)據(jù),不斷更新另一個學習器的標記數(shù)據(jù),通過這樣不斷互相學習,得到未標記數(shù)據(jù)的標記,從而擴充標記數(shù)據(jù)的樣本量,提升模型性能[12]。

        本文基于COREG算法的理論基礎[10],將克里金插值模型與半監(jiān)督學習協(xié)同訓練理論相結合,得到基于半監(jiān)督學習的協(xié)同訓練克里金插值模型,即協(xié)同訓練克里金插值模型(CTK)。協(xié)同訓練克里金插值模型不僅集成了協(xié)同訓練在小樣本中的獨特優(yōu)勢,彌補了樣本少的不足,也集成了克里金插值模型在地理應用中的特點。

        CTK模型的算法流程圖如圖2所示。

        步驟1確定標記樣本集、未標記樣本集,初始化兩個Kriging模型,兩個模型分別為基于高斯核函數(shù)的kriging模型和基于指數(shù)核函數(shù)的Kriging模型。

        步驟2每個插值模型對其未標記樣本集進行插值估算,從插值結果中選擇置信度最高的未標記樣本及其插值結果加入到另一插值模型的標記樣本集中,并從未標記樣本集中去除該樣本。

        步驟3重復進行步驟2,直至訓練一定數(shù)量的未標記樣本為止。

        步驟4最終插值結果為兩個插值模型插值結果的平均值。

        2.2.3 置信度計算方法

        置信度用于從若干未標記樣本中選取最優(yōu)的訓練結果,滿足預測一致性原則,即具有真實標記的樣本應能夠體現(xiàn)出插值的內在規(guī)律。在模型學習過程中,每一輪選取的未標記樣本都會對新插值模型的精度產(chǎn)生影響。基于預測一致性原則選取置信度高的結果,即置信度越高說明越接近真實值。因此,插值模型通過高置信度選擇的樣本應該是使插值模型與標記樣本最一致的樣本[16]。本文采用均方誤差(Mean Square Error,MSE)作為置信度評判的指標,即如果在未標記樣本中存在一條數(shù)據(jù),當其加入標記樣本集后,使得插值模型的均方誤差變小且變小的幅度最大,則這條數(shù)據(jù)就為置信度最高的未標記樣本[10]。置信度計算方法如下:

        式中,yL為標記樣本的真實值;y?L為標記樣本在原插值模型上的估計值;y?′L為標記樣本在新插值模型上的估計值,新插值模型是指加入未標記樣本后重新構建的插值模型。

        當 ξXx∈μ>0 時 ,令 N(x,u,ν)=arc max(ξXx∈μ) 。N(x,u,ν)即為置信度最高的未標記樣本。 ξXx∈μ>0說明未標記樣本的加入使得插值模型性能有所提升。置信度最大說明插值模型性能提升幅度最大,即所選數(shù)據(jù)是參與訓練的未標記樣本中置信度最高的數(shù)據(jù)。

        圖1 自訓練克里金插值模型的算法流程圖

        圖2 協(xié)同訓練克里金插值模型的算法流程圖

        3 插值實驗

        3.1 研究區(qū)概況

        北京位于東經(jīng) 115.7°~117.4°,北緯 39.4°~41.6°,中心位于北緯 39°54′20″,東經(jīng) 116°25′29″,總面積達16 410.54 km2,全市常住人口達2 100多萬人,是中國的首都、政治中心、文化中心、科技創(chuàng)新中心。近年來,以PM2.5和PM10為主的大氣顆粒物濃度急劇升高,導致北京的霧霾天氣頻發(fā),以致頻頻啟動“重霧霾橙色預警”。

        因此,開展大氣污染的相關研究,對掌控空氣質量分布狀況,采取相關防控舉措具有一定意義。

        3.2 數(shù)據(jù)來源

        本文選取2017年4月和5月北京地區(qū)35個監(jiān)測站點每小時監(jiān)測數(shù)據(jù),包括 PM2.5、PM10、NO2、CO、SO2、O3等大氣污染物的濃度數(shù)據(jù),以及每個監(jiān)測站點的經(jīng)度與緯度,上述監(jiān)測數(shù)據(jù)抓取自網(wǎng)站www.pm25.in。35個監(jiān)測站點遍布北京城區(qū)及其郊縣,其覆蓋范圍基本可以反映整個北京地區(qū)的空氣質量狀況。本文將監(jiān)測站點按照1∶1的比例隨機分成標記樣本集(標記監(jiān)測站點18個)與未標記樣本集(未標記監(jiān)測站點17個)。標記監(jiān)測站點與未標記監(jiān)測站點分布,如圖3所示。

        圖3 北京地區(qū)空氣質量監(jiān)測站點分布圖

        3.3 數(shù)據(jù)處理與校驗

        首先對每個監(jiān)測站點每天的24組PM2.5數(shù)據(jù)求平均得到PM2.5日均值,再由日均值計算出每個監(jiān)測站點的月均值。然后對監(jiān)測站點的PM2.5濃度值進行空間數(shù)據(jù)探索分析,來尋找數(shù)據(jù)內在的規(guī)律性,確定數(shù)據(jù)是否適合使用克里金插值法。對于不適宜的數(shù)據(jù)將通過數(shù)據(jù)變換,使原來不適合于插值的數(shù)據(jù)可以進行空間插值。由直方圖分析得出4月的峰度為3.21,偏態(tài)為0.26;5月的峰度為3.04,偏態(tài)為-0.57。其中,峰度(Kurtosis)用來描述數(shù)據(jù)分布的高度,標準正態(tài)分布的峰度應為3,峰度值越接近3表示該數(shù)據(jù)越接近正態(tài)分布;偏態(tài)(Skewness)用來描述數(shù)據(jù)左右的對稱性,標準正態(tài)分布的偏態(tài)值應為0,如果偏態(tài)值大于0,稱正偏態(tài)或右偏態(tài),此時大部分數(shù)據(jù)集中于左邊,如果偏態(tài)值小于0,稱負偏態(tài)或左偏態(tài),此時大部分數(shù)據(jù)集中于右邊。北京地區(qū)2017年4月、5月的PM2.5濃度Normal QQPlot圖如圖4、圖5所示。

        圖4 4月PM 2.5的QQPlot圖

        圖5 5月PM 2.5的QQPlot圖

        通過對監(jiān)測站點的PM2.5濃度值進行直方圖、正態(tài)QQPlot圖以及半變異函數(shù)分析得出,數(shù)據(jù)很接近正態(tài)分布且數(shù)據(jù)的相關性較高,說明該數(shù)據(jù)進行空間插值有意義。

        3.4 結果與分析

        本文將35個監(jiān)測站點隨機等分為2組(標記監(jiān)測站點集與未標記監(jiān)測站點集),分別使用普通克里金插值法(Kriging)、自訓練克里金插值法(STK)和協(xié)同訓練克里金插值法(CTK)對未標記站點集進行空間插值分析。為驗證模型的精度,通過平均絕對誤差(MAE)、均方根誤差(RMSE)[17]來對插值結果進行評估。其中平均絕對誤差反映估計值可能的誤差范圍,均方根誤差反映插值函數(shù)的反演靈敏度和極值效應,這兩個指標均是越小代表模型精度越高。經(jīng)計算,得到3種插值方法的插值精度與精度提升百分比如表1、表2所示。

        表1 插值結果精度分析 μg/m3

        表2 插值精度提升百分比 %

        由表1、表2中的各項指標可知,基于自訓練的克里金插值法(STK)相對于普通Kriging法性能沒有提升反而有所下降,這種現(xiàn)象是由于早期加入標記樣本集中未標記樣本的誤差在后期訓練過程中不斷累積放大的結果?;趨f(xié)同訓練的克里金插值方法(CTK)相對于普通Kriging法在4月、5月均有較大幅度的提升,CTK法相對于Kriging插值法(CTK-Kriging)平均絕對誤差(MAE)提升程度在10%左右,均方根誤差(RMSE)提升程度在11%左右,說明采用兩個模型進行協(xié)同訓練可以有效地削弱早期誤差對后期訓練的影響,通過合理地利用未標記樣本提升了模型的性能。

        克里金插值法、自訓練克里金插值法、協(xié)同訓練克里金插值法對北京2017年4月、5月PM2.5濃度的插值結果圖如下所示。其中圖6、圖7和圖8為分別使用克里金插值法、自訓練克里金插值法和協(xié)同訓練克里金插值法對北京市4月PM2.5濃度的插值結果圖;圖9、圖10和圖11為分別使用克里金插值法、自訓練克里金插值法和協(xié)同訓練克里金插值法對北京市5月PM2.5濃度的插值結果圖。

        圖6 克里金模型4月PM 2.5插值圖

        圖7 自訓練克里金模型4月PM 2.5插值圖

        圖8 協(xié)同訓練克里金模型4月PM 2.5插值圖

        圖9 克里金模型5月PM 2.5插值圖

        圖10 自訓練克里金模型5月PM 2.5插值圖

        圖11 協(xié)同訓練克里金模型5月PM 2.5插值圖

        由插值結果圖可看出5月有較明顯的“牛眼”現(xiàn)象。一方面是由于原始測量值中存在奇異值,即孤立點數(shù)據(jù)明顯高于或低于周圍監(jiān)測點數(shù)據(jù);另一方面是由于插值區(qū)域中監(jiān)測站點分布不均勻,且插值時將距離作為權重,忽略了方位等其他因素的影響,導致最終結果圖中形成以插值點為圓心的圈狀現(xiàn)象。此外,5月誤差相較于4月略大,也與該數(shù)據(jù)中存在奇異值有著直接關系。分別對比4月三種方法的插值結果圖與5月三種方法的插值結果圖可發(fā)現(xiàn),使用自訓練克里金方法得到的插值圖的顏色均較深,即屬性值(PM2.5濃度)均較高;克里金方法和協(xié)同訓練克里金方法得到的插值圖的顏色存在由淺到深的過渡,更符合實際情況,從這一方面也可看出自訓練克里金方法的誤差相較于另外兩種方法偏大。

        4 結束語

        本文針對數(shù)據(jù)量較小時,克里金方法插值精度低這一問題,將克里金插值模型與半監(jiān)督學習理論相結合,利用半監(jiān)督學習使用未標記樣本參與訓練來提升回歸模型性能的優(yōu)勢,提出了基于半監(jiān)督學習的克里金插值模型,即STK和CTK。這兩個模型既具有半監(jiān)督學習的優(yōu)點,適用于解決只有少量標記樣本的情況,又可以將離散點的測量數(shù)據(jù)轉換為連續(xù)的數(shù)據(jù)曲面,以便與其他空間現(xiàn)象的分布模式進行比較。本文采用2017年4月和5月北京地區(qū)的PM2.5濃度數(shù)據(jù)進行對比實驗,結果表明CTK插值法采用兩個協(xié)同訓練的回歸模型,削弱了僅使用單一模型的STK法中錯誤累積放大的缺點,提高了插值模型的泛化能力。此外,本文未考慮影響PM2.5濃度的因素,如風力、濕度、高程等,未來不僅要在該插值方法上深入研究,還要引入更多的影響因素,以進一步提高插值精度。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        3D打印中的模型分割與打包
        女同同志熟女人妻二区| 精品熟女少妇免费久久| 日韩人妻系列在线视频| 亚洲中文字幕日韩综合| 国产亚洲精品久久久闺蜜 | 久草手机视频在线观看| 无码区a∨视频体验区30秒| 狠狠躁夜夜躁无码中文字幕| 人妻无码中文专区久久AV| 国产尤物自拍视频在线观看| 无套中出丰满人妻无码| 日韩a毛片免费观看| 四虎无码精品a∨在线观看 | 久久久久人妻精品一区二区三区| 国产在线精品一区二区在线看 | 精品理论一区二区三区| 少妇又色又爽又高潮在线看| 精品无码国产一区二区三区av| 青青视频一区| 性一交一乱一乱一视频亚洲熟妇| 一区二区三区天堂在线| 性色av无码久久一区二区三区| 视频一区精品自拍| 一本到亚洲av日韩av在线天堂| 亚洲春色视频在线观看| 久久久久久久久久91精品日韩午夜福利| 极品少妇一区二区三区| 国产成人精品久久亚洲高清不卡| 欧美性xxxx狂欢老少配| 69堂在线无码视频2020| 亚洲av综合色区一区二区| 人妻夜夜爽天天爽| 久久91综合国产91久久精品| 激情免费视频一区二区三区| 免费在线黄色电影| 日日干夜夜操高清视频| 国产免费人成视频在线观看播放| 亚洲国产美女高潮久久久 | 亚洲人成网站免费播放| 成人免费视频自偷自拍| 日本精品视频免费观看|