亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        初探支持向量機算法在海洋站觀測數(shù)據(jù)質(zhì)量控制中的應(yīng)用

        2016-07-20 11:18:32李飛盧勇奪林波陳哲劉思晗徐騰
        海洋預(yù)報 2016年2期
        關(guān)鍵詞:質(zhì)量控制

        李飛,盧勇奪,林波,陳哲,劉思晗,徐騰

        (國家海洋環(huán)境預(yù)報中心,北京100081)

        ?

        初探支持向量機算法在海洋站觀測數(shù)據(jù)質(zhì)量控制中的應(yīng)用

        李飛,盧勇奪,林波,陳哲,劉思晗,徐騰

        (國家海洋環(huán)境預(yù)報中心,北京100081)

        摘要:為了有效提高海洋觀測數(shù)據(jù)的質(zhì)量,初步探索引入了一種統(tǒng)計學(xué)習(xí)算法——支持向量域描述(SVDD)用于海洋站多要素數(shù)據(jù)質(zhì)量控制,建立了一套基于SVDD的多要素數(shù)據(jù)質(zhì)控方法。該方法擁有懲罰系數(shù)C、RBF核參數(shù)、質(zhì)控調(diào)節(jié)因子ΔR等多個參數(shù),利用歷史樣本觀測數(shù)據(jù)訓(xùn)練構(gòu)建質(zhì)量控制模型,通過該模型實現(xiàn)海洋觀測數(shù)據(jù)質(zhì)量控制。本文利用真實觀測數(shù)據(jù)對該方法進行了分析檢驗,驗證了該方法能夠有效分析數(shù)據(jù)質(zhì)量、發(fā)現(xiàn)可疑數(shù)據(jù),對提高海洋觀測資料的可靠性、科學(xué)性具有一定借鑒價值。

        關(guān)鍵詞:質(zhì)量控制;SVM;SVDD;海洋數(shù)據(jù);多要素檢驗

        1 引言

        海洋觀測數(shù)據(jù)是人們認識、開發(fā)與利用海洋的重要基礎(chǔ)。海洋環(huán)境監(jiān)測站,簡稱海洋站,其海洋觀測設(shè)施能夠?qū)?、鹽度、潮位及波浪要素等進行綜合觀測。海洋觀測數(shù)據(jù)是制作海洋預(yù)報、警報和研究海洋變化的基礎(chǔ)資料,其質(zhì)量狀況直接影響著海洋預(yù)報、警報和海洋變化研究的準確性。由于海洋站觀測儀器所處惡劣環(huán)境的影響以及儀器本身的不穩(wěn)定性等因素,某些觀測值難免存在錯誤或多種觀測值出現(xiàn)原理上的矛盾,所表征的海洋狀況與實際海洋狀況出現(xiàn)一定的偏差。為了減少這些情況的出現(xiàn),數(shù)據(jù)質(zhì)量控制是必不可少的,其重要性也是眾所周知。但當(dāng)前所采用的海洋觀測數(shù)據(jù)質(zhì)量控制方法卻比較簡單,一般主要采用的有極值控制法、3-Sigma檢驗法、一致性檢驗法、狄克遜檢驗法等,且多為單一要素質(zhì)量控制的方法[1]。

        本文嘗試引入了支持向量機(Support Vector Machine,SVM)[2]的變型算法—支持向量與描述(Support Vector Domain Description,SVDD)[3]算法,該算法是基于統(tǒng)計學(xué)習(xí)理論[4]構(gòu)建,可實現(xiàn)多維樣本空間內(nèi)的學(xué)習(xí)和分類功能,它的超球面模型可應(yīng)用于判決數(shù)據(jù)的可靠性?;赟VDD構(gòu)建的數(shù)據(jù)質(zhì)量控制系統(tǒng)可利用海洋歷史觀測資料自動學(xué)習(xí),生成數(shù)據(jù)質(zhì)量控制模型,并對新的觀測數(shù)據(jù)進行診斷和分析,當(dāng)發(fā)現(xiàn)可疑數(shù)據(jù)時將給予標注提示,為海洋預(yù)報人員與研究者提供參考。最后,本文以海洋站實際觀測資料為例,分析、探討了基于SVDD的多要素海洋站觀測數(shù)據(jù)質(zhì)量控制方法的可行性與優(yōu)越性。

        2 算法概述

        SVM是一種當(dāng)前流行的模式識別算法,被廣泛應(yīng)用于人臉識別、說話人識別、手寫識別、圖像識別、時間序列預(yù)測、金融工程、地球物理反演、數(shù)據(jù)挖掘等領(lǐng)域中[5-7]。SVDD是SVM的一種變型算法,在樣本空間中對樣本數(shù)據(jù)的分布規(guī)律進行學(xué)習(xí),在樣本空間中劃定一個區(qū)域,并依此作為判決依據(jù)。在多要素的質(zhì)量控制中,特定的幾種觀測要素組成一個多維樣本空間,SVDD會為輸入的樣本計算出一個超球面的決策邊界,該邊界在樣本空間中描述了各要素之間的關(guān)系,并將整個空間劃分為兩部分。一部分是邊界內(nèi)的空間,是接受的部分,在數(shù)據(jù)質(zhì)量控制中,落在這部分空間中的樣本點可以被看作正常的觀測數(shù)據(jù);另一部分則是邊界外的空間,是拒絕的部分,落在這部分空間中的樣本點是被質(zhì)疑的觀測數(shù)據(jù)。

        在訓(xùn)練的過程中,通過控制超球的大小和形狀使超球的含義不僅僅是分開兩類,而且還要把球里面的樣本盡量包“牢”和包“純”,拒絕其它類樣本的進入。這也就是既要求SVDD模型包含盡可能多的樣本點,另一方面又要求它的半徑達到最小,因為一個半徑無窮大的超球面在描述要素空間分布狀態(tài)時沒有任何意義[8]。這樣得到的質(zhì)量控制模型可以盡可能多地接受正常的觀測數(shù)據(jù),并拒絕異常的數(shù)據(jù)。

        基于SVDD的質(zhì)量控制系統(tǒng)的工作流程如圖1所示。

        圖1 SVDD的質(zhì)量控制系統(tǒng)的工作流程

        3 滑動時間窗預(yù)處理

        系統(tǒng)訓(xùn)練的對象是整年的觀測數(shù)據(jù),然而各年度的氣候特點不同,一年中的四季也不同。因此將全部數(shù)據(jù)進行一次訓(xùn)練而建出的模型是不能滿足實際需求的。類似于聲紋識別中短時平穩(wěn)的理論,本文采取滑動時間窗的方式,將一年分為24個時間段,將各時間段分開建立相應(yīng)的模型,從而提高模型在較短時間內(nèi)的準確度。本文通過時間跨度為1個月的樣本訓(xùn)練時間跨度為15 d的模型,隨著窗體向右滑動訓(xùn)練出不同時間段的質(zhì)量控制模型,如圖2所示。

        生成的24個質(zhì)量控制模型對應(yīng)著一年中24個不同的時間段,在質(zhì)量控制時,系統(tǒng)根據(jù)被檢驗數(shù)據(jù)的日期,調(diào)用相應(yīng)時間段的質(zhì)控模型對該數(shù)據(jù)進行檢測。

        圖2滑動時間窗示意圖

        4 模型構(gòu)建原理

        設(shè)在由N種海洋觀測要素組成的N維空間中存在一組訓(xùn)練樣本集X=,i=1,2,…,M},其樣本i表示N種海洋要素組成的第i個樣本向量。通過該樣本集可以在N維空間中確定出一個半徑為R,球心為的超球面。該超球面所包圍的空間是樣本集X 在N維要素空間中的分布范圍,即有下式成立:

        為了使分布范圍更加準確,超球面應(yīng)更多的包含樣本向量,且更少的包含沒有樣本向量存在的空間,需要保證超球面的半徑R最小。因此,引入拉格朗日算子,可以構(gòu)建一個拉格朗日函數(shù)使上式取得最小值:

        式中:拉格朗日算子αi0。對式(3)求偏導(dǎo),并令其導(dǎo)數(shù)為0,可以得到以下條件:

        將式(4)(5)帶入(3)中可以得到:

        通過二次規(guī)劃算法得到最優(yōu)的αi使式(6)最小,滿足半徑R最小的要求,從而更加準確的描述了樣本所在的空間位置。

        由于由海洋觀測要素構(gòu)成的訓(xùn)練樣本質(zhì)量存在不確定因素,即使經(jīng)過人工檢驗后的樣本數(shù)據(jù)也可能會有異常值的存在。從樣本空間位置上看,這些異常樣本往往會距離樣本點聚集區(qū)域較遠,若使超平面要包含所有樣本點的話,勢必會對空間區(qū)域描述的性能帶來很大損失,影響質(zhì)控模型的準確性。為了降低異常樣本對質(zhì)控模型的影響,需要引入松弛因子εi進入式(1):

        然后,引入一個常數(shù)C作為懲罰系數(shù),控制超球面發(fā)生錯誤接受與錯誤拒絕的概率。得到下式:

        上式與式(6)的形式基本一致,但是它們在二次規(guī)劃優(yōu)化的時候αi的取值范圍是不同的。懲罰系數(shù)C表示了訓(xùn)練時分界面對訓(xùn)練樣本的拒絕率。在訓(xùn)練樣本數(shù)據(jù)經(jīng)過人工質(zhì)控或質(zhì)量較高的情況下,訓(xùn)練時C的取值較小,反之C的取值較大,從而降低異常數(shù)據(jù)對模型的影響。以二維數(shù)據(jù)為例,在C比較小的情況下,落入超球面內(nèi)的訓(xùn)練樣本會比較多,反之在超球面外的樣本會比較多??梢酝ㄟ^調(diào)整C的大小來控制質(zhì)控模型誤接受與誤質(zhì)疑的概率以滿足實際的需求。

        所有α≠0的樣本點被稱為支持向量,保留支持向量與其α值作為訓(xùn)練結(jié)果。因為在識別的過程中,α=0的訓(xùn)練樣本點對于識別沒有任何作用,而只會增加后續(xù)運算的計算量,對判決超平面起決定性作用的是支持向量[9],這一點從下節(jié)式(13)中可以看出。

        SVDD作為一種非標準與標準SVM一樣,SVDD也可以使用不同的和函數(shù)以適應(yīng)解決不同的問題。引入核函數(shù)K(x,xi)之后式(11)可化為:

        圖3不同懲罰系數(shù)下的超球面示意圖

        本文采用RBF非線性核函數(shù)[10],由圖4可以看出不同的非線性參數(shù)σ對超球面邊界的影響。隨著σ的增大,超球面的邊界逐漸變得平滑,最終趨近于球面。

        至此,由支持向量、拉格朗日算子αi構(gòu)成的數(shù)據(jù)質(zhì)量控制模型已訓(xùn)練完成,該模型表示了N維要素空間中觀測數(shù)據(jù)樣本的分布范圍特點。

        5 質(zhì)量控制原理

        在使用質(zhì)控模型進行質(zhì)量控制的階段,通過下式判斷一個被測樣本是否位于超球面所包含的范圍內(nèi),從而判斷該樣本是否為可疑數(shù)據(jù)。

        M

        通過調(diào)節(jié)ΔR的大小改變模型對可疑數(shù)據(jù)的敏感度,當(dāng)被測樣本點的質(zhì)疑系數(shù)r滿足r(R+ΔR)2時,認為該測試樣本為正常數(shù)據(jù),否則為可疑數(shù)據(jù),交由糾錯系統(tǒng)或人工進行處理。

        圖4不同參數(shù)σ對超球面邊界的影響

        6 算法應(yīng)用分析

        本文選取了小麥島3 a的水溫和氣溫歷史數(shù)據(jù)作為訓(xùn)練樣本。這兩種要素相關(guān)性強,且要素樣本空間分布受時間影響較大,便于說明算法應(yīng)用過程。

        在水溫和氣溫組成的二維樣本空間中,這3 a的樣本在空間中的分布特征如圖5所示。

        在通過分時間段進行訓(xùn)練后,可得到各段時間所處的樣本空間位置。通過訓(xùn)練共生成24個時間跨度為半個月的模型,如圖6中紅色圈出的部分所示,所圈出的部分代表了質(zhì)控模型所處的空間范圍。

        圖5水溫-氣溫二維樣本空間分布

        圖6 質(zhì)控模型空間示意(圖a—x依次分別為1月上半月至12月下半月)

        在使用模型進行質(zhì)控的階段,通過待測樣本點與相應(yīng)時段模型所在的空間位置對比即可得到該數(shù)據(jù)的可疑程度。根據(jù)實際效果,通過調(diào)節(jié)因子ΔR改變模型對可疑數(shù)據(jù)識別的敏感度。圖7中紅色樣本點即為可以樣本。

        如圖7所示,隨著調(diào)節(jié)因子增大,模型識別敏感度降低,系統(tǒng)所提示的可疑數(shù)據(jù)明顯減少,在降低誤質(zhì)疑率的同時增大了誤接受率,在實際使用中可根據(jù)不同需求設(shè)置相應(yīng)的ΔR值。

        由于質(zhì)控功能的特殊性,無法通過觀測數(shù)據(jù)自身對質(zhì)控效果進行檢驗,本文通過人工引入隨機誤差的方式檢驗質(zhì)控效果。本文從3 a的樣本中隨機選取了1174個已經(jīng)被去除異常值的樣本點,并給水溫和氣溫要素分別引入了隨機誤差。通過SVDD模型進行質(zhì)量控制后的結(jié)果如表1所示。

        表1中誤差距離表示引入誤差后的樣本點與原樣本點在樣本空間中的距離,距離越大誤差約大。根據(jù)實驗結(jié)果,在誤差距離較小的情況下系統(tǒng)無法識別,這種情況在實際中一般屬于各次觀測的正常差異或可接受的觀測誤差,而隨著誤差距離的逐漸增加,系統(tǒng)發(fā)現(xiàn)可疑值的概率在逐步提高。

        在單要素誤差引入的情況下,本文對SVDD算法和3-Sigma算法進行了對比試驗,針對小麥島水溫數(shù)據(jù),從3 a的樣本中隨機選取了已經(jīng)被去除異常值的樣本點,并人工引入了隨機誤差。通過3-Sigma算法和SVDD算法分別進行質(zhì)量控制,結(jié)果如表2所示。

        表2中的誤差距離即所引入的水溫誤差值,通過對比可以看出,在誤差較小的時候,SVDD方法可識別出更多的異常值,并且在誤差約為4—4.5℃的時候即可識別出90%以上異常值,而3-Sigma算法需要在6.5—7℃。

        由此可見,SVDD算法在多要素的質(zhì)量控制中具有較好的性能,并且其單要素的質(zhì)量控制性能要明顯優(yōu)于3-Sigma算法。

        圖7調(diào)節(jié)因子ΔR對識別的影響

        表1 SVDD方法多要素誤差引入測試

        表2 3-SIGMA方法單要素誤差引入測試

        表3 SVDD方法單要素誤差引入測試

        7 結(jié)論

        本文初步探討分析了基于SVDD算法的海洋站多要素數(shù)據(jù)質(zhì)量控制方法,通過懲罰系數(shù)C、非線性核函數(shù)參數(shù)σ、調(diào)節(jié)因子ΔR的調(diào)節(jié),實現(xiàn)了分析、處理及標示海洋數(shù)據(jù)質(zhì)量狀況的功能。驗證了統(tǒng)計學(xué)習(xí)算法在海洋數(shù)據(jù)質(zhì)量控制中使用的可行性,對提高觀測資料的科學(xué)性、可靠性具有借鑒意義。海洋觀測數(shù)據(jù)量龐大、要素間取值范圍差異大、要素間相關(guān)程度不同等特點都會對數(shù)據(jù)質(zhì)量控制模型訓(xùn)練的準確性帶來影響,需要不斷加以研究和優(yōu)化。同時,統(tǒng)計學(xué)習(xí)算法與海洋數(shù)據(jù)質(zhì)量控制都是復(fù)雜、系統(tǒng)的科學(xué)過程,在海洋觀測數(shù)據(jù)質(zhì)量控制的實際應(yīng)用中仍有許多問題需要進一步研究。未來將嘗試通過相關(guān)性檢測和峰值檢測等多種手段進一步檢測可疑值,盡可能的降低誤接受與誤質(zhì)疑率。

        參考文獻:

        [1]陳上及,馬繼瑞.海洋數(shù)據(jù)處理分析方法及其應(yīng)用[M].北京:海洋出版社,1991

        [2]張學(xué)工.關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機[J].自動化學(xué)報,2000,26(1):32-42.

        [3]Tax D M J,Duin R P W.Support vector domain description[J]. Pattern Recognition Letters,1999,20(11-13):1191-1199.

        [4]Vapnik V N.The Nature of Statistical Learning Theory[J].IEEE Transactions on Neural Networks,1995,10(5):988-999.

        [6]楊一文,楊朝軍.基于支持向量機的金融時間序列預(yù)測[J].系統(tǒng)工程理論方法應(yīng)用,2005,14(2):176-181,doi:10.3969/j.issn. 1005-2542.2005.02.017.

        [7]白鵬,張喜斌,張斌,等.支持向量機理論及工程應(yīng)用實例[M].西安:西安電子科技大學(xué)出版社,2008.

        [8]李飛.基于支持向量機的說話人識別[D].北京:北京信息科技大學(xué),2012.

        [9]Tax D M J,Duin R P W.Support Vector Data Description[J]. Machine Learning,2004,54(1):45-66.

        [10]Pekalska E,Paclik P,Duin R P W.A Generalized Kernel Approach to Dissimilarity-based Classification[J].Journal of Machine Learning Research,2002,2(2):175-211.

        中圖分類號:P714

        文獻標識碼:A

        文章編號:1003-0239(2016)02-0066-08

        DOI:10.11737/j.issn.1003-0239.2016.02.010 [5]祁亨年.支持向量機及其應(yīng)用研究綜述[J].計算機工程,2004,30(10):6-9,10.3969/j.issn.1000-3428.2004.10.003.

        收稿日期:2015-07-16

        基金項目:國家海洋局海洋公益性行業(yè)科研專項(201205006);中國科學(xué)院海洋環(huán)流與波動重點實驗室開放基金課題(KLOCAW1410)

        作者簡介:李飛(1987-),男,工程師,碩士,主要從事預(yù)警報視頻會商系統(tǒng)和數(shù)據(jù)質(zhì)量控制的理論和應(yīng)用研究。E-mail:lif@nmefc.gov.cn

        Preliminary study of marine observation data quality control based on support vector machine algorithm

        LI Fei,LU Yong-duo,LIN Bo,CHEN Zhe,LIU Si-han,XU Teng
        (National Marine Environment Forecasting Center,Beijing 100081 China)

        Abstract:A statistical learning algorithm,supporting vector domain description(SVDD),is introduced,and a method of multi factor data quality control based on SVDD is established.Quality control model can be constructed by historical sample observation data,and the quality control of ocean observation data can be realized by the model.In this paper,the method is analyzed by real data,and proved to effectively analyze the data quality and find suspicious data.It has some reference value for improving the reliability and scientific of the marine observation data.

        Key words:data quality control;SVM;SVDD;marine data;multi-element

        猜你喜歡
        質(zhì)量控制
        高層建筑主體結(jié)構(gòu)施工技術(shù)及質(zhì)量控制研究
        淺析建筑工程施工管理
        淺談機車總風(fēng)缸的制作質(zhì)量控制
        科技視界(2016年21期)2016-10-17 17:58:28
        淺談在公路橋梁施工環(huán)節(jié)的質(zhì)量管理及控制
        科技視界(2016年20期)2016-09-29 13:11:33
        淺談石灰土基層施工及質(zhì)量控制
        科技視界(2016年20期)2016-09-29 13:10:51
        黃土路基臺背回填的質(zhì)量控制
        科技視界(2016年20期)2016-09-29 13:10:08
        日韩国产自拍视频在线观看| 亚洲国产成人精品激情| 五月天综合网站| 国产午夜亚洲精品一级在线| 男女啪啪免费视频网址| 日本一区二区三级在线| 99re6在线视频精品免费| 国产av无码专区亚洲精品| 亚洲人成无码网站在线观看| 四虎永久免费影院在线| 国产一区二区三区视频免费在线| 精品国产一品二品三品| 日韩午夜免费视频精品一区| 亚洲麻豆视频免费观看| 狠狠色欧美亚洲狠狠色www| 精品人妻va出轨中文字幕| 亚洲春色AV无码专区在线播放| 亚洲一区二区女优视频| 精品亚洲一区二区三区四区五区| 亚洲欧洲国产成人综合在线| 久久婷婷五月综合97色一本一本 | 中文字幕人妻av一区二区| 欧美一级特黄AAAAAA片在线看 | 亚洲熟女少妇精品综合| 亚洲av丰满熟妇在线播放| 国产成人无码精品久久二区三区| 久久久天堂国产精品女人| 亚洲成在人线在线播放无码| 26uuu在线亚洲欧美| 三年片在线观看免费观看大全中国| 精品www日韩熟女人妻| 欧美婷婷六月丁香综合色| 国产一级三级三级在线视| 18级成人毛片免费观看| 国产麻豆一精品一AV一免费软件| 日本一区二区三区在线观看免费 | 亚洲色图偷拍自拍亚洲色图| 久久这里都是精品99| 亚洲乱码无人区卡1卡2卡3| 国产精品免费_区二区三区观看| 成人a级视频在线观看|