亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機器學(xué)習(xí)方法的探空數(shù)據(jù)質(zhì)量控制研究

        2023-12-29 00:00:00劉輝
        河南科技 2023年21期

        摘 要:【目的】建立一套基于機器學(xué)習(xí)方法的探空數(shù)據(jù)的自動化質(zhì)量控制檢測算法模型,為提高大氣探空數(shù)據(jù)質(zhì)量控制的效率及質(zhì)量提供參考?!痉椒ā勘灸P褪褂么髿馓娇沼^測原始數(shù)據(jù),以三西格瑪準則完成初步質(zhì)控,基于三西格瑪準則檢測結(jié)果標記生成機器學(xué)習(xí)數(shù)據(jù)集,應(yīng)用XGBoost機器學(xué)習(xí)算法完成最終質(zhì)控模型的構(gòu)建?!窘Y(jié)果】實現(xiàn)了對大氣探空觀測數(shù)據(jù)溫度、氣壓、濕度、仰角、方位角、斜距素數(shù)的異常數(shù)據(jù)檢測,模型異常數(shù)據(jù)檢測精確率96.7%,識別率比人工檢測提高了43.5%。【結(jié)論】模型對要素異常值檢測具有較好的效果,較人工識別性能有明顯提升。

        關(guān)鍵詞:機器學(xué)習(xí);高空數(shù)據(jù)質(zhì)控;XGBoost

        中圖分類號:TP311" " "文獻標志碼:A" " 文章編號:1003-5168(2023)21-0095-04

        DOI:10.19968/j.cnki.hnkj.1003-5168.2023.21.021

        Research on Quality Control of Sounding Data Based on Machine Learning Method

        LIU Hui

        (Inner Mongolia Autonomous Region Data Center, Hohhot 010051, China)

        Abstract: [Purposes] In order to improve the efficiency and quality of atmospheric sounding data quality control, this study established an automated quality control detection algorithm model for sounding data based on machine learning methods. [Methods] This model uses atmospheric sounding observation raw data, completes preliminary quality control using the Three Sigma criterion, generates machine learning datasets based on the Three Sigma criterion detection results, and applies XGBoost machine learning algorithm to complete the construction of the final quality control model. [Findings] The model achieved the detection of abnormal data in atmospheric sounding observation data such as temperature, pressure, humidity, elevation, azimuth, and diagonal prime. The test results showed that the accuracy of abnormal data detection in the model was 96.7%, and the recognition rate was improved by 43.5% compared to manual detection. [Conclusions] The model has a good effect on the detection of element outlier, which is significantly improved compared with the performance of manual identification.

        Keywords: machine learning; high-altitude data quality control; XGBoost

        0 引言

        大氣探空觀測能夠提供完整的三維大氣的溫、壓、濕、風(fēng)等特征信息,是高空觀測體系中最為可靠的基準數(shù)據(jù),因此,這些數(shù)據(jù)的數(shù)據(jù)質(zhì)量尤為重要[1]。目前對實時高空探測數(shù)據(jù)的質(zhì)量控制仍然以人工方式為主。由于此項工作工作量大,業(yè)務(wù)要求高,時效也相對滯后,且需要業(yè)務(wù)人員掌握豐富的基礎(chǔ)知識和觀測經(jīng)驗才能開展,現(xiàn)有手段已無法適應(yīng)高空業(yè)務(wù)發(fā)展的要求。因此迫切需要通過自動化、智能化手段開展質(zhì)量控制工作。

        目前國內(nèi)外針對高空數(shù)據(jù)的質(zhì)量控制有很多種研究方法, 如數(shù)據(jù)校正方法,包括對探空數(shù)據(jù)的傳感器校準、數(shù)據(jù)插值處理、探空數(shù)據(jù)異常值刨除、數(shù)據(jù)插值平滑等[2]。美國 NCAR 的大氣探空數(shù)據(jù)處理軟件(ASPEN)具備開放式的質(zhì)量控制參數(shù)設(shè)置、格式轉(zhuǎn)換和圖形分析功能,已被不同類型用戶廣泛應(yīng)用到眾多科學(xué)試驗的氣球探空資料、下投式探空資料的質(zhì)量控制和數(shù)據(jù)處理分析中。美國NCEP則借助模式產(chǎn)品的背景場研發(fā)了探空綜合質(zhì)制算法[3]。國家氣象信息中心研發(fā)的探空觀測數(shù)據(jù)的計算和檢查方法,包括臺站氣象學(xué)界限值檢查、允許范圍檢查、氣壓高度垂直變化檢查、溫度露點一致性檢查、對流層頂合理性檢查、雙權(quán)重離群值檢查、溫度超絕的遞減率檢查、靜力學(xué)檢查等,并集成到氣象數(shù)據(jù)質(zhì)控系統(tǒng)(MDOS)中[4]。但這套質(zhì)控算法主要是從氣候的角度進行的計算,在實際的業(yè)務(wù)應(yīng)用中,疑誤信息準確率較差,且誤報率較高,并沒有開展正式的業(yè)務(wù)運行。內(nèi)蒙古自治區(qū)擁有12個高空觀測站點,2015年全部實現(xiàn)L波段探空觀測,相比于過去的701探空系統(tǒng),獲取資料的頻次更高,探空數(shù)據(jù)從分鐘數(shù)據(jù)精細到秒數(shù)據(jù),對質(zhì)量控制時效提出了很高的要求。

        1 數(shù)據(jù)來源

        本研究所用數(shù)據(jù)為2020年內(nèi)蒙古自治區(qū)12個業(yè)務(wù)運行探空站每日00:00和12:00(世界時)兩個時次的L波段探空數(shù)據(jù)(S文件),資料來自內(nèi)蒙古自治區(qū)氣象數(shù)據(jù)中心。

        2 方法與模型

        2.1 算法流程

        本研究使用異常檢測方法三西格瑪準則和機器學(xué)習(xí)算法XGBoost構(gòu)建探空數(shù)據(jù)異常檢測模型。首先以數(shù)據(jù)為驅(qū)動,對L探空原始文件數(shù)據(jù)解碼、清洗,其次以三西格瑪準則完成初步質(zhì)控,最后以三西格瑪準則檢測結(jié)果標記生成機器學(xué)習(xí)數(shù)據(jù)集,并基于XGBoost算法構(gòu)建機器學(xué)習(xí)模型完成最終質(zhì)控,流程如圖1所示。檢測要素包括溫度、氣壓、濕度、仰角、方位角、斜距等6個高空要素秒數(shù)據(jù)。

        2.2 構(gòu)建三西格瑪準則異常數(shù)據(jù)檢測

        2.2.1 數(shù)據(jù)正態(tài)分布預(yù)處理。三西格瑪準則原理及方法僅局限于對正態(tài)或近似正態(tài)分布的樣本數(shù)據(jù)處理。由于高空要素數(shù)據(jù)會隨著氣球的升高不斷變化并不符合正態(tài)分布,需要首先將高空要素數(shù)據(jù)轉(zhuǎn)換為正態(tài)或近似正態(tài)分布的數(shù)據(jù)。通過對于高空數(shù)據(jù)要素分析,發(fā)現(xiàn)在一定范圍內(nèi)高空要素數(shù)值可近似為正態(tài)分布,結(jié)合三西格瑪準則測量次數(shù)充分多的要求,通過反復(fù)試驗,本研究以連續(xù)20秒的數(shù)據(jù)作為一個檢測組,構(gòu)建三西格瑪準則異常檢測模塊,獲取當(dāng)前組數(shù)據(jù)異常數(shù)據(jù)。

        2.2.2 滑動窗口生成數(shù)據(jù)集。三西格瑪準則是以測量次數(shù)充分大為前提的,在測量次數(shù)較少的情況下,用該準則剔除異常數(shù)據(jù)并不可靠。本研究由于需要數(shù)據(jù)滿足近似正態(tài)分布,測量數(shù)據(jù)確定為20,而對三西格瑪準則一般數(shù)據(jù)集應(yīng)足夠多(n≥30),當(dāng) n>10只能做粗略判別,同時由于高空數(shù)據(jù)并不符合正態(tài)分布,小范圍的數(shù)據(jù)集只是符合近似正態(tài)分布,使其基本滿足三西格瑪準則,所有使用三西格瑪準則檢測出某一個檢測組中的某個數(shù)據(jù)異常并不可靠。因此本研究采用滑動窗口檢測法,對于高空探測數(shù)據(jù)以連續(xù)20個數(shù)據(jù)為一檢測組,某個時刻的數(shù)據(jù)可以出現(xiàn)在20個檢測組中,如圖2所示。

        滑動窗口分為4個步驟:(1)從放球開始,首先通過三西格瑪準則獲取起始T時刻20秒數(shù)據(jù)中異常數(shù)據(jù),正常數(shù)據(jù)標記為0,異常數(shù)據(jù)標記為1;(2)窗口滑動獲取T+1時刻20秒數(shù)據(jù)中異常數(shù)據(jù),窗口每次滑動為1秒,同樣正常數(shù)據(jù)標記為0,異常數(shù)據(jù)標記為1;(3)依次類推完成一個高空過程所有數(shù)據(jù)的檢測;(4)根據(jù)檢測結(jié)果,生成探空數(shù)據(jù)任意時刻20個三西格瑪檢測結(jié)果(除去開始19條和結(jié)束19條秒數(shù)據(jù))。通過三西格瑪檢測和滑動窗口處理將獲取高空數(shù)據(jù)三西格瑪檢測結(jié)果數(shù)據(jù)集,如圖3所示。

        2.3 基于三西格瑪檢測結(jié)果的XGBoost模型構(gòu)建

        Gradient Boosting是一種解決機器學(xué)習(xí)中分類和回歸任務(wù)的技術(shù),其預(yù)測模型也是由一系列弱預(yù)測模型組成的[5]。Gradient Boosting中將負梯度作為上一輪基學(xué)習(xí)器犯錯的衡量指標,算法思想就是不斷地添加樹,不斷地進行特征分裂來生長一棵樹,去擬合上次預(yù)測的殘差。按這樣的過程重復(fù)訓(xùn)練出M個學(xué)習(xí)器,最后進行加權(quán)組合。Gradient Boosting有多種實現(xiàn)方式,包括XGBoost、CatBoost、LightGBM等,本研究采用了較為健壯的XGBoost,其特點是將正則項引入到損失函數(shù)及并行處理,通常可以避免過度擬合。本研究通過兩個步驟完成基于機器學(xué)習(xí)的異常檢測模型的構(gòu)建。

        2.3.1 基于三西格瑪檢測結(jié)果生成機器學(xué)習(xí)數(shù)據(jù)集?;谌鞲瘳敎蕜t檢測結(jié)果生成的數(shù)據(jù)集標記生成機器學(xué)習(xí)訓(xùn)練集數(shù)據(jù)。生成數(shù)據(jù)集分為2個步驟:(1)參考《高空觀測資料審核單》對數(shù)據(jù)進行標記;(2)對于訓(xùn)練集三西格瑪檢測結(jié)果異常個數(shù)大于10個,但是《高空觀測資料審核單》并未記錄數(shù)據(jù)集進行人工判斷標記。

        2.3.2 生成基于機器學(xué)習(xí)的異常檢測模型。對生成的機器學(xué)習(xí)訓(xùn)練集數(shù)據(jù)預(yù)處理分別生成溫度要素數(shù)據(jù)集、氣壓要素數(shù)據(jù)集、濕度要素數(shù)據(jù)集、仰角要素數(shù)據(jù)集、方位角要素數(shù)據(jù)集、斜距要素數(shù)據(jù)集,將所有數(shù)據(jù)集按照80∶20的比例劃分為訓(xùn)練集和測試集。通過XGBoost機器學(xué)習(xí)分類算法,分別搭建高空溫度數(shù)據(jù)異常檢測機器學(xué)習(xí)模型、氣壓數(shù)據(jù)異常檢測機器學(xué)習(xí)模型、濕度數(shù)據(jù)異常檢測機器學(xué)習(xí)模型、仰角數(shù)據(jù)異常檢測機器學(xué)習(xí)模型、方位角數(shù)據(jù)異常檢測機器學(xué)習(xí)模型和斜距數(shù)據(jù)異常檢測機器學(xué)習(xí)模型,通過對各個模型的反復(fù)訓(xùn)練、評估、參數(shù)調(diào)整最終選擇出各高空要素最優(yōu)異常檢測模型。

        2.4 濕度數(shù)據(jù)閾值點檢測

        由于大氣探空觀測濕度的特性和靈敏性,當(dāng)達到一定高度后,濕度值將持續(xù)保持2%不變,因此本研究構(gòu)建了濕度閾值輔助模塊。步驟如下,先基于濕度閾值點檢測算法判斷出閾值時間點,時間點之前的數(shù)據(jù)使用三西格瑪準則、XGBoost分類算法模型計算異常值,閾值時間點之后的濕度數(shù)據(jù)值不等于2%直接拋出異常,濕度閾值輔助模塊時間點判斷標準及檢測流程如圖4所示。當(dāng)連續(xù)10個濕度值等于2%時,以第一個濕度值為2%時間為閾值時間點。

        3 結(jié)果分析

        精確率更能反映算法的準確度,計算公式為式(1)。

        精確率=被正確識別出來的異常樣本個數(shù)/識別出來的異常樣本個數(shù)×100% (1)

        本研究使用數(shù)據(jù)為2020年1月到12月內(nèi)蒙古自治區(qū)12個業(yè)務(wù)運行探空站00:00和12:00(世界時)兩個時次的L波段探空數(shù)據(jù)(S文件),其中54135和50527兩個站點數(shù)據(jù)為模型測試數(shù)據(jù)。其余10個站次為訓(xùn)練驗證模型數(shù)據(jù)。通過54135和50527兩個探空站1 464份L波段探空數(shù)據(jù)對模型的檢驗評估,結(jié)果顯示,模型檢測出異常數(shù)據(jù)426條(秒),檢測出異常數(shù)據(jù)正確412條(秒),人工檢出異常數(shù)287條(秒),模型異常數(shù)據(jù)檢測精確率96.7%,相比人工檢出提高了43.5%。該方法可以檢測出L波段探空數(shù)據(jù)溫度、氣壓、濕度、仰角、方位角、斜距中的異常要素。

        4 樣例舉例分析

        使用基于機器學(xué)習(xí)方法的內(nèi)蒙古探空數(shù)據(jù)質(zhì)量控制模型對54135高空站2020年1月L波段探空數(shù)據(jù)(S文件)進行質(zhì)控,結(jié)果顯示1月3日19時、" " 1月5日19時、1月25日19時數(shù)據(jù)發(fā)現(xiàn)異常。系統(tǒng)檢測異常數(shù)據(jù)與球坐標秒數(shù)據(jù)對比如圖5至圖7所示。從圖可以看出在球坐標廓線出現(xiàn)異常的時刻,系統(tǒng)均能對應(yīng)檢測出異常,證明了該模型的合理性和可用性。

        5 結(jié)論

        內(nèi)蒙古自治區(qū)高空數(shù)據(jù)的質(zhì)量控制一直以人工判斷為主,本研究實現(xiàn)了一套自動化方式高空數(shù)據(jù)質(zhì)量控制,將機器學(xué)習(xí)方法應(yīng)用到高空數(shù)據(jù)質(zhì)量控制中是一個新的嘗試,為內(nèi)蒙古高空數(shù)據(jù)質(zhì)量控制方法開辟了新途徑。如果可以獲得L波段探空數(shù)據(jù)(S文件)完整編碼方式,對質(zhì)控后的數(shù)據(jù)生成指控后L波段探空數(shù)據(jù)(S文件),將對業(yè)務(wù)有更好的幫助。

        參考文獻:

        [1] 王丹,王金成,田偉紅,等.往返式探空觀測資料的質(zhì)量控制及不確定性分析[J].大氣科學(xué),2020,44(4):865-884.

        [2]陳中鈺, 徐曉莉. 四川探空秒級數(shù)據(jù)質(zhì)量控制[J]. 氣象科技, 2018, 46(3):462-467.

        [3]COLLINS W G. The operational complex quality control of radiosonde heights and temperatures at the national centers for environmental prediction. part II: examples of error diagnosis and correction from operational use[J]. Journal of Applied Meteorology, 2001, 40(2):152-152.

        [4]LIAO J,WANG B,LI Q X .A new method for quality control of chinese rawinsonde wind observations[J].Advances in Atmospheric Sciences,2014,31(6):1293-1304.

        [5]HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine:a new learning scheme of feedforward neural networks[J].IEEE, 2004: 985-990.

        收稿日期:2023-05-18

        基金項目:內(nèi)蒙古自治區(qū)科技計劃項目“基于機器學(xué)習(xí)的沙塵暴監(jiān)測預(yù)警及時研究與應(yīng)用”(2022YFSH0128)

        作者簡介:劉輝(1989—),男,本科,工程師,研究方向:氣象數(shù)據(jù)處理、衛(wèi)星數(shù)據(jù)遙感。

        亚洲av在线播放观看| 亚洲av片在线观看| 内射少妇36p九色| 精品久久综合一区二区| 中文字幕亚洲视频三区| 国产极品少妇一区二区| 全球中文成人在线| 亚洲日韩精品欧美一区二区三区不卡| av福利资源在线观看| 国产让女高潮的av毛片| 国产精品 人妻互换| 久草国产视频| 色av色婷婷18人妻久久久| 国产欧美综合一区二区三区| 亚洲乱码中文字幕综合| 9久9久女女热精品视频免费观看| 亚洲综合中文一区二区| 成人片黄网站a毛片免费| 日韩电影一区二区三区| 欧美破处在线观看| 国产成人av三级在线观看韩国| 永久免费人禽av在线观看| 99久久婷婷国产综合亚洲91| 男子把美女裙子脱了摸她内裤| 国产一区二区三区仙踪林| 在线亚洲+欧美+日本专区| 在线无码国产精品亚洲а∨| 国产美女一区三区在线观看| 色多多性虎精品无码av| 999国内精品永久免费视频| 亚洲AV无码国产精品色午夜软件| 国产黄色一区二区在线看| 18禁无遮拦无码国产在线播放 | 国产伦一区二区三区久久| 午夜精品久久久久久久| 久久久久麻豆v国产精华液好用吗| 特一级熟女毛片免费观看| 亚洲美女自拍偷拍视频| 国产精品视频露脸| 日本少妇被爽到高潮的免费| 国产一级内射一片视频免费|