亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于D-S證據(jù)理論的大數(shù)據(jù)融合研究
        ——以長白山氣象要素大數(shù)據(jù)為例

        2022-11-23 03:53:24鄭國勛姚學坤胥政堯陳冠澎
        關(guān)鍵詞:折線圖氣象要素長白山

        鄭國勛,姚學坤,胥政堯,陳冠澎

        (1.長春工程學院; 2.長白山歷史文化與VR技術(shù)重構(gòu)吉林省重點實驗室,長春130012)

        0 引言

        長白山作為吉林省最靚麗的名片,有著悠久的歷史和文化,在清代被視為清朝崛起地,作為龍脈加以封禁。近些年前往長白山旅游的人越來越多,天池作為長白山最重要的景點更是讓人神往。但是能否看到天池與天氣有很大關(guān)系,在出行前人們會關(guān)注長白山的天氣情況,以確定最佳的出發(fā)日期,這個過程是很費時費力的。但在大數(shù)據(jù)時代,通過智能數(shù)據(jù)分析可以給人們旅游提供科學參考與建議性決策,這不僅便利了游客,也對促進長白山旅游業(yè)發(fā)展大有幫助。本文根據(jù)2019年—2020年長白山氣象要素數(shù)據(jù)對長白山一年中每個月的各項要素(空氣溫度、相對濕度、露點溫度等)的月均值進行分析,通過D-S證據(jù)理論對各氣象要素分析后的結(jié)果進行數(shù)據(jù)融合,意在分析出哪個時期適合到長白山旅游。

        1 數(shù)據(jù)清洗

        數(shù)據(jù)清洗(Data Cleaning)顧名思義就是把“臟”數(shù)據(jù)“洗掉”或是把“臟”數(shù)據(jù)“洗凈”,它是大數(shù)據(jù)處理必不可少的環(huán)節(jié),是對數(shù)據(jù)進行重新審查和校驗的必要過程,目的在于刪除重復(fù)信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性。

        數(shù)據(jù)倉庫中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,是從多個業(yè)務(wù)系統(tǒng)中獲取而來,所以避免不了有錯誤的和相互之間有沖突的數(shù)據(jù),這些錯誤的或有沖突的數(shù)據(jù)對我們是不友好的,稱為“臟數(shù)據(jù)”。不符合要求的數(shù)據(jù)主要有不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)3類。數(shù)據(jù)清洗是發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。

        缺失值指的是在現(xiàn)有數(shù)據(jù)集中某個或某些屬性的值是不完整的。缺失值產(chǎn)生的原因主要分為人為因素和機器因素,人為因素是指由于人的主觀因素或操作失誤導(dǎo)致的數(shù)據(jù)缺失,機器因素是指由于機器的原因?qū)е碌臄?shù)據(jù)采集或存儲出現(xiàn)錯誤導(dǎo)致的數(shù)據(jù)缺失。

        常用的缺失值處理手段包含缺失值刪除、缺失值插補以及真值轉(zhuǎn)換法3種。缺失值刪除指的是刪除含有缺失值的個案,這種方式是處理缺失值最原始的方法,如果對數(shù)據(jù)集中含缺失值的屬性進行刪除不會對數(shù)據(jù)集產(chǎn)生過大影響,那么將缺失值刪除是最有效的方法。缺失值插補是指通過均值、平均值、眾數(shù)或一些算法預(yù)測缺失值,然后對缺失值進行插補。當缺失值在數(shù)據(jù)集中占極小部分時,此時若對含缺失值的屬性進行刪除會導(dǎo)致信息的浪費,那么對缺失值進行插補是處理這種數(shù)據(jù)缺失的一種很有效的手段。真值轉(zhuǎn)換指的是不對缺失值進行處理,承認缺失值的存在,將其作為數(shù)據(jù)分布的一部分,例如在網(wǎng)站進行注冊,輸入性別時,如果未輸入,那么將未知作為數(shù)據(jù)分布的一部分,將其作為后序數(shù)據(jù)處理和模型構(gòu)建的一部分。

        本文所使用的2019年—2020年長白山的氣象要素數(shù)據(jù)集來源于國家地球系統(tǒng)科學數(shù)據(jù)中心。原數(shù)據(jù)集中存在缺失值,如部分月份中露點溫度這一氣象要素(表1)的數(shù)據(jù)存在缺失,這會影響后序數(shù)據(jù)融合與模型構(gòu)建,因此采用缺失值插補的方法對缺失值進行處理。

        表1 長白山氣象要素觀測記錄表露點溫度部分數(shù)據(jù)(2020年4月)

        經(jīng)對數(shù)據(jù)分析,采用KNN(K-nearest neighbor)算法對表中缺失值進行插補。KNN是一種監(jiān)督算法,也是一種相對簡單的機器學習算法,由于其簡單、高效的特點,被廣泛應(yīng)用。KNN算法的分類思想是,如果一個未知類標號的數(shù)據(jù)與特征空間中K個已知類標號的數(shù)據(jù)相鄰,則對K個數(shù)據(jù)對象的類標號數(shù)進行從大到小的排序。對于未知類標簽的數(shù)據(jù),選擇第一個類標簽作為它自己的類標簽??梢钥闯觯擪=1時,類標號未知的數(shù)據(jù)的類標號與最近的數(shù)據(jù)的類標號相同。因此,KNN分類算法在類決策方面具有局部性,僅與少數(shù)相鄰的樣本數(shù)據(jù)有關(guān),不同于支持向量機的分割類域,更適用于類域重疊或重疊的數(shù)據(jù)。

        歐幾里得距離,也稱為歐氏距離,是KNN分類算法中常用的距離度量。歐幾里德距離是一種原理簡單、測量范圍最廣的距離測量方法。對于空間中的兩點,歐幾里德距離表示兩點之間的線性距離;對于空間向量,歐幾里德距離是指向量的長度,即從一個點到原點的距離??梢酝ㄟ^KNNImputer函數(shù)計算歐幾里得距離矩陣,找到最近的鄰居來幫助估算觀測值中存在的缺失值。具體計算公式如式(1):

        (1)

        對缺失值處理后的數(shù)據(jù)集見表2。

        表2 處理后長白山氣象要素觀測記錄表露點溫度部分數(shù)據(jù)(2020年4月)

        2 數(shù)據(jù)融合

        數(shù)據(jù)融合是多數(shù)據(jù)源在一定準則下加以自動分析、綜合,完成決策和評估所進行的信息處理。數(shù)據(jù)融合作為一種信息處理技術(shù)在處理不同問題時使用的算法和形式存在很大差異,但也有很多共同之處,如任務(wù)和功能導(dǎo)致的數(shù)據(jù)融合系統(tǒng)的層次劃分、目的不同的數(shù)據(jù)融合系統(tǒng)采用不同的拓撲結(jié)構(gòu)等[1]。數(shù)據(jù)融合主要應(yīng)用在多源影像復(fù)合、機器人和智能儀器系統(tǒng)、戰(zhàn)場和無人駕駛飛機、圖像分析與理解、目標檢測與跟蹤、自動目標識別等領(lǐng)域。常用的數(shù)據(jù)融合方法包括加權(quán)平均法、貝葉斯估計法、卡爾曼濾波法、D-S(Dempster-Shafer)證據(jù)理論等。傳感器老化和數(shù)據(jù)采集過程中其他因素的干擾會產(chǎn)生不確定性,針對這種問題常常使用貝葉斯估計法和D-S證據(jù)理論[2]。

        2.1 D-S證據(jù)理論

        D-S證據(jù)理論是對貝葉斯推理方法的推廣,是一種處理不確定性問題的完整理論。貝葉斯推理方法是利用概率論中貝葉斯條件概率進行的,需要知道先驗概率。而D-S證據(jù)理論不需要知道先驗概率,能夠很好地表示“不確定”問題,被廣泛用來處理不確定數(shù)據(jù)。其最大的優(yōu)點是采用“區(qū)間估計”對不確定信息進行描述,在區(qū)分不知道和不確定方面以及精確反映證據(jù)收集方面有很大的靈活性。D-S證據(jù)理論處理數(shù)據(jù)的基本思路如圖1所示。

        圖1 D-S證據(jù)理論基本思路圖

        2.1.1 識別框架

        識別框架又稱X全域、假設(shè)空間,通常用數(shù)學符號Θ表示,其中包含所要判斷案例的所有元素,在任何時刻,案例的答案取值只能是Θ中的元素。把這樣的不相容事件組成的集合Θ稱為識別框架。假設(shè)有n個元素,識別框架可表示為式(2):

        Θ={θ1,θ2,...,θn},

        (2)

        式中θn是識別框架Θ的一個事件或元素。識別框架Θ的全部子集的集合叫做冪集,記作2Θ,可表示為式(3):

        2Θ={?,{θ1},{θ2},...,{θn},{θ1,θ2},{θ1,θ3},...,{θ1,θ2,θ3},...,Θ}。

        (3)

        2.1.2 基本概率分配函數(shù)

        在確定了識別框架后,需要根據(jù)基本概率分配(Basic Probability Assignment,BPA)函數(shù)計算證據(jù)對命題的信任度,在D-S證據(jù)理論中,基本概率分配對最終結(jié)果有著至關(guān)重要的影響。

        設(shè)Θ為一個識別框架,在識別框架Θ上的基本概率分配函數(shù)m是一個2Θ→[0,1]的映射,該函數(shù)滿足式(4):

        (4)

        式中m(A)表示證據(jù)對命題A的信任度。?的基本信任值為0,其他所有子集的信任值總和為1。對于任意一個A,只要滿足m(A)>0,則稱A為焦元。

        2.1.3 信任函數(shù)

        假設(shè)集合?A?2Θ是識別框架Θ的一個子集,A的全部子集的基本概率分配函數(shù)之和則是信任函數(shù)(Belief Function),如式(5):

        (5)

        2.1.4 似然函數(shù)

        假設(shè)集合?A?2Θ是識別框架Θ的一個子集,似然函數(shù)表示的是不否認A的信任度,指的是與集合A交集不為空的概率之和,如式(6):

        (6)

        2.1.5 信任區(qū)間

        假設(shè)集合?A?2Θ是識別框架Θ的一個子集,[Bel(A),Pl(A)]就是集合A的信任區(qū)間,表示對集合A的確認程度。

        2.1.6 Dempster合成規(guī)則

        獲得決策需要一種方法計算多個證據(jù)對識別框架中每個假設(shè)的綜合影響,得出在多個證據(jù)作用下使假設(shè)成立的綜合信任程度[3]。對于?A?2Θ,Θ上的兩個基本概率分配函數(shù)m1,m2的Dempster合成規(guī)則如式(7):

        (7)

        式中K為歸一化系數(shù),K的算法如式(8):

        (8)

        2.2D-S證據(jù)理論在長白山氣象要素數(shù)據(jù)融合中的應(yīng)用

        2.2.1 識別框架的建立

        長白山氣象要素數(shù)據(jù)融合意在根據(jù)長白山的各項氣象要素分析出在一年12個月中哪個月最適合至長白山旅游,識別框架如式(9):

        Θ={1,2,3,4,5,6,7,8,9,10,11,12},

        (9)

        式中數(shù)字1~12表示的是1月至12月。

        2.2.2 改進基本概率分配函數(shù)

        基本概率分配獲取困難一直是D-S證據(jù)理論的一個門檻,本文根據(jù)Z-Score標準化方法建立了一種基本概率分配函數(shù)。Z-Score標準化方法如式(10):

        (10)

        式中:x表示個體的觀測值;μ表示所有樣本數(shù)據(jù)的均值;δ表示所有樣本數(shù)據(jù)的標準差。

        本文基于Z-Score標準化方法建立基本概率分配函數(shù),將其使用的均值更換為長白山氣象中各要素的人體最適值(本文所使用的人體最適值不代表真實人體最適值,只是人體所處環(huán)境相對舒適的值)。函數(shù)公式如式(11):

        (11)

        由于基本概率分配是基于Z-Score標準化方法建立的基本概率分配函數(shù),所以推導(dǎo)出的結(jié)果表示的是各氣象要素偏離人體最適值的程度,圖2及圖3的折線圖中,點的y軸值越大,代表當前月份該氣象要素標識此月份越不適合到長白山旅游,反之點的y軸值越小,代表當前月份該氣象要素標識此月份越適合到長白山旅游。圖4~7的折線圖中,點的y軸值越大,表示當前月份越不適合至長白山旅游,反之點的y軸值越小,表示當前月份越適合到長白山旅游。

        2019年—2020年長白山各氣象要素月平均值根據(jù)前述基本概率分配函數(shù)獲得的基本概率分配分別如圖2~3所示。

        圖2 2019年長白山氣象要素月平均值基本概率分配

        圖3 2020年長白山氣象要素月平均值基本概率分配

        2.2.3 證據(jù)合成

        根據(jù)提取的數(shù)據(jù)獲得長白山氣象各要素的月平均值同,通過基本概率分配函數(shù)計算出其基本概率分配,進行證據(jù)合成。首先計算歸一化系數(shù)K,如式(12):

        (12)

        式中i表示月份。

        根據(jù)計算出的歸一化系數(shù)K對每個月各要素的月平均值通過Desmpster合成規(guī)則進行證據(jù)合成,如式(13):

        (13)

        式中i表示月份,通過將各個月的證據(jù)信息進行合成可得出一年中各個月份不適合至長白山旅游的程度。

        2019年和2020年長白山氣象要素D-S證據(jù)理論數(shù)據(jù)融合折線圖如圖4~5所示。

        圖4 2019年長白山氣象要素D-S證據(jù)理論數(shù)據(jù)融合折線圖

        圖5 2020年長白山氣象要素D-S證據(jù)理論數(shù)據(jù)融合折線圖

        2.3 D-S證據(jù)理論的改進

        李弼程等[4]學者基于Yager、孫權(quán)、鄧勇等學者的成果對D-S證據(jù)理論進行了改進,對D-S證據(jù)理論進行了進一步優(yōu)化,通過分析之前學者提出的方法的優(yōu)勢與不足,李弼程給出了一種加權(quán)和信息融合方法,該方法把歸一化系數(shù)K按照比例加權(quán)分配給各焦元,合成后如式(13):

        m(A)=p(A)+(1-K)q(A),?A≠?

        m(?)=0,

        (13)

        該方法計算過程簡單,物理含義明確,融合結(jié)果與直觀認識頁比較具有較大的工程實際應(yīng)用價值[5]。當證據(jù)沒有沖突時,該方法與傳統(tǒng)的D-S證據(jù)理論產(chǎn)生的結(jié)果基本相同。

        將該方法與使用傳統(tǒng)的D-S證據(jù)理論對長白山氣象要素數(shù)據(jù)進行數(shù)據(jù)融合的結(jié)果做了對比,使用該方法分別對2019年和2020年的長白山氣象數(shù)據(jù)進行數(shù)據(jù)融合,繪制的長白山氣象要素加權(quán)求和信息融合方法折線圖如圖6~7所示,圖中點的y軸值越小,標識當前月越適合至長白山旅游。

        4 結(jié)論

        本文主要對長白山氣象要素數(shù)據(jù)進行了數(shù)據(jù)清洗及融合。在數(shù)據(jù)清洗方面,重點針對缺失值進行了處理,通過K最鄰近分類算法對缺失值進行了預(yù)測及插補。在數(shù)據(jù)融合方面,使用了D-S證據(jù)理論,通過對Z-Score標準化算法公式的改變,構(gòu)建了基本概率分配函數(shù),對數(shù)據(jù)融合前各要素的月平均值以及數(shù)據(jù)融合后的數(shù)值繪制了折線圖,通過折線圖可提供氣象要素方面的決策依據(jù)。

        圖6 2019年長白山氣象要素加權(quán)求和信息融合方法折線圖

        圖7 2020年長白山氣象要素加權(quán)求和信息融合方法折線圖

        猜你喜歡
        折線圖氣象要素長白山
        成都電網(wǎng)夏季最大電力負荷變化特征及其與氣象要素的關(guān)系
        Optimization Design of Miniature Air Quality Monitoring System Based on Multi-Sensor Fusion Technology
        漫步四季,探索不一樣的長白山
        學生天地(2020年34期)2020-06-09 05:50:38
        長白山冊封始于金代
        沈陽市1951—2013年氣候變化特征及其區(qū)域蒸發(fā)的響應(yīng)分析
        讓折線圖顯示在一個單元格中
        再多也不亂 制作按需顯示的折線圖
        電腦愛好者(2018年2期)2018-01-31 19:07:26
        北京市朝陽區(qū)大氣污染物時空分布特征及與氣象要素的關(guān)系研究
        美化Excel折線圖表
        電腦愛好者(2017年1期)2017-04-14 10:16:22
        探測環(huán)境變化對臨沭站氣象要素的影響
        日产精品久久久久久久性色| 成年人一区二区三区在线观看视频 | 久久国产综合精品欧美| 国产一区二区av男人| 国产一区二区三区亚洲avv| 国产亚洲精品精品精品| 国产成人av一区二区三区无码| 亚洲AV小说在线观看| 国产老熟女伦老熟妇露脸| av色综合久久天堂av色综合在 | 亚洲av中文字字幕乱码| 亚洲天堂精品成人影院| 亚洲人成电影在线播放| 欧美中文在线观看| 日产精品一区二区在线| 蜜桃一区二区在线视频| 亚洲av无码专区首页| 亚洲色成人网一二三区| 日本黄色特级一区二区三区| 国产精品国产三级国产a| 真实国产老熟女粗口对白| 国产成人精品三上悠亚久久| 蜜桃在线视频一区二区| 少妇夜夜春夜夜爽试看视频 | 好看的国内自拍三级网站| 久久久久久夜精品精品免费啦| 18成人片黄网站www| 久久久亚洲精品蜜桃臀| 成人爽a毛片在线播放| 人妻少妇出轨中文字幕| 国产毛片网| 国产自产自现在线视频地址 | 在线观看视频亚洲一区二区三区| 风流老太婆大bbwbbwhd视频| 麻豆国产成人av高清在线观看 | 欧美国产激情二区三区| 8888四色奇米在线观看| 日本精品极品视频在线| 美女主播福利一区二区| 亚洲精品美女久久久久99 | 久久精品国产亚洲精品|