亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PCA降維的大數(shù)據(jù)可視化應(yīng)用研究

        2021-05-11 19:57:42馬佳琪滕國文
        智能計算機與應(yīng)用 2021年2期

        馬佳琪 滕國文

        摘要:由于近些年來火災時有發(fā)生,被稱為“地球之肺”的最大雨林區(qū)亞馬遜也不斷面臨著威脅。因此,了解和分析火災發(fā)生的時間和空間勢在必行。基于此,在亞馬遜火災的分析評價中,試采用主成分分析法(PCA)建立數(shù)學模型,從時間、空間的不同維度對亞馬遜火災的發(fā)生情況進行了可視化分析。最終得出具體的時間和地點是火災的高峰期。為預防更多火災的發(fā)展,阻止全球氣候變暖的發(fā)展提供參考方向。

        關(guān)鍵詞:數(shù)據(jù)可視化;PCA;亞馬遜火災

        【Abstract】TheAmazon,therainiestforestintheworldandknownasthe"lungsoftheworld",isunderconstantthreatbecauseofirregularfiresinrecentyears.Therefore,itisimperativetounderstandandanalyzethetimeandspaceoffire.Basedonthis,intheanalysisandevaluationofAmazonfire,amathematicalmodelisestablishedbyprincipalcomponentanalysis(PCA),andavisualanalysisisconductedontheoccurrenceofAmazonfirefromdifferentdimensionsoftimeandspace.Soitisconcludedthatthespecifictimeandplaceisthepeakofthefire.Topreventthedevelopmentofmorefiresandthedevelopmentofglobalwarming,theresearchinthepapercouldprovidereferencedirection.

        【Keywords】datavisualization;PCA;Amazonfire

        作者簡介:馬佳琪(1995-),女,碩士研究生,主要研究方向:數(shù)據(jù)可視化;滕國文(1963-),男,教授,碩士生導師,主要研究方向:人工智能。

        0引言

        在人工智能發(fā)展的今天,可視化憑借計算機和數(shù)字圖像處理方法,把批量高維數(shù)據(jù)轉(zhuǎn)換為圖表后進行展示和處理。當處理科研問題及其數(shù)據(jù)時,人們往往遇到甚至會達到數(shù)百萬維度的真實數(shù)據(jù)[1]。盡管在其原來的高維結(jié)構(gòu)中,數(shù)據(jù)能夠得到最好的表達,但有時就可能需要給數(shù)據(jù)進行降維。降維的需求往往與可視化有關(guān)(減少兩三個維度,方便人們繪圖),但這只是原因之一。有時候,人們認為性能比精度更重要,那么就可以將1000維的數(shù)據(jù)降至10維,從而讓人們可以更快地對這些數(shù)據(jù)進行操作(比如計算距離)。綜上可知,對降維的需求是存在的并且有很多應(yīng)用。

        1數(shù)據(jù)可視化

        可視化分析作為大數(shù)據(jù)分析的一個重要分支,已經(jīng)廣泛應(yīng)用于科學計算研究和商業(yè)智能[2]。因此,數(shù)據(jù)可視化分析是大數(shù)據(jù)分析不可缺少的手段和工具[3]??梢暬治觯╒isualanalytics)是科學可視化、信息可視化、人機交互、數(shù)據(jù)挖掘等研究領(lǐng)域交叉集成而產(chǎn)生的一種新的研究方向[2],也是一種通過交互式可視化界面幫助用戶分析和推理大規(guī)模復雜數(shù)據(jù)集的科學技術(shù)[4]。分析過程在數(shù)據(jù)和知識轉(zhuǎn)化的過程中不斷循環(huán),可將大數(shù)據(jù)分析和挖掘方法與視覺信息處理過程相結(jié)合,將計算機的處理能力和人類的認知能力相結(jié)合,最終挖掘出大規(guī)模高維數(shù)據(jù)集所包含的價值[1]。

        大部分存儲的原始數(shù)據(jù)都是沒有價值的,只有在提取信息后,才能發(fā)現(xiàn)價值。人類處理視覺信息的速度非??欤梢粤⒓床蹲降诫[藏在數(shù)字中的關(guān)鍵信息。因此,數(shù)據(jù)可視化已成為提取關(guān)鍵信息的最佳途徑。

        2主成分分析法

        主成分分析(PrincipalComponentAnalysis,PCA)[4]將包含冗余信息的高維數(shù)據(jù)轉(zhuǎn)化為少量的低維數(shù)據(jù),即主成分,每個主成分包含原始數(shù)據(jù)幾乎所有的有效信息[5]。這將復雜的數(shù)據(jù)分析問題轉(zhuǎn)化為只需要幾個主成分的問題,不僅能夠?qū)栴}進行更深入的分析,而且使分析過程更加容易[4]。基本思想是在最小均方誤差的約束下,尋找一個最能代表原始數(shù)據(jù)主要特征的投影變換矩陣。在新的投影空間中,可以降低原始數(shù)據(jù)的維數(shù),保留大部分信息[5]。整個轉(zhuǎn)換過程遵循2個原則。一個是近期重構(gòu),即:利用無量綱數(shù)據(jù)重構(gòu)原始數(shù)據(jù)時誤差之和最小。另一個是最大可分性,即:數(shù)據(jù)要在低維投影空間中盡可能分離[5]。其實可以證明,這兩個原理是等價的[5]。

        2.2PCA主成分分析降維

        亞馬遜雨林區(qū)是世界最大的雨林區(qū),可以消耗大量二氧化碳,阻止氣候變暖;林區(qū)還藏有豐富的動植物資源,種類高達300萬種。但不容忽視的是,雨林生態(tài)系統(tǒng)卻正不斷面臨著眾多的威脅,越來越多的森林砍伐導致雨林面積逐年縮小。同時,全球變暖也增加了發(fā)生野火的可能性和頻率。本文對1999~2019年、總共20年間的亞馬遜雨林火災數(shù)據(jù)進行探索分析與可視化。

        本次研究將基于在kaggle下載的巴西國家太空研究所(INPE)公開的衛(wèi)星圖像檢測數(shù)據(jù),該數(shù)據(jù)中詳盡記錄了亞馬遜地區(qū)火災的情況。研究中,還將用到主成分分析,其目標是旨在找到數(shù)據(jù)中最重要的元素和結(jié)構(gòu),去除噪聲和冗余,降低原始復雜數(shù)據(jù)的維數(shù),揭示隱藏在復雜數(shù)據(jù)背后的簡單結(jié)構(gòu)[7]。混沌數(shù)據(jù)通常由3部分組成:噪聲、旋轉(zhuǎn)和冗余[7]。區(qū)分噪聲時,可以用信噪比或方差來衡量。方差是主要信號或主要成分。小的方差被認為是噪聲或次要成分;對于旋轉(zhuǎn),旋轉(zhuǎn)基向量,使得具有大信噪比或方差的基向量是主分量方向。在判斷觀測變量之間是否存在冗余時,可以用協(xié)方差矩陣來度量和判斷[7]。

        3數(shù)據(jù)分析

        將樣本集PCA降維后進行數(shù)據(jù)分析。amazon_fires.csv是按州、月份和年份統(tǒng)計在從1999~2019年巴西亞馬遜地區(qū)發(fā)生的火災次數(shù)文件。數(shù)據(jù)共計2104條,各數(shù)據(jù)字段含義見表1。

        3.1導入所需的庫并讀取數(shù)據(jù)

        研究中可得統(tǒng)計量圖表見表2。由表2可以看到所有字段均為數(shù)字型,且不存在缺失值。對此,研究擬通過描述性統(tǒng)計函數(shù)describe()檢查數(shù)據(jù)中有無明顯異常值。年份、月份的最小最大值分別為(1999,2019),(1,12),且經(jīng)緯度數(shù)據(jù)、火災發(fā)生次數(shù)均不存在明顯異常,說明降維后的數(shù)據(jù)較為“干凈”。

        3.2火災發(fā)生時間的可視化分析

        研究中將按年份進行分組,計算1999~2019年間每一年的火災發(fā)生總數(shù),并通過折線圖的方法進行可視化。仿真結(jié)果如圖1所示。

        由圖1可以看到,亞馬遜地區(qū)的火災爆發(fā)在2002年達到了一個高峰,從2002年以來,火災情況呈逐年減少態(tài)勢。從2010~2019年,每一年的火災爆發(fā)情況出現(xiàn)了小范圍波動。在此基礎(chǔ)上,本次研究又按月來統(tǒng)計了火災爆發(fā)的情況,具體結(jié)果如圖2所示。通過統(tǒng)計12月中每月的平均火災數(shù)進行分析。

        由圖2中可以明顯看出,下半年平均受火災的影響比上半年高很多,平均著火點數(shù)目位列前三的月份分別是9月、8月和10月。

        一般情況下,亞馬遜的旱季從7月持續(xù)到10月,在9月底達到頂峰。在一年的其他時間里,潮濕的天氣會將火災的風險降到最低。但在旱季,降雨量的減少可能對火災情況有較大影響。

        3.3火災發(fā)生地點的可視化分析

        巴西一級行政區(qū)劃包括26個州和1個聯(lián)邦區(qū),亞馬遜雨林分布在其中的9個州,這里擬通過計算每個州的火災發(fā)生總數(shù)來分析哪個州受雨林火災影響最大。研究后得到的仿真結(jié)果如圖3所示。

        由圖3中可以看到,帕拉州(PARA)和馬托格羅索州(MATOGROSSO)是受亞馬遜河大火影響最大的巴西州,其火災著火點總數(shù)是其他州加起來的至少兩倍。后續(xù)可通過經(jīng)緯度數(shù)據(jù)進行地理繪圖,將火災發(fā)生地點標記出來。

        3.4時間地點分析

        為了更好地了解問題和當前狀況,現(xiàn)將特征進行組合,更加深入地開展數(shù)據(jù)研究。在此,即根據(jù)州和年份進行組合,分析多年來每個州的火災情況。由此得到的時間地點分析后的結(jié)果曲線如圖4所示。對應(yīng)地,也給出了該次研究編寫的部分主要代碼參見如下。

        fig,ax=plt.subplots(3,3,figsize=(14,10),sharex=True)

        sns.set_style("whitegrid")

        ax=ax.flat

        i=0

        forxinstate_name:

        sns.lineplot(data=amazon_fires[amazon_fires['state']==x],x='year',

        y='firespots',estimator='sum',ax=ax[i],color='teal',ci=None)

        ax[i].set_title(x,size='large')

        ax[i].set_xlabel("年份",size='large',fontproperties=font)

        ax[i].set_xticks([2000,2005,2010,2015,2020])

        ax[i].grid(False)

        ax[i].set_xticklabels([2000,2005,2010,2015,2020],fontsize='large')

        ifi==0ori==3ori==6:

        ax[i].set_ylabel("火災爆發(fā)總次數(shù)",size='large',fontproperties=font)

        else:

        ax[i].set_ylabel("")

        i+=1

        plt.subplots_adjust(wspace=0.16,hspace=0.12)

        plt.show()

        由圖4可以看出,每個州在2002年左右都出現(xiàn)了火災高峰,因此導致整體上2002年火災數(shù)目非常高,2002年后大部分州的火災數(shù)目都逐漸減少。但是其他州也有例外,例如AMAZONAS州和RORAIMA州在2002年減少后又開始逐年增加,并且RORAIMA州在2019年達到了頂峰。

        接下來再根據(jù)州和月份進行組合,分析不同月份下每個州的火災情況,圖5顯示了每個州在每個月爆發(fā)火災次數(shù)的平均值。

        除羅賴馬州(RORAIMA)之外,所有州的火災都集中在下半年(7~10月),即亞馬遜雨林的旱季。綜上研究后,則結(jié)合年份、月份和州三個屬性進行可視化,分析火災爆發(fā)的次數(shù),研究得到的熱力圖如圖6所示,該圖顯示了每年各州每月份的火災爆發(fā)量,顏色越深代表火災爆發(fā)次數(shù)越多。

        由圖6可以看出,幾乎每個州在所有年份的火災高峰期都在7~10月,這印證了之前的結(jié)論。并且在防范火災方面,就需要在1~4月份格外注意RORAIMA州,因為只有該州的火災高峰期不在7~10月。從PARA、MATOGROSSO、RONDONIA、MARANHAO和TOCANTINS五個州的數(shù)據(jù)來觀察可知,隨著年份的推移,火災爆發(fā)的次數(shù)大大減少了。

        4結(jié)束語

        近年來,數(shù)據(jù)可視化技術(shù)的發(fā)展日趨成熟,從結(jié)果圖中研究者們能夠直接找出自己所需要的信息。亞馬遜雨林的面積約是印度的兩倍,在調(diào)節(jié)全球氣候和提供諸如水凈化和二氧化碳吸收等其他服務(wù)方面發(fā)揮著至關(guān)重要的作用。在本文中,分別從時間、空間的不同維度對亞馬遜火災的發(fā)生情況進行了可視化分析,研究發(fā)現(xiàn)7~10月是火災的高峰期。同時,本文繪制了豐富的可視化圖形,對于數(shù)據(jù)的探索性分析可以提供有益參考。

        參考文獻

        [1]馬佳琪,滕國文.基于Matplotlib的大數(shù)據(jù)可視化應(yīng)用研究[J].電腦知識與技術(shù),2019,15(17):18-19.

        [2]馬佳琪,滕國文.基于大數(shù)據(jù)的幸福感可視化技術(shù)研究[J].電腦知識與技術(shù),2020,16(7):263-264.

        [3]王振宇,高東健.智慧城市大數(shù)據(jù)平臺[J].中國新通信,2018,20(19):30.

        [4]little_angle.主元分析PCA原理以及應(yīng)用[EB/OL].[2012-05-29].https://blog.csdn.net/j123kaishichufa/article/details/7614234.

        [5]曲學超.基于高分辨距離像的雷達目標識別算法研究[D].成都:電子科技大學,2018.

        [6]劉浩昌,林匯峯,張英,等.基于PCA法的汽車產(chǎn)業(yè)競爭力的綜合評價[J].科技經(jīng)濟導刊,2020,28(31):224-225.

        [7]黃瀟.基于聚類分析的專家分類方法研究[D].南京:東南大學,2017.

        青青草视频在线观看绿色| 国产手机在线αⅴ片无码| 国产精品入口蜜桃人妻| 日本在线观看一区二区视频| 日韩精品视频久久一区二区| 亚洲国产av精品一区二区蜜芽| 波多野结衣中文字幕在线视频| 亚洲国产精品亚洲高清| 人妻少妇精品视频一区二区三| 真实人与人性恔配视频| 精品少妇一区二区三区视频| 亚洲免费不卡av网站| 国产一区二区av免费观看| 亚洲中文字幕无码中文字| 国产午夜激无码av毛片| 中文字幕精品亚洲无线码二区 | 中文字幕人妻一区二区二区| 伊人久久精品无码av一区| 无码av免费一区二区三区| 久久99精品久久久66| 亚洲免费精品一区二区| 国产无遮挡又黄又爽高潮| 国产av国片精品| 日产精品一区二区三区免费| 一区二区三区四区在线观看日本| 国产青榴视频在线观看| 午夜婷婷国产麻豆精品| 日韩国产自拍成人在线| 亚洲国产精品无码一线岛国| 天天躁日日躁狠狠躁av| 亚洲国产一区二区三区最新| 伊人精品成人久久综合97| 7777色鬼xxxx欧美色妇| 日韩欧美亚洲综合久久影院d3| 国产99久久精品一区| 精品亚洲国产成人av色哟哟| 久久丫精品国产亚洲av不卡| 亚洲另类激情专区小说婷婷久| 性感熟妇被我玩弄到高潮| 韩国三级大全久久网站| 久久久精品久久波多野结衣av|