亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        空間大數(shù)據(jù)挖掘和異常點分析

        2018-06-11 01:49:24陳文婧葉雪媛劉萬華邱晨羅田
        科學(xué)與財富 2018年12期
        關(guān)鍵詞:ARIMA模型空間數(shù)據(jù)聚類分析

        陳文婧 葉雪媛 劉萬華 邱晨 羅田

        摘要:為了進(jìn)一步研究空間數(shù)據(jù),本文決定以pm2.5數(shù)據(jù)為例來進(jìn)行處理。首先基于南京、揚州、無錫三個城市pm2.5數(shù)據(jù)的橫向比較,可知2017年11月30號的異常點是由于空氣濕度或節(jié)假日的影響。然后對影響空氣質(zhì)量的多個因素進(jìn)行聚類,發(fā)現(xiàn)PM2.5與PM10,風(fēng)速具有顯著相關(guān)關(guān)系。使用時間序列模型ARIMA(2,1,0)對pm2.5數(shù)據(jù)作出了短期預(yù)測,預(yù)測結(jié)果與實際結(jié)果趨勢相同,但不夠精確,分析模型的不足,最終提出了改善方法。

        關(guān)鍵詞: 空間數(shù)據(jù),異常點,聚類分析,ARIMA模型

        一、引言

        空間大氣數(shù)據(jù)具有來源廣,類型格式復(fù)雜且相互之間不兼容的特點。本文著重研究大氣空間數(shù)據(jù)的挖掘和異常點分析以及后期的研究路徑。

        二、數(shù)據(jù)清洗及異常點分析

        11.27-3.12期間(除春節(jié)假期外)我們統(tǒng)計了南京,揚州,無錫三個城市24小時的,3000多條空氣指標(biāo)數(shù)據(jù)。考慮到此次空氣指標(biāo)數(shù)據(jù)是由團(tuán)隊協(xié)作統(tǒng)計得來,數(shù)據(jù)記錄習(xí)慣的差異使得整體數(shù)據(jù)的質(zhì)量很難達(dá)到數(shù)據(jù)倉庫的要求,因此首先要進(jìn)行數(shù)據(jù)清洗。

        2.1空缺值的填充

        首先極大可能的填寫空缺值,為了保證空缺值與其他數(shù)據(jù)之間的聯(lián)系,必須選擇依靠現(xiàn)有的數(shù)據(jù)進(jìn)行處理得到缺失值,是一種有用的背景知識,它使得原始數(shù)據(jù)可以在較高的、一般化的抽象層上進(jìn)行處理,可以用最常出現(xiàn)的概念填充空缺值。如以南京環(huán)境監(jiān)測站對南京空氣污染物檢測的數(shù)量為例,數(shù)據(jù)中PM2.5屬性列中有一個空缺值,假設(shè)已知有三個模糊概念Low, medium, nigh。對于這三個概念分別計算己有數(shù)據(jù)的平均隸屬函數(shù)值,然后我們選擇medium進(jìn)行空缺值填充。

        2.2 錯誤數(shù)據(jù)的篩選

        范圍檢驗是數(shù)據(jù)清洗的最簡單形式,它是指檢驗一個字段中的數(shù)據(jù)以保證它落在預(yù)期范圍之內(nèi),通常是數(shù)字范圍或日期范圍。在氣象數(shù)據(jù)中,有時會存在超標(biāo)的數(shù)值,這些對于分析氣象信息會起到誤導(dǎo)的作用,因此針對這些數(shù)據(jù)通過有效值檢驗來清洗。例如,可以通過濃度分布分析來確定錯誤值,來確定需要刪除記錄的錯誤值。

        2.3 數(shù)據(jù)屬性值的統(tǒng)一

        數(shù)據(jù)源來自于多個數(shù)據(jù)庫,數(shù)據(jù)的格式,屬性或維的命名都不一樣,可能是由于表示、編碼、比例的不同引起的。為了避免無法匹配與識別的問題,將不同存儲格式的數(shù)據(jù)進(jìn)行格式統(tǒng)一,最后將多組數(shù)據(jù)進(jìn)行數(shù)據(jù)合并。

        2.4 PM2.5的濃度異常值分析

        根據(jù)該數(shù)據(jù)的趨勢變化以及濃度值的分析,判斷PM2.5在無錫地區(qū)的2017年12月4號和7號出現(xiàn)異常數(shù)據(jù),出現(xiàn)異常峰值。而在2017年11月30號的南京出現(xiàn)異常負(fù)值,可能原因為PM2.5分析儀是采用微量振蕩天平法測量,隨著空氣中濕度的增加,從某日凌晨開始,隨著降雨量的逐漸增加,空氣中顆粒物先逐漸降低,隨著雨量進(jìn)一步增加,環(huán)境空氣中的顆粒物已經(jīng)趨于較低水平,此時濾膜上水汽的揮發(fā)量遠(yuǎn)大于顆粒物濃度的增加量,導(dǎo)致測量值出現(xiàn)負(fù)數(shù)。

        在日常數(shù)據(jù)審核中,除了一些記錄儀器的故障外還會存在某一天由于節(jié)假日影響和政府政策發(fā)生較大的變化而出現(xiàn)異常偏高的現(xiàn)象,因而該類數(shù)據(jù)在有效性審核中還不能予以剔除,應(yīng)予以保留。

        三、聚類算法

        4.1聚類思想

        聚類分析主要是根據(jù)實體的特征對其進(jìn)行聚類,將描述個體的數(shù)據(jù)集劃分成一系列相互區(qū)分的組,使得屬于同一類別的個體之間的差異盡可能小,不同類別的個體之間的差異性盡可能大,從而發(fā)現(xiàn)數(shù)據(jù)集的整個空間分布規(guī)律和典型模式。

        根據(jù)空間聚類采用的不同思想,空間聚類算法主要可以歸納為以下幾種:基于劃分的聚類算法、基于層次的聚類算法、基于密度的聚類算法、基于網(wǎng)格的聚類算法、基于模型的聚類算法以及其他形式的聚類算法。本篇主要以基于劃分的聚類算法為主要研究方法。

        空間聚類的內(nèi)部度量原則主要有兩個:聚類內(nèi)部距離和聚類間的距離。聚類內(nèi)部距離是指聚類內(nèi)部間的平均距離,它反映了聚類的緊湊性和聚類算法的有效性;而聚類間的距離是指兩個聚類間所有會話的平均距離。對于良好的聚類算法來說,聚類內(nèi)部距離應(yīng)較小,聚類間的距離應(yīng)較遠(yuǎn)。

        聚類間距離:假設(shè)n個空間對象被聚類為K個簇,定義聚類間距離為所有分中心到全域中心的距離之和:,式中,L表示聚類間距離,m為全部空間對象的均值,為簇所含空間對象的均值K為聚類個數(shù)及聚類區(qū)間。

        聚類內(nèi)部距離:假設(shè)n個空間對象被聚類為K個簇,定義聚類內(nèi)部距離為所有聚類內(nèi)部距離的總和:其中D為內(nèi)距離,p為任一空間研究對象,為簇C所含空間對象的均值。

        4.2 結(jié)果分析

        以最短距離法為例,對采集到的南京的空間數(shù)據(jù)做聚類分析,得到以下類譜圖:

        當(dāng)分為五類時,濕度與SO2顯著相關(guān),PM10和PM2.5顯著相關(guān),O3和NO2顯著相關(guān),CO,風(fēng)速各為一類。可見聚類結(jié)果合理,因為PM2.5與PM10為同一類污染物,通常為伴生關(guān)系,而SO2可溶于水,因此控制SO2濃度可從增加空氣濕度入手,可有效降低空氣中SO2濃度,防止酸雨的形成,而居民也可以通過放置加濕器來凈化空氣質(zhì)量。

        四、短期預(yù)測

        以南京地區(qū)PM2.5為例進(jìn)行短期預(yù)測,我們考慮使用時間序列建模:首先對不平穩(wěn)數(shù)據(jù)進(jìn)行一階差分,再對差分后數(shù)據(jù)擬合ARIMA模型,其中ARIMA(2,1,0)擬合程度最高。模型如下:

        采用該模型預(yù)測未來10期數(shù)據(jù)并與真實值比較,結(jié)果如下:

        可見預(yù)測值與真實值有出入,預(yù)測值波動范圍小(方差0.08),真實值波動范圍大(方差29.43)但是趨勢和真實值一樣,都是先下降再上升。

        下面我們對模型不準(zhǔn)確的原因作出推測:

        1) 數(shù)據(jù)有24期的周期性,ARIMA模型沒有和好的擬合周期性。

        2) 沒有考慮到PM2.5數(shù)據(jù)的特殊性(受其他天氣因素影響大)

        五、結(jié)論與展望

        三座城市中,無錫和南京的PM2.5分布情況高度相似,揚州的PM2.5濃度偏高,變化趨勢與無錫南京相同,但是有約3天的滯后。三座城市的PM2.5濃度都有輕微的下降趨勢。

        通過聚類分析,我們發(fā)現(xiàn)PM2.5與PM10有顯著的相關(guān)關(guān)系,,濃度與風(fēng)速相關(guān),濃度與濕度相關(guān)。

        最終,本文提出了一種基于時間序列模型ARIMA(2,1,0)的PM2.5預(yù)測模型,該模型簡單實用便于操作。但是精度尚需提高,預(yù)測期數(shù)也較短??珊Y選一半數(shù)據(jù)用x-11模型或引入風(fēng)速因子加以完善。

        參考文獻(xiàn):

        [1] 董彥磊,申德榮,寇月,等. 數(shù)據(jù)空間中數(shù)據(jù)組織模型以及關(guān)聯(lián)關(guān)系發(fā)現(xiàn)模型的研究[J]. 計算機(jī)研究與發(fā)展. 2009, 46(z2): 566-574.

        [2] 孔令彥,關(guān)麗,丁燕杰,等. 空間大數(shù)據(jù)支持下的城市區(qū)域評估及其關(guān)鍵技術(shù)[J]. 測繪通報. 2017(8): 100-105.

        [3] 譚鶴毅. 大數(shù)據(jù)背景下的空間數(shù)據(jù)挖掘研究[J]. 消費電子. 2014(24): 181

        猜你喜歡
        ARIMA模型空間數(shù)據(jù)聚類分析
        基于時間序列模型的中國出口總額分析及預(yù)測
        基于R軟件的金融時間序列的預(yù)測分析
        基于Eviews上證綜合指數(shù)預(yù)測
        時代金融(2016年29期)2016-12-05 16:12:09
        農(nóng)村居民家庭人均生活消費支出分析
        基于省會城市經(jīng)濟(jì)發(fā)展程度的實證分析
        中國市場(2016年33期)2016-10-18 12:16:58
        基于ARIMA模型的滬銅期貨價格預(yù)測研究
        商(2016年27期)2016-10-17 06:06:02
        基于聚類分析的互聯(lián)網(wǎng)廣告投放研究
        科技視界(2016年20期)2016-09-29 12:32:48
        “縣級供電企業(yè)生產(chǎn)經(jīng)營統(tǒng)計一套”表輔助決策模式研究
        元數(shù)據(jù)驅(qū)動的多中心空間數(shù)據(jù)同步方法研究
        基于文件系統(tǒng)的分布式海量空間數(shù)據(jù)高效存儲與組織研究
        国产免费一区二区三区在线视频| 理论片87福利理论电影| 男女啪动最猛动态图| 少妇被爽到高潮动态图| 国产亚洲欧美日韩国产片| 久久99国产亚洲高清观看首页| 久亚洲一线产区二线产区三线麻豆| 伊人久久大香线蕉av波多野结衣 | 疯狂的欧美乱大交| 亚洲av乱码中文一区二区三区| 亚洲无码观看a| 色和尚色视频在线看网站| 最近免费中文字幕中文高清6 | 女女女女女裸体处开bbb| 久久夜色精品国产噜噜av| 狠干狠爱无码区| 少妇一级aa一区二区三区片| 日本免费一区二区在线| 丝袜美腿国产一区精品| 韩国三级在线观看久| 国产特级毛片aaaaaaa高清 | 欧美日韩不卡合集视频| 91爱爱视频| 日韩激情视频一区在线观看| 天天躁日日躁狠狠躁欧美老妇小说| 亚洲av无码久久精品狠狠爱浪潮| 久久99欧美| 欧美xxxxx精品| 一区二区三区四区草逼福利视频| 丰满人妻一区二区三区视频53| 国产成人无码精品午夜福利a| 亚洲中文字幕日产喷水| 精品日本一区二区三区| 狠狠噜天天噜日日噜无码| 国产午夜亚洲精品不卡福利| 日本高清人妻一区二区| 午夜精品久久久久久久| 男人和女人高潮免费网站| 在线不卡中文字幕福利| 痴汉电车中文字幕在线| 任我爽精品视频在线播放|