羅 宇, 李 穎, 郝昕宇, 楊光松
(1 貴州省廣播電視局645 臺, 貴陽 550200; 2 集美大學 誠毅學院, 福建 廈門 361021;3 集美大學 信息工程學院, 福建 廈門, 361021)
隨著信息技術的快速發(fā)展,處理數(shù)據(jù)的能力不斷增強,目前商用的云存儲平臺已經(jīng)具有存儲大量數(shù)據(jù)的能力,如何對海量數(shù)據(jù)進行分析,己成為當前的一個研究熱點。 為了對環(huán)境傳感數(shù)據(jù)進行監(jiān)測,獲取不同時間、不同空間的數(shù)據(jù)信息,將分布在不同地域的傳感器節(jié)點,依靠通信協(xié)議組網(wǎng),最終通過特定網(wǎng)關,將獲取的數(shù)據(jù)傳輸?shù)皆破脚_上,通過分析數(shù)據(jù)之間所存在的相關性,尋找其固有的規(guī)律。
利用數(shù)據(jù)相關性的檢測,可以為監(jiān)測工作提供精準且全面的數(shù)據(jù)支持。 通過研究數(shù)據(jù)相關性來制定策略,從而采取相應的處理措施,在環(huán)境工程、環(huán)境生物學和地球科學等方面得到廣泛應用。 在水利方面,利用往年的數(shù)據(jù)可以分析雨季何時來臨;在地理方面,可分析出降雨量對土壤成分的影響,預防泥石流的形成;在農(nóng)業(yè)中,可以分析出哪一種變量會影響農(nóng)作物的產(chǎn)量或者甜度,從而可以用安全的方式增加產(chǎn)量或者提升口感;在環(huán)境監(jiān)測方面,降雨數(shù)據(jù)、臭氧密度、氣溫溫度等數(shù)據(jù)之間都存在相關性,其中任何一個量的變化都會引起其他一種或者幾種分量的變化。 因此,需要對所有變量進行相關性分析,從而發(fā)現(xiàn)變量之間的關聯(lián)關系。
本文主要從協(xié)方差、時間序列分析、互相關等方面,討論相關性的計算、估計方法,并以環(huán)境監(jiān)測數(shù)據(jù)為例進行相關性分析。
相關性是指事物之間存在相似的程度。 相關關系是指變量之間存在的一種不確定的數(shù)量依存關系,即一個變量的數(shù)值發(fā)生變化時,另一個變量的數(shù)值也相應地發(fā)生變化,變化的數(shù)值不是確定的,但在一定的范圍內(nèi)。
協(xié)方差是一種用來度量兩個隨機變量關系的統(tǒng)計量,假設有兩類數(shù)據(jù)x和x, 可將其視為隨機變量,兩者之間的關系可以由一個聯(lián)合概率密度函數(shù)(x,x) 來表示,與(x,x) 相關的協(xié)方差矩陣C可定義為式(1):
通常,可以通過觀測數(shù)據(jù)構造的近似概率密度函數(shù)方塊圖來估計C。 協(xié)方差估算的散點圖,如圖1 所示,可將(x,x) 平面劃分為許多小的方格,按照編號。 每個方格的面積為ΔxΔx, 其中心坐標為(x(),x())。 于是可得式(2):
圖1 協(xié)方差估算的散點圖Fig.1 Scatter plot of covariance estimation
其中,表示平面中數(shù)據(jù)對的總數(shù),N表示方格中數(shù)據(jù)對的數(shù)量(即互相關的數(shù)目對)。
綜合考慮(1)式和(2)式,可得C的近似計算公式(3):
進一步進行規(guī)一化處理,將方格大小縮小,使其每個方格中至多有一個數(shù)據(jù)對(0 or1),于是可得式(4):
當數(shù)據(jù)表現(xiàn)出一定程度的相關性時,協(xié)方差是非0 的,但其實際數(shù)值取決于數(shù)據(jù)量。 通過方差乘積的平方根進行縮放,可將范圍標準化為1,式(5)。
被稱為相關系數(shù)矩陣,其元素稱為相關系數(shù)。 當通過某個數(shù)據(jù)集對其進行估計時,被稱為樣本相關系數(shù)。
式(1)的協(xié)方差矩陣C可以用于量化聯(lián)合概率密度函數(shù)的相關度,亦可用于描述時間序列的相關度。 將式(1)展開,可得式(6)。
其中,A被稱為自相關矩陣,式(7)。
用類似式(2)~式(4)的方法,可以用散點圖的形式求式(7)的近似積分,于是可求得A的近似值為:
其中,a為在時間差1 時的自相關,式(9)。
由a構成的列向量稱為時間序列的自相關。由于是對稱的,所以時間間隔為正的自相關等于時間間隔為負的自相關,即當∣∣1 時,A =a。
自相關研究的問題是從相同變量的時間序列中間隔時延的樣本;而互相關研究是不同變量的時間序列中間隔時延的樣本。 例如降水和河水流量的時間序列,在降水量高的時候,可以預計河水流量也會很大。 但由于河水流動需要時間,因此,當降水時間序列相對于水流時間序列時間間隔一定時間時,降水時間序列與水流時間序列的相關性最大。已知變量和, 定義互相關性為其概率密度函數(shù)(u,v),分別為時間序列的第個樣本,和時間序列的第個樣本。
可以將自相關的計算,類推到計算互相關c,式(10)
互相關可用如式(11)的卷積形式進行計算。
與自相關不同的是,互相關在時間間隔上是不對稱的。() 和() 的互相關性是() 和() 的互相關的時間反轉(zhuǎn)。
在現(xiàn)實生活中,不同事物之間存在大量的因果關系,通過發(fā)掘這些相互關系,可以獲得一些有用的信息,幫助做出正確的判斷,有助于科學的預測,從而防患于未然。
分析北京市2017 年一整年的空氣質(zhì)量數(shù)據(jù),見表1。 主要基于協(xié)方差、自相關、互相關進行分析。
表1 北京2017 年環(huán)境監(jiān)測數(shù)據(jù)Tab.1 Environmental monitoring data of a year in Beijing
空氣質(zhì)量數(shù)據(jù)包含大氣中一些污染物的含量,如:PM2.5(細顆粒物)、PM10(可吸入顆粒物)、SO(二氧化硫)、NO(二氧化氮)、CO(一氧化碳)、CO(二氧化碳)、O(臭氧)。 空氣質(zhì)量的衡量標準是空氣質(zhì)量指數(shù)(Air Quality Index,AQI),選取其中5 種污染物做相關協(xié)方差分析,相關系數(shù)矩陣如圖2 所示,橫軸和縱軸分別表示這幾種因素之間的相關系數(shù),顏色越深,表示相關性越強。 可見,從左上至右下的對角線元素都均為黑色,因為每種因素與自身完全相關,與AQI 最相關的因素是PM2.5,其次是PM10、CO、NO,SO與其相關性較小。
圖2 北京市空氣質(zhì)量數(shù)據(jù)集相關系數(shù)絕對值矩陣Fig.2 Absolute value matrix of correlation coefficient of Beijing air quality dataset
根據(jù)表1,進一步繪出AQI 與PM2.5 的相關指數(shù),如圖3 所示,兩個因素呈現(xiàn)正相關的趨勢,利用式(5),可計算出PM2.5 與AQ1 相關系數(shù)0.99,證明PM2.5 與AQI 具有高度相關性。
圖3 PM2.5 和AQI 的相關性Fig.3 Correlation between PM2.5 and AQI
由此說明,若想改變空氣質(zhì)量指數(shù),治理PM2.5最有成效,因為其相關性最大,降低PM2.5 指數(shù)可以有效的改變空氣質(zhì)量;改變PM10 在空氣中的含量,也可以提升空氣質(zhì)量。
PM2.5 在時間序列上自身的變化,時間間隔越大則自相關越小。 根據(jù)表1,取不同時刻的PM2.5 的指數(shù)值,可得空氣中PM2.5 的指數(shù)與時間間隔的關系,如圖4 所示。 圖4(a)~(c)分別是時間間隔為1 d、3 d、30 d 的自相關函數(shù),橫軸為PM2.5 的含量,縱軸為滯后一段時間后的PM2.5 含量。
如果把空氣在t時刻PM2.5 含量記為d,在t時刻的含量記為d, 那么其聯(lián)合概率密度函數(shù)為(d,d),可以預計那個d和d在何處有很強的正相關關系,當時間間隔Δtt很小時,其相關性很強,短期時間關聯(lián)度很高,比如昨天的PM2.5 與今天的PM2.5 差不多,如圖4(a)所示;當測量值的時間間隔大時,其PM2.5 的相關性變得越來越小,如圖4(b)為間隔3 天的情況;在一定時間間隔(如1 個月左右的時間)后,基本不相關,如圖4(c)。
圖4 空氣中PM2.5 的含量與時間間隔的關系Fig.4 Relationship between PM2.5 and time interval
互相關是表示兩個變量之間相似性的一個度量,通過與已知變量比較,來尋找未知變量中的特性。 利用互相關性分析臭氧和日照的關系。
平流層中的臭氧,能夠吸收紫外線,保護地球表面免受太陽紫外線的照射。 但對流層中的臭氧是霧霾的主要成分,對人體健康有害,并導致的AQI 指數(shù)降低。
利用半個月的數(shù)據(jù),僅包含4 列數(shù)據(jù),時間(d)、臭氧(ppb)、太陽輻射(W/m)和氣溫(c)。
將半月的日照數(shù)據(jù)(單位為W/m)和臭氧變化,在同一地點按對應的時間進行統(tǒng)計,如圖5 所示。 可見兩者都表現(xiàn)出明顯的周期性,隨著日照的強度增大,臭氧濃度也會增多,這是因為在溫度較高、日照相對較強時,大氣中的氮氧化物和揮發(fā)性有機化合物經(jīng)紫外線照射發(fā)生光化學反應,生成臭氧。隨著時間序列的變化,這兩個變量所反映出來的相關性成正相關性,只要日照強度高,臭氧濃度就會增多。 另一方面,從圖5 亦可以觀察到,臭氧峰值比日照峰值延遲了幾d(見垂直虛線)。
圖5 日照與臭氧含量的相關圖Fig.5 Correlation between sunshine and ozone content
進一步將兩個時間序列相互關聯(lián),可得出滯后的時間間隔約為3 d,如圖6 所示。
圖6 時序滯后3 d 日照與臭氧相關圖Fig.6 Correlation between sunshine and ozone with time lag of 3 d
滯后時間為3 d,日照與臭氧互相關性,如圖7所示。 互相關系數(shù)達到了最大值,約為3.5×10。因為光照有一個過程,隨著光照的增加,臭氧含量也逐漸增加到最大值,所以兩者之間的相關函數(shù)也相應地呈現(xiàn)出最大值。
圖7 日照與臭氧互相關性Fig.7 Cross correlation between sunshine and ozone content
在環(huán)境監(jiān)測中,傳感數(shù)據(jù)之間存在相關性,充分挖掘這些相關性,有助于分析影響環(huán)境的各種因素,從而準確、高效地采取措施。 這些相關性方法,還可以廣泛應用在災害預測等方面。 本文利用協(xié)方差分析變量之間的相關性,對PM2.5 指數(shù)、O濃度等與空氣質(zhì)量指數(shù)AQI 的相關性進行分析,得出PM2.5是主要影響因素,從而解決提升空氣質(zhì)量的問題;利用自相關系數(shù)在同一過程、不同時刻的相互關系,分析了北京市的PM2.5 的短期自相關性與長期自相關性,研究PM2.5 隨時間情況;利用互相關函數(shù)來分析時間序列,對日照與臭氧之間的互相關性進行研究,結果說明,二者之間在一定時間間隔上存在相關性。 由于數(shù)據(jù)收集的局限性,本文數(shù)據(jù)樣本還不夠豐富,對一些相關性問題還需要數(shù)據(jù)樣本的支撐。大數(shù)據(jù)時代的到來,數(shù)據(jù)相關性分析日益重要,下一步將考慮傳感器網(wǎng)絡中的數(shù)據(jù)補全等相關性問題,以進一步提高分析效率,節(jié)省傳輸能量。