黃子洋 黃登一 皮海亞
摘 要:電磁波的大氣傳輸衰減值是實(shí)現(xiàn)電波傳播的基礎(chǔ)參數(shù)之一,為了計(jì)算高空中的衰減值,需要知道高空中的溫度、大氣壓強(qiáng)、相對(duì)濕度等數(shù)據(jù),但是有時(shí)現(xiàn)有的數(shù)據(jù)常常會(huì)發(fā)生缺失。本文采用多重插補(bǔ)的方法,科學(xué)地對(duì)缺失數(shù)據(jù)進(jìn)行補(bǔ)全,并生成了不同高度下的連續(xù)數(shù)據(jù),解決了高空中電波傳播數(shù)據(jù)缺失的問題,還對(duì)插補(bǔ)的效果進(jìn)行了實(shí)際驗(yàn)證,以說明這一方法的可行性。
關(guān)鍵詞:數(shù)據(jù)缺失;多重插補(bǔ);最小二乘法多項(xiàng)式擬合;模擬退火算法
0 引言
電磁波的大氣傳輸衰減值是實(shí)現(xiàn)電波傳播的基礎(chǔ)參數(shù)之一。根據(jù)國際的相關(guān)建議,若想研究電磁波在某個(gè)地區(qū)的傳輸損耗,需知道該地區(qū)的大氣參數(shù),具體為溫度、大氣壓強(qiáng)、相對(duì)濕度數(shù)據(jù),進(jìn)而計(jì)算得到傳輸損耗。好在中國氣象數(shù)據(jù)共享服務(wù)網(wǎng)會(huì)提供一些高空數(shù)據(jù),如溫度、大氣壓強(qiáng)、溫度露點(diǎn)差等,我們通過這些數(shù)據(jù)進(jìn)行轉(zhuǎn)換或計(jì)算可以得到所需要的數(shù)據(jù)。然而,該網(wǎng)所提供的數(shù)據(jù)有時(shí)會(huì)發(fā)生缺失。
1 數(shù)據(jù)缺失與多重插補(bǔ)法
1.1 缺失數(shù)據(jù)產(chǎn)生機(jī)制
當(dāng)變量出現(xiàn)缺失數(shù)據(jù)時(shí),我們?cè)谔幚頂?shù)據(jù)之前要先考慮缺失數(shù)據(jù)的產(chǎn)生機(jī)制,根據(jù)缺失數(shù)據(jù)與目標(biāo)變量是否有關(guān)來對(duì)缺失數(shù)據(jù)進(jìn)行歸類。若研究變量的缺失值與其觀測(cè)值、未觀測(cè)值都沒有聯(lián)系,定義該研究變量為完全隨機(jī)缺失。若研究變量的缺失值與其未觀測(cè)值沒有關(guān)系,但與其他觀測(cè)變量(常常是完全觀測(cè)變量)有關(guān),我們稱該變量為隨機(jī)缺失。若研究變量的缺失值與其未觀測(cè)值有關(guān),該變量為非隨機(jī)缺失[1]。
1.2 數(shù)據(jù)缺失模式
數(shù)據(jù)缺失模式?jīng)Q定了要使用哪一種數(shù)據(jù)補(bǔ)全方法,它大概可以分為以下幾種,如圖1所示。
其中,圓圈代表觀察值,同心雙圈代表缺失值。此處選取了5個(gè)變量來研究。對(duì)于一般形式應(yīng)通過行變換將缺失的數(shù)據(jù)聚集在數(shù)據(jù)集的右下角再按圖進(jìn)行模式識(shí)別。
1.3 多重插補(bǔ)法
一般的情況都是復(fù)雜的,數(shù)據(jù)的缺失也基本上是隨機(jī)的,簡單數(shù)據(jù)缺失處理方法比如經(jīng)驗(yàn)法、平均值法誤差較大,因此需要使用考慮更加全面的方法,而多重插補(bǔ)法正好可以滿足需求。
多重插補(bǔ)法的基本思想是一種用多個(gè)已知的并且能反映數(shù)據(jù)本身概率分布的值來插補(bǔ)缺失數(shù)據(jù),使得被插補(bǔ)的數(shù)據(jù)能夠與真實(shí)數(shù)據(jù)相近。它要求數(shù)據(jù)缺失機(jī)制為隨機(jī)缺失。具體做法是對(duì)總數(shù)據(jù)集Y,觀測(cè)集已知,而缺失集的缺失是隨機(jī)的,這樣,我們就可以建立條件分布,并根據(jù)此產(chǎn)生插補(bǔ)值。對(duì)于每一個(gè)缺失的數(shù)據(jù),假設(shè)插補(bǔ)n次。這n個(gè)數(shù)據(jù)按照某種特定要求進(jìn)行排列,這樣第一次用于插補(bǔ)缺失數(shù)據(jù)的數(shù)據(jù)集就會(huì)產(chǎn)生第一個(gè)完整數(shù)據(jù)集,最終,n次插補(bǔ)將會(huì)產(chǎn)生n個(gè)完整數(shù)據(jù)集[2]。然后對(duì)每一個(gè)插補(bǔ)數(shù)據(jù)集分析得到的結(jié)果總共n個(gè)結(jié)果進(jìn)行綜合分析,即產(chǎn)生最終的統(tǒng)計(jì)推斷。
現(xiàn)在許多現(xiàn)有的統(tǒng)計(jì)軟件已經(jīng)具有多重插補(bǔ)功能,比如SPSS和stata,非常方便,我們只需要導(dǎo)入具體的數(shù)據(jù),然后進(jìn)行一些簡單的初始值設(shè)置,即可對(duì)數(shù)據(jù)集進(jìn)行插補(bǔ)。
2 案例分析
2.1 插補(bǔ)過程
以中國氣象數(shù)據(jù)共享服務(wù)網(wǎng)所提供的成都地區(qū)在八月份的某一天0時(shí)在不同高度下的大氣參數(shù)(共計(jì)17個(gè)樣本,9個(gè)樣本完整,8個(gè)樣本缺失)為例。首先對(duì)樣本進(jìn)行行變換,將缺失數(shù)據(jù)集中在右下角,目的是對(duì)缺失模式進(jìn)行判別,如表1所示。
其中TD為露點(diǎn)溫度,(T-TD)為溫度露點(diǎn)差,從空白的分布我們可以看出其數(shù)據(jù)缺失模式為一般模式,假設(shè)該表數(shù)據(jù)缺失機(jī)制為隨機(jī)缺失(否則無法分析)。之后利用SPSS的多重插補(bǔ)功能對(duì)數(shù)據(jù)進(jìn)行多重插補(bǔ),為了使收斂速度更快,插補(bǔ)結(jié)果更準(zhǔn)確,我們對(duì)插補(bǔ)的值做出限制。根據(jù)數(shù)據(jù)的變化規(guī)律,取高度,壓強(qiáng)p應(yīng)該大于,但是由于地面上的壓強(qiáng)為1013hPa,取,而溫度T滿足,露點(diǎn)溫度差由于數(shù)據(jù)缺失率較高不做限制。
經(jīng)過多次仿真最終得到了幾組結(jié)果。根據(jù)常識(shí),相對(duì)濕度在很高的地方基本趨近于零,根據(jù)這一點(diǎn)得到最優(yōu)的一組數(shù)據(jù),如表2所示。
2.2 連續(xù)數(shù)據(jù)生成
在得到了離散點(diǎn)的完整數(shù)據(jù)集以后,我們通過最小二乘擬合的方法,將溫度、壓強(qiáng)、相對(duì)濕度擬合成關(guān)于高度的多項(xiàng)式的和以得到連續(xù)數(shù)據(jù)。上述過程可以借助MATLAB自帶的CFTOOL工具箱來完成。結(jié)果如下:
2.3 結(jié)果分析
為了驗(yàn)證插值結(jié)果,我們推導(dǎo)出各變量的真實(shí)物理模型得到真實(shí)值,再與SPSS的插值結(jié)果進(jìn)行比較。
(1)溫度T
樣本缺失的都是低空(1504m以下)的值,低空的溫度基本隨高度變化近似是負(fù)的線性關(guān)系,有:
已知兩點(diǎn)低空數(shù)據(jù)(13.9℃,957m)和(10.5℃,1504m),我們可得斜率,繼而樣本低空下溫度物理模型為:
利用函數(shù)關(guān)系我們可得兩個(gè)插值點(diǎn)(1112m,13.4℃)和(1200m,11.2℃),對(duì)應(yīng)的點(diǎn)分別為(1112m,13.1℃)和(1200m,11.6℃),可以看出溫度的插值在一定誤差范圍內(nèi)是準(zhǔn)確的。
(2)大氣壓強(qiáng)P
若考慮大氣溫度隨高度的變化,那氣體壓強(qiáng)隨高度的變化規(guī)律是由多狀態(tài)方程推導(dǎo)出的大氣壓強(qiáng)公式:
其中P0=1013.15Pa,u=28.9,g=9.81m/s2,R=8.314J·mol-1·K-1,取T0=288.1K為地面的溫度,H為離地高度,γ為大氣的比熱比且一般介于等溫γ=1與絕熱時(shí)γ=1.4之間[3]。
由于,我們應(yīng)該利用已知的7組數(shù)據(jù)求解γ,具體我們采用模擬退火算法來求解。首先應(yīng)建立適當(dāng)?shù)膬?yōu)化函數(shù),將已知7組數(shù)據(jù)的大氣壓強(qiáng)和高度,記為Pi和Hi,則可以建立如下的非線性約束問題:
利用模擬退火算法求解的參數(shù)設(shè)置如下:初始溫度T=1000,結(jié)束溫度T0=0.001,步長steP=0.02,Markov鏈長L=150,通過MATLAB多次仿真求得的較精確解為1.147[3],目標(biāo)函數(shù)值為2.9左右(由于數(shù)據(jù)較少,不能使目標(biāo)函數(shù)完全接近0),因此可得實(shí)際的物理函數(shù)關(guān)系式為:
利用函數(shù)關(guān)系我們可得3個(gè)插值點(diǎn)(957m,1000hPa)、(1112m,1000hPa)和(1200m,925hPa),對(duì)應(yīng)的點(diǎn)分別為(957m,1001.59hPa)、(1112m,999.76hPa)和(1200m,928hPa),可以看出大氣壓強(qiáng)的插值在一定誤差范圍內(nèi)是準(zhǔn)確的。
(3)相對(duì)濕度
相對(duì)濕度的物理模型很復(fù)雜。但是我們唯一確定的是在非常高的地方RH已經(jīng)趨近于0,前文就是按照這一原則選取的相對(duì)濕度的插值,故可以認(rèn)為是有效的。
(4)結(jié)論
我們可以認(rèn)為在一定的誤差允許范圍內(nèi),利用SPSS對(duì)缺失數(shù)據(jù)進(jìn)行多重插值的方法是有效的。
3 結(jié)語
長時(shí)間的探索與實(shí)踐證明,多重插補(bǔ)法彌補(bǔ)了單一插補(bǔ)法的缺陷,并且還考慮到插補(bǔ)的不確定度,所以已經(jīng)代替簡單的主觀法和單一插補(bǔ)法成為處理分析缺失數(shù)據(jù)的主流方法,它所表現(xiàn)出的巨大的適應(yīng)性與潛力為各行各業(yè)的人所看好。
參考文獻(xiàn)
[1]龐新生.缺失數(shù)據(jù)處理方法的比較[J].統(tǒng)計(jì)與決策,2010(24):152-155.
[2]袁中萸.多元線性回歸模型中缺失數(shù)據(jù)填補(bǔ)方法的效果比較[D].中南大學(xué),2008.
[3]許小勇,唐小軍,王燕.利用模擬退火算法求大氣壓強(qiáng)公式[J].甘肅聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版),2007(2):39-41.
(作者單位:華北電力大學(xué))