李孝財
穩(wěn)健主成分回歸評估方式,屬于一種新型的統(tǒng)計數(shù)據(jù)可靠性評估方法,這種方式具備較強的應(yīng)用優(yōu)勢,已被逐漸應(yīng)用于較多的統(tǒng)計數(shù)據(jù)可靠性評估中。本文重點對基于穩(wěn)健主成分回歸的統(tǒng)計數(shù)據(jù)可靠性評估方法進行探究,從統(tǒng)計數(shù)據(jù)可靠性評估中文件統(tǒng)計方法應(yīng)用的可行性入手,分析了穩(wěn)健主成分回歸的統(tǒng)計數(shù)據(jù)可靠性評估方法,提出提高統(tǒng)計數(shù)據(jù)可靠性的措施,希望為相關(guān)人員提供參考借鑒,促進我國統(tǒng)計工作的良好開展。
只有保證統(tǒng)計數(shù)據(jù)具備較好的可靠性及準確性,才會發(fā)揮出統(tǒng)計工作的作用,為相應(yīng)決策的制定提供準確的數(shù)據(jù)支撐。我國對于統(tǒng)計數(shù)據(jù)關(guān)注力度逐漸增加,對統(tǒng)計工作提出了更高的要求,如何通過有效的方式對統(tǒng)計數(shù)據(jù)可靠性進行評估,保證統(tǒng)計數(shù)據(jù)的準確性以及可靠性,是需要重點探究的問題。本文就穩(wěn)健主成分回歸的統(tǒng)計數(shù)據(jù)可靠性評估方法進行探討。
一、統(tǒng)計數(shù)據(jù)可靠性評估中文件統(tǒng)計方法應(yīng)用的可行性
保證統(tǒng)計數(shù)據(jù)的準確性尤為重要,數(shù)據(jù)越準確,則說明越接近真實情況,不過因為多方面影響,在真實統(tǒng)計數(shù)據(jù)的獲取上存在較大的難度,因此需要通過一些間接的方式,判斷統(tǒng)計數(shù)據(jù)的準確性,例如在對某個數(shù)據(jù)的可靠性進行研究時,可以通過這個數(shù)據(jù)與其他相關(guān)經(jīng)濟數(shù)據(jù)是否一致來表現(xiàn)出來,通過分析該指標與其他相關(guān)指標是否相匹配來判斷。若良好匹配,說明數(shù)據(jù)具備一定的可信度?;诋惓V档脑u估方法屬于統(tǒng)計數(shù)據(jù)可靠性評估方法中的一種類型,這種方法的思路是利用統(tǒng)計分析方法,將統(tǒng)計數(shù)據(jù)中存在的異常點識別出來,與異常值產(chǎn)生的具體情況結(jié)合,對統(tǒng)計數(shù)據(jù)的可靠性進行判斷,不過這種統(tǒng)計方法應(yīng)用過程中,數(shù)據(jù)中存在的異常值會對其產(chǎn)生相應(yīng)影響,使估計結(jié)果不夠準確,同時,擬合獲得的模型殘差,不能對所有異常值進行識別。這種情況下,則無法根據(jù)這些異常值,對統(tǒng)計數(shù)據(jù)可靠性進行有效判斷,由此可見,異常值診斷下的統(tǒng)計數(shù)據(jù)評估方法具備一定的不足。而穩(wěn)健統(tǒng)計方法,會對異常值存在較強的抵抗性,因此,會獲得更加準確的估計結(jié)果,最為重要的是擬合得到的殘差,給出的異常值信息會更為準確,在異常值識別上具備較大的優(yōu)勢,進而能更好地判斷這些異常值是否由于統(tǒng)計數(shù)據(jù)的可靠性存在問題。
二、基于穩(wěn)健主成分回歸的統(tǒng)計數(shù)據(jù)可靠性評估方法
(一)穩(wěn)健主成分回歸
對于穩(wěn)健主成分分析方法而言,其屬于兩種思想結(jié)合形成的一種方法,一種是MCD估計下的穩(wěn)健協(xié)方差矩陣方法,另一種是投影尋蹤法,其中投影尋蹤法屬于統(tǒng)計學(xué)中較為新穎的處理方法,主要處理的是多因素且相對復(fù)雜的問題。該方法是將高維數(shù)據(jù)投影到低維空間,根據(jù)低維投影特征信息,對高維數(shù)據(jù)結(jié)構(gòu)特征進行研究。穩(wěn)健主成分回歸分析方法的第二階段穩(wěn)健回歸是一種基于最小截尾平方和估計下的穩(wěn)健回歸模式,同最小二乘估計比較而言,具備更強的穩(wěn)健性。這種方式下的目標函數(shù),能夠按照從小到大的方式,排列樣本點的殘差平方和,隨后,計算出這一排列中前一半的殘差平方和最小值對應(yīng)的估計值,將其作為最優(yōu)估計值,因為殘差平方和是根據(jù)升序進行排列,雖然后一半的殘差平方較大,不過卻不會對估計結(jié)果產(chǎn)生影響。該方法穩(wěn)健性較高,破壞點BP=50%,即便樣本點中存在一半的異常值,也不會對估計結(jié)果產(chǎn)生較大的影響,獲得的估計值會更加準確。
基于最小截尾平方和估計下的穩(wěn)健回歸模式,主要是對因變量y進行分析,獲得主成分ti,再將其進行回歸擬合,得到如下回歸函數(shù)矩陣形式:
yi=θ0+θ1ti+εi,其中(i=1,2,……,n)
為對上式中的參數(shù)進行估計,選擇基于最小截尾平方和估計下的穩(wěn)健回歸模式,主要是由于該模式的BP=50%,具備較強的穩(wěn)健性。模型參數(shù)定義為:
r2表示的是根據(jù)升序排列的殘差平方,h在0.5~n范圍內(nèi),通過n-h+1,對其可以抵抗的異常數(shù)據(jù)點個數(shù)便捷進行衡量,當h在0.5~n范圍內(nèi)時,會得到正確的分析結(jié)果,默認為0.75n。h的大小,決定著可以抵抗異常數(shù)據(jù)點的多少,越小則可抵抗的點數(shù)就會越多,直至50%。該方法的殘差公式為, ri=yi-θ0-θti,是擬合獲得的殘差,ch表示的是修正因子,殘差具備較高的穩(wěn)健性,能夠進行異常值的識別。
(二)主成分數(shù)目選擇
對于穩(wěn)健主成分分析而言,給定的主成分數(shù)目r_0表示的是原始數(shù)目,進行穩(wěn)健主成分回歸時,應(yīng)利用模型的擬合能力以及預(yù)測能力,對主成分數(shù)目r進行科學(xué)選擇。通過穩(wěn)健均方根誤差度量模型的擬合能力,通過穩(wěn)健交叉核實均方誤差度量模型的預(yù)測能力,公式如下:
其中,,r=1,…,rmax,,表示的是i點的擬合值,表示的是i點的預(yù)測值。RMSE值越小,則說明模型的擬合效果越好;而RMSECV值越小,則說明模型預(yù)測效果越好。結(jié)合這兩項指標,進行穩(wěn)健主成分選擇統(tǒng)計量(RCS)的構(gòu)建,如下所示:
其中,γ∈[0,1]表示調(diào)節(jié)參數(shù),在γ的選擇上,可以從以下兩方面入手:第一,如果想要突顯出模型的擬合能力,可以選擇較小的γ;第二,若想要突顯出模型的預(yù)測能力,可以選擇較大的γ。提出的穩(wěn)健主成分選擇統(tǒng)計量(RCS),是模型預(yù)測能力與擬合能力的綜合,能夠按照這一指標,確定出主成分數(shù)目r。與RCS曲線圖相結(jié)合,選擇RCS值較小時對應(yīng)的r,則屬于主成分數(shù)目的最優(yōu)值。
(三)異常點檢驗
進行平差測量時,通常情況下會存在一些異常點,這些異常點的存在會大大影響到計算結(jié)果,嚴重偏離給定的模型,為進一步對這些點進行研究,應(yīng)進行實際檢測,在對異常點進行檢驗時,可以選擇以下方式:
第一,得分距離法(SD)。
其中,通過穩(wěn)健主成分分析,得到λj。
第二,正交距離法(OD)
其中,;zi∈Z,φ屬于穩(wěn)健特征向量,主要通過穩(wěn)健主成分分析中獲得。
第三,標準化殘差法(SR)
其中,νi表示的是擬合殘差。
以上提出的幾種檢驗方式,得分距離法的應(yīng)用下,會了解到觀測值對主成分產(chǎn)生的影響;正交距離法的應(yīng)用下,能夠了解觀測值與主成分空間的距離;標準化殘差法,反映出了擬合的優(yōu)度。對于主成分而言,若觀測值沒有對主成分產(chǎn)生較大的影響,同時,與主成分子空間存在較近的距離,可以認為這一觀測點屬于正常的觀測點,否則即屬于異常點。對于回歸部分而言,若觀測值沒有對主成分產(chǎn)生較大的影響,同時存在良好的擬合效果,可以認為這一觀測點屬于正常的觀測點,不然則屬于異常點。利用以上方式進行統(tǒng)計量檢驗時,分別進行主成分與回歸部分觀測值的檢驗,如果觀測值通過了檢驗,說明其屬于正常觀測點,若未通過檢驗,則屬于異常點。給定顯著性水平a,對于主成分部分而言,如果,同時ODi<SDi,說明i點屬于正常的觀測點,如果不滿足這一條件,則說明該點為異常點。對于回歸部分而言,如果,同時,說明i點屬于正常的觀測點,如果不滿足這一條件,說明該點屬于異常點。
(四)異常點及粗差探測
為更加直觀的探測異常點,選擇異常點診斷圖的方式具體探測步驟為:第一,通過具體計算,獲得各觀測點的得分距離,還應(yīng)計算出各觀測點的正交距離以及標準化殘差。第二,進行主成分異常點診斷圖構(gòu)造。將SD作為橫軸,將OD作為縱軸,畫出主成分異常點診斷圖,完成以上工作后,給定出顯著性水平a ,分別以以及作為臨界線,處于臨界線之外的點,則屬于主成分異常點。第三,進行回歸異常點診斷圖構(gòu)造。將SD作為橫軸,將SR作為縱軸,畫出回歸異常點診斷圖,分別將以及作為臨界線,處于臨界線之外的點,則屬于回歸異常點。需要注意的是,如果探測出異常點,則表示此觀測點會對結(jié)果產(chǎn)生較大的影響,或者嚴重偏離模型,不一定存在粗差。應(yīng)與穩(wěn)健主成分回歸殘差圖相結(jié)合,進行粗差的探測。
三、提高統(tǒng)計數(shù)據(jù)可靠性的措施
(一)提升思想認識
各地區(qū)統(tǒng)計工作人員,應(yīng)提升思想認識,了解統(tǒng)計調(diào)查及測算工作的重要性,例如在經(jīng)濟增長數(shù)據(jù)調(diào)查及測算中,會獲得準確的經(jīng)濟增長數(shù)據(jù),能夠?qū)⒋俗鳛榈貐^(qū)經(jīng)濟發(fā)展的數(shù)據(jù)支撐,促進國計民生發(fā)展,并且,在準確的數(shù)據(jù)支撐下,會使領(lǐng)導(dǎo)人員作出更加正確的決策。因此,我國相關(guān)部門應(yīng)做好統(tǒng)計工作重要性的宣傳工作,使人員了解到統(tǒng)計數(shù)據(jù)調(diào)查的重要價值。
(二)改革統(tǒng)計方法制度
基于統(tǒng)計力量上而言,需要增加基層統(tǒng)計投入,基層統(tǒng)計部門工作較為瑣碎,并且存在較大的任務(wù)量,應(yīng)有大量的統(tǒng)計人員。基于統(tǒng)計功能而言,應(yīng)對統(tǒng)計指標體系進行完善,構(gòu)建符合經(jīng)濟發(fā)展的統(tǒng)計指標體系,對于經(jīng)濟統(tǒng)計數(shù)據(jù)的調(diào)查及統(tǒng)計工作而言,主要是獲得準確的經(jīng)濟信息,供廣大群眾與政府使用,使其對經(jīng)濟發(fā)展情況進行詳細的了解,掌握當前經(jīng)濟發(fā)展形勢,在此基礎(chǔ)上,制定出針對性的發(fā)展決策,并非用于政府業(yè)績評價。還存在較多對政府業(yè)績進行評價的指標,如當?shù)匚飪r指數(shù)以及居民幸福指數(shù)等。進行政府業(yè)績經(jīng)濟增長數(shù)據(jù)不是唯一的渠道,若可以有效將統(tǒng)計數(shù)據(jù)結(jié)果與政府考核分開,會大大降低人為因素對數(shù)據(jù)可靠性的影響,進而有效提升統(tǒng)計數(shù)據(jù)的可靠性,此外,為有效提升數(shù)據(jù)統(tǒng)計的可靠性,還應(yīng)對抽樣調(diào)查方案設(shè)計與統(tǒng)計調(diào)查登記時間加以完善。
(三)提高統(tǒng)計隊伍素質(zhì)
統(tǒng)計工作開展過程中,需要統(tǒng)計人員執(zhí)行各項工作,其素質(zhì)水平會對統(tǒng)計數(shù)據(jù)的準確性以及可信度產(chǎn)生直接的影響。當前,一些基層統(tǒng)計人員不具備較強的綜合素質(zhì),因此,統(tǒng)計部門應(yīng)將重點放在統(tǒng)計隊伍素質(zhì)的提升上,通過定期培訓(xùn),使統(tǒng)計工作人員具備較強的統(tǒng)計能力以及正確的思想認識,提升統(tǒng)計數(shù)據(jù)質(zhì)量以及準確性。從數(shù)據(jù)源頭入手,對各種統(tǒng)計調(diào)查進行完善,獲得準確、可靠的原始數(shù)據(jù)資料,強化基層單位統(tǒng)計力量,確?;鶎咏y(tǒng)計數(shù)據(jù)更為真實、準確,并且,還應(yīng)定期評估基層統(tǒng)計數(shù)據(jù)。對于統(tǒng)計工作人員而言,應(yīng)具備愛崗敬業(yè)精神,及時掌握國家的各種方針政策,掌握統(tǒng)計工作方法,在多樣化的培訓(xùn)中,開闊統(tǒng)計人員視野,提升統(tǒng)計隊伍的綜合素質(zhì)。
(四)構(gòu)建安全暢通、便捷高效的聯(lián)網(wǎng)直報系統(tǒng)
當前環(huán)境下,信息化技術(shù)得以不斷發(fā)展,需要做好數(shù)據(jù)庫、數(shù)據(jù)采集處理系統(tǒng)以及信息化硬件設(shè)施的建設(shè)工作,加快實現(xiàn)調(diào)查對象和調(diào)查人員通過互聯(lián)網(wǎng)直接向全國數(shù)據(jù)處理中心報送原始數(shù)據(jù)、各級統(tǒng)計機構(gòu)在線共享的工作模式,轉(zhuǎn)變基層統(tǒng)計隊伍的工作重點,從過去繁重的數(shù)據(jù)收集匯總、報表填報轉(zhuǎn)向?qū)υ紨?shù)據(jù)的核查和基礎(chǔ)統(tǒng)計工作的督導(dǎo),有效消除可能存在的中間環(huán)節(jié)對統(tǒng)計數(shù)據(jù)的干擾,提高數(shù)據(jù)匯總效率和數(shù)據(jù)生產(chǎn)過程中的透明度和可控性。
結(jié) 語
綜上所述,同傳統(tǒng)的統(tǒng)計數(shù)據(jù)可靠性評估方法相比,穩(wěn)健主成分回歸的方式具備更高的優(yōu)勢,可以更好地進行異常值識別,能夠獲得更加準確的判斷結(jié)果,在統(tǒng)計數(shù)據(jù)可靠性評估工作中應(yīng)深入進行該評估方法的研究,保證穩(wěn)健主成分回歸評估方法作用的充分發(fā)揮。并且,為保證數(shù)據(jù)可靠性的進一步提升,還應(yīng)從提升思想認識;改革統(tǒng)計方法制度;提高統(tǒng)計隊伍素質(zhì);構(gòu)建安全暢通、便捷高效的聯(lián)網(wǎng)直報系統(tǒng)等方面入手,獲得良好的數(shù)據(jù)統(tǒng)計效果,促進我國健康、可持續(xù)發(fā)展。
(作者單位:永安市統(tǒng)計局)