李 紅,陳愛林,喬 師
(湖北省荊州市水文水資源勘測局,湖北 荊州 434000)
水文數據所包含的水文信息是水文科學發(fā)展的源泉和基礎,水文學需要大量獲得新的信息和在這種新的信息基礎上提取新的知識。水文數據由地表水、地下水和河、湖等相關屬性數據組成,觀測項目包含水位、流量、降水、蒸發(fā)等數據資料,是防洪調度、水資源調查評價、工程施工設計的基礎,同樣是水資源管理工作的基礎。水文數據時空分布對水資源影響至關重要,指導水資源合理開發(fā)、規(guī)劃利用具有重要意義。
數據是關于自然、社會現象和科學試驗的定量或定性的記錄是科學研究最重要的基礎研究數據,是對數據進行采集、分類、錄入、儲存、統(tǒng)計分析、統(tǒng)計檢驗等一系列活動的統(tǒng)稱,其準確性直接影響以此基礎研究結果的正確性。水文數據主要以實測資料為主,對各種水文要素原始數據進行記載和處理。為獲取水文數據真實值,常常多次采集測量數據樣本,提高數據樣本精度。但測量過程中難免出現非正常因素引起差錯,個別數據出現誤差,如不從測量數據中剔除,將影響采集數據樣本精度[1]。
水文數據異常值產生的原因一般有3個方面:一是水文監(jiān)測設施設備原因,當水文監(jiān)測施設備在運行過程中有部件損壞、傳輸故障,常導致監(jiān)測結果容易出現異常值;二是人為技術水平,根據每個人對水文要素認知水平以及操作掌握熟練程度不同等產生異常值;三是外界條件,水文監(jiān)測過程中,波浪、風等氣候因素對觀測者產生不利條件,容易出現異常值。
水文觀測數據異常值剔除一般采用統(tǒng)計分析法,對于多次觀測數據采用拉依達準則、格拉布斯準則、肖維勒準則等方法進行異常值的剔除,狄克松準則(Dixon)主要優(yōu)勢為觀測數據樣本量沒有嚴格要求,但對樣本數據小更有利,計算方便且概率意義明確,操作快捷且簡單。
狄克松準則(Dixon)在1950年提出一種無需估算平均值、方差的剔除方法,它是根據相鄰狄克松準則值差異大小來判斷被懷疑的對象是否為異常數據。它是先將測量數據從小到大進行排列,因異常值容易出現在系列數據中兩端,狄克松準則直接從中抽取最大值和最小值進行分析,使判斷異常值簡單而有效。
將符合正態(tài)分布測量數據,按從小到大進行排列并進行統(tǒng)計,即:
x(1)≤x(2)≤x(3)≤…≤x(n)
構造檢驗高端異常值x(n)和低端異常值x(1)的統(tǒng)計量,因樣本容量n不一樣,分為以下幾個情況:
3σ準則稱拉依達準則,可用于處理正態(tài)和近似正態(tài)分布的數據,并且要求數據量較大,測量次數多(n≥10)。若測量次數少(n<10),則3σ準則對異常值數據的判別和剔除就不夠準確。
正態(tài)分布稱為常態(tài)分布,有均值u和方差σ2兩個參數。對于服從正態(tài)分布的隨機變量,其均值決定了正態(tài)分布的整體位置,當變量距離均值越近,則該變量出現的概率就越大;隨機變量的方差決定了正態(tài)分布的幅度。因此,正態(tài)分布常被記作N(u,σ2)。此外,對于服從正態(tài)分布的隨機變量,其方差值越小,隨機變量的分布就越集中。
3σ準則數據判別過程:先假設一組數據僅存在偶然誤差,然后計算這組數據的標準差,最后,以一定的概率確定一個區(qū)間范圍,不在該區(qū)間內的誤差稱為粗大誤差,并將其從原數據中剔除。正態(tài)分布3σ準則數值分布在(u-σ,u+σ)內的概率為68.3%;數值分布在(u-2σ,u+2σ)內的概率為95.4%;數值分布在(u-3σ,u+3σ)內的概率為99.7%。由于分布在(u-3σ,u+3σ)內的數據占總數據的99.74%,超出這個范圍的可能性僅占不到0.3%。因此,絕大部分數據的分布特征符合正態(tài)分布3σ準則。
標準差計算如下如下:
由數理統(tǒng)計方法得知,計算水文觀測數據不確定度,分析獨立的誤差來源和誤差性質。觀測數據屬于隨機不確定度,應以絕對量值來衡量,需服從正態(tài)分布,置信水平為95%。隨機不確定度越小,觀測結果質量越高,使用價值高;隨機不確定度越小,觀測結果質量越小,使用價值低。
隨機不確定度取2倍標準差。
長湖位于湖北省荊門市沙洋縣,荊州市荊州區(qū)、沙市區(qū)和潛江市的周邊范圍內,地處長江漢江之間的江漢平原腹地,南遙長江,北貫漢江,是湖北省三大湖泊之一。長湖是四湖流域上區(qū)的主要調蓄湖泊,湖形狹窄,長31 km,最寬18 km,平均寬4.16 km。多年平均氣溫16.6℃~17℃,多年平均風速2.2 m/s~3.1 m/s,多年平均日照時數1771.7 h~1859 h。長湖站是長湖水位控制站,收集湖泊水體自然變化規(guī)律,每日觀測水文要素數據受外界條件影響因素較多,需多次重復觀測,將重復觀測數據進行平均,采用平均值進行記錄。進行本文以湖泊發(fā)生一般波浪情況下連續(xù)觀測15次水尺讀數進行分析,利用狄克松準則對數據進行分析,結合不確定度把異常數據進行剔除。
通過表1分析計算平均值0.67 m,標準差2.9%,隨機不確定度為5.8%。
表1 原始觀測數據
利用狄克松準則按照從小到大順序進行排列,根據n及懷疑的對象,選擇適當公式計算rij的值;選定信度a,查得臨界值rij(n,a);根據計算值和查得臨界值進行比較分析,結合隨機不確定度值進行判斷是否舍去。
首先判斷最小值x(1),n=15,計算統(tǒng)計量r22:
查得表r22(15,0.05)=0.525,判斷r22>r22(15,0.05),x(1)判斷為異常值,未納入異常值計算標準差2.0%,隨機不確定度為4.0%,比原始數據標準差、隨機不確定度值要低,精度高,應舍去。
同理,根據最小值為異常值x(1),重新將樣本數據從小到大進行排列,n=14,計算統(tǒng)計量r22為0.5,查得表r22(14,0.05)=0.546,r22>r22(14,0.05),判斷x(1)為正常值。
采用狄克松準則進行處理異常值,每次樣本數據按從小到大進行排列,判別最小值x(1)和最大值x(n)數據,當有一個或者兩個數據為異常值,結合隨機不確定值進行分析判斷,是否進行剔除。如果剔除,將異常值后的樣本數據重新進行排列,此時樣本數據逐漸減少,樣本數據最低限度為3個,反復進行檢驗,直到最小值x(1)和最大值x(n)不為異常數據,則停止檢驗,判別過程結束。顯著性水平a可分為0.01,0.02,0.05,0.10四種,分別依次趨向于嚴格水平,最高水平為0.10,最低水平為0.01。本次采用顯著性水平a為0.05,已趨向于嚴格,不易漏掉異常值,符合現有樣本精度水平;采用顯著性水平a為0.01或0.02相對于寬松,在本次樣本數據進行判別反而全部為合格水平,精度偏低,容易漏掉異常值。選擇顯著性水平a應選擇趨向嚴格的。
3σ準則以數據符合正態(tài)分布為前提,在樣本數據量不大情況下,處理異常值容易漏掉。不建議采用3σ準則進行數據異常值處理。
(1)水文觀測數據具有時間序列,采用人工觀測或自記設施設備收集數據,數據量較大的特征,其準確性關系到水文資料精度,特別是特征值。
(2)狄克松準則不需要計算數據平均值、標準差,且處理過程嚴謹,適用于樣本數量小,計算簡單重復量小,結果精度高。為保障數據精度更高,本文引入隨機不確定度加以判斷,減少人為因素和外界條件因素引起誤差,具有其他傳統(tǒng)異常值探測方法的優(yōu)越性,其結果更好。
(3)由于多方原因,在采集和收集數據采集過程中,出現異常值屬于隨機事件,因此,進行數據分析之前選擇適當判別準則進行粗差處理,剔除異常值,對監(jiān)測數據的準確性和可靠性結果尤其重要。