韓曉健,徐 翌
(南京工業(yè)大學,江蘇 南京 210000)
房屋的安全狀況直接關系到人民群眾的生命財產(chǎn)安全[1]。20 世紀建造的房屋由于年久失修以及在使用過程中遭受的自然災害和人為破壞,使房屋安全性逐年降低,甚至發(fā)生破壞倒塌事件。例如在 2017年2月2日,溫州市文成縣 4 間民房坍塌,造成 7 人死亡 2 人受傷。慘痛的教訓表明,對老舊房屋進行動態(tài)監(jiān)測,保障結構在使用過程中的安全性,防止意外事故的發(fā)生,是一項非常重要的工作。
房屋安全監(jiān)測系統(tǒng)克服了傳統(tǒng)人工檢測成本高、效率低、受檢測人員經(jīng)驗水平限制等缺點,它利用物聯(lián)網(wǎng)技術,通過儀器對房屋進行實時監(jiān)測預警,掌握結構的變形和構件安全狀態(tài),及時發(fā)現(xiàn)結構存在的安全隱患,以便采取應急措施,保障建筑結構的安全使用,避免人員與財產(chǎn)的損失[2]。
監(jiān)測系統(tǒng)采集的數(shù)據(jù)受到噪聲干擾、設備故障等因素的影響,會使原始數(shù)據(jù)存在異常和噪聲。而且大多數(shù)的監(jiān)測系統(tǒng)只是把原始數(shù)據(jù)簡單地呈現(xiàn)在界面上,觀察數(shù)據(jù)的變化趨勢以及是否報警。這樣使得大量的監(jiān)測數(shù)據(jù)得不到妥善的處理與利用,難以發(fā)現(xiàn)監(jiān)測數(shù)據(jù)中有規(guī)律的、重要的信息,導致了數(shù)據(jù)資源的巨大浪費,不利于結構的狀況評估和安全預警,甚至可能導致錯誤的分析結果[3-4]。因此,對監(jiān)測數(shù)據(jù)進行處理和分析是至關重要的。
監(jiān)測數(shù)據(jù)經(jīng)過預處理后,能夠剔除異常數(shù)據(jù),填補缺失數(shù)據(jù),獲得真實的數(shù)據(jù),并將數(shù)據(jù)進行轉(zhuǎn)化,進而提高數(shù)據(jù)挖掘的質(zhì)量。本文主要介紹了對監(jiān)測數(shù)據(jù)異常值、缺失值和數(shù)據(jù)平滑處理的方法。
異常值是指樣本中的個別值明顯偏離其它的觀測值[5]。
本文采用箱型圖進行異常值剔除。箱形圖對數(shù)據(jù)不作任何限制性要求,能夠直觀地反映數(shù)據(jù)的分布,是一種比較簡單、有效的判斷異常值的方法。它提供了識別異常值的一個標準。
異常值<QL-1.5 IQR 或異常值>QU+1.5 IQR
其中 QL 稱為下四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)值比它小;QU 稱為上四分位數(shù),表示有四分之一的數(shù)據(jù)值比它大;IQR 是四分位數(shù)間距,是 QU 與 QL 之差。圖1、2 是采用箱型圖剔除異常值的結果。
圖1 箱型圖
少量的異常值可以直接刪除,或者視為缺失值進行插補處理。如果監(jiān)測數(shù)據(jù)中出現(xiàn)了大量的、連續(xù)的異常值,則需要分析這些異常值產(chǎn)生的原因,這才是解決異常值的根本[6]。
圖2 剔除異常值前后對比曲線
監(jiān)測設備由于故障、停電等原因也會產(chǎn)生缺失值。數(shù)據(jù)缺失會對數(shù)據(jù)處理的結果造成誤差,給數(shù)據(jù)分析帶來一定的麻煩。下面給出了插補缺失數(shù)據(jù)的常用方法。
1)最近鄰插補。利用與缺失值最接近的數(shù)據(jù)值代替。
2)回歸方法。根據(jù)已有數(shù)據(jù)建立擬合模型來預測缺失值。
3)插值法。利用已知點建立合適的差值函數(shù) f(x),缺失值由其相對應的 xi求出的函數(shù)值 f(xi)來近似 代替。
本文采用拉格朗日插值法對缺失數(shù)據(jù)進行插補。已知 n 個點坐標(x1,y1),(x2,y2),…,(xn,yn),則可構造拉格朗日插值多項式,如式(1)所示。
然后將缺失值對應的橫坐標 xi代入插值多項式,即可得到缺失值的近似值 L(xi)。對上文剔除異常值后的數(shù)據(jù)進行拉格朗日插值,如圖3 所示。
圖3 拉格朗日插值處理后曲線
監(jiān)測系統(tǒng)采集的數(shù)據(jù)通常是真實值和各種干擾或噪聲等成分迭加在一起的結果。為了消除噪聲成分而讓真實值保留下來,需要對原始數(shù)據(jù)進行平滑處理。常用的數(shù)據(jù)平滑方法有移動平均法、中值濾波等。
本文采用移動平均方法,平滑效果如圖4 所示。它的基本思想是對監(jiān)測數(shù)據(jù)依次計算包含一定項數(shù)的平均值,逐項推移,可以消除隨機波動和季節(jié)性的影響,得到序列的變化趨勢。
圖4 移動平均法處理后對比曲線
時間序列通常是指按時間順序排列的一系列觀測數(shù)據(jù),監(jiān)測系統(tǒng)所采集的數(shù)據(jù)正符合時間序列的定義。將時間序列分析方法應用到房屋安全監(jiān)測中,分析監(jiān)測數(shù)據(jù)的變化特征和趨勢,預測數(shù)據(jù)未來的發(fā)展,幫助管養(yǎng)單位防范危險的發(fā)生。
設序列{xt}為平穩(wěn)、正態(tài)、零均值的時間序列,在 t 時刻的隨機變量 xt是前 p 期 xt-1,xt-2,…,xt-p和前 q 期的隨機擾動 εt-1,εt-2,…,εt-p的多元線性函數(shù),得到自回歸移動平均模型,記為 ARMA(p,q)模型如式(2)所示。
式中:p 為模型的自回歸階數(shù);q 為移動平均階數(shù);φ、θ 為不為零的待定系數(shù);{εt}為零均值的隨機干擾項。
特別的,當 q=0 時,ARMA(p,q)模型就變?yōu)?p 階自回歸模型,記為 AR(p),如式(3)所示。
當 p=0 時,ARMA(p,q)模型就變?yōu)?q 階移動平均模型,記為 MA(q),如式(4)所示。
1)平穩(wěn)性檢驗??梢愿鶕?jù)原始數(shù)據(jù)的時序圖、自相關函數(shù)或者通過單位根(ADF)檢驗,對序列的平穩(wěn)性進行識別。如果序列非平穩(wěn),可以使用差分的方法對數(shù)據(jù)進行差分處理,實現(xiàn)序列的平穩(wěn)化。
2)白噪聲檢驗。為了確定序列是否有分析的價值,需要進行白噪聲檢驗。一般是構造檢驗統(tǒng)計量來檢驗序列的純隨機性,例如 Q 統(tǒng)計量、QLB統(tǒng)計量。
3)模型識別。對平穩(wěn)非白噪聲序列的自相關系數(shù)和偏自相關系數(shù)進行分析,判斷其拖尾性和截尾性,確定模型的類別和階次,定階原則如表1 所示。
表1 模型定階的基本原則
4)參數(shù)估計。確定擬合模型后,求出模型中的未知參數(shù)的值。常用的參數(shù)估計方法有極大似然估計和最小二乘估計等。
5)模型檢驗。判斷模型殘差是否為白噪聲,如果殘差是非白噪聲,說明殘差中還存在可以提取的有用信息,此時需要對模型進一步改進。
6)模型優(yōu)化。如果一個序列能構造多個顯著有效的模型,可以通過最小信息準則從中選擇最優(yōu)模型。
7)模型預測。利用最終建立好的模型對序列未來的發(fā)展進行預測。
某居民樓建于 20 世紀 90年代,7 層砌體結構,材料強度不符合設計要求,各層承重墻體被普遍違規(guī)拆改,房屋地基不穩(wěn)定、傾斜嚴重。根據(jù)現(xiàn)場傾斜測量結果:最大傾斜率為偏東 17.2 ‰。
本次監(jiān)測采用基于云平臺的房屋安全監(jiān)測系統(tǒng)對該居民樓傾斜情況進行實時監(jiān)測。在樓頂東西兩邊各安裝一個傾角傳感器 Q 1、Q 2,傳感器測點布置如圖5 所示。X 方向的監(jiān)測方向為東西向;Y 方向的監(jiān)測方向為南北向。
圖5 傾角傳感器安裝位置示意圖
以測點 Q2 為例,取 2018年9月1日至 10月31日,共 61 期監(jiān)測數(shù)據(jù),對前 55 期數(shù)據(jù)進行建模分析,后 6 期數(shù)據(jù)作為預測結果的比較。
圖6 的數(shù)據(jù)是經(jīng)過預處理后的房屋傾斜數(shù)據(jù),直觀地發(fā)現(xiàn)該數(shù)據(jù)有明顯的增長趨勢,初步判斷該序列是非平穩(wěn)、非白噪聲的時間序列。
圖6 原始序列圖
對原始序列進行一階差分運算使其平穩(wěn)化,差分公式為:Δxt=xt-xt-1。一階差分后序列{Δxt}的時序圖如圖7 所示,差分序列基本上消除了趨勢項。采用 ADF 檢驗的方法判斷差分序列平穩(wěn)性,求得 τ 統(tǒng)計量對應的 P 值為 1.85×10-11,遠小于給定的顯著性水平 α=0.05,屬于平穩(wěn)序列。
然后對差分序列{Δxt}進行時間序列分析。由圖8 可以看出,差分后數(shù)據(jù)的自相關系數(shù)和偏自相關系數(shù)在二階延遲后均在2倍標準差以內(nèi),呈現(xiàn)出明顯的二階截尾現(xiàn)象。為了盡量避免因個人經(jīng)驗不足而導致的模型識別不準,本文嘗試了建立 ARMA(2,0)、ARMA(2,1)和ARMA(2,1)模型,然后再根據(jù)最小信息準則選擇最優(yōu)模型。
圖7 一階差分數(shù)據(jù)圖
圖8 差分數(shù)據(jù)自相關和偏自相關圖
值得注意的是,當分析的數(shù)據(jù)量少,要建立的時序模型不多時,可以通過自相關圖和偏相關圖來識別模型。但是如果需要分析的監(jiān)測數(shù)據(jù)量較大、監(jiān)測點較多時,采用人工方法逐個識別模型,這樣的工作量很大。這時,不妨直接依據(jù) BIC 準則,借助計算機程序,能夠自動、快速地求出 BIC 為最小值時所對應的 p,q 值。這樣對結果可能會稍有偏差,但是能節(jié)約大量時間,有利于實現(xiàn)對監(jiān)測數(shù)據(jù)的自動化分析。
BIC 準則是擬合精度與未知參數(shù)個數(shù)的加權函數(shù),當 BIC 函數(shù)值達到最小時所對應的模型即為最優(yōu)模型,如式(5)所示。
式中:L 為模型的極大似然估計值;K 為模型未知參數(shù)個數(shù);N 為觀測值數(shù)量。
運用 BIC 準則確定模型為ARMA(2,0),然后對模型的殘差進行白噪聲檢驗。構造 QLB檢驗統(tǒng)計量,結果表明一階延遲的 QLB統(tǒng)計量 P 值為 0.649,大于顯著性水平α=0.05,所以判定該殘差序列是白噪聲,該模型合理。
最后采用最小二乘法對模型參數(shù)進行估計,確定模型表達式,如式(6)所示。
根據(jù)建立的 ARMA(2,0)模型擬合原始數(shù)據(jù),擬合和預測結果如圖9 所示(虛線為原始數(shù)據(jù),實線為擬合預測數(shù)據(jù),陰影部分代表預測值 95 % 置信區(qū)間)。
圖9 原始數(shù)據(jù)與擬合預測數(shù)據(jù)對比圖
后 6 期傾斜數(shù)據(jù)的預測值如表2 所示,模型的擬合和預測有較高的精度,實測值基本在預測值 95 % 的置信區(qū)間內(nèi),同時隨著預測期數(shù)的增加,預測誤差有增大的趨勢。
表2 時間序列分析預測結果
為了能夠充分利用海量的監(jiān)測數(shù)據(jù),本文以某居民樓傾斜監(jiān)測為例,對數(shù)據(jù)預處理和時間序列分析方法進行了研究,得到以下結論。
1)對房屋監(jiān)測數(shù)據(jù)的預處理可以提高數(shù)據(jù)分析的質(zhì)量和效率。
2)依據(jù)最小信息準則通過程序可以實現(xiàn)對時間序列模型的自動定階,從而實現(xiàn)對監(jiān)測數(shù)據(jù)的自動化分析。
3)在進行時間序列分析時,不僅僅要求出具體的預測值,更要得到預測值合理的置信區(qū)間。如果下一期的實測數(shù)據(jù)超過了這個置信區(qū)間,可視為異常情況,應當引起分析人員的注意。
4)時間序列模型具有較高的短期預測精度,預測精度會隨著預測期數(shù)的增加而下降。因此在實際監(jiān)測過程中,應根據(jù)新的監(jiān)測數(shù)據(jù)及時更新模型,從而提高預測精度,及時做出預警。Q