郝美云,孫憲坤,尹 玲,丁倩云,尹京苑
(1.上海工程技術大學 電子電氣工程學院,上海 201600;2.上海市地震局,上海 200333)
高精度控制網(如國家A、B級網)的建立以及各種形式的形變檢測(如地殼運動、橋梁建筑物、海平面變化等)都離不開高精度全球定位系統(tǒng)(global positioning system,GPS)控制網基線解算過程,解算完成后需要對其解算質量進行分析。其中歸一化均方根(normalized root-mean-square value,NRMS)是衡量基線解算質量的重要指標之一,一般為0.25左右最優(yōu),理論上應小于0.3[1]。當出現(xiàn)NRMS值偏大或解算中途失敗的情況時,一般要人為查找錯誤原因,改正后再重新進行基線解算。針對數(shù)據(jù)量大,基線較長的大網,重復進行解算將耗費很長時間。在影響解算結果的諸多因素中,控制參數(shù)在解算時會多次變動,成為影響解算結果的重要不確定因素。
目前,對于解算控制參數(shù)的研究已有不少學者進行過相關工作。如文獻[1]分析了截止高度角、天頂延遲參數(shù)、觀測值類型等參數(shù)對解算結果的影響,提出一般解算情況下選擇10°的截止高度角比較適宜,天頂延遲參數(shù)取13,即每2 h產生一個天頂延遲估值比較合適。而觀測值類型則根據(jù)不同情況設置,對精度影響較大;文獻[2]研究了雙頻觀測中的L1解(L1_ONLY)、雙頻觀測中L1、L2獨立組合解(L1L2_INDEPENDENT)、基于電離層約束求解寬巷模糊度的LC解(LC_HELP)和基于碼求解寬巷模糊度的LC解(LC_AUTCLN)這4種觀測值類型對解算結果的影響,指出4種類型的設置對解算結果精度具有較大影響;文獻[3]研究了起始點坐標偏差對基線解算結果的影響,在進行基線解算時必須選取高精度的起算點。文獻[4-5]研究了Niell映射函數(shù)(Niell mapping function,NMF)、Vienna 映射函數(shù)(Vienna mapping function 1,VMF1)和全球映射函數(shù)(global mapping function,GMF)在不同高度角時對GPS解算結果的影響,選擇合適的映射函數(shù)對于對流層模型的準確性和 GPS 定位精度的提高有著十分重要的意義,指出采用 10°的高度角比較適宜。這些研究工作都具有一定的指導意義,但都是通過特定的數(shù)據(jù)針對不同控制參數(shù)來研究其對解算結果精度的影響。本文希望融合這些影響較大的控制參數(shù),建立一個Bayes分類模型來預測基線解算結果的好壞,提高解算效率。基于以上分析,考慮到對流層映射函數(shù)模型、衛(wèi)星高度角、先驗坐標和觀測值類型在解算過程中變動頻繁且對解算結果影響較大[6],選取以上4個參數(shù)作為解算結果的判別因子并建立Bayes預測模型。
要想實現(xiàn)解算結果的預測,需要選擇一個合適的分類器。這是一個有監(jiān)督學習過程的分類問題,此類問題的算法有很多。但是考慮到選取的4類參數(shù)之間是相互獨立的,即4類參數(shù)在設置更改的時候不存在依賴關系,所以選用Bayes分類器比其他判別模型如邏輯回歸要快很多;另外訓練集不大,選擇Bayes分類器比選擇K-近鄰分類器更不容易造成過擬合現(xiàn)象[7]?;诖?,引用Bayes分類器來實現(xiàn)解算結果的預測分類,其分類原理如下:
設x={a1,a2,…,am}為一個待分類項,其中a1是待分類項x的一個特征屬性。對應于本文,x可以理解為GPS基線解算結果項,這個結果項是由4類特征屬性決定的。類別集合表示成C={y1,y2,…,yn},C對應于本文中GPS解算結果的類型集合,normal或者abnormal。在x的各個特征屬性獨立的情況下,根據(jù)Bayes定理,樣本屬于類別yi的概率可以表示為
(1)
式中:p(yi|x)表示在已知待分類項x的特征屬性的情況下求樣本x屬于類別yi的概率;p(x|yi)表示在樣本空間中已知樣本屬于類別yi的情況下求yi對應的x的各組特征屬性的概率;p(yi)表示樣本空間中各個類別的樣本所占的比例;p(x)表示各個類對應的特征屬性的概率之和,p(x)=p(x|y1)p(y1)+p(x|y2)p(y2)+…p(x|yn)p(yn)。對于一個待分類項,在已知特征屬性的條件下求屬于各個類的概率,概率最大值對應的類別就是分類器輸出的結果。對于式(1)可以做如下簡化,分母p(x)對于所有的類別來說是一個常量,所以要想p(yi|x)值最大,只需考慮將分子最大化即可。又因為各特征之間相互獨立,所以分子可以表示為
(2)
式中:p(aj|yi)表示在已知類別yi的情況下各個特征屬性的概率;其余變量的意義見式(1)。所以只需得到式(2)的最大值,分類器就能輸出待分類樣本x所屬的類別yi。
利用Bayes分類器建立GAMIT基線解算結果的預測模型首先需要在GAMIT解算過程中設置更改4類參數(shù)來獲取不同的樣本數(shù)據(jù),從而獲得基線解算結果的先驗概率。然后利用訓練樣本進行Bayes預測模型訓練獲得基線解算結果屬于某類的后驗概率,最后利用測試集檢驗預測模型的性能。
對流層映射函數(shù)模型、衛(wèi)星高度角、觀測值類型這3個參數(shù)可以在測段信息控制文件sestbl.中做不同的更改;先驗坐標參數(shù)在lfile.rnx文件中更改可以獲取不同數(shù)值。在利用 GAMIT解算過程中除了更改實驗所需變動的控制參數(shù),其他控制參數(shù)默認設置如下:采用RELAX解算處理模式[8],觀測值模型選用LC_AUTCLN,天頂延遲參數(shù)個數(shù)為13,衛(wèi)星高度角為10°;采樣間隔30 s,觀測時長24 h,采用薩斯塔莫寧模型,GMF映射函數(shù),J2000慣性系,ITRF08框架。
解算結果在Ubuntu16.04系統(tǒng),GAMIT10.6環(huán)境下采集得到。采用上海崇明站DCMD,2015年03月21日(年積日第80天)至2015年03月31日(年積日第90天)11 d的數(shù)據(jù)。按照公共站的選取原則[9]選取BJFS、CCJ2、LHAZ、PIMO、YSSK這5個公共站,采用采用IGS精密星歷進行解算精密星歷進行解算。為了排除由于不好的觀測數(shù)據(jù)而導致解算結果出現(xiàn)abnormal現(xiàn)象,文中用到的原始觀測數(shù)據(jù)均使用TEQC和RTKLIB軟件進行質量檢核,對于不好的觀測數(shù)據(jù)都已剔除棄用。數(shù)據(jù)質量標準如下:L1多路徑(L1 multipath,mp1)、L2多路徑(L2 multipath,mp2)分別為0.32、0.33,觀測數(shù)據(jù)與周跳比為24 882,利用率100 %;其衛(wèi)星可見性、幾何精度因子(dilution of precision,DOP)值,多路徑及衛(wèi)星高度角分別如圖1~圖3所示??梢钥吹紻CMD測站衛(wèi)星可見性良好,DOP值較小,多路徑效應不明顯[10],即觀測數(shù)據(jù)質量較好。
實驗分別采用0、10°、15°、25°、30°、35°、40°衛(wèi)星高度角和NMF、VMF1 和 GMF三種映射函數(shù)進行組合解算,實驗結果如表1所示。當衛(wèi)星高度角設置為0、10°、15°、25°、30°時,無論采用哪種映射函數(shù),解算結果的NRMS值都小于0.3。隨著衛(wèi)星高度角的增大,NMF映射函數(shù)下NRMS值逐漸優(yōu)于GMF和VMF1下的NRMS值。VMF1更適合在衛(wèi)星高度角較小的情況下使用,衛(wèi)星高度角在10~15°時,GMF和VMF映射函數(shù)的改正效果相差不大[11]。分析其在N、E、U3個方向的誤差,NMF 映射函數(shù)在N、E、U3個方向誤差均要明顯大于GMF和VMF1,VMF1的效果要略好于GMF,因此推薦優(yōu)先使用VMF1映射函數(shù)或GMF函數(shù)[4]。當衛(wèi)星高度角大于等于35°之后,無論采用哪種映射函數(shù),解算結果出現(xiàn)NRMS值偏大或解算失敗的情況,屬于abnormal類。這種情況是由于衛(wèi)星高度角過高而導致解算過程中可用數(shù)據(jù)過少造成的[12]。
表1 映射函數(shù)模型和衛(wèi)星高度角的采集結果
實驗中對測站的先驗坐標X、Y、Z方向分別加入10、30、50、100、300 m的誤差,將各測站坐標施加強約束(X=0.05 m,Y=0.05 m,Z=0.05 m)進行GAMIT解算,解算結果如表2所示。當先驗坐標的偏差在10、30 m時,解算的NRMS值在正常范圍內且X、Y、Z方向坐標差較小,結果為normal類。當先驗坐標的偏差在50、100、300 m時,解算結果為abnormal。在坐標偏差為50 m時NRMS值雖然處于正常范圍,但是查看基線解算結果的質量指標文件sh_gamit_***.summary發(fā)現(xiàn)參數(shù)的改正量大于其約束量,這是不符合基線解算結果要求的,所以解算結果為abnormal。另外要想得到1 mm左右的基線解算精度,各測站近似坐標的絕對誤差必須小于300 m[13]。
表2 先驗坐標參數(shù)的采集結果
L1_ONLY、LC_HELP、LC_AUTCLN 和L1L2_INDEPENDENT是GAMIT軟件中4種常用的高精度GPS基線解類型[2]。實驗中分別采用這4種類型的觀測值進行GAMIT解算,實驗結果如表3所示。分析表3可知當選用基線解類型LC_HELP、LC_AUTCLN時解算結果為normal,而選用L1_ONLY、L1&L2時解算結果為abnormal。因為L1_ONLY和L1L2_INDEPENDENT僅適用5 km以下基線向量解算,LC_HELP和LC_AUTCLN適合長基線解算[2]。由于短基線兩端觀測環(huán)境相關性極強,宜采用差分模式消除觀測誤差的L1L2_INDEPENDENT和 L1 _ ONLY 解,而不宜采用模型改正的LC_AUTCLN解[14]。GAMIT軟件主要是針對中長基線解算的軟件,所以本文的分類器所選特征屬性LC_HELP和LC_AUTCLN對應的解算結果是normal類。
表3 觀測值類型參數(shù)的采集結果
總結以上分析,可以確定每個參數(shù)的特征屬性劃分及標簽,最終確定訓練樣本的特征向量形式如表4所示。由于篇幅限制,表中未將所有參數(shù)之間的組合數(shù)形式一一列出。
表4 訓練樣本的數(shù)據(jù)特征向量表現(xiàn)形式
在MATLAB R2014a平臺上編寫算法程序,完成GAMIT基線解算結果預測模型的訓練。隨機抽取10組樣本進行分類預測,識別的準確率見表5。10組樣本的預測平均準確率是99.06 %,說明本文提出的Bayes分類算法的高效性。
表5 Bayes分類器的預測模型識別結果
續(xù)表5
評價分類器的性能時,不僅要盡可能考慮達到高的準確率,還要考慮誤判時會帶來什么后果。文中希望分類器能判斷基線解算結果的好壞,如果abnormal誤判為normal,這遠比將normal誤判為abnormal帶來的后果要嚴重?;诖耍瑢嶒灲y(tǒng)計了normal和abnormal的精確率、召回率以及F1值。采用相同的10組測試樣本進行測試,3個指標如表6所示。通過表6可以看到abnormal類的平均召回率高達99.77 %、F1值99.17 %;normal類的平均召回率達94.64 %、F1值97.25 %。abnormal類的召回率高于normal類的召回率,這說明abnormal被預測為正的樣本中預測正確的個數(shù)比較高,也就是說出現(xiàn)誤判時normal類更有可能被分類器預測為abnormal類,這符合我們所希望的。綜合這3個指標分析得出:文中提出的基于Bayes分類的GAMIT基線解算結果的預測模型具有非常優(yōu)秀的判別性能,能夠作為基線解算結果的預判模型。
表6 模型性能評價指標平均值 %
文中用到的解算數(shù)據(jù)來源于上海崇明2015年3月21日至2015年3月31日共11 d的原始觀測數(shù)據(jù)文件。針對不同地區(qū),文中提出的Bayes判別分類模型是否同樣適用的問題,設計實驗進行研究分析。選取歐洲(LPAL、RECF)、非洲(WIND、ABPO)、美洲(COYQ、RIO2)及亞洲(ADIS、BJFS)地區(qū)各2個IGS站,在linux系統(tǒng)里面用腳本語言sh_get_rinex、sh_get_nav、sh_get_orbits下載8個IGS本地站及各自公共站的觀測值文件、廣播星歷文件和精密星歷文件。在解算8個本地站時,對上文提到的4類參數(shù)做不同的設置,記錄相應的解算結果。用生成的GAMIT基線解算結果Bayes分類器對解算結果進行預測,將預測結果與實際解算出來的結果進行對比分析來統(tǒng)計各自的平均準確率,見圖4。
從圖4可以看出,GAMIT基線解算結果的Bayes判別模型對不同地區(qū)的測站數(shù)據(jù)解算結果都有超過98.70 %的準確率,該模型具有一定的普適性。
首先,針對GAMIT解算過程中出現(xiàn)的NRMS值偏大、解算失敗的情況,選取了4個參數(shù)作為判別因子,建立了GAMIT基線解算結果的Bayes預測模型。實驗結果表明,提出的模型具有很高的分類準確率(99.06 %)和F1值。
其次,提出的預測模型可以有效地解決重復解算造成的效率低下問題,同時也為初學GAMIT解算軟件的非專業(yè)數(shù)據(jù)處理人員提供一個學習平臺。即可以輸入不同的參數(shù)組合,觀察解算結果的變化。
最后,將Bayes分類器應用到GAMIT解算結果預測方向,開拓了機器學習的應用范疇。但文中仍存在諸多不足,影響GAMIT軟件解算結果的參數(shù)遠不止文中提到的4類,文中提出的方法具有一定的應用局限性。影響GAMIT解算結果的因素很多,人為查找改正具有一定的局限性和遺漏性,下一步可以考慮利用神經網絡或者深度學習實現(xiàn)對影響因素的全面查找及自動改正。