陳 幸 張 帝 黃 頔 賀思林 趙 冰
(1.國網(wǎng)湖南電力有限公司電力科學(xué)研究院 2.國網(wǎng)湖南省電力有限公司技術(shù)技能培訓(xùn)中心3.國網(wǎng)湖南電力有限公司韶山供電分公司)
隨著社會經(jīng)濟(jì)的不斷發(fā)展,電力市場供求不斷進(jìn)步,用戶對供電可靠性、電能質(zhì)量及優(yōu)質(zhì)服務(wù)的需求不斷提高。配電自動化作為一種有效手段,在國內(nèi)的配電網(wǎng)中得到了廣泛應(yīng)用。配電自動化系統(tǒng)由配電主站(下文簡稱“主站”)、通信網(wǎng)絡(luò)、配電自動化終端(下文簡稱“終端”)等組成,通過采集配電網(wǎng)中的實(shí)時數(shù)據(jù),實(shí)現(xiàn)對配電網(wǎng)的監(jiān)測、控制和快速故障隔離,支撐配電網(wǎng)的調(diào)控運(yùn)行、故障搶修、生產(chǎn)指揮、設(shè)備檢修、規(guī)劃設(shè)計等業(yè)務(wù)的精益化管理。
考慮到地理因素及成本,湖南電力大規(guī)模采用無線公網(wǎng)通信方式接入終端,此方式既經(jīng)濟(jì)實(shí)用,又能滿足各項(xiàng)實(shí)用要求,在配電自動化建設(shè)中得到了廣泛應(yīng)用。
查閱相關(guān)文獻(xiàn)發(fā)現(xiàn),大部分只針對終端進(jìn)行頻繁掉線研究,本文從主站側(cè)、通信側(cè)及終端側(cè)系統(tǒng)性對頻繁掉線問題進(jìn)行了深入分析,并提出了解決思路和方案,為今后同類問題的分析排查提供了參考方向。
配電自動化系統(tǒng)由主站、通信網(wǎng)絡(luò)及終端等組成。通信報文傳輸路徑為終端-無線模塊-通信運(yùn)營商基站-運(yùn)行商核心網(wǎng)絡(luò)-APN 專線-安全接入網(wǎng)關(guān)-采集服務(wù)器-前置服務(wù)器,此過程可逆。
目前,配電自動化系統(tǒng)通信協(xié)議應(yīng)用DL/T634.5101-2002 實(shí)施細(xì)則、配電自動化系統(tǒng)應(yīng)用DL/T634.5104-2009 實(shí)施細(xì)則,實(shí)現(xiàn)數(shù)據(jù)傳輸、控制及功能拓展。
配電自動化系統(tǒng)無線公網(wǎng)通信通常采用101 規(guī)約細(xì)則。101 規(guī)約支持非平衡和平衡方式的信息傳輸。在配電自動化系統(tǒng)中,電力載波通信方式采用非平衡方式;無線公網(wǎng)通信方式采用平衡方式。
不同主站判定掉線的機(jī)制不同,本文以國內(nèi)某主流廠商研發(fā)的主站為例,進(jìn)行分析。
主站間隔30s 發(fā)送一次心跳幀以確認(rèn)鏈路狀態(tài)。當(dāng)30s 內(nèi)未收到終端對下行報文的確認(rèn)或應(yīng)答時,主站會進(jìn)行報文重發(fā),重發(fā)3 次仍未收到確認(rèn)或應(yīng)答后主站判定終端離線,此時主站會主動斷開通信連接,等待下一次重連。
2.2.1 終端報文傳輸過程
終端核心單元與無線模塊通過串口232 進(jìn)行通信,通信過程為核心單元將報文發(fā)送給無線模塊,無線模塊通過GPRS 無線網(wǎng)絡(luò)經(jīng)過通信基站傳輸給主站前置服務(wù)器;主站前置服務(wù)器下發(fā)報文給無線模塊,無線模塊再轉(zhuǎn)發(fā)給核心單元。
2.2.2 終端掉線判斷機(jī)制
終端上送應(yīng)用報文或心跳報文給無線模塊,在30s 之內(nèi)未收到主站回復(fù)的報文時,終端會進(jìn)行報文重發(fā),重發(fā)3 次主站仍未回復(fù),終端會主動斷開與主站的連接,等待下一次重連。
日掉線次數(shù)≥5 次,即可被視為頻繁掉線。據(jù)不完全統(tǒng)計,30%的終端存在頻繁掉線情況。
終端頻繁掉線會造成三遙信息丟失、遙控及遠(yuǎn)程調(diào)閱和下發(fā)定值參數(shù)失敗,嚴(yán)重影響影響配電自動化實(shí)用化應(yīng)用,其造成的后果及影響遠(yuǎn)遠(yuǎn)大于長期離線,并且頻繁掉線原因調(diào)查難度大,分析時間長。通過對終端頻繁掉線問題進(jìn)行長期跟蹤調(diào)查與研究分析,發(fā)現(xiàn)造成頻繁掉線的原因主站側(cè)主要為安全接入網(wǎng)關(guān)50 報文在鏈路重啟后未下發(fā)、心跳幀重發(fā)3 次的機(jī)制未生效、多線程運(yùn)行問題等,通信網(wǎng)絡(luò)側(cè)主要為通道資源容量不足、無線模塊主動釋放鏈路等,終端側(cè)主要為鏈路狀態(tài)管理不嚴(yán)謹(jǐn)、加密芯片主動休眠等。本文通過網(wǎng)絡(luò)抓包方式,分區(qū)段同時截取上下行收發(fā)報文,來進(jìn)行頻繁掉線分析。
3.2.1 安全接入網(wǎng)關(guān)50報文在鏈路重啟后未下發(fā)
主站和終端網(wǎng)絡(luò)層建立鏈接后,19:31:08.480 由主站前置服務(wù)器下發(fā)50 報文,在19:32:15.884發(fā)送RST 網(wǎng)絡(luò)層鏈路重置命令,見圖1。
圖1 主站前置服務(wù)器50報文截圖
主站與終端建立通信鏈接后,聯(lián)通核心網(wǎng)收到的第一幀報文是在19:31:08.512 從主站側(cè)發(fā)送終端側(cè)的20(安全網(wǎng)關(guān)認(rèn)證流程)報文,安全認(rèn)證流程在19:31:15.503 結(jié)束,此過程持續(xù)7s。在1min 后收到主站側(cè)下發(fā)給終端側(cè)的鏈路重置命令,期間主站沒有向終端發(fā)送50加密流程認(rèn)證的報文,見圖2。
圖2 聯(lián)通核心網(wǎng)抓包
查看安全接入網(wǎng)關(guān)配置可知,網(wǎng)關(guān)收到前置機(jī)50 報文后啟動網(wǎng)絡(luò)安全認(rèn)證流程,安全認(rèn)證時間為5s,超過認(rèn)證時間后,重置鏈路鏈接。由于無線通信的不確定性,延長網(wǎng)關(guān)機(jī)安全認(rèn)證時間至10s,可解決安全接入網(wǎng)關(guān)50 報文在鏈路重啟后未下發(fā)的問題。
3.2.2 多線程等配置參數(shù)引起主備前置機(jī)通道搶占
主站前置主機(jī)A 在與終端正常通信的情況下,主站前置備機(jī)B 會主動向終端下發(fā)50 報文,終端接收到前置機(jī)B 的報文后,會立即斷開連接,等待下一次連接,見圖3。同時終端響應(yīng)前置主機(jī)上送的應(yīng)用數(shù)據(jù)時,數(shù)據(jù)量較大,需要一一調(diào)取加密芯片進(jìn)行數(shù)據(jù)加解密處理,出現(xiàn)前置主機(jī)A 和前置主機(jī)B加解密沖突,導(dǎo)致加解密失敗掉線。
圖3 主站備機(jī)發(fā)起鏈路重置鏈接
3.2.3 主站加密認(rèn)證流程邏輯不嚴(yán)謹(jǐn)
主站與終端通信連接正常流程為安全認(rèn)證-加密認(rèn)證-初始化-初始化總召-時鐘同步-心跳,數(shù)據(jù)解析優(yōu)先級應(yīng)按照表1 進(jìn)行,終端在加密認(rèn)證、文件召喚、參數(shù)讀取修改、遙控操作、總召、電能量總召及故障遙信等傳輸過程中未嚴(yán)格按照報文優(yōu)先級進(jìn)行上送,導(dǎo)致解密失敗。如在安全身份認(rèn)證過程中,終端上送應(yīng)用報文,主站未完成安全認(rèn)證的情況下進(jìn)行報文解析,由于加密認(rèn)證過程邏輯不嚴(yán)謹(jǐn),導(dǎo)致終端掉線。
3.2.4 主站側(cè)3次重發(fā)機(jī)制未生效
主站規(guī)約層重發(fā)機(jī)制有利于山區(qū)等運(yùn)營商信號較弱地區(qū)的終端在線保持,一般設(shè)置為重發(fā)3 次,每次間隔為30s,3 次均未收到終端回復(fù)的報文,則判定為終端離線,主站會重新發(fā)起通信連接。
通過主站前置機(jī)、接入網(wǎng)關(guān)、聯(lián)通APN 專線接入交換機(jī)及終端側(cè)無線模塊抓包發(fā)現(xiàn),主站發(fā)送給終端的規(guī)約報文在超時未收到來自終端側(cè)TCP 層的確認(rèn)(ACK 幀,TCP 層超時時間設(shè)置的1s)時,見圖4,主站會直接重置TCP 連接,導(dǎo)致規(guī)約層3 次重發(fā)機(jī)制未能生效。
圖4 遙控報文
3.2.5 主站未回復(fù)終端遙控預(yù)置確認(rèn)幀的短幀確認(rèn)
遙控預(yù)置時,主站收到終端遙控預(yù)置確認(rèn)長幀報文后,沒有下發(fā)短幀確認(rèn)幀(報文內(nèi)容:10 00 01 00 01 16),導(dǎo)致終端判定遙控預(yù)置確認(rèn)幀發(fā)送失敗,觸發(fā)重傳機(jī)制,見圖4。終端重發(fā)三次遙控選擇確認(rèn)報文,主站仍未進(jìn)行響應(yīng),終端判定與主站連接斷開,重置鏈路并進(jìn)行新一次連接。
3.3.1 無線模塊主動切換接入基站
終端通過無線模塊、通信基站、主站進(jìn)行通信連接,某廠家無線模塊在與通信基站進(jìn)行連接時,會優(yōu)先選擇周邊通信信號值優(yōu)于6 的基站,在基站切換過程中,會釋放鏈路。
通過聯(lián)通公司基站抓包來分析,無線模塊切換基站共用時22s。從分析結(jié)果來看,無線模塊切換基站耗時長,次數(shù)較為頻繁,在切換過程中,終端收不到任何主站下發(fā)的報文,存在很長的空檔期。
3.3.2 通信通道現(xiàn)有容量不足
101 報文最短報文為18 字節(jié)長度(不帶信息對象,不考慮6字節(jié)短幀),最大長度為255字節(jié)??紤]到實(shí)際無線通信延時,按單幀報文從源端到目的端(包括TCP 傳輸層的ACK 傳輸完成)傳輸需要1 秒算。單次101 報文平均大?。海?8+255)/2=136.5 字節(jié),外加TCP 報文頭及一次ACK,為250.5 字節(jié),共2004bit。
考慮極端情況,所有終端都在進(jìn)行初始化加密認(rèn)證或業(yè)務(wù)報文應(yīng)答,在考慮80%負(fù)載率情況下,每1000臺所需通信帶寬為:
當(dāng)APN 專線通信帶寬低于上述值時,就會導(dǎo)致通信延時加長、丟幀等異常情況發(fā)生,加大TCP 連接斷開并重連的幾率。此時需要對專線帶寬進(jìn)行擴(kuò)容。
3.4.1 終端鏈路狀態(tài)管理不嚴(yán)謹(jǐn)
通過上述3.2.3 已經(jīng)了解到主站存在加密認(rèn)證流程邏輯不嚴(yán)謹(jǐn)問題,同時存在主站身份認(rèn)證結(jié)果下發(fā)(應(yīng)用類型:54)和主站對終端發(fā)起密鑰協(xié)商請求(應(yīng)用類型:58)兩幀報文之間設(shè)置30~35s 延時,且不得有任何數(shù)據(jù)交互的機(jī)制。通過了解,主站安全接入網(wǎng)關(guān)在處理這兩幀報文存在延時,54 和58 兩幀報文抵達(dá)終端的先后順序發(fā)生錯亂,會導(dǎo)致初始化加密流程無法順利完成,因此在54 報文下發(fā)延時30~35s后才下發(fā)58報文。
上述配置情況下,對終端報文進(jìn)行抓取分析,發(fā)現(xiàn)如下問題會導(dǎo)致終端頻繁離線:
(1)終端在加密過程中主動上送突變數(shù)據(jù),未嚴(yán)格按照標(biāo)準(zhǔn)規(guī)范的優(yōu)先級進(jìn)行回復(fù),邏輯不嚴(yán)謹(jǐn)。
(2)終端設(shè)置了定時上送機(jī)制,在20~25s 之間與主站未進(jìn)行任何信息交互,會主動上送鏈路請求幀(報文內(nèi)容:10 89 01 00 8A 16),此邏輯設(shè)置不符合標(biāo)準(zhǔn)規(guī)范。
3.4.2 加密芯片主動休眠
加密芯片ESAM上電后,半小時內(nèi)未收到處理指令,會自動進(jìn)入休眠狀態(tài)。處于休眠狀態(tài)的ESAM芯片不應(yīng)答任何處理指令,直到掉電后再次上電,如圖5。
圖5 加密芯片運(yùn)行流程
在實(shí)際主站與終端通信過程中,只有安全身份認(rèn)證和遙控需要傳遞處理指令給加密芯片,常規(guī)應(yīng)用報文(包括數(shù)據(jù)總召、遙信突發(fā)、遙測越限上送和對時等)和心跳報文均未經(jīng)過ESAM芯片處理,導(dǎo)致現(xiàn)場終端內(nèi)ESAM芯片很容易進(jìn)入休眠狀態(tài)。此時主站進(jìn)行遙控操作,終端無法通過ESAM芯片完成報文解密及驗(yàn)簽,無法對主站遙控報文進(jìn)行正確應(yīng)答,超時后主站將連接連開,導(dǎo)致“一遙控,終端就掉線”。
因報文傳輸路徑為終端-無線模塊-通信運(yùn)營商基站-運(yùn)行商核心網(wǎng)絡(luò)-APN 專線-安全接入網(wǎng)關(guān)-采集服務(wù)器-前置服務(wù)器?,F(xiàn)場發(fā)生頻繁掉線后,可采用三步定位法快速判斷故障位置,提升工作效率。
第一步:確定頻繁掉線終端,從主站側(cè)或終端側(cè)調(diào)取該終端三日內(nèi)報文記錄,查看掉線時刻報文交互過程是否按照根據(jù)DL/T 634.5101-2002 標(biāo)準(zhǔn)流程進(jìn)行,并查看是否每次掉線情況一致。
(1)若報文交互過程未按照標(biāo)準(zhǔn)流程進(jìn)行,則故障點(diǎn)為主站與終端的規(guī)約程序問題。
(2)若報文交互過程正常,進(jìn)行第二步。
第二步:分別抓取前置服務(wù)器、安全接入、無線通信模塊通信報文,通過Wireshark 等分析軟件開展分析來確定故障點(diǎn)。
(1)綜合分析判斷故障點(diǎn)位置,若前置服務(wù)器和安全接入網(wǎng)關(guān)存在報文記錄,而無線模塊日志無記錄,故障點(diǎn)定位在運(yùn)營商側(cè)。
(2)若前置服務(wù)有報文記錄,安全接入網(wǎng)關(guān)和無線模塊無報文記錄,故障點(diǎn)定位在采集服務(wù)器側(cè)。
(3)若前置服務(wù)器無報文記錄,則故障點(diǎn)定位在前置服務(wù)器本身。
(4)若前置服務(wù)器、安全接入網(wǎng)關(guān)、無線模塊都有報文記錄,則故障點(diǎn)定位在終端側(cè)。
第三步:排除第一步和第二步的情況下,檢查通信運(yùn)營商配置容量及配置參數(shù),并查看是否存在無線模塊頻繁切換基站日志。
隨著配電自動化實(shí)用化需求及應(yīng)用程度越來越高,終端上線穩(wěn)定性至關(guān)重要,終端頻繁掉線問題的解決,能極大的提高終端遙測、遙信數(shù)據(jù)上送正確率和主站遠(yuǎn)方遙控終端的成功率;同時也才能有效推行基于各種維度的主站集中式饋線自動化功能及其他復(fù)雜應(yīng)用,不斷提升供電可靠性,促進(jìn)社會經(jīng)濟(jì)發(fā)展和人民生活質(zhì)量提高。