鄧瑩
摘 要 本文介紹了基于西門子PCS7控制系統(tǒng)的服務(wù)器維護(hù)的非典型案例(如磁盤空間迅速變?。?、解決思路及設(shè)計(jì)原理,對于提高生產(chǎn)效率,保證生產(chǎn)安全有及其重要的意義。
關(guān)鍵詞 服務(wù)器;磁盤空間;病毒
中圖分類號 TH17 文獻(xiàn)標(biāo)識碼 A 文章編號 2095-6363(2017)12-0099-01
DCS的操作監(jiān)控層,主要由操作員站、工程師站、監(jiān)控計(jì)算機(jī)和服務(wù)器等組成。它綜合監(jiān)控各站所有信息,集中現(xiàn)實(shí)操作,控制回路組態(tài)和參數(shù)修改,優(yōu)化過程處理等。其中服務(wù)器又是屬于銜接網(wǎng)絡(luò)操作層與過程控制層的重要銜接點(diǎn),如果服務(wù)器產(chǎn)生故障,短期將會導(dǎo)致上位機(jī)失去對下位機(jī)的監(jiān)控,影響生產(chǎn);嚴(yán)重情況下會觸發(fā)聯(lián)鎖條件導(dǎo)致生產(chǎn)停車和重大安全事故。所以服務(wù)器(包括連接服務(wù)器的網(wǎng)絡(luò)設(shè)備)都是我們?nèi)粘>S護(hù)的重點(diǎn),尤其是不宜發(fā)現(xiàn)的軟故障。某項(xiàng)目服務(wù)器在項(xiàng)目運(yùn)行初始出現(xiàn)過一些異常情況,最終由于通過完善授權(quán)、重裝服務(wù)器、加裝殺毒軟件使問題得到處理,現(xiàn)將一些典型案例解析如下。
1 服務(wù)器故障現(xiàn)象
1.1 服務(wù)器要求重啟
某項(xiàng)目采用的是PCS7的系統(tǒng)(v7.0),采用的是雙服務(wù)器雙環(huán)路冗余配置。服務(wù)器自動重啟短期內(nèi)出現(xiàn)過3次。在服務(wù)期負(fù)荷分擔(dān)均勻,單個服務(wù)器負(fù)荷冗余量較大的情況下,雙服務(wù)器冗余配置中其中一個服務(wù)器重啟并不會導(dǎo)致太大的故障。但是服務(wù)器開始重啟到完全恢復(fù),需要30min左右的時間,這個時間段如果另外一臺服務(wù)器發(fā)生故障,也會導(dǎo)致網(wǎng)絡(luò)失控的情況出現(xiàn)。
該項(xiàng)目其中有一次是服務(wù)器B重裝系統(tǒng),倒回了備份的授權(quán),再次出現(xiàn)了要求服務(wù)器重啟的情況。
我們查看服務(wù)器Windows事件記錄多次一致,均出現(xiàn)了“reboot” “applicationerror”“redundancycontrol”等情況,根據(jù)微軟提供的解決方案,為了解決“crypt32”的問題,“必須連接到Internet或關(guān)閉更新根證書組件。要按下列步驟要關(guān)閉更新根證書組件:
1)在控制面板,雙擊添加/刪除程序。
2)單擊添加/刪除Windows組件。
3)單擊以清除UpdateRootCertificates復(fù)選框,然后再繼續(xù)Windows組件向?qū)?。”問題依然存在。另外一個冗余服務(wù)器也存在有相似的錯誤。結(jié)論:排除了CPU時間不一致的前提下,很大可能性是病毒。
1.2 服務(wù)器系統(tǒng)盤突變
某項(xiàng)目在使用操作員畫面的過程中,反映打開趨勢圖,畫面長時間顯示“從歸檔裝載”?,F(xiàn)場分析,發(fā)現(xiàn)起服務(wù)器A的C盤(系統(tǒng)盤)已經(jīng)滿(12G/0G)。而對應(yīng)的服務(wù)器B卻是正常的(12G/3G)。經(jīng)過分析和對比,發(fā)現(xiàn)c:\programfile\microsoftsqlserver\MSSQL.1\MSSQL\DATA\tempdb.mdf的大小為3G多,對應(yīng)B服務(wù)器卻為70多M。本問題在7天內(nèi)連續(xù)出現(xiàn)過3次。
對于該問題,我們采用了三大臨時解決辦法:
1)重啟服務(wù)器。為了應(yīng)急,首先可以考慮重啟服務(wù)器。重啟服務(wù)器可以暫時消除臨時文件,但文件后面還會自動增加。
2)轉(zhuǎn)移臨時文件位置。主要目的是針對C盤初始劃分過小的情況,將SQL的臨時文件轉(zhuǎn)移到其它相對較大的驅(qū)動盤中。
3)轉(zhuǎn)移虛擬文件位置的設(shè)置。服務(wù)器的物理內(nèi)存為8G。Window系統(tǒng)推薦虛擬內(nèi)存設(shè)置為6G多。查看了一下虛擬內(nèi)存的設(shè)置,虛擬內(nèi)存在C盤設(shè)置為2G~4G??梢詫⑻摂M內(nèi)存修改為:C盤300M~500M(系統(tǒng)提示,C盤至少需設(shè)置為200M)。設(shè)置虛擬內(nèi)存8G~12G至E盤。(150G/145G)。目前,C盤尚余5G左右空間(共計(jì)12G)
不管是轉(zhuǎn)移臨時文件、轉(zhuǎn)移虛擬內(nèi)存還是增加C盤分驅(qū)的大小都是治標(biāo)的方法,不是治本的方法。因?yàn)檫€是可能”“tempdb.mdf”還是會突然變大(大概500M/分鐘的速度),從而使得磁盤滿,導(dǎo)致操作速度變慢,問題沒有得到根本解決。分析故障原因的方向還是指向了病毒。
2 原因分析及解決
2.1 原因分析
無論是服務(wù)器要求自動重啟,還是服務(wù)器系統(tǒng)盤突然增大的情況,都是反復(fù)出現(xiàn),我們首先從網(wǎng)絡(luò)架構(gòu)和服務(wù)器配置方面入手分析。該服務(wù)器對應(yīng)操作終端的組態(tài)為:物理服務(wù)器為A、冗余服務(wù)器為B、無首選服務(wù)器。從現(xiàn)象上看,三次問題均發(fā)生在A,有一次問題發(fā)生在B。咨詢了400工程師,給出的問題是服務(wù)器負(fù)荷問題,但是從本系統(tǒng)組網(wǎng)架構(gòu)上看不是負(fù)荷問題,且系統(tǒng)建成后出現(xiàn)很多疑似病毒的征兆,加裝殺毒軟件,該告警在半年內(nèi)沒有再次出現(xiàn)過。巡檢又反復(fù)發(fā)現(xiàn)“crypt32”告警,初步認(rèn)為有可能是頑固病毒導(dǎo)致部分程序死循環(huán)運(yùn)行引起的問題。
分析發(fā)現(xiàn)了紅色的“ServiceControlManager”記錄在Windows的系統(tǒng)日志里多次出現(xiàn),并且同時發(fā)現(xiàn)了“等待DLANX服務(wù)的連接超時(30 000毫秒)”這個告警。通過深入研究,發(fā)現(xiàn)是Win32.Almanahe.B在C盤下自動生成setup.exe文件引發(fā)的,它將會下載并運(yùn)行任意文件,終止某些程序進(jìn)程,并且導(dǎo)致“tempdb.mdf”等文件增大。
2.2 最終解決
最終還是要從病毒防治方面入手:1)嚴(yán)格采購與DCS系統(tǒng)版本匹配(在DCS的說明手冊上有說明)的殺毒軟件;2)在系統(tǒng)剛剛開始建設(shè)的時候就要引入殺毒系統(tǒng);3)要配置防火墻并且進(jìn)行網(wǎng)絡(luò)安全測試;4)一定要定時更新病毒庫;5)配置好查殺策略,可以在摸透生產(chǎn)運(yùn)行規(guī)律的前提下,在低負(fù)荷時段查殺;6)對操作員站的USB端口要作物理和技術(shù)隔離處理;7)加強(qiáng)對DCS維護(hù)人員和操作員站的操作人員進(jìn)行培訓(xùn)。
3 結(jié)論
服務(wù)器的運(yùn)行管理是涉及服務(wù)器運(yùn)行負(fù)荷、鏈路端口狀態(tài)、防病毒和防木馬策略配置、信息安全管理等各個方面的綜合事務(wù)。除了各種渠道獲取解決經(jīng)驗(yàn)外,更要建立完備的日常管理運(yùn)行臺賬,以便于查找歷史記錄,快速解決類似問題,為生產(chǎn)贏得寶貴時間。
參考文獻(xiàn)
[1]鄒稥鵬.DCS系統(tǒng)安裝調(diào)試技術(shù)與改進(jìn)措施[J].大科技,2016(16).
[2]劉杰.DCS安裝、調(diào)試中經(jīng)常出現(xiàn)的問題及改進(jìn)措施[J].城市建設(shè)理論研究(電子版),2014(28).
[3]王建民,婁國煥,郝成.冶金豎爐燒結(jié)溫度的仿真與控制[J].冶金自動化,2004,28(5):47-49.