王增波
WANG Zeng-bo
(寧波鋼鐵有限公司,寧波 315807)
多年來國內冶金行業(yè)控制系統(tǒng)一直采用服務器冷切換方式、熱切換方式或集群方式作為數(shù)據(jù)庫、I/O服務器的控制方式。傳統(tǒng)采用的是雙機熱備方案,該方法不僅不能節(jié)省投資成本,而且系統(tǒng)的可靠性得不到保證。
隨著經濟的迅速發(fā)展和計算機、網(wǎng)絡等技術的不斷進步,冶金企業(yè)在加快建設步伐的同時,也面臨著控制系統(tǒng)的要求越來越高這樣一個局面。因此,建立高精度、高可靠性的冶金控制系統(tǒng),已經是當務之急。
隨著運行時間的增加,整個監(jiān)控系統(tǒng)的安全性越來越受重視。各種升級后的計算機設備、路由設備、交換設備、操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng)等都會有不同程度的故障風險,再加上使用環(huán)境、資源共享、數(shù)據(jù)通信、計算機病毒以及網(wǎng)絡管理等方面的不安全因素,使得控制系統(tǒng)數(shù)據(jù)的安全性和有效性變得更加重要。以往,為提高控制系統(tǒng)數(shù)據(jù)信息的可靠性,通常在控制系統(tǒng)中采用雙機熱備方案。盡管采用該方案對系統(tǒng)的可靠性有所提高,但卻增加了系統(tǒng)整體的軟硬件投資費用,同時增加了系統(tǒng)的管理和維護工作,更重要的是,系統(tǒng)的可靠性并不一定能得到足夠的保障。
因此,尋找并采用一種具備高可用性、低成本、易維護的服務器應用方案,是眾多冶金企業(yè)一直在研究的課題。筆者根據(jù)多年的冶金行業(yè)服務器應用經驗,結合目前國內外在高可用性服務器領域的成熟技術方案和有效應用成果,發(fā)現(xiàn)使用可用性高于99.999%以上的Stratus容錯服務器代替?zhèn)鹘y(tǒng)的雙機熱備方案是一種有效的途徑。
寧波鋼鐵五豐塘焦化廠為了能更好的提供控制系統(tǒng)核心服務器的連續(xù)可用性,采用了世界上最先進的容錯服務器作為控制系統(tǒng)核心服務器。這種方案不但可避免雙機熱備方案中單硬件系統(tǒng)故障所造成的系統(tǒng)停機以及系統(tǒng)切換帶來的的經濟損失,同時還可減少焦化控制系統(tǒng)的后續(xù)維護量及維護費用。由于容錯服務器采用了硬件冗余設計,整個硬件系統(tǒng)從主板、CPU、內存到I/O模塊都采用雙份冗余模式,并且基于先進的鎖步(LockStep)技術,各冗余模塊在同一時鐘周期執(zhí)行相同的指令,使得整個系統(tǒng)能夠消除單點故障、無故障切換時間,連續(xù)可用性高于99.999%。
圖1 容錯系統(tǒng)原理圖
容錯服務器(如圖1所示)與傳統(tǒng)服務器(如圖2所示)在物理結構上最重要的區(qū)別有兩點:1)容錯服務器采用了雙份冗余容錯硬件,包括CPU、內存、主板、硬盤、I/O系統(tǒng)等等;2)容錯服務器在物理構成上將CPU-內存單元與I/O單元分離,中間增加了容錯公司定制的故障偵測與隔離邏輯芯片組進行PCI橋接,該芯片組是容錯服務器實現(xiàn)時鐘同步操作、容錯、糾錯等功能的基礎。
圖2 傳統(tǒng)計算機系統(tǒng)原理圖
Stratus容錯的核心技術——連續(xù)處理技術是三十年來為全球最苛刻的應用確保連續(xù)運行時間之經驗的結晶。連續(xù)處理技術主要由三個核心要素構成,分別是:時鐘同步技術、故障安全軟件和主動服務體系。
鎖步技術(Lockstep Technology),也稱時鐘同步技術,采用雙份的容錯硬件,由同一時鐘源進行控制,兩套硬件在同一時刻執(zhí)行相同的指令。在一個部件出現(xiàn)故障的情況下,其冗余部件就像已激活了的備件一樣繼續(xù)正常的操作,預防了停機現(xiàn)象。鎖步技術使系統(tǒng)還能消除可引起軟件故障的瞬間硬件錯誤。
Stratus故障安全軟件(Failsafe Software)與鎖步技術協(xié)同工作,能夠預防許多會升級到停機的軟件故障。與通常的服務器或集群系統(tǒng)不同,ftServer的硬件和軟件以透明的方式處理這類錯誤,而對操作系統(tǒng)、中間件、應用軟件進行屏蔽,同時駐留內存數(shù)據(jù)也得到很好的保護及維護。
此外,其管理和診斷特性還對其他軟件問題進行跟蹤、分析,以及向Stratus通報這些軟件問題,使支持人員在軟件問題發(fā)生之前超前糾正問題。強化的設備驅動程序也顯著增加了ftServer系統(tǒng)內Windows環(huán)境的穩(wěn)定性。
Stratus獨到的主動服務體系(ActiveService)能提供冠絕群倫的服務能力。Stratus ftServer系統(tǒng)能夠持續(xù)監(jiān)視自身的操作,發(fā)現(xiàn)故障后,服務器會即時隔離故障,并且自動呼叫Stratus支持中心,準確告知其應采取何種解決措施。
圖3 焦化廠分布式控制系統(tǒng)結構圖
ftServer通過訪問適配器及Stratus全球主動服務網(wǎng)絡(ActiveServiceNetwork)為客戶提供遠程支持服務,服務工程師據(jù)此實現(xiàn)在線故障診斷、排障,在線解決率達95%以上。必要時,系統(tǒng)還能自動訂購其熱插拔替換部件,確保相應的部件能在24小時內運到全球主要地點客戶手中。客戶更可以在ftServer無中斷的情況下,輕易安裝需更換的備件。同時,Stratus和客戶授權的經銷商還可透過互聯(lián)網(wǎng)的主動服務管理器(ActiveService Manager)互相協(xié)作,快速解決問題。
寧波鋼鐵五豐塘焦化廠為了能更好的提高控制系統(tǒng)的連續(xù)可用性,采用了世界上最先進的容錯服務器作為控制系統(tǒng)核心服務器及HMI服務器。五豐塘焦化廠是一個新建項目,有JN60-6型焦爐兩座,以及與之配套的管帶機、圓形料場、備煤、焦爐除塵、干熄焦、篩貯焦、煤氣回收、污水處理等生產系統(tǒng),各生產車間工段均設置相應的PLC控制系統(tǒng),并設置了中控室,各個控制系統(tǒng)均通過網(wǎng)絡將生產實時數(shù)據(jù)引入中控室,以實現(xiàn)生產的集中監(jiān)控、集中管理和統(tǒng)一調度功能。系統(tǒng)通訊采用C/S模式,在中控室設置了備煤、焦爐、煤氣凈化、篩焦等生產系統(tǒng)的Data Server和HMI Server;另外還設置了超級服務器,采集和存儲全廠生產實時數(shù)據(jù),并用于對過程機和EMS能源中心進行生產管控和能源計量數(shù)據(jù)的實時發(fā)布和上傳。其中煤氣凈化系統(tǒng)為化工性質、連續(xù)生產,對服務器提出了高可靠性、連續(xù)可用性要求;超級服務器作為全廠生產管控系統(tǒng)的核心,其重要性更是不言而喻。焦化廠控制系統(tǒng)結構圖如圖3所示。
按照傳統(tǒng),為提高控制系統(tǒng)的可靠性,通常采用雙機熱備方案,由兩臺獨立服務器構成,再通過集群軟件完成故障切換。但是,這種方案的可靠性是建立在集群軟件的基礎上。隨著數(shù)據(jù)庫越來越大,應用越來越復雜,一旦系統(tǒng)中某一環(huán)節(jié)出現(xiàn)故障,其切換時間需要幾分鐘到幾十分鐘,同時,切換時間內的動態(tài)實時數(shù)據(jù)將隨之丟失。更重要的是,切換工作并不一定每次都能成功。
相比之下,Stratus容錯服務器所采用的冗余硬件同步技術(Lockstep),能保持多CPU/內存單元在精確的同步狀態(tài)——同一時鐘周期執(zhí)行相同的指令,即能夠確保包括瞬時錯誤在內的任何故障都不會影響到系統(tǒng)運行,系統(tǒng)可以在任何CPU/內存單元,或I/O單元發(fā)生錯誤的情況下不丟失動態(tài)數(shù)據(jù),也不需產生中斷進行錯誤處理,避免了雙機熱備方案所產生的故障切換和恢復時間,以及該過程中數(shù)據(jù)的丟失。
在焦化廠控制系統(tǒng)中采用容錯服務器,能確保系統(tǒng)在可用性、維護性、總體成本三方面具備無與倫比的優(yōu)勢。
寧波鋼鐵五豐塘焦化廠控制系統(tǒng)煤氣凈化服務器和超級服務器采納了容錯技術方案,根據(jù)系統(tǒng)規(guī)模及數(shù)據(jù)庫的大小,考慮到系統(tǒng)的可用性,煤氣凈化服務器采用了Stratus ftServer 2510配置,超級服務器采用了Stratus ftServer 4410配置。自2009年11月份投產以來,容錯服務器一直運行穩(wěn)定可靠,管理維護簡單方便,為確保生產的安全穩(wěn)定順行發(fā)揮了至關重要的作用。
通過分析Stratus容錯服務器的設計思想、關鍵技術以及與雙機熱備方案的比較,我們可以看出,在焦化控制系統(tǒng)中,采用高可靠性的容錯服務器,不僅能滿足系統(tǒng)7×24小時連續(xù)運行的需要,還能為用戶節(jié)省總投資成本,減少后期維護工作及維護費用。
[1] STRATUS《容錯服務器白皮書》.