羅 安
(北京和利時(shí)系統(tǒng)工程有限公司,北京 100176)
論數(shù)字化自動(dòng)化設(shè)備的可靠性
羅安
(北京和利時(shí)系統(tǒng)工程有限公司,北京100176)
摘要:可靠性一直是自動(dòng)化設(shè)備最重要的指標(biāo)之一。在科學(xué)技術(shù)高速發(fā)展的今天,自動(dòng)化設(shè)備也從一個(gè)由硬件構(gòu)成的產(chǎn)品發(fā)展為由硬件、軟件和網(wǎng)絡(luò)構(gòu)成的復(fù)雜系統(tǒng)。相應(yīng)地,可靠性問題也從單一關(guān)注硬件,發(fā)展到必須同時(shí)關(guān)注硬件、軟件、網(wǎng)絡(luò)通信及其相互作用等各個(gè)方面。信息安全問題也對(duì)自動(dòng)化設(shè)備的可靠性產(chǎn)生了不可忽視的影響。
關(guān)鍵詞:自動(dòng)化設(shè)備數(shù)字化可靠性硬件軟件網(wǎng)絡(luò)通信信息安全驗(yàn)證與確認(rèn)現(xiàn)場總線
0引言
對(duì)于自動(dòng)化設(shè)備來說,可靠性是一個(gè)非常重要的關(guān)鍵性指標(biāo)。自動(dòng)化設(shè)備的一個(gè)重要作用,就是保證生產(chǎn)設(shè)備(即受控設(shè)備)的正常運(yùn)行,在生產(chǎn)過程中保證安全,不出生產(chǎn)事故。而要做到這一點(diǎn),自動(dòng)化設(shè)備本身就不能出現(xiàn)故障,尤其是不能出現(xiàn)導(dǎo)致生產(chǎn)設(shè)備運(yùn)行狀態(tài)達(dá)到危險(xiǎn)程度的故障。另外,自動(dòng)化設(shè)備還起著提高生產(chǎn)設(shè)備的運(yùn)行效率和產(chǎn)品質(zhì)量的作用。因此,如果自動(dòng)化設(shè)備出現(xiàn)故障,將導(dǎo)致生產(chǎn)設(shè)備運(yùn)行狀態(tài)產(chǎn)生波動(dòng),甚至停止運(yùn)行,這就意味著產(chǎn)品質(zhì)量的下降和經(jīng)濟(jì)損失。自動(dòng)化設(shè)備的可靠性關(guān)系到工業(yè)生產(chǎn)的安全性、經(jīng)濟(jì)性以及產(chǎn)品質(zhì)量。長期以來,工業(yè)界在可靠性方面有著巨大的投入,有關(guān)可靠性的技術(shù)、方法、管理、維護(hù)等各個(gè)方面都已經(jīng)形成了比較完善的體系。
1技術(shù)進(jìn)步帶來的新問題
近半個(gè)多世紀(jì)以來,自動(dòng)化設(shè)備技術(shù)取得了長足的發(fā)展。在上世紀(jì)五六十年代,自動(dòng)化設(shè)備基本上采用的是模擬技術(shù),無論是采用機(jī)械原理,還是電子元器件,自動(dòng)化設(shè)備均由硬件設(shè)備組成,如流程行業(yè)中使用的電動(dòng)單元組合式儀表、制造行業(yè)中使用的繼電器組合邏輯控制器。當(dāng)時(shí)的控制器利用機(jī)械聯(lián)動(dòng)、繼電器組合、硬接線、電子元件(如電阻、電容、電感)組成運(yùn)算電路的方法實(shí)現(xiàn)控制算法。這樣,控制器的可靠性完全取決于這些硬件的失效率以及隨時(shí)間、環(huán)境變化而產(chǎn)生的機(jī)械、電氣等性能和參數(shù)的改變。
近年來,在電子技術(shù)的基礎(chǔ)上,數(shù)字技術(shù)和信息技術(shù)飛速發(fā)展,帶動(dòng)了自動(dòng)化設(shè)備的巨大改變。首先,以模擬技術(shù)構(gòu)成的控制器逐步被以微處理器構(gòu)成的控制器所取代,以往由硬件原理實(shí)現(xiàn)的控制算法逐步由軟件方法實(shí)現(xiàn)。這一改變使得自動(dòng)化設(shè)備的功能得到極大的提升,原來很難實(shí)現(xiàn)的復(fù)雜控制功能,現(xiàn)在可以很方便地完成,控制的精確度也大大提高;原來很難解決的問題,如大滯后環(huán)節(jié)的控制,都可以很好地完成。進(jìn)入21世紀(jì)以來,在自動(dòng)化設(shè)備中,尤其是在那些要求高、功能復(fù)雜、規(guī)模較大的控制設(shè)備中,控制功能的實(shí)現(xiàn)方法已經(jīng)從依靠硬件技術(shù)為主逐步轉(zhuǎn)變?yōu)橐揽寇浖夹g(shù)為主。除了以上的優(yōu)越性外,由軟件實(shí)現(xiàn)控制功能的設(shè)備所具有的最大優(yōu)勢在于:幾乎不存在生產(chǎn)制造方面的差異,只要設(shè)備中的軟件設(shè)計(jì)是正確、沒有缺陷的,那么所有生產(chǎn)出的設(shè)備均具有同樣的運(yùn)行特性和控制性能,而且這種性能基本上不隨時(shí)間和環(huán)境的變化而改變。
在控制功能由硬件技術(shù)轉(zhuǎn)變?yōu)檐浖夹g(shù)實(shí)現(xiàn)之后,自動(dòng)化設(shè)備的可靠性問題發(fā)生了極大的改變,包括可靠性設(shè)計(jì)、生產(chǎn)環(huán)節(jié)的質(zhì)量保證,可靠性檢驗(yàn),與可靠性相關(guān)的運(yùn)行維護(hù)等。在數(shù)字化的自動(dòng)化設(shè)備中,軟件的設(shè)計(jì)對(duì)可靠性的影響可以說是關(guān)鍵性的,也就是說,一個(gè)數(shù)字化的自動(dòng)化設(shè)備,其可靠性的最大保證來自于設(shè)計(jì)正確、功能完善、工作穩(wěn)定,能夠在各種工況下正常工作的軟件系統(tǒng)。如果軟件的設(shè)計(jì)有任何小的缺陷,那么其造成的設(shè)備失效是確定的,并且是可復(fù)現(xiàn)的。但隨著軟件規(guī)模的日益龐大,軟件結(jié)構(gòu)的日趨復(fù)雜,軟件缺陷越來越難以被發(fā)現(xiàn)和排除。一般來說,我們只能通過嚴(yán)格地檢查與測試,發(fā)現(xiàn)軟件系統(tǒng)存在的缺陷,但我們無法證明某個(gè)軟件系統(tǒng)是沒有缺陷的。這就形成了一個(gè)非常矛盾的局面,為了完善控制功能,必須設(shè)計(jì)更加復(fù)雜、龐大的軟件系統(tǒng);而隨著軟件系統(tǒng)的擴(kuò)大,軟件缺陷的數(shù)量也在不斷上升。因此,與硬件可靠性完全不同的軟件可靠性問題已經(jīng)越來越嚴(yán)峻地?cái)[在了人們面前。
2“系統(tǒng)性失效”與“隨機(jī)失效”
由軟件缺陷造成的失效被稱為“系統(tǒng)性失效”;而由硬件故障引發(fā)的失效則被稱為“隨機(jī)失效”。如上所述,系統(tǒng)性失效是一種系統(tǒng)固有的、僅在某種特定的運(yùn)行狀態(tài)下發(fā)生的失效;而隨機(jī)失效則是一種概率性發(fā)生的失效,其失效概率一般遵循“浴盆曲線”。
對(duì)于隨機(jī)失效,在設(shè)計(jì)階段主要考慮元器件選用、設(shè)計(jì)裕度、抗干擾措施、保護(hù)電路等方面;在試制階段,主要通過型式試驗(yàn)來驗(yàn)證設(shè)計(jì)及生產(chǎn)工藝能否完全實(shí)現(xiàn)設(shè)計(jì)目標(biāo);在生產(chǎn)階段,則通過嚴(yán)格的質(zhì)量控制、工序檢驗(yàn)、出廠檢驗(yàn)等手段保證生產(chǎn)過程的一致性。必要時(shí),可通過“老化”的工藝手段,篩除早期失效的產(chǎn)品。如果生產(chǎn)過程、生產(chǎn)工藝發(fā)生變化,或產(chǎn)品設(shè)計(jì)(如元器件的選用)發(fā)生變化,則需要重新進(jìn)行型式試驗(yàn)和驗(yàn)證。在產(chǎn)品交付使用前,由于在生產(chǎn)后還存在包裝、儲(chǔ)運(yùn)等環(huán)節(jié),因此還要進(jìn)行交收檢驗(yàn),以確保交到用戶手中的產(chǎn)品完全符合質(zhì)量要求。
而對(duì)于系統(tǒng)性失效,則有不同的質(zhì)量保證措施。在軟件的生命周期中,設(shè)計(jì)階段是需要時(shí)間長、占用資源最多的關(guān)鍵階段;而需求分析又是軟件設(shè)計(jì)階段中最為關(guān)鍵的步驟。多年來,軟件產(chǎn)業(yè)的實(shí)踐證明,很多不成功的軟件設(shè)計(jì)都是由于沒有進(jìn)行充分的需求分析所致。雖然,在一般人看來,一個(gè)自動(dòng)化設(shè)備對(duì)于軟件的需求是簡單而明確的,似乎只要有一個(gè)明確定義的功能要求和性能指標(biāo)要求就可以了。但實(shí)際上,一個(gè)數(shù)字化自動(dòng)化設(shè)備的軟件涉及到方方面面的問題,如操作方面(人機(jī)界面),包括操作的方式方法、操作的時(shí)機(jī)、操作對(duì)運(yùn)行的影響、操作的條件、操作涉及的工具設(shè)備及資源等。只要有一個(gè)環(huán)節(jié)出現(xiàn)疏忽,就會(huì)導(dǎo)致軟件運(yùn)行發(fā)生問題,甚至導(dǎo)致運(yùn)行期間設(shè)備的失效。除需求分析外,軟件設(shè)計(jì)還包括架構(gòu)設(shè)計(jì)、模塊設(shè)計(jì)、編碼等步驟[1-3],每執(zhí)行一步,都要進(jìn)行驗(yàn)證與確認(rèn)(verification and validation,V&V)。
設(shè)計(jì)階段完成后,即可進(jìn)入測試驗(yàn)證階段。測試驗(yàn)證可以看成是設(shè)計(jì)階段的反過程,即按照代碼測試、模塊測試、組合測試、系統(tǒng)測試的順序逐步完成。同樣,每個(gè)測試步驟也都需要進(jìn)行V&V。除此之外,如果在任何一個(gè)設(shè)計(jì)步驟或測試步驟中發(fā)現(xiàn)問題,就需要返回到上一設(shè)計(jì)步驟進(jìn)行設(shè)計(jì)更改。如果上一級(jí)的設(shè)計(jì)更改還不能解決問題,則要繼續(xù)向上一設(shè)計(jì)步驟進(jìn)行回溯,直至最初的需求分析。這樣的迭代過程很有可能要進(jìn)行多次,才能夠確保軟件產(chǎn)品的設(shè)計(jì)缺陷最小化。
與隨機(jī)失效的“故障-失效”模式不同,系統(tǒng)性失效往往是因一個(gè)軟件缺陷而直接導(dǎo)致的,而不會(huì)經(jīng)歷一個(gè)由故障而發(fā)展為失效的過程。因此,消除軟件缺陷,也就是我們通常所說的Debug,是一項(xiàng)非常重要,也是相當(dāng)困難的工作。而且隨著軟件的日益龐大和復(fù)雜,Debug一般都會(huì)貫穿于軟件的整個(gè)生命周期。由于在軟件的生命周期內(nèi),不可避免地需要對(duì)軟件進(jìn)行修改以消除缺陷,這就產(chǎn)生了另一個(gè)不可忽視的重要軟件管理問題,即配置管理。實(shí)際上,配置管理是一種貫穿于軟件全生命周期的管理手段。由于軟件的龐大與復(fù)雜,一個(gè)大型軟件系統(tǒng)都會(huì)劃分為一個(gè)個(gè)小的構(gòu)件。這些構(gòu)件之間的接口關(guān)系、其運(yùn)行如何協(xié)調(diào)、各個(gè)構(gòu)件之間如何進(jìn)行數(shù)據(jù)的交換及如何保證數(shù)據(jù)的一致性,這些都必須進(jìn)行嚴(yán)格的定義,并在軟件系統(tǒng)的全生命周期內(nèi)保持前后一致,任何構(gòu)件因消除缺陷而進(jìn)行的修改都不能違反這些定義。因此,所有的軟件更改或更新都需要進(jìn)行嚴(yán)格的測試和V&V,以確保配置管理的正確性。
軟件的工作特點(diǎn)是其需要依照程序一步步執(zhí)行,每一步的執(zhí)行都依賴于前一步的執(zhí)行結(jié)果,即各個(gè)程序步之間的耦合是非常緊密的。這意味著任何程序步的微小誤差都會(huì)被后續(xù)的程序步繼承并放大,最終導(dǎo)致失效。為避免這種情況的發(fā)生,在軟件設(shè)計(jì)中需要采用容錯(cuò)技術(shù)。最經(jīng)典的容錯(cuò)技術(shù)是使用兩套運(yùn)行于不同硬件平臺(tái),且最好由不同軟件開發(fā)團(tuán)隊(duì)設(shè)計(jì)的軟件。這兩套軟件執(zhí)行同樣的功能,并在某些關(guān)鍵點(diǎn)進(jìn)行比較,當(dāng)結(jié)果一致時(shí)才可繼續(xù)執(zhí)行,結(jié)果不一致時(shí)則進(jìn)入出錯(cuò)處理程序。但這樣做的代價(jià)很大,一般只用于最關(guān)鍵的功能。除此之外,還有很多容錯(cuò)技術(shù)。如何使用這些技術(shù),則應(yīng)根據(jù)需要和成本進(jìn)行決策。
3網(wǎng)絡(luò)通信成為可靠性的新問題
除了軟件技術(shù)對(duì)自動(dòng)化設(shè)備的改變以外,網(wǎng)絡(luò)技術(shù)也使自動(dòng)化設(shè)備發(fā)生了巨大的變化。進(jìn)入21世紀(jì)以來,現(xiàn)場總線發(fā)展迅猛,網(wǎng)絡(luò)技術(shù)的發(fā)展不可避免地改變著自動(dòng)化設(shè)備的面貌。以往各自獨(dú)立的測量控制設(shè)備,最終都將通過網(wǎng)絡(luò)連接成為一個(gè)完整的系統(tǒng)[4-6],大大加強(qiáng)自動(dòng)化系統(tǒng)的功能和規(guī)模。網(wǎng)絡(luò)技術(shù)在對(duì)被控生產(chǎn)過程的覆蓋程度方面取得長足進(jìn)步的同時(shí),也帶來了嚴(yán)重的信息安全問題。在運(yùn)行方面,網(wǎng)絡(luò)通信的正常與否,將直接影響控制設(shè)備的可靠性。而網(wǎng)絡(luò)通信是否正常,不僅與網(wǎng)絡(luò)硬件和與之相關(guān)的軟件有著密切的關(guān)系,還與網(wǎng)絡(luò)的運(yùn)行環(huán)境有著密切關(guān)系。網(wǎng)絡(luò)的優(yōu)勢在于其開放性,但恰恰是開放性給網(wǎng)絡(luò)安全帶來了巨大的威脅。以往我們所關(guān)注的可靠性問題主要來源于硬件和軟件,而事實(shí)上,網(wǎng)絡(luò)的威脅主要來源于人為因素。
由于網(wǎng)絡(luò)的互通性極強(qiáng),任何無意的違規(guī)操作都有可能通過網(wǎng)絡(luò)對(duì)關(guān)鍵的控制回路產(chǎn)生影響、甚至破壞。如果有諸如黑客等懷有特定破壞目的的人入侵到控制網(wǎng)絡(luò)中,其后果更是不堪設(shè)想。因此,我們?cè)陉P(guān)注可靠性的同時(shí),也不得不關(guān)注信息安全。信息安全是一個(gè)比較新的問題,如何通過有效的技術(shù)手段和管理規(guī)程來保證信息安全,還需要作很多研究。
4結(jié)束語
總之,我們?cè)谟懻撟詣?dòng)化設(shè)備的可靠性問題時(shí),至少應(yīng)該考慮3個(gè)方面。第一是硬件可靠性。這是傳統(tǒng)的可靠性研究所關(guān)注的方面。第二是軟件的正確性與容錯(cuò)性。這在近年來已經(jīng)進(jìn)行了比較深入的研究,也取得了一定的成果。第三是網(wǎng)絡(luò)安全對(duì)可靠性的影響。這是一個(gè)比較新的問題,對(duì)該問題的研究也處在進(jìn)行過程中。
與應(yīng)用于商業(yè)和信息服務(wù)業(yè)的系統(tǒng)不同,自動(dòng)化設(shè)備中所用的信息技術(shù)主要服務(wù)于性能、安全性和可靠性,對(duì)其強(qiáng)大的功能及廣泛的開放性則需要有所約束。對(duì)于在自動(dòng)化設(shè)備中使用的軟件,應(yīng)追求其結(jié)構(gòu)簡單、運(yùn)行效率高、運(yùn)行路徑的確定性和容錯(cuò)性。而對(duì)于在自動(dòng)化設(shè)備中使用的網(wǎng)絡(luò),應(yīng)盡量簡化其通信規(guī)約,提高網(wǎng)絡(luò)通信的確定性和透明度,在關(guān)鍵控制回路盡量采用專用規(guī)約,以最大限度地提高信息安全。
目前,對(duì)于數(shù)字化的自動(dòng)化設(shè)備,衡量其可靠性的標(biāo)準(zhǔn)還很欠缺。以往我們有比較成熟的與設(shè)備可靠性相關(guān)的指標(biāo)及標(biāo)準(zhǔn),如失效率、平均故障間隔時(shí)間和平均修復(fù)時(shí)間、可用率、電磁兼容性、抗惡劣環(huán)境指標(biāo)、溫度漂移和長時(shí)間運(yùn)行漂移指標(biāo)等。但這些標(biāo)準(zhǔn)主要是針對(duì)硬件的可靠性,針對(duì)軟件及通信所帶來的可靠性問題仍缺乏完整的、成熟的指標(biāo)和標(biāo)準(zhǔn)。對(duì)于自動(dòng)化設(shè)備的生產(chǎn)廠家、工程應(yīng)用企業(yè)和運(yùn)行維護(hù)服務(wù)企業(yè)來說,盡快制定完善自動(dòng)化設(shè)備的可靠性標(biāo)準(zhǔn),使其適應(yīng)新技術(shù)發(fā)展的要求,將是我們要下功夫努力去完成的重要任務(wù)。
參考文獻(xiàn)
[1] IEC 60050-191:1990,International Electrotechnical Vocabulary-Chapter 191: Dependability and quality of service.
[2] GB/T 18268-2000 測量、控制和實(shí)驗(yàn)室用的電設(shè)備電磁兼容性要求.
[3] GB 6833-1987系列標(biāo)準(zhǔn) 電子測量儀器電磁兼容性試驗(yàn)規(guī)范.
[4] ISO 9001:2008 Quality management systems - Requirements.
[5] GB/T 20438-2006系列標(biāo)準(zhǔn) 電氣/電子/可編程電子安全相關(guān)系統(tǒng)的功能安全.
[6] IEC 62443-2010系列標(biāo)準(zhǔn) 工業(yè)過程測量和控制安全-網(wǎng)絡(luò)和系統(tǒng)安全.
[7] 陽憲惠.現(xiàn)場總線技術(shù)及其應(yīng)用.2版.北京:清華大學(xué)出版社,2008.
Discussing about the Reliability of Digitization Automation Equipments
Abstract:Reliability has been one of the most important index of the automated equipment.In today′s rapid development of science and technology,automated equipment is growing up from the hardware-based products to complex system consisting of hardware,software and network.Correspondingly,the issue of reliability is not only related to hardware,it becomes the comprehensive subject composed of hardware,software,network communication and their interactions.Further,information security also produces negligible impact on the reliability of automated equipment.
Keywords:Automated equipmentDigitizationReliabilityHardwareSoftwareNetworkCommunicationInformation securityVerification and validation(V&V)Fieldbus
中圖分類號(hào):TH86;TP23
文獻(xiàn)標(biāo)志碼:A
DOI:10.16086/j.cnki.issn1000-0380.201605001
修改稿收到日期:2016-03-24。
作者羅安(1946-),男,研究員級(jí)高級(jí)工程師;長期從事自動(dòng)化控制系統(tǒng)的研究和應(yīng)用工作,在能源、城市軌道交通、先進(jìn)制造等自動(dòng)化控制領(lǐng)域取得多項(xiàng)科技成果。