甘金來 丁睿 陳浩
【摘? ? 要】本文通過管理不合理、系統(tǒng)不標(biāo)準(zhǔn)以及運(yùn)維模式不統(tǒng)一等相關(guān)方面總結(jié)出傳統(tǒng)運(yùn)維系統(tǒng)存在的問題,結(jié)合Ansible自動(dòng)化運(yùn)維系統(tǒng)的特點(diǎn)以及Ansible自動(dòng)化運(yùn)維系統(tǒng)結(jié)構(gòu)等相關(guān)功能,進(jìn)一步總結(jié)出Ansible自動(dòng)化運(yùn)維故障技術(shù)體系。
【關(guān)鍵詞】Ansible自動(dòng)化? 信息系統(tǒng)? 故障預(yù)測(cè)技術(shù)? 運(yùn)維模式
中圖分類號(hào):P31? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.3969/j.issn.1672-0407.2021.18.065
改革開放以來,我國(guó)經(jīng)濟(jì)飛速發(fā)展,各行各業(yè)的信息化建設(shè)水平不斷提升。各類服務(wù)器集群業(yè)已成為工業(yè)企業(yè)主流發(fā)展趨勢(shì)。傳統(tǒng)的服務(wù)器依靠運(yùn)維工程師手工或者腳本的方式進(jìn)行運(yùn)維,難以適應(yīng)當(dāng)前階段我國(guó)大規(guī)模服務(wù)器集群的各項(xiàng)需求。
一、傳統(tǒng)運(yùn)維系統(tǒng)問題
隨著企業(yè)運(yùn)維系統(tǒng)不斷增加和完善,大多數(shù)企業(yè)在運(yùn)維管理模式以及思維意識(shí)上已經(jīng)完全脫離了傳統(tǒng)意義上的管理模式,不同部門和崗位員工同樣將處理模式應(yīng)用在計(jì)算機(jī)應(yīng)用程序上。但是在系統(tǒng)運(yùn)轉(zhuǎn)過程中,主要運(yùn)維模式仍然需要利用大量傳統(tǒng)人工方式介入,長(zhǎng)此以往,一旦產(chǎn)生問題和不足,則無法有效完成自動(dòng)化運(yùn)維基礎(chǔ)需求。
(一)管理不合理
傳統(tǒng)系統(tǒng)內(nèi)部結(jié)構(gòu)中的運(yùn)維管理主要側(cè)重于系統(tǒng)驅(qū)動(dòng)制度,所以當(dāng)系統(tǒng)產(chǎn)生問題和故障之后才能與運(yùn)維技術(shù)人員相互溝通,讓技術(shù)人員能夠穩(wěn)定處理。但是此種運(yùn)維技術(shù)模式從本質(zhì)上來看屬于一種被動(dòng)的解決模式,而系統(tǒng)運(yùn)維技術(shù)人員在日常維護(hù)工作方面需要不斷重復(fù)相同問題解決方案。
加上傳統(tǒng)運(yùn)維管理方式以及故障預(yù)警管理制度不夠完善,使得系統(tǒng)運(yùn)維技術(shù)人員在長(zhǎng)期解決突發(fā)或者緊急問題和情況時(shí)無法避免產(chǎn)生疏漏,最終造成整體系統(tǒng)運(yùn)維效率和質(zhì)量水平不斷降低,基礎(chǔ)運(yùn)維質(zhì)量明顯不高,業(yè)務(wù)部門對(duì)運(yùn)維部門的管理效果和質(zhì)量不能達(dá)到滿意狀態(tài)。[1]
(二)系統(tǒng)不標(biāo)準(zhǔn)
大多數(shù)企業(yè)在日常運(yùn)維管理過程中不能嚴(yán)格按照標(biāo)準(zhǔn)管理模式進(jìn)行,并且對(duì)崗位角色的定義以及崗位工作內(nèi)容劃分不夠清晰,導(dǎo)致系統(tǒng)產(chǎn)生問題和不足之后不能精準(zhǔn)且快速地明確問題的關(guān)鍵點(diǎn),無法及時(shí)有效尋找出問題相關(guān)的崗位負(fù)責(zé)部門。解決問題缺乏標(biāo)準(zhǔn)化的流程處理機(jī)制,沒有標(biāo)準(zhǔn)化的解決方案。
(三)運(yùn)維模式不統(tǒng)一
我國(guó)城市化建設(shè)水平不斷發(fā)展和推進(jìn),各個(gè)行業(yè)信息化建設(shè)水平同樣得到了有效提高,而此種建設(shè)現(xiàn)狀使信息管理系統(tǒng)的數(shù)量不斷增加,其內(nèi)部結(jié)構(gòu)同樣趨于復(fù)雜化。隨著不同設(shè)備和系統(tǒng)的區(qū)別逐漸增加,系統(tǒng)運(yùn)維以及日常管理也越來越復(fù)雜,特別是針對(duì)系統(tǒng)所展現(xiàn)出的突發(fā)事件來說,由于系統(tǒng)基礎(chǔ)運(yùn)維技術(shù)方式十分混亂,不能有效解決相關(guān)問題,最終導(dǎo)致終端業(yè)務(wù)不能正常開展。由此可見,系統(tǒng)運(yùn)維模式不統(tǒng)一是造成系統(tǒng)處理效率降低的主要原因之一。
二、Ansible自動(dòng)化運(yùn)維系統(tǒng)特點(diǎn)
Ansible自動(dòng)化運(yùn)維系統(tǒng)是現(xiàn)階段全新的系統(tǒng)維護(hù)工具,為此需要在Python技術(shù)上全面開發(fā),進(jìn)一步集合大多數(shù)系統(tǒng)運(yùn)維工具的操作特點(diǎn),有效完成與實(shí)現(xiàn)批量系統(tǒng)操作配置、數(shù)據(jù)批量部署以及系統(tǒng)執(zhí)行等相關(guān)功能。由于Ansible自動(dòng)化運(yùn)維系統(tǒng)需要在現(xiàn)有系統(tǒng)基礎(chǔ)上開發(fā),所以運(yùn)行模式上需要進(jìn)行模塊化工作,自身并沒有批量結(jié)構(gòu)部署和運(yùn)轉(zhuǎn)能力[2]。從本質(zhì)上來看,Ansible自動(dòng)化運(yùn)維系統(tǒng)僅僅能夠提供外部運(yùn)轉(zhuǎn)框架,所以該系統(tǒng)無需在系統(tǒng)結(jié)構(gòu)上安裝相應(yīng)的操作程序。由于Ansible自動(dòng)化運(yùn)維系統(tǒng)具有明顯的優(yōu)勢(shì)和長(zhǎng)處,并且在日常維護(hù)和系統(tǒng)操作環(huán)節(jié)上十分簡(jiǎn)單,所以成為吸納階段系統(tǒng)維護(hù)技術(shù)人員必須掌握的專業(yè)技能之一。
第一,系統(tǒng)運(yùn)轉(zhuǎn)過程中,其內(nèi)部結(jié)構(gòu)部署十分簡(jiǎn)單便捷,只需要在主要控制系統(tǒng)環(huán)境中安裝相關(guān)程序和軟件系統(tǒng),就可以無需任何技術(shù)操作實(shí)現(xiàn)系統(tǒng)運(yùn)轉(zhuǎn)水平和效果。第二,在系統(tǒng)運(yùn)轉(zhuǎn)環(huán)節(jié)上,該系統(tǒng)默認(rèn)使用SSH文件協(xié)議,進(jìn)而針對(duì)硬件設(shè)備進(jìn)行全面管理。第三,由于該系統(tǒng)跟自身具有大量系統(tǒng)運(yùn)維模塊,進(jìn)而實(shí)現(xiàn)和完成日常絕大部分系統(tǒng)操作,加上系統(tǒng)基礎(chǔ)配置十分簡(jiǎn)單,并且程序應(yīng)用功能強(qiáng)大,能夠利用Python基礎(chǔ)系統(tǒng)進(jìn)行系統(tǒng)拓展,所以該系統(tǒng)可以利用Playbooks進(jìn)一步制定科學(xué)合理且強(qiáng)大的系統(tǒng)配置,以此保證后續(xù)維護(hù)可以順利開展。[3]
三、Ansible自動(dòng)化運(yùn)維系統(tǒng)結(jié)構(gòu)
(一)系統(tǒng)框架
Ansible在運(yùn)轉(zhuǎn)過程中,是一種由各種系統(tǒng)模塊構(gòu)成的外部框架,所以該系統(tǒng)本身并沒有基礎(chǔ)的執(zhí)行能力和結(jié)構(gòu)部署能力。該系統(tǒng)的各個(gè)運(yùn)轉(zhuǎn)模塊基礎(chǔ)執(zhí)行能力和結(jié)構(gòu)部署能力進(jìn)一步成就了針對(duì)服務(wù)器集群的Ansible自動(dòng)化運(yùn)維系統(tǒng)批量配置、程序部署以及批量執(zhí)行命令等相關(guān)技術(shù)操作。加上現(xiàn)階段Ansible自動(dòng)化運(yùn)維系統(tǒng)自身屬于一種方案設(shè)計(jì)相對(duì)簡(jiǎn)單的自動(dòng)化系統(tǒng)運(yùn)維工具,所以該系統(tǒng)的基礎(chǔ)開源性不能被替代,并且系統(tǒng)支持多節(jié)點(diǎn)在發(fā)布任務(wù)時(shí)還可以進(jìn)行遠(yuǎn)程系統(tǒng)執(zhí)行。
Ansible自動(dòng)化運(yùn)維系統(tǒng)在運(yùn)轉(zhuǎn)過程中普遍具有跨平臺(tái)的自動(dòng)化系統(tǒng)運(yùn)維模式,其中包含系統(tǒng)軟件自動(dòng)化結(jié)構(gòu)部署、自動(dòng)化程序部署、自動(dòng)化系統(tǒng)管理以及系統(tǒng)升級(jí)等方面。其中Ansible自動(dòng)化系統(tǒng)常見模塊主要包含shell、cron、yum、serviceo等功能,而以上系統(tǒng)運(yùn)轉(zhuǎn)模塊僅僅為Ansible自動(dòng)化運(yùn)維系統(tǒng)的常見運(yùn)轉(zhuǎn)模塊,所以該系統(tǒng)在運(yùn)轉(zhuǎn)環(huán)節(jié)上還需要根據(jù)系統(tǒng)應(yīng)用實(shí)際需求不斷增加系統(tǒng)運(yùn)轉(zhuǎn)模塊。
隨著Ansible自動(dòng)化運(yùn)維系統(tǒng)不斷升級(jí)和完善,系統(tǒng)部分運(yùn)轉(zhuǎn)模塊已經(jīng)成為系統(tǒng)常見應(yīng)用模塊,但是由于系統(tǒng)全面提升,致使常用模塊被不斷整合,所以該系統(tǒng)主要結(jié)構(gòu)框架包含幾個(gè)方面。[4]第一,系統(tǒng)插件連接需要包含connection plugins等基礎(chǔ)功能,有效實(shí)現(xiàn)系統(tǒng)監(jiān)控端口的信息通信基礎(chǔ)功能。第二,在系統(tǒng)運(yùn)轉(zhuǎn)過程中,其主機(jī)文件目錄主要指的是系統(tǒng)運(yùn)轉(zhuǎn)環(huán)節(jié)上制定操作的主機(jī)系統(tǒng)在基礎(chǔ)配置文件內(nèi)將需要監(jiān)控的主機(jī)有效控制,并且根據(jù)各個(gè)系統(tǒng)運(yùn)轉(zhuǎn)功能模塊運(yùn)轉(zhuǎn)特點(diǎn),比如service模塊、cron模塊等功能模塊,有效實(shí)現(xiàn)系統(tǒng)運(yùn)轉(zhuǎn)日志等相關(guān)功能。
(二)運(yùn)轉(zhuǎn)流程
想要保證Ansible自動(dòng)化運(yùn)維的信息系統(tǒng)運(yùn)轉(zhuǎn)質(zhì)量和水平,用戶啟動(dòng)或者系統(tǒng)執(zhí)行相關(guān)操作命令時(shí),可以在基礎(chǔ)服務(wù)器的顯示終端設(shè)備輸入Ad-Hoc命令集。比如系統(tǒng)在運(yùn)轉(zhuǎn)過程中,系統(tǒng)verbose表示需要需要輸出更加詳細(xì)且全面的系統(tǒng)執(zhí)行信息和流程,而NAME,module-name=NAME則代表系統(tǒng)執(zhí)行所使用的信息模塊,private-key=PRIVATE_KEY_FILE主要指的是系統(tǒng)密鑰文件。
由于在系統(tǒng)運(yùn)轉(zhuǎn)過程中常見的操作命令相對(duì)較多,為此需要技術(shù)人員靈活掌握。Ansible自動(dòng)化運(yùn)維系統(tǒng)在運(yùn)轉(zhuǎn)過程中需要根據(jù)預(yù)先安排好的系統(tǒng)操作規(guī)則將Playbooks進(jìn)行分別拆解,隨后根據(jù)系統(tǒng)操作命令將paly系統(tǒng)組成Ansible系統(tǒng)可以識(shí)別的操作任務(wù),由于此種操作任務(wù)在運(yùn)轉(zhuǎn)過程中需要依靠Ansible自動(dòng)化運(yùn)維的信息系統(tǒng)模塊和軟件插件,并且不同操作模塊和系統(tǒng)插件在任務(wù)完成過程中更充分發(fā)揮出不同的實(shí)際作用。為此技術(shù)人員根據(jù)Inventory系統(tǒng)結(jié)構(gòu)中將已經(jīng)定義的主要設(shè)備控制列表通過SSH文件,將系統(tǒng)任務(wù)以臨時(shí)文件或者系統(tǒng)命令的管理模式傳輸至系統(tǒng)遠(yuǎn)程管理端口并且返回系統(tǒng)執(zhí)行結(jié)果。系統(tǒng)運(yùn)轉(zhuǎn)結(jié)果被永久儲(chǔ)存時(shí),所產(chǎn)生的結(jié)果需要自動(dòng)保存,如果系統(tǒng)屬于臨時(shí)性文件模式,系統(tǒng)會(huì)在任務(wù)完成之后針對(duì)臨時(shí)文件進(jìn)行刪除操作[5]。
四、Ansible自動(dòng)化運(yùn)維故障技術(shù)分析
(一)基礎(chǔ)數(shù)據(jù)
電力企業(yè)發(fā)展過程中涉及的設(shè)備有:電力企業(yè)變壓設(shè)備、發(fā)動(dòng)機(jī)以及壓縮機(jī)等。其設(shè)備品牌、設(shè)備參數(shù)、使用年限、使用時(shí)間以及系統(tǒng)參數(shù)等相關(guān)信息被稱為系統(tǒng)的基礎(chǔ)數(shù)據(jù)。以上信息和數(shù)據(jù)需要電力企業(yè)根據(jù)自身信息數(shù)據(jù)方案規(guī)劃管理和運(yùn)轉(zhuǎn),還需要充分利用信息數(shù)據(jù)服務(wù)器中所有的信息和數(shù)據(jù)同步操作,將信息和數(shù)據(jù)統(tǒng)一安排在系統(tǒng)調(diào)度控制中心,隨后根據(jù)相關(guān)參數(shù)進(jìn)行整理、收集以及相關(guān)計(jì)算。
由于電力設(shè)備在運(yùn)轉(zhuǎn)過程中會(huì)產(chǎn)生大量信息和數(shù)據(jù),以上信息數(shù)據(jù)無論是種類還是應(yīng)用范圍都十分復(fù)雜,需要不斷進(jìn)行系統(tǒng)的全面優(yōu)化和更新,此種設(shè)備使用情況對(duì)于信息儲(chǔ)存空間的要求相對(duì)較高。同時(shí)在Ansible自動(dòng)化運(yùn)維信息系統(tǒng)運(yùn)轉(zhuǎn)的基礎(chǔ)上所產(chǎn)生的信息數(shù)據(jù)也成為流程數(shù)據(jù)的核心環(huán)節(jié),能夠進(jìn)一步展現(xiàn)出系統(tǒng)批量操作所消耗的時(shí)間、頻率、種類以及最終效果。以上信息數(shù)據(jù)所產(chǎn)生的實(shí)際價(jià)值相對(duì)較高,能夠?yàn)殡娏ο到y(tǒng)的故障系統(tǒng)信息預(yù)測(cè)提供應(yīng)對(duì)策略支撐。
現(xiàn)階段,我國(guó)電力系統(tǒng)的實(shí)施參考數(shù)據(jù)方面相對(duì)比較成熟且全面,只需要針對(duì)所收集到的信息數(shù)據(jù)構(gòu)建出相對(duì)穩(wěn)定的連接端口就可以有效提升系統(tǒng)運(yùn)轉(zhuǎn)基礎(chǔ)準(zhǔn)確性,使電力網(wǎng)路企業(yè)各個(gè)部門日常管理所產(chǎn)生的數(shù)據(jù)和信息在特殊范圍內(nèi)開展全面共享和信息同步。在日常管理實(shí)施過程中,信息分布以及共享需要構(gòu)建出相互同步的信息平臺(tái),以便于各個(gè)部門員工可以交流,系統(tǒng)運(yùn)轉(zhuǎn)所需要的信息數(shù)據(jù)主要指的是局限于電網(wǎng)企業(yè)所產(chǎn)生的運(yùn)轉(zhuǎn)數(shù)據(jù)。然而從本質(zhì)上看,電力系統(tǒng)在運(yùn)轉(zhuǎn)過程中所得到的信息數(shù)據(jù)對(duì)于企業(yè)的發(fā)展和穩(wěn)定具有十分重要的作用,市場(chǎng)經(jīng)濟(jì)類數(shù)據(jù)也可以為城市建設(shè)中電力行業(yè)的整體規(guī)劃制定提供比較完整全面的參考依據(jù)。
(二)信息預(yù)測(cè)流程
想要保證Ansible自動(dòng)化運(yùn)維的信息系統(tǒng)故障預(yù)測(cè)準(zhǔn)確性,電力系統(tǒng)在站臺(tái)設(shè)置上就需要一個(gè)主要站臺(tái)和多個(gè)子站臺(tái)。其中子站臺(tái)施工現(xiàn)場(chǎng)需要針對(duì)數(shù)據(jù)和信息進(jìn)行全面收集并且進(jìn)行詳細(xì)分析,通過信息查詢以及參數(shù)流通等管理制度將已經(jīng)分析之后的信息傳輸至主站結(jié)構(gòu)。除此之外,主站以及子站之間想要保證基礎(chǔ)的信息通信,則需要使用TCP/IP文字協(xié)議,并且結(jié)合電話撥號(hào)等技術(shù)方式針對(duì)已經(jīng)接收的信息進(jìn)行全面分析和探索,以此作為基礎(chǔ)系統(tǒng)平臺(tái)針對(duì)信息數(shù)據(jù)開展二次技術(shù)處理,進(jìn)一步清除無用數(shù)據(jù)。
要實(shí)現(xiàn)以上相關(guān)目標(biāo),則需要針對(duì)傳輸?shù)男畔⒑蛿?shù)據(jù)進(jìn)行預(yù)先處理,并且將重復(fù)且無用的垃圾數(shù)據(jù)有效清理干凈。其中信息數(shù)據(jù)在預(yù)處理過程中,還需要利用信息抽取、系統(tǒng)轉(zhuǎn)化、參數(shù)過濾以及系統(tǒng)監(jiān)控等功能完成對(duì)數(shù)據(jù)進(jìn)行有效處理。數(shù)據(jù)過濾完成之后,就可以在Ansible自動(dòng)化運(yùn)維的信息系統(tǒng)故障預(yù)測(cè)的基礎(chǔ)條件上,有效處理運(yùn)維系統(tǒng)的故障檢測(cè)。發(fā)現(xiàn)數(shù)據(jù)發(fā)送異常后,技術(shù)人員需要及時(shí)檢查導(dǎo)致異常變化的原因,并且制定出適合的處理策略和計(jì)劃方案。
除此之外,技術(shù)人員還需要發(fā)揮系統(tǒng)對(duì)于數(shù)據(jù)和信息的監(jiān)督功能,積極開展全新的數(shù)據(jù)預(yù)處理相關(guān)工作。針對(duì)極易產(chǎn)生故障問題的運(yùn)行區(qū)域和管理模塊,企業(yè)應(yīng)該在故障發(fā)生后將故障問題以及原因進(jìn)行記錄,并且構(gòu)成相對(duì)穩(wěn)定的運(yùn)轉(zhuǎn)模式,最終有效轉(zhuǎn)化為作業(yè)腳本系統(tǒng)。[6]
當(dāng)電網(wǎng)企業(yè)將不同腳本增加至Ansible自動(dòng)化運(yùn)維信息系統(tǒng)內(nèi)部結(jié)構(gòu)中,其操作模式需要不斷被完善和優(yōu)化,才能有效減少和降低系統(tǒng)故障出錯(cuò)率。針對(duì)此種系統(tǒng)現(xiàn)狀,技術(shù)人員需要進(jìn)行預(yù)判,通過故障問題詳細(xì)分析和判斷,最大限度減少故障處理時(shí)效,讓系統(tǒng)運(yùn)維技術(shù)人員深入了解企業(yè)設(shè)備運(yùn)維過程中的常見問題,不斷積累維護(hù)經(jīng)驗(yàn)。我們通過腳本不斷優(yōu)化Ansible自動(dòng)化運(yùn)維的信息系統(tǒng),為以后的應(yīng)急處置提供更加全面的工具手段。
五、結(jié)束語
為了進(jìn)一步滿足企業(yè)針對(duì)海量信息服務(wù)設(shè)備以及內(nèi)部結(jié)構(gòu)復(fù)雜的運(yùn)維基礎(chǔ)需求,本次研究主要在Ansible系統(tǒng)基礎(chǔ)上進(jìn)行方案設(shè)計(jì)和系統(tǒng)開發(fā),最終實(shí)現(xiàn)自動(dòng)化運(yùn)維信息系統(tǒng)管理模式,經(jīng)過一系列技術(shù)優(yōu)化,系統(tǒng)自身具有Hosts管理與業(yè)務(wù)管理等多項(xiàng)功能和能夠滿足企業(yè)對(duì)信息處理業(yè)務(wù)的核心要求,降低預(yù)測(cè)成本。
參考文獻(xiàn)
[1]李湘林,向全,韋美雁,等.基于Ansible自動(dòng)化運(yùn)維系統(tǒng)批量部署LAMP架構(gòu)的設(shè)計(jì)與實(shí)現(xiàn)[J].大眾科技,2021,23(3):4.
[2]趙創(chuàng)業(yè),唐亮亮,郭威,等.基于Ansible和Flume的海量數(shù)據(jù)自動(dòng)化采集系統(tǒng)[J].電子設(shè)計(jì)工程,2020,28(3):5.
[3]范永合,楊澎濤,朱應(yīng)科,等.基于Ansible實(shí)現(xiàn)Zabbix自動(dòng)部署[J].電腦知識(shí)與技術(shù):學(xué)術(shù)版,2019,15(12Z):2.
[4]朱琳,李姝,李貴強(qiáng)等.關(guān)于自動(dòng)化運(yùn)維技術(shù)在公共安全信息化建設(shè)中應(yīng)用模式的探討[J].數(shù)碼世界,2019(1):1.
[5]孫雅妮.基于Ansible的OpenStack私有云平臺(tái)自動(dòng)化部署研究與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù):學(xué)術(shù)版,2019,15(10):3.
[6]王亦然,郭曉東,祁瀅.基于Jenkins及Ansible的持續(xù)集成交付方案設(shè)計(jì)[J].信息系統(tǒng)工程,2019(11):3.