摘要:該文探討了軟件系統(tǒng)通用維保模式的構(gòu)建與實踐,旨在通過建立軟件系統(tǒng)通用維保體系,實現(xiàn)系統(tǒng)的集中標準化維護,從而有效降低成本,減少對原廠的依賴,并顯著提升運維效率。該文首先分析了系統(tǒng)維保面臨的復(fù)雜性與多樣性、對原廠依賴的現(xiàn)狀與問題、維保成本與效率的挑戰(zhàn),以及第三方運維服務(wù)的現(xiàn)狀與趨勢。隨后提出了降低對原廠依賴、優(yōu)化維保成本和提高運維效率的具體策略,并詳細介紹了自動智能運維工具在維保中的應(yīng)用及維保服務(wù)的實施與管理方法。最后探討了實際應(yīng)用中遇到的技術(shù)和管理挑戰(zhàn),并給出了相應(yīng)的對策與建議。
關(guān)鍵詞:通用維保;統(tǒng)一維保體系;自動智能運維
doi:10.3969/J.ISSN.1672-7274.2024.11.028
中圖分類號:TP 273" " " " " " " " "文獻標志碼:B" " " " " " 文章編碼:1672-7274(2024)11-00-03
Exploration and Practice of Universal Maintenance Mode for Software Systems
LIN Shunfu, LIN Ziqi, XIE Haiming
(China Mobile Communications Group Guangdong Co., Ltd., Guangzhou 510623, China)
Abstract: This article explores the construction and practice of a universal maintenance mode for software systems, aiming to establish a universal maintenance system for software systems, achieve centralized and standardized maintenance of the system, effectively reduce costs, reduce dependence on original factories, and significantly improve operation and maintenance efficiency. The article first analyzes the complexity and diversity faced by system maintenance, the current situation and problems of dependence on the original factory, the challenges of maintenance cost and efficiency, as well as the current situation and trends of third-party operation and maintenance services. Subsequently, specific strategies were proposed to reduce dependence on the original factory, optimize maintenance costs, and improve operation and maintenance efficiency. The application of automatic intelligent operation and maintenance tools in maintenance and the implementation and management methods of maintenance services were also introduced in detail. The article also explores the technical and management challenges encountered in practical applications, and provides corresponding countermeasures and suggestions.
Keywords: general maintenance; unified maintenance system; automatic intelligent operation and maintenance
隨著信息技術(shù)的快速發(fā)展,軟件系統(tǒng)在各行各業(yè)中得到了廣泛應(yīng)用。軟件系統(tǒng)的維護與保障(維保)工作變得日益復(fù)雜和多樣化,傳統(tǒng)的維保模式高企的成本和依賴性對企業(yè)形成較大的壓力。當前,許多企業(yè)依賴原廠進行系統(tǒng)維保,導(dǎo)致維保成本高、效率低,缺乏獨立自主。對此,筆者認為應(yīng)建立統(tǒng)一的軟件系統(tǒng)維保體系,實現(xiàn)對系統(tǒng)的集中標準化維護,降低維保成本,減少對原廠的依賴,并提高運維效率。
1" "系統(tǒng)維保的挑戰(zhàn)與趨勢
1.1 系統(tǒng)維保的復(fù)雜性與多樣性
系統(tǒng)的維保工作實際上是一項復(fù)雜且多樣化的任務(wù),其間涉及軟件系統(tǒng)的大規(guī)模維護和保障工作,涵蓋了對系統(tǒng)故障情況的檢測與修復(fù)、性能優(yōu)化方面的提升、數(shù)據(jù)核查修改以及安全加固措施等多個重要方面。各種不同類型的軟件系統(tǒng)在架構(gòu)設(shè)計、功能實現(xiàn)及應(yīng)用環(huán)境等諸多領(lǐng)域存在顯著差異,這就導(dǎo)致軟件系統(tǒng)的維保要求和難度各不相同。在那些大型企業(yè)中,通常會同時運行著好幾套不同的軟件系統(tǒng)、不同的數(shù)據(jù)庫、不同的操作系統(tǒng),這些既獨立又相互關(guān)聯(lián)的軟件之間還可能存在集成問題或者兼容性問題,這無疑進一步增加了整個維保工作的復(fù)雜程度。
1.2 對原廠依賴度過高
企業(yè)在系統(tǒng)維保方面嚴重依賴原廠,特別是在使用復(fù)雜、專有技術(shù)時,這帶來了一系列問題,如高昂的維保費用、較長的服務(wù)響應(yīng)時間,以及對原廠維保策略和升級計劃的過度依賴。對原廠服務(wù)的過度依賴使企業(yè)的維保知識和技能得不到積累和提升,一旦更換供應(yīng)商或原廠停止服務(wù),企業(yè)將面臨巨大的風(fēng)險。降低對原廠的依賴,構(gòu)建自主的維保能力,是企業(yè)亟待解決的問題。
1.3 維保成本與效率的挑戰(zhàn)
在當前的經(jīng)濟環(huán)境下,企業(yè)普遍面臨著降低運營成本和提高運維效率的壓力。傳統(tǒng)維保模式依賴人力操作,導(dǎo)致效率低下且成本高企。系統(tǒng)故障排查和修復(fù)耗時長、投入資源多,增加了維保成本的不確定性。為了降低維保成本,提高效率,企業(yè)需要探索新的維保模式和技術(shù)手段,實現(xiàn)維保工作的自動化和智能化,從而減少人力投入,提高故障處理的及時性和準確性。
1.4 當前市場狀況分析
當前,各種類型的第三方運維企業(yè)遍布各地,提供范圍廣泛的軟件系統(tǒng)和應(yīng)用場景相關(guān)服務(wù)。從整體看,該領(lǐng)域規(guī)模龐大且重要,而且需要專業(yè)技術(shù)人才。隨著市場競爭加劇,多數(shù)服務(wù)商正努力提升自身技術(shù)水準與管理精細度,以應(yīng)對客戶復(fù)雜化、多樣化的需求。在表面繁榮背后存在服務(wù)質(zhì)量不一的問題,公司在選定合作伙伴時需進行深入調(diào)查、評估以確定其是否真正符合特定維護要求和期望值[1]。
1.5 第三方運維的發(fā)展趨勢
技術(shù)進步和企業(yè)需求的變化推動了第三方運維服務(wù)出現(xiàn)新趨勢。自動化與智能化技術(shù)廣泛應(yīng)用,第三方運維正在向智能化方向轉(zhuǎn)型,包括應(yīng)用人工智能等技術(shù),以提升故障檢測與修復(fù)效率。云計算、大數(shù)據(jù)技術(shù)促使第三方運維服務(wù)更靈活高效地解決問題,并支持大規(guī)模多系統(tǒng)集中管理維護。定制化和個性化成為顯著趨勢;根據(jù)客戶特定需求設(shè)計實施方案以優(yōu)化服務(wù)質(zhì)量和結(jié)果。面對企業(yè)日益增加的數(shù)據(jù)安全及隱私保護要求,第三方運維商也全力提升安全合規(guī)性[1]。
2" "降低原廠依賴、降本增效與構(gòu)建通用維保體系
2.1 降低原廠依賴的策略
一種方式是減少對設(shè)備制造商依賴,實現(xiàn)系統(tǒng)維護保養(yǎng)自主與經(jīng)濟成本降低;引入第三方運維服務(wù)和培養(yǎng)內(nèi)部運維團隊,可顯著降低對原廠的依賴程度;建立健全技術(shù)培訓(xùn)體系,提升內(nèi)部人員整體水平,確保他們能獨立管理并解決系統(tǒng)問題;與不同第三方服務(wù)提供商建立穩(wěn)定合作關(guān)系,獲取廣泛技術(shù)支持和全面服務(wù),分散風(fēng)險并保證系統(tǒng)運行穩(wěn)定性[2];自主研發(fā)或定制開發(fā)關(guān)鍵組件和工具可明顯減少在技術(shù)上對原廠依賴,從而實現(xiàn)真正意義上的技術(shù)自主可控。
2.2 維保成本控制與優(yōu)化
在構(gòu)建統(tǒng)一的軟件系統(tǒng)維保體系過程中,維保成本的控制與優(yōu)化是一個關(guān)鍵環(huán)節(jié)。通過對比不同維保模式的年度維保成本(見表1),我們發(fā)現(xiàn)采用統(tǒng)一維保體系后,年度維保成本顯著降低,從原廠維保模式的650萬元降至452萬元,成本降低率達到37.4%。這一數(shù)據(jù)表明,統(tǒng)一維保體系不僅能夠有效控制維保成本,還能顯著提高經(jīng)濟效益。
2.3 提高運維效率的措施
引入高度自動化工具和智能監(jiān)控體系,實現(xiàn)狀態(tài)實時全面監(jiān)測,并能自動解決部分問題,同時減少人力介入,優(yōu)化處理速率。建構(gòu)規(guī)范流程及詳盡操作手冊可確保維護作業(yè)有序且減小失誤風(fēng)險。周期評估與性能優(yōu)化可有效消除障礙,加快響應(yīng)速度并提升處理能力。建立系統(tǒng)運維知識庫,基于AI大模型結(jié)合通信軟件的機器人問答功能實現(xiàn)自助智能答疑和操作指引,減少運維人力的投入,提升運維的效率。
2.4 維保體系設(shè)計原則
通用維保體系設(shè)計注重科學(xué)性、規(guī)范性和實用性的三項原則。建立通用維?!拔褰y(tǒng)一”服務(wù)體系:統(tǒng)一數(shù)據(jù)采集、統(tǒng)一運維服務(wù)、統(tǒng)一配置管理、統(tǒng)一運維管理、統(tǒng)一維護流程。系統(tǒng)狀態(tài)和需求決定了設(shè)計方向,布局要科學(xué),以確保各部分協(xié)調(diào)一致。統(tǒng)一維護標準與操作規(guī)程,提升工作效率,使流程順利進行。
2.5 體系結(jié)構(gòu)與關(guān)鍵組件
體系結(jié)構(gòu)和關(guān)鍵組件設(shè)計應(yīng)合理選擇,以建立統(tǒng)一維保體系。該體系包括指標監(jiān)控模塊、應(yīng)急響應(yīng)模塊、故障管理模塊及數(shù)據(jù)分析模塊等必要部件。系統(tǒng)全部接入已建設(shè)的統(tǒng)一運維平臺,平臺無法滿足的可基于低代碼開發(fā)SRE小工具解決,盡可能減少重復(fù)開發(fā),目的是減少人工投入,如監(jiān)控、性能巡檢、業(yè)務(wù)指標保障等工作。指標監(jiān)控模塊負責(zé)接入系統(tǒng)的運行狀態(tài)實時監(jiān)測,異常情況產(chǎn)生告警;應(yīng)急響應(yīng)模塊實現(xiàn)各系統(tǒng)的應(yīng)急管理,以及根據(jù)預(yù)設(shè)應(yīng)急方案進行演練;故障管理模塊采用指標檢測手段和算法排查,快速通過數(shù)字機器人提醒廠家跟進處理;數(shù)據(jù)分析模塊通過挖掘信息支撐決策,推薦優(yōu)化方向[3]。該體系需具備良好可拓展性、兼容性和可復(fù)制性,適配不同系統(tǒng)平臺及裝置類型,滿足不斷變化環(huán)境下的維保要求。
3" "自動智能運維工具的應(yīng)用
3.1 自動化運維工具的選擇與應(yīng)用
為了更好的落地通用維保體系,需選擇可靠的自動化運維工具實現(xiàn)監(jiān)控整個系統(tǒng)狀態(tài)并管理各種操作,提升效率和減少人為失誤。工具要求功能全面、容易使用及擴展性強,具備基于低代碼平臺快速開發(fā)實現(xiàn)可視化應(yīng)用。例如,利用低代碼平臺對服務(wù)器集群進行通用數(shù)據(jù)配置、批量修改密碼和批量系統(tǒng)打補丁等,自動觸發(fā)告警通過對接短信和郵件接口實現(xiàn)即時提醒,減少人工介入,從而降低維護成本。這些工具對批量處理、監(jiān)控告警等起到關(guān)鍵作用,可縮短運維時間,并提升系統(tǒng)穩(wěn)定性、及時性與可用性。
3.2 智能運維平臺的構(gòu)建
智能運維平臺的建設(shè)對系統(tǒng)運維具有極其重要的意義。平臺集成了多種工具和模塊,引入了標準化接口對接各系統(tǒng)采集數(shù)據(jù),加入了強大的數(shù)據(jù)分析功能,增加了閉環(huán)管理流程,大幅優(yōu)化運維效率。該平臺具備包括故障預(yù)警、賬號管理、應(yīng)用層巡檢、系統(tǒng)備份、故障管理、業(yè)務(wù)指標保障、合規(guī)整改、漏洞整改、連通性分析、應(yīng)急演練、性能優(yōu)化及資源管理在內(nèi)的運維功能,幫助運維人員及時發(fā)現(xiàn)、分析和解決問題。通過精細化建模和歷史數(shù)據(jù)預(yù)測發(fā)現(xiàn)風(fēng)險隱患,并實施維護以減少故障發(fā)生[4]。
3.3 實例分析與效果評估
某運營商的網(wǎng)管中心選擇第三方廠家統(tǒng)一運維5個網(wǎng)管系統(tǒng),保障系統(tǒng)穩(wěn)定性,并實現(xiàn)降本增效目標。該項目引入的智能運維平臺全面集成了日志分析、告警分析、工單閉環(huán)管理、大數(shù)據(jù)分析和自動化運維技術(shù),實現(xiàn)了對網(wǎng)管各定制軟件系統(tǒng)的高效監(jiān)控與管理。在實施過程中對這5個網(wǎng)絡(luò)管理系統(tǒng)進行接入驗證,這些網(wǎng)管系統(tǒng)處理高并發(fā)的網(wǎng)絡(luò)任務(wù),還包含復(fù)雜的業(yè)務(wù)邏輯,對運維工作的要求比較高。運維人員對各系統(tǒng)中的數(shù)據(jù)進行標準化接口對接采集,包括性能、告警、日志和故障等數(shù)據(jù),并運用大數(shù)據(jù)分析技術(shù)對這些數(shù)據(jù)建立識別規(guī)則,平臺輸出運行中的性能瓶頸告警和故障告警。在此基礎(chǔ)上,平臺根據(jù)歷史節(jié)假日數(shù)據(jù)分析進行智能預(yù)測,并提醒運維人員采取措施防范。智能運維平臺能夠?qū)崟r監(jiān)控和分析海量的系統(tǒng)日志數(shù)據(jù),快速定位系統(tǒng)異常情況,并結(jié)合案例生成故障處理建議,顯著縮短了故障響應(yīng)時間。平臺定期執(zhí)行健康檢查和性能優(yōu)化,有效預(yù)防了資源過載和性能下降。為了以科學(xué)方法驗證平臺效果,運維人員仔細對比了引入前后的關(guān)鍵性指標情況,具體數(shù)據(jù)如表2所示。
表2顯示,智能運維平臺在多項關(guān)鍵指標上實現(xiàn)了顯著提升。原先處理故障平均需要116分鐘,現(xiàn)在這一時間已降至43分鐘,效率提升了62%。這得益于智能運維平臺的自動化處理和實時故障預(yù)警功能,使得運維團隊能夠更快地響應(yīng)系統(tǒng)問題。引入智能運維平臺后,告警處理及時率從50%提升至91%,提升了82%。故障響應(yīng)時間也從35分鐘減少到4分鐘,提升了88.57%。此外,工單7天辦結(jié)率從70%提升至92%,提升了31.43%。這些優(yōu)化不僅縮短了業(yè)務(wù)中斷時間,提高了工作效率,還顯著提升了客戶服務(wù)體驗和系統(tǒng)的持續(xù)性。通過常態(tài)的自動健康檢查和性能調(diào)整,系統(tǒng)趨于更穩(wěn)定,并降低了錯誤率。操作員的滿意度也從70%躍升至90%,提升了28.6%。在運營商網(wǎng)管中心應(yīng)用這一平臺,顯著提升了系統(tǒng)維保效果、告警處理及時率,減少了故障響應(yīng)時長,還能改變以往煙窗式維護的定制的多業(yè)務(wù)軟件系統(tǒng)中存在的問題,保障集中、統(tǒng)一運維系統(tǒng)的穩(wěn)定性。
4" "結(jié)束語
在軟件系統(tǒng)維保模式的探索與實踐中,我們推動了統(tǒng)一維保體系和自動運維平臺的構(gòu)建。通過實現(xiàn)系統(tǒng)維護的標準化、自動化,改變了以往煙窗式定制系統(tǒng)維護模式,我們減少了對原廠的依賴,有效壓縮運維成本,從而實現(xiàn)降本增效的目標,并顯著提升運維人員維護效率。展望未來,隨著體系的完善和技術(shù)的發(fā)展,我們可以進一步拓展通用軟件維保模式的覆蓋范圍,為社會創(chuàng)造更多的經(jīng)濟效益和社會效益。
參考文獻
[1] 曹陳涵.面向運維工單的自動化管理系統(tǒng)[D]. 南京:南京郵電大學(xué),2023.
[2] 李子航,葛陽,劉思語,等.人工智能軟件系統(tǒng)的非功能屬性及其質(zhì)量保障方法[J].互聯(lián)網(wǎng)周刊,2023(12):21-23.
[3] 王珍.自動喚醒智能運維[N].中國紀檢監(jiān)察報,2021-08-09(008).
[4] 薛曉慧,郭志華,黃超,等.基于HPLC拓撲自動識別技術(shù)的營配智能運維系統(tǒng)設(shè)計[J].信息通信,2020(10):58-60.