摘要:分布式系統(tǒng)規(guī)模龐大且結(jié)構(gòu)復(fù)雜,傳統(tǒng)的運(yùn)維方式已難以滿足其對(duì)穩(wěn)定性和高效率的需求。文章采用Web技術(shù)和機(jī)器學(xué)習(xí)算法開發(fā)了一種分布式系統(tǒng)的故障診斷實(shí)現(xiàn)方法。在Web方面,文章設(shè)計(jì)并實(shí)現(xiàn)了用戶管理、日志的采集與管理、故障診斷與可視化、運(yùn)維管理等功能。在機(jī)器學(xué)習(xí)方面,文章訓(xùn)練并評(píng)估了決策樹、隨機(jī)森林、前饋神經(jīng)網(wǎng)絡(luò)模型,其中隨機(jī)森林模型的故障診斷準(zhǔn)確率高達(dá)95%。該系統(tǒng)不僅有利于故障的快速診斷和解決,降低運(yùn)維的難度,減少人力資源的消耗,提高運(yùn)維效率,還具有顯著的實(shí)用價(jià)值和廣泛的應(yīng)用前景。
關(guān)鍵詞:分布式系統(tǒng);故障診斷;FNN;RF;DT
中圖分類號(hào):TP311 "文獻(xiàn)標(biāo)志碼:A
0 引言
在大數(shù)據(jù)時(shí)代,隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,分布式系統(tǒng)已成為信息存儲(chǔ)和處理的核心架構(gòu)。與傳統(tǒng)系統(tǒng)相比,分布式系統(tǒng)的規(guī)模更大,結(jié)構(gòu)更復(fù)雜,但同時(shí)也帶來(lái)更高的故障率[1]。面對(duì)復(fù)雜龐大的分布式系統(tǒng),傳統(tǒng)的手動(dòng)運(yùn)維方式已無(wú)法保障系統(tǒng)的穩(wěn)定運(yùn)行。在分布式系統(tǒng)中,當(dāng)某個(gè)節(jié)點(diǎn)出現(xiàn)故障時(shí),該故障會(huì)沿著系統(tǒng)的拓?fù)浣Y(jié)構(gòu)傳播,影響該節(jié)點(diǎn)及其鄰接節(jié)點(diǎn)的關(guān)鍵性能指標(biāo)(Key Performance Indicator,KPI)并產(chǎn)生大量異常日志,極大地增加了運(yùn)維的難度和復(fù)雜性。近年來(lái),隨著人工智能的發(fā)展,機(jī)器學(xué)習(xí)算法已被應(yīng)用于多個(gè)領(lǐng)域(如電力系統(tǒng)[2]、汽車[3]、火箭發(fā)動(dòng)機(jī)[4]等方面)的智能故障診斷并取得了一定成果。本文采用Web技術(shù)和機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)了分布式系統(tǒng)的故障診斷方法,故障診斷準(zhǔn)確率高達(dá)95%,極大地提升了分布式系統(tǒng)的運(yùn)維效率,有力地保障了系統(tǒng)的穩(wěn)定運(yùn)行。
1 分布式系統(tǒng)應(yīng)用的相關(guān)互聯(lián)網(wǎng)技術(shù)
當(dāng)實(shí)現(xiàn)基于機(jī)器學(xué)習(xí)的分布式系統(tǒng)故障診斷方法時(shí),本文須要借助一系列互聯(lián)網(wǎng)相關(guān)技術(shù)(如前端開發(fā)框架Vue以及后端Spring Framework等)完成功能開發(fā)。此外,本文利用Flume框架收集分布式系統(tǒng)的故障日志數(shù)據(jù)。下面對(duì)其中幾項(xiàng)關(guān)鍵技術(shù)和應(yīng)用進(jìn)行介紹。
1.1 Web技術(shù)
Vue是一個(gè)基于標(biāo)準(zhǔn)HTML、CSS和JavaScript構(gòu)建的用戶界面開發(fā)框架。文章提供了一套聲明式且組件化的編程模型,能夠滿足前端開發(fā)中的大多數(shù)需求。Vue以其雙向數(shù)據(jù)綁定、高度靈活性和“可以被逐步集成”等優(yōu)點(diǎn)著稱[5],已成為當(dāng)今最流行的前端開發(fā)框架之一[6]。
Spring Framework作為后端開發(fā)中主流的解決方案,包括Spring、Spring MVC、SpringBoot和Spring Cloud框架。其中,SpringBoot是建立在Spring 4.0基礎(chǔ)之上的輕量級(jí)Java開發(fā)框架,保留了原始Spring框架的卓越特性并提供了簡(jiǎn)化的配置功能,使開發(fā)人員能夠更輕松快速地構(gòu)建出企業(yè)級(jí)應(yīng)用。SpringBoot具有簡(jiǎn)化配置、簡(jiǎn)化依賴管理、獨(dú)立運(yùn)行和內(nèi)嵌服務(wù)器選項(xiàng)等優(yōu)勢(shì),因此成為廣泛應(yīng)用于微服務(wù)開發(fā)領(lǐng)域的首選框架之一[7]。
1.2 日志采集系統(tǒng)
Flume是一個(gè)海量日志采集、聚合和傳輸?shù)南到y(tǒng),是一個(gè)分布式、可靠且高可用的服務(wù)。Flume基于流數(shù)據(jù)的簡(jiǎn)單靈活架構(gòu),具備良好的可靠性機(jī)制、故障轉(zhuǎn)移恢復(fù)機(jī)制和強(qiáng)大的容錯(cuò)性等優(yōu)點(diǎn),適用于需要高可靠性、高性能的大規(guī)模日志數(shù)據(jù)收集和傳輸任務(wù)。
2 機(jī)器學(xué)習(xí)算法
在機(jī)器學(xué)習(xí)領(lǐng)域,研究人員使用各種算法和技術(shù)來(lái)訓(xùn)練模型以從數(shù)據(jù)中學(xué)習(xí)并做出預(yù)測(cè)。根據(jù)機(jī)器學(xué)習(xí)任務(wù)涉及的目標(biāo)變量類型(離散型或連續(xù)型),可將算法分為分類算法和回歸算法,本文將重點(diǎn)介紹分類算法。
2.1 決策樹
決策樹(Decision Tree,DT)是一種以樹形數(shù)據(jù)結(jié)構(gòu)進(jìn)行決策的模型[8]。構(gòu)建決策樹的過(guò)程:從根節(jié)點(diǎn)開始,測(cè)試待分類項(xiàng)中相應(yīng)的特征屬性,按屬性值選擇分支直到對(duì)應(yīng)的葉子節(jié)點(diǎn),葉子節(jié)點(diǎn)存放的類別即為決策結(jié)果。決策樹因其易理解、魯棒性強(qiáng)、高效等優(yōu)點(diǎn),在各個(gè)領(lǐng)域都有廣泛的應(yīng)用。
2.2 隨機(jī)森林
隨機(jī)森林(Random Forest,RF)是一種由多棵決策樹組成的集成學(xué)習(xí)算法[9],核心思想如下:首先,構(gòu)建多棵決策樹;其次,每棵樹都在隨機(jī)選擇的數(shù)據(jù)子集和特征子集上進(jìn)行訓(xùn)練,該策略增加了模型的多樣性并減少了過(guò)擬合的風(fēng)險(xiǎn);最后,通過(guò)對(duì)所有決策樹的預(yù)測(cè)結(jié)果進(jìn)行平均或投票表決來(lái)匯總,從而提升預(yù)測(cè)的準(zhǔn)確性和穩(wěn)定性。隨機(jī)森林算法因其在高維不平衡數(shù)據(jù)上表現(xiàn)良好而被廣泛應(yīng)用于回歸和分類問(wèn)題。
2.3 前反饋神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)模型的基本思想為通過(guò)模擬人類神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能,實(shí)現(xiàn)對(duì)數(shù)據(jù)集中模式或規(guī)律的學(xué)習(xí)和識(shí)別。神經(jīng)網(wǎng)絡(luò)由多個(gè)神經(jīng)元連接而成,每個(gè)神經(jīng)元接收輸入信號(hào)、加權(quán)處理并將結(jié)果傳遞給下一層神經(jīng)元,通過(guò)反向傳播等優(yōu)化算法,神經(jīng)網(wǎng)絡(luò)不斷調(diào)整神經(jīng)元之間的權(quán)重,降低預(yù)測(cè)誤差,從而提高模型的準(zhǔn)確性和泛化能力。目前,神經(jīng)網(wǎng)絡(luò)模型已廣泛應(yīng)用于許多領(lǐng)域,例如圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理、推薦系統(tǒng)、金融預(yù)測(cè)等。
前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network,F(xiàn)NN)是一種單向的、無(wú)環(huán)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[10],每個(gè)神經(jīng)元的輸出只能作為下一層神經(jīng)元的輸入,不能形成閉環(huán)。前饋神經(jīng)網(wǎng)絡(luò)通過(guò)多層神經(jīng)元進(jìn)行特征提取和抽象并最終輸出結(jié)果,其模型結(jié)構(gòu)簡(jiǎn)單、易于理解和實(shí)現(xiàn)。
3 系統(tǒng)設(shè)計(jì)
3.1 需求分析
分布式系統(tǒng)的故障診斷方法有利于管理人員和運(yùn)維工程師更好地監(jiān)控、管理和維護(hù)分布式系統(tǒng)。根據(jù)業(yè)務(wù)場(chǎng)景及功能進(jìn)行系統(tǒng)需求分析,系統(tǒng)的用戶角色分為管理員、運(yùn)維工程師以及普通用戶,須實(shí)現(xiàn)的系統(tǒng)功能如下。
(1)權(quán)限與用戶信息管理:管理員可以進(jìn)行菜單權(quán)限管理以及用戶管理,為不同用戶設(shè)置不同的權(quán)限功能。管理員可以進(jìn)行個(gè)人信息和密碼的維護(hù)。
(2)一鍵日志采集:管理員和運(yùn)維工程師人員可制定日志采集的內(nèi)容、數(shù)據(jù)清洗規(guī)則以及指定采集的節(jié)點(diǎn),實(shí)現(xiàn)一鍵式數(shù)據(jù)采集與清洗功能。
(3)模型訓(xùn)練:管理員可以選定或者上傳數(shù)據(jù)集進(jìn)行故障模型訓(xùn)練以及下載訓(xùn)練模型。
(4)智能故障診斷:管理員以及運(yùn)維工程師可以選擇機(jī)器學(xué)習(xí)算法進(jìn)行故障診斷,所有人員均可以查看診斷結(jié)果和故障可視化數(shù)據(jù)報(bào)表。
(5)故障監(jiān)控與可視化:故障類型與數(shù)量以報(bào)表形式進(jìn)行呈現(xiàn),既可跟蹤維修情況和進(jìn)度,又能展示分布式系統(tǒng)的節(jié)點(diǎn)網(wǎng)絡(luò)拓?fù)鋱D。
(6)故障報(bào)修:普通用戶和管理員可以進(jìn)行運(yùn)維報(bào)修,將故障情況發(fā)送給其他用戶以及查看故障處理情況。
(7)運(yùn)維管理:運(yùn)維工程師可以查看需要進(jìn)行維護(hù)處理的故障并在故障處理完成后對(duì)報(bào)修的故障進(jìn)行回執(zhí)。
3.2 總體功能設(shè)計(jì)
系統(tǒng)的主要功能模塊包含系統(tǒng)管理、數(shù)據(jù)采集、模型訓(xùn)練、故障診斷、運(yùn)維中心、個(gè)人中心。其中,系統(tǒng)管理包含用戶、角色、菜單管理功能;數(shù)據(jù)采集包含采集配置、在線采集、離線上傳和下載功能;模型訓(xùn)練包含RF、DF、FNN訓(xùn)練;故障診斷包含在線故障預(yù)測(cè)、故障匯總與分布、故障詳細(xì)報(bào)表;運(yùn)維中心包含故障保修、詳情、運(yùn)維進(jìn)度詳情和信息回執(zhí);個(gè)人中心包含個(gè)人信息、修改密碼、注冊(cè)與登錄等功能。
3.3 數(shù)據(jù)庫(kù)設(shè)計(jì)
本文結(jié)合需求分析以及總體系統(tǒng)功能,設(shè)計(jì)了14張數(shù)據(jù)庫(kù)表,如圖1所示。
表t_train_file用于存儲(chǔ)機(jī)器訓(xùn)練集的相關(guān)數(shù)據(jù);表t_train包含故障診斷模型所需的數(shù)據(jù);表t_predict用于存儲(chǔ)故障診斷相關(guān)數(shù)據(jù);診斷結(jié)果被記錄在表t_failure_result中。與日志采集相關(guān)的表為t_log_collection和t_log_config。
4 系統(tǒng)實(shí)現(xiàn)
4.1 技術(shù)選型
系統(tǒng)前端部分采用Element-UI進(jìn)行圖形界面設(shè)計(jì),采用Vue.js進(jìn)行動(dòng)態(tài)場(chǎng)景交互,同時(shí)采用Echarts對(duì)故障進(jìn)行統(tǒng)計(jì)可視化展示。后端采用SpringBoot、Mybatis-Plus和Redis框架完成開發(fā),持久層采用MySQL。故障診斷算法選用FNN、DT、RF算法。系統(tǒng)選擇Maven進(jìn)行項(xiàng)目管理,Git進(jìn)行代碼版本管理。
4.2 前端實(shí)現(xiàn)
本系統(tǒng)采用左側(cè)欄導(dǎo)航,利用Element-UI的Menu菜單組件實(shí)現(xiàn)了垂直且可折疊的菜單,增強(qiáng)了導(dǎo)航的可見性,方便用戶進(jìn)行頁(yè)面切換;在頁(yè)面頂部放置常用工具,如搜索欄、幫助按鈕和通知按鈕;主頁(yè)面使用Table表格組件展示多條結(jié)構(gòu)相似的數(shù)據(jù),提供了排序、篩選、對(duì)比和其他自定義操作功能。為了提升用戶體驗(yàn),本系統(tǒng)采用Pagination分頁(yè)組件對(duì)數(shù)據(jù)量較大的表格進(jìn)行分頁(yè)處理。本系統(tǒng)中的用戶管理、角色管理、菜單管理、模型訓(xùn)練和故障診斷等功能均采用類似的實(shí)現(xiàn)方式。
4.3 數(shù)據(jù)采集
本文采用Flume框架進(jìn)行數(shù)據(jù)采集,采集過(guò)程如圖2所示。
Flume框架的核心工作為:通過(guò)數(shù)據(jù)采集器將分布式系統(tǒng)的節(jié)點(diǎn)日志數(shù)據(jù)從數(shù)據(jù)源(Source)進(jìn)行收集,再將收集的數(shù)據(jù)通過(guò)緩沖通道(Channel)匯集到指定的接收器(Sink)。
4.4 故障診斷模型
4.4.1 特征工程
在數(shù)據(jù)特征工程階段,本系統(tǒng)進(jìn)行去重、特征篩選、缺失值填充和數(shù)據(jù)標(biāo)準(zhǔn)化等操作。具體的數(shù)據(jù)處理邏輯如圖3所示。
首先,本文剔除缺失率超過(guò)80%的樣本以減少噪聲干擾;其次,計(jì)算特征之間的協(xié)方差,篩選出相關(guān)性較高的特征組進(jìn)行PCA降維處理;再次,進(jìn)一步降維并分析特征值的分布情況,剔除區(qū)分度較小的特征,以提高模型的泛化能力;最后,根據(jù)樣本數(shù)量的不同,選擇合適的填充方法(如0填充、均值填充或K鄰近填充)進(jìn)行填充并進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,確保數(shù)據(jù)處于相同的尺度范圍,有利于模型的訓(xùn)練和表現(xiàn)。
4.4.2 模型訓(xùn)練
本項(xiàng)目選擇3種算法模型進(jìn)行訓(xùn)練,分別為FNN、DT和RF算法。訓(xùn)練通常包括參數(shù)調(diào)優(yōu)、模型訓(xùn)練和評(píng)估3個(gè)步驟。模型訓(xùn)練流程如圖4所示。
圖中,F(xiàn)NN模型采用5個(gè)全連接層(Dense層),每層均應(yīng)用L2正則化。優(yōu)化器采用Adamax,損失函數(shù)選用分類交叉熵(categorical_crossentropy)。同時(shí),將標(biāo)簽數(shù)據(jù)轉(zhuǎn)換為獨(dú)熱編碼并使用類別加權(quán)策略進(jìn)行訓(xùn)練。DT和RF的訓(xùn)練方法相似,RF模型的訓(xùn)練步驟如下:步驟1,定義模型的超參數(shù)組合;步驟2,定義模型對(duì)象RomandForestClassier;步驟3,網(wǎng)格搜索最優(yōu)超參數(shù)組合;步驟4,調(diào)用fit函數(shù)訓(xùn)練。
4.5 后端實(shí)現(xiàn)
本系統(tǒng)的后端主要分為Web服務(wù)端和機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)2個(gè)部分。故障診斷功能后端實(shí)現(xiàn)步驟如圖5所示。
Web服務(wù)端采用Java語(yǔ)言,基于SpringBoot框架和Mybatis-Plus框架進(jìn)行功能開發(fā)。系統(tǒng)分為3層:Controller層(負(fù)責(zé)消息接入)、Service層(處理業(yè)務(wù)邏輯)和Dao層(負(fù)責(zé)數(shù)據(jù)庫(kù)操作)。機(jī)器學(xué)習(xí)算法部分選用Python語(yǔ)言,完成了日志文件讀取、特征工程處理、模型訓(xùn)練和故障預(yù)測(cè)并進(jìn)行結(jié)果寫文件操作。
Web服務(wù)端(Java)和機(jī)器學(xué)習(xí)算法部分(Python)間的通信采用Socket網(wǎng)絡(luò)編程方式實(shí)現(xiàn)。Python端創(chuàng)建一個(gè)Socket服務(wù)器,接收J(rèn)ava端發(fā)送的數(shù)據(jù),調(diào)用機(jī)器學(xué)習(xí)模型進(jìn)行故障預(yù)測(cè)診斷并將結(jié)果返回給Java端。Java端使用Socket類與Python服務(wù)器建立連接,發(fā)送數(shù)據(jù)并接收Python服務(wù)器返回的結(jié)果。
5 模型驗(yàn)證結(jié)果與分析
在分布式系統(tǒng)上,本文采集了10000條含故障特征和標(biāo)簽的數(shù)據(jù)。其中,特征數(shù)據(jù)是系統(tǒng)發(fā)生故障時(shí)的106個(gè)指標(biāo)數(shù)據(jù);標(biāo)簽數(shù)據(jù)為故障類別數(shù)據(jù),共6種類型的故障。在此數(shù)據(jù)集上,本文完成了DT、RF和FNN模型的訓(xùn)練,對(duì)3個(gè)模型進(jìn)行評(píng)估,模型性能指標(biāo)如表1所示。
由表1可知:RF模型具有最高的準(zhǔn)確率為0.95,F(xiàn)NN模型次之,DT模型的準(zhǔn)確率最低。
F1-score作為一個(gè)綜合模型評(píng)估指標(biāo),是精確率(Precision)和召回率(Recall)的調(diào)和平均值。FNN模型、DT模型和RF模型在6個(gè)類別上的F1-score表現(xiàn)分別如下:在大多數(shù)類別上FNN模型的F1-score都在0.85到0.91之間,整體表現(xiàn)較為均衡;DT模型在所有類別上的F1-score分布于0.64到0.92之間,相對(duì)于FNN模型,表現(xiàn)稍差一些;RF模型在所有類別上的F1-score均達(dá)到了0.87以上,表現(xiàn)相對(duì)較好。
綜上所述,在該數(shù)據(jù)集上,RF模型在準(zhǔn)確率和F1-score上都表現(xiàn)優(yōu)于FNN模型和DT模型。
6 結(jié)語(yǔ)
本文致力于解決分布式系統(tǒng)純?nèi)斯ぞS護(hù)效率低的問(wèn)題,設(shè)計(jì)并實(shí)現(xiàn)了基于機(jī)器學(xué)習(xí)的故障診斷方法。本文介紹了系統(tǒng)的前端設(shè)計(jì)、數(shù)據(jù)庫(kù)設(shè)計(jì)、flume數(shù)據(jù)采集以及特征工程的方案;完成了決策樹、隨機(jī)森林和前饋神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練和評(píng)估工作;以故障診斷功能為例,詳細(xì)介紹了后端Java和Python實(shí)現(xiàn)的主要步驟。
該系統(tǒng)功能齊全,頁(yè)面簡(jiǎn)潔易用,實(shí)用性強(qiáng)。用戶可以通過(guò)一鍵式操作完成多節(jié)點(diǎn)故障日志采集和智能故障診斷。實(shí)驗(yàn)結(jié)果表明,利用隨機(jī)森林模型的故障診斷的準(zhǔn)確率達(dá)95%,促進(jìn)了系統(tǒng)故障的快速診斷和解決,降低了運(yùn)維的難度,提高了運(yùn)維效率。該系統(tǒng)具有顯著的實(shí)用價(jià)值和廣泛的應(yīng)用前景,為企業(yè)和組織提供了更智能、高效的運(yùn)維管理解決方案。
參考文獻(xiàn)
[1]陳園瓊,孟玉佳,李智豪.基于機(jī)器學(xué)習(xí)的分布式的故障診斷系統(tǒng)研究[J].電腦知識(shí)與技術(shù),2024(3):22-24.
[2]謝國(guó)民,林忠寶.多策略改進(jìn)黏菌算法階段優(yōu)化HSVM變壓器故障辨識(shí)[J].電子測(cè)量與儀器學(xué)報(bào),2023(4):1-11.
[3]倪龍飛,白倩,張治斌.基于AdaBoost算法的新能源汽車電機(jī)異常故障檢測(cè)[J].計(jì)算機(jī)仿真,2024(4):97-101.
[4]張萬(wàn)旋,張箭,盧哲,等.火箭發(fā)動(dòng)機(jī)故障檢測(cè)的快速增量單分類支持向量機(jī)算法[J].國(guó)防科技大學(xué)學(xué)報(bào),2024(2):115-122.
[5]胡鵬飛,于強(qiáng).基于B/S的空間站高溫柜地基實(shí)驗(yàn)遠(yuǎn)程操控系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2023(12):9-15.
[6]CHING C T,HSIAO L W,F(xiàn)ENG C T,et al. Distributed consensus formation control with collision and obstacle avoidance for uncertain networked omnidirectional multi-robot systems using fuzzy wavelet neural networks[J]. International Journal of Fuzzy Systems,2016(19):1375-1391.
[7]劉梅,卜言彬,周越.基于微信小程序的土地租賃的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代信息科技,2023(10):95-98.
[8]范劭博,張中杰,黃健.決策樹剪枝加強(qiáng)的關(guān)聯(lián)規(guī)則分類方法[J].計(jì)算機(jī)工程與應(yīng)用,2023(5):87-94.
[9]張晟瑀,申文超,蘇小四.基于隨機(jī)森林法的區(qū)域地下水硝酸鹽污染風(fēng)險(xiǎn)評(píng)價(jià)[J].吉林大學(xué)學(xué)報(bào),2024(4):1-17.
[10]何娟霞,黃麗文,蔣文豪,等.前饋神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)連續(xù)泄露系數(shù)中的應(yīng)用[J].安全與環(huán)境學(xué)報(bào),2024(24):2179-2189.
(編輯 王雪芬編輯)
Implementation method of fault diagnosis for distributed system based on machine learning
LIU" Mei, ZHOU" Hongping, DING" Wenyi
(Communication University of China Nanjing, Nanjing 210000, China)
Abstract: The distributed system is large in scale and structurally complex, making traditional maintenance methods inadequate to meet its requirements for stability and efficiency. This paper develops a fault diagnosis implementation method for distributed system using Web technology and machine learning algorithm. In terms of Web, this paper designs and implements the functions such as user management, log collection and management, fault diagnosis and visualization, and operation and maintenance management. In terms of machine learning, decision trees, random forests, and feedforward neural network models are trained and evaluated. The fault diagnosis accuracy based on random forest models can achieve up to 95%. This system is not only conducive to rapid fault diagnosis and resolution, reducing the complexity of operations and maintenance, minimizing manpower consumption, improving operational efficiency, but also offering significant practical value and broad application prospects.
Key words: distributed system; fault diagnosis; FNN; RF; DT