摘要:為保障高速公路服務(wù)區(qū)供暖系統(tǒng)的健康運(yùn)行,本文結(jié)合供暖系統(tǒng)的構(gòu)成和運(yùn)行特征,設(shè)計(jì)了一種用于評(píng)估服務(wù)區(qū)供暖系統(tǒng)運(yùn)行健康狀態(tài)的極致梯度提升(Extreme Gradient Boosting, XGBoost)和支持向量機(jī)(Support Vector Machine, SVM)的雙層機(jī)器學(xué)習(xí)模型,并將系統(tǒng)運(yùn)行健康狀態(tài)分為健康、亞健康、故障和異常四個(gè)等級(jí)。首先,分析電壓、電流、水溫、機(jī)組運(yùn)行狀態(tài)、蓄熱泵、循環(huán)泵和泵運(yùn)行狀態(tài)7個(gè)子系統(tǒng)的運(yùn)行特征,使用隨機(jī)函數(shù)和欠采樣處理構(gòu)建特征向量集。其次,采用XGBoost構(gòu)建下層各子系統(tǒng)健康狀態(tài)評(píng)估模型,并輸出各子系統(tǒng)的健康狀態(tài)。然后,融合各子系統(tǒng)健康狀態(tài)的評(píng)估結(jié)果,輸入至上層SVM系統(tǒng)評(píng)估模型,得到整個(gè)供暖系統(tǒng)的健康狀態(tài)。最后,將實(shí)驗(yàn)與決策樹(shù)、AdaBoost和XGBoost等模型進(jìn)行對(duì)比,結(jié)果表明所提出的XGBoost SVM雙層機(jī)器學(xué)習(xí)模型相較對(duì)比模型而言,不僅判斷精度更高,同時(shí)還可評(píng)估整個(gè)供暖系統(tǒng)以及各子系統(tǒng)的健康狀態(tài)。
關(guān)鍵詞:運(yùn)輸規(guī)劃與管理;雙層機(jī)器學(xué)習(xí)模型;極致梯度提升;支持向量機(jī)模型;服務(wù)區(qū)供暖系統(tǒng);數(shù)據(jù)特征
中圖分類(lèi)號(hào):U491"""""""""""""""""""""""""""""""""" 文獻(xiàn)標(biāo)識(shí)碼:A"""""""""""""""""""""""""""""""""" 文章編號(hào):1673?6478(2023)03-0153-06
Health Status Assessment of Heating System in Expressway Service Area Based on Extreme Gradient Boosting and Support Vector Machine Model
WANG Qiang HE Xiaoyu LIU Wenhui ZHAO Jiandong
(1. Shanxi Traffic Industrial Development Group Co., Ltd., Taiyuan Shanxi 030006, China; 2. School of Traffic and Transportation, Beijing Jiaotong University, Beijing 100044, China; 3. Shanxi Transportation New Technology Development Co., Ltd., Taiyuan Shanxi 030012, China)
Abstract: In order to ensure the healthy operation of the heating system in the expressway service area, combined with the composition and operation characteristics of the heating system, a two?layer machine learning model of extreme gradient boosting (XGBoost) and support vector machine (SVM) is designed for evaluating the operational health of the service district heating system, and the health status of the system is divided into four levels: healthy, sub?healthy, faulty and abnormal. Firstly, the operating characteristics of seven subsystems including voltage, current, water temperature, unit working state, heat storage pump, circulating pump and pump working state are analyzed, and feature vector sets are constructed using random functions and undersampling processing. Secondly, XGBoost is used to build the health status evaluation model of each sub?system in the lower layer, and output the health status of each subsystem. Then, the results of the health status assessment of each subsystem are combined to input to the upper?layer SVM system assessment model to obtain the health status of the entire heating system. Finally, compared with the decision tree, AdaBoost, XGBoost and other models through experiments, the results show that the proposed XGBoost SVM double?layer machine learning model not only has high judgment accuracy, but also evaluates the health status of the entire heating system and each subsystem at the same time.
Key words: transportation planning and management; double?layer machine learning model; extreme gradient boosting; support vector machine model; service area heating system; data features
0 引言
服務(wù)區(qū)作為高速公路上必不可少的設(shè)施,可以為司乘人員提供服務(wù)、保證交通運(yùn)輸效率。因?yàn)榉?wù)區(qū)處于相對(duì)獨(dú)立的地理位置,所以服務(wù)區(qū)內(nèi)包含基本的生活保障系統(tǒng),如供暖系統(tǒng)。供暖系統(tǒng)共包含電壓、電流、水溫、壓縮機(jī)組狀態(tài)、蓄熱泵、循環(huán)泵和泵運(yùn)行狀態(tài)7個(gè)子系統(tǒng)。
考慮到現(xiàn)場(chǎng)管理人員技術(shù)水平有限,無(wú)法及時(shí)發(fā)現(xiàn)供暖系統(tǒng)出現(xiàn)的運(yùn)行故障,所以為保障服務(wù)區(qū)的供暖要求,需要對(duì)供暖系統(tǒng)的運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)評(píng)估,技術(shù)人員可依據(jù)系統(tǒng)健康狀態(tài)數(shù)據(jù)對(duì)供暖設(shè)備進(jìn)行維護(hù)。目前已有對(duì)服務(wù)區(qū)基礎(chǔ)設(shè)施的相關(guān)研究[1?2],但對(duì)供暖系統(tǒng)健康評(píng)估的研究較少,供暖系統(tǒng)可以保障服務(wù)區(qū)在低溫天氣時(shí)的服務(wù)效率,因此開(kāi)展高速公路服務(wù)區(qū)供暖系統(tǒng)健康狀態(tài)的研究是極具意義的。
健康狀態(tài)評(píng)估就是收集設(shè)備運(yùn)行時(shí)的特征數(shù)據(jù),經(jīng)過(guò)處理后將數(shù)據(jù)輸入至模型,把特征數(shù)據(jù)映射到健康因子中,從而實(shí)現(xiàn)狀態(tài)分類(lèi)。目前使用的評(píng)估模型主要包含以下兩種:
(1)知識(shí)網(wǎng)絡(luò)模型:如Petri網(wǎng)[3]和專(zhuān)家系統(tǒng)[4]等,主要通過(guò)一些非量化的、主觀性更強(qiáng)的參數(shù)來(lái)進(jìn)行健康評(píng)估。這種模型基于專(zhuān)家學(xué)者的實(shí)際經(jīng)驗(yàn)和對(duì)某領(lǐng)域知識(shí)的了解。葛衛(wèi)華[5]考慮到電梯日常運(yùn)行的舒適度以及常見(jiàn)故障,結(jié)合模糊神經(jīng)Petri模型實(shí)現(xiàn)了對(duì)電梯運(yùn)行健康度的研究。知識(shí)網(wǎng)絡(luò)模型主要依據(jù)專(zhuān)家知識(shí)和經(jīng)驗(yàn),主觀性較強(qiáng)。
(2)機(jī)器學(xué)習(xí)模型:常使用的模型有回歸模型、神經(jīng)網(wǎng)絡(luò)模型等,模型通過(guò)對(duì)大量數(shù)據(jù)的梳理來(lái)查找模式或進(jìn)行預(yù)測(cè)。高昊天等[6]利用Softmax分類(lèi)模型對(duì)鋰電池健康狀態(tài)進(jìn)行第一步分類(lèi),將退化趨勢(shì)相似的電池分為一類(lèi),然后再利用BP(Back??Propagation)神經(jīng)網(wǎng)絡(luò)架構(gòu)減小鋰電池?cái)?shù)據(jù)過(guò)于分散的影響,鋰電池健康狀態(tài)判斷精度得到提高。唐維華等?[7]利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long?Short Term Memory, LSTM)電流數(shù)據(jù)的特征,將神經(jīng)網(wǎng)絡(luò)算法應(yīng)用到道岔動(dòng)作電流曲線分類(lèi)器中,提高鐵路道岔故障識(shí)別的準(zhǔn)確性,減少故障識(shí)別的時(shí)間成本。機(jī)器學(xué)習(xí)模型的訓(xùn)練需要大量數(shù)據(jù),但同時(shí)也可以將時(shí)間序列信息映射到語(yǔ)義向量空間中從而記憶歷史信息。
綜上,本文根據(jù)服務(wù)區(qū)供暖系統(tǒng)各子系統(tǒng)的運(yùn)行特征構(gòu)建特征向量集,其規(guī)??蓾M足機(jī)器學(xué)習(xí)模型的需要,而且極致梯度提升(Extreme Gradient Boosting, XGBoost)[8]和支持向量機(jī)(Support Vector Machine, SVM)[9]模型可以解決非線性、高維度的分類(lèi)問(wèn)題,所以本文選擇搭建基于XGBoost和SVM的雙層機(jī)器學(xué)習(xí)模型,它可以輸出各子系統(tǒng)及整個(gè)系統(tǒng)的健康狀態(tài)。由此訓(xùn)練得到的模型具有判斷精度高和健康狀態(tài)可溯源的特點(diǎn)。
1 供暖系統(tǒng)運(yùn)行原理
高速公路服務(wù)區(qū)供暖系統(tǒng)由壓縮機(jī)、蓄熱泵、循環(huán)泵和蓄熱水箱構(gòu)成,如圖1所示。供暖系統(tǒng)內(nèi)的水先由壓縮機(jī)機(jī)組進(jìn)行加熱,加熱后的水通過(guò)蓄熱泵輸入至蓄熱水箱進(jìn)行保存;當(dāng)服務(wù)區(qū)需要供暖時(shí),或出水溫度小于設(shè)定溫度時(shí),循環(huán)泵開(kāi)始運(yùn)行,將蓄熱水箱中的熱水輸入至供暖設(shè)備中,循環(huán)泵的運(yùn)行會(huì)帶動(dòng)整個(gè)供暖系統(tǒng)內(nèi)的水流動(dòng),因此蓄熱泵也必將要運(yùn)行,將循環(huán)后的水輸入到蓄熱水箱中;熱水流經(jīng)其他供暖設(shè)備后會(huì)重新回到壓縮機(jī)機(jī)組內(nèi)進(jìn)行加熱,由此形成了串聯(lián)、閉環(huán)的服務(wù)區(qū)供暖系統(tǒng)。其中蓄熱泵和循環(huán)泵的備用泵均與各自主泵并聯(lián)連接。?
2 數(shù)據(jù)處理
2.1 數(shù)據(jù)描述
供暖系統(tǒng)內(nèi)所有子系統(tǒng)所含特征如表1所示,其中循環(huán)泵和蓄熱泵分別包含主、備兩個(gè)泵。高速公路服務(wù)區(qū)具備一套云管理系統(tǒng),其利用遠(yuǎn)程監(jiān)控管理技術(shù)與供暖系統(tǒng)相連,從而可以實(shí)時(shí)采集供暖系統(tǒng)中各子系統(tǒng)的特征參數(shù)值,數(shù)據(jù)采集頻率為每分鐘1次,一天共采集1"437條數(shù)據(jù)。
2.2 構(gòu)建特征向量集
據(jù)統(tǒng)計(jì),因服務(wù)區(qū)云管理系統(tǒng)處于運(yùn)營(yíng)初期,且各子系統(tǒng)長(zhǎng)時(shí)間處于健康運(yùn)作狀態(tài),即在所采集的數(shù)據(jù)中亞健康、故障和異常狀態(tài)的數(shù)據(jù)量極小,健康狀態(tài)數(shù)據(jù)量極大,樣本分布嚴(yán)重不平衡。同時(shí),由表1中可以看出,各子系統(tǒng)的特征運(yùn)行數(shù)據(jù)值多為0或1。所以,本文根據(jù)各子系統(tǒng)在運(yùn)行時(shí)產(chǎn)生數(shù)據(jù)的特征來(lái)構(gòu)建特征向量集,使用的函數(shù)如公式(1)所示:
="IF(RAND( ) lt; 0.5,0,1) (1)
為函數(shù)生成值,F(xiàn)和RAND均為excel 中的內(nèi)置函數(shù),IF為邏輯判斷函數(shù),RAND函數(shù)返回0 到1 之間的任意一個(gè)值,當(dāng)返回值小于0.5 時(shí),邏輯判斷為真并返回0,否則返回1。以此可保證數(shù)據(jù)的隨機(jī)性以及0 和1 數(shù)量的均衡。
對(duì)于構(gòu)建范圍型數(shù)據(jù)如電壓、電流等,使用的函數(shù)如公式(2)所示:
=RAND(?,?) (2)
為函數(shù)生成值,兩個(gè)“*”分別代表所選數(shù)據(jù)范圍的上下界,其中健康范圍是其子集,由此可構(gòu)建包含健康和故障兩種狀態(tài)數(shù)據(jù)的特征向量集。例如水溫、電壓和電流子系統(tǒng),當(dāng)函數(shù)的生成值小于等于系統(tǒng)設(shè)定的安全閾值,則這類(lèi)數(shù)據(jù)構(gòu)成健康狀態(tài)特征向量集;其他大于系統(tǒng)設(shè)定的安全閾值的數(shù)據(jù)構(gòu)成故障狀態(tài)特征向量集。
2.3 數(shù)據(jù)標(biāo)定
(1)節(jié)將所采集的每條數(shù)據(jù)按其所屬健康狀態(tài)進(jìn)行打標(biāo)簽分類(lèi)處理,邏輯判斷規(guī)則如下:
(壓縮機(jī)組
健康:4個(gè)壓縮機(jī)組均無(wú)故障。亞健康:①?其中1個(gè)壓縮機(jī)組發(fā)生故障;②其中2個(gè)壓縮機(jī)組發(fā)生故障。故障:①其中3個(gè)壓縮機(jī)組發(fā)生故障;②4個(gè)壓縮機(jī)組全部故障。異常:除以上情況外的其他情況。
(2)泵運(yùn)行狀態(tài)
健康:①出水溫度小于水溫設(shè)定的情況下,循環(huán)泵和蓄熱泵各有1個(gè)或2個(gè)設(shè)備處于運(yùn)行狀態(tài);②出水溫度大于水溫設(shè)定的情況下,循環(huán)泵和蓄熱泵均不運(yùn)行。故障:①出水溫度小于水溫設(shè)定的情況下,循環(huán)泵均未運(yùn)行或蓄熱泵均未運(yùn)行,或循環(huán)泵和蓄熱泵均未運(yùn)行;②出水溫度大于水溫設(shè)定的情況下,循環(huán)泵和蓄熱泵存在運(yùn)行狀態(tài)。異常:除以上情況外的其他情況。
(3)蓄熱泵
健康:蓄熱泵的主、備泵均無(wú)故障。亞健康:蓄熱泵的主、備泵中有1個(gè)發(fā)生故障。故障:蓄熱泵的主、備泵中有2個(gè)發(fā)生故障。異常:除以上情況外的其他情況。
(4)循環(huán)泵
健康:循環(huán)泵的主、備泵均無(wú)故障。亞健康:循環(huán)泵的主、備泵中有1個(gè)發(fā)生故障。故障:循環(huán)泵的主、備泵中有2個(gè)發(fā)生故障。異常:除以上情況外的其他情況。
(5)水溫
水溫子系統(tǒng)的健康狀態(tài)僅以出水溫度是否達(dá)到要求溫度來(lái)判斷,因此水溫子系統(tǒng)只設(shè)置健康和故障兩種狀態(tài)。健康:總出水溫度低于制熱溫度上限,且高于制熱溫度下限。故障:總出水溫度低于制熱溫度下限,或高于制熱溫度上限。
(6)電壓
電壓參數(shù)不存在是否健康的問(wèn)題,但其大小會(huì)影響供暖系統(tǒng)的安全運(yùn)行,所以電壓參數(shù)只設(shè)置健康和故障兩種狀態(tài)。健康:三相電壓均處于安全范圍內(nèi)(210V~245V)。故障:三相電壓中有任意相不在安全范圍內(nèi)。
(7)電流
電流參數(shù)不存在是否健康的問(wèn)題,但其大小會(huì)影響供暖系統(tǒng)的安全運(yùn)行,所以電流參數(shù)只設(shè)置健康和故障兩種狀態(tài)。健康:三相電流均處于安全范圍內(nèi)(60A~75A)。故障:三相電流中有任意相不在安全范圍內(nèi)。
2.4 數(shù)據(jù)欠采樣
由健康狀態(tài)的邏輯判斷規(guī)則可以看出,各個(gè)子系統(tǒng)達(dá)到健康狀態(tài)的要求較為嚴(yán)格,因此在經(jīng)過(guò)數(shù)據(jù)標(biāo)定后的特征向量集中同樣會(huì)產(chǎn)生樣本不平衡現(xiàn)象,即健康狀態(tài)的數(shù)據(jù)量較少??紤]到構(gòu)建的特征向量集的樣本不平衡程度相比于線上數(shù)據(jù)而言較輕,所以繼續(xù)使用所構(gòu)造的特征向量集,但需要解決樣本不平衡的問(wèn)題。
對(duì)于樣本不平衡問(wèn)題,解決方式分為兩種:從大數(shù)目類(lèi)別樣本選取和小數(shù)目類(lèi)別樣本數(shù)目相當(dāng)?shù)臉颖?,然后和小?shù)目類(lèi)別樣本組成新的數(shù)據(jù)集,在新的數(shù)據(jù)集中各樣本比例相當(dāng),這種情況屬于“欠采樣”;從小數(shù)目類(lèi)別中一個(gè)樣本抽取多次,從而使正負(fù)樣本數(shù)目接近,即增加反例的數(shù)目平衡數(shù)據(jù),再分類(lèi),這種稱(chēng)為“過(guò)采樣”。因?yàn)橥ㄟ^(guò)隨機(jī)函數(shù)構(gòu)建的特征向量集數(shù)據(jù)體量較大,所以使用欠采樣處理。經(jīng)過(guò)處理后的向量集中每個(gè)類(lèi)別的數(shù)據(jù)體量趨于均衡,這樣的向量集輸入至模型后,模型才會(huì)對(duì)每一類(lèi)樣本進(jìn)行相同程度的學(xué)習(xí),避免了模型過(guò)擬合問(wèn)題的發(fā)生。
經(jīng)過(guò)數(shù)據(jù)標(biāo)定和欠采樣處理后的特征向量數(shù)據(jù)集總共包含15"807條數(shù)據(jù),相當(dāng)于線上采集11天的數(shù)據(jù)量。其中令前10天數(shù)據(jù)作為模型訓(xùn)練集,最后1天數(shù)據(jù)作為模型測(cè)試集。
3 供暖系統(tǒng)健康狀態(tài)判斷模型
3.1 XGBoost模型
3.2 SVM模型
3.3 模型搭建與訓(xùn)練
4 實(shí)驗(yàn)驗(yàn)證
實(shí)驗(yàn)驗(yàn)證部分選用模型測(cè)試集作為實(shí)驗(yàn)數(shù)據(jù)集,并選取決策樹(shù)、AdaBoost[11]和LightGBM[12]等模型進(jìn)行對(duì)比分析。
決策樹(shù)模型作為分類(lèi)任務(wù)的經(jīng)典模型,可以處理非線性數(shù)據(jù),XGBoost顯式地加入了正則項(xiàng)來(lái)控制模型的復(fù)雜度,從而防止模型過(guò)擬合。AdaBoost模型可以利用弱分類(lèi)器進(jìn)行級(jí)聯(lián)并考慮每個(gè)分類(lèi)器的權(quán)重,但相較于XGBoost由損失值和正則化項(xiàng)兩部分組成的損失函數(shù),AdaBoost模型的損失函數(shù)沒(méi)有正則化項(xiàng)。LightGBM模型在GBDT算法上進(jìn)一步做了優(yōu)化,它以最佳擬合方式分割樹(shù)的葉子,而XGBoost是按級(jí)別而不是按葉分割樹(shù)。這樣的分割方式在計(jì)算損失函數(shù)時(shí)可以減少得更多,從而達(dá)到更高的精度,這是XGBoost模型所不具備的。但是XGBoost模型在梯度提升過(guò)程中每次迭代都運(yùn)行交叉驗(yàn)證,以便在單次運(yùn)行中獲得更準(zhǔn)確的提升迭代次數(shù),這樣也會(huì)提升模型的精度。
5 結(jié)論
從高速公路服務(wù)區(qū)供暖系統(tǒng)健康狀態(tài)評(píng)估的實(shí)際場(chǎng)景出發(fā),使用XGBoost SVM雙層機(jī)器學(xué)習(xí)模型可以更準(zhǔn)確地解決實(shí)際問(wèn)題,結(jié)論如下:
參考文獻(xiàn):