摘要:電廠生產(chǎn)安全在社會穩(wěn)定發(fā)展中扮演著關(guān)鍵角色。智能檢測系統(tǒng)的應(yīng)用顯著增強(qiáng)了電廠對設(shè)備設(shè)施和環(huán)境的預(yù)警能力,為安全生產(chǎn)奠定了堅(jiān)實(shí)基礎(chǔ)。然而,電廠設(shè)備設(shè)施和環(huán)境的復(fù)雜多樣性使得單一檢測算法難以全面預(yù)警。本研究創(chuàng)新性提出,采用多模態(tài)大模型,根據(jù)文本語義標(biāo)簽進(jìn)行檢測,一次性完成多個(gè)目標(biāo)的檢測任務(wù),極大提高了效率和便利性。與傳統(tǒng)目標(biāo)檢測模型相比,多模態(tài)大模型無需訓(xùn)練多個(gè)獨(dú)立模型,減少了時(shí)間、資源和管理成本。實(shí)驗(yàn)證實(shí),多模態(tài)大模型在平均精確率相近的情況下,通常具有更高的召回率,召回率平均提升約16%,這符合電廠設(shè)備和環(huán)境主動預(yù)警的需求。該創(chuàng)新方法為電廠安全生產(chǎn)提供了更為智能和高效的解決方案,有望在實(shí)際應(yīng)用中取得更多成功,并為其他行業(yè)的安全監(jiān)測和預(yù)警工作提供借鑒。
關(guān)鍵詞:多模態(tài);電廠設(shè)備安全;語言大模型;主動預(yù)警系統(tǒng);目標(biāo)檢測
中圖分類號:TM711.2文獻(xiàn)標(biāo)志碼:A文章編號:1001-5922(2025)04-0145-04
Active early warning system of power plant environment and equipment safety based on multi-modal large model
CHENG Xueming1,YU Hai2,LIAO Jiajia2
(1.Hangzhou Huadian Banshan Power Generation Co.,Ltd.,Hangzhou 310060,China;
2.Hangzhou Lianhui Technology Co.,Ltd.,Hangzhou 310051,China)
Abstract:The safety of powerplant production plays a key role in the stable development of society.The application of intelligent detection system has significantly enhanced the early warning ability of power plant to equipment,facilities and environment,and laid asolid foundation for safe production.However,the complex diversity of power plant equip?ment facilities and environment makes it difficult for a single detection algorithm to fully warn.This study innovatively proposes to use a multi-modal large model to detect according to the text semantic labels,and complete the detection task of multiple targets at one time,which greatly improves the efficiency and convenience.Compared with the tradi?tional target detection model,the multi-modal large model does not need to train multiple independent models,which reduces time,resources and management costs.Experiments show that the multi-modal large model usually has a high?er recall rate when the average accuracy is similar,and the recall rate is increased by about 16%on average,which meets the needs of active early warning of power plant equipment and environment.This innovative method provides a more intelligent and efficient solution for the safety production of power plants.It is expected to achieve more success in practical applications and provide reference for safety monitoring and early warning in other industries.
Keywords:multimodality;powerplant equipment safety;language big model;proactive warning system;target detection
隨著工業(yè)化和城市化進(jìn)程的不斷加速,電力作為現(xiàn)代社會的生命線扮演著舉足輕重的角色,其重要性不言而喻[1-3]。而電廠的運(yùn)行不僅關(guān)乎經(jīng)濟(jì)效益,更關(guān)系到全社會的穩(wěn)定和安全[4]。
在這一背景下,引入智能檢測系統(tǒng)為電廠的安全生產(chǎn)帶來了革命性的改善[5-10]。然而,電廠設(shè)備設(shè)施和環(huán)境的復(fù)雜多樣性使得單一檢測算法難以全面預(yù)警,這也成為當(dāng)前面臨的挑戰(zhàn)之一。另一方面,在電廠生產(chǎn)環(huán)境中,數(shù)據(jù)采集困難、標(biāo)注成本高昂等因素導(dǎo)致訓(xùn)練集的規(guī)模有限。有限的訓(xùn)練集可能導(dǎo)致目標(biāo)檢測模型的泛化能力不足,難以適應(yīng)電廠生產(chǎn)環(huán)境中的復(fù)雜場景和變化。
為了應(yīng)對這些挑戰(zhàn),本文提出了一種創(chuàng)新的解決方案——基于多模態(tài)大模型的電廠設(shè)備設(shè)施及環(huán)境主動預(yù)警系統(tǒng)。通過整合多種模態(tài)數(shù)據(jù)并運(yùn)用強(qiáng)大的大模型技術(shù),充分利用電廠設(shè)備設(shè)施及環(huán)境檢測的語義含義,通過圖文多模態(tài)預(yù)訓(xùn)練,該系統(tǒng)能夠?qū)崿F(xiàn)對電廠安全隱患的全面監(jiān)測與精準(zhǔn)預(yù)警,進(jìn)而提升了電廠安全生產(chǎn)的水平,為電力行業(yè)的可持續(xù)發(fā)展提供了更為可靠的保障。
1研究方法
1.1多模態(tài)預(yù)訓(xùn)練大模型介紹
多模態(tài)預(yù)訓(xùn)練大模型是指在預(yù)訓(xùn)練階段同時(shí)利用多種不同模態(tài)數(shù)據(jù)(例如文本、圖像、等)進(jìn)行訓(xùn)練的大型深度學(xué)習(xí)模型[11-14]。這種模型結(jié)構(gòu)的設(shè)計(jì)旨在使模型能夠有效地處理和理解不同模態(tài)的數(shù)據(jù),從而提高其在各種跨模態(tài)任務(wù)上的性能。本文所使用的模型是采用預(yù)訓(xùn)練的語言大模型和視覺模型實(shí)現(xiàn)電廠設(shè)備設(shè)施及環(huán)境主動預(yù)警的功能。
本研究采用的多模態(tài)大型模型由幾個(gè)關(guān)鍵組件組成,包括視覺主干網(wǎng)絡(luò)、任務(wù)編碼器、標(biāo)簽編碼器、圖像編碼器以及多模態(tài)檢測網(wǎng)絡(luò)。這些組件共同構(gòu)成了模型的整體架構(gòu)[15]。下面將對多模態(tài)大型模型中的每個(gè)組件進(jìn)行詳細(xì)描述,解釋它們在模型中的具體功能和作用。
1.1.1視覺主干網(wǎng)
通常是一個(gè)用于處理圖像數(shù)據(jù)的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN等),用于提取圖像中的特征。這些特征可以是邊緣、紋理、形狀等,用于理解圖像的內(nèi)容。視覺主干網(wǎng)的輸出通常是一個(gè)高維的特征向量,代表了輸入圖像的抽象表示。具體地,假設(shè)初始輸入圖像的維度為Ximage? R3′ H0′ W0,其中3的含義是RGB的通道數(shù),H0為圖像的高度,W0為圖像的寬度。然后,通過輸入圖像經(jīng)過視覺主干網(wǎng)會生成低分辨率的視覺特征圖,其尺寸記為f? RC′ H′ W。
1.1.2任務(wù)編碼器
負(fù)責(zé)將與任務(wù)相關(guān)的信息編碼成一個(gè)向量表示。這些信息可能包括任務(wù)描述、任務(wù)類型、任務(wù)目標(biāo)等。假設(shè)任務(wù)的集合設(shè)置為Task= {w1 w2 w3…wn}? Rn′ V,其中n為任務(wù)的數(shù)量,V為多模態(tài)預(yù)訓(xùn)練模型中詞表的數(shù)量。然后任務(wù)集合通過Trans?former模型進(jìn)行編碼,生成任務(wù)向量嵌入T0= {t1 t2 t3…tn}=ft{w1 w2 w3…wn}? Rn′ d,其中n為任務(wù)的數(shù)量,d為任務(wù)編碼器輸出的編碼維度。在本文的主動預(yù)警任務(wù)中,主要是針對電廠的設(shè)施設(shè)備是否存在,以及其他需告警的狀態(tài)是否發(fā)生。多模態(tài)大模型任務(wù)提示通常是:識別{需要識別的目標(biāo)列表}。在任務(wù)中,任務(wù)的提示為“識別油桶、玩手機(jī)的人、滅火器、消防箱A、消防箱B、柜門未關(guān)”,這個(gè)提示經(jīng)過任務(wù)編碼器會轉(zhuǎn)換成任務(wù)嵌入向量。任務(wù)編碼器的作用是將任務(wù)相關(guān)的文本信息轉(zhuǎn)換為模型可以理解和處理的向量表示。
1.1.3標(biāo)簽編碼器
用于將標(biāo)簽或類別信息編碼成向量表示。在多模態(tài)學(xué)習(xí)中,標(biāo)簽編碼器將類別信息轉(zhuǎn)換為一個(gè)向量,以便模型可以將其與其他模態(tài)的信息進(jìn)行比較和融合。在本實(shí)驗(yàn)中,輸入實(shí)驗(yàn)需要檢測的目標(biāo),例如:油桶、滅火器、玩手機(jī)的人等等,經(jīng)過標(biāo)簽編碼器生成嵌入向量,與任務(wù)編碼器類似。
1.1.4圖像編碼器
圖像編碼器的作用是將輸入的圖像數(shù)據(jù)轉(zhuǎn)換為一個(gè)向量表示。這個(gè)向量通常是通過對圖像特征進(jìn)行編碼而得到的,可以捕捉圖像的語義和內(nèi)容信息。圖像編碼器的輸出通常被用作多模態(tài)模型的輸入之一。在這個(gè)模型中,低分辨率的視覺特征圖f輸入到特征金字塔網(wǎng)絡(luò)(FPN)[16]中獲取到(P3,P4,P5)這三層特征圖從頂至下進(jìn)行融合,生成融合后的視覺特征圖輸入到圖像編碼器進(jìn)行編碼計(jì)算,生成一組圖像的嵌入向量。
1.1.5多模態(tài)檢測網(wǎng)絡(luò)
它是整個(gè)多模態(tài)模型的關(guān)鍵組件,負(fù)責(zé)將不同編碼器的信息整合在一起,并生成最終的輸出。下面將詳細(xì)介紹其結(jié)構(gòu)。
1.2多模態(tài)檢測網(wǎng)絡(luò)
多模態(tài)檢測網(wǎng)絡(luò)是該多模態(tài)大模型的核心組件。它主要利用多模態(tài)中文本任務(wù)的提示來增強(qiáng)目標(biāo)檢測并提高目標(biāo)的準(zhǔn)確率與召回率。
多模態(tài)檢測網(wǎng)絡(luò)的架構(gòu)為:通過輸入初始化候選特征、初始化候選框與任務(wù)文本的嵌入向量到多頭注意力機(jī)制中進(jìn)一步處理。在第一次迭代中,以隨機(jī)的方式初始化了N個(gè)可學(xué)習(xí)候選框B0(大小為N′ 4,其中4表示左上角點(diǎn)和右下角點(diǎn)的坐標(biāo))和可學(xué)習(xí)候選特征Q0(大小為N′ d,其中d為256)。其具體流程是:第一,通過感興趣區(qū)域的池化層將視覺主干網(wǎng)絡(luò)輸出的視覺特征與候選框B0進(jìn)行池化,從而得到對應(yīng)的感興趣區(qū)域特征V1。接下來,將Q0和任務(wù)文本的嵌入向量T0輸入到多頭注意力層中,以增強(qiáng)多模態(tài)特征信息,得到Q1和T1。然后,將Q1與感興趣區(qū)域特征V1在動態(tài)卷積層中進(jìn)行融合,得到Q2。最后,將Q2輸入到目標(biāo)回歸定位層,以輸出任務(wù)提示中所提及預(yù)測目標(biāo)的目標(biāo)框、相應(yīng)的類別標(biāo)簽以及置信度。這樣的檢測網(wǎng)絡(luò)由堆疊多層循環(huán)得到,通過B1,T1和Q2輸入到第二個(gè)迭代中進(jìn)行重復(fù)流程。利用多模態(tài)檢測迭代融合機(jī)制,模型能夠更好地利用文本信息來提升目標(biāo)識別的準(zhǔn)確性和召回率,從而提高環(huán)境主動預(yù)警的能力。
2結(jié)果與分析
該研究的核心目標(biāo)是深入研究和探索多模態(tài)大型模型在電廠設(shè)備設(shè)施及環(huán)境主動預(yù)警方面的應(yīng)用,并驗(yàn)證其在電廠設(shè)備檢測任務(wù)上的效果。首要任務(wù)包括建立4種不同類型的數(shù)據(jù)集,涵蓋設(shè)備識別和環(huán)境識別,以便進(jìn)行模型微調(diào)并驗(yàn)證推理結(jié)果的準(zhǔn)確性。隨后,通過與傳統(tǒng)目標(biāo)檢測算法進(jìn)行對比分析,提供精確率、召回率等評估指標(biāo),進(jìn)而全面評估多模態(tài)大型模型在該領(lǐng)域的性能表現(xiàn)。
2.1數(shù)據(jù)集介紹
在實(shí)驗(yàn)中,本研究選擇了某電網(wǎng)公司監(jiān)控下的部分視頻數(shù)據(jù)集,并從中提取幀以生成圖片用作算法的訓(xùn)練集、驗(yàn)證集和測試集。為了評估多模態(tài)大型模型和目標(biāo)檢測模型的檢測性能,本研究使用了3組數(shù)據(jù)集進(jìn)行對比分析。在數(shù)據(jù)標(biāo)注過程中,針對不同的檢測任務(wù),為每個(gè)數(shù)據(jù)集添加了相應(yīng)的標(biāo)簽。具體而言,針對柜門未關(guān)識別算法,目標(biāo)是識別“柜門未關(guān)”;對于消防設(shè)施識別算法,目標(biāo)包括“消防箱A”、“消防箱B”和“滅火器”;油桶識別算法旨在識別“油桶”;而玩手機(jī)識別算法則識別“玩手機(jī)的人”。這些標(biāo)注將為模型訓(xùn)練和評估提供準(zhǔn)確的目標(biāo)信息,有助于研究對多種設(shè)備和環(huán)境因素進(jìn)行有效檢測和預(yù)警。此外,由于電網(wǎng)相關(guān)數(shù)據(jù)獲取困難,本研究使用的數(shù)據(jù)量一般在10萬以下,單個(gè)標(biāo)簽樣本量最少只有1172條數(shù)據(jù),大部分?jǐn)?shù)據(jù)集在2000以內(nèi)。但研究表明,即使在數(shù)據(jù)量有限的情況下,也可以訓(xùn)練出性能出色的模型。
2.2結(jié)果對比
多模態(tài)大型模型與傳統(tǒng)的目標(biāo)檢測模型之間的關(guān)鍵區(qū)別在于其任務(wù)驅(qū)動性。多模態(tài)大型模型是根據(jù)任務(wù)需求來進(jìn)行檢測,通過輸入任務(wù)提示如“識別油桶、玩手機(jī)的人、滅火器、消防箱A、消防箱B、柜門未關(guān)”,模型能夠一次性進(jìn)行推理,輸出這些目標(biāo)的候選框以及相應(yīng)目標(biāo)的置信度。這種方法使得在單次推理中完成多個(gè)目標(biāo)的檢測任務(wù)成為可能,極大地提高了業(yè)務(wù)完成的效率和便利性。傳統(tǒng)的目標(biāo)檢測模型[17]通常是針對單一目標(biāo)進(jìn)行設(shè)計(jì)和訓(xùn)練,而多模態(tài)大型模型則能夠同時(shí)處理多個(gè)任務(wù),從而更好地滿足復(fù)雜環(huán)境下的需求。通過任務(wù)驅(qū)動的方式,多模態(tài)大型模型能夠更加智能地應(yīng)對多樣化的檢測任務(wù),為安全生產(chǎn)和監(jiān)測提供了更為全面和高效的解決方案。
相比之下,傳統(tǒng)的目標(biāo)檢測模型通常需要訓(xùn)練多個(gè)獨(dú)立的模型來實(shí)現(xiàn)不同的檢測任務(wù),這不僅耗費(fèi)時(shí)間和資源,還增加了模型維護(hù)和管理的復(fù)雜性。每個(gè)任務(wù)都需要單獨(dú)訓(xùn)練一個(gè)模型,這不僅增加了訓(xùn)練和推理的成本,還可能導(dǎo)致模型碎片化和管理困難。
對比多模態(tài)大模型與傳統(tǒng)目標(biāo)檢測模型的檢測性能,主要是通過精確率、召回率和平均精確率等指標(biāo)來進(jìn)行評價(jià)。精確率(P)是指在所有被模型檢測出的目標(biāo)中,正確被識別的概率;召回率(R)則表示所有真實(shí)正樣本中被正確識別的概率;平均精確率(AP)表示模型在不同召回率下的精確率的平均值,公式如下:
式中:真陽性(TP)代表正確檢測到的真實(shí)目標(biāo);假陰性(FN)表示未能檢測到的目標(biāo);假陽性(FP)表示錯誤的檢測結(jié)果;而真陰性(TN)則表示正確地識別了負(fù)類樣本。
在本文中,對多模態(tài)大模型和傳統(tǒng)目標(biāo)檢測模型在柜門未關(guān)識別、消防設(shè)施識別、油桶識別和玩手機(jī)識別等4個(gè)應(yīng)用的算法進(jìn)行了比較分析,具體結(jié)果如表1所示。值得注意的是,在平均精確率相近的情況下,使用多模態(tài)大模型時(shí),召回率大多高于傳統(tǒng)目標(biāo)檢測模型,平均召回率提升了16%,這與電廠設(shè)備設(shè)施及環(huán)境主動預(yù)警的需求是一致的。例如,在識別柜門未關(guān)這類電廠特有的檢測任務(wù),在精確率有明顯提升的情況下,召回率提升超過30%。在以上檢測場景中,平均精確率基本都有明顯提升。上述結(jié)果表明多模態(tài)大模型在提高目標(biāo)檢測的全面性和覆蓋率方面具有優(yōu)勢,有助于更有效地實(shí)現(xiàn)對電廠設(shè)備設(shè)施及環(huán)境異常情況的檢測和預(yù)警。
3結(jié)語
綜上所述,本文針對電廠安全生產(chǎn)的重要性展開了探討,并針對當(dāng)前電廠預(yù)警系統(tǒng)存在的問題,提出了基于多模態(tài)大模型的電廠設(shè)備設(shè)施及環(huán)境主動預(yù)警系統(tǒng)。該系統(tǒng)利用多模態(tài)大模型,在少量訓(xùn)練數(shù)據(jù)下高效地實(shí)現(xiàn)了多個(gè)目標(biāo)檢測任務(wù),主動預(yù)警系統(tǒng)的召回率提升了16%。該系統(tǒng)的提出不僅為電廠安全生產(chǎn)領(lǐng)域的發(fā)展提供了更為智能和高效的解決方案,同時(shí)也為其他相關(guān)行業(yè)的安全檢測和預(yù)警工作提供新的思路和方法。
【參考文獻(xiàn)】
[1]周澤元,班秋成,陶佳冶.電力系統(tǒng)信息安全的重要性及防護(hù)探微[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2021(4):151-152.
[2]徐柏賢.電力系統(tǒng)信息安全的重要性及防護(hù)措施[J].信息與電腦(理論版),2020,32(18):197-198.
[3]陳行濱,王維蘭,張航,等.智能電網(wǎng)災(zāi)害監(jiān)測預(yù)警應(yīng)用的設(shè)計(jì)與實(shí)現(xiàn)[J].粘接,2022,49(11):174-176.
[4]黃杰韜,王澤涌.數(shù)據(jù)實(shí)時(shí)分析的電力安全生產(chǎn)監(jiān)測系統(tǒng)設(shè)計(jì)[J].能源與環(huán)保,2022,44(12).
[5]吳迪.電力安全生產(chǎn)管理中深度卷積網(wǎng)絡(luò)研究[J].電氣技術(shù)與經(jīng)濟(jì),2023(2):19-21.
[6]莫蓓蓓,吳克河.引入Self-Attention的電力作業(yè)違規(guī)穿戴智能檢測技術(shù)研究[J].計(jì)算機(jī)與現(xiàn)代化,2020(2):115-121.
[7]沈茂東,周偉,宋曉東,等.基于改進(jìn)Mask RCNN的電力檢修違規(guī)操作檢測[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2020,29(8):158-164.
[8]石彥鵬,潘作為.基于人工智能的電廠油罐區(qū)非標(biāo)準(zhǔn)化作業(yè)檢測[J].電力安全技術(shù),2023,25(2):42-44.
[9]田維青,唐云鵬,周超,等.基于深度學(xué)習(xí)的電廠消防器材移動檢測研究[J].電子器件,2023,46(6):1586-1592.
[10]李楊,董元龍,林明暉,等.基于AI視覺技術(shù)的電力設(shè)備檢測方法[J].微型電腦應(yīng)用,2023,39(9):90-93.
[11]張俊,徐箭,許沛東,等.人工智能大模型在電力系統(tǒng)運(yùn)行控制中的應(yīng)用綜述及展望[J].武漢大學(xué)學(xué)報(bào)(工學(xué)版),2023,56(11):1368-1379.
[12]陳露,張思拓,俞凱.跨模態(tài)語言大模型:進(jìn)展及展望[J].中國科學(xué)基金,2023,37(5):776-785.
[13]童同,李雪,朱永北,等.基于多模態(tài)大模型的動作識別關(guān)鍵技術(shù)研究與應(yīng)用[J].通信世界,2023,(22):48-49.
[14]李耕,王梓爍,何相騰,等.從ChatGPT到多模態(tài)大模型:現(xiàn)狀與未來[J].中國科學(xué)基金,2023,37(5):724-734.
[15]ZHAO T,LIU P,LEE K.OmDet:Large-scale vision-lan?guage multi-dataset pre-training with multimodal detection network[J].IET Computer Vision,2024,18(5):626-639.
[16]Lin T Y,Dollár P,Girshick R,et al.Feature pyramid net?works for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2017:2117-2125.
[17]鐘源建,劉添榮,李卓亮.基于改進(jìn)AI-YOLOv4算法的施工現(xiàn)場安全預(yù)警技術(shù)研究[J].粘接,2023,50(10):185-188.
(責(zé)任編輯:李睿)