摘要:為了提升變電站復(fù)雜場景的圖像理解和異常檢測結(jié)果的準(zhǔn)確性,本文提出了基于多模態(tài)大語言模型的變電站復(fù)雜場景理解與異常檢測方法。該方法的輸入包含變電站圖像和提示文本2種模態(tài)的信息,首先,分別使用視覺模型和文本模型提取變電站圖像特征和提示文本的特征;然后,將圖像特征和文本特征進(jìn)行融合,并將融合后的特征作為大語言模型的輸入;最后,對大語言模型生成的結(jié)果進(jìn)行后處理,進(jìn)而得到場景理解結(jié)果和異常檢測結(jié)果。實驗表明,該方法生成的場景理解結(jié)果準(zhǔn)確、表述通順。同時,在4個常見的變電站違規(guī)場景下,驗證了該方法能夠綜合提升異常檢測的準(zhǔn)確率和召回率。
關(guān)鍵詞:多模態(tài);語言大模型;場景理解;異常檢測;變電站
中圖分類號:TP391.1;TM743文獻(xiàn)標(biāo)志碼:A文章編號:1001-5922(2025)04-0193-04
Research on substation complex scene anomaly detection based on multi-modal large language model
LI Zhe1,LIU Yuanchao1,LIU Zhipeng1,LIU Quan2,HE Chengchi2,TANG Kaibo1,JIANG Yuan1,CHEN Qiming1,LEI Dong1,HUANG Meng1,WU Qian1,YU Fei1,YANG Liu1,ZHANG Liwen1,QU Zhe1,YU Cong1,ZHOU Jian1,ZHAO Tiancheng2
(1.State Grid Hubei Extra High Voltage Company Co.,Ltd.,Wuhan 430050,China;
2.Binjiang Institute of Zhejiang University,Hangzhou 310053,China)
Abstract:In order to improve the image understanding of complex substation scenes and the accuracy of anomaly detection results,this paper proposes a complex substation scene understanding and anomaly detection method based on a multi-modal large language model.The input of this method is information in two modes:substation im-age and prompt text.First,the visual model and the text model are used to extract the characteristics of the substa-tion image and the prompt text respectively,and then the image features and text features arefused as a large lan-guage model.input,and finally post-process the results generated by the large language model to obtain scene un-derstanding results and anomaly detection results.The experimental results show that:the scene understanding re-sults generated by this method are accurate and smooth.At the same time,verifying that this method can compre-hensively improve anomaly detection.precision and recall.
Key words:multimodality;large language model;scene understanding;anomaly detection;substation
變電站作為電力系統(tǒng)中的重要組成部分,起著電能傳輸、變換和配電的關(guān)鍵作用[1-2]。變電站常常面臨著各種復(fù)雜場景和異常情況,如未按要求搬運(yùn)長物如梯子,長管等,違規(guī)動火作業(yè),違規(guī)使用金屬工具,電纜設(shè)置不合規(guī)等情況。傳統(tǒng)的變電站監(jiān)測方法[4]主要依賴于人工判斷或視頻圖像分析,這種方法不僅加重了工作人員的工作負(fù)擔(dān),而且由于工作人員無法實時查看每一個監(jiān)控視頻,導(dǎo)致對違規(guī)檢測結(jié)果的反饋存在較大延遲。近年來隨著深度學(xué)習(xí)技術(shù)的發(fā)展[2],基于深度學(xué)習(xí)算法的檢測方法逐漸涌現(xiàn),其中大多采用深度卷積網(wǎng)絡(luò)[3]和多算法的邏輯組合,然而,這類方法在復(fù)雜場景下對違規(guī)行為的檢測率仍然較低。針對這一問題,本文運(yùn)用多模態(tài)大語言模型,以解決復(fù)雜場景理解與異常檢測的難題。
1算法及模型融合
1.1變電站場景理解模型
1.1.1算法整體實現(xiàn)流程
采用預(yù)訓(xùn)練的語言大模型[5]和視覺模型[6]實現(xiàn)變電站的場景理解。變電站場景的圖片Xv和提示文本Xq作為模型的多模態(tài)輸入。Xv經(jīng)過視覺模型g編碼得到圖像特征Zv,圖像特征經(jīng)過模型映射層project將圖像特征映射到圖向量Hv。提示文本Xq,通過分詞和詞向量將提示文本轉(zhuǎn)換為詞向量Hq。然后將圖像量和詞向量拼接作為語言大模型的輸入,通過語言模型處理ans(后得)出結(jié)。
1.1.2多模態(tài)輸入的特征提取及融合方法
圖片Xv的特征提取方法采用ViT視覺模型[7]和特征映射網(wǎng)絡(luò)層。ViT[13]是一種基于Transformer模型[14]的計算機(jī)視覺方法,它成功地將自然語言處理(NLP)中的文本處理技術(shù)應(yīng)用于計算機(jī)視覺領(lǐng)域,并取得了出色的成績。該方法的具體流程為:首先,對輸入圖像進(jìn)行預(yù)處理,包括調(diào)整大小、裁剪、填充以及歸一化等操作,以確保圖像具有統(tǒng)一尺寸和數(shù)值范圍,隨后將圖像分割成一系列非重疊的連續(xù)圖像塊。接著,通過線性層將每個圖像塊映射為一組向量,像素值轉(zhuǎn)換為固定維度的向量表示。這些向量再與一個可學(xué)習(xí)的向量組合成一個(N+ 1)維向量,同時,為了將圖像塊的位置信息引入模型,需對每個圖像塊的向量表示添加位置編碼,位置編碼可以是固定的或可學(xué)習(xí)的,常見做法是利用正弦和余弦函數(shù)的組合來生成[8]。最后,將向量序列輸入到Trans-former模型中進(jìn)行計算。Transformer模型由多個編碼器層和解碼器層組成,每層都包含注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò),最終輸出圖像編碼Zv。圖片Xv和提示文本Xq的信息融合,采用特征信息拼接法。具體操作:首先,分別獲取圖片和提示文本的特征,并將特征維度映射為相同維度,將相同維度的特征進(jìn)行拼接融合作為語言大模型的輸入,進(jìn)而得到語言大模型輸出結(jié)果。
1.2變電站異常檢測方法
1.2.1異常檢測方法的提出
具體做法是,輸入給定變電站的異常事件選項,由多模態(tài)大模型在選項中選出異常事件;將多個異常事件的文本描述作為生成模型的選項,以保證生成結(jié)果的準(zhǔn)確性。該方法的輸入包含變電站圖像Xv,提示文本Xq,選項Xc= xc1 xc2…xcn,其過程為:收集變電站圖像Xv和提示文本Xq,同時收集與每個圖像相關(guān)的異常事件文本描述;針對每個圖像生成多個選項Xc= xc1 xc2…xcn,這些選項均為與該圖像相關(guān)的異常事件的文本描述,然后計算每個選項的概率,取最大概率為輸出結(jié)果。
1.2.2生成內(nèi)容的異常檢測算法
將變電站圖像Xv和提示文本Xq輸入至基于多模態(tài)大模型的變電站場景理解模型中,在計算模型每步生成結(jié)果中,確定選項Xc中每個字符所占的概率,計算每個字符概率的平均值,并作為每個選項的概率。最后,輸出概率最大的選項作為異常檢測結(jié)果。具體來說,在計算模型每步生成結(jié)果中,選項Xc中每個字符所占的概率為
P(Xcni) = softmax(f?(Hv Hq))[Xcni]
(2)
式中:P(Xcni) 表示選項Xc中第i個字符Xcni的概率。
f(s)o tmax[9]應(yīng)用于模型輸出的特征向量
P(xcn) = le n)logP(xcni)
(3)
式中:P(xcn) 表示選項xcn的概率;len(xcn) 表示選項xcn的字符長度。公式中的求和符號表示將選項xcn中每個字符的概率取對數(shù)后求和。根據(jù)每個選項的概率計算異常檢測結(jié)果時,選擇概率最大的選項作為異常檢測結(jié)果
2結(jié)果與分析
2.1數(shù)據(jù)集建立
2.1.1 4個場景的數(shù)據(jù)集
實驗中選取的數(shù)據(jù)為某電力公司變電站的現(xiàn)場拍攝圖片,對現(xiàn)場的圖片進(jìn)行標(biāo)注,分別獲得訓(xùn)練集、驗證集和測試集。采用4個場景的圖像分別建立4個數(shù)據(jù)集,即違規(guī)動火作業(yè)、違規(guī)搬運(yùn)長物、違規(guī)使用金屬工具、電纜設(shè)備異常。其中違規(guī)搬運(yùn)長物指搬運(yùn)長物時未采用雙人抬運(yùn)的方式;違規(guī)動火作業(yè)指在變電站場所內(nèi)出現(xiàn)使用打火機(jī)、吸煙等明火行為;違規(guī)使用金屬工具指在變電站場所使用金屬卷尺等導(dǎo)電金屬物體;電纜設(shè)備異常指變電站的電纜井蓋未蓋好。
2.1.2多模態(tài)語言模型標(biāo)注方法和示例
對上述每個場景的數(shù)據(jù)集分別標(biāo)注問答數(shù)據(jù)集和選擇數(shù)據(jù)集。問答數(shù)據(jù)集用于訓(xùn)練和驗證模型對變電站場景理解的能力;選擇數(shù)據(jù)集用于訓(xùn)練和驗證異常檢測場景的能力。問答數(shù)據(jù)集標(biāo)注示例如:【問:變電站常見的違規(guī)行為有以下幾種:你是變電站的管理人員,根據(jù)你看到的內(nèi)容,判斷圖片中的行為屬于什么違規(guī)行為。答:違規(guī)搬運(yùn)長物】。選擇數(shù)據(jù)集標(biāo)注示例如:【問:變電站常見的違規(guī)行為有以下幾種:你是變電站的管理人員,根據(jù)你看到的內(nèi)容,判斷圖片中的行為屬于什么違規(guī)行為。選項:A違規(guī)搬運(yùn)長物。B不存在違規(guī)行。請選擇正確的答案。答:B】。問答數(shù)據(jù)集的標(biāo)注問題和答案,由標(biāo)注人員采用多樣化的問答形式進(jìn)行設(shè)置。而在標(biāo)注選擇數(shù)據(jù)集的選項時,不同選項的順序是隨機(jī)打亂的。
2.2對復(fù)雜場景的理解實驗
在變電站場景[12]理解的多模態(tài)大模型中,大語言模型是語言理解與生成的重要模塊,對整個模型輸出結(jié)果的好壞有著直接影響。為了驗證不同大語言模型的效果,采用LLaMA-1[15]、LLaMA-2[16]、Qwen[17]三個模型進(jìn)行實驗,對比不用語言模型對輸出結(jié)果的影響。在實驗過程中,3個模型均采用7B的參數(shù)量。先對模型分別進(jìn)行預(yù)訓(xùn)練,而后利用四個場景的數(shù)據(jù)集對模型進(jìn)行微調(diào),并基于微調(diào)后的模型展開實驗,實驗結(jié)果如表1所示。
采用主觀評分方式[11],從通順性和準(zhǔn)確性這2個維度進(jìn)行打分,每個維度的分值取值范圍為0至10分,10分為滿分,0分為最低分。最后,將兩個維度的分?jǐn)?shù)求均值,以此作為每條測試數(shù)據(jù)的主觀評分。
下面提供了對違規(guī)搬運(yùn)梯子的模型主觀測試結(jié)果。不同的模型回答內(nèi)容如表2。
多模態(tài)模型使用的大語言模型違規(guī)搬運(yùn)梯子示例圖片回答正確搬運(yùn)梯子示例圖片回答
通過實驗結(jié)果發(fā)現(xiàn),3個語言模型中,Qwen預(yù)訓(xùn)練模型的輸出結(jié)果在主觀評分上要高于LLaMA-1和LLaMA-2的預(yù)訓(xùn)練輸出結(jié)果。經(jīng)過利用變電站數(shù)據(jù)對模型進(jìn)行微調(diào)后,模型的整體準(zhǔn)確率得到了顯著提升。這表明在變電站領(lǐng)域中,使用變電站的數(shù)據(jù)集對模型進(jìn)行微調(diào),能夠明顯促進(jìn)模型在該領(lǐng)域的應(yīng)用效果。
2.3異常檢測實驗
在對變電站圖片進(jìn)行異常檢測時,需要預(yù)先給出異常選項,然后由變電站多模態(tài)大模型輸出對應(yīng)的異常選項。為避免模型輸出結(jié)果不在所提供的選項范圍內(nèi),通過獲取模型生成每個選項的概率,選取概率最大的選項作為模型的最終輸出。在計算選項概率時,既可以僅輸出選項標(biāo)簽,如A,B,C,D中的某個字母,也可以輸出選項的完整文本內(nèi)容,例如“A.違規(guī)搬運(yùn)長物”。為驗證這2種方式對異常檢測準(zhǔn)確率的影響,本研究采用違規(guī)動火作業(yè)數(shù)據(jù)集,針對以Qwen 7B作為大語言模型的變電站多模態(tài)模型展開實驗,分別計算這兩種選擇方式下異常檢測的準(zhǔn)確率和召回率。
通過表3可知,在使用違規(guī)動火作業(yè)數(shù)據(jù)集對以Qwen 7B作為大語言模型的變電站多模態(tài)模型進(jìn)行異常檢測效果測試時,輸出選項標(biāo)簽的方式在準(zhǔn)確率和召回率上均高于輸出選項文本的方式。
為進(jìn)一步驗證變電站多模態(tài)大模型的異常檢測效果,采用四個數(shù)據(jù)集,將其與目標(biāo)檢測模型OmDet開展對比實驗,實驗結(jié)果如表4所示。
從實驗結(jié)果能夠看出,多模態(tài)語言模型在不同數(shù)據(jù)集中,召回率都呈現(xiàn)出上升趨勢。雖然在違規(guī)動火作業(yè)和電纜設(shè)備異常這2個數(shù)據(jù)集中,準(zhǔn)確率稍有降低,不過從整體來看,其檢測效果仍得到了提升。
3結(jié)語
本文提出了一種基于多模態(tài)大語言模型的方法。實驗結(jié)果表明,該方法生成的場景理解結(jié)果準(zhǔn)確且通順。同時,在4個常見的變電站違規(guī)場景下,該方法的準(zhǔn)確率分別達(dá)到85.2%、77.4%、93.2%、90.1%,召回率分別為88.6%、80.2%、89.2%、96.5%。
【參考文獻(xiàn)】
[1]羅藝,王乾龍,晏凱.多旋翼無人機(jī)巡檢圖像的部件識別應(yīng)用[J].云南電力技術(shù),2021,49(1):20-24.
[2]李楊,董元龍,林明暉,等.基于AI視覺技術(shù)的電力設(shè)備檢測方法[J].微型電腦應(yīng)用,2023,39(9):90-93.
[3]王紀(jì)武,羅海保,魚鵬飛,等.基于Faster R-CNN的多尺度高壓塔鳥巢檢測[J].北京交通大學(xué)學(xué)報,2019,43(5):37-43.
[4]尚福瑞,范云飛,郝強(qiáng),等.基于深度學(xué)習(xí)的工程作業(yè)智能監(jiān)控技術(shù)的模型優(yōu)化測試[J].粘接,2023,50(4):182-186.
[5]文森,錢力,胡懋地,等.基于大語言模型的問答技術(shù)研究進(jìn)展綜述[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2024,8(6):16-29.
[6]胡正南,胡立坤.基于Vision Transformer多模型融合的視覺閉環(huán)檢測算法[J].激光雜志,2024,45(6):75-81
[7]肖立軒,封筠,高宇豪,等.基于空洞單流ViT網(wǎng)絡(luò)的靈活模態(tài)人臉呈現(xiàn)攻擊檢測方法[J].計算機(jī)應(yīng)用研究,2024,41(3):916-922.
[8]周俊杰,許鴻奎,盧江坤,等.引入位置信息和Attention機(jī)制的詐騙電話文本分類[J].小型微型計算機(jī)系統(tǒng),2023,44(11):2502-2509.
[9]封強(qiáng),潘保芝,韓立國.基于卷積降噪自編碼器和Softmax回歸的微地震定位方法[J].地球物理學(xué)報,2023,66(7):3076-3085.
[10]趙廉,周雷,郭育恒,等.工廠場景中的異常行為檢測[J/OL].軟件導(dǎo)刊,2024,23(1):57-62.
[11]董永生,范世朝,張宇,等.生成對抗網(wǎng)絡(luò)的發(fā)展與挑戰(zhàn)[J].信號處理,2023,39(1):154-175.
[12]薛磊,曹旌,褚海波,等.基于圖像識別的變電站施工安全管控系統(tǒng)研究[J].粘接,2020,44(11):162-167.
[13]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image is worth 16x16 words:Transformers for image recognition at scale[OL].arXiv preprint arXiv:2010.11929,2020.
[14]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[J].Advances in Neural Information Processing Systems,2017:30.
[15]Touvron H,Lavril T,Izacard G,et al.Llama:Open and ef-ficient foundation language models[OL].arXiv preprint arXiv:2302.13971,2023.
[16]Touvron H,Martin L,Stone K,et al.Llama 2:Open foun-dation and fine-tuned chat models[OL].arXiv preprint arXiv:2307.09288,2023.
[17]Bai J,Bai S,Chu Y,et al.Qwen technical report[OL].arX-iv preprint arXiv:2309.16609,2023.
(責(zé)任編輯:李睿)