摘要:為提高科技項(xiàng)目評(píng)審會(huì)議組織實(shí)施的質(zhì)量,規(guī)范評(píng)審過程中參會(huì)人員的行為,提出一種基于改進(jìn)YOLOv5的科技項(xiàng)目評(píng)審過程人員行為分析方法,實(shí)時(shí)分析評(píng)審會(huì)議現(xiàn)場(chǎng)監(jiān)控視頻數(shù)據(jù),識(shí)別參會(huì)人員的違規(guī)行為。首先,基于改進(jìn)的YOLOv5構(gòu)建監(jiān)控視頻小目標(biāo)檢測(cè)網(wǎng)絡(luò),在YOLOv5主干網(wǎng)絡(luò)中融合TCANet注意力機(jī)制,獲取評(píng)審會(huì)議現(xiàn)場(chǎng)監(jiān)控視頻數(shù)據(jù)中重點(diǎn)關(guān)注的目標(biāo)區(qū)域,并在其頭部網(wǎng)絡(luò)增加了特征圖上采樣處理,將上采樣得到的特征圖與主干網(wǎng)絡(luò)中的淺層特征圖進(jìn)行融合,實(shí)現(xiàn)評(píng)審會(huì)議現(xiàn)場(chǎng)中手機(jī)、名片等小目標(biāo)的檢測(cè);然后,提出參會(huì)人員行為分析算法,通過人體目標(biāo)跟蹤網(wǎng)絡(luò)模型實(shí)時(shí)跟蹤參會(huì)人員的移動(dòng)軌跡,建立區(qū)域?qū)傩耘c專家位置域聯(lián)合的時(shí)空關(guān)聯(lián)關(guān)系判別式,識(shí)別參會(huì)人員與專家接觸、攀談等違規(guī)行為。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)評(píng)審會(huì)議現(xiàn)場(chǎng)中手機(jī)、名片小目標(biāo)的檢測(cè)準(zhǔn)確率為0.657,相比于YOLOv5m,mAP提升了0.196;參會(huì)人員的跟蹤準(zhǔn)確率Rank-1達(dá)到0.938,圖像處理幀率為21"F/s,能夠準(zhǔn)確識(shí)別參會(huì)人員接觸、攀談行為,對(duì)評(píng)審會(huì)議現(xiàn)場(chǎng)人員行為智能化管理具有重要意義。
關(guān)鍵詞:科技項(xiàng)目評(píng)審;人工智能;行為分析;目標(biāo)檢測(cè);目標(biāo)跟蹤
中圖分類號(hào):TP3 """""""""""""文獻(xiàn)標(biāo)志碼:A """"""""""文章編號(hào):1674-2605(2024)06-0010-09
DOI:10.3969/j.issn.1674-2605.2024.06.010"""""""""""""""""""""開放獲取
Analysis Method of Personnel Behavior in the Technology Project Review Process Based on Improved YOLOv5
LU Xingjian""YANG Danni "JIAO Zeyu
(Institute of Intelligent Manufacturing,"Guangdong Academy of Sciences/
Guangdong Key Laboratory of Modern Control Technology, Guangzhou 510070, China)
Abstract:"To enhance the quality of organizing and implementing technology project review meetings and to regulate participants' behavior during the review process, a behavior analysis method based on an improved YOLOv5 is proposed. This method enables real-time analysis of surveillance video data from review meetings to identify participants' violations. First, an improved YOLOv5-based small-object detection network is constructed for monitoring video data. By integrating the TCANet attention mechanism into the YOLOv5 backbone network, the model focuses on key target areas within the surveillance footage of review meetings. Additionally, the head network incorporates an upsampling process, where the upsampled feature maps are fused with shallow feature maps from the backbone network to achieve detection of small objects such as mobile phones and business cards in the meeting environment. Next, a participant behavior analysis algorithm is proposed. Using a human target tracking network model, the system tracks participants' movement trajectories in real time. A spatiotemporal correlation model is established by combining regional attributes with the spatial domain of expert locations, enabling the detection of participant behaviors, such as interactions and conversations with experts, which may constitute violations. Experimental results demonstrate that the method achieves a detection accuracy of 0.657 for small objects like mobile phones and business cards, with a mAP"improvement of 0.196 compared to YOLOv5m. The participant tracking accuracy reaches 0.938, with an image processing frame rate of 21 frames per second (F/s). This approach effectively identifies participant behaviors such as contact and conversation, making significant contributions to the intelligent management of participant behavior during review meetings.
Keywords:"technology project review; artificial intelligence; behavioral analysis; object detection; target tracking
0 引言
科學(xué)技術(shù)是第一生產(chǎn)力,我國(guó)高度重視科學(xué)技術(shù),在政策、資金方面均給予大力支持。為規(guī)范科學(xué)技術(shù)活動(dòng),營(yíng)造風(fēng)清氣正的科研環(huán)境,我國(guó)制定了《科學(xué)技術(shù)活動(dòng)違規(guī)行為處理暫行規(guī)定》等法律法規(guī),確保科技項(xiàng)目的高質(zhì)量發(fā)展與公平競(jìng)爭(zhēng)??萍柬?xiàng)目評(píng)審會(huì)議作為評(píng)估項(xiàng)目可行性的重要環(huán)節(jié),規(guī)范參會(huì)人員的行為,正是落實(shí)《廣東省科學(xué)技術(shù)廳科技業(yè)務(wù)評(píng)審會(huì)議現(xiàn)場(chǎng)監(jiān)督工作規(guī)程(試行)》的要求。我國(guó)每年都有多批次、大量的科技項(xiàng)目申報(bào),評(píng)審會(huì)議頻次高,參會(huì)人員眾多。采用人工甄別評(píng)審會(huì)議現(xiàn)場(chǎng)參會(huì)人員使用手機(jī)、發(fā)放名片、與評(píng)審專家接觸、攀談等違規(guī)行為十分繁瑣。如何快速識(shí)別參會(huì)人員的違規(guī)行為,亟需通過技術(shù)手段來解決。
近年來,人工智能技術(shù)在人體行為分析、目標(biāo)檢測(cè)、目標(biāo)跟蹤等圖像處理領(lǐng)域取得了重要突破[1]。同時(shí),評(píng)審會(huì)議現(xiàn)場(chǎng)基本配備了視頻監(jiān)控系統(tǒng),能夠獲取監(jiān)控視頻數(shù)據(jù)。因此,人工智能和視頻大數(shù)據(jù)技術(shù)的綜合應(yīng)用,可為科技項(xiàng)目評(píng)審過程人員行為分析提供技術(shù)方案。
專家學(xué)者們?cè)谌藛T行為分析領(lǐng)域開展了大量的研究。文獻(xiàn)[2]引入三維卷積技術(shù),利用視頻的時(shí)序信息進(jìn)行學(xué)生學(xué)習(xí)行為的識(shí)別和分析,但三維卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算量較大。文獻(xiàn)[3]提出一種融合區(qū)域生成網(wǎng)絡(luò)(region proposal network, RPN)的行為識(shí)別算法,通過目標(biāo)檢測(cè)機(jī)制引導(dǎo)網(wǎng)絡(luò)關(guān)注和學(xué)習(xí)人體的行為信息,減少了無關(guān)信息的干擾,但RPN會(huì)增加網(wǎng)絡(luò)的運(yùn)算時(shí)間。文獻(xiàn)[4]提出基于Alphapose優(yōu)化模型的老人跌倒行為檢測(cè)算法,對(duì)行人目標(biāo)檢測(cè)模型和姿態(tài)
估計(jì)模型進(jìn)行加速優(yōu)化,并通過分析人體的結(jié)構(gòu)化特征識(shí)別跌倒行為。文獻(xiàn)[5]提出一種擴(kuò)展的特征金字塔網(wǎng)絡(luò),設(shè)計(jì)了基于特征引用的超分辨模塊,為擴(kuò)展的特征金字塔賦予可靠的細(xì)節(jié)信息。文獻(xiàn)[6]采用高層次的抽象特征作為上下文特征,通過連接上下文特征和小目標(biāo)特征,增加小目標(biāo)信息,以便網(wǎng)絡(luò)能更好地檢測(cè)小目標(biāo)。文獻(xiàn)[7]基于視頻序列中的時(shí)間結(jié)構(gòu),利用目標(biāo)的運(yùn)動(dòng)上下文背景和在多幀上聚合的時(shí)空特征來提高檢測(cè)性能。文獻(xiàn)[8]提出基于雙光流網(wǎng)絡(luò)的視頻目標(biāo)檢測(cè)算法,利用兩種不同的光流網(wǎng)絡(luò),分別估計(jì)位移較近和位移較遠(yuǎn)的當(dāng)前幀與近鄰幀之間的光流場(chǎng),進(jìn)而捕獲不同尺度的多幀特征。目前,尚未見人工智能技術(shù)應(yīng)用于科技項(xiàng)目評(píng)審過程人員行為分析的相關(guān)研究。
本文提出一種基于改進(jìn)YOLOv5[9]的科技項(xiàng)目評(píng)審過程人員行為分析方法。通過監(jiān)控視頻小目標(biāo)檢測(cè)網(wǎng)絡(luò),融合時(shí)間上下文聚合網(wǎng)絡(luò)(temporal context aggregation network,"TCANet)注意力機(jī)制[10-11],實(shí)現(xiàn)對(duì)科技項(xiàng)目評(píng)審會(huì)議現(xiàn)場(chǎng)中手機(jī)、名片等小目標(biāo)的檢測(cè);提出參會(huì)人員行為分析算法,通過人體目標(biāo)跟蹤網(wǎng)絡(luò)模型,實(shí)時(shí)跟蹤參會(huì)人員的移動(dòng)軌跡,建立區(qū)域?qū)傩耘c專家位置域聯(lián)合的時(shí)空關(guān)聯(lián)關(guān)系判別式,用于識(shí)別參會(huì)人員與專家接觸、攀談等違規(guī)行為,以推動(dòng)科技項(xiàng)目評(píng)審過程的智能化管理。
1 監(jiān)控視頻小目標(biāo)檢測(cè)網(wǎng)絡(luò)
在科技項(xiàng)目評(píng)審過程中,參會(huì)人員利用手機(jī)通信、發(fā)放名片等方式與管理人員或評(píng)審專家進(jìn)行非必要的聯(lián)系是違規(guī)行為。由于手機(jī)、名片在監(jiān)控視頻中以小目標(biāo)的形式出現(xiàn),圖像特征不明顯,且容易被遮擋,使人工檢測(cè)監(jiān)控視頻的準(zhǔn)確率、效率均較低。為此,通過在YOLOv5主干網(wǎng)絡(luò)中融合TCANet注意力機(jī)制,獲取科技項(xiàng)目評(píng)審會(huì)議現(xiàn)場(chǎng)監(jiān)控視頻中重點(diǎn)關(guān)注的目標(biāo)區(qū)域,以實(shí)現(xiàn)對(duì)手機(jī)、名片等小目標(biāo)的檢測(cè)。
1.1 TCANet注意力機(jī)制
融合TCANet注意力機(jī)制的目的是將注意力集中在人體和動(dòng)態(tài)變化的前景目標(biāo)上,既能捕獲人體的方向和位置感知信息,也能提取圖像通道間的信息。TCANet注意力機(jī)制的輸入為3通道的圖像數(shù)據(jù),設(shè)圖像的寬、高分別為W、H,輸入的圖像數(shù)據(jù)記為Da,Da分別經(jīng)過空間坐標(biāo)信息網(wǎng)絡(luò)模塊和通道信息網(wǎng)絡(luò)模塊來提取特征。TCANet注意力機(jī)制的結(jié)構(gòu)如圖1所示。
1.1.1 "通道信息網(wǎng)絡(luò)模塊
1.1.2 "空間坐標(biāo)信息網(wǎng)絡(luò)模塊
1.2 改進(jìn)的YOLOv5網(wǎng)絡(luò)
利用TCANet注意力機(jī)制替換YOLOv5主干網(wǎng)絡(luò)中的BottleneckCSP模塊,通過多個(gè)TCANet注意力機(jī)制堆疊,提取空間坐標(biāo)信息和通道信息,定位重點(diǎn)關(guān)注的目標(biāo)區(qū)域,獲取更多需要關(guān)注的細(xì)節(jié)信息。
在YOLOv5頭部網(wǎng)絡(luò)增加了一層上采樣層,用于對(duì)特征圖進(jìn)行上采樣處理,以放大特征圖;同時(shí),將
上采樣得到的特征圖與主干網(wǎng)絡(luò)的第一個(gè)TCANet注意力機(jī)制提取的淺層特征圖進(jìn)行融合,以獲得更豐富的特征信息,從而實(shí)現(xiàn)對(duì)科技項(xiàng)目評(píng)審會(huì)議現(xiàn)場(chǎng)監(jiān)控視頻中手機(jī)、名片等小目標(biāo)的檢測(cè)。改進(jìn)的YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。其中,虛線區(qū)域表示增加的上采樣層和特征融合過程。
2 參會(huì)人員行為分析算法
在科技項(xiàng)目評(píng)審過程中,會(huì)議現(xiàn)場(chǎng)嚴(yán)格限制參會(huì)人員在規(guī)定時(shí)間外隨意進(jìn)出,并禁止參會(huì)人員在非指定區(qū)域與評(píng)審專家接觸、攀談等違規(guī)行為。參會(huì)人員行為分析算法利用人體目標(biāo)跟蹤網(wǎng)絡(luò)模型,實(shí)時(shí)跟蹤參會(huì)人員的移動(dòng)軌跡;同時(shí),通過區(qū)域?qū)傩耘c專家位置域聯(lián)合的時(shí)空關(guān)聯(lián)關(guān)系判別式進(jìn)行參會(huì)人員行為分析,識(shí)別參會(huì)人員與專家接觸、攀談等違規(guī)行為。
2.1 人體目標(biāo)跟蹤網(wǎng)絡(luò)模型
人體目標(biāo)跟蹤本質(zhì)上是一個(gè)人體重識(shí)別(person re-identification,"ReID)任務(wù)。本文構(gòu)建的人體目標(biāo)跟蹤網(wǎng)絡(luò)模型利用改進(jìn)的YOLOv5網(wǎng)絡(luò),獲得評(píng)審會(huì)
議現(xiàn)場(chǎng)監(jiān)控視頻中的人體目標(biāo)檢測(cè)框;人體目標(biāo)檢測(cè)框經(jīng)過濾預(yù)處理后,輸入到包括實(shí)例批次歸一化(instance batch normalization,"IBN)[12]模塊和Non- ""-local模塊[13]的卷積神經(jīng)網(wǎng)絡(luò)中,以提升模型對(duì)不同環(huán)境和人體目標(biāo)尺寸的魯棒性。其中,IBN模塊可提升模型在測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)差別較大時(shí)的泛化能力;Non-local模塊引入了注意力機(jī)制,用于捕獲圖像中遠(yuǎn)距離的依賴關(guān)系,以實(shí)現(xiàn)對(duì)視覺場(chǎng)景的全局理解。本文采用基于部分的卷積基線(part-based convolutional baseline,"PCB)[14]行人重識(shí)別(ReID_PCB)模型作為基線模型,輸出人體目標(biāo)圖像的特征。人體目標(biāo)跟蹤網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示。
在圖3中,32、64分別為各層輸出特征圖的通道數(shù)。通過計(jì)算兩幀之間人體目標(biāo)特征的余弦距離及過濾后的人體目標(biāo)檢測(cè)框的交并比,可以獲得代價(jià)矩陣;利用匈牙利算法對(duì)代價(jià)矩陣進(jìn)行匹配計(jì)算,可獲得跨幀的人體目標(biāo);將前一幀的跟蹤框與當(dāng)前幀的人體目標(biāo)信息進(jìn)行關(guān)聯(lián),并利用卡爾曼濾波器來預(yù)測(cè)人體目標(biāo)在下一幀的位置,從而確認(rèn)其是否處于被跟蹤狀態(tài);若人體目標(biāo)處于被跟蹤狀態(tài),則分配相應(yīng)的跟蹤ID,進(jìn)而實(shí)現(xiàn)評(píng)審會(huì)議現(xiàn)場(chǎng)監(jiān)控視頻中人體目標(biāo)的連續(xù)跟蹤。
2.2 參會(huì)人員行為分析
科技項(xiàng)目評(píng)審會(huì)議現(xiàn)場(chǎng)通常劃分了專家落座區(qū)、項(xiàng)目人員區(qū)、等候區(qū)等。參會(huì)人員需到對(duì)應(yīng)的區(qū)域參與項(xiàng)目評(píng)審活動(dòng),并禁止跨區(qū)域活動(dòng)?;趨?huì)人員的移動(dòng)軌跡,建立區(qū)域?qū)傩耘c專家位置域聯(lián)合的時(shí)空關(guān)聯(lián)關(guān)系判別式,通過分析參會(huì)人員的空間特征和時(shí)間特征,統(tǒng)計(jì)其在專家位置域的停留時(shí)間,識(shí)別其與專家接觸、攀談等違規(guī)行為。
區(qū)域?qū)傩耘c專家位置域聯(lián)合的時(shí)空關(guān)聯(lián)關(guān)系判別式為
3 實(shí)驗(yàn)與分析
實(shí)驗(yàn)硬件環(huán)境:Intel(R) Xeon(R) CPU E5-2650 v4 @ 2.20 GHz,內(nèi)存64 GB,GTX1080Ti GPU。軟件環(huán)境:64位Ubuntu18.04操作系統(tǒng),OpenCV4.7、Tensor-Flow2.3、PyTorch1.7等工具,開發(fā)語(yǔ)言Python3.7。
實(shí)驗(yàn)數(shù)據(jù)來源于1080P監(jiān)控?cái)z像頭拍攝的模擬評(píng)審會(huì)議現(xiàn)場(chǎng)的監(jiān)控視頻,視頻內(nèi)容包括參會(huì)人員、專家、桌椅、名片、手機(jī)等目標(biāo);參會(huì)人員向?qū)<遗砂l(fā)名片、專家使用手機(jī)、參會(huì)人員與專家接觸等行為。
3.1 小目標(biāo)檢測(cè)網(wǎng)絡(luò)性能評(píng)估實(shí)驗(yàn)
設(shè)置訓(xùn)練循環(huán)數(shù)epochs為200次,批尺寸(batch"size)為16個(gè),初始學(xué)習(xí)率為0.001,循環(huán)學(xué)習(xí)率為0.1,圖像分辨率為640×640像素,預(yù)訓(xùn)練網(wǎng)絡(luò)為YOLOv5m。性能評(píng)價(jià)指標(biāo)分別為mAP@0.5、loss、準(zhǔn)確率(P)、幀率(FR)。其中,mAP@0.5表示所有目標(biāo)類別的IoU閾值在0.5時(shí)的平均檢測(cè)精度,可以反映算法對(duì)不同類別目標(biāo)的檢測(cè)精度。
3.1.1 消融實(shí)驗(yàn)
通過消融實(shí)驗(yàn),驗(yàn)證TCANet注意力機(jī)制、上采樣層對(duì)YOLOv5m網(wǎng)絡(luò)性能的影響,實(shí)驗(yàn)結(jié)果如表1所示。
由表1可以看出:YOLOv5m網(wǎng)絡(luò)引入TCANet注意力機(jī)制后,mAP@0.5、P均提高了0.048,loss減少了0.003;同時(shí)引入TCANet注意力機(jī)制和上采樣層后,P、loss、mAP@0.5比其他對(duì)比網(wǎng)絡(luò)均有優(yōu)勢(shì),雖然FR有所下降,但FR為33.33"F/s,基本可以滿足實(shí)時(shí)檢測(cè)的需求。因此,消融實(shí)驗(yàn)證明了利用TCA-Net注意力機(jī)制可以定位重點(diǎn)關(guān)注的小目標(biāo)區(qū)域,以獲取更多的細(xì)節(jié)信息;增加上采樣層,可以放大特征圖,以獲得更豐富的特征進(jìn)行小目標(biāo)檢測(cè)。
3.1.2 與其他目標(biāo)檢測(cè)網(wǎng)絡(luò)對(duì)比
為了驗(yàn)證改進(jìn)的YOLOv5網(wǎng)絡(luò)的有效性,將其與其他典型的目標(biāo)檢測(cè)網(wǎng)絡(luò)(YOLO系列、RCNN[15]家族、SSD網(wǎng)絡(luò)、TPH-YOLOv5[16]、Deformable DETR[17])進(jìn)行對(duì)比實(shí)驗(yàn)。評(píng)價(jià)指標(biāo)有mAP@0.5、mAP@0.5:0.95、FR,實(shí)驗(yàn)結(jié)果如表2所示。
由表2可知:本文網(wǎng)絡(luò)相較于Deformable DETR,雖然mAP@0.5降低了0.012,但檢測(cè)速率提升了120%;且Deformable DETR的參數(shù)量較大,對(duì)存儲(chǔ)空間要求高,限制了其實(shí)際應(yīng)用。因此,對(duì)比實(shí)驗(yàn)證明了本文網(wǎng)絡(luò)的有效性和優(yōu)越性,提高了對(duì)手機(jī)、名片等小目標(biāo)的檢測(cè)精度;同時(shí),本文網(wǎng)絡(luò)基于YOLO系列優(yōu)化而來,技術(shù)應(yīng)用落地具有較好的可實(shí)施性。
3.2 人體目標(biāo)跟蹤實(shí)驗(yàn)
設(shè)置訓(xùn)練epochs為100次,批尺寸為64個(gè),初始學(xué)習(xí)率為0.01,循環(huán)學(xué)習(xí)率為0.1,圖像分辨率為384×128像素,采用隨機(jī)梯度下降優(yōu)化器,動(dòng)量為0.85,權(quán)重衰減為5×10-4。訓(xùn)練數(shù)據(jù)集為Market-1501[18],評(píng)價(jià)指標(biāo)包括首次(Rank-1)成功匹配概率、mAP和FR。
3.2.1 消融實(shí)驗(yàn)
通過消融實(shí)驗(yàn)來分析IBN、Non-local模塊對(duì)人體目標(biāo)跟蹤網(wǎng)絡(luò)模型性能的影響,實(shí)驗(yàn)結(jié)果如表3所示。
由表3可知:在YOLOv5模型的基礎(chǔ)上引入IBN模塊后,Rank-1、mAP分別提升了0.008、0.013;引入IBN和Non-local模塊后,Rank-1、mAP分別提升了0.023和0.034,表明IBN模塊可提升模型的泛化能力,減少測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)差距較大的影響;Non-local模塊可提高網(wǎng)絡(luò)的注意力,有助于人體目標(biāo)特征的提取。
3.2.2 與其他目標(biāo)跟蹤網(wǎng)絡(luò)模型對(duì)比
將本文提出的人體目標(biāo)跟蹤網(wǎng)絡(luò)模型與目前主流的目標(biāo)跟蹤網(wǎng)絡(luò)模型(PABR[19]、PCB[14]、SNR[20]、AlignedReID[21]、HOReID[22])進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。
由表4可知,本文網(wǎng)絡(luò)模型的Rank-1、mAP與最優(yōu)的AlignedReID網(wǎng)絡(luò)模型相比,分別降低了0.006和0.032,但檢測(cè)速率提升了91%,可以滿足評(píng)審會(huì)議現(xiàn)場(chǎng)實(shí)時(shí)性的需求,具有較強(qiáng)的可行性和應(yīng)用價(jià)值。
3.3 識(shí)別效果可視化
本文提出的參會(huì)人員行為分析算法的識(shí)別效果可視化結(jié)果如圖5、6所示。評(píng)審會(huì)議現(xiàn)場(chǎng)手機(jī)、名片小目標(biāo)的識(shí)別效果圖如圖5所示。其中,下箭頭“ò”表示手機(jī),五角星“★”表示名片,下三角“▽”表示參會(huì)人員,圓圈“○”表示專家,圖5中有兩位專家。
在圖5(a)中,從監(jiān)控視頻中僅能看到手機(jī)的邊緣部分,本文算法可準(zhǔn)確識(shí)別出專家握在手中的手機(jī)。
在圖5(b)、(c)中,參會(huì)人員向?qū)<遗砂l(fā)被手部遮擋的名片,本文算法可準(zhǔn)確識(shí)別桌面上部分重疊的手機(jī)與名片。
在圖5(d)中,本文算法能準(zhǔn)確識(shí)別參會(huì)人員手握的、可視部分較小名片和手機(jī)。
參會(huì)人員與專家接觸、攀談等違規(guī)行為識(shí)別的目標(biāo)跟蹤效果如圖6所示。其中,矩形框表示專家位置域,下三角“▽”表示參會(huì)人員,圓圈“○”表示專家,圖6中有兩位專家,曲線為參會(huì)人員的移動(dòng)軌跡。
識(shí)別的目標(biāo)跟蹤效果圖
在圖6(a)、(d)中,參會(huì)人員的移動(dòng)軌跡逐漸靠近專家,且短時(shí)停留,結(jié)合改進(jìn)的YOLOv5網(wǎng)絡(luò),發(fā)現(xiàn)兩者手部區(qū)域存在名片,即可判定存在違規(guī)行為。
在圖6(b)、(c)中,參會(huì)人員的移動(dòng)軌跡在專家區(qū)域附近逐漸密集,反映參會(huì)人員在專家區(qū)域停留的時(shí)間較長(zhǎng),結(jié)合改進(jìn)的YOLOv5網(wǎng)絡(luò),判斷參會(huì)人員與專家存在接觸。
4 結(jié)論
為規(guī)范科技項(xiàng)目評(píng)審過程中參會(huì)人員的行為,提高科技項(xiàng)目的管理水平,本文提出基于改進(jìn)YOLOv5的科技項(xiàng)目評(píng)審過程人員行為分析方法。利用改進(jìn)的YOLOv5網(wǎng)絡(luò)檢測(cè)評(píng)審會(huì)議現(xiàn)場(chǎng)的手機(jī)、名片等小目標(biāo);通過參會(huì)人員行為分析算法跟蹤、識(shí)別參會(huì)人員接觸、攀談等違規(guī)行為。實(shí)驗(yàn)結(jié)果表明,本文方法能夠準(zhǔn)確識(shí)別評(píng)審會(huì)議現(xiàn)場(chǎng)中手機(jī)、名片等小目標(biāo),以及參會(huì)人員與專家接觸、攀談等違規(guī)行為,對(duì)科技項(xiàng)目的智能化管理有重要意義。
?The author(s) 2024. This is an open access article under the CC BY-NC-ND 4.0 License (https://creativecommons.org/licenses/ by-nc-nd/4.0/)
參考文獻(xiàn)
曹家樂,李亞利,孫漢卿,等.基于深度學(xué)習(xí)的視覺目標(biāo)檢測(cè)技術(shù)綜述[J].中國(guó)圖象圖形學(xué)報(bào),2022,27(6):1697-1722.
Zhang R, Ni B. Learning behavior recognition and analysis by using 3D convolutional neural networks[C]. 2019 5th Interna-tional Conference on Engineering, Applied Sciences and Tech-nology (ICEAST). IEEE, 2019:1-4.
周波,李俊峰.結(jié)合目標(biāo)檢測(cè)的人體行為識(shí)別[J].自動(dòng)化學(xué)報(bào),2020,46(9):1961-1970.
馬敬奇,雷歡,陳敏翼.基于AlphaPose優(yōu)化模型的老人跌倒行為檢測(cè)算法[J].計(jì)算機(jī)應(yīng)用,2022,42(1):294-301.
DENG C, WANG M, LIU L, et al. Extended feature pyramid network for small object detection[J]. IEEE Transactions on Multimedia, 2021,24:1968-1979.
LIM J S, ASTRID M, YOON H J, et al. Small object detection using context and attention[C]. 2021 International Conference on Artificial Intelligence in Information and Communication (ICAIIC). IEEE, 2021:181-186.
KIM J, KOH J, LEE B, et al. Video object detection using object's motion context and spatio-temporal feature aggregation [C]. 2020 25th International Conference on Pattern Recognition (ICPR). IEEE, 2021:1604-1610.
尉婉青,禹晶,史薪琪,等.雙光流網(wǎng)絡(luò)指導(dǎo)的視頻目標(biāo)檢測(cè)[J].中國(guó)圖象圖形學(xué)報(bào),2021,26(10):2473-2484.
ZHU Xingkui, LYU Shuchang, WANG Xu, et al. TPH-YOLOv5: Improved YOLOv5 based on transformer predic-tion head for object detection on drone-captured scenarios[C]. The IEEE/CVF International Conference on Computer Vision (ICCV), 2021:2778-2788.
QING Zhiwu, SU Haisheng, GAN Weihao, et al. Temporal context aggregation network for temporal action proposal re-finement[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021:485-494.
崔海朋,姜英昌.基于注意力機(jī)制的海上小目標(biāo)重識(shí)別方法[J].機(jī)電工程技術(shù),2022,51(7):100-103.
PAN Xingang, LUO Ping, SHI Jianping, et al. Two at once: Enhancing learning and generalization capacities via IBN-Net"[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018:464-479.
CAO Yue, XU Jiarui, LIN Stephen, et al. GCNet: Non-local networks meet squeeze-excitation networks and beyond"[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops, 2019
SUN Y, ZHENG L, YANG Y. Beyond part models: Person retrieval with refined part pooling"(and a strong convolute-ional baseline) [C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 480-496.
MA S, SONG Y, CHENG N, et al. Structured light detection algorithm based on deep learning[C]//IOP"Conference Series: Earth and Environmental Science. IOP Publishing, 2019,252 (4):042050.
ZHU X, LYU S, WANG X, et al. TPH-YOLOv5: Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]"http://Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 2778-2788.
ZHU X, SU W, LU L, et al. Deformable detr: Deformable transformers for end-to-end object detection[J]. arXiv preprint arXiv:2010.04159, 2020.
ZHENG L, SHEN L, TIAN L, et al. Scalable person re-identification: A benchmark[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015:1116-1124.
SUH Y, WANG J, TANG S, et al. Part-aligned bilinear representations for person re-identification[C]"http://Proceedings of the European Conference on Computer Vision (ECCV), 2018: 402-419.
JIN X, LAN L, ZENG W J, et al. Style normalisation and restitution for generalisable person"re-identification[C]//Pro-ceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 3143-3152.
張勃興,張壽明,鐘震宇.基于多粒度特征融合網(wǎng)絡(luò)的行人重識(shí)別[J].光電子·激光,2022,33(9):977-983.
WANG G N, YANG S, LIU H Y, et al. High-order information matter: Learning relation and topology for oc-cluded person re-identification[C]//Proceedings of the IEEE/ CVF Conference on Computer Vision and Pattern Recognition, 2020: 6449-6458.
作者簡(jiǎn)介:
盧杏堅(jiān),男,1987年生,本科,助理研究員,主要研究方向:機(jī)器視覺、人工智能。
楊丹妮,女,1998年生,碩士研究生,主要研究方向:機(jī)器視覺、人工智能。
焦?jié)申牛ㄍㄐ抛髡撸?,男?991年生,博士研究生,副研究員,主要研究方向:機(jī)器視覺、人工智能。E-mail: zy.jiao@giim.ac.cn