摘 要:自COVID-19流行以來,關(guān)于物聯(lián)網(wǎng)環(huán)境下室內(nèi)人員流動監(jiān)測系統(tǒng)的研究受到了社會的廣泛關(guān)注。在此背景下,提出了一種基于邊緣遷移學(xué)習(xí)的教室占用檢測方法,該方法拓展了圖像處理策略,減少了定制的訓(xùn)練階段。還提出一種基于相機(jī)捕獲圖像的FCTS架構(gòu)用于室內(nèi)物體計(jì)數(shù)。將該系統(tǒng)架構(gòu)部署在某大學(xué)校園內(nèi),用于教室占用檢測。在不同類型的教室中進(jìn)行評估測試之后,結(jié)果顯示:該系統(tǒng)能夠計(jì)算教室內(nèi)的人數(shù),且最大平均絕對誤差為1.23,證明了該系統(tǒng)的可行性。
關(guān)鍵詞:物聯(lián)網(wǎng);智能建筑;圖像處理;遷移學(xué)習(xí);占用檢測;FCTS架構(gòu)
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-1302(2024)07-00-05
0 引 言
智能建筑管理需要對室內(nèi)環(huán)境中的個(gè)體進(jìn)行監(jiān)測計(jì)數(shù),以及檢測建筑物或特定地點(diǎn)是否存在人員。智能建筑管理應(yīng)用非常廣泛,例如:供熱通風(fēng)與空氣調(diào)節(jié)(Heating, Ventilation and Air Conditioning, HVAC)、報(bào)警、照明和建筑安全系統(tǒng)[1-3]。2020年初,新冠疫情暴發(fā)后,大多數(shù)公共場所要求人員之間保持一定的距離,從而限制病毒的傳播[4],因此行為監(jiān)測變得更為重要。文獻(xiàn)[5]提出了一種基于客戶機(jī)-服務(wù)器架構(gòu)的智能建筑室內(nèi)環(huán)境中人員檢測的原型,并重點(diǎn)關(guān)注大學(xué)校園教室,對比了兩種不同的硬件方案,即微軟Kinect和英特爾RealSense攝像頭。將原型機(jī)安裝在校園里的一間教室,該教室最多可容納100人;評估了完整版本和簡化版本兩個(gè)版本的原型,并且都使用ImageNet進(jìn)行預(yù)訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,完整版本的準(zhǔn)確率范圍為85%~91%,而簡化版本的準(zhǔn)確率范圍為19%~37%。文獻(xiàn)[6]對監(jiān)測系統(tǒng)的架構(gòu)進(jìn)行了重構(gòu),目的是提高系統(tǒng)的可擴(kuò)展性和可用性,評估了將預(yù)測層從服務(wù)器移動到客戶端的可能性,受硬件限制,完整版本不能在樹莓派4B上運(yùn)行,這代表需要使用簡化版本的YOLOv3模型。該實(shí)驗(yàn)中還使用了一組在校園教室內(nèi)拍攝的圖像,用以微調(diào)模型的權(quán)重,進(jìn)而研究了采用遷移學(xué)習(xí)的可能性。將該系統(tǒng)在一間教室進(jìn)行了測試,結(jié)果表明:該系統(tǒng)對教室占用情況的檢測是有效的。
本文在上述研究的基礎(chǔ)上,提出了FCTS(Fat Client Thin Server)架構(gòu)和遷移學(xué)習(xí)框架。文中在FCTS架構(gòu)的邊緣端進(jìn)行了教室占用檢測,并分析了該架構(gòu)的實(shí)用性與可行性。然后介紹了基于遷移學(xué)習(xí)的占用檢測方法,使用ImageNet數(shù)據(jù)集預(yù)訓(xùn)練簡化版的YOLOv3模型,通過在大學(xué)校園的兩個(gè)教室拍攝的圖像對模型的權(quán)重進(jìn)行微調(diào)。最后在八個(gè)教室中使用該系統(tǒng)并獲得驗(yàn)證結(jié)果,每個(gè)教室在尺寸、容量、朝向、位置和照明方面各不相同。
1 相關(guān)工作
調(diào)查表明,室內(nèi)環(huán)境中的占用檢測系統(tǒng)已經(jīng)被應(yīng)用于生活中的諸多方面,例如能量消耗優(yōu)化、HVAC設(shè)備控制和照明系統(tǒng)管理,室內(nèi)環(huán)境質(zhì)量管理和環(huán)境溫度舒適度控制,智能交通系統(tǒng)、監(jiān)控系統(tǒng)以及醫(yī)療保健和健康監(jiān)控。
總的來說,占用檢測方法可以分為兩大類:基于圖像方法和非基于圖像方法。非基于圖像的技術(shù)有幾個(gè)優(yōu)點(diǎn),如成本低、保護(hù)隱私,并且通常只需要極少的基礎(chǔ)設(shè)施就能工作。然而,大多數(shù)技術(shù)只能檢測室內(nèi)環(huán)境中是否存在人員,只有少數(shù)技術(shù)能夠計(jì)算人數(shù),但準(zhǔn)確率較低。因此,本文采用基于圖像的方法,即基于相機(jī)捕獲的圖像或視頻片段的方法。與非基于圖像的技術(shù)相比,基于攝像機(jī)的方法能夠在檢測室內(nèi)環(huán)境占用率方面達(dá)到更高的準(zhǔn)確度,主要的缺點(diǎn)是它們的成本和隱私問題,與其他類型的傳感器相比,攝像機(jī)的成本較高。
對于圖像中的人,有兩種主要的方法可以自動計(jì)數(shù):一種方法被稱為興趣線(Line of Interest, LOI),它在視頻的時(shí)間切片上進(jìn)行操作[7],以計(jì)算在監(jiān)控場景中越過虛擬興趣線的人數(shù);第二種方法被稱為感興趣區(qū)域(Region of Interest, ROI),它可以通過評估監(jiān)控場景中特定區(qū)域內(nèi)存在的人數(shù)來估計(jì)人群密度[8]。由于對計(jì)算大學(xué)校園中不同教室和實(shí)驗(yàn)室的人數(shù)感興趣,本研究采用ROI方法中的對象級分析方法,通過這種分析方法試圖定位場景中不同類型的對象,首先確定場景中是否存在與正確類對應(yīng)的對象,然后找到它們在場景中的位置。
基于文獻(xiàn)[5]提出的原型,文獻(xiàn)[6]對該原型的系統(tǒng)架構(gòu)進(jìn)行了改進(jìn),并對其在兩個(gè)教室中的使用性能進(jìn)行了分析,最后通過YOLOv3模型獲得了相應(yīng)的檢測結(jié)果。本研究使用ImageNet數(shù)據(jù)集預(yù)訓(xùn)練YOLOv3模型,并使用遷移學(xué)習(xí)來微調(diào)模型,進(jìn)而計(jì)算教室里的人數(shù)。最后,在某大學(xué)校園的八個(gè)教室里測試系統(tǒng)。
2 FCTS架構(gòu)
FCTS架構(gòu)由客戶端和服務(wù)器端組成,每個(gè)客戶端都包含不同的層。在文獻(xiàn)[5]的實(shí)驗(yàn)中,使用了一個(gè)常見的客戶端-服務(wù)器架構(gòu),其中計(jì)算由服務(wù)器端執(zhí)行。此解決方案僅適用于設(shè)備較少的場景,并且無法以任何方式進(jìn)行擴(kuò)展。FCTS架構(gòu)的目標(biāo)是通過將計(jì)算轉(zhuǎn)移到客戶端嵌入式設(shè)備來改變之前架構(gòu)的權(quán)重,這種設(shè)計(jì)得到了當(dāng)前架構(gòu)的有力支持,對于計(jì)算要求很高的任務(wù)[9],能夠保持預(yù)測教室人數(shù)的準(zhǔn)確性良好[6]。FCTS架構(gòu)如圖1所示。其中,大部分的計(jì)算都發(fā)生在客戶端,后面章節(jié)將單獨(dú)討論該體系結(jié)構(gòu)的每一層。
采用上述方法的好處如下:
(1)更高的可擴(kuò)展性:客戶端可以獨(dú)立于其他客戶端完成工作,然后將其結(jié)果發(fā)送到服務(wù)器。
(2)半離線工作:通過這種方式,可以預(yù)測場景中的人數(shù),并將結(jié)果直接存儲在單板計(jì)算機(jī)上,而無需立即發(fā)送數(shù)據(jù)。
(3)更高的可用性:不再有單點(diǎn)故障,而是由不同的客戶端獨(dú)立工作,這使得系統(tǒng)更加健壯。
(4)隱私兼容:存儲在客戶端節(jié)點(diǎn)并發(fā)送到服務(wù)器端的數(shù)據(jù)為分析幀的人數(shù)和時(shí)間。
2.1 數(shù)據(jù)采集層
數(shù)據(jù)采集層用于數(shù)據(jù)采集,重點(diǎn)是監(jiān)測教室和實(shí)驗(yàn)室的占用情況并比較攝像機(jī)的性能。為了更準(zhǔn)確地統(tǒng)計(jì)室內(nèi)區(qū)域的人數(shù),我們比較了兩種不同的低成本攝像機(jī)。
(1)英特爾RealSense D415深度攝像機(jī):采用的英特爾實(shí)感技術(shù)可以計(jì)算給定區(qū)域內(nèi)的人數(shù)。這款相機(jī)由通用串行總線(Universal Serial Bus, USB)供電,由一個(gè)紅外投影儀、一對深度傳感器和一個(gè)RGB傳感器組成。深度傳感器輸出分辨率最高可設(shè)置為1 280×720像素,幀速率最高可設(shè)置為90 幀/s。RGB傳感器分辨率為
1 920×1 080像素,最大幀速率為30 幀/s。在這個(gè)案例研究中,攝像機(jī)通過USB插入到一臺樹莓派4B,每5 min采集一次圖像。
(2)微軟Kinect相機(jī):Kinect包含三個(gè)主要組件,即一個(gè)RGB彩色VGA(Video Graphics Array)攝像機(jī)、一個(gè)深度傳感器和一個(gè)多陣列麥克風(fēng),三個(gè)組件同時(shí)工作來檢測用戶的運(yùn)動并在屏幕上創(chuàng)建相應(yīng)的物理圖像。攝像機(jī)和深度傳感器都有640×480像素的分辨率,運(yùn)行速率為30幀/s。該相機(jī)也通過USB插入到樹莓派4B,每5 min采集一次圖像。
在對每臺低成本相機(jī)進(jìn)行精度測試后,選擇了英特爾RealSense D415深度攝像機(jī)。所選的相機(jī)專門用于預(yù)測階段,在應(yīng)用定制深度學(xué)習(xí)模型之前獲取RGB圖像。根據(jù)教室大小配備攝像頭數(shù)量,小教室安裝一個(gè)攝像頭,大教室安裝兩個(gè)攝像頭。
2.2 預(yù)測層
預(yù)測層從客戶端攝像機(jī)中檢索數(shù)據(jù),并利用基于YOLOv3[10]的自定義模型檢測圖像內(nèi)的人數(shù)。該工具將單個(gè)神經(jīng)網(wǎng)絡(luò)應(yīng)用于完整的圖像,將圖像劃分為多個(gè)區(qū)域,預(yù)測每個(gè)區(qū)域的邊界框和概率。邊界框由預(yù)測概率加權(quán)。該庫可以通過單個(gè)網(wǎng)絡(luò)評估來進(jìn)行預(yù)測,不同于R-CNN(Region-based Convolutional Neural Network)系統(tǒng)需要對單個(gè)圖像進(jìn)行數(shù)千次評估。所提方法的檢測速度較快,比R-CNN快1 000倍以上,比fast R-CNN[6]快約100倍。預(yù)測完成后,檢測到的人數(shù)和輸入圖像拍攝的時(shí)間戳將保存在一個(gè)CSV文件中。
2.3 API層
每個(gè)客戶端都暴露于同一組API,在服務(wù)器可以查詢這些API,以便檢索每個(gè)攝像機(jī)在特定時(shí)間段內(nèi)檢測到的人數(shù)??蛻舳撕头?wù)器之間的通信是通過HTTPS協(xié)議進(jìn)行的。這種體系結(jié)構(gòu)保證了整個(gè)系統(tǒng)的可伸縮性,并允許客戶端離線工作。
2.4 表示層
表示層是服務(wù)器端唯一存在的層。它與API層交互,檢索有關(guān)教室占用情況的數(shù)據(jù)并將這些數(shù)據(jù)可視化。它是使用HTML5、CSS3、JavaScript等標(biāo)準(zhǔn)實(shí)現(xiàn)的Web應(yīng)用程序,后端系統(tǒng)使用Python微框架Flask開發(fā)。最后,Nginx被用作Web服務(wù)器和反向代理,讓頁面在端口號80上可用,并提供靜態(tài)文件。通過這一層,管理人員可以全面了解整個(gè)校園所有教室的使用情況。盡管這個(gè)系統(tǒng)目前只提供一些基本的可視化功能,但也可以通過進(jìn)一步分析來豐富。
3 基于遷移學(xué)習(xí)的占用檢測方法
本章中提出了在智能校園背景下計(jì)算人數(shù)的方法,參考文獻(xiàn)[5],將實(shí)驗(yàn)場景設(shè)置為大學(xué)內(nèi)八個(gè)教室,教室的大小、布局、座位數(shù)量和朝向不一,每個(gè)教室設(shè)置了一個(gè)客戶端節(jié)點(diǎn),根據(jù)教室的大小配備一個(gè)或兩個(gè)攝像機(jī)?;谶w移學(xué)習(xí)的方法的主要框架如圖2所示,其中主要包括兩個(gè)步驟:第一步,使用ImageNet數(shù)據(jù)集預(yù)訓(xùn)練深度學(xué)習(xí)算法,然后使用兩個(gè)特定的上下文數(shù)據(jù)集進(jìn)行教室占用檢測任務(wù)的訓(xùn)練,第一個(gè)數(shù)據(jù)集為教室學(xué)生計(jì)數(shù)(Classroom Student Counting, CSC)數(shù)據(jù)集,該數(shù)據(jù)集通過安裝在校園內(nèi)的2個(gè)攝像頭得到;第二個(gè)數(shù)據(jù)集是COCO數(shù)據(jù)集的一部分[11]。第二步,在完成訓(xùn)練過程后,系統(tǒng)對英特爾RealSense D415相機(jī)捕獲的圖像進(jìn)行人員計(jì)數(shù),如圖2中的虛線框所示。將在房間中檢測到的人數(shù)存儲在客戶端節(jié)點(diǎn)中,并且可以由服務(wù)器通過客戶端公開的API檢索。
3.1 數(shù)據(jù)集
實(shí)驗(yàn)過程使用了兩個(gè)不同的數(shù)據(jù)集:CSC數(shù)據(jù)集和COCO數(shù)據(jù)集。CSC數(shù)據(jù)集是采用在校園安裝的實(shí)驗(yàn)裝置在不同的課堂中收集的,從校園內(nèi)八個(gè)教室中選用兩個(gè)來收集訓(xùn)練數(shù)據(jù)集。在測試階段,可以使用訓(xùn)練期間未使用的教室數(shù)據(jù)來評估模型。具體來說,實(shí)驗(yàn)選擇了配備一個(gè)攝像頭的小教室和配備兩個(gè)攝像頭的大教室作為訓(xùn)練數(shù)據(jù)集,其中分別包含來自小教室和大教室的1 196和808張圖像。標(biāo)注過程如下:首先,利用預(yù)訓(xùn)練的YOLOv3模型大致檢索人員、椅子和背包的部分邊界框;然后,手動修正模型在識別三種類別時(shí)可能產(chǎn)生的錯誤;最后,將衣服標(biāo)簽添加到所有圖像中。
CSC數(shù)據(jù)集由四類組成:人、衣服、椅子和背包。在圖3中,繪制了小教室和大教室圖像中的人員分布。其中,小教室人數(shù)為0~54人,均值為13.6人,標(biāo)準(zhǔn)差為15.7;大教室人數(shù)為0~93人,均值為23.7人,標(biāo)準(zhǔn)差為20.8。
本研究使用的COCO數(shù)據(jù)集[11]最初是由微軟發(fā)布的,用于檢測和分割日常生活環(huán)境中發(fā)現(xiàn)的物體。累積165 482張
訓(xùn)練圖像、81 208張驗(yàn)證圖像和81 434張測試圖像。這些圖像與91種對象類型相關(guān),本實(shí)驗(yàn)只用到其中的4種對象。由于數(shù)據(jù)集已經(jīng)被標(biāo)記,因此只選擇包含四種所需類別的圖像,符合條件的圖像共計(jì)67 316張。
3.2 訓(xùn)練過程
首先將數(shù)據(jù)集分為訓(xùn)練集和驗(yàn)證集,分別使用75%和25%的數(shù)據(jù)。由于模型是直接在線評估的,因此部分?jǐn)?shù)據(jù)沒有保留到測試階段。根據(jù)圖像中出現(xiàn)的人數(shù)對數(shù)據(jù)進(jìn)行劃分,以便在兩組中保持相同的比例。模型采用YOLOv3[10],使用過濾的COCO數(shù)據(jù)集和CSC數(shù)據(jù)集開始訓(xùn)練。訓(xùn)練次數(shù)是一個(gè)需要設(shè)置的重要參數(shù),它必須足夠大,以確保模型能夠正確地檢測到人像,但數(shù)量太大可能會導(dǎo)致相反的過擬合現(xiàn)象,因此失去了對新圖像進(jìn)行概括和充分操作的能力。本文將訓(xùn)練次數(shù)設(shè)置為105 000次,每1 000次設(shè)置一個(gè)檢查點(diǎn)。
在訓(xùn)練過程中,每1 000次迭代評估兩個(gè)指標(biāo),物體檢測系統(tǒng)基于邊界框和類別標(biāo)簽進(jìn)行預(yù)測。對于每個(gè)邊界框,系統(tǒng)測量預(yù)測邊界框和真實(shí)邊界框之間重疊的面積。第一個(gè)衡量指標(biāo)是交并比(Intersection over Union, IoU)。準(zhǔn)確率和召回率也通常使用給定閾值的IoU值來計(jì)算,在示例中IoU為平均值,取0.25。第二個(gè)指標(biāo)是平均精確度,此指標(biāo)基于平均精度AP,AP與給定類別的精確-召回曲線面積相關(guān),計(jì)算公式如下:
式中:p和r分別是準(zhǔn)確率和召回率。該過程在每個(gè)類上迭代,然后取平均值,選擇50%的置信閾值參數(shù)。圖4描述了MAP為50%和平均IoU為0.25時(shí),訓(xùn)練過程的迭代曲線。
4 實(shí)驗(yàn)與分析
如第3章所述,本實(shí)驗(yàn)是在小型和大型兩種不同類型的教室收集數(shù)據(jù),其中包括五間小教室和三間大教室共八間教室。CSC數(shù)據(jù)集中的圖像是使用1號小教室和1號大教室收集的。為了測試系統(tǒng)的準(zhǔn)確性和合理性,從所有教室中的每個(gè)攝像機(jī)獲取100幅圖像,小教室100幀,大教室200幀,總共1 100幅圖像。這些圖像是通過幾個(gè)學(xué)生志愿者在教室內(nèi)改變他們的位置獲得的。使用三種指標(biāo)對系統(tǒng)在個(gè)體數(shù)量檢測中的準(zhǔn)確性進(jìn)行評價(jià)。三種指標(biāo)
如下:
(1)實(shí)數(shù)(Real Number, RN):圖像出現(xiàn)時(shí)在場的確切人數(shù),由操作員計(jì)算。
(2)錯誤計(jì)數(shù)(False Counting Number, FCN):系統(tǒng)造成的錯誤,例如由于一個(gè)人的移動導(dǎo)致被計(jì)數(shù)兩次,或者一件T恤衫上的印花被識別為人臉。
(3)預(yù)測人數(shù)(Predicted Number, PN):定制的YOLOv3模型預(yù)測的人數(shù)。為了評估人數(shù)統(tǒng)計(jì)系統(tǒng)的準(zhǔn)確性,使用如下公式計(jì)算準(zhǔn)確度:
然后,通過對比RN和PN計(jì)算均方根誤差(Root Mean Square Error, RMSE)和平均絕對誤差(Mean Absolute Error, MAE),結(jié)果見表1所列。該系統(tǒng)能夠以較高的準(zhǔn)確度檢測教室占用情況。其中,系統(tǒng)在1號小教室和1號大教室中表現(xiàn)更好,這是因?yàn)镃SC數(shù)據(jù)集就是從這些教室收集到的圖像。
由表1可以看出,大教室的平均準(zhǔn)確度低于小教室,而小教室的標(biāo)準(zhǔn)差值低于大教室。一個(gè)原因是在大教室中占用檢測任務(wù)的復(fù)雜性更高,同時(shí)大教室擁有更多的座位。另一個(gè)可能的原因是在大型教室中兩個(gè)攝像頭的位置不當(dāng)。通過拆分每個(gè)大教室內(nèi)每個(gè)攝像機(jī)的幀來計(jì)算平均準(zhǔn)確度和相關(guān)的標(biāo)準(zhǔn)偏差,結(jié)果見表2所列。
綜上所述,本文的系統(tǒng)在智能校園環(huán)境中的教室占用檢測任務(wù)中是有效的。系統(tǒng)采用的FCTS架構(gòu)的優(yōu)點(diǎn)在于其具有可擴(kuò)展性、可用性、以半離線方式工作的可能性和設(shè)備成本低。通過該系統(tǒng)能夠有效地監(jiān)控人員密度,以便提前規(guī)劃教室和實(shí)驗(yàn)室,以避免可能的擁擠情況。該系統(tǒng)在其他場景中也適用,特別是涉及向公眾開放的建筑物。
5 結(jié) 語
本文提出了一種基于邊緣遷移學(xué)習(xí)的大學(xué)校園教室占用檢測系統(tǒng)。使用英特爾RealSense D415相機(jī)拍攝圖片作為數(shù)據(jù)集,使用ImageNet數(shù)據(jù)集預(yù)訓(xùn)練簡化版的YOLOv3模型,通過遷移學(xué)習(xí)來微調(diào)權(quán)重。這種方式可以通過將計(jì)算從服務(wù)器端轉(zhuǎn)移到客戶端嵌入式設(shè)備來改變之前架構(gòu)的權(quán)重,在邊緣端完成預(yù)測操作。結(jié)果表明,該系統(tǒng)具有有效性,能夠準(zhǔn)確地檢測未微調(diào)階段的教室圖像。
在未來的工作中,可以將基于攝像頭的方法與其他基于傳感器的方法結(jié)合起來。假設(shè)室內(nèi)環(huán)境受到人類活動的影響,可以使用各種傳感器來檢測,例如可以使用二氧化碳(CO2)和顆粒物(PM)傳感器進(jìn)行人群密度檢測。
參考文獻(xiàn)
[1] MOHAMMADMORADI H,MUNIR S,GNAWALI O,et al. Measuring people-flow through doorways using easy-to-install IR array sensors [C]// Proceedings of 13th International Conference on Distributed Computing in Sensor Systems. Ottawa,ON,Canada:IEEE,2017:35-43.
[2] DONG B,PRAKASH V,F(xiàn)ENG F,et al. A review of smart building sensing system for better indoor environment control [J]. Energy and buildings,2019,199:29-46.
[3] KOUYOUMDJIEVA S T,DANIELIS P,KARLSSON G. Survey of non-image-based approaches for counting people [J]. IEEE communications surveys amp; tutorials,2019,22(2):1305-1336.
[4] THUNSTR?M L,NEWBOLD S C,F(xiàn)INNOFF D,et al. The benefits and costs of using social distancing to flatten the curve for COVID-19 [J]. Journal of benefit-cost analysis,2020,11(2):179-195.
[5] MONTI L,MIRRI S,PRANDI C,et al. Smart sensing supporting energy-efficient buildings:on comparing prototypes for people counting [C]// Proceedings of the 5th EAI International Conference on Smart Objects and Technologies for Social Good. New York,NY,USA:ACM,2019:171-176.
[6] TSE R,MONTI L,IM M,et al. DeepClass:edge based class occupancy detection aided by deep learning and image cropping [C]// Proceedings of the International Conference on Digital Image Processing (ICDIP 2020). [S.l.]:SPIE,2020:20-27.
[7] MA Z,CHAN A B. Crossing the line:crowd counting by integer programming with local features [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland,OR,USA:IEEE,2013:2539-2546.
[8] ZHU L,WONG K H. Human tracking and counting using the kinect range sensor based on adaboost and kalman filter [C]// Proceedings of Advances in Visual Computing:9th International Symposium. Heidelberg,Berlin:Springer,2013:582-591.
[9] MANIEZZO V,BOSCHETTI M A,CARBONARO A,et al. Client-side computational optimization [J]. ACM transactions on mathematical software,2019,45(2):1-16.
[10] REDMON J,F(xiàn)ARHADI A. Yolov3:an incremental improvement [EB/OL]. (2018-04-08)[2023-07-17]. https://arxiv.org/abs/1804.02767.
[11] LIN T Y,MAIRE M,BELONGIE S,et al. Microsoft COCO:common objects in context [C]// Proceedings of Computer Vision—ECCV 2014:13th European Conference. Zurich,Switzerland:Springer,2014:740-755.