謝天植, 雷為民, 張 偉, 李志遠(yuǎn)
(東北大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 遼寧 沈陽(yáng) 110169)
視頻會(huì)話(huà)類(lèi)業(yè)務(wù)已經(jīng)成為人與人交流中不可缺少的部分,視頻會(huì)話(huà)方便了交流的同時(shí)也帶來(lái)了隱私泄露的問(wèn)題,尤其最近一年新冠疫情使居家辦公成為一種常態(tài),這使得隱私泄露問(wèn)題變得更加嚴(yán)重,通過(guò)語(yǔ)義分割將人像提取后進(jìn)行背景替換,可以很好地保護(hù)會(huì)話(huà)人的隱私.
傳統(tǒng)的圖像分割[1-2]算法主要有閾值分割法[3]、光流法[4]、邊緣檢測(cè)算法[5]等,這些算法都是根據(jù)圖像的特征完成圖像分割.首先是分析圖像的特征,對(duì)每一個(gè)特征設(shè)定一個(gè)特定的提取器,最后根據(jù)特定提取器對(duì)圖像進(jìn)行分割.但傳統(tǒng)算法對(duì)圖像的分割缺少語(yǔ)義上的理解,無(wú)法對(duì)特定的人像進(jìn)行提取,而是將所有前景全部提取出來(lái),不能滿(mǎn)足視頻會(huì)話(huà)業(yè)務(wù)中背景替換任務(wù)的需求.
語(yǔ)義分割任務(wù)是一項(xiàng)對(duì)圖像進(jìn)行語(yǔ)義理解后進(jìn)行特定目標(biāo)分割的深度學(xué)習(xí)任務(wù),為視頻會(huì)話(huà)中人像提取提供了新思路,它是計(jì)算機(jī)視覺(jué)中的一個(gè)重要方向,實(shí)現(xiàn)由粗推理到精推理的步驟,完成目標(biāo)的分類(lèi)與定位,預(yù)測(cè)并推斷圖像中的所有像素,實(shí)現(xiàn)細(xì)粒度的推理[6],即實(shí)現(xiàn)了對(duì)視頻圖像的語(yǔ)義理解.
近年來(lái),深度學(xué)習(xí)發(fā)展迅速,語(yǔ)義分割已經(jīng)在自動(dòng)駕駛、室內(nèi)機(jī)器人導(dǎo)航等方面[7-8]得到了廣泛的應(yīng)用.全卷積神經(jīng)網(wǎng)絡(luò)[9](fully convolutional networks, FCN)改進(jìn)分類(lèi)深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用卷積層替換原始網(wǎng)絡(luò)末端的全連接層,最終得到兩通道的特征圖(feature map),將特征圖輸入Softmax層后得到視頻圖像中每個(gè)像素點(diǎn)的分類(lèi)信息,完成分割.該網(wǎng)絡(luò)忽略了低維的特征圖,導(dǎo)致邊緣信息的丟失,分割效果較差,并且在速度上無(wú)法達(dá)到實(shí)時(shí).文獻(xiàn)[10]使用了編解碼結(jié)構(gòu)提升分割效果,通過(guò)編碼器獲取深層次的語(yǔ)義信息,使用解碼器將淺層的空間信息與深層語(yǔ)義信息相融合,進(jìn)而恢復(fù)邊緣與細(xì)節(jié)的信息;Deeplabv2[11]使用空洞卷積替換普通卷積,空洞卷積設(shè)置適宜特征圖尺寸的膨脹率,使卷積核在不增大參數(shù)量的情況下獲取更大的感受野,獲取相對(duì)于普通卷積更豐富的上下文信息,對(duì)分割大目標(biāo)以及精準(zhǔn)分割提供了思路;Deeplabv3[12]網(wǎng)絡(luò)舍棄了條件隨機(jī)場(chǎng),在空洞卷積金字塔池化模塊中加入批量歸一化操作,加入平均池化層解決空洞卷積膨脹率過(guò)大導(dǎo)致的“權(quán)值退化”問(wèn)題也增加了全局特征.OSVOS[13]網(wǎng)絡(luò)、STM[14]網(wǎng)絡(luò)以及SAT[15]網(wǎng)絡(luò)利用了幀間相關(guān)信息提升分割性能,但網(wǎng)絡(luò)模型整體較復(fù)雜,很難達(dá)到實(shí)時(shí)處理速度或需要高性能顯卡進(jìn)行支持.
上述模型大而復(fù)雜,對(duì)于實(shí)時(shí)視頻會(huì)話(huà)業(yè)務(wù)場(chǎng)景是難以應(yīng)用的,這些場(chǎng)景需要極低的處理時(shí)延.為了提升語(yǔ)義分割的實(shí)時(shí)性,用于特征提取的骨干網(wǎng)絡(luò)可以采用小而高效的輕量級(jí)網(wǎng)絡(luò)結(jié)構(gòu). BiSeNet[16]為減少計(jì)算量提升運(yùn)算速度加入語(yǔ)義路徑和空間路徑兩個(gè)步驟,力圖實(shí)現(xiàn)速度與精確度的平衡;MobileNetV1[17]網(wǎng)絡(luò)用深度可分離卷積替換掉普通卷積,降低參數(shù)量,提升了速度;MobileNetV2[18]通過(guò)加入殘差結(jié)構(gòu)提升效果,并在子模塊初始部分加入卷積調(diào)整通道數(shù)提升性能與速度.
現(xiàn)階段語(yǔ)義分割在部分特定任務(wù)上已經(jīng)達(dá)到了很好的效果,但語(yǔ)義分割所處的實(shí)時(shí)視頻會(huì)話(huà)背景替換場(chǎng)景與這些特定任務(wù)場(chǎng)景存在明顯的不同,視頻會(huì)話(huà)實(shí)時(shí)背景替換場(chǎng)景中視頻幀率較快并且分割的目標(biāo)在視頻圖像中所占比例較大.本文針對(duì)此場(chǎng)景,以提取視頻會(huì)話(huà)中的人物并達(dá)到實(shí)時(shí)效果為任務(wù),提出了一種深度學(xué)習(xí)背景替換方法.該方法有語(yǔ)義分割以及背景替換兩部分,語(yǔ)義分割部分完成視頻會(huì)話(huà)中人像與背景的分離,該部分中編碼器使用多分支結(jié)構(gòu),每個(gè)分支設(shè)置不同的膨脹率獲取更多的感受野.為更好地提取大目標(biāo),并通過(guò)這種網(wǎng)絡(luò)結(jié)構(gòu)加快分割速度,加入注意力機(jī)制模塊以及空洞卷積金字塔池化模塊提升性能,主要卷積方式為深度可分離卷積提升速度.最后將分割結(jié)果進(jìn)行處理后輸入背景替換部分完成背景替換.實(shí)驗(yàn)結(jié)果表明,本文模型可以很好地完成實(shí)時(shí)背景替換,性能達(dá)到較高的水準(zhǔn).
本文目標(biāo)是實(shí)現(xiàn)視頻會(huì)話(huà)圖像實(shí)時(shí)背景替換,以精準(zhǔn)的分割以及實(shí)時(shí)的處理速度為標(biāo)準(zhǔn),以深度卷積神經(jīng)網(wǎng)絡(luò)為主體搭建背景替換網(wǎng)絡(luò).本節(jié)將詳細(xì)介紹背景替換網(wǎng)絡(luò)的搭建,并對(duì)網(wǎng)絡(luò)的每一模塊進(jìn)行詳細(xì)介紹.
本文設(shè)計(jì)的深度學(xué)習(xí)網(wǎng)絡(luò)模型如圖1所示,整體架構(gòu)采用編解碼結(jié)構(gòu),該結(jié)構(gòu)常被用于語(yǔ)義分割網(wǎng)絡(luò)的搭建.編解碼結(jié)構(gòu)包括編碼端與解碼端兩部分.具體來(lái)說(shuō),編碼端的任務(wù)是在給定輸入圖像后,通過(guò)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)得到輸入圖像的特征圖;解碼端使用由編碼端輸出的特征圖逐步實(shí)現(xiàn)對(duì)視頻圖像中所有像素的標(biāo)簽標(biāo)注,完成分割.在深度學(xué)習(xí)網(wǎng)絡(luò)中,淺層網(wǎng)絡(luò)提取的特征更偏向于局部信息如邊緣紋理等,即淺層特征圖保留的是高分辨率的細(xì)節(jié)信息;深層網(wǎng)絡(luò)提取的特征偏向于全局信息,即高維特征圖保留的是整個(gè)圖像上下文的語(yǔ)義信息.因此為了使圖像的全局語(yǔ)義信息與局部細(xì)節(jié)信息相融合,本文網(wǎng)絡(luò)將淺層模塊輸出的特征圖通過(guò)帶有調(diào)整模塊的跳躍連接后輸出到解碼端.
圖1 實(shí)時(shí)視頻圖像背景替換網(wǎng)絡(luò)
整個(gè)編碼端由4個(gè)部分構(gòu)成:編碼器模塊、注意力模塊、空洞卷積金字塔池化模塊和增益模塊.
1.2.1 語(yǔ)義分割編碼器模塊
編碼器模塊采用3分支結(jié)構(gòu),如圖2所示.分支結(jié)構(gòu)借鑒了MobileNetV2的模塊思路,通過(guò)在不同的分支中使用不同膨脹率的空洞卷積,對(duì)同一特征圖從不同維度上提取特征,增加了上下文信息,并使用殘差結(jié)構(gòu)減少信息的丟失.編碼器第一層為用于調(diào)整通道數(shù)的1×1卷積層,此操作將特征圖通道數(shù)提高,有利于提取到整體的足夠多的信息;第二層為特征提取層,此部分為3×3深度可分離卷積,Stride默認(rèn)為1,網(wǎng)絡(luò)第一次使用某一數(shù)量分支編碼器模塊時(shí)設(shè)置Stride為2,并去掉殘差結(jié)構(gòu),對(duì)特征圖進(jìn)行下采樣;第三層為空洞卷積層,對(duì)同一模塊中各分支依次編號(hào)為1到n,每個(gè)分支根據(jù)編號(hào)設(shè)置不同的膨脹率,速率為2n-1,由于特征圖的維度隨著網(wǎng)絡(luò)的加深而變小,所以編碼器分支由三分支逐漸降為一分支,膨脹率范圍的選取也逐漸變小,由[1,2,4]逐漸降為[1].在不同分支上的輸出串聯(lián)形成一個(gè)包含多尺度信息的特征圖,最后再經(jīng)過(guò)1×1卷積進(jìn)行通道調(diào)整操作,將通道數(shù)降低,以?xún)?yōu)化處理速度.連續(xù)應(yīng)用編碼器模塊捕獲多層信息.
圖2 3分支編碼器模塊
特征圖通道數(shù)較低時(shí),非線(xiàn)性激活函數(shù)會(huì)濾除掉很多有用的信息,因此使用了線(xiàn)性激活函數(shù)代替了非線(xiàn)性激活函數(shù),每個(gè)分支的結(jié)構(gòu)總體是一個(gè)先提升通道數(shù)再降低通道數(shù)的結(jié)構(gòu),這樣既減少了信息的丟失,最終輸出也降低了參數(shù)量.
1.2.2 注意力模塊
注意力模塊用于在特征圖中提取對(duì)當(dāng)前目標(biāo)更關(guān)鍵的信息.分類(lèi)網(wǎng)絡(luò)在全連接層(fully-connected,FC)前加入全局池化層,形成最終的概率向量,進(jìn)而選取關(guān)鍵信息,這是一種典型的注意力模型.借鑒此思路,本文注意力模塊將特征圖先進(jìn)行全局池化后,再使用FC層和1×1卷積層減少通道來(lái)匹配編解碼器輸出的特征圖,然后通過(guò)N×C×1×1編碼向量按照輸入方式與輸入特征圖相乘.注意力模塊結(jié)構(gòu)如圖3所示.
圖3 注意力模塊
1.2.3 空洞卷積金字塔池化模塊
空洞卷積金字塔池化模塊(atrous spatial pyramid pooling,ASPP)是語(yǔ)義分割網(wǎng)絡(luò)中的常用模塊.模塊使用不同的膨脹率分支提取特征圖的多尺度信息,膨脹率的選取相比于編碼器模塊的膨脹率選取范圍更大,旨在獲取更加全面的信息.通過(guò)研究發(fā)現(xiàn)當(dāng)膨脹率接近特征圖分辨率時(shí),3×3卷積由于空洞的填充所覆蓋的區(qū)域已經(jīng)遠(yuǎn)遠(yuǎn)大于特征圖,只有中心區(qū)域能起到作用,其作用本質(zhì)上是一個(gè)1×1卷積,因此ASPP模塊將其直接替換為一個(gè)1×1卷積.同時(shí)加入全局平均池化分支對(duì)特征圖上所有元素進(jìn)行整合.將以上各分支得到的特征圖串聯(lián)輸入到一個(gè)1×1卷積層后,傳入到下一個(gè)模塊中. ASPP結(jié)構(gòu)如圖4所示.
圖4 ASPP模塊
1.2.4 增益模塊
增益模塊位于整個(gè)編碼端的末尾處,該模塊使用深度可分離卷積對(duì)特征圖相鄰像素的特征關(guān)系進(jìn)行提取,以減弱編碼器模塊與ASPP模塊因使用連續(xù)的空洞卷積對(duì)特征圖中信息的連續(xù)性造成的影響.增益模塊結(jié)構(gòu)如圖5所示.
圖5 增益模塊
在輸入上,解碼端有兩種輸入的特征圖,除輸入編碼端輸出的特征圖外還輸入了編碼端中部分模塊輸出的特征圖,這部分特征圖通過(guò)跳躍連接輸入解碼端.在結(jié)構(gòu)上,整個(gè)解碼端由三部分組成,分別為解碼器模塊、調(diào)整模塊、編碼器模塊.
解碼器模塊的作用是通過(guò)上采樣操作將特征圖恢復(fù)到輸入視頻圖像的分辨率.編碼端一共進(jìn)行了4次下采樣操作,需進(jìn)行4次×2操作才能將特征圖恢復(fù)原始視頻圖像分辨率,因此使用了4次解碼器模塊.解碼器中上采樣操作使用了轉(zhuǎn)置卷積的方式,逐漸減少通道,提升分辨率.解碼器模塊結(jié)構(gòu)如圖6所示.
圖6 解碼器模塊
編碼端中第一個(gè)三分支編碼器模塊的輸出特征圖與第一個(gè)兩分支編碼器模塊的輸出特征圖跳躍連接輸入到解碼端,并分別與同分辨率的解碼器輸出特征圖融合傳入解碼端下一個(gè)模塊.本文跳躍連接中編碼端特征圖與解碼端特征圖的結(jié)合方式與以往語(yǔ)義分割網(wǎng)絡(luò)中兩種特征圖直接進(jìn)行結(jié)合的方式不同,本文使用調(diào)整模塊對(duì)兩者進(jìn)行結(jié)合,模塊中加入了深度可分離卷積層進(jìn)一步提取特征圖信息,再與上采樣信息連接在一起,對(duì)提取到的有效信息進(jìn)一步細(xì)化,這一思路借鑒了SharpMask算法[19-20]中的Refinement模塊.調(diào)整模塊結(jié)構(gòu)如圖7所示.
圖7 調(diào)整模塊
調(diào)整模塊的輸出特征圖與解碼器模塊輸出特征圖直接連接后,在上采樣操作恢復(fù)原始圖像尺寸操作前復(fù)用編碼器模塊進(jìn)行特征融合,這樣解決了上采樣操作無(wú)法增強(qiáng)對(duì)臨近值的預(yù)測(cè)問(wèn)題,與編碼端中的編碼器結(jié)構(gòu)不同的是由于在上采樣解碼階段,應(yīng)保持特征圖分辨率不再變小,所以該模塊不再有Stride=2的卷積層.
替換端的作用是完成最終的背景替換操作,將分割好的掩碼圖像與輸入的視頻圖像輸入該模塊,使用OpenCV庫(kù)中的API進(jìn)行處理,首先得到人物在分割好的掩碼圖像中所處的位置,再標(biāo)記到原始視頻圖像中的相同位置,最后將視頻圖像中未被標(biāo)記的像素點(diǎn)用替換背景同位置點(diǎn)代替,完成背景替換操作.
1) Supervisely Person數(shù)據(jù)集[21]包含了5 711張圖像,每張圖像都標(biāo)注了人物的位置,共有6 884人像目標(biāo),每張圖像被分為前景與背景兩部分.
2) Aisegmentation數(shù)據(jù)集[22]是由網(wǎng)絡(luò)公司搜尋的圖像制作而成的數(shù)據(jù)集,數(shù)量為34 427.
3) Adobe deep image matting dataset[23],在該數(shù)據(jù)集中挑選了420張人物分割數(shù)據(jù)集.
4) 由本實(shí)驗(yàn)室人員自行拍攝圖片,進(jìn)行處理后得到的數(shù)據(jù)集,該數(shù)據(jù)集包含了5 982張圖片,分別對(duì)每張圖片中的人物進(jìn)行提取.
本文共收集了46 540張人物圖像,為了獲得更多的數(shù)據(jù)集以增加模型的魯棒性,將已有的圖像進(jìn)行水平方向翻轉(zhuǎn),得到同樣數(shù)量的新圖像加入訓(xùn)練集.將分辨率設(shè)置為256×256,并將圖片按照8∶1∶1的比例分為訓(xùn)練集、驗(yàn)證集、測(cè)試集.
本文網(wǎng)絡(luò)模型選用平均交并比(mean intersection-over-union,mIoU)、圖像處理速度FPS(幀/s)以及像素精確度作為性能指標(biāo).
mIoU為語(yǔ)義分割的標(biāo)準(zhǔn)度量,其計(jì)算所有類(lèi)別交集和并集之比的平均值,這兩個(gè)交集與并集為真實(shí)值和預(yù)測(cè)值,計(jì)算公式如公式(1) 所示:i為真實(shí)值,j為預(yù)測(cè)值,pij表示將i預(yù)測(cè)為j.
(1)
圖像處理速度計(jì)算公式如式(2)所示,N為圖像數(shù)量,t為處理每幅圖像所用的時(shí)間.
(2)
像素精確度(ACC)定義為預(yù)測(cè)正負(fù)樣本像素正確的個(gè)數(shù)的和與總樣本像素總數(shù)的比值,其中FP代表的是正樣本預(yù)測(cè)結(jié)果為正確的數(shù)目; FN代表的是負(fù)樣本被預(yù)測(cè)為正樣本的數(shù)目; TP代表的是正樣本被預(yù)測(cè)為負(fù)樣本的數(shù)目;TN代表的是負(fù)樣本預(yù)測(cè)結(jié)果為正確的數(shù)目,計(jì)算公式如式(3)所示.
(3)
實(shí)驗(yàn)操作系統(tǒng)為Ubuntu18.04,64位操作系統(tǒng),顯卡為NVIDIA GTX1080Ti 和 NVIDIA GTX1060.編譯器設(shè)置為Python3.6.5,使用TensorFlow1.8.0深度學(xué)習(xí)框架作為實(shí)驗(yàn)平臺(tái),并使用自適應(yīng)矩估計(jì)優(yōu)化器進(jìn)行訓(xùn)練,每次迭代24張圖片,共訓(xùn)練200個(gè)Epoch,學(xué)習(xí)率設(shè)置為0.000 075.
本文的分割結(jié)果在速度和精確度上與以MobileNetV2為主干網(wǎng)的Deeplabv3網(wǎng)絡(luò)模型和BiseNet網(wǎng)絡(luò)模型對(duì)比.
2.4.1 網(wǎng)絡(luò)模型整體分析
圖8和圖9給出了本文網(wǎng)絡(luò)模型的mIoU和像素精確度隨Epoch訓(xùn)練輪次增加的變化曲線(xiàn).從實(shí)驗(yàn)結(jié)果可以看出,隨著Epoch的增加,曲線(xiàn)逐漸平滑,mIoU值以及像素精確度維持在一定水平上下浮動(dòng).
圖8 mIoU與Epoch關(guān)系圖
圖9 像素精確度與Epoch關(guān)系圖
2.4.2 網(wǎng)絡(luò)模型性能比較
將語(yǔ)義分割網(wǎng)絡(luò)Deeplabv3以及BiseNet在本文所使用數(shù)據(jù)集上進(jìn)行訓(xùn)練.
本文選用的Deeplabv3網(wǎng)絡(luò)是以MobileNetV2為主干網(wǎng)的,Deeplabv3的作者選用了ResNet[24]作為主干網(wǎng),通過(guò)研究發(fā)現(xiàn)使用ResNet作為特征提取網(wǎng)絡(luò)的模型在圖像細(xì)節(jié)分割效果上要好于使用MobileNetV2的模型,但是在整體的效果上二者分割效果大體相似,由于MobileNetV2使用深度可分離卷積,在顯存占用方面優(yōu)勢(shì)明顯,可被并行處理的圖像數(shù)量增多,其分割速度相對(duì)于ResNet會(huì)有顯著提升.因此本文并未選用以ResNet為主干網(wǎng)的Deeplabv3作為對(duì)比網(wǎng)絡(luò).
在 NVIDIA GTX1080Ti實(shí)驗(yàn)環(huán)境下進(jìn)行訓(xùn)練, mIoU與Epoch之間的關(guān)系如圖8所示,兩個(gè)對(duì)比網(wǎng)絡(luò)以及本文研究網(wǎng)絡(luò)隨著Epoch的增加效果逐漸變好,但是相比之下本文網(wǎng)絡(luò)模型性能要高于另外兩種網(wǎng)絡(luò).在圖9像素精確度曲線(xiàn)圖上可以看到,本文網(wǎng)絡(luò)模型的像素精確度以及BiseNet網(wǎng)絡(luò)像素精確度基本在同一精確度線(xiàn)上下浮動(dòng),并且高于Deeplabv3網(wǎng)絡(luò)像素精確度,但本文網(wǎng)絡(luò)模型的像素精確度曲線(xiàn)浮動(dòng)相較于BiseNet更平穩(wěn),像素精確度更加穩(wěn)定.
在GTX1060實(shí)驗(yàn)環(huán)境中對(duì)訓(xùn)練好的模型在統(tǒng)一的測(cè)試集下查看測(cè)試結(jié)果,如表1所示.本文研究的網(wǎng)絡(luò)的mIoU優(yōu)于BiseNet以及Deeplabv3網(wǎng)絡(luò)模型,雖相較于BiseNet處理速度稍差,但仍然滿(mǎn)足實(shí)時(shí)要求, Deeplabv3在使用MobileNetV2作為主干網(wǎng)后達(dá)到了實(shí)時(shí)分割速率,但其mIoU低于其他兩個(gè)網(wǎng)絡(luò).總體上看,本文所研究的網(wǎng)絡(luò)在性能與速度上達(dá)到了一個(gè)較好的平衡,能夠滿(mǎn)足實(shí)時(shí)背景替換方法的要求.
圖10為本文網(wǎng)絡(luò)模型的語(yǔ)義分割模塊與其他網(wǎng)絡(luò)效果圖比較,本文網(wǎng)絡(luò)相較于另外兩個(gè)網(wǎng)絡(luò)對(duì)邊緣提取更精細(xì),并且提取出的人物并未出現(xiàn)殘缺,得到的分割圖更接近于真實(shí)分割圖.
圖10 語(yǔ)義分割模塊與其他網(wǎng)絡(luò)效果對(duì)比圖
將訓(xùn)練好的模型進(jìn)行測(cè)試,如圖11所示,首先設(shè)置兩個(gè)顯示窗口begin和segmentation,begin窗口用于顯示輸入視頻,segmentation窗口用于顯示背景替換后的視頻.將模型運(yùn)行后結(jié)果進(jìn)行顯示, 從 segmentation 窗口中可以看到背景替換效果圖,并與begin窗口中的顯示進(jìn)行比較,可以看到本文網(wǎng)絡(luò)能將人物與背景相分離,并將背景替換為一個(gè)不相關(guān)的圖片,網(wǎng)絡(luò)模型運(yùn)行處理速度達(dá)到42.5幀/s,性能與速度上都有很好的表現(xiàn).
圖11 背景替換效果演示
本文實(shí)現(xiàn)了一種基于深度學(xué)習(xí)的實(shí)時(shí)視頻圖像背景替換方法,用于實(shí)時(shí)視頻會(huì)話(huà)背景替換,達(dá)到了隱私保護(hù)的目的.此方法對(duì)視頻圖像進(jìn)行特征提取,利用人像的語(yǔ)義信息,使人像與背景相分離,實(shí)現(xiàn)背景替換.該方法不管在已有公開(kāi)數(shù)據(jù)集或本文制作數(shù)據(jù)集上都有不錯(cuò)的效果,在GTX1060這一類(lèi)普通性能的顯卡上運(yùn)行仍然滿(mǎn)足實(shí)時(shí)要求,具有較強(qiáng)的實(shí)際應(yīng)用價(jià)值.但該方法仍有一定的局限性,如在未配置GPU的設(shè)備上的速度仍然無(wú)法滿(mǎn)足實(shí)時(shí),邊緣信息不夠準(zhǔn)確等,因此,在未來(lái)還將進(jìn)一步對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整優(yōu)化.