亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向移動增強現(xiàn)實的實時深度學習目標檢測方法綜述

        2021-09-19 13:55:26高文婷
        圖學學報 2021年4期
        關鍵詞:設備檢測系統(tǒng)

        高文婷,劉 越,2

        (1.北京理工大學光電學院,北京 100081;2.北京電影學院未來影像高精尖創(chuàng)新中心,北京 100088)

        增強現(xiàn)實(augmented reality,AR)是一種將真實世界與虛擬信息融合的技術,通過實時計算攝像機的位姿并融入計算機生成的文字、圖像、三維模型、視頻等虛擬信息實現(xiàn)對現(xiàn)實世界的增強。近年來,AR 技術發(fā)展迅猛,吸引了大量國內外科研人員的目光。移動AR 借助移動設備實現(xiàn)AR 技術應用,具有不限制用戶移動的優(yōu)點。近年來隨著便攜、智能的移動設備快速發(fā)展,特別是谷歌眼鏡、微軟HoloLens,愛普生Moverio BT-300,Magic Leap 等專用 AR 設備的出現(xiàn),強大的開發(fā)工具包(如ARCore 和ARKit 等)、移動設備和傳感器集成性能的改善以及計算機視覺技術的進步和網(wǎng)絡技術的發(fā)展,AR 技術與網(wǎng)絡和各種移動設備的結合使得移動AR 在旅游和導覽、娛樂和商業(yè)、培訓和教育[1]、裝配和維修[2-3]等領域獲得了廣泛地應用。

        構建成功移動AR 應用的關鍵技術之一是實時準確的環(huán)境感知。通過環(huán)境感知可以識別用戶附近需要增強的對象和事件,帶來更好的交互體驗。環(huán)境感知可通過基于深度學習的目標檢測方法實現(xiàn),算法是否能在復雜的場景中穩(wěn)定并準確地對環(huán)境中的物體進行識別直接決定了移動AR 系統(tǒng)的性能。將目標檢測與移動AR 結合,不僅給用戶帶來更方便高效的交互場景體驗,也是一種對技術整合的探索和創(chuàng)新。但由于移動AR 設備的計算能力有限、能耗大、模型尺寸大以及卸載任務到邊緣云端的網(wǎng)絡延遲嚴重等問題,很難將深度學習目標檢測應用在移動AR 中。

        本文就面向移動AR 的目標檢測方法進行綜述。

        1 目標檢測問題

        目標檢測(object detection)是計算機視覺領域的核心問題之一,其任務是找出圖像中的感興趣對象,即以標簽和包圍盒(bounding box)的形式給出類別以及具體位置。目標數(shù)量、目標外觀、形狀和姿態(tài)以及目標成像時的光照條件、遮擋、視角差異等因素都會給目標檢測帶來一定難度。

        傳統(tǒng)的目標檢測算法都是基于人工設計的特征構建的,由于缺乏對圖像的有效表示方法,因而提出了各種復雜的特征表示,采用不同加速方法來利用有限的計算資源。傳統(tǒng)的目標檢測算法主要分為4 個階段對輸入圖像進行目標檢測,其流程如圖1 所示:

        (1) 候選區(qū)域選取。采用滑動窗口的方法以不同的大小和寬高比進行遍歷,并對目標可能所在的區(qū)域進行特征檢測。這種枚舉的區(qū)域選取策略沒有針對性,時間復雜度高,使得窗口冗余問題嚴重,其嚴重影響了后續(xù)特征提取和分類的速度與性能。

        (2) 特征提取。由于目標的外觀、形狀和姿態(tài)各異,同時存在目標成像時的光照條件、遮擋、視角差異等影響因素,使得難以設計出一種魯棒性很強的特征提取策略。常用的特征提取包括哈爾特征(Haar-like features)、尺度不變特征變換(scale-invariant feature transform,SIFT)以及方向梯度直方圖 (histogram of oriented gradient,HOG)等。

        (3) 分類器。對特征進行分類通常采用Cascade (級聯(lián))、支持向量機(support vector machine,SVM)和Adaboost 分類器等。

        (4) 非極大值抑制(non-maximum suppression,NMS)。為了消除檢測得到的多余框,找到目標物體的最佳位置,選取臨近框中分數(shù)最高的框,同時抑制分數(shù)低的框。

        由于基于滑動窗口的區(qū)域選擇策略沒有針對性,導致傳統(tǒng)目標檢測算法的時間復雜度高、效率低;同時手工設計的特征對于多樣性的變化魯棒性較弱,整個檢測過程效率和精度都較低。

        2 深度學習目標檢測算法

        隨著深度學習技術和目標檢測算法的快速發(fā)展,其檢測速度和精度有了大幅提升。深度學習目標檢測的方法主要分為Two Stage和One Stage目標檢測算法。以下對2 類目標檢測算法進行綜述。

        2.1 Two Stage目標檢測算法

        Two Stage目標檢測算法亦稱為基于候選區(qū)域的目標檢測算法,該算法首先對輸入圖像生成一系列候選框,然后對其進行分類和位置回歸,進而得到最終的檢測結果。

        2014 年,GIRSHICK 等[4]提出區(qū)域卷積神經(jīng)網(wǎng)絡(region-based convolutional neural networks,R-CNN),首先采用選擇搜索(Selective Search)算法[5]提取出2 000 個左右候選區(qū)域,然后,將其調整為一個固定大小的圖像(227×227 像素),并輸入到訓練好的卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)中進行特征提取,最后利用SVM分類器和全連接網(wǎng)絡回歸操作對每個區(qū)域內的目標進行預測,進而得到目標類別和位置。R-CNN 的提出為目標檢測問題的解決提供了新的可能性,同時也奠定了Two Stage目標檢測算法的基礎。但其缺點是在候選區(qū)域需進行大量冗余的特征計算使得檢測速度很慢。隨后,GIRSHICK[6]將R-CNN 與空間金字塔池化網(wǎng)絡(spatial pyramid pooling network,SPPNet)[7]的優(yōu)點進行融合,提出的Fast R-CNN[6]只需對整張圖像進行一次卷積層特征提取,再將所有的候選區(qū)域在網(wǎng)絡中某層進行映射,使得目標檢測速度和精度大幅提升。2015 年,REN 等[8]提出Faster R-CNN 檢測器,引入?yún)^(qū)域建議網(wǎng)絡(region proposal network,RPN)代替Selective Search 算法產(chǎn)生候選區(qū)域,將原有的2 000 個左右的候選區(qū)域減少到300 個,在精度和速度上有了進一步地提升。但其在ROI Pooling 層之后的檢測階段存在計算冗余,仍然難以滿足實時性的要求。

        Faster R-CNN 成為Two Stage目標檢測算法的一個里程碑,之后的諸多算法都是在Faster R-CNN的基礎上進行改進得到的。2016 年DAI 等[9]提出了R-FCN,針對分類網(wǎng)絡的位置不敏感性和檢測網(wǎng)絡的位置敏感性之間的矛盾進行改進,分類網(wǎng)絡的位置不敏感性指的是在分類任務中,隨著目標在圖片中的位置移動,檢測器都能準確識別目標類別;檢測網(wǎng)絡的位置敏感性指的是在檢測位置任務中,隨著目標在圖片中的位置移動,檢測器可以準確地輸出目標所在的位置,即對目標位置的移動很敏感。R-FCN 通過提出位置敏感的分地圖(position-sensitive score maps)來權衡分類和定位之間的矛盾。2018年,CAI 和 VASCONCELOS[10]提出的 Cascade R-CNN 可看作是級聯(lián)的Faster R-CNN,每個階段的輸入邊界框是前一階段邊界框的輸出,不斷提高候選框的質量,可解決目標檢測任務中產(chǎn)生大量噪聲的假陽性(將錯誤樣本誤歸為正確目標)問題,有效提高模型的檢測精度。

        在不斷提升Two Stage目標檢測精度的過程中,模型的規(guī)模逐漸增大、但檢測速度的有效提升始終未解決,為了滿足實際應用輕量級和實時性的要求,One Stage目標檢測算法應運而生,該算法舍去了候選區(qū)域提取過程,通過直接回歸的策略有效提升了檢測速度。

        2.2 One Stage目標檢測算法

        One Stage目標檢測算法是基于回歸的目標檢測算法,該算法省略了候選框生成階段,通過直接回歸的策略得到目標的分類結果和位置。

        2.2.1 YOLO 系列算法

        2015 年REDMON 等[11]提出的YOLO (You only look once)系列算法屬于One Stage 檢測器的范疇。YOLOv1 把目標檢測變成一個回歸問題,將整張圖作為網(wǎng)絡的輸入,僅經(jīng)過一個神經(jīng)網(wǎng)絡直接得到位置和所屬類別的概率。YOLOv1 將輸入圖像劃分為s×s個網(wǎng)格,每個網(wǎng)格只負責檢測中心落在該網(wǎng)格的目標,通過設定閾值過濾掉置信度較低的包圍盒,最后通過NMS 確定最終的檢測結果。YOLOv1 的檢測速度較Two Stage目標檢測器大幅提升,但由于每個網(wǎng)格至多預測一個物體,導致其對小目標和鄰近目標的檢測效果不佳。針對該問題,REDMON 和FARHADI[12]提出YOLOv2,網(wǎng)絡通過WordTree 混合檢測數(shù)據(jù)集和識別數(shù)據(jù)集中的數(shù)據(jù),采用一種新的聯(lián)合訓練算法(joint training algorithm)同時在ImageNet 和MS COCO 數(shù)據(jù)集上進行訓練,用巨量的分類數(shù)據(jù)集將檢測種類擴充到9 000 種。YOLOv3[13]在YOLOv2 的基礎上使用DarkNet-53 殘差網(wǎng)絡并結合特征金字塔網(wǎng)絡(feature pyramid networks,F(xiàn)PN)[14]對3 個不同尺度的特征圖進行目標檢測,有效提高了目標檢測、特別是小目標檢測的精確度和檢測速度。

        2.2.2 SSD 系列算法

        2016 年,LIU 等[15]提出的單階段多框目標檢測器(single shot multiBox detector,SSD)目標檢測器沿用了YOLO 中將目標檢測問題轉化為回歸問題的思路。SSD 的核心是設置不同尺度和長寬比的先驗框,提取多尺度特征圖進行檢測,最后幾層卷積對不同尺度的特征圖進行先驗框提取,得到分類和位置結果。由于低層的特征非線性程度不夠,無法訓練到足夠的精確度,對于小目標的檢測效果仍然較差,達不到Faster R-CNN 的水平。之后有學者相繼提出R-SSD[16]和F-SSD[17]對傳統(tǒng)SSD 進行了改進。

        近年來,基于深度學習的目標檢測算法飛速發(fā)展,并針對已有算法的缺陷進行改進,通過將更好的基礎網(wǎng)絡或融合不同特征的卷積層疊加在經(jīng)典的方法(如,F(xiàn)aster R-CNN,YOLO,SSD 等)上,同時使用優(yōu)化技巧來產(chǎn)生有效的變體,以提高改進算法的檢測結果。

        3 移動增強現(xiàn)實的目標檢測解決方案

        移動AR 中目標檢測問題的關鍵在于要求系統(tǒng)能夠準確、實時地檢測出需要增強的目標類別和位置,以確保虛擬物體能夠準確地疊加到真實場景中的正確位置,達到環(huán)境感知的效果,這使得移動AR 中的目標檢測任務與通用目標檢測任務相比,對實時性、準確性有著更高的要求。另一方面,移動AR 的高移動性要求其提供的服務不限制用戶在有限空間內移動,即在各種環(huán)境條件下都能作為移動AR 的功能模塊,準確實時地完成目標檢測任務,為后續(xù)AR 主要任務的完成提供支持。因此,移動AR 中的目標檢測任務會受到本地端計算資源、電源性能以及網(wǎng)絡帶寬等的限制。此外,移動AR 應用中除目標檢測任務需要占用大量計算資源外,跟蹤注冊、渲染等任務也屬于計算密集型任務。移動AR 設備的電源性能、計算性能,網(wǎng)絡性能和目標檢測算法性能都是影響移動AR 中目標檢測性能的重要因素。

        深度學習目標檢測算法在目標檢測任務中表現(xiàn)出優(yōu)越的性能,但其模型規(guī)模龐大,對存儲空間和計算能力要求很高。由于現(xiàn)有的商用移動AR 設備的計算能力不能滿足運行復雜深度學習目標檢測算法時準確性和實時性的要求,因此需要借助移動計算平臺或依靠云端、邊緣端計算。為使深度學習目標檢測算法能夠和移動AR 有效結合,近年來國內外研究人員提出了許多不同的方法和相應的架構,主要可以分為基于本地端、基于云端或邊緣端和基于協(xié)作式的移動AR目標檢測系統(tǒng)3 類。

        3.1 基于本地端的移動增強現(xiàn)實目標檢測系統(tǒng)

        無需網(wǎng)絡通訊,所有目標檢測計算操作全部在本地平臺的移動AR 系統(tǒng)即為基于本地端的移動AR目標檢測系統(tǒng)進行。自從2004 年MOHRING等[18]提出基于手機的AR 應用至今,手機在嵌入式攝像頭、內置傳感器以及強大的處理器等方面都取得了巨大的進步,憑借其便攜、社會接受度高的優(yōu)點已成為移動AR 系統(tǒng)的主要平臺[19-20]。

        TANG 等[21]提出一種戶外詞匯學習移動AR 應用,利用深度學習目標檢測算法識別生活環(huán)境中的日常物品,用戶通過按下對應按鈕,則相應物品的名稱會被系統(tǒng)讀出,用于幫助自閉癥兒童在家庭環(huán)境中學習詞匯以達到早期干預和治療的目的。由于該應用可面向農(nóng)村以及戶外環(huán)境使用,采用離線執(zhí)行任務的方式進行,因此使得其算法的實時性無法得到保證。

        已有研究者通過將深度卷積神經(jīng)網(wǎng)絡模型進行輕量級化操作來保證其目標檢測的實時性。RAO等[22]將SSD 算法進行輕量化操作以便其在移動設備或嵌入式設備上直接運行,結合GPU 和慣性測量單元提出了一種面向地理實體目標檢測的戶外移動AR 系統(tǒng)(圖2)。該系統(tǒng)可對校園內的建筑進行識別,實時計算出邊框和類別信息,為新生或游客提供導覽。通過將原始SSD 網(wǎng)絡結構的前置網(wǎng)絡VGG-16 替換成SqueezeNet[23],并結合一系列附加特征層,模型尺寸減小到約為17.8 MB 左右,有效地減少了計算量。

        圖2 面向地理實體目標檢測的增強現(xiàn)實系統(tǒng)[22] Fig.2 Object detection of geographical entity based on outdoor augmented reality[22]

        該方法所有的計算任務都由用戶的移動設備離線執(zhí)行,因而消除了網(wǎng)絡延遲的影響,并且可以應用在信號條件不受控制的戶外環(huán)境中。但由于該方法提出的輕量級SSD 對原始模型進行了簡化操作以實現(xiàn)輕量化,簡化后的模型在VOC2007 數(shù)據(jù)集上的MAP 僅有53.7%,精確度較低。此外,這種基于應用程序的方法依賴于設備平臺(IPhone 和Android),存在著無法跨平臺運行的限制。盡管以移動手機作為計算平臺的發(fā)展非常迅速,但由于其計算能力十分有限,無法達到實時性和準確性的統(tǒng)一。

        早期有學者提出使用筆記本電腦[19-20,24]作為背包計算平臺,然而其尺寸和重量仍是大多數(shù)用戶接受的障礙。由于筆記本電腦只用于計算分析和調試,因此需要如頭戴顯示器等(head mount display,HMD)額外的顯示設備來進行顯示。

        張少博[25]提出一種基于頭戴式顯示設備和計算機的移動AR系統(tǒng),設計并實現(xiàn)了基于HTC VIVE與魚眼攝像頭的AR 博物館游覽系統(tǒng)(圖3),該系統(tǒng)利用HMD 設備HTC VIVE 和魚眼攝像頭全方位采集用戶所看到的現(xiàn)實環(huán)境并傳給計算機,通過計算機運行基于深度學習的目標檢測算法對收集到的攝像頭畫面進行識別,實時地將對應的虛擬物體疊加至攝像頭所捕捉到的現(xiàn)實環(huán)境中,最后在HMD設備中渲染相應的模型。為實現(xiàn)實時目標檢測,將SSD 與二值神經(jīng)網(wǎng)絡相結合,將SSD模型中的參數(shù)二值化,在保證精度的前提下提升檢測速度并減少內存占用量和模型尺寸。

        圖3 HMD 和計算機的增強現(xiàn)實系統(tǒng)架構[25] Fig.3 The architecture of augmented reality based on HMD and computer[25]

        這種基于HMD 和計算機的AR 系統(tǒng)基本滿足了實時目標檢測,但需要附加一臺計算機以利用其強大的運算能力運行目標檢測算法和渲染場景,不符合移動AR 的要求,給用戶帶來了極大的不便,降低了用戶的體驗感。

        3.2 基于云端/邊緣端的移動增強現(xiàn)實目標檢測系統(tǒng)

        近年來出現(xiàn)了多個利用云端服務器進行云圖像識別的案例[26-28]?;谠贫说腁R 系統(tǒng)能夠彌補移動設備計算能力不足的缺點,然而,使用移動云計算架構會導致核心網(wǎng)絡擁塞和網(wǎng)絡傳輸延遲?;谠贫说腁R 系統(tǒng)會受到任務卸載(將目標檢測任務卸載傳輸至云端或邊緣端執(zhí)行并返回結果)延遲的困擾,包括網(wǎng)絡傳輸延遲和服務器處理時間延遲。由于目標檢測請求的結果需要在短暫的等待后返回,在此期間用戶的視野可能會發(fā)生移動,使得云檢測延遲結果與當前的視圖不匹配,且會由于用戶視圖變化而顯著降低檢測精度,嚴重損害用戶體驗和渲染質量。

        對于這種無法避免的任務卸載延遲,一種思路是移動AR 程序應該正確地處理“過時”的結果;另一種思路是盡量將任務卸載延遲減少到最小。對于第一種思路,要求用戶保持穩(wěn)定,對當前視圖和結果進行粗略匹配,或在延時匹配方案上進行改進。對于第二種思路,寄希望于5G 技術,結合網(wǎng)絡切片[29]、移動邊緣計算[30]等技術解決上述問題。

        ECKERT 等[31]構建了一種用于視力損傷人群的實時目標檢測移動AR 系統(tǒng)(圖4),通過掃描周圍環(huán)境進行環(huán)境感知,以幫助盲人尋找日常生活中的基本物品。該系統(tǒng)通過Hololens 捕捉圖像并將其發(fā)送至獨立服務器中,在服務器端運行YOLOv2 深度學習模型,最后將結果返回Hololens 中。由于系統(tǒng)基于Client/Server 結構構建,需要搭載消費級的GPUs (如NVIDIA Titan X),系統(tǒng)進行目標檢測的響應時間大約為1 s,包括平均網(wǎng)絡傳輸時間627 ms、平均目標檢測時間312 ms 以及平均客戶端處理時間101 ms。

        圖4 用于視力損傷人群的增強現(xiàn)實目標檢測系統(tǒng)架構[31] Fig.4 The architecture of augmented reality for people with visual impairment[31]

        由于該系統(tǒng)基于客戶端/服務器結構搭建,主要的計算任務是在服務器上實現(xiàn)的,因而網(wǎng)絡傳輸延遲時間占總時間成本的60%,同時網(wǎng)絡信號的穩(wěn)定性也會對系統(tǒng)性能造成影響。

        DASGUPTA 等[32]提出一種利用基于深度學習目標檢測算法、AR 設備(如HoloLens)和便攜式物聯(lián)網(wǎng)(Internet of Things,IoT)邊緣計算設備來實現(xiàn)場景理解的框架和方法(圖5),將目標檢測和渲染的任務在硬件層面上分離,以實時實現(xiàn)目標檢測任務,并提出一種應用于裝配維修的場景。系統(tǒng)通過在當前視圖上疊加虛擬箭頭、標簽和對齊虛線等輔助信息并結合目標檢測環(huán)境感知的能力來加快整個裝配過程,方便維護。該方法使用IoT 邊緣攝像機獲取圖像,使用單獨的邊緣設備(如NVIDIA Jetson 邊緣設備或Intel GPU)運行YOLOv3 或GoogleNet 算法用于目標檢測任務,AR 設備(如HoloLens)用于渲染計算。最后將檢測結果即對應標簽通過網(wǎng)絡通信返回AR 組件。使用該方法進行目標檢測任務的總響應時間為0.427 s,其中用于目標檢測的時間為0.347 s。由于目前的AR 設備并不能滿足同時處理渲染和運行深度學習算法的要求,在該系統(tǒng)中單獨的邊緣計算設備負責目標檢測,AR設備只需要根據(jù)檢測標簽接收和顯示必要的反饋即可。

        圖5 基于IoT 設備的增強現(xiàn)實系統(tǒng)架構[32] Fig.5 The architecture of augmented reality based on IoT devices[32]

        上述系統(tǒng)采用IoT 邊緣計算設備來提供計算能力的支持,且網(wǎng)絡延遲較短,但系統(tǒng)的搭建需要額外的IoT 計算設備和攝像機,使得其搭建不夠簡便。

        QIAO 等[33]設計部署了一種5G 網(wǎng)絡環(huán)境下由本地端、邊緣服務器和公共云服務器組成面向Web AR 的移動邊緣計算框架(圖6),旨通過使用標準Web技術結合移動邊緣計算(mobile edge computing,MEC)提供實時、靈活且易于部署的移動AR 服務。基于Web 的移動現(xiàn)實系統(tǒng)解決方案與基于可穿戴設備和移動設備相比,具有無需預先安裝下載應用程序包、使用更加簡便及不受平臺限制的優(yōu)點??紤]到本地端設備計算能力和存儲能力較弱,本地端主要負責Web 服務調度和基礎處理;邊緣服務器承擔大部分的計算任務,并將當前性能參數(shù)(包括CPU、內存和存儲使用情況等)發(fā)送至公共云服務器,以便Web AR 應用程序進行部署的決策制定。與3G 和4G 網(wǎng)絡相比,5G 網(wǎng)絡的延遲和帶寬占用問題得到緩解,邊緣服務器較云端服務器離用戶端更近,且計算能力更強,因此MEC 技術的引入有望進一步優(yōu)化網(wǎng)絡資源的利用,大幅降低網(wǎng)絡延遲,提高移動AR 等應用程序的性能。

        圖6 Web AR 的移動邊緣計算框架[33] Fig.6 Mobile edge computing framework for Web AR[33]

        雖然MEC 技術的引入使得網(wǎng)絡延遲不再是移動AR 的瓶頸,然而完全將計算密集型任務卸載給邊緣服務器會浪費本地端上空閑的計算資源,且邊緣服務器的計算成本比較昂貴,網(wǎng)絡環(huán)境的不穩(wěn)定以及不可避免的數(shù)據(jù)傳輸延遲也會影響用戶體驗。針對上述問題,有學者提出基于協(xié)作式的移動AR目標檢測系統(tǒng)。

        3.3 基于協(xié)作式的移動增強現(xiàn)實目標檢測系統(tǒng)

        基于協(xié)作式的AR目標檢測系統(tǒng)指的是通過劃分深度學習模型實現(xiàn)分布式計算,本地端、邊緣端或云端均承擔部分計算任務的系統(tǒng)。

        分區(qū)卸載是進行協(xié)作式任務中比較經(jīng)典的方法。Neurosurgeon[34]針對移動設備,通過自動選取分區(qū)點提前在移動設備上部署分區(qū)深度神經(jīng)網(wǎng)絡(deep neural networks,DNN)模型,使得延遲和能耗最小。Edgent[35]自適應地將DNN 計算劃分在設備和邊緣服務器之間的DNN 分區(qū),利用相鄰的混合計算資源進行實時的DNN 推理,同時利用提前退出機制[36]來加速DNN 推理,從而進一步降低計算延遲。McDNN[37]通過生成性能和能耗的替代DNN模型,研究在云或在移動設備上執(zhí)行的智能協(xié)作。

        LIU等[38]提出了一種邊緣協(xié)作式實時目標檢測AR方案,將渲染流程從任務卸載流程中分離出來,通過無線網(wǎng)絡將用于本地跟蹤和渲染的移動設備和用于目標檢測的邊緣云進行連接。為了隱藏目標檢測任務卸載造成的延遲,該方案將渲染過程和CNN 卸載過程分開為2 個獨立的流程,在等待目標檢測結果的同時本地開始對上一幀的結果進行跟蹤和渲染,然后在得到檢測結果后將其合并到下一幀圖像中。此外,該系統(tǒng)還通過采用動態(tài)ROI 編碼技術降低幀內背景區(qū)域的編碼質量以降低帶寬消耗,減少了卸載延遲(圖7,8)。實現(xiàn)結果表明,該系統(tǒng)在AR 設備上跟蹤目標僅需2.24 ms 的延遲時間,總延遲在20 ms 以下,因此可留下更多的時間和計算資源來為下一幀渲染虛擬元素,從而獲得更高質量的AR 體驗。

        圖7 邊緣計算延遲分析[38] Fig.7 Latency analysis off mobile edge computing[38]

        圖8 邊緣協(xié)作式實時目標檢測增強現(xiàn)實系統(tǒng)架構[38] Fig.8 Architecture of edge assisted real-time object detection for augmented reality[38]

        HUANG 等[39]提出了面向Web AR 的輕量級協(xié)作式識別系統(tǒng),并設計了一個復合神經(jīng)網(wǎng)絡,通過引入二值神經(jīng)網(wǎng)絡[40]和提前退出機制[36]來減小模型大小,減少內存使用,以便在本地端上運行,若本地端的運行結果可滿足要求,則直接輸出結果;否則,將特征圖傳遞至邊緣服務器,運行完整的目標檢測模型來彌補二值分支的不足,并返回結果(圖9)。該系統(tǒng)通過這種本地端與邊緣端協(xié)作的方式提高了檢測的速度和準確度,減少了延遲帶來的影響。

        圖9 Web AR 協(xié)作式增強現(xiàn)實目標檢測系統(tǒng)架構[39] Fig.9 Architecture of edge-assisted object detection for Web AR[39]

        REN 等[41]針對公共云端、邊緣端和移動Web瀏覽器之間協(xié)作的細粒度進行自適應DNN 劃分,通過基于深度強化學習的分布式DNN 協(xié)作算法實現(xiàn)將密集型計算分配至邊緣服務器,提出了一種針對邊緣服務器的DNN 計算調度方法(圖10)。

        圖10 分布式DNN 協(xié)作式增強現(xiàn)實目標檢測系統(tǒng)架構[41] Fig.10 Architecture of edge-assisted distributed DNN collaborative computing approach for mobile Web AR[41]

        總之,由于硬件的限制,少有商用移動AR設備(穿戴式AR 設備或智能手機等)直接應用深度學習方法進行目標檢測。計算能力不足、能耗大、網(wǎng)絡延遲高、DNN模型尺寸大以及跨平臺限制等問題是影響移動 AR 實時目標檢測系統(tǒng)廣泛應用的重要因素,距離達到實時性和準確性統(tǒng)一的真實需求有很大差距。因此,將深度學習目標檢測算法應用到移動AR 中還需要進一步研究與發(fā)展。表1 為移動AR目標檢測系統(tǒng)性能對比。

        表1 移動增強現(xiàn)實目標檢測系統(tǒng)性能對比 Table 1 Performance comparison of representative object detection for mobile augmented reality

        4 總結與展望

        移動AR 可將虛擬模型實時地渲染到真實環(huán)境中實現(xiàn)對現(xiàn)實的增強。目標檢測承擔了對環(huán)境中需要增強的物體進行檢測和識別的功能,為移動AR在各個領域的應用提供了新的可能性。本文分析了移動AR 實時目標檢測中的核心問題和關鍵技術,從Two Stage 和One Stage 的2 個方面對目前深度學習目標檢測算法進行綜述,分析了基于本地端、基于云端或邊緣端和基于協(xié)作式的移動AR目標檢測系統(tǒng)并總結了各自的優(yōu)勢和局限性。

        深度學習的應用使得目標檢測效果實現(xiàn)了極大地提升,深度學習模型中復雜的網(wǎng)絡結構包含著大量的參數(shù),需要極大的存儲空間、運行空間和高級的硬件配置才能完成檢測任務,距離達到實時性和準確性統(tǒng)一的要求有很大差距。為了使移動AR 系統(tǒng)能夠實現(xiàn)準確、實時的目標檢測,迫切需要優(yōu)化深度學習目標檢測算法,將其進行輕量化處理,提高目標檢測算法的精度和速度,在實時性和準確性之間得到最優(yōu)的權衡。近年來國內外研究者人員陸續(xù)提出許多輕量級模型算法,文獻[42-44]提出了MobileNet 系列目標檢測算法,通過深度可分離卷積來有效減少計算量。ZHANG等[45]提出 ShuffleNet,通過通道交換(channel shuffle)將分組卷積的結果重新排序,在保證準確率的同時減少計算量。除此之外,研究人員還提出SqueezeNet[23],ThunderNet[46],YOLO Nano[47],Gaussian YOLOv3[48]等輕量級模型,以及模型剪枝、網(wǎng)絡量化和知識蒸餾等模型壓縮的方法。如何進一步改進和優(yōu)化輕量級模型,對網(wǎng)絡進行高效地壓縮和加速,推動其落地應用并使其能夠在移動設備上穩(wěn)定運行,以滿足移動AR 實際應用需求是下一步亟待解決的問題。

        穿戴式計算設備的移動AR 系統(tǒng)昂貴且笨重,應用程序的移動AR 需要提前下載和安裝,且具有跨平臺的限制,這些局限性使得移動AR 的普及和廣泛應用受到限制。移動Web AR方案不失為一種輕量級、跨平臺且低成本的方案。然而如何解決Web 瀏覽器存在的計算效率低、交互延遲大等問題是應用移動Web AR 的關鍵。

        雖然在計算卸載、協(xié)作計算等技術方面有了快速進展,但為減少網(wǎng)絡環(huán)境的影響、提高用戶體驗,很多移動增強設備都被設計成在本地端運行。5G時代將帶來更快的數(shù)據(jù)傳輸速度和更低的通信延遲。邊緣計算是5G 的核心技術之一,在靠近接入側的邊緣機房部署網(wǎng)關、服務器等設備,增加計算能力,降低時延業(yè)務和局域性數(shù)據(jù)等在邊緣端進行處理和傳輸,無需通過傳輸網(wǎng)返回核心網(wǎng),進而降低時延、減少回傳壓力、提升用戶體驗。然而完全將計算密集型任務卸載至邊緣服務器會浪費本地空閑的計算資源,且網(wǎng)絡環(huán)境不穩(wěn)定等不可控因素也會使得系統(tǒng)性能下降。通過采用協(xié)作式目標檢測方案,如本地端+邊緣端或本地端+邊緣端+公共云等協(xié)作式工作模式,根據(jù)本地端計算能力、電量使用以及網(wǎng)絡環(huán)境等因素動態(tài)做出最優(yōu)調度決策,在減輕本地端計算壓力的同時使得其計算資源得以利用,在實時性和準確性之間達到最優(yōu)權衡。因此,如何在動態(tài)環(huán)境下做出協(xié)作式?jīng)Q策方案,滿足移動AR 的實際需求是未來非常關鍵的研究方向。

        猜你喜歡
        設備檢測系統(tǒng)
        諧響應分析在設備減振中的應用
        Smartflower POP 一體式光伏系統(tǒng)
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        WJ-700無人機系統(tǒng)
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        基于MPU6050簡單控制設備
        電子制作(2018年11期)2018-08-04 03:26:08
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        小波變換在PCB缺陷檢測中的應用
        一区五码在线| 日韩精品一区二区三区乱码| 亚洲大尺度无码无码专区| 国产精品亚洲欧美大片在线看| 色狠狠av老熟女| 97日日碰日日摸日日澡| 亚洲大胆视频在线观看| 国产精品国产三级国产av品爱| 五级黄高潮片90分钟视频| 一道久在线无码加勒比| 亚洲性无码av在线| 国产精品亚洲精品日韩动图| 五月婷婷丁香视频在线观看| 亚洲一区二区三区偷拍厕所| 精品无码av一区二区三区 | 欧洲人妻丰满av无码久久不卡| 日本a在线播放| 亚洲精品国产av成拍| 国产香蕉一区二区三区在线视频| 人成午夜大片免费视频77777| 中文字幕乱偷无码av先锋蜜桃| 国产第一页屁屁影院| 亚洲国产成人无码影院| 国产亚洲AV片a区二区| 日本高清成人一区二区三区| 9久久婷婷国产综合精品性色| 亚洲国产精品成人久久| 色婷婷综合中文久久一本| 国产中文久久精品| 中文国产乱码在线人妻一区二区| 午夜无码一区二区三区在线观看| 亚洲精品国产suv一区88| 成 人 网 站 免 费 av| 久久国产国内精品对话对白| 国产av麻豆精品第一页| 亚洲av久播在线一区二区| 国产成人精品a视频一区| 久久永久免费视频| 宅宅午夜无码一区二区三区| 久久精品国产亚洲av一般男女| 亚洲午夜精品一区二区|