深度學(xué)習(xí)已經(jīng)在二維目標(biāo)檢測的視覺任務(wù)中取得了顯著的進(jìn)展
,在人臉識(shí)別
、車牌識(shí)別
和視覺目標(biāo)跟蹤
等領(lǐng)域得到充分應(yīng)用。除了二維場景理解,三維目標(biāo)檢測對(duì)于現(xiàn)實(shí)世界的許多應(yīng)用是關(guān)鍵而且密不可分的,例如自動(dòng)駕駛與計(jì)算機(jī)視覺。最近的三維目標(biāo)檢測的方法利用不同類型的數(shù)據(jù),例如單目圖像、RGB-D圖像和3D點(diǎn)云數(shù)據(jù),最普遍使用的3D傳感器是LiDAR(light detection and ranging)傳感器,它能夠形成3D點(diǎn)云,從而來捕捉場景的三維結(jié)構(gòu)
。然而,點(diǎn)云數(shù)據(jù)通常是稀疏的和無序的,如何從不規(guī)則的點(diǎn)中提取出獨(dú)特的特征成為三維目標(biāo)檢測任務(wù)中的關(guān)鍵性挑戰(zhàn)。
根據(jù)特征提取過程中點(diǎn)云的表示形式,可將基于點(diǎn)云的三維目標(biāo)檢測方法分為兩類:基于點(diǎn)的方法(又稱為直接法)和基于網(wǎng)格的方法(包括俯視圖法與體素法)?;邳c(diǎn)的方法
大都采用PointNet或者PointNet++
網(wǎng)絡(luò)中的集合抽象(set abstraction,SA)層對(duì)輸入點(diǎn)云進(jìn)行多層次的局部特征提取。PointRCNN
網(wǎng)絡(luò)和3DSSD
網(wǎng)絡(luò)等都是首先利用集合抽象層對(duì)輸入點(diǎn)云進(jìn)行下采樣之后再進(jìn)行下游任務(wù)的處理。此類方法在處理的過程中充分利用輸入點(diǎn)云的幾何特征,因此其能夠獲得更好的檢測性能。由于此類方法在處理過程中需要堆疊多次下采樣操作和鄰域搜索操作,上述兩類操作的時(shí)間復(fù)雜度分別為
(
)和
(
),使得其特征提取過程需要消耗大量的時(shí)間和計(jì)算資源。基于網(wǎng)格的方法將輸入點(diǎn)云轉(zhuǎn)化為規(guī)則的網(wǎng)格,例如3D體素
或2D俯視(bird’s eye view,BEV)圖
,從而能夠使用3D或者2D CNN提取特征。其中PointPillar
網(wǎng)絡(luò)將點(diǎn)云轉(zhuǎn)化為一個(gè)基于俯視圖的二維網(wǎng)格,使用PointNet提取每個(gè)網(wǎng)格的特征構(gòu)成一個(gè)二維特征圖,將點(diǎn)云壓縮成2D數(shù)據(jù),減少了計(jì)算規(guī)模,可以直接利用二維卷積網(wǎng)絡(luò)進(jìn)行下游任務(wù)的處理。SECOND
網(wǎng)絡(luò)作為體素法,則是將點(diǎn)云轉(zhuǎn)化為三維體素并使用稀疏三維卷積直接提取特征。相比于基于點(diǎn)的方法,體素法僅需利用點(diǎn)云坐標(biāo)將其劃分到對(duì)應(yīng)的網(wǎng)格中,該過程的時(shí)間復(fù)雜度為
(
),不需進(jìn)行復(fù)雜的下采樣和鄰域搜索。雖然體素法會(huì)對(duì)點(diǎn)云進(jìn)行體素特征編碼的預(yù)處理,但是點(diǎn)云是稀疏的,大部分是空體素,稀疏三維卷積的應(yīng)用使得體素法僅需處理少量非空體素,此舉大大提高了其檢測效率。點(diǎn)云處理的過程中帶來了一定的信息損失,使得此類方法的檢測精度通常低于基于點(diǎn)的方法。綜上可得,基于點(diǎn)的直接法通常具有更好的性能,基于網(wǎng)格的方法通常具有更高的檢測效率。因此,在室外交通場景等計(jì)算能力受限的場景中,提高基于網(wǎng)格方法的檢測性能成為近年來的研究熱點(diǎn)。
本文以SECOND網(wǎng)絡(luò)為基準(zhǔn)網(wǎng)絡(luò),提出了一種基于體素的單階段三維目標(biāo)檢測方法Reinforced SECOND,該方法旨在進(jìn)一步提高基于網(wǎng)格方法的檢測精度。為了能夠提高模型提取點(diǎn)云特征的能力,本文對(duì)基準(zhǔn)網(wǎng)絡(luò)中的點(diǎn)云處理方法和各個(gè)子網(wǎng)絡(luò)都進(jìn)行改進(jìn)。
本文的體素特征編碼網(wǎng)絡(luò)在處理點(diǎn)云數(shù)據(jù)時(shí)提高了每個(gè)體素中點(diǎn)的信息保留,自適應(yīng)地增強(qiáng)判別性點(diǎn)的特征以及抑制不穩(wěn)定點(diǎn)。為了能夠進(jìn)一步解決連續(xù)稀疏卷積會(huì)丟失部分原始特征信息的問題,提出殘差稀疏卷積單元,設(shè)計(jì)了殘差稀疏卷積中間網(wǎng)絡(luò)。提出的一種新穎的空間語義特征融合模塊,自適應(yīng)地融合低級(jí)空間特征和高級(jí)抽象語義特征,以提高區(qū)域提議網(wǎng)絡(luò)的穩(wěn)定性和魯棒性。與基準(zhǔn)網(wǎng)絡(luò)相比,本文所提方法在KITTI測試集中的car類和cyclist類的3D檢測精度在中等和困難等級(jí)上取得了不錯(cuò)的結(jié)果,這使得本文方法超越了當(dāng)前的許多方法。
基于點(diǎn)云的三維目標(biāo)檢測方法,一般采用兩種方式從不規(guī)則點(diǎn)云數(shù)據(jù)中提取出特征,第一種是基于點(diǎn)的方法?;邳c(diǎn)的方法由PointNet(++)及其變體提供支持,直接從原始點(diǎn)云中提取特征。
=
(
)+
(
)
將位置回歸分成定位回歸損失
和角度回歸損失
reg-
。其中,本文采用的是角度回歸的正弦誤差損失的角度回歸方式,解決了三維回歸框0和π朝向角的區(qū)分問題,自然地根據(jù)角度偏移函數(shù)對(duì)IoU進(jìn)行建模。角度回歸損失
reg-
的正弦誤差損失定義如下
直接從不規(guī)則點(diǎn)云數(shù)據(jù)中提取出特征,第二種方式根據(jù)一定的分辨率將點(diǎn)云劃分為規(guī)則的連續(xù)的網(wǎng)格,并使用2D/3D CNN網(wǎng)絡(luò)去提取特征。PIXOR
網(wǎng)絡(luò)、ComplexYOLO
網(wǎng)絡(luò)和PointPillars網(wǎng)絡(luò)轉(zhuǎn)換點(diǎn)云為2D BEV數(shù)據(jù),沿著
軸和
軸劃分為小的像素,從而使用手工特征來代表像素特征。以上方法雖然實(shí)現(xiàn)了計(jì)算量的下降,但是將點(diǎn)云壓縮成2D數(shù)據(jù),不可避免的出現(xiàn)特征信息的丟失。另外的方法是將點(diǎn)云沿著
軸、
軸和
軸均勻地劃分為體素網(wǎng)格。早期的VoxelNet
網(wǎng)絡(luò)和MVX-Net
網(wǎng)絡(luò)將3D CNN應(yīng)用于所有劃分的體素,這導(dǎo)致網(wǎng)絡(luò)性能不佳。事實(shí)上,大多數(shù)網(wǎng)格都是空的,對(duì)檢測任務(wù)毫無用處。SECOND網(wǎng)絡(luò)引入稀疏卷積
和子流形稀疏卷積
,避免大量不可用的空體素對(duì)計(jì)算資源的消耗,因此具有更快的推理速度。雖然基于體素的方法在計(jì)算上是高效的,但是在離散化過程中帶來了信息丟失,從而降低了細(xì)粒度的定位精度。本文從點(diǎn)云處理方式和子網(wǎng)絡(luò)上進(jìn)行改進(jìn),最大限度提高模型的特征提取能力。
={
=[
,
,
,
]
∈
},
=1,2,…,
(1)
式中:
表示點(diǎn)云點(diǎn)數(shù),始終滿足
≤
,
表示每個(gè)體素中的最大點(diǎn)數(shù);
表示
個(gè)點(diǎn)的
軸、
軸和
軸坐標(biāo)值
、
、
和反射強(qiáng)度
。
本文方法拋棄原來基準(zhǔn)網(wǎng)絡(luò)的體素特征編碼層,受PointPillars
的啟發(fā),用一個(gè)10維向量來增強(qiáng)表示點(diǎn)
的輸入特征,
、
、
分別表示體素所有點(diǎn)的
軸、
軸和
軸坐標(biāo)的算術(shù)平均值;
、
、
分別表示體素中心點(diǎn)
軸、
軸和
軸坐標(biāo)。每個(gè)體素的輸入特征集合為
-
,
-
,
-
]
∈
},
=1,2,…,
(2)
最后,點(diǎn)云特征被編碼為3D向量(
,
,
),其中
是最小批次中體素的最大數(shù),
是點(diǎn)向量輸入尺寸,本文為10。
本節(jié)主要介紹網(wǎng)絡(luò)結(jié)構(gòu),分為4個(gè)子網(wǎng)絡(luò):①堆疊三重注意力體素特征編碼網(wǎng)絡(luò);②殘差稀疏卷積中間網(wǎng)絡(luò);③空間語義特征融合2D CNN主干網(wǎng)絡(luò);④多任務(wù)檢測頭。圖1給出了Reinforced SECOND的處理過程。該模型將點(diǎn)云作為輸入,并通過體素特征編碼網(wǎng)絡(luò)將它們編碼為體素表示。殘差稀疏卷積中間網(wǎng)絡(luò)提取3D稀疏特征圖,并將
軸信息壓縮為2D BEV特征。2D CNN主干網(wǎng)絡(luò)在這一步實(shí)現(xiàn)了語義和空間特征的魯棒提取。最后,多任務(wù)檢測頭生成檢測結(jié)果。
2.2.1 堆疊三重注意力體素特征編碼網(wǎng)絡(luò)
本節(jié)主要介紹新設(shè)計(jì)的體素特征編碼網(wǎng)絡(luò),稱為堆疊三重注意力體素特征編碼網(wǎng)絡(luò)。體素化后的點(diǎn)云被編碼為3D向量(
,
,
)。受PointPillars的啟發(fā),設(shè)計(jì)了一個(gè)新的體素特征編碼網(wǎng)絡(luò)。但是,在提取每個(gè)體素中的特征前,為后續(xù)操作能學(xué)習(xí)到每個(gè)體素更具識(shí)別能力和魯棒的特征表示。參照TANet
網(wǎng)絡(luò),對(duì)體素特征編碼網(wǎng)絡(luò)引入堆疊三重注意力,它利用了多級(jí)特征注意力。通過聯(lián)合考慮channel-wise、point-wise和voxel-wise注意力,重要的TA模塊增強(qiáng)了每個(gè)體素的關(guān)鍵信息,同時(shí)抑制不穩(wěn)定的點(diǎn)云。圖2給出了TA模塊的結(jié)構(gòu),同時(shí)對(duì)TA模塊算法的具體流程和作用進(jìn)行闡述。
一個(gè)體素網(wǎng)格
包含
個(gè)體素,被定義成
={
,…,
},其中
∈
×
表示體素網(wǎng)格
的第
個(gè)體素。
(1)point-wise注意力。假定體素
,按照通道維度對(duì)體素中的點(diǎn)特征進(jìn)行最大池化操作,得到point-wise特征
∈
×1
,通過下面的操作得到體素
的point-wise注意力
∈
×1
=
(
)
(3)
分?jǐn)?shù)概念的演變經(jīng)歷了四種途徑,隨之相伴的是人們對(duì)于數(shù)系的認(rèn)識(shí)由整數(shù)系擴(kuò)充為了有理數(shù)系.通過對(duì)分?jǐn)?shù)演變順序的分析,本研究提出了其對(duì)分?jǐn)?shù)概念教學(xué)的一些啟示,如教學(xué)實(shí)施的過程應(yīng)分為四個(gè)具體階段,在教學(xué)內(nèi)容中應(yīng)滲透比例思想、等價(jià)類思想,可將“測量”、“除法”兩種分?jǐn)?shù)產(chǎn)生途徑作為數(shù)系擴(kuò)充的重要教學(xué)點(diǎn).
(2)channel-wise注意力。通過最大池化操作,在它們的point-wise維度上聚合通道特性,得到channel-wise特征
∈
1×
,通過下面操作得到體素
的channel-wise注意力
(4)
式中:
∈
×
和
∈
×
表示兩個(gè)全連接層權(quán)重參數(shù);
(·)表示ReLU激活函數(shù)。
=
(
×
)
(5)
堆疊兩個(gè)TA模塊來提取多層特征。第一個(gè)TA模塊直接處理點(diǎn)云的原始特征,第二個(gè)模塊處理高維特征。對(duì)于每個(gè)TA模塊,對(duì)其輸出和輸入執(zhí)行拼接/元素級(jí)和操作以融合更多特征信息,然后通過全連接層獲得高維特征表示。通過堆疊三重注意力模塊后,體素化的點(diǎn)云重新編碼為3D向量(
,
,
),其中
是提取體素特征配置的TA模塊的輸出通道參數(shù),設(shè)置為64。
三重注意力模塊之后,再經(jīng)過全連接層后,使用通道最大池化來提取每個(gè)體素的局部聚合和對(duì)稱特征,得到尺寸為(
,
)的輸出向量。圖3給出了堆疊三重注意力體素特征編碼網(wǎng)絡(luò)的完整流程。最大池化后聚合每個(gè)體素內(nèi)的點(diǎn)來提取尺寸為(
,
)緊湊的特征表示,用不同深淺的紅色表示不同體素的特征向量。根據(jù)體素特征在網(wǎng)格中的原始空間位置對(duì)其進(jìn)行排列,從而得到形狀為
×
×
×
的體素網(wǎng)格特征表示,其中每個(gè)網(wǎng)格包含
維度特征,帶顏色網(wǎng)格與前面的緊湊排列的相同顏色的特征向量一一對(duì)應(yīng),其中空白網(wǎng)格表示的是空的體素。
2.2.2 殘差稀疏卷積中間網(wǎng)絡(luò)
最典型的例子,莫過于“官渡之戰(zhàn)”中,袁紹的謀士許攸離開袁紹,重新選擇曹操。許攸的這一“重選”,徹底改變了袁紹與曹操的個(gè)人命運(yùn),也改變了歷史的走向。合作者“重新選擇”的原因,無非兩條,一是軟環(huán)境,一是硬環(huán)境。具體到許攸,主要是軟環(huán)境出了問題。
簡單堆疊三維稀疏卷積會(huì)丟失大量的前期信息。參照ResNet
網(wǎng)絡(luò),設(shè)計(jì)了殘差稀疏卷積單元。該子網(wǎng)絡(luò)可以利用殘差稀疏卷積網(wǎng)絡(luò)結(jié)構(gòu)變得更深,加快網(wǎng)絡(luò)的收斂速度,提取到更加重要的3D稀疏特征。本文將這種網(wǎng)絡(luò)命名為殘差稀疏卷積中間網(wǎng)絡(luò)。它由一系列稀疏3D卷積(SpConv3D)和殘差稀疏卷積(ResSpConv3D)單元組成。圖4給出了ResSpConv3D單元結(jié)構(gòu),主要由恒等映射和殘差映射組成,其中3×3×3 SpConv3D和1×1×1 SpConv3D分別表示卷積核大小為(3,3,3)和(1,1,1)的稀疏3D卷積。
唯一值得欣慰的是,英戈施塔特為R8 RWS提供了大尺寸的手套箱和座椅后方充足的儲(chǔ)物空間(226升)。加之前部行李箱提供的額外112升的儲(chǔ)物空間,奧迪車主可隨心所欲地駕駛這輛座駕完成任何一段旅行。當(dāng)然,R8 RWS出色的座椅也功不可沒—舒適的坐墊、符合人體工程學(xué)的造型、豐富電動(dòng)調(diào)節(jié)方向以及座椅加熱功能使這輛奧迪跑車顯得格外文明。或許有人會(huì)說,這些配置對(duì)于R8 RWS的身價(jià)來說根本算不了什么,那么不妨將它與價(jià)格是其兩倍的法拉利812 Superfast進(jìn)行對(duì)比。
其中一個(gè)ResSpConv3D單元表示為
(6)
(二)充分發(fā)揮惠農(nóng)資源“粘合劑”功能,有效破解了農(nóng)業(yè)農(nóng)村發(fā)展瓶頸。由于“政擔(dān)銀企戶”財(cái)金互動(dòng)扶貧試點(diǎn)建立了多方合作的機(jī)制,為各方政策接入提供了平臺(tái),多項(xiàng)支農(nóng)惠農(nóng)資金主動(dòng)或被動(dòng)地“粘合”在一起,集中扶持農(nóng)業(yè)農(nóng)村發(fā)展。市縣政府引導(dǎo)當(dāng)?shù)靥厣r(nóng)業(yè)經(jīng)營主體納入財(cái)金互動(dòng)政策的支持對(duì)象,并將原有的多項(xiàng)支農(nóng)資金優(yōu)先投向財(cái)金互動(dòng)支持項(xiàng)目,改變了支農(nóng)政策各自為政、小而散的狀況,形成了政策合力。金融機(jī)構(gòu)將國家原有的扶貧再貸款、支農(nóng)再貸款政策整合起來,用于支持開展合作的信貸擔(dān)保項(xiàng)目,農(nóng)村信貸規(guī)模得到有效拓展。
(7)
+1=
(
)
(8)
殘差稀疏卷積中間網(wǎng)絡(luò)由Block1、Block2、Block3和Block4組成。將每個(gè)Block設(shè)計(jì)為SpConv3D和ResSpConv3D的組合,并使用一系列SpConv3D和ResSpConv3D將點(diǎn)云逐漸轉(zhuǎn)換為1、2、4、8倍下采樣尺寸的特征體。經(jīng)過ToDense層將3D稀疏特征沿
軸堆疊,得到BEV特征圖。圖5給出了殘差稀疏卷積中間網(wǎng)絡(luò)概述。其中淺藍(lán)色立方模塊表示3D稀疏特征圖,給出了它們的大小,同時(shí)給出Block1、Block2、Block3和Block4子模塊的結(jié)構(gòu)。表1給出了殘差稀疏卷積中間網(wǎng)絡(luò)參數(shù)信息。
、
、
代表卷積核大小、步幅大小和填充大小。標(biāo)量以簡單的方式使用,例如對(duì)于
,
=(
,
,
),
代表層的輸出通道數(shù),
代表要應(yīng)用的層數(shù)。其中,ResSpConv3D包含兩個(gè)SpConv3D,都設(shè)置為
=3,
=1,
=1。
2.2.3 空間語義特征融合2D CNN主干網(wǎng)絡(luò)
經(jīng)過殘差稀疏卷積中間網(wǎng)絡(luò),得到的壓縮的BEV特征圖作為區(qū)域建議網(wǎng)絡(luò)的輸入。為了準(zhǔn)確檢測目標(biāo),必須回歸目標(biāo)的精確位置且分辨每個(gè)回歸框作為正/負(fù)樣本,因此考慮到低級(jí)空間特征和高級(jí)的抽象語義特征。當(dāng)堆疊卷積層獲取到高級(jí)的抽象語義特征,會(huì)導(dǎo)致低級(jí)空間特征在最終的特征圖有所下降。因此,簡單堆疊卷積層的BEV特征提取模塊難以獲得具有豐富空間信息的特征。
新設(shè)計(jì)的2D CNN主干網(wǎng)絡(luò)包括兩組卷積群和空間語義特征融合模塊。兩個(gè)卷積群分別稱為空間卷積群和語義卷積群,各自的輸出分別為空間特征和語義特征。圖6為提出的區(qū)域建議網(wǎng)絡(luò)的結(jié)構(gòu)圖。
《南方日?qǐng)?bào)》以及其所屬的南方報(bào)業(yè)傳媒集團(tuán)的黨性是不容置疑的,這從張軍工作服上的黨徽、優(yōu)秀工作人員工位上擺放的“黨群先鋒崗”的標(biāo)識(shí)等細(xì)節(jié)上,就可見一斑。因而,相較其他類型的印刷企業(yè),南方印務(wù)擁有更強(qiáng)的政治責(zé)任。
2.2.4 多任務(wù)檢測頭
在得到空間語義特征融合模塊融合得到的特征圖后,將運(yùn)用3種卷積核大小為1×1二維卷積作用于得到的特征圖,輸出的通道數(shù)分別為
、
和
,表示類別分類、位置回歸和方向分類的輸出通道數(shù)。其中圖6(c)為多任務(wù)檢測頭示意圖。使用多個(gè)不同尺寸的錨框支持多類檢測。本文使用與基準(zhǔn)網(wǎng)絡(luò)相同的值,并遵循KITTI數(shù)據(jù)集基準(zhǔn)的交并比(intersection over union,IoU)的閾值,并采用了與基準(zhǔn)網(wǎng)絡(luò)相同的框編碼函數(shù)。
2.3.1 位置回歸的SmoothL1函數(shù)
F-PointNet
使用PointNet在2D圖像目標(biāo)框裁剪點(diǎn)云完成3D目標(biāo)檢測。PointRCNN網(wǎng)絡(luò)借鑒2D檢測器Faster RCNN
的思想,從整個(gè)點(diǎn)云生成3D建議。3DSSD網(wǎng)絡(luò)最遠(yuǎn)點(diǎn)采樣時(shí),將歐氏度量(3DSSD中稱為D-FPS)和特征度量(3DSSD中稱為F-FPS)融合在一起,彌補(bǔ)下采樣時(shí)不同前景實(shí)例內(nèi)部點(diǎn)的損失。STD
網(wǎng)絡(luò)提出從稀疏到密集的策略優(yōu)化線框提議。VoteNet
網(wǎng)絡(luò)采用霍夫投票進(jìn)行目標(biāo)特征分組。雖然通過PointNet(++)堆疊集合抽象層為點(diǎn)云特征學(xué)習(xí)提供了靈活的感受域,但是三維空間中的點(diǎn)檢索需要巨大的計(jì)算成本,本文所提模型做到了較好的實(shí)時(shí)性。
本課程在中職主要培養(yǎng)的是繪圖員,缺乏系統(tǒng)的專業(yè)理論知識(shí),不能獨(dú)立完成方案設(shè)計(jì)任務(wù)。而在高職培養(yǎng)的學(xué)生是面向初次就業(yè)崗位,具備效果圖表現(xiàn)和初步設(shè)計(jì)能力;強(qiáng)調(diào)方法和手段的運(yùn)用,重在培養(yǎng)基本技能。在普通高校培養(yǎng)的學(xué)生是面向二次就業(yè)崗位及未來發(fā)展崗位,側(cè)重于創(chuàng)意設(shè)計(jì),培養(yǎng)大型方案的綜合設(shè)計(jì)能力,組織與協(xié)調(diào)工作。
reg-
=
(sin(
-
))
(9)
定位回歸損失
定義如下
(10)
式中:下標(biāo)p表示預(yù)測值;下標(biāo)t表示編碼值;
、
和
表示線框中心坐標(biāo);
、
和
分別表示線框的長、寬和高;
表示位置回歸采用的是Smooth L1的損失函數(shù)。
2.3.2 分類的焦點(diǎn)損失函數(shù)
一般在KITTI場景的點(diǎn)云會(huì)預(yù)制多達(dá)70 000個(gè)錨框,然而只有極少的真值標(biāo)注框,每個(gè)只對(duì)應(yīng)4~6個(gè)目標(biāo)框,這就導(dǎo)致前景框數(shù)和背景框數(shù)極不平衡。為解決此問題,引入焦點(diǎn)損失函數(shù),其定義如下
本期“改革開放與舞臺(tái)藝術(shù)”專題聚焦改革開放40年來河南的現(xiàn)代戲創(chuàng)作與演出歷程,刊載的三篇文章,既有研究者對(duì)河南現(xiàn)代戲創(chuàng)作特點(diǎn)的分析及持續(xù)發(fā)展的經(jīng)驗(yàn)總結(jié),從文化環(huán)境、政策導(dǎo)向、創(chuàng)作觀念等視角解析河南現(xiàn)代戲繁榮的原因;也有導(dǎo)演藝術(shù)家結(jié)合具體作品談創(chuàng)作層面的實(shí)踐過程與現(xiàn)代戲美學(xué)追求,對(duì)河南現(xiàn)代戲從學(xué)術(shù)研究與藝術(shù)創(chuàng)作的角度有較為全面的觀照。他山之石,可以攻玉。以期為福建的現(xiàn)代戲創(chuàng)作,尤其是現(xiàn)實(shí)題材現(xiàn)代戲創(chuàng)作提供借鑒與參照。
(
)=-
(1-
)
ln(
)
(11)
式中:
表示樣本屬于真實(shí)類別概率;
和
是焦點(diǎn)損失函數(shù)的超參數(shù),為了和基準(zhǔn)網(wǎng)絡(luò)實(shí)驗(yàn)對(duì)比,采用與基準(zhǔn)網(wǎng)絡(luò)相同的值。
2.3.3 多任務(wù)損失函數(shù)
對(duì)于每個(gè)類別,設(shè)置相同的損失函數(shù)。最終的多任務(wù)損失函數(shù)定義如下
=
+
(
reg-
+
)+
原始的基準(zhǔn)網(wǎng)絡(luò)通過稀疏3D卷積代替?zhèn)鹘y(tǒng)的3D卷積提取點(diǎn)云場景中劃分的體素的特征,這樣大大降低了網(wǎng)絡(luò)的計(jì)算成本。基準(zhǔn)網(wǎng)絡(luò)稀疏卷積中間層網(wǎng)絡(luò)每個(gè)塊都是一個(gè)3D稀疏卷積或者一個(gè)3D子流形稀疏卷積,接著是BatchNorm和ReLU操作。
(12)
式中:
表示分類損失,使用上面提到的焦點(diǎn)損失函數(shù);
和
reg-
表示定位和角度的回歸損失,使用Smooth L1函數(shù);
表示方向分類損失,使用Softmax損失函數(shù);
、
和
表示不同任務(wù)的損失函數(shù)在總體損失中所占的比重。為了和基準(zhǔn)網(wǎng)絡(luò)對(duì)比,本文采用與基準(zhǔn)網(wǎng)絡(luò)相同的損失函數(shù)的常數(shù)系數(shù),
=1.0,
=2.0,
=0.2。
本文以SECOND網(wǎng)絡(luò)作為基準(zhǔn)網(wǎng)絡(luò),嘗試改進(jìn)了其子網(wǎng)絡(luò):改進(jìn)的無注意力機(jī)制的體素特征編碼網(wǎng)絡(luò),記作NoAtten-VFE;堆疊三重注意力的體素特征編碼網(wǎng)絡(luò),記作STA-VFE;殘差稀疏卷積中間網(wǎng)絡(luò),記作ReSpConvNet;空間語義特征融合2D CNN主干網(wǎng)絡(luò),記作SSFF-2DCNN。
The statistical methods used in the present study were reviewed by Professor Konstantinos Triantafyllou,Medical School, National and Kapodistrian University,Athens, Greece who has been trained in biostatistics.
3.病理剖檢。病死雞剖析可見嗉囊充滿積液,盲腸或小腸顯著腫大,比正常腫大2~4倍,外表呈紫紅色,腸腔充滿凝固或新鮮的暗紅色血液,盲腸壁變厚,漿膜層有針尖至米粒大小的灰白色糜爛點(diǎn)和紫色出血點(diǎn)間染,腸腔內(nèi)充滿許多混血內(nèi)容物。
實(shí)驗(yàn)使用的點(diǎn)云
軸、
軸、
軸范圍分別是
=[0 m,70.4 m],
=[-40 m,40 m],
=[-3 m,1 m]。選擇的體素尺寸是
=0.05 m,
=0.05 m,
=0.1 m。因此,生成的體素網(wǎng)格大小是1 408×1 600×40。將
設(shè)置成5,作為每個(gè)體素中的最大點(diǎn)數(shù),同時(shí)
設(shè)置成16 000,作為最小批量中的最大非空體素?cái)?shù)。
訓(xùn)練的整個(gè)網(wǎng)絡(luò)設(shè)置batch size為4,采用RTX 2080 Ti GPU,設(shè)置80 epochs。采用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.003,指數(shù)衰減因子為0.8,每15個(gè)周期衰減一次。使用0.01的衰減權(quán)重,
為0.9,
為0.99。
在訓(xùn)練階段,使用三維目標(biāo)檢測的數(shù)據(jù)增強(qiáng)策略?;鶞?zhǔn)值內(nèi)的點(diǎn)沿
軸方向按[-π
4,π
4]的均勻分布進(jìn)行隨機(jī)旋轉(zhuǎn),以獲得基準(zhǔn)值方位變化。此外,基準(zhǔn)值沿
軸隨機(jī)翻轉(zhuǎn)點(diǎn)云?;鶞?zhǔn)值使用[0.95,1.05]均勻分布的隨機(jī)縮放因子進(jìn)行全局縮放。這些基準(zhǔn)值被隨機(jī)采樣放入原始樣本中,以模擬有多個(gè)對(duì)象的場景。也采用從其他場景中隨機(jī)“粘貼”一些新的基準(zhǔn)值目標(biāo)到當(dāng)前的訓(xùn)練場景中進(jìn)行基準(zhǔn)值采樣增強(qiáng),模擬各種環(huán)境中的對(duì)象。
為了評(píng)價(jià)所提模型的性能,提供消融實(shí)驗(yàn),在訓(xùn)練集上訓(xùn)練模型,并在驗(yàn)證集上驗(yàn)證結(jié)果。為了采用KITTI官方測試服務(wù)器對(duì)測試集進(jìn)行評(píng)估,模型使用訓(xùn)練樣本數(shù)據(jù)的80%對(duì)模型進(jìn)行訓(xùn)練,剩余的20%數(shù)據(jù)用于驗(yàn)證。圖7給出了KITTI驗(yàn)證集上對(duì)于4種場景的定性結(jié)果。通過實(shí)驗(yàn)結(jié)果可以看出,所提出的網(wǎng)絡(luò)達(dá)到了意想不到的檢測效果。KITTI數(shù)據(jù)集中一些未標(biāo)記的對(duì)象也可以識(shí)別;對(duì)遠(yuǎn)處的小目標(biāo)、遮擋嚴(yán)重的目標(biāo)、截?cái)鄧?yán)重的目標(biāo)能達(dá)到較好的識(shí)別效果。同時(shí)為了客觀比較所提方法與其他方法的實(shí)時(shí)性,在本實(shí)驗(yàn)硬件平臺(tái)上對(duì)5種方法在KITTI驗(yàn)證集的3D檢測速度進(jìn)行對(duì)比。
測試集的平均均值精度結(jié)果用官方KITTI測試服務(wù)器上的40個(gè)召回位置計(jì)算。在驗(yàn)證集的運(yùn)行速度,計(jì)算的是單幀檢測時(shí)間/(s·幀
)。表2給出了所提方法在KITTI測試集上的精度性能,其性能優(yōu)于之前的基準(zhǔn)網(wǎng)絡(luò)和許多其他方法。對(duì)于最重要的3D目標(biāo)檢測car類,KITTI測試集上的3D檢測精度在簡單、中等和困難難度級(jí)別上分別比基準(zhǔn)網(wǎng)絡(luò)提升了4.06%,5.85%,8.54%。而且,對(duì)于cyclist類來說,3D檢測精度在簡單、中等和困難難度級(jí)別上分別提升了6.95%,8.9%,8.53%。對(duì)于car類和cyclist類的BEV檢測,本文方法在3個(gè)難度級(jí)別上也優(yōu)于許多基于網(wǎng)格及基于點(diǎn)的方法。本文訓(xùn)練了一個(gè)同時(shí)用于car類和cyclist類檢測的模型,而非基準(zhǔn)網(wǎng)絡(luò)為每個(gè)類別訓(xùn)練一個(gè)模型。
以上實(shí)驗(yàn)說明了網(wǎng)絡(luò)在KITTI測試集上的有效性。在KITTI測試集上檢測精度得到驗(yàn)證,表3給出了5種方法在KITTI驗(yàn)證集中3D檢測速度的對(duì)比。由表3可知,本文所提出的基于體素的方法比PointRCNN、F-PointNet等經(jīng)典的基于點(diǎn)的方法實(shí)時(shí)性更好,相比基準(zhǔn)網(wǎng)絡(luò)SECOND,所提方法檢測速度變化不大。相比于基于點(diǎn)的方法,在處理過程中利用PointNet(++)的集合抽象層進(jìn)行采樣操作以及分組操作需要消耗大量的時(shí)間,本文方法僅需將點(diǎn)云劃分到不同的網(wǎng)格中,不需進(jìn)行復(fù)雜的采樣和分組。稀疏三維卷積僅處理少量的非空體素,大大提升基于體素法的計(jì)算效率。
所有模型都在訓(xùn)練集上進(jìn)行訓(xùn)練,并在KITTI數(shù)據(jù)集的驗(yàn)證集上進(jìn)行評(píng)估。本文使用11個(gè)召回位置計(jì)算平均均值精度,其中car類的旋轉(zhuǎn)IoU閾值為0.7,cyclist類和pedestrian類的旋轉(zhuǎn)IoU閾值為0.5。表4和表5給出了KITTI驗(yàn)證集中消融實(shí)驗(yàn)的3D和BEV檢測性能。表4、5中基準(zhǔn)子網(wǎng)代表的是采用基準(zhǔn)網(wǎng)絡(luò)的子網(wǎng)絡(luò)結(jié)構(gòu)。其中消融實(shí)驗(yàn)的設(shè)置分別以單獨(dú)、兩兩結(jié)合以及總體結(jié)合展示本文改進(jìn)點(diǎn)的貢獻(xiàn)。其中包括3組單獨(dú)實(shí)驗(yàn),2組兩兩結(jié)合實(shí)驗(yàn),1組總體實(shí)驗(yàn)。由于殘差稀疏卷積中間網(wǎng)絡(luò)和堆疊三重注意力體素特征編碼網(wǎng)絡(luò)輸出特征維度關(guān)聯(lián),因此并沒有提供殘差稀疏卷積中間網(wǎng)絡(luò)改進(jìn)點(diǎn)的單獨(dú)實(shí)驗(yàn)。
實(shí)驗(yàn)使用KITTI數(shù)據(jù)集,其中包含7 481個(gè)訓(xùn)練樣本和7 518個(gè)測試樣本。訓(xùn)練樣本又分為訓(xùn)練集(3 712個(gè)樣本)和驗(yàn)證集(3 769個(gè)樣本)。對(duì)car類、cyclist類和pedestrian類3個(gè)類進(jìn)行評(píng)估。KITTI數(shù)據(jù)集根據(jù)圖像平面中邊界框高度、遮擋和截?cái)鄤澐帜P?評(píng)估難度分別為簡單、中等和困難難度級(jí)別。因?yàn)閷?duì)測試服務(wù)器的訪問有限制,所有消融實(shí)驗(yàn)均使用驗(yàn)證集評(píng)估。按照官方KITTI評(píng)估指標(biāo),以平均均值精度(mean average precision,mAP)評(píng)價(jià)3D和BEV檢測結(jié)果。
3.3.1 無注意力機(jī)制的體素特征編碼網(wǎng)絡(luò)的效果
通過與基準(zhǔn)網(wǎng)絡(luò)比較來驗(yàn)證提出的體素特征編碼網(wǎng)絡(luò)的有效性。表4給出KITTI驗(yàn)證集上3D檢測性能,在替換NoAtten-VFE為特征編碼網(wǎng)絡(luò)后,模型在car類、cyclist類和pedestrian類的中等難度級(jí)別平均均值精度分別提升了0.14%、4.93%和3.93%,可見對(duì)占用點(diǎn)云較少的小物體檢測效果提升較好。因?yàn)镹oAtten-VFE引入了10維向量對(duì)point-wise特征進(jìn)行增強(qiáng)表示,新的結(jié)構(gòu)更好地提取voxel-wise特征,雖然小目標(biāo)點(diǎn)云少,但是可以提取出更多特征。
3.3.2 堆疊三重注意力的效果
從表3中可以很清楚地看到主題學(xué)習(xí)模式與基于問題的學(xué)習(xí)模式各有優(yōu)缺點(diǎn),教師可根據(jù)自身是擅長設(shè)計(jì)學(xué)習(xí)活動(dòng),還是擅長提出問題,再結(jié)合實(shí)際情況選擇模式,但不管哪種模式,對(duì)教師的專業(yè)知識(shí)、專業(yè)能力和專業(yè)情意要求都很高。
為了進(jìn)一步提取體素的更具辨別力和魯棒性的特征,在體素特征編碼網(wǎng)絡(luò)引入堆疊三重注意力。同樣在KITTI驗(yàn)證集進(jìn)行評(píng)估,如表4所示,采用STA-VFE模型和采用NoAtten-VFE模型的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,在中等難度級(jí)別下,cyclist類和pedestrian類3D檢測精度分別提升了0.22%、0.39%,同時(shí)car類依然有輕微的下降,下降了0.09%,但是困難難度級(jí)別下的car類確提升0.21%。說明加入堆疊三重注意力增強(qiáng)了體素編碼網(wǎng)絡(luò)對(duì)體素的關(guān)鍵性特征的提取能力。
3.3.3 殘差稀疏卷積的效果
針對(duì)體素特征編碼網(wǎng)絡(luò)引入堆疊三重注意力的改進(jìn),發(fā)現(xiàn)KITTI驗(yàn)證集中car類中等難度級(jí)別3D檢測平均均值精度略有下降。根據(jù)STA-VFE網(wǎng)絡(luò)的輸出特征維度特點(diǎn),設(shè)計(jì)了相應(yīng)的殘差稀疏卷積網(wǎng)絡(luò),嘗試改進(jìn)稀疏卷積網(wǎng)絡(luò)來提高檢測效果。如表4和表5所示,將STA-VFE與ReSpConvNet結(jié)合的模型,與只引入STA-VFE的模型對(duì)比,car類在簡單、中等和困難難度級(jí)別上的3D檢測精度分別提高了0.84%、0.57%和0.4%。同時(shí)BEV檢測精度在不同類的所有難度等級(jí)下都有一定提升。說明了殘差稀疏卷積單元相比普通稀疏3D卷積對(duì)于car類有更好的檢測提升效果。因?yàn)闅埐钕∈杈矸e的短連接結(jié)構(gòu),相當(dāng)于在每個(gè)卷積又加入了上一層特征的全部信息,一定程度上保留了更多的點(diǎn)云原始信息。
俄羅斯一直在緩慢地開發(fā)自主水下載具,同時(shí)進(jìn)口民用和兩用型。迄今俄羅斯開發(fā)了最著名的中型尺寸“大鍵琴”系列自主水下載具。幾個(gè)大型項(xiàng)目正在研發(fā)中,包括:(1) “大鍵琴”-2P-2M,由大型特種任務(wù)宿主潛艇(如“別爾哥羅德”號(hào))運(yùn)載;(2) “代用品”遠(yuǎn)程自主誘騙機(jī),由大型潛艇發(fā)射,用于輔助突破北約反潛防御網(wǎng);(3) 由“紅寶石”設(shè)計(jì)局設(shè)計(jì)的“頭足綱”系列自主水下載具,具有相對(duì)大的船首聲吶,可裝備兩枚輕型魚雷,可執(zhí)行反潛任務(wù)。
3.3.4 空間語義特征融合模塊效果
如表4所示,SSFF-2DCNN在和STA-VFE兩兩結(jié)合,或者與STA-VFE+ReSpConvNet總體結(jié)合的模型,都做到進(jìn)一步提升了各個(gè)類不同難度級(jí)別下的在KITTI驗(yàn)證集3D精度。說明了本文提出的空間語義特征融合模塊能夠有效地融合2D CNN的低級(jí)空間特征和高級(jí)語義特征。
詞人通過將自己的感情經(jīng)歷付諸詩詞,從女性的角度書寫閨中生活的寂寥與無奈,壓抑與無聊。憑欄的狀態(tài)更能表現(xiàn)作者的百無聊賴的心情。登高望遠(yuǎn),卻不見歸人。
3.教師對(duì)現(xiàn)代教育技術(shù)運(yùn)用不熟練。很多教師很少使用多媒體教學(xué),沒有把現(xiàn)代教育技術(shù)與傳統(tǒng)教學(xué)方法有機(jī)融合在一起,取長補(bǔ)短,提高課堂教學(xué)效率。
針對(duì)點(diǎn)云體素化的三維目標(biāo)檢測方法點(diǎn)云的特征提取能力不足的問題,本文提出了一種基于體素的單階段三維目標(biāo)檢測(Reinforced SECOND)方法。改進(jìn)的點(diǎn)云分組方式,對(duì)單個(gè)體素特征實(shí)現(xiàn)更合理的表示,并提出了一種堆疊三重注意力體素特征編碼網(wǎng)絡(luò),該子網(wǎng)絡(luò)增強(qiáng)了體素中對(duì)檢測任務(wù)有著重要貢獻(xiàn)的關(guān)鍵特征,同時(shí)抑制不相關(guān)噪聲特征。提出殘差稀疏卷積單元,設(shè)計(jì)了殘差稀疏卷積中間網(wǎng)絡(luò),保留了3D稀疏特征圖更豐富的信息,解決了連續(xù)卷積會(huì)丟失部分有效信息的問題。在區(qū)域建議網(wǎng)絡(luò)中,提出了輕量級(jí)的空間語義特征融合模塊,實(shí)現(xiàn)自適應(yīng)地融合低級(jí)空間特征和高級(jí)抽象語義特征。在KITTI數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,與以前許多方法相比,本文方法有效提升了三維目標(biāo)檢測性能。
:
[1] 陳科圻,朱志亮,鄧小明,等.多尺度目標(biāo)檢測的深度學(xué)習(xí)研究綜述 [J].軟件學(xué)報(bào),2021,32(4):1201-1227.
CHEN Keqi,ZHU Zhiliang,DENG Xiaoming,et al.Deep learning for multi-scale object detection:a survey [J].Journal of Software,2021,32(4):1201-1227.
[2] 張帆,趙世坤,袁操,等.人臉識(shí)別反欺詐研究進(jìn)展 [J].軟件學(xué)報(bào),2022,33(7):2204-2240.
ZHANG Fan,ZHAO Shikun,YUAN Cao,et al.Recent progress of face anti-spoofing [J].Journal of Software,2022,33(7):2204-2240.
[3] 陳晉音,沈詩婧,蘇蒙蒙,等.車牌識(shí)別系統(tǒng)的黑盒對(duì)抗攻擊 [J].自動(dòng)化學(xué)報(bào),2021,47(1):121-135.
CHEN Jinyin,SHEN Shijing,SU Mengmeng,et al.Black-box adversarial attack on license plate recognition system [J].Acta Automatica Sinica,2021,47(1):121-135.
[4] 孟琭,楊旭.目標(biāo)跟蹤算法綜述 [J].自動(dòng)化學(xué)報(bào),2019,45(7):1244-1260.
MENG Lu,YANG Xu.A survey of object tracking algorithms [J].Acta Automatica Sinica,2019,45(7):1244-1260.
[5] 田永林,沈宇,李強(qiáng),等.平行點(diǎn)云:虛實(shí)互動(dòng)的點(diǎn)云生成與三維模型進(jìn)化方法 [J].自動(dòng)化學(xué)報(bào),2020,46(12):2572-2582.
TIAN Yonglin,SHEN Yu,LI Qiang,et al.Parallel point clouds:point clouds generation and 3D model evolution via virtual-real interaction [J].Acta Automatica Sinica,2020,46(12):2572-2582.
[6] QI C R,LIU Wei,WU Chenxia,et al.Frustum PointNets for 3D object detection from RGB-D data [C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ,USA:IEEE,2018:918-927.
[7] SHI Shaoshuai,WANG Xiaogang,LI Hongsheng.PointRCNN:3D object proposal generation and detection from point cloud [C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway,NJ,USA:IEEE,2019:770-779.
[8] YANG Zetong,SUN Yanan,LIU Shu,et al.3DSSD:point-based 3D single stage object detector [C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway,NJ,USA:IEEE,2020:11037-11045.
[9] YANG Zetong,SUN Yanan,LIU Shu,et al.STD:sparse-to-dense 3D object detector for point cloud [C]∥2019 IEEE/CVF International Conference on Computer Vision (ICCV).Piscataway,NJ,USA:IEEE,2019:1951-1960.
[10] QI C R,LITANY O,HE Kaiming,et al.Deep hough voting for 3D object detection in point clouds [C]∥2019 IEEE/CVF International Conference on Computer Vision (ICCV).Piscataway,NJ,USA:IEEE,2019:9276-9285.
[11] CHARLES R Q,SU Hao,KAICHUN Mo,et al.PointNet:deep learning on point sets for 3D classification and segmentation [C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway,NJ,USA:IEEE,2017:77-85.
[12] QI C R,YI Li,SU Hao,et al.PointNet++:deep hierarchical feature learning on point sets in a metric space [C]∥Proceedings of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY,USA:Curran Associates Inc.,2017:5105-5114.
[13] SHI Shaoshuai,WANG Zhe,WANG Xiaogang,et al.Part-
net:3D part-aware and aggregation neural network for object detection from point cloud [EB/OL].[2021-12-09].https:∥doi.org/10.48550/arXiv.1907.03670.
[14] SINDAGI V A,ZHOU Yin,TUZEL O.MVX-net:multimodal VoxelNet for 3D object detection [C]∥2019 International Conference on Robotics and Automation (ICRA).Piscataway,NJ,USA:IEEE,2019:7276-7282.
[15] YAN Yan,MAO Yuxing,LI Bo.SECOND:sparsely embedded convolutional detection [J].Sensors,2018,18(10):3337.
[16] ZHOU Yin,TUZEL O.VoxelNet:end-to-end learning for point cloud based 3D object detection [C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ,USA:IEEE,2018:4490-4499.
[17] LANG A H,VORA S,CAESAR H,et al.PointPillars:fast encoders for object detection from point clouds [C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway,NJ,USA:IEEE,2019:12689-12697.
[18] SIMON M,MILZ S,AMENDE K,et al.Complex-YOLO:an Euler-region-proposal for real-time 3D object detection on point clouds [C]∥Computer Vision:ECCV 2018 Workshops.Cham,Switzerland:Springer International Publishing,2019:197-209.
[19] YANG Bin,LUO Wenjie,URTASUN R.PIXOR:real-time 3D object detection from point clouds [C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ,USA:IEEE,2018:7652-7660.
[20] REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks [C]∥Proceedings of the 28th International Conference on Neural Information Processing Systems:Volume 1.Cambridge,MA,USA:MIT Press,2015:91-99.
[21] GRAHAM B.Sparse 3D convolutional neural networks [EB/OL].[2021-12-09].https:∥doi.org/10.48550/arXiv.1505.02890.
[22] GRAHAM B.VAN DER MAATEN L.Submanifold sparse convolutional networks [EB/OL].[2021-12-09].https:∥doi.org/10.48550/arXiv.1706.01307.
[23] LIU Zhe,ZHAO Xin,HUANG Tengteng,et al.TANet:robust 3D object detection from point clouds with triple attention [C]∥Proceedings of the AAAI Conference on Artificial Intelligence.Palo Alto,CA,USA:AAAI Press,2020:11677-11684.
[24] HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al.Deep residual learning for image recognition [C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway,NJ,USA:IEEE,2016:770-778.
[25] KU J,MOZIFIAN M,LEE J,et al.Joint 3D proposal generation and object detection from view aggregation [C]∥2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).Piscataway,NJ,USA:IEEE,2018:1-8.