亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分層詞袋模型的室外環(huán)境增量式場景發(fā)現(xiàn)

        2020-08-14 08:33:36陳昊天孫鳳池黃亞樓
        控制理論與應(yīng)用 2020年7期
        關(guān)鍵詞:關(guān)鍵幀離群低層

        陳昊天 ,張 彪 ,孫鳳池 ,黃亞樓 ,苑 晶

        (1.南開大學(xué)計算機學(xué)院,天津 300350;2.南開大學(xué)軟件學(xué)院,天津 300350;3.南開大學(xué)人工智能學(xué)院,天津 300350)

        1 引言

        能夠?qū)λ幁h(huán)境進行感知、建模,是移動機器人自主導(dǎo)航和完成各種操作任務(wù)的重要前提[1–2],隨著移動機器人應(yīng)用領(lǐng)域的持續(xù)擴展,場景認(rèn)知與理解問題備受關(guān)注[3–4].對機器人來說,一個場景是其在一定時間、空間范圍內(nèi)感知到的外部環(huán)境整體.而對于最常見的視覺傳感器而言,機器人獲取的場景信息取決于當(dāng)前的環(huán)境成分外觀以及光照等外部條件,當(dāng)這些因素發(fā)生變化時,意味著場景已經(jīng)改變.為使機器人能夠主動適應(yīng)不同場景的變化,并做出適當(dāng)?shù)姆磻?yīng),需要機器人能夠自主識別當(dāng)前所處場景類型,即場景識別.而對于行駛中的移動機器人來說,從來自視覺傳感器的實時圖像序列中自動發(fā)現(xiàn)新類型的場景,即場景發(fā)現(xiàn),是實現(xiàn)自主場景識別的先決條件.本文中場景發(fā)現(xiàn)的作用類似于機器視覺領(lǐng)域里的場景分割,都是對連續(xù)視頻按照場景屬性進行分段.但是機器人運行時獲取的場景數(shù)據(jù)是持續(xù)增長的,考慮機器人在線運動的特點,實時性也是一個重要指標(biāo).

        在機器人領(lǐng)域,當(dāng)前和場景理解相關(guān)的研究大多集中于場景識別問題.文[5]針對室內(nèi)環(huán)境家庭機器人提出視頻識別技術(shù),結(jié)合了視覺注意模型中的特征圖和空間信息形成圖像特征并進行分類,在保留空間信息的情況下避免了過于復(fù)雜的細(xì)節(jié).文[6]通過自主發(fā)育神經(jīng)網(wǎng)絡(luò)模擬人的思維方式來實現(xiàn)移動機器人對室內(nèi)場景的識別.文[7]利用卷積神經(jīng)網(wǎng)絡(luò)來減少圖像的維度并提取特征,然后通過訓(xùn)練多層感知網(wǎng)絡(luò)來完成場景識別.但上述場景識別流程均是有監(jiān)督的,通過人工標(biāo)注的方式獲得訓(xùn)練數(shù)據(jù),這不僅增加了耗時,而且使機器人不具備對超出標(biāo)注數(shù)據(jù)考慮的場景變化的適應(yīng)能力[8],對移動機器人來說,如能自動地將視頻(外部環(huán)境的連續(xù)圖像)劃分為多個場景,進而對舊場景類別進行無監(jiān)督的識別并實現(xiàn)對新場景的自主發(fā)現(xiàn)至關(guān)重要.

        在機器視覺領(lǐng)域,場景理解也是一個重要的研究熱點,研究人員通過將視頻自動分割成不同鏡頭并提取關(guān)鍵幀完成場景理解.文[9]利用視覺相似度和聚類來完成視頻分割,然后使用序列對比算法進行場景識別.文[10]使用Nystr¨om近似下的多相似譜聚類方法實現(xiàn)快速的影片場景劃分,并增加時間約束,以確保場景劃分在時域上的完整性.上述方法對于固定長度的視頻能夠自主劃分并發(fā)現(xiàn)新的場景類別,但移動機器人采集到的數(shù)據(jù)隨時間不斷增加,并不適合直接采用上述方法.

        詞袋模型(bag of words,BoW)[11]利用基于內(nèi)容的特征來度量圖像之間的相似度,相對于使用低層特征的方法,詞袋模型更容易形成類人的場景類別.文[12]將改進的詞袋模型和改進的雙線性深度信念網(wǎng)絡(luò)(bilinear deep belief network,BDBN)模型進行融合,形成最終的場景判別結(jié)果,該文仍采用了有監(jiān)督方式進行學(xué)習(xí).

        本文所研究的場景發(fā)現(xiàn)是指,移動機器人在自主劃分外部環(huán)境圖像流的同時,實現(xiàn)對舊場景類別的識別和新場景類別的發(fā)現(xiàn),這里舊場景是指在此之前發(fā)現(xiàn)的場景類別而非人工標(biāo)注類別.通過分析室外場景的特性,做出如下合理假定:機器人持續(xù)運動時,在某一段時間內(nèi),所經(jīng)歷的場景屬于同種類型,例如從小樹林到草地,兩段時間內(nèi)經(jīng)歷兩種場景.在此基礎(chǔ)上,本文提出基于分層詞袋模型的室外環(huán)境增量式場景發(fā)現(xiàn)算法,使機器人能夠在無監(jiān)督條件下區(qū)分不同場景,對于某一特定場景,如果它是以前經(jīng)歷過的場景,則直接歸入已有類別;如果它是未知類型的新場景,則賦予其新的場景標(biāo)簽;同時,根據(jù)場景識別結(jié)果劃分圖像流.

        本文在不需要先驗知識(人工標(biāo)注數(shù)據(jù))的無監(jiān)督框架下,一方面,通過分層詞袋模型建立圖像和場景的聯(lián)系,使得場景發(fā)現(xiàn)過程更加類似人類認(rèn)知模式;另一方面,通過增量式聚類方法—–流化親和力傳播算法(streaming affinity propagation,StrAP)[13–15]動態(tài)構(gòu)造分層詞袋模型,使得場景類別設(shè)定擺脫先驗知識的約束,從零先驗知識起步,逐漸發(fā)現(xiàn)新場景.本文在前期工作[16]基礎(chǔ)上,進一步完善了場景發(fā)現(xiàn)算法,并且增加了在公開數(shù)據(jù)集和整段視頻上的實驗.實驗結(jié)果表明,本文算法發(fā)現(xiàn)的場景類別和場景劃分結(jié)果能夠符合人的判斷,并且具有一定的實時性.

        2 分層詞袋模型

        設(shè)I為圖像空間,I1,I2,···,It,···∈I,t ∈N為攝像頭獲取的圖像序列,采集到的圖像隨時間的增長而不斷增加,場景發(fā)現(xiàn)就是要構(gòu)造映射Ft和場景集合序列St:

        其中St{s1,s2,···,sNt}為t時刻的場景集合,si為特定的場景種類或標(biāo)簽,Nt為場景數(shù)量.由于沒有先驗知識,場景的數(shù)量也從0開始不斷增加,其具體類別應(yīng)由模型自動生成. t 時刻的Ft和St取決于當(dāng)前圖像It與之前的Ft?1和St?1.該圖像所對應(yīng)的場景為Ft(It),它可以是舊場景,也可以是新發(fā)現(xiàn)的新場景.

        本文結(jié)合詞袋模型和動態(tài)無監(jiān)督學(xué)習(xí)算法,提出一種基于分層詞袋模型的增量式場景發(fā)現(xiàn)方法,它能夠在沒有場景先驗知識的情況下,通過視覺特征對場景進行建模,增量式地構(gòu)造Ft和St,使機器人能夠完全自主地對環(huán)境進行切分.單層詞袋模型中的詞典由聚類算法生成和更新,其聚類中心稱作關(guān)鍵塊,它是全部圖像塊中最具代表性的分塊.本文算法的分層詞袋模型除了生成和更新低層關(guān)鍵塊外,還包括高層的關(guān)鍵幀,它們是最具代表性的圖像,用以表示場景類別.模型的兩層分別由兩個StrAP算法實現(xiàn).隨著機器人的運動,所獲得的關(guān)鍵塊和關(guān)鍵幀連續(xù)集成到模型更新過程,這種算法機制實現(xiàn)了通過持續(xù)觀測場景來更新、完善模型,從而識別舊場景、發(fā)現(xiàn)新場景并進行場景劃分.分層詞袋模型如圖1所示.

        圖1 分層詞袋模型Fig.1 Hierarchical BoW model

        首先按照如下步驟對攝像頭獲取的圖像進行特征提取:

        1)將圖像以等大柵格進行劃分.

        2)對每個圖像塊,計算它們的低層特征.

        在得到了每一個圖像塊的特征之后,在低層詞袋模型中,根據(jù)它們之間的相似度和StrAP算法生成和更新低層詞典中的關(guān)鍵塊:

        3)利用已有的關(guān)鍵塊和最近鄰分類器對圖像塊進行分類.

        4)如果圖像塊與已有關(guān)鍵塊的距離小于一定閾值,則將其并入該類;否則將其分類為離群塊.

        5)當(dāng)離群塊數(shù)目大于一定閾值時,對所有關(guān)鍵塊和離群塊進行重聚類,得到新的低層詞典和相應(yīng)的新關(guān)鍵塊.

        接下來,利用高層詞袋模型對圖像所屬的場景類別進行判斷和劃分,同時生成和更新高層詞典中的關(guān)鍵幀:

        6)按照低層詞典對圖像塊進行編碼.

        7)對圖像整體提取高層詞袋模型的特征.

        8)使用StrAP算法將當(dāng)前圖像添加到高層詞典中,此時,要么將新圖像識別為已知場景,要么將其作為離群幀,當(dāng)離群幀數(shù)量大于一定閾值時,對關(guān)鍵幀和離群幀重新進行聚類,得到新的高層詞典,形成相應(yīng)新關(guān)鍵幀,發(fā)現(xiàn)新場景.

        分層詞袋模型通過增量式地生成和更新低層和高層詞典,實現(xiàn)了連續(xù)識別舊場景,同時發(fā)現(xiàn)新場景,并根據(jù)場景類別完成圖像流的自主劃分.整個過程都是無監(jiān)督的,不需要任何先驗知識的參與.

        下面對上述3個階段的內(nèi)容進行詳細(xì)闡述.

        2.1 低層特征的選擇

        為了豐富對圖像屬性的刻畫能力,保證分類正確率,本文綜合利用顏色、紋理兩種特征,使用色相–飽和度–亮度(hue-saturation-value,HSV)顏色直方圖[17]計算圖像塊的顏色特征,結(jié)合局部二進制模式(local binary patterns,LBP)紋理直方圖[18]作為完整的低層特征.

        由于直接進行統(tǒng)計的直方圖矢量維數(shù)非常多,導(dǎo)致圖像的顏色信息分散,并且特征矢量包含許多零值,從而降低特征的分辨能力,因此先參照人類顏色感知規(guī)律對HSV的3個分量做等間隔量化,然后再進行統(tǒng)計.具體做法是按照人眼的分辨能力,將色調(diào)空間H分為8個部分,將飽和度空間S和亮度空間V 各分成3部分[17],如式(2)所示:

        上述統(tǒng)計直方圖的特征維數(shù)是72維.最后對于每個圖像塊,將其和最常見的LBP紋理直方圖拼接起來,形成一個完整的81維低層特征向量.

        定義兩個圖像塊特征向量之間的相似度為它們的顏色和紋理直方圖之間的巴氏距離[19]:

        其中H1和H2是兩個圖像塊的特征向量.

        2.2 低層詞袋模型

        考慮到實驗數(shù)據(jù)中圖像尺寸是320×240,選擇40×40的圖像塊進行劃分:

        其中:a為圖像塊邊長,Bt為分割后的圖像塊集合.對每個圖像塊提取前述低層特征得到bit∈Bt,i1,2,···,48,然后將每幅圖像上所有分塊的特征向量順序加入低層詞袋模型,利用StrAP算法增量式地生成和更新低層詞典:

        其中: Ct{c1t,c2t,···,cMtt}為t時刻的低層詞典,?b和Rb為參數(shù).StrAP算法用四元組模型實現(xiàn)聚類,在t時刻,每個四元組中的代表點即為低層詞典中的關(guān)鍵塊cit,i1,2,···,Mt,新數(shù)據(jù)與代表點通過相似度進行關(guān)聯(lián),相似度定義為?d(H1,H2).

        低層詞袋模型的流程如圖2所示,初始時,低層詞袋模型中沒有任何四元組,即低層詞典中沒有任何關(guān)鍵塊,機器人對場景內(nèi)可能出現(xiàn)的圖像塊沒有任何先驗知識.在一段時間內(nèi),新加入的圖像塊均不能與任何關(guān)鍵塊相關(guān)聯(lián),因此將其放入離群塊集合R中.當(dāng)離群塊集合中的圖像塊個數(shù)超過一定閾值Rb時,模型使用StrAP算法對離群塊聚類,得到初始的四元組模型,即低層詞典中產(chǎn)生了初始的關(guān)鍵塊.由于場景在一段時間內(nèi)不發(fā)生變化,雖然低層詞袋模型的參數(shù)不斷更新,但是關(guān)鍵塊不會變化,低層詞典也不會變化,即CtCt?1.

        圖2 低層詞袋模型流程圖Fig.2 Flowchart of the low-level BoW model

        當(dāng)場景發(fā)生變化或出現(xiàn)視覺噪聲,新圖像塊不能與當(dāng)前低層詞典中的關(guān)鍵塊進行關(guān)聯(lián),則將它加入到離群塊集合中.考慮到這些圖像塊可能源于視覺噪聲,所以只有當(dāng)包含相似未知物體的圖像塊數(shù)量足夠多時,才在低層詞典中建立對應(yīng)圖像塊類別的關(guān)鍵塊,即當(dāng)離群塊數(shù)量大于一定閾值?b時,模型用StrAP算法將當(dāng)前關(guān)鍵塊和離群塊進行重聚類,得到新的四元組模型,即形成新詞典和新關(guān)鍵塊.此時,原本不能與詞典中關(guān)鍵塊關(guān)聯(lián)的圖像塊將與新詞典中的某個關(guān)鍵塊進行關(guān)聯(lián),從而使得新詞典適應(yīng)新場景的變化.上述過程實現(xiàn)了在零先驗知識的情況下對低層詞典的生成和更新.

        生成和更新低層詞典的過程也是對圖像塊編碼和特征提取的過程.對每個圖像塊,使用最近鄰分類器得到低層詞典中最近的關(guān)鍵塊,當(dāng)它與該關(guān)鍵塊的距離小于一定閾值?b時,用StrAP算法的融合公式將它融合到該四元組中,并把該圖像塊按照這個關(guān)鍵塊的編號進行編碼;否則,不對它進行編碼.

        根據(jù)圖像塊的編碼提取整幀圖像的高層詞袋模型特征:

        其中:fit為關(guān)鍵塊cit在圖像It中出現(xiàn)的頻數(shù),Mt是詞典Ct的大小.

        StrAP算法的實現(xiàn)方式保證了低層詞典內(nèi)關(guān)鍵塊的有序性,這使得重聚類前后,圖像塊編碼以及對整幀圖像提取的高層詞袋模型特征保持了一定的穩(wěn)定性,但是仍需要對基于舊詞典提取的特征進行修正,否則會造成特征向量維數(shù)不齊.詞典在重新聚類后有兩類變化:一是增加新的關(guān)鍵塊類別,二是合并若干原有關(guān)鍵塊類別.前者是因為機器人遇到了新關(guān)鍵塊而產(chǎn)生的,由于新關(guān)鍵塊在以前的圖像塊沒有出現(xiàn),因此將其頻數(shù)置為0;后者是因為同一物體被過度細(xì)分造成,這使得以前圖像內(nèi)的不同關(guān)鍵塊在后續(xù)圖像中合并為一個關(guān)鍵塊,此時將其頻數(shù)合并.經(jīng)過上述修正后,即使低層詞典發(fā)生變化,低層詞袋模型也能正確地提取整幀圖像的特征.

        2.3 高層詞袋模型

        雖然低層詞袋模型能夠適應(yīng)場景變化,但具有一定滯后性,即當(dāng)場景發(fā)生變化時,整幀圖像將含有許多未編碼的圖像塊.此外,視覺噪聲也會在圖像上產(chǎn)生未編碼圖像塊.為降低未編碼圖像塊對場景發(fā)現(xiàn)的影響,高層詞袋模型僅處理已編碼圖像塊數(shù)量超過一定閾值的圖像,根據(jù)其特征向量生成和更新高層詞典.該詞典仍由StrAP算法實現(xiàn),模型內(nèi)每個四元組中的代表點即為高層詞典中的關(guān)鍵幀.

        高層詞袋模型的流程如圖3所示.與低層詞袋模型類似,初始時,高層詞袋模型中沒有任何四元組,即高層詞典St中沒有任何關(guān)鍵幀,機器人對可能遇到的場景種類沒有任何先驗知識.在一段時間內(nèi),新加入的圖像均不能與任何關(guān)鍵幀相關(guān)聯(lián),沒有舊場景被識別,因此將其放入離群幀集合R′中.當(dāng)離群幀集合中的圖像個數(shù)超過一定閾值Rf時,模型使用StrAP算法對離群幀聚類,得到初始的四元組模型,即高層詞典中產(chǎn)生了初始的關(guān)鍵幀,新的場景類型被發(fā)現(xiàn).由于場景在一段時間內(nèi)不發(fā)生變化,雖然高層詞袋模型的參數(shù)不斷更新,但是關(guān)鍵幀不會變化,高層詞典也不會變化.

        圖3 高層詞袋模型流程圖Fig.3 Flowchart of the high-level BoW model

        當(dāng)場景發(fā)生變化,新圖像不能與當(dāng)前高層詞典中的關(guān)鍵幀進行關(guān)聯(lián),則將它加入到離群幀集合中.當(dāng)離群幀數(shù)量大于一定閾值?f時,模型用StrAP算法將當(dāng)前關(guān)鍵幀和離群幀進行重聚類,得到新的四元組模型,即形成新詞典和新關(guān)鍵幀,新的場景類型被發(fā)現(xiàn).此時,原本不能與詞典中關(guān)鍵幀關(guān)聯(lián)的圖像將與新詞典中的某個關(guān)鍵幀進行關(guān)聯(lián),從而使得新詞典適應(yīng)新場景的變化.上述過程實現(xiàn)了在零先驗知識的情況下對高層詞典的生成和更新,完成新場景的發(fā)現(xiàn).

        生成和更新高層詞典的同時,也完成了對舊場景的識別.對每幅圖像,使用最近鄰分類器得到高層詞典中最近的關(guān)鍵幀,當(dāng)它與該關(guān)鍵幀的距離小于一定閾值?f時,用StrAP算法的融合公式將它融合到該四元組中,并且把該圖像識別為舊場景:

        其中:St為t時刻的高層詞典,也是場景集合;為圖像It的場景標(biāo)簽,it∈N且1itNt,即找到了映射Ft使得

        由于場景內(nèi)物體的多樣性以及采集過程中存在視覺噪聲,圖像有時會被錯分為離群幀,而它們會在下一次重聚類時生成錯誤的關(guān)鍵幀,形成錯誤的場景類別,進而影響場景發(fā)現(xiàn)的準(zhǔn)確度,因此要對離群幀進行特殊處理.基于場景在時間和空間上的連續(xù)性,即機器人持續(xù)運動時,在一段時間內(nèi)所經(jīng)歷的場景屬于同種類型,當(dāng)模型能夠連續(xù)穩(wěn)定識別同一場景時,移除離群幀集合中的離群幀,使它們不會參與到下次重聚類中.

        由于StrAP算法的特點和詞袋模型的誤差,一個場景可能對應(yīng)模型中多個關(guān)鍵幀,此時基于場景的時空連續(xù)性,將同時生成的關(guān)鍵幀映射為同一個新場景類別,一旦關(guān)鍵幀發(fā)生變化,映射關(guān)系也隨之改變.

        3 實驗結(jié)果及分析

        本文使用MATLAB實現(xiàn)了上述場景發(fā)現(xiàn)算法,操作系統(tǒng)為Ubuntu 16.04 LTS,CPU 為i7?6700HQ,在3個室外視頻上進行了實驗,其中:實驗1的數(shù)據(jù)來自公開數(shù)據(jù)集中的多段視頻;實驗2的數(shù)據(jù)由相機采集的多段視頻拼接而成;實驗3的數(shù)據(jù)是相機直接采集的一段完整視頻,也是最貼近實際應(yīng)用的數(shù)據(jù).不同實驗的閾值選擇不同,同一實驗中的閾值選擇相同.

        3.1 公開數(shù)據(jù)集實驗

        第1個實驗的數(shù)據(jù)來源于手工標(biāo)記的國防高級研究項目機構(gòu)“學(xué)習(xí)應(yīng)用于地面車輛”數(shù)據(jù)集[20],是科羅拉多大學(xué)從國防高級研究計劃局(defense advanced research projects agency,DARPA)的野外運行日志中提取和整理出來的幾組公開的視頻片段.

        選擇特點鮮明的3組視頻片段進行實驗,圖像的分辨率為320×240.3組片段的圖像樣本如圖4所示,每個片段100幀,將3個視頻片段重新剪輯拼接成300幀的視頻,其中:1?75幀和276?300幀為片段1的圖像,76?150幀和226?250幀為片段2的圖像,151?225幀和251?275幀為片段3的圖像.

        圖4 實驗1數(shù)據(jù)集中3組片段的圖像樣本Fig.4 Samples from the three parts in the dataset of the 1st experiment

        由本文模型自主發(fā)現(xiàn)的場景有4個,圖5中每一行對應(yīng)一個場景類別,第1列是每個場景在高層詞典中對應(yīng)的關(guān)鍵幀,而后4幅圖像為與該關(guān)鍵幀相關(guān)聯(lián)的圖像樣本.可以看出,不同場景之間存在顯著差異,而在同一場景內(nèi),圖像所包含的內(nèi)容相似,即使它們的拍攝角度不同.

        圖5 實驗1的場景發(fā)現(xiàn)結(jié)果樣本Fig.5 Samples from the scene detection results in the 1st experiment

        3.2 在拼接視頻上進行的實驗

        第2個實驗的數(shù)據(jù)是由PowerShot A630數(shù)碼相機在假山公園采集的多個視頻片段拼接而成,共19951幀,圖像分辨率為320×240,采集頻率為30 幀/s.

        圖6是本文模型中低層詞典所生成的關(guān)鍵塊,可以看出這些關(guān)鍵塊之間差異明顯,不同的物體或者相同物體的不同視覺特征都被劃分不同的關(guān)鍵塊.從圖中可以分辨出樹葉、天空以及不同光照條件下不同類型的地面.圖7展示了與部分關(guān)鍵塊相關(guān)聯(lián)的圖像塊樣本,包括草地、天空、土地、有一定光照的土地、陰影下地面、光照下的草地.每一行對應(yīng)一個圖像塊類別,第1列是每個類別在低層詞典中對應(yīng)的關(guān)鍵塊,而后4個圖像塊為與該關(guān)鍵塊相關(guān)聯(lián)的圖像塊樣本.分層詞袋模型不存儲每個圖像塊,StrAP算法將其余圖像塊的信息歸納在四元組的其他3個參數(shù)中,從而降低了算法的時間和空間復(fù)雜度.圖7中同一行內(nèi)的圖像塊具有一定的相似性,即具有相似視覺觀感的圖像塊將以同一關(guān)鍵塊進行編碼,從而驗證了圖像編碼和高層詞袋模型特征的正確性.

        圖6 實驗2中低層詞典內(nèi)的關(guān)鍵塊Fig.6 Key blocks from the low-level dictionary in the 2nd experiment

        圖7 實驗2中關(guān)鍵塊和圖像塊樣本Fig.7 Samples from key blocks and image blocks in the 2nd experiment

        本文模型中高層詞典內(nèi)的部分關(guān)鍵幀和與之相關(guān)聯(lián)的圖像樣本如圖8所示,包括不同密度的草地、光禿的土地、道路與松樹、布滿光斑的土地以及光暗相間的草地.每行對應(yīng)一個場景,第1列是關(guān)鍵幀.可以看出,本文算法所發(fā)現(xiàn)的場景特點顯著,不同視覺感觀的圖像被區(qū)分開來.

        需要指出的是,場景發(fā)現(xiàn)過程是一個動態(tài)過程,分層詞袋模型內(nèi)的參數(shù)隨著場景的變化而不斷自主調(diào)整,這與其他靜態(tài)的場景劃分和場景識別方法不同.圖9展示了模型中關(guān)鍵塊個數(shù)和場景個數(shù)隨時間變化的關(guān)系.初始時,場景數(shù)量很少,這是由于場景相對穩(wěn)定.但是隨著場景愈發(fā)復(fù)雜和變化愈發(fā)劇烈,新的場景也隨之被發(fā)現(xiàn).

        圖9 實驗2中關(guān)鍵塊、場景的個數(shù)隨時間變化曲線Fig.9 The number of key blocks and scenes the system generated in the 2nd experiment

        3.3 在連續(xù)視頻上進行的實驗

        第3個實驗所用視頻是由PowerShot A630數(shù)碼相機在沿河公園里采集的一整段視頻,時長7分29秒,共13486幀,圖像的分辨率為320×240,采集頻率為30 幀/s.

        圖10是本文模型中高層詞典內(nèi)的關(guān)鍵幀和與之相關(guān)聯(lián)的圖像,它們對應(yīng)了機器人發(fā)現(xiàn)的場景類別.可以看出,在面對各種復(fù)雜的場景時,算法仍然能做出正確的場景發(fā)現(xiàn)與識別.圖10中的8類場景分別包含了陰影中的路面、光照下的草和樹葉、落葉覆蓋的地面、光照強烈區(qū)域、陰影中的草和樹葉、光照下的路面、灌木和路面、房屋.從實驗結(jié)果看出,由于模型采用直方圖特征,新場景的發(fā)現(xiàn)不僅與場景包含的成分有關(guān),而且和它們所占比例也密切相關(guān).此外,外部條件(如光照強弱)也將影響場景發(fā)現(xiàn)結(jié)果.

        圖10 實驗3的場景發(fā)現(xiàn)結(jié)果樣本Fig.10 Samples from the scene detection results in the 3rd experiment

        3.4 算法的定量評價

        圖11是3次實驗中處理每幀圖像所用時間,橫坐標(biāo)為幀數(shù),縱坐標(biāo)為時間,單位為s.圖中高峰值對應(yīng)低層詞典的重聚類過程,需要90~160 ms;低峰值對應(yīng)高層詞典的重聚類過程,耗時在60~80 ms之間;關(guān)鍵塊和關(guān)鍵幀的關(guān)聯(lián)與編碼等過程耗時最低,都在40 ms以下.可以看出,實驗數(shù)據(jù)量的增加并未提高處理每幀的時間,實際應(yīng)用中,用C++語言實現(xiàn)本文算法程序,可以進一步提高計算效率,這保證了本文模型的實時性.

        圖11 3個實驗中每幀的耗時Fig.11 Time cost per frame in the three experiments

        對實驗2的數(shù)據(jù)進行人工標(biāo)注,采用外部評價指標(biāo)調(diào)整蘭德系數(shù)(adjusted rand index,ARI)[21]定量評價場景發(fā)現(xiàn)的結(jié)果,并與靜態(tài)詞袋模型結(jié)果進行對比(見表1),ARI指標(biāo)值越大則算法的場景劃分結(jié)果越貼近人工標(biāo)注結(jié)果.可以看出,在關(guān)鍵塊個數(shù)和場景個數(shù)相同時,分層詞袋模型的ARI指標(biāo)優(yōu)于傳統(tǒng)的靜態(tài)詞袋模型,而且靜態(tài)詞袋模型無法適用于移動機器人在室外的場景發(fā)現(xiàn)任務(wù).

        表1 分層詞袋模型與靜態(tài)詞袋模型的定量比較Table 1 Quantitative comparison between hierarchical and static BoW models

        3.5 閾值分析

        以ARI、關(guān)鍵塊個數(shù)、場景個數(shù)為指標(biāo),對算法中的5個閾值(a,?b,Rb,?f和Rf)進行分析.

        表2為不同圖像塊邊長a下的實驗結(jié)果.隨著邊長的增大,關(guān)鍵塊個數(shù)逐漸下降,這是由于該邊長決定了圖像塊的尺度,尺度越大關(guān)鍵塊的種類越少.在a40時,ARI指標(biāo)達到最大值.

        表2 不同圖像塊邊長a下的實驗結(jié)果Table 2 Experimental results from different side lengths a of image blocks

        表3為不同關(guān)鍵塊間距離閾值?b下的實驗結(jié)果.隨著?b的增大,關(guān)鍵塊個數(shù)和場景個數(shù)逐漸下降,這是由于?b決定了哪些分塊屬于離群塊集合,取值越大,離群塊集合產(chǎn)生的關(guān)鍵塊越少,從而間接導(dǎo)致場景個數(shù)的下降.在?b0.5時,ARI指標(biāo)達到最大值.

        表3 不同關(guān)鍵塊間距離閾值?b下的實驗結(jié)果Table 3 Experimental results from different thresholds ?b of the distance between different keyblocks

        表4為不同離群塊集合大小閾值Rb下的實驗結(jié)果.隨著Rb的增大,關(guān)鍵塊個數(shù)和場景個數(shù)有一定波動,這是由于Rb決定了何時產(chǎn)生新關(guān)鍵塊,并不會對關(guān)鍵塊的數(shù)量有太大影響,但由于每個場景產(chǎn)生的圖像塊數(shù)量是固定的,關(guān)鍵塊的產(chǎn)生時間影響了場景發(fā)現(xiàn)的個數(shù).在Rb80時,ARI指標(biāo)達到最大值.

        表4 不同離群塊集合大小閾值Rb下的實驗結(jié)果Table 4 Experimental results from different thresholds Rb of the size of the keyblock outlier set

        表5為不同幀間距離閾值?f下的實驗結(jié)果.隨著?f的增大,關(guān)鍵塊個數(shù)保持不變而場景個數(shù)逐漸下降,這是由于?f并不影響低層詞袋模型,只決定哪些幀屬于離群幀集合,取值越大,離群幀集合產(chǎn)生的新場景類別越少.在?f0.6時,ARI指標(biāo)達到最大值.

        表5 不同幀間距離閾值?f下的實驗結(jié)果Table 5 Experimental results from different thresholds ?f of the distance between frames

        表6為不同離群幀集合大小閾值Rf下的實驗結(jié)果.隨著Rf的增大,關(guān)鍵塊個數(shù)保持不變,場景個數(shù)略有下降,這是由于Rf并不影響低層詞袋模型,但會影響場景發(fā)現(xiàn)的個數(shù).在Rf50時,ARI指標(biāo)達到最大值.

        表6 不同離群幀集合大小閾值Rf下的實驗結(jié)果Table 6 Experimental results from different thresholds Rf of the size of the frame outlier set

        4 結(jié)論

        本文提出了基于分層詞袋模型的室外環(huán)境增量式場景發(fā)現(xiàn)方法,基于圖像塊,用低層特征動態(tài)生成和更新低層詞典,在高層詞袋模型中,增量式地對圖像進行聚類,并完成場景發(fā)現(xiàn).該算法基于無監(jiān)督學(xué)習(xí)框架,涉及選擇低層特征、建立低層詞袋模型、編碼圖像、建立高層詞袋模型以及完成場景發(fā)現(xiàn)等步驟.最后,分別在3個實驗數(shù)據(jù)集上對算法進行了驗證,實驗結(jié)果表明,本文算法在不需要專家提供先驗知識的前提下,能夠自主獲得可以合理解釋的場景發(fā)現(xiàn)和劃分結(jié)果,且算法具有較好的實時性.

        下一步將在場景發(fā)現(xiàn)研究的基礎(chǔ)上,研究對場景內(nèi)在關(guān)系和總體屬性的理解,為在室外環(huán)境工作的移動機器人進行任務(wù)規(guī)劃、導(dǎo)航和操作提供知識支持.

        猜你喜歡
        關(guān)鍵幀離群低層
        關(guān)于低層房屋建筑工程造價的要點及控制措施探討探索
        基于改進關(guān)鍵幀選擇的RGB-D SLAM算法
        住八樓以上的人,早亡風(fēng)險低
        益壽寶典(2017年34期)2017-02-26 08:27:20
        基于相關(guān)系數(shù)的道路監(jiān)控視頻關(guān)鍵幀提取算法
        離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
        基于聚散熵及運動目標(biāo)檢測的監(jiān)控視頻關(guān)鍵幀提取
        低層高密度住宅設(shè)計探討
        離群的小雞
        論“關(guān)鍵幀”在動畫制作中的作用
        應(yīng)用相似度測量的圖離群點檢測方法
        亚洲欧洲日产国码高潮αv| 中文字幕亚洲精品久久| 亚洲欧美色一区二区三区| 亚洲av久久无码精品九九| 色婷婷色99国产综合精品| 亚洲中文字幕精品久久久| 成人艳情一二三区| 亚洲国产长腿丝袜av天堂 | 国产大片黄在线观看| 亚洲依依成人亚洲社区| 国产精品反差婊在线观看| 久久久精品国产av麻豆樱花| 一本一道vs无码中文字幕| 欧美日韩精品一区二区三区不卡| 亚洲色婷婷综合开心网| av新型国产在线资源| 久久亚洲精品成人av无码网站| 亚洲男人第一av网站| 在线观看极品裸体淫片av| 国产乱码精品一区二区三区久久| 久久久精品人妻无码专区不卡| 国产成人拍精品免费视频| 亚洲男人在线天堂av| 一本色道久久hezyo无码| 国产成人精品av| 亚洲第一免费播放区| 国产三级精品av在线| 精品人妻无码视频中文字幕一区二区三区 | 中文字幕亚洲好看有码| 97人妻中文字幕总站| 日本一二三区视频在线| 漂亮人妻被黑人久久精品| 五月婷婷激情六月开心| 国产精品国产三级第一集| 伊人久久五月丁香综合中文亚洲| 国产在线视频h| 国产激情在线观看免费视频| 日韩人妻无码精品久久久不卡| 精品视频在线观看免费无码| 在线观看二区视频网站二区| 国产精品99无码一区二区|