崔文飛,邊東巖,王會峰,武澤鍵,楊文光
(1.長安大學電子與控制工程學院,陜西 西安 710064;2.濮陽市高級技工學校,河南 濮陽 457000)
建立交通場景樣本庫對無人車進行駕駛場景測試,是測試無人車信息感知系統(tǒng)靜態(tài)穩(wěn)定性與安全性的基礎環(huán)節(jié)之一。建立交通場景樣本庫,需要對不同的交通情況分類,而采集圖像數據過程中不可避免地存在車輛靜止(等待交通信號燈、交通擁堵等情況)和車速較低(車輛起步)時采集到的大量相似圖像。龐大的冗余圖像數據沒有很高的價值,故應在場景分類前對現有交通場景庫進行去重操作。
圖像去重算法可以分為2類:一類基于傳統(tǒng)密碼學的圖像去重;另一類基于感知哈希的圖像去重[1]。文獻[2-8]通過不同的方法提取整幅圖像的特征,生成不同序列實現圖像去重。文獻[9]通過對圖像分塊計算每塊圖像DCT系數,最終量化為哈希序列。
基于以上研究,本文針對交通場景下的相似圖像去重問題,提出了一種基于超像素分割下感知哈希的交通場景圖像去重算法。
圖像的超像素分割是一種將圖像分割為多個超像素區(qū)域,每個區(qū)域內顏色、紋理等特征相似,在圖像視覺方面廣泛應用的預處理步驟[10]。這些圖像區(qū)域保留了該區(qū)域的有效信息,不會對整個圖像的視覺表達產生影響。
相關的計算公式為
(1)
dc為顏色距離,是圖像Lab顏色空間下的像素點間的距離;l,a,b分別為圖像Lab顏色空間下的各個分量;ds為空間距離;x,y分別為圖像空間坐標系下的坐標分量;D為最終的距離度量;Nc為最大顏色距離,這里取Nc=10。
圖1和圖2分別為交通場景原圖像和取超像素個數K為200的圖像。
圖1 原圖像
圖2 超像素分割后的圖像
由于超像素的性質是把一些具有相似特性的像素“聚合”起來,形成一個更具有代表性的大“元素”[13],在計算得到超像素分割后的圖像后,對圖像灰度化[14]。計算每個超像素塊的像素均值序列化后作為圖像的像素特征;選擇其中1個像素作為超像素塊的描述,所有像素描述組合作為整幅圖像的描述。在此基礎上進行DCT變換,按照特定的順序對系數編碼生成圖像的感知哈希序列,并作為圖像DCT特征。圖像感知哈希算法如圖3所示。
圖3 圖像感知哈希算法
經過超像素分割后,計算出每個超像素區(qū)域的均值,從而獲得區(qū)域圖像像素的均值特征矩陣。從矩陣左上角開始,按照從左到右、從上到下的順序依次排列,進而將矩陣轉化為一個特征向量MPix,稱為均值特征向量。整個圖像的像素均值記為MAPix,以此對均值向量量化為M。公式為
(2)
對經過預處理的圖像描述集合進行DCT變換,獲得圖像的DCT系數矩陣Ceof。在圖像信號變換中,DCT變換是一種準最佳變換[15]。其變換矩陣的基向量能很好地描述圖像信號的相關特征。
交通圖像原圖像和DCT譜系數如圖4所示。由圖4b可知,集中在圖像左上角的點亮,而右下角的點暗,圖中的點越亮代表有效信息占據越大。因此,可認為與圖像有關的重要可感知信息都集中在DCT變換后系數的左上角部分,而且呈往右下角擴散的順序遞減[16]。
這里包含的控制變量有人口總量,實際GDP總量,人均實際GDP和貿易量。需要注意的是,由于金融發(fā)展水平的內生性,我們不排除經濟增長對金融發(fā)展的潛在反饋機制,同時已有文獻提出通貨膨脹與金融發(fā)展具有一定聯(lián)系[17],所以經濟增長率(GDP growth)和通貨膨脹(Inflation)也作為控制變量加入模型。
圖4 原圖像與DCT譜系數圖像
選取系數矩陣Ceof中從左上角開始,按Zigzag模式[17]順序如圖5所示掃描整個圖像描述集,得到特征系數序列F,通過特征系數矩陣表達整幅圖像,以代表圖像的信息。
圖5 Zigzag 模式
計算系數矩陣Ceof的均值gAvg,即
(3)
將整個系數矩陣中大于等于gAvg的記為1,小于gAvg的記為0,最終得到圖像的DCT特征感知哈希H為
(4)
采用Jaccard距離[18]作為比較2個感知哈希序列值之間相似性的一種度量。用D(x,y)表示2副圖像的感知哈希序列x(x1,x2,…,xn)和y(y1,y2,…,yn)的Jaccard距離。統(tǒng)計序列x和y中同為0的個數記為M00;統(tǒng)計序列x為1,序列y為0的個數記為M10;統(tǒng)計序列x為0,序列y為1的個數記為M01;統(tǒng)計序列x和y中同為1的個數記為M11,則有
(5)
通過上述公式分別計算圖像均值特征M和DCT系數特征H的Jaccard距離,并記為D1和D2。根據權重確定2種特征對圖像相似度做的貢獻,則有
D(x,y)=θ1×D1+θ2×D2
(6)
其中,θ1+θ2=1,計算出2幅圖像間的D(x,y)越大,表示它們的相似度越小。通過設置合理的閾值T來區(qū)別相同及相似圖像:當D(x,y)≥T,則表示2幅圖像不同;當D(x,y) 圖6 圖像去重過程 測試機器的CPU為2.6 GHz Intel Core i5,內存為6 GB,采用Windows10系統(tǒng)和MATLAB 2019。基于交通場景的相似圖像去重算法流程主要包括2個部分: a.感知哈希的構造過程。在實際去重過程中先提取歸一化后圖像的超像素,計算圖像像素均值特征,構建基于超像素的圖像集,在構建的圖像描述基礎上進行DCT變換,提取變換后的系數特征,最終將計算獲得的2部分二值序列保存在文本文件中,方便下一步計算和查找。 b.相似圖像檢測過程。首先計算現有交通場景圖像的感知哈希序列,并存儲在哈希序列庫中。當有待檢測圖像傳來時,計算待檢測圖像的感知哈希序列。通過相似性度量,若計算所得結果大于等于設定的閾值,檢測結果場景庫中不存在相似圖像,并將此圖像入庫;反之刪除圖像。 選取KITTI、DeepTesla、Cityscapes數據集中共1 000張圖像構建初始數據庫,針對圖像的DCT特征向量使其兩兩組合計算不同的圖像間的距離。一共產生500 500組感知距離。最終特征感知距離頻數分布統(tǒng)計直方圖如圖7所示。 圖7 感知距離頻數分布統(tǒng)計直方圖 由圖7可知,向量間感知距離頻數的均值為55.7,方差為8.5,表明由部分數據集組成的測試數據庫抗沖突性強,延展性高。能保證場景庫多樣性,為測試實驗提供了數據保證。 在實驗中,隨機從建立的數據庫中選擇250張相同的圖像作為算法準確性的測試數據,計算選取圖像的像素特征和DCT特征的感知序列分別與存儲在特征序列數據庫中的圖像感知序列的距離,在θ1=θ2=0.5的條件下,計算它們的相似度,測試在不同閾值下的去重效果,結果如表1所示。 表1 不同閾值下去重效果 由表1不同閾值下去重準確率與錯誤率可知,在相同圖像去重方面,取不同的閾值均有去重效果,但隨著閾值增大,去重錯誤率也隨之增大。當閾值T=0.15時,去重效果最好,錯誤最低,最能保證能完全剔除相同圖像。 以KITTI、DeepTesla、Cityscapes 數據集中的圖像作為實驗對象。選取有代表性的相同場景的圖像,包括連續(xù)圖像幀、不同相機視角拍攝的場景圖像,并對交通場景做了一些調整,如亮度調整、伽瑪校正、加水印等操作來構成測試的數據集,每一類選取500張圖像。選取的部分圖像如圖8所示。 圖8 圖像調整 為了更進一步說明本文算法的效果,通過與其他算法,如文獻[6]中的像素域平均值感知哈希算法AVG-hash、文獻[7]中DCT感知哈希算法D-phash和文獻[9]中分塊DCT感知哈希去重算法BDCT-hash進行對比實驗,計算不同算法下去重準確率。實驗結果如表2所示。 表2 不同算法的去重準確率比較 % 由表2可知,本文算法在對圖像執(zhí)行不同操作的去重準確率平均為98.55%。實驗結果表明,針對圖像本身做調整,這幾個算法都有比較好的處理效果,但針對連續(xù)圖像等的操作本文去重效果更好。這也更符合實際應用的條件。本文算法可準確識別相同圖像,提高了相同圖像的識別率。 為了進一步說明本文算法的魯棒性,采用ROC曲線進行對比分析。ROC曲線是以二分類問題的真陽性率為縱坐標,以假陽性率為橫坐標繪制的曲線。計算公式為: RTPR=NTP/(NTP+NFN) (7) RFPR=NFP/(NFP+NTN) (8) NTP為實際相似的2幅圖像被認定為相似的數目;NFN為實際相似的2幅圖像被認定為不同的數目;NFP為實際不同的2幅圖像被認定為相似的數目;NTN為實際不同的2幅圖像被認定為不同的數目;RTPR為真陽性率;RFPR為假陽性率。 由此繪制ROC曲線如圖9所示。 圖9 ROC曲線 由圖9可知,本文算法的魯棒性要略優(yōu)于文獻[7]和文獻[9]的算法。在RFPR>0.1時,本文算法有較高的RTPR,在RTPR<0.7時,本文算法有較低的RFPR。故本文算法魯棒性好,能更好地實現交通場景預處理。 交通場景樣本庫是無人車虛擬測試中很重要的部分,建立樣本庫的過程中會收集大量的樣本來保證場景樣本多樣化,但這會造成樣本庫中存在大量的重復及相似的樣本,這種重復及相似樣本增大了后續(xù)處理的復雜度。本文在現有的感知哈希算法基礎上提出了提取超像素的感知哈希算法。經對比實驗表明,該方案具有較高的準確性和魯棒性。相比較其他算法,本文算法準確率平均為98.55%,滿足交通場景圖像去重的要求。可準確識別出相似圖像,為構建典型交通場景樣本庫提供了有利條件。4 實驗分析
4.1 算法準確性
4.2 算法高效性
4.3 算法魯棒性
5 結束語