亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于內(nèi)容的圖像檢索方法研究

2018-05-23 10:48:16陳瑞文

通化師范學(xué)院學(xué)報(bào) 2018年6期

陳瑞文

現(xiàn)如今，數(shù)字圖像的數(shù)量巨大，如何在浩如煙海的數(shù)字圖像中找到自己所需要的圖像，目前比較常用的方法是標(biāo)題檢索法，也就是利用圖像的標(biāo)題進(jìn)行文本的檢索比對，這要求圖像的標(biāo)題描述清楚準(zhǔn)確，否則就很難通過文本進(jìn)行檢索.然而，更好的檢索方式是使用基于內(nèi)容的檢索方式，這種檢索方式更加貼近自然，也更準(zhǔn)確.但是，基于內(nèi)容的檢索方式較為復(fù)雜，所以一直是該領(lǐng)域研究的熱點(diǎn)和難點(diǎn).

BoVW（Bag of Visual Word）模型［1］稱為視覺詞袋模型，它的步驟主要包括：①提取特征；②構(gòu)造視覺詞典；③將特征映射匹配到視覺詞典，并生成特征向量.視覺詞袋模型可以應(yīng)用在文本、圖像或者其他多媒體對象方面的檢索.

其中，特征提取的常用方法有SIFT［2］和MSER.構(gòu)造視覺詞典常用的方法有聚類函數(shù)，比如K-Means（KM）和 Hierarchical K-Means（HKM）［3］.特征映射到視覺詞典以后，通常是生成圖像的特征直方圖，再通過直方圖，進(jìn)行圖像之間的比對.

使用BoVW進(jìn)行圖像描述，方法如圖1所示.

圖1 BoVW進(jìn)行圖像描述的方法

1 BoVW各過程分析

1.1 提取圖像特征

提取圖像特征是使用BoVW進(jìn)行圖像描述的第一步，也是關(guān)鍵的一步，如果特征提取得好，那么接下去的檢索就比較順利，準(zhǔn)確率高，如果特征提取得不好，將會(huì)嚴(yán)重影響接下去的檢索工作.

由于BoVW對于尺度空間的變化較為敏感，所以本文選擇了對于尺度空間變化具有不變性的算法SIFT算法，SIFT算法對于圖像的縮放，旋轉(zhuǎn)等變化具有不變性，這就很好地克服了BoVW對于尺度空間的變化較為敏感的缺點(diǎn).

SIFT算法使用高斯卷積函數(shù)，對于圖像I(x,y)，其尺度空間表示為L(x,y,σ)：

其中：

I(x),y是圖像像素的坐標(biāo)，σ是尺度參數(shù).

確定了特征提取算法以后，還需要考慮如何對圖像進(jìn)行分塊，也就是采樣的方式.常見的采樣方式有：隨機(jī)采樣法，基于感興趣區(qū)域的采樣法，均勻網(wǎng)格采樣法等，綜合考慮各種方法的優(yōu)劣，本文最終決定采用均勻網(wǎng)格采樣法，該方法更加全面，提取的信息也更豐富，對于后面的詞典構(gòu)造和圖像的檢索比對，貢獻(xiàn)更大.

1.2 構(gòu)造視覺詞典

構(gòu)造視覺詞典普遍采用的方法是K均值聚類方法，通過相應(yīng)的聚類函數(shù)，將第一步特征提取的結(jié)果進(jìn)行聚類，并由此來構(gòu)造視覺詞典.K均值聚類方法通過一個(gè)迭代的過程，判定每個(gè)視覺特征是否映射到某個(gè)視覺詞匯.在這個(gè)過程中，K值的選擇尤為重要，它決定了視覺詞典的大小，視覺詞典過大或者過小，都不利于后面的檢索工作.

1.3 進(jìn)行特征量化

特征的量化通常采用的是直方圖的表示方法.早期的直方圖表示法就是根據(jù)圖像中每個(gè)視覺單詞出現(xiàn)的頻率，構(gòu)建直方圖.

特征量化方法也一直是研究的熱點(diǎn)，出現(xiàn)了很多種方法，比如基于視覺主題頻度的直方圖表示，基于空間分布信息的視覺單詞頻度的直方圖表示等.其中基于視覺主題頻度的直方圖表示法，是對基本視覺單詞進(jìn)行進(jìn)一步提煉，得到了視覺主題，將圖像表示為多個(gè)主題，這樣比直接使用視覺單詞更加貼近圖像的實(shí)際含義，比較經(jīng)典的方法有基于概率潛在語義模型的視覺詞包特征的直方圖表示［4］，本文采用的是基于概率潛在語義模型的視覺詞包特征直方圖，該方法也是借鑒了文本檢索中的方法，它通過建立圖像，視覺單詞、主題之間的關(guān)系，使用主題表示圖像、最終生成一個(gè)主題加概率的特征向量，降低了特征的維度，同時(shí)也降低了計(jì)算量，而且充分地考慮了圖像的語義特征.

1.4 相似度度量

圖像的檢索，需要比對兩幅圖像的相似度，并進(jìn)行排序，本文采用余弦相似度方法，進(jìn)行特征向量的比對，余弦相似度的公式如下：

其中x，y表示兩幅圖像，xi，yi分別表示x，y的特征向量中的一維.

余弦值越接近1，說明兩幅圖像越相似，反之則相似度較低.

2 圖像檢索過程

本文所描述的圖像檢索過程分為以下幾個(gè)步驟：

（1）采用均勻網(wǎng)格采樣法將圖像分成16×16，總共256個(gè)區(qū)塊.

（2）提取圖像的SIFT特征.

（3）使用K均值聚類方法構(gòu)造視覺詞典，詞匯表的大小設(shè)置為1000.

（4）使用基于概率潛在語義模型的視覺詞包特征的直方圖表示圖像.

（5）采用余玄相似度算法計(jì)算圖像與被查詢圖像的相似度.

（6）返回相似度靠前的N幅圖像作為查詢結(jié)果.

3 實(shí)驗(yàn)結(jié)果與分析

為了進(jìn)一步證明，本文的方法在圖像檢索方面的有效性，本文進(jìn)行了圖像檢索的實(shí)驗(yàn).實(shí)驗(yàn)采用的圖像為corel1000圖庫，該圖庫包括了10類圖像，包括人、建筑、花、公共汽車等10類，每一類圖像各100幅圖.

檢索實(shí)驗(yàn)計(jì)算每類圖像的平均查準(zhǔn)率Preci?sion，查準(zhǔn)率的定義如下：

其中，i為檢索圖像，x為檢索出與i相關(guān)的圖片，y為檢索返回的圖片總數(shù).

在本次檢索實(shí)驗(yàn)中，每次返回前20幅圖像作為查詢結(jié)果.進(jìn)行多次實(shí)驗(yàn)，并根據(jù)多次實(shí)驗(yàn)的結(jié)果計(jì)算每一類圖像的平均查準(zhǔn)率，部分實(shí)驗(yàn)結(jié)果見表1.

表1 各類圖像的查準(zhǔn)率

由實(shí)驗(yàn)結(jié)果可以看出，本文的方法查準(zhǔn)率較高，具有較好的檢索性能，證明了其有效性.

圖2是其中一幅檢索結(jié)果圖，其中第一幅圖為檢索圖像.

圖2 檢索結(jié)果

4 結(jié)束語

本文采用了BoVW（Bag of Visual Word）視覺詞袋模型進(jìn)行基于內(nèi)容的圖像檢索，特征提取部分采用了SIFT算法，克服了圖像對于尺度變化較敏感的缺點(diǎn)，構(gòu)造視覺詞典采用的方法是K均值聚類方法，特征量化采用的是基于概率潛在語義模型的視覺詞包特征的直方圖，它降低了特征的維度，也降低了計(jì)算量，而且充分地考慮了圖像的語義特征，最后采用余弦相似度算法計(jì)算圖像的相似度，并進(jìn)行檢索實(shí)驗(yàn)，計(jì)算平均查準(zhǔn)率，結(jié)果表明，使用本文采用的視覺詞袋模型進(jìn)行圖像檢索具有較好的檢索效果.

：

［1］Sivic J.Video Google：A Text Retrieval Approach to Object Matching in Videos［C］//Proc.of the International Conf.on Computer Vision.Nice，F(xiàn)rance：IEEE Press，2003：1470-1477.

［2］Lowe D.Distinctive image features form scale-in?variant keypoints［J］.International Journal of Computer Vi?sion，2004，20（2）：91-110.

［3］Goldberger J，RoweisS，HintonG，et al.Neighbour?hoodcomponentsanalysis［C］//Advancesin Neural Informa?tion Processing Systems，2004：13-18.

［4］Saghafi B，F(xiàn)arahzadeh E，Rajan D，et al.Embed?ding visual words into concept space for action and scene recognition［C］//Proceedings of the British Machine Vision Conference.Aberystwyth，UK：BMVA Press，2010：1-11.