王 晟,趙壁芳
(1.富國銀行,西得梅因 艾奧瓦州 50266;2.ASDI公司,紐瓦克 特拉華州 19702)
基于內(nèi)容的圖片搜索引擎研究*
王 晟1,趙壁芳2
(1.富國銀行,西得梅因 艾奧瓦州 50266;2.ASDI公司,紐瓦克 特拉華州 19702)
基于內(nèi)容的搜索引擎是目前搜索引擎技術發(fā)展的一個重要方向.首先介紹了基于內(nèi)容的圖片搜索引擎研究中的兩大核心問題:圖像特征提取和比對技術.接著介紹了常用的圖片特征和它們的提取描述方法,以及一些常用的特征向量比對方式.然后對當前技術和成果進行分析.
搜索引擎;圖像特征提取;信息存儲
目前基于文本搜索引擎技術發(fā)展已經(jīng)十分成熟,而這類搜索引擎的準確度除了依賴于搜索引擎系統(tǒng)的網(wǎng)頁信息存儲量和詞匯切割的準確度以外,用戶所搜尋的目標文件也是影響其準確度的一個重要因素[1,2].如果用戶著重于搜索文本形式的文件,此類搜索引擎的準確率已經(jīng)很高[3].但是,傳統(tǒng)的基于文本搜索引擎只能分析網(wǎng)頁中的文本內(nèi)容,無法滿足用戶對互聯(lián)網(wǎng)上越來越多的多媒體文件的搜索查詢需求.如果用戶希望搜索的是圖片、音頻或者視頻類無法在網(wǎng)頁中只用文本就能精確描述其內(nèi)容的文件,則其準確率就會受到很大影響.因此基于內(nèi)容的搜索引擎是目前搜索引擎技術發(fā)展的一個重要課題[4,5].
基于內(nèi)容的搜索引擎嘗試直接分析圖片、視頻及音頻等媒體文件,將它們根據(jù)特征分類.用戶可以通過提交一幅圖片或者一段音頻、視頻資料來表達自己的搜索意圖(比如用戶希望能夠搜索到含有類似圖片的網(wǎng)站),搜索引擎系統(tǒng)通過對用戶提交的多媒體文件進行分析、比對,輸出檢索到的信息.基于內(nèi)容的搜索引擎還處在探索階段,目前沒有能得到廣泛運用的通用搜索引擎[6].有一些研究機構(gòu)正在嘗試從事特定范圍的基于內(nèi)容的搜索引擎研究,如針對特定的媒體資料庫建立搜索引擎,或者對特定類型的圖片、視頻及音頻資料進行檢索等[7].
這是圖片搜索引擎最核心的問題.只有正確地提取出了圖片中所含內(nèi)容的關鍵信息,才能對圖片內(nèi)容進行理解、分析和辨識.圖片的特征也分為高級特征和低級特征.低級的特征可以由對圖片的自動分析來獲得,一般是可視化的視覺特征,如圖片的顏色、形狀和紋理等.而高級特征一般是語義相關的,通常只能半自動甚至手動提取,如圖片中人物的名字、圖片的主題等.對不同種類的圖片和不同的應用,用戶所關心的特征都有所不同[8,9].特征千變?nèi)f化,如何正確的表達已經(jīng)被提取的特征,也是一個重要的研究內(nèi)容.
確立了好的特征比對方法,才能使得基于圖片內(nèi)容的搜索引擎達到一個可以接受的準確程度,成為實用的系統(tǒng).針對所關注的特征不同,比對算法也會隨之變化[10].
在提取了圖片特征之后,如何用有效的數(shù)據(jù)庫結(jié)構(gòu)來存儲大量的特征信息,以及如何在海量的特征數(shù)據(jù)中查找出與用戶所需圖片特征最接近的那一組特征,也是該系統(tǒng)必須考慮的重要問題[11].
互聯(lián)網(wǎng)中有大量的圖片和相關的文本信息,如何在眾多資料中快速地提取圖片并進行分析,然后將特征信息儲存到數(shù)據(jù)庫中,是我們要面臨的另一個挑戰(zhàn).與傳統(tǒng)文本搜索引擎不同的是,由于基于內(nèi)容的圖片搜索引擎將要大量地分析圖片,如何能夠?qū)⑾到y(tǒng)的空間和時間代價控制在一個可以接受的范圍內(nèi),也是一個重要問題.
傳統(tǒng)的基于文本的搜索引擎,應用文字描述來表達搜索意圖,檢索方式也是以文本作為搜索的關鍵字.到了基于內(nèi)容的搜索引擎,用戶不僅可以使用文本來表達其搜索意圖,還可以應用對其搜索對象特征的描述來表示其搜索的目標.由于對特征的描述方式很多,如色彩分布、紋理、形狀甚至直接用圖像等都可以,基于內(nèi)容的搜索引擎必須考慮如何給用戶提供一種標準的表達其搜索意圖的方法.
互聯(lián)網(wǎng)上的圖片從格式、長寬比到色彩等千差萬別,如何使這些圖片歸一化,并且不會丟失過多的內(nèi)容信息,最終得到能夠被統(tǒng)一分析和處理的圖片,是圖片搜索引擎研究的又一難點.
目前,國內(nèi)外許多學者和科研機構(gòu)以及商業(yè)公司都在從事圖片的模式識別的研究,也有一些圖片識別系統(tǒng)出現(xiàn),被運用于計算機視覺、安全系統(tǒng)、文本識別系統(tǒng)等方面.但是基于圖片內(nèi)容的搜索引擎并不多見,并且都還處在試驗階段.對基于圖片內(nèi)容的搜索引擎的研究,在互聯(lián)網(wǎng)飛速發(fā)展的今天,具有廣泛的應用前景.在圖片識別算法方面,也有很多種類,如使用不變矩、傅立葉算子和Radon變換、神經(jīng)網(wǎng)絡算法、決策樹方法、利用色彩和空域概率函數(shù)等方式.但是,正如上一段所說,比較通用且有效的互聯(lián)網(wǎng)圖片識別算法還沒有出現(xiàn).以下介紹當前常用的幾種主要算法和技術.
2.1.1 使用傅立葉算子辨識圖片輪廓
設P為邊界輪廓上的任意一點,以邊界輪廓上的點A為參照點,記s為從A到P點的弧長,并設邊界輪廓線的周長為S,則P點可表示成弧長的函數(shù)
圖1 傅立葉算子計算示意圖
若將座標原點移到質(zhì)心處,并設t=2πs/S,則輪廓線可表示成
2.1.2 使用幾何不變矩辨識圖片輪廓
矩的定義:對于二元有界函數(shù) f(x,y),它的(j,k) 階矩是:
特別地,零階矩是物體的面積:
常用的中心矩是以質(zhì)心為原點計算的:
進一步,可以定義規(guī)格化中心矩為:
函數(shù)與其矩集合有一一對應的關系.為了描述形狀,假設f(x,y)在物體內(nèi)取值為1而在其外都取0值,這樣它就與物體的輪廓建立了一個一一對應.
2.1.3 利用其他信息進行識別
除了以上圖片特征外,針對不同的應用,還可以對圖像提取一些特殊的特征.如針對生物特征識別,可以在有關圖片中提取掌紋、指紋和人臉等相關特征;對于一些植物的識別,則注重提取植物特殊的特征.以下是一個用花瓣數(shù)、花的內(nèi)徑外徑比來識別植物種類的特例,見圖2.
圖2 識別植物種類特例
圖中,ri指花朵內(nèi)徑,ro指花朵的外徑,n指花瓣數(shù),φ指花瓣跨度的幅角.通過對這幾個特征的提取和對比,來對不同物種的花朵進行識別.
圖3 用其他特征識別花朵物種示意圖
對于基于內(nèi)容的圖象識別來說,除了特征的提取外,特征的對比也是核心技術之一.設有n個樣本U=(X1,X2,…,Xn),其中每一個樣本Xi具有m個特性指標,即Xi由向量Xi=(xi1,xi2,…,xim) 表示.則兩個樣本 Xi,Xj之間的相似程度μR(Xi,Xj)可以由以下方式來定義.
(1)切比雪夫距離法
其中,c為常數(shù).
(2)相似系數(shù)法
(3)歐氏距離法
其中,c選取適當?shù)恼龜?shù),使 rij在[0,1]區(qū)間內(nèi).
MPEG-7標準[4]是活動圖像專家組(Moving Picture Expert Group)為了適應對基于內(nèi)容的圖像檢索的需要,提出的一種標準化的描述圖像、視頻、音頻等媒體文件的方法,其目的是為了解決對圖像、視頻、音頻等媒體文件基于內(nèi)容的檢索和定位問題.
MPEG-7標準是一種語言,定義了描述文件內(nèi)容特征的標準的方式.但是對于特征的提取和檢索,則由使用MPEG-7標準的用戶來完成.MPEG-7標準規(guī)定了以下幾個重要概念:
(1)數(shù)據(jù)(Data):用MPEG-7描述的視/音頻信息,與其編碼方式、壓縮格式等無關.這個概念主要強調(diào)文件中包含的內(nèi)容信息.只要是同一幅圖片,不論使用JPEG,還是BMP格式進行壓縮,甚至是打印在紙上的圖片,只要有相同的內(nèi)容,則被認為具有同樣的信息,可以進行相同的MPEG-7描述.
(2)描述子(Descriptor):數(shù)據(jù)特征的表示方法,定義數(shù)據(jù)特征的語法和語義.即表示媒體的特征的方法.
(3)描述方案(Description Scheme):對描述符之間關系和結(jié)構(gòu)的說明.
(4)描述(Description):描述方案和描述符的集合;
(5)描述定義語言(DDL):用于生成標準化描述的語言,MPEG-7標準采用XML語言作為DDL的基礎.
文獻[10]有一個MPEG-7標準描述事例,其中有一張圖片SR1經(jīng)分割后變成SR2-SR8等七個部分,這八個部分的關系如圖4.
圖4 描述方案實例示意圖
對于每一個部分,分別提取其特征,如形狀、顏色、紋理和文字等,形成如圖的描述方案.根據(jù)上面得到的描述方案圖,可以根據(jù)每個節(jié)點需要定義描述子和它們之間的關系,最后用XML語言標準化地表達出來,就形成了對圖片SR1的一段MPEG-7標準內(nèi)容描述.MPEG-7標準不是一種用于圖像壓縮或者編碼的標準.它著重于將對媒體數(shù)據(jù)內(nèi)容描述標準化,為其他的運用,如基于內(nèi)容的檢索和定位等,提供方便的索引信息和標準化的描述方式.運用MPEG-7標準,可以解決基于內(nèi)容的圖像檢索的特征表達和索引問題.以下就介紹幾種運用MPEG-7標準的圖像檢索產(chǎn)品.
3.2.1 QBIC
QBIC(http://wwwqbic.almaden.ibm.com)是第一個商用的基于內(nèi)容的圖像檢索系統(tǒng),由IBM公司出品.它采用的主要特征有顏色統(tǒng)計特征和Tamura紋理描述.
3.2.2 Virage
Virage(http://www.vriage.com)是由 Virage 公司開發(fā)的一個基于內(nèi)容的圖像搜索引擎.它采用顏色、顏色布局、紋理和形狀結(jié)構(gòu)等特征作為檢索的基礎.Virage比QBIC高明之處在于它可以根據(jù)用戶的興趣所在,使用戶調(diào)整各個特征的權值,從而檢索出更符合其要求的圖像.
3.2.3 VisualSEEK、WebSEEK
這兩個系統(tǒng)都是視覺特征檢索引擎.其中,WebSEEK為面向互聯(lián)網(wǎng)的文本/圖像搜索引擎,二者皆是哥倫比亞大學開發(fā).其主要特點是圖像區(qū)域的空間關系檢索和從壓縮域提取視覺特征.這兩個系統(tǒng)采用的視覺特征是顏色集合基于小波變換的紋理特征.
在互聯(lián)網(wǎng)技術迅速發(fā)展的今天,人們需要搜索引擎能夠迅速而準確地查找到他們所需要的圖像等其他媒體信息,而傳統(tǒng)的基于文本的搜索引擎已經(jīng)無法滿足人們對于基于內(nèi)容的互聯(lián)網(wǎng)搜索需要,基于內(nèi)容的圖片搜索引擎成為了搜索引擎技術發(fā)展的新方向之一.隨著研究的深入與科技的發(fā)展,在不久的將來可能會有多種成熟的新產(chǎn)品供大眾使用。
[1]陳海英.基于內(nèi)容檢索與國際標準 MPEG-7[J].情報雜志,2002,(4):66 -67.
[2]侯越先,張鵬,于瑞國.基于內(nèi)容相關性挖掘的反饋式搜索引擎框架[J].天津大學學報,2008,(8):941 -945.
[3]華薇娜.搜索引擎的最新進展述要[J].圖書與情報,2009,(6):83-87.
[4]王宏艷.基于鏈接和內(nèi)容的BLCT主題爬行算法研究[J].計算機應用研究,2011,(2):495 -497.
[5]韓現(xiàn)偉,付宜利,李剛.基于改進Hough變換和圖搜索的油庫目標識別[J].電子與信息學報,2011,(1):66 -72.
[6]焦雋,姜遠,黎銘,等.一種在無標注圖像庫中進行的基于關鍵詞的檢索方法[J].模式識別與人工智能,2009,(3):422 -426.
[7]Xu L,Oja E.Randomized Hough transform(RHT):Basic mechanisms,algorithms,and computational complexities[J].CVGIP Image Understanding,1993,(2):131 -154.
[8]Zhang M,Cao H.A new method of circle’s center and radius detection in image processing[A].IEEE International Conference on Automation and Logistics[C].Qingdao:IEEE,2008.
[9]He C,Xu X,Yang J.Fast fractal image encoding using one - norm of normalised block[J].Chaos,Sofitons and Fractals,2006,(5):1178-1186.
[10]Zhang C,Zhou Y,Zhang Z.Fast fractal image encoding based on special image features[J].Tsinghua Science and Technology,2007,(1):58-62.
[11]He C,Liu W,Shen X.Fast fractal image coding based on quincunx sums of normalized blocks[J].Journal of Computer Research & Development,2007,(12):2066 -2071.
TP393
A
1008-4681(2012)02-0040-03
2011-11-09
王晟(1972-),男,河南內(nèi)黃人,美國富國銀行和Mastech軟件公司高級軟件工程師,碩士.研究方向:計算機大型數(shù)據(jù)庫的研究與開發(fā).
(責任編校:晴川)