王春妍
(江蘇海事職業(yè)技術學院信息工程系,江蘇 南京 211170)
移動終端的迅速發(fā)展,使得一個完全網(wǎng)絡時代降臨。用戶和網(wǎng)絡間的連接不僅限于室內(nèi)或者計算機設備,而且可以通過任何終端訪問互聯(lián)網(wǎng)。目前移動終端設備迅速發(fā)展,屏幕規(guī)??蛇_到5英尺,將實現(xiàn)八核處理器,和快速指紋識別功能。此外,針對用戶時空信息的提取技術也已基本成熟,可以利用三維的時空信息幫助用戶更好地在網(wǎng)絡中進行交流。因此,圖像采集技術也從傳統(tǒng)的攝像和掃描等獲取方式,轉(zhuǎn)變成和移動終端緊密連接的方式,從而獲得豐富信息的、多維度的圖像。
目前,許多商業(yè)搜索引擎,如Google,Yahoo!等均利用在圖像和視頻上加文本標簽的方式,基于語義的搜索方法來檢索相關圖像或視頻。這種方式由于圖像信息和標注的文本不同步,或者信息不匹配問題,常無法準確地檢索到所需圖形圖像信息。為了解決低層特征與高層語義概念間的語義鴻溝問題,圖像信息的自動標注研究,成為當前關注的熱點。圖像視頻的標注技術結(jié)合了基于文本的檢索與基于內(nèi)容的檢索兩者的優(yōu)點,有效地解決了語義鴻溝問題?;趯W習的標注將圖像或視頻標注作為一個學習問題,用每幅圖像的所有關鍵詞或關鍵詞與視覺特征的聯(lián)合分布建立一個統(tǒng)計模型。在文獻[3]中,利用判別式條件隨機場CRF模型把圖像作為整個觀察數(shù)據(jù),用組合的方式從語義層次和視覺層次獲得語義概念的相互作用,利用圖形結(jié)構(gòu)建立語義概念的上下文關系,利用Contextual Kernel解決一組獨立的二次設計問題,用TRECVID做實驗數(shù)據(jù)庫來訓練模型。該方法的優(yōu)點是不需要圖像分割,與傳統(tǒng)的SVM方法相比,查準率和查全率都有很大提高。
圖像搜索引擎的檢索模式就是它的檢索方式,根據(jù)這些檢索方式來確定不同的檢索策略。圖像檢索模式的核心問題是圖像特征的抽取和圖像檢索。前面的圖像搜索引擎的案例代表了兩種不同的檢索模式:基于文本的檢索模式和基于內(nèi)容的檢索模式,此外還有基于兩者結(jié)合的綜合特征的檢索模式。下面就對圖像搜索引擎檢索模式進行分析,并探討不同的應用狀況。
(1)基于文本的檢索模式
基于文本的圖像檢索是對圖像的名稱、編號、內(nèi)容描述、圖像大小、圖像所在文件的大小、圖像來源、作者、建立圖像的時間、存儲地點等關鍵性的信息采用自動標引或進行人工注釋,并進行圖像的特征抽取,建立圖像索引數(shù)據(jù)庫,然后按全文數(shù)據(jù)庫管理,采用全文數(shù)據(jù)庫檢索方法?,F(xiàn)在的基于網(wǎng)絡的圖像搜索引擎就是大都采用的這種基于文本的檢索模式。網(wǎng)絡上的圖像文件通常以GIF、JPG、PNG等作為擴展名的。如Google抽取圖像的題名、圖像大小、圖像內(nèi)容的描述語言、圖像所在文件的大小、圖像來源、作者、建立圖像的時間、存儲地點等信息,專門針對這些圖像信息建立索引。Corbis通過人工對圖像信息標注。
(2)基于內(nèi)容的檢索模式
大容量的圖像/視頻數(shù)據(jù)庫,一般的文字搜索引擎已經(jīng)不能滿足用戶需求,基于內(nèi)容的圖像檢索技術如何快速、有效地從大規(guī)模的圖像庫中檢索出有用的圖像已成為國內(nèi)外研究的熱點。雖然該方法有效地考慮了圖像的語義信息,但是基于關鍵詞的圖像檢索方式存在因用戶理解差異而導致對圖像語義理解的歧義問題。
隨著個性化服務技術的發(fā)展,圖像信息資源管理也要求實時記錄和更新用戶的個性化信息,檢索時遍歷用戶側(cè)檔,為不同用戶輸出符合用戶個性化要求的檢索結(jié)果,用戶每次反饋的信息都會有選擇性地再次更新用戶側(cè)檔中的信息,使個性化信息永遠持續(xù)被更新。
目前隨著用戶對圖像資源檢索的需求量不斷增大,圖像搜索引擎的發(fā)展如火如荼。圖像搜索引擎向著個性化、智能化,以及交互性方向不斷推進。圖像搜索引擎的個性化原則需要打破當前用戶界面提供什么樣的圖像信息顯示內(nèi)容、排列什么樣的搜索結(jié)果、利用什么樣的訪問設備等別無選擇的限制,從根本上實現(xiàn)查詢界面的個性化、信息類型的個性化、訪問設備的個性化等。
[1]汪斌.基于ARM和GPRS的農(nóng)田現(xiàn)場信息遠程采集系統(tǒng)的研究[D].昆明理工大學,2010.
[2]張慶輝.無線糧倉害蟲檢測系統(tǒng)[D].河南工業(yè)大學,H04N7/18;H04N7/08.
[3]Y Xiang,Semantic context modeling with maximal margin conditional random fields for automatic image annotation[C],Computer Vision and Pattern Recognition(CVPR),2010 IEEE Conference on,3368–3375
[4]Jamieson,M,Using Languageto Learn Structured Appearance Models for Image Annotation[J].IEEE Transactions Pattern Analysis and Machine Intelligence,2010,31(1).