查正軍 鄭曉菊,2
1(中國科學技術大學信息科學技術學院 合肥 230027)2(中國科學院合肥物質科學研究院 合肥 230021)
多媒體信息檢索中的查詢與反饋技術
查正軍1鄭曉菊1,2
1(中國科學技術大學信息科學技術學院 合肥 230027)2(中國科學院合肥物質科學研究院 合肥 230021)
(zhazj@ustc.edu.cn)
歷經(jīng)幾十年的發(fā)展,多媒體檢索取得了長足的進步,然而檢索性能的提升依然受到“意圖鴻溝”與“語義鴻溝”的制約.針對此問題,學術界提出了一系列查詢技術幫助用戶清楚地表達檢索意圖以及反饋技術幫助系統(tǒng)準確地理解用戶意圖與媒體數(shù)據(jù),有效提升了檢索性能.對多媒體檢索中的查詢與反饋技術進行了分析與討論.分析了查詢方式的演變與反饋技術的發(fā)展,綜述了面向PC機、移動智能終端、觸屏設備的查詢技術,介紹了不同時期的反饋技術,探討了探索式搜索中的交互問題,最后分析了該領域的未來研究趨勢.
多媒體信息檢索;檢索意圖;內容理解;查詢;反饋
隨著多媒體采集設備的日益普及和數(shù)據(jù)存儲、互聯(lián)網(wǎng)等技術的飛速發(fā)展,圖像、視頻等多媒體數(shù)據(jù)已經(jīng)成為人們獲取與傳播信息的主要媒介,正在全方位地滲透到人們的工作和生活中.多媒體數(shù)據(jù)規(guī)模龐大且呈爆炸式增長,其潛在價值巨大,是國家大數(shù)據(jù)戰(zhàn)略資源的重要組成部分.在“國家中長期科學和技術發(fā)展規(guī)劃綱要(2006—2020)”中,數(shù)字媒體內容被列為“信息產業(yè)及現(xiàn)代服務業(yè)”領域的優(yōu)先主題之一.面對海量多媒體數(shù)據(jù),如何實現(xiàn)快速準確的信息檢索,一直是多媒體研究領域的熱點問題.多媒體檢索是滿足人們信息需求的主要途徑,是眾多智能媒體應用的基礎.
最早的多媒體檢索研究可以追溯到20世紀70年代末期,其主要依賴人工標注生成媒體數(shù)據(jù)的文本標簽,利用文本匹配完成檢索.人工標注費時費力,且存在標注缺失與錯誤等問題.自本世紀初始,隨著計算機視覺、模式識別、機器學習等技術的進步,逐漸發(fā)展出多媒體內容自動標注方法,通過建立語義概念模型自動分析媒體數(shù)據(jù)內容,生成其語義標簽[1],用于大規(guī)模數(shù)據(jù)的管理與檢索.與此同期,針對網(wǎng)絡媒體數(shù)據(jù),基于網(wǎng)頁文本挖掘的多媒體檢索技術發(fā)展迅速,成為當前主流商業(yè)圖像視頻搜索引擎的主要技術基礎.此類技術通過自動分析網(wǎng)絡圖片視頻的標題、環(huán)繞文字、URL等元數(shù)據(jù)(meta-data),抽取出反映圖片視頻內容的關鍵字,建立數(shù)據(jù)索引,支持基于文本的多媒體檢索[2-3].由于網(wǎng)頁元數(shù)據(jù)含有噪聲,抽取的關鍵字往往與圖片視頻內容不相符.針對于此,自2008年起,媒體內容分析技術被逐步引入到基于網(wǎng)頁文本挖掘的多媒體檢索中,以提升分析與檢索的精度[4].
除上述基于文本的檢索之外,基于內容的多媒體檢索也廣受關注,其通常以圖像或視頻示例作為查詢,通過視覺特征匹配完成檢索.該技術起源于20世紀90年代初期,迄今經(jīng)歷了興起—沒落—再興起的發(fā)展軌跡.20世紀90年代,基于內容的圖像視頻檢索(CBIR,CBVR)是多媒體領域的研究熱點,研究人員相繼研發(fā)出了QBIC[5],VisualSeek[6],MARS[7]等早期的圖像視頻檢索系統(tǒng),支持幾千至幾萬幅圖片視頻的檢索.受限于視覺特征表達能力,檢索的質量難以保證,且缺少可擴展索引方案,難以支持大規(guī)模檢索.因而,基于內容的檢索在本世紀初陷入低谷.隨著高判別力視覺特征的提出[8]、高維特征索引[9]和視覺詞倒排[10]等技術的出現(xiàn)、計算能力的大幅度提升以及新型應用需求的不斷涌現(xiàn),基于內容的圖像視頻檢索技術在近十年進入飛速發(fā)展期,產生了一系列新穎的檢索技術,也促生了“以圖搜圖”技術的商業(yè)化.
歷經(jīng)了幾十年的發(fā)展,多媒體檢索在研究的深度與廣度以及技術應用的滲透度和覆蓋面等方面均取得了長足的進展.相關的基礎理論和關鍵技術不斷發(fā)展,應用服務滲透至包括電子商務、市場營銷、社會安防等在內的眾多領域.然而,在多媒體檢索中,用戶時常難以清楚地表達檢索意圖且檢索系統(tǒng)難以準確地理解用戶意圖,導致用戶與檢索系統(tǒng)之間存在“意圖鴻溝”.另一方面,多媒體數(shù)據(jù)模式復雜、視覺形態(tài)各異、內容繁雜多樣,導致計算機感知的底層特征與人們認知的高層語義之間存在“語義鴻溝”.如圖1所示,“意圖鴻溝” 和“語義鴻溝”成為制約多媒體檢索發(fā)展的瓶頸,限制了檢索性能的提升,阻礙了檢索技術的應用.克服此2類鴻溝是多媒體研究的重要任務,是實現(xiàn)多媒體檢索跨越發(fā)展的必由之路.因此,研究人員開展了大量針對性研究,提出了一系列檢索模型與技術.其中,有效途徑之一是在檢索環(huán)路中引入用戶交互,采用“人在環(huán)路”(human in the loop)的方式進行交互式檢索,收集并利用用戶的交互反饋幫助檢索系統(tǒng)理解媒體數(shù)據(jù)內容以及用戶信息需求.研究人員主要在檢索流程的查詢端(入口)和結果端(出口)進行技術創(chuàng)新,提出查詢技術幫助用戶表達檢索意圖以及反饋技術幫助系統(tǒng)理解用戶意圖與媒體內容.
Fig. 1 The “Intention Gap” and “Semantic Gap” in multimedia retrieval圖1 多媒體檢索中的“意圖鴻溝”和“語義鴻溝”
本文將介紹多媒體檢索中的查詢與反饋技術的研究現(xiàn)狀與進展.首先,介紹多媒體信息檢索的整體框架與技術環(huán)節(jié);進而,依次綜述查詢與反饋技術;最后,對未來的研究趨勢進行展望與討論.
Fig. 2 The pipeline of multimedia retrieval system圖2 多媒體檢索系統(tǒng)流程圖
多媒體信息檢索的基本流程如圖2所示.在離線階段,需要完成多媒體數(shù)據(jù)預處理、媒體內容分析、數(shù)據(jù)索引等,為高效準確地在線檢索奠定基礎.具體而言,1)預處理步驟需要完成數(shù)據(jù)選擇等任務.受存儲與計算資源的限制,無法對全量數(shù)據(jù)進行分析與索引.尤其在處理互聯(lián)網(wǎng)媒體數(shù)據(jù)時,全網(wǎng)媒體數(shù)據(jù)規(guī)模極其龐大,需要從中選擇能夠滿足大部分用戶需求的數(shù)據(jù)進行分析與索引.2)分析步驟的主要任務是生成圖像/視頻等多媒體數(shù)據(jù)的特征表示(支持示例搜索)以及分析多媒體數(shù)據(jù)表達的語義信息,如概念、事件等(支持語義搜索).近年來,圖像/視頻內容分析技術發(fā)展迅速,特征表示從人工設計特征演變?yōu)榛谏疃葘W習的特征表示、識別的語義元素從早期的少量語義概念發(fā)展到成百上千的概念集合、從簡單的基本事件發(fā)展到復雜的綜合事件.分析方法從模型驅動的基于分類器的方法[11-13]、數(shù)據(jù)驅動的基于搜索的方法[14-15],發(fā)展到當前基于深度學習的方法[16-18].3)在圖像/視頻的語義描述的基礎上,索引步驟可以采用文本檢索中的倒排技術生成圖像/視頻數(shù)據(jù)的語義索引,支持基于關鍵字的語義搜索.針對基于示例的內容搜索,需要解決圖像/視頻高維特征的索引問題.常用的索引技術包括Hash索引[19]、基于視覺詞袋(bag of visual words)的倒排索引[10]、近鄰圖索引[20]等.
在線檢索階段,搜索引擎根據(jù)用戶遞交的查詢,從索引中查找出與查詢相關的媒體數(shù)據(jù),利用排序技術生成結果序列.其中,查詢的形式從經(jīng)典的“關鍵字+查詢框”衍生出多樣式、多模態(tài)查詢.排序技術由依據(jù)視覺相似度排序[21]發(fā)展為基于機器學習的排序方法[22].交互式檢索系統(tǒng)支持用戶針對檢索結果提供相關性反饋,利用用戶反饋改進檢索結果.常用的反饋技術包括相關樣本反饋[23]、部分相關樣本反饋[24]、新興的屬性反饋[25]等.
2.1 查詢推薦
圖像/視頻檢索的經(jīng)典查詢方式為關鍵字查詢,檢索系統(tǒng)根據(jù)用戶輸入的關鍵字查找索引,將查找結果按照相關性排序返回給用戶.然而,用戶輸入的查詢往往不能精確表達其搜索意圖.究其原因:1)用戶輸入的查詢通常僅為1~3個詞,表達的信息有限;2)查詢詞存在歧義、模糊等問題;3)用戶對檢索目標缺乏認知,無法構建準確的查詢詞.相關研究[26]表明,多達75%的查詢詞不能清晰地表達用戶意圖.這就導致檢索系統(tǒng)難以準確地理解用戶意圖,進而難以提供滿足用戶信息需求的搜索結果.
為幫助用戶構造合適的查詢以準確地描述其信息需求,檢索系統(tǒng)普遍采用查詢推薦技術,根據(jù)用戶輸入的查詢,向用戶提供一系列與原查詢語義相關的候選查詢[27].傳統(tǒng)的圖像/視頻檢索系統(tǒng)借鑒文本檢索中的查詢推薦技術,利用文檔、查詢日志、點擊鏈接等數(shù)據(jù),針對不同性質的數(shù)據(jù)設計相應的分析模型,如查詢流圖模型[28]、詞項轉移圖模型[29]、排序學習模型[30]等,從數(shù)據(jù)中挖掘出關鍵詞之間的語義聯(lián)系,生成若干候選查詢詞.例如,基于文檔的查詢推薦方法利用統(tǒng)計模型從包含查詢詞的文檔數(shù)據(jù)或人工編輯語料(如Wikipedia,Wordnet等)中挖掘出與用戶查詢詞相關的詞或短語,利用其構建推薦查詢.基于查詢日志的方法通過分析搜索引擎的查詢日志,挖掘查詢之間的關聯(lián)關系,發(fā)現(xiàn)過往搜索中出現(xiàn)過的關聯(lián)查詢,利用其構建推薦查詢.查詢日志是眾多用戶在使用搜索引擎進行查詢操作時的日志記錄,記錄了用戶的搜索行為,例如使用的查詢、點擊搜索結果等.大量的查詢日志蘊含著查詢間的豐富關聯(lián),現(xiàn)有方法通過分析不同查詢之間的各類型關聯(lián),如查詢在搜索過程(session)中的共現(xiàn)頻率、查詢共有的相同或相似點擊URL的數(shù)量、查詢出現(xiàn)頻率隨時間分布的相關性等,計算查詢間的關聯(lián)強度,指導查詢推薦的生成.
在圖像/視頻檢索中,用戶的檢索目標為圖像或視頻片段,其語義內容遠比若干查詢詞復雜.因此,僅推薦查詢詞往往不能幫助用戶構建合適的查詢以清楚地表達信息需求.針對多媒體檢索中查詢詞存在模糊、歧義等問題,Zha等人[31-32]提出了聯(lián)合圖片和文字的視覺查詢推薦技術,針對用戶的查詢詞,自動推薦若干語義相關的新查詢詞以及描述新查詢詞的圖片,形成了“詞-圖”相結合的多模態(tài)查詢推薦,如圖3所示.該技術利用圖片查詢的視覺呈現(xiàn)幫助用戶明確信息需求,綜合考慮了圖片的典型性與多樣性,從多側面對新查詢進行視覺呈現(xiàn),便于用戶構建查詢,進而結合用戶選擇的“詞-圖”新查詢,融合視覺與文本特征改進檢索.相比于查詢詞,多模態(tài)的查詢更加有助于用戶信息需求的表達以及媒體內容的查找,因而更加適用于多媒體信息檢索.主流商業(yè)搜索引擎均提供多模態(tài)查詢功能.例如谷歌、百度等搜索引擎支持基于關鍵詞與圖片示例的混合查詢,支持用戶在基于關鍵詞檢索返回的圖片集中選擇感興趣圖片作為查詢示例,進一步查找相似圖片.多模態(tài)查詢被廣泛應用于各類多媒體應用,如商品圖片搜索[33]、多媒體問答[34]等.
Fig. 3 The interface of visual query suggestion system[31]圖3 視覺查詢推薦系統(tǒng)交互界面[31]
2.2 查詢交互
提供便捷有效的查詢交互是幫助用戶清楚表達檢索需求的另一途徑.研究人員設計了若干新穎的查詢方式,突破了多媒體檢索中“查詢詞/示例+查詢框”的傳統(tǒng)模式.Zavesky和Chang[35]研發(fā)的CuZero視頻檢索原型系統(tǒng)提供“Semantic Panel”幫助用戶構建關鍵詞組合查詢,如圖4(a)所示.系統(tǒng)自動推薦相關的語義概念,呈現(xiàn)于“Semantic Panel”,其中每個概念所占的矩形框尺寸對應于該概念在查詢中的權重.用戶根據(jù)其信息需求,調整矩形框尺寸更新各概念在檢索中的權重,便捷地構建合適的概念組合查詢.Xu等人[36]設計了基于“Concept Map”的檢索系統(tǒng),支持用戶在“Concept Map”的不同位置輸入若干關鍵詞,形成包含關鍵詞相對位置關系的精細查詢.針對每個關鍵詞提供若干幅圖片示例供用戶選擇,幫助用戶進一步描述檢索需求,如圖4(b)所示.Wang和Hua[37]研發(fā)了基于“Color Map”的檢索系統(tǒng),支持用戶在“Color Map”的不同位置涂鴉顏色,形成對目標圖像的主體顏色及其空間分布的描述,用以檢索具有相似色彩分布的圖像,如圖4(c)所示.
Fig. 4 The interfaces of CuZero, Concept Map and Color Map systems[35-37]圖4 CuZero, Concept Map and Color Map系統(tǒng)交互界面[35-37]
近年來,隨著手機、平板電腦等移動智能終端的普及以及移動互聯(lián)網(wǎng)的發(fā)展,圖像視頻檢索逐漸從PC端延伸到移動端.移動智能終端與圖像視頻檢索技術的有機融合,改變了信息檢索、獲取及利用的方式,用戶可以更加便捷地獲取多樣化的媒體信息.利用移動設備的攝錄功能,用戶可以快速、方便地采集興趣目標的圖像/視頻作為查詢輸入,利用移動視覺搜索技術查找關聯(lián)信息[38].移動視覺搜索擁有巨大的應用前景,互聯(lián)網(wǎng)巨頭,如谷歌、百度、阿里巴巴等相繼推出了移動視覺搜索服務.移動視覺搜索涉及多方面的研究內容,如系統(tǒng)架構、緊湊視覺描述子、視覺匹配、檢索模型、結果評價、視覺對象知識庫等.圍繞這些內容,研究人員開展了大量的研究工作,推動了移動視覺搜索的進步.本文僅介紹查詢交互方面的相關工作.目前移動視覺搜索應用中的查詢需求大多與用戶日常生活相關,如搜索相似/相同的商品、圖書、人物、食品、景點等.由于移動設備拍攝的查詢圖像往往包含復雜的背景和豐富的前景,待檢索目標在查詢圖像中主體不突出,導致搜索系統(tǒng)難以展開具有針對性的信息查找,同時也造成移動端計算資源、網(wǎng)絡通信資源的浪費.針對于此,研究人員利用智能設備的交互便捷性,開發(fā)了多種面向移動視覺搜索的查詢方法,支持用戶在查詢示例上進行交互,明確檢索目標.例如Sang等人[39]設計了一種查詢交互方式,支持用戶在拍攝的圖像上通過裁剪、畫線、套索等操作圈出興趣目標,利于目標查找.實驗結果表明:套索操作是一種較為自然而有效的交互方式.Kawano與Yanai[40]開發(fā)了基于手機拍照的食物識別/檢索系統(tǒng).Kiapour等人[41]研究了基于手機街拍的服裝檢索任務,其中的查詢交互部分支持用戶采用包圍框指明待檢索對象.You等人[42]開發(fā)的移動搜索系統(tǒng)支持用戶在查詢圖像上通過涂鴉線條區(qū)分背景和待檢索的前景.Ngo等人[43]針對用戶的查詢圖片自動推薦圖片中的若干區(qū)域作為待檢索對象.Yu等人[44]研究了基于手機拍照的地點搜索技術,提出了一種自動的查詢推薦方法,指導用戶拍攝最佳的查詢示例.Zhao等人[45]挖掘“用戶-地點-查詢”三元關系,提出一種張量函數(shù)學習算法,用于向用戶推薦查詢.用戶與系統(tǒng)間的查詢交互能夠幫助用戶明確檢索的主體目標,提高檢索的成功率,改善用戶體驗.
2.3 草圖查詢
隨著觸屏技術的發(fā)展與觸屏設備的普及,手繪草圖成為用戶表達信息的便捷方式.依靠記憶與模仿勾勒草圖進行信息表達是人類與生俱來的能力,利用草圖進行多媒體信息檢索是一種自然的人機交互方式,具有廣闊的應用前景.用戶勾勒的草圖具有高度的抽象性與不確定性.例如用戶描繪的對象輪廓是對檢索對象高度抽象的描述,且存在不同程度的不規(guī)則形變.針對同一對象,不同用戶描繪的草圖往往差異較大.因此,以用戶勾勒的充滿創(chuàng)造力的草圖作為查詢,給檢索提出了更大的挑戰(zhàn).
較之于基于關鍵字/查詢示例的檢索,基于草圖的檢索技術尚處于初步的研究階段.草圖檢索需要處理特征表示、索引結構等方面的難題[46].現(xiàn)有的草圖特征表示方法根據(jù)其特征提取單元的不同可以總結為基于筆劃描述的特征表示、基于組合圖元的特征表示以及基于形狀的特征表示[47].Cao等人[48]開發(fā)了MindFinder草圖檢索系統(tǒng),如圖5所示,針對由筆劃形成的草圖線條,構建一種融合像素坐標與方向角信息的邊緣像素詞典,生成包含邊緣與方向信息的詞袋模型,形成了簡化的形狀特征描述,同時保持了輪廓的空間信息.針對用戶描繪的由一個或多個圖元構成的草圖查詢,可采用基于組合圖元的特征表示與檢索,首先識別草圖與圖像中的基本圖元,通過不同層次的圖形元素抽象,形成統(tǒng)一的特征表示,進而利用圖元之間的空間關系進行檢索,如圖形元素的相對位置關系、相對方位、相對旋轉等[47].基于形狀的特征主要提取草圖輪廓的全局或局部描述,形成草圖的外在形狀特征.Eitz等人[49]采用詞袋模型,實驗評估了形狀內容描述子、星點描述子、改進的標準方向梯度直方圖描述子等形狀特征.實驗結果表明,改進的標準方向梯度直方圖描述子具有相對較好的檢索效果.
Fig. 5 Illustration of sketch queries and the corresponding top 10 search results of MindFinder system[48]圖5 MindFider系統(tǒng)草圖查詢及搜索結果示例[48]
在草圖索引方面,早期的草圖檢索系統(tǒng)采用線性的索引結構,只能處理小規(guī)模的數(shù)據(jù)庫.近年來,為支持面向草圖查詢的大規(guī)模圖片索引與快速查找,研究人員相繼提出了一些新的草圖索引技術.例如,MindFinder系統(tǒng)[48]采用一種類似文檔倒排的Edgel Index索引結構,實現(xiàn)了在200萬幅圖片數(shù)據(jù)庫上僅需幾百毫秒的檢索效率.Xiao等人[50]開發(fā)了IdeaPanel交互式草圖檢索系統(tǒng),支持用戶根據(jù)檢索返回圖像修改草圖重新檢索,實現(xiàn)百萬級圖片實時交互式檢索.Sun等人[51]采用基于K-中心聚類的局部敏感Hash算法(K-medoids locality sensitive hashing),支持大規(guī)模索引,同時采用多探尋(multi-probe)策略,有效減少了Hash表數(shù)量,大幅節(jié)省了存儲開銷,實現(xiàn)了20億規(guī)模圖像數(shù)據(jù)庫的實時草圖檢索.
基于特征匹配的草圖檢索技術一般要求用戶繪制的草圖接近檢索目標,對于幾何形狀與檢索目標差異較大的草圖,難以獲得準確的檢索結果.針對此問題,研究人員提出基于草圖語義的檢索方法,對草圖進行語義分類,以類別作為關鍵字檢索圖像,進而利用形狀等視覺特征改進檢索結果.Schneider和Tuytelaars[52]提出了基于Fisher Vector的草圖識別方法.Sun等人[53]針對用戶草圖類內差異大、類間區(qū)分度小等問題,提出了一種基于查詢自適應的形狀主體模型用于草圖識別與檢索.Yanik和Sezgin等人[54]將主動學習方法應用于草圖識別,降低識別模型訓練對標注樣本的需求量.Yu等人[55]設計了Sketch-a-Net深度神經(jīng)網(wǎng)絡,將深度學習技術應用于草圖識別,取得了顯著的識別效果.Sangkloy等人[56]構建了一個包含大量物體圖片和草圖的數(shù)據(jù)庫,含有125類物體的12 500幅圖片和75 000余幅草圖,以及圖片與草圖間的對應關系.該數(shù)據(jù)集可以用于訓練跨模態(tài)卷積神經(jīng)網(wǎng)絡,學習圖片與草圖的共享特征空間,有效支持草圖檢索與識別.將草圖語義融入草圖檢索能夠降低對用戶繪圖的相似度要求,改善用戶體驗,提升檢索的魯棒性與準確性,為基于草圖的多媒體檢索開拓了新的發(fā)展方向.
2.4 跨媒體查詢
多媒體和互聯(lián)網(wǎng)的空前繁榮促使從不同渠道獲取的文本、圖像和視頻等不同形態(tài)的媒體信息及與之相關的自然、社會屬性信息緊密混合在一起,彼此間存在錯綜復雜的交叉關聯(lián),形成一種新的媒體表現(xiàn)形式,即跨媒體[57].在跨媒體信息環(huán)境下,用戶提交一種媒體對象作為查詢,檢索系統(tǒng)不但可以返回相同種類的相似對象,而且還能返回其他種類的媒體對象,形成更為全面豐富的信息呈現(xiàn),如利用圖像查找語義相關的音頻或視頻片段[58]等.面向跨媒體查詢,檢索系統(tǒng)需要克服不同媒體之間的“鴻溝”,最大限度地挖掘不同媒體之間相互表達、相互補充的語義關聯(lián)性和協(xié)同效應,構建不同種類媒體數(shù)據(jù)的一致性表達與相似性度量,建立能夠有效處理跨媒體查詢和查找跨媒體信息的模型.
近年來,大量的跨媒體表達與度量方法被相繼提出,主要包括子空間學習方法、度量學習方法、主題模型方法以及新興的基于深度學習的方法.其中,子空間學習方法旨在構造一個能夠表達不同種類媒體數(shù)據(jù)的共同子空間,使得不同種類的媒體數(shù)據(jù)在此空間中具有可比性,從而可以采用傳統(tǒng)的度量計算查詢對象與檢索對象的相似度,進行跨媒體檢索.早期的子空間學習算法有典型相關分析(canonical correlation analysis, CCA)[59]、雙線性模型(bilinear model)[60]、跨模態(tài)因子分析方法[61]等.Mahadevan等人[62]將流形學習引入共同子空間學習,最大化不同媒體數(shù)據(jù)間的相關性,同時保持數(shù)據(jù)的局部近鄰關系.Sharma等人[63]提出一種廣義多視圖分析框架,通過引入類別信息以提升子空間的判別性.度量學習方法旨在建立不同媒體數(shù)據(jù)之間合理的距離測度,使得相似的數(shù)據(jù)度量距離小、不相似的數(shù)據(jù)度量距離大.其可以利用數(shù)據(jù)之間的相似/不相似關系,也可以利用數(shù)據(jù)的排序信息進行距離測度的學習.Zhai等人[64]提出一種多視圖距離測度學習算法,保持數(shù)據(jù)分布的局部光滑性與全局一致性.Lu等人[65]提出一種跨模態(tài)排序算法,利用隱結構SVM模型學習距離測度,支持多種排序準則的排序優(yōu)化.Wu等人[66]提出一種基于雙向排序學習的跨媒體表示模型,有效利用圖像到文本以及文本到圖像的雙向排序信息.主題模型方法利用主題學習模型挖掘不同媒體數(shù)據(jù)之間的相關性與一致性.Zheng等人[67]提出一種監(jiān)督的文檔神經(jīng)自回歸分布估計模型,在傳統(tǒng)的文檔神經(jīng)自回歸分布模型中引入語義類別監(jiān)督信息,提升了隱主題特征的判別力,學習了視覺單詞、文本單詞和語義類別之間的共同特征表達.Liao等人[68]提出一種非參數(shù)貝葉斯多模態(tài)主體模型,構建了一種復合非參數(shù)貝葉斯多模態(tài)先驗用于刻畫模態(tài)內部相似性與模態(tài)間相關性.Wang等人[69]提出了一種多模態(tài)共同主題強化模型,建立跨模態(tài)聯(lián)合概率圖模型,建模不同模態(tài)數(shù)據(jù)隱含主題之間的相關性,在圖像與文本的跨模態(tài)檢索任務上進行了實驗驗證.近年來,深度學習技術被應用于跨媒體數(shù)據(jù)特征學習,利用深度神經(jīng)網(wǎng)絡的特征抽象能力,學習不同種類媒體數(shù)據(jù)的統(tǒng)一特征表達.Wei等人[70]采用卷積神經(jīng)網(wǎng)絡進行圖像特征學習,將獲得的深度特征用于跨媒體檢索,實驗對比了深度特征與傳統(tǒng)視覺特征的檢索性能.實驗結果表明,深度特征具有相對較高的檢索精度.Ma等人[71]提出一種多模態(tài)卷積神經(jīng)網(wǎng)絡,建模不同顆粒度的文本片段與圖像之間的關聯(lián)關系,進行文本和視覺的聯(lián)合特征學習,提升了圖像與文本雙向檢索的性能.
隨著跨媒體數(shù)據(jù)規(guī)模的增長,如何構建高效的跨媒體索引以支持大規(guī)??焖俨檎页蔀榭缑襟w檢索需要解決的另一重要問題.跨媒體Hash是解決此問題的有效途徑.其通過設計Hash函數(shù)將不同種類的媒體數(shù)據(jù)映射到共同的Hash空間,盡可能地維持數(shù)據(jù)的近鄰關系,進而通過比對數(shù)據(jù)的Hash值進行快速查找.Wu等人[72]提出一種稀疏多模態(tài)Hash方法,采用超圖表達模態(tài)內部相似性與模態(tài)之間相關性,通過超圖正則化稀疏編碼學習多模態(tài)數(shù)據(jù)的聯(lián)合詞典,進而生成多模態(tài)數(shù)據(jù)的Hash編碼.Ding等人[73]提出一種基于排序保持的跨模態(tài)Hash算法,利用數(shù)據(jù)的排序作為監(jiān)督信息,設計了一種基于回歸的排序保持損失函數(shù),學習跨模態(tài)Hash函數(shù)與Hash碼.Cao等人[74]提出了一種端到端的跨模態(tài)深度Hash算法,采用混合深度網(wǎng)絡結構,包含一個卷積網(wǎng)絡和一個遞歸網(wǎng)絡,分別用于學習視覺Hash函數(shù)和文本Hash函數(shù),以及一個融合網(wǎng)絡用于學習視覺與文本模態(tài)的共同漢明空間.得益于深度神經(jīng)網(wǎng)絡的建模能力,基于深度學習的跨媒體Hash方法具有良好的實驗效果和應用潛力.
3.1 相關反饋
在檢索流程中引入用戶反饋是提升檢索精度的有效途徑.檢索系統(tǒng)支持用戶在輸入查詢后繼續(xù)參與檢索過程,對當前檢索結果標記出與其檢索意圖相關/無關的樣本,明確其信息需求,系統(tǒng)進而根據(jù)用戶的反饋改進檢索模型,調整檢索策略,更新檢索結果.通過用戶與系統(tǒng)的交互,系統(tǒng)能夠實時地、動態(tài)地了解用戶的信息需求及其對數(shù)據(jù)的語義標記,提升系統(tǒng)對用戶需求以及數(shù)據(jù)的理解能力,增強檢索結果中相關樣本的響應而抑制無關樣本的出現(xiàn),使得檢索結果逐步貼近用戶的期望,最終滿足用戶的檢索需求.
20世紀90年代末,Rui和Huang等人[23]提出了基于相關反饋的交互式多媒體檢索方法,為多媒體檢索的發(fā)展開辟了新的道路.基于用戶反饋的交互式檢索廣受關注,國際權威視頻檢索競賽TRECVID一直將交互式視頻檢索作為每年的評測任務之一[75].迄今,研究人員針對多媒體檢索中的相關反饋技術開展了大量研究,以最大化反饋信息獲取與利用且最小化用戶交互量為目標,相繼提出了一系列相關反饋技術,包括基于查詢點移動策略、權值更新策略、機器學習、主動學習等反饋技術,推動了交互式多媒體檢索的發(fā)展.早期的反饋技術主要采用查詢點移動策略[76]和權值更新策略[77].前者根據(jù)用戶反饋修改檢索空間中的查詢點位置,使其盡可能地靠近相關樣本且遠離無關樣本,依據(jù)新的查詢點重新排列檢索結果;后者根據(jù)反饋調整表征查詢的各特征向量權重,形成新的查詢特征表示,更新檢索結果.此類方法主要關注如何根據(jù)用戶反饋提高檢索結果的排序質量,對檢索模型沒有本質的改進.
近年來,研究人員將機器學習理論與方法引入相關反饋中,將檢索轉化為不同類型的監(jiān)督學習問題,設計相應的機器學習模型,基于用戶標記樣本訓練模型,指導新的檢索結果的生成[78].例如考慮到支持向量機(SVM)在有限樣本條件下良好的推廣能力,Zhang等人[79]利用SVM從用戶反饋的相關/無關樣本中學習二類分類模型.Chen等人[80]只考慮相關樣本,采用單類SVM模型.Tong等人[81]提出了基于SVM模型主動學習的相關反饋算法,選擇臨近SVM分類邊界的樣本供用戶反饋標記,達到最大限度地減少模型解釋空間尺寸的目的,實現(xiàn)在有限用戶反饋條件下的盡可能大的信息收益.Zha等人[82]提出了一種結合樣本分布結構性的主動學習算法,刻畫了樣本分布的局部幾何結構以及鄰近樣本的語義相似性,估計樣本對模型的改進作用,同時考慮了樣本的相關度、局域密度、不確定性、多樣性等信息,綜合多種信息遴選最佳待標注樣本供用戶標注,僅需較少的用戶標注,有效提升了模型的性能.交互式圖像視頻檢索的初始結果中往往僅有少數(shù)甚至沒有相關樣本,尤其在檢索復雜查詢時,導致相關反饋效果不佳或失效.針對于此,Yuan等人[24]提出了“部分相關”反饋方法,支持用戶在檢索結果中標記相關/無關樣本的同時,標記與其需求雖非整體相關,但卻“部分相關”的樣本,自動挖掘此類樣本中與用戶需求有關的信息,對用戶需求進行建模,改善檢索結果.在實際應用中,用戶往往需要獲取包含復雜內容的圖像視頻數(shù)據(jù),面向復雜查詢的相關反饋成為新的研究熱點.
3.2 屬性反饋
隨著新反饋技術的不斷提出,多媒體檢索的性能獲得了逐步提升.然而,計算機感知的底層特征與人們認知的高層語義之間存在“語義鴻溝”,依然影響著檢索系統(tǒng)對用戶意圖的建模精度以及對多媒體數(shù)據(jù)的理解準度,制約了多媒體檢索的發(fā)展.為克服“語義鴻溝”,研究人員提出利用視覺屬性作為圖像視頻內容的中層語義描述,連接底層特征與高層語義.視覺屬性即對象固有的視覺特性,描述對象組成部分、形狀、材質等,如鼻子、腿、方形、毛絨的等[83].視覺屬性比語義概念易于通過底層特征建模,比底層特征易于被人們理解.得益于其固有優(yōu)勢,視覺屬性被廣泛應用圖像視頻分析與檢索中.研究人員提出了一系列屬性建模方法[84-86],基于屬性模型的輸出形成圖像視頻的中層特征表達,用于分析與檢索.Douze等人[87]融合屬性特征與Fisher向量進行圖像檢索.Scheirer等人[88]構建多屬性空間,獲得更好的屬性特征,提高檢索精度.Liu等人[89]將屬性應用于服裝圖像分析與檢索.
考慮到視覺屬性的優(yōu)點,研究人員提出了基于屬性的反饋技術,利用用戶對屬性的反饋構成其檢索意圖的中層語義描述,利用屬性作為連接用戶檢索意圖與圖像視頻數(shù)據(jù)的中間橋梁.Zhang等人[90]提出了一種屬性反饋方法,自動挖掘有助于改進當前檢索的屬性,支持用戶在屬性上進行相關/無關反饋,改變了只支持用戶在圖像/視頻樣本上進行反饋的傳統(tǒng)機制,如圖6所示.用戶在屬性上的反饋構成了對其檢索目標的屬性描述,如“有腿、有翅膀、沒有輪子”等,有利于系統(tǒng)理解用戶需求.針對某一相關的屬性,支持用戶標記檢索返回圖像在該屬性上與用戶期望的圖像是否相似,如某幅檢索返回圖像中的“鼻子”與用戶期望的相似/不相似,以此得到對用戶需求更為精細的屬性描述.進而,檢索系統(tǒng)基于屬性模型,結合用戶反饋,改善檢索結果.Zhang等人[91]進一步構建了一種集語義概念與屬性于一體的語義樹,根據(jù)概念之間的層級關系以及屬性與概念的從屬關系,將概念與屬性有機地組織起來.基于概念與屬性模型,形成對圖像內容的層次化語義描述,多粒度地刻畫了圖像內容.在此基礎上,提出了樣本與屬性混合反饋機制,支持用戶標記相關/無關樣本及相關/無關屬性,利用用戶反饋有效提升了檢索結果與用戶意圖的相關度.Kovashka等人[92]和Yu等人[93]提出了基于相對屬性的交互式圖像檢索系統(tǒng).相對屬性是指就某一屬性而言,某一圖像與其他圖像相比在該屬性上的相對比較關系,例如某一圖像中的鞋子根部比其他圖像中的鞋根“更高”.相對屬性較二值屬性能夠表達更豐富的信息,符合用戶對檢索需求的表述,如圖7所示,用戶想搜索一雙與之相似卻更華麗的鞋子.檢索系統(tǒng)針對每個屬性訓練一個排序模型,用于判斷任意2幅圖像在該屬性上的比較關系,基于屬性的排序模型,結合用戶相對屬性反饋,更新檢索結果序列.
Fig. 6 The framework of attribute feedback system[90]圖6 屬性反饋系統(tǒng)框架圖[90]
Fig. 7 Illustration of relative attribute feedback[92]圖7 相對屬性反饋示例[92]
隨著研究的推進,屬性的獲取由人為定義與手工標注發(fā)展為自動挖掘與識別,屬性集合的規(guī)模由幾十種屬性增長至成百上千種屬性,屬性的范疇由描述物體的屬性拓寬為描述場景、事件等各類分析目標的屬性,如以場景為分析目標時場景內的物體即為屬性,以事件為目標時事件的組成部分即為屬性,屬性反饋的類型由二值反饋發(fā)展為相對比較反饋等更細粒度的信息反饋.
3.3 隱式反饋
充分利用用戶隱式反饋數(shù)據(jù)是提升檢索系統(tǒng)性能的另一有效途徑.用戶的檢索歷史與交互行為是隱式反饋信息的主要來源之一,通常包括輸入的查詢、點擊的網(wǎng)頁、停留的時間等.隱式反饋數(shù)據(jù)蘊含著用戶的偏好,為理解用戶檢索意圖提供了線索.盡管隱式反饋數(shù)據(jù)存在大量噪聲,不如顯示反饋精確,但在實際應用中,隱式反饋遠比顯示反饋豐富,大量存在于檢索系統(tǒng)中,具有數(shù)據(jù)規(guī)模大、應用場景廣等優(yōu)勢,同時也不要求用戶對檢索結果進行反饋,減輕了用戶操作負擔.
近年來,基于隱式反饋的信息檢索成為研究熱點.大量的研究工作圍繞著如何挖掘利用隱式反饋數(shù)據(jù)改進檢索而展開.作為最常用的隱式反饋數(shù)據(jù),用戶的點擊數(shù)據(jù)(click through)記錄著用戶在搜索過程中對文檔、圖像等對象的點擊歷史,從一定程度上反映著文檔、圖像等與用戶查詢及檢索意圖的關聯(lián)強度.大量的研究表明,利用點擊數(shù)據(jù)可以有效提升信息檢索的精度.點擊數(shù)據(jù)早先在文本檢索中得到研究與應用.例如,Agichtein等人[94]通過實驗表明,在網(wǎng)頁檢索中利用用戶點擊數(shù)據(jù)可以使得檢索結果的相關度提高約30%.Joachims[95]利用點擊數(shù)據(jù)訓練排序SVM模型用于提升檢索系統(tǒng)的排序質量.Jiang等人[96]以微軟Bing搜索引擎的日志數(shù)據(jù)為基礎,提出一種回歸模型預測多粒度的搜索結果滿意度.在圖像視頻檢索中利用點擊數(shù)據(jù)的研究雖然起步相對較晚,但進展迅速.點擊數(shù)據(jù)有助于克服圖像視頻檢索中的“意圖鴻溝”和“語義鴻溝”[97],被廣泛用于圖像視頻排序、重排序、分類等多個環(huán)節(jié),展示出良好的實驗效果.Hua等人[97]以商業(yè)圖像搜索引擎的點擊數(shù)據(jù)為基礎,構建了一個公開的大規(guī)模圖像搜索點擊數(shù)據(jù)集.Jain和Varma[98]利用點擊數(shù)據(jù)訓練高斯過程回歸模型,預測檢索返回圖片的歸一化點擊率,對檢索結果進行重排序.Yu等人[99]結合點擊數(shù)據(jù)與圖像視覺特征進行圖像搜索重排序,分別利用點擊數(shù)據(jù)和多種視覺特征構建語義流形與視覺流形,提出一種基于多視圖超圖學習的重排序算法,在重排序學習中融合了語義流形與視覺流形.O’Hare等人[100]綜合使用點擊數(shù)據(jù)與鼠標懸停記錄,提出了多種隱式反饋特征,結合排序學習框架,實驗驗證了隱式反饋特征對網(wǎng)絡圖像搜索的改進作用.Wu等人[101]提出使用點擊圖表達點擊數(shù)據(jù),充分挖掘數(shù)據(jù)對象之間的隱式關聯(lián).圖中的頂點對應查詢詞或圖片,聯(lián)接邊強度表示圖片與查詢詞之間的點擊頻率.結合點擊圖,采用隨機游走模型學習多模態(tài)特征,提升了檢索精度.Jiang等人[102]采用多層感知機和雙通道遞歸神經(jīng)網(wǎng)絡從點擊數(shù)據(jù)中“端到端”地學習用戶查詢與圖像/視頻的語義概念之間的映射關系,用于提高圖像/視頻檢索的質量.在點擊數(shù)據(jù)取得成功應用的同時,也應注意到點擊數(shù)據(jù)具有明顯的長尾現(xiàn)象,存在大量用戶點擊頻度低的長尾查詢.如何提高長尾查詢的檢索質量是有待解決的問題.
不同于上述工作利用檢索系統(tǒng)記錄的隱式反饋數(shù)據(jù),另有一些研究工作利用腦機接口、眼動儀等外部設備采集用戶在檢索過程中的各類行為數(shù)據(jù),用于指導檢索的進行.例如Wang等人[103]利用基于EEG的腦機接口系統(tǒng)采集用戶瀏覽圖片時的腦電信號,進而分析出用戶感興趣的目標.Papadopoulos等人[104]利用眼動儀跟蹤和記錄用戶瀏覽圖片時的注視行為,提出了多種注視信號特征,用于提高圖像檢索結果與用戶信息需求的相關度.Kauppi等人[105]在檢索過程中綜合使用腦磁信號與眼動數(shù)據(jù)以提高檢索的質量.
在信息檢索中,往往存在用戶不熟悉檢索目標領域、不確定檢索目標的路徑,甚至不確定檢索目標等情況.在此類情況下,用戶需要進行信息探索.用戶搜索行為分析相關研究表明,用戶搜索行為中有相當比例屬于探索式搜索[106].探索式搜索的定義是:可用來描述一種開放的、持續(xù)的、多方面的信息搜尋的問題情景和具有機會性、反復性、多策略的信息搜尋過程.探索式搜索是交織著查找、學習、調查的反復的、啟發(fā)式的交互過程.與傳統(tǒng)搜索相比,探索式搜索的特征是最初的信息需求是模糊的,缺乏檢索對象的相關知識,經(jīng)多次交互,目標發(fā)生變化,檢索終止的條件不清晰.探索式搜索更加依賴于用戶與檢索系統(tǒng)的交互.近年來,研究人員針對面向多媒體數(shù)據(jù)的探索式搜索技術開展了初步的研究[107-109].如何增強用戶與檢索系統(tǒng)之間的交互能力,支持用戶進行信息探索與發(fā)現(xiàn),協(xié)助用戶在繁雜的信息空間中完成高效的信息發(fā)現(xiàn),是探索式搜索研究的關鍵.
隨著圖像視頻等多媒體數(shù)據(jù)規(guī)模的爆炸式增長以及各類媒體智能應用需求的日益迫切,多媒體信息檢索成為學術界的研究熱點和工業(yè)界的關注焦點.發(fā)展多媒體檢索中的查詢與反饋技術是克服“意圖鴻溝”和“語義鴻溝”的有效途徑.本文在現(xiàn)有文獻的基礎上,介紹了多媒體檢索查詢與反饋技術發(fā)展與演變的脈絡,綜述了不同時期的技術革新.其中,查詢的輸入方式由經(jīng)典的“查詢框”輸入衍生出交互式查詢構建以及草圖勾勒查詢.隨著新穎查詢方式的應用,查詢的模態(tài)也不斷被刷新,由單一的文本或視覺模態(tài)發(fā)展為多模態(tài)查詢、跨媒體查詢.多種查詢模態(tài)的有效融合和不同種類媒體數(shù)據(jù)的跨越檢索,顯著提升了多媒體檢索的準確度與覆蓋率.另一方面,反饋的形式由樣本相關反饋衍生出語義屬性相關反饋,反饋的類型由二值反饋發(fā)展為多值反饋、比較反饋等更細粒度的信息反饋.與此同時,隱式反饋因具有數(shù)據(jù)規(guī)模大、應用場景廣等固有優(yōu)勢,吸引著的越來越多的關注.在算法方面,深度學習技術在查詢與反饋的分析與建模中展示出良好的效果,逐漸成為主流的查詢與反饋算法.
過往的研究促進了技術的進步,然而現(xiàn)階段的技術遠非完善,尚存諸多問題亟待研究,例如:1)用戶檢索行為分析與建模問題,包括用戶在檢索中的客觀行為分析、認知要素分析以及行為建模方法與演化機制等;2)多媒體檢索與移動智能設備融合問題,包括在檢索中對移動智能設備多通道信息采集功能與環(huán)境感知能力的充分利用以及對多樣化查詢與多模態(tài)數(shù)據(jù)的綜合處理等;3)用戶、模型與系統(tǒng)協(xié)同問題,包括探索更加合理的多媒體信息人機協(xié)同處理機制、更加有效的交互式分析與檢索技術等.
[1]Snoek C G M, Worring M. Concept-based video retrieval[J]. Foundations and Trends in Information Retrieval, 2008, 2(4): 215-322
[2]Datta R, Joshi D, Li Jia, et al. Image retrieval: Ideas, influences, and trends of the new age[J]. ACM Computing Surveys, 2008, 40(2): 5
[3]Zhang Lei, Rui Yong. Image search-from thousands to billions in 20 years[J]. ACM Trans on Multimedia Computing Communications & Applications, 2013, 9(1s): 36
[4]Wang Xinjing, Xu Zheng, Zhang Lei, et al. Towards indexing representative images on the Web[C] //Proc of the 20th ACM Int Conf on Multimedia. New York: ACM, 2012: 1229-1238
[5]Flickner M, Sawhney H, Niblack W, et al. Query by image and video content: The QBIC system[J]. Computer, 1995, 28(9): 23-32
[6]Smith J R. VisualSeek: A fully automated content-based image query system[C] //Proc of the 4th ACM Int Conf on Multimedia. New York: ACM, 1970: 87-98
[7]Huang T, Mehrotra S, Ramchandran K. Multimedia analysis and retrieval system (MARS) project[C] //Proc of 33rd Clinic on Library Application of Data Proc-Digital Image Access and Retrieval. Urbana, Illinois: Graduate School of Library and Information Science, University of Illinois at Urbana-Champaign, 1997: 100-117
[8]Lowe D G. Object recognition from local scale-invariant features[C] //Proc of the Int Conf on Computer Vision. Piscataway, NJ: IEEE, 1999: 1150-1157
[9]Andoni A, Indyk P. Near-optimal hashing algorithms for approximate nearest neighbor in high dimensions[J]. Annual Symp on Foundations of Computer Science, 2006, 51(1): 459-468
[10]Jiang Yugang, Ngo C W, Yang Jun. Towards optimal bag-of-features for object categorization and semantic video retrieval[C] //Proc of the 6th ACM Int Conf on Image and Video Retrieval. New York: ACM, 2007: 494-501
[11]Snoek C, Sande K, Rooij O D, et al. The MediaMill TRECVID 2009 semantic video search engine[C] //Proc of TRECVID Workshop. New York: ACM, 2009: 1-14
[12]Yanagawa S F, Chang L, Kennedy W, et al. Columbia university’s baseline detectors for 374 lscom semantic visual concepts[R]. New York: Columbia University, 2007
[13]Mei Tao, Zha Zhengjun, Liu Yuan, et al. MSRA at TRECVID 2008 high-level feature extraction and automatic search[C] //Proc of TRECVID Working Notes. New York: ACM, 2008: 1-11
[14]Wang Xinjing, Zhang Lei, Jing Fei, et al. Annosearch: Image auto-annotation by search[C] //Proc of the 19th IEEE Conf on Computer Vision and Pattern Recognition (CVPR 2006). Piscataway, NJ: IEEE, 2006: 1483-1490
[15]Zhao Wanlei, Wu Xiao, Ngo C W. On theannotation of Web videos by efficient near-duplicatesearch[J]. IEEE Trans on Multimedia, 2010, 12(5): 448-461
[16]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2012, 25(2): 1-9
[17]Karpathy A, Toderici G, Shetty S, et al. Large-scale video classification with convolutional neural networks[C] //Proc of the 27th IEEE Conf on Computer Vision and Pattern Recognition (CVPR 2014). Piscataway, NJ: IEEE, 2014: 1725-1732
[18]Donahue J, Anne H L, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C] //Proc of the 28th IEEE Conf on Computer Vision and Pattern Recognition (CVPR 2015). Piscataway, NJ: IEEE, 2015: 2625-2634
[19]Kulis B, Grauman K. Kernelized locality-sensitive hashing for scalable image search[C] //Proc of the 12th Int Conf on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2009: 2130-2137
[20]Wang Jingdong, Wang Jing, Zeng Gang, et al. Fast Neighborhood Graph Search Using Cartesian Concatenation[M]. Berlin: Springer, 2013: 2128-2135
[21]Mei Tao, Rui Yong, Li Shipeng, et al. Multimedia search reranking: A literature survey[J]. ACM Computing Surveys, 2014, 46(3): 1-37
[22]Li Hang. Learning to Rank for Information Retrieval and Natural Language Rrocessing[M]. San Rafael, CA: Morgan & Claypool, 2011
[23]Rui Yong, Huang T S, Ortega M, et al. Relevance feedback: A power tool for interactive content-based image retrieval[J]. IEEE Trans on Circuits & Systems for Video Technology, 2000, 3312(5): 644-655
[24]Yuan Jin, Zha Zhengjun, Zheng Yantao, et al. Utilizing related samples to enhance interactive concept-based video search[J]. IEEE Trans on Multimedia, 2011, 13(6): 1343-1355
[25]Zhang Hanwang, Zha Zhengjun, Yan Shuicheng, et al. Attribute feedback[C] //Proc of the 20th ACM Int Conf on Multimedia. New York: ACM, 2012: 79-88
[26]Strohmaier M, Kr?ll M, K?rner C. Intentional query suggestion: Making user goals more explicit during search[C] //Proc of the 2009 Workshop on Web Search Click Data. New York: ACM, 2009: 68-74
[27]Luo Cheng, Liu Yiqun, Zhang Min, et al. Query recommendation based on user intent recognition[J]. Journal of Chinese Information Processing, 2014, 28(1): 64-72 (in Chinese)
(羅成, 劉奕群, 張敏, 等. 基于用戶意圖識別的查詢推薦研究[J]. 中文信息學報, 2014, 28(1): 64-72)
[28]Boldi P, Bonchi F, Castillo C, et al. The query-flow graph: Model and applications[C] //Proc of the 17th ACM Conf on Information and Knowledge Management. New York: ACM, 2008: 609-618
[29]Song Yang, Zhou Dengyong, He Liwei. Query suggestion by constructing term-transition graphs[C] //Proc of the 5th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2012: 353-362
[30]Zhu Xiaofei, Guo Jiafeng, Cheng Xueqi, et al. Query recommendation based on manifold ranking[J]. Journal of Chinese Information Processing, 2011, 25(2): 38-44 (in Chinese)
(朱小飛, 郭嘉豐, 程學旗, 等. 基于流形排序的查詢推薦方法[J]. 中文信息學報, 2011, 25(2): 38-44)
[31] Zha Zhengjun, Yang Linjun, Mei Tao, et al. Visual query suggestion[C] //Proc of the 17th ACM Int Conf on Multimedia. New York: ACM, 2009: 15-24
[32]Zha Zhengjun, Yang Linjun, Mei Tao, et al. Visual query suggestion: Towards capturing user intent in Internet image search[J]. ACM Trans on Multimedia Computing Communications & Applications, 2010, 6(3): 219-239
[33]Lu Shiyang, Mei Tao, Wang Jingdong, et al. Exploratory product image search with circle-to-search interaction[J]. IEEE Trans on Circuits and Systems for Video Technology, 2015, 25(7): 1190-1202
[34]Zhang Wei, Pang Lei, Ngo C W. Snap-and-ask: Answering multimodal question by naming visual instance[C] //Proc of the 20th ACM Int Conf on Multimedia. New York: ACM, 2012: 609-618
[35]Zavesky E, Chang S F. CuZero: Embracing the frontier of interactive visual search for informed users[C] //Proc of the ACM Int Conf on Multimedia Information Retrieval. New York: ACM, 2008: 237-244
[36]Xu Hao, Wang Jingdong, Hua Xiansheng, et al. Image search by concept map[C] //Proc of the 33rd Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2010: 275-282
[37]Wang Jingdong, Hua Xiansheng. Interactive image search by color map[J]. ACM Trans on Intelligent Systems and Technology, 2011, 3(1): 12
[38]Duan Lingyu, Huang Tiejun, Gao Wen. Technical research and standardization in mobile visual search[J]. Information and Communications Technologies, 2012, 6(2): 51-58 (in Chinese)
(段凌宇, 黃鐵軍, 高文. 移動視覺搜索技術研究與標準化進展[J]. 信息通信技術, 2012, 6(2): 51-58)
[39]Sang Jitao, Mei Tao, Xu Yingqing, et al. Interaction design for mobile visual search[J]. IEEE Trans on Multimedia, 2013, 15(7): 1665-1676
[40]Kawano Y, Yanai K. Foodcam: A real-time food recognition system on a smartphone[J]. Multimedia Tools and Applications, 2015, 74(14): 5263-5287
[41]Kiapour M H, Han X, Lazebnik S, et al. Where to buy it: Matching street clothing photos in online shops[C] //Proc of the 28th IEEE Conf on Computer Vision and Pattern Recognition (CVPR 2015). Piscataway, NJ: IEEE, 2015: 3343-3351
[42]You Quanzeng, Yuan Jianbo, Wang Jiaqi, et al. Snap n’shop: Visual search-based mobile shopping made a breeze by machine and crowd intelligence[C] //Proc of the 9th 2015 IEEE Int Conf on Semantic Computing. Piscataway, NJ: IEEE, 2015: 173-180
[43]Ngo T D, Phan S, Le D D, et al. Recommend-me: Recommending query regions for image search[C] //Proc of the 29th Annual ACM Symp on Applied Computing. New York: ACM, 2014: 913-918
[44]Yu F X, Ji R, Chang S F. Active query sensing for mobile location search[C] //Proc of the 19th ACM Int Conf on Multimedia. New York: ACM, 2011: 3-12
[45]Zhao Zou, Song Ruihua, Xie Xing, et al. Mobile query recommendation via tensor function learning[C] //Proc of the 24th Int Conf on Artificial Intelligence. New York: ACM, 2015: 4084-4090
[46]Wang Changhu, Zhang Lei. Charm and challenge sketches search[J].China Computer Society Newsletter, 2012, 8(12): 20-26 (in Chinese)
(王長虎, 張磊. 草圖搜索的魅力與挑戰(zhàn)[J]. 中國計算機學會通訊, 2012, 8(12): 20-26)
[47]Xin Yuxuan, Yan Zifei. Research progress of image retrieval based on hand-drawn sketches [J]. CAAI Trans on Intelligent Systems, 2015 (2): 167-177 (in Chinese)
(辛雨璇, 閆子飛. 基于手繪草圖的圖像檢索技術研究進展[J]. 智能系統(tǒng)學報, 2015 (2): 167-177)
[48]Cao Yang, Wang Hai, Wang Changhu, et al. MindFinder: Interactive sketch-based image search on millions of images[C] //Proc of the 18th ACM Int Conf on Multimedia. New York: ACM, 2010: 1605-1608
[49]Eitz M, Hays J, Alexa M. How do humans sketch objects?[J]. ACM Trans on Graphics, 2012, 31(4): 44:1-44:10
[50]Xiao Changcheng, Wang Changhu, Zhang Liqing, et al. IdeaPanel: A large scale interactive sketch-based image search system[C] //Proc of the 23rd ACM Int Conf on Multimedia Retrieval. New York: ACM, 2015: 667-668
[51]Sun Xinghai, Wang Changhu, Xu Chao, et al. Indexing billions of images for sketch-based retrieval[C] //Proc of the 21st ACM Int Conf on Multimedia. New York: ACM, 2013: 233-242
[52]Schneider R G, Tuytelaars T. Sketch classification and classification-driven analysis using fisher vectors [J]. ACM Trans on Graphics, 2014, 33(6): 174
[53]Sun Zhenbang, Wang Changhu, Zhang Liqing, et al. Query-adaptive shape topic mining for hand-drawn sketch recognition[C] //Proc of the 20th ACM Int Conf on Multimedia. New York: ACM, 2012: 519-528
[54]Yanlk E, Sezgin T M. Active learning for sketch recognition [J]. Computers & Graphics, 2015, 52: 93-105
[55]Yu Qian, Yang Yongxin, Liu Feng, et al. Sketch-a-Net: A deep neural network that beats humans[J]. International Journal of Computer Vision, 2016, 7(5): 337-341
[56]Sangkloy P, Burnell N, Ham C, et al. The sketchy database: Learning to retrieve badly drawn bunnies[J]. ACM Trans on Graphics, 2016, 35(4): 1-12
[57]Zhuang Yueting, Wu Fei, He Xiaofei. Cross-media retrieval and ranking[J]. Communications of the CCF, 2014, 10(7): 14-19 (in Chinese)
(莊越挺, 吳飛, 何曉飛. 跨媒體檢索與排序[J]. 中國計算機學會通訊, 2014,10(7): 14-19)
[58]Zhao Yao, Wei Shikui, Wang Shuhui, et al. Knowledge expression of cross-media-perception, association and consistency[J]. Communications of the CCF, 2014, 10(7): 8-13 (in Chinese)
(趙耀, 韋世奎, 王樹徽, 等. 跨媒體時代的知識表達—感知、關聯(lián)及一致性表示[J]. 中國計算機學會通訊, 2014, 10(7): 8-13)
[59]Hardoon D R, Szedmak S, Shawe-Taylor J. Canonical correlation analysis: An overview with application to learning methods[J]. Neural Computation, 2004, 16(12): 2639-2664
[60]Tenenbaum J B, Freeman W T. Separating style and content with bilinear models[J]. Neural Computation, 2000, 12(6): 1247
[61]Li Dongge, Dimitrova N, Li Mingkun, et al. Multimedia content processing through cross-modal association[C] //Proc of the 11th ACM Int Conf on Multimedia. New York: ACM, 2003: 604-611
[62]Mahadevan V, Wong C W, Pereira J C, et al. Maximum covariance unfolding: Manifold learning for bimodal data[C] //Proc of the 25th Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2011: 918-926
[63]Sharma A, Kumar A, Daume H, et al. Generalized multiview analysis: A discriminative latent space[C] //Proc of the 25th IEEE Conf on Computer Vision and Pattern Recognition (CVPR 2012). Piscataway, NJ: IEEE, 2012: 2160-2167
[64]Zhai Deming, Chang Hong, Shan Shiguang, et al. Multiview metric learning with global consistency and local smoothness[J]. ACM Trans on Intelligent Systems and Technology, 2012, 3(3): 53
[65]Lu Xinyan, Wu Fei, Tang Siliang, et al. A low rank structural large margin method for cross-modal ranking[C] //Proc of the 36th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2013: 433-442
[66]Wu Fei, Lu Xinyan, Zhang Zhongfei, et al. Cross-media semantic representation via bi-directional learning to rank[C] //Proc of the 21st ACM Int Conf on Multimedia. New York: ACM, 2013: 877-886
[67]Zheng Y, Zhang Y J, Larochelle H. Topic modeling of multimodal data: An autoregressive approach[C] //Proc of the 27th IEEE Conf on Computer Vision and Pattern Recognition (CVPR 2014). Piscataway, NJ: IEEE, 2014: 1370-1377
[68]Liao Renjie, Zhu Jun, Qin Zenchang. Nonparametric Bayesian upstream supervised multi-modal topic models[C] //Proc of the 7th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2014: 493-502
[69]Wang Yanfei, Wu Fei, Song Jun, et al. Multi-modal mutual topic reinforce modeling for cross-media retrieval[C] //Proc of the 22nd ACM Int Conf on Multimedia. New York: ACM, 2014: 307-316
[70]Wei Yunchao, Zhao Yao, Lu Canyi, et al. Cross-modal retrieval with CNN visual features: A new baseline[J]. IEEE Trans on Cybernetics, 2017, 47(2): 449-460
[71]Ma Lin, Lu Zhengdong, Shang Lifeng, et al. Multimodal convolutional neural networks for matching image and sentence[J]. Computer Science, 2015: 2623-2631
[72]Wu Fei, Yu Zhou, Yang Yi, et al. Sparse multi-modal hashing[J]. IEEE Trans on Multimedia, 2014, 16(2): 427-439
[73]Ding Kun, Fan Bin, Huo Chunlei, et al. Cross-modal hashing via rank-order preserving[J]. IEEE Trans on Multimedia, 2017, 19(3): 571-585
[74]Cao Yue, Long Mingsheng, Wang Jianmin, et al. Deep visual-semantic hashing for cross-modal retrieval[C] //Proc of the 22nd ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2016: 1445-1454
[75]TRECVID. TREC video retrieval evaluation[OL]. [2017-03-16]. http://www-nlpir.nist. gov/projects/trecvid/
[76]Liu Danzhou, Hua K A, Vu K, et al. Fast query point movement techniques for large CBIR systems[J]. IEEE Trans on Knowledge & Data Engineering, 2008, 21(5): 729-743
[77]Aksoy S, Haralick R M, Cheikh F A, et al. A weighted distance approach to relevance feedback[J]. Electronic Test, 2011, 4(4): 812-815
[78]Huang T S, Dagli C K, Rajaram S, et al. Active learning for interactive multimedia retrieval[J]. Proceedings of the IEEE, 2008, 96(4): 648-667
[79]Zhang Lei, Lin Fuzong, Zhang Bo. Support vector machine learning for image retrieval[C] //Proc of the 3rd Int Conf on Image Processing. Piscataway, NJ: IEEE, 2001: 721-724
[80]Chen Yunqiang, Zhou X S, Huang T S. One-class SVM for learning in image retrieval[C] //Proc of 2001 IEEE Int Conf on Image Processing. Piscataway, NJ: IEEE, 2001: 34-37
[81]Tong S, Chang E. Support vector machine active learning for image retrieval[C] //Proc of the 9th ACM Int Conf on Multimedia. New York: ACM, 2001: 107-118
[82]Zha Zengjun, Wang Meng, Zheng Yantao, et al. Interactive video indexing with statistical active learning[J]. IEEE Trans on Multimedia, 2012, 14(1): 17-27
[83]Farhadi A, Endres I, Hoiem D, et al. Describing objects by their attributes[C] //Proc of the 22nd IEEE Conf on Computer Vision and Pattern Recognition (CVPR 2009). Piscataway, NJ: IEEE, 2009: 1778-1785
[84]Vittayakorn S, Umeda T, Murasaki K, et al. Automatic Attribute Discovery with Neural Activations[M]. Berlin: Springer, 2016
[85]Zheng Jingjing, Jiang Zhuolin, Chellappa R. Submodular attribute selection for visual recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2016, DOI: 10.1109/TPAMI.2016.2636827
[86]Li Yining, Huang Chen, Loy C C, et al. Human attribute recognition by deep hierarchical contexts[C] //Proc of the European Conf on Computer Vision. Berlin: Springer, 2016: 684-700
[87]Douze M, Ramisa A, Schmid C. Combining attributes and fisher vectors for efficient image retrieval[C] //Proc of the 24th IEEE Conf on Computer Vision and Pattern Recognition (CVPR 2011). Piscataway, NJ: IEEE, 2011: 745-752
[88]Scheirer W J, Kumar N, Belhumeur P N, et al. Multi-attribute spaces: Calibration for attribute fusion and similarity search[C] //Proc of the 25th IEEE Conf on Computer Vision and Pattern Recognition (CVPR 2012). Piscataway, NJ: IEEE, 2012: 2933-2940
[89]Liu Ziwei, Luo Ping, Qiu Shi, et al. Deepfashion: Powering robust clothes recognition and retrieval with rich annotations[C] //Proc of the 29th IEEE Conf on Computer Vision and Pattern Recognition(CVPR 2016). Piscataway, NJ: 2016: 1096-1104
[90]Zhang Hanwang, Zha Zhengjun, Yan Shuicheng, et al. Attribute feedback[C] //Proc of the 20th ACM Int Conf on Multimedia. New York: ACM, 2012: 79-88
[91]Zhang Hanwang, Zha Zhengjun, Yang Yang, et al. Attribute-augmented semantic hierarchy: Towards a unified framework for content-based image retrieval[J]. ACM Trans on Multimedia Computing, Communications, and Applications, 2014, 11(1s): 21
[92]Kovashka A, Parikh D, Grauman K. Whittlesearch: Interactive image search with relative attribute feedback[J]. Int Journal of Computer Vision, 2015, 115(2): 185-210
[93]Yu A, Grauman K. Just noticeable differences in visual attributes[C] //Proc of the IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2015: 2416-2424
[94]Agichtein E, Brill E, Dumais S. Improving Web search ranking by incorporating user behavior information[C] //Proc of the 29th ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2006: 19-26
[95]Joachims T. Optimizing search engines using clickthrough data[C] //Proc of the 8th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2002: 133-142
[96]Jiang J, Hassan A A, Shi X, et al. Understanding and predicting graded search satisfaction[C] //Proc of the 8th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2015: 57-66
[97]Hua Xiansheng, Yang Linjun, Wang Jingdong, et al. Clickage: Towards bridging semantic and intent gaps via mining click logs of search engines[C] //Proc of the 21st ACM Int Conf on Multimedia. New York: ACM, 2013: 243-252
[98]Jain V, Varma M. Learning to re-rank: Query-dependent image re-ranking using click data[C] //Proc of the 20th Int Conf on World Wide Web. New York: ACM, 2011: 277-286
[99]Yu Jun, Rui Yong, Chen Bo. Exploiting click constraints and multi-view features for image re-ranking[J]. IEEE Trans on Multimedia, 2014, 16(1): 159-168
[100]O’Hare N, De Juan P, Schifanella R, et al. Leveraging user interaction signals for Web image search[C] //Proc of the 39th ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2016: 559-568
[101]Wu Fei, Lu Xinyan, Song Jun, et al. Learning of multimodal representations with random walks on the click graph[J]. IEEE Trans on Image Processing, 2016, 25(2): 630-642
[102]Jiang Lu, Cao Liangliang, Kalantidis Y, et al. Delving deep into personal photo and video search[C] //Proc of the 10th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2017: 801-810
[103]Wang J, Pohlmeyer E, Hanna B, et al. Brain state decoding for rapid image retrieval[C] //Proc of the 17th ACM Int Conf on Multimedia. New York: ACM, 2009: 945-954
[104]Papadopoulos G T, Apostolakis K C, Dara P. Gaze-based relevance feedback for realizing region-based image retrieval[J]. IEEE Trans on Multimedia, 2013, 16(2): 440-454
[105]Kauppi J P, Kandemir M, Saarinen V M, et al. Towards brian-activity-controlled information retrieval: Decoding image relevance from MEG signals[J]. NeuroImage, 2015, 112(6): 288-298
[106]Marchionini G. Exploratory search: From finding to understanding[J]. Communications of the ACM, 2006, 49(4): 41-46
[107]Kai U B, Hezel N, Mackowiak R. ImageMap-Visually Browsing Millions of Images[M]. Berlin: Springer, 2015: 287-290
[108]Halvey M, Vallet D, Hannah D, et al. Supporting exploratory video retrieval tasks with grouping and recommendation[J]. Information Processing & Management, 2014, 50(6): 876-898
[109]Tsukuda K, Goto M. Exploratory video search: A music video search system based on coordinate terms and diversification[C] //Proc of the 2015 IEEE Int Symp on Multimedia (ISM). Piscataway, NJ: IEEE, 2015: 221-224
Zha Zhengjun, born in 1984. PhD. Professor, PhD supervisor in University of Science and Technology of China. His main research interests include multimedia analysis and retrieval, computer vision, and patter recognition.
Zheng Xiaoju, born in 1987. PhD candidate. Her main research interests include video analysis and retrieval.
Query and Feedback Technologies in Multimedia Information Retrieval
Zha Zhengjun1and Zheng Xiaoju1,2
1(SchoolofInformationScienceandTechnology,UniversityofScienceandTechnologyofChina,Hefei230027)2(HefeiInstitutesofPhysicalScience,ChineseAcademyofSciences,Hefei230031)
In spite of the remarkable progress made in the past decades, multimedia information retrieval still suffers from the “intention gap” and “semantic gap”. To address this issue, researchers have proposed a wealth of query technologies to help user express search intent clearly as well as feedback technologies to help retrieval system understand user intent and multimedia data accurately, leading to significant improvements of retrieval performance. This paper presents a survey of the query and feedback technologies in multimedia information retrieval. We summarize the evolution of query styles and the development of feedback approaches. We elaborate the query approaches for retrieval on PC,mobile intelligent devices and touch-screen devices etc. We introduce the feedback approaches proposed in different periods and discuss the interaction issue in exploratory multimedia retrieval. Finally, we discuss future research directions in this field.
multimedia information retrieval; retrieval intent; content understanding; query; feedback
2017-01-05;
2017-04-24
國家自然科學基金面上項目(61472392);國家自然科學基金優(yōu)秀青年科學基金項目(61622211);國家自然科學基金重點國際合作項目(61620106009) This work was supported by the General Program of the National Natural Science Foundation of China (61472392), the National Natural Science Foundation of China for Excellent Young Scientists (61622211), and the Key Project of International Cooperation of the National Natural Science Foundation of China (61620106009).
TP391