摘 要 數(shù)字多媒體文件目前主要包含文本、圖像、音頻和視頻四種主要格式。在對(duì)多媒體文件進(jìn)行搜索時(shí),因?yàn)榛ヂ?lián)網(wǎng)上的圖像和音、視頻文件的傳播缺乏統(tǒng)一規(guī)范,同一內(nèi)容會(huì)采用不同的主題詞來(lái)描述,且其包含的內(nèi)容豐富,數(shù)據(jù)量較大,因而傳統(tǒng)的主題詞方式不能滿足圖像和音視頻文件的關(guān)鍵詞搜索需求?;趦?nèi)容的搜索引擎是目前搜索引擎技術(shù)發(fā)展的一個(gè)重要課題。
關(guān)鍵詞 數(shù)字多媒體 基于內(nèi)容 音頻文件 視頻文件 關(guān)鍵幀
中圖分類號(hào): TP37 文獻(xiàn)標(biāo)識(shí)碼:A
隨著互聯(lián)網(wǎng)的飛速發(fā)展,信息出現(xiàn)爆炸式增長(zhǎng),搜索引擎已經(jīng)成為了用戶上網(wǎng)查詢信息不可缺少的應(yīng)用服務(wù)。搜索引擎所檢索的信息覆蓋面大,相關(guān)度高,在用戶需要進(jìn)行范圍廣泛的查詢。但是隨著當(dāng)今網(wǎng)絡(luò)上多媒體文件數(shù)據(jù)的日漸增多,傳統(tǒng)的基于文本的搜索引擎越來(lái)越難以滿足用戶的需要。特別對(duì)于視頻的查詢,關(guān)鍵字的標(biāo)注往往難以準(zhǔn)確描述視頻表示的含義,并且對(duì)視頻進(jìn)行標(biāo)注需要投入大量的人力,于是基于內(nèi)容的搜索技術(shù)應(yīng)運(yùn)而生,迅速成為研究熱點(diǎn)。
數(shù)字多媒體文件目前主要包含文本、圖像、音頻和視頻四種主要格式。廣告、新聞等傳媒文件在互聯(lián)網(wǎng)上傳播速度快、傳播范圍廣、受眾人數(shù)多,依靠人工統(tǒng)計(jì)的方式難以實(shí)現(xiàn)對(duì)其傳播效果的分析。相對(duì)于這些傳統(tǒng)媒體,基于互聯(lián)網(wǎng)傳播的多媒體文件能夠得到媒體受眾更詳細(xì)的信息,包括性別、年齡、收入、學(xué)歷、職業(yè)等人口統(tǒng)計(jì)學(xué)數(shù)據(jù),還可以得到受眾行為數(shù)據(jù)包括訪問(wèn)次數(shù)、訪問(wèn)時(shí)間、訪問(wèn)頻次、停留時(shí)間等。網(wǎng)頁(yè)多媒體文件獲取的用戶行為信息比傳統(tǒng)媒體如報(bào)紙、廣播、電視等更為豐富,用戶還可以主動(dòng)獲取自己需要的信息并作出反饋,這些受眾信息及數(shù)據(jù)是用戶訪問(wèn)過(guò)程中,系統(tǒng)自動(dòng)記錄的,相較于傳統(tǒng)媒體的數(shù)據(jù)統(tǒng)計(jì),更為精確和可靠?;谝陨嫌诨ヂ?lián)網(wǎng)的多媒體傳播效果的特點(diǎn),我們?cè)谠絹?lái)越多的使用數(shù)字多媒體文件,它的傳播效果具有具有廣泛性、準(zhǔn)確性、及時(shí)性。
采用基于內(nèi)容的方式對(duì)圖像和音、視頻文件進(jìn)行搜集,其首要問(wèn)題就是找到能夠有效表示圖像和音、視頻文件內(nèi)容的特征,因而,圖像和音、視頻文件的特征提取技術(shù)是現(xiàn)代傳播效果分析的主要研究?jī)?nèi)容之一。用戶在搜索某一單一文件或者某類型文件的時(shí)候,往往只能使用關(guān)鍵詞作為搜索機(jī)制。目前基于文本搜索引擎技術(shù)發(fā)展已經(jīng)十分成熟,而這類搜索引擎的準(zhǔn)確度除了依賴于搜索引擎系統(tǒng)的網(wǎng)頁(yè)信息存儲(chǔ)量和詞匯切割的準(zhǔn)確度以外,用戶所搜尋的目標(biāo)文件也是影響其準(zhǔn)確度的一個(gè)重要因素,如果用戶著重于搜索文本形式的文件,此類搜索引擎的準(zhǔn)確率已經(jīng)很高。但是,傳統(tǒng)的基于文本搜索引擎只能分析網(wǎng)頁(yè)中的文本內(nèi)容,無(wú)法滿足用戶對(duì)互聯(lián)網(wǎng)上越來(lái)越多的多媒體文件的搜索查詢需求。如果用戶希望搜索的是圖片、音頻或者視頻類無(wú)法在網(wǎng)頁(yè)中只用文本就能精確描述其內(nèi)容的文件,則其準(zhǔn)確率就會(huì)受到很大影響.因此基于內(nèi)容的搜索引擎是目前搜索技術(shù)發(fā)展的一個(gè)重要課題互聯(lián)網(wǎng)的數(shù)字媒體文件搜索中文本搜索的技術(shù)是最為成熟和廣泛應(yīng)用的;近幾年,隨著計(jì)算機(jī)技術(shù)的發(fā)展,基于內(nèi)容的圖像、音頻、視頻搜索技術(shù)也逐漸成熟?;趦?nèi)容的搜索技術(shù)嘗試直接分析圖片、視頻及音頻等媒體文件,將它們根據(jù)特征分類。用戶可以通過(guò)提交一幅圖片或者一段音頻、視頻資料來(lái)表達(dá)自己的搜索意圖(比如用戶希望能夠搜索到含有類似圖片的網(wǎng)站),搜索引擎系統(tǒng)通過(guò)對(duì)用戶提交的多媒體文件進(jìn)行分析、比對(duì),輸出檢索到的信息.我們利用自然語(yǔ)言處理技術(shù)、基于內(nèi)容的音、視頻分析和檢索技術(shù),實(shí)現(xiàn)對(duì)文本、圖像、音頻、視頻格式媒體文件的多模態(tài)搜集、分析,為更專業(yè)化的多媒體文件搜索提供完備和準(zhǔn)確的數(shù)據(jù)。
要對(duì)多媒體文件進(jìn)行搜索工作,主要完成數(shù)字媒體文件搜集工作。搜集文件首先要完成對(duì)網(wǎng)頁(yè)的分析工作,以對(duì)可能包含待評(píng)估數(shù)字媒體文件的網(wǎng)頁(yè)進(jìn)行優(yōu)先爬行,實(shí)現(xiàn)在最短的時(shí)間內(nèi),最大限度的爬行最相關(guān)的網(wǎng)頁(yè),對(duì)無(wú)關(guān)的區(qū)域不予訪問(wèn),以減少對(duì)網(wǎng)絡(luò)信息的訪問(wèn)流量和文件的下載量。然后基于數(shù)字多媒體文件的相似度的研究結(jié)果,對(duì)抓取的網(wǎng)頁(yè)進(jìn)行分析,只保留與待搜索文件足夠相似的網(wǎng)頁(yè),這樣可以得到完備、準(zhǔn)確的搜索數(shù)據(jù),以保證搜索的有效性和實(shí)時(shí)性。因而對(duì)互聯(lián)網(wǎng)的數(shù)字媒體文件進(jìn)行搜集是進(jìn)行文件搜索的第一項(xiàng)工作。
多媒體文件中:文本文件是詞匯的集合,可以通過(guò)詞匯相似度來(lái)比較文本文件的相似性;圖像文件是由圖像和描述信息共同組成,可以結(jié)合詞匯和圖像相似度來(lái)共同計(jì)算圖像文件的相似度;音頻文件是由聲音和描述信息共同組成,我們用詞匯和音頻相似度來(lái)共同度量其相似程度;視頻文件包含的信息最為豐富,其是圖像序列集合,關(guān)鍵幀是其中的代表性圖像。除此外還具有文本描述信息和音頻信息,在提取關(guān)鍵幀的基礎(chǔ)上,研究融合詞匯、圖像和音頻多種方式的相似性度量方法。對(duì)不同類型的多媒體文件,我們采取的內(nèi)容特征提取的方式不一樣。
文本內(nèi)容特征常用向量空間模型表示,向量空間模型把文檔看成是由一組詞條構(gòu)成的,對(duì)于每一個(gè)詞條,以根據(jù)它在文檔中的重要程度賦予一定的權(quán)值,因此每一篇文檔都可被看作向量中由一組詞條矢量構(gòu)成的一個(gè)點(diǎn)。詞條在文檔中出現(xiàn)的次數(shù),一個(gè)關(guān)鍵詞在文檔中出現(xiàn)的次數(shù)愈多,其權(quán)值越大;所以一個(gè)關(guān)鍵詞在整個(gè)統(tǒng)計(jì)語(yǔ)料庫(kù)中出現(xiàn)的頻率越少,其在出現(xiàn)文檔中的權(quán)重越大。因此,文檔di可以表示成一個(gè)特征向量D=(wi1,wi2,…,wim)。為了減少計(jì)算量,通常忽略檢測(cè)在文本中先后次序。
圖像的內(nèi)容特征包括基于文本的特征(如關(guān)鍵字、注釋等)和視覺(jué)特征。只有正確地提取出了圖像中所含內(nèi)容的關(guān)鍵信息,才能對(duì)圖片內(nèi)容進(jìn)行理解、分析和辨識(shí)。圖像的內(nèi)容特征也分為高級(jí)特征和低級(jí)特征.低級(jí)的特征可以由對(duì)圖像的自動(dòng)分析來(lái)獲得,一般是可視化的視覺(jué)特征,如圖像的顏色、形狀和紋理等。而高級(jí)特征一般是語(yǔ)義相關(guān)的,通常只能半自動(dòng)甚至手動(dòng)提取,如圖像中人物的名字、圖像的主題等。對(duì)不同種類的圖像和不同的應(yīng)用,用戶所關(guān)心的特征都有所不同。圖像文件特征如何正確的表達(dá)已經(jīng)被提取的特征,是一個(gè)重要的研究?jī)?nèi)容。視覺(jué)特征描述圖像的基本信息,屬于低層特征,與圖像的具體類型無(wú)關(guān),其主要包括色彩、紋理等。
基于內(nèi)容的音頻檢索,則是通過(guò)音頻特征分析,對(duì)不同音頻數(shù)據(jù)賦予不同的語(yǔ)義,使具有相同語(yǔ)義的音頻在聽覺(jué)上保持相似。內(nèi)容特征提取是指尋找原始音頻信號(hào)表達(dá)形式,提取能代表原始信號(hào)的數(shù)據(jù)。音頻內(nèi)容特征提取有兩種不同的技術(shù)線路:一種是從疊加音頻幀中提取特征,其原因在于音頻信號(hào)是短時(shí)平穩(wěn)的,所以在短時(shí)提取的特征較穩(wěn)定;二是從音頻片段中提取,因?yàn)槿魏握Z(yǔ)義都有時(shí)間延續(xù)性,在長(zhǎng)時(shí)間刻度內(nèi)提取音頻特征可以更好反映音頻所蘊(yùn)涵的語(yǔ)義信息,一般是提取音頻幀的統(tǒng)計(jì)特征作為音頻片段特征。
基于內(nèi)容的視頻檢索(Content-Based Video Retrieval,CBVR)是根據(jù)視頻的內(nèi)容及上下文關(guān)系,對(duì)大規(guī)模視頻數(shù)據(jù)庫(kù)中的視頻數(shù)據(jù)進(jìn)行檢索。CBVR區(qū)別于傳統(tǒng)的基于關(guān)鍵字的檢索手段,融合了圖像理解、模式識(shí)別、計(jì)算機(jī)視覺(jué)等技術(shù)。它是一種根據(jù)視頻的內(nèi)容及上下文關(guān)系,在沒(méi)有人工參與的情況下,自動(dòng)提取并描述視頻的特征和內(nèi)容,從而實(shí)現(xiàn)對(duì)大規(guī)模視頻數(shù)據(jù)庫(kù)中的視頻數(shù)據(jù)進(jìn)行檢索的技術(shù)和方法。CBVR的關(guān)鍵技術(shù)第一部分為鏡頭分割,第二部分為關(guān)鍵幀提取,第三部分為基于特征的視頻索引與存儲(chǔ)組織。
應(yīng)用基于內(nèi)容的多媒體文件檢索技術(shù),減少了機(jī)器的工作量,檢索結(jié)果具有較高的精確匹配度,文件數(shù)據(jù)庫(kù)管理者可以針對(duì)不同的文件類型,對(duì)關(guān)鍵詞檢索技術(shù)和基于內(nèi)容的檢索技術(shù)綜合利用,以期達(dá)到最好的效果?;趦?nèi)容的搜索引擎還處在探索階段,目前沒(méi)有能得到廣泛運(yùn)用的通用搜索引擎。有一些研究機(jī)構(gòu)正在嘗試從事特定范圍的基于內(nèi)容的搜索引擎研究,如針對(duì)特定的媒體資料庫(kù)建立搜索引擎,或者對(duì)特定類型的圖片、視頻及音頻資料進(jìn)行檢索等?;趦?nèi)容的多媒體文件檢索技術(shù)雖然只是起步,然而其前景是輝煌的,隨著技術(shù)問(wèn)題的逐步解決,基于內(nèi)容的多媒體文件檢索技術(shù)將在信息社會(huì)各領(lǐng)域發(fā)揮重要的作用。
參考文獻(xiàn)
[1] 邢偉利.基于內(nèi)容的音頻檢索技術(shù).西北大學(xué)學(xué)報(bào),2004.04.
[2] 曹亞光.基于內(nèi)容的視頻檢索.北京理工大學(xué),2006.
[3] 文軍.新聞視頻相似關(guān)鍵幀識(shí)別與故事單元關(guān)聯(lián)分析研究.軟件學(xué)報(bào),2010.11.
[4] 王建文.一種基于圖像相關(guān)的圖像特征提取匹配算法.科技創(chuàng)新導(dǎo)報(bào),2008.11.
[5] 王晟.基于內(nèi)容的圖片搜索引擎研究,長(zhǎng)沙大學(xué)學(xué)報(bào),2012.03.