張小博,蔣 銘
(中國電子科技集團公司第三研究所,北京 100015)
智能媒資檢索系統(tǒng)設(shè)計與實現(xiàn)
張小博,蔣 銘
(中國電子科技集團公司第三研究所,北京 100015)
針對目前媒資管理系統(tǒng)依賴編目信息進行檢索而出現(xiàn)的編目信息難以覆蓋媒資數(shù)據(jù)的所有語義內(nèi)容、由于人的理解不同而導(dǎo)致的編目信息不一致、媒資編目費力費時等問題,設(shè)計了不依賴編目信息的基于全文檢索、語音識別、人臉識別、關(guān)鍵幀提取等的智能媒資檢索系統(tǒng),對媒資內(nèi)容自動分析、媒資特征索引、媒資特征檢索進行了闡述,并采用基于B/S的分布式架構(gòu)進行了實現(xiàn)。結(jié)果證明,該方案設(shè)計具有較高的可靠性和穩(wěn)定性,在媒資管理中得到了良好的應(yīng)用。
媒資管理;智能檢索;內(nèi)容分析
隨著全媒體大數(shù)據(jù)時代的到來,媒體數(shù)據(jù)作為國家、企業(yè)和個人的重要資產(chǎn)(簡稱“媒資”)受到越來越多的重視,在存儲技術(shù)和管理技術(shù)已經(jīng)相對成熟的今天,數(shù)據(jù)的再利用成為媒資管理的核心內(nèi)容,而作為數(shù)據(jù)再利用基礎(chǔ)的媒資檢索,顯得尤為重要[1]。例如,公安機關(guān)需要從數(shù)以萬計的監(jiān)控錄像中快速查找出嫌疑犯;新聞編輯需要及時地從海量的新聞采訪數(shù)據(jù)中找到所需要的新聞素材;政府部門需要時刻監(jiān)視社交網(wǎng)絡(luò)上可能出現(xiàn)的負(fù)面輿論。這些應(yīng)用對媒資檢索的及時性和準(zhǔn)確性都帶來了巨大的挑戰(zhàn)。
現(xiàn)有的媒資管理系統(tǒng)采用關(guān)系數(shù)據(jù)庫管理系統(tǒng)如Oracle、SQL Server、MySQL等對媒資文件進行存儲管理,使用結(jié)構(gòu)化查詢語言(Structured Query Language,SQL)對媒資編目信息進行查找,實現(xiàn)對媒資文件的檢索,主要存在以下3個瓶頸:1)編目信息需要人工標(biāo)注,隨著媒資數(shù)據(jù)的爆炸式增長,所耗費的時間成本和人力成本將難以負(fù)擔(dān);2)編目項難以涵蓋媒資數(shù)據(jù)內(nèi)容的所有維度,而且不具有通用性和擴展性,難以在不同應(yīng)用系統(tǒng)之間實現(xiàn)信息共享及自身升級換代;3)不同標(biāo)注人員對同一媒資數(shù)據(jù)的標(biāo)注存在主觀上的偏差,導(dǎo)致檢索詞與編目信息之間存在語義誤差。其根本原因在于:1)多媒體數(shù)據(jù)的非結(jié)構(gòu)化,視頻文件的語義內(nèi)容信息來源于視頻字幕、視頻關(guān)鍵幀、語音內(nèi)容,難以用結(jié)構(gòu)化的方法將其全部描述;2)大腦的認(rèn)知誤差,對于同一幅圖像,不同人的關(guān)注點不同,標(biāo)注的信息也不同;3)多媒體數(shù)據(jù)將呈指數(shù)級增長。
針對產(chǎn)生問題的根本原因,本文提出一種基于內(nèi)容結(jié)構(gòu)化分析的智能媒資檢索系統(tǒng)。該系統(tǒng)的工作原理是首先采用視頻內(nèi)容分析、圖像處理、語音識別、光學(xué)字符識別等多種信息處理手段將非結(jié)構(gòu)化的文本、圖像、音頻、視頻轉(zhuǎn)化為結(jié)構(gòu)化的特征數(shù)據(jù)[2];然后采用特征倒排表的方式生成媒資索引;最后采用特征模式匹配的方法進行檢索和相似度排序。整個系統(tǒng)具備媒資上傳下載、存儲管理、多媒體數(shù)據(jù)檢索輸入、跨媒體檢索、在線播放預(yù)覽等功能[3]。
針對媒資檢索系統(tǒng)的應(yīng)用需求,本文提出的智能媒資檢索系統(tǒng)采用如圖1所示的體系架構(gòu)。
圖1 智能媒資檢索系統(tǒng)架構(gòu)圖
整個系統(tǒng)分為如下5個子系統(tǒng):
1)上傳下載子系統(tǒng):實現(xiàn)所有媒體數(shù)據(jù)文件的上傳和下載,并進行轉(zhuǎn)碼后形成標(biāo)準(zhǔn)的媒資數(shù)據(jù)。
2)存儲管理子系統(tǒng):實現(xiàn)對媒資數(shù)據(jù)文件的存儲管理,包括媒資記錄的增加、刪除、修改、查找、在線預(yù)覽等功能。
3)交互子系統(tǒng):提供用戶輸入檢索數(shù)據(jù)的人機交互接口,包括文本關(guān)鍵字和檢索圖片兩種接口。
4)檢索子系統(tǒng):一方面對系統(tǒng)中存儲的媒資數(shù)據(jù)進行自動分析和索引,另一方面根據(jù)交互子系統(tǒng)提供的檢索輸入數(shù)據(jù)對索引進行查找并按照相似度給出排序結(jié)果。
5)播控子系統(tǒng):對于需要進行播出媒資數(shù)據(jù)文件進行控制和再利用,同時也可以將結(jié)果輸送到其他系統(tǒng)。
這5個子系統(tǒng)之間的關(guān)系如圖1所示,上傳下載子系統(tǒng)是整個系統(tǒng)數(shù)據(jù)采集和輸出端口;存儲管理子系統(tǒng)對所有的媒資數(shù)據(jù)進行記錄管理;交互子系統(tǒng)是用戶檢索的輸入端口;檢索子系統(tǒng)是整個系統(tǒng)的核心模塊;播控子系統(tǒng)是整個系統(tǒng)的對外輸出端口。
本文的工作重心為檢索子系統(tǒng)的算法設(shè)計與實現(xiàn),具體包含:媒資內(nèi)容分析、媒資內(nèi)容索引、媒資內(nèi)容檢索匹配。
2.1 媒資內(nèi)容分析
本系統(tǒng)主要針對廣播電視中出現(xiàn)的新聞文本、音頻、圖片、視頻等媒體類型進行分析。
1)文本內(nèi)容分析
文本內(nèi)容分析采用自然語言處理的方法[4],將全文本數(shù)據(jù)切分為一組有意義的字詞的集合。如圖2所示,具體處理過程包括如下3個步驟:
(1)建立詞典:預(yù)先根據(jù)應(yīng)用背景建立一個包含單字和單詞的詞典。
(2)中文分詞:將全文本按照分解為單字和單詞,本系統(tǒng)中采用開源軟件算法庫ICTCLAS進行中文分詞。
(3)數(shù)據(jù)清洗:去除無意義的單字和單詞,將剩余的集合作為該全文數(shù)據(jù)的特征,并得到每個單子和單詞的出現(xiàn)頻率,作為最終的文本特征量。
圖2 文本內(nèi)容分析設(shè)計圖
2)音頻內(nèi)容分析
音頻內(nèi)容主要指音頻中的說話人語音內(nèi)容,因此,音頻內(nèi)容分析的思路是將音頻語音內(nèi)容轉(zhuǎn)化為文本信息,然后再采用文本內(nèi)容分析的方法實現(xiàn)音頻內(nèi)容分析。如圖3所示,具體處理過程包括如下3個步驟:
(1)語音內(nèi)容提取:從音頻文件中將含有語音內(nèi)容的部分檢測提取出來,本系統(tǒng)中采用靜音點檢測與場景切換檢測融合判定的方法檢測語音內(nèi)容的起止時間。
(2)語音內(nèi)容識別:使用語音識別技術(shù)將語音內(nèi)容轉(zhuǎn)換為文本,本系統(tǒng)中采用商用軟件庫PATTEK作為語音識別引擎。
(3)文本內(nèi)容分析:通過文本內(nèi)容分析得到音頻中的文本特征量。
圖3 音頻內(nèi)容分析設(shè)計圖
3)圖像內(nèi)容分析
圖像數(shù)據(jù)比文本數(shù)據(jù)和音頻數(shù)據(jù)包含更多更直觀的信息,而且由于認(rèn)知偏差,不同的人對于同樣的圖像數(shù)據(jù)會給出不同的內(nèi)容描述。因此,除了要考慮高層語義內(nèi)容(如物體、事件、地點等)外,還要考慮底層視覺特征(顏色、形狀、紋理等),需要采用不同的方法分別進行分析[5]。圖像內(nèi)容分析設(shè)計圖如圖4所示,具體處理過程包括2個方面。
圖4 圖像內(nèi)容分析設(shè)計圖
(1)高層語義內(nèi)容分析
高層語義內(nèi)容是指在圖像中可以獲取的人物、物體、地點、時間、事件等具有特定意義的信息。目前,較為成熟的是對人物和部分特定物體進行自動檢測和識別。本系統(tǒng)中主要采用人臉檢測識別技術(shù)實現(xiàn)對圖像中人物的識別分析,得到圖片中的人臉特征量。
(2)底層視覺特征分析
不同于高層語義特征,底層視覺特征是對圖像中形狀、顏色、紋理等基本圖像元素的描述,是圖像表達(dá)的最基本特征。盡管底層視覺特征沒有給出圖像內(nèi)容的具體語義信息,但它是對圖像的客觀描述,避免了主觀認(rèn)知偏差。本系統(tǒng)中采用顏色直方圖、梯度直方圖(Histogram of Gradient,HOG)、尺度不變特征(Scale Invariant Feature Transform,SIFT)等得到底層視覺特征量。
4)視頻內(nèi)容分析
視頻數(shù)據(jù)比文本數(shù)據(jù)、圖像數(shù)據(jù)、音頻數(shù)據(jù)的結(jié)構(gòu)更為復(fù)雜,但視頻數(shù)據(jù)又可以看作是由前三者構(gòu)成的。例如,視頻數(shù)據(jù)的每一幀可以看作是一幅圖像、視頻數(shù)據(jù)中的聲道是音頻數(shù)據(jù)、視頻畫面上出現(xiàn)的文字可以看作是文本數(shù)據(jù)。因此,只需要采用特定的方法將以上數(shù)據(jù)提取出來,然后采用文本內(nèi)容分析、音頻內(nèi)容分析、圖像內(nèi)容分析的方法即可實現(xiàn)視頻內(nèi)容分析[6]?;诖怂枷?,視頻內(nèi)容分析的關(guān)鍵是提取音頻數(shù)據(jù)、文本數(shù)據(jù)、圖像數(shù)據(jù)。視頻內(nèi)容分析設(shè)計圖如圖5所示,其具體過程如下。
圖5 視頻內(nèi)容分析設(shè)計圖
(1)文本數(shù)據(jù)提取
視頻數(shù)據(jù)中的文本數(shù)據(jù)主要是指在視頻中出現(xiàn)的字幕。由于字幕的位置較為固定,可以直接分割出來,得到包含字幕的區(qū)域。之后采用光學(xué)字符識別(Optical Character Recognition,OCR)的方法提取字幕內(nèi)容。
(2)音頻數(shù)據(jù)提取
音頻數(shù)據(jù)提取的關(guān)鍵在于音頻數(shù)據(jù)的檢測。本系統(tǒng)中采用靜音點檢測與場景切換檢測融合判定的方法,確定出音頻數(shù)據(jù)的起止時間,從而截取含有語音內(nèi)容的音頻數(shù)據(jù)。
(3)圖像數(shù)據(jù)提取
理論上每一幀視頻數(shù)據(jù)都是一幅圖像,但是由于幀間冗余,只有少部分視頻幀可以作為有用的圖像數(shù)據(jù),一般稱之為關(guān)鍵內(nèi)容幀,簡稱關(guān)鍵幀。對于關(guān)鍵幀的提取可以根據(jù)幀中的內(nèi)容信息和幀間變化作為檢測的依據(jù)。本系統(tǒng)中將包含有特定人物和物體及幀間變化較大的視頻幀作為關(guān)鍵幀,提取出來的關(guān)鍵幀集合為該視頻的圖像數(shù)據(jù)。
得到文本數(shù)據(jù)、音頻數(shù)據(jù)和圖像數(shù)據(jù)之后,分別采用上文提到的文本內(nèi)容分析、音頻內(nèi)容分析、圖像內(nèi)容分析的方法實現(xiàn)視頻內(nèi)容分析,得到視頻內(nèi)容的文本特征量、人臉特征量、底層視覺特征量。
2.2 媒資內(nèi)容索引
媒資內(nèi)容索引是對媒資內(nèi)容分析后得到的文本特征量、人臉特征量、底層視覺特征量等建立索引,以便于檢索。本系統(tǒng)直接采用目前最為成熟而且有效的倒排索引法對以上特征量進行索引,形成媒資特征量索引文件。以文本特征量倒排索引為例,整個索引包含兩個部分:單詞項記錄詞典中的每個單詞,文件列表記錄包含該單詞的所有文件序號及其他信息。如圖6所示,其中N為文本詞典中的單詞總數(shù),mi(i從1到N)為包含“單詞i”的文件總數(shù)。
圖6 倒排索引示意圖
2.3 媒資內(nèi)容檢索
媒資內(nèi)容檢索基于輸入媒資檢索數(shù)據(jù),對媒資內(nèi)容索引進行查找,并對所有查找結(jié)果進行相似度排序。媒資內(nèi)容檢索設(shè)計圖如圖7所示,包含如下3個過程。
圖7 媒資內(nèi)容檢索設(shè)計圖
1)輸入媒資內(nèi)容分析:對輸入的文本或圖片進行內(nèi)容分析,得到文本特征量或人臉特征量、底層視覺特征量;
2)索引查找:對于3種特征量分別進行索引查找,找到包含3種特征量關(guān)鍵元素的所有文件;
3)匹配排序:將找到的文件的文本特征量或人臉特征量、底層視覺特征量分別與輸入的3種特征量進行相似度匹配,并根據(jù)匹配結(jié)果進行排序。
3.1 基于B/S架構(gòu)的系統(tǒng)實現(xiàn)
本系統(tǒng)采用瀏覽器/服務(wù)器(Browser/Server,B/S)系統(tǒng)架構(gòu),可同時支持多個客戶端同時訪問系統(tǒng)。如圖8所示,整個系統(tǒng)由檢索客戶端、Web服務(wù)器、檢索分析服務(wù)器集群、磁盤陣列、存儲管理服務(wù)器、播出控制工作站、上傳下載工作站等通過以太網(wǎng)連接組成。
圖8 系統(tǒng)網(wǎng)絡(luò)拓?fù)鋱D
整個系統(tǒng)實現(xiàn)遵循J2EE體系,采用Spring+Structs+Hibernate(SSH)框架進行開發(fā),核心檢索模塊搭建在檢索分析服務(wù)器集群上,所有算法封裝成獨立的軟件包在服務(wù)器上獨立運行,Web服務(wù)器通過任務(wù)調(diào)度的形式將任務(wù)分配給相應(yīng)的算法軟件包。
3.2 系統(tǒng)結(jié)果驗證
采用如表1所示的測試環(huán)境對本系統(tǒng)的檢索性能進行驗證。得到以下結(jié)果:
1)文本檢索可以達(dá)到很好的效果,查準(zhǔn)率可以達(dá)到95%以上,與開源文本檢索引擎Lucence的實驗結(jié)果相吻合,完全能夠滿足應(yīng)用需求。
2)音頻檢索效果稍遜于文本檢索,但是能夠滿足應(yīng)用需求。通過分析結(jié)果,原因在于音頻轉(zhuǎn)文本的性能有損失,即語音識別的精度。盡管語音識別引擎對標(biāo)準(zhǔn)中文的精度在90%以上,但在實際應(yīng)用中,由于受背景噪聲、專業(yè)領(lǐng)域詞匯等的影響,精度會有所下降。
3)圖像檢索的效果差強人意,距離期望還有一定距離。對于人物的檢索,側(cè)面人臉大大降低了人臉檢測精度,導(dǎo)致出現(xiàn)圖像漏檢;另外,簡單的底層視覺特征還沒有達(dá)到需要的效果。
4)視頻內(nèi)容檢索的效果與前三者直接相關(guān),基于關(guān)鍵字的視頻內(nèi)容檢索效果與文本檢索、音頻檢索相當(dāng);基于圖像輸入的視頻內(nèi)容檢索效果與圖像檢索效果相當(dāng)。
表1 系統(tǒng)驗證環(huán)境
本文介紹了一種基于數(shù)字媒體內(nèi)容自動分析的智能媒資檢索系統(tǒng)的原理設(shè)計和技術(shù)實現(xiàn),并進行了試驗驗證。目前,該系統(tǒng)已被多家單位用于電子檔案管理、多媒體情報管理,其功能和性能指標(biāo)得到用戶的認(rèn)可。今后,為進一步提高系統(tǒng)的適用性和檢索準(zhǔn)確率,滿足不同行業(yè)的應(yīng)用需求,將從以下方面進行改進:
1)優(yōu)化媒資內(nèi)容分析關(guān)鍵技術(shù)
本文提出的媒資檢索系統(tǒng)的核心是媒資內(nèi)容分析,其中各項關(guān)鍵技術(shù)的性能直接影響整個系統(tǒng)的使用性能。目前,圖像內(nèi)容分析技術(shù)和視頻內(nèi)容分析技術(shù)都采用的是最基本的方法,還具有較大的提升空間,需要更加深入的優(yōu)化和完善。
2)采用云計算體系架構(gòu)
隨著數(shù)據(jù)量的爆炸式增長,本系統(tǒng)采用的架構(gòu)難以滿足需求。目前,基于云計算的海量存儲和計算技術(shù)已經(jīng)相當(dāng)成熟[7],可考慮在云計算體系架構(gòu)下搭建本系統(tǒng)。
[1] 吳迎春. 媒體資產(chǎn)管理系統(tǒng)的應(yīng)用解析[J].電視技術(shù),2010,34(6):64-66.
[2] LEW M S. Multimedia information retrieval:best papers and expanding frontiers[J].International Journal of Multimedia Information Retrieval,2014,3(2):67-68.[3] 蒙諾,孟放. 淺析媒體資產(chǎn)管理系統(tǒng)在廣電系統(tǒng)的應(yīng)用[J].電視技術(shù),2012,36(14):66-68.
[4] MANNING C D. Foundations of statistical natural language processing[M].Cambrige, Massachusetts, USA:MIT Press,1999.
[5] SONKA M,HLAVAC V,BOYLE R. Image processing, analysis,and machine vision[M].Boston, Massachusetts, USA:Cengage Learning,2014.
[6] DIMITROVA N,ZHANG H J,SHAHRARAY B,et al. Applications of video-content analysis and retrieval[J].IEEE Multimedia,2002,9(3):42-55.
[7] 樊磊. 基于云計算架構(gòu)下的全媒體資產(chǎn)管理系統(tǒng)[J].電視技術(shù),2012,36(22):63-65.
張小博(1987— ),工程師,主要研究方向為圖像處理、模式識別等;
蔣 銘(1984— ),工程師,主要研究方向為信息安全、視頻處理等。
責(zé)任編輯:任健男
Implementation and Design of Intelligent Media Asset Retrieval System
ZHANG Xiaobo, JIANG Ming
(The3rdResearchInstituteofChinaElectronicsTechnologyGroupCorporation,Beijing100015,China)
In view of the problems of the catalogue based retrieval in current media asset management systems: 1) catalogues cannot cover all the semantic information contained in the media data; 2) inconsistance of catalogues due to different understandings of different people; 3) time-consuming and inconvenience of cataloguing, a catalogue-independent intelligent media asset retrieval system is designed based on full-text search, speech recognition, face recognition, key-frame detection in this paper. And then, technical details of media content analysis, media feature indexing and searching are described. At last, a distribution system is established based on B/S architecture to verify our proposed methods. The experimental results prove that the design and implementation are efficient and effective, and the system has good applications in media asset management.
media asset management; intelligent retrieval; content analysis
【本文獻(xiàn)信息】張小博,蔣銘.智能媒資檢索系統(tǒng)設(shè)計與實現(xiàn)[J].電視技術(shù),2015,39(13).
國家自然科學(xué)基金項目(61305007)
TP391
A
10.16280/j.videoe.2015.13.008
2015-04-08