何麗媛
內(nèi)蒙古自治區(qū)新聞出版廣電局監(jiān)管中心 內(nèi)蒙古 呼和浩特市 010050
違規(guī)音視頻節(jié)目的自動識別,主要通過內(nèi)容分析系統(tǒng)來實現(xiàn)。內(nèi)容分析系統(tǒng)由特征提取模塊、數(shù)據(jù)索引模塊、自動排重模塊、自動摘要模、有害內(nèi)容識別與歸類模塊幾部分構(gòu)成。
特征提取模塊的作用是將含有音視頻節(jié)目的網(wǎng)頁進行信息數(shù)據(jù)分析,過濾掉次要信息,精確提取出重要信息并保存起來。重要信息主要指文本特征、音頻底層特征、視頻底層特征等。之后再將所有重要信息合并成一個特征庫,系統(tǒng)以這個特征庫為依據(jù)對違規(guī)音視頻節(jié)目進行檢索和分析。
文本特征提取:音視頻節(jié)目內(nèi)容的文本特征大致可分為兩類,第一類是包含在音視頻網(wǎng)頁內(nèi)的文本信息,主要有元信息特征、節(jié)目關(guān)鍵字和節(jié)目描述文本特征等;第二類則是音視頻節(jié)目自身所包含的文本信息,即系統(tǒng)從音視頻節(jié)目中自動識別出的文本信息。這些信息并不能直接用作數(shù)據(jù)分析,必須從這些繁雜的文本信息中將文本內(nèi)容的摘要信息抽取出來,才可以使用。
音頻特征提?。簽橛行岣哌`規(guī)音頻節(jié)目的自動識別準確率,在對音頻文件進行分析時,我們無需將音頻節(jié)目的所有信息都進行提取。而是需要將“無用信息”剔除掉,只保留一些“有用信息”,即一些有用的音頻特征來建立“音頻底層特征池”。這些構(gòu)成特征池的“有用信息”包括短時能量、過零率、語譜圖亮度以及梅爾尺度倒譜特征等信息。
視頻特征提?。撼槿∫曨l節(jié)目的特征是一個非常復雜的過程,相較于文本特征提取和音頻特征提取需要大量的數(shù)據(jù)運算才可以實現(xiàn),為了節(jié)省運算成本,需要利用一定的“技巧”。經(jīng)常看視頻節(jié)目我們會發(fā)現(xiàn),在某一段時間內(nèi),視頻節(jié)目所呈現(xiàn)的畫面只有微小的變化,例如人物在講話的過程中只有嘴部在動這樣的情況。因此,在面對變化不大的連續(xù)畫面幀時,可以只提取出幾個關(guān)鍵幀來進行后續(xù)處理。視頻特征提取模塊的基本流程如圖1 所示。
圖1 視頻特征提取流程圖
數(shù)據(jù)索引模塊的作用是在系統(tǒng)提取的底層特征之上建立一個高維索引,以便后續(xù)的檢索工作。在數(shù)據(jù)檢索過程中,少量的圖像和視頻數(shù)據(jù)可以簡單進行搜索。但對于大量的數(shù)據(jù)就必須建立高維索引才可以進行檢索,形象點說就是給數(shù)據(jù)建立一個目錄,想看哪些內(nèi)容,就只直接翻到那些頁,這樣就可以大大提高數(shù)據(jù)檢索的效率。
通常最理想的數(shù)據(jù)檢索是將查詢點所對應(yīng)的近鄰點都安排在相近的磁盤位置上,這樣數(shù)據(jù)檢索的效率最高。然而這種情況只適用于維度較低的時候,在高維大規(guī)模情況下,會非常耗費時間,成本很高。所以,在高維情況下,一般采用近似近鄰算法來提高搜索效率。
近似近鄰算法將數(shù)據(jù)根據(jù)距離劃分成不同的塊,這樣就縮小了搜索空間,從而達到提高搜索效率的目的。但是,當需要查詢的點剛好位于兩個區(qū)塊的邊界時,就會出現(xiàn)一個邊界問題,導致查詢的結(jié)果可能有出入。此時就需要同時讀取共享邊界的數(shù)據(jù)塊,才能保證查詢的準確度。
圖2 基于視覺特征的音視頻節(jié)目流程圖
要實現(xiàn)音視頻節(jié)目的自動排重,首先需要將音頻中的一些特征提取出來,可以利用“音頻指紋技術(shù)”來實現(xiàn)。音頻指紋就像人類的指紋一樣是獨一無二的。而音頻指紋技術(shù)是指“通過特定的算法將一段音頻中獨一無二的數(shù)字特征以標識符的形式提取出來,用于識別海量的聲音樣本或跟蹤定位樣本在數(shù)據(jù)庫中的位置?!痹摷夹g(shù)最早應(yīng)用于音樂領(lǐng)域,利用該技術(shù),用戶只需通過一段旋律就可以找到相應(yīng)的歌曲,大大節(jié)約了查找時間。隨著技術(shù)的不斷發(fā)展,目前音頻指紋技術(shù)也被廣泛的應(yīng)用于音頻節(jié)目的自動排重中,同時也被運用于視頻節(jié)目的排重中,不同點是視頻節(jié)目的排重是借助視頻節(jié)目的伴音來實現(xiàn)的。
視頻特征的音視頻節(jié)目自動排重,需要根據(jù)自動排重的任務(wù)描述來進行排重。通過自動排重,我們可以確定不同的節(jié)目是否在在節(jié)目級別上出現(xiàn)了重復。而在節(jié)目內(nèi)部,一些非鏡頭或者是較短片斷的重復,則不需要在節(jié)目內(nèi)部尋找匹配片斷。具體排重流程如圖2所示。
我們在互聯(lián)網(wǎng)觀看視頻節(jié)目的過程中,需要快進或回放時,發(fā)現(xiàn)當光標點到進度條的某些位置時,會出現(xiàn)一個圖片摘要,概括的展示了當前片段的大致內(nèi)容。這項技術(shù),就是通過自動摘要技術(shù)來實現(xiàn)的。其作用是自動生成音視頻節(jié)目的文本和圖片摘要,并將圖片和它對應(yīng)視頻片對應(yīng)起來。用戶點擊圖片,系統(tǒng)就可以快速定位到需要查看的鏡頭,這樣用戶只需點擊摘要圖片,就可以大致了解視頻內(nèi)容,無需整段觀看,從而節(jié)約了大量時間。
該模塊的作用是將音頻、視頻節(jié)目的文本摘要和特征信息與預先設(shè)置好的特征庫進行比較,從而將違規(guī)的有害音頻和視頻節(jié)目識別出來。然后再根據(jù)指定的程序機密性級別,對識別出的有害內(nèi)容進行自動分類。
在自動識別違規(guī)音視頻節(jié)目的過程中,內(nèi)容分析系統(tǒng)還可以設(shè)置一些不同參數(shù),自動識別出近期發(fā)生的熱點話題和敏感話題。通過大量的數(shù)據(jù)分析,實現(xiàn)對這些熱點話題和敏感話題的實時跟蹤,方便對這些話題的時間和地點特征進行統(tǒng)計分析。還可以將自動識別出的違規(guī)音視頻節(jié)目進行歸類,從而實現(xiàn)對輿情的分析。