文丨劉 宇
(東莞廣播電視臺(tái),廣東東莞 523000)
隨著現(xiàn)代化網(wǎng)絡(luò)信息技術(shù)的快速發(fā)展,在網(wǎng)絡(luò)信息系統(tǒng)的積極輔助下,人們可以通過各種方式來獲取新聞視頻,而且獲取的時(shí)間之快、數(shù)量之大是有目共睹的。這些新聞視頻有多種語種,來自多個(gè)網(wǎng)站以及多個(gè)電臺(tái),雖然,在這樣優(yōu)越的傳媒條件的輔助下,人們的信息更加通達(dá)和快捷,但是,人們所搜尋的新聞結(jié)果卻總是含有太多的雜亂信息、大量的重復(fù)信息擾亂了人們的視線,在這樣混亂的局面下,人們幾乎不能迅速查明整個(gè)新聞事件的因果聯(lián)系和其中重要的信息,隱含在事件之外的真實(shí)情報(bào)也會(huì)被忽略,但是如果以事件專題的形式對(duì)新聞故事加以分析、組織和管理是解決這個(gè)問題的最佳方法。
在對(duì)新聞故事進(jìn)行聚積分類以后,就形成了同一個(gè)新聞故事的聚類,然而這些聚積的故事卻沒有順序可言,人們無法從中理出頭緒,要想把所有的故事以專題的形式編制出來,就要對(duì)其進(jìn)行規(guī)劃形成有秩序的線索化的東西,就必須對(duì)故事之間的彼此依賴關(guān)系加以分析。
首先,故事的類似程度的衡量。通常情況下,一個(gè)新聞故事中,由于內(nèi)容不同,它們的重要程度就有所不同。一般情況下,對(duì)一個(gè)事件會(huì)由兩個(gè)新聞故事進(jìn)行報(bào)道,在報(bào)道中難免會(huì)出現(xiàn)類似的電視畫面,這類內(nèi)容是相對(duì)比較重要的,而其他描述性的詞匯因?yàn)閿?shù)目過大,對(duì)事件的描述的方法也不盡相同和所側(cè)重的角度不同等原因會(huì)導(dǎo)致所用詞匯也會(huì)有所不同,這種內(nèi)容就不具備較高的重要性,所以,要對(duì)一個(gè)故事單元中不同內(nèi)容的不同特征進(jìn)行處理,就能夠更加準(zhǔn)確地表達(dá)故事單元中的語意。
故事之間的相似程度可以從視覺和文本兩個(gè)方面進(jìn)行區(qū)分,也就是視覺相似度與文本相似度,參照這些其特征的重要程度給予不同的權(quán)重系數(shù),來判斷兩個(gè)故事之間的相似程度。
那么如何生成新聞視頻事件專題結(jié)構(gòu),是一個(gè)值得思考的問題,一般來說,由于新聞報(bào)道來路多種多樣,不可避免地在一個(gè)事件的新聞中產(chǎn)生很多的重復(fù)與冗余的信息,所以,要對(duì)故事的冗余程度進(jìn)行評(píng)價(jià),因?yàn)樗麨槭录陌l(fā)展提供了指導(dǎo)。
當(dāng)下時(shí)代,大多數(shù)的新聞視頻都是以一個(gè)故事為中心展開敘述的,對(duì)于新聞故事的研究大多數(shù)都集中在故事單元的分割技術(shù),這當(dāng)中關(guān)系到新聞鏡頭分割等內(nèi)容,對(duì)于新聞事件的探究多數(shù)集中在以文本為主的媒體中,探究的主要目標(biāo)是根據(jù)話題來查詢組織和利用新聞信息。
根據(jù)客戶的需要,客戶需要的是對(duì)新聞視頻進(jìn)行跟蹤并調(diào)查,他們通過先進(jìn)的現(xiàn)代技術(shù)來獲取演播稿件,這些技術(shù)包括:Automatic speech recognition自動(dòng)語音識(shí)別技術(shù)和machine translation,MT 機(jī)器翻譯技術(shù),獲得演播稿件后,再利用文本信息的話題識(shí)別與跟蹤技術(shù)來實(shí)現(xiàn)新聞視頻基于事件的組織。
當(dāng)今時(shí)代,由于圖像處理技術(shù)不斷向前更新,很多研究都針對(duì)于故事單元的相似特征展開的,這種研究在視頻信息的基礎(chǔ)上結(jié)合其他方面的信息,利用新聞視頻編輯中視覺的重復(fù)性來達(dá)到目標(biāo)的。在這一過程中,達(dá)到了對(duì)故事單元之間的關(guān)系的分析,與傳統(tǒng)的對(duì)文本進(jìn)行探究的技術(shù)相比較,這一分析方法利用了更多種類的媒體特征,特別是視覺特征的應(yīng)用,這一特征非??拷鼘?shí)際應(yīng)用中的各種可能的情況,大多數(shù)對(duì)新聞視頻的故事單元的關(guān)聯(lián)性分析都從以下任務(wù)著手。
故事單元的分割是故事單元關(guān)聯(lián)分析的基礎(chǔ),要注意認(rèn)識(shí)和辨別新聞視頻中報(bào)道的類似事件的故事單元。在這一過程中,故事單元是根據(jù)新聞事件進(jìn)行分類聚積的,但是,由于新聞視頻從多種渠道得來的,就會(huì)具有多種視覺上的變化,或者語言上的不一致,以及新聞事件所關(guān)注重點(diǎn)變化所導(dǎo)致的目的差異,但是,以視覺與文本為基礎(chǔ)的保守的分類與聚積方法很難完成任務(wù),達(dá)到目標(biāo)。
通過以上的分析,我們可以看出,新聞視頻中的故事單元關(guān)聯(lián)分析技術(shù)融入了文本探究中的事件探測(cè)技術(shù)與跟蹤技術(shù),以及現(xiàn)代化網(wǎng)絡(luò)信息結(jié)構(gòu)與內(nèi)容分析技術(shù)的優(yōu)勢(shì),而且與客戶的真實(shí)需求非常相投。所以,新聞視頻中的故事單元關(guān)聯(lián)分析技術(shù)已經(jīng)成為全世界新聞視頻研究領(lǐng)域中的炙手可熱的話題。
首先,以文本相似程度為研究對(duì)象的關(guān)聯(lián)分析法。新聞視頻故事單元關(guān)聯(lián)分析同文本的研究類似,所以,最開始的一部分研究任務(wù)是得到新聞視頻中的文本資料,是通過自動(dòng)語音識(shí)別技術(shù)來獲取的,再對(duì)文本資源的故事單元分割以及相似程度進(jìn)行分析,無論是在對(duì)故事進(jìn)行分割的階段還是在對(duì)故事之間的聯(lián)系進(jìn)行分析的階段,這種關(guān)聯(lián)分析法都僅僅利用了文本資源信息,把文本資源中的每個(gè)字句與新聞視頻中的音頻進(jìn)行對(duì)比,進(jìn)行核查,可以采用下面的方法對(duì)文本進(jìn)行處理。
第一,從每一個(gè)故事單元的文本信息資源中提出對(duì)應(yīng)的詞語,或者詞語組合;第二,抓住每個(gè)故事單元的關(guān)鍵詞向量,例如:對(duì)一般的時(shí)間名詞、地點(diǎn)名詞等名詞組合的獲取進(jìn)行分析。
這種以文本為基礎(chǔ)的新聞視頻故事單元關(guān)聯(lián)分析法是對(duì)TDT技術(shù)最為直接的應(yīng)用,它指出了故事單元關(guān)聯(lián)分析的最根本的任務(wù)和過程,但是這一類方法在實(shí)際的研究和應(yīng)用中存在很大的局限性。例如:如果新聞視頻中含有很多種不同的語言,由于沒有合適的語音識(shí)別系統(tǒng)也沒有配備相應(yīng)的機(jī)器翻譯工具,這樣從音頻軌跡上得到的文本信息就不會(huì)很清晰,甚至無法收獲有價(jià)值的文本信息。
本文說明了基于故事的新聞視頻事件專題分析方法,第一要將新聞報(bào)道中的視覺特征與文本特征配合起來,將對(duì)一個(gè)事件的新聞故事集合起來,然后分析這個(gè)事件所含有的故事之間的相似性,形成故事之間彼此依存的關(guān)系,再根據(jù)這種關(guān)系產(chǎn)生新聞事件專題結(jié)構(gòu),這樣才能把事件的來龍去脈呈現(xiàn)在觀眾面前。
[1]文軍,吳玲達(dá),曾璞,等.新聞視頻中基于 “場(chǎng)景詞匯”的故事單元相似度分析[J].國防科技大學(xué)學(xué)報(bào),2009(3l).
[2]劉華詠.基于音視頻特征和文字信息自動(dòng)分段新聞故事[J].系統(tǒng)仿真學(xué)報(bào),2004,16(11):2608—2610.
[3]張春林,張鵬林,胡瑞敏.新聞視頻中基于主持人識(shí)別的新聞故事探測(cè)[J].計(jì)算機(jī)工程,2003,29(14):20-26.
[4]Allan J.Topic detection and tracking:event—based information retrieval[M].Norvell,MA,USA:Kluwer Academic Publishers,2002.
[5]賈自艷,何清,張??。?一種基于動(dòng)態(tài)進(jìn)化模型的事件探測(cè)和追蹤算法[J].計(jì)算機(jī)研究與發(fā)展,2004,41(17).
[6]李保利,俞士汶.話題識(shí)別與跟蹤研究[J].計(jì)算機(jī)工程與應(yīng)用,2003(17):7-10.
[7]于滿泉,駱衛(wèi)華,許洪波,等.話題識(shí)別與跟蹤中的層次化話題識(shí)別技術(shù)研究口[J].計(jì)算機(jī)研究與發(fā)展,2006.