楊宏民 國家廣播電視總局五七三臺
如今,媒體融合已成為趨勢,媒體融合平臺的搭建為媒體內(nèi)容管理和服務(wù)提供了新的渠道和思路,而全媒體內(nèi)容庫是其關(guān)鍵部分,有利于全媒體資源的統(tǒng)籌管理。全媒體內(nèi)容庫的作用主要體現(xiàn)在全媒體信息的共享、檢索和調(diào)用方面,使平臺所有媒體資源獲得更深層次的開發(fā)利用,還能對全媒體運(yùn)營、策劃以及生產(chǎn)等起到有力支撐作用。如今,各類新媒體發(fā)展迅速,網(wǎng)絡(luò)環(huán)境更加復(fù)雜,如何幫助用戶獲取有價值的媒體內(nèi)容,優(yōu)化媒體內(nèi)容服務(wù)流程,搭建行業(yè)可視化模型庫成為需要解決的問題。面對龐大的全媒體內(nèi)容,用戶僅依靠傳統(tǒng)分類、搜索等功能很難得到有用信息,需要借助更加智能化的工具提高檢索效率,挖掘價值內(nèi)容。要依據(jù)用戶需求,提供精準(zhǔn)服務(wù),在確定用戶目標(biāo)的情況下應(yīng)借助搜索工具幫助其快速、準(zhǔn)確的得到目標(biāo)內(nèi)容,若用戶對自身需求也不確定時,應(yīng)體現(xiàn)全媒體內(nèi)容智能服務(wù)特點(diǎn),主動智能分析客戶需求,幫助客戶逐步明確并得到所需內(nèi)容。全媒體內(nèi)容庫的開發(fā)利用要兼具數(shù)據(jù)分析和可視化功能,特別是諸多可視化分析工具的應(yīng)用,實(shí)現(xiàn)了更加便利、直觀、高效的內(nèi)容庫分析功能,優(yōu)化了用戶體驗(yàn)。
從多媒體類型上劃分全媒體內(nèi)容有視頻、音頻、圖像以及文本等形式,對于不同的內(nèi)容對象其特征往往需要從多個角度分析,如何準(zhǔn)確的提取出內(nèi)容特征是了解和利用全媒體內(nèi)容的關(guān)鍵。
1.文本特征提取
對于多媒體中的文本信息來說,其特征主要為詞性、詞義、關(guān)鍵詞以及包含的情感等,為了更準(zhǔn)確、快速的提取文本特征,這里需要用到自然語言處理技術(shù)。
2.圖像特征提取
對于圖像來說,既包含圖片中文本信息的提取,又包含圖像特有的背景、人物、物體等信息的特征描述,將人工智能應(yīng)用于內(nèi)容庫中圖像特征分析,可對圖像特征以文字的形式予以描述。為了挖掘圖像的更深層的特征,更好理解圖像表達(dá)的內(nèi)容,應(yīng)從不同維度生成圖像相關(guān)的不同特征向量,并通過特征向量的對比、分析以及計算,可準(zhǔn)確把握圖像內(nèi)容。
3.音頻特征提取
在全媒體內(nèi)容庫中,音頻媒體的分析處理也需要借助人工智能技術(shù),為了獲取音頻特征,可有兩條途徑:一是進(jìn)行音頻語音的智能識別,并將其轉(zhuǎn)化為文本形式,然后再利用文本特征提取方法挖掘音頻內(nèi)容,該方法局限于人類語言內(nèi)容的音頻;二是從聲樂特征的角度進(jìn)行分析,提取音頻中所包含的聲紋特征、音調(diào)、音色等。音頻特征提取之后的分析計算有助于音頻媒體中內(nèi)容的把握。
4.視頻特征提取
對視頻來說,可以概括為以上三類媒體類別的綜合體,需借助智能處理技術(shù)意義分析,所包含內(nèi)容層次更多如場景、人物、聲音以及文字等。為獲取視頻特征,需要對視頻中出現(xiàn)的所有信息進(jìn)行分類識別,可采用分幀處理或者單獨(dú)提取音頻和文本的方式處理,視頻特征的分析計算也是必須的。
由于全媒體內(nèi)容特征數(shù)量龐大,若對特征信息準(zhǔn)確分類和快速提取,需要利用好“標(biāo)簽”的概念,對于多媒體內(nèi)容的特征以標(biāo)簽的形式進(jìn)行描述,可描述的內(nèi)容不固定可以是選題、報道等。標(biāo)簽與分類不屬同一概念,以某個全媒體內(nèi)容來說,所屬分類的維度有限,通常只能簡單分為幾類,相對來說比較固定,而對于標(biāo)簽來說,則不存在數(shù)量限制,可從各個維度進(jìn)行表述并自由添加。鑒于標(biāo)簽的特征,面對日益龐大的全媒體內(nèi)容,可將標(biāo)簽用于內(nèi)容管理中去,通過多維度管理更能提高多媒體數(shù)據(jù)利用效率。要針對多媒體內(nèi)容進(jìn)行特征分析,選取有代表性的、明顯的內(nèi)容特點(diǎn)并將其設(shè)定為標(biāo)簽,多重維度的標(biāo)簽有助于媒體內(nèi)容的準(zhǔn)確定義以及海量內(nèi)容的有效挖掘。內(nèi)容標(biāo)簽的設(shè)置大大提高了目標(biāo)內(nèi)容的快速提取,對全媒體內(nèi)容挖掘帶來極大便利,而且標(biāo)簽的作用還體現(xiàn)在多媒體內(nèi)容的管理方面,可以更加高效的進(jìn)行組織和整理。面對未知的全媒體內(nèi)容,若要發(fā)掘其中有價值的內(nèi)容,在人工智能技術(shù)支持下,標(biāo)簽為客戶提供了探索發(fā)現(xiàn)的鑰匙。借助于內(nèi)容標(biāo)簽,全媒體內(nèi)容特征更直觀的展現(xiàn)在用戶面前,更易發(fā)現(xiàn)用戶所需求的內(nèi)容,這體現(xiàn)了標(biāo)簽的使用價值。
為了將全媒體內(nèi)容庫中的不同媒體形式的內(nèi)容進(jìn)行可視化展示,常用方法有:2D/3D 圖表、數(shù)據(jù)列表、地圖分布、數(shù)據(jù)模型等,當(dāng)采用多維數(shù)據(jù)分析時,若要達(dá)到可視化效果則要求掌握信息不同維度數(shù)據(jù)間的內(nèi)在聯(lián)系,并對其分布情況以曲線圖、柱狀圖或者雷達(dá)圖等形式表達(dá)出來。這里著重對標(biāo)簽云技術(shù)進(jìn)行分析,其主要用于文本媒體內(nèi)容的可視化應(yīng)用。其整體形式就是預(yù)先對某文本信息所包含的關(guān)鍵詞進(jìn)行提取,然后將其以特定順序進(jìn)行排列,最終呈現(xiàn)在我們面前。還要對這些關(guān)鍵詞予以區(qū)別,區(qū)分標(biāo)準(zhǔn)主要是出現(xiàn)頻次和重要程度,并對關(guān)鍵詞的字體大小、顏色進(jìn)行調(diào)整,給予高頻次和高重要性的標(biāo)簽更加醒目的標(biāo)記。
探索工具的應(yīng)用對于發(fā)掘全媒體中有價值內(nèi)容有很好的輔助效果,而且工具的應(yīng)用降低了內(nèi)容挖掘的難度,只需掌握簡單的操作方法,就能更直接的發(fā)掘全媒體內(nèi)容潛在的關(guān)聯(lián),發(fā)現(xiàn)更多內(nèi)容價值。下面對各類探索分析工具進(jìn)行介紹:
1.內(nèi)容分布分析工具,能夠利用全媒體內(nèi)容的標(biāo)簽和屬性等信息自動完成相關(guān)內(nèi)容的分布分析工作,并具有可視化功能設(shè)計,方便使用者對內(nèi)容分布有更清晰的認(rèn)識;2.熱點(diǎn)內(nèi)容挖掘工具,對于各類社會熱點(diǎn)問題,工具可在熱點(diǎn)的基礎(chǔ)上深入發(fā)掘其他相關(guān)信息,并且還具有領(lǐng)域分類功能,可依據(jù)客戶對時政、體育、娛樂等不同喜好有選擇性的挖掘熱點(diǎn)信息;3.內(nèi)容關(guān)聯(lián)性挖掘工具,能夠在大量媒體信息中心發(fā)現(xiàn)其潛在的關(guān)聯(lián)并以不同專題的形式將其融合成,如人物專題。利用可視化功能對內(nèi)容關(guān)聯(lián)性挖掘結(jié)果進(jìn)行直觀展示,有利于提高選題、決策等有效性;4.詞云分析工具,主要用于標(biāo)簽數(shù)據(jù)的可視化展示,幫助使用者更好掌握各關(guān)鍵詞間的聯(lián)系,提高標(biāo)簽數(shù)據(jù)的利用價值;5.情感分析工具,主要針對的是網(wǎng)絡(luò)推文的評論信息及其他輿情相關(guān)信息,在智能識別技術(shù)支持下可更精確的發(fā)掘媒體內(nèi)容中所表達(dá)的情感信息,并進(jìn)行智能判斷,實(shí)現(xiàn)更高價值的應(yīng)用;6.數(shù)據(jù)分析與仿真工具,通過對多維數(shù)據(jù)交互關(guān)聯(lián)分析,利用統(tǒng)一的關(guān)系/空間/時間/統(tǒng)計等數(shù)據(jù)分析模式,同時嵌入各種自定義業(yè)務(wù)仿真計算模型,支持對閾值模型/評估模型/預(yù)測模型等,再利用大量分析算法,還可擴(kuò)充開發(fā)新的分析模型,適應(yīng)行業(yè)業(yè)務(wù)需求。
處理引擎所具備的處理功能有:1.內(nèi)容篩選,就是在信息數(shù)據(jù)分析的基礎(chǔ)上對全媒體內(nèi)容的保密性和重要性進(jìn)行分級處理;2.內(nèi)容過濾,出于減少重復(fù)、垃圾、廣告等信息的考慮,對無價值信息進(jìn)行過濾,還要檢測上傳視音頻的重復(fù)性,避免相同文件二次入庫;3.內(nèi)容審核,主要是對上傳多媒體文件進(jìn)行敏感信息監(jiān)測,將帶有敏感因素的內(nèi)容自動過濾掉,也可交于人工審核;4.識別并轉(zhuǎn)換字幕,當(dāng)在視頻素材中包含字幕時,應(yīng)將其自動轉(zhuǎn)換為文本形式;5.人臉檢測功能,既是可以智能檢測圖像、視頻等中的人臉部分,還能自動識別人的信息;6.標(biāo)簽提取功能,主要是能夠智能識別多媒體文件中包含的人物、背景、物品等信息,設(shè)置不同的標(biāo)簽內(nèi)容;7.格式轉(zhuǎn)換功能,就是能夠?qū)⑷襟w內(nèi)容庫中的素材按照需求進(jìn)行格式的轉(zhuǎn)換,方便特定單位使用。
內(nèi)容挖掘所具備功能主要有:1.分類,主要是根據(jù)內(nèi)容中所包含的信息、數(shù)據(jù)、標(biāo)簽等按照不同分類進(jìn)行劃分;2.聚類,指的是可根據(jù)數(shù)據(jù)內(nèi)容的相似性自動進(jìn)行聚焦,這期間涉及到內(nèi)容信息、標(biāo)簽、屬性等信息的提取,并且是經(jīng)由自動聚類技術(shù)實(shí)現(xiàn)的,聚類過程是可控的,可對目標(biāo)范圍進(jìn)行約束;3.自動關(guān)聯(lián),可有目的的使信息素材自行集合,素材間存在相似、相關(guān)等關(guān)系,通過信息的自動關(guān)聯(lián)可方便使用者挑選和使用,而且還可通過調(diào)節(jié)關(guān)聯(lián)分析靈敏度達(dá)到用戶需求的目的;4.實(shí)體名提取,主要是全媒體內(nèi)容中存在的如節(jié)目名、演員名、歌手名等進(jìn)行提??;5.情感分析,主要就是對網(wǎng)絡(luò)輿情中存在的代表個人所表述的情感的分析;6.提取標(biāo)簽,就是根據(jù)內(nèi)容中所包含的數(shù)據(jù)、文本等挖掘具有特征代表性的詞語并將其設(shè)置為標(biāo)簽。
為了提高可視化效果,利用好HTML5及CSS3 編程開發(fā)工具,使展現(xiàn)在用戶面前的畫面更加形象和生動,還能更好表達(dá)其潛在的規(guī)律及聯(lián)系,給予用戶更加優(yōu)質(zhì)的全媒體內(nèi)容可視化體驗(yàn),提高可視化實(shí)用效果。
綜上所述,媒體融合發(fā)展使得龐大的多媒體資源的價值挖掘和可視化應(yīng)用成為目前所面臨的主要問題,對不同種類多媒體素材進(jìn)行特征提取,可幫助人們掌握網(wǎng)絡(luò)輿情。通過對內(nèi)容設(shè)置標(biāo)簽,有利于發(fā)掘內(nèi)容潛在聯(lián)系。全媒體內(nèi)容庫的建設(shè)有助于平臺媒體資源的有效整合和管理,提高信息檢索和分析效率,對媒體融合發(fā)展提供支持。