文/郭海 程大川
全媒體內容庫是融合媒體平臺的重要組成部分,通過全媒體內容庫可實現(xiàn)跨媒體的內容資源管理,整合全臺在線全媒體內容資源。通過構建全媒體內容庫,還可以實現(xiàn)全臺內容的統(tǒng)一檢索、統(tǒng)一共享和快速調用,真正激活臺內現(xiàn)有的媒資及各種業(yè)務系統(tǒng)內的媒體內容資源,為全媒體融合生產(chǎn)、全媒體指揮策劃和內容運營提供內容支撐。當前,廣電融合媒體平臺建設如火如荼,在新的技術平臺和業(yè)務架構下,媒體內容管理的對象、流程,以及提供內容服務的方式也隨之變化。
用戶需要提供更加豐富的內容發(fā)現(xiàn)手段,不僅僅是分類查找、全文搜索。在用戶有明確目的查找內容的時候,要能使用戶隨時隨地通過各種搜索手段獲得準確的內容。在用戶沒有明確目標的時候,達到“想你所想”的內容響應,在服務形式上化被動為主動,將內容與用戶需求相結合,為用戶提供精準、貼合的內容分析服務。
原有內容再造,是傳統(tǒng)媒體在內容上的核心競爭力,[1]全媒體內容庫需要為用戶提供更多的內容可視化分析工具,讓用戶通過內容可視化工具,更多維度的去理解內容庫中的內容,讓內容的分析、內容挖掘更加簡單、易用、直觀,讓用戶進行交互式、可視化的內容探索。
全媒體內容庫以大數(shù)據(jù)、人工智能等先進技術為支撐,進行媒體內容服務的創(chuàng)新,通過對全媒體內容進行標簽提取,基于內容標簽進行內容的深度分析、計算,實現(xiàn)對內容庫媒體內容的挖掘,包括索引、關鍵詞提取、自動摘要、分類、聚類、情感分析、關聯(lián)計算等,對得到的分析計算結果進行解釋和表示。最終,通過內容可視化的方式為用戶提供更友好、更準確的內容服務。
全媒體內容庫中的內容種類包括文本、圖片、音頻、視音頻等,全媒體內容包含多種維度的描述內容的特征,對于這些特征的提取,是分析、挖掘全媒體內容的基礎。
2.1.1 文本特征提取
全媒體內容庫通過自然語言處理技術,實現(xiàn)對文本內容的分析,包括詞性分析、關鍵詞提取、自動摘要、情感分析等,從而提取文本的相關特征。
2.1.2 圖像特征提取
通過人工智能圖像技術,將內容庫中的圖像內容自動生成相應的文字描述,描述的特征范圍涵蓋場景描述、物體分類、人物、地標、熱詞等,可以提取對不同維度、不同層次的圖片內的語義特征信息。[2]抽取相關的特征向量后,形成代表該圖像的多維特征向量,通過向量計算,在特征向量空間中比較、分析各圖像特征向量之間的距離或相似關系,完成對圖像內容相關分析計算,從而讓系統(tǒng)獲得高層次的對圖像的理解。
2.1.3 視頻特征提取
通過人工智能的視頻處理技術,對內容庫中的視頻進行智能分析,分析的視頻內容包括視頻內的語音、文字、人臉、物體、場景等多種維度內容,提取描述視頻內容的特征信息。特征內容包括視頻的分類、人物、語音識別文字、物體、字幕、標題、彈幕文字內容等。
2.1.4 音頻特征提取
通過人工智能技術,對內容庫中的音頻進行智能分析。音頻挖掘通常有兩種方式:將音頻中的語音識別成文字,再對文字信息進行特征提?。粡囊纛l中提取音樂特征,例如音調、旋律,以及說話人的聲紋特征,提取人物等。通過分析獲得的音頻特征,進行音頻內容的相關內容分析計算。
所謂標簽,既上述媒體內容的特征,通過一些標簽描述、代表某一內容,這個內容可以是全媒體內容庫中的任何內容,包括互聯(lián)網(wǎng)匯聚、通聯(lián)稿件、報題、選題、報道等。對比傳統(tǒng)“分類”的概念,一個內容往往只屬于幾個固定的分類,但可以擁有許多個不同維度的內容描述標簽。同時,“分類”的定義相對固定,數(shù)量有限,而標簽則是數(shù)量無上限擴展,自由添加,并且標簽具有時效性。全媒體內容庫中的內容大爆炸給標簽帶來了用武之地,通過內容標簽可以對全媒體內容庫中的海量內容進行多維度的管理。
通過標簽進行內容分析,讓系統(tǒng)、用戶可以更多維度、更深地理解內容,抽取全媒體內容的具有表意性、顯著性的特征、特點,形成描述該全媒體內容的標簽。
可以解決使用者對海量全媒體內容的“發(fā)現(xiàn)”的需求。內容庫中,海量的全媒體內容,使用者要想快速、方便的找到自己需要的內容,通過內容標簽是最方便、可靠地方式。對于全媒體內容庫的使用者,標簽能夠有效地進行內容整理、組織和管理。
標簽有助于用戶挖掘全媒體內容庫中的內容價值,通過人工智能技術挖掘得到不同維度的內容標簽,使用戶進行探索式內容挖掘成為可能,用戶可以從不同角度通過可視化的方式,觀察內容庫中的內容,發(fā)掘更深度的內容價值。
對于全媒體內容庫中的內容可視化,處理的數(shù)據(jù)類型涵蓋文本、多維、視音頻、時空數(shù)據(jù)等,采用的顯示方法包括標準的2D/3D圖表顯示、圖像化顯示、列表顯示、地圖顯示等。
多維數(shù)據(jù)可視化分析的目標是發(fā)現(xiàn)多維數(shù)據(jù)分布規(guī)律,尋求不同維度之間的邏輯關系,通常采用的顯示方法包括曲線圖、折線圖、散點圖、餅圖、柱狀圖、雷達圖、熱力圖等圖表顯示方法。
文本內容的可視化,常用的可視化技術是標簽云,[3]它直接抽取文本中的關鍵詞并將其按照一定的順序和規(guī)律整齊美觀地呈現(xiàn)在屏幕上。關鍵詞在文本中有分布的差異,有的出現(xiàn)的頻率高,有的出現(xiàn)的頻率低,有的重要性高,有的重要性低,可以利用字體的大小和顏色的醒目度反映文本中各個關鍵字的差異,越是重要、出現(xiàn)頻率高的關鍵詞可以采用較大、顏色較醒目的字體。
可視化的自助式內容探索工具,輔助用戶通過可視化的方式分析、挖掘內容,產(chǎn)出對內容生產(chǎn)有價值的洞察。整個內容挖掘“可視化”的過程,用戶根據(jù)需求簡單進行拖拽式、交互式操作即可完成,多種展示形式,秒級響應。讓用戶能夠以最直觀的方式發(fā)現(xiàn)一些內容背后潛在的相關性。
(1)內容分布分析工具,通過內容的屬性、標簽等,用戶可以通過工具自助地進行內容分析、統(tǒng)計,提供多種可視化組件,使用戶以最直觀的方式了解內容庫中的內容。
(2)熱點內容挖掘工具,通過可視化工具可以直觀地發(fā)現(xiàn)當前熱點,再通過熱點進行下鉆,分析、挖掘與熱點相關的內容??梢酝ㄟ^選擇不同領域,包括時政、經(jīng)濟、體育、民生、影視等,更加專注地挖掘熱點內容。
(3)主通過對海量內容的智能挖掘關聯(lián),自動聚合生成事件專題、人物專題、自定義專題等。通過可視化的對內容聚類分析結果的呈現(xiàn),幫助用戶挖掘潛在的內容,為選題決策、內容生產(chǎn)提供智能支持。
(4)詞云分析工具,以所選范圍內的內容相關的標簽數(shù)據(jù)為分析基礎,以詞云的方式對標簽數(shù)據(jù)進行展示,用最直觀的方式為業(yè)務人員展示輿情關鍵詞、新聞關鍵詞、評論關鍵詞等。
(5)情感分析工具,通過對評論、輿情內容的智能分析,利用先進的深度學習技術,實現(xiàn)內容的精準挖掘,針對媒體領域特點進行情感正負面判斷,提取與用戶相關的高價值信息。[4]
全媒體內容庫致力于打造出大容量、多種類、可學習、可交互的智能化內容管理引擎,通過全媒體內容服務平臺,可以充分吸收多種渠道海量匯聚的內容,經(jīng)過內容整理后,實現(xiàn)內容的精準查詢、關聯(lián)檢索、可視化分析等。同時,還可以根據(jù)對自有內容的數(shù)據(jù)挖掘,通過建模,自動形成主題事件庫、知識庫等面向業(yè)務的輔助決策、輔助生產(chǎn)、輔助發(fā)布的內容池。核心模塊包括以下幾方面。
針對不同類型、不同來源的內容,處理引擎對內容進行自動化處理,進行結構化,內容處理引擎能力包括:
內容篩選:通過分析內容元數(shù)據(jù)、文本信息,以及系統(tǒng)配置信息,設置內容的重要級別、保密級別。
內容過濾:內容的重復過濾、垃圾信息過濾、廣告過濾,同時對視音頻素材也需要具有過濾功能,對重復上傳的視音頻避免重復入庫。
內容審核:基于敏感詞及特征庫,過濾檢測內容的文本、圖片及視頻。自動過濾匯聚素材中的敏感內容,并將包含敏感詞的素材放入待發(fā)布區(qū),由人工二次處理。
字幕檢測與識別:從視頻中檢測到是否有字幕。字幕識別,對有字幕的視頻把字幕轉換成文字。
人臉檢測:檢測是否是某個特定人的臉,檢測是否含有人臉。
視頻標簽提?。鹤R別視頻中的場景、人物、風景、建筑、生活物品等,支持不同維度層次的圖像語義信息提取,豐富內容標簽。
多格式轉換:可將多種音視圖文素材轉換為標準的制作格式、碼率,供電視新聞生產(chǎn)網(wǎng)或新媒體調用。
通過人工智能技術對入庫的海量內容的屬性、文本、標簽等進行內容挖掘,包括分類、聚類、自動關聯(lián)、實體名提取、情感分析、標簽提取等。
分類:通過分析內容元數(shù)據(jù)、文本信息、內容標簽,以及分類配置信息,自動將入庫內容進行分類。
聚類:根據(jù)編目信息、自動提取的標簽信息,支持文件屬性自動辨別分類,元數(shù)據(jù)分析分類,元數(shù)據(jù)自動關聯(lián),話題內容相似性聚類,可通過自動聚類技術自動聚焦一段時間內網(wǎng)上熱點信息,可自定義需進行自動聚類運算的素材來源和類別。
自動關聯(lián):新聞稿件相關內容自動關聯(lián),自動關聯(lián)相關、相似的多媒體素材,形成新聞素材集合,便于編輯制作人員有針對性地挑選采用,可自定義需進行自動關聯(lián)的來源,可靈活配置自動關聯(lián)分析靈敏度。
實體名提取,對內容進行領域內的實體名提取,包括欄目名、節(jié)目名、主演、主持、導演等領域內實體名;
情感分析,針對輿情、評論,進行情感分析。
標簽提取:通過分析內容的元數(shù)據(jù)及文本信息,自動提取內容的關鍵詞,形成內容的標簽。
通過靈活使用HTML5技術,適配不同的展現(xiàn)模式,同時運用CSS3的動畫特性,結合媒體內容的自身特點,以更生動、更友好的形式,實時呈現(xiàn)隱藏在龐雜媒體內容背后的規(guī)律、聯(lián)系。
以全媒體內容為基礎的媒體融合業(yè)務,對內容保存和使用需求不再只是以素材和節(jié)目為核心,也不再以人工編目和結構化的數(shù)據(jù)保存為主要手段,而是擴展到面向全媒體業(yè)務,涵蓋素材、節(jié)目、電視稿件、兩微內容、H5頁面等多種內容形態(tài),同時,對內容的編目也以自動化的數(shù)據(jù)提取、智能編目、非結構化的原始數(shù)據(jù)保存為主要手段,重視對原始內容數(shù)據(jù)的持續(xù)挖掘。[5]
以大數(shù)據(jù)、人工智能技術為基礎,重新梳理媒體內容服務的各個環(huán)節(jié)?;跇撕灥膬热莘治鐾诰?,充分發(fā)揮內容的最大價值,最終實現(xiàn)全臺內容包括媒資、制作,以及電視媒體、廣播媒體、新媒體等多種業(yè)務體系內容的統(tǒng)一檢索和使用,實現(xiàn)為融合媒體各種業(yè)務的內容支撐。