亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

淺談全媒體內容庫的內容挖掘與可視化

2018-08-17 07:27:42郭海程大川

中國傳媒科技 2018年7期

關鍵詞：提取

文/郭海程大川

1.全媒體內容服務的新需求

全媒體內容庫是融合媒體平臺的重要組成部分，通過全媒體內容庫可實現(xiàn)跨媒體的內容資源管理，整合全臺在線全媒體內容資源。通過構建全媒體內容庫，還可以實現(xiàn)全臺內容的統(tǒng)一檢索、統(tǒng)一共享和快速調用，真正激活臺內現(xiàn)有的媒資及各種業(yè)務系統(tǒng)內的媒體內容資源，為全媒體融合生產(chǎn)、全媒體指揮策劃和內容運營提供內容支撐。當前，廣電融合媒體平臺建設如火如荼，在新的技術平臺和業(yè)務架構下，媒體內容管理的對象、流程，以及提供內容服務的方式也隨之變化。

用戶需要提供更加豐富的內容發(fā)現(xiàn)手段，不僅僅是分類查找、全文搜索。在用戶有明確目的查找內容的時候，要能使用戶隨時隨地通過各種搜索手段獲得準確的內容。在用戶沒有明確目標的時候，達到“想你所想”的內容響應，在服務形式上化被動為主動，將內容與用戶需求相結合，為用戶提供精準、貼合的內容分析服務。

原有內容再造，是傳統(tǒng)媒體在內容上的核心競爭力，[1]全媒體內容庫需要為用戶提供更多的內容可視化分析工具，讓用戶通過內容可視化工具，更多維度的去理解內容庫中的內容，讓內容的分析、內容挖掘更加簡單、易用、直觀，讓用戶進行交互式、可視化的內容探索。

2.內容可視化技術研究與應用

全媒體內容庫以大數(shù)據(jù)、人工智能等先進技術為支撐，進行媒體內容服務的創(chuàng)新，通過對全媒體內容進行標簽提取，基于內容標簽進行內容的深度分析、計算，實現(xiàn)對內容庫媒體內容的挖掘，包括索引、關鍵詞提取、自動摘要、分類、聚類、情感分析、關聯(lián)計算等，對得到的分析計算結果進行解釋和表示。最終，通過內容可視化的方式為用戶提供更友好、更準確的內容服務。

2.1 全媒體內容的特征提取及計算

全媒體內容庫中的內容種類包括文本、圖片、音頻、視音頻等，全媒體內容包含多種維度的描述內容的特征，對于這些特征的提取，是分析、挖掘全媒體內容的基礎。

2.1.1 文本特征提取

全媒體內容庫通過自然語言處理技術，實現(xiàn)對文本內容的分析，包括詞性分析、關鍵詞提取、自動摘要、情感分析等，從而提取文本的相關特征。

2.1.2 圖像特征提取

通過人工智能圖像技術，將內容庫中的圖像內容自動生成相應的文字描述，描述的特征范圍涵蓋場景描述、物體分類、人物、地標、熱詞等，可以提取對不同維度、不同層次的圖片內的語義特征信息。[2]抽取相關的特征向量后，形成代表該圖像的多維特征向量，通過向量計算，在特征向量空間中比較、分析各圖像特征向量之間的距離或相似關系，完成對圖像內容相關分析計算，從而讓系統(tǒng)獲得高層次的對圖像的理解。

2.1.3 視頻特征提取

通過人工智能的視頻處理技術，對內容庫中的視頻進行智能分析，分析的視頻內容包括視頻內的語音、文字、人臉、物體、場景等多種維度內容，提取描述視頻內容的特征信息。特征內容包括視頻的分類、人物、語音識別文字、物體、字幕、標題、彈幕文字內容等。

2.1.4 音頻特征提取

通過人工智能技術，對內容庫中的音頻進行智能分析。音頻挖掘通常有兩種方式：將音頻中的語音識別成文字，再對文字信息進行特征提?。粡囊纛l中提取音樂特征，例如音調、旋律，以及說話人的聲紋特征，提取人物等。通過分析獲得的音頻特征，進行音頻內容的相關內容分析計算。

2.2 基于標簽的內容分析

所謂標簽，既上述媒體內容的特征，通過一些標簽描述、代表某一內容，這個內容可以是全媒體內容庫中的任何內容，包括互聯(lián)網(wǎng)匯聚、通聯(lián)稿件、報題、選題、報道等。對比傳統(tǒng)“分類”的概念，一個內容往往只屬于幾個固定的分類，但可以擁有許多個不同維度的內容描述標簽。同時，“分類”的定義相對固定，數(shù)量有限，而標簽則是數(shù)量無上限擴展，自由添加，并且標簽具有時效性。全媒體內容庫中的內容大爆炸給標簽帶來了用武之地，通過內容標簽可以對全媒體內容庫中的海量內容進行多維度的管理。

通過標簽進行內容分析，讓系統(tǒng)、用戶可以更多維度、更深地理解內容，抽取全媒體內容的具有表意性、顯著性的特征、特點，形成描述該全媒體內容的標簽。

可以解決使用者對海量全媒體內容的“發(fā)現(xiàn)”的需求。內容庫中，海量的全媒體內容，使用者要想快速、方便的找到自己需要的內容，通過內容標簽是最方便、可靠地方式。對于全媒體內容庫的使用者，標簽能夠有效地進行內容整理、組織和管理。

標簽有助于用戶挖掘全媒體內容庫中的內容價值，通過人工智能技術挖掘得到不同維度的內容標簽，使用戶進行探索式內容挖掘成為可能，用戶可以從不同角度通過可視化的方式，觀察內容庫中的內容，發(fā)掘更深度的內容價值。

2.3 多種媒體內容的可視化應用

對于全媒體內容庫中的內容可視化，處理的數(shù)據(jù)類型涵蓋文本、多維、視音頻、時空數(shù)據(jù)等，采用的顯示方法包括標準的2D/3D圖表顯示、圖像化顯示、列表顯示、地圖顯示等。

多維數(shù)據(jù)可視化分析的目標是發(fā)現(xiàn)多維數(shù)據(jù)分布規(guī)律，尋求不同維度之間的邏輯關系，通常采用的顯示方法包括曲線圖、折線圖、散點圖、餅圖、柱狀圖、雷達圖、熱力圖等圖表顯示方法。

文本內容的可視化，常用的可視化技術是標簽云，[3]它直接抽取文本中的關鍵詞并將其按照一定的順序和規(guī)律整齊美觀地呈現(xiàn)在屏幕上。關鍵詞在文本中有分布的差異，有的出現(xiàn)的頻率高，有的出現(xiàn)的頻率低，有的重要性高，有的重要性低，可以利用字體的大小和顏色的醒目度反映文本中各個關鍵字的差異，越是重要、出現(xiàn)頻率高的關鍵詞可以采用較大、顏色較醒目的字體。

2.4 探索式可視化的內容分析

可視化的自助式內容探索工具，輔助用戶通過可視化的方式分析、挖掘內容，產(chǎn)出對內容生產(chǎn)有價值的洞察。整個內容挖掘“可視化”的過程，用戶根據(jù)需求簡單進行拖拽式、交互式操作即可完成，多種展示形式，秒級響應。讓用戶能夠以最直觀的方式發(fā)現(xiàn)一些內容背后潛在的相關性。

（1）內容分布分析工具，通過內容的屬性、標簽等，用戶可以通過工具自助地進行內容分析、統(tǒng)計，提供多種可視化組件，使用戶以最直觀的方式了解內容庫中的內容。

（2）熱點內容挖掘工具，通過可視化工具可以直觀地發(fā)現(xiàn)當前熱點，再通過熱點進行下鉆，分析、挖掘與熱點相關的內容?？梢酝ㄟ^選擇不同領域，包括時政、經(jīng)濟、體育、民生、影視等，更加專注地挖掘熱點內容。

（3）主通過對海量內容的智能挖掘關聯(lián)，自動聚合生成事件專題、人物專題、自定義專題等。通過可視化的對內容聚類分析結果的呈現(xiàn)，幫助用戶挖掘潛在的內容，為選題決策、內容生產(chǎn)提供智能支持。

（4）詞云分析工具，以所選范圍內的內容相關的標簽數(shù)據(jù)為分析基礎，以詞云的方式對標簽數(shù)據(jù)進行展示，用最直觀的方式為業(yè)務人員展示輿情關鍵詞、新聞關鍵詞、評論關鍵詞等。

（5）情感分析工具，通過對評論、輿情內容的智能分析，利用先進的深度學習技術，實現(xiàn)內容的精準挖掘，針對媒體領域特點進行情感正負面判斷，提取與用戶相關的高價值信息。[4]

3.全媒體內容庫構建的核心模塊

全媒體內容庫致力于打造出大容量、多種類、可學習、可交互的智能化內容管理引擎，通過全媒體內容服務平臺，可以充分吸收多種渠道海量匯聚的內容，經(jīng)過內容整理后，實現(xiàn)內容的精準查詢、關聯(lián)檢索、可視化分析等。同時，還可以根據(jù)對自有內容的數(shù)據(jù)挖掘，通過建模，自動形成主題事件庫、知識庫等面向業(yè)務的輔助決策、輔助生產(chǎn)、輔助發(fā)布的內容池。核心模塊包括以下幾方面。

3.1 內容處理引擎

針對不同類型、不同來源的內容，處理引擎對內容進行自動化處理，進行結構化，內容處理引擎能力包括：

內容篩選：通過分析內容元數(shù)據(jù)、文本信息，以及系統(tǒng)配置信息，設置內容的重要級別、保密級別。

內容過濾：內容的重復過濾、垃圾信息過濾、廣告過濾，同時對視音頻素材也需要具有過濾功能，對重復上傳的視音頻避免重復入庫。

內容審核：基于敏感詞及特征庫，過濾檢測內容的文本、圖片及視頻。自動過濾匯聚素材中的敏感內容，并將包含敏感詞的素材放入待發(fā)布區(qū)，由人工二次處理。

字幕檢測與識別：從視頻中檢測到是否有字幕。字幕識別，對有字幕的視頻把字幕轉換成文字。

人臉檢測：檢測是否是某個特定人的臉，檢測是否含有人臉。

視頻標簽提?。鹤R別視頻中的場景、人物、風景、建筑、生活物品等，支持不同維度層次的圖像語義信息提取，豐富內容標簽。

多格式轉換：可將多種音視圖文素材轉換為標準的制作格式、碼率，供電視新聞生產(chǎn)網(wǎng)或新媒體調用。

3.2 內容挖掘引擎

通過人工智能技術對入庫的海量內容的屬性、文本、標簽等進行內容挖掘，包括分類、聚類、自動關聯(lián)、實體名提取、情感分析、標簽提取等。

分類：通過分析內容元數(shù)據(jù)、文本信息、內容標簽，以及分類配置信息，自動將入庫內容進行分類。

聚類：根據(jù)編目信息、自動提取的標簽信息，支持文件屬性自動辨別分類，元數(shù)據(jù)分析分類，元數(shù)據(jù)自動關聯(lián)，話題內容相似性聚類，可通過自動聚類技術自動聚焦一段時間內網(wǎng)上熱點信息，可自定義需進行自動聚類運算的素材來源和類別。

自動關聯(lián)：新聞稿件相關內容自動關聯(lián)，自動關聯(lián)相關、相似的多媒體素材，形成新聞素材集合，便于編輯制作人員有針對性地挑選采用，可自定義需進行自動關聯(lián)的來源，可靈活配置自動關聯(lián)分析靈敏度。

實體名提取，對內容進行領域內的實體名提取，包括欄目名、節(jié)目名、主演、主持、導演等領域內實體名；

情感分析，針對輿情、評論，進行情感分析。

標簽提取：通過分析內容的元數(shù)據(jù)及文本信息，自動提取內容的關鍵詞，形成內容的標簽。

3.3 可視化渲染引擎

通過靈活使用HTML5技術，適配不同的展現(xiàn)模式，同時運用CSS3的動畫特性，結合媒體內容的自身特點，以更生動、更友好的形式，實時呈現(xiàn)隱藏在龐雜媒體內容背后的規(guī)律、聯(lián)系。

總結

以全媒體內容為基礎的媒體融合業(yè)務，對內容保存和使用需求不再只是以素材和節(jié)目為核心，也不再以人工編目和結構化的數(shù)據(jù)保存為主要手段，而是擴展到面向全媒體業(yè)務，涵蓋素材、節(jié)目、電視稿件、兩微內容、H5頁面等多種內容形態(tài)，同時，對內容的編目也以自動化的數(shù)據(jù)提取、智能編目、非結構化的原始數(shù)據(jù)保存為主要手段，重視對原始內容數(shù)據(jù)的持續(xù)挖掘。[5]

以大數(shù)據(jù)、人工智能技術為基礎，重新梳理媒體內容服務的各個環(huán)節(jié)?；跇撕灥膬热莘治鐾诰?，充分發(fā)揮內容的最大價值，最終實現(xiàn)全臺內容包括媒資、制作，以及電視媒體、廣播媒體、新媒體等多種業(yè)務體系內容的統(tǒng)一檢索和使用，實現(xiàn)為融合媒體各種業(yè)務的內容支撐。