宋文喆
(國家廣電總局291臺,蘭州 730105)
隨著廣播電視節(jié)目內容的發(fā)展和創(chuàng)新,以及觀眾對高品質節(jié)目內容需求的不斷增大,需要對海量的廣播電視節(jié)目進行內容方面的監(jiān)管和核查,杜絕虛假廣告、不良內容出現在廣播電視媒體和節(jié)目當中[1]。對于節(jié)目內容的監(jiān)管,需要進行節(jié)目時長、數量的統(tǒng)計,違規(guī)內容的研判,播出情況的分析,還需將海量的核查信息與對應的視音頻文件建立關聯,方便信息的檢索與分析,實現數據的統(tǒng)一描述和管理[2]。
針對上述情況,本文研究從多維度的角度對視音頻文件進行基于標簽的描述與統(tǒng)一管理,包括空間信息、視音頻信息、時間信息、采集來源、監(jiān)測研判、監(jiān)測人員等六個維度,完成廣播電視違規(guī)節(jié)目的多維度描述、多維度存儲、多維度檢索。在此基礎上設計違規(guī)節(jié)目內容綜合管理平臺,實現視音頻文件的內容描述、存儲、檢索功能,提高廣播電視違規(guī)節(jié)目內容核查與監(jiān)管的能力。
違規(guī)節(jié)目內容多維度描述體系的主要任務是對視音頻文件及其相關聯的描述文件(節(jié)目播出情況表)進行處理,讓兩者相互關聯,并批量導入系統(tǒng)數據庫,使紛繁雜亂的數據得到有序管理,為后續(xù)的違規(guī)節(jié)目信息檢索以及數據統(tǒng)計分析做好準備。
具體流程主要包括以下兩部分:
(1)關于違規(guī)節(jié)目原始數據的預處理,將視頻文件與相關的描述文件(節(jié)目播出情況表)進行關聯匯聚并導入數據庫,以預先設定好的六大維度描述體系對違規(guī)節(jié)目視音頻文件進行統(tǒng)一描述;
(2)關于違規(guī)節(jié)目統(tǒng)一描述數據的處理,使用數據挖掘技術發(fā)現被管理數據的規(guī)律、共性特征,以此為基礎建立基于標簽的內容關鍵詞庫,方便對違規(guī)節(jié)目信息、數據進行檢索及統(tǒng)計分析。
具體處理流程如圖1所示:
圖1 數據處理流程圖
為了更好地描述與利用視音頻節(jié)目的信息,建立一定的描述體系對其進行系統(tǒng)化地描述與分類,將從空間信息、視音頻信息、時間信息、采集來源、監(jiān)測研判、監(jiān)測人員等六個維度進行描述和記錄,實現對違規(guī)節(jié)目內容的信息管理。六個維度各有子維度予以支撐,相互之間建立映射關系,可以完全描述違規(guī)視音頻節(jié)目的有用信息,對于描述信息不足的,可以人工補充。根據視音頻描述信息的所屬維度,細化到標簽名稱,將具體節(jié)目播出情況表中信息填入到映射字段中,方便將節(jié)目播出情況表中內容導入到系統(tǒng)中。
具體的設計方案如下:
(1)空間信息
空間信息國家/地區(qū)省份城市其他
空間信息子維度都以列表的形式展示,點擊進入配置界面可進行內容上的管理與維護,包括增、刪、改、查。對于前臺,進行標簽標注時,采用級聯下拉框的形式進行展示,選擇對應的區(qū)域然后提交后,系統(tǒng)自動保存數據。
(2)視音頻信息
視音頻信息名稱所屬頻道節(jié)目類別內容簡介違規(guī)類型記錄原因
視音頻信息是違規(guī)節(jié)目內容研判的主要信息,要求詳細填寫,以文本輸入類型為主,且字量要設置的盡量大,滿足文本輸入要求。其中,節(jié)目類別為廣播電視具體播出的節(jié)目形態(tài),如養(yǎng)生類節(jié)目、醫(yī)藥廣告、購物短片廣告、招商加盟類廣告,付費頻道的專業(yè)節(jié)目,購物頻道的購物節(jié)目等,要包括目前所有的業(yè)務形態(tài);違規(guī)類型是對視音頻文件研判后的定性結果,是詳細展示的描述信息;記錄原因是廣播電視節(jié)目違規(guī)情況的具體描述。上述子維度信息均可進行內容上的修改和維護,并且可以根據實際業(yè)務需求增加和調整子維度。
(3)時間信息
時間信息開始時間結束時間視頻時長日期
廣播電視節(jié)目有大量的重播情況,故時間信息是關聯違規(guī)視音頻文件的重要信息。上述子維度均為可配置項,即名稱、數據類型都可在后臺配置,兼容文本輸入、日期等類型。
(4)采集來源
廣播電視節(jié)目監(jiān)管根據任務的不同而采用不同的業(yè)務系統(tǒng),采集來源信息主要針對此情況而設置,如衛(wèi)星系統(tǒng)、有線電視系統(tǒng)、廣播監(jiān)測系統(tǒng)等。
(5)監(jiān)測研判
監(jiān)測研判任務來源任務類型
其中,任務來源主要是標明該任務是從上級哪個廣播電視監(jiān)測監(jiān)管部門下發(fā)的,以便后續(xù)的歸類和分析;任務類型則包括衛(wèi)視廣告監(jiān)看、地面電視廣告監(jiān)看、廣播廣告監(jiān)聽等內容。每個任務都會對應不同的任務來源和任務類型。
(6)監(jiān)測人員
監(jiān)測人員部門職位姓名
監(jiān)測人員信息主要用于明確責任。上述子維度均可在后臺進行靈活配置,以方便維護與擴展,兼容文本輸入、日期等數據類型。
在廣播電視節(jié)目內容監(jiān)管中,通過違規(guī)敏感詞庫進行節(jié)目內容合規(guī)性篩查,并且需要較高的完整性和準確性。面對海量的視音頻文件與相關描述信息,需要做大規(guī)模的收集和整理,使原本混亂的信息變的有序化,方便違規(guī)內容的檢索和展示。基于此需要建立違規(guī)內容關鍵詞庫,將敏感詞納入多維度描述體系中,依托標簽語義體系模型,對違規(guī)標簽進行語義擴展,實現標簽語義化處理。該系統(tǒng)從違規(guī)節(jié)目內容六大維度中選取的一些標簽項加入關鍵詞庫,作為違規(guī)節(jié)目內容的標準標簽,對廣播電視節(jié)目內容基于分詞技術進行數字特征提取,利用標準特征庫的并行交叉匹配算法和智能比對技術,提供標準的匹配、比對、檢索的并行接口,即相當于形成一個詞表用以提高非法違規(guī)廣播電視節(jié)目的檢測的準確度和速度。對于以后新增加的視頻節(jié)目信息,如果其導入的內容與關鍵詞庫中相同或者相似,就判斷這個視頻節(jié)目也有可能是違規(guī)節(jié)目。例如將敏感人物的標簽加入到關鍵詞庫當中,與其相應的信息便可方便查詢和檢索,有助于監(jiān)控特定、潛在的節(jié)目違規(guī)情況。以六個描述維度以及現有的視音頻節(jié)目和描述文件為基礎,以信息抽取、關鍵詞庫構建為技術手段,獲取廣播電視頻率頻道播出的違規(guī)節(jié)目綜合信息,及時歸納違規(guī)節(jié)目的總量與分布規(guī)律,豐富監(jiān)管人員在知識儲備、關注領域、研判規(guī)律等方面的知識貯備和交流,最大限度地發(fā)揮內容資源的優(yōu)化與共享。當新任務下達時,可以通過查詢關鍵詞庫得到對于特定時間段、特定頻道、特定內容或者是特定廣告類型的統(tǒng)計數據,掌握違規(guī)節(jié)目的歷史播出情況,對新的監(jiān)管任務有很大的數據支撐作用。
基于以上體系設計以及廣播電視節(jié)目內容監(jiān)管工作的實際需求,設計完成違規(guī)節(jié)目內容多維度綜合管理平臺。該系統(tǒng)提出靈活、可擴展、統(tǒng)一的視音頻多維度描述體系,從空間信息、視音頻信息、時間信息、采集來源、監(jiān)測研判、監(jiān)測人員等多個維度對視音頻違規(guī)內容進行標注,后臺提供以Tab頁的形式切換展現不同維度的標注信息項,用戶可以隨時保存輸入的內容,能夠有效的解決數據孤島問題,增強監(jiān)測數據的統(tǒng)計分析能力,也是后續(xù)建立違規(guī)節(jié)目內容關鍵詞庫的基礎。通過自然語言處理技術與人工相結合的方式,能夠自動識別并獲取與視音頻節(jié)目內容違規(guī)相關的違規(guī)標簽,進而能夠建立違規(guī)標準標簽庫,讓違規(guī)節(jié)目監(jiān)管工作更加有的放矢,有效提高對廣播電視違規(guī)節(jié)目內容的監(jiān)管能力。
違規(guī)節(jié)目內容綜合管理平臺如圖2所示。
圖2 違規(guī)節(jié)目內容綜合管理平臺
其中,視音頻界面展示違規(guī)節(jié)目視音頻文件,規(guī)范文件命名規(guī)則為“頻道名稱+日期+開始時間+節(jié)目名稱”。廣播電視會有大量重播,而且相同節(jié)目會在不同頻道播出,通過文件命名的四個信息的交叉驗證,可以將視音頻文件和相關的違規(guī)節(jié)目描述信息建立對應的映射關系,確保數據關聯正確。監(jiān)管人員可在搜索框檢索需要的視音頻文件,并且能夠播放相應視音頻,點擊相應條目數據上的“維度描述”可查看該違規(guī)節(jié)目六個維度的詳細描述信息,如圖3所示。
圖3 多維度描述信息
此外,內容項管理界面可顯示所有數據庫當中的違規(guī)視音頻文件以及相應的描述信息,每一行代表不同的違規(guī)視音頻文件以及相應描述信息。點擊“維度描述”同樣可查看上圖所示的該違規(guī)節(jié)目詳細維度描述信息。同時,還可將鼠標滑動到某行數據條目上,系統(tǒng)自動彈窗顯示違規(guī)節(jié)目詳細維度描述信息,如圖4所示。
圖4 內容項管理界面
通過對廣播電視不同渠道、不同內容進行監(jiān)管,監(jiān)測人員的工作時間越長,處理的違規(guī)內容節(jié)目越多,就越能累積相應的違規(guī)判斷經驗,這些經驗能夠對今后的工作有效指導,提高監(jiān)測效率。對違規(guī)視音頻節(jié)目內容多維度描述體系的研究,有助于高效管理現有的違規(guī)節(jié)目,對于違規(guī)視音頻從空間信息、視音頻信息、時間信息、采集來源、監(jiān)測研判、監(jiān)測人員這六個維度來展示其詳細信息,實現對違規(guī)節(jié)目內容的監(jiān)控管理功能。將以往以文件形式分散存儲的獨立數據,通過數據匯聚將上述數據按照多維度描述進行匯聚、統(tǒng)一描述并存儲,能夠對上述數據進行深度挖掘分析,從而進行違規(guī)監(jiān)測知識的抽取與沉淀。