劉琨
摘要:電視臺標檢測是網絡視頻審核的常用方法,但傳統(tǒng)臺標檢測方法檢測成功率較低,文章將基于深度學習的SSD算法應用于臺標檢測。首先選取79類237個常見臺標視頻作為臺標基準庫,以每秒一幀的速率對臺標基準庫進行處理,共127 980張圖像頓,其中95 586張用于臺標檢測模型訓練,32 394張用于模型測試,算法每訓練2 000次進行模型迭代,共訓練90 000次并選取最優(yōu)模型。經過大量的臺標樣本實驗測試,準確率可達98.2%,優(yōu)于權威文獻中經典方法。表明該方法具有較高準確率和高擴充性。
關鍵詞:網絡視頻審核;臺標檢測;深度學習;SSD;高擴充性
電視臺的臺標是確定電視臺的臺名、節(jié)目取義的重要信息,是區(qū)分不同電視臺唯一標志。為了聲明視頻的所有權,往往會在播放的視頻中加入臺標。隨著科技的迅猛發(fā)展,互聯網每天都會產生大量視頻,電視臺標是視頻的特有標識,通過識別臺標來進行網絡視頻審核顯得尤其重要。因此視頻臺標識別一直是學術界研究的熱點。
在臺標的研究中,王建等采用圖像分割方法進行臺標識別,通過時域抽樣方法選取代表幀序列,計算梯度圖像序列,并進行邊緣匹配;史迎春等利用空間分布直方圖和HSV空間的彩色直方圖相結合的方法對臺標特征進行描述,并采用知識庫輔助直方圖統(tǒng)計的方法進行臺標識別;金陽等提出的極坐標角點對匹配方法,雖然較好地解決了半透明臺標檢測問題并且準確率有了較大提升,但算法實時性較差。
2016年李世石在與基于深度學習的AlphaGo圍棋比賽中落敗,2017年,深度學習在醫(yī)療影像處理、安防安保、金融領域等的應用越來越廣泛。故本文提出將深度學習應用到臺標檢測這一研究熱點。臺標檢測也屬于目標檢測,當前目標檢測領域最先進的SSD(Single Shot Detector)算法,已經成功應用到體育領域關于網球鷹眼機器人的改進,交通領域對于紅綠燈的識別等。因此,本文提出將SSD應用到臺標檢測。
1 SSD算法
SSD是建立在深度學習框架caffe的基礎之上的?,F今流行的檢測方法都是先生成一些假設的邊界盒子,然后再提取特征,之后經過一個分類器,判斷里面是什么物體。但這類方法不足以實時地進行檢測。而SSD消除了中間的邊界盒子、像素或特征重采樣的過程,算法的核心就是預測物體以及對其類別進行評分,同時在特征地圖上使用小的卷積核,去預測一系列邊界盒子的盒子偏移。以下為算法的詳細介紹。
1.1 SSD模型結構
SSD是基于一個前向傳播CNN網絡,產生一系列固定大小(fixed-size)的邊界盒子,以及每一個盒子中包含物體實例的可能性,即得分。之后,進行一個非極大值抑制(non-maximum suppression)得到最終的預測。算法框架的最開始部分,稱作基礎網絡(base network),是用于圖像分類的標準架構。在基礎網絡后,添加一些卷積層,這些層的大小逐漸減小,可以進行多尺度預測。
1.2 SSD模型訓練
1.2.1 目標函數
1.2.2 為默認盒子選擇尺度和縱橫比
一般來說,CNN的不同層有著不同的感受野。然而,在SSD結構中,默認盒子不需要和每一層的感受野相對應,特定的特征圖負責處理圖像中特定尺度的物體。在每個特征圖上,默認盒子的尺度計算如下:
1.2.3 負樣本選取策略
經過匹配后,很多默認盒子是負樣本,這將導致正樣本、負樣本不均衡,訓練難以收斂。因此,將負樣本根據置信度進行排序,選取最高的幾個,并且保證負正樣本的比例為3:1。
2 基于SSD的臺標檢測
總步驟為數據選取,臺標數據格式轉換,臺標檢測模型訓練,臺標檢測模型測試。現選取關鍵步驟進行詳細介紹。
2.1 數據選取
在網上選取相同時間長度的79類237個視頻,抽取視頻圖像幀,對圖像幀中的臺標進行標注,若圖右上角及正下方出現cctvl3,則一張圖像幀對應的標注格式即為cctv13{106, 20, 178, 20, 178, 67, 106, 67}; cctv13{369,319, 440, 319, 440, 345, 369, 345}。
2.2 臺標格式轉換
對視頻圖像幀進行臺標結果標注后,編寫程序對標注結果進行處理,將txt文本中數據按序轉換為XML格式。并編寫程序,將127 980個XML格式的文件打亂分成兩部分,其中95 586張用于模型訓練,32 394張用于模型測試。
2.3 模型訓練
編寫程序,將95 586個XML格式數據文檔及對應的視頻圖像幀進行編碼轉換為1 mdb格式,以便SSD進行模型訓練。
3 實驗結果與分析
3.1 實驗平臺
實驗所用平臺設備為:操作系統(tǒng):Ubuntix 14.04;GPU:NVIDIA GTX1080Ti;驅動:CUDA 8.0,軟件為caffe(SSD)+ Pycharm Community。
3.2 實驗結果
實驗選取圖像幀進行模型測試,采用的是迭代80 000次模型進行測試。
圖1是東方衛(wèi)視(dfws)新聞的截圖,算法對所有臺標進行了檢測并評分。
3.3 實驗對比
鑒于模型訓練所需時間較長,故本文要求每訓練2 000次,模型便進行一次輸出,輸出到94 000代截止。對模型準確率的統(tǒng)計如圖2所示。
我們發(fā)現,模型大概迭代到80 000代基本達到收斂,準確率達98.2%。
3.4 實驗總結
本文將當下最前沿的深度學習技術與臺標檢測這一工程實際問題相結合,經過實驗,明顯提高了臺標檢測的準確率。
4 結語
臺標檢測是網絡視頻審核的常用方法,但一直以來,很多算法在臺標檢測的成功率上一直表現不佳。本文率先提出將基于深度學習的目標檢測算法應用于臺標檢測,在進行大量實驗后,臺標檢測成功率有了明顯提升。此外,為了進一步提高臺標檢測的速度,以后會選取性能更好的GHJ進行模型訓練,以及擴充樣本類別,使得可檢測的臺標種類得到提升。
[參考文獻]
[1]吳月鳳,何小海,張峰.SURF算法和RANSAC算法相結合的臺標檢測與識別[J].電視技術,2014(13):191-195.
[2]王建,賀翼虎,周源華.新聞視頻靜態(tài)圖形標識分割[J].上海交通大學學報,2006(5):758-761.
[3]史迎春,周獻中,方鵬飛.綜合利用形狀和顏色特征的臺標識別[J].模式識別與人工智能,2005(2):216-222.
[4]鄧曄.深度學習技術與安防行業(yè)的超融合[J].中國安防,2017(5):26-30.
[5]LIU W, ANGUELOV D, ERHAN D, et al.SSD:single shot multibox detector[C].Amsterdam:European Conference on ComputerVision, 2016:21-37.