司凱威
國家廣播電視總局二九三臺(tái) 河南省 鄭州市 451162
伴隨著移動(dòng)互聯(lián)的高速發(fā)展和智能終端的普及,抖音、快手等短視頻應(yīng)用程序成為廣大群眾收聽收看視聽節(jié)目的重要途徑。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心調(diào)查表明,截至2021年6月,中國短視頻用戶達(dá)到8.88億,短視頻應(yīng)用的人均單日使用時(shí)長為125分鐘。在短視頻應(yīng)用程序展現(xiàn)巨大的商業(yè)價(jià)值的同時(shí),個(gè)別賬號運(yùn)營者趁機(jī)傳播包含色情、低俗、侵犯版權(quán)等內(nèi)容的視聽節(jié)目。為維護(hù)廣大網(wǎng)民的收聽收看權(quán)益和引導(dǎo)行業(yè)健康發(fā)展,在政府相關(guān)部門的指導(dǎo)下,中國網(wǎng)絡(luò)視聽節(jié)目服務(wù)協(xié)會(huì)聯(lián)合國內(nèi)主要視頻網(wǎng)站,制定了《網(wǎng)絡(luò)短視頻平臺(tái)管理規(guī)范》和《網(wǎng)絡(luò)短視頻內(nèi)容審核標(biāo)準(zhǔn)細(xì)則》對短視頻內(nèi)容、標(biāo)題、名稱、評論、彈幕、表情包等給出了具體規(guī)定。
相對于互聯(lián)網(wǎng)視聽節(jié)目傳播,通過移動(dòng)應(yīng)用程序傳播的短視頻節(jié)目具有數(shù)量多、內(nèi)容豐富、互動(dòng)性強(qiáng)、推送算法屬性強(qiáng)、矩陣式傳播等特點(diǎn)[1]。人工操作智能終端逐個(gè)監(jiān)看的工作方式存在勞動(dòng)強(qiáng)度大、耗時(shí)長、覆蓋范圍小、監(jiān)看周期長、證據(jù)保存難度大等問題。因此,亟需建立短視頻節(jié)目監(jiān)管平臺(tái)對違規(guī)內(nèi)容進(jìn)行識(shí)別和預(yù)警,提升工作的效率。
為滿足智能終端控制、音視頻和通訊數(shù)據(jù)實(shí)時(shí)采集、采集數(shù)據(jù)識(shí)別和數(shù)據(jù)展示、平臺(tái)維護(hù)升級等需求,該系統(tǒng)使用了智能終端、工控機(jī)、調(diào)度服務(wù)器、數(shù)據(jù)庫服務(wù)器、發(fā)布服務(wù)器、無線路由器和交換機(jī)等設(shè)備。根據(jù)設(shè)備分工,分為監(jiān)管對象、控制與采集、音視頻數(shù)據(jù)處理、展示與維護(hù)等子系統(tǒng),如圖1所示。
圖1 系統(tǒng)組成示意圖
監(jiān)管對象主要指運(yùn)行在智能終端上的抖音、快手、西瓜視頻等短視頻應(yīng)用程序。利用數(shù)據(jù)庫服務(wù)器和磁盤陣列存儲(chǔ)應(yīng)用程序的版本、下載地址、存放地址、賬戶信息、連接配置等信息,以便對短視頻應(yīng)用程序管理。
控制與采集子系統(tǒng)主要包括安裝有千兆網(wǎng)卡的控制電腦、無線路由器、鏡像交換機(jī)等。為簡化控制程序設(shè)計(jì),智能終端是基于安卓操作系統(tǒng)的智能手機(jī)和平板。為同時(shí)實(shí)現(xiàn)對多個(gè)智能終端的控制和避免通訊數(shù)據(jù)的干擾,控制電腦與智能終端的數(shù)據(jù)通過USB線纜進(jìn)行交互。鏡像交換機(jī)的上聯(lián)口連接公共互聯(lián)網(wǎng),監(jiān)控口連接控制電腦,下端口連接無線路由器。承擔(dān)相同短視頻節(jié)目監(jiān)管的智能終端連接同一個(gè)無線路由器,以便通信數(shù)據(jù)的后期處理。
數(shù)據(jù)處理與存儲(chǔ)子系統(tǒng)主要包括有調(diào)度服務(wù)器、圖像處理服務(wù)器、音視頻處理服務(wù)器和采集數(shù)據(jù)服務(wù)器。數(shù)據(jù)庫服務(wù)器安裝有支持高并發(fā)的MySQL數(shù)據(jù)庫。為保證文本、音視頻、通信數(shù)據(jù)的存取速度,數(shù)據(jù)存儲(chǔ)使用了大容量的磁盤陣列。為利用最先進(jìn)的數(shù)據(jù)處理算法,圖像處理服務(wù)、音視頻服務(wù)和IP代理服務(wù)均由某互聯(lián)網(wǎng)廠商提供。服務(wù)器之間通過匯聚交換機(jī)進(jìn)行互聯(lián)。
為了防止因長時(shí)間刷取特定內(nèi)容而被短視頻平臺(tái)屏蔽,在網(wǎng)絡(luò)中使用了IP代理和地址池,定時(shí)修改定位信息、IP地址等信息。
為實(shí)現(xiàn)對多個(gè)短視頻應(yīng)用程序的實(shí)時(shí)控制、音視頻采集、通信數(shù)據(jù)抓取、節(jié)目內(nèi)容識(shí)別、預(yù)警信息分級等功能,兼顧后期軟件維護(hù)和升級的需求,本系統(tǒng)可以分為基礎(chǔ)支撐層、控制與采集層、數(shù)據(jù)處理層、業(yè)務(wù)應(yīng)用層等,如圖2所示。
圖2 軟件架構(gòu)圖
基礎(chǔ)支撐層為智能終端控制、數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)等提供硬件支持和軟件環(huán)境。將智能終端的配置信息和采集數(shù)據(jù)存儲(chǔ)在磁盤陣列和MySQL數(shù)據(jù)中,達(dá)到一次配置長期使用的效果。
設(shè)備控制與采集層主要負(fù)責(zé)智能終端的控制、音視頻數(shù)據(jù)采集和通信數(shù)據(jù)的抓取等任務(wù)。數(shù)據(jù)控制模塊通過安卓系統(tǒng)的調(diào)試(以下簡稱ADB)命令實(shí)現(xiàn)對短視頻應(yīng)用程序的安裝、卸載、打開、切換、捕獲、關(guān)閉等操作。為防止被短視頻平臺(tái)屏蔽,所有的應(yīng)用軟件均通過手機(jī)號登錄。智能終端數(shù)據(jù)采集主要是利用ADB命令獲取短視頻應(yīng)用程序的布局信息、截屏、音視頻錄像等數(shù)據(jù)。通信數(shù)據(jù)采集主要是對控制電腦的網(wǎng)卡數(shù)據(jù)進(jìn)行實(shí)時(shí)抓取,以得到IP、域名、圖片、音視頻等后臺(tái)信息。
數(shù)據(jù)處理與存儲(chǔ)層主要是利用XML文件格式化、關(guān)鍵詞比對、圖片識(shí)別等技術(shù)對采集到的數(shù)據(jù)進(jìn)行處理,提取彈幕、評論、賬戶信息、違規(guī)內(nèi)容等信息。為縮短項(xiàng)目開發(fā)周期和利用最新的研究成果,在圖片識(shí)別和音視頻比對方面采用了購買某互聯(lián)網(wǎng)企業(yè)提供的音視頻識(shí)別功能。在通信數(shù)據(jù)分析方面,主要是利用pyshark調(diào)用wireshark的數(shù)據(jù)分析函數(shù),實(shí)現(xiàn)IP、域名、音視頻等提取。
為便于對采集的文字、圖片、音視頻、通信數(shù)據(jù)等數(shù)據(jù)的存儲(chǔ)和查詢,將所有的文件按照采集時(shí)間進(jìn)行命名,并將文件的MD5值和路徑保存在數(shù)據(jù)庫中。
該層主要實(shí)現(xiàn)對節(jié)目信息的展示和參數(shù)配置。短視頻節(jié)目信息模塊提供節(jié)目賬號、節(jié)目、鏈接、域名、IP、開辦主體等信息的查詢服務(wù)。按照預(yù)警等級,將違規(guī)賬戶、節(jié)目、標(biāo)題、評論等相關(guān)數(shù)據(jù)推送給研判人員。在系統(tǒng)管理模塊中,可以對智能終端、應(yīng)用程序、關(guān)鍵詞、賬戶信息等資源進(jìn)行動(dòng)態(tài)管理。
為實(shí)現(xiàn)對智能終端的實(shí)時(shí)控制,主要使用了安卓系統(tǒng)的通用調(diào)試工具。該工具通過命令的方式,能夠完成短視頻應(yīng)用程序的安裝、啟動(dòng)、切換、錄制屏幕等操作。智能終端常用控制表,如表1所示。
表1 智能終端控制命令表
利用pyshark模塊調(diào)用安裝在控制主機(jī)上的網(wǎng)絡(luò)通信監(jiān)測軟件wireshark,實(shí)現(xiàn)對運(yùn)行短視頻應(yīng)用程序的智能終端與網(wǎng)絡(luò)服務(wù)器之間的通信數(shù)據(jù)[2]。首先是配置實(shí)時(shí)采集用的網(wǎng)卡參數(shù),然后是對傳輸?shù)木W(wǎng)絡(luò)數(shù)據(jù)包根據(jù)目的地址進(jìn)行實(shí)時(shí)過濾,最后是使用過濾命令對其中的圖片、音視頻數(shù)據(jù)信息進(jìn)行提取。通信數(shù)據(jù)采集命令,如表2所示。
表2 通信數(shù)據(jù)采集命令表
在短視頻監(jiān)管中發(fā)現(xiàn),部分短視頻應(yīng)用程序?yàn)榱朔乐蛊脚_(tái)節(jié)目被惡意獲取,采用了HTTPS協(xié)議傳輸賬戶、標(biāo)題、評論、彈幕等信息。為獲取相關(guān)的監(jiān)管數(shù)據(jù),本系統(tǒng)主要采取了以下措施:一是解析通信數(shù)據(jù),獲取圖片、音視頻、IP地址等數(shù)據(jù)。二是利用某服務(wù)商提供的圖像識(shí)別服務(wù)對截屏文字進(jìn)行識(shí)別,然后進(jìn)行解析獲取。三是使用了ADB命令獲取短視頻應(yīng)用的布局信息,然后通過XML解釋器獲取相關(guān)信息。
短視頻節(jié)目智能監(jiān)管系統(tǒng)利用智能終端控制、通信數(shù)據(jù)采集、音視頻數(shù)據(jù)識(shí)別等技術(shù),解決了原有短視頻監(jiān)管中存在的勞動(dòng)強(qiáng)度大、耗時(shí)長、覆蓋范圍小、監(jiān)看周期長、證據(jù)保存難度大等問題。實(shí)踐證明,該系統(tǒng)具有自動(dòng)化程度高、配置靈活、周期短、勞動(dòng)強(qiáng)度低等優(yōu)點(diǎn),有效提升了短視頻節(jié)目的工作效率和質(zhì)量。下一步,在提升軟件穩(wěn)定性的基礎(chǔ)上,引入虛擬化的理念,提升系統(tǒng)并行控制和采集短視頻應(yīng)用程序的數(shù)量。