徐 帥國(guó)家新聞出版廣電總局哈爾濱監(jiān)測(cè)臺(tái),黑龍江哈爾濱 150089
新時(shí)期互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng)建設(shè)的思索
徐帥
國(guó)家新聞出版廣電總局哈爾濱監(jiān)測(cè)臺(tái),黑龍江哈爾濱150089
隨著互聯(lián)網(wǎng)視聽節(jié)目的發(fā)展,音視頻資源愈來(lái)愈豐富,但這其中也隱藏著一些有害信息,而現(xiàn)有的監(jiān)管系統(tǒng)往往無(wú)法快速有效地搜查出它們。針對(duì)這種現(xiàn)象,文章提出了一個(gè)對(duì)現(xiàn)有監(jiān)控平臺(tái)進(jìn)行資源共享的新思路,重新優(yōu)化監(jiān)測(cè)方式,實(shí)現(xiàn)對(duì)所有的視聽節(jié)目進(jìn)行實(shí)時(shí)快速的自動(dòng)化抓取分析,將甄選出的少量可能含有不健康信息的音視頻數(shù)據(jù)交由工作人員進(jìn)行判斷,并提供這些數(shù)據(jù)的來(lái)源地址,以便更好地打擊網(wǎng)絡(luò)犯罪。
互聯(lián)網(wǎng)技術(shù);視聽節(jié)目;監(jiān)管系統(tǒng)
隨著現(xiàn)代化社會(huì)的發(fā)展,無(wú)論是人們的生活還是工作都已與互聯(lián)網(wǎng)技術(shù)密不可分。雖然互聯(lián)網(wǎng)技術(shù)帶來(lái)了極大的便利,但也帶來(lái)了不小的隱患,越來(lái)越多的不健康信息潛藏在互聯(lián)網(wǎng)中,使得互聯(lián)網(wǎng)監(jiān)管成為一個(gè)各國(guó)政府都不得不面對(duì)的問(wèn)題。早在1977年,美國(guó)便頒布了《聯(lián)邦計(jì)算機(jī)系統(tǒng)保護(hù)法》,開創(chuàng)了將法制引入互聯(lián)網(wǎng)的先河,并在1996年通過(guò)了《通信內(nèi)容端正法》等法律,加強(qiáng)對(duì)互聯(lián)網(wǎng)通信的限制。然而僅有法律的約束是不夠的,由于網(wǎng)絡(luò)環(huán)境的特殊性,一些不法分子還是會(huì)借助互聯(lián)網(wǎng)傳播許多不良信息,給公眾帶來(lái)精神上的污染,所以一個(gè)能對(duì)互聯(lián)網(wǎng)信息進(jìn)行實(shí)時(shí)甄別處理的監(jiān)管系統(tǒng)在當(dāng)下變得極為重要。本文擬建立一個(gè)統(tǒng)一監(jiān)管平臺(tái)對(duì)互聯(lián)網(wǎng)視聽節(jié)目進(jìn)行極速有效地分析處理,實(shí)時(shí)地將篩選出的不健康的信息反饋給相關(guān)部門以便及時(shí)處理。
目前互聯(lián)網(wǎng)發(fā)展日新月異,網(wǎng)絡(luò)上每年所更新的內(nèi)容已經(jīng)堪比人類歷史所產(chǎn)生的數(shù)據(jù)的總和,面對(duì)如此海量的數(shù)據(jù),要識(shí)別并處理其中的有害信息便成了一個(gè)巨大的挑戰(zhàn)。我國(guó)的互聯(lián)網(wǎng)監(jiān)管系統(tǒng)尚處在起步狀態(tài),還有很長(zhǎng)的路要走,許多問(wèn)題急需要解決。
1.1數(shù)據(jù)標(biāo)準(zhǔn)化問(wèn)題
隨著互聯(lián)網(wǎng)的高速發(fā)展,視聽節(jié)目由Web1.0的單向傳播發(fā)展到Web2.0的互動(dòng)分享,由最初的B/S模式發(fā)展到現(xiàn)在的P2P模式,由最初的專業(yè)制作機(jī)構(gòu)主導(dǎo)發(fā)展到用戶自己上傳內(nèi)容,特別是在HTML5標(biāo)準(zhǔn)規(guī)范的制定完成后,使得其表現(xiàn)形式及文件類型變得千差萬(wàn)別,即使同一個(gè)音視頻文件在不同的平臺(tái)中其表現(xiàn)出來(lái)的屬性也可能相差極大,這就導(dǎo)致監(jiān)管部門不得不根據(jù)不同特征類型的音視頻構(gòu)建單獨(dú)的專用監(jiān)控系統(tǒng),易造成信息的重復(fù)處理,導(dǎo)致極大的資源浪費(fèi)且可能監(jiān)管不全。所以,建立一個(gè)能將互聯(lián)網(wǎng)視聽節(jié)目進(jìn)行統(tǒng)計(jì)分析歸類并將其標(biāo)準(zhǔn)化的前端收集整合系統(tǒng)極為關(guān)鍵。
作者簡(jiǎn)介:徐帥,國(guó)家新聞出版廣電總局哈爾濱監(jiān)測(cè)臺(tái)。
1.2信息孤島問(wèn)題
由于監(jiān)管部門所使用的監(jiān)控系統(tǒng)不盡相同且相應(yīng)標(biāo)準(zhǔn)不集中,導(dǎo)致各個(gè)監(jiān)控系統(tǒng)之間難以實(shí)現(xiàn)數(shù)據(jù)共享,從而使得最后匯總的需要人工處理的音視頻數(shù)據(jù)數(shù)量較大。其中,可能不同標(biāo)準(zhǔn)下的多個(gè)數(shù)據(jù)提供的是相同的信息,卻由于不同的監(jiān)控系統(tǒng)的輸出形式不同,導(dǎo)致需要大量的工作人員對(duì)其進(jìn)行再甄別和處理。
1.3視聽節(jié)目?jī)?nèi)容難以實(shí)時(shí)全面挖掘問(wèn)題
1.4部分視聽節(jié)目無(wú)法訪問(wèn)問(wèn)題
部分視聽節(jié)目資源隱藏于深層網(wǎng)頁(yè)中,深層網(wǎng)頁(yè)難以通過(guò)普通靜態(tài)鏈接直接訪問(wèn),只能通過(guò)特定的方式進(jìn)入,例如回復(fù)可見、付費(fèi)觀看等,而這類網(wǎng)站往往是有害信息的聚集之處。現(xiàn)階段的技術(shù)無(wú)法繞過(guò)表層網(wǎng)站設(shè)置的訪問(wèn)障礙直接獲取深層網(wǎng)站中的內(nèi)容,所以這也會(huì)導(dǎo)致網(wǎng)絡(luò)監(jiān)管中出現(xiàn)一些監(jiān)控死角。
1.5缺乏視聽節(jié)目傳播分析功能問(wèn)題
現(xiàn)有的監(jiān)控系統(tǒng)由于分析域單一,缺乏對(duì)數(shù)據(jù)來(lái)源的統(tǒng)計(jì)分析,所以往往只能記錄下幾個(gè)孤立的來(lái)源地址,無(wú)法確定不良信息的具體傳播路徑,導(dǎo)致無(wú)法對(duì)有害源頭進(jìn)行有效打擊。且音視頻在傳播過(guò)程中會(huì)由于傳播平臺(tái)的不同導(dǎo)致數(shù)據(jù)特征發(fā)生改變,從而使監(jiān)控系統(tǒng)不得不提取出每一個(gè)音視頻數(shù)據(jù)文件逐一分析,增加系統(tǒng)的工作量及人工成本。
1.6視聽節(jié)目版權(quán)監(jiān)管缺乏問(wèn)題
由于互聯(lián)網(wǎng)分享模式的便捷以及曾經(jīng)中國(guó)人本身對(duì)作品版權(quán)不甚注重,導(dǎo)致視聽節(jié)目正版與盜版魚龍混雜,而現(xiàn)如今的監(jiān)管系統(tǒng)又難以對(duì)版權(quán)進(jìn)行分析。目前隨著互聯(lián)網(wǎng)版權(quán)問(wèn)題得到公眾越來(lái)越多的關(guān)注,對(duì)互聯(lián)網(wǎng)視聽節(jié)目版權(quán)的甄別和管理作為監(jiān)管系統(tǒng)的功能之一勢(shì)在必行。
一個(gè)完整的監(jiān)管系統(tǒng)應(yīng)包括前端的數(shù)據(jù)收集整合單元,中端的數(shù)據(jù)綜合分析處理單元以及后端的信息輸出單元。
2.1研發(fā)適應(yīng)互聯(lián)網(wǎng)音視頻節(jié)目監(jiān)管工作的搜索引擎
一款適用于互聯(lián)網(wǎng)音視頻節(jié)目監(jiān)管工作的搜索引擎是高速有效提取所需的音視頻數(shù)據(jù)的關(guān)鍵,它應(yīng)具有以下屬性。1)能夠極快地對(duì)互聯(lián)網(wǎng)上的信息進(jìn)行檢索,并得到一個(gè)準(zhǔn)確的結(jié)果。2)能夠有效識(shí)別關(guān)鍵字內(nèi)容,并將其作為標(biāo)準(zhǔn)進(jìn)行篩選,去除無(wú)用數(shù)據(jù)。3)能夠?qū)λ杏蛎M(jìn)行檢索,確保無(wú)漏網(wǎng)之魚。4)能夠在確保不遺漏有害信息的同時(shí)盡量去除無(wú)用信息,減少系統(tǒng)工作量。5)能夠?qū)μ崛〕龅挠行畔⑦M(jìn)行整合,將相同信息合并,并分析其傳播路徑,完成對(duì)有害信息來(lái)源的確定。6)對(duì)所有提取出的有效信息進(jìn)行整理,將其以標(biāo)準(zhǔn)化的格式輸出給下一單元,方便對(duì)數(shù)據(jù)內(nèi)容的分析。
此搜索引擎可大致分為兩個(gè)部分:一個(gè)能夠快速有效地抓取相關(guān)網(wǎng)頁(yè)的音視頻資源的聚焦爬蟲系統(tǒng);一個(gè)能夠快速對(duì)比有效信息并進(jìn)行整合的分析系統(tǒng)。聚焦爬蟲是一種能夠自動(dòng)爬取網(wǎng)頁(yè)的程序,它能根據(jù)既定的內(nèi)容有選擇性地訪問(wèn)有有用信息的網(wǎng)頁(yè)并對(duì)網(wǎng)頁(yè)上的信息進(jìn)行有選擇性地提取,減少了抓取無(wú)音視頻網(wǎng)頁(yè)的時(shí)間,極大地提高了工作效率。分析系統(tǒng)需要將聚焦爬蟲提取出來(lái)的信息進(jìn)行相似度分析,將相似度極高的內(nèi)容進(jìn)行整合打包并進(jìn)行傳播途徑分析,并將來(lái)自不同網(wǎng)頁(yè)的格式眾多的音視頻進(jìn)行重新的標(biāo)準(zhǔn)化編碼,再輸出給中端的數(shù)據(jù)綜合分析處理單元。2.2建立互聯(lián)網(wǎng)音視頻節(jié)目的統(tǒng)一監(jiān)管平臺(tái)
圖1 信息檢索處理層
由于目前監(jiān)管部門所使用的監(jiān)控系統(tǒng)不盡相同且不同監(jiān)控系統(tǒng)間難以實(shí)現(xiàn)數(shù)據(jù)共享,這就使得建立一個(gè)標(biāo)準(zhǔn)統(tǒng)一的互聯(lián)網(wǎng)音視頻節(jié)目監(jiān)管平臺(tái)極為重要。一個(gè)統(tǒng)一的監(jiān)管平臺(tái)可以在合理的時(shí)間內(nèi)快速有效的分析處理掉來(lái)自前端數(shù)據(jù)收集整合單元的音視頻信息,并將其中的不良信息甄別出來(lái)發(fā)送給后端輸出。監(jiān)管部門的工作人員可以對(duì)輸出的信息進(jìn)行人工識(shí)別從而判斷其有害與否,并對(duì)其進(jìn)行最終處理。
這個(gè)統(tǒng)一監(jiān)管平臺(tái)可分為三個(gè)層面:軟件層面、硬件層面以及管理層面。管理層面包括各個(gè)不同地區(qū)的監(jiān)管部門的不同監(jiān)管系統(tǒng)之間的監(jiān)測(cè)數(shù)據(jù)共享及監(jiān)測(cè)區(qū)域的協(xié)調(diào),避免出現(xiàn)多個(gè)監(jiān)控系統(tǒng)同時(shí)檢測(cè)相同音視頻資源的情況,防止資源浪費(fèi)。硬件層面是指各自不同的監(jiān)管部門的硬件實(shí)現(xiàn)資源共享,或者說(shuō)是根據(jù)硬件資源的擁有量合理安排監(jiān)控范圍,以確保能夠?qū)崟r(shí)的對(duì)互聯(lián)網(wǎng)上的視聽節(jié)目信息進(jìn)行快速甄別,第一時(shí)間內(nèi)消除有害信息。軟件層面是指不同監(jiān)控系統(tǒng)的輸入輸出形式應(yīng)統(tǒng)一標(biāo)準(zhǔn),確保數(shù)據(jù)能夠快速共享并及時(shí)處理。
圖2 監(jiān)管平臺(tái)主體框架
此平臺(tái)中還應(yīng)包括一個(gè)或多個(gè)能夠?qū)崟r(shí)更新ICP數(shù)據(jù)庫(kù),從而便于追蹤有害信息來(lái)源的現(xiàn)實(shí)地址,為打擊網(wǎng)絡(luò)犯罪提供方便之門。
3.1搜索技術(shù)
3.1.1文本搜索
3.1.2圖像搜索
能夠利用已知的敏感圖像對(duì)節(jié)目庫(kù)中的視頻資源進(jìn)行特征幀對(duì)比檢索,對(duì)含有與輸入圖像相似度較高的特征幀的視頻進(jìn)行提取,并將其發(fā)送給分析系統(tǒng)進(jìn)行再處理,同時(shí)對(duì)該文件進(jìn)行定位及傳播途徑分析。
3.1.3音頻搜索
能夠?qū)σ阎拿舾幸纛l信息進(jìn)行聲波特征提取,并與數(shù)據(jù)庫(kù)中的音視頻資源進(jìn)行聲波相似度分析,并將相似度較高的音視頻提取出來(lái),發(fā)送給前端的整合系統(tǒng),以便進(jìn)一步分析確認(rèn),同時(shí)對(duì)音視頻的來(lái)源進(jìn)行定位并記錄其傳播路徑。
3.2信息處理技術(shù)
3.2.1信息處理系統(tǒng)
信息處理系統(tǒng)基于Hadoop架構(gòu),Hadoop是一個(gè)能夠?qū)A繑?shù)據(jù)進(jìn)行快速分析處理的分布式系統(tǒng)基礎(chǔ)架構(gòu),得益于其并行分布的工作方式,它能夠依托在性能普通的硬件上提供快速高效的數(shù)據(jù)吞吐及處理,其優(yōu)點(diǎn)包括且不限于高可靠性、高擴(kuò)展性、高效性、高容錯(cuò)性及低成本。
3.2.2信息處理任務(wù)
信息處理包括以下幾個(gè)任務(wù)。
1)音視頻資源的采集匯總工作。其主要包括將搜索引擎得到的可能包含不良信息的網(wǎng)站進(jìn)行全面信息采集,提取其中的音視頻信息及標(biāo)題、來(lái)源等關(guān)鍵數(shù)據(jù),并將原始數(shù)據(jù)進(jìn)行匯總分流處理。
2)有效信息分類。系統(tǒng)采用模糊分類方法,通過(guò)對(duì)視聽節(jié)目所在網(wǎng)頁(yè)關(guān)鍵信息的分析整理從而對(duì)獲得的音視頻進(jìn)行模糊分類,同時(shí)將相同資源的傳播路徑分析記錄下來(lái),并僅保留源文件,減少重復(fù)內(nèi)容,便于下一步的整合處理。
3)音視頻整合。系統(tǒng)將上一步得到的分類信息進(jìn)行相似度對(duì)比,將相似度極高的數(shù)據(jù)合并或直接舍棄部分,減少需要處理的總數(shù)據(jù)量。
4)信息重新編碼。將上一步得到的音視頻資源進(jìn)行數(shù)據(jù)整理,將不同形式的源文件轉(zhuǎn)換為便于系統(tǒng)統(tǒng)一分析的單一文件。
3.3視聽節(jié)目分析技術(shù)
3.3.1音頻分析
將信息處理系統(tǒng)中得到的音視頻文件進(jìn)行音頻提取,并通過(guò)FFT(快速傅立葉變換)將模擬信號(hào)轉(zhuǎn)換為機(jī)器可識(shí)別的數(shù)字信號(hào),對(duì)得到的數(shù)據(jù)進(jìn)行對(duì)比分析處理,最后得到一個(gè)可視化的統(tǒng)計(jì)數(shù)據(jù)。3.3.2圖像分析
對(duì)視頻中的圖像進(jìn)行特征幀提取,利用鏡頭邊緣檢測(cè)算法對(duì)分鏡頭中的多個(gè)圖像進(jìn)行嚴(yán)格計(jì)算,得到每個(gè)鏡頭中最具代表的圖像,并利用信息處理平臺(tái)進(jìn)行分析,最終得到一個(gè)可視化的統(tǒng)計(jì)數(shù)據(jù)。
3.4集中監(jiān)管平臺(tái)要深入研究的關(guān)鍵技術(shù)
網(wǎng)絡(luò)監(jiān)管由來(lái)已久,一些關(guān)鍵技術(shù)已經(jīng)較為成熟,但還有部分技術(shù)尚未成型,所以在建立互聯(lián)網(wǎng)音視頻節(jié)目的統(tǒng)一監(jiān)管平臺(tái)的過(guò)程中應(yīng)重點(diǎn)建設(shè)以下幾個(gè)關(guān)鍵技術(shù)。
1)一個(gè)能夠快速有效的對(duì)資源進(jìn)行相似度分析的程序。
2)一個(gè)能夠保留原始信息并能將幾乎所有音視頻格式進(jìn)行從新編碼的程序。
3)一個(gè)能夠?qū)崟r(shí)進(jìn)行數(shù)據(jù)共享及資源調(diào)配的系統(tǒng)。
隨著互聯(lián)網(wǎng)視聽節(jié)目的快速發(fā)展,一個(gè)能夠迅速準(zhǔn)確監(jiān)測(cè)這些數(shù)據(jù)的監(jiān)管系統(tǒng)變得極為重要,集中統(tǒng)一的監(jiān)管平臺(tái)為監(jiān)管部門提高了效率,共享的數(shù)據(jù)庫(kù)節(jié)省了大量資源,而這也為公眾互聯(lián)網(wǎng)生活的安全健康打下了堅(jiān)實(shí)的基礎(chǔ)。
[1]錢衛(wèi),朱磊.構(gòu)建互聯(lián)網(wǎng)視聽節(jié)目集中監(jiān)管平臺(tái)的探索和設(shè)想[J].中國(guó)有線電視,2011(10):1137-1140.
[2]裴鵬真.互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng)的應(yīng)用與實(shí)踐[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2014(4):88-89.
[3]李曉東,王仝杰.互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管的關(guān)鍵技術(shù)及系統(tǒng)簡(jiǎn)介[J].廣播與電視技術(shù),2008,35(4):52-54.
[4]葉昆.互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng)簡(jiǎn)介[J].大眾科技,2009 (10):11-13.
[5]甄雪嬌,齊忠文,劉博,等.互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng)建設(shè)的思索[J].廣播與電視技術(shù),2014,41(z2):60-62.
[6]謝燕燕.互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng)關(guān)鍵技術(shù)研究及方案設(shè)計(jì)[J].廣播與電視技術(shù),2015,42(5):120-124.
2096-0360(2016)14-0039-03
G2
A