國家新聞出版廣電總局廣播科學(xué)研究院 副院長 周 毅
大數(shù)據(jù)時代下廣電人的思考與對策
國家新聞出版廣電總局廣播科學(xué)研究院 副院長 周 毅
從廣電的大數(shù)據(jù)挖掘系統(tǒng)入手,闡述了基元數(shù)據(jù)結(jié)構(gòu)的含義,并對該系統(tǒng)的重要部分網(wǎng)絡(luò)爬蟲和雷達應(yīng)用進行了介紹,在此基礎(chǔ)上分析了導(dǎo)頁(HomingPage)的生成流程和該系統(tǒng)的兩個具體應(yīng)用。最后就廣電應(yīng)有的大數(shù)據(jù)處理體系架構(gòu),以及大數(shù)據(jù)在廣電系統(tǒng)的應(yīng)用進行了系統(tǒng)解釋。
大數(shù)據(jù);廣電系統(tǒng);UCL;業(yè)務(wù)運營
互聯(lián)網(wǎng)及移動互聯(lián)網(wǎng)的發(fā)展,使得網(wǎng)絡(luò)數(shù)據(jù)迅速膨脹,這些數(shù)據(jù)中包含了大量的冗長信息,也包括人們的消費習(xí)慣、興趣愛好、企業(yè)需要的大量有用數(shù)據(jù)。毋庸置疑,媒體大數(shù)據(jù)時代已經(jīng)來臨,從龐大的大數(shù)據(jù)中挖掘有價值信息的重要性也已日漸凸顯。
短信推送、消息推送、網(wǎng)頁產(chǎn)品推送,從中人們可以發(fā)現(xiàn)很多感興趣的內(nèi)容,這就是大數(shù)據(jù)挖掘的價值。幾年來,電信業(yè)和互聯(lián)網(wǎng)業(yè)這方面做得很好。然而就大數(shù)據(jù)而言,媒體人需要看到自己的優(yōu)勢,新聞出版和廣播影視系統(tǒng)也是大數(shù)據(jù)的擁有者。據(jù)了解,大數(shù)據(jù)的擁有者一個是新華社,另一個是廣播影視部門,新華社擁有幾十萬小時已經(jīng)數(shù)字化完畢的、可供利用的大數(shù)據(jù)庫,廣播影視系統(tǒng)中僅中央電視臺一家就擁有數(shù)十萬小時以上的數(shù)字音視頻資源。雖然如此,如何很好地使用這些大數(shù)據(jù),如何挖掘這些大數(shù)據(jù)的價值,確實是個值得研究的現(xiàn)實問題。
大數(shù)據(jù)可分為業(yè)已存在的和每天產(chǎn)生的數(shù)據(jù)兩類。對于后者,大多數(shù)上網(wǎng)的人會遇到這樣一種狀況:每天在特別熟悉的十幾個網(wǎng)站里面反復(fù)尋找感興趣的內(nèi)容,在看內(nèi)容時,常常發(fā)現(xiàn)幾十條里有大部分內(nèi)容是近似或重復(fù)的,雖網(wǎng)站不同,但內(nèi)容相似,這種雷同會耽誤上網(wǎng)者的大量時間。通常,人們需要的其實是所關(guān)注領(lǐng)域的最新的或者點擊率最高的內(nèi)容,而且對這些內(nèi)容多數(shù)時候并不需要知道全文,只需知道概述。除非極有興趣或者確有需要,才會進入網(wǎng)絡(luò),觀看全文。考慮上述特點,中國工程院李幼平院士率先提出了UCL(UniformCon?tentLabel)概念,本文在此基礎(chǔ)上,介紹一種幫助用戶進行自動篩選內(nèi)容的新聞大數(shù)據(jù)挖掘系統(tǒng)。
1 基元數(shù)據(jù)結(jié)構(gòu)(UCL)
李幼平院士對漢字傳播進行深入分析后,發(fā)明了結(jié)構(gòu)簡單的基元數(shù)據(jù)及HomingPage(導(dǎo)頁)。將1kbyte數(shù)據(jù)包定義為UCL,在UCL包中漢字是可按語義取舍的最小基元。如果UCL在互聯(lián)網(wǎng)絡(luò)上傳輸,其表達的內(nèi)容也可以按照人們理解的語義,創(chuàng)建一個最小的文化基元,這個文化基元即UCL。
UCL作為泛在播存的基本內(nèi)容結(jié)構(gòu),也稱為統(tǒng)一內(nèi)容標(biāo)簽,它最早源新華社的《中文新聞信息置標(biāo)語言》標(biāo)準(zhǔn)[1],但是該標(biāo)準(zhǔn)中的內(nèi)容標(biāo)簽是不等長的。工程院的李幼平院士在此基礎(chǔ)上,將現(xiàn)在各種新聞內(nèi)容進行統(tǒng)一歸并,制定了一個等長的UCL,1kbyte大約300個漢字,是可以傳送概述性內(nèi)容的基本單位。UCL的基本結(jié)構(gòu)如圖1所示。
2 UCL可實現(xiàn)互聯(lián)網(wǎng)“最后一跳”
圖1 UCL結(jié)構(gòu)圖
UCL發(fā)明的另一個優(yōu)點是可實現(xiàn)減少互聯(lián)網(wǎng)挖掘數(shù)據(jù)所需要的中間環(huán)節(jié),即跳數(shù)。從統(tǒng)計學(xué)和業(yè)界公認的情況來看,任何一個用戶,要想在互聯(lián)網(wǎng)找到一條有用信息,需要經(jīng)過約30個路由器或者交換的過程。而最新的理論推出,最佳跳數(shù)能夠減少到2~3跳,跳數(shù)越少,延遲時間就越短,對信道的阻塞也就越少。那么如何能夠用很少的跳數(shù)將信息傳送給用戶呢?李院士提出如下構(gòu)思:結(jié)合用戶的上網(wǎng)習(xí)慣,人們首先需要知道最新的、最感興趣的、點擊率最高的內(nèi)容,而不是詳細內(nèi)容,所以可用UCL傳送300字以下的文章概述,并能通過無線廣播和衛(wèi)星廣播兩個方面解決傳輸?shù)奶鴶?shù)問題。具體實現(xiàn)過程見圖2。
圖2 借助廣播與衛(wèi)星實現(xiàn)互聯(lián)網(wǎng)的“最后一跳”
利用B-S-C傳輸三角,把傳統(tǒng)互聯(lián)網(wǎng)無法利用的傳統(tǒng)廣播通道和廣播衛(wèi)星通道,升級或者改造成可以傳遞UCL和全文信息的新型媒介。隨著調(diào)頻與調(diào)幅廣播的數(shù)字化,可直接用無線廣播傳輸UCL數(shù)字信息,并可實現(xiàn)各地同頻覆蓋,只需2跳或3跳,就可將UCL信息直接傳到最末端的收音機、未來的數(shù)字接收終端或者移動終端上。當(dāng)有些用戶不滿足只看UCL還想看全文時,通過每一條UCL下面的鏈接,將鏈接指向自動轉(zhuǎn)到衛(wèi)星(BS),這里S理論上是最接近用戶的服務(wù)器,廣播衛(wèi)星的模式是對最接近用戶的S進行鏈接覆蓋,使它能夠在最少跳數(shù)的情況下鏈接到全文。
3 數(shù)據(jù)挖掘方法:爬蟲與網(wǎng)絡(luò)雷達系統(tǒng)
首先利用了目前業(yè)界比較常用的一些基本概念:網(wǎng)絡(luò)雷達和語義的聚合。網(wǎng)絡(luò)雷達系統(tǒng)理論上可以達到每天自動尋找上萬甚至十萬左右的重點網(wǎng)站,目前本系統(tǒng)主要實時重點關(guān)注150家網(wǎng)站,每天利用大量的時間實時地對這150家網(wǎng)站進行重點分析,并抽取一些主要內(nèi)容、最新內(nèi)容和點擊率高的內(nèi)容,把其中重復(fù)和冗長的內(nèi)容去掉,按照標(biāo)題聚合,轉(zhuǎn)成一個1kbyte的UCL。這些內(nèi)容按照時間排序以后,通過一個工作平臺進行審核,然后工作流產(chǎn)生內(nèi)容、時間可管可控,通過分發(fā)、適配到相應(yīng)的播出平臺和接收平臺,最后實現(xiàn)大數(shù)據(jù)的關(guān)聯(lián)分析。網(wǎng)絡(luò)雷達系統(tǒng)框圖如圖3所示。該大數(shù)據(jù)挖掘系統(tǒng)的整體技術(shù)制作系統(tǒng)如圖4所示。
圖3 網(wǎng)絡(luò)雷達系統(tǒng)框圖和對外接口
圖4 整體技術(shù)制作系統(tǒng)
4 導(dǎo)頁生成和制作流程
導(dǎo)頁(HomingPage)是由眾多UCL組成的向用戶推送的主頁面,具體的制作生成與數(shù)據(jù)流程圖如圖5所示。
圖5 導(dǎo)頁制作生成與數(shù)據(jù)流程圖
在調(diào)頻或調(diào)幅廣播數(shù)字化之后,未來數(shù)字調(diào)頻收音機的接收模塊可以直接嵌入進手機,所以未來可能是數(shù)字收音機和手機一體。圖6為智能終端APP分類,按體育、文藝、新聞等分成若干個大類,然后選擇界面中最感興趣的內(nèi)容自動標(biāo)記到收音機,收音機根據(jù)每天推送的UCL概述,篩選出跟這個類別一致的相關(guān)內(nèi)容進行存放,這樣用戶打開收音機或者打開手機時,只能看到自己感興趣的內(nèi)容,圖7所示為UDRadio的HomingPage。
5 具體應(yīng)用
實驗系統(tǒng)完成之后,利用該系統(tǒng)做了兩個應(yīng)用:1)某單位擁有150~200左右的海外站點,將此系統(tǒng)作為向各個站點進行播送每天通稿的實驗平臺,把每天播發(fā)的通稿自動篩選,并在整理之后,推送給每個站參考。2)在某重大活動組織機構(gòu)里,利用該系統(tǒng)進行挖掘,可以對活動相關(guān)事宜進行自動調(diào)查和挖掘,這些內(nèi)容每天進行更新,每周做一次歸納審核,反響非常好。
該系統(tǒng)可以自動挖掘整理現(xiàn)有的各種大數(shù)據(jù)產(chǎn)生的內(nèi)容,并通過互聯(lián)網(wǎng)、衛(wèi)星或者未來的廣播電視系統(tǒng)播出。廣播的數(shù)字化,特別是調(diào)頻廣播的數(shù)字化,是可以兼容的,既不影響用戶使用模擬調(diào)頻收音機,又在通道里疊加了數(shù)字信號,可以傳遞聲音和互聯(lián)網(wǎng)大數(shù)據(jù)挖掘以后形成的概要。因此,這個系統(tǒng)必須具備廣播系統(tǒng)所必須的流程和審查。
廣播電視的數(shù)據(jù)一般來說是半結(jié)構(gòu)化的,具有4個特點:數(shù)據(jù)量大、類型多、價值密度低、處理速度要求快。如何從這些數(shù)據(jù)中獲得有價值的信息,所需要的是大數(shù)據(jù)處理技術(shù)。具體到哪些商業(yè)環(huán)節(jié)可以獲益,對新聞廣播電視系統(tǒng)來說,最大的環(huán)節(jié)就是訂閱和熱點分析,當(dāng)然也包括其他如內(nèi)部控制、客戶管理、財務(wù)計劃、預(yù)算管理、雇員管理等。
圖6 智能終端APP(截圖)
圖7 UDRadio接收(擬)“自尋導(dǎo)頁”與鏈接(截圖)
1 廣電的大數(shù)據(jù)處理體系架構(gòu)
2011年,廣電相關(guān)的部門開始推出云系統(tǒng),在推云系統(tǒng)的過程中真正意識到大數(shù)據(jù)處理的重要性。過去都在關(guān)注大數(shù)據(jù),但并沒意識到對大數(shù)據(jù)進行分析和處理。那么廣電到底應(yīng)該有什么樣的體系,是需要有自己特點還是完成跟IT系統(tǒng)結(jié)合,這都有很大的爭議。
經(jīng)過幾年的發(fā)展,觀點逐步在轉(zhuǎn)變,廣電應(yīng)有的大數(shù)據(jù)處理體系架構(gòu)思路如圖8所示。
圖8 大數(shù)據(jù)處理體系架構(gòu)
2 大數(shù)據(jù)在廣電系統(tǒng)的應(yīng)用
大數(shù)據(jù)在廣電系統(tǒng)中的應(yīng)用如下:
1)系統(tǒng)的運行維護。例如,過去制、播、存都是分開的,哪個環(huán)節(jié)壞了,可以很快找到問題,現(xiàn)在全是數(shù)字工作站、數(shù)字存儲、服務(wù)器制播,如果出現(xiàn)問題,無法確定是哪個環(huán)節(jié)出了問題,所以基于大數(shù)據(jù)運維管理系統(tǒng)的大致工作可以分為:系統(tǒng)狀態(tài)的趨勢分析、系統(tǒng)健康度檢查、系統(tǒng)故障診斷定位、系統(tǒng)隱患提示、設(shè)備性能趨勢分析、系統(tǒng)負載能力分析、信息安全審計。
2)商業(yè)運營數(shù)據(jù)分析。(1)用戶注冊,通過將近10年,有些有線電視網(wǎng)絡(luò)公司和相關(guān)的服務(wù)性公司,這方面的數(shù)據(jù)統(tǒng)計非常好,包括這個月有多少用戶、具體某個臺有多少用戶,對節(jié)目中某些欄目都分析得比較準(zhǔn)確。(2)用戶訂購,包括訂購時間敏感度、對價格的敏感度、訂購最多節(jié)目統(tǒng)計、訂購金額等。
3)用戶行為數(shù)據(jù)分析。隨著互聯(lián)網(wǎng)和新媒體的發(fā)展,廣電面臨巨大的挑戰(zhàn),廣電對收視收聽行為的分析曾經(jīng)不及電信和很多互聯(lián)網(wǎng)公司。所以最近幾年,廣電大力加強了這方面的分析。過去分析都是靠單向的收視率調(diào)查,100萬用戶放置幾萬個收視調(diào)查設(shè)備,返回的調(diào)查結(jié)果中變化趨勢是可以接受的,但是無法統(tǒng)計到絕對準(zhǔn)確的收視率。例如有些好節(jié)目,在晚上八九點鐘播出時收視率非常高,但同樣的節(jié)目放在10點以后播出收視率就會變低,這就說明收視群體采樣點多數(shù)放在了那些早休息的群體中,導(dǎo)致數(shù)據(jù)不準(zhǔn)確。這幾年廣電已經(jīng)開始重視交互式收視行為分析,所以對大數(shù)據(jù)的應(yīng)用和挖掘還是有很大需求的。
總之,如何利用現(xiàn)有廣播、有線、衛(wèi)星優(yōu)勢,很好地結(jié)合互聯(lián)網(wǎng)系統(tǒng),對現(xiàn)有的大數(shù)據(jù)進行綜合分析和挖掘,并產(chǎn)生一定效益,值得深入研究。這幾年廣電部門在對用戶的精確管理、對節(jié)目的精確管理方面有了很大的提升,當(dāng)然也意識到在這方面經(jīng)驗還不夠,還需要學(xué)習(xí)。特別是在大數(shù)據(jù)時代,不僅在理論上有很多事情需要探索,而且在具體實踐方面更需做大量工作。大數(shù)據(jù)挖掘?qū)V播影視系統(tǒng)未來趨勢的影響,尤其是大數(shù)據(jù)挖掘中有針對性的音視頻搜索、有針對性的目標(biāo)挖掘,都會對未來廣播影視起到很好的促進作用,也能對節(jié)目、用戶、內(nèi)容進行更加精準(zhǔn)的管理。
[1] GB/T20092—2006,中文新聞信息置標(biāo)語言[S].2006.
TN94
A
【本文獻信息】周毅.大數(shù)據(jù)時代下廣電人的思考與對策[J].電視技術(shù),2014,38(2).