張貝貝,殷復(fù)蓮,王欣然,白雪松,白 璐
(中國傳媒大學(xué) 信息工程學(xué)院,北京 100024)
廣播電視節(jié)目標(biāo)簽標(biāo)注與可視化研究
張貝貝,殷復(fù)蓮,王欣然,白雪松,白 璐
(中國傳媒大學(xué) 信息工程學(xué)院,北京 100024)
針對傳統(tǒng)廣播電視節(jié)目類型和節(jié)目標(biāo)簽并行存在,無法定量刻畫節(jié)目與標(biāo)簽接近程度,節(jié)目與標(biāo)簽關(guān)聯(lián)關(guān)系展示效果不佳的問題,提出了電視節(jié)目與標(biāo)簽“粘度”的概念,通過為電視節(jié)目標(biāo)簽賦予不同權(quán)重,并利用D3插件建立節(jié)目與標(biāo)簽的扁平化網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系,實(shí)現(xiàn)了節(jié)目與標(biāo)簽關(guān)系的定量描述及可視化展示。通過抓取網(wǎng)絡(luò)熱播劇標(biāo)簽,對標(biāo)簽粘度進(jìn)行計(jì)算及可視化展示,證明提出的方案能夠直觀、動(dòng)態(tài)地將標(biāo)簽粘度關(guān)系進(jìn)行有效展示,可以為后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘提供技術(shù)基礎(chǔ)。
節(jié)目分類;節(jié)目標(biāo)簽;標(biāo)簽粘度;可視化
學(xué)術(shù)界目前對中國電視節(jié)目類型的劃分中,按照節(jié)目主題和節(jié)目形式劃分,其中,按照節(jié)目主題進(jìn)行劃分是目前業(yè)界最認(rèn)可的分類方式。其中影響較大的是四分法,將節(jié)目分為新聞?lì)惞?jié)目、娛樂類節(jié)目、教育類節(jié)目、服務(wù)類節(jié)目。四分法是電視節(jié)目分類的一個(gè)基礎(chǔ)。郭鎮(zhèn)之[1]在《中外廣播電視史》中區(qū)分了四種類型:廣播電視新聞、電視劇、紀(jì)實(shí)類節(jié)目和電視綜藝。張海潮[2]的《中國電視分類體系》中對電視節(jié)目的四分法體系進(jìn)行了進(jìn)一步的拓展,他運(yùn)用系統(tǒng)論方法、第一識(shí)別特征法、層級(jí)法、分類維度等方法建立了電視節(jié)目分類體系,基本囊括了中國所有的電視節(jié)目類型。層級(jí)法是目前國際通行的主要節(jié)目層級(jí)設(shè)定方法,具有查找簡易的特點(diǎn)。劉燕南[3]認(rèn)為傳統(tǒng)的層級(jí)分類方法忽略了電視節(jié)目多屬性的特點(diǎn),提出“電視節(jié)目多維組合的分類系統(tǒng)”。美國信息架構(gòu)專家Thomas Vander Wal和Gene Smith于2004年首先提出大眾分類法這個(gè)概念,是由大眾的一致意見產(chǎn)生的基于用戶的分類體系。大眾分類法的重要特征之一是扁平化,它打破傳統(tǒng)的“知識(shí)之樹”的分類結(jié)構(gòu),沒有層次結(jié)構(gòu),只存在平行關(guān)系,迎合了Web 2.0信息大爆炸時(shí)代的需求。大眾分類法催生了標(biāo)簽及標(biāo)簽系統(tǒng),人們使用標(biāo)簽系統(tǒng)以便更加容易地對電視節(jié)目的信息進(jìn)行分類或索引[4]。
盡管大眾分類法出現(xiàn)后對類型日益豐富的電視節(jié)目的分類有巨大貢獻(xiàn),但是大眾分類法給出的標(biāo)簽屬于平行關(guān)系,無法體現(xiàn)電視節(jié)目與其自身特點(diǎn)的定量關(guān)系,且將節(jié)目標(biāo)簽之間的粘度關(guān)系形象地展示出來在國內(nèi)外尚無人研究。自18世紀(jì)后期數(shù)據(jù)圖形學(xué)誕生以來,人們對于抽象信息的視覺表達(dá)手段進(jìn)行了深入研究,以期用來揭示數(shù)據(jù)及某些隱匿模式的奧秘[5]。20世紀(jì)90年代期間圖形化界面問世,人們能夠直接與信息進(jìn)行交互,帶動(dòng)了十多年來的信息可視化研究[6]。尤其是互聯(lián)網(wǎng)時(shí)代的到來,更是把可視化研究的浪潮推到了前所未有的高度,可視化技術(shù)被應(yīng)用于很多方面:數(shù)據(jù)挖掘可視化、網(wǎng)絡(luò)數(shù)據(jù)可視化、社交可視化、交通可視化、文本可視化、生物醫(yī)藥可視化等等[7-9]。信息可視化放大了人類的認(rèn)知能力[10]:利用某種可視化資源等提高人類的記憶能力;信息承載量大,利用較少的空間表達(dá)大量的數(shù)據(jù);提供一種便于操作的不同于靜態(tài)圖的媒介,加強(qiáng)模式識(shí)別功能,易化對于各種關(guān)系推理等。
本文在現(xiàn)有技術(shù)基礎(chǔ)上提出了節(jié)目與其標(biāo)簽之間“粘度”的概念,通過給電視節(jié)目的標(biāo)簽類型賦予不同的權(quán)重,將電視節(jié)目與其標(biāo)簽之間的關(guān)聯(lián)關(guān)系定量描述;同時(shí)使用可視化工具建立展示節(jié)目與其標(biāo)簽粘度關(guān)系和節(jié)目多維屬性的可視化網(wǎng)站,有效地將復(fù)雜信息處理成富含信息量的視覺信息,為后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘提供技術(shù)基礎(chǔ)。
2.1 數(shù)據(jù)采集流程
本文使用定向網(wǎng)絡(luò)信息采集系統(tǒng)來進(jìn)行節(jié)目信息的采集。定向網(wǎng)絡(luò)信息采集系統(tǒng)能夠根據(jù)用戶自定義的任務(wù)配置及相應(yīng)的參數(shù),批量而精確地抽取因特網(wǎng)目標(biāo)網(wǎng)頁中的半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),轉(zhuǎn)化為結(jié)構(gòu)化的記錄,保存在本地?cái)?shù)據(jù)庫中,用于內(nèi)部使用或外網(wǎng)發(fā)布,快速實(shí)現(xiàn)外部信息的獲取。數(shù)據(jù)采集流程如圖1所示。
圖1 數(shù)據(jù)采集流程圖
首先確定要采集節(jié)目信息的網(wǎng)站,根據(jù)不同網(wǎng)站的特點(diǎn)設(shè)置不同的參數(shù)和數(shù)據(jù)采集字段,通過網(wǎng)頁探索器定位采集目標(biāo),獲取采集目標(biāo)的網(wǎng)頁節(jié)點(diǎn)路徑,然后配置任務(wù)文件,設(shè)置對應(yīng)的參數(shù)如網(wǎng)頁遍歷模式、任務(wù)執(zhí)行時(shí)瀏覽網(wǎng)頁的速度、目標(biāo)表特征等并執(zhí)行一定的腳本動(dòng)作,獲取到原數(shù)據(jù),最后對原數(shù)據(jù)用適當(dāng)?shù)奈谋咎幚砗瘮?shù),對數(shù)據(jù)進(jìn)行整理變形,得到符合一定格式的數(shù)據(jù),存入數(shù)據(jù)庫。
2.2 數(shù)據(jù)預(yù)處理
本文采集的電視節(jié)目來自于某省網(wǎng)10個(gè)城市2014年3月—5月的節(jié)目單數(shù)據(jù),成功抓取到360影視、愛奇藝、百度視頻、暴風(fēng)影音、電驢、豆瓣、風(fēng)行網(wǎng)、芒果TV、搜狐視頻、騰訊視頻、迅雷看看、優(yōu)酷土豆、電視貓、m1905電影網(wǎng)等網(wǎng)站的相關(guān)節(jié)目基本信息,將節(jié)目名稱去重后,把電視節(jié)目分為6大類:電視劇、電影、綜藝、新聞、青少年、其他。由于每個(gè)網(wǎng)站對不同大類的節(jié)目采集到的字段不完全一樣,故應(yīng)對數(shù)據(jù)進(jìn)行融合、統(tǒng)一。以下是數(shù)據(jù)融合的4種方法:
1)對于節(jié)目編導(dǎo)、導(dǎo)演、制片、集數(shù)/時(shí)長、地區(qū)、主持人、播出頻道、首播時(shí)間等節(jié)目固有信息,在不同網(wǎng)站上的信息基本一致,只需將多個(gè)網(wǎng)站的信息進(jìn)行合并、去重,即可得到節(jié)目的最全信息;
2)對于節(jié)目簡介,在不同網(wǎng)站上的描述或許有輕微差別,取比較權(quán)威的網(wǎng)站,作為節(jié)目簡介信息的來源;
3)對于評(píng)分,在不同網(wǎng)站上有不完全相同的評(píng)分,取平均值作為節(jié)目評(píng)分;
4)對于節(jié)目類型,在不同網(wǎng)站上不完全相同,且不同網(wǎng)站上標(biāo)注的標(biāo)簽,雖有不同但實(shí)質(zhì)上是同種含義,如“愛情”與“言情”,“中國大陸”與“內(nèi)地”等,這種情況僅取其一,將“言情”全部替換為“愛情”,“中國大陸”全部替換為“內(nèi)地”,此外記錄每個(gè)網(wǎng)站的節(jié)目類型信息,以備后續(xù)計(jì)算標(biāo)簽粘度。
處理結(jié)果中每個(gè)大類下的節(jié)目都有相同的字段,且格式統(tǒng)一,如表1所示。
表1 各類節(jié)目信息采集字段
節(jié)目大類采集字段電視劇節(jié)目編導(dǎo)、導(dǎo)演、制片、演員、集數(shù)、年份、地區(qū)、評(píng)分、類型、簡介等電影節(jié)目編導(dǎo)、導(dǎo)演、制片、演員、時(shí)長、年份、地區(qū)、評(píng)分、類型、簡介等青少年地區(qū)、集數(shù)、作者、配音、評(píng)分、類型、簡介等綜藝地區(qū)、主持人、嘉賓、播出頻道、播出時(shí)長、評(píng)分、類型、簡介等新聞首播時(shí)間、重播時(shí)間、播出頻道、播出時(shí)長、主持人、類型、簡介等
3.1 標(biāo)簽粘度定義
標(biāo)簽粘度指標(biāo)簽與某節(jié)目的接近度、契合度或各大網(wǎng)站對該標(biāo)簽的認(rèn)可度。電視節(jié)目的標(biāo)簽高度概括節(jié)目整體的信息,但是每個(gè)電視節(jié)目的特色屬性都各有側(cè)重,傳統(tǒng)廣播電視領(lǐng)域中節(jié)目標(biāo)簽屬平行關(guān)系,無法定量描述節(jié)目與其標(biāo)簽的關(guān)聯(lián)關(guān)系,因此本文用“節(jié)目標(biāo)簽粘度”這一概念實(shí)現(xiàn)了對節(jié)目與其標(biāo)簽接近度、契合度的定量描述。計(jì)算節(jié)目與標(biāo)簽之間的粘度公式為
Viscosity=n/N
(1)
式中:N表示在近14個(gè)視頻網(wǎng)站數(shù)據(jù)庫里,某節(jié)目的所有不為空的記錄;n代表這些記錄里某個(gè)具體類別標(biāo)簽出現(xiàn)的次數(shù)。標(biāo)簽粘度值在0~1之間。
3.2 標(biāo)簽粘度計(jì)算示例
以電視劇《射雕英雄傳》為例,表2是采集的所有視頻網(wǎng)站中,節(jié)目名為“射雕英雄傳”的記錄中標(biāo)簽類型不為空的所有記錄。
表2 所有視頻網(wǎng)站中的節(jié)目類型
節(jié)目名稱類型1類型2類型3來源網(wǎng)站射雕英雄傳愛情古裝武俠豆瓣射雕英雄傳古裝武俠愛情愛奇藝射雕英雄傳古裝武俠愛情電視貓射雕英雄傳歷史年代搜狐視頻射雕英雄傳古裝武俠愛情迅雷看看射雕英雄傳愛情古裝武俠騰訊視頻射雕英雄傳古裝360影視射雕英雄傳古裝武俠百度視頻射雕英雄傳內(nèi)地電驢射雕英雄傳古裝武俠愛情優(yōu)酷土豆
按照粘度計(jì)算公式,14個(gè)視頻網(wǎng)站有10個(gè)網(wǎng)站中“射雕英雄傳”節(jié)目的標(biāo)簽類型不為空,古裝出現(xiàn)8次,武俠7次,愛情6次,……,它們對應(yīng)的粘度分別是0.8,0.7,0.6,…,如圖2所示。
圖2 節(jié)目與其標(biāo)簽粘度關(guān)系圖
本文從各大視頻網(wǎng)站采集了大量的節(jié)目標(biāo)簽數(shù)據(jù),并進(jìn)行了數(shù)據(jù)清洗,引入節(jié)目與其標(biāo)簽粘度的概念,計(jì)算了所有節(jié)目的標(biāo)簽粘度,在此基礎(chǔ)上建立了一個(gè)節(jié)目與標(biāo)簽的扁平化、可視化網(wǎng)絡(luò)結(jié)構(gòu)。
4.1 節(jié)目標(biāo)簽跳轉(zhuǎn)圖
以電視劇類電視節(jié)目標(biāo)簽跳轉(zhuǎn)圖為例,如圖3所示。圖中,深灰色(屏幕顯示為深藍(lán)色)節(jié)點(diǎn)代表標(biāo)簽,淺灰色節(jié)點(diǎn)代表電視節(jié)目,任一節(jié)目對應(yīng)多種標(biāo)簽,任一標(biāo)簽下有多個(gè)節(jié)目,點(diǎn)擊標(biāo)簽可以看到標(biāo)簽的熱度、受歡迎度,點(diǎn)擊某個(gè)節(jié)目可以看到節(jié)目的各個(gè)詳細(xì)特征及其與每個(gè)標(biāo)簽之間的粘度大小。電視節(jié)目與標(biāo)簽之間可以自由跳轉(zhuǎn),且可視化圖中有一些附加功能,用戶可以搜索查找自己感興趣的標(biāo)簽或節(jié)目信息。
圖3 節(jié)目標(biāo)簽跳轉(zhuǎn)圖
由于此圖采用的是D3中的力學(xué)圖布局,D3中的力學(xué)圖布局使用韋爾萊積分法計(jì)算,這是一種用于求解牛頓運(yùn)動(dòng)方程的數(shù)值方法,被廣泛應(yīng)用于分子動(dòng)力學(xué)模擬以及視頻游戲中,用到的參數(shù)有摩擦系數(shù)、引力、重力、連接線的距離、連接線的堅(jiān)硬度等。故位于中心的標(biāo)簽類型鏈接的節(jié)目最多,這些標(biāo)簽熱度最高、最受歡迎,而邊緣上的標(biāo)簽下轄節(jié)目最少,熱度低、相對較偏。點(diǎn)擊單個(gè)標(biāo)簽,該標(biāo)簽下轄節(jié)目變色,變色的節(jié)目節(jié)點(diǎn)所占比例對標(biāo)簽熱度進(jìn)行了定性描述,標(biāo)簽右下角會(huì)出現(xiàn)該標(biāo)簽下轄的節(jié)目數(shù)量,對標(biāo)簽的熱度進(jìn)行定量描述。
此外,標(biāo)簽系統(tǒng)作為一種更為靈活、有趣的信息分類方式,已成為推薦系統(tǒng)的重要信息來源,許多優(yōu)秀的推薦系統(tǒng)都采用了標(biāo)簽做推薦,如Amazon,last.fm等。標(biāo)簽是用戶特意標(biāo)注的,它含有用戶信息和所標(biāo)注節(jié)目的信息。所以標(biāo)簽既代表用戶喜好又可以體現(xiàn)節(jié)目特征,通過標(biāo)簽與節(jié)目的粘度可以找到用戶對節(jié)目的評(píng)價(jià)與喜好。綜合所有節(jié)目,發(fā)現(xiàn)熱門標(biāo)簽有歷史、戰(zhàn)爭、愛情、古裝、劇情、家庭等,說明這些標(biāo)簽很受歡迎。如果再挑出收視效果比較好的電視節(jié)目,計(jì)算這些電視節(jié)目的標(biāo)簽粘度,便能更精確地得到觀眾收視偏好,從而進(jìn)行個(gè)性化節(jié)目推薦或廣播電視收視智能決策等。
4.2 單節(jié)目詳細(xì)信息展示圖
點(diǎn)擊節(jié)目節(jié)點(diǎn),會(huì)跳出新的一層,左邊展示節(jié)目與其標(biāo)簽之間的粘度關(guān)系,右邊展示節(jié)目的一些固有信息如導(dǎo)演、主演、地區(qū)、年代、節(jié)目簡介等。這樣,從各個(gè)方面全方位展示了節(jié)目的詳細(xì)信息。
如對于電視劇《射雕英雄傳》,圖4展示了它的全方位信息,跟它粘度最大的幾個(gè)標(biāo)簽是古裝、武俠、愛情,說明該節(jié)目更側(cè)重這些屬性,主流視頻網(wǎng)站對這些標(biāo)簽的認(rèn)可度要高于其他標(biāo)簽。根據(jù)節(jié)目的其他信息,了解到這是一個(gè)發(fā)生在南宋時(shí)期的武俠故事,且演出陣容強(qiáng)大,有胡歌、林依晨這樣的大牌明星助陣,這樣的電視劇應(yīng)該會(huì)受武俠迷、古裝迷、胡椒粉、晨粉們的追捧。結(jié)合其他數(shù)據(jù)可以進(jìn)行電視劇的播前預(yù)測,如收視率預(yù)測、用戶評(píng)價(jià)預(yù)測等;也可以進(jìn)行播后數(shù)據(jù)分析,如廣播電視收視行為挖掘、個(gè)性化節(jié)目推薦等。
圖4 單節(jié)目詳細(xì)信息展示圖(截圖)
綜上,通過抓取電視節(jié)目的標(biāo)簽,對標(biāo)簽粘度進(jìn)行計(jì)算及可視化展示,證明本文所提出的方案能夠直觀、動(dòng)態(tài)的將標(biāo)簽粘度關(guān)系進(jìn)行有效展示,可以為后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘提供技術(shù)基礎(chǔ)。
傳統(tǒng)廣播電視領(lǐng)域?qū)?jié)目的標(biāo)簽標(biāo)注忽略了電視節(jié)目多屬性的特點(diǎn),且標(biāo)簽之間是平行關(guān)系,沒有側(cè)重,不能很好的反映節(jié)目與各標(biāo)簽之間的接近度、契合度。因此本文提出了電視節(jié)目及其標(biāo)簽的“粘度”這一概念,通過對電視節(jié)目的不同標(biāo)簽類型賦予不同的權(quán)重,并用可視化工具建立了一個(gè)節(jié)目與標(biāo)簽的扁平化的網(wǎng)絡(luò)結(jié)構(gòu),將節(jié)目及其標(biāo)簽間的粘度關(guān)系進(jìn)行了定量描述及可視化展示,使復(fù)雜的信息簡明扼要的呈現(xiàn)在視覺上,為后續(xù)數(shù)據(jù)挖掘帶來便利。在接下來的工作中,將會(huì)改進(jìn)數(shù)據(jù)采集方法,爭取實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)獲取、分
析處理,保證人們在用網(wǎng)站時(shí)看到的是最新的數(shù)據(jù)。
[1] 郭鎮(zhèn)之. 中外廣播電視史[M].上海:復(fù)旦大學(xué)出版社,2005.
[2] 張海潮.中國電視節(jié)目分類體系[M].北京:中國傳媒大學(xué)出版社,2007.
[3] 劉燕南.電視節(jié)目“多維組合”分類法及其編碼設(shè)計(jì)[J]. 現(xiàn)代傳播,2003(1):1-5.
[4] 張斌,張引,高克寧,等.融合關(guān)系與內(nèi)容分析的社會(huì)標(biāo)簽推薦[J].軟件學(xué)報(bào),2012,23(3):476-488.
[5] CHEN M,EBERT D,HAGEN H,et al. Data, Information, and Knowledge in Visualization[J].Computer graphics and applications,2009(6):12-19.
[6] Wikipedia.信息可視化[EB/OL].[2015-03-07].http://zh.wikipedia.org/wiki/信息可視化.
[7] MAY R, HANRAHAN P,KEIM D A,et al. The state of visual analytics: views on what visual analytics is and where it is going[C]//Proceedings of Visual Analytics Science and Technology (VAST). Salt Lake City,Utah,USA:IEEE Press,2010:257-259.
[8] XIONG Lirong, WANG Mengjun, FAN Jing. A visualization system for web retrieved credit information[C]//Proceedings of Natural Computation(ICNC).Shanghai:IEEE Press,2011:728-733.
[9] 陸泉,劉高,陳靜. 一個(gè)圖像語義可視化交互標(biāo)注研究平臺(tái)——以“情感語義標(biāo)注”為例[J]. 情報(bào)理論與實(shí)踐,2014(8): 111-116.
[10] CARD S,MACKINLAY J D,SHNEIDERMAN B. Readings in information visualization: using vision to think[M].San Francisco:Morgan Kaufmann Publishers,1999.
責(zé)任編輯:哈宏疆
Tagging and Labelling of Broadcast TV Programs and Research on Visualization
ZHANG Beibei, YIN Fulian, WANG Xinran, BAI Xuesong, BAI Lu
(College of Information Engineering, Communication Universityof China, Beijing 100024, China)
In view of traditional broadcast television program type parallel existence, which is unable to quantitatively describe the fitness and closeness of programs and labels, as well as lacking of visualizing the relationship between the programs and labels , the concept of the “viscosity” of television program and label is put forward, the labels are assigned weights, and the flat network relationship between the programs and labels is painted, which quantitatively describe and visualize the relationship between the labels and programs. Through calculating the viscosity of labels, and visualizing the relationship the programs and labels, the result prove that the method proposed in this paper show the relationship between the programs and labels dynamically and efficiently, which can provide the technical foundation for data analysis and data mining.
Program classification; Program label; the viscosity of label; Visualization
國家廣播電影電視總局科研項(xiàng)目(2-4)
G221
A
10.16280/j.videoe.2015.20.017
2015-03-10
【本文獻(xiàn)信息】張貝貝,殷復(fù)蓮,王欣然,等.廣播電視節(jié)目標(biāo)簽標(biāo)注與可視化研究[J].電視技術(shù),2015,39(20).