文/高艷冬
在競爭日益激烈的全媒體時代下,要求廣電傳統(tǒng)媒體能在保證安全的前提下,與互聯(lián)網(wǎng)進(jìn)行多維融合發(fā)展,提供更豐富的資源、更多樣的生產(chǎn)模式及更加快速權(quán)威的發(fā)布渠道。同時,面對海量的數(shù)據(jù)信息,對信息的處理和存儲、采樣分析、用戶畫像及可視化精準(zhǔn)推送等功能,廣電媒體面臨著迫切需求,大數(shù)據(jù)技術(shù)的出現(xiàn)很好地解決了這個問題,推動了廣電傳媒的發(fā)展和轉(zhuǎn)型。研究大數(shù)據(jù)技術(shù)、分析大數(shù)據(jù)技術(shù)在廣電領(lǐng)域的應(yīng)用,對于廣電傳媒而言,有著重要的意義。
互聯(lián)網(wǎng)催生了大數(shù)據(jù)應(yīng)用的規(guī)?;h(huán)境,可以說,大數(shù)據(jù)技術(shù)是網(wǎng)絡(luò)時代的衍生品,它是以計算機技術(shù)和信息技術(shù)為基礎(chǔ),實現(xiàn)對海量數(shù)據(jù)的收集、分析和處理,充分挖掘數(shù)據(jù)價值的一種技術(shù)。利用本地數(shù)據(jù)庫資源、互聯(lián)網(wǎng)的數(shù)據(jù),實現(xiàn)數(shù)據(jù)源的提取,通常采用開源的分布式大數(shù)據(jù)技術(shù)架構(gòu),支持不同來源的異構(gòu)數(shù)據(jù)的多種導(dǎo)入方式,實現(xiàn)海量數(shù)據(jù)的存儲,通過對數(shù)據(jù)進(jìn)行清洗、過濾、壓縮等處理,實現(xiàn)大數(shù)據(jù)的預(yù)處理,利用數(shù)據(jù)索引功能和查詢功能,可以實現(xiàn)數(shù)據(jù)庫內(nèi)的信息查詢,利用云計算實現(xiàn)對海量數(shù)據(jù)的匯總和分析。在廣電領(lǐng)域,大數(shù)據(jù)技術(shù)有著廣泛的創(chuàng)新應(yīng)用,主要有新聞輿情分析與智能選題、用戶收視行為和效果分析、融媒體數(shù)據(jù)分析、產(chǎn)品精準(zhǔn)推送、可視化展示等。
大數(shù)據(jù)平臺構(gòu)建技術(shù)包含了許多技術(shù),并非單一存在,例如,分布式數(shù)據(jù)庫、分布式文件系統(tǒng)、數(shù)據(jù)處理技術(shù)等,這些技術(shù)的應(yīng)用,共同構(gòu)成了大數(shù)據(jù)平臺。
首先,分布式數(shù)據(jù)庫技術(shù)。該技術(shù)主要是將網(wǎng)絡(luò)技術(shù)同數(shù)據(jù)庫技術(shù)相融合,主要形式有本地數(shù)據(jù)庫、網(wǎng)絡(luò)數(shù)據(jù)庫等,利用網(wǎng)絡(luò)技術(shù),實現(xiàn)海量數(shù)據(jù)的存儲。從技術(shù)層面進(jìn)行分析,通過分布式數(shù)據(jù)庫技術(shù)的實際應(yīng)用,可以看出該項技術(shù)的核心在于CAP定理的使用,該技術(shù)保留了傳統(tǒng)數(shù)據(jù)的一些特性,不同于傳統(tǒng)數(shù)據(jù)庫之處在于,可以實現(xiàn)對數(shù)據(jù)庫信息的快速存取。當(dāng)前,分布式數(shù)據(jù)平臺的使用,以Hadoop、Greenplum、Hbase和MongoDB較為常見。
其次,分布式文件系統(tǒng)技術(shù)。一個優(yōu)秀的分布式文件系統(tǒng),可以隨著數(shù)據(jù)規(guī)模的增加便捷地實現(xiàn)彈性橫向擴展,部署大量的服務(wù)器支撐分布式文件系統(tǒng)技術(shù)的應(yīng)用,這也就滿足了海量數(shù)據(jù)的存儲要求,提升了存儲能力。為保證數(shù)據(jù)安全可靠使用,現(xiàn)今大多采用主/從雙節(jié)點方式,當(dāng)主名稱節(jié)點工作時,從名稱節(jié)點實時備份,與主名稱節(jié)點數(shù)據(jù)同步,利用冗余存儲的方式,可保證存儲數(shù)據(jù)的安全性和可靠性。當(dāng)前,分布式文件系統(tǒng)的使用,以Lustre、MogileFS、Hadoop、FreeNAS等較為常見。
最后,大數(shù)據(jù)處理技術(shù)。大數(shù)據(jù)處理技術(shù)應(yīng)用十分廣泛,在不同行業(yè)有著不同的表現(xiàn)形式,經(jīng)過總結(jié)分析,可以將大數(shù)據(jù)處理技術(shù)歸納為以下三種形式:批處理和分析、實時流處理、近實時分析。
大數(shù)據(jù)技術(shù)的核心和關(guān)鍵在于對數(shù)據(jù)的挖掘,大數(shù)據(jù)挖掘技術(shù)涉及數(shù)據(jù)挖掘、分析和倉儲三部分內(nèi)容。
首先,大數(shù)據(jù)挖掘技術(shù)。大數(shù)據(jù)挖掘技術(shù)需要借助分布式計算平臺來實現(xiàn),以此為基礎(chǔ),實現(xiàn)對數(shù)據(jù)庫海量數(shù)據(jù)的挖掘,為數(shù)據(jù)分析工作提供數(shù)據(jù)支持。大數(shù)據(jù)挖掘技術(shù)是將網(wǎng)絡(luò)技術(shù)和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)相結(jié)合,利用計算平臺,對數(shù)據(jù)進(jìn)行挖掘處理,遇到特殊情況,可以進(jìn)行簡化操作,保證底層平臺的有效運行。
其次,大數(shù)據(jù)分析技術(shù)。大數(shù)據(jù)分析技術(shù)是以大數(shù)據(jù)存儲、管理和處理技術(shù)為基礎(chǔ),有目的地處理數(shù)據(jù),實現(xiàn)數(shù)據(jù)的分析,將數(shù)據(jù)轉(zhuǎn)換為報表。常見的數(shù)據(jù)分析技術(shù)有:日志分析技術(shù)、文件屬性分析技術(shù)、文本情感分析技術(shù)、自然語言處理技術(shù)等。
最后,大數(shù)據(jù)倉庫技術(shù)。大數(shù)據(jù)倉庫技術(shù)是指將搜集到的海量數(shù)據(jù)進(jìn)行整合和存儲。
廣電系統(tǒng)對于大數(shù)據(jù)平臺的使用有如下要求:
首先,業(yè)務(wù)方面的要求。廣電系統(tǒng)需要搜集的數(shù)據(jù)信息有:互聯(lián)網(wǎng)、電視、新媒體等用戶的行為數(shù)據(jù)、輿情數(shù)據(jù)等,將這些信息使用大數(shù)據(jù)平臺進(jìn)行搜集并整合。大數(shù)據(jù)平臺在收集到用戶行為數(shù)據(jù)之后,需要對這些數(shù)據(jù)進(jìn)行挖掘和分析,調(diào)查用戶的行為模式,了解用戶的喜好,可以為廣電系統(tǒng)提供新的運行模式。根據(jù)收集到的用戶數(shù)據(jù),可以創(chuàng)建視頻模型,直觀顯示和分析收視情況。例如,根據(jù)不同的欄目和頻道信息,了解實時收看人數(shù),實現(xiàn)視頻智能推薦、實時查詢等功能。除此之外,廣電大數(shù)據(jù)平臺還應(yīng)該滿足如下要求:(1)提供實際案例的能力以及創(chuàng)建具有結(jié)構(gòu)化數(shù)據(jù)處理能力的商業(yè)大數(shù)據(jù)平臺,數(shù)據(jù)平臺支持B/S模式,可以實現(xiàn)可視化的管理和開發(fā);(2)根據(jù)MapReduce分布式數(shù)據(jù)計算框架和HDFS分布式數(shù)據(jù)存儲機制,實現(xiàn)海量數(shù)據(jù)的告訴訪問以及快速運算;(3)建立基于MPP架構(gòu)和列存儲的數(shù)據(jù)庫,實現(xiàn)PB級的數(shù)據(jù)分析,建立HHDFS技術(shù)擴展與封裝的平臺,實現(xiàn)PB級的非結(jié)構(gòu)化數(shù)據(jù)處理與分析。
其次,性能方面的要求。廣電大數(shù)據(jù)平臺的建設(shè),需要實現(xiàn)數(shù)據(jù)的收集、整理、分析、查詢等方面的要求,因此,大數(shù)據(jù)平臺必須有靈活、可控、可擴容的機制,同時在性能方面還需要滿足如下要求:(1)數(shù)據(jù)加載速度方面,數(shù)據(jù)加載速度不能小于1TB/h;(2)數(shù)據(jù)處理速度方面,數(shù)據(jù)轉(zhuǎn)換的處理速度不能小于1TB/h;(3)復(fù)雜數(shù)據(jù)的統(tǒng)計計算方面,復(fù)雜指標(biāo)的處理,統(tǒng)計和計算速度不能小于15s。
廣電大數(shù)據(jù)平臺的建設(shè)包含如下內(nèi)容:一是大數(shù)據(jù)平臺的建設(shè);二是個性化門戶的建設(shè)。其中,以個性化門戶建設(shè)尤為重要,差異化策略是廣電行業(yè)競爭的重要策略。因此,廣電大數(shù)據(jù)門戶建設(shè),必須注重個性化和差異化。
首先,構(gòu)建大數(shù)據(jù)平臺。構(gòu)建廣電大數(shù)據(jù)平臺時,需要考慮廣電行業(yè)的發(fā)展,未來可能出現(xiàn)的業(yè)務(wù)轉(zhuǎn)型需求,因此,大數(shù)據(jù)平臺需要支持結(jié)構(gòu)化數(shù)據(jù),利用計算機架構(gòu),體現(xiàn)出大數(shù)據(jù)平臺數(shù)據(jù)全面、技術(shù)先進(jìn)、便捷開放的特點。廣電大數(shù)據(jù)平臺的建設(shè)內(nèi)容有:研究平臺的搭建、運維平臺的構(gòu)建、安裝操作系統(tǒng)、平臺部署、節(jié)點動態(tài)增減、MapReduce作業(yè)管理、平臺監(jiān)控、參數(shù)調(diào)優(yōu)、平臺配置、挖掘工具、系統(tǒng)算法等。
其次,廣電大數(shù)據(jù)個性化門戶建設(shè)。個性化門戶建設(shè)基于大數(shù)據(jù)平臺的建設(shè),利用大數(shù)據(jù)平臺擁有的數(shù)據(jù)收集、整合、分析的能力,建立廣電企業(yè)個性化門戶。個性化門戶的建設(shè),對于用戶數(shù)據(jù)的收集和分析十分重要,其中包括:用戶的訪問記錄、用戶聊天數(shù)據(jù)、論壇發(fā)帖等數(shù)據(jù)信息,將這些數(shù)據(jù)信息通過去格式化的方式進(jìn)行整合、存儲,使用行為、關(guān)系、語義、視覺等不同的算法工具,對用戶數(shù)據(jù)進(jìn)行處理,以此為基礎(chǔ)建設(shè)個性化門戶。大數(shù)據(jù)平臺下,利用強大的云計算能力,可以將廣電用戶根據(jù)不同標(biāo)準(zhǔn)進(jìn)行分類,以此為基礎(chǔ),實現(xiàn)內(nèi)容的精準(zhǔn)推薦,給予用戶個性化的選擇。通常情況下,個性化門戶建設(shè)需要注意以下內(nèi)容:(1)用戶行為數(shù)據(jù)分析。廣電大數(shù)據(jù)平臺建設(shè),主要在于利用大數(shù)據(jù)平臺,收集用戶數(shù)據(jù),分析用戶喜好和行為,用戶行為數(shù)據(jù)主要有瀏覽業(yè)務(wù)數(shù)據(jù)、回看業(yè)務(wù)數(shù)據(jù)、點播業(yè)務(wù)數(shù)據(jù)、廣告業(yè)務(wù)數(shù)據(jù)、直播頻道業(yè)務(wù)數(shù)據(jù)、時移業(yè)務(wù)數(shù)據(jù)等;(2)點播、直播過程中的關(guān)聯(lián)推薦。所謂關(guān)聯(lián)推薦,是指根據(jù)大數(shù)據(jù)收集到的用戶數(shù)據(jù)進(jìn)行分析,分析用戶的行為和喜好,建立用戶喜好模型,根據(jù)用戶喜好內(nèi)容進(jìn)行相關(guān)聯(lián)內(nèi)容的推薦,向用戶推薦感興趣的內(nèi)容,提升用戶的滿意度,同時根據(jù)用戶喜好,也可以提升廣告的投放精準(zhǔn)度;(3)互聯(lián)網(wǎng)的用戶分析?;ヂ?lián)網(wǎng)時代下,互聯(lián)網(wǎng)和移動媒體十分普及,人們利用移動網(wǎng)絡(luò)、互聯(lián)網(wǎng)絡(luò)獲取感興趣的信息。因此,用戶數(shù)據(jù)的收集也離不開互聯(lián)網(wǎng)用戶數(shù)據(jù),深入挖掘用戶喜好,從移動網(wǎng)絡(luò)、廣電網(wǎng)絡(luò)、互聯(lián)網(wǎng)絡(luò)三網(wǎng)相融合,收集用戶數(shù)據(jù),為片源引進(jìn)、廣告投放、內(nèi)容制作、收視率評估等工作內(nèi)容提供數(shù)據(jù)支持。個性化推薦的出現(xiàn),是大數(shù)據(jù)應(yīng)用的最好體現(xiàn),大數(shù)據(jù)時代,根據(jù)用戶的實時數(shù)據(jù)和點擊行為,通過數(shù)據(jù)分析可以獲得用戶的喜好,向用戶推送感興趣的內(nèi)容。近年來,各大媒體門戶網(wǎng)站或者移動媒體等都借助大數(shù)據(jù)的信息收集和分析能力,發(fā)覺用戶喜好,推送相關(guān)節(jié)目,提升用戶的滿意度。
運維管理是大數(shù)據(jù)技術(shù)在廣電系統(tǒng)的應(yīng)用方面之一。由于廣電領(lǐng)域涉及到許多非結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)的存在容易增加廣電系統(tǒng)運維的難度。隨著科技的不斷發(fā)展和進(jìn)步,廣電行業(yè)面臨越來越多的數(shù)據(jù)信息,為了更好地對廣電系統(tǒng)進(jìn)行運行管理和維護(hù)管理,需要廣電企業(yè)轉(zhuǎn)型,加強對大數(shù)據(jù)技術(shù)的應(yīng)用,實現(xiàn)數(shù)字化的管理模式。具體而言,以數(shù)字化模式為基礎(chǔ),建設(shè)大數(shù)據(jù)平臺,進(jìn)行節(jié)目制作、數(shù)據(jù)存儲等內(nèi)容。廣電系統(tǒng)由多個平臺構(gòu)成,包括批量步數(shù)平臺、批量安裝操作、運維平臺、作業(yè)管理平臺等。大數(shù)據(jù)技術(shù)在廣電系統(tǒng)中的應(yīng)用,當(dāng)系統(tǒng)出現(xiàn)故障時,可以及時定位發(fā)生故障的位置,運維管理工作效率得到提升。此外,大數(shù)據(jù)技術(shù)的應(yīng)用,可實現(xiàn)廣電系統(tǒng)運行情況的實時分析,可以及時了解系統(tǒng)的運行情況、負(fù)載情況,對系統(tǒng)問題做出科學(xué)預(yù)測,可以有效排除一些故障,做到早發(fā)現(xiàn)、早治理,為廣電系統(tǒng)的正常運行提供可靠保障。
廣電行業(yè)對于業(yè)務(wù)運營的要求主要有:對電視、互聯(lián)網(wǎng)、新媒體等數(shù)據(jù)信息進(jìn)行收集、整合、分析,借助這些數(shù)據(jù)分析,對用戶的喜好和行為進(jìn)行預(yù)測,根據(jù)預(yù)測結(jié)果開展各項業(yè)務(wù)。大數(shù)據(jù)技術(shù)的應(yīng)用,可以將這些數(shù)據(jù)信息在大數(shù)據(jù)平臺整合分析,完成用戶偏好的合理預(yù)測,建立視頻模型。例如,根據(jù)用戶瀏覽數(shù)據(jù),可以模擬用戶畫像,對用戶的年齡、喜好、內(nèi)容等進(jìn)行智能分類,根據(jù)不同分類給出智能推薦。此外,用戶的數(shù)量、收視時長等信息,可以成為決策數(shù)據(jù),為廣電業(yè)務(wù)運營給出科學(xué)的指導(dǎo)。在實際運作過程中,使用MapReduce分布式計算框架,實現(xiàn)對用戶數(shù)據(jù)的快速訪問和高速運算。使用MPP架構(gòu)數(shù)據(jù)庫,實現(xiàn)對PB級結(jié)構(gòu)化數(shù)據(jù)的處理。使用HDFS技術(shù),實現(xiàn)對PB級非結(jié)構(gòu)化數(shù)據(jù)的處理??梢钥闯觯髷?shù)據(jù)技術(shù),使廣電系統(tǒng)可以更加精準(zhǔn)地分析用戶的喜好,做到有針對性地投放推薦內(nèi)容,滿足用戶需求,提升用戶滿意率。
建設(shè)個性化門戶,需要做好用戶數(shù)據(jù)的管理工作,加強對用戶數(shù)據(jù)的利用,將用戶數(shù)據(jù)進(jìn)行整合、分析,對用戶的偏好和行為做出科學(xué)預(yù)測。應(yīng)用大數(shù)據(jù)技術(shù),可以加強對廣電用戶數(shù)據(jù)的管理。首先,借助網(wǎng)絡(luò),可以實現(xiàn)同用戶的溝通交流,獲得用戶數(shù)據(jù)。目前,廣電企業(yè)對于用戶數(shù)據(jù)的收集,以網(wǎng)絡(luò)用戶為單位,通過采樣模式實現(xiàn)數(shù)據(jù)的采集和分析,可以使用收集到的有限數(shù)據(jù),反映用戶的收視情況。近年來,手機、平板的普及,移動設(shè)備的使用廣泛,必然會帶來一批移動用戶,面對這種情況,廣電企業(yè)應(yīng)該加強互聯(lián)網(wǎng)、移動網(wǎng)絡(luò)、廣電網(wǎng)絡(luò)三網(wǎng)的互動和融合,實現(xiàn)數(shù)據(jù)信息的共享,使用大數(shù)據(jù)技術(shù)對用戶的共性和個性進(jìn)行挖掘,引導(dǎo)廣電企業(yè)進(jìn)行片源引入、收視率評估、內(nèi)容制作等工作。大數(shù)據(jù)技術(shù)的應(yīng)用,使許多收視數(shù)據(jù)被合理地收集和利用起來,加強了對用戶數(shù)據(jù)的分析和利用,用戶數(shù)據(jù)價值得到發(fā)揮,同時提升廣電企業(yè)決策水平。
通過探針和爬蟲手段,主動抓取主流新聞網(wǎng)站、論壇、博客、微博、微信、移動客戶端等網(wǎng)絡(luò)媒體的各種信息數(shù)據(jù),通過對海量的數(shù)據(jù)的大數(shù)據(jù)分析,提取出隱含的巨大信息,提供關(guān)鍵性的市場數(shù)據(jù),從而可實現(xiàn)輿情引導(dǎo)、輿情管控,支持新聞發(fā)現(xiàn)和傳播效果分析,實現(xiàn)對互聯(lián)網(wǎng)媒體的傳播效果分析挖掘,還可對熱點新聞推薦、熱點微博線索、相似事件關(guān)聯(lián)、熱點變化趨勢、輔助事前報道選題,支持用戶參入分析(閱讀/分享/評論等),用戶關(guān)注度及傾向性分析挖掘等。
在媒體融合大潮中,廣電行業(yè)面臨著一場劃時代的創(chuàng)新革命,從媒體的內(nèi)容形態(tài)、傳播途徑到發(fā)布接收方式都發(fā)生了顛覆性的變革,廣電媒體應(yīng)該充分利用大數(shù)據(jù)技術(shù),研發(fā)建設(shè)適應(yīng)廣電應(yīng)用的大數(shù)據(jù)技術(shù)平臺,實現(xiàn)從IT時代向DT時代的融合轉(zhuǎn)型。
參考文獻(xiàn)
[1]宋文娟.淺談大數(shù)據(jù)技術(shù)及在廣電系統(tǒng)中的應(yīng)用[J].遼寧廣播電視技術(shù),2014(4):13-15.
[2]王巨森.大數(shù)據(jù)技術(shù)在廣電領(lǐng)域的應(yīng)用探索[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2016(2):9-10.
[3]林健.大數(shù)據(jù)技術(shù)在廣電領(lǐng)域的應(yīng)用分析[J].視聽,2017(8).
[4]檀杉.大數(shù)據(jù)技術(shù)在廣電領(lǐng)域的應(yīng)用探索[J].現(xiàn)代工業(yè)經(jīng)濟和信息化,2016,6(23):79-80.
[5]劉欣榮,陳凱.大數(shù)據(jù)技術(shù)在廣電領(lǐng)域的應(yīng)用探索[J].工程技術(shù):引文版,2016(6):00291-00292.
[6]李蕾.“大數(shù)據(jù),”下廣電行業(yè)的應(yīng)用研究[J].通訊世界,2017(13):291.