亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop技術(shù)的廣電大數(shù)據(jù)平臺構(gòu)建

        2017-04-10 03:48:59盧建麗楊
        數(shù)字傳媒研究 2017年2期
        關(guān)鍵詞:廣電數(shù)據(jù)挖掘物品

        盧建麗楊 軒

        1.2.內(nèi)蒙古新聞出版廣電局841臺 內(nèi)蒙古 呼和浩特市 010050

        基于Hadoop技術(shù)的廣電大數(shù)據(jù)平臺構(gòu)建

        盧建麗1楊 軒2

        1.2.內(nèi)蒙古新聞出版廣電局841臺 內(nèi)蒙古 呼和浩特市 010050

        隨著互聯(lián)網(wǎng)時代傳播載體和傳播內(nèi)容的快速增長,特別是網(wǎng)絡電視和視頻網(wǎng)站的快速發(fā)展,廣播電視體系受到了強烈的沖擊。在大數(shù)據(jù)時代背景下,如何利用大數(shù)據(jù)為用戶提供更加優(yōu)質(zhì)的服務,成為擺在廣電人面前的一個新課題。本文就如何基于Hadoop技術(shù)構(gòu)建廣電大數(shù)據(jù)平臺,通過挖掘海量數(shù)據(jù),為用戶提供個性化服務,增強廣電行業(yè)的核心競爭力,提出建議。

        Hadoop技術(shù) 大數(shù)據(jù) 廣電網(wǎng)絡

        引言

        隨著大數(shù)據(jù)時代的來臨,網(wǎng)絡電視和視頻網(wǎng)站蓬勃發(fā)展,受此沖擊廣電媒體的受眾、開機率和廣告份額均出現(xiàn)下滑。廣電媒體受限于傳統(tǒng)媒體播送形式,“不知道用戶在哪里,也不知道用戶的需求是什么”。為提高在大數(shù)據(jù)時代的競爭力,廣電媒體加快了大數(shù)據(jù)技術(shù)應用的腳步,開始積累海量用戶數(shù)據(jù),以提供更加人性化、更加優(yōu)質(zhì)的服務。

        本文將探討如何基于Hadoop技術(shù)構(gòu)建廣電大數(shù)據(jù)分析平臺,邏輯上包含:數(shù)據(jù)采集模塊、數(shù)據(jù)存儲模塊、數(shù)據(jù)分析模塊、數(shù)據(jù)應用模塊四個主要部分,利用數(shù)據(jù)挖掘算法,為廣電用戶提供更優(yōu)質(zhì)的服務,提升廣電媒體的市場競爭力。

        1 廣電大數(shù)據(jù)分析平臺架構(gòu)

        廣電用戶每天產(chǎn)生大量的數(shù)據(jù),例如,觀看節(jié)目時間、廣告時段、調(diào)臺頻率等,針對這些海量數(shù)據(jù),我們選擇全部采集記錄,全量數(shù)據(jù)分析,這符合大數(shù)據(jù)特點。數(shù)據(jù)采集后進入由Hadoop技術(shù)架構(gòu)支撐的存儲模塊,對采集到的數(shù)據(jù)進行預處理,并存儲在HBase數(shù)據(jù)庫。HBase是一個在HDFS上開發(fā)的面向列的分布式數(shù)據(jù)庫。分析模塊將對存儲的數(shù)據(jù)進行數(shù)據(jù)挖掘,借助諸如聚類分析、分類器等算法,對海量數(shù)據(jù)中有價值的數(shù)據(jù)進行挖掘分析。應用模塊是頂層模塊,提供諸如視頻推薦、廣告精準投放、節(jié)目動態(tài)調(diào)整等高端應用。如圖1所示:

        圖1 廣電大數(shù)據(jù)分析平臺架構(gòu)

        2 廣電大數(shù)據(jù)分析平臺的實現(xiàn)

        2.1 Hadoop部署

        Hadoop技術(shù)提供了可靠的共享存儲和分析系統(tǒng),其核心是HDFS和MapReduce。HDFS實現(xiàn)數(shù)據(jù)的存儲,MapReduce實現(xiàn)數(shù)據(jù)的分析和處理。

        HDFS即Hadoop Distributed File System,是一個分布式文件系統(tǒng),特點為:(1)適用于對幾百TB甚至PB級數(shù)據(jù)的存儲,(2)采用流式數(shù)據(jù)訪問模式,即一次寫入,多次讀取,是最高效的訪問模式,(3)不需要在專用服務器上運行,可以在普通服務器上運行。

        MapReduce是一個軟件架構(gòu),用于大規(guī)模數(shù)據(jù)集的并行運算。一個大數(shù)據(jù)若可分為具有同樣計算過程的數(shù)據(jù)塊,并且這些數(shù)據(jù)塊之間不存在數(shù)據(jù)依賴關(guān)系,則提高處理速度的最好辦法就是并行計算?!癕ap(映射)”和“Reduce(規(guī)約)”借鑒函數(shù)式編程語言,指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(規(guī)約)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。Map函數(shù)對所劃分的數(shù)據(jù)并行處理,從不同的輸入數(shù)據(jù)產(chǎn)生不同的中間結(jié)果輸出。同樣,Reduce各自并行計算,各自負責處理不同的中間結(jié)果數(shù)據(jù)集合進行reduce處理之前,必須等到所有的map函數(shù)做完。因此,在進入reduce前需要有一個同步障(barrier),這個階段也負責對map的中間結(jié)果數(shù)據(jù)進行收集整理(aggregation&shuffle)處理,以便reduce更有效地計算最終結(jié)果。最終匯總所有reduce的輸出結(jié)果,即可獲得最終結(jié)果。

        目前,Hadoop僅支持Linux作為產(chǎn)品平臺,Windows僅限于作為開發(fā)平臺,但需要借助其他軟件。本文以Linux平臺為例,介紹Hadoop及相關(guān)軟件的安裝部署。Hadoop以Java語言編寫,因此,部署Hadoop需要先安裝Java 6或更新版本。

        2.2 Hadoop安裝

        從http://hadoop.apache.org/releases.html頁面可以下載Hadoop發(fā)布包。

        本文下載文件為:hadoop-2.7.2.tar.gz,% tar xcf hadoop-2.7.2.tar.gz

        將Hadoop的安裝目錄添加到環(huán)境變量中,本文中Hadoop解壓到/usr/software下,將環(huán)境變量添加到/etc/profile文件中。保存后,在命令行輸入source profile以執(zhí)行操作:

        % exportHADOOP_INSTALL=/usr/software/ hadoop-2.7.2

        %export PATH=$PATH:$HADOOP_INSTALL/ bin:$HADOOP_INSTALL/sbin

        %source./profile

        可通過輸入以下指令來判斷Hadoop是否工作:

        %hadoop version

        Hadoop 2.7.2

        Subversion https://git-wip-us.apache.org/repos/asf/ hadoop.git-r b165c4fec792ce23f546c64604acf0e41

        Compiled by jenkins on 2016-01-26T00:08Z

        2.3 Hadoop配置

        Hadoop各個組件均可利用XML文件進行配置。在hadoop-2.7.2/conf目錄下,有core.site.xml文件用于配置通用屬性,hdfs-site.xml文件用于配置HDFS屬性,mapred-site.xml文件用于配置MapReduce屬性。

        Hadoop有三種運行模式:(1)獨立模式:無需運行任何守護進程,所有程序都在同一個JVM上執(zhí)行。在獨立模式下測試和調(diào)試MapReduce程序很方便,因此該模式適合于開發(fā)階段;(2)偽分布模式:Hadoop守護進程運行在本地機器上,模擬一個小規(guī)模的集群。(3)全分布模式:Hadoop守護進程運行在一個集群上。不同模式下的關(guān)鍵配置屬性,如表1所示。

        (1)配置SSH

        本文采用偽分布模式。在偽分布模式下工作必須啟動守護進程,而啟動守護進程的前提是已經(jīng)成功安裝SSH。同時,需要確保用戶能夠遠程登錄到本機,并且可以不輸入密碼登錄。在命令行中輸入:

        %sudo apt-get install ssh——安裝ssh

        之后,需要基于空口令創(chuàng)建一個SSH秘鑰,以實現(xiàn)無密碼登錄。

        %ssh-keygen-t rsa——創(chuàng)建一個以rsa算法加密的秘鑰。

        輸入命令后,系統(tǒng)會連續(xù)提問,全部選擇默認值,就可以創(chuàng)建空口令的SSH秘鑰。

        之后,輸入%cat~./ssh/id_rsa.pub>>~/.ssh/ authorized_keys——將id_rsa.pub文件內(nèi)容添加到authorized_keys文件末尾,且不刪除文件中的原有信息,用以下命令測試:

        %ssh localhost

        Welcome to Ubuntu 14.04.4 LTS(GNU/Linux 3.16.0-71-generic x86_64)

        Last login:web Jun 22 16:00:18 2016 from localhost

        表示SSH安裝配置成功

        (2)格式化HDFS文件系統(tǒng)

        在使用Hadoop前必須格式化生成一個全新的HDFS系統(tǒng)。該過程創(chuàng)建一個空文件系統(tǒng),僅包含存儲目錄和namenode的初始版本。由于namenode管理文件系統(tǒng)的元數(shù)據(jù),并且datanode可以動態(tài)地加入或離開集群。因此,這個格式化過程不針對datanode。

        表1 不同模式下的關(guān)鍵配置屬性

        在命令行中輸入:

        %hadoop namenode-format

        (3)啟動守護進程

        為啟動HDFS和MapReduce守護進程,輸入如下命令:

        %start-dfs.sh

        %start-mapred.sh

        本地計算機將啟動以下守護進程:一個namenode,一個輔助namenode,一個datanode,一個jobtracker和一個tasktracker??梢酝ㄟ^Web界面查看:在 http://localhost:50030/查看 jobtracker或在http://localhost:50070/查看namenode。

        以上Hadoop部署完畢。Hbase分布式數(shù)據(jù)庫和Zookeeper分布式協(xié)調(diào)服務的安裝與Hadoop安裝類似,這里不再贅述。安裝完Hbase和Zookeeper,就完成了廣電大數(shù)據(jù)分析平臺的框架搭建工作。接下來將在這個框架基礎(chǔ)上進行數(shù)據(jù)分析。

        3 廣電大數(shù)據(jù)的分析挖掘

        大數(shù)據(jù)的核心在于對擁有的數(shù)據(jù)進行數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中挖掘模式和獲取知識的過程。數(shù)據(jù)挖掘的一般流程包括:數(shù)據(jù)準備、信息挖掘、結(jié)果表達三個處理階段。數(shù)據(jù)準備是指從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)樣本,將其整合成用于數(shù)據(jù)分析的樣本集。信息挖掘是指利用各種數(shù)據(jù)挖掘算法,將所得的樣本集中包含的規(guī)律信息或潛在模式挖掘出來。結(jié)果表達是指盡可能以用戶可理解的方式,將找出的規(guī)律或模式表示出來。

        雖然在邏輯上將廣電大數(shù)據(jù)分析平臺分為數(shù)據(jù)分析和數(shù)據(jù)應用,但在實際應用中,數(shù)據(jù)分析與數(shù)據(jù)應用往往是相互聯(lián)系的,本文以視頻推薦系統(tǒng)為例,詳細介紹如何使用算法對Hadoop中的大數(shù)據(jù)進行分析。視頻推薦系統(tǒng)根據(jù)用戶的歷史行為數(shù)據(jù)和視頻的內(nèi)容特征數(shù)據(jù)進行挖掘和分析,構(gòu)建出用戶畫像和視頻的物品畫像,同時,利用各種上下文信息,做出對用戶未來選擇行為的預測,完成對特定用戶的推薦。如果你喜歡一件東西X,而另一個東西Y與之十分相似,就很可能喜歡Y,這就是基于物品的協(xié)同過濾算法思想。本文重點闡述基于物品的協(xié)同過濾算法ItemCF。

        3.1 基于物品的協(xié)同過濾算法ItemCF

        基于物品的協(xié)同過濾,是指通過用戶對不同物品的評分來評測物品之間的相似性,并基于物品之間的相似性做出推薦。簡單來講就是:給用戶推薦和他之前喜歡的物品相似的物品。如表2所示:

        表2 基于物品的協(xié)同過濾算法

        基于物品的視頻推薦算法流程,如圖2所示:

        假設(shè)用戶為Ui(i=1,2,3,...,n),視頻 Mj(j=1,2,3,...,m),Ui對Mj的評分為。以物品Ij為例,基于物品的協(xié)同過濾算法可分為兩步:

        圖2 基于物品的視頻推薦算法流程

        (1)對于目標用戶及其待評分的視頻,根據(jù)用戶對視頻的歷史偏好數(shù)據(jù),計算視頻與其他已評分視頻之間的相似度Sim(j,i),找到與視頻相似度高的視頻集合N(u)。

        (2)根據(jù)所有視頻N(u)的評分情況,選出N(u)中目標用戶Ui可能喜歡的且沒有看過的項目進行推薦,并預測評分。

        視頻間的相似度一般采用修正后的余弦度計算公式Sim(j,i)

        公式中,表示用戶u對視頻i的評分,表示用戶u對他所看過的視頻的平均打分。

        用戶對視頻的喜好程度用以下公式表示:

        公式中,表示用戶u對視頻j的喜好程度,視頻i是用戶看得較多的視頻,表示用戶u對視頻i的偏好程度,之后根據(jù)來對候選的視頻進行排序,為用戶推薦分值高的視頻。

        3.2 Mahout的安裝配置

        Mahout開源項目,是一個分布式機器學習算法的集合,它基于Hadoop實現(xiàn),把很多運行于單機上的算法,轉(zhuǎn)化為MapReduce模式,大大提升了算法可處理的數(shù)據(jù)量和處理性能。

        3.2.1 下載Mahout

        http://archive.apache.org/dist/mahout/

        3.2.2 解壓

        tar-zxvf apache-mahout-distribution-0.12.2.tar. gz

        3.2.3 配置環(huán)境變量

        配置Mahout環(huán)境變量

        #set mahout environment export

        MAHOUT_HOME=/usr/software/mahout/mahoutdistribution-0.12.2

        export MAHOUT_CONF_DIR=$MAHOUT_ HOME/conf

        export PATH=$MAHOUT_HOME/conf:$MA HOUT_HOME/bin:$PATH

        執(zhí)行命令mahout。若列出一些算法,則表示安裝成功。

        我們可以利用開源的mahout實現(xiàn)基于物品的視頻推薦算法。這里僅舉例視頻推薦系統(tǒng),還可以根據(jù)實際業(yè)務需要來擴展廣電大數(shù)據(jù)平臺的分析和應用模塊,做到服務于實際工作。

        結(jié)束語

        本文探討了廣電大數(shù)據(jù)分析平臺的總體建設(shè)思想,介紹了如何搭建Hadoop數(shù)據(jù)平臺。隨著大數(shù)據(jù)Hadoop的不斷完善和廣電在互聯(lián)網(wǎng)業(yè)務上的持續(xù)發(fā)力,基于Hadoop的大數(shù)據(jù)分析應用平臺必將發(fā)揮越來越重要的作用。

        [1]Tom Wbite.Hadoop權(quán)威指南[M].北京:清華大學出版社,2015:3-4

        [2]Jiawei Han Michelime Kamber Jian Pei.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2012:6.

        [3]牛溫佳,劉吉強,石川.用戶網(wǎng)絡行為畫像——大數(shù)據(jù)中的用戶網(wǎng)絡行為畫像分析與內(nèi)容推薦應用[M].北京:電子工業(yè)出版社,2016:8

        審稿人:魏朝輝 內(nèi)蒙古新聞出版廣電局監(jiān)管中心正高級工程師

        責任編輯:王學敏

        TP312

        B

        2096-0751(2017)02-0016-05

        盧建麗 內(nèi)蒙古新聞出版廣電局841臺 工程師

        楊 軒 內(nèi)蒙古新聞出版廣電局841臺 助理工程師

        猜你喜歡
        廣電數(shù)據(jù)挖掘物品
        稱物品
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        “雙十一”,你搶到了想要的物品嗎?
        探討大數(shù)據(jù)在廣電新媒體中的應用
        河北畫報(2020年10期)2020-11-26 07:21:34
        誰動了凡·高的物品
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        廣電新聞出版整合對廣電業(yè)發(fā)展影響的思考
        新聞傳播(2016年21期)2016-07-10 12:22:35
        EPON技術(shù)在廣電網(wǎng)絡的應用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        找物品
        免费一级欧美大片久久网| 国产福利视频在线观看| 久久久无码中文字幕久...| 久久天天躁狠狠躁夜夜2020!| 中文字幕人成乱码中文乱码| 给我看免费播放的视频在线观看 | 国产精品福利影院| 亚洲精品视频免费在线| 人妻制服丝袜中文字幕| s级爆乳玩具酱国产vip皮裤| 免费一区在线观看| 国模一区二区三区白浆| 在线观看视频日本一区二区| 97人人超碰国产精品最新| 另类亚洲欧美精品久久不卡| 国产乱老熟视频乱老熟女1| 开心五月天第四色婷婷| 蜜桃无码一区二区三区| 久久精品中文字幕极品| 日本高清无卡一区二区三区| 狠狠综合亚洲综合亚洲色| 中文字幕av无码一区二区三区| 亚洲午夜久久久久中文字幕| 亚洲韩日av中文字幕| 国产又大又硬又粗| 粗一硬一长一进一爽一a级| 中文字幕一二区中文字幕| 国产av综合网站不卡| 一性一交一口添一摸视频| 无码一区东京热| 日韩精品一区二区三区影音视频| 亚洲欧洲国产成人综合在线| 亚洲欧美国产日韩天堂在线视| 中国少妇和黑人做爰视频| 精品高朝久久久久9999| 激情 人妻 制服 丝袜| 国产亚洲高清在线精品不卡| 亚洲乱码av乱码国产精品| 国产av无码专区亚洲awww| 北岛玲中文字幕人妻系列| 久久伊人精品色婷婷国产|