亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的Web用戶識(shí)別與新聞智能推薦算法研究

        2016-05-14 15:48:59林中明李文敬
        軟件導(dǎo)刊 2016年5期

        林中明 李文敬

        摘要:為了解決大數(shù)據(jù)時(shí)代用戶閱讀時(shí)遇到的“信息過(guò)載”與“信息迷失”問(wèn)題,提出了基于Hadoop平臺(tái)的用戶準(zhǔn)確識(shí)別與新聞推薦算法。首先基于MAC地址識(shí)別用戶,通過(guò)對(duì)用戶瀏覽軌跡的離線和在線挖掘,建立用戶興趣模型。然后對(duì)新聞關(guān)鍵詞進(jìn)行聚類,結(jié)合協(xié)同過(guò)濾和啟發(fā)式方法,基于關(guān)鍵詞對(duì)用戶進(jìn)行新聞的智能推薦。實(shí)驗(yàn)結(jié)果表明,基于MAC地址的算法比基于IP地址的算法用戶識(shí)別率提高了30%。

        關(guān)鍵詞:云計(jì)算;新聞推薦;Web日志挖掘;Hadoop;MAC地址

        DOIDOI:10.11907/rjdk.161378

        中圖分類號(hào):TP312

        文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2016)005-0027-03

        0 引言

        根據(jù)ZDNET《數(shù)據(jù)中心2013:硬件重構(gòu)與軟件定義》[1]年度技術(shù)報(bào)告顯示,2013年中國(guó)產(chǎn)生的數(shù)據(jù)總量超過(guò)0.8ZB,預(yù)計(jì)到2020年,產(chǎn)生的數(shù)據(jù)總量將是2013年的10倍。海量的Web信息讓人們感覺到信息過(guò)載和信息迷失,如何快速精準(zhǔn)地識(shí)別用戶并為其推薦感興趣的內(nèi)容成為了當(dāng)今的研究熱點(diǎn)[2]。根據(jù)新聞閱讀與設(shè)備使用情況的調(diào)查問(wèn)卷[3]數(shù)據(jù)顯示,95%的人都是在電腦、手機(jī)、平板等電子設(shè)備上獲取新聞資訊,而且80%的人在閱讀新聞時(shí)并未處于登錄狀態(tài),即無(wú)法通過(guò)用戶的登錄信息給用戶推薦相應(yīng)內(nèi)容。面對(duì)海量的新聞資訊,文獻(xiàn)[4]針對(duì)用戶識(shí)別存在的問(wèn)題提出了IASR(IP,Agent,Session and Referrer)算法,通過(guò)引入會(huì)話(Session)來(lái)識(shí)別用戶;文獻(xiàn)[5]提出了基于用戶瀏覽行為的建模,提高了同一個(gè)IP下用戶的識(shí)別率;文獻(xiàn)[6-8]提出了基于URL相似度的會(huì)話識(shí)別方法。但這些方法并不能改變IP對(duì)于識(shí)別用戶的限制,所以不能從本質(zhì)上提高用戶識(shí)別率。因此,利用Hadoop大數(shù)據(jù)平臺(tái),對(duì)無(wú)登錄信息的用戶進(jìn)行快速身份識(shí)別和新聞信息的個(gè)性化推薦,相關(guān)研究具有重要的現(xiàn)實(shí)意義和潛在的經(jīng)濟(jì)價(jià)值。

        1 海量Web日志與用戶識(shí)別

        MAC地址是網(wǎng)卡物理地址,由網(wǎng)絡(luò)設(shè)備制造商生產(chǎn)時(shí)寫在硬件內(nèi)部,因此世界上任意一個(gè)擁有48位MAC地址的網(wǎng)卡都有唯一標(biāo)識(shí)[9],且MAC地址與網(wǎng)絡(luò)無(wú)關(guān)。通過(guò)在Web日志中加入MAC地址,可以實(shí)現(xiàn)用戶的唯一性識(shí)別,增加用戶識(shí)別的準(zhǔn)確性。

        用戶識(shí)別是個(gè)性化新聞推薦的基礎(chǔ)和關(guān)鍵,詳細(xì)有用的用戶數(shù)據(jù)將決定新聞推薦的效果。由于Web日志中包含了訪問(wèn)主機(jī)IP、訪問(wèn)時(shí)間、訪問(wèn)頁(yè)面、請(qǐng)求方式等信息,詳細(xì)記錄了用戶的訪問(wèn)軌跡,生成巨大的數(shù)據(jù)量及數(shù)據(jù)類型,因此將通過(guò)Web日志作為用戶識(shí)別的數(shù)據(jù)源。本文將記錄分為長(zhǎng)期記錄和短期記錄,一般將10天以前的訪問(wèn)日志作為長(zhǎng)期記錄,最近10天的訪問(wèn)日志作為短期記錄。針對(duì)長(zhǎng)期記錄,通過(guò)Hadoop平臺(tái)進(jìn)行離線處理。短期記錄則在用戶使用過(guò)程當(dāng)中,以信息增量的形式補(bǔ)充到推薦算法中來(lái)。

        2 基于MAC地址的用戶識(shí)別算法

        2.1 算法基本思想

        Hadoop的核心是Map/Reduce。Map/Reduce是一個(gè)可用于大數(shù)據(jù)處理的離線計(jì)算模型,它將一個(gè)任務(wù)分成多個(gè)細(xì)粒度的子任務(wù),并將這些子任務(wù)分配到計(jì)算節(jié)點(diǎn)上進(jìn)行并行處理,以縮短任務(wù)完成時(shí)間。將Web日志等份劃分后,利用Map/Reduce對(duì)Web日志作長(zhǎng)期記錄處理。

        利用Hadoop平臺(tái)得到用戶長(zhǎng)期記錄下的每個(gè)MAC地址對(duì)應(yīng)用戶的集合文件,這是一個(gè)龐雜的文件,將通過(guò)基于URL相似性的用戶識(shí)別算法對(duì)集合文件進(jìn)行處理,得到此MAC對(duì)應(yīng)用戶的100條最感興趣頁(yè)面的排序文件。

        定義長(zhǎng)期記錄的日志文件為集合L={l1,l2,……,lm},通過(guò)map過(guò)程得到每個(gè)MAC對(duì)應(yīng)的集合文件K={k1,k2,……,kn},再通過(guò)reduce過(guò)程,得到對(duì)應(yīng)生成的用戶長(zhǎng)期訪問(wèn)文件為MAC={MAC1,MAC2,……,MACr},每個(gè)文件里包含了此MAC地址對(duì)應(yīng)用戶的所有長(zhǎng)期訪問(wèn)記錄。在K的每個(gè)文件中包含有訪問(wèn)時(shí)間、IP、URL、訪問(wèn)時(shí)長(zhǎng)、訪問(wèn)次數(shù)字段。針對(duì)短期日志文件,根據(jù)最近10天該MAC地址用戶的所有訪問(wèn)記錄,同樣生成一個(gè)短期的訪問(wèn)記錄文件。在用戶進(jìn)入站點(diǎn)后,根據(jù)用戶的長(zhǎng)期和短期記錄生成一個(gè)綜合的用戶訪問(wèn)記錄文件,與用戶未讀新聞對(duì)比后進(jìn)行推薦。

        2.2 特征標(biāo)簽選擇

        由于一篇文章中經(jīng)常存在多個(gè)分頁(yè)形式,且每個(gè)分頁(yè)的訪問(wèn)次數(shù)和瀏覽時(shí)間基本相同,所以要將同屬一篇文章多個(gè)分頁(yè)的URL記錄合并。對(duì)ki中URL具有相似性的記錄進(jìn)行合并,cos(URLi,URLj)為兩條URL的余弦相似性,Smaxi為合并的記錄中訪問(wèn)次數(shù)最多的,i為合并的記錄中訪問(wèn)時(shí)間的平均值,numi為合并的記錄條數(shù)。

        3 基于關(guān)鍵詞的協(xié)同過(guò)濾智能推薦算法

        當(dāng)前有很多種智能推薦算法,主要有基于內(nèi)容的推薦、協(xié)同過(guò)濾推薦和基于知識(shí)的推薦。基于內(nèi)容的推薦是提取對(duì)象中的特征屬性,通過(guò)用戶信息與待推薦對(duì)象的匹配程度進(jìn)行推薦,但這種算法對(duì)特征提取方法的依賴程度很高,無(wú)法準(zhǔn)確地描述用戶特征;協(xié)同過(guò)濾推薦是通過(guò)聚合待推薦用戶的相似用戶評(píng)價(jià)的所有對(duì)象,計(jì)算對(duì)象與用戶之間的效用值進(jìn)行推薦,對(duì)于新對(duì)象和新用戶都存在冷啟動(dòng)和稀疏性問(wèn)題;基于知識(shí)的推薦是在特定領(lǐng)域構(gòu)建規(guī)則來(lái)進(jìn)行基于規(guī)則和實(shí)例的推理,不存在冷啟動(dòng)和稀疏問(wèn)題,但知識(shí)很難建模。

        本文結(jié)合各推薦算法的優(yōu)缺點(diǎn),提出一種基于關(guān)鍵詞的協(xié)同過(guò)濾智能推薦算法。一般地,在系統(tǒng)中的每一篇文章都包含有最能體現(xiàn)這篇文章主題的關(guān)鍵詞。通過(guò)對(duì)關(guān)鍵詞的聚類,避免了項(xiàng)目的冷啟動(dòng)問(wèn)題,并去掉了項(xiàng)目特征提取的步驟。對(duì)從用戶模型中得到的此MAC用戶的100條最感興趣的記錄文件,對(duì)關(guān)鍵詞進(jìn)行聚類。得到關(guān)鍵詞聚合文件W={(w1,q1),(w2,q2),……,(wn,qn)},其中q為w的出現(xiàn)次數(shù)。利用啟發(fā)式方法,先計(jì)算文章關(guān)鍵詞之間的相似度,再對(duì)所有待推薦文章對(duì)此MAC用戶的效用值進(jìn)行計(jì)算,得到推薦子集。同時(shí)假設(shè)待推薦文章的關(guān)鍵詞為W'={w1',w2',……,wm'}。

        4 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)在由5臺(tái)HP DL380G5服務(wù)器組成的集群上進(jìn)行,其中,一臺(tái)是主節(jié)點(diǎn),一臺(tái)是任務(wù)調(diào)度節(jié)點(diǎn),5臺(tái)都可以作為計(jì)算節(jié)點(diǎn)及數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)。同時(shí),采取Xen的虛擬化技術(shù),使同一節(jié)點(diǎn)上同時(shí)并發(fā)執(zhí)行多個(gè)MapReduce操作。5臺(tái)服務(wù)器均安裝hadoop-0.20.0和JDK。實(shí)驗(yàn)程序是在PHP集成開發(fā)環(huán)境中開發(fā)的。測(cè)試數(shù)據(jù)集來(lái)自某地方綜合新聞資訊網(wǎng)站的Web服務(wù)器日志。為了驗(yàn)證該Web日志分析平臺(tái)的有效性及高效性,做了以下2個(gè)實(shí)驗(yàn)。

        實(shí)驗(yàn)1:在Hadoop平臺(tái)上對(duì)Web日志中的MAC和IP地址數(shù)量分別進(jìn)行統(tǒng)計(jì)。通過(guò)比較發(fā)現(xiàn),基于MAC地址比基于IP地址辨別用戶的算法識(shí)別率高出了30%以上,且隨著記錄時(shí)間的變長(zhǎng),用戶的識(shí)別率還會(huì)繼續(xù)擴(kuò)大。這表明基于Web日志分析的新聞推薦使用基于MAC地址的用戶識(shí)別算法能夠準(zhǔn)確地識(shí)別用戶,且不依靠用戶前臺(tái)的數(shù)據(jù),減輕了前臺(tái)數(shù)據(jù)的處理壓力。

        從以上結(jié)果可以看出,利用MAC地址的唯一性來(lái)識(shí)別用戶是一個(gè)切實(shí)可行的方法。當(dāng)處理的數(shù)據(jù)量較小時(shí),基于Hadoop的Web日志分析平臺(tái)由于需要生成及傳輸中間文件和最終文件,開啟Hadoop也需要一定時(shí)間,因此并行運(yùn)算的總時(shí)間反而大于單機(jī)執(zhí)行時(shí)間。但隨著數(shù)據(jù)量增大,基于Hadoop的并行處理平臺(tái)將數(shù)據(jù)分割后分派給多個(gè)節(jié)點(diǎn)并行處理,使并行運(yùn)算的總時(shí)間小于單機(jī)執(zhí)行時(shí)間,且隨著輸入數(shù)據(jù)的增加,兩者執(zhí)行效率的差距也越來(lái)越大。從圖3可以看出,集群中擁有的節(jié)點(diǎn)數(shù)目越多,基于Hadoop的并行處理平臺(tái)效率越高。

        5 結(jié)語(yǔ)

        針對(duì)目前用戶閱讀新聞普遍遇到的信息過(guò)載問(wèn)題及用戶不登陸瀏覽的閱讀習(xí)慣,基于MAC的用戶識(shí)別算法提高了新聞推薦中的用戶識(shí)別率。同時(shí)針對(duì)運(yùn)行于單機(jī)集中平臺(tái)上的Web日志分析系統(tǒng)不能滿足海量數(shù)據(jù)處理的問(wèn)題,本文在對(duì)云計(jì)算的Hadoop集群框架研究的基礎(chǔ)上,給出了一種基于Hadoop集群框架的Web日志分析方法。實(shí)驗(yàn)結(jié)果表明,該平臺(tái)能夠獲取隱含的、有實(shí)用價(jià)值的信息,執(zhí)行效率高。

        參考文獻(xiàn):

        [1]張廣彬,盤駿,曾智強(qiáng).數(shù)據(jù)中心2013:硬件重構(gòu)與軟件定義[R].ZDNet企業(yè)解決方案中心,2013.

        [2]張誠(chéng),郭毅.數(shù)據(jù)挖掘與云計(jì)算——專訪中國(guó)科學(xué)院計(jì)算技術(shù)研究所何清博士[J].數(shù)字通信,2011(3):5-7.

        [3]新聞閱讀與設(shè)備使用情況的調(diào)查問(wèn)卷[EB/OL].http://www.lzm07.com/index.php?file=v.html.

        [4]吳永輝,王曉龍,丁宇新,等.基于主題的自適應(yīng)、在線網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)方法及新聞推薦系統(tǒng)[J].電子學(xué)報(bào),2010(11):2620-2624.

        [5]何希真.基于用戶反饋信息的新聞推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].濟(jì)南:山東師范大學(xué),2015.

        [6]謝潤(rùn)泉.基于隱式專家的個(gè)性化新聞推薦[D].廈門:廈門大學(xué),2014.

        [7]宋科. Hadoop平臺(tái)下基于LDA的新聞推薦算法研究[D].成都:西南石油大學(xué),2015.

        [8]周松松,馬建紅.基于URL相似度的會(huì)話識(shí)別方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2014(12):191-196.

        [9]謝俐,何勇,楊樂.網(wǎng)卡MAC地址探究[J].今日科苑,2008(4):190.

        (責(zé)任編輯:黃 健)

        久热爱精品视频在线观看久爱 | 在线观看国产成人自拍视频| 亚洲日韩国产av无码无码精品| 精品久久人人妻人人做精品| 中文字幕乱码亚洲无线精品一区| 国产最新一区二区三区天堂| 亚洲国产一区二区精品| 久久精品国产av一级二级三级| 国产精品伦一区二区三级视频| 人成午夜免费大片| 97精品国产高清自在线看超| 亚洲中文字幕精品久久久| 国产亚州精品女人久久久久久| 风间由美性色一区二区三区 | 特级做a爰片毛片免费看108| 午夜无码一区二区三区在线| 色偷偷亚洲第一综合网| av网站在线观看二区| 蜜桃传媒免费在线播放| 无码不卡av东京热毛片| 欧美性猛交xxxx黑人| 日韩少妇无码一区二区免费视频| 一本色道久久88综合日韩精品| 亚洲欧美色一区二区三区| 亚洲av无码成人精品区在线观看 | 国产成人麻豆精品午夜福利在线 | 亚洲大胆视频在线观看| 亚洲av无码国产精品色午夜软件| 搡老熟女中国老太| 亚洲av在线播放观看| 久久国产亚洲av高清色| 日本道免费一区二区三区日韩精品| 男人激烈吮乳吃奶视频免费| AV成人午夜无码一区二区| 亚洲精品中文字幕熟女| 国产精品无码无卡无需播放器| 亚洲av无码精品色午夜在线观看| 偷亚洲偷国产欧美高清| 亚洲不卡av二区三区四区| 狠狠噜狠狠狠狠丁香五月| 欧美成人三级一区二区在线观看 |