亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        分布式混合推薦算法在新聞傳播中的應(yīng)用體現(xiàn)

        2020-04-14 08:43:36
        電子元器件與信息技術(shù) 2020年11期
        關(guān)鍵詞:分布式聚類個性化

        (倫敦大學(xué)國王學(xué)院人文藝術(shù)學(xué)院,倫敦 SE18WA)

        0 引言

        在網(wǎng)絡(luò)科技技術(shù)飛速發(fā)展中,以互聯(lián)網(wǎng)平臺為依據(jù)的信息傳遞方式越發(fā)完善,尤其是在經(jīng)濟全球化發(fā)展背景下,既豐富了網(wǎng)絡(luò)信息儲備數(shù)量又增加了技術(shù)創(chuàng)新難度,尤其是對不同類型的用戶群體而言,無法更為準(zhǔn)確和快速地獲取所需信息。而引用推薦系統(tǒng)不僅能向用戶群提供更多新聞訊息,而且可以解決信息過載的發(fā)展難題。簡單來講,推薦系統(tǒng)是指從用戶的喜好、閱覽行為及所在地區(qū)等信息為依據(jù)構(gòu)建對應(yīng)模型,而后為用戶提供具有個性化特征的推薦工作。了解當(dāng)前我國新聞傳播發(fā)展情況可知,數(shù)字化發(fā)展對全世界文化產(chǎn)生了巨大影響,不管是當(dāng)前發(fā)展還是未來方向都面臨著極大挑戰(zhàn),此時只有更好掌握新聞傳播的有效途徑,提高新聞傳播的效率和質(zhì)量,才是確保新聞行業(yè)有序發(fā)展的重要舉措。由于我國正處于創(chuàng)新發(fā)展的初級階段,不管是城市改革還是與國際交流都在結(jié)合實踐經(jīng)驗進(jìn)行不斷優(yōu)化,因此正確認(rèn)識新聞傳播工作,為實踐發(fā)展構(gòu)建優(yōu)質(zhì)環(huán)境至關(guān)重要。這一環(huán)境既是我國對外交流和發(fā)展的基本“形象”,又是國內(nèi)企業(yè)走向世界的影響因素[1]。美國作為全球新聞媒體傳播發(fā)展較快的國家之一,不管是新聞產(chǎn)品還是輿論信息都在影響全世界其他國家,尤其是在新媒體時代下,美國媒體在快速整合數(shù)字化、互聯(lián)網(wǎng)等內(nèi)容的基礎(chǔ)上,全面優(yōu)化了新聞傳播的速度和質(zhì)量。這是我國在發(fā)展中需要借鑒和學(xué)習(xí)的地方,既能幫助我們更快認(rèn)識現(xiàn)代先進(jìn)技術(shù)理念和應(yīng)用方向,又能根據(jù)我國基本國情對新聞傳播工作進(jìn)行革新。通過在國內(nèi)外環(huán)境中尋找發(fā)展機遇,正確應(yīng)對不斷創(chuàng)新帶來的挑戰(zhàn),有助于我國新聞傳播工作逐漸突破傳統(tǒng)模式的限制,充分利用現(xiàn)代化技術(shù)理念進(jìn)行優(yōu)化發(fā)展,這樣不僅能傳播弘揚我國優(yōu)秀的民族文化,而且可以吸引更多世界先進(jìn)文化成果,促使傳媒市場在打破國家“圍墻”的同時,逐步提高新聞傳播的質(zhì)量和效率,并提出與時代發(fā)展相符的傳播途徑。

        1 基于新聞傳播的準(zhǔn)備工作

        1.1 明確Spark的分布式計算平臺

        Spark作為現(xiàn)如今較為常見的并行計算框架,相比Hadoop MapReduce不管是迭代計算速度還是實際應(yīng)用范圍都有了明顯提升,因此大部分?jǐn)?shù)據(jù)公司都開始由此入手進(jìn)行技術(shù)革新,見圖1。由于Spark是取代MapReduce的有效方案,其中包含了Hive、HDFS等多個分布式儲存層,不僅能與Hadoop生態(tài)系統(tǒng)融合運行,而且全面處理了以往應(yīng)用系統(tǒng)存在的缺陷,因此在新時代新聞業(yè)技術(shù)創(chuàng)新發(fā)展中得到了重點關(guān)注。通過運用彈性分布式數(shù)據(jù)集RDD儲備所需信息,既能準(zhǔn)確記錄每項數(shù)據(jù)又能作為分布式索引,同時結(jié)合事件驅(qū)動中的類庫來進(jìn)行具體任務(wù),并依據(jù)線程池復(fù)用來降低實際開銷[2]。

        1.2 了解個性化推薦研究內(nèi)容

        在網(wǎng)絡(luò)技術(shù)全方位推廣的背景下,隨著線上閱讀人數(shù)和數(shù)量的增加,針對信息搜索和傳播的推薦系統(tǒng)和輿情分析系統(tǒng)得到了“涌現(xiàn)”。對比兩者分析,前者在市場中并不常見,尤其是現(xiàn)如今的網(wǎng)絡(luò)市場環(huán)境不穩(wěn)定,所以不管是發(fā)現(xiàn)新聞事件還是個性化推薦等相關(guān)系統(tǒng)設(shè)計依舊處于發(fā)展的初級階段。以中文事件為例,Liu Shuwei等人在實踐探究中研制出以TF密度為依據(jù)的話題識別和跟蹤調(diào)查系統(tǒng),而孫玲芳等人也在優(yōu)化K-means聚類算法的過程中,控制了算法對孤立點的影響,有效提高了工作狀態(tài)下的系統(tǒng)效率。

        現(xiàn)階段,最有應(yīng)用價值的個性化推薦算法主要分為三種:第一,以內(nèi)容為依據(jù)進(jìn)行推薦。通過先對新聞實施建模,而后依據(jù)用戶瀏覽新聞信息形成興趣模型,最終將與用戶感興趣的相關(guān)內(nèi)容推薦給該用戶。在這一過程中,構(gòu)建模型和計算相似度是做好內(nèi)容推薦的重難點,也是當(dāng)前科研人員關(guān)注的焦點。第二,協(xié)同過濾推薦。其是指結(jié)合用戶之前提供的瀏覽記錄實施推薦,通常來講和內(nèi)容沒有關(guān)聯(lián)。Badrul Sarwar等人以項目為依據(jù)設(shè)計了明確的協(xié)同過濾算法,有效解決了以往計算效率過低的難題,且保障了實際應(yīng)用結(jié)構(gòu)的準(zhǔn)確率[3]。第三,混合推薦。由于兩種算法都存在優(yōu)缺點,因此有人結(jié)合實踐應(yīng)用情況提出了有效整合兩種算法的推薦算法,不僅能降低訓(xùn)練集的數(shù)量,而且可以加快程序工作效率。

        2 分析分布式混合推薦算法

        了解當(dāng)前基于新聞傳播進(jìn)行的推薦算法可知,其并沒有整合研究事件相關(guān)性和用戶興趣等問題,所以本文主要從這一角度入手研究具有高效性和個性化的推薦算法。

        2.1 發(fā)現(xiàn)新聞事件

        通過運用整改后的層次聚類發(fā)現(xiàn)新聞事件,再計算每個事件的熱度、簇內(nèi)方差等信息,可以為后續(xù)建模提供有效依據(jù)。以往層次聚類算法一般都會存在較大的簇,其中包含非常多的數(shù)據(jù)信息,且隨著計算速度的加快會持續(xù)合并周邊的小簇,這種現(xiàn)象就是“大簇現(xiàn)象”。整合實踐案例分析,出現(xiàn)這一現(xiàn)象的原因在于合并過程中出現(xiàn)重疊模糊問題,這是由于算法執(zhí)行后期,簇與簇之間的距離越來越小,且大簇的權(quán)重分布非常均衡,所以大簇在“合并”時就會隨著熵的增加而擴大范圍,最終形成惡性循環(huán)。

        為了有效處理這一問題,工作人員可以科學(xué)調(diào)節(jié)簇與簇之間的距離計算公式,具體公式如下所示:

        公式當(dāng)中的newsk和newsi分別代表不同簇中相對距離最遠(yuǎn)的新聞事件,而title和content分別表示新聞的標(biāo)題與內(nèi)容的特征向量,cluster代表其中某個新聞事件[4]。

        在調(diào)整好公式之后,為其引入簇與簇之間最遠(yuǎn)的距離,在這個距離達(dá)到最大的情況下,不同簇間的新聞相同程度會降低,此時極容易受大簇所影響降低簇的中心距離,因此整合以往工作經(jīng)驗分析需要從中心距離和最遠(yuǎn)間距入手,加權(quán)求和就能有效控制上述現(xiàn)象的發(fā)生。本文設(shè)定權(quán)重α為3/7,在驗證實驗當(dāng)中,選用人工標(biāo)注的2000篇新聞對簇與簇之間的距離和緊密情況實施判斷,其中有三種聚類算法效果如下表所示。

        表1 三種聚類算法的結(jié)果對比

        通過觀察表格可以發(fā)現(xiàn),改進(jìn)之后的算法更加有效,不僅能提高實際工作的準(zhǔn)確率,而且可以提升整體工作效率和質(zhì)量。

        2.2 個性化推薦算法

        要想快速處理以往個性化推薦算法在工作中涌現(xiàn)出的問題,如冷啟動、矩陣稀疏等,可以通過有效結(jié)合兩種算法實施個性化推薦:第一,先做好數(shù)據(jù)集的預(yù)處理工作,根據(jù)收集與用戶和事件相關(guān)信息實施建模;第二,每位用戶尋找與模型相近的鄰居集;第三,運用這一內(nèi)容記錄最近的新聞事件閱覽情況,而后計算用戶鄰居同樣喜歡但沒有被用戶閱覽的內(nèi)容,記錄成推薦列表;第四,依據(jù)數(shù)量、闕值等對事件的推薦列表進(jìn)行正確篩選[5]。

        一方面,事件模型。通過運用向量空間模型實施建模工作,認(rèn)真計算每個事件當(dāng)中不同單詞的權(quán)重,而后按照大小順序來排列,并優(yōu)選出權(quán)重超過闕值的單詞,將其看作事件模型的空間向量模型vsm[6]。由于上述公式計算中的新聞數(shù)量比較大,所以每個單詞都會在每個事件或只在某個事件中出現(xiàn)過,所以運用總數(shù)除以包含某詞的事件數(shù)時,會降低IDF的數(shù)值,而運用總數(shù)除以包含單詞t的新聞數(shù)時可以有效解決這一問題[7]。

        另一方面,構(gòu)建用戶興趣的模型。通過從時間衰減函數(shù)、事件的熱度和關(guān)鍵詞入手,這種算法是以用戶興趣及其閱覽事件的行為為依據(jù),為不同類型的用戶構(gòu)建相應(yīng)的興趣模型,整合實踐應(yīng)用情況分析,新算法的提出有效解決了以往用戶和項目在描述文件中出現(xiàn)的數(shù)據(jù)過少等問題,不僅能全面掌握用戶興趣愛好,而且可以幫助某個用戶對其所在群體的共同愛好進(jìn)行判斷。

        3 如何實現(xiàn)Spark的推薦算法

        基于Spark的推薦算法的整體生態(tài)系統(tǒng)都是以RDD為基礎(chǔ)進(jìn)行具體操作的,這一內(nèi)容只用來讀取數(shù)據(jù)塊。RDD也叫做彈性分布式數(shù)據(jù)集,在計算時若是內(nèi)部儲存出現(xiàn)不夠的問題,能和磁盤實現(xiàn)數(shù)據(jù)交換。一般來講,Spark推薦算法中的RDD可以選擇兩種方式進(jìn)行構(gòu)建:一種從Hadoop入手,另一種依據(jù)Spark Context中的parallelize方法,并化處理Driver的數(shù)據(jù)集,最終得到分布式的RDD[8]。

        本文所選方法為前者,具體步驟如下所示:第一,在HDFS中得到最初的數(shù)據(jù)集,并掌握初期的新聞RDD;第二,通過新聞聚類獲取Cluster RDD;第三,根據(jù)Cluster RDD計算事件模型,并得到相應(yīng)的RDD;第四,在HDFS中收集與用戶閱覽事件有關(guān)的數(shù)據(jù)信息,并找到用戶——新聞RDD;第五,將Cluster RDD與用戶——新聞RDD兩者融合到一起,獲取用戶——事件RDD;第六,從事件模型和用戶事件RDD入手研究用戶興趣的相關(guān)模型,并獲取用戶——興趣RDD;第七,認(rèn)真計算用戶之間的距離,并由此獲取用戶——鄰居RDD;第八,尋找用戶和鄰居之間的共同興趣,并在有序過濾后將其排列成正規(guī)的推薦表格[9]。

        4 結(jié)論

        綜上所述,從分布式混合推薦算法入手全面研究當(dāng)前新聞事件傳播的技術(shù)內(nèi)容,向不同類型的用戶提供有價值和所喜愛的新聞訊息,不僅能滿足他們提出的個性需求,而且可以有助于他們更為便捷和快速的掌握新聞事件變化。與此同時,本文研究所實現(xiàn)的分布式算法能突破傳統(tǒng)網(wǎng)絡(luò)平臺傳播新聞受到的限制,既符合大數(shù)據(jù)時代發(fā)展特點,又能快速處理新聞數(shù)據(jù)集,促使未來新聞傳播工作得到全方位發(fā)展。

        猜你喜歡
        分布式聚類個性化
        堅持個性化的寫作
        文苑(2020年4期)2020-05-30 12:35:12
        新聞的個性化寫作
        新聞傳播(2018年12期)2018-09-19 06:27:10
        分布式光伏熱錢洶涌
        能源(2017年10期)2017-12-20 05:54:07
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        分布式光伏:爆發(fā)還是徘徊
        能源(2017年5期)2017-07-06 09:25:54
        上汽大通:C2B個性化定制未來
        基于改進(jìn)的遺傳算法的模糊聚類算法
        基于DDS的分布式三維協(xié)同仿真研究
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        滿足群眾的個性化需求
        国产一区二区三区4区| 又爽又黄又无遮挡网站| 99精品国产一区二区三区a片| 精品欧美乱子伦一区二区三区| 久久精品国产亚洲av麻豆四虎| 最新国产激情视频在线观看| 国产精品极品美女自在线观看免费| 影视先锋av资源噜噜| 国产午夜精品久久久久99| 日本一区二区啪啪视频| 日本av一区二区三区视频| 任你躁国产自任一区二区三区| 澳门精品无码一区二区三区| 日韩人妻av不卡一区二区三区| 色熟妇人妻久久中文字幕 | 懂色av一区二区三区网久久| 久久久久久久亚洲av无码| 欧美人与动牲交a欧美精品| 亚洲av乱码专区国产乱码| 丝袜美腿亚洲综合在线播放| 免费无码不卡视频在线观看| 日本亚洲国产一区二区三区| 无码精品国产午夜| 日韩麻豆视频在线观看| 免费人成激情视频在线观看冫| 伊伊人成亚洲综合人网7777 | 成人日韩熟女高清视频一区| 性生交大全免费看| 亚洲国产精品中文字幕日韩| 日韩一级137片内射视频播放 | 婷婷九月丁香| 97久久天天综合色天天综合色hd | 能看的网站中文字幕不卡av| 精品亚洲一区二区三区四区五 | 欧美最猛黑人xxxx| 美女高潮无遮挡免费视频 | 蜜臀av在线观看| 播放灌醉水嫩大学生国内精品 | 亚洲精品无码av人在线观看国产| av香港经典三级级 在线| 亚洲高清中文字幕精品不卡|