亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶興趣與博主影響力的微博流行度預(yù)測模型研究

        2020-11-28 07:51:53張睿張喻曦
        商情 2020年8期
        關(guān)鍵詞:興趣模型

        張睿 張喻曦

        【摘要】對于網(wǎng)絡(luò)輿情研究中的微博預(yù)測問題,目前的主要方法是根據(jù)微博文本特征以及早期傳播特征來進(jìn)行預(yù)測,這種預(yù)測忽略了用戶之間的相互關(guān)系以及用戶喜好,因此導(dǎo)致預(yù)測微博熱度時(shí)準(zhǔn)確性不高。本文提出了一種基于用戶關(guān)系、用戶興趣和早期傳播數(shù)據(jù)的轉(zhuǎn)發(fā)預(yù)測模型,首先利用TF-IDF與LDA主題模型計(jì)算參與互動(dòng)用戶興趣與微博文本的相似度,再利用PageRank算法衡量博主影響力,將模型分別應(yīng)用于邏輯回歸、支持向量機(jī)和隨機(jī)森林來預(yù)測微博的流行度。結(jié)果表明,該方法能有效提高微博預(yù)測的準(zhǔn)確率。

        【關(guān)鍵詞】新浪微博 LDA 模型 興趣 影響力

        1.引言

        新浪微博2019年第三季度財(cái)報(bào)顯示,截至2019年第三季度,新浪微博月活動(dòng)活躍用戶達(dá)4.97億,比去年同期增長了5100萬,其中約94%為移動(dòng)端用戶。相較傳統(tǒng)媒體,微博是以發(fā)布、閱讀、轉(zhuǎn)發(fā)、再閱讀這種不斷迭代的方式進(jìn)行傳播的,傳播速度更快。相對普通微博,熱門微博傳播更為迅速,影響力更大,因此微博預(yù)測研究對于網(wǎng)絡(luò)輿情監(jiān)測、企業(yè)營銷等方面具有重大意義。

        目前,對于微博流行度預(yù)測共分為兩個(gè)方向:一類是基于微博文本進(jìn)行研究,另一類是針對微博傳播過程進(jìn)行研究。文本分析通過對于微博文本提取特征進(jìn)行預(yù)測,主要分為基于微博文本內(nèi)容和基于微博情感兩種。鄭斐然等人通過檢索微博中出現(xiàn)的關(guān)鍵字,并考慮詞頻和增長速度等相關(guān)因素,進(jìn)行聚類從而找到新聞話題。鄧丹君等人利用微博中的話題標(biāo)簽建立一種微博標(biāo)簽的LDA模型,提高了微博主題提取的準(zhǔn)確度。Phuvipadawat等人通過對于微博文本特征進(jìn)行分析,提出一種應(yīng)用于Twitter的突發(fā)新聞檢測、排列及跟蹤算法。Wu等人分析了Twitter上面消息的感情傾向與流行度的關(guān)系,發(fā)現(xiàn)轉(zhuǎn)發(fā)率與負(fù)面情緒呈正相關(guān),與正面情緒關(guān)系較小。但以上方法只能對于已有的熱門微博進(jìn)行分析,對于未出現(xiàn)過的詞語、情感傾向等預(yù)測準(zhǔn)確率較低。

        對于微博傳播過程的研究包括微博傳播路徑、博主影響力、粉絲活躍度等因素的研究。Unankard等人提出了一種基于地理空間信息的熱點(diǎn)事件檢測方法,但該方法基于用戶的位置信息,在用戶不允許分享位置時(shí)容易失去效用。Liu Gongshen等人提出一種用戶對微博轉(zhuǎn)發(fā)的影響力的量化算法,根據(jù)微博博主的特征來預(yù)測一條微博是否會引起大轉(zhuǎn)發(fā)量,從而進(jìn)行提前預(yù)警。朱海龍等人基于微博早起傳播數(shù)據(jù),提出了傳播加速度的概念并建立微博預(yù)測算法,并根據(jù)微博用戶活動(dòng)周期性來優(yōu)化模型。陳鵬飛提出了基于內(nèi)容興趣特征和用戶影響力的轉(zhuǎn)發(fā)預(yù)測模型,利用LDA模型提取微博內(nèi)容興趣特征,利用PageRank算法衡量用戶影響力,準(zhǔn)確率可達(dá)85%。但是同一博主發(fā)表的不同微博流行度有較大差異,且博主的影響力隨時(shí)間變化幅度較大,因此根據(jù)博主影響力預(yù)測微博流行度有一定的局限性。

        本文針對以上不足,提出一種基于用戶之間相互關(guān)系以及用戶喜好特征的微博流行度預(yù)測算法,從博主與轉(zhuǎn)發(fā)者的用戶關(guān)系以及微博內(nèi)容與用戶喜好匹配程度這兩個(gè)方面對微博流行度影響因素進(jìn)行研究,并利用邏輯回歸、支持向量機(jī)、隨機(jī)森林算法建立模型,從而實(shí)現(xiàn)對于微博流行度的預(yù)測。

        2.主要結(jié)果

        TD-IDF算法

        TF-IDF是信息檢索領(lǐng)域的加權(quán)技術(shù),通常用來評估一個(gè)詞語對于一個(gè)文本集的重要性。若某個(gè)詞語在一篇文本中出現(xiàn)的頻率(TF)高,而在其他文本中很少出現(xiàn)(IDF高),則認(rèn)為這個(gè)詞語對于文章具有代表性,可以用來分類。TF-IDF是詞頻(TF)與逆文檔頻率(IDF)的乘積,其公式表示為:

        N為文本總數(shù),n(w)為包含特征詞w的文本數(shù)。

        本文中,N為用戶總數(shù),n(w)為參與話題w的用戶數(shù),TF(w)為話題w在某一用戶發(fā)表微博的所有話題中的出現(xiàn)頻率,并以此來建立單個(gè)用戶的興趣特征向量。

        2.2 LDA模型

        2.2.ILDA模型的主要思想

        LDA是由文檔一主題一詞語構(gòu)成的概率模型,是一種對文本主題建模的方法。LDA主題模型假設(shè)文檔中存在多個(gè)可能的主題,這些主題中又存在著若干個(gè)特征詞,文檔以一定概率選擇某個(gè)隱含主題,隱含主題以一定概率選擇特征詞。

        當(dāng)M有篇文檔,K個(gè)主題,N個(gè)特征詞,在一篇文檔i中的第wi個(gè)特征詞的概率表示為

        2.2.2微博文本話題特征

        由于單條微博字?jǐn)?shù)較少利用傳統(tǒng)的LDA主題模型會出現(xiàn)高維稀疏,因此我們結(jié)合微博特殊符號“//”和“#”,來改進(jìn)傳統(tǒng)的LDA模型。

        “//”符號表示轉(zhuǎn)發(fā)并同時(shí)評論,具體格式為:轉(zhuǎn)發(fā)評論內(nèi)容//@源微博博主:源微博。此時(shí)源微博更大程度上反映了其主題,因此源微博內(nèi)容進(jìn)行主題提取。

        “#”符號表示微博話題,“#”與“#”之間是所發(fā)布的微博所屬話題。此時(shí)以微博所屬話題代表微博主題

        此外,微博評論內(nèi)容與微博主題密切相關(guān)。因此將評論內(nèi)容與微博原文共同分析,設(shè)置影響系數(shù)衡量評論對于主題的影響程度。

        2.2.3微博標(biāo)簽LDA主題模型的構(gòu)建

        微博在互動(dòng)時(shí)會產(chǎn)生專屬符號:“@”、“//”和“#”以及微博可回復(fù)他人評論,可以借此分析微博主題。可設(shè)置參數(shù)λd其對應(yīng)取值代表微博文本d中是否含有“@”、“//”或“#”符號。若微博文本d中出現(xiàn)“#”符號,則θd=0,由“#”符號確定的微博話題θs。為微博主題;若微博文本d中出現(xiàn)“//”符號,則θd=1,源微博主題θr是該微博的主題θd;如果微博文本d中未出現(xiàn)上述符號,則θd=2,該條微博Od的主題由該微博文本內(nèi)容決定:若微博文本d為回復(fù)他人評論的微博,則θd=3,該微博的主題θd由該微博內(nèi)容和被回復(fù)的微博的主題共同決定。主題分布公式如下:

        2.3 余弦相似度

        余弦相似性通過計(jì)算兩個(gè)向量夾角的余弦值來其相似程度,其夾角的余弦值一般被稱作為余弦相似度。向量的長度不會影響余弦相似度數(shù)值的大小,余弦相似度僅取決于向量的方向,因此可以度量兩個(gè)不同長度的向量的相似性,常用于文本信息的比較。余弦相似度具體公式如下:

        猜你喜歡
        興趣模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        新課改下構(gòu)建高效課堂的研究
        成才之路(2016年26期)2016-10-08 11:52:46
        巧用游戲構(gòu)建快樂體育課堂研究
        成才之路(2016年26期)2016-10-08 11:43:09
        智力因素在語文教學(xué)中的作用研究
        成才之路(2016年26期)2016-10-08 11:35:21
        試論培養(yǎng)學(xué)生的問題意識
        成才之路(2016年25期)2016-10-08 10:48:04
        低年級識字教學(xué)中游戲的設(shè)計(jì)與研究
        巧用多媒體技術(shù), 讓語文課堂更精彩
        好看的中文字幕中文在线| 亚洲一区二区三区中文字幂| 漂亮人妻被中出中文字幕久久| 国产免费丝袜调教视频| 中文字幕无码精品亚洲资源网久久| 国产特级全黄一级毛片不卡| 亚洲视频高清| 亚洲最大视频一区二区三区| 亚洲三级中文字幕乱码| 日本一区二区三区免费精品| 蜜臀av在线播放一区二区三区| 东京热人妻无码一区二区av| 亚洲日本va午夜在线电影| 亚洲免费观看网站| 日本高清中文字幕二区在线| 日本精品人妻一区二区| 综合色免费在线精品视频| 午夜时刻免费入口| 亚洲依依成人亚洲社区| 99久久综合精品五月天| 国产午夜亚洲精品理论片不卡 | 岛国av无码免费无禁网站下载| 日韩精品网| 国产精品国产三级农村妇女| 亚洲视频专区一区二区三区| 国产精品理论片在线观看| 国产女人高潮叫床视频| 毛片免费全部无码播放| 亚洲一区区| 日韩av在线亚洲女同| 亚洲国产精品成人久久久| 久激情内射婷内射蜜桃| 国产成人无码区免费网站| 欧美三级超在线视频| av网站在线观看二区| 国产乱人精品视频av麻豆网站| 美女不带套日出白浆免费视频| 狠狠色噜噜狠狠狠狠色综合久| 国产在线91观看免费观看| 白白色发布永久免费观看视频| 国产日产亚洲系列首页|