亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本情感強度的微博用戶轉(zhuǎn)發(fā)行為預(yù)測與分析①

        2020-10-29 05:06:02李肇明張恩寶李倩倩
        關(guān)鍵詞:社交強度預(yù)測

        李肇明,李 旸,孫 敏,張恩寶,李倩倩

        (1.安徽國際商務(wù)職業(yè)學(xué)院,安徽 合肥 230031;2.安徽農(nóng)業(yè)大學(xué)信息與計算機學(xué)院,安徽 合肥 230036)

        0 引 言

        隨著移動互聯(lián)網(wǎng)的快速發(fā)展,越來越多的用戶通過電腦、手機訪問互聯(lián)網(wǎng)產(chǎn)生了大量的用戶行為數(shù)據(jù),其中在線社交網(wǎng)絡(luò)吸引和聚集了大量的用戶。如:新浪微博、微信、Twitter、FaceBook等國內(nèi)外知名的社交網(wǎng)絡(luò)平臺。在這些社交網(wǎng)絡(luò)平臺中每天有大量用戶在其中活躍,會產(chǎn)生體量十分龐大的社交網(wǎng)絡(luò)數(shù)據(jù)。以新浪微博為例,到2019年6月微博月活躍用戶達到4.86億,日活躍用戶已達到2億,每天會產(chǎn)生數(shù)十億條微博信息,可見新浪微博已經(jīng)成為了國內(nèi)最重要的社交網(wǎng)絡(luò)平臺。在網(wǎng)絡(luò)中的社交,用戶的行為模式復(fù)雜多樣。交互行為使得信息在網(wǎng)絡(luò)中快速傳播,其中對用戶行為的預(yù)測與分析已經(jīng)成為當(dāng)下最熱門的研究課題。

        在社交網(wǎng)絡(luò)中,各類推薦算法應(yīng)用十分廣泛,國內(nèi)外學(xué)者在這方面做了很多工作。在理想的情況下,精準(zhǔn)地推薦需要與用戶的實時興趣喜好相配對,用戶的實時喜好又決定了用戶實時的行為。在實際應(yīng)用中,用戶的偏好變化受多個因素的影響,其中情感因素是用戶偏好的核心因素,情感強度的強弱又可以直接反映出用戶偏好的態(tài)度。本文通過文本挖掘來研究情感強度的強弱進而預(yù)測對用戶行為的影響。

        1 相關(guān)研究

        在信息化高度發(fā)達的時代,微博已成為信息傳播最主要的社交網(wǎng)絡(luò)之一。分析微博用戶的行為習(xí)慣一方面不僅能夠更好地把握用戶的行為趨向,而且為推薦系統(tǒng)等研究提供理論基礎(chǔ);另一方面能夠預(yù)測微博信息的傳播途徑,對事件預(yù)警和輿情監(jiān)控起到重要的參考價值。目前國內(nèi)外學(xué)者對社交網(wǎng)絡(luò)行為的研究側(cè)重于用戶的瀏覽和轉(zhuǎn)發(fā)行為進行預(yù)測,但是經(jīng)常會忽略用戶自身情感的作用。心理學(xué)認(rèn)為,用戶的行為舉止會直接受到情感的影響。情感分析在社交網(wǎng)絡(luò)中的應(yīng)用也越來越普遍,一般來說,廣義的情感分析是指針對文本的觀點、情緒和態(tài)度的一種計算研究[1]。主要涵蓋情緒分析、態(tài)度分析以及emoji表情挖掘等一系列研究。本文圍繞著情感強度,從微博文本中提取用戶的情感信息建模研究,挖掘用戶的情感強度,分析用戶情感強度對用戶轉(zhuǎn)發(fā)行為的影響。

        1.1 文本情感

        文本情感分析是指對帶有情感色彩的主觀性文本采用分析、概括和推理的過程。最開始的情感解析只是針對于感情色彩的詞語來進行分析。如:“喜歡”是帶有褒義色彩的詞語;“討厭”是帶有貶義色彩的詞語。但隨著社交網(wǎng)絡(luò)的發(fā)展,程度副詞以及emoji表情更能夠直觀地表達使用者的情感。國內(nèi)外專家在這個方向也開展許多的研究。李吉等[2]利用同義詞詞林?jǐn)U展版和大連理工情感詞匯本體構(gòu)建情感詞典。使用PAD三維情感模型來計算情感強度,以此對商品評論所蘊含的情感狀態(tài)加以分析研究,并對網(wǎng)絡(luò)口碑輿情進行監(jiān)測評估。夏夢婷等[3]提出從語義角度分析網(wǎng)絡(luò)輿情評價事件中情感詞、短語、句子和篇章的情感強度。利用HowNet中文詞語相似度計算詞語的權(quán)值,并對網(wǎng)絡(luò)輿情中的多個對象采用計算情感強度的方法,最后計算出網(wǎng)絡(luò)輿情情感強度。Thelwall M等[4]使用SentiStrength算法從非正式英文文本中提取情感強度,挖掘網(wǎng)絡(luò)空間中的事實語法和拼寫風(fēng)格,將sentistrength應(yīng)用于myspace的評論,并使用機器學(xué)習(xí)優(yōu)化術(shù)語情感強度查找表。實驗表明sentistrength能夠以60.6%的準(zhǔn)確率預(yù)測積極情緒;以72.8%的準(zhǔn)確率預(yù)測消極情緒。Yangsen Zhang等[5]提出一種協(xié)調(diào)的CNN-LSTM-Attention(CCLA)模型。用CCLA單元學(xué)習(xí)句子的向量表示,句子的語義和情感信息及其關(guān)系被自適應(yīng)地編碼為文檔的矢量表示。使用softmax回歸分類器來識別文本中的情緒傾向,與其他方法相比,CCLA模型可以很好地捕獲局部和長距離的語義和情感信息。

        1.2 用戶行為預(yù)測

        在線社交網(wǎng)絡(luò)的內(nèi)容中包含很多情感信息,這些信息表達了用戶對事物的情緒和態(tài)度,對用戶行為的預(yù)測有著重要的影響。秦鋒等[6]從用戶屬性、用戶興趣和用戶情緒三個方向,對影響微博用戶行為的原因進行深度解析,提取對用戶有影響的特征建立預(yù)測模型,實驗結(jié)果表明對用戶行為的預(yù)測準(zhǔn)確率大大提高。Yanbing Liu等[7]針對用戶轉(zhuǎn)發(fā)的行為提出一種基于模糊理論和神經(jīng)網(wǎng)絡(luò)算法的用戶轉(zhuǎn)發(fā)熱點話題預(yù)測方法。該方法不僅能夠充分表達模糊性和隨機性,對非線性關(guān)系也有很好的逼近能力,還可以準(zhǔn)確預(yù)測用戶行為,同時能夠動態(tài)感知熱點話題的變化。

        綜上所述,目前學(xué)術(shù)界針對用戶轉(zhuǎn)發(fā)行為的預(yù)測很少考慮文本的情感強度,已有的研究多傾向于情緒和興趣上,涉及情感強度值的方面研究較少。因此提出基于文本情感強度的用戶轉(zhuǎn)發(fā)預(yù)測模型。該模型利用新浪微博真實文本數(shù)據(jù)通過情感詞典進行細粒度提取情感強度,實驗驗證了情感強度對用戶轉(zhuǎn)發(fā)行為的有效性。

        2 基于情感強度的用戶轉(zhuǎn)發(fā)預(yù)測模型

        提出基于文本情感強度的用戶轉(zhuǎn)發(fā)預(yù)測模型,該模型主要包括2個模塊:文本情感強度分析模塊和用戶轉(zhuǎn)發(fā)預(yù)測模塊。

        2.1 文本情感強度分析模塊

        參考大連理工大學(xué)情感詞匯本體庫[8],根據(jù)徐琳宏等[9]論文《情感詞匯本體的構(gòu)造》所述,將情感分為7大類和21小類。7大類分別對應(yīng):好、惡、樂、怒、哀、懼、欲。其中情感強度分為五檔,分別是1、3、5、7、9。強度最大的為9,強度最小的為1??紤]到情感強度具有模糊性,將情感強度劃分略作修改,由于用戶的情感具有正面情感、中性情感和負(fù)面情感的特點,將情感強度按權(quán)值分為-5、-3、-1、0、1、3、5七檔。其中,-5代表負(fù)面情感最大值;5代表正面情感最大值;0代表中立的情感強度,一般認(rèn)為是中立的態(tài)度。如表1所示。

        Tab.1 Classification of emotional intensity表1 情感強度級別劃分

        情感強度分析的難度是如何確定文本中基準(zhǔn)詞及它們的情感強度。引入情感詞模糊性規(guī)則,在情感詞權(quán)值的基礎(chǔ)上設(shè)計一個量化計算情感詞的方法。其主要思想為構(gòu)造一個情感強度計算公式,訓(xùn)練出來的情感強度絕對值越大,所表示的情感就越劇烈,其情感傾向就越明確。具體方法如下:

        提出模糊量化情感詞。根據(jù)訓(xùn)練的語料庫找出情感詞,情感詞的選取標(biāo)準(zhǔn)按照高頻詞匯和情感詞強度權(quán)值來選取,其中情感強度權(quán)值采用人工標(biāo)注的方式。設(shè)確定訓(xùn)練樣本集為Dtraining={D,E}dj(j=1,2,…,m)-ei={o=1,2,…,k}_D_Dd__ei屬于情感詞類別文檔dj的概率為:

        其中,P(ei|dj)表示情感ei為情感詞類別文檔dj的概率。count(eij)_ei在dj類別文檔的個數(shù)。

        對于任意一個情感詞ei在訓(xùn)練集的Dtraining情感強度為:

        其中ID_Dd___

        2.2 微博用戶轉(zhuǎn)發(fā)預(yù)測模塊

        3 試驗結(jié)果分析

        3.1 實驗數(shù)據(jù)與評價指標(biāo)

        利用智能爬蟲軟件爬山虎采集器[11]收集新浪微博平臺的數(shù)據(jù)。采集特定用戶所有微博的內(nèi)容,包括發(fā)布時間、內(nèi)容、轉(zhuǎn)發(fā)、評論、點贊的個數(shù)。然后對用戶進行去重,過濾無效用戶,最后得到有效的用戶集合U。提取每個用戶12小時內(nèi)發(fā)布的微博內(nèi)容,包括原創(chuàng)和轉(zhuǎn)發(fā)的微博。對獲取的數(shù)據(jù)集先隨機選擇100位用戶,收集與他們相關(guān)聯(lián)的用戶,共有20000用戶,通過計算每個用戶平均有200個粉絲。然后根據(jù)轉(zhuǎn)發(fā)情況進行人工標(biāo)注,并過濾掉無用的屬性,得到實驗數(shù)據(jù)集,共包含250000條數(shù)據(jù)。每條數(shù)據(jù)記錄屬性的用戶編號、微博內(nèi)容、轉(zhuǎn)發(fā)次數(shù)。

        因為微博文本具有口語化,表達隨意性的特征,所以在試驗前需要進行相關(guān)的預(yù)處理:①分詞:使用情感分析工具SnowNLP[12]來分詞并提取關(guān)鍵詞。SnowNLP是一個python寫的類庫,可以方便地處理中文文本內(nèi)容。②詞性標(biāo)注:提取完關(guān)鍵詞后,根據(jù)情感詞的規(guī)則,標(biāo)注正向負(fù)向情感詞作為基準(zhǔn)詞。③情感分析:根據(jù)上面公式計算出情感詞的強度。

        為了評估用戶轉(zhuǎn)發(fā)行為的效果,采用準(zhǔn)確率P(Precision)、召回率R(Recall)和F值(F-measure)作為評價指標(biāo),轉(zhuǎn)發(fā)行為實驗結(jié)果以表2的形式表示.

        表2 實驗結(jié)果統(tǒng)計

        那么,P、R、F計算公式分別如下:

        3.2 實驗結(jié)果分析

        為了證明所提模型的有效性,采用了3種主流的方法進行對比驗證:

        方法1:使用KMeans算法對用戶的微博數(shù)據(jù)進行聚類,獲取用戶偏好的主題詞,再映射為用戶的特征向量,使用SVM實現(xiàn)微博轉(zhuǎn)發(fā)預(yù)測。

        方法2:使用改進的TF-IDF結(jié)合用戶的情緒和興趣提取用戶的關(guān)鍵詞 ,映射為用戶的興趣特征向量,最后使用SVM實現(xiàn)微博轉(zhuǎn)發(fā)預(yù)測。

        方法3:使用LDA從抓取的微博文本中抽取主題特征,實現(xiàn)文本內(nèi)容到主題向量的映射,使用SVM實現(xiàn)微博轉(zhuǎn)發(fā)預(yù)測。

        方法4(本文方法):使用SnowNLP提取文本的關(guān)鍵詞,并計算情感強度,再映射為特征向量,最后使用LIBSVM軟件包實現(xiàn)微博轉(zhuǎn)發(fā)預(yù)測。

        采用10次交叉驗證方式驗證各方法的有效性,即將數(shù)據(jù)集分成10份,輪流將其中9份作為訓(xùn)練數(shù)據(jù),1份作為測試數(shù)據(jù)進行試驗。采用P、R、F值作為檢驗?zāi)P托Ч脑u價指標(biāo)。不同方法的實驗結(jié)果如表3所示。

        表3 不同方法實驗數(shù)據(jù)

        不同方法的實驗結(jié)果比較如圖1所示。

        圖1 不同方法實驗結(jié)果

        4 結(jié) 語

        本研究提出基于文本情感強度的微博轉(zhuǎn)發(fā)預(yù)測模型。通過獲取用戶的情感關(guān)鍵詞并使用情感強度權(quán)值公式判斷情感強度更加的精確,同時降低了多維度分析情感差異的復(fù)雜性,提高情感分析對用戶轉(zhuǎn)發(fā)行為影響的準(zhǔn)確性。在新浪微博真實數(shù)據(jù)集上進行對比實驗,實驗結(jié)果證明本方法在用戶轉(zhuǎn)發(fā)行為上的有效性。在未來研究中,將從以下二個方面進行改進:① 研究如何解決中性情感強度的判斷過于死板問題;② 研究運用知識圖譜和深度學(xué)習(xí)技術(shù)分析微博中圖片和視頻等信息如何加入到情感強度的模型中,從而進一步提高用戶轉(zhuǎn)發(fā)預(yù)測的準(zhǔn)確率。

        猜你喜歡
        社交強度預(yù)測
        社交之城
        英語世界(2023年6期)2023-06-30 06:28:28
        無可預(yù)測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預(yù)測卷(A卷)
        選修2-2期中考試預(yù)測卷(B卷)
        社交牛人癥該怎么治
        意林彩版(2022年2期)2022-05-03 10:25:08
        低強度自密實混凝土在房建中的應(yīng)用
        社交距離
        你回避社交,真不是因為內(nèi)向
        文苑(2018年17期)2018-11-09 01:29:28
        Vortex Rossby Waves in Asymmetric Basic Flow of Typhoons
        不必預(yù)測未來,只需把握現(xiàn)在
        久久精品国产视频在热| 欧美日韩中文国产一区发布| 亚州综合激情另类久久久| 亚洲日韩AV无码美腿丝袜| 精品一区二区三区亚洲综合| 97久人人做人人妻人人玩精品 | 亚洲中文字幕久久精品一区| 伊人久久大香线蕉av不卡| 大地资源网更新免费播放视频| 亚洲AV秘 无码一区二区久久| 成人性生交大片免费5| 国产成人av综合色| 一本一本久久a久久精品综合| 亚洲乱精品中文字字幕| 国产亚洲成人精品久久久| 亚洲图片日本视频免费| h国产视频| 精品国产乱码一区二区三区| 男女男精品视频网站免费看| 欧洲女人性开放免费网站| 久久国产成人亚洲精品影院老金| 男女后入式在线观看视频| 人人澡人人妻人人爽人人蜜桃麻豆| 欧美日韩国产一区二区三区不卡 | 99久久国产综合精品麻豆| 成年人免费黄色h网| 亚洲一区二区三区视频免费看| 国产精品亚洲а∨天堂2021| 免费观看国产精品| 日本女优中文字幕四季视频网站| 美女露出自己的性感大胸一尤内衣| 国产农村乱子伦精品视频| 北岛玲中文字幕人妻系列| 亚洲乱码av一区二区蜜桃av| 天天摸夜夜摸摸到高潮| 色丁香色婷婷| 亚洲自偷自拍另类第一页| 国产精品天干天干| 色av综合av综合无码网站| 国产一区二区三区亚洲精品| 久久伊人这里都是精品|