亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于情感傾向性分析的重點受眾人群識別

        2021-09-24 05:32潘偉民張海軍
        現(xiàn)代電子技術(shù) 2021年17期
        關(guān)鍵詞:博文影響力權(quán)重

        周 杰,潘偉民,張海軍

        (新疆師范大學(xué) 計算機科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830001)

        0 引 言

        微博隨著互聯(lián)網(wǎng)的快速發(fā)展成為對輿情相關(guān)研究的重要對象。微博話題下的一些用戶在熱點話題下成為了中心點,被稱為該話題下的重點受眾群體,由于網(wǎng)紅效應(yīng)成為明星,在輿情下產(chǎn)生巨大作用。重點受眾人群形成的傳播對社會的輿論導(dǎo)向存在重大影響,因此對重點受眾人群的準確定位,掌握這些人群會對輿論進行積極方向的引導(dǎo),及時準確分析輿情發(fā)展動態(tài)具有重要的作用。

        文獻[1]通過對LeaderRank算法的改進,考慮到其活躍性并且減少了其中惡意注冊用戶的影響,提取了排名前20的重點受眾人群,結(jié)果表明影響用戶的覆蓋率更廣泛。文獻[2]針對微博平臺加入了LDA主題模型并運用了隨機森林的算法優(yōu)點,對面向主題的重點受眾群體建立領(lǐng)袖預(yù)測模型,為輿情控制增加了精確化算法。文獻[3?5]把用戶的情感傾向性加入到重點受眾人群的識別中去。其中,文獻[3]考慮其綜合傾向,對只考慮節(jié)點權(quán)重的傳統(tǒng)方法進行改進,提高算法效率。

        根據(jù)現(xiàn)有研究現(xiàn)狀,有以下兩個方面的問題需要深入分析:

        1)受眾群體的基礎(chǔ)屬性特征簡單,應(yīng)加入傳播網(wǎng)絡(luò)信息的過程中個人情感因素來提高重點受眾人群的識別準確率;

        2)在對影響力最大化計算時加入受眾群體的交互行為與潛在影響力多個因素,可以更大程度提高影響力算法準確度。

        針對上述問題,為了提高微博受眾用戶的影響力計算,在用戶基本屬性上考慮到對用戶交互行為以及博文內(nèi)容的情感[6?7],對輿情網(wǎng)絡(luò)傳播影響力進行計算。通過百度開源的深度學(xué)習(xí)平臺PaddlePaddle[8],設(shè)計博文情感分析神經(jīng)網(wǎng)絡(luò)LSTM,結(jié)合改進的IKAG(Identification of Key Audience Groups Rank)算法,建立了一種基于情感傾向性的微博輿論事件重點受眾群體預(yù)測模型。

        1 重點受眾人群識別模型

        微博話題中受眾群體繁多,其中關(guān)鍵的受眾用戶影響力原因復(fù)雜。在考慮受眾用戶的特征時,如果對其情感的傾向以及其互動行為進行忽略,會影響最后重點受眾用戶的排序結(jié)果。

        本文算法的基本流程為:

        1)爬取微博話題下受眾用戶的基本特征,如粉絲量、歷史微博數(shù)、話題微博中的回復(fù)數(shù)和轉(zhuǎn)發(fā)數(shù)等,計算受眾用戶的初始影響力值。

        2)算出受眾用戶的情感傾向構(gòu)出受眾情感值矩陣。

        3)通過受眾群體之間的互動行為得出受眾用戶的最大影響力值。

        4)與受眾用戶潛在影響力值相結(jié)合得出最終的重點受眾人群。重點受眾人群算法計算圖如圖1所示。

        1.1 微博博文的情感傾向性分析

        本文根據(jù)RNN的網(wǎng)絡(luò)結(jié)構(gòu)進行LSTM模型改進。在情緒傾向性的識別中,聯(lián)系句子的整個語境進行判斷,能夠建立前后時刻輸入的聯(lián)系,綜合前后信息識別受眾群體的情緒傾向,如圖2所示。圖2中,H為信息的詞向量,O為輸出向量值,S為隱含層的向量值,U為權(quán)值的矩陣,W為隱含層前后輸入值的矩陣,V為隱含層到輸出層的權(quán)重矩陣。其中St由Xt與前一段的隱含層中的值決定,用來構(gòu)建特征向量之間的關(guān)系。從圖2中可以看出,各個時刻權(quán)值矩陣都會共享,因而可以減少訓(xùn)練的次數(shù),并可以把不同的特征向量放到隱含網(wǎng)絡(luò)層中進行相同的訓(xùn)練操作。

        圖2 RNN模型展開圖

        本文利用博文語句前后聯(lián)系和微博情感詞語極性得出句子情感值并對其構(gòu)出矩陣。利用受眾群體情感基本屬性,以排查特征較弱的短句,如式(1),b為句子特征,a為b的情感客、主觀c1,c2的互動量,如果結(jié)果高于f提出a。當句子基本特征提取結(jié)束,運用LSTM對其進行博文傾向分類。

        通過NII(Node Information Interaction)的短句情感傾向算法,在語料中用基礎(chǔ)詞與現(xiàn)有詞的重復(fù)比率計算感情的傾向性。兩兩詞性值計算如下:

        式中:I(V),I(V′)為詞V,V′出現(xiàn)的重復(fù)次數(shù);I(V&V′)為V,V′同時出現(xiàn)的概率。設(shè)正向基礎(chǔ)詞為word1={word11,…,word1n},負向基礎(chǔ)詞為word2={word21,…,word2n},新出現(xiàn)的newword的情感值計算為:

        通過詞句情感傾向算法計算基礎(chǔ)詞與新型詞的相似度,得出新型詞句的情感性。設(shè)V,V′有k,l個基本結(jié)論,其中各自的總集合為{D11,D12,…,D1n}與{D21,D22,…,D2n},則newword的公式為:

        式中sim(V,V′)表示V,V′之間的相近程度。

        博文情感公式為式(6)。其中,RP(vi)為詞句vi的感情值,b,n為數(shù)量,對其進行分化,在[-2,2]當中。

        博文互動的受眾群體量較大,受眾群體p,l的計算與互動來往的次數(shù)權(quán)重相關(guān),其中p對l的主動情感傾向為:

        式中:rpl為p,l之間的情感互動權(quán)重之和;npl為博文互動中p,l之間的交互數(shù)。

        1.2 潛在影響力與博文影響力計算

        微博在進行信息傳播的過程中,意見領(lǐng)袖影響力在整個傳播過程中起到很大的影響。影響力的計算構(gòu)成指標需要考慮到多個因素,不能忽視受眾用戶的潛在影響力,它是受眾用戶的靜態(tài)影響力。受眾用戶的潛在影響力包括用戶的粉絲、關(guān)注以及歷史博文數(shù)目,用戶影響力是潛在影響力與博文影響力的綜合。

        1.2.1 初始影響力計算

        在本文IKAGR算法計算中,需要輸入初始受眾用戶的影響力值進行迭代,在計算之前要對實時微博的因素進行分析,由于采集的特征數(shù)據(jù)跨度較大,如一些明星大V用戶的粉絲很多,然而作為受眾用戶在某一熱點話題下所產(chǎn)生的影響力并不一定比普通用戶高。為了削減因受眾用戶個別指標過于突出而使綜合結(jié)果偏高,因此需要使用變異系數(shù)法對各個基本屬性的權(quán)重比進行計算,各項指標的變異系數(shù)為:

        式中:M t是第t項指標的變異系數(shù);σt是第t項指標的標準差;yt是第t項指標的平均值。各項特征屬性指標的權(quán)重為式(9),通過計算綜合評分進行排序如式(10),在得到總分之后歸一化,方法采用max?min歸一化如式(11)所示。

        在進行實時博文初始影響力計算時,其特征屬性考慮到轉(zhuǎn)發(fā)、評論以及點贊數(shù)。定義以式(12)計算用戶u的自身影響力值。

        式中:Z值為用戶u的初始影響力值;B1,B2,B3分別為點贊數(shù)、評論數(shù)、轉(zhuǎn)發(fā)數(shù);O1,O2,O3分別為上述的權(quán)重系數(shù)。

        本文三個特征通過上述算法進行權(quán)重賦值得出結(jié)果如表1所示。

        表1 受眾用戶交互屬性權(quán)重

        1.2.2 潛在影響力計算

        本文采用變異系數(shù)法計算權(quán)重,確定受眾用戶潛在影響力和實時博文影響力的權(quán)重賦值。先計算每個指標的所有平均值、標準差;然后計算每個指標的變異系數(shù);接著計算每個指標的權(quán)重,以及每個部落的總分,對總分進行max?min歸一化,將總分值映射成0~100之間的分數(shù)作為部落的熱度值;最后對所有熱度值從大到小排序。根據(jù)式(8)~式(11)和式(13),得出α權(quán)重因子,用來調(diào)節(jié)用戶的潛在影響力Pb和博文影響力Pc各自所占的權(quán)重比值,其計算結(jié)果見表2。

        表2 受眾用戶影響力Pa的權(quán)重指標

        1.3 IKAGR算法

        本文在PageRank算法的基礎(chǔ)上改進了重點受眾群體的發(fā)現(xiàn)算法并加入了受眾群體之間的情感特征以及初始影響力和潛在影響力等,簡稱IKAGR算法,基本思想為:

        1)如果受眾人博文內(nèi)容的回復(fù)為本人,那就不建立連接點;

        2)如果受眾人博文內(nèi)容沒有人回復(fù),或僅自己則取消連接點;

        3)如果博文內(nèi)容只為連接或表情符號,則取消連接點;

        4)如果受眾人a評論受眾人b,則建立指向關(guān)系,其中的權(quán)值為b對a的情感值Rab和本博文的互動量,具體如式(15),式(16)所示。受眾用戶的迭代結(jié)果為IR(u)。算法通過用戶之間的交互特點設(shè)置阻尼值d為0.7。HRu表示與用戶被轉(zhuǎn)發(fā)、點贊、評論的用戶集合。G(u,v)表示用戶u在用戶v的交互集合中占的比重。HEv表示與用戶v交互的人的集合。把用戶u的基礎(chǔ)影響力設(shè)為ZI(u),傳播概率設(shè)為FITE(u),Ovu和Ovk為評論的受眾v對u和k的情感數(shù)值的計算,可由式(7)得出。相比傳統(tǒng)算法,本文考慮到了初始影響力值ZI(u)的計算,以及用戶之間的交互行為HEv和受眾群體之間的情感交互Ovu和Ovk。IKAGR算法考慮較為綜合,得出的結(jié)果更為客觀。

        本文將主要與UIRank算法做對比,檢驗本文算法的效果。UIRank[9]基于隨機游走理論及改進PageRank算法,以新浪微博為實驗平臺,考慮到了用戶轉(zhuǎn)發(fā)影響力和信息傳播能力,是一種基于用戶跟隨關(guān)系圖模型的數(shù)學(xué)算法。其中,F(xiàn)ollowers(u)是u跟隨的用戶集合;a是衰減因子。UIRank排名方程定義為:

        針對本文IKAGR算法,假設(shè)微博網(wǎng)絡(luò)中發(fā)表博文的用戶為N,其中M為指向N的用戶,ZI作為當前用戶的初始影響力。設(shè)置判斷條件a值為0.01,表示每個個體前后的影響力值差,即當前IR(u)值和上一次迭代結(jié)果IR(u)old值的差值閾。代碼滿足迭代結(jié)束的條件后得出最終IR(u)值,返回maxlist集合為IR(u)值的逆序排序。具體如算法1。

        算法1:IKAGR算法

        該算法在實際操作中需要對輸入值進行預(yù)處理,其阻尼因子、迭代次數(shù)等條件并不唯一,可以進行調(diào)試,通過對比結(jié)果的F1值確定設(shè)置的參數(shù);構(gòu)造有向圖模型,可以根據(jù)實際需求設(shè)定M值為從零開始的n+序列。綜上所述,本文改進的IKAGR算法適用于微博受眾用戶的影響力計算,可收斂。

        2 實驗結(jié)果與分析

        2.1 數(shù)據(jù)獲取與處理

        本文先選取UIRank[9]算法的原始數(shù)據(jù)集與之相比較,其次本文把疫情期間的新浪微博作為數(shù)據(jù)源,在新的數(shù)據(jù)集上再進行比較,更能得出本文算法的實際效果。對數(shù)據(jù)集依據(jù)與“新冠肺炎”相關(guān)的10個主題關(guān)鍵詞進行數(shù)據(jù)采集,抓取了2020年2月10日—20日期間共計33 641條微博數(shù)據(jù),為了減少不必要的計算,把爬取到的數(shù)據(jù)中粉絲、歷史發(fā)博、關(guān)注量低于15的刪掉,如表3所示。

        表3 數(shù)據(jù)集概要

        經(jīng)過上述處理,提取33 641條待評估的微博樣本。首先對這些微博的博文內(nèi)容用jieba分詞和哈工大停用詞表進行數(shù)據(jù)預(yù)處理,并寫入csv文件對應(yīng)ID的clearntext列。然后對該列使用本文情感傾向性分類模型,得到含有12 451條持有肯定態(tài)度的集合K1,11 812條持有否定態(tài)度的集合K2,得到9 378條中立態(tài)度的集合K3。

        2.2 結(jié)果分析

        本文選擇了目前大眾認可的重點受眾人群影響力算法與IKAGR算法進行實驗對比。如UIRank[9]算法,該算法通過受眾用戶之間的交互關(guān)系以及情感傾向的取舍對重點受眾人群進行計算。其次選取的是PageRank算法,該算法是基于用戶基本屬性的迭代,計算出用戶排名,本文IKAGR算法是基于該算法的改進,通過對比更能體現(xiàn)出本文算法的優(yōu)點。最后是基于微博用戶粉絲數(shù)對用戶影響力的排名算法。

        僅通過粉絲數(shù)、轉(zhuǎn)發(fā)數(shù)判定重點受眾群體是不準確的,所以參照文獻[10]定義的算法F1值來評估各個算法的效果。

        式中:A1代表各個算法總的博主排名集合;AIKAGR,AUIRank,APageRank,AFans分別表示本文、UIRank、PageRank以及粉絲排名下的重點受眾博主的集合。

        算法評估的準確率、召回率和F1值計算公式如式(18)~式(20)所示。

        由圖3可以看出,在準確度的對比中雖然個別算法有波動,但是總體而言都是隨著排名人數(shù)的增加其準確率在提高,在排名100時UIRank算法高于本文IKAGR算法,但在實際考量中影響不大。

        圖3 不同算法的準確率對比

        從圖4召回率的對比結(jié)果可以看出,在用戶排名為100時,IKAGR算法與UIRank算法相持平,PageRank算法與Fans算法相持平。總體而言,IKAGR算法的召回率效果還是不錯的。

        圖4 不同算法的召回率對比

        在圖5的F1值對比上,本文用戶IKAGR算法總體取得了不錯的效果。由于用戶在某個領(lǐng)域和話題中的交互性較低,活躍度不高,所以Fans算法實際的影響力并不高。

        圖5 不同算法的F1值對比

        本文針對微博熱點話題“校園保安打狗”這一實例數(shù)據(jù)進行處理,得出了表4,表5的處理結(jié)果,列出了其中的用戶粉絲數(shù)排名,以及PageRank算法、UIRank算法和本文的IKAGR算法中用戶影響力的前10名用戶。

        表4 IKAGR算法和UIRank算法的受眾用戶影響力

        從表4,表5可以看出,這些算法計算出來的重點受眾群體偏向于娛樂、大V、還有像張繼科這樣的體育明星。說明了微博中的普通受眾用戶對這些群體的關(guān)注度比較高,這些重點受眾群體在微博的信息擴散和輿論引導(dǎo)、廣告投放等方面都有著重要的作用。從粉絲排名來看,得出的結(jié)果和前兩種的用戶重合度不是很大,雖然粉絲數(shù)目較多,但是這些用戶的活躍度不是很大,與自己的粉絲交互較少,因此僅僅靠粉絲數(shù)目來計算影響力大小是不準確的。本文前兩種的重合度較大,因為UIRank算法重視用戶之間的交互程度,因此挖掘出來的都是近期博文更新頗為頻繁的用戶,而PageRank僅僅考慮到用戶的基本屬性值,所以與粉絲排名重合度較高,而本文提出的IKAGR算法考慮到了情感的因素,一些正能量的東西往往點贊數(shù)目多,其影響效果其實并不突出,而一些消極、負能量的東西,其轉(zhuǎn)發(fā)數(shù)和點贊數(shù)相對較少,因為其中內(nèi)容的爭議性,評論內(nèi)容和被@的次數(shù)較多,因此本文模型考慮到的問題更為全面。

        表5 PageRank算法和Fans排名的受眾用戶影響力

        本文引入覆蓋率作為評估指標,用來估量重點受眾群體算法的影響力廣度,直接或間接影響其他用戶的覆蓋范圍比,如式(21)所示。

        式中:H(i)為topi個用戶的覆蓋率;M為數(shù)據(jù)集中所有受眾用戶;P(i)為重點受眾人群影響的節(jié)點。

        圖6中,本文的IKAGR算法在23 446個受眾用戶構(gòu)成的微博交互網(wǎng)絡(luò)中達成最高的67%覆蓋率。

        圖6 不同算法的覆蓋率對比

        由結(jié)果可以看出,微博中重點受眾人群關(guān)乎到博文內(nèi)容的情感傾向,比如雖然有一些消極的博文其轉(zhuǎn)發(fā)和點贊遠遠不如一些正常的微博內(nèi)容,但其評論中的爭論較多,其影響效果更大。因此不能單一的只考慮用戶的粉絲、博文常規(guī)屬性特征,也要考慮到博文的內(nèi)容性質(zhì)以及博文的潛在影響力。

        3 結(jié) 語

        基于長短時記憶(LSTM)神經(jīng)網(wǎng)絡(luò),本文將情感傾向性因素加入到了微博重點受眾群體的識別模型中,考慮到了微博用戶的潛在影響力,并提出了改進后的IKAGR算法。該算法考慮到了更廣的微博特征屬性以及屬性之間的權(quán)重賦值,其F1值和覆蓋率等都較為良好。然而微博中往往存在大量的“水軍”,如果能排除“水軍”的干擾因素,并考慮到時間的因素,加入微博話題的周期性,摸清發(fā)博轉(zhuǎn)博的時間變化趨勢,得出的最終結(jié)果會更加客觀。

        猜你喜歡
        博文影響力權(quán)重
        第一次掙錢
        權(quán)重常思“浮名輕”
        為黨督政勤履職 代民行權(quán)重擔(dān)當
        天才影響力
        誰和誰好
        基于公約式權(quán)重的截短線性分組碼盲識別方法
        黃艷:最深遠的影響力
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        3.15消協(xié)三十年十大影響力事件
        傳媒不可估量的影響力
        男女猛烈拍拍拍无挡视频| 日本视频一区二区二区| 国产亚洲精品一品二品| 亚洲国产日韩a在线乱码| 男女一边摸一边做爽爽的免费阅读| 美女裸体无遮挡免费视频的网站| 日本高清一区二区在线观看| av黄色在线免费观看| 国产女人的高潮国语对白| 四虎4545www国产精品| 国产亚洲午夜高清国产拍精品不卡 | 亚洲AV无码一区二区一二区色戒| 亚洲美女一区二区三区三州| 一边做一边说国语对白| 国产高清乱理伦片| 波多野结衣一区二区三区免费视频| 自拍偷拍韩国三级视频| 乱人伦中文视频在线| 好大好硬好爽免费视频| 国产亚洲AV片a区二区| 日本亚洲中文字幕一区| 韩国三级中文字幕hd| 久久久精品3d动漫一区二区三区 | 亚洲免费不卡| 国产喷白浆精品一区二区豆腐| 97人妻精品一区二区三区男同| 手机看片福利一区二区三区| 2021年最新久久久视精品爱| 日本免费一区二区精品| 18岁日韩内射颜射午夜久久成人| 久久亚洲精品ab无码播放| 亚洲日韩国产精品不卡一区在线| 给我看免费播放的视频在线观看| 人妻aⅴ中文字幕| 一级片麻豆| 在线亚洲妇色中文色综合| 亚洲熟妇色自偷自拍另类| 护士奶头又白又大又好摸视频| 黄色网页在线观看一区二区三区| 国内精品亚洲成av人片| 欧美精品videossex少妇|