亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于綜合影響力和情感特征的意見領袖發(fā)現(xiàn)方法

        2021-09-17 09:43:42王嘉麒杜義華趙以霞
        關鍵詞:帖子領袖詞典

        王嘉麒,杜義華,趙以霞

        1.中國科學院計算機網(wǎng)絡信息中心,北京 100190

        2.中國科學院大學,北京 100049

        引言

        隨著互聯(lián)網(wǎng)的快速發(fā)展,公眾較以往更加積極地使用網(wǎng)絡社交平臺參與對社會熱點事件的討論。以推特和新浪微博為代表的網(wǎng)絡社交平臺逐漸成為了大量公眾獲取信息的重要渠道,在近年來所有輿情事件的傳播中都產(chǎn)生了重要影響[1]。社交平臺的龐大規(guī)模使得輿情事件更容易快速傳播和發(fā)酵,如果缺乏合理的輿情分析與引導,會導致輿論迅速惡化,加劇社會矛盾。研究表明,社交平臺上的意見領袖能夠?qū)Υ罅坑脩舢a(chǎn)生影響,在很大程度上左右輿論走向[2]?!耙庖婎I袖”這一概念最初由Lazarsfeld提出,指在信息傳播過程中通過發(fā)表觀點和引導輿論,對其他用戶的態(tài)度造成影響,并受到媒體和知名人士關注,從而在輿情事件中產(chǎn)生極大影響力的重要人物[3]。對意見領袖的發(fā)現(xiàn),在輿情分析與引導等方面具有不可忽略的價值[4]。

        目前關于意見領袖發(fā)現(xiàn)的研究主要基于用戶和帖子的數(shù)據(jù)特征構建影響力指標以衡量用戶在輿情事件中的影響,并根據(jù)相關指標進行排序或聚類以發(fā)現(xiàn)意見領袖,屬于典型的多方面評分問題[5]。傳統(tǒng)方法大多將用戶個人屬性和帖子互動行為視為互相獨立的特征,較少涉及用戶和帖子的綜合作用與相互影響,因此會忽略部分信息,導致部分意見領袖被遺漏,不利于相關的輿情分析與引導[6]。此外,有研究表明意見領袖在輿情事件中會表現(xiàn)出特定的情感特征,在基于影響力的意見領袖發(fā)現(xiàn)方法的基礎上引入情感分析手段,有助于更有效地發(fā)現(xiàn)意見領袖[7]。

        本文融合用戶個人屬性和帖子行為特征,提出基于綜合影響力和情感特征的意見領袖發(fā)現(xiàn)方法(opinion leader discovery based on comprehensive influence and sentiment characteristics,簡稱CI-SC)。CI-SC 方法綜合考慮用戶個人屬性和帖子互動行為兩方面的影響力特征,并在此基礎上引入用戶的情感特征,通過聚類分析實現(xiàn)意見領袖發(fā)現(xiàn)。

        1 相關研究

        1.1 基于影響力的意見領袖發(fā)現(xiàn)方法

        現(xiàn)有的意見領袖發(fā)現(xiàn)方法主要通過用戶的部分數(shù)據(jù)特征,如粉絲數(shù)和轉(zhuǎn)發(fā)數(shù)等,構建影響力指標以衡量不同用戶的影響力大小,從而發(fā)現(xiàn)具有較大影響力的意見領袖。根據(jù)采用的數(shù)據(jù)特征的區(qū)別,影響力指標主要分為用戶影響力和帖子影響力兩大類。

        用戶影響力指某一用戶發(fā)表的言論被推送給其他用戶并影響其他用戶的能力。相關方法主要基于用戶個人屬性特征計算用戶影響力,包括關注數(shù)、發(fā)帖數(shù)和粉絲數(shù)等[8]。部分研究在此基礎上參考google 的PageRank 算法[9],康奈爾大學的HITS 算法[10]及相應變種[11-14],將社交網(wǎng)絡結構納入用戶影響力的計算。王君澤等提出了基于粉絲數(shù)、關注數(shù)和發(fā)博數(shù)的微博意見領袖識別模型[15]。Kwak 等依據(jù)粉絲數(shù)和PageRank 算法對Twitter 用戶進行影響力排名,發(fā)現(xiàn)意見領袖的影響力排名并不完全受限于其個人屬性[16]。Weng 等提出TwitterRank 算法,將用戶的影響力定義為其所有粉絲的影響力之和[17]。石磊等則在粉絲數(shù)基礎上,進一步引入了活躍指數(shù)來計算用戶影響力[18]。

        帖子影響力指的是某帖子成為熱門內(nèi)容并影響大量用戶的能力。相關研究主要基于帖子的互動行為特征構建帖子影響力,包括評論數(shù)、轉(zhuǎn)發(fā)數(shù)和點贊數(shù)等。童薇等提出一種基于微博互動行為特征的檢測算法,該算法可檢測出影響較大的熱門微博[19];李華等提出了計算熱度值的IEED 算法,該算法同時考慮了帖子的互動行為數(shù)據(jù)和發(fā)布用戶粉絲數(shù)[20];郭跇秀等則將用戶影響力和文本特征結合作為微博影響力[21]。

        目前已有的基于影響力的意見領袖發(fā)現(xiàn)方法在構造影響力指標時,往往只考慮一部分數(shù)據(jù)信息,這使得關于用戶影響力的研究主要局限于用戶本身的個人屬性數(shù)據(jù),而沒有考慮該用戶發(fā)表的帖子在傳播過程中產(chǎn)生的影響,如轉(zhuǎn)發(fā)等互動行為所蘊含的影響力都未被考慮。一些研究表明,僅考慮用戶個人屬性得出的意見領袖,在其他評價指標下并不一定具有較強的影響力[22]。另一方面,基于PageRank 和HITS 算法的發(fā)現(xiàn)方法為了構建社交網(wǎng)絡結構,需要額外獲得所有用戶之間的關注關系,這極大提高了數(shù)據(jù)采集的復雜度,限制了此類方法在用戶數(shù)量較多的場景中的應用。關于帖子影響力的研究也主要局限于帖子的互動行為特征本身,如評論數(shù)等,此類數(shù)據(jù)只能反映與帖子的互動行為產(chǎn)生的影響力,而很多用戶被推送帖子后,不一定會發(fā)生評論、轉(zhuǎn)發(fā)等互動行為,因此僅憑互動行為特征也不能全面客觀地反映出帖子產(chǎn)生的實際影響[18]。即傳統(tǒng)的基于影響力的意見領袖發(fā)現(xiàn)方法局限于部分數(shù)據(jù)特征,并不能全面客觀地反映出用戶在具體話題中實際表現(xiàn)出的影響力。

        1.2 基于情感分析的意見領袖發(fā)現(xiàn)方法

        基于情感分析的意見領袖發(fā)現(xiàn)方法通過分析用戶發(fā)表的文本內(nèi)容的情感傾向,以獲得用戶的情感特征,并基于情感特征構建相關分類指標。目前相關的意見領袖發(fā)現(xiàn)方法主要采用情感詞典或機器學習方法進行情感分析[23]。肖宇等提出了基于情感詞典的LeaderRank 算法,該算法提高了意見領袖發(fā)現(xiàn)的準確度[6]。曹玖新等結合情感詞典和決策樹模型,從情感維度度量意見領袖的影響[24]。陳濤等通過BERT 實現(xiàn)了短文本的情感特征提取與融合[25]。

        情感詞典法將帶有情感傾向的情感詞集合映射到一個情感詞典,每一個情感詞在詞典中都對應一個標簽。對于給定文本,可以在情感詞典中查找到每個情感詞的對應極性值,從而把情感分類轉(zhuǎn)化為一個數(shù)值計算問題。英語語料主要采用Gerneral Inquirer[26]或SentiWordNet[27]作為詞典,中文語料則主要采用知網(wǎng)情感詞典HowNet[28]、清華大學中文褒貶義詞典和大連理工大學中文情感詞匯庫[29]等。機器學習方法則將情感傾向分析視為分類問題,使用較多的模型有樸素貝葉斯(Na?ve Bayes)、最大熵(Maximmum Entropy)、支持向量機(SVM)等[30]。情感詞典無需額外訓練,使用成本較低,但效果和詞典質(zhì)量高度相關;機器學習方法則需進行預訓練,實際應用中的成本較高。

        2 基于綜合影響力和情感特征的意見領袖發(fā)現(xiàn)方法流程設計

        針對傳統(tǒng)意見領袖發(fā)現(xiàn)方法因局限于部分數(shù)據(jù)特征導致無法全面反映用戶實際具有的影響力,使得部分意見領袖被忽略的問題,本文提出一種基于綜合影響力特征和情感特征的意見領袖發(fā)現(xiàn)方法(CI-SC),同時考慮用戶影響力和帖子影響力作為綜合影響力,并引入用戶的情感特征作為篩查依據(jù)。CI-SC 以綜合影響力特征和情感特征對社交平臺用戶進行聚類,篩查發(fā)現(xiàn)在話題下具有較大影響力和明顯情感特征的意見領袖。主要步驟如圖1所示。

        圖1 基于綜合影響力和情感特征的意見領袖發(fā)現(xiàn)方法(CI-SC)流程圖Fig.1 Flowchart of opinion leader discovery based on comprehensive influence and sentiment characteristics(CI-SC)

        CI-SC 的算法流程如圖2所示。

        圖2 偽代碼形式的CI-SC 算法流程Fig.2 Algorithm of CI-SC in pseudo-code form

        2.1 計算綜合影響力特征

        基于用戶的個人屬性特征,計算每個用戶的基本影響力InfUseru,表示用戶對其粉絲在理論上具有的影響力,定義InfUseru的計算公式如下:

        其中,WBu為用戶u的微博數(shù),WBmax為數(shù)據(jù)集中微博數(shù)最大值,WBmin為微博數(shù)最小值,F(xiàn)ANu為用戶u的粉絲數(shù),F(xiàn)ANmax為數(shù)據(jù)集中粉絲數(shù)最大值,F(xiàn)ANmin為粉絲數(shù)最小值,F(xiàn)Ou為用戶u的關注數(shù),F(xiàn)Omax為數(shù)據(jù)集中關注數(shù)最大值,F(xiàn)ANmin為關注數(shù)最小值。由于相關指標的數(shù)據(jù)跨度較大,不利于后續(xù)計算,對原始數(shù)據(jù)進行對數(shù)歸一化處理。Wwb,Wfan和Wfo分別為微博數(shù)、粉絲數(shù)和關注數(shù)的權重。采用層次分析方法AHP 構建判斷矩陣計算出各因素權重,根據(jù)該矩陣能否通過一致性檢驗判別是否接受該組權重。通過AHP 法得出的權重值為Wwb=0.2583,Wfan=0.637,Wfo=0.1047,一致性檢驗結果為0.0331(小于閾值0.1),表明應接受該組權重。

        基于帖子的互動行為特征,計算每個帖子的互動指標RCLScorei,表示轉(zhuǎn)發(fā)、評論和點贊等行為具有的互動影響力,計算公式如下:

        其中,Ri、Ci、Li表示帖子i的轉(zhuǎn)發(fā)、評論和點贊數(shù),Wr、Wc、Wl為轉(zhuǎn)發(fā)、評論和點贊數(shù)的權重,分別為0.4、0.4、0.2[31]。threshold為數(shù)據(jù)集中上訴指標加權和的最大值。

        基于發(fā)帖用戶的基本影響力InfUseru和帖子i的互動指標RCLscorei,計算帖子i的綜合影響力InfScorei,該影響力表示帖子在傳播過程中發(fā)生的互動行為與單向推送產(chǎn)生的全部實際影響力。計算公式如下:

        其中α∈[0,1],表示用戶基本影響力和帖子互動影響力的相對權重,本方法設置α=0.5。

        將屬于同一用戶u的所有帖子的綜合影響力相加,得到用戶u的總影響力TotalInfu和平均影響力AvgInfu,總影響力表示用戶的實際影響,平均影響力表示用戶造成影響的效率。計算公式如下:

        其中D={D1,D2,…,Dn}為用戶u在此話題下發(fā)表的所有帖子的集合,n為集合D的帖子數(shù)量。

        2.2 計算情感特征

        CI-SC 基于中文情感分析,需構建針對中文文本的情感詞典。目前在中文語料上最為常見的情感詞典有知網(wǎng)Hownet、清華大學褒貶義詞典和大連理工大學中文情感詞匯本體庫3 種。其中,清華大學褒貶義詞典只標注了每個詞語的褒貶義傾向,沒有標注極性強度值,且無除褒貶義詞外的其他詞語,如程度副詞與否定詞等,因此無法用于需要進行數(shù)值計算的CI-SC 方法中。相比而言,大連理工大學中文情感詞匯本體庫包含更多數(shù)值特征,如詞語的詞性、情感類別、情感強度和極性等多方面的信息,因而更適合作為CI-SC 的基礎情感詞典。其一般格式如表1所示。

        表1 情感詞匯本體庫格式樣例Table 1 Sample of the affective lexicon ontology

        在情感詞匯本體庫中,詞語的情感被分為了7個大類下的21 個小類;情感強度被分為1 至9 檔,其中1 強度最弱;極性則根據(jù)正負面分為4 類,0 代表中性,1 代表正面,2 代表負面,3 代表同時具有正負兩面。該詞匯庫的情感強度值和極性值將用于CI-SC 方法的數(shù)值化計算過程,因此使用該詞匯庫作為CI-SC 詞典中的情感詞典。

        除情感詞外,CI-SC 的計算過程還需要程度副詞詞典,目前中文詞典中,程度副詞質(zhì)量較高的是知網(wǎng)Hownet。其將常見的近400 個中英文程度副詞分為6 個等級,分別為“最”、“很”、“較”、“稍微”、“略微”、“超過”。其程度副詞詞典較情感詞匯庫的副詞更為直觀簡潔,更適合用于CI-SC 方法的后續(xù)計算。

        CI-SC 綜合使用知網(wǎng)Hownet 和大連理工大學情感詞匯庫作為情感詞典,對帖子文本的情感極性進行計算。其中情感詞匯本體庫作為基礎情感詞典,Hownet 作為程度副詞詞典。

        通過詞典查找每條帖子中出現(xiàn)的所有情感詞的極性強度值,如存在程度副詞和否定詞,則對相應情感詞的極性強度乘以對應權重,將所有情感詞的極性強度值加權求和作為帖子的極性值Sentid。計算公式如下:

        其中L是帖子d包含的所有情感詞的集合,Wi是情感詞i在程度副詞和否定詞影響下的權重,Sentii是情感詞i在詞典中的極性強度值。

        由于不同用戶在同一話題下發(fā)表的帖子數(shù)量不同,為減少發(fā)帖量對后續(xù)情感分析的影響,對每個用戶的所有帖子的情感極性取均值,作為用戶的情感極性特征AvgSentiu,計算公式如下:

        其中D={D1,D2,…,Dn}為用戶u在話題下發(fā)表的所有帖子的集合,n為集合D的帖子數(shù)量。

        通過對帖子所持立場進行標注,得出每個用戶的立場傾向值Attitudeu,代表用戶對于話題主體的態(tài)度,數(shù)值越大表示用戶越傾向于支持話題主體,反之則越傾向于反對話題主體,計算公式如下:

        其中D={D1,D2,…,Dn}為用戶u在話題下發(fā)表的所有帖子的集合,Wd表示帖子d的立場權重,由帖子d的立場標記tag決定。由于帖子的情感傾向和立場傾向相互獨立,一個立場上支持話題主體的帖子的情感可能是正面的也可能是負面的,因此在計算立場值時只需考慮情感極性值的絕對值。

        2.3 用戶聚類和意見領袖發(fā)現(xiàn)

        基于用戶綜合影響力特征和情感特征對所有用戶進行聚類分析,根據(jù)聚類分析結果發(fā)現(xiàn)具有較大影響力和明顯情感特征的意見領袖。

        3 實驗驗證

        3.1 實驗數(shù)據(jù)和環(huán)境

        使用爬蟲工具weibo-search 和weibo-crawler,爬取微博 “方方日記”話題下所有熱門帖子的互動行為數(shù)據(jù)和發(fā)帖用戶的個人屬性數(shù)據(jù)作為實驗數(shù)據(jù)集。采集時間為2020年9月,采集范圍為2020年2月1日0 時至2020年6月30日23 時,共采集到2000條帖子的互動行為數(shù)據(jù)和920 名用戶的個人屬性數(shù)據(jù)。該數(shù)據(jù)集包含的具體特征如表2所示。

        表2 數(shù)據(jù)特征一覽表Table 2 List of data features

        實驗的硬件配置是Intel(R)Core(TM)i7-9750H 2.60GHzCPU,內(nèi)存16GB,操作系統(tǒng)Windows10。

        3.2 實驗流程

        計算用戶綜合影響力特征。按照2.1 綜合影響力計算公式,計算所有用戶的總影響力TotalInfu和平均影響力AvgInfu作為用戶的綜合影響力特征。

        計算用戶情感特征。按照2.2情感特征計算公式,計算所有用戶的情感極性值AvgSentiu和在此話題下的立場值Attitudeu作為用戶的情感特征。

        依據(jù)綜合影響力特征和情感特征,對采集到的所有用戶進行聚類,發(fā)現(xiàn)具有較大影響力和明顯情感特征的意見領袖。

        3.3 實驗結果分析

        使用綜合影響力特征和情感特征對所有用戶進行K-均值聚類,如圖3所示。

        圖3 CI-SC 方法的K-均值聚類結果Fig.3 K-means clustering results of CI-SC

        用戶被分為4 類。第3 類占94.67%,其影響力較低,代表主流人群;第2 類占0.87%,其影響力和主流人群沒有出現(xiàn)明顯區(qū)別,但情感特征值出現(xiàn)了明顯極化,代表主流人群中的少數(shù)極端派;第1 類和第4 類分別占3.91%和0.54%,其影響力指標顯著高于主流人群,情感特征也表現(xiàn)出了明顯不同于主流人群的模式,其中第4 類的影響力指標最為突出,故第4 類代表最為關鍵的核心意見領袖,第1 類代表普通意見領袖。4 類人群的綜合影響力特征和情感特征統(tǒng)計見表3。意見領袖的各類綜合影響力特征和情感特征都表現(xiàn)出了與主流人群的顯著差異,尤其以核心意見領袖最為突出。

        表3 聚類結果的綜合影響力特征和情感特征對比Table 3 Comparison of comprehensive influence and sentiment characteristics among clustering results

        核心意見領袖與普通意見領袖的平均影響力差別較小,平均值較主流人群高約0.12 到0.14,標準差較主流人群低20%,說明意見領袖在輿情事件中造成影響的效率明顯高于主流人群,且意見領袖之間的效率差別小于主流人群內(nèi)部的效率差別,即意見領袖能夠更高效且穩(wěn)定地對輿論造成影響。在總影響力方面,核心意見領袖和普通意見領袖區(qū)別較大,但均與主流人群表現(xiàn)出顯著差距,其中普通意見領袖約較主流人群高1 個數(shù)量級,核心意見領袖約高2 個數(shù)量級,說明意見領袖在輿情事件中造成的總影響遠大于普通人,尤其是少數(shù)的核心意見領袖,其影響極為突出。

        相比于主流人群,意見領袖同時表現(xiàn)出差異性和相似性。核心意見領袖的情感極性均值為-26.67,與主流人群均值-26.51 幾乎一致,但標準差僅為19.04,遠小于主流人群的101.19,表明核心意見領袖在輿情事件中表現(xiàn)出的情感與主流人群非常相似,但變化更小,說明核心意見領袖能夠得到主流人群廣泛共情與認同。普通意見領袖的情感極性均值為-77.07,與主流人群區(qū)別較大,但標準差較為接近,為86.12,表明普通意見領袖在輿情事件中表現(xiàn)出的情感只與主流人群中的部分人相似,且變化更大,說明普通意見領袖只能得到部分人群的共情與認同。

        在立場值方面,意見領袖相比主流人群,表現(xiàn)出了極為明顯的負面立場。其中核心意見領袖的立場最為堅定,均值達到-1788.8,普通意見領袖次之,達到-734.4,而主流人群的立場均值僅為-2.3。說明意見領袖不同于主流人群,在輿情事件中會表現(xiàn)出非常明確的立場偏向。

        聚類結果的顯著性檢驗結果表明,在所有特征上得到的P 值都小于0.001,說明CI-SC 方法發(fā)現(xiàn)的意見領袖在綜合影響力特征和情感特征上都與主流人群表現(xiàn)出了極其顯著的統(tǒng)計學差異。

        為進一步驗證CI-SC 方法發(fā)現(xiàn)結果的正確性,對發(fā)現(xiàn)的意見領袖進行其他特征的分析。由于目前并不存在一個公認精確的意見領袖評價標準,因此采用Rogers 等提出的觀察法[32],通過用戶的其他身份信息和社交網(wǎng)絡關系判定發(fā)現(xiàn)結果是否符合意見領袖的定義。

        CI-SC 方法發(fā)現(xiàn)的核心意見領袖的各項數(shù)據(jù)指標均遠超主流人群平均水平,且在身份類型、活躍領域上表現(xiàn)出相似性(表4)。在個人屬性特征方面,核心意見領袖的粉絲數(shù)超過主流人群中的大部分人,粉絲最多的“地瓜熊老六”高于主流人群中98%的用戶,粉絲最少的“騎掃帚的老道士”高于主流人群中69%的用戶。在互動行為方面,主流人群的人均被轉(zhuǎn)發(fā)數(shù)、人均被評論數(shù)、人均被點贊數(shù)分別為294、342、3358,而核心意見領袖的對應數(shù)據(jù)分別為2428 到50232、3062 到46881、21792 到631000,高出主流人群1 到2 個數(shù)量級。在身份類型方面,4名核心意見領袖具有自媒體身份,另外1 名則是知名互聯(lián)網(wǎng)社區(qū)的官方代表,這兩類身份的用戶在輿情事件的討論中都較為活躍。在活躍領域方面,“帝吧官微”、“上帝之鷹_5zn”、“地瓜熊老六”均為時政類話題下的知名大V;另外2 名的活躍領域雖不明確集中于時政類,但其發(fā)帖大量涉及新聞內(nèi)容,與輿情事件聯(lián)系較大。

        表4 CI-SC 的核心意見領袖發(fā)現(xiàn)結果Table 4 Core opinion leaders identified by CI-SC

        圖4 展示了核心意見領袖的部分社交網(wǎng)絡關系。研究發(fā)現(xiàn)核心意見領袖內(nèi)部普遍存在關注關系,“帝吧官微”、“上帝之鷹_5zn”、“地瓜熊老六”三人互相關注,“作者海菱”和“帝吧官微”互相關注,“騎掃帚的老道士”則關注了所有人。核心意見領袖還普遍得到公認具有較大影響的其他用戶的關注,如國家級媒體和知名公眾人士等?!暗郯晒傥ⅰ北弧肮睬鄨F中央”、“中國日報”等官方媒體關注,“上帝之鷹_5zn”被“政委燦榮”等智庫專家關注,“地瓜熊老六”被“觀察者網(wǎng)”等半官方媒體關注。說明CI-SC 方法發(fā)現(xiàn)的意見領袖受到了媒體、公眾人物和其他意見領袖的普遍關注,符合意見領袖的定義。

        圖4 核心意見領袖的部分關注關系Fig.4 Part of the core opinion leaders’ following relationships

        CI-SC 發(fā)現(xiàn)的意見領袖在信用度和認證狀態(tài)等方面都表現(xiàn)出了和主流人群的明顯區(qū)別(圖5、圖6),其信用更好、認證比例更高,說明CI-SC 發(fā)現(xiàn)的意見領袖的個人信息更為真實,信用更好,因而容易得到更多人認同。

        圖5 意見領袖和主流人群的信用等級對比圖Fig.5 Comparison of credit ratings between opinion leaders and mainstream people

        圖6 意見領袖和主流人群的身份認證狀態(tài)對比圖Fig.6 Comparison of the authentication status between opinion leaders and mainstream people

        綜上,CI-SC 方法能夠發(fā)現(xiàn)在話題下具有較大影響力和明顯情感特征的意見領袖。通過對發(fā)現(xiàn)結果的檢查,可以驗證CI-SC 方法發(fā)現(xiàn)結果的正確性。

        3.4 對比實驗

        為驗證CI-SC 相對于傳統(tǒng)意見領袖發(fā)現(xiàn)方法的創(chuàng)新性,在實驗數(shù)據(jù)集上進行CI-SC 方法和傳統(tǒng)的基于影響力的意見領袖方法的對比實驗。選用的對比算法為基于用戶粉絲數(shù)的UserRank 算法[17],基于交互數(shù)據(jù)的意見領袖識別算法,基于用戶重要性得分的微博客意見領袖識別算法 和引入活躍指數(shù)的微博用戶排名算法 。以不同算法發(fā)現(xiàn)的意見領袖集合的重合率作為評價指標,計算公式如下:

        其中K為發(fā)現(xiàn)的意見領袖數(shù)量,a和b代表進行對比的算法,TopResult表示基于對應算法發(fā)現(xiàn)的Top-K意見領袖集合。實驗結果如圖7所示。

        圖7 CI-SC 與各對比算法的結果重合率Fig.7 Overlap of results between CI-SC and each comparison algorithm

        實驗結果顯示,在選取的意見領袖數(shù)量Top-K較少時,本方法和選用的所有對比算法的結果重合率都較低,隨著選取的意見領袖數(shù)量上升,重合率也逐漸上升并趨于平穩(wěn)。在選定的意見領袖數(shù)量不高于CI-SC 發(fā)現(xiàn)的意見領袖數(shù)(41 人)時,四種對比算法的重合率分別不高于0.136、0.601、0.166和0.155。其中,CI-SC 與基于交互數(shù)據(jù)的識別算法的結果重合率相對較高,但波動較大,與其他三種算法的重合率則相對較低。由3.3 中的分析可知,CI-SC 方法的發(fā)現(xiàn)結果符合意見領袖的定義,且表現(xiàn)出了統(tǒng)計學顯著性,說明CI-SC的發(fā)現(xiàn)結果正確有效。故對比實驗中重合率較低的部分表明,CI-SC 方法發(fā)現(xiàn)了被傳統(tǒng)算法忽視的部分用戶,這些用戶在傳統(tǒng)意義上影響力有限,但實際上其發(fā)表的內(nèi)容在話題下能夠得到其他用戶的廣泛傳播和互動,屬于應當被發(fā)現(xiàn)的意見領袖。除基于交互數(shù)據(jù)的識別算法外,其他三種算法的重合率曲線非常相似,說明這三種算法較為類似,都遺漏了相同一部分意見領袖,而CI-SC 方法能夠作為此類傳統(tǒng)方法的有效補充,用于發(fā)現(xiàn)這部分被遺漏的意見領袖。

        3.5 CI-SC 適用范圍的廣泛性論證

        上述實驗基于新浪微博平臺“方方日記”話題下的相關數(shù)據(jù),對CI-SC 方法的有效性和正確性進行了驗證。事實上,除微博平臺的此話題外,CI-SC也可以有效用于其他網(wǎng)絡平臺和事件中的意見領袖發(fā)現(xiàn)。

        CI-SC 的核心數(shù)據(jù)是基于用戶個人資料數(shù)據(jù)構建的用戶基本影響力、基于用戶在選定話題下發(fā)言的統(tǒng)計數(shù)據(jù)的RCL 指標和基于用戶發(fā)言內(nèi)容的情感特征。這三大類數(shù)據(jù)指標的獲取實際上是平臺無關的,即在任何網(wǎng)絡平臺上都可以獲得用戶的這三類數(shù)據(jù),并以此進行后續(xù)的相關計算與意見領袖發(fā)現(xiàn),不同平臺的區(qū)別僅僅在于最原始數(shù)據(jù)特征的名稱與對應權重的取值。

        以知乎平臺為例,其用戶的公開個人資料中包括“創(chuàng)作數(shù)”、“我關注的(人數(shù))”和“關注我的(人數(shù))”三項基本數(shù)據(jù),分別對應微博平臺的“微博數(shù)”、“關注數(shù)”和“粉絲數(shù)”,即公式(1)中的WB、FO和FAN,因此僅需要將上述數(shù)據(jù)帶入(1)中的對應項,并修改對應權重,即可使用CI-SC 獲得知乎用戶的基本影響力。另一方面,知乎帖子的數(shù)據(jù)指標與微博僅有微小不同,沒有“轉(zhuǎn)發(fā)數(shù)”,但同樣具有“點贊數(shù)”和“評論數(shù)”指標,且另增了“喜歡數(shù)”和“收藏數(shù)”兩個指標,因此僅需對(2)中的分子部分略作修改,將“點贊數(shù)、評論數(shù)、轉(zhuǎn)發(fā)數(shù)的加權和”修改為“點贊數(shù)、評論數(shù)、喜歡數(shù)、收藏數(shù)的加權和”即可得到知乎帖子的RCL 指標。此外,針對帖子文本內(nèi)容的情感極性計算和立場計算僅僅與文本所用的語言種類有關,而不與平臺直接相關,在知乎等中文平臺上,CI-SC 中情感分析部分的流程是完全一致的,都是對用戶在話題下發(fā)表的中文文本進行分詞后,調(diào)用中文情感詞典進行計算。而在得到用戶基本影響力、帖子RCL指標、情感特征后,CI-SC流程中剩余的數(shù)據(jù)都可被同樣的計算公式得出。即在所有的中文平臺上,CI-SC 方法都可被應用,需要調(diào)整的部分僅包括計算用戶基本影響力或帖子RCL指標時所采用的具體原始數(shù)據(jù)的個數(shù)與權重。

        除中文平臺外,CI-SC 也可用于其他語言平臺。以推特為例,其使用的原始數(shù)據(jù)與微博完全一致,用戶具有“發(fā)推數(shù)”、“關注數(shù)”、“粉絲數(shù)”等數(shù)據(jù),帖子具有“點贊數(shù)”、“轉(zhuǎn)發(fā)數(shù)”、“評論數(shù)”等數(shù)據(jù),其用戶基本影響力和帖子RCL 指標的計算與微博平臺幾乎完全相同;唯一的區(qū)別在于情感分析部分,對于推特上的其他語言用戶,需要使用其他語言的情感詞典。替換為對應語言詞典后,CI-SC 即可用于外語網(wǎng)絡平臺上的意見領袖發(fā)現(xiàn)。

        CI-SC 所使用的“發(fā)帖數(shù)”、“粉絲數(shù)”、“點贊數(shù)”等數(shù)據(jù)是應用最為廣泛的數(shù)據(jù)特征,幾乎所有主流平臺都擁有上述數(shù)據(jù),因此CI-SC 可以在主流平臺得到廣泛應用。

        除與平臺無關外,CI-SC 同樣與具體的輿情事件無關。輿情事件的不同只意味著被收集到的原始數(shù)據(jù)不同,但每個事件能夠收集到的原始數(shù)據(jù)最終都是確定的。而CI-SC 是定量方法,在原始輸入數(shù)據(jù)確定后,其輸出結果就將確定。因此,不存在CI-SC 只適用于某些輿情事件而不適用于另一些的可能性。只要確定了輿情事件對應的原始數(shù)據(jù),CI-SC就可從中發(fā)現(xiàn)較為重要的意見領袖。

        綜上,CI-SC 是平臺無關與事件無關的,并不僅僅適用于微博平臺的“方方日記”事件。在其他網(wǎng)絡平臺和其他輿情事件中,CI-SC 同樣可以對相關數(shù)據(jù)進行分析,并從中發(fā)現(xiàn)對應的意見領袖。CI-SC能夠適用于大多數(shù)主流平臺,對當前多平臺輿情事件的意見領袖發(fā)現(xiàn)具有一定的實際價值。

        4 總結與展望

        本文針對傳統(tǒng)的基于影響力的意見領袖發(fā)現(xiàn)方法局限于部分數(shù)據(jù)特征,使得一些在話題下產(chǎn)生了較大實際影響的意見領袖被忽略的問題,提出一種基于綜合影響力和情感特征的意見領袖發(fā)現(xiàn)方法CI-SC。

        CI-SC 綜合考慮用戶的個人屬性特征和帖子的互動行為特征,并在此基礎上引入用戶的情感特征,通過聚類實現(xiàn)意見領袖發(fā)現(xiàn)。相比于pageRank 和HITS 類發(fā)現(xiàn)算法,CI-SC 不需要獲取用戶之間的評論等互動關系,只需要獲得用戶自身的數(shù)據(jù),因而數(shù)據(jù)采集的難度較低;此外,pageRank 和HITS 本質(zhì)上是基于數(shù)種指標的排序算法,將對應指標排名靠前的用戶視為意見領袖,而CI-SC 的發(fā)現(xiàn)過程基于綜合考慮影響力和情感特征的聚類算法,在得到類別后再使用影響力指標進行類內(nèi)排序。實驗表明,CI-SC 方法的發(fā)現(xiàn)結果符合意見領袖的定義,表現(xiàn)出了統(tǒng)計學顯著性,且與傳統(tǒng)意見領袖發(fā)現(xiàn)方法的結果的重合率較低。說明CI-SC 方法可以發(fā)現(xiàn)傳統(tǒng)算法容易忽略的,在輿情事件中具有較大實際影響和明顯情感特征意見領袖,在輿情分析與引導中具有一定的實際意義與應用價值。

        目前對CI-SC 方法的研究集中在有限規(guī)模的數(shù)據(jù)集,可在更大規(guī)模的數(shù)據(jù)集上進行進一步實驗,并引入更多方面的特征,從而實現(xiàn)更有效的意見領袖發(fā)現(xiàn)。

        利益沖突聲明

        所有作者聲明不存在利益沖突關系。

        猜你喜歡
        帖子領袖詞典
        領袖風范
        黃河之聲(2022年6期)2022-08-26 06:46:04
        咱們的領袖毛澤東
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        評《現(xiàn)代漢語詞典》(第6版)
        詞典例證翻譯標準探索
        暴力老媽
        領袖哲學
        平民領袖
        《胡言詞典》(合集版)刊行
        當代修辭學(2013年4期)2013-01-23 06:43:10
        情事圈點
        女性天地(2012年11期)2012-04-29 00:44:03
        国产成人午夜福利在线观看者| 亚洲av成人综合网成人| 无码中文亚洲av影音先锋 | 中国久久久一级特黄久久久| 凹凸在线无码免费视频| 日韩另类在线| 亚洲中文字幕第二十三页| 男女啪啪视频高清视频| 中文字幕无码毛片免费看| 久久夜色撩人精品国产小说| 国产三级在线观看性色av| 亚洲一区二区三区精品| 天天综合网在线观看视频| 国产精品精品| 精品女同av一区二区三区| 精品人伦一区二区三区蜜桃91| 玩弄放荡人妻少妇系列视频| 97人妻视频妓女网| 日本顶级片一区二区三区 | 国产免费人成视频在线观看播放播| 日本丰满少妇xxxx| 国产免费无码一区二区三区| 亚洲欧美成人中文在线网站 | 久久久精品2019免费观看| 黄色国产精品福利刺激午夜片| 美女网站免费福利视频| 最新国产三级| 日本免费a一区二区三区 | 亚洲一区免费视频看看| 亚州国产av一区二区三区伊在| 亚洲精品无码人妻无码| 亚洲精品综合在线影院| 国产91色综合久久高清| 天干天干天啪啪夜爽爽av| 亚洲偷自拍另类图片二区| 少妇人妻系列中文在线| av国产传媒精品免费| 亚洲欧美日韩高清专区一区| 亚洲精品在线观看一区二区| 久久综合久久美利坚合众国| 天天综合亚洲色在线精品|