亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于二部配置模型的網(wǎng)絡用戶分組及重要回復者識別

        2021-12-14 09:11:40張亞茹唐錫晉
        系統(tǒng)工程學報 2021年5期
        關鍵詞:用戶組普通用戶發(fā)帖

        張亞茹, 唐錫晉

        (1.中國科學院數(shù)學與系統(tǒng)科學研究院,北京 100190;2.中國科學院大學,北京 100049)

        1 引 言

        當今社交媒體迅速發(fā)展,越來越多的人習慣通過微博、論壇和媒體網(wǎng)站瀏覽感興趣的內(nèi)容,獲取網(wǎng)絡輿情,參與話題討論,發(fā)表個人所感.Mohbey 等[1]以意大利選舉期間的帖子為語料,定義了政治界主要討論的農(nóng)業(yè)、基礎設施建設、教育以及就業(yè)等9 大類選舉問題,并使用深度學習方法將用戶發(fā)表的言論劃分為上述9類,以預測用戶關注的焦點.目前也有許多關于輿情事件與社會網(wǎng)絡用戶影響力的研究.學者們研究了確定高影響力事件,抽取事件要素的方法[2,3],開展了文本聚類、話題分析等工作[4?6].對于社會網(wǎng)絡中用戶影響力的研究,主要是從用戶網(wǎng)絡屬性,用戶行為方式和互動規(guī)律,用戶距離等角度出發(fā)進行探索的[7?11].隨著粉絲經(jīng)濟,直播帶貨,廣告推薦,新聞推送的興起,挖掘網(wǎng)民興趣偏好,精準定位用戶群,為不同群體推薦其感興趣的事物,對于提高網(wǎng)絡營銷效益,及時獲取民意具有重要意義.Liao 等[12]研究了一種基于關聯(lián)規(guī)則的推薦方法.首先通過問卷調查考察了多種社會網(wǎng)絡用戶進行在線社會網(wǎng)絡營銷的經(jīng)歷.接著根據(jù)這些用戶的網(wǎng)絡行為和偏好對他們聚類,并探索用戶畫像、社會網(wǎng)絡管理、社會網(wǎng)絡行為、在線購買行為、社會網(wǎng)絡營銷以及個性化推薦間的關聯(lián).最后基于關聯(lián)規(guī)則得到的知識圖為每個群體推薦其可能會購買的物件.用戶分組的效果是群體推薦的關鍵.

        社會網(wǎng)絡用戶的分組依賴于圖上的社區(qū)劃分.目前已有許多對單部圖進行社區(qū)劃分的方法,如基于模塊度優(yōu)化的算法[13],基于節(jié)點表示學習的方法[14,15].由于現(xiàn)實中存在很多包含兩種節(jié)點類型的二部圖,學者們也研究了二部圖上的社區(qū)劃分方法.二部圖的社區(qū)劃分,分為兩種情形,一種是在整個二部圖上同時對兩種類型的節(jié)點進行社區(qū)劃分,另一種是通過某種方式將二部圖映射為僅包含同一節(jié)點類型的單部圖,從而對每一類節(jié)點執(zhí)行單部圖上的社區(qū)劃分.對于前者, 主要是在單部圖社區(qū)劃分算法基礎上改進距離度量方式[16],或者是模塊度衡量方式[17,18].這類方法沒有區(qū)分節(jié)點類型,未充分利用二部關聯(lián)關系.Tackx等[19]提出COMSIM 算法用于二部圖社區(qū)劃分.首先以同類節(jié)點的共同鄰居數(shù)作為單部圖中相應邊的權重(節(jié)點間的相似度),接著將映射得到的單部圖中每個環(huán)具有最大連接權重的兩節(jié)點作為各社區(qū)的核心,最后對于每個非核心節(jié)點選擇其與社區(qū)所有節(jié)點間相似度總和最大的社區(qū)作為其所屬社區(qū).該方法通過直接映射的方式獲取單部圖,會造成節(jié)點連接稠密,且包含相似性不高的連邊.Cui 等[20]使用二部網(wǎng)絡中的單部社區(qū)結構實現(xiàn)節(jié)點聚類.首先通過二部網(wǎng)絡的拓撲性質,構造二部聚類三角形,接著通過這種二部聚類三角形將二部網(wǎng)絡映射為兩個加權的單部網(wǎng)絡,然后從加權的單部網(wǎng)絡中抽取全部最大子圖,通過聚類閾值合并最大子圖實現(xiàn)節(jié)點聚類.該方法基于對子圖的合并得到社區(qū),可能會造成同一社區(qū)多種不一致子類節(jié)點群的情況.已有的社會網(wǎng)絡用戶分組研究主要根據(jù)用戶畫像相似性、直接的交互關系建立用戶間的連邊,進而借助單部圖的社區(qū)劃分算法得到用戶群[21?23].但是面臨著很多用戶未填寫個人信息或者所提供信息與分組類別關聯(lián)性不大、大型社會網(wǎng)絡中用戶連接稀疏等瓶頸.社交媒體中的用戶按照熱度,可以分為兩個層級,一類是發(fā)布熱點話題的熱門用戶或者頂級用戶,另一類是普通用戶,通常普通用戶傾向與熱門用戶建立社會關系,如回復、轉發(fā)等,此關聯(lián)可能蘊含了用戶的話題偏好.如果能夠利用這種關聯(lián)進一步衡量頂級用戶間的相似性,那么將為用戶分組提供新思路.

        社會影響力研究用于獲取社會網(wǎng)絡層面富有影響力的關鍵節(jié)點,而對于個體層面的自我網(wǎng)絡,則更關注與其關聯(lián)緊密的群體,以及他們間的交互、相互作用.已有的相關研究大多集中于后者,如預測個體所發(fā)帖子的回復者,預測回復內(nèi)容等.回復者預測是網(wǎng)絡用戶回復行為研究方向的熱點,按照任務設定有分類、排序兩大類方法.Schantl 等[24]基于回復者關注話題與帖子話題相似性這一話題特征,描述社會關系的社會特征,以及帖子流行特征來對用戶是否會回復某條帖子進行二分類預測,并發(fā)現(xiàn)相比于話題偏好,社會關系是更為重要的回復行為影響因子.Yuan 等[25]基于互惠、時序和上下文特征考慮友誼關系動態(tài),并結合排序模型預測用戶的哪些朋友將更有可能回復其發(fā)布的某條帖子.但是很多時候用戶的好友僅僅點贊或者瀏覽,特別是對于頂級用戶,好友關系并不是一個用于預測回復者的較為有效的社會特征.如果事先識別出用戶的歷史重要回復者,并添加這一社會關系特征可增加預測的準確性.本文聚焦于確定個體的歷史重要回復者,即易與該個體建立回復關系的群體,這將有助于回復者預測任務的開展,且在消息傳播機制中,其它用戶的回復也加大了原帖的可見性,因此對于用戶發(fā)布的負面新聞,輿情管理者通過限制其重要回復者的發(fā)言或制約消息傳播;對于用戶發(fā)布的正面新聞,即時推送給重要回復者,引起追隨,加速消息傳播.

        Saracco 等[26]提出了一種基于熵的空模型——二部配置模型(bipartite configuration model,BICM),實現(xiàn)了將二部圖映射為單部圖,這為二部圖上單模節(jié)點的社區(qū)劃分提供了可能.已有基于該模型的實際應用,如在世界貿(mào)易網(wǎng)絡中,確定國家群以及產(chǎn)品群;在用戶影評網(wǎng)絡中,確定電影的分組;以關于選舉的帖子為數(shù)據(jù)源,根據(jù)未驗證用戶對驗證用戶的轉帖行為,確定用戶的政治聯(lián)盟,考慮用戶與帖子間的發(fā)帖與轉發(fā)貼有向關系識別社會網(wǎng)絡的重要傳播者[27].受以上研究工作的啟發(fā),本文嘗試將BICM 應用到社交媒體場景下頂級用戶、帖子和普通用戶間基于發(fā)帖關系以及回復關系的二部圖中,期望獲取具有不同話題偏好的用戶組,并識別頂級用戶的重要回復者.相較于文獻[28]在移動情境感知環(huán)境下挖掘用戶行為模式,以開展精準營銷的個性化推薦服務,本文所開展的用戶分組研究工作則強調從個體行為獲取群體特征,以推動下游基于群體的新聞推薦的任務.具體的,以天涯論壇為例,視天涯雜談版塊“年度拾英”用戶為頂級用戶,頂級用戶一年內(nèi)在天涯雜談發(fā)帖的回復者為普通用戶,由普通用戶的回復行為使用BICM 建立頂級用戶間的連邊,進而對圖劃分,實現(xiàn)頂級用戶分組,并根據(jù)用戶發(fā)帖類型探索每組用戶的話題偏好.接著根據(jù)普通用戶對各頂級用戶組的極化回復,確定普通用戶組別.再建立頂級用戶與發(fā)帖間的二部圖、全部回復者與回帖間的二部圖,聯(lián)合BICM 與二部部分配置模型(bipartite partial configuration model,BIPCM)確定頂級用戶的重要回復者.通過該方式得到的每組用戶,內(nèi)部關聯(lián)緊密,外部稀疏連接,且具有較為一致的話題偏好.獲取的重要回復者對相應的頂級用戶依附度很高,是相應頂級用戶的高概率消息受體及反饋者.此外,發(fā)現(xiàn)存在重要回復者的頂級用戶多發(fā)表負面情緒的新聞,此時重要回復者帶有負面情緒的回復也居多.因此對于影響網(wǎng)絡環(huán)境的負面新聞,除了對相應發(fā)帖人進行管控外,限制重要回復者的回復也很重要.

        2 頂級用戶發(fā)帖回帖標題聚類分析

        天涯論壇是目前中國最活躍的論壇之一,包括天涯雜談、時尚資訊和球迷一家等多個版塊,其中天涯雜談是關于民生的版塊,它以一年內(nèi)用戶在該版塊所發(fā)帖子的總點擊量為排序指標,給出了前80 位天涯拾英用戶,本文以之為頂級用戶,于2019–11–07 爬取這些頂級用戶過去一年中的發(fā)帖,發(fā)帖下的回復(并解析得到各頂級用戶的回復者),用戶畫像,以及頂級用戶所做的回復.其中2 位用戶因為被封殺或者刪除賬戶無法爬取.

        頂級用戶一年內(nèi)在天涯雜談的發(fā)帖共566 條,一年內(nèi)在天涯雜談回復的帖子數(shù)共742 條,使用自然語言處理中的預訓練模型Bert1https://zhuanlan.zhihu.com/p/48612853表示每個帖子標題向量,形成1 308×768 的二維數(shù)組,已有研究表明低維度的向量聚類效果更好[4],因此本文訓練自編碼器,將768 維數(shù)據(jù)壓縮到2 維.

        具體的,從均隸屬于天涯雜談版塊的頂級用戶發(fā)帖以及所回復的原貼的標題向量中選取1 108 條作為訓練集,另外的200 條作為測試集,設置一個編碼器與一個解碼器,當解碼得到的向量與原向量的均方差損失很小時,以編碼器結果作為標題低維向量表示.設置batch_size = 64,當?shù)啍?shù)為200 時,訓練損失達到0.068 7,測試集損失達到0.065 0,迭代終止,保存模型,得到高維向量編碼結果.?

        使用K-Means 對表達成二維向量的頂級用戶一年內(nèi)在天涯雜談的發(fā)帖進行聚類,根據(jù)帖子標題向量在二維坐標系中的分布,本文將簇數(shù)設置為4,最終得到的4 個帖子簇分別是日常生活型,社會風險型,故事敘述型,地區(qū)風險型.圖1 分別顯示每位用戶各種類型發(fā)帖數(shù)目以及比例.發(fā)帖數(shù)目多的用戶,其發(fā)帖類型呈現(xiàn)多樣性,但仍有偏重.

        使用K-Means 對二維向量表示的頂級用戶一年內(nèi)在天涯雜談所回復的原帖對應的標題聚類,仍然聚集成了上述4 種類型的簇.圖2 分別顯示每位用戶回復的帖子中各種類型帖子的數(shù)目以及比例.

        圖2 頂級用戶回復的帖子類型分布Fig.2 Distribution of types of posts replied by top users

        各用戶回復的帖子類別分布與發(fā)貼類別分布相似,這種相似性源于用戶的話題偏好.

        3 頂級用戶分組

        若要實現(xiàn)對頂級用戶的分組,一種以發(fā)帖類型為指導的方法是將用戶歸到發(fā)帖類型最多的那一組.但是這種方式忽略了用戶興趣的多樣性與不同類別帖子間的關聯(lián)性.下面介紹二部配置模型,并應用該模型實現(xiàn)頂級用戶分組.

        3.1 二部配置模型

        R,S分別表示頂級用戶集與普通用戶集,各自有NR,NS位用戶.若某用戶s回復過頂級用戶r的發(fā)帖,則建立兩者間的無向連邊.該部分旨在根據(jù)普通用戶的回復行為,確定相似的頂級用戶,以實現(xiàn)分組.單射指的是若兩個頂級用戶有共同回復者則建立兩者間的連邊,但僅僅依據(jù)單射,會形成一個較為密集的頂級用戶網(wǎng)絡,并且這種相似性很不可靠.一般來說,只有兩個頂級用戶擁有統(tǒng)計意義上足夠多的共同鄰居,才能夠認為它們是相似的,如圖3 中r1,r2用戶有3 個共同回復者,若“3”為統(tǒng)計意義上的“大量”,那么可以認為這兩個頂級用戶間存在相似性連邊.BICM 提供了一種假設檢驗的方法來確定兩頂級用戶間連邊的存在性,這使得頂級用戶間的相似性連接更可信.

        在同節(jié)點的所有可能圖中某種圖結構M 出現(xiàn)的概率可表示為

        若設定兩種類型節(jié)點的連接概率為prs,mrs為圖M 的0/1 鄰接矩陣中相應的值,則圖M 出現(xiàn)的概率也可使用下列概率公式表示,即

        綜合式(1)和式(2),可得

        用〈kr〉,〈ks〉表示兩類節(jié)點的期望度,k?r,k?s為兩類節(jié)點的實際度,最大化實際圖出現(xiàn)的概率,兩者的關系為進而有

        其中LM為二部圖M 中實際的邊數(shù),則得到兩類節(jié)點的連接概率prs=k?rk?s/LM.

        對于任意的兩個頂級用戶r,r′有共同回復者s的概率Pr(V srr′)=prspr′s=(k?rk?s/LM)(k?r′k?s/LM),兩者的期望回復者數(shù)目以及實際回復者數(shù)目分別為

        假設r,r′之間不存在連邊(即r,r′的共同回復者不是足夠的多),以Vrr′作為代表r,r′間共同回復者數(shù)目的隨機變量,取值范圍0,1,...,NS,其服從泊松二項分布fPB,Sn為全部可能的S中的n節(jié)點集構成的集合,則

        不等式右邊較小,為了簡化計算,用泊松分布代替泊松二項分布,則泊松分布以期望值〈Vrr′〉為參數(shù).

        得到系列φ后,使用多重檢驗方法FDR 對原假設進行聯(lián)合檢驗.將計算得到的φ從小到大排列

        設t=0.05,求滿足φ(i)≤it/C2NR的i最大值i?,并以φ(i?)為閾值,拒絕小于等于閾值的原假設,確定頂級用戶間連邊.當兩頂級用戶沒有共同回復者時,V ?rr′=0,因為NS很大,φ接近1,肯定會接受原假設,即兩者間不存在連邊.

        3.2 頂級用戶分組結果

        頂級用戶與普通用戶的二部圖中共有43 336 個節(jié)點,66 963 條邊.如果采用文獻[19]的方法,對頂級用戶單射后,得到78 個節(jié)點,1 635 條加權邊,其中的71 個節(jié)點形成一個最大的閉環(huán),其余7 個節(jié)點與該閉環(huán)相連,則最終會形成一個社區(qū),無法區(qū)分不同用戶組.

        使用上述BICM 確定頂級用戶間的相似性連邊, 得到頂級用戶單模網(wǎng)絡.使用基于模塊度優(yōu)化的Louvain 算法[13]對網(wǎng)絡進行社區(qū)劃分.頂級用戶網(wǎng)絡包含78 個節(jié)點,520 條邊,平均聚類系數(shù)0.635,圖密度0.173.經(jīng)圖劃分后得到4 個大的用戶組,另有6 個孤立節(jié)點.

        為說明每個社區(qū)用戶的話題偏好,統(tǒng)計各社區(qū)頂級用戶發(fā)布各種類型帖子的數(shù)目,結果如圖4 所示.

        圖4 各社區(qū)頂級用戶發(fā)帖類型統(tǒng)計Fig.4 Statistics of post types of top users in each community

        圖4 中,C0 頂級用戶組的發(fā)帖以故事敘述型為主,另有部分日常生活型,少部分社會風險型;C1 頂級用戶組的發(fā)帖以日常生活型為主,兼具故事敘述型與社會風險型;C2 頂級用戶組發(fā)帖以社會風險型為主,另有部分日常生活型及少量地區(qū)風險型與故事敘述型;C3 頂級用戶組發(fā)帖以地區(qū)風險型為主,兼具社會風險型,日常生活型.

        圖5 為頂級用戶社區(qū)分布圖,各個社區(qū)基本呈現(xiàn)內(nèi)部連接緊密,外部稀疏連接的狀態(tài),但C0 與C1 社區(qū)外部連接也相對緊密,這是由于故事敘述型發(fā)帖與日常生活型發(fā)帖兩者間存在共性.介數(shù)中心性最大的前4 個節(jié)點: (49)“cotton 2000”(日常生活型與故事敘述型對半)、(58)“厚黑教主李宗吾”(社會風險、地區(qū)風險對半)、(2)“少華集團高董”(地區(qū)風險)和(24)“百財2019”(故事敘述型、日常生活型、社會風險型和地區(qū)風險型),從這些用戶所在社區(qū)與發(fā)帖類型來看,確實起著連接各社區(qū)的中介作用.

        圖5 頂級用戶社區(qū)分布Fig.5 Top user community distribution

        為進一步說明每個社區(qū)用戶話題的偏好性,提取每個主貼的前20 個TextRank 關鍵詞,帖子標題的前3個TextRank 關鍵詞.將每個頂級用戶組的發(fā)帖關鍵詞合并,取詞頻最大的前10 個關鍵詞(對于第10 位次的詞語,則將其相同詞頻的詞語一并陳列):

        C0(故事敘述型為主):[(‘沒有’,7),(‘人類’,6),(‘人生’,6),(‘朋友’,5),(‘理論’,5),(‘孩子’,5),(‘七絕’,5),(‘世界’,4),(‘原理’,4),(‘中國’,4),(‘引力’,4),(‘速度’,4),(‘光速’,4),(‘宇宙’,4),(‘時間’,4)];

        C1(日常生活型為主):[(‘沒有’,39),(‘時候’,34),(‘開始’,25),(‘感覺’,24),(‘孩子’,15),(‘知道’,13),(‘覺得’,13),(‘看到’,12),(‘事情’,12),(‘生活’,12),(‘早起’,12),(‘鍛煉’,12),(‘可能’,12)];

        C2(社會風險型為主):[(‘圖片’,66),(‘沒有’,52),(‘發(fā)布’,49),(‘問題’,41),(‘社會’,30),(‘造成’,27),(‘不能’,27),(‘進行’,26),(‘知道’,26),(‘需要’,25)];

        C3(區(qū)域風險型為主):[(‘公司’,18),(‘沒有’,18),(‘有限公司’,13),(‘法院’,12),(‘相關’,11),(‘投資’,10),(‘詐騙’,6),(‘法律’,6),(‘事實’,6),(‘項目’,6),(‘證據(jù)’,6),(‘師范類’,6)].

        C0 社區(qū)中的“人生”、“七絕”體現(xiàn)出用戶在論壇中談論自己的經(jīng)歷以及連載個人小說; C1社區(qū)中的“孩子”、“生活”表現(xiàn)出用戶發(fā)布日常生活中的問題等;C2 社區(qū)的特征詞“問題”、“社會”、“造成”體現(xiàn)了用戶關注社會風險型話題;C3 社區(qū)中的“公司”、“法院”和“詐騙”等體現(xiàn)了用戶談論的是某個機構或者某個管轄區(qū)域的風險.

        上文使用第三方普通用戶來建立頂級用戶間的連邊,并對頂級用戶網(wǎng)絡做了社區(qū)劃分.各社區(qū)頂級用戶的實際交互情況如圖6 所示.圖6 的橫坐標表示每個頂級用戶組,縱坐標表示所回復各社區(qū)的總人數(shù).C2中的頂級用戶回復的其它用戶最多,其中大部分為C2 中的人.C3 組的用戶所回復的用戶也大多處在C3組.這是由于同一社區(qū)中的用戶偏好相似,往往會產(chǎn)生交互,也說明了本文社區(qū)劃分的合理性.

        圖6 各社區(qū)頂級用戶實際交互情況Fig.6 Actual interaction of top users in each community

        4 普通用戶極化分析

        考慮二部圖中度大于等于2 的普通用戶(回復的頂級用戶數(shù)目多于1),計算每位普通用戶回復每個組的頂級用戶數(shù)占總數(shù)目的比例,若最值僅一個且大于0.25,認為出現(xiàn)了極化,得到7 253 位極化用戶.

        根據(jù)比例,極化于C0 的普通用戶組,將其歸到I0 普通用戶組,計算I0 組中普通用戶對各頂級用戶組回復比例的平均值,以相同的方式計算普通用戶的其它組別,得到極化熱度圖(圖7).分布結構顯示普通用戶極化現(xiàn)象明顯,特別是I3 對于C3 社區(qū)的極化較為突出,即地區(qū)風險型話題更容易引起極化.

        圖7 普通用戶極化熱度圖Fig.7 Polarization heat map of ordinary users

        極化分析根據(jù)回復體現(xiàn)的話題偏好實現(xiàn)了普通用戶的分組.將C3 與I3 用戶合并,該組別的用戶偏向于關注地區(qū)風險型話題.圖8 對這些用戶所在地進行了統(tǒng)計,網(wǎng)民參與了關于太原師范大學校園暴力,張家口化工廠爆炸,內(nèi)蒙古赤峰市2 000 名入學師范類定向大專生就業(yè)派遣訴求的地區(qū)風險型事件的討論,而該組別中山西、河北和內(nèi)蒙古的用戶居多,即該組用戶主要集中在風險發(fā)生地.其它3 個相應的合并用戶組中用戶主要所在地基本都為北京、廣東和江蘇等.

        圖8 關注于地區(qū)風險型話題的用戶所在地Fig.8 Location of users focusing on regional risk topics

        5 重要回復者識別

        上文基于用戶發(fā)帖與回帖所體現(xiàn)的話題偏好實現(xiàn)了頂級用戶與普通用戶的分組,并說明了社區(qū)劃分的合理性,這有助于為各組別用戶精準推薦其感興趣的帖子,并進一步獲取民意.而根據(jù)這種回復關系,尋找每位頂級用戶的歷史重要回復者,對于回復者預測具有重要意義.由于在論壇中,通過用戶界面的回復歷史,就可以溯源到相應原貼,因此回復行為會擴大消息的傳播.重要回復者是頂級用戶眾多回復者中較為穩(wěn)定的一部分,當頂級用戶發(fā)布負面新聞時,通過限制這些重要回復者的發(fā)言,有利于及時阻滯負面消息的傳播,加強網(wǎng)絡治理.當頂級用戶發(fā)布正面新聞時,即時推送給重要回復者,引起追隨,起到加速消息傳播的效果.下面將結合兩個二部圖以及相應模型嘗試尋找頂級用戶的重要回復者.

        5.1 模型設計

        R,Q,C分別表示頂級用戶集,帖子集,收集到的全部用戶集,節(jié)點數(shù)目分別為NR,NQ,NC.圖9 為基于發(fā)帖與回帖關系的聯(lián)合二部圖,圖中的兩個部分,一個表示發(fā)帖關系,另一個表示回貼關系.若某用戶回復了另外一位用戶統(tǒng)計意義上的大部分帖子,那么,認為這個用戶是另外一位用戶的重要回復者,如c2為r1的重要回復者.

        圖9 基于發(fā)帖與回帖關系的聯(lián)合二部圖Fig.9 Joint bipartite graph based on post and reply relationship

        利用圖9 中的兩個二部圖, 尋找頂級用戶的重要回復者.將左邊的二部圖記為M1, 右邊的二部圖記為M2,則Pr(M1)=

        M1中帖子的度都為1,不需要對其度進行限制,因此采用二部部分配置模型來獲取頂級用戶r發(fā)布帖子q的概率prq,則

        圖M2仍采用二部配置模型,按照式(1)~式(3),類似地得到用戶c回復帖子q的概率pcq=k?ck?q/LM2,其中LM2為圖M2中的實際邊數(shù).

        普通用戶c回復了頂級用戶r的發(fā)帖q的概率Pr()=prqpcq=k?rk?ck?q/(NQLM2),普通用戶c回復了頂級用戶r的期望帖子數(shù)〈Vrc〉與實際帖子數(shù)分別為

        對于R,C中的每一組節(jié)點(共NRNC組),假設c不是r的重要回復者(即c回復r的帖子不是足夠的多).令隨機變量Vrc代表c回復r的帖子數(shù),取0,1,2,...,NQ,其服從式(4)所示的泊松二項分布fPB,Qn為全部可能的帖子集Q中的n節(jié)點集構成的集合.

        進而

        5.2 重要回復者識別結果

        如果從超過平均值的角度確定頂級用戶的重要回復者,計算過程分為兩步:

        1)對于僅回復過一個頂級用戶,且回帖數(shù)目(指回復頂級用戶發(fā)布的不同帖子的數(shù)目)不為1 的用戶,初步確定其為該頂級用戶的重要回復者.除此以外,若用戶回復某個頂級用戶的帖子數(shù)超過其平均回帖水平,則初步認為該用戶為相應頂級用戶的重要回復者;

        2)對于初步確定的重要回復者,如果其對相應頂級用戶的回帖數(shù)超過該頂級用戶所有回復者回帖數(shù)目的平均值,則將其確定為該頂級用戶的重要回復者.

        考慮78 位頂級用戶所發(fā)布的452 條帖子以及涉及到的43 237 位回復者,使用上述方法,得到4 783 對重要回復關系,3 742 位重要回復者,統(tǒng)計重要回復者對相應頂級用戶的回復比例(回復該頂級用戶的帖子數(shù)目/總回貼數(shù)目),繪制圖10 所示的頻數(shù)分布直方圖.圖10 表明4 個區(qū)間頻數(shù)相差不大.

        圖10 回復比例分布圖Fig.10 Distribution of reply proportion

        如果從回復比例角度確定頂級用戶的重要回復者,首先排除回復頂級用戶帖子數(shù)全為1 的回復者、發(fā)帖數(shù)目僅為1 的頂級用戶, 若某回復者回復某頂級用戶的帖子數(shù)與該頂級用戶總發(fā)帖數(shù)之比大于75%,將其視為相應頂級用戶的重要回復者.得到110 對重要回復關系, 它們在上述4 個區(qū)間的分布比例為63:15:14:17,重要回復者對頂級用戶的依附不強.

        根據(jù)發(fā)貼關系與回貼關系建立兩個二部圖,結合5.1 節(jié)的模型,從統(tǒng)計意義上確定每位用戶的重要回復者.有65 位頂級用戶有重要回復者,共計8 546 對重要回復關系,重要回復者8 543 位,幾乎一位回復者依附于一位頂級用戶.圖11 統(tǒng)計了頂級用戶回復者的數(shù)目.

        圖11 各頂級用戶總回復者數(shù)目與重要回復者數(shù)目Fig.11 Total number of responders and number of important responders per top user

        在這8 546 對重要回復關系中,有8 471 對的重要回復者僅僅回復了該頂級用戶的一個帖子,再無其它發(fā)言.統(tǒng)計另外175 對中重要回復者的回復比例,圖12 為頻數(shù)分布直方圖.

        圖12 175 對重要回復關系中回復比例分布圖Fig.12 Distribution of reply proportion in 175 important reply relationships

        圖12 中有122 對重要回復關系,其重要回復者對所依附的頂級用戶的回復比值達到75%以上,相比于圖10,回復偏重性明顯.因此本文提出的基于統(tǒng)計驗證確定頂級用戶重要回復者的方法,在保證重要回復者回復頂級用戶足夠多帖子的同時, 也保證了重要回復者對頂級用戶的回復偏重, 且自動給予了“足夠多”、“偏重”合理的限定.175 對重要回復關系中包含22 位存在重要回復者的頂級用戶,這些用戶中有9 個屬于C3 社區(qū)(以地區(qū)型風險發(fā)帖為主),6 個屬于C2 社區(qū)(以社會型風險發(fā)帖為主),4 個屬于C1 社區(qū)(以日常生活型發(fā)帖為主),其余3 個是不在社區(qū)內(nèi)的孤立節(jié)點,由此可見,關注于風險型話題的頂級用戶易存在重要回復者.

        5.3 重要回復關系雙方發(fā)言內(nèi)容情感分析

        本小節(jié)將分析頂級用戶發(fā)帖內(nèi)容情感極性與重要回復者相應回復內(nèi)容情感極性間的關系.由于天涯雜談帖子正文通常很長,且多引用事例,而標題一般概括了作者的態(tài)度,因此,本文僅考慮帖子標題.因為旨在探索首次回復關系的建立,僅考慮重要回復者對相應帖子的第一次回復.

        具體的, 對于每位存在重要回復者的頂級用戶, 使用百度情感分析API2https://ai.baidu.com/tech/nlp/sentiment classify分析其全部重要回復者對其發(fā)帖的回復及相應帖子標題對(總計2 958 對)的情感極性,獲取正面情緒發(fā)帖–正面情緒回復,正面情緒發(fā)帖–負面情緒回復,負面情緒發(fā)帖–負面情緒回復,負面情緒發(fā)帖–正面情緒回復的比例,見圖13.

        圖13 頂級用戶不同情感對比例分布Fig.13 Proportion distribution of top users’different emotion pairs

        這些頂級用戶多發(fā)表負面情緒的新聞,且負–負比值大于負–正比值的用戶有11 個,前者小于后者的用戶有5 個,兩者相等的用戶有6 個.這說明了在負面情緒新聞居多,負面情緒易被重要回復者放大的網(wǎng)絡環(huán)境中,識別重要回復者并在相應頂級用戶發(fā)表極負面新聞情境下對該重要回復者進行制約的重要性.

        6 結束語

        本文以天涯論壇為例,定義頂級用戶與普通用戶,開展了用戶分組與重要回復者識別研究工作.用戶分組研究借助于二部配置模型,通過第三方普通用戶的統(tǒng)計意義上足夠多的回復行為來構建頂級用戶網(wǎng)絡,進而實現(xiàn)頂級用戶社區(qū)劃分.不僅所得到的相似性連邊是可信的,而且避免了由直接回復關系構建頂級用戶稀疏單模網(wǎng)而無法劃分社區(qū)的后果.帖子標題聚類結果表明網(wǎng)民們關注的話題包含日常生活型、社會風險型、故事敘述型、地區(qū)風險型4 大類,得到的4 個用戶組各自主要發(fā)帖類型對應這4 個帖子簇類型,同組的用戶具有相似的話題偏好,且交互密切.對于普通用戶,則以回復行為能夠體現(xiàn)興趣偏好為視角,使用極化分析的方法確定所屬組別.用戶分組有助于下游任務——用戶個性化推文,這對于網(wǎng)絡精準營銷與民意及時獲取具有實際意義.本文著眼于使用統(tǒng)計驗證的方法確定頂級用戶的重要回復者,從而推動回復者預測研究.具體的,結合了BICM 與BIPCM 兩種模型建模發(fā)帖和回帖關系的二部圖,這是對于配置模型僅用于單一二部圖的擴展.篩選出的重要回復者,不僅是經(jīng)過驗證的高頻回復者,且對相應頂級用戶的回復偏重性明顯.此外,發(fā)現(xiàn)存在重要回復者的頂級用戶多發(fā)表負面情緒的新聞,此時重要回復者帶有負面情緒的回復也居多.因此,識別重要回復者并適時對其進行制約有助于輿情管理與凈化網(wǎng)絡環(huán)境.

        文章所建立的回復關系二部圖未考慮權重,多次回復與單次回復在強度上還是有差異的,今后嘗試將頻次因素加入到研究中,探索其對實驗結果的影響,并進一步分析這種影響是否帶來了本質的改變.未來也將參考不同流派的研究工作,集成各自優(yōu)勢,改進模型.

        猜你喜歡
        用戶組普通用戶發(fā)帖
        文件共享安全管理方案探討
        即使是普通用戶也需要備一張家庭影院入門攻略:影音調校工具篇1
        英議會掏錢讓議員學如何發(fā)帖
        青云QingCloud發(fā)布資源協(xié)作功能實現(xiàn)資源共享與權限控制
        電腦與電信(2016年3期)2017-01-18 07:35:44
        Numerical Analysis of Refueling Drogue Oscillation During Refueling Docking
        ASP.NET中細分新聞類網(wǎng)站的用戶對頁面的操作權限
        利用學校網(wǎng)絡平臺,培養(yǎng)學生寫作興趣
        普通用戶簡單、流暢才是明智選擇
        一種基于信息流策略的組密鑰管理機制
        離線發(fā)文件 不是會員也能用
        移動一族(2009年3期)2009-05-12 03:14:30
        国产人碰人摸人爱视频| 亚洲国产色婷婷久久精品| 2018天天躁夜夜躁狠狠躁| 在线精品国产一区二区三区| 97久久精品人人妻人人| 亚洲av套图一区二区| 亚洲美女毛多水多免费视频 | 亚洲精品美女中文字幕久久| 色婷婷五月综合激情中文字幕| 无遮无挡爽爽免费视频| 99久久国产综合精品女乱人伦| 中文字幕人妻激情在线视频| 国产成人无码专区| 亚洲精品综合欧美一区二区三区| 综合91在线精品| 日本免费一区二区在线| 夜夜夜夜曰天天天天拍国产| 国产精品久久久久电影网| 无码伊人66久久大杳蕉网站谷歌| 尤物蜜桃视频一区二区三区| 无码人妻精品一区二区三| 精品久久无码中文字幕| 亚洲av午夜福利精品一区二区| 麻神在线观看免费观看| 99热这里有精品| 国产一区二区激情对白在线| 蜜桃成人精品一区二区三区| аⅴ天堂中文在线网| 日韩a毛片免费观看| 精品国产亚洲av麻豆尤物| 久久精品一区二区三区蜜桃| 久久久老熟女一区二区三区| 日韩高清无码中文字幕综合一二三区| 午夜国产在线精彩自拍视频| 欧美嫩交一区二区三区| 久久99精品久久久久久hb无码| 亚洲AV无码中文AV日韩A| 国产自拍成人免费视频| 日日碰狠狠添天天爽无码| 日韩中文字幕一区二区高清| 中文字幕午夜精品一区二区三区|