亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合用戶(hù)情感評(píng)分的節(jié)點(diǎn)專(zhuān)業(yè)影響力分析

        2018-07-25 09:10:28王仁武張文慧華東師范大學(xué)經(jīng)濟(jì)與管理學(xué)部信息管理系上海200241
        現(xiàn)代情報(bào) 2018年7期
        關(guān)鍵詞:數(shù)據(jù)挖掘影響力領(lǐng)域

        王仁武 周 威 張文慧(華東師范大學(xué)經(jīng)濟(jì)與管理學(xué)部信息管理系,上海 200241)

        社交網(wǎng)絡(luò)是一個(gè)無(wú)標(biāo)度網(wǎng)絡(luò)[1],其無(wú)標(biāo)度性質(zhì)決定了少數(shù)具有較高度數(shù)的節(jié)點(diǎn)統(tǒng)治著網(wǎng)絡(luò),這些極重要的節(jié)點(diǎn)即是本文研究的“影響力節(jié)點(diǎn)”?!坝绊懥?jié)點(diǎn)”用戶(hù)對(duì)其他節(jié)點(diǎn)具有較大的影響力,他們能夠在更大程度上影響到網(wǎng)絡(luò)的結(jié)構(gòu)和功能,甚至控制信息的傳播和流通,對(duì)輿論的發(fā)展起著關(guān)鍵性的導(dǎo)向作用。因此,識(shí)別影響力節(jié)點(diǎn)是極其重要的。在社交網(wǎng)絡(luò)中,影響力節(jié)點(diǎn)通常又是多主題的,會(huì)針對(duì)各種不同專(zhuān)業(yè)領(lǐng)域的熱點(diǎn)問(wèn)題發(fā)表言論見(jiàn)解。在他們擅長(zhǎng)的領(lǐng)域內(nèi),他們是這個(gè)領(lǐng)域中的權(quán)威,而在其不擅長(zhǎng)的領(lǐng)域中,他們就成了一般意義上的“聽(tīng)眾”?!皩?zhuān)業(yè)影響力節(jié)點(diǎn)”特指在某個(gè)專(zhuān)業(yè)領(lǐng)域內(nèi)有權(quán)威的影響力節(jié)點(diǎn),相對(duì)于一般意義上的“影響力節(jié)點(diǎn)”而言,“專(zhuān)業(yè)影響力節(jié)點(diǎn)”在其擅長(zhǎng)的專(zhuān)業(yè)領(lǐng)域內(nèi)擁有更強(qiáng)的影響力,能夠更為有效的控制領(lǐng)域內(nèi)信息的傳播和流通。

        基于互聯(lián)網(wǎng)的社交網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)據(jù)的可獲得性,為社交網(wǎng)絡(luò)用戶(hù)節(jié)點(diǎn)影響力的定量計(jì)算帶來(lái)方便。目前比較多的研究節(jié)點(diǎn)影響力的方法是基于復(fù)雜網(wǎng)絡(luò)分析技術(shù)的中心度方法,苑衛(wèi)國(guó)等[2]認(rèn)為節(jié)點(diǎn)的重要性指標(biāo)可以用來(lái)分析節(jié)點(diǎn)的影響力,例如節(jié)點(diǎn)的度中心性、介數(shù)中心性、緊密中心性、k-core等都能一定程度地表示節(jié)點(diǎn)影響力,并且通過(guò)實(shí)驗(yàn)證明,緊密度和k-core較其他指標(biāo)可以更加準(zhǔn)確地描述節(jié)點(diǎn)在信息傳播中所處的網(wǎng)絡(luò)核心位置。這類(lèi)方法一定程度上可以解決節(jié)點(diǎn)影響力的度量問(wèn)題,但指標(biāo)尚顯單一。韓忠明等人[3]則較全面地從拓?fù)浣Y(jié)構(gòu)、行為特征、內(nèi)容特征這3個(gè)維度來(lái)度量節(jié)點(diǎn)影響力。其中內(nèi)容維度包括了話(huà)題分析、新穎度敏感度分析、文本傾向性分析、文本相似性分析。但是該文并沒(méi)有考慮用戶(hù)(其關(guān)注者)的觀點(diǎn),在專(zhuān)業(yè)領(lǐng)域中,節(jié)點(diǎn)的專(zhuān)業(yè)影響力與熟悉該領(lǐng)域的用戶(hù)對(duì)其的認(rèn)可有關(guān),所以需要納入用戶(hù)評(píng)價(jià)的測(cè)度。

        本文以新浪微博社區(qū)為例,對(duì)其中的專(zhuān)業(yè)影響力節(jié)點(diǎn)進(jìn)行挖掘和評(píng)估時(shí),除了需要考慮節(jié)點(diǎn)本身的微博吸引力、微博轉(zhuǎn)發(fā)數(shù)等基本特征之外,還引入了節(jié)點(diǎn)的領(lǐng)域相關(guān)度和情感支持度兩個(gè)新的評(píng)價(jià)指標(biāo)來(lái)改進(jìn)和優(yōu)化算法。

        1 相關(guān)研究

        節(jié)點(diǎn)影響力的評(píng)估首先需要科學(xué)合理的評(píng)價(jià)指標(biāo)。社交網(wǎng)絡(luò)中的評(píng)價(jià)指標(biāo)可選范圍非常廣泛,基于用戶(hù)行為的評(píng)價(jià)指標(biāo)經(jīng)常使用的是轉(zhuǎn)發(fā)、評(píng)論、提及3種行為,Cha M[4]等人根據(jù)這3種行為評(píng)估Twitter用戶(hù)的影響力并分析了這3種行為所表征的用戶(hù)影響力類(lèi)型。齊超[5]等綜合分析用戶(hù)的轉(zhuǎn)發(fā)、評(píng)論、提及3種行為,結(jié)合PageRank算法提出一種基于用戶(hù)行為綜合分析的微博用戶(hù)傳播影響力評(píng)價(jià)算法。時(shí)間維度對(duì)于用戶(hù)影響力的評(píng)估同樣是一個(gè)關(guān)鍵指標(biāo),Chen S[6]基于PageRank思想,結(jié)合時(shí)間維度建立用戶(hù)實(shí)時(shí)影響力算法(MURank),通過(guò)微博用戶(hù)之間的轉(zhuǎn)發(fā)關(guān)系,對(duì)用戶(hù)進(jìn)行影響力測(cè)量評(píng)估,相比于現(xiàn)有算法,該算法能夠體現(xiàn)用戶(hù)影響力隨時(shí)間變化的特征,算法也具有不錯(cuò)的收斂性。

        專(zhuān)業(yè)影響力節(jié)點(diǎn)的識(shí)別需要計(jì)算用戶(hù)的專(zhuān)業(yè)權(quán)威性,用戶(hù)專(zhuān)業(yè)權(quán)威度計(jì)算可以采用影響力節(jié)點(diǎn)分析時(shí)常用的鏈接分析技術(shù),一個(gè)具有權(quán)威性的用戶(hù)會(huì)被大量鏈接所指向。大多數(shù)使用鏈接關(guān)系進(jìn)行影響力節(jié)點(diǎn)挖掘的研究中,多是基于PageRank算法的改進(jìn)。國(guó)外基于推特的研究就產(chǎn)生了類(lèi)似TwitterRank[7],InfluenceRank[8]等PageRank改進(jìn)算法。這類(lèi)方法能夠比較客觀合理地給出用戶(hù)影響力的度量。然而這些方法是針對(duì)一般意義上的“影響力節(jié)點(diǎn)”的挖掘,無(wú)法有效的識(shí)別和挖掘“專(zhuān)業(yè)影響力節(jié)點(diǎn)”。主要原因在于PageRank算法忽略了粉絲的情感觀點(diǎn)的傾向性對(duì)于節(jié)點(diǎn)影響力大小的影響,通常情況下,轉(zhuǎn)發(fā)和評(píng)論等互動(dòng)行為會(huì)出現(xiàn)在粉絲比較支持博主觀點(diǎn)的情況下。

        另外,因鏈接分析方法只考慮了社交網(wǎng)絡(luò)的結(jié)構(gòu)特征,而忽視社交網(wǎng)絡(luò)信息的生成傳播,即沒(méi)有考慮內(nèi)容分析。因此劉濟(jì)群[9]對(duì)基于內(nèi)容的節(jié)點(diǎn)影響力度量的方法進(jìn)行了綜述,在內(nèi)容分析方面比較多的是采用LDA主題模型的分析框架。

        本文在借鑒已有研究成果的基礎(chǔ)上,利用領(lǐng)域字典和話(huà)題識(shí)別模型對(duì)主題進(jìn)行限定,從而降低主題漂移帶來(lái)的影響;然后結(jié)合節(jié)點(diǎn)的微博數(shù)量、轉(zhuǎn)發(fā)數(shù)量、粉絲數(shù)量、領(lǐng)域相關(guān)度等基本特征,并深入挖掘微博評(píng)論中的情感觀點(diǎn)特征,利用節(jié)點(diǎn)之間的關(guān)注關(guān)系構(gòu)建鏈路結(jié)構(gòu),在此基礎(chǔ)上提出基于PageRank算法改進(jìn)的Domain Rank算法來(lái)識(shí)別和挖掘社交網(wǎng)絡(luò)中的專(zhuān)業(yè)影響力節(jié)點(diǎn)。

        2 節(jié)點(diǎn)專(zhuān)業(yè)影響力分析模型

        本文設(shè)計(jì)的節(jié)點(diǎn)專(zhuān)業(yè)影響力分析模型如圖1所示。首先在相關(guān)研究文獻(xiàn)的基礎(chǔ)之上構(gòu)建和節(jié)點(diǎn)專(zhuān)業(yè)影響力相關(guān)的評(píng)估指標(biāo),然后確定研究的專(zhuān)業(yè)領(lǐng)域,通過(guò)構(gòu)建領(lǐng)域字典進(jìn)行社交網(wǎng)絡(luò)話(huà)題限定,通過(guò)話(huà)題識(shí)別對(duì)全網(wǎng)的社交網(wǎng)絡(luò)用戶(hù)進(jìn)行定向主題篩選,確認(rèn)某用戶(hù)是否關(guān)注該領(lǐng)域,從而識(shí)別出關(guān)注該領(lǐng)域的社交網(wǎng)絡(luò)用戶(hù),并篩選出該領(lǐng)域最有代表性的話(huà)題以及談?wù)撨@些話(huà)題的用戶(hù);然后構(gòu)建情感字典對(duì)用戶(hù)談?wù)撛?huà)題的用戶(hù)評(píng)論進(jìn)行情感評(píng)分;進(jìn)一步需要基于關(guān)注關(guān)系的鏈接分析方法來(lái)識(shí)別和評(píng)估這些用戶(hù)在該領(lǐng)域的貢獻(xiàn)以及權(quán)威性;最后在實(shí)證分析中,通過(guò)專(zhuān)家背景調(diào)研對(duì)專(zhuān)業(yè)影響力節(jié)點(diǎn)進(jìn)行分析解讀從而能評(píng)估結(jié)果的準(zhǔn)確性。

        2.1 領(lǐng)域字典構(gòu)建與社交網(wǎng)絡(luò)數(shù)據(jù)采集

        構(gòu)建領(lǐng)域字典的目的是方便將所抓取的社交網(wǎng)絡(luò)的話(huà)題內(nèi)容限定在該領(lǐng)域的范疇內(nèi)。為了構(gòu)建目標(biāo)領(lǐng)域的字典,本文選擇知乎網(wǎng)作為語(yǔ)料采集對(duì)象。知乎網(wǎng)是目前國(guó)內(nèi)最專(zhuān)業(yè)的問(wèn)答社區(qū),這里的問(wèn)題和答案相比百度知道更加專(zhuān)業(yè)完善,利用從知乎網(wǎng)中采集下的文本數(shù)據(jù)經(jīng)過(guò)分詞和提取并采取TFIDF算法處理,篩選出最能夠代表這個(gè)領(lǐng)域話(huà)題的關(guān)鍵詞,通過(guò)分詞和話(huà)題識(shí)別,發(fā)現(xiàn)具有代表性的關(guān)鍵詞及詞塊(一組相關(guān)詞)。同時(shí),知乎網(wǎng)的口語(yǔ)化問(wèn)答交流方式與社交網(wǎng)絡(luò)例如新浪微博等社交媒體用戶(hù)的信息表達(dá)方式比較匹配。

        本文以新浪微博為例,通過(guò)其數(shù)據(jù)接口,采集微博數(shù)據(jù)。存放采集的微博數(shù)據(jù)庫(kù)中包括4張核心數(shù)據(jù)表。

        表A——用于存儲(chǔ)單條微博的詳細(xì)信息,主要字段有微博ID、用戶(hù)ID、昵稱(chēng)、微博文本、發(fā)布時(shí)間、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù);

        表B——是所有用戶(hù)所在的表,包括用戶(hù)個(gè)體的詳細(xì)信息,主要字段有用戶(hù)ID、昵稱(chēng)、性別、地區(qū)、主頁(yè)微博ID、關(guān)注數(shù)、粉絲數(shù)、微博數(shù)、簡(jiǎn)介;

        表C——是用戶(hù)之間的關(guān)注關(guān)系,每條記錄表示一條關(guān)注關(guān)系,這個(gè)關(guān)系是有向的,主要字段有關(guān)注者ID、關(guān)注者昵稱(chēng)、被關(guān)注者ID、被關(guān)注者昵稱(chēng);

        表D—用于存儲(chǔ)微博的評(píng)論詳細(xì)信息,主要字段包括微博ID,評(píng)論者ID,評(píng)論時(shí)間,評(píng)論內(nèi)容。

        2.2 基于關(guān)鍵詞共現(xiàn)的話(huà)題識(shí)別

        話(huà)題總是涉及某一領(lǐng)域的主題,而專(zhuān)業(yè)影響力節(jié)點(diǎn)往往是指某一特定領(lǐng)域的影響力節(jié)點(diǎn),所以首先要確定領(lǐng)域主題。在專(zhuān)業(yè)影響力節(jié)點(diǎn)識(shí)別時(shí)要注意的是通常來(lái)說(shuō)用戶(hù)擅長(zhǎng)的不僅是領(lǐng)域中單獨(dú)的一個(gè)主題,而是相近似的多個(gè)主題。比如一個(gè)用戶(hù)在音樂(lè)領(lǐng)域中的聲樂(lè)方面表現(xiàn)突出,那么他有很大可能會(huì)在樂(lè)器這一領(lǐng)域也有一定量的高質(zhì)量?jī)?nèi)容發(fā)布。所以社交網(wǎng)絡(luò)中的專(zhuān)業(yè)影響力節(jié)點(diǎn)的識(shí)別需要結(jié)合某領(lǐng)域的多個(gè)主題來(lái)分析。

        圖1 社交網(wǎng)絡(luò)中專(zhuān)業(yè)影響力節(jié)點(diǎn)識(shí)別的模型

        目前比較主流的話(huà)題識(shí)別方法有LDA主題模型[10]、PLSA潛在語(yǔ)義識(shí)別模型[11]、模塊化話(huà)題聚類(lèi)算法以及其它改進(jìn)版本。因領(lǐng)域中的專(zhuān)業(yè)節(jié)點(diǎn)討論的話(huà)題會(huì)涉及多主題,前述的話(huà)題識(shí)別方法會(huì)產(chǎn)生主題漂移,所以本文采用關(guān)鍵詞共現(xiàn)的話(huà)題識(shí)別方法[12]。

        2.3 節(jié)點(diǎn)專(zhuān)業(yè)影響力評(píng)估的指標(biāo)選擇

        本文在對(duì)微博社區(qū)中的專(zhuān)業(yè)影響力節(jié)點(diǎn)進(jìn)行挖掘和評(píng)估時(shí),除了需要考慮節(jié)點(diǎn)本身的微博吸引力、微博轉(zhuǎn)發(fā)數(shù)等基本特征之外,還引入了節(jié)點(diǎn)的領(lǐng)域相關(guān)度和情感觀點(diǎn)支持度兩個(gè)新的評(píng)價(jià)指標(biāo)來(lái)改進(jìn)和優(yōu)化算法。

        2.3.1 微博吸引力

        微博吸引力定義為微博數(shù)量/粉絲數(shù)量。在實(shí)際應(yīng)用中,微博吸引力比微博數(shù)量更能客觀準(zhǔn)確的衡量微博內(nèi)容的質(zhì)量。因?yàn)橐粋€(gè)沒(méi)有粉絲或者粉絲數(shù)量非常少的節(jié)點(diǎn)即使經(jīng)常發(fā)微博也不會(huì)產(chǎn)生很強(qiáng)的專(zhuān)業(yè)影響力。節(jié)點(diǎn)的微博質(zhì)量越高,吸引力就越大,從而也會(huì)產(chǎn)生越大的影響力。因此,微博吸引力同節(jié)點(diǎn)影響力正相關(guān)。將節(jié)點(diǎn)微博數(shù)量/粉絲數(shù)量歸一化處理得到其微博吸引力,計(jì)算方法如下:

        (1)

        其中,Mblogs是節(jié)點(diǎn)i的微博數(shù)量,F(xiàn)ollowers是節(jié)點(diǎn)i的粉絲數(shù)量。

        2.3.2 微博轉(zhuǎn)發(fā)次數(shù)

        轉(zhuǎn)發(fā)是微博中的一個(gè)重要功能,通過(guò)轉(zhuǎn)發(fā)就可以將自己看到的信息分享給自己的粉絲,微博轉(zhuǎn)發(fā)過(guò)程中會(huì)產(chǎn)生轉(zhuǎn)發(fā)網(wǎng)絡(luò),轉(zhuǎn)發(fā)網(wǎng)絡(luò)的形成進(jìn)一步擴(kuò)大了信息的傳播范圍和覆蓋面。因此,節(jié)點(diǎn)微博被轉(zhuǎn)發(fā)頻次越高,其產(chǎn)生的影響力也就越大。與微博吸引力的計(jì)算類(lèi)似,對(duì)節(jié)點(diǎn)i微博的總轉(zhuǎn)發(fā)次數(shù)也采取歸一化處理:

        (2)

        其中,Rnumsk是節(jié)點(diǎn)i的第k條微博的轉(zhuǎn)發(fā)次數(shù)。

        2.3.3 領(lǐng)域相關(guān)度

        在社交平臺(tái)中,用戶(hù)一般都是同時(shí)關(guān)注多個(gè)領(lǐng)域的,為了計(jì)算節(jié)點(diǎn)的專(zhuān)業(yè)影響力,需要將節(jié)點(diǎn)的主題范圍限制在固定的專(zhuān)業(yè)領(lǐng)域內(nèi)。因此,我們定義了節(jié)點(diǎn)的領(lǐng)域相關(guān)度指標(biāo),領(lǐng)域相關(guān)度指的是用戶(hù)其微博同某個(gè)專(zhuān)業(yè)領(lǐng)域的相關(guān)程度,如果用戶(hù)經(jīng)常發(fā)送該領(lǐng)域的相關(guān)信息,則其領(lǐng)域相關(guān)度較高。在基于文本挖掘的微博主題相關(guān)度的研究中[13],通常采用以下公式來(lái)計(jì)算:

        (3)

        其中,j為微博編號(hào),k表示主題詞庫(kù)中的詞,m表示領(lǐng)域字典中主題詞的數(shù)量,p(j,k)表示第j條微博中的第k個(gè)主題詞的權(quán)重,權(quán)重使用TFIDF計(jì)算出來(lái),θ表示微博是原創(chuàng)還是轉(zhuǎn)發(fā)。

        但由于微博文本短、信息量少、特征關(guān)鍵詞不足,通過(guò)TFIDF方法并不能達(dá)到很好的區(qū)分微博主題的預(yù)期效果。因此,我們采用每個(gè)用戶(hù)和數(shù)據(jù)挖掘領(lǐng)域相關(guān)的微博數(shù)量占其所有微博數(shù)量的比例作為該節(jié)點(diǎn)的領(lǐng)域相關(guān)度指標(biāo)。歸一化后的節(jié)點(diǎn)領(lǐng)域相關(guān)度計(jì)算方法如下:

        (4)

        其中,RelatedNums是節(jié)點(diǎn)i的領(lǐng)域相關(guān)微博數(shù)量,Blogs是節(jié)點(diǎn)i的全部微博數(shù)量。

        2.3.4 情感支持度

        目前常見(jiàn)的情感極性分析方法主要有兩種:基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法。本研究使用基于情感詞典的情感分析方法,常用的情感詞典有臺(tái)灣大學(xué)中文情感詞典(NTUSD)、知網(wǎng)(HowNet)、BosonNLP情感詞典等。

        我們將每位博主所有微博的情感極性得分之和除以總評(píng)論數(shù)量得到每個(gè)節(jié)點(diǎn)的情感極性平均分,歸一化后的節(jié)點(diǎn)情感支持度計(jì)算公式如下:

        (5)

        其中,scoren為節(jié)點(diǎn)i第n條評(píng)論的情感分值,N為評(píng)論數(shù)量。

        許多學(xué)者針對(duì)不同的場(chǎng)景分別提出了用戶(hù)評(píng)論情感賦值公式[14],本研究參考已有BosonNLP情感詞典增加了情感副詞的不同強(qiáng)度劃分,并用不同強(qiáng)度的情感副詞進(jìn)行賦值,再利用情感賦值公式對(duì)用戶(hù)評(píng)論進(jìn)行情感傾向分析。在前人研究的基礎(chǔ)上,提出情感賦值公式:

        Score=-1j(x×k)

        (6)

        算法設(shè)計(jì)如下:

        1)情感詞,x值。調(diào)用分詞后的評(píng)論,與正負(fù)兩個(gè)情感詞集匹配相應(yīng)情感詞,出現(xiàn)一個(gè)積極詞就+1,出現(xiàn)一個(gè)消極詞就-1。

        2)程度詞權(quán)重,k值。情感詞前往往會(huì)有一個(gè)程度修飾詞。如“極好”就比“較好”或者“好”的情感更強(qiáng),所以需要對(duì)情感詞前的程度修飾詞進(jìn)行識(shí)別,并給不同的程度賦予權(quán)值。賦值如表1所示。

        表1 程度修飾詞賦值表

        3)否定詞,j值。情感詞前存在否定詞時(shí),會(huì)出現(xiàn)情感的反轉(zhuǎn)。因中文的表達(dá)方式為雙重否定為肯定,所以在尋找情感詞前的否定詞時(shí),還需對(duì)否定詞出現(xiàn)的次數(shù)進(jìn)行計(jì)數(shù),如果是單數(shù),情感詞的權(quán)重為-1;如果是偶數(shù),那情感就沒(méi)有反轉(zhuǎn),權(quán)重為1。

        4)輸出值,S值。由于博主經(jīng)常會(huì)和粉絲進(jìn)行互動(dòng),1條微博下面會(huì)有幾條留言和回復(fù),針對(duì)微博評(píng)論的這種特點(diǎn),我們先計(jì)算出粉絲每條評(píng)論的情感分值,然后將其所有評(píng)論的正向情感分值和負(fù)向情感分值相加得到粉絲對(duì)這條微博的評(píng)論的情感分?jǐn)?shù),最終輸出粉絲評(píng)論的情感值。

        2.3.5 節(jié)點(diǎn)領(lǐng)域傳播能力

        節(jié)點(diǎn)的微博吸引力、轉(zhuǎn)發(fā)數(shù)量、評(píng)論情感支持度以及微博的主題相關(guān)度等指標(biāo)之間是相互促進(jìn)、互為影響的關(guān)系,基于上述4個(gè)指標(biāo)可以定義一個(gè)新的指標(biāo)——節(jié)點(diǎn)領(lǐng)域傳播能力。節(jié)點(diǎn)領(lǐng)域傳播能力衡量了用戶(hù)在某個(gè)專(zhuān)業(yè)領(lǐng)域內(nèi)對(duì)信息傳播和流通的控制能力,計(jì)算公式如下:

        SPi=Ai×Ri×SEi×TRi

        (7)

        2.4 節(jié)點(diǎn)專(zhuān)業(yè)影響力評(píng)估算法

        目前不少研究方法通過(guò)關(guān)注關(guān)系來(lái)發(fā)現(xiàn)用戶(hù)網(wǎng)絡(luò)中的關(guān)鍵人物,比如社交網(wǎng)絡(luò)中意見(jiàn)領(lǐng)袖、影響者的識(shí)別研究。PageRank算法通常用于在社會(huì)網(wǎng)絡(luò)中識(shí)別關(guān)鍵影響力節(jié)點(diǎn)的研究,算法公式如下:

        (8)

        其中Mpi是所有對(duì)節(jié)點(diǎn)Pi有出鏈的節(jié)點(diǎn)集合,L(pj)是節(jié)點(diǎn)Pi的出鏈數(shù)目,N為節(jié)點(diǎn)總數(shù),α取0.85。

        從表達(dá)式理解,PageRank算法中頁(yè)面的PR值是均勻地傳遞到鏈出的頁(yè)面上去的,這樣做的結(jié)果就是忽略了頁(yè)面本身的重要程度,因此,為了克服PageRank算法在計(jì)算時(shí)將PR值均勻地傳遞到鏈出的節(jié)點(diǎn)這一缺陷,我們將公式7中定義的節(jié)點(diǎn)領(lǐng)域傳播能力作為分配PR值的標(biāo)準(zhǔn),根據(jù)節(jié)點(diǎn)領(lǐng)域傳播能力大小來(lái)分配PR值。從而使得模型能夠更加準(zhǔn)確和客觀地衡量節(jié)點(diǎn)的專(zhuān)業(yè)影響力大小。最終基于PageRank算法改進(jìn)的Domain Rank算法設(shè)計(jì)如下:

        (9)

        其中,Mpi是所有對(duì)節(jié)點(diǎn)Pi有出鏈的節(jié)點(diǎn)集合,N為節(jié)點(diǎn)總數(shù),α取0.85,以保證算法收斂,Wij是節(jié)點(diǎn)Pj分配給Pi的DR權(quán)重,其計(jì)算公式如下:

        (10)

        其中,SPi是節(jié)點(diǎn)i的領(lǐng)域傳播能力,N為節(jié)點(diǎn)j的好友數(shù),從公式上理解,節(jié)點(diǎn)j分配給節(jié)點(diǎn)i的DR權(quán)重是用節(jié)點(diǎn)i的領(lǐng)域傳播能力占節(jié)點(diǎn)j所有好友的領(lǐng)域傳播能力之和的比例得到的,如果節(jié)點(diǎn)i的領(lǐng)域傳播能力強(qiáng),則分配較大的權(quán)重,反之,則分配較小的權(quán)重,從而保證了節(jié)點(diǎn)DR值的傳遞是不均勻的。

        3 節(jié)點(diǎn)專(zhuān)業(yè)影響力分析的實(shí)證研究

        本文嘗試在新浪微博中識(shí)別數(shù)據(jù)挖掘領(lǐng)域的專(zhuān)業(yè)影響力節(jié)點(diǎn)。為了將采集的微博文本限定在數(shù)據(jù)挖掘領(lǐng)域,先要構(gòu)建數(shù)據(jù)挖掘領(lǐng)域詞典;然后利用該詞典對(duì)微博數(shù)據(jù)中有關(guān)數(shù)據(jù)挖掘領(lǐng)域的微博進(jìn)行話(huà)題識(shí)別,從而確定相關(guān)領(lǐng)域的用戶(hù)。通過(guò)對(duì)這些用戶(hù)的發(fā)表微博數(shù)據(jù)采集處理、話(huà)題聚類(lèi),同時(shí)根據(jù)話(huà)題內(nèi)容和人群聚類(lèi)結(jié)果進(jìn)行人群劃分,篩選出發(fā)表內(nèi)容較專(zhuān)業(yè)且屬于“數(shù)據(jù)挖掘”的用戶(hù)群體作為候選節(jié)點(diǎn);然后計(jì)算候選節(jié)點(diǎn)用戶(hù)的領(lǐng)域相關(guān)度。通過(guò)用戶(hù)的微博評(píng)論數(shù)據(jù)同時(shí)結(jié)合情感字典,對(duì)候選節(jié)點(diǎn)用戶(hù)進(jìn)行情感評(píng)分。最后通過(guò)微博用戶(hù)的基本信息數(shù)據(jù)計(jì)算節(jié)點(diǎn)用戶(hù)的吸引力和轉(zhuǎn)發(fā)數(shù)。完成指標(biāo)計(jì)算之后,通過(guò)歸一化處理獲得候選節(jié)點(diǎn)的傳播力,最終以排序的方式得到專(zhuān)業(yè)影響力節(jié)點(diǎn)的綜合排名結(jié)果。

        圖2 節(jié)點(diǎn)專(zhuān)業(yè)影響力實(shí)證分析過(guò)程

        3.1 數(shù)據(jù)挖掘領(lǐng)域詞典構(gòu)建

        數(shù)據(jù)挖掘是一門(mén)交叉學(xué)科,涉及機(jī)器學(xué)習(xí)、人工智能、信息檢索、信息可視化和專(zhuān)家系統(tǒng)等多個(gè)領(lǐng)域。這個(gè)領(lǐng)域中人們較多關(guān)注于相關(guān)技術(shù)的問(wèn)題討論、行業(yè)應(yīng)用、技術(shù)發(fā)展等。為了構(gòu)建該領(lǐng)域的字典,本文采集了知乎網(wǎng)數(shù)據(jù)挖掘版塊下的所有提問(wèn)和答案。利用采集下來(lái)的文本數(shù)據(jù)經(jīng)過(guò)分詞和提取等步驟構(gòu)建好“數(shù)據(jù)挖掘”的領(lǐng)域字典,表2給出了該字典的部分內(nèi)容。

        表2 數(shù)據(jù)挖掘領(lǐng)域字典(部分)

        3.2 微博數(shù)據(jù)采集與話(huà)題識(shí)別

        通過(guò)3.1節(jié)建立好的領(lǐng)域字典,編寫(xiě)Python爬蟲(chóng)程序,我們抓取了2015年8月31日-2016年7月31日這段時(shí)間內(nèi)的所有涉及“數(shù)據(jù)挖掘”領(lǐng)域字典中關(guān)鍵詞的微博。數(shù)據(jù)按照2.2設(shè)計(jì)的表格內(nèi)容抓取,共計(jì)67 616條原創(chuàng)微博。對(duì)這些數(shù)據(jù)進(jìn)行去重和清洗處理后,保留53 120條符合條件的微博記錄。通過(guò)統(tǒng)計(jì)發(fā)現(xiàn)這53 120條微博由29 051人發(fā)布,絕大多數(shù)人在抓取時(shí)間跨度內(nèi)只發(fā)布了1條與“數(shù)據(jù)挖掘”領(lǐng)域相關(guān)的微博。進(jìn)一步發(fā)現(xiàn)發(fā)布超過(guò)兩條相關(guān)微博的用戶(hù)有3 100人,超過(guò)3次的共有1 561人,而超過(guò)5次的只有323人,因此,我們保留了超過(guò)3次以上的用戶(hù),共計(jì)1 561人。然后,對(duì)篩選后留下的這1 561個(gè)用戶(hù)的微博文本數(shù)據(jù)經(jīng)過(guò)分詞和提取,分析詞與詞共現(xiàn)關(guān)系,通過(guò)模塊化詞聚類(lèi)算法,識(shí)別出該領(lǐng)域中主要討論的話(huà)題,有算法討論與研究、技術(shù)問(wèn)題咨詢(xún)以及數(shù)據(jù)挖掘在公司的價(jià)值和應(yīng)用。話(huà)題識(shí)別結(jié)果見(jiàn)圖3、圖4。另外,研究中發(fā)現(xiàn)也有一些不相關(guān)的話(huà)題存在,比如“范冰冰:知識(shí)圖譜”、“韓庚:知識(shí)圖譜”這些內(nèi)容雖涉及“知識(shí)圖譜”,但其本身并沒(méi)有討論知識(shí)圖譜的知識(shí)或者相關(guān)研究。最后,通過(guò)對(duì)多個(gè)話(huà)題進(jìn)行郵別,從中篩選出“數(shù)據(jù)挖掘技術(shù)討論”、“數(shù)據(jù)挖掘?qū)W習(xí)與實(shí)現(xiàn)”、“數(shù)據(jù)挖掘招聘”等6個(gè)主要話(huà)題,將這6個(gè)話(huà)題集合映射到用戶(hù)集合,從中篩選出741位用戶(hù)作為候選節(jié)點(diǎn)。

        圖3 話(huà)題例舉:數(shù)據(jù)挖掘技術(shù)討論

        圖4 話(huà)題例舉:數(shù)據(jù)挖掘?qū)W習(xí)和實(shí)現(xiàn)

        3.3 專(zhuān)業(yè)影響力節(jié)點(diǎn)基本信息采集

        通過(guò)領(lǐng)域詞典和話(huà)題識(shí)別技術(shù)對(duì)用戶(hù)進(jìn)行定向主題篩選后,將保留下的741位用戶(hù)的基本信息存儲(chǔ)在2.1節(jié)的表B中。下一步根據(jù)這些用戶(hù)的微博ID信息,通過(guò)Python程序爬取了他們2016年8月后發(fā)布的微博共計(jì)3萬(wàn)條,并將以上信息存儲(chǔ)在2.1中定義的表A中。表3中展示了計(jì)算節(jié)點(diǎn)領(lǐng)域傳播能力所需要的粉絲數(shù)、微博數(shù)、轉(zhuǎn)發(fā)數(shù)等詳細(xì)信息的部分示例數(shù)據(jù)。

        表3節(jié)點(diǎn)基本信息表(部分)

        微博昵稱(chēng)微博數(shù)量粉絲數(shù)量轉(zhuǎn)發(fā)數(shù)量36大數(shù)據(jù)網(wǎng)8176101279402 452nlp1334215115132752 9愛(ài)范兒3577210678647970002愛(ài)可可愛(ài)生活366610121132892 5陳利人4172128770151339 3廣告門(mén)17901249964542400 3好東西傳送門(mén)33882963928882 7黃曉慶83621158190195879 9老師木1076721317236874李航博士12024395061752 75

        3.4 專(zhuān)業(yè)影響力節(jié)點(diǎn)領(lǐng)域相關(guān)度計(jì)算

        為了提高計(jì)算節(jié)點(diǎn)領(lǐng)域相關(guān)度的準(zhǔn)確性,在計(jì)算節(jié)點(diǎn)領(lǐng)域相關(guān)度之前,需要擴(kuò)展和完善領(lǐng)域詞典?;舅悸肥牵菏紫冉Y(jié)合利用Jieba分詞工具對(duì)3.2節(jié)采集到的數(shù)據(jù)挖掘領(lǐng)域相關(guān)微博進(jìn)行了預(yù)處理,預(yù)處理主要包括文本分詞、詞性過(guò)濾、停用詞過(guò)濾等;然后通過(guò)人工挑選的方法從分詞集合中挑選出數(shù)據(jù)挖掘領(lǐng)域的主題詞加入領(lǐng)域詞典中,最終擴(kuò)展完善領(lǐng)域詞典;下一步通過(guò)完善后的領(lǐng)域詞典對(duì)微博文本進(jìn)行分類(lèi)后即可計(jì)算每個(gè)用戶(hù)和數(shù)據(jù)挖掘領(lǐng)域相關(guān)的微博數(shù)量占其所有微博數(shù)量的比例。計(jì)算出來(lái)的領(lǐng)域相關(guān)度結(jié)果如表4所示:

        表4 節(jié)點(diǎn)領(lǐng)域相關(guān)度(部分)

        3.5 微博評(píng)論的情感評(píng)分

        本文采用基于情感詞典的文本情感極性分析方法對(duì)粉絲的評(píng)論進(jìn)行情感打分,將用戶(hù)的情感極性分為正向、負(fù)向和中性3類(lèi)。正向?yàn)?分,負(fù)向?yàn)?1分,中性為0分。本文以BosonNLP情感詞典為基礎(chǔ),進(jìn)一步通過(guò)Python爬蟲(chóng)程序抓取了這741個(gè)微博用戶(hù)2016年8月后的所有微博評(píng)論,將所有的評(píng)論數(shù)據(jù)存放在2.1節(jié)定義的表D中;然后利用Jieba分詞工具對(duì)這些評(píng)論進(jìn)行分詞和去除停用詞處理;最后利用Google的Word2Vec算法[15],對(duì)大量語(yǔ)料進(jìn)行無(wú)監(jiān)督學(xué)習(xí),將詞語(yǔ)轉(zhuǎn)化為高維詞向量。通過(guò)計(jì)算詞向量之間的距離,得到與現(xiàn)有情感詞極性相同的情感新詞,結(jié)合現(xiàn)有的BosonNLP情感詞典形成一部較為完善的情感詞典。

        在情感詞典的構(gòu)建過(guò)程中我們發(fā)現(xiàn),評(píng)論中存在很多“@我的印象筆記”、“@有道云筆記收藏”這樣的評(píng)論,印象筆記、有道云筆記都是用來(lái)收集和整理知識(shí)的專(zhuān)業(yè)筆記軟件,用戶(hù)收藏微博到筆記的行為,反映出了微博內(nèi)容符合粉絲的需求,因此,我們將收藏到筆記的行為判斷為積極的表現(xiàn),進(jìn)行單獨(dú)計(jì)算。

        最后,利用2.3節(jié)中的公式5和公式6,計(jì)算得到這741個(gè)節(jié)點(diǎn)的情感極性平均分,計(jì)算結(jié)果如表5所示:

        表5 節(jié)點(diǎn)微博評(píng)論情感極性平均分(部分)

        3.6 節(jié)點(diǎn)領(lǐng)域傳播能力計(jì)算

        關(guān)注關(guān)系作為微博主要功能之一,用戶(hù)可以關(guān)注自己感興趣的人,接受他們發(fā)布的信息。不少影響力研究中,關(guān)注關(guān)系是計(jì)算研究的核心數(shù)據(jù)。為此,我們進(jìn)一步采集了這741個(gè)候選節(jié)點(diǎn)的相互關(guān)注關(guān)系,例如,其中A關(guān)注了B,C關(guān)注了B則我們記錄這兩條有向數(shù)據(jù)為A→B和C→B。通過(guò)python爬蟲(chóng)抓取處理,共獲取到4 721條有效數(shù)據(jù)記錄。為了使用2.4節(jié)中提到鏈接分析方法挖掘和識(shí)別數(shù)據(jù)挖掘領(lǐng)域中的專(zhuān)業(yè)影響力節(jié)點(diǎn),需要利用上文得到的節(jié)點(diǎn)基本信息評(píng)估指標(biāo)計(jì)算各個(gè)節(jié)點(diǎn)領(lǐng)域傳播能力,節(jié)點(diǎn)的領(lǐng)域傳播能力使用2.3節(jié)的公式7來(lái)計(jì)算。在計(jì)算之前,首先需要對(duì)表3、表4和表5提供的各項(xiàng)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,以消除數(shù)據(jù)在量綱和數(shù)量級(jí)上的差異。經(jīng)過(guò)歸一化后的各節(jié)點(diǎn)基本信息以及計(jì)算出來(lái)的領(lǐng)域傳播能力如表6所示:

        表6 節(jié)點(diǎn)基本信息及領(lǐng)域傳播能力(部分)

        得到各節(jié)點(diǎn)的領(lǐng)域傳播能力以后,利用2.4節(jié)提出的專(zhuān)業(yè)影響力節(jié)點(diǎn)挖掘算法,最終得到節(jié)點(diǎn)的專(zhuān)業(yè)影響力排序結(jié)果。表7是使用本文提出的專(zhuān)業(yè)影響力挖掘框架最終產(chǎn)生的排名前10位的影響力節(jié)點(diǎn)。

        排名前10位的專(zhuān)業(yè)影響力節(jié)點(diǎn)分別為:龍星鏢局、王威廉、南大周志華、梁斌penny、好東西傳送門(mén)、馬少平thu、老師木、陳利人、張棟_機(jī)器學(xué)習(xí)、西瓜大丸子湯。排名第11~20位的專(zhuān)業(yè)影響力節(jié)點(diǎn)有:網(wǎng)路冷眼、愛(ài)可可愛(ài)生活、數(shù)據(jù)挖掘研究院、李航博士、研究者July、社會(huì)網(wǎng)絡(luò)與數(shù)據(jù)挖掘、微軟亞洲研究院、52nlp、36大數(shù)據(jù)網(wǎng)、愛(ài)范兒。接下來(lái)我們對(duì)這些用戶(hù)進(jìn)行了持續(xù)跟蹤以及背景調(diào)研,發(fā)現(xiàn)其中一部分是機(jī)構(gòu)組織賬號(hào),如36大數(shù)據(jù)網(wǎng)、微軟亞洲研究院等,另一部分為個(gè)人微博。其中個(gè)人微博用戶(hù)都是該領(lǐng)域中具有一定建樹(shù)的研究人員。比如“張棟_機(jī)器學(xué)習(xí)”為百度科學(xué)家、鳳巢系統(tǒng)架構(gòu)師、原GOOGLE研究員;“南大周志華”,為南京大學(xué)教授,主要從事人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識(shí)別等方面的研究;“梁斌penny”為清華大學(xué)人工智能方向博士研究生,曾就職于搜狗搜索,承擔(dān)新聞搜索、個(gè)性化新聞、日志挖掘、商業(yè)廣告系統(tǒng)等開(kāi)發(fā)和研究;研究者july為數(shù)據(jù)科學(xué)在線(xiàn)教育平臺(tái)“7月在線(xiàn)”創(chuàng)始人。這些用戶(hù)是在“數(shù)據(jù)挖掘”領(lǐng)域影響力比較大的節(jié)點(diǎn)。

        表7 專(zhuān)業(yè)影響力節(jié)點(diǎn)排名(部分)

        綜上所述,通過(guò)對(duì)本文計(jì)算出的排名靠前的專(zhuān)業(yè)影響力節(jié)點(diǎn)在現(xiàn)實(shí)生活中的專(zhuān)業(yè)背景的調(diào)研,確實(shí)他們絕大多數(shù)都是專(zhuān)業(yè)領(lǐng)域權(quán)威的專(zhuān)家,這也證明了本文算法具有比較高的正確性。

        4 結(jié) 語(yǔ)

        本文提出了社交網(wǎng)絡(luò)中專(zhuān)業(yè)影響力節(jié)點(diǎn)的識(shí)別模型。其中利用了話(huà)題識(shí)別技術(shù)找到了用戶(hù)關(guān)注的話(huà)題以及關(guān)注這些話(huà)題的用戶(hù),將專(zhuān)業(yè)影響力節(jié)點(diǎn)的挖掘范圍限制在這些用戶(hù)群體內(nèi);以用戶(hù)的粉絲數(shù)量、微博數(shù)量、轉(zhuǎn)發(fā)數(shù)量、領(lǐng)域相關(guān)度等特征為基礎(chǔ),同時(shí)利用語(yǔ)義分析技術(shù)研究微博評(píng)論中的情感特征,并基于關(guān)注關(guān)系構(gòu)建鏈路網(wǎng)絡(luò),采用Domain Rank算法識(shí)別和挖掘社交網(wǎng)絡(luò)中的專(zhuān)業(yè)影響力節(jié)點(diǎn);同時(shí)針對(duì)最終結(jié)果,本文還對(duì)其進(jìn)行調(diào)研和專(zhuān)業(yè)評(píng)估,證實(shí)該方法確實(shí)成功識(shí)別出“數(shù)據(jù)挖掘”領(lǐng)域的專(zhuān)業(yè)影響力節(jié)點(diǎn)。

        本文對(duì)用戶(hù)的情感評(píng)價(jià)主要是基于情感詞典的情感評(píng)分方法。進(jìn)一步的研究,可以考慮充分利用本文在3.4中用到的詞向量技術(shù),利用深度學(xué)習(xí)的方法來(lái)提高情感評(píng)分的效果。

        猜你喜歡
        數(shù)據(jù)挖掘影響力領(lǐng)域
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        領(lǐng)域·對(duì)峙
        青年生活(2019年23期)2019-09-10 12:55:43
        天才影響力
        NBA特刊(2018年14期)2018-08-13 08:51:40
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        黃艷:最深遠(yuǎn)的影響力
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        3.15消協(xié)三十年十大影響力事件
        傳媒不可估量的影響力
        人間(2015年21期)2015-03-11 15:24:39
        新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        亚洲av网站首页在线观看| 丰满人妻猛进入中文字幕| 亚洲av男人的天堂一区| 在线视频观看国产色网| 亚洲人成精品久久久久| 日本一区二区三区在线观看视频| 亚洲黄片av在线免费观看| 日本在线视频二区一区| 国产视频在线观看一区二区三区 | 亚洲看片lutube在线观看| 亚洲av永久无码天堂网手机版| 亚洲国产精品无码久久电影| 国产美女69视频免费观看| 国产AV无码无遮挡毛片| av高清视频在线麻豆免费观看| 天堂蜜桃视频在线观看| 色综合久久久无码中文字幕| 日韩亚洲欧美中文在线| 免费av片在线观看网站| 亚洲三区二区一区视频| 亚洲成人色黄网站久久| 国产高清视频在线不卡一区| 久久精品国产成人午夜福利| 无码视频在线观看| 5级做人爱c视版免费视频| 天啦噜国产精品亚洲精品| 性感人妻av在线播放| 国产中文字幕亚洲精品| 久久久精品午夜免费不卡| 风韵多水的老熟妇| 狠狠久久精品中文字幕无码| 久久精品国产亚洲av成人擦边| 操国产丝袜露脸在线播放| 日本一级特黄aa大片| 永久黄网站色视频免费看| 精品香蕉久久久爽爽| 天天草夜夜草| 国产少妇一区二区三区| 在线观看 国产一区二区三区| 曰本女人与公拘交酡| 国产成人麻豆精品午夜福利在线|