亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向語義缺失場景的社交媒體中熱門新聞識別方法研究

        2019-10-06 02:40:31謝海濤肖倩
        現(xiàn)代情報 2019年9期
        關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)社交媒體

        謝海濤 肖倩

        摘 要:[目的/意義]對社交媒體中熱門新聞的及時識別,有助于加速正面資訊的投送或抑制負(fù)面資訊的擴(kuò)散。當(dāng)前,基于自然語言處理的傳統(tǒng)識別方法正面臨社交媒體新生態(tài)的挑戰(zhàn):大量新聞內(nèi)容以圖片、音視頻形式存在,缺乏用于語義及情感分析的文本。[方法/過程]對此,本文首先將社交網(wǎng)絡(luò)劃分為眾多社群,并按其層次結(jié)構(gòu)組織為貝葉斯網(wǎng)絡(luò)。接著,面向社群構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)的熱門新聞識別模型,模型綜合考慮新聞傳播的宏觀統(tǒng)計規(guī)律及微觀傳播過程,以提取社群內(nèi)熱門新聞傳播的特征。最后,利用貝葉斯推理并結(jié)合局部性的模型識別結(jié)果進(jìn)行全局性熱度預(yù)測。[結(jié)果/結(jié)論]實驗表明,本方法在語義缺失場景下可有效識別熱門新聞,其準(zhǔn)確度強(qiáng)于基于語義信息的機(jī)器學(xué)習(xí)方法,模型具有良好的時效性、可擴(kuò)展性和適用性。該研究有助于社交媒體的監(jiān)管機(jī)構(gòu)及時識別出各類不含語義信息且迅速擴(kuò)散的熱點內(nèi)容。

        關(guān)鍵詞:社交媒體;輿情分析;熱門新聞識別;卷積神經(jīng)網(wǎng)絡(luò)

        DOI:10.3969/j.issn.1008-0821.2019.09.004

        〔中圖分類號〕G203 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2019)09-0028-13

        Abstract:[Purpose/Significance]Recognition of hot news in social media is beneficial for interfering the dissemination of information.At present,the traditional recognition methods based on NLP are facing the new challenge,i.e.,many news are lack of texts for semantic and emotional analysis,such as pictures and videos.[Method/Process]To this end,this paper firstly divided social networks into communities and organized them as a Bayesian network according to their hierarchical structure.Then,a hot news recognition model based on convolutional neural network was constructed for each community.The model synthetically analysed the macro statistics and micro processes,so as to retrieve the features of hot news disseminations within the community.Finally,the global popularity prediction was carried out by Bayesian reasoning based on the local model recognition results.[Result/Conclusion]Experiments showed that our method could effectively recognize hot news without semantic data,and improve the speed and accuracy of hot news recognitions with certain extendibility.The research would help social media regulators identify hot topics that do not contain semantic information and spread rapidly.

        Key words:social media;public opinion analysis;hot news recognition;convolutional neural network

        近年來,國內(nèi)外社交媒體(Social Media)產(chǎn)業(yè)發(fā)展迅猛。一方面,傳統(tǒng)巨頭(微博、微信、Twitter、Youtube等)深化著對大眾信息分享習(xí)慣的影響;另一方面,新入局者(抖音、喜馬拉雅FM、Instagram等)也在各自細(xì)分領(lǐng)域塑造著資訊傳播的新模式。面對社交媒體中由用戶生成的信息洪流,從中快速識別出熱門新聞既有利于社交媒體提升運營質(zhì)量,如發(fā)現(xiàn)優(yōu)質(zhì)內(nèi)容后推薦給更多受眾;也有助于政府機(jī)構(gòu)及時獲悉各類輿情預(yù)警并進(jìn)行干預(yù),如由政治事件[1]、經(jīng)濟(jì)震蕩[2]、群體性事件[3]所引發(fā)的輿情波動。因此,熱門新聞(Hot News)識別受到情報學(xué)、新聞傳播學(xué)、計算機(jī)科學(xué)等領(lǐng)域的廣泛關(guān)注并成為研究熱點[4]。

        熱門新聞可定義為在一定范圍的用戶群體內(nèi),在單位時間中受眾數(shù)量平均值較高的新聞。目前,針對社交媒體中熱門新聞的識別問題已存在諸多方法[5]。其中,取得較好應(yīng)用效果的方法大多需要語義信息的支撐,包括:1)基于概率統(tǒng)計及機(jī)器學(xué)習(xí)的方法,需根據(jù)歷史數(shù)據(jù)對新聞關(guān)鍵詞(主題詞、敏感詞)與其熱度(點擊量、評論數(shù))之間的關(guān)聯(lián)關(guān)系進(jìn)行建模和學(xué)習(xí),進(jìn)而實現(xiàn)熱門新聞識別;2)針對富含情感詞的新聞文本、用戶評論、表情符號等進(jìn)行情感分析,根據(jù)新聞所引發(fā)公眾情緒的正負(fù)性及其激烈程度來甄別熱點。

        雖然已有研究成果豐碩,但社交媒體與新聞傳媒業(yè)態(tài)的飛速發(fā)展,正不斷催生出更具挑戰(zhàn)性的信息承載與傳播生態(tài),表現(xiàn)為:海量涌現(xiàn)的多媒體新聞內(nèi)容夾雜著語義模糊的“流行語”,以圖片、音視頻等形式在社交媒體中迅速傳播。由于從上述形態(tài)的新聞內(nèi)容中抽取語義信息較為困難,因此基于自然語言處理技術(shù)(NLP)的熱門新聞識別方法出現(xiàn)了較大局限性。本文力圖擺脫對語義數(shù)據(jù)的依賴,將新聞的宏觀傳播態(tài)勢與微觀傳播過程(社交網(wǎng)絡(luò)節(jié)點間的信息傳播時序)相結(jié)合,利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)抽取社群中熱門新聞的多層次傳播特征,并基于貝葉斯網(wǎng)絡(luò)構(gòu)建一種在社交媒體中識別熱門新聞的方法。該方法在語義數(shù)據(jù)缺失場景下具有良好的識別準(zhǔn)確度,也具有一定的時效性、可擴(kuò)展性和適用性。

        1 研究現(xiàn)狀

        針對熱門新聞識別、熱點話題發(fā)現(xiàn)(Topic Detection)、謠言監(jiān)測(Rumor Spread Detection)等輿情分析問題已存在不少研究成果,其中應(yīng)用效果較好的方法往往需要語義分析(Semantic Analysis)技術(shù)的支撐[6]。根據(jù)所選語義要素的不同,可將相關(guān)研究分為基于情感詞和基于主題詞的兩類方法。

        1)基于情感詞的方法。該類方法基于情感詞典對包含情感詞匯的文本進(jìn)行情感分析(Sentiment Analysis),以判斷受眾對新聞的情感狀態(tài)[7-8]。在衡量受眾情感的激烈程度上,主要從兩個角度切入:第一,靜態(tài)統(tǒng)計分析角度。將新聞給受眾帶來的情感變化與社會網(wǎng)絡(luò)分析的已有研究結(jié)論相結(jié)合,得到新聞對整個社群情緒的正負(fù)性影響程度[9-10]。雖然該類方法在實踐中取得了一定效果,例如首歡容等將其應(yīng)用于謠言識別問題[11],但其只考慮了網(wǎng)絡(luò)所展現(xiàn)的靜態(tài)特性,未考慮信息的實際動態(tài)傳播過程[12],存在缺陷;第二,傳播動力學(xué)角度,如借鑒傳染病模型(SIR)等,使用微分方程對社交網(wǎng)絡(luò)中情緒傳播的速率進(jìn)行建模,從而預(yù)測新聞在網(wǎng)絡(luò)中引發(fā)的情緒擴(kuò)散態(tài)勢[13]。相比于靜態(tài)視角,動力學(xué)視角的方法可在時間維度上提供了更為精細(xì)化的預(yù)測。不過,網(wǎng)絡(luò)情感詞匯的表達(dá)具有相當(dāng)?shù)呢S富性和多變性,因此以上方法對用戶情感的判斷往往不準(zhǔn)確,很多研究缺乏對計算結(jié)果準(zhǔn)確率和召回率的驗證[4]。雖然也有研究者試圖將支持向量機(jī)(SVM)與潛在語義分析(LSA)相結(jié)合,對情感詞在高維度空間中進(jìn)行分類,以期對用戶的情感狀態(tài)進(jìn)行較為精確的判定,但社交媒體中的情感詞過于靈活多變,模型的訓(xùn)練樣本需要頻繁更新,建模成本過高[14]。

        2)基于主題詞的方法。該類方法旨在挖掘新聞的主題特征與其熱度之間的關(guān)聯(lián),根據(jù)歷史數(shù)據(jù)訓(xùn)練出熱門新聞識別模型。在抽取新聞的高維主題特征時,該類方法通常需要構(gòu)建主題模型(Topic Model)。常用的主題模型包括概率潛在語義分析(pLSA)和隱含主題分析模型(LDA)等。在識別出新聞主題的基礎(chǔ)上,利用無監(jiān)督機(jī)器學(xué)習(xí)(Unsupervised Learning),如K-means聚類[5]、層次式聚類[15],對待判定對象及其它樣本進(jìn)行聚類,進(jìn)而根據(jù)新聞所屬類別來判斷其是否熱門。除無監(jiān)督學(xué)習(xí)外,有監(jiān)督學(xué)習(xí)(Supervised Learning)方法中的分類模型也被用來實現(xiàn)熱點識別。例如,饒浩等用主成分分析法提取熱門事件中的主要主題特征,再通過BP神經(jīng)網(wǎng)絡(luò)進(jìn)行分類學(xué)習(xí),實現(xiàn)熱度分類模型[16]。隨后,饒浩等還嘗試將改進(jìn)的支持向量機(jī)用于微博熱門話題預(yù)測。該方法通過將高維特征空間中的內(nèi)積運算轉(zhuǎn)變?yōu)榈途S空間的函數(shù)運算,來擬合主題詞詞頻與話題熱度的關(guān)聯(lián),進(jìn)而生成熱門輿情預(yù)警模型[17]。相比于無監(jiān)督方法,有監(jiān)督方法具有更好的時效性,不需要在每次熱門新聞的判定中都執(zhí)行樣本空間上的整體計算,但其也存在分類模型選擇和模型復(fù)雜度設(shè)置方面的困難。

        總之,以上兩類方法均依賴于新聞包含的語義數(shù)據(jù)。然而,當(dāng)前社交媒體上大量的熱門新聞會以圖片、音視頻形式出現(xiàn),缺乏判斷其情感和主題的文本信息。因此,上述方法都不適用于此類語義缺失的識別場景。如若采用成本高昂的人工標(biāo)記法對內(nèi)容進(jìn)行語義采集,也易造成監(jiān)管的滯后性,無法滿足輿情監(jiān)測的實時性需求[18]。對此,楊小平、葉川等通過將用戶評論作為新聞內(nèi)容的補(bǔ)充來提取新聞的情感特征[19]與主題特征[20],曾金等通過識別圖片的視覺特征來注釋圖片的語義[21],上述兩種方法都存在數(shù)據(jù)噪音大、實用范圍窄的問題;魏靜、Liben-Nowell等依靠網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點相似性進(jìn)行信息傳播預(yù)測,雖然不再依賴文本信息,但卻需要獲知額外的用戶屬性[22-23],由于數(shù)據(jù)缺失是社交網(wǎng)絡(luò)中的常見問題[24],以致該方法的應(yīng)用受限。綜上所述,本文旨在面向較為嚴(yán)苛的場景,在假設(shè)沒有語義數(shù)據(jù)和用戶屬性信息的前提下,僅利用新聞傳播的宏觀統(tǒng)計量和微觀傳播時序信息,建立深度學(xué)習(xí)模型RHC以提取新聞多層次傳播特征與其熱度之間的關(guān)聯(lián)。

        2 社交網(wǎng)絡(luò)中熱門新聞的識別機(jī)制設(shè)計

        2.1 基于社群劃分的熱門新聞分析框架

        社交媒體中新聞的熱度具有“時間與空間”上的動態(tài)變化性。一方面,新聞具有特定的生命周期,在其變成熱門之前,會經(jīng)過不同時間跨度的潛伏期;另一方面,社交網(wǎng)絡(luò)用戶基于興趣和社會屬性聚集成社群,特性主題的新聞通常僅在特定范圍的人群中流行。因此,僅通過新聞傳播的宏觀統(tǒng)計量來判斷其是否屬于熱門,會存在較大偏差。

        為驗證上述結(jié)論,本文分析了社交媒體領(lǐng)域公認(rèn)性高的公開數(shù)據(jù)集“斯坦福網(wǎng)絡(luò)分析項目”(snap.stanford.edu),其選取Twitter中的局部社交網(wǎng)絡(luò),并對2008-2009年間的1 000條新聞進(jìn)行了128個時次的受眾跟蹤,共涉及3千萬個用戶的轉(zhuǎn)發(fā)(Retweet)行為?;赟tanford數(shù)據(jù)集,按新聞在單位時間片中的受眾關(guān)注量均值排序,取排名前10%的熱門新聞繪制128個時次的關(guān)注量變化曲線,見圖1??芍P(guān)注量曲線在波峰位置、波峰數(shù)量、峰值時刻等方面均存在顯著差異,從曲線形態(tài)上無法直接區(qū)分熱門新聞。

        接著,對上述熱門新聞繪制關(guān)注量累積分布曲線,見圖2。可知,相當(dāng)比例的熱門新聞在其傳播的最后階段,仍在線性地累積關(guān)注量,因此關(guān)注量的增長率(激增率)也并不足以作為判定標(biāo)準(zhǔn)。

        最后,按排序結(jié)果由高到低取5組新聞,每組100條。按分組分別繪制新聞在單個時次中出現(xiàn)的關(guān)注量峰值,見圖3??芍邢喈?dāng)比例的較冷門新聞的峰值也會高于較熱門的新聞。若以峰值作為熱門判定標(biāo)準(zhǔn),誤判率較高。

        基于上述考慮,本文旨在將新聞傳播的微觀過程納入考量,以彌補(bǔ)宏觀統(tǒng)計量的不足。同時,借鑒“分治法”思想,將社交網(wǎng)絡(luò)分割為層次化組織的社群,以應(yīng)對熱門新聞的局部性特點。分析框架見圖4,基于卷積神經(jīng)網(wǎng)絡(luò)的熱門新聞識別模型針對每個處于“葉子節(jié)點”位置的社群進(jìn)行單獨構(gòu)建,以新聞的宏觀統(tǒng)計和微觀傳播特征為輸入,對受監(jiān)控下的新聞給出是否屬于熱門的判定。將整個社交網(wǎng)絡(luò)抽象并同構(gòu)于貝葉斯網(wǎng)絡(luò),在葉子節(jié)點給出判定結(jié)果后,基于反向推理得到新聞在全局范圍內(nèi)的熱度預(yù)測。

        2.2 基于介數(shù)的層次式社群劃分

        對社交網(wǎng)絡(luò)進(jìn)行層次式社群劃分,既有利于精確定位熱門新聞的波及范圍,也有助于保障深度學(xué)習(xí)模型在學(xué)習(xí)與監(jiān)測中的計算可行性。整體上,采用分裂法進(jìn)行劃分直至社群滿足終止條件,具體采用基于介數(shù)(Betweenness)的社群劃分(Community Detection)方法。介數(shù)又稱中介中心性,用以衡量邊介于其他節(jié)點之間的程度。該方法是社群劃分領(lǐng)域的經(jīng)典算法,能割斷處在不同社群之間的邊,并將彼此連接較緊密的節(jié)點劃分到同一社群,其劃分結(jié)果符合“用戶基于興趣組成社群”的問題場景。另外,相比于基于節(jié)點聚類的方法,該方法具有更好的可計算性,適用于大規(guī)模社交網(wǎng)絡(luò)。

        基于上述操作,得到以s為源節(jié)點時的邊介數(shù)。接下來需分別以所有節(jié)點為源節(jié)點進(jìn)行輪詢,最終將所有中間結(jié)果求和得到邊的介數(shù)。在得到所有邊的介數(shù)之后,基于GN算法進(jìn)行社群劃分[25],算法具體步驟不再贅述。GN算法的核心思想是按照邊的介數(shù)由高到低進(jìn)行剔除,剔除過程中會形成獨立的社群,其終止條件是社群劃分結(jié)果具有較高的模塊度Q值(Modularity)。模塊度用來衡量社群劃分質(zhì)量,是社群內(nèi)部總邊數(shù)與網(wǎng)絡(luò)總邊數(shù)的比值減去一個期望值,該期望值是假設(shè)網(wǎng)絡(luò)為隨機(jī)圖時,在同樣的社群劃分下社群內(nèi)部邊數(shù)和網(wǎng)絡(luò)邊數(shù)的比值。計算公式如式(1),其中Avw為鄰接矩陣中對應(yīng)于節(jié)點v和w的元素,kv、kw是節(jié)點的度,m為網(wǎng)絡(luò)中邊的數(shù)量,θvw是指示函數(shù),其值依賴于v、w是否在同一社群,若在則為1,否則為0最后,根據(jù)社交網(wǎng)絡(luò)的結(jié)構(gòu)特征并結(jié)合主觀觀察,通過設(shè)置合適的Q閾值,得到理想的社群劃分結(jié)果。

        2.3 新聞熱度的貝葉斯推理

        社交網(wǎng)絡(luò)經(jīng)劃分會形成一棵“社群層次樹”,其根節(jié)點代表整個網(wǎng)絡(luò),葉子節(jié)點代表最終劃分后的社群,父節(jié)點(父群)會劃分形成一組子節(jié)點(子群)。由于實際中的社交網(wǎng)絡(luò)通常具有較大的用戶規(guī)模,對所有葉子節(jié)點進(jìn)行監(jiān)控并無必要。因此通過對社群層次樹進(jìn)行剪枝來降低計算復(fù)雜度,剪枝方法為按特定比例刪除父群下屬的子群,刪除的優(yōu)先級反比于子群的規(guī)模。將剪枝后的社群層次樹抽象為貝葉斯網(wǎng)絡(luò)[26],并基于貝葉斯網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)與推理機(jī)制,能從歷史數(shù)據(jù)中提取新聞在父群與子群中呈現(xiàn)出熱門的條件概率,并在監(jiān)測到子群出現(xiàn)熱門新聞的情況下反向推理出該新聞在父群中屬于熱門的概率,具體如下:

        最后,新聞熱度推理機(jī)制按照固定的時間間隔,輪詢?nèi)~子節(jié)點所對應(yīng)模型的最新識別結(jié)果,并重新推理被監(jiān)測新聞在上一層各父群范圍內(nèi)的熱門概率,若概率超過閾值則認(rèn)為新聞在父群中屬于熱門。依次類推,自底向上逐層推理出新聞的各層次判定結(jié)果。

        3 基于卷積神經(jīng)網(wǎng)絡(luò)的熱門新聞識別模型

        3.1 面向傳播統(tǒng)計量的宏觀特征構(gòu)建

        新聞傳播的宏觀統(tǒng)計量是判斷熱門新聞的重要指標(biāo),如:點擊量、轉(zhuǎn)發(fā)量、評論數(shù),但通過2.1節(jié)分析已知,簡單的統(tǒng)計量難以有效刻畫新聞傳播的宏觀特征。因此,本文采用了基于時間片的向量描述形式,如Stanford數(shù)據(jù)集中128個時次的關(guān)注量可用128維的向量描述,向量元素是單個時間片對應(yīng)的關(guān)注量數(shù)值。相比于簡單統(tǒng)計量,向量能刻畫統(tǒng)計量的變化曲線,其可能隱含著新聞主題類別、新聞傳播路徑、新聞爆發(fā)形式等信息。

        為驗證本方法的合理性,再次針對Stanford數(shù)據(jù)集進(jìn)行分析,隨機(jī)選擇一定數(shù)量的樣本數(shù)據(jù)??紤]到新聞間的關(guān)注量差異較大,對樣本集128個時次的關(guān)注量監(jiān)測值xt按照式(4)進(jìn)行歸一化處理(Normalization)。對歸一化后的關(guān)注量變化曲線進(jìn)行K-means聚類,當(dāng)聚類數(shù)量設(shè)置為6時,會形成聚類內(nèi)部較一致、聚類之間較不同的結(jié)果,見圖6。各類別均呈現(xiàn)相對特異的傳播曲線,其主要特征總結(jié)見表1。

        對于存在顯著形態(tài)差異的曲線聚類背后的形成機(jī)制,本文假設(shè)聚類與新聞主題存在關(guān)聯(lián),即:不同主題的新聞會經(jīng)過不同的傳播路徑,形成了差異性的關(guān)注量變化曲線。若該假設(shè)得到驗證,則說明曲線形態(tài)確實蘊含著豐富的信息,向量描述形式更加合理。為驗證該假設(shè),本文對每條新聞進(jìn)行類別標(biāo)注,類別設(shè)置為10個,包括:政治、經(jīng)濟(jì)、社會、文化、體育、娛樂、教育、軍事、健康、科技。新聞對類別的隸屬關(guān)系使用10維向量表示,隸屬度取值范圍是[0,1],若干示例見表2所示。

        對標(biāo)注后的新聞進(jìn)行K-means聚類,聚類數(shù)量設(shè)置為6,可得到基于主題的聚類結(jié)果。結(jié)合上文中的基于曲線形態(tài)的聚類結(jié)果,可得R×C列聯(lián)表,見表3。對列聯(lián)表按照式(5)進(jìn)行R×C表卡方檢驗(獨立性檢驗),其中A為實際觀察頻數(shù),n為樣本總數(shù),nR、nC分別為各行、各列的合計,自由度為(R-1)×(C-1)。計算得到Fisher精確檢驗值121.623,P值<0.01,由此拒絕獨立性假設(shè),可知曲線形態(tài)與主題類別之間存在關(guān)聯(lián),可知向量描述形式能保留更多的知識。

        3.2 面向傳播時序過程的微觀特征構(gòu)建

        3.2.1 基于節(jié)點中心性及權(quán)重的社交網(wǎng)絡(luò)采樣

        由于對社群中所有節(jié)點進(jìn)行傳播過程監(jiān)控的計算復(fù)雜度過高,因此需要進(jìn)一步簡化社群,簡化方法是基于節(jié)點中心性(Centrality)對網(wǎng)絡(luò)生成摘要。由于中心性較高的節(jié)點,其行為也較有代表性[27],因此新聞在該類節(jié)點上的傳播時序,也更具挖掘價值。本文采用了3種主流的節(jié)點中心性(見表4)生成網(wǎng)絡(luò)摘要,中心性越高的節(jié)點被保留的概率越大。另外,由于社交網(wǎng)絡(luò)中節(jié)點屬性及權(quán)重差異較大,高權(quán)重節(jié)點(意見領(lǐng)袖)對信息傳播存在重要影響。因此網(wǎng)絡(luò)采樣中要優(yōu)先保留高權(quán)重節(jié)點,要設(shè)置節(jié)點的保留概率正比于其權(quán)重。

        3.2.2 微觀傳播特征的熱力圖表示

        新聞傳播的微觀特征蘊含在受眾參與傳播的時序信息之中,如社交網(wǎng)絡(luò)中用戶轉(zhuǎn)發(fā)某新聞的早晚順序。若利用時序信息表征熱門新聞的微觀特征,需對兩點加以驗證:1)網(wǎng)絡(luò)簡化后的高中心性用戶在參與熱門和非熱門新聞傳播時,是否存在時間差異;2)熱門新聞相對于非熱門新聞的傳播過程,是否存在更加顯著的時序模式可供學(xué)習(xí)。

        針對第一點,基于Stanford數(shù)據(jù)集展開分析。隨機(jī)選取數(shù)據(jù)記錄,將用戶參與新聞轉(zhuǎn)發(fā)的時間片、新聞熱度、用戶中心性繪制見圖8。可知,高中心性的用戶在高熱度新聞傳播中,呈現(xiàn)較早參與的趨勢。

        針對第二點,使用頻繁序列模式(Frequent Sequential Pattern)來描述用戶群體參與新聞傳播

        所展現(xiàn)出的顯著時序模式。頻繁序列模式常被用來描述海量的數(shù)據(jù)庫事務(wù)中高頻率存在的信息關(guān)聯(lián),如長度為3的模式“A→B→C”可表示如下規(guī)律在數(shù)據(jù)集中高頻顯現(xiàn),即:“先出現(xiàn)A,再出現(xiàn)B,最后出現(xiàn)C”。本文使用PrefixSpan算法來進(jìn)行頻繁模式挖掘[28],模式的支持度(出現(xiàn)頻率)閾值設(shè)置為0.1。對熱門新聞與非熱門新聞分別挖掘后,可得到兩類新聞中不同長度的模式及其支持度。對兩類別中相同長度模式的支持度進(jìn)行方差分析,得到顯著性數(shù)值(P值)見表5。從表5可知,熱門新聞相比于非熱門新聞存在更加顯著的時序模式,時序模式也具有更高的支持度。

        基于上述分析,可知使用時序模式來描述新聞傳播的微觀特征具備合理性。因此,本文構(gòu)建了一種既能容納時序信息,又能被卷積神經(jīng)網(wǎng)絡(luò)處理的熱力圖來描述新聞的傳播過程,并基于熱力圖對特定社群中的新聞傳播歷史數(shù)據(jù)進(jìn)行重新表述,以期從中挖掘到多層次的新聞傳播規(guī)律。對于每條新聞傳播數(shù)據(jù),共構(gòu)建3組熱力圖,分別對應(yīng)于上述3種社會網(wǎng)絡(luò)抽樣。每組生成M張熱力圖,每張熱力圖由N個區(qū)域順次排列組合而成,每個區(qū)域包含D×B個像素,D為生成的傳播鏈條長度,B為寬度。具體生成流程見圖9。

        某社區(qū)中一則新聞傳播的熱力圖,見圖10。該熱力圖共有5個區(qū)域,生成的傳播鏈長度為30,寬度為6。該圖中的一個像素對應(yīng)一個用戶節(jié)點,像素顏色代表該用戶參與該新聞傳播的時間早晚,藍(lán)色為較早、紅色為較晚??梢?,圖10不但表征了參與傳播的用戶數(shù)量、增長率等特征,也涵蓋了若干微觀時序特征,如黑色小方框區(qū)域所展示的若干節(jié)點參與傳播的相對時間順序。

        3.3 基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建熱門新聞識別模型RHC

        深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種機(jī)器學(xué)習(xí)模型,被廣泛用于各類模式識別問題中,它通過有深度的卷積操作提取不同抽象層次的高維特征;通過池化技術(shù)(Pooling)有效控制學(xué)習(xí)規(guī)模,加速參數(shù)收斂,并使模型具有泛化能力;通過多層感知機(jī)部件靈活解決分類、回歸等問題[29]。本文以熱力圖的形式重新表述新聞的傳播過程,使所要解決的熱門新聞識別問題適合用CNN來解決?;贑NN的RHC(Recognition of Hot News Based on CNN)模型結(jié)構(gòu),見圖11。

        RHC模型分為兩部分:第一,新聞傳播特征抽取,即從信息傳播過程中抽取傳播特征;第二,熱門新聞識別,基于新聞傳播特征,判斷新聞是否熱門。下面對兩部分進(jìn)行介紹。

        第一部分,新聞傳播特征抽取:

        1)輸入信號(Channel)是某條新聞傳播過程的3組熱力圖,共3×M張。由于熱力圖可用二維矩陣表示,因此任何一個熱力圖均可表示為f(x,y),函數(shù)數(shù)值均歸一化到[0,1]區(qū)間。

        2)對輸入信號進(jìn)行C1、C2、S1、S2 4個過程的特征映射(Feature Map)。其中,C1、C2是卷積層,S1、S2是池化層。

        卷積操作是將兩個函數(shù)通過加權(quán)求和來進(jìn)行疊加。若操作發(fā)生在二維平面上,輸入特征f(x,y)與卷積核g(x,y)是如下映射函數(shù)R2→R,則卷積結(jié)果c(x,y)為:

        在本文中,與一般情況不同的是卷積核要考慮輸入特征的厚度,即熱力圖的層數(shù)3×M。因此,新聞的一系列熱力圖輸入可表達(dá)為fz(x,y)函數(shù),z∈{1,…,3×M}。輸入特征需要與多個卷積核進(jìn)行計算,卷積核均為gz(x,y)形式。卷積方法為按層對每個熱力圖同一區(qū)域分別進(jìn)行二維卷積,最后按區(qū)域?qū)Ω鲗佣S卷積結(jié)果求和生成三維卷積結(jié)果。例如,I表示一系列熱力圖輸入,厚度為2,兩個熱力圖分別記為I1、I2。K與I相對應(yīng),為3×3×2(厚度)卷積核,則卷積結(jié)果為:((1×1)+(3×4))+((2×3)+(4×1))=23。池化操作用以進(jìn)行特征采樣。由于卷積后會生成大量特征,為提升模型泛化能力并降低計算量,故用池化操作保留概要特征。本文采用的是最大池化(Max Pooling)方法,保留采樣范圍內(nèi)的最大值,例如,對4×4的特征矩陣,進(jìn)行2×2面積的池化。

        實際設(shè)計時,通常會將卷積結(jié)果再代入激活函數(shù),對特征進(jìn)行非線性映射,并壓縮值域范圍。本文采用的是ReLU(Rectified Linear Unit)激活函數(shù),該函數(shù)將在下文介紹。

        3)將經(jīng)過上述特征映射后的結(jié)果進(jìn)行光柵化,即將矩陣元素一字排開變成向量形式,并與基于時間片的宏觀統(tǒng)計向量拼接成一個向量,稱為新聞傳播向量,該向量作為第二部分(熱門新聞識別)的輸入。

        第二部分,熱門新聞識別:

        該部分由兩個部件構(gòu)成,前一個部件是全連接的多層感知機(jī),后一個部件是熱門新聞識別分類器。

        1)多層感知機(jī)類似于神經(jīng)網(wǎng)絡(luò),用以進(jìn)行多個輸入的累加與非線性映射,具體結(jié)構(gòu)如下:

        其中,Input=(Input1,…,Inputn)是輸入向量,w=(w1,…,wn)是權(quán)重向量,b是偏置量,ReLU激活函數(shù)的表達(dá)式為f(x)=max(0,x)。該激活函數(shù)有兩個優(yōu)點:第一,梯度不飽和,在模型參數(shù)調(diào)優(yōu)的反向傳播(Back Propagation)中,減輕了梯度彌散的問題;第二,極大地加快了參數(shù)收斂的速度。以上從輸入到輸出的計算公式如下:

        2)熱門新聞識別分類器用來做出最終判斷。由于判斷新聞是否熱門屬于分類問題,故此處采用Softmax多分類模型,損失函數(shù)(Loss Function)用均方誤差法(Mean Squared Error,MSE)。它們的公式分別為:

        為確定上述模型中的大量參數(shù),本文采用神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)常用的反向傳播算法進(jìn)行參數(shù)學(xué)習(xí)。該標(biāo)準(zhǔn)化算法較為成熟,具體實現(xiàn)可參見卷積神經(jīng)網(wǎng)絡(luò)相關(guān)文獻(xiàn),本文不再贅述。

        綜上,RHC模型將針對特定社群上的熱門識別問題進(jìn)行訓(xùn)練,訓(xùn)練數(shù)據(jù)為社群中非語義的新聞傳播歷史數(shù)據(jù),其中的熱門新聞為在全局范圍內(nèi)某統(tǒng)計量排序靠前的一定比例的新聞,訓(xùn)練后模型可對社群中的非語義新聞傳播數(shù)據(jù)進(jìn)行監(jiān)控,從而發(fā)現(xiàn)熱門新聞。

        4 實驗設(shè)計與結(jié)果分析

        4.1 實驗內(nèi)容設(shè)計

        實驗針對上文所述的“斯坦福網(wǎng)絡(luò)分析項目”(snap.stanford.edu)公開數(shù)據(jù)集展開,數(shù)據(jù)集對2008-2009年間Twitter局部網(wǎng)絡(luò)中的1 000條新聞進(jìn)行了128個時次的受眾跟蹤,涉及的社交網(wǎng)絡(luò)有節(jié)點3千萬個。本實驗截取其中的子網(wǎng)絡(luò)進(jìn)行實驗,涉及網(wǎng)絡(luò)節(jié)點25 000個,邊121 720條。將1 000條原始數(shù)據(jù)按照單位時間中的關(guān)注量均值由高到低排序,將排名前20%的個體標(biāo)注為熱門新聞。隨機(jī)取其中80%作為訓(xùn)練集,剩余作為測試集,形成“熱門新聞識別數(shù)據(jù)集”。

        本文使用Keras(https://keras.io)實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)模型RHC。Keras是構(gòu)建CNN的高層API,由Python實現(xiàn),并基于Tensorflow等后端運行。本文采用適用于科學(xué)計算的Python發(fā)行版Anaconda。所用計算機(jī)內(nèi)存16G、SSD硬盤256G、CPU為英特爾酷睿i7。RHC關(guān)鍵代碼如下:

        本文共設(shè)計4個實驗來驗證基于RHC模型的熱門新聞識別機(jī)制(以下簡稱RHC)的工作情況:1)RHC有效性實驗,看其在非語義場景中的熱門新聞的識別率相比于基于語義信息的機(jī)器學(xué)習(xí)方法的優(yōu)劣;2)RHC時效性實驗,看其能否較早地識別出熱門新聞;3)RHC可擴(kuò)展性實驗,看能否通過增加卷積神經(jīng)網(wǎng)絡(luò)復(fù)雜度來提升識別準(zhǔn)確度;4)RHC適用性實驗,用仿真實驗設(shè)計各類新聞傳播場景,看RHC方法的適應(yīng)能力。

        4.2 RHC方法的有效性與時效性實驗

        為了對比,本文實現(xiàn)了基于語義信息的邏輯回歸方法LR。首先對1 000條新聞進(jìn)行4.1節(jié)中的主題類別標(biāo)注,語義標(biāo)注由多人完成并進(jìn)行了一致性驗證。然后LR基于訓(xùn)練集的10維主題向量和熱門與否的標(biāo)簽進(jìn)行訓(xùn)練。最后LR基于10維主題向量對測試集進(jìn)行二元分類。用RHC與LR方法分別進(jìn)行識別,統(tǒng)計結(jié)果見表6??芍猂HC在非語義場景中識別熱門新聞上的表現(xiàn)強(qiáng)于基于語義的邏輯回歸方法,熱門新聞識別率良好。

        由于每條新聞的傳播數(shù)據(jù)都存在128個時次的“快照”,因此在實驗中通過按時間早晚順序復(fù)現(xiàn)傳播過程讓RHC執(zhí)行128次識別,并記錄正確識別出熱門新聞時的用戶關(guān)注量。將識別出的30條熱門新聞按最終關(guān)注量由高到低分5組,統(tǒng)計其被正確識別為熱門新聞時的用戶關(guān)注量均值,結(jié)果見表7??芍?,RHC方法能較早地識別出正在擴(kuò)散的熱門新聞,且新聞熱度越高,相對識別速度越快。

        4.3 RHC方法的可擴(kuò)展性與適用性實驗

        為驗證RHC方法的可擴(kuò)展性,對卷積神經(jīng)網(wǎng)絡(luò)模型做兩方面擴(kuò)展:1)擴(kuò)展模型的深度,深度體現(xiàn)為各類特征映射層、全連接層等的數(shù)量之和;2)提高訓(xùn)練集在數(shù)據(jù)集中的比例。對各情況下的RHC識別F值統(tǒng)計見圖12。

        隨著樣本數(shù)據(jù)集的擴(kuò)大、模型復(fù)雜度的提升,雖然模型的學(xué)習(xí)時間延長,但其識別能力也隨之上升,可見,模型有一定可擴(kuò)展性。因此,在具有高性能計算環(huán)境的情況下,可在該模型中應(yīng)用大規(guī)模數(shù)據(jù)集,從而提升模型的精度。

        為驗證RHC模型在不同場景中識別能力的適用性,本文實現(xiàn)了一種基于元胞自動機(jī)的社會網(wǎng)絡(luò)中新聞傳播仿真工具RHC-Sim[30]。在該工具中,用戶節(jié)點分布在二維網(wǎng)絡(luò)中,節(jié)點與4個相鄰節(jié)點為鄰居節(jié)點(若節(jié)點為黑色,則表示不存在此鄰居)。紅色表示已分享某條新聞的節(jié)點,綠色表示未分享該新聞的節(jié)點。在該工具中,主要配置項見表8,工具可直接輸出仿真測試數(shù)據(jù),其運行時的可視化結(jié)果見圖13。為保證仿真貼近于真實情況,本文將模型所依據(jù)的新聞傳播規(guī)律納入了仿真工具的配置與編碼中。

        為驗證RHC模型的適用性,使用仿真工具RHC-Sim創(chuàng)建不同結(jié)構(gòu)特征的社交網(wǎng)絡(luò)。在同一輪實驗中,固定網(wǎng)絡(luò)結(jié)構(gòu),用戶被設(shè)置為不同的屬性。每輪實驗進(jìn)行100次仿真,其中熱度高的新聞?wù)?0%,普通新聞?wù)?0%。所生成數(shù)據(jù)80%用于訓(xùn)練集、20%用于測試集,在每次仿真中新聞的波及范圍和傳播源頭數(shù)量均被設(shè)置為不同數(shù)值,見圖14左圖。針對得到的測試數(shù)據(jù)集,統(tǒng)計RHC識別精確度均值見圖14右圖。

        可知,RHC模型在多種社交網(wǎng)絡(luò)結(jié)構(gòu)中,對多種傳播模式的熱門新聞都有較高識別精確度,且隨著傳播源頭數(shù)量的增長、傳播范圍的增大,識別精度逐漸提高并最終穩(wěn)定。精度的提高與傳播源頭多、傳播范圍廣的熱門新聞具有更多的傳播時序信息和宏觀統(tǒng)計特征可供模型學(xué)習(xí)存在相關(guān)性。

        5 結(jié)論與展望

        本文面向語義信息缺失的場景,提出了一種用于社交媒體的熱門新聞識別方法。該方法將新聞傳播過程用熱力圖重新表征,利用卷積神經(jīng)網(wǎng)絡(luò)從宏觀統(tǒng)計特征及微觀傳播過程的時序信息中提取多層次特征,擺脫了對語義的依賴,識別精度強(qiáng)于基于語義信息的機(jī)器學(xué)習(xí)方法,且具有一定時效性、可擴(kuò)展性和適用性。本研究有助于在社交網(wǎng)絡(luò)的輿情監(jiān)管、情報分析、個性化推薦、謠言探測、惡意傳播等問題中,更有效地捕捉各類不含語義的新媒體熱門內(nèi)容,包括:數(shù)據(jù)、圖片、音頻、視頻、鏈接、加密文件等。另外,由于深度學(xué)習(xí)模型的設(shè)計較依賴研究者的主觀知識,因此如何將模型設(shè)計與傳播學(xué)、情報學(xué)的傳統(tǒng)分析方法有機(jī)融合以形成設(shè)計更加合理的模型,有待進(jìn)一步探索。

        參考文獻(xiàn)

        [1]Tumasjan A,Sprenger T O,Sandner PG,et al.Predicting Elections with Twitter:What 140 Characters Reveal About Political Sentiment[C]Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media.The AAAI Press,2010:178-185.

        [2]Bollen J,Mao H,Zeng X.Twitter Mood Predicts the Stock Market[J].Journal of Computational Science,2011,2(1):1-8.

        [3]安璐,歐孟花.突發(fā)公共衛(wèi)生事件利益相關(guān)者的社會網(wǎng)絡(luò)情感圖譜研究[J].圖書情報工作,2017,61(20):120-130.

        [4]紀(jì)雪梅,王芳.SNA視角下的在線社交網(wǎng)絡(luò)情感傳播研究綜述[J].情報理論與實踐,2015,38(7):139-144.

        [5]王晰巍,邢云菲,王楠,等.媒體環(huán)境下突發(fā)事件網(wǎng)絡(luò)輿情信息傳播及實證研究——以新浪微博“南海仲裁案”話題為例[J].情報理論與實踐,2017,40(9):1-7.

        [6]張艷豐,李賀,彭麗徽,等.基于語義隸屬度模糊推理的網(wǎng)絡(luò)輿情監(jiān)測預(yù)警實證研究[J].情報理論與實踐,2017,40(9):82-89.

        [7]Bermingham A,Smeaton A F.Classifying Sentiment in Microblogs:Is Brevity an Advantage?[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management.ACM,2010:1833-1836.

        [8]趙曉航.基于情感分析與主題分析的“后微博”時代突發(fā)事件政府信息公開研究——以新浪微博“天津爆炸”話題為例[J].圖書情報工作,2016,60(20):104-111.

        [9]Symeonidis P,Tiakas E,Manolopoulos Y.Transitive Node Similarity for Link Prediction in Social Networks with Positive and Negative Links[C]//Proceedings of the Fourth ACM Conference on Recommender Systems.ACM,2010:183-190.

        [10]王丹,張海濤,劉雅姝,等.微博輿情關(guān)鍵節(jié)點情感傾向分析及思想引領(lǐng)研究[J].圖書情報工作,2019,63(4):15-22.

        [11]首歡容,鄧淑卿,徐健.基于情感分析的網(wǎng)絡(luò)謠言識別方法[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(7):44-51.

        [12]葉騰,韓麗川,邢春曉,等.基于復(fù)雜網(wǎng)絡(luò)的虛擬社區(qū)創(chuàng)新知識傳播機(jī)制研究[J].現(xiàn)代圖書情報技術(shù),2016,32(7-8):70-77.

        [13]Cole W D.An Information Diffusion Approach for Detecting Emotional Contagion in Online Social Networks[D].Tempe,AZ:Arizona State University,2011.

        [14]田世海,呂德麗.改進(jìn)潛在語義分析和支持向量機(jī)算法用于突發(fā)安全事件輿情預(yù)警[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(2):11-18.

        [15]丁晟春,龔思蘭,李紅梅.基于突發(fā)主題詞和凝聚式層次聚類的微博突發(fā)事件檢測研究[J].現(xiàn)代圖書情報技術(shù),2016,32(7-8):12-20.

        [16]饒浩,陳海媚.主成分分析與BP神經(jīng)網(wǎng)絡(luò)在微博輿情預(yù)判中的應(yīng)用[J].現(xiàn)代情報,2016,36(7):58-62.

        [17]饒浩,文海寧,林育曼,等.改進(jìn)的支持向量機(jī)在微博熱點話題預(yù)測中的應(yīng)用[J].現(xiàn)代情報,2017,37(3):46-51.

        [18]李真,丁晟春,王楠.網(wǎng)絡(luò)輿情觀點主題識別研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(8):18-30.

        [19]楊小平,馬奇鳳,余力,等.評論簇在網(wǎng)絡(luò)輿論中的情感傾向代表性研究[J].現(xiàn)代圖書情報技術(shù),2016,32(7-8):51-59.

        [20]葉川,馬靜.多媒體微博評論信息的主題發(fā)現(xiàn)算法研究[J].現(xiàn)代圖書情報技術(shù),2015,31(11):51-59.

        [21]曾金,陸偉,丁恒,等.基于圖像語義的用戶興趣建模[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(4):76-83.

        [22]魏靜,朱恒民,宋瑞曉,等.個體視角下的網(wǎng)絡(luò)輿情傳遞鏈路預(yù)測分析[J].現(xiàn)代圖書情報技術(shù),2016,32(1):55-64.

        [23]Liben-Nowell D,Kleinberg J.The Link-Prediction Problem for Social Networks[J].Journal of the American Society for Information Science and Technology,2007,58(7):1019-1031.

        [24]柯昊,李天,周悅,等.數(shù)據(jù)缺失時基于BP神經(jīng)網(wǎng)絡(luò)的作者重名辨識研究[J].情報學(xué)報,2018,37(6):600-609.

        [25]Girvan M,Newman M E.Community Structure in Social and Biological Networks[J].Proceedings of the National Academy of Sciences of the United States of America,2002,99(12):7821-7826.

        [26]Koller D,F(xiàn)riedman N.Probabilistic Graphical Models:Principles and Techniques-Adaptive Computation and Machine Learning[M].Probabilistic Graphical Models-Principles and Techniques,2009.

        [27]張凌,羅曼曼,朱禮軍.基于社交網(wǎng)絡(luò)的信息擴(kuò)散分析研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(2):46-57.

        [28]Pei J,Han J,Mortazaviasl B,et al.PrefixSpan:Mining Sequential Patterns Efficiently By Prefix-projected Pattern Growth[C]//International Conference on Data Engineering,2001:215-224.

        [29]朱娜娜,景東,薛涵.基于深度神經(jīng)網(wǎng)絡(luò)的微博圖書名識別研究[J].圖書情報工作,2016,60(4):102-106.

        [30]楊晶,羅守貴.基于元胞自動機(jī)的網(wǎng)絡(luò)謠言傳播仿真研究[J].現(xiàn)代情報,2017,37(6):86-90.

        (責(zé)任編輯:孫國雷)

        猜你喜歡
        卷積神經(jīng)網(wǎng)絡(luò)社交媒體
        基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
        基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
        社交媒體視域下弱勢群體輿情表達(dá)研究
        移動互聯(lián)網(wǎng)時代用戶在線社交變遷及動因分析
        知識零售變現(xiàn)模式的問題與思考
        基于社交媒體的廣告學(xué)專業(yè)教學(xué)改革與實踐
        大學(xué)生社交媒體的使用特征、傳播趨向及其對高校傳播生態(tài)的挑戰(zhàn)
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        “雙微時代”的危機(jī)傳播趨勢和影響因素研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        深夜日韩在线观看视频| 日本中文字幕在线播放第1页| 日本一区二区三区激情视频| 青青草视频网站免费看| 国产精品蝌蚪九色av综合网| 香港三级精品三级在线专区| 欧美成aⅴ人高清免费| 日本女优中文字幕在线观看| 精品一区二区在线观看免费视频| 日本乱偷人妻中文字幕| 国产欧美日韩在线观看| 国产大陆av一区二区三区| 美女扒开内裤让我捅的视频| 人妻 日韩 欧美 综合 制服| 亚洲在AV极品无码天堂手机版| 国产成人自拍视频在线免费| 国产tv不卡免费在线观看| 激情综合丁香五月| 久热这里只有精品99国产| 一区二区三区精品偷拍av| 国产一级一级内射视频| 2020年国产精品| 韩国精品一区二区三区 | 少妇内射视频播放舔大片| 亚洲人成网站在线播放小说| 好看的日韩精品视频在线| 免费网站看v片在线18禁无码| 四虎永久在线精品免费观看地址| 蜜桃在线观看免费高清| 日本不卡高字幕在线2019| 真人直播 免费视频| 日韩无码尤物视频| 青青草成人免费在线视频 | 亚洲精品久久久久久动漫| 99热这里只有精品久久6| 亚洲不卡免费观看av一区二区| 白丝兔女郎m开腿sm调教室| 五月中文字幕| 中文字幕人妻激情在线视频| 真实国产乱子伦精品视频| 日本大片免费观看完整视频|