亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向短文本的網(wǎng)絡(luò)輿情話題

        2019-06-20 10:31:23龍永深彭沖陳衛(wèi)彌
        電子技術(shù)與軟件工程 2019年5期

        龍永深 彭沖 陳衛(wèi)彌

        摘要??? 本文的目的即是自動從海量社交短文本中,自動發(fā)現(xiàn)熱點事件或熱點話題,利用Python編程對短文本中的詞語進行處理,進一步提取出候選詞組,最后再進行話題的話題精篩,從而可以挖掘出相關(guān)人群重點關(guān)注的內(nèi)容。

        【關(guān)鍵詞】網(wǎng)絡(luò)輿情 話題分析 貝葉斯平均 注意力機制

        隨著社交網(wǎng)絡(luò)的發(fā)展和積累,內(nèi)容的產(chǎn)生、傳播、消費等已經(jīng)根深蒂固地融入在人們的生活里。隨之內(nèi)容分析的工作也就走進了人們的視野。信息的流動不再是單方向的,報紙的信息流動是從報紙到讀者,而在互聯(lián)網(wǎng)應(yīng)用中,可以方便地通過“評論”、“回復(fù)”等技術(shù)手段,使信息流動變成雙向的,甚至評論和回復(fù)成為信息中的有機組成部分,進一步地豐富原有信息的內(nèi)容。因此,從互聯(lián)網(wǎng)上主動地收集信息,用數(shù)據(jù)挖掘方法或者自然語言處理的方法來分析信息中用戶的觀點,成為當(dāng)前輿情分析的一種非常重要和直接的手段,也就是“網(wǎng)絡(luò)輿情分析”。

        1 熱詞處理

        本文從以下的一些方面進行熱詞提取工作。首先是文本的預(yù)處理,這里主要包括文本去重、廣告識別等方法,對數(shù)據(jù)進行一些去躁的工作。

        其次進行熱度分?jǐn)?shù)計算:利用貝葉斯平均對梯度分?jǐn)?shù)進行修正。貝葉斯平均的典型應(yīng)用包括用戶投票排名,產(chǎn)品評分排序,廣告點擊率的平滑等等。以用戶投票排名為例,用戶投票評分的人很少,則算平均分很可能會出現(xiàn)不夠客觀的情況。這時引入外部信息,假設(shè)還有一部分人(C人)投了票,并且都給了平均分(m分)。把這些人的評分加入到已有用戶的評分中,再進行求平均,可以對平均分進行修正,以在某種程度或角度上增加最終分?jǐn)?shù)的客觀性。容易得到,當(dāng)投票人數(shù)少的時候,分?jǐn)?shù)會趨向于平均分;投票人數(shù)越多,貝葉斯平均的結(jié)果就越接近真實投票的算術(shù)平均,加入的參數(shù)對最終排名的影響就越小。

        再通過頻繁項集、word2vector等方法,發(fā)現(xiàn)出共現(xiàn)詞語的關(guān)系。利用共現(xiàn)詞語的信息,對熱詞進行一輪篩選,提取出最有價值的熱詞,避免信息冗余。通過對詞頻進行時間序列分析,可以更詳細(xì)地區(qū)分短期、長期與周期性熱點;對一些更有價值的熱詞做熱度預(yù)警;對熱詞的增長趨勢進行分析等。

        綜上,本文在周期時間間隔內(nèi),通過貝葉斯平均修正的詞語梯度分?jǐn)?shù)來分析詞語熱度,并利用語料中詞語的共現(xiàn)信息,進一步篩選得出熱詞。通過時間序列分析,得出熱詞的特性和增長趨勢等。

        2 話題提取

        話題提取的工作也分為兩步,第一步先找出一些候選的話題詞組;第二步利用Attention的思想,從候選詞組中找出一個包含的詞語更加重要的詞組,作為輸出話題。

        2.1 候選詞組提取

        信息熵是用來衡量一個隨機變量出現(xiàn)的期望值,一個變量的信息熵越大,表示其可能的出現(xiàn)的狀態(tài)越多,越不確定,也即信息量越大?;バ畔⒖梢哉f明兩個隨機變量之間的關(guān)系強弱。定義如下:

        公式

        對上式做變換可以得到:

        公式

        則可知表示由X引入而使Y的不確定度減小的量。越大,說明X出現(xiàn)后,Y出現(xiàn)的不確定度減小,即Y很可能也會出現(xiàn),也就是說X、Y關(guān)系越密切。反之亦然。在實際應(yīng)用中,詞組的內(nèi)部聚合度即為詞語間的內(nèi)部聚合度。對于一個詞組,選取使不確定性減少的程度最多的一種詞語組合,來說明詞組的內(nèi)部聚合度。

        2.2 話題精篩

        對于某一個熱詞,挑選出來一批候選詞組后,每個詞組所含的詞語不同,包含的信息量也不同。篩選的主要依據(jù)或思想,其實和Attention機制是一樣的,關(guān)鍵是要找出重要的詞語。比如與“巴黎”的搭配,“巴薩”、“逆轉(zhuǎn)”、“時裝周”比“球迷”、“球員”、“心疼”、

        “法國”包含的信息更多,意義更大??梢韵氲?,“巴薩”、“逆轉(zhuǎn)”、“時裝周”這些詞語在其他無關(guān)語料中不常出現(xiàn),“球迷”、“球員”、“心疼”、“法國”在不同語料中都常會出現(xiàn),信息不明確。所以,可以通過TF-IDF的思路來確定Attention。

        熱詞的候選詞組s的事件或話題表示能力分?jǐn)?shù)可由以下公式求得:

        公式

        其中,N為候選詞組中的詞語個數(shù),為候選詞組中包含的第i個詞語,Corpus(w)表示含有詞語w的相關(guān)語料。另一方面也需要考慮詞組出現(xiàn)的頻次,詞組出現(xiàn)的次數(shù)越多,說明事件越重要。

        綜上所述,本文通過候選詞組的事件或話題表示能力分?jǐn)?shù)以及出現(xiàn)頻次,精篩出熱詞的相關(guān)話題。

        3 結(jié)論

        近年來,各種公眾趨勢分析類產(chǎn)品涌現(xiàn),各大公司都利用自身資源紛紛搶占一席之地。公眾趨勢分析平臺利用自然語言處理、機器學(xué)習(xí)方法對數(shù)據(jù)進行分析,給用戶提供輿情分析、競品分析、數(shù)據(jù)營銷、品牌形象建立等幫助。其中,熱點發(fā)現(xiàn)問題是公眾趨勢分析中不可或缺的一部分。本文集中在文本數(shù)據(jù)方面進行分析,挖掘相關(guān)人群重點關(guān)注的內(nèi)容。

        參考文獻

        [1]張群,王紅軍,王倫文.詞向量與LDA相融合的短文本分類方法[J].現(xiàn)代圖書情報技術(shù),2016(12).

        [2]劉紅兵,李文坤,張仰森.基于LDA模型和多層聚類的微博話題檢測[J].計算機技術(shù)與發(fā)展,2016(06).

        [3]葉成緒,楊萍,劉少鵬.基于主題詞的微博熱點話題發(fā)現(xiàn)[J].計算機應(yīng)用與軟件,2016(02).

        91久久大香伊蕉在人线国产| 国产精品内射后入合集| 亚洲免费视频播放| 亚洲啊啊啊一区二区三区| 久久精品国产亚洲av一般男女| 精品av熟女一区二区偷窥海滩| 亚洲欧美日韩人成在线播放 | 亚洲精品理论电影在线观看| 国产av在线观看91| 一个色综合中文字幕人妻激情视频| 老妇女性较大毛片| 国产精品偷伦视频免费手机播放| 日韩精品av在线一区二区| 久久综合精品人妻一区二区三区| 一本一道av无码中文字幕﹣百度| 久久精品这里只有精品| 天堂av一区二区在线| 亚洲av无码精品无码麻豆| 日本理伦片午夜理伦片| 国产亚洲午夜精品| 国产伦奸在线播放免费| 日韩av午夜在线观看| 超薄肉色丝袜一区二区| 漂亮的小少妇诱惑内射系列| 人妻少妇精品视频一区二区三| wwww亚洲熟妇久久久久| 香蕉视频一级| 午夜少妇高潮免费视频| 成人影院在线视频免费观看| 樱花草在线播放免费中文| 激情 一区二区| 最新国产激情视频在线观看 | 国产精品成人国产乱| 蜜桃一区二区三区在线看| 蜜臀av在线一区二区尤物| 亚洲人成无码区在线观看| 伊人久久大香线蕉免费视频| 日本人妻系列一区二区| 男人添女人囗交做爰视频| 久久精品人成免费| 久久爱91精品国产一区|