亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于貝葉斯網(wǎng)絡的智能輿情分析監(jiān)控技術研究

        2021-06-14 13:02:36楊寒冰王春玲
        電子設計工程 2021年10期
        關鍵詞:特征文本情感

        楊寒冰,王春玲

        (西安航空職業(yè)技術學院,陜西西安 710089)

        隨著各種智能移動終端設備的普及與移動無線技術的快速發(fā)展,人們可以隨時隨地使用各種類型的社交軟件分享實時新聞、自身的情緒等信息,尤其是在校學生等年輕群體[1-2]。近年來,高校擴招使得學生人數(shù)逐年增多,熱衷于網(wǎng)絡社交的大學生也成為了網(wǎng)絡輿情的主要傳播者之一。這些社交軟件的用戶在發(fā)布信息時,會通過社會關系網(wǎng)絡使信息得到快速傳播。這些信息不可避免地會夾雜著用戶對事件的感情傾向和政治傾向,一旦得到大多數(shù)人的關注便會形成輿情[3-5]。使用相關技術挖掘網(wǎng)絡社交軟件信息背后隱藏的情感傾向與政治傾向,對網(wǎng)絡輿情分析和監(jiān)控具有重要意義[6-7]。

        輿情分析與監(jiān)控的目的是對人們?nèi)粘I钪械臒狳c話題進行監(jiān)督和檢測。高校匯集了大量的年輕人,他們對事物的判斷力有待提高,社會經(jīng)驗相對不足,相似的學習經(jīng)歷使得彼此之間具有極大的號召力。個別學生片面的評論和見解容易引發(fā)同齡人的追捧,甚至引發(fā)輿論。因此,高校成為輿情監(jiān)控的重要環(huán)節(jié)之一。

        輿情分析的關鍵在于分析網(wǎng)絡信息背后的情感,情感分析是融合統(tǒng)計學、計算機科學、文學等多門學科的技術[8-10]。由于網(wǎng)絡信息量較大,采用傳統(tǒng)人工統(tǒng)計的方式存在效率低等問題。此外,社交軟件上的信息主要為文本形式,對于文本數(shù)據(jù)的特征提取也影響信息挖掘效率[11-12]。近年來,機器學習技術被廣泛應用在大數(shù)據(jù)分析的場景中。作為人工智能的一個分支,機器學習進一步提高了處理海量、異構(gòu)數(shù)據(jù)的效率。基于機器學習的情感分析主要分為兩種:有監(jiān)督學習與無監(jiān)督學習方法[13-16]。

        針對該問題,文中首先對網(wǎng)絡社交信息情感類型進行分析,將情感傾向分為負面貶義、中立與正面褒義3 類。并對社交網(wǎng)絡的文本信息進行預處理,通過與情感詞典對比進行分詞操作;并使用樸素貝葉斯網(wǎng)絡做情感傾向分詞器;最終使用堆疊降噪自編碼器來進一步降低詞向量的維度,以提高輿情分析監(jiān)控模型的運行速度和準確率。

        1 技術總體框架

        智能輿情分析與監(jiān)控技術主要涉及兩個方面:網(wǎng)絡熱點話題的識別和情感傾向分析及判定。熱點話題被定義為在短時間內(nèi)迅速成為公眾關注的對象,并保持著討論時間較長的話題。熱點話題一旦形成,其事件走向會引發(fā)眾多公眾的討論。當負面情緒積累到一定程度時,便會引發(fā)輿論。因此,智能輿情分析監(jiān)控技術首先要將熱點話題的相關文本信息進行情感傾向分析與判定。

        基于貝葉斯網(wǎng)絡的智能輿情分析監(jiān)控技術總體框架如圖1 所示。社交網(wǎng)絡中的主要信息格式為文本,文本情感傾向性分析與判定則是對公眾文本形式的評論進行分析,從而判定某些群體對熱點話題的看法或情感傾向表達。首先,進行文本數(shù)據(jù)預處理;其次,進行特征提取并表達;最終,利用融合后的特征輸入至樸素貝葉斯網(wǎng)絡分類器中。針對輿情分析,文中將情感傾向分為負面貶義、中立與正面褒義3類。

        圖1 基于貝葉斯網(wǎng)絡的智能輿情分析監(jiān)控技術總體框架

        2 智能輿情分析監(jiān)控技術

        2.1 文本信息預處理

        文本預處理要保證獲取到的樣本有效信息比例高,并有利于進行文本特征的提取。文本信息預處理主要分為文本清洗、分詞、詞性標注及停用詞去除4 個部分。

        文本清洗是指檢查文本內(nèi)容,刪除無效、重復、錯誤的文本信息。在獲得文本樣本后,通常存在重復、無實際意義的文本、亂碼字符以及繁體字與簡體字混雜的現(xiàn)象。使用文本相似度計算算法來剔除重復的信息,通過正則表達式識別剔除無效的文字,調(diào)用Python 中的Opence 類庫進行繁體、簡體文本轉(zhuǎn)換。中文文本中最小情感表示單元為詞匯,因此,需要將每一個語句中的詞匯進行剖分與識別。

        由于同一個詞匯在不同的上下文中有不同的詞性,因此,需要對每個詞匯進行詞性標注,文中使用Jieba 分詞器進行分詞與詞性標注。Jieba 分詞器采用基于詞典的字符串匹配分詞方法,具體流程如圖2所示。該方法對待分詞的語句樣本進行逐字掃描,掃描可分為正向與反向。將劃分出來的詞與詞典里的詞匯進行對比,匹配成功后匯入詞序列,匹配失敗則重新進行分詞。

        圖2 基于詞典的字符串匹配分詞法流程

        明確詞性后,需要去除語句中介詞、助詞、代詞及語氣詞,這些種類的詞語并不具有情感傾向,去除后有助于降低文本特征的維度。

        進過預處理后,即可進行文本特征的提取。通常字與詞匯可構(gòu)成語句最基本的特征,然而,此特征維數(shù)較高,不利于后面文本識別時運算與分類效率的提高。因此,需要將關鍵特征提取出來。文中采用互信息法來進行特征的提取,互信息被定義為某隨機變量中含有另一個隨機變量的信息量。根據(jù)概率學原理,當某個特征與分類為相互獨立關系時,這兩者的互信息為0。文中特征項x與分類c的互信息表示兩者的關聯(lián)程度,可用式(1)進行計算。

        其中,I(x,c)表示x、c之間的互信息;P(x,c)表示x、c共同出現(xiàn)的概率;P(x)表示x出現(xiàn)的概率;P(c)表示c出現(xiàn)的概率。

        使用互信息將關鍵特征提取后,還需要明確該特征對文本分類結(jié)果的重要程度,即特征權(quán)重。文中使用TF-IDF 算法來計算特征權(quán)重如式(2)所示。

        式(2)中,tfik表示文檔中特征tk出現(xiàn)的比例,idfk表示在所有文檔中tk出現(xiàn)的比例倒數(shù)。

        2.2 基于樸素貝葉斯的文本情感傾向分類器

        為了適用于樸素貝葉斯網(wǎng)絡,文中改進了情感詞典的構(gòu)建結(jié)構(gòu),如圖3 所示。文中將詞典情感分為3 類:褒義、中性與貶義。除了情感傾向的區(qū)分,還需考慮情感傾向的程度。對于待判斷的詞匯首先判斷其是否屬于已有情感詞典,若存在,則直接計算情感均值;若不存在,則先判斷情感極性,再計算情感權(quán)值,最終得到情感均值并更新至情感詞典中。

        圖3 情感均值計算流程

        假設一段文本D的情感分類集合為{c1,c2,…,cn},將其中文本條件概率最大的情感分類定義為該文本的類。布爾值在DF向量法中作為文本向量的分量,其數(shù)值可表征某特征是否在文本中出現(xiàn),1 表示出現(xiàn);0 表示未出現(xiàn)。因此,某情感類別c出現(xiàn)的概率如式(3)所示。

        式(3)在計算時,若存在某個分類值在訓練集合中未與某個分類同時出現(xiàn)的情況,則計算得到的概率值為0。而這種情況與現(xiàn)實情況相矛盾,因此需要進行平滑處理。文中使用拉普拉斯修正法進行樸素貝葉斯網(wǎng)絡的平滑處理,如式(4)所示。

        其中,N表示文本D中可能出現(xiàn)的情感分類總數(shù),Ni表示第i個分類可能的概率取值。

        2.3 輿情分析監(jiān)控模型

        上文利用樸素貝葉斯網(wǎng)絡構(gòu)建了情感傾向分類器,使用該分類器可進行各個詞匯的情感傾向判斷,進而判斷輿情的走向,實現(xiàn)分析與監(jiān)控。然而,若直接將文本中分好的詞匯提取到的特征輸入至分類器中,則會產(chǎn)生極大的計算量。因此,需要進一步構(gòu)建輿情分析監(jiān)控模型來降低特征的維度,并快速分析詞向量特征與情感傾向之間的聯(lián)系。

        文中使用深度學習來降低詞向量特征的維度,同時,融合樸素貝葉斯網(wǎng)絡情感傾向分類器實現(xiàn)詞匯情感分類。由于社交文本數(shù)據(jù)經(jīng)過預處理后仍會存在一定量的口語詞,即引入了一定的噪聲,因此,文中使用堆疊降噪自編碼器實現(xiàn)特征降維。降維后的數(shù)據(jù)被傳輸至樸素貝葉斯情感分類器中,通過將人工標注的數(shù)據(jù)傳入該情感分類器中來修正樸素貝葉斯網(wǎng)絡的權(quán)重參數(shù),同時,通過反向傳輸來修正堆疊降噪自編碼器的權(quán)重參數(shù)。具體框架結(jié)構(gòu)如圖4、圖5 所示。

        圖5 融合堆疊降噪自編碼器的情感傾向識別模型

        圖4 融合堆疊降噪自編碼器的情感傾向識別結(jié)構(gòu)

        融合堆疊降噪自編碼器的情感傾向識別模型含一層輸入層、多層隱藏層及兩層輸出層。由于社交網(wǎng)絡中信息量較大,需要多層隱藏層來深度挖掘詞向量特征暗含的信息。然而,為了避免模型過于復雜,則降低計算量。文中隱藏層采用三層堆疊降噪自編碼器的形式,即每一層隱藏層均是一個降噪自編碼器。輸出層融合了樸素貝葉斯情感分類器,有褒義、中性、貶義3 種情感極性輸出。

        3 測試與驗證

        為了驗證文中所述方案的有效性與可行性,使用Eclipse 平臺進行測試實驗。實驗采用的文本數(shù)據(jù)來自COAE-2020 微博數(shù)據(jù)測評集,其中情感傾向為褒義、中性與貶義的文本樣本均為500 條。實驗組設置成由文中所述的融合堆疊降噪自編碼器與樸素貝葉斯分類器的輿情分析監(jiān)控模型,對照組為融合堆疊降噪自編碼器與Softmax 分類器的輿情分析監(jiān)控模型。首先,驗證文中所述方案情感識別的有效性與準確率,分別抽取褒義、中性與貶義文本各100 條,進行人工標注訓練;另各抽取50 條文本做測試樣本,檢驗模型預測結(jié)果與人工判定結(jié)果的差異。具體結(jié)果如表1 所示。

        表1 情感極性測試結(jié)果

        從圖6 可以看出,文中所述融合堆疊降噪自編碼器與樸素貝葉斯分類器的輿情分析監(jiān)控模型的準確率整體上優(yōu)于對照組。隨著詞向量維數(shù)的增加,實驗組和對照組的準確率均有所下降;而維數(shù)增加到310 后,兩者的準確率又逐步上升。但使用樸素貝葉斯分類器模型處理高維數(shù)的特征向量時,具有更高的準確率。

        圖6 文中所述樸素貝葉斯分類器與Softmax分類器不同詞向量維數(shù)準確率對比

        4 結(jié)束語

        文中通過分析社交網(wǎng)絡信息情感與輿情形成之間的關系,總結(jié)出當負面情緒比例較高時,容易引起輿論;利用樸素貝葉斯網(wǎng)絡作為文本情感傾向極性分類器,并使用堆疊降噪自編碼器作為詞向量特征學習網(wǎng)絡。經(jīng)測試,文中算法有較高的準確率,證明了該方案的有效性。文中技術并不局限于微博,也可用于其他社交軟件。對于研究大學生等年輕人對網(wǎng)絡實時信息的情感傾向、政治態(tài)度均具有積極的參考意義,可用于高校輿情監(jiān)督、穩(wěn)定國內(nèi)輿論環(huán)境。

        猜你喜歡
        特征文本情感
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        如何表達“特征”
        情感
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨立
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        爱我久久国产精品| 观看在线人视频| 最近免费mv在线观看动漫| 亚洲中文字幕无码中字| 涩涩国产在线不卡无码| 97成人精品在线视频| 精品国产偷窥一区二区| 丰满少妇高潮惨叫正在播放| 精品国产三级a| 女同重口味一区二区在线| 无码伊人66久久大杳蕉网站谷歌| 亚洲av无码xxx麻豆艾秋| 久久成人免费电影| 精品在线视频免费在线观看视频| 国语对白福利在线观看| 亚洲精品久久久久中文字幕一福利| 国产久视频国内精品999| 精品粉嫩国产一区二区三区| 99人中文字幕亚洲区三| 欧美黑人xxxx又粗又长| 99ri国产在线观看| 亚洲综合色视频在线免费观看| 久久精品国产亚洲av超清| 人人妻人人澡人人爽人人精品97| 久久中文字幕无码一区二区| 久久综合久中文字幕青草| 精品无人区无码乱码毛片国产 | 人妻少妇精品视频一区二区三区| 国产片三级视频播放| 亚洲成a人一区二区三区久久| 人妻少妇久久久久久97人妻| 亚洲性无码av在线| 亚洲熟女国产熟女二区三区| 国产夫妻自拍视频在线播放| 亚洲av无码专区在线播放中文| 高清无码精品一区二区三区| 亚洲少妇一区二区三区老| 欧美老肥妇做爰bbww| 中文字幕影片免费在线观看| 天堂女人av一区二区| 日本女优在线一区二区三区|