亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的政務(wù)微博評論情感分類研究

        2020-05-07 01:51:28魏姮清
        現(xiàn)代商貿(mào)工業(yè) 2020年11期
        關(guān)鍵詞:政務(wù)微博情感分析機(jī)器學(xué)習(xí)

        摘 要:微博因其信息傳播快、交互性強(qiáng)成為公眾參與民主政治討論的新渠道;各級政府紛紛通過開設(shè)政務(wù)微博加深與民眾之間的交流。對政務(wù)微博的評論數(shù)據(jù)進(jìn)行情感分析,及時(shí)掌握公眾對熱點(diǎn)輿情事件的情感傾向,能提升政民交互水平,也能在互聯(lián)網(wǎng)環(huán)境下有效改善政府服務(wù)質(zhì)量。在Word2vec構(gòu)建詞向量的基礎(chǔ)上,運(yùn)用SVM和RF對文本進(jìn)行情感分析。實(shí)驗(yàn)表明,SVM在進(jìn)行政務(wù)微博評論分類具有更高的分類效能。

        關(guān)鍵詞:機(jī)器學(xué)習(xí);政務(wù)微博;情感分析

        中圖分類號:D9 文獻(xiàn)標(biāo)識碼:Adoi:10.19311/j.cnki.1672-3198.2020.11.079

        0 引言

        政務(wù)微博是指政府在互聯(lián)網(wǎng)上開設(shè)的用于開展政務(wù)活動(dòng)的微博。第43次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》中數(shù)據(jù)表明:截至2018年12月中國網(wǎng)民規(guī)模達(dá)8.29億,互聯(lián)網(wǎng)普及率達(dá)到59.6%,3.94億網(wǎng)民使用線上政務(wù)辦事,占整體網(wǎng)民的47.5%。網(wǎng)絡(luò)問政時(shí)代下,政務(wù)微博因其實(shí)時(shí)性、便捷性、交互性等特點(diǎn),成為政務(wù)機(jī)構(gòu)實(shí)踐政務(wù)管理的主要媒介和公眾獲取信息和表達(dá)意見的重要平臺。

        通過對政務(wù)微博的評論數(shù)據(jù)進(jìn)行情感分析,了解公眾在熱點(diǎn)話題中的情感傾向,掌握公眾觀點(diǎn)和微博輿論的發(fā)展趨勢,有利于提升政民交互水平。本文研究不同的分類器對公眾參與政務(wù)微博的在線評論文本情感分類的準(zhǔn)確率,以便政務(wù)微博在熱點(diǎn)輿情事件中掌握公眾的情感傾向。

        1 相關(guān)技術(shù)

        1.1 Word2vec

        利用Word2vec分布式的詞向量訓(xùn)練方法,將詞匯以向量形式展現(xiàn)出來,從而達(dá)到將目標(biāo)文本用于向量運(yùn)算的目的,然后更好地完成情感分析的任務(wù)。

        1.2 SVM

        支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,廣泛應(yīng)用于許多領(lǐng)域。基于SVM的分類方法主要用于二元模式分類問題。經(jīng)SVM分類后,屬于不同類數(shù)據(jù)集中的點(diǎn)正好位于一個(gè)最優(yōu)超平面的不同側(cè)面,而且訓(xùn)練集中的正例點(diǎn)和負(fù)例點(diǎn)間的邊距(margin)最大化,使得兩類的分類間隔最大。

        1.3 RF

        隨機(jī)森林算法首先需要在訓(xùn)練集中隨機(jī)選擇一個(gè)子集,再根據(jù)決策樹算法構(gòu)造子集分類器。決策樹分類器的數(shù)量K需要在運(yùn)行前指定生成,然后確定子集的數(shù)量。

        2 用戶評論情感分析

        2.1 微博數(shù)據(jù)采集

        由于政務(wù)微博下的評論具有明顯的情感傾向,故本文針對政務(wù)微博,基于Python網(wǎng)絡(luò)爬蟲技術(shù)獲取了2019年受到廣泛關(guān)注的熱點(diǎn)輿情事件下“@中國警方在線”“@中國警察網(wǎng)”“@平安洛陽”“@平安北京”等政務(wù)微博下的評論信息,在完整的URL請求發(fā)送后,利用Lxml對網(wǎng)頁信息進(jìn)行解析,獲取在重大輿情事件下政務(wù)微博的回復(fù)、留言等評論信息,并以此為基礎(chǔ)進(jìn)行情感分類研究。

        2.2 數(shù)據(jù)預(yù)處理

        2.2.1 數(shù)據(jù)清洗

        在微博的評論中存在一些網(wǎng)絡(luò)鏈接、在博主發(fā)文下方@其他的明星或者網(wǎng)友以及“轉(zhuǎn)發(fā)微博”“轉(zhuǎn)發(fā)圖片”等,對情感分析的結(jié)果會(huì)產(chǎn)生干擾,予以刪除。

        2.2.2 數(shù)據(jù)集和人工標(biāo)注

        經(jīng)數(shù)據(jù)清洗后,得到9395條微博評論,包括4869條正向評論,4526條負(fù)向評論,部分?jǐn)?shù)據(jù)如表1。語料庫中隨機(jī)選取80%作為訓(xùn)練集,20%作為測試,用于政務(wù)微博情感分類模型的構(gòu)建,語料分布情況如表2所示。

        2.2.3 對評論文本進(jìn)行分詞和去停用詞處理

        在文本中使用頻率很高,但不具有檢索意義、不能表達(dá)文本中心思想的詞語即為停用詞。本文利用哈工大停用詞表,在利用結(jié)巴分詞處理時(shí),將得到的結(jié)果與停用詞匹配,若匹配成功,就將這個(gè)詞去掉,否則就保留下來。經(jīng)去停用詞后的部分評論文本分詞后的結(jié)果如表3。

        2.3 基于Word2vec的詞向量訓(xùn)練

        在進(jìn)行Word2vec的評論文本向量表達(dá)時(shí),Skip-gram模型的性能在判定詞語間的語義關(guān)系時(shí)的表現(xiàn)比CBOW模型更好,因此采用Skip-gram模型對詞庫進(jìn)行向量表達(dá),并轉(zhuǎn)化成特征向量的格式。步驟如下:

        (1)對于上下文窗口的取值,實(shí)驗(yàn)中將窗口值設(shè)定為5。

        (2)基于精確度的考慮,詞向量維度選擇300。例如:“可怕”的詞向量如圖1所示。

        (3)在大規(guī)模語料庫中訓(xùn)練出合適的詞向量的基礎(chǔ)上,評論文本本身的特征向量由對每條微博評論文本中所有詞語的詞向量累加后求平均得到。

        2.4 情感模型分析與訓(xùn)練

        2.4.1 分類模型評價(jià)指標(biāo)

        為了對兩種不同的分類方法進(jìn)行比較,首先確定模型的評價(jià)指標(biāo)。在本文中,微博評論情感極性分析為二分類問題,模型評價(jià)指標(biāo)需要考慮正向和負(fù)向兩個(gè)方面的模型效果,考慮訓(xùn)練模型不同預(yù)測結(jié)果的數(shù)量如表4。

        查準(zhǔn)率、召回率、F1值和準(zhǔn)確率四種評價(jià)指標(biāo)是數(shù)據(jù)挖掘任務(wù)中常用的模型評價(jià)標(biāo)準(zhǔn)。下面對這四種評價(jià)標(biāo)準(zhǔn)進(jìn)行詳細(xì)介紹:

        準(zhǔn)確率(Accuracy)表示訓(xùn)練模型對樣本的分類性能,公式如(1):

        查準(zhǔn)率(Precision)表示某一類別中訓(xùn)練模型預(yù)測數(shù)量占實(shí)際數(shù)量的比例,公式如(2):

        召回率(Recall)表示某一類別中訓(xùn)練模型預(yù)測數(shù)量占該類別實(shí)際記錄數(shù)量的比例。公式如(3):

        統(tǒng)計(jì)學(xué)領(lǐng)域,F(xiàn)1值(F-core)是對二分類模型的精度進(jìn)行衡量的一種評價(jià)標(biāo)準(zhǔn),該指標(biāo)兼具準(zhǔn)確率與召回率的特點(diǎn),F(xiàn)1值在0至1之間,對模型評價(jià)效果良好。例如對于正面情感,計(jì)算公式如(4):

        2.4.2 政務(wù)微博評論情感分類結(jié)果

        (1)支持向量機(jī)情感分類模型。

        應(yīng)用上文建立的訓(xùn)練數(shù)據(jù)集,采用Python平臺下的sklearn算法模塊實(shí)現(xiàn)支持向量機(jī)模型,測試數(shù)據(jù)集預(yù)測后的結(jié)果分布情況如表5所示。

        根據(jù)SVM模型的預(yù)測結(jié)果,應(yīng)用上文中設(shè)定的準(zhǔn)確率、查準(zhǔn)率、召回率和F1評分值公式,可以得到基于SVM模型的微博評論情感極性分類模型的評估情況。

        (2)隨機(jī)森林情感分類模型。

        應(yīng)用上文建立的訓(xùn)練數(shù)據(jù)集,采用sklearn算法模塊實(shí)現(xiàn)隨機(jī)森林模型,該模型函數(shù)在Decision Tree Classifier類下,部分模型參數(shù)按照系統(tǒng)默認(rèn)值處理,對測試數(shù)據(jù)集預(yù)測后的結(jié)果分布情況如表7所示。

        基于RF模型的微博評論情感極性分類結(jié)果如表8所示。

        3 結(jié)語

        從評估結(jié)果的對比可以發(fā)現(xiàn),SVM算法與RF算法相比,SVM方法各項(xiàng)指標(biāo)的結(jié)果評估值均優(yōu)于RF,見表6與表8比較。因此,Word2vec與SVM相結(jié)合情感分析模型,能更準(zhǔn)確的判斷政務(wù)微博評論的情感傾向。在熱點(diǎn)輿情事件中,政府管理部門可利用這些半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),對其加以利用掌握相關(guān)的輿情態(tài)勢以支持政府決策。

        參考文獻(xiàn)

        [1]陳婷,陳文春.基于用戶體驗(yàn)的便民類政務(wù)微博質(zhì)量提升策略[J].管理觀察,2019,(02):92-94,97.

        [2]汪祖柱,阮振秋.基于關(guān)聯(lián)規(guī)則的政務(wù)微博公眾評論觀點(diǎn)挖掘[J].情報(bào)科學(xué),2017,35(08):19-22.

        [3]王宇澄,薛可,何佳.政務(wù)微博議程設(shè)置對受眾城市形象認(rèn)知影響的研究——以微博“上海發(fā)布”為例[J].電子政務(wù),2018,(06):55-62.

        [4]牛雪瑩,趙恩瑩.基于Word2Vec的微博文本分類研究[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(08):256-261.

        [5]Li S, Wang Z, Zhou G, et al. Semi-Supervised Learning for Imbalanced Sentiment Classification[C]. Proceedings of International Joint Conference on Artificial Intelligence,2011:1826-1831.

        [6]Liu S, Li F, Li F, et al. Adaptive co-training SVM for sentiment classification on tweets[C]. ACM International Conference on Information & Knowledge Management. ACM,2013:2079-2088.

        [7]陳珂,黎樹俊,謝博.基于半監(jiān)督學(xué)習(xí)的微博情感分析[J].計(jì)算機(jī)與數(shù)字工程,2018,46(09):1850-1855.

        [8]彭陶.基于微博的情感傾向分析系統(tǒng)的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2016.

        作者簡介:魏姮清(1995-),女,漢族,湖北宜昌人,碩士,武漢理工大學(xué),研究方向:信息管理與信息系統(tǒng)。

        猜你喜歡
        政務(wù)微博情感分析機(jī)器學(xué)習(xí)
        基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        在線評論情感屬性的動(dòng)態(tài)變化
        預(yù)測(2016年5期)2016-12-26 17:16:57
        基于生態(tài)位理論的中國電子政務(wù)發(fā)展研究
        基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        前綴字母為特征在維吾爾語文本情感分類中的研究
        我國政務(wù)微博參與公共管理的問題及對策研究
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        巧用政務(wù)微博,回應(yīng)民眾關(guān)切
        人民論壇(2016年27期)2016-10-14 13:11:06
        无码av专区丝袜专区| 久久久午夜精品福利内容| 五月天精品视频在线观看| 69国产成人综合久久精| 偷拍偷窥在线精品视频| 欧美性受xxxx黑人猛交| 日本aⅴ大伊香蕉精品视频| 免费看一级a女人自慰免费| 青青草视频网站免费看| 久久综合九色欧美综合狠狠| 男人j进女人j啪啪无遮挡| 色爱无码A V 综合区| 美女狂喷白浆网站视频在线观看| 国产精品亚洲精品国产| 啦啦啦www在线观看免费视频| 天堂网在线最新版www中文网| 亚洲av日韩av一卡二卡| 黄片免费观看视频播放| 成年免费a级毛片免费看无码| av片在线观看免费| 无码国产精品色午夜| 全亚洲最大的私人影剧院在线看 | 国产精品成人黄色大片| 文字幕精品一区二区三区老狼| 久久国产精品久久久久久| 日本中文字幕不卡在线一区二区| 黄片午夜免费观看视频国产| 熟女一区二区三区在线观看| 久久夜色精品国产噜噜av| 亚洲九九夜夜| 少妇高潮精品在线观看| 狠狠躁夜夜躁人人爽天天古典| 国产成人亚洲精品91专区手机| 日韩精品一区二区av在线| 手机看片自拍偷拍福利| 海角国精产品一区一区三区糖心| 亚洲免费视频网站在线| 国产91精品一区二区麻豆亚洲| 亚洲av无码乱码在线观看裸奔| 国产成人久久综合热| 视频在线播放观看免费|