亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的“攜號(hào)轉(zhuǎn)網(wǎng)”微博評(píng)論情感分析

        2021-06-01 09:47:00
        中國(guó)科技縱橫 2021年3期
        關(guān)鍵詞:攜號(hào)語(yǔ)料庫(kù)負(fù)面

        (中國(guó)電信北京分公司,北京 100010)

        0.引言

        本文基于機(jī)器學(xué)習(xí)的方法,圍繞“攜號(hào)轉(zhuǎn)網(wǎng)”話題的微博評(píng)論進(jìn)行情感分析,考慮到各類媒體圍繞“攜號(hào)轉(zhuǎn)網(wǎng)”主題發(fā)布的微博文字稿件會(huì)影響到情感分析結(jié)果,并且媒體賬號(hào)數(shù)量很多,不易全部剔除,故僅選取微博評(píng)論作為分析文本,不包括微博原文。

        1.研究概述

        1.1 研究思路

        本文分為兩個(gè)實(shí)驗(yàn)步驟,第一部分是尋找可靠的開(kāi)源語(yǔ)料庫(kù),將帶有情感標(biāo)注的語(yǔ)料庫(kù)按照7:3的比例分成訓(xùn)練集和測(cè)試集,經(jīng)分詞、去停詞處理并轉(zhuǎn)化為詞向量后,使用訓(xùn)練集構(gòu)建情感分類模型,使用測(cè)試集對(duì)模型進(jìn)行情感分析測(cè)試。本文選用github上公開(kāi)發(fā)布的開(kāi)源語(yǔ)料庫(kù)對(duì)情感分類的模型進(jìn)行訓(xùn)練[1],該語(yǔ)料庫(kù)是對(duì)一定數(shù)量的微博評(píng)論文本進(jìn)行正負(fù)面情感分類的數(shù)據(jù)集,經(jīng)過(guò)人工核驗(yàn),過(guò)濾掉了廣告、過(guò)短或過(guò)長(zhǎng)、表意不明等語(yǔ)料,可靠性較強(qiáng),語(yǔ)料庫(kù)內(nèi)容如表1所示,其中0為負(fù)面情緒,1為正面情緒。

        表1 開(kāi)源語(yǔ)料庫(kù)節(jié)選

        第二部分首先要爬取微博評(píng)論數(shù)據(jù),將2019年11月至2021年3月19日(剔除3月21日“大量肖戰(zhàn)粉絲攜號(hào)轉(zhuǎn)網(wǎng)事件”對(duì)實(shí)驗(yàn)結(jié)果的影響)期間微博平臺(tái)關(guān)于“攜號(hào)轉(zhuǎn)網(wǎng)”相關(guān)評(píng)論進(jìn)行爬取,對(duì)獲取到的數(shù)據(jù)進(jìn)行篩選,去除運(yùn)營(yíng)商客服標(biāo)準(zhǔn)化回復(fù)以及類似的無(wú)效評(píng)論,利用篩選后的文本數(shù)據(jù),進(jìn)行文本處理、詞語(yǔ)向量化,然后運(yùn)用第一步得到的分類模型進(jìn)行情感分析。

        1.2 理論概述

        1.2.1 詞語(yǔ)向量化

        本文使用的Word2vec是一種無(wú)監(jiān)督式方式學(xué)習(xí)語(yǔ)義知識(shí)的方法,通過(guò)將文本轉(zhuǎn)換為詞向量的方式來(lái)表示詞語(yǔ)信息,即將詞語(yǔ)嵌入數(shù)據(jù)空間,使得語(yǔ)義上相似的單詞在該空間內(nèi)距離很近。Word2Vec模型中,主要有Skip-Gram和CBOW兩種模型,從原理上說(shuō),Skip-Gram是給定輸入詞語(yǔ)來(lái)預(yù)測(cè)上下文。而CBOW是通過(guò)上下文,反過(guò)來(lái)推測(cè)要輸入的詞語(yǔ),在本文中是使用CBOW方法來(lái)生成詞向量的[2]。

        1.2.2 情感分析理論

        當(dāng)前機(jī)器學(xué)習(xí)的主流算法有支持向量機(jī)算法、隨機(jī)森林算法、K近臨算法、樸素貝葉斯等,本文使用支持向量機(jī)(SVM)以及隨機(jī)森林(RF)算法開(kāi)展對(duì)比實(shí)驗(yàn)[3]。

        (1)支持向量機(jī)算法。支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,其最大的特點(diǎn)就是可以在不同類別的樣本點(diǎn)之中找到最優(yōu)的分界線或者分界面。在二維空間中,兩種類型的數(shù)據(jù)點(diǎn)分別位于決策分界線的兩側(cè),該分界線使兩類數(shù)據(jù)之間的分類間隔最大。在現(xiàn)實(shí)情況中,數(shù)據(jù)往往是非線性的,實(shí)踐中可將二維數(shù)據(jù)空間拓展至多維,進(jìn)而找到一個(gè)最優(yōu)決策面,將不同類型的數(shù)據(jù)點(diǎn)進(jìn)行分割。

        (2) 隨機(jī)森林算法。隨機(jī)森林算法是通過(guò)組合多個(gè)弱分類器進(jìn)行投票或求均值的方法,來(lái)提高最終結(jié)果的準(zhǔn)確性。該方法首先在該數(shù)據(jù)集上隨機(jī)有放回地抽樣重新選出K個(gè)新數(shù)據(jù)集來(lái)訓(xùn)練分類器。它將使用訓(xùn)練出來(lái)的分類器對(duì)新樣本進(jìn)行分類,然后用多數(shù)投票或者對(duì)輸出求均值的方法統(tǒng)計(jì)所有分類器的分類結(jié)果,結(jié)果最高的類別定位最終類別[4]。

        2.用戶評(píng)論情感分析

        2.1 文本數(shù)據(jù)預(yù)處理

        本文采用python進(jìn)行微博評(píng)論數(shù)據(jù)爬取,觀察收集到的數(shù)據(jù),可以看出數(shù)據(jù)中存在較大數(shù)量的運(yùn)營(yíng)商客服回復(fù),比如“您好,您反映的問(wèn)題我們已經(jīng)詳細(xì)記錄并反饋至相關(guān)部門……”,對(duì)情感分析的結(jié)果產(chǎn)生干擾,故予以剔除,最終得出了本次的實(shí)驗(yàn)數(shù)據(jù)集。

        2.2 模型的建立與測(cè)試

        對(duì)于用來(lái)訓(xùn)練模型的開(kāi)源數(shù)據(jù)集,共有10000余條微博評(píng)論文本,開(kāi)源作者已為所有文本逐條標(biāo)記了情感傾向,0為負(fù)面情感,1為正面情感。取其中7000個(gè)作為訓(xùn)練集,3000個(gè)作為測(cè)試集。

        2.3 對(duì)采集到的文本數(shù)據(jù)進(jìn)行分詞以及停用詞處理

        本文利用jieba詞庫(kù)進(jìn)行分詞,將句子拆解成詞語(yǔ),并把獲得的詞語(yǔ)數(shù)據(jù)集與哈工大停用詞表進(jìn)行比對(duì),剔除掉重復(fù)的詞語(yǔ),從而達(dá)到去除停用詞的目的。

        2.4 利用Word2vec生成詞向量

        本文使用Word2vec模型生成詞向量時(shí),采用了gensim包中的CBOW算法。為保證詞向量的準(zhǔn)確度,在生成過(guò)程中選擇了窗口值為5,并將詞向量維度調(diào)整為300,如表2所示。

        表2 “想“詞向量節(jié)選

        2.5 情感分析的各項(xiàng)指標(biāo)

        (1)混淆矩陣(Confusion Matrix),也稱誤差矩陣。以二分類模型為例,最終需要判斷樣本的結(jié)果是0還是1,或者說(shuō)是正向還是負(fù)向。

        通過(guò)樣本的采集,在真實(shí)結(jié)果已知的前提下,通過(guò)比對(duì)真實(shí)結(jié)果和分類模型的結(jié)果,可以一定程度上判斷模型的可靠性,如表3所示。

        表3 混淆矩陣(0代表負(fù)向,1代表正向)

        真實(shí)值為正向,模型輸出的預(yù)測(cè)結(jié)果是正向的數(shù)量(True Positive=TP)。

        真實(shí)值為正向,模型輸出的預(yù)測(cè)結(jié)果為負(fù)向的數(shù)量(False Negative=FN)。

        真實(shí)值為負(fù)向,模型輸出的預(yù)測(cè)結(jié)果為正向的數(shù)量(False Positive=FP)。

        真實(shí)值為負(fù)向,模型輸出的預(yù)測(cè)結(jié)果為負(fù)向的數(shù)量(True Negative=TN)。

        (2)準(zhǔn)確率(Accuracy),代表分類模型中所有判斷正確的結(jié)果占總觀測(cè)值的比重,是對(duì)于整個(gè)模型的評(píng)估項(xiàng)[5]。

        Accuracy= (TP+TN)/(TP+TN+FP+FN)

        (3)精確率(Precision),代表分類模型預(yù)測(cè)結(jié)果為正向的所有結(jié)果中,預(yù)測(cè)正確的數(shù)量。

        Precision= TP/(TP+FP)

        (4)靈敏度(Sensitivity),又稱召回率(Recall),代表在真實(shí)值為正向的所有結(jié)果中,模型預(yù)測(cè)結(jié)果正確的數(shù)量。

        Sensitivity=Recall= TP/(TP+FN)

        (5)F1-Score,F(xiàn)1-Score指標(biāo)是對(duì)分類模型的整體精度進(jìn)行衡量的評(píng)價(jià)指標(biāo),該指標(biāo)綜合了Precision與Recall的產(chǎn)出的結(jié)果,取值范圍從0到1的,1代表模型的輸出最好,0代表模型的輸出結(jié)果最差。

        F1 Score= 2PR/(P+R)

        2.6 模型測(cè)試

        實(shí)驗(yàn)中對(duì)于測(cè)試集的測(cè)試結(jié)果下:

        (1)支持向量機(jī)方法下,真實(shí)為1預(yù)測(cè)為1的是729個(gè),真實(shí)為0預(yù)測(cè)為1的是673個(gè),真實(shí)為1預(yù)測(cè)為0的是320個(gè),真實(shí)為0預(yù)測(cè)為0的是1276個(gè),如表4、表5所示。

        表4 支持向量機(jī)混淆矩陣

        表5 支持向量機(jī)指標(biāo)

        (2)隨機(jī)森林方法下,真實(shí)為1預(yù)測(cè)為1的是898個(gè),真實(shí)為0預(yù)測(cè)為1的是504個(gè),真實(shí)為1預(yù)測(cè)為0的是426個(gè),真實(shí)為0預(yù)測(cè)為0的是1170個(gè),如表6、表7所示。

        表6 隨機(jī)森林法混淆矩陣

        表7 隨機(jī)森林法指標(biāo)

        從數(shù)值上看,綜合各項(xiàng)指標(biāo),隨機(jī)森林方法進(jìn)行測(cè)試的結(jié)果更貼近真實(shí)值,故使用隨機(jī)森林方法對(duì)“攜號(hào)轉(zhuǎn)網(wǎng)”相關(guān)微博評(píng)論文本進(jìn)行情感分析。

        2.7 模型應(yīng)用

        實(shí)驗(yàn)中,共爬取到30184條與“攜號(hào)轉(zhuǎn)網(wǎng)”關(guān)鍵詞相關(guān)的微博評(píng)論,經(jīng)篩選客服留言、去重后,共15273條有效樣本數(shù)據(jù),表8所示。

        表8 有效數(shù)據(jù)情感分析列表節(jié)選

        3.結(jié)語(yǔ)

        使用訓(xùn)練好的隨機(jī)森林模型來(lái)對(duì)該數(shù)據(jù)集進(jìn)行情感分析,得到以下結(jié)果:

        正面情感6461條,占比42.31%;

        負(fù)面情感8812條,占比57.69%。

        從實(shí)驗(yàn)結(jié)果上看,微博用戶對(duì)于攜號(hào)轉(zhuǎn)網(wǎng)的正負(fù)面情感認(rèn)知較為均衡,約42.31%的微博評(píng)論對(duì)于“攜號(hào)轉(zhuǎn)網(wǎng)”話題持正面情緒,57.69%持有負(fù)面情緒。

        負(fù)面情緒的原因主體可以歸結(jié)如下三方面:

        第一,部分微博網(wǎng)友并非對(duì)于攜號(hào)轉(zhuǎn)網(wǎng)業(yè)務(wù)本身帶有負(fù)面情緒,而是覺(jué)得某個(gè)運(yùn)營(yíng)商的服務(wù)欠佳,在微博中抱怨遇到了不開(kāi)心的事情,想要去轉(zhuǎn)到其他運(yùn)營(yíng)商,本次實(shí)驗(yàn)的學(xué)習(xí)模型無(wú)法對(duì)此類微博評(píng)論進(jìn)行剔除,故而這一類的評(píng)論會(huì)被判斷帶有負(fù)面情感。經(jīng)后續(xù)人工核查,此類微博評(píng)論以及其他無(wú)效負(fù)面情感評(píng)論占所有負(fù)面情感評(píng)論的21.4%。

        第二,部分微博網(wǎng)友反映,辦理攜號(hào)轉(zhuǎn)網(wǎng)業(yè)務(wù)后,會(huì)出現(xiàn)無(wú)法收到第三方App的驗(yàn)證碼等問(wèn)題,這也使得想要攜轉(zhuǎn)的用戶們望而卻步。雖然目前相關(guān)技術(shù)已經(jīng)成熟,但是面對(duì)成千上萬(wàn)的第三方App,攜轉(zhuǎn)的銜接完善過(guò)程極為繁重,并非短時(shí)間內(nèi)可以完成[6]。

        第三,攜號(hào)轉(zhuǎn)網(wǎng)的過(guò)程較為復(fù)雜,需要攜入攜出兩家運(yùn)營(yíng)商合作完成,在任何步驟中遇到問(wèn)題都可能導(dǎo)致轉(zhuǎn)網(wǎng)困難。建議運(yùn)營(yíng)商間積極協(xié)調(diào)配合,不斷優(yōu)化攜號(hào)轉(zhuǎn)網(wǎng)業(yè)務(wù)流程,保證用戶攜號(hào)轉(zhuǎn)網(wǎng)順利、暢通。

        猜你喜歡
        攜號(hào)語(yǔ)料庫(kù)負(fù)面
        工信部:已有1700萬(wàn)用戶攜號(hào)轉(zhuǎn)網(wǎng)
        工信部:已為940萬(wàn)人次提供“攜號(hào)轉(zhuǎn)網(wǎng)”服務(wù)
        工信部:1700萬(wàn)用戶已完成攜號(hào)轉(zhuǎn)網(wǎng)
        《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
        負(fù)面清單之后的電改
        能源(2018年8期)2018-09-21 07:57:22
        遠(yuǎn)離負(fù)面情緒
        把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
        基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
        新聞?lì)^條
        語(yǔ)料庫(kù)語(yǔ)言學(xué)未來(lái)發(fā)展趨勢(shì)
        日韩一级精品视频免费在线看| 香蕉久久夜色精品国产2020| 亚洲一区二区三区av在线免费| 人妻少妇激情久久综合| 玖玖色玖玖草玖玖爱在线精品视频| 久久久久久亚洲av无码蜜芽| 精品高潮呻吟99av无码视频| 少妇被粗大猛进进出出| 91精品国产91综合久久蜜臀| 轻点好疼好大好爽视频| 欧美va亚洲va在线观看| 国产一区,二区,三区免费视频 | 日韩亚洲无吗av一区二区| 国产一区二区三区免费观看在线| 国产欧美日韩在线观看 | 激情综合色综合啪啪开心| 毛片24种姿势无遮无拦| 欧美三级超在线视频| 国产精品国产三级国产an不卡| 十八禁无遮挡99精品国产| 亚洲熟妇丰满大屁股熟妇| 国产精品久久久久免费看| 少妇被粗大的猛进69视频| 国产欧美一区二区三区在线看| 97久久久久人妻精品专区| 精品丝袜一区二区三区性色| 风韵犹存丰满熟妇大屁股啪啪| av无码精品一区二区三区宅噜噜| 久久久亚洲经典视频| 亚洲熟女av一区少妇| 性无码一区二区三区在线观看| 亚洲精品久久久久中文字幕二区| 日本老年人精品久久中文字幕| 男女做羞羞事的视频网站| 天堂新版在线资源| 无码AV高潮喷水无码专区线| 日本一区不卡在线观看| 国产免码va在线观看免费| 亚洲精品永久在线观看| 免费观看成人稀缺视频在线播放 | 久久国产成人午夜av影院|