亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多特征組合的SVM新聞文本情感分析

        2018-02-05 09:02:53張錦鋒重慶郵電大學(xué)通信與信息工程學(xué)院
        數(shù)碼世界 2018年1期
        關(guān)鍵詞:分類(lèi)特征文本

        張錦鋒 重慶郵電大學(xué)通信與信息工程學(xué)院

        1 基于詞向量的情感詞典擴(kuò)充方法

        谷歌公司開(kāi)發(fā)的Word2vec是一款主流的開(kāi)源Deep Learning學(xué)習(xí)工具[1-2]。該工具可以將詞語(yǔ)轉(zhuǎn)化為向量,利用深度學(xué)習(xí)的方法,將輸入的文本內(nèi)容轉(zhuǎn)化為M維向量空間中的向量運(yùn)算,通過(guò)訓(xùn)練,輸出為詞匯向量的集合,文本語(yǔ)義上的相似度表示向量空間上的相似度。通過(guò)處理之后的向量能夠進(jìn)行自然語(yǔ)言處理相關(guān)的研究,本文利用詞向量計(jì)算未知情感詞和來(lái)自Sentiwordnet情感詞典的情感詞匯的余弦值來(lái)判斷其情感得極性,從而來(lái)擴(kuò)充情感詞典。

        2 基于特征組合的SVM文本情感分析

        2.1 文本預(yù)處理

        文本預(yù)處理主要是對(duì)文本進(jìn)行分詞,剔除情感色彩不明顯的虛詞,并對(duì)文本詞性標(biāo)注,從而使得計(jì)算機(jī)能夠識(shí)別文本。文本預(yù)處理主要涉及文本分詞、停用詞處理以及詞性標(biāo)注等操作。英文中單詞之間是以空格或者標(biāo)點(diǎn)符號(hào)分割的,利用腳本語(yǔ)言Python同時(shí)調(diào)用開(kāi)源工具NLTK易于實(shí)現(xiàn)英文文本中的分詞以及詞性標(biāo)注。

        2.2 文本表示模型

        本文選擇向量空間模型(VectorSpaceModel)。VSM基本思想是將文本文檔看成由一組有區(qū)分文本情感類(lèi)別能力的詞或者短語(yǔ)特征項(xiàng)構(gòu)成,每個(gè)特征項(xiàng)的權(quán)重是根據(jù)該特征對(duì)文檔情感分類(lèi)的重要程度計(jì)算而來(lái)的。例如向量空間中表示文本d的一個(gè)n維向量如公式(1)所示。

        2.3 特征提取與特征選擇

        文本特征被認(rèn)為是文本表示時(shí)可處理的最小單位。特征提取的優(yōu)劣間接影響到分類(lèi)模型的分類(lèi)效果,為了最終訓(xùn)練一個(gè)性能好的SVM模型,本文選提取文本特征包括bigram、情感詞、POS、否定詞、程度副詞以及特殊標(biāo)點(diǎn)符號(hào)。

        特征選擇就是從原始特征項(xiàng)中選出可以用盡量少數(shù)目、能最大化的表示文本信息而且盡可能區(qū)別于其他類(lèi)別文本的特征項(xiàng)。本文選擇卡方檢驗(yàn)(CHI)表征特征與類(lèi)別的相關(guān)度。

        2.4 支持向量機(jī)(SVM)分類(lèi)算法

        Mullen和Collier[3]基于短語(yǔ)語(yǔ)義傾向性信息、形容詞、文本主題知識(shí)等多種信息源,采用支持向量機(jī)模型對(duì)電影評(píng)論進(jìn)行情感分類(lèi)。Gamon[4]利用對(duì)數(shù)似然比進(jìn)行特征選擇,使用支持向量機(jī)模型對(duì)顧客反饋數(shù)據(jù)進(jìn)行情感分析。

        支持向量機(jī)算法(Support Vector Machines, SVM)是一種二類(lèi)分類(lèi)模型。支持向量機(jī)的學(xué)習(xí)策略就是最大間隔化,可形式化為一個(gè)求解凸二次規(guī)劃的問(wèn)題,也等價(jià)于正則化的合頁(yè)損失函數(shù)的最小化問(wèn)題。為了描述的便利,本部分只考慮二分類(lèi)問(wèn)題,如圖1所示,存在分類(lèi)面(H1、H2)可將兩類(lèi)數(shù)據(jù)分開(kāi),距離訓(xùn)練數(shù)據(jù)最遠(yuǎn)的分類(lèi)面被SVM認(rèn)為是最優(yōu)分類(lèi)面(H),該最遠(yuǎn)距離稱(chēng)為幾何間隔(Margin),支持向量就是距離最優(yōu)分類(lèi)面最近的點(diǎn)(圖1中顏色較深的點(diǎn))。

        圖1 支持向量機(jī)原理圖

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 評(píng)價(jià)指標(biāo)

        本次實(shí)驗(yàn)使用信息檢索領(lǐng)域的準(zhǔn)確率P[5]作為為評(píng)價(jià)指標(biāo),針對(duì)分類(lèi)問(wèn)題中的各類(lèi)分別計(jì)算,從而來(lái)驗(yàn)證實(shí)驗(yàn)效果。計(jì)算公式如下:

        其中a表示正確判斷為積極評(píng)論的數(shù)量,b表示將消極評(píng)論誤判為積極評(píng)論的數(shù)量。

        3.2 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備

        本文利用網(wǎng)絡(luò)爬蟲(chóng)從來(lái)自VOA(VoiceOfAmerican)、BB C(BritishBroadcastingCorporation)網(wǎng)站抓取新聞文本評(píng)論經(jīng)過(guò)清洗后作為實(shí)驗(yàn)數(shù)據(jù),干凈的新聞文本評(píng)論數(shù)據(jù)共計(jì)24000條,其中積極評(píng)論數(shù)量和消極評(píng)論數(shù)量各占一半。本文從兩萬(wàn)多條數(shù)據(jù)中選取20000條評(píng)論數(shù)據(jù)作為訓(xùn)練集,4000條評(píng)論數(shù)據(jù)作為測(cè)試集。

        本文積極評(píng)論和消極評(píng)論的樣本數(shù)量相等,訓(xùn)練數(shù)據(jù)樣本是均衡的,這樣訓(xùn)練出來(lái)的模型比較有說(shuō)服力。當(dāng)輸入的積極和消極樣本數(shù)量不平衡,容易導(dǎo)致模型分類(lèi)到其中一個(gè)類(lèi)別的概率較大,如此模型的分類(lèi)性能指標(biāo)偏差。

        3.3 實(shí)驗(yàn)結(jié)果分析

        由于程度副詞、否定詞和標(biāo)點(diǎn)符號(hào)單獨(dú)作為分類(lèi)模型的特征沒(méi)有實(shí)際的意義,所以需要和情感詞搭配起來(lái)使用。

        說(shuō)明:特征1:詞性

        特征2:情感詞

        特征3:POS+情感詞

        特征4:POS+情感詞+bigram

        特征5:POS+情感詞+bigram+否定詞

        特征6:POS+情感詞+bigram+否定詞+程度副詞

        特征7:POS+情感詞+bigram+否定詞+標(biāo)點(diǎn)符號(hào)

        作為對(duì)比試驗(yàn),該實(shí)驗(yàn)測(cè)試SVM(SVC、LinearSVC、NuSVC)、樸素貝葉斯 NB(BernoulliNB、MultinomiaNB)和邏輯斯蒂回歸(LogisticRegression)三類(lèi)五種經(jīng)典機(jī)器學(xué)習(xí)方法對(duì)文本情感分類(lèi)性能的影響,使用CHI特征選擇方法。實(shí)驗(yàn)如表1所示。

        表1 不同分類(lèi)器在不同特征組合下的分類(lèi)準(zhǔn)確率

        由表1可知,特征6即詞性、情感詞、bigram、否定詞和程度副詞的組合特征作為分類(lèi)的特征時(shí),分類(lèi)效果最好,其中NuSVC的分類(lèi)準(zhǔn)確率達(dá)到87.92。分析7個(gè)特征可知,其中情感詞的作用最大,對(duì)于NuSVC基于特征1分類(lèi)準(zhǔn)確率提高了22.63%,其次,詞性特征使得準(zhǔn)確率提高了2.27%,bigram特征使準(zhǔn)確率提高了7.14%,否定詞對(duì)分類(lèi)效果也起到一定的作用,使分類(lèi)準(zhǔn)確率提高了0.91%,程度副詞同樣有一定效果,分類(lèi)準(zhǔn)確率提高了0.42%,然而作為特征的特殊符號(hào),使得分類(lèi)準(zhǔn)確率稍微有些下降,說(shuō)明特殊符號(hào)不適合作為SVM分類(lèi)模型的特征。

        4 總結(jié)

        本文提出的基于機(jī)器學(xué)習(xí)算法SVM結(jié)合擴(kuò)充情感詞典,多特征的組合包括POS、情感詞、bigram、否定詞、程度副詞等語(yǔ)言學(xué)知識(shí),使用VOA、BBC新聞評(píng)論語(yǔ)料,通過(guò)組合特征訓(xùn)練文本情感分類(lèi)模型,進(jìn)行新聞評(píng)論文本情感分類(lèi)模型的性能評(píng)估,從而驗(yàn)證組合特征分類(lèi)性能。試驗(yàn)表明組合特征6使SVM分類(lèi)較其他算法在分類(lèi)準(zhǔn)確率上有一定的優(yōu)勢(shì),準(zhǔn)確率達(dá)到87.92%。

        [1]Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[C].Proceedings of Workshop at International Conference on Learning Representations, 2013.

        [2]Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26: 3111-3119.

        [3]Mullen, T., and Collier, N. Sentiment analysis using support vector machines with diverse information sources.In Proceedings of EMNLP. 2004, 4: 412-418.

        [4]Gamon, M. Sentiment classification on customer feedback data: noisy data, large feature vectors, and the role of linguistic analysis. In Proceedings of the 20th international conference on Computational Linguistics. Association for Computational Linguistics, 2004.

        [5]Kumar S, Gupta P. Comparative analysis of intersection algorithms on queries using precision, recall and f-score[J].International Journal of Computer Applications, 2015,130(7): 28-36.

        猜你喜歡
        分類(lèi)特征文本
        分類(lèi)算一算
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        分類(lèi)討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国产尤物av尤物在线观看| 亚洲日本国产一区二区三区| 国产成人高清视频在线观看免费| 精品人妻av一区二区三区| 人妻少妇精品无码专区动漫| 国产成人综合一区二区三区| 亚洲中文字幕乱码一二三区| 亚洲一区二区三区av资源| 欧美性猛交xxxx免费看蜜桃| 国产成人一区二区三区在线观看 | 狠狠躁18三区二区一区| 亚洲国产精品久久亚洲精品| 国产自在自线午夜精品视频在| 性色国产成人久久久精品二区三区 | 丰满少妇大力进入av亚洲| 国产熟女精品一区二区三区| 国产偷闻女邻居av在线观看| 亚洲av日韩精品久久久久久a| 中文人妻av久久人妻18| 亚洲欧美日韩精品高清| 色视频不卡一区二区三区| 热re99久久精品国99热| 一本一本久久a久久精品综合| 欧美xxxxx精品| 美女扒开腿露内裤免费看| 欧美亚洲熟妇一区二区三区| 伊人网视频在线观看| 大量老肥熟女老女人自拍| 免费在线观看视频播放| 亚洲精品第一国产综合亚av| 久久天堂av色综合| 亚洲国产91精品一区二区| 中国无码人妻丰满熟妇啪啪软件 | 久久免费观看国产精品| 精品日韩一区二区三区av| 亚洲欧洲国产成人综合在线| 精品久久综合亚洲伊人| 在线日本高清日本免费| 亚洲最大成人网站| 每天更新的免费av片在线观看| 久久精品韩国日本国产|