亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)CHI特征選擇的情感文本分類研究*

        2017-05-10 13:00:44
        傳感器與微系統(tǒng) 2017年5期
        關(guān)鍵詞:分類特征文本

        袁 磊

        (合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009)

        基于改進(jìn)CHI特征選擇的情感文本分類研究*

        袁 磊

        (合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009)

        為了提高情感文本分類的準(zhǔn)確率,對(duì)英文情感文本不同的預(yù)處理方式進(jìn)行了研究,同時(shí)提出了一種改進(jìn)的卡方統(tǒng)計(jì)量(CHI)特征提取算法??ǚ浇y(tǒng)計(jì)量是一種有效的特征選擇方法,但分析發(fā)現(xiàn)存在負(fù)相關(guān)現(xiàn)象和傾向于選擇低頻特征詞的問題。為了克服不足之處,在考慮到詞頻、集中度和分散度等因素的基礎(chǔ)上,考慮文本的長(zhǎng)短不均衡和特征詞分布,對(duì)詞頻進(jìn)行歸一化,提出了一種改進(jìn)的卡方統(tǒng)計(jì)量特征提取算法。利用經(jīng)典樸素貝葉斯和支持向量機(jī)分類算法在均衡語料、非均衡語料和混合長(zhǎng)短文本語料上實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:新的方法提高了情感文本分類的準(zhǔn)確率。

        情感分類; 預(yù)處理; 卡方統(tǒng)計(jì)量; 特征選擇

        0 引 言

        互聯(lián)網(wǎng)的普及和用戶的增加極大促進(jìn)了電子商務(wù)的發(fā)展。和傳統(tǒng)的購物不同,由于地域的局限性,用戶缺少線下的體驗(yàn),對(duì)商品的質(zhì)量和賣家的情況不是很了解,更傾向于先看網(wǎng)絡(luò)評(píng)論然后再做購買決策。同時(shí)生產(chǎn)廠商為了解用戶需求,提高產(chǎn)品質(zhì)量,需要了解用戶對(duì)產(chǎn)品的購買喜好和使用后的評(píng)價(jià)意見,過去通常通過社會(huì)調(diào)查或人工手段分析這些信息,然而隨著互聯(lián)網(wǎng)信息爆發(fā)性地增長(zhǎng),傳統(tǒng)人工的手段已經(jīng)無法滿足快速變化的市場(chǎng)需求。因此,如何快速自動(dòng)地識(shí)別龐大的評(píng)價(jià)數(shù)據(jù)其中表達(dá)的對(duì)人物、事件、產(chǎn)品等的情感信息,判斷用戶的情感傾向,獲取需要的有用信息,已成為當(dāng)前的迫切需求。

        文本情感分析就是在這樣的背景下應(yīng)運(yùn)而生。與傳統(tǒng)的文本信息處理不同,文本情感分析所關(guān)注的是文本所體現(xiàn)出作者的情感信息,而不是文本描述表示的內(nèi)容。文本情感分析又稱為意見挖掘,是指通過計(jì)算機(jī)技術(shù)對(duì)帶有情感色彩的文本進(jìn)行主客觀性分析處理,歸納和推理得到文本的情感傾向性的過程[1]。

        1 相關(guān)工作

        現(xiàn)有的文本情感分析工作主要可以主要分為兩個(gè)方向,基于情感知識(shí)的方法和基于機(jī)器學(xué)習(xí)的方法[2]。前者主要是依靠一些已有的情感詞典或領(lǐng)域詞典以及主觀文本中帶有情感極性的組合評(píng)價(jià)單元進(jìn)行計(jì)算,來獲取情感文本的情感極性;后者主要是使用機(jī)器學(xué)習(xí)的方法,對(duì)文本大量特征選擇和訓(xùn)練模型 ,然后根據(jù)訓(xùn)練出的模型完成文本分類工作。本文采用機(jī)器學(xué)習(xí)的方法進(jìn)行文本情感分類的研究。

        文本情感分類前,需要將文本表示成計(jì)算機(jī)可以識(shí)別的方式。目前,文本文檔通常采用向量空間模型[2](VSM), VSM中一個(gè)文檔有多維的向量構(gòu)成,每個(gè)向量是一個(gè)特征項(xiàng),即文本中的單詞或短語。如果直接將文本中所有的詞作為特征項(xiàng),會(huì)導(dǎo)致文本的空間向量維度過大,造成文本稀疏并且包含大量的噪聲。合理的特征選擇,不僅減少了分類時(shí)間,而且去除冗余的信息,提高了分類精度,所以特征選擇對(duì)文本情感分類至關(guān)重要。常用的特征選擇算法有:文檔頻率(document frequency,DF),信息增益(information gain,IG),互信息(mutual information,MI ),卡方統(tǒng)計(jì)量(Chi-square statistic,CHI),期望交叉熵( expected cross entropy,ECE)等。

        許多學(xué)者近年來傾向于研究特征選擇問題,李杰[3]對(duì)語音情感識(shí)別當(dāng)中的特征進(jìn)行了概述;程廣濤[4]對(duì)圖像領(lǐng)域的HOG特征進(jìn)行了研究;Yang教授[5]針對(duì)文本分類問題,在分析和比較了IG,DF,MI和 CHI等特征選擇方法后,得出IG 和CHI方法分類效果相對(duì)較好的結(jié)論。IG相對(duì)于其他方法計(jì)算量比較大,本文將主要對(duì)卡方統(tǒng)計(jì)量CHI進(jìn)行研究和改進(jìn)。熊忠陽[6]分析了卡方統(tǒng)計(jì)量的不足,并提出將頻度、集中度、分散度應(yīng)用到卡方統(tǒng)計(jì)方法上,對(duì)卡方統(tǒng)計(jì)進(jìn)行改進(jìn);裴英博[7]提出了一種改進(jìn)的CHI統(tǒng)計(jì)權(quán)重計(jì)算方法,引入了新的頻度、相關(guān)度和分散度3個(gè)計(jì)算因子,提高了CHI統(tǒng)計(jì)方法在不均衡數(shù)據(jù)集上的表現(xiàn);王光[8]集合CHI與IG兩種算法的優(yōu)點(diǎn),得到一種集合特征選擇方法CCIF;邱云飛[9]在原有的卡方特征選擇的方法上通過增加3個(gè)調(diào)節(jié)參數(shù)以調(diào)節(jié)模型中特征項(xiàng)的權(quán)重,使得新的特征加權(quán)模型傾向于選擇集中分布在某一類里的特征項(xiàng);徐明[10]通過對(duì)微博文本特征信息的分析與研究,改進(jìn)卡方統(tǒng)計(jì)量使其適合微博的特征提?。恍ぱ11]提出最低頻CHI選擇算法,彌補(bǔ)卡方特征選擇對(duì)低頻詞的偏袒;Jin[12]將詞頻和詞的分布區(qū)間引入到CHI特征選擇算法,提高了文本分類的宏平均和微平均。

        前述對(duì)卡方統(tǒng)計(jì)量改進(jìn)都是對(duì)傳統(tǒng)文本分類的改進(jìn),本文研究了不同預(yù)處理對(duì)英文評(píng)論語料情感分類的影響,同時(shí)研究傳統(tǒng)卡方統(tǒng)計(jì)量特征提取的方法對(duì)情感分類結(jié)果的影響,并且分析卡方統(tǒng)計(jì)量的不足,在考慮到詞頻、集中度和分散度等因素的基礎(chǔ)上,考慮文本的長(zhǎng)短不均衡和特征詞分布,對(duì)詞頻進(jìn)行歸一化,提出基于改進(jìn)的卡方統(tǒng)計(jì)量特征選擇算法。最后,用樸素貝葉斯和支持向量機(jī)在均衡語料、非均衡語料、混合長(zhǎng)度語料上分別進(jìn)行情感分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果顯示,改進(jìn)的特征提取方法提高了分類的效果。

        2 卡方統(tǒng)計(jì)量及其改進(jìn)

        2.1 卡方統(tǒng)計(jì)量

        卡方統(tǒng)計(jì)量衡量的是特征項(xiàng)t和類別ci之間的相關(guān)程度。假設(shè)特征t和類別ci之間符合具有一階自由度的卡方分布,特征t對(duì)于類ci的卡方值越高,攜帶的類別信息越多,其與該類之間的相關(guān)性越大。特征項(xiàng)t對(duì)于文檔類別ci的CHI 值算法式(1)如下

        (1)

        式中 N=A+B+C+D;ci為某一特定類別;t為特定的特征項(xiàng);A為屬于類別ci且包含特征項(xiàng)t的文檔頻數(shù);B為不屬于類別ci但包含特征項(xiàng)t的文檔頻數(shù);C為屬于類別ci但不包含特征項(xiàng) t的文檔頻數(shù);D為既不屬于類別ci也不包含特征項(xiàng)t的文檔頻數(shù);N為訓(xùn)練語料中的文檔總數(shù)。

        式(1)的結(jié)果反映了特征項(xiàng)t和文檔類別ci之間的相關(guān)程度。統(tǒng)計(jì)值越大,特征項(xiàng)t和文檔類別越相關(guān);當(dāng)CHI(t,ci)=0,表示特征項(xiàng)t和文檔類別ci是相互獨(dú)立的。

        2.2 卡方統(tǒng)計(jì)量分析和改進(jìn)

        Yang[5]的研究表明,CHI特征選擇方法相對(duì)于傳統(tǒng)的特征選擇方法效果要好,但仍然存在一些問題:

        1)卡方統(tǒng)計(jì)量衡量的是特征項(xiàng)t和類別ci之間的相關(guān)程度,特征項(xiàng)對(duì)于某類的卡方值越高,其與該類之間的相關(guān)性越大,攜帶的類別信息越多。分析式(1),當(dāng)AD-BC>0時(shí),說明特征項(xiàng)t和類別ci正相關(guān),即特征項(xiàng)可能出現(xiàn)在類別ci中,CHI統(tǒng)計(jì)量越大,說明特征項(xiàng)t和類別ci的相關(guān)程度越大,可以作為特征選擇的特征項(xiàng);當(dāng)AD-BC<0時(shí),說明類別和特征項(xiàng)呈負(fù)相關(guān),此時(shí)計(jì)算出的CHI統(tǒng)計(jì)量的值越大,反而特征項(xiàng)t和類別成負(fù)相關(guān)程度越大。文獻(xiàn)[13]指出,文本分類中,特征的重要性主要是由正相關(guān)因素決定的,此時(shí)的特征項(xiàng)t,不適合保留。所以,當(dāng)AD-BC<0時(shí),將此時(shí)特征項(xiàng)t的CHI置為0,在計(jì)算中不予考慮。

        2)卡方統(tǒng)計(jì)方法只考慮了特征項(xiàng)出現(xiàn)的文檔頻數(shù),而沒有考慮到詞頻的影響,夸大了低頻詞的作用。如果一個(gè)特征項(xiàng)t只在某一類的少量文檔中頻繁出現(xiàn),則計(jì)算出來的卡方統(tǒng)計(jì)量的值比較小,有可能在特征選擇的時(shí)候被排除掉。但該特征項(xiàng)可能在某一類中具有很好的區(qū)分性。

        針對(duì)此問題,將特征項(xiàng)的頻度考慮到卡方統(tǒng)計(jì)量的計(jì)算當(dāng)中,但以前的工作[5~11]沒有考慮到每篇文檔長(zhǎng)度的不一致,實(shí)際的評(píng)論文本中,文本的長(zhǎng)度差異可能很大。為此考慮文檔的長(zhǎng)度,提出對(duì)每篇文檔的詞頻進(jìn)行歸一化方法。設(shè)訓(xùn)練文本中類別有類別C={C1,C2,…,Cm};訓(xùn)練集中類別Ci中有文本Ci={di1,di2…din};特征項(xiàng)t在文本dij(1≤j≤n)出現(xiàn)的頻度為tfij;dfij表示文本dij(1≤j≤n)中特征詞的個(gè)數(shù);Ni表示類別Ci的文檔總數(shù)。則特征項(xiàng)t在類別Ci中出現(xiàn)的歸一化長(zhǎng)度頻度 (normalizedlengthfrequency,NLF)表達(dá)式如下

        (2)

        在一個(gè)類中不僅詞頻大小,還考慮詞頻的分布,一個(gè)特征項(xiàng)t在類別ci中的分布越均勻比集中分布要更有價(jià)值,更值得保留。提出詞頻分布(frequencydistribution,FD),采用式(5)衡量分布

        (3)

        式中 α為很小的一個(gè)數(shù),實(shí)驗(yàn)中將α設(shè)為0.001。

        FD反映特征項(xiàng)t在類別中的詞頻分布,F(xiàn)D越小,說明特征項(xiàng)詞頻在類別ci分布越均勻,特征更有價(jià)值。綜合考慮詞頻在文本中的歸一化詞頻和詞在類中的分布,形成歸一化詞頻 (normalizedfrequency,NF)表達(dá)為

        (4)

        引入此公式主要解決卡方統(tǒng)計(jì)量只考慮文本的頻數(shù),而沒有考慮詞頻的問題。同時(shí)考慮到實(shí)際當(dāng)中文本長(zhǎng)度的不同和FD,對(duì)詞頻進(jìn)行了歸一化的處理,通過式(4)計(jì)算得到特征t對(duì)類ci的NF。

        3)為了使改進(jìn)的算法適合不均衡情感文本分類,將文獻(xiàn)[8]中闡述的集中度和分散度引入到卡方特征計(jì)算中。集中度 (concentrationinformation,CI)越大說明特征越集中在某一類當(dāng)中,特征項(xiàng)越有價(jià)值。分散度 (distributioninformation,DI)表示一個(gè)特征項(xiàng)是否在一個(gè)類中均勻分布,DI越大表示該特征項(xiàng)在一個(gè)類中的分布越廣。假設(shè)A表示含有此特征t的類ci的文檔數(shù),B表示含有特征項(xiàng)t,但不屬于ci類的文檔數(shù),C表示不含有特征項(xiàng)t的類ci文檔數(shù)。集中度CI和分散度DI分別表示為

        (5)

        (6)

        改進(jìn)后的算法,考慮到詞頻和FD,更加傾向于選擇特征詞出現(xiàn)的NF多,且均勻分布在一個(gè)類的特征,同時(shí)去對(duì)負(fù)相關(guān)的情況進(jìn)行了處理,改進(jìn)后的詞頻歸一化卡方統(tǒng)計(jì)量(normalizedfrequencyChi-squarestatistic,NF-CHI)特征提取算法,其計(jì)算式如下

        (7)

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)設(shè)置與流程

        實(shí)驗(yàn)數(shù)據(jù)與工具:對(duì)于中文文本分類存在分詞問題,分詞的準(zhǔn)確率會(huì)影響分類的結(jié)果,而英文一個(gè)單詞就可以表示一個(gè)特征項(xiàng),不會(huì)因?yàn)榉衷~對(duì)文本分類的結(jié)果造成影響,所以選擇英文電影評(píng)論語料。選擇斯坦福學(xué)者采集的英文電影評(píng)論語料[15],其中包含12 500個(gè)正向情感語料,12 500個(gè)負(fù)向情感語料。

        情感分類一般包括預(yù)處理、特征選擇、特征表示、特征加權(quán)、分類訓(xùn)練和分類結(jié)果衡量。對(duì)英文文本進(jìn)行預(yù)處理,包括去除停詞、詞形還原(lemmatization)和詞根還原(stemming)。詞形還原是把一個(gè)任何形式的語言詞匯還原為一般形式(能表達(dá)完整語義),例如將“drove”處理為“drive”,在根據(jù)停詞詞典去除停詞;詞根還原指抽取詞的詞干或詞根形式,例如將“effective”處理為“effect”,本文將對(duì)預(yù)處理的方式進(jìn)行研究,找到最佳的預(yù)處理方式。

        進(jìn)行特征選擇,采用傳統(tǒng)的卡方特征統(tǒng)計(jì)量(CHI)與本文提出的NF-CHI特征選擇算法。本文使用文本分類中常用的TF-IDF權(quán)重算法計(jì)算向量中各特征詞的權(quán)重值。

        本文采用Weka3.6數(shù)據(jù)挖掘開源工具進(jìn)行文本分類驗(yàn)證,輸入各文檔的特征權(quán)重值文件。分別采用樸素貝葉斯 (naive Bayes,NB) 算法和支持向量機(jī)(SVM)算法進(jìn)行分類實(shí)驗(yàn)。在平臺(tái)的設(shè)置中,采用十折交叉驗(yàn)證,即將數(shù)據(jù)集分成10份,輪流將其中的9份作為訓(xùn)練語料,1份作為測(cè)試語料,最后輸出平均得到的結(jié)果。

        3.2 實(shí)驗(yàn)效果評(píng)價(jià)標(biāo)準(zhǔn)

        文本分類的性能評(píng)價(jià)指標(biāo)主要是召回率R準(zhǔn)確率P和F值(F1-measure)。

        假定:類別ci的分類結(jié)果中,a為分類器將輸入文本正確地分類到類別的個(gè)數(shù),b為分類器將輸入文本錯(cuò)誤地分到了某個(gè)類別的個(gè)數(shù),c為分類器將輸入文本錯(cuò)誤地排除在某個(gè)類別之外的個(gè)數(shù)。具體公式如下

        (8)

        (9)

        (10)

        3.3 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)1,不同預(yù)處理對(duì)文本分類結(jié)果的影響,對(duì)英文文本的預(yù)處理包括去停詞,詞形還原,詞根還原。首先定義以下4個(gè)數(shù)據(jù)集:數(shù)據(jù)集DN0,原始語料不進(jìn)行任何處理;數(shù)據(jù)集DN1,在數(shù)據(jù)集DN0基礎(chǔ)上進(jìn)行詞形還原;數(shù)據(jù)集DN2,在數(shù)據(jù)集DN1基礎(chǔ)上進(jìn)行去除停詞操作;數(shù)據(jù)集DN3,在數(shù)據(jù)集DN2基礎(chǔ)上進(jìn)行詞根還原。從語料庫中選擇2 000篇正向語料,2 000篇負(fù)向語料,采用CHI提取400維特征,采用TF-IDF權(quán)重算法加權(quán),分別SVM進(jìn)行分類,其準(zhǔn)確率見表1。

        表1 不同預(yù)處理SVM分類器下的準(zhǔn)確率

        從表1中可以看出:采用DN3的數(shù)據(jù)集的準(zhǔn)確率最高,即對(duì)數(shù)據(jù)集進(jìn)行詞形還原、去除停詞和詞根還原,后面的實(shí)驗(yàn)將采用此方案對(duì)實(shí)驗(yàn)進(jìn)行預(yù)處理。

        實(shí)驗(yàn)2,基于均衡語料的對(duì)比實(shí)驗(yàn)。從語料庫中選擇2 000篇正向語料,2 000篇負(fù)向語料,分別采用的傳統(tǒng)的CHI和本文提出的NF-CHI特征提取算法提取400維特征,采用TF-IDF權(quán)重算法加權(quán),分別SVM進(jìn)行分類,結(jié)果如表2。

        表2 400維度SVM分類器下兩種方法對(duì)比 %

        根據(jù)表2可以看出:改進(jìn)的NF-CHI特征提取算法相比傳統(tǒng)的CHI特征提取算法在提取400維特征時(shí),改進(jìn)的算法SVM分類的效果平均準(zhǔn)確率P,平均召回率R和平均的F值都有一定的提高。說明改進(jìn)的CHI提高了情感文本分類的準(zhǔn)確率。

        實(shí)驗(yàn)3,改進(jìn)的NF-CHI方法和傳統(tǒng)CHI的特征提取的方法在不同維度下對(duì)比實(shí)驗(yàn)。選取正負(fù)情感語料各2 000篇,采用SVM分類器,分別在不同維度下進(jìn)行改進(jìn)的卡方特征提取算法和傳統(tǒng)的卡方特征提取算法進(jìn)行實(shí)驗(yàn),最后進(jìn)行準(zhǔn)確率的比較,實(shí)驗(yàn)結(jié)果如圖1。

        圖1 不同維度下SVM分類器的準(zhǔn)確率

        從圖1看出:采用SVM分類時(shí),采用NF-CHI特征選擇后的分類的準(zhǔn)確率比傳統(tǒng)的CHI的準(zhǔn)確率有小幅提升。在維度為800時(shí)提升最大,達(dá)到0.8 %,準(zhǔn)確率最高達(dá)到90.6 %。說明改進(jìn)的CHI提高了情感文本分類的準(zhǔn)確率。

        實(shí)驗(yàn)4,基于不均衡語料的對(duì)比實(shí)驗(yàn)。一般真實(shí)評(píng)論中正向的評(píng)論大于負(fù)向的語料,實(shí)驗(yàn)選擇2 000篇正向語料。1 000篇負(fù)向語料,使用NB分類器分類,在不同維度下進(jìn)行NF-CHI特征提取算法和傳統(tǒng)的CHI特征選擇進(jìn)行比較。不同維度的F值見實(shí)驗(yàn)結(jié)果圖2。

        圖2 不均衡語料下NB分類器F值

        從圖2中看出:改進(jìn)后的特征選擇算法分類的F值普遍比傳統(tǒng)的CHI要高,開始隨著特征維度的增加F值提高,當(dāng)維度達(dá)到300,出現(xiàn)過擬合現(xiàn)象,傳統(tǒng)CHI文本的分類F值反而下降;但改進(jìn)的NF-CHI特征選擇后的分類的F值仍然上升,到700維的時(shí)候達(dá)到峰值,此時(shí)F值為84.7 %。通過圖2看出改進(jìn)的NF-CHI的下降幅度更小,表明改進(jìn)的算法更加穩(wěn)定。維度在700維,本文提出的方法F值比傳統(tǒng)的CHI提高了1.4 %。實(shí)驗(yàn)結(jié)果表明,本文提出的NF-CHI算法對(duì)非均衡語料同樣有效。

        實(shí)驗(yàn)5,基于混合長(zhǎng)短文本語料的對(duì)比實(shí)驗(yàn)。為了驗(yàn)證改進(jìn)NF-CHI特征提取算法對(duì)文本長(zhǎng)短差異較大的語料同樣適用,分別從正負(fù)向情感的12 500篇語料庫中人工取出1 000篇長(zhǎng)文本與1 000篇短文本,選取結(jié)果中其中長(zhǎng)文本最短含有468單詞,短文本最多含有的單詞數(shù)為109個(gè)。使用SVM分類器進(jìn)行分類,在不同特征選擇維度下進(jìn)行分類準(zhǔn)確率對(duì)比。實(shí)驗(yàn)結(jié)果見圖3所示。

        圖3 混合長(zhǎng)短文本語料的SVM分類器的準(zhǔn)確率

        從圖3中看出:本文提出的NF-CHI特征提取算法進(jìn)行分類的準(zhǔn)確率普遍高于傳統(tǒng)的CHI, 隨著維度的增加,分類效果提高,在維度達(dá)到1 400時(shí),本文提出的NF-CHI準(zhǔn)確率達(dá)到88.8 %。實(shí)驗(yàn)證明,本文提出的NF-CHI算法對(duì)混合長(zhǎng)短文本的語料同樣有效。

        4 結(jié)束語

        本文對(duì)情感文本分類的研究中,針對(duì)英文不同的預(yù)處理方式進(jìn)行研究,發(fā)現(xiàn)采用詞形還原,去除停詞,詞根還原的預(yù)處理方式準(zhǔn)確率最高,同時(shí)針對(duì)CHI特征提取算法存在負(fù)相關(guān)現(xiàn)象以及傾向于選擇低頻特征詞的問題。本文考慮詞頻和詞頻的分布,提出一種NF,并過濾掉負(fù)相關(guān)的詞,引入集中度和分散度的因素,得到一種改進(jìn)的卡方特征選擇算法。最后采用NB和SVM算法對(duì)均衡語料,非均衡語料和混合長(zhǎng)短文本的語料上分別進(jìn)行分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:相比傳統(tǒng)的卡方特特征提取算法本文提出的方法提高了情感文本分類準(zhǔn)確率。后續(xù)的工作中,對(duì)情感進(jìn)行多層次的分類,并嘗試融入語義層次上的特征,進(jìn)一步地提高情感分類的準(zhǔn)確度。

        [1] 楊立公,朱 儉,湯世平.文本情感分析綜述[J].計(jì)算機(jī)應(yīng)用,2013,33(6):1574-1607.

        [2] 趙妍妍,秦 兵,劉 挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.

        [3] 李 杰,周 萍.語音情感識(shí)別中特征參數(shù)的研究進(jìn)展[J].傳感器與微系統(tǒng),2012,31(2):4-7.

        [4] 程廣濤,陳 雪,郭照莊.基于HOG特征的行人視覺檢測(cè)方法[J].傳感器與微系統(tǒng),2011,30(7):68-70.

        [5] Yang Y,Pedersen J O.A comparative study on feature selection in text categorization[C]∥Proceedings of the Fourteenth Internatio-nal Conference on Machine Learning,Morgan Kaufmann Publi-shers Inc,1997:412-420.

        [6] 熊忠陽,張鵬招,張玉芳.基于χ2統(tǒng)計(jì)的文本分類特征選擇方法的研究[J].計(jì)算機(jī)應(yīng)用,2008,28(2):513-514.

        [7] 裴英博,劉曉霞.文本分類中改進(jìn)型CHI特征選擇方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(4):128-130.

        [8] 王 光,邱云飛,史慶偉.集合CHI與IG的特征選擇方法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(7):2454-2456.

        [9] 邱云飛,王 威,劉大有,等.基于方差的CHI特征選擇方法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(4):1304-1306.

        [10] 徐 明,高 翔,許志剛,等.基于改進(jìn)卡方統(tǒng)計(jì)的微博特征提取方法[J].計(jì)算機(jī)工程與應(yīng)用,2014(19):113-117.

        [11] 肖 雪,盧建云,余 磊,等.基于最低詞頻CHI的特征選擇算法研究[J].西南大學(xué)學(xué)報(bào):自然科學(xué)版,2015(6):137-142.

        [12] Jin C,Ma T,Hou R,et al.Chi-square statistics feature selection based on term frequency and distribution for text categoriza-tion[J].IETE Journal of Research,2015,61(4):1-12.

        [13] Galavotti L,Sebastiani F,Simi M.Experiments on the use of feature selection and negative evidence in automated text categorization[C]∥Proceedings of the 4th European Conference on Research and Advanced Technology for Digital Libraries,Springer-Verlag,2000:59-68.

        [14] Maas A L,Daly R E,Pham P T,et al.Learning word vectors for sentiment analysis[C]∥Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies,Association for Computational Linguistics,2011:142-150.

        Study on sentiment text classification based on improved CHI feature selection*

        YUAN Lei

        (School of Computer and Information,Hefei University of Technology,Hefei 230009,China)

        In order to improve the accuracy of sentiment text classification,different preprocessing methods of the sentiment of English text is studied,and an improved algorithm of Chi-square statistic(CHI)feature extraction is put forward.CHI is one of the most efficient feature selection methods,but there are two weaknesses,negative correlation phenomenon and tend to choose low-frequency feature words.In order to overcome these two shortcomings,on the basis of taking into account factors of word frequency,concentration information and dispersion information,considering the length of the text is not balanced and the distribution of feature words,word frequency is normalized,CHI feature extraction algorithm is proposed.Using classical naive Bayes and support vector machine(SVM)classification algorithms experiments is carried out on balanced corpus,imbalanced corpus and mixed-length corpus,and experimental results show that the new method improves accuracy of sentiment text classification.

        sentiment classification; preprocessing; Chi-square statistic(CHI); feature selection

        10.13873/J.1000—9787(2017)05—0047—05

        2016—05—19

        國家自然科學(xué)基金重點(diǎn)資助項(xiàng)目(61432004);安徽省自然科學(xué)基金資助項(xiàng)目(1508085QF119);中國博士后基金資助項(xiàng)目(2015M580532);模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室開放課題資助項(xiàng)目(201407345)

        TP 391

        A

        1000—9787(2017)05—0047—05

        袁 磊(1991-),男,通訊作者,碩士,研究方向?yàn)閿?shù)據(jù)挖掘,Email:yuanlei_uestc@163.com。

        猜你喜歡
        分類特征文本
        分類算一算
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠的四個(gè)特征
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国产一国产一级新婚之夜| 免费视频成人 国产精品网站| 日韩欧美在线观看成人| 男女羞羞的视频免费网站| 风骚人妻一区二区三区| 欧美变态另类刺激| 欧美日韩中文国产一区| 国产精品涩涩涩一区二区三区免费| 久久久噜噜噜久久熟女| 亚洲人成在线播放网站| 日本丰满熟妇videossex一| 久久久久亚洲av无码专区桃色| 韩国日本亚洲精品视频| 91麻豆精品一区二区三区| 国产麻豆精品传媒av在线| 久久精品国产亚洲av电影网| 99re这里只有热视频| 蜜桃视频在线免费观看一区二区 | 4399理论片午午伦夜理片| 日韩在线看片| 久久亚洲精品中文字幕蜜潮| 日日麻批免费高清视频| 久久狠狠色噜噜狠狠狠狠97| 国产精品视频一区二区三区四| 欧美国产日本精品一区二区三区 | 疯狂添女人下部视频免费| 亚洲旡码a∨一区二区三区| 三级国产女主播在线观看| 亚洲av永久综合网站美女| 洲色熟女图激情另类图区| 99久久精品午夜一区二区| 欧美日韩视频无码一区二区三 | 男女干逼视频免费网站| 亚洲最大免费福利视频网| 国产精品老熟女露脸视频| 青青草视频网站免费观看| 自拍视频在线观看国产| 亚洲成a∨人片在线观看不卡| 亚洲欧洲日本精品| 92自拍视频爽啪在线观看| 国产精品永久在线观看|