高 陽(yáng)木合塔爾·艾爾肯
(1.昌吉學(xué)院計(jì)算機(jī)工程系 新疆 昌吉 831100;2.烏魯木齊職業(yè)大學(xué)信息工程學(xué)院 新疆 烏魯木齊 830008)
?
前后綴字母作特征在維吾爾語(yǔ)文本情感分類中的應(yīng)用
高陽(yáng)1木合塔爾·艾爾肯2
(1.昌吉學(xué)院計(jì)算機(jī)工程系新疆昌吉831100;2.烏魯木齊職業(yè)大學(xué)信息工程學(xué)院新疆烏魯木齊830008)
摘要:維吾爾語(yǔ)具有著黏著型語(yǔ)言的共同特點(diǎn)。維吾爾語(yǔ)的主要特點(diǎn):在構(gòu)詞法上,主要通過(guò)詞根和詞干上加上各種詞綴來(lái)形成新的詞語(yǔ)。在阿爾泰語(yǔ)系突厥語(yǔ)族中,構(gòu)詞詞綴十分重要,構(gòu)詞的詞綴也十分豐富,有名詞詞綴、動(dòng)詞詞綴、形容詞詞綴、數(shù)詞詞綴。由于詞綴的屬性的專有性,決定了其在嚴(yán)格對(duì)立的兩個(gè)屬性中在詞綴上會(huì)有明顯的表現(xiàn)。這就決定了,在情感分類中,詞綴會(huì)帶有情感特性,所以可用來(lái)做情感分類的特征。本文提出了使用切詞綴的方式,研究了詞綴在SVM-KNN分類器中的表現(xiàn)。
關(guān)鍵詞:情感分類;詞綴;SVM-KNN;機(jī)器學(xué)習(xí);
1.1文本情感分類研究的現(xiàn)狀
文本情感分類,就是通過(guò)對(duì)文本的研究確定出文本所表達(dá)的情感傾向。此類研究,最早可以溯源到1997年Rosalincl教授提出的“情感計(jì)算”[1]。此后隨著人們研究的深入,從研究方法到研究對(duì)象日益豐富。在研究對(duì)象上,出現(xiàn)了基于詞、句、篇章級(jí)別的情感分類研究;在研究方法上,出現(xiàn)了基于資源的和基于統(tǒng)計(jì)的情感分類研究。近些年來(lái),對(duì)文本情感分類領(lǐng)域的研究,主要的研究?jī)?nèi)容集中在以下幾個(gè)方面:文本的情感極性分類、文本的主觀性分析、詞語(yǔ)的語(yǔ)義傾向性識(shí)別、觀點(diǎn)提取等。具體的研究工作在以下幾個(gè)領(lǐng)域進(jìn)行:詞的極性分類、主客觀分類、基于機(jī)器學(xué)習(xí)的文本情感分類方法、基于情感詞標(biāo)注的文本情感分類。
1.2基于機(jī)器學(xué)習(xí)的文本情感分類方法
用機(jī)器學(xué)習(xí)的方法進(jìn)行文本的情感分類研究是本文的主要研究點(diǎn)。下面將近年來(lái)國(guó)內(nèi)外這方面的研究做簡(jiǎn)要的陳述。
Pang等人最早使用基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法來(lái)研究文本情感分類問(wèn)題,使用SVM、最大熵、樸素貝葉斯等分類器,以不同的特征選擇、特征降維方法對(duì)Internet上的影評(píng)文本進(jìn)行情感分類研究[2]。Pang等人還實(shí)現(xiàn)了另外的一項(xiàng)工作,構(gòu)造了一個(gè)基于minimum-cut的分類器,從而把文本的極性分類問(wèn)題轉(zhuǎn)化成求取句子連接圖的最小分割問(wèn)題。Lin等人把分類問(wèn)題的方法用于觀
木合塔爾·艾爾肯(1986-),男,維吾爾族,新疆喀什人,烏魯木齊職業(yè)大學(xué)信息工程學(xué)院計(jì)算機(jī)系助教,研究方向:自然語(yǔ)言處理。點(diǎn)識(shí)別問(wèn)題,通過(guò)基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)的分類算法解析詞的用法獲取文本的觀點(diǎn)。Bruce、Wiebe等人使用Bayes對(duì)句子進(jìn)行主客觀分類。Whitelaw等人提取文本中帶有形容詞的詞組和詞組的修飾語(yǔ)作為特征,用向量空間文檔表示,然后以SVM分類器進(jìn)行分類,從而區(qū)分文檔的褒貶情感傾向。[3]在句子級(jí)別的文本情感分類領(lǐng)域,Yi等人以模式匹配的算法進(jìn)行了深入的研究。Goldberg和Zhu提出了一種新的基于圖的半監(jiān)督算法來(lái)解決電影評(píng)論的等級(jí)推定問(wèn)題,與以前的多分類模型相比,性能大幅提高。Mei等人提出了一個(gè)新的Topic-Sentiment Mixture(TSM)概率模型,該模型能同時(shí)獲得文本的情感信息和主題信息,在沒(méi)有任何先驗(yàn)領(lǐng)域知識(shí)的情況下,也可以發(fā)現(xiàn)一個(gè)Weblog數(shù)據(jù)集所蘊(yùn)含的潛在主題。Ni等人以信息增益(Information Gain)和卡方作為特征選擇的方法,用Na?ve Bayes、SVM和Rocchios算法對(duì)原來(lái)的情感文本作為二分類問(wèn)題研究。[4]
句子級(jí)別的情感分類,是指鑒別情感句的情感傾向后進(jìn)行歸類,也可以說(shuō)是一種特殊的情感文本分類。文本情感分類根據(jù)其所研究的載體的粒度可分為三類:篇章級(jí)情感分類、句子級(jí)情感分類和詞/短語(yǔ)級(jí)情感分類。
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,以及Web2.0的出現(xiàn),人們從早期被動(dòng)地接受大型的網(wǎng)站信息平臺(tái)的信息,轉(zhuǎn)變?yōu)榭梢宰灾鲄⑴c到信息的發(fā)布、產(chǎn)生,并能自主地參與平臺(tái)進(jìn)行信息交流,同時(shí)各個(gè)信息的受眾間也可以互相進(jìn)行信息的交互。人們從被動(dòng)的網(wǎng)站信息讀取者,變成既是讀取者又同時(shí)是網(wǎng)頁(yè)內(nèi)容的作者,網(wǎng)絡(luò)上有越來(lái)越多的帶有個(gè)人主觀性的信息就越來(lái)越多了。為了獲得民眾網(wǎng)絡(luò)上出現(xiàn)的對(duì)諸如人物、事件、產(chǎn)品的評(píng)價(jià)信息,情感分類就應(yīng)運(yùn)而生了。
句子級(jí)別的情感分類,屬于特殊的文本情感分類,其所做的研究是以句子為載體。在用戶交互性、參與性很強(qiáng)的Web2.0時(shí)代,網(wǎng)上的許多帶有個(gè)人主觀的信息都是以單句話的形式出現(xiàn)的,如電子商務(wù)網(wǎng)站的產(chǎn)品評(píng)論、網(wǎng)絡(luò)論壇對(duì)重大事件的態(tài)度以及民眾對(duì)重要的時(shí)事政策的態(tài)度,尤其是微博的出現(xiàn),這一特點(diǎn)體現(xiàn)的更為充分。對(duì)句子級(jí)別的情感分類的研究對(duì)于商品經(jīng)濟(jì)的發(fā)展、政府重大方針政策的制定、輿情監(jiān)控等都具有重要的意義。
2.1SVM分類器
機(jī)理可簡(jiǎn)單概括為:在線性可分情況下,找到一個(gè)分類超平面將二類分開,同時(shí)滿足二類的距離最大,能將兩個(gè)類分開的超平面通常被稱作最優(yōu)分類超平面。支持向量機(jī)的核心內(nèi)容是:把超平面的建立問(wèn)題轉(zhuǎn)化為統(tǒng)計(jì)學(xué)習(xí)理論中的二次優(yōu)化問(wèn)題,根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,從而取得最優(yōu)解。設(shè)給定訓(xùn)練集其中xi∈X?Rn,y∈Y={-1,1}i=1,2,...,l。l為訓(xùn)練樣本的總的個(gè)數(shù),n為模式空間的維數(shù),y為區(qū)分樣本的類標(biāo)。支持向量機(jī)要解決的是如下的一個(gè)最優(yōu)化問(wèn)題:
解決這個(gè)問(wèn)題,通常依據(jù)最優(yōu)化理論,轉(zhuǎn)為其對(duì)偶問(wèn)題
用下面的判別函數(shù)分類
2.2KNN簡(jiǎn)介
近鄰法(簡(jiǎn)稱NN)是一種重要的非參數(shù)模式識(shí)別方法。NN分類器的基本原理:對(duì)于一待分類的文本向量x,以所有的訓(xùn)練樣本作為代表點(diǎn),在代表點(diǎn)中找出K個(gè)相似的文本,然后將這K個(gè)文本作為候選類別,以文本x與K個(gè)樣本的相似度的值作為衡量權(quán)重,同時(shí)設(shè)定相似度閥值,可以判定x的類別[5-8]。
KNN算法如下:
其中,x為待分類的文本,di為K個(gè)最鄰近的樣本中的第i個(gè)文本,cj表示所屬類別;δ(di,cj)∈{0,1},當(dāng)di屬于cj時(shí)取1,反之取0;bj為類別cj所預(yù)先設(shè)定的閥值;sim(x,di)為待分類文本x與訓(xùn)練樣本di之間的相似度值。
其中,ωij表示特征權(quán)重,N為特征向量的維數(shù)。
3.1對(duì)SVM分類機(jī)理的分析
在中科院的李蓉等研究員,通過(guò)對(duì)SVM和NN的研究,從數(shù)學(xué)原理上證明了二者之間的聯(lián)系,此聯(lián)系由下面的定理給出。
定理SVM分類器等價(jià)于每類只選一個(gè)代表點(diǎn)的1-NN分類器。
3.2SVM-KNN分類器簡(jiǎn)介
將兩種分類器相結(jié)合是基于上面的定理,SVM可以看成是每類只取一個(gè)支持向量作為代表點(diǎn)的NN分類器。該算法的基本機(jī)理:先用SVM判斷帶測(cè)試點(diǎn)和超平面的距離,對(duì)于離超平面超過(guò)某個(gè)設(shè)定閥值的點(diǎn),用SVM分類。否則,用KNN來(lái)分類[9]。
本實(shí)驗(yàn)采用SVM分類器,采用以切詞的后綴為特征,即在前述維吾爾語(yǔ)情感分類流程中,在去停頓詞后,以空格為標(biāo)記,將整篇文本分為一個(gè)個(gè)單個(gè)的詞,在對(duì)詞進(jìn)行切后綴取代詞來(lái)做特征,取代傳統(tǒng)的以詞做特征進(jìn)行分類的方式。
本實(shí)驗(yàn)中多類分類器的構(gòu)造,是使用“一對(duì)一”方法構(gòu)造n(n-1)/2個(gè)二分類器實(shí)現(xiàn)的,依卡方為特征選擇方法。詳見圖1、圖2、圖3
圖1 詞和5個(gè)后綴對(duì)比
圖2 詞和6個(gè)后綴對(duì)比
圖3 詞和7個(gè)后綴對(duì)比
本實(shí)驗(yàn)中所應(yīng)用的二分類器所使用的核函數(shù)均為多項(xiàng)式核函數(shù),K(x,xi)=[(x*xi)+1]d,核函數(shù)參數(shù)d(0.5),錯(cuò)誤懲罰參數(shù)C的值為(4),分類閥值ε的值?。?.5)。
本實(shí)驗(yàn)使用的語(yǔ)料為三類情感語(yǔ)料:褒義、貶義、中性。從實(shí)驗(yàn)結(jié)果,以后綴作特征的方法比以詞做特征有著更好的性能。優(yōu)點(diǎn)是,能一定程度上提高分類的準(zhǔn)確率,尤其對(duì)于貶義類的情感句子的分類取得了較大的提高,最高可以提高16%。使用詞綴作特征的另一個(gè)優(yōu)點(diǎn)是,能夠大幅度的降維,這就一定程度的解決維數(shù)災(zāi)難的問(wèn)題。在分類中,隨著維數(shù)的增加所需要的計(jì)算量通常是以指數(shù)級(jí)別增長(zhǎng)的,實(shí)驗(yàn)證明詞綴的方法能夠?qū)稻S起到了良好的效果。如圖4所示,當(dāng)取5個(gè)后綴字母的詞綴時(shí),特征維數(shù)變?yōu)? 599,較之以詞做特征的15 372個(gè)特征,下降了近50%之多。分別以詞、5個(gè)字母詞綴、6個(gè)字母詞綴、7個(gè)字母詞綴作實(shí)驗(yàn)對(duì)比,總的特征維數(shù)分別為:15 372,7 599,9 443,11 370.圖4是在取詞以及詞綴數(shù)目不同時(shí)的特征維數(shù)變化對(duì)比圖。從三類的實(shí)驗(yàn)結(jié)果可以看出,一般在特征維數(shù)選定在1500—2000時(shí),能獲得最優(yōu)的效果,準(zhǔn)確率達(dá)到最大值。
圖4 總的特征維數(shù)
本文針提出了一種新的文本情感特征,在SVM-KNN分類器中對(duì)非平衡文本數(shù)據(jù)進(jìn)行試驗(yàn),實(shí)驗(yàn)結(jié)果證明,在一定的維數(shù)范圍內(nèi),能夠提高分類的精度。
參考文獻(xiàn):
[1]Picarcl R W.Affective Computing[M].Canbrige:MIT Press,1997.
[2]Pang B,Lee L,Vaithyanathan S.Thumbs up Sentiment Classification Using Machine Learning Techniques.In Proc. Conf.on Empirical Methods in Natural Language Processing,2002:79-86.
[3]肖偉.基于語(yǔ)義的BLOG社區(qū)文本傾向性分析[D].上海交通大學(xué)軟件工程學(xué)院,2007.
[4]Yi J,Nasukawa T,Bunescu R,et a1.Sentiment Analyzer:Extracting Sentiments about a Given Ttopic Using Natural Language Processing Techniques.In Proc.of the 3rd IEEE Int.Conf.on Data Mining,2003:427-434.
[5]張寧,賈自艷.使用KNN算法的文本分類[J].計(jì)算機(jī)工程,2005,3l(8):171-185.
[6]王煜,白石.用于Web文本分類的快速kNN算法[J].情報(bào)學(xué)報(bào),2007,26(1):60-64.
[7]Metzler D,Croft WB.Combining the Language Model and Interference Network Approaches to Retrieval Information Pro?cessing and Management Special Issue on Bayesian Networks and Information retrieval,2004,40(5):735-750.
[8]Pang B,Lee L,Vaithyanathan S.Thumbs up Sentiment Classsific 2007,26(1):60-64.
[9]李蓉,葉世偉,史忠植.SVM-KNN分類器——一種提高SVM分類精度的新方法[J].電子學(xué)報(bào),2002,30(5):745-748.
中圖分類號(hào):TP391.1
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1671-6469(2016)03-0136-05
收稿日期:2016-03-10
基金項(xiàng)目:新疆科技廳“新疆高校數(shù)字圖書資源共享體系建設(shè)與利用對(duì)策研究”(2014731004);昌吉學(xué)院研究群體“Web信息抽取與數(shù)據(jù)挖掘技術(shù)及其在網(wǎng)絡(luò)輿情監(jiān)測(cè)中的應(yīng)用研究”(2012YJQT03)。
作者簡(jiǎn)介:高陽(yáng)(1982-),男,河南周口人,昌吉學(xué)院計(jì)算機(jī)工程系助教,研究方向:自然語(yǔ)言處理、數(shù)據(jù)挖掘。