摘 要現(xiàn)如今對(duì)文本情感分類的方法多種多樣,將語(yǔ)義理解與統(tǒng)計(jì)學(xué)方法相結(jié)合的機(jī)器學(xué)習(xí)算法是目前比較可取的方法之一。這種算法的步驟是,首先對(duì)文本中的情感詞匯進(jìn)行匯總,作為特征應(yīng)用,通過(guò)統(tǒng)計(jì)學(xué)方法衡量出這些特征的初始權(quán)重,然后通過(guò)對(duì)文本語(yǔ)義結(jié)構(gòu)進(jìn)行分析修改特征權(quán)重,最后應(yīng)用以Bayesian作為基本分類算法的Boosting算法對(duì)文本最終進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,基于語(yǔ)義理解的Bayesian分類算法的分類準(zhǔn)確率遠(yuǎn)遠(yuǎn)的高于基于統(tǒng)計(jì)學(xué)的Bayesian分類算法,這種算法的分類準(zhǔn)確率最高可以達(dá)到百分之九十。
【關(guān)鍵詞】語(yǔ)義理解 情感分類 Boosting算法
以情感為基礎(chǔ)開(kāi)展的文本分類活動(dòng)也就是文本情感分類,主要是在分類的過(guò)程當(dāng)中,分析文本當(dāng)中體現(xiàn)的情感傾向,并以此為基礎(chǔ)加以分類。它在眾多方面都有廣泛應(yīng)用,例如智能問(wèn)答、商品推薦、股票預(yù)測(cè)以及報(bào)刊編輯等領(lǐng)域,都體現(xiàn)出潛在的應(yīng)用價(jià)值。在分析文本當(dāng)中語(yǔ)義傾向性的前提下,借助于判斷基準(zhǔn)詞同詞匯之間相似度的這一方法,來(lái)有效判斷詞匯體現(xiàn)出的感情傾向性。除此之外,通過(guò)分析詞匯當(dāng)中的語(yǔ)義傾,還能夠體現(xiàn)出新聞文本的態(tài)度。部分研究人員改進(jìn)SO-PMI算法,并且嘗試應(yīng)用到文本的情感分類當(dāng)中,取得比較理想的成果,給了他人很多的新思路。以語(yǔ)義當(dāng)作基礎(chǔ)進(jìn)行分類的方法,在很大程度上減少了樣本訓(xùn)練量,同時(shí)減輕對(duì)特定專業(yè)知識(shí)的依賴程度。當(dāng)前情況下,大量的研究人員在該領(lǐng)域嘗試進(jìn)行研究,已經(jīng)有了很大的突破,但仍然存在一個(gè)問(wèn)題,那就是還不能具體有效分析詞匯在傾向性方面的強(qiáng)度。在統(tǒng)計(jì)機(jī)器學(xué)習(xí)領(lǐng)域,有研究人員嘗試應(yīng)用機(jī)器學(xué)習(xí)技術(shù)來(lái)解決文本的情感分類難題,其中應(yīng)用比較廣泛的包括樸素貝葉斯算法以及最大熵技術(shù)等,來(lái)分類電影評(píng)論。為了把基于統(tǒng)計(jì)學(xué)技術(shù)的優(yōu)勢(shì)發(fā)揮到極致,但同時(shí)還不能過(guò)分的依賴于統(tǒng)計(jì)學(xué)方法,本篇文章利用自然的語(yǔ)言處理算法,介紹語(yǔ)義分析技術(shù)以及統(tǒng)計(jì)學(xué)技術(shù)綜合應(yīng)用的優(yōu)點(diǎn),借助于分析語(yǔ)義并且確定特征權(quán)重,外加利用Bayesian算法進(jìn)行情感分類。為了進(jìn)一步減少文本在情感分類過(guò)程當(dāng)中的誤差,改進(jìn)分類的效果,在此嘗試應(yīng)用Boosting算法到文本的情感分類當(dāng)中,實(shí)現(xiàn)基于語(yǔ)義的Boosting情感分類,進(jìn)一步改進(jìn)情感傾向性處理水平。
1 語(yǔ)義傾向性分析
語(yǔ)義傾向指的是某個(gè)詞匯同詞匯體現(xiàn)的概念詞之間主要內(nèi)涵的偏離程度,可以說(shuō)是度量語(yǔ)言的重要標(biāo)尺。通常情況下應(yīng)用兩個(gè)不同的維度來(lái)分析特定詞匯的傾向性,也就是偏離方向的判斷以及偏離強(qiáng)度的判斷,這些度量方法在現(xiàn)實(shí)生活當(dāng)中已經(jīng)得到廣泛應(yīng)用。在文本情感分類環(huán)節(jié),偏離方向是判斷詞匯含義于貶義或者是褒義,具體而言就是確保文本可以更通俗易懂進(jìn)行表達(dá),因此也叫做情感方向。所謂偏離強(qiáng)度是指褒義程度或者是或貶義程度的大小,也叫做情感強(qiáng)度。分析語(yǔ)義的傾向性也就是分析不同詞語(yǔ)體現(xiàn)的情感傾向,來(lái)具體分析文檔整體上的情感傾向,在這其中需要測(cè)定的便就是情感強(qiáng)度以及情感方向。
2 Boosting算法
Boosting算法是由最早由Schapire提出,并且在發(fā)展過(guò)程當(dāng)中不斷有研究人員對(duì)其進(jìn)行改進(jìn),是近些年應(yīng)用最為廣泛的學(xué)習(xí)算法之一,同時(shí)也是應(yīng)用最廣泛的,其所應(yīng)用的理念類似于合并不同的學(xué)習(xí)模型并完成輸出。因?yàn)檫@一算法簡(jiǎn)單易用,除了調(diào)解迭代次數(shù)之外不需要調(diào)解其它的參數(shù),也不需要了解特定領(lǐng)域。只要數(shù)據(jù)足夠充分,就可以滿足預(yù)測(cè)的精度。如今,Boosting算法正漸漸的得到了人們重視,在圖像識(shí)別以及模式處理當(dāng)中得到應(yīng)用,并生成了一系列的分類器,不過(guò)每個(gè)分類器還依舊有著之前一個(gè)的影子,因此,為了減少錯(cuò)誤率的累加,就給予上一次分類器錯(cuò)誤分類的樣例更高的權(quán)重。
3 Bayesian—Boosting情感分類
通過(guò)采用的是Bayesian分類方法對(duì)情感特征進(jìn)行選取及權(quán)重計(jì)算,首先要做的是對(duì)文本的特征空間有著非常清晰的界定,可以應(yīng)用特征來(lái)來(lái)替代文本。不過(guò)文本當(dāng)中的情感傾向主要是由文本當(dāng)中的情感詞來(lái)確定的,同其他的詞匯沒(méi)有太大的聯(lián)系。所以在情感分類的時(shí)候,特征空間需要篩選情感詞匯,而不需要囊括全部詞匯組成特征空間。目前而言對(duì)于這種算法的研究成果已經(jīng)在眾多的國(guó)家863計(jì)劃項(xiàng)目中出現(xiàn),在情感模塊當(dāng)中應(yīng)用效果理想。本文基于語(yǔ)義理解的學(xué)習(xí)方法,是文本進(jìn)行情感分類的新思路。從理論角度而言,對(duì)詞匯進(jìn)行褒貶的時(shí)候,僅僅依靠統(tǒng)計(jì)學(xué)措施無(wú)法實(shí)現(xiàn),必然會(huì)對(duì)情感分類的標(biāo)準(zhǔn)產(chǎn)生結(jié)構(gòu)性的影響,也就是說(shuō)單純應(yīng)用語(yǔ)義理解計(jì)算來(lái)情感分類,也無(wú)法將機(jī)器學(xué)習(xí)的成果應(yīng)用的活靈活現(xiàn)。
通過(guò)語(yǔ)文理解對(duì)訓(xùn)練樣本集中300篇文本進(jìn)行分類,然后選擇出感情傾向明顯的前150篇作為SVM的訓(xùn)練文本,之后進(jìn)行三組數(shù)據(jù)分析,在特征選擇過(guò)程中分別判斷文檔頻率、X2統(tǒng)計(jì)法進(jìn)行統(tǒng)計(jì),如表1所示。
通過(guò)應(yīng)用統(tǒng)計(jì)學(xué)方法衡量出這些特征的初始權(quán)重,然后通過(guò)對(duì)文本語(yǔ)義結(jié)構(gòu)進(jìn)行分析修改特征權(quán)重,最后應(yīng)用以Bayesian作為基本分類算法的Boosting算法對(duì)文本最終進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,基于語(yǔ)義理解的Bayesian分類算法的分類準(zhǔn)確率遠(yuǎn)遠(yuǎn)的高于基于統(tǒng)計(jì)學(xué)的Bayesian分類算法,這種算法的分類準(zhǔn)確率最高可以達(dá)到百分之九十。
綜上所述,本篇文章通過(guò)介紹語(yǔ)義理解以及統(tǒng)計(jì)學(xué)技術(shù)相結(jié)合起來(lái)進(jìn)行文本分類的效果,可以實(shí)現(xiàn)理想的情感分類,讓我們對(duì)這種分類方法有了具體了解的同時(shí)還能夠解決文本的情感分類。Boosting集合不同分類算法,通過(guò)訓(xùn)練迭代來(lái)改進(jìn)分類效果,最終能夠得到理想的分類器。
參考文獻(xiàn)
[1]翟璐.一種基于Boosting算法的新模型在銀行信用評(píng)級(jí)中的應(yīng)用[D].北京交通大學(xué),2016,6(20):39-40.
[2]Romano Y,Elad M.Boosting of Image Denoising Algorithms[J].Siam Journal on Imaging Sciences,2015,8(02):1187-1219.
[3]Wu J,Pan S,Zhu X,et al.Boosting for multi-graph classification.[J].IEEE Transactions on Cybernetics,2015,45(03):430.
[4]Schreiner T,Rasch B.Boosting Vocabulary Learning by Verbal Cueing During Sleep.[J].Cerebral Cortex,2015,25(11):4169.
[5]Korytkowski M,Rutkowski L,Scherer R.Fast image classification by boosting fuzzy classifiers[J].Information Sciences,2015,327(C):175-182.
[6]Liu L,Zou P,Zheng L,et al.Tamoxifen reduces fat mass by boosting reactive oxygen species[J].Cell Death & Disease,2015,6(06):e1586.
作者簡(jiǎn)介
黃彬(1992-),男,長(zhǎng)江大學(xué)計(jì)算機(jī)科學(xué)學(xué)院在讀研究生。主要研究方向?yàn)榇髷?shù)據(jù)技術(shù)。
作者單位
長(zhǎng)江大學(xué)計(jì)算機(jī)科學(xué)學(xué)院 湖北省荊州市 434023