張冠東, 姜榮
(上海第二工業(yè)大學(xué), 數(shù)理與統(tǒng)計學(xué)院, 上海 201209)
在人工智能不斷發(fā)展的今天,人們不僅可以通過各種社交媒體記錄日常生活的感想,發(fā)表對時事新聞的觀點,還能通過閱讀別人發(fā)表的言論獲取許多額外的信息。然而,發(fā)布的信息對整個社會的輿論導(dǎo)向有著重要的影響,有的信息會帶來正能量,有的信息會有負面的煽動效應(yīng)。因此,在海量文本數(shù)據(jù)下,為了有效地捕捉文本所包含的褒貶情感色彩,從而鼓勵推廣正能量信息的傳播,同時也能提供有效的措施預(yù)防負面信息對社會帶來的影響,學(xué)者們提出了許多研究方法。他們一般是利用關(guān)鍵詞頻率、預(yù)先設(shè)定的情感規(guī)則,或者利用已有的情感詞典對文本進行分析,進而為文本貼上褒貶的標(biāo)簽[1],也有不少的方法采用機器學(xué)習(xí)、深度學(xué)習(xí)的理論構(gòu)建分類器來分析文本的褒貶。但這些方式一般都以文本詞性的單一性為基礎(chǔ),缺乏對文本詞匯多樣性的思考。
目前,在文本分類方面已經(jīng)存在不少的研究并取得了一定的進展。在長文本研究領(lǐng)域:林呈宇等[2]對弱監(jiān)督文本中的噪聲進行了研究,通過增強標(biāo)簽語義提高了文本分類的精度;尹雪婷等[3]針對詞頻在文本分類中低準(zhǔn)確率的問題,通過引入加權(quán)因子并結(jié)合上下文信息,提出了一種基于任務(wù)優(yōu)化文本表示學(xué)習(xí)的文本分類算法,為文本分類提供了新的思路;李建平等[4]利用改進的長短時記憶網(wǎng)絡(luò)更好地發(fā)現(xiàn)了特征詞的前后關(guān)聯(lián)關(guān)系,從而找到極其重要的潛在語義因素,提高了分類的準(zhǔn)確率。在短文本研究領(lǐng)域:田小瑜等[5]利用標(biāo)簽到文本本身的映射過濾文本中的無效信息來生成文本信息標(biāo)簽,提出了一種深度模塊化標(biāo)簽注意網(wǎng)絡(luò)用于文本分類;李博涵等[6]重點研究了短文本的分類,將知識感知與雙重注意力機制相結(jié)合,提出了一種新的文本分類機制,提高了模型對短文本中有效信息提取的效率。在情感分析領(lǐng)域:陳紅陽等[7]將多因素融合在一起,構(gòu)建了一種豐富語義與情感信息的文本特征向量進行文本分類;楊京虎等[8]對長文本的情感加以分析,其提出的模型可以通過滑動窗口抽取子事件的方法分析識別情感主體;趙宏等[9]將句法結(jié)構(gòu)、上下文內(nèi)容和語義特征等相融合,提出了一種特征融合的文本情感分析方法,提高了文本的分類精度。
以上研究的關(guān)注點在于文本文字方面的特征,且大部分研究內(nèi)容更關(guān)注于文本的內(nèi)容,缺少對詞的多屬性含義所含有的情感色彩研究。針對以上問題,本文主要針對英文文本中詞匯的多屬性特點進行褒貶傾向的分析,通過構(gòu)建關(guān)鍵詞句概括文本的內(nèi)容,并給出褒貶評分來判斷文本的情感色彩。
本文主要基于熵的理論基礎(chǔ)。熵泛指度量某些系統(tǒng)或物質(zhì)的一些狀態(tài),也可以理解為測量某些狀態(tài)可能出現(xiàn)的程度。熵的理論已經(jīng)被廣泛地應(yīng)用于熱力學(xué)、物理學(xué)與信息論的研究。香農(nóng)(Shannon)將熵引入了信息論,在目前的很多研究中,其可以描述為給定的概率分布(p1,p2,p3,…,pn},給出的公式為
(1)
Renyi熵[11]已經(jīng)被應(yīng)用于文本的關(guān)鍵詞提取研究,且能揭示模型中混合隨機變量的統(tǒng)計特性[10]。因此,在研究如何對文本的褒貶進行分類的問題中,本文也引入Renyi熵,其公式為
(2)
由于本文是基于文本語句的關(guān)鍵詞進行褒貶分析的,且詞匯并不是只有褒義或貶義的含義,因此提出一種新的改進型Renyi熵。由于貶義詞包含的信息比褒義詞多[12],因此將貶義詞得分與褒義詞得分的比值作為熵對數(shù)中的部分,設(shè)q=2,該改進型Renyi熵公式如下:
(3)
英文單詞并不能簡單地歸結(jié)為褒義或貶義,在具體的語言環(huán)境中,不同的讀者對詞匯的理解可能會有不同的褒義或貶義的傾向。因此,在計算關(guān)鍵詞句的褒義分值和貶義分值后,再對這些分值進行匯總得到語句的總的褒貶分。在提取關(guān)鍵詞方面,由于BERT技術(shù)常用于關(guān)鍵詞的提取[13-14],因此本文采用基于BERT的KeyBERT方法來提取關(guān)鍵詞,該方法通過BERT嵌入,創(chuàng)建出與文本意思相似的關(guān)鍵詞或短語。對關(guān)鍵詞的多詞性褒貶分值進行打分,采用SentiWordNet對單詞的情感色彩進行打分,因為該英文電子詞典能基于情感詞進行極性標(biāo)注并計算詞極性的強度[15],從而對詞的褒貶賦予有效的分值。本文方法的實現(xiàn)流程如圖1所示。
圖1 計算流程圖
由于有的文本數(shù)據(jù)只包含符號或異常字符,這些文本語句將會被認定為異常文本而被過濾。對于正常文本,先對文本進行清洗,去除標(biāo)點符號和異常字符,再將獲得語句的關(guān)鍵詞組成關(guān)鍵詞句進行褒貶分值計算。
對于文本的褒貶分類,通常采用準(zhǔn)確率和精確率作為檢驗標(biāo)準(zhǔn)來判別模型的優(yōu)劣。準(zhǔn)確率(Accuracy)是指全部正確分類的對象數(shù)占總的研究對象數(shù)的比例,其計算方法為
(4)
其中,TP為正確的正例數(shù),TN為正確的負例數(shù),NAll為總的對象數(shù)。本文利用模型分類結(jié)果中正確的褒義分類數(shù)和正確的編譯分類數(shù)之和與總的文本對象數(shù)的比值來計算準(zhǔn)確率,因此TP可被認為是分類正確的褒義語句,TN可被認為是分類正確的貶義語句。精確率(Precision)是指模型各分類中所得的正確分類數(shù)占該類正確分類和錯誤分類之和的比例,其公式如下:
(5)
其中,Tc為正確的分類數(shù),Fc為錯誤的分類數(shù)。本文對褒義和貶義分類均可計算精確度,公式為
(6)
(7)
其中,FP為錯誤的正例數(shù),FN為錯誤的負例數(shù)。本文將FP認為是分類錯誤的褒義語句,FN認為是分類錯誤的貶義語句。
對于英文的文本實例,所選用的數(shù)據(jù)集為被標(biāo)簽的IMDB和Yelp數(shù)據(jù)。將改進型Renyi熵、Renyi熵和香農(nóng)熵分別應(yīng)用于給定的公共數(shù)據(jù)集,得到的結(jié)果如表1、表2所示。
表1 IMDB數(shù)據(jù)集
表2 Yelp數(shù)據(jù)集
由表1、表2可知,在準(zhǔn)確率、褒義精確度和貶義精確度方面,絕大部分改進型Renyi熵的指標(biāo)比Renyi熵和香農(nóng)熵都有所提升。其中,精度比較結(jié)果如表3、表4所示。
表3 IMDB數(shù)據(jù)集指標(biāo)比較
表4 Yelp數(shù)據(jù)集指標(biāo)比較
由表3、表4可知,在Yelp數(shù)據(jù)集中,改進型Renyi熵的褒貶分類性能均比Renyi熵和香農(nóng)熵優(yōu)越。在IMDB數(shù)據(jù)集中,雖然在褒義精確度方面,改進型Renyi熵比香農(nóng)熵有所下降,但是其降幅僅為0.3%,其他的性能指標(biāo)均顯示出改進型Renyi熵比另2個模型優(yōu)越。
文本分析是人工智能時代重要研究內(nèi)容之一,而文本褒貶分類則是文本分析領(lǐng)域的一個重要研究點。本文提出一種改進型Renyi熵模型對文本的褒貶進行分類,通過計算關(guān)鍵詞多詞性的情感傾向值分別得到詞語的正面、負面情感傾向值,從而計算出該文本的褒貶傾向并加以分類。實驗表明,該方法的分類性能較好,為文本分類提供了一種有效的思路。在未來的研究中,可以通過上下文的語境對關(guān)鍵詞進行進一步的篩選,以提高文本分析的性能。