陳發(fā)鴻
?
基于核方法的文本極性分類研究
陳發(fā)鴻
中共福建省委黨校
該文研究文本極性分類算法優(yōu)化問題。目前算法多以計算詞的極性進行文本極性分類,由于不能保證詞的主題相關(guān)性,導(dǎo)致文本情感分析準(zhǔn)確率較低。為了提高分類精度,該文提出一種新的文本極性分類方法,首先用tf/idf算法抽取主題詞確定文本主題句,然后對句子進行句法分析,并利用核函數(shù)設(shè)計基于詞特征、詞義特征以及句法特征等多特征融合的句子極性計算方法,通過分析情感主題句的極性進行文本情感傾向的判斷。新方法不僅考慮了詞本身的極性,還根據(jù)核函數(shù)區(qū)分詞的動態(tài)極性,同時避免與主題無關(guān)的句子對分析結(jié)果的影響,進行實驗與其它分類算法作比較,證明新方法能夠有效提高文本情感分析的準(zhǔn)確率,可為設(shè)計提供實用有效的算法。
核函數(shù) 句法分析 主題句 極性分類 情感分析
文本極性分類主要是指利用計算機自動分析帶有主觀性的句子或文檔,對它們的情感傾向進行分類,從而判斷出用戶的態(tài)度[1]。文本極性分類近年來已經(jīng)成為自然語言處理領(lǐng)域的熱點問題,目前所采用的方法主要有兩種。第一種是基于機器學(xué)習(xí)的方法,首先將具有情感色彩的詞分成是正例和負(fù)例,然后以詞頻統(tǒng)計基礎(chǔ),建立一個二元的分類器,從而進行簡單的情感分類;另一種是基于語義的情感分析方法,首先進行相關(guān)詞的語義傾向分析,然后計算整個文本的情感傾向指標(biāo)。例如,文獻[2] 計算文本中詞匯與HowNet中已標(biāo)注褒貶性詞匯間的相似度,獲取詞匯的極性。在此基礎(chǔ)上,選擇極性明顯的詞匯作為特征值,用SVM分類器分析文本的褒貶性。最后采用VSI否定規(guī)則匹配文本中的語義否定,以提高分類效果,以及處理程度副詞附近的褒貶義詞,以加強對文本褒貶義強度的識別。文獻[3] 通過標(biāo)記語料庫獲得文本中的極性元素,然后采用極性元素的分布、極性元素的密度和極性元素的語義強度三個度量指標(biāo)來對每個文本進行統(tǒng)計,得出文本褒貶分類和強度大小的結(jié)果。文獻[4]通過分析文本中的情感詞以及由這些情感詞構(gòu)造的短語模式,作為文本的情感特征,并利用這些特征實現(xiàn)文本的情感判別。文獻[5]利用HowNet提供的語義相似度和語義相關(guān)場計算功能,計算詞語間的相似程度,根據(jù)所得的語義傾向度量值判別其褒貶傾向,進而進行文本的傾向性分析。
這些方法多是單純從詞的傾向性分析入手,但是以詞為粒度的情感分析,不能保證所有被分析的詞匯都是主題相關(guān)的,這種不確定性將直接影響文本情感分析的準(zhǔn)確性。如果在進行文本的情感分析時,將與主題無關(guān)的詞語或者句子剔除,僅僅只對與文本主題相關(guān)的句子或詞語進行分析,將有助于提高情感分析的準(zhǔn)確率。
基于以上的分析,本文以句子為例,主要研究如何有效提取文本中的主題情感句,設(shè)計并利用核函數(shù)通過計算相似度對情感主題句進行情感傾向判斷,從而獲得文本的情感傾向,排除與主題無關(guān)的情感句對判斷準(zhǔn)確率的影響。
本文實現(xiàn)了文本情感主題句的自動抽取和基于核函數(shù)的多特征融合句子傾向性分析,最后進行文本傾向性的判斷。主要通過以下幾步進行:首先,用tf/idf算法抽取主題詞,然后對主題詞進行語義邏輯推理,將包含語義含義主題詞的句子作為候選主題句子,通過公式計算各個候選句子的重要度,最終確定文本情感主題句;然后對主題句子進行句法分析,通過多特征融合的核函數(shù)計算得出主題句傾向度;最后累加主題句傾向度進行全文的文本傾向性判斷。具體框架如圖1所示。實驗結(jié)果表明,由于考慮了詞、詞義、句法等特征,句子傾向性分析的召回率和精確率有顯著的提高,并且計算整個文本情感傾向時排除了與主題無關(guān)的句子,從而也提高了算法的準(zhǔn)確率。
圖1 系統(tǒng)框架圖
主題詞即指能夠體現(xiàn)某個文本的主題屬性,并具有使之與其它主題有明顯分別的作用的詞。本文對所有訓(xùn)練語料進行分詞、詞性標(biāo)注后,提取所有的名詞,接著采用類似TF-IDF的詞頻統(tǒng)計方法計算每個詞條Ti的權(quán)重Wi,公式如下:
其中TFi是詞條Ti在文檔中的詞頻,在統(tǒng)計詞語出現(xiàn)次數(shù)時,考慮到文檔中不同位置內(nèi)容的重要性各不相同,因此通過分配適當(dāng)?shù)谋壤蜃觼韺υ~頻進行加權(quán)調(diào)整。N為文檔中的句子總數(shù)目,ni是文檔中包含Ti的句子數(shù)目。
采用上述方法計算出文檔中所有詞條的權(quán)重,并進行歸一化處理,使得詞條權(quán)值介于0和1之間。權(quán)值越大,則越能反映文檔的主題。將詞條按權(quán)值從大到小的順序排列,依次選取前面適當(dāng)數(shù)目(文中選前15個)的詞條作為該文檔的主題詞,然后結(jié)合領(lǐng)域背景,構(gòu)建概念語義網(wǎng)絡(luò),對所得到的主題詞進行語義邏輯推理,最后將所有包含符合語義含義的主題詞句子作為候選主題句子。
為了從候選集合中最終確定文本的主題句子,需要對句子重要程度進行評估計算。本文以抽取的主題詞義項建立向量空間模型(VSM),并對所有待處理的候選主題句子建立對應(yīng)的向量S(T1,W1;T2,W2;...;Tn,Wn),其中Ti為句中包含的主題詞,Wi為詞條Ti的權(quán)重值。文檔中句子的重要性主要受以下幾個因素的影響:(1)句中所含主題詞的重要性。若主題詞權(quán)重之和越大,則認(rèn)為句子的重要性也越大。同時為了消除句子長度的影響,本文采用了平均權(quán)重以避免句子越長、權(quán)重越大的現(xiàn)象。(2)句子在文檔中的位置。研究表明,95%以上的科技文獻和大多數(shù)的其他文獻的標(biāo)題能很好地反映主題,因此一個詞如果出現(xiàn)在標(biāo)題中,那么它成為文獻主題詞的可能性就大得多,并且根據(jù)漢語的習(xí)慣,在首段或末尾段通常會對主題做一個總結(jié),因此標(biāo)題、段落開頭和結(jié)尾處的句子應(yīng)該有較高的重要性。(3)句中是否包含提示詞。對于一些議論或評述性的文章,常包含“綜上所述”、“總之”等提示性短語,這些句子往往是對文章主題進行的概述,因此重要性相對較高。
綜合考慮上述因素,本文定義句子權(quán)重的計算方法如下:
核方法的基本思想就是在非線性可分的情況下,使用一個非線性變換φ(?)將樣本空間R中的數(shù)據(jù)映射到高維線性空間F中,即R→F,在F中基于準(zhǔn)則構(gòu)造新的分類函數(shù),達到線性可分的目的。若算法中各模式矢量間的相互作用僅限于內(nèi)積運算,則不必顯式計算從樣本到高維線性空間的映射,只要利用樣本空間中預(yù)先定義的核函數(shù)直接計算映射空間中的點積即可,從而解決非線性變換帶來的“維數(shù)災(zāi)難”問題。
在自然語言處理領(lǐng)域中,核函數(shù)的本質(zhì)是計算兩個樣本間的相似度,相同類別的樣本具有較高的核函數(shù)值,不同類別的樣本具有較低的核函數(shù)值。本文從詞語、詞性、語義以及位置等方面考慮了輸入樣本的特征,定義了詞語核函數(shù),詞序列核函數(shù),路徑核函數(shù),通過核函數(shù)計算樣本間的相似度以完成句子極性的判斷。
3.3.1相關(guān)概念
其中,no代表當(dāng)前詞在句中的位置;t代表原始詞語字符串輸入;pos代表詞性;s代表詞匯的極性(1代表褒義,-1代表貶義,0代表中性)。
其中,
,為詞語內(nèi)容相似度;
其中w是該節(jié)點中的詞;l是該節(jié)點與父節(jié)點的依存關(guān)系;p是父節(jié)點;c是當(dāng)前節(jié)點的子節(jié)點集。
其中n代表該路徑節(jié)點所包含的當(dāng)前句法分析樹節(jié)點;e代表當(dāng)前節(jié)點與下一個節(jié)點的依存方向(1代表當(dāng)前節(jié)點依存于下一個節(jié)點,0代表下一個節(jié)點依存于當(dāng)前節(jié)點)。
其中,pnkey代表路徑中的一個極性詞,相對于其它節(jié)點,該節(jié)點將更大程度地影響兩條路徑的相似性。
其中,
其中,wkey代表極性詞,相對于其它詞而言,wkey更多地影響seqn之間的相似度。
例如:句子“奧迪外觀漂亮,性能好,我喜歡”根據(jù)定義10有三個極性詞,其所對應(yīng)的2元詞序列及其3條句法路徑如表1所示。圖1是例句句法分析的結(jié)果。
表1 例句的極性詞以及2元詞序列、句法路徑集合
圖1 例句句法分析的結(jié)果
其中,ei∈U1, ej∈U2,s1代表集合U1的元素個數(shù),1≤i≤s1;s2代表集合U2的元素的個數(shù), 1≤j≤s2;δ是一個很小的正整數(shù),它代表一個非空元素和空元素的相似度。K(ei,ej)代表集合中兩個元素之間的相似度,根據(jù)元素類型的不同分別按公式(4)、公式(9)和公式(11)計算。
3.3.2基于核的多特征融合極性分類算法
為了從文本的主題句集合Q中提取情感主題句,本文借助情感詞詞典,逐一找出具有極性詞的句子,同時利用Deparser對句子進行句法分析,并設(shè)計詞語核函數(shù),詞序列核函數(shù),路徑核函數(shù),分別從詞法、語義、句法層方面對情感主題句進行傾向性的判斷。三個核函數(shù)分別表示如下:
本文實驗根據(jù)經(jīng)驗并結(jié)合實驗結(jié)果調(diào)整,選取α=0.5,β=0.4,γ=0.1作為相似度的計算權(quán)值。
例如,句子S1“我很喜歡蘋果”和句子S2“我非常喜歡蘋果”的極性相似度計算如下:
同理,句子S1和句子S3“我不喜歡蘋果” 的極性相似度計算為(因為句子S3的極性詞前出現(xiàn)了否定詞,所以需要對極性詞“喜歡”極性取反后再按公式計算):
本文實驗從新浪汽車論壇(http://bbs.auto.sina.com.cn/)有關(guān)汽車評論的主題貼中,去除語言不規(guī)范的文本,最終選出文本1200篇。將所有語料分為2個部分,其中800篇作為語料,其余400篇作為測試語料集合T。手工對測試語料集中的所有文本提取情感主題句,并標(biāo)注情感傾向(正面或反面),同時標(biāo)注每個文本的全文情感傾向,標(biāo)注結(jié)果中,218篇為正面傾向文本,182篇為反面傾向文本。
本文進行2次實驗。
實驗1:目的是評估本文提取情感主題句方法的性能。首先對訓(xùn)練文檔集中的文本進行人工聚類,篩選出正、負(fù)兩個類別共162個句子作為基句,然后從測試文本集中選出3190個句子作為測試句子(正面句子2134個,反面句子1056個),對每一個測試句子分別按公式(16)和基句計算極性相似度,選取相似度最高的基句極性作為該句的極性。評價指標(biāo)采用標(biāo)注精確率(P)、召回率(R)和F值。為了說明方法的有效性,本文還與文獻[6]所介紹的基于極性詞詞頻統(tǒng)計的方法進行了比較,實驗結(jié)果如表2所示。
表2 本文方法和文獻[6]方法的比較
實驗結(jié)果表明,本文方法的查準(zhǔn)率達到了72.8%,F(xiàn)值達到了74.3%,和文獻[6]方法相比F值提高了近15%,性能提高顯著。
上述實驗數(shù)據(jù)及分析表明,文獻[6]召回率較低,原因是該方法只是通過簡單的極性詞正負(fù)疊加來計算句子的情感類別導(dǎo)致一些反面傾向句子標(biāo)注錯誤,如:句子“凱越HRV駕駛的時候,門窗是不會自動上鎖的,這是一個很不安全的設(shè)計?!焙汀按娣艂涮サ牡胤揭舶l(fā)現(xiàn)了不和諧的聲音”。而本文方法不僅考慮了極性詞本身,還根據(jù)句法分析從上下文和句法層面捕獲極性信息,能從一定程度上區(qū)分詞的動態(tài)極性,從而提高了分類準(zhǔn)確率。例如,“我為我們的祖國感到驕傲!”中“驕傲”為褒義詞,“這個人很驕傲!”中“驕傲”為貶義詞。
但是,考慮到算法的復(fù)雜性,本文沒在整棵句法樹上定義核函數(shù),而是從句法子樹來分析極性,因此對一些中性語句不能很好地識別,如:句子“奧迪A6的價格既不高也不低”。該句的局部帶有極性,情感“不高”的極性為正,“不低”的極性為負(fù),本文算法認(rèn)為該句為正極性,但事實上該句總體極性為中性。此外,算法也沒處理語氣問題,其分類準(zhǔn)確率還有進一步的提升空間。
實驗2:目的是評估本文方法對文本情感分析判斷的影響。首先采用本文方法提取文本的情感主題句,將提取的結(jié)果應(yīng)用到傳統(tǒng)SVM分類器,對文本的情感進行分析。同時,采用傳統(tǒng)SVM分類器直接對文本進行情感分析,將這兩種方法的情感分析結(jié)果進行比較。
表3 本文方法和SVM方法的比較
由于本文方法首先去除了與主題無關(guān)的句子,排除了這些句子對整個文本情感判斷的影響,直接對與主題相關(guān)的情感句子進行判斷,因此與傳統(tǒng)SVM分類器相比,其準(zhǔn)確率提高了近11%,F(xiàn)值提高了9%,實驗結(jié)果證明了本文方法的有效性。
本文提出了基于核函數(shù)的多特征融合中文文本極性分類方法。通過語義邏輯推理確定文本主題概念,結(jié)合句子重要度計算,確定文本的主題句子。并定義核函數(shù),融合詞、詞義及句法特征對情感主題句進行傾向性的判斷。情感主題句的提取研究對意見挖掘、情感分析等研究具有重要意義。在后繼的研究中將對句子進行進一步的語法、語義分析,提高模型的性能。
[1] 史西兵,王浩鳴.隱馬爾可夫模型解決信息抽取問題的仿真研究[J].計算機仿真,2010, 27(5): 132-134.
[2] 徐琳宏,林鴻飛,楊志豪.基于語義理解的文本傾向性識別機制[J].中文信息學(xué)報,2007, 21(1): 96-100.
[3] B. Tsou, et al. Polarity Classification of Celebrity Coverage in the Chinese Press [A]. In: Proceedings of the International Conference on Intelligence Analysis [C]. McLean, USA: 2005.
[4] 宋光鵬. 文本的情感傾向性分析研究[M]. 北京:北京郵電大學(xué), 2008.
[5] 朱嫣嵐,閡錦,周雅倩,黃置普,吳立德.基于HowNet的詞匯語義傾向計算[J].中文信息學(xué)報,2006,20(1):l4-20.
[6]M.Hu and B.Liu.Mining and Summarizing Customer Reviews.InProceedings of the ACM SIGKDD International Conference on Knowledge Discovery&Data Mining[C].Seattle,Washington,USA,Aug