劉勇華,李?lèi)?ài)萍,段利國(guó),邸 鵬,王鴻翔
(太原理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原030024)
文本情感分析的前提是對(duì)文本中主觀成分的識(shí)別和提取。例如:在文本情感分析中[1],處理的文本類(lèi)型就是主觀性文本。事先對(duì)文本進(jìn)行主觀性判別是很有必要的,不僅可以有效地減少分析的范圍,還可以提高分析的速度和精確度。主觀文本識(shí)別主要有兩種方法,基于詞典和基于統(tǒng)計(jì)?;谠~典的方法利用事先建立的情感詞典 (可以人工標(biāo)注或是機(jī)器統(tǒng)計(jì)),統(tǒng)計(jì)文本中的詞語(yǔ)是否含有情感,再進(jìn)一步判別文本主客觀性[2],這種方法非常依賴情感詞典。基于統(tǒng)計(jì)的方法利用訓(xùn)練好的數(shù)據(jù)模型,采用機(jī)器學(xué)習(xí)的方法,對(duì)待測(cè)文本進(jìn)行判別[3]。常用的機(jī)器學(xué)習(xí)方法有:樸素貝葉斯 (NB)、支持向量機(jī) (SVM)、決策樹(shù)、K最近鄰、最大熵模型等。這種方法在訓(xùn)練數(shù)據(jù)的標(biāo)注、特征選取、分類(lèi)器的選取等方面具有一定的局限性。目前,學(xué)者們?yōu)榱说玫礁叩臏?zhǔn)確率和更快的分類(lèi)效率,大多數(shù)采用基于詞典和基于統(tǒng)計(jì)相結(jié)合的方法進(jìn)行文本主觀識(shí)別[4-6,9-11]。針 對(duì) 包 含 豐 富 情 感 信 息 的 主 觀 線 索 研 究 還 較 少,比如復(fù)雜句式的關(guān)聯(lián)詞特征研究較為缺乏。因此,本文將關(guān)聯(lián)詞、情感詞以及指示性動(dòng)詞、感嘆詞、程度副詞、帶有情感色彩的標(biāo)點(diǎn)符號(hào)等6種主觀線索成分作為分類(lèi)特征,建立主觀線索特征詞表,用樸素貝葉斯分類(lèi)器對(duì)文本的主客觀性進(jìn)行判別。
(1)主觀性文本是指作者對(duì)于非事實(shí)的描述的文本,通常帶有一定的個(gè)人情感色彩。主觀性文本主要分為兩類(lèi):評(píng)價(jià)和推測(cè)[4]。
目前,主客觀文本分類(lèi)方面,主要是針對(duì)評(píng)價(jià)型的文本進(jìn)行研究。例如:“我認(rèn)為iPhone挺好,值得擁有?!?。
(2)客 觀 性 文 本 定 義 請(qǐng) 參 見(jiàn) 文 獻(xiàn) [5]。例 如:“iPhone4永遠(yuǎn)是一部經(jīng)典,無(wú)法超越?!?。
中文主觀性文本和客觀性文本之間存在很大的區(qū)別,主觀性文本一般表達(dá)人們的情感、看法或是態(tài)度,表達(dá)的形式也是多樣化,不是規(guī)范型的文本,時(shí)常出現(xiàn)不規(guī)范的詞語(yǔ)和結(jié)構(gòu)等。主觀性文本識(shí)別主要以情感詞為主,利用各種文本特征表示方法和分類(lèi)器 (一般采用樸素貝葉斯分類(lèi)器)進(jìn)行分類(lèi)識(shí)別[7]。
文本分類(lèi)過(guò)程如圖1所示。
圖1 文本分類(lèi)過(guò)程
其中預(yù)處理環(huán)節(jié)包含中文分詞、分句、去停用詞等過(guò)程。特征表示包括特征選擇、特征提取及特征值計(jì)算。
樸素貝葉斯(Naive Bayes,NB)定義請(qǐng)參見(jiàn)文獻(xiàn)[4]。
對(duì)需測(cè)試文本D= {T1,T2,…,Tn},由于NB是基于特征相互獨(dú)立的假設(shè)下,判別其屬于主觀、客觀類(lèi)別C={CS,CO},分類(lèi)算法如式 (1)所示
其中,P(Cj)表示類(lèi)別Cj的先驗(yàn)概率,P(Ti,Cj)表示特征Ti出現(xiàn)在類(lèi)別Cj中的后驗(yàn)概率。
先驗(yàn)概率P(Cj)的計(jì)算公式如式 (2)所示
式中:D(Cj)——類(lèi)別Cj中的文本數(shù)。
后驗(yàn)概率P(Ti,Cj)是特征Ti出現(xiàn)在類(lèi)別Cj中的概率,并且為防止0概率的出現(xiàn)進(jìn)行平滑調(diào)整,計(jì)算公式如式 (3)所示
其中,P(Ti,Cj)為特征項(xiàng)Ti在類(lèi)別Cj的文本中出現(xiàn)的次數(shù),式 (4)中M 為特征項(xiàng)Ti在所有類(lèi)別的文本中出現(xiàn)的次數(shù)總和。
主觀線索特征包括情感詞、第一或第二人稱(chēng)代詞、不規(guī)范的標(biāo)點(diǎn)符號(hào)、帶有情感色彩的標(biāo)點(diǎn)符號(hào)、感嘆詞、程度副詞、發(fā)表看法或意見(jiàn)的動(dòng)詞 (指示性動(dòng)詞)、不精確的數(shù)字或日期、關(guān)聯(lián)詞等9種特征。本文選取關(guān)聯(lián)詞、情感詞以及與指示性動(dòng)詞、感嘆詞、程度副詞、帶有情感色彩的標(biāo)點(diǎn)符號(hào)等6種主觀線索特征作為主觀性文本識(shí)別依據(jù)。下面具體介紹每種特征以及特征提取算法。
具有情感的詞的統(tǒng)稱(chēng)為情感詞,以帶有情感的動(dòng)詞和形容詞居多。當(dāng)人們陳述的句子中出現(xiàn)正、負(fù)面的情感詞語(yǔ)或評(píng)價(jià)詞語(yǔ)時(shí),這個(gè)句子是主觀句的可能性很大。例如:“我喜歡iPhone。”、“iPhone外觀好看?!?。本文所用的情感詞是HowNet情感分析用詞語(yǔ)集中中文正負(fù)面情感詞語(yǔ)和正負(fù)面評(píng)價(jià)詞語(yǔ),其分布情況見(jiàn)表1。
表1 情感詞分布情況
算法1:情感詞提取算法
輸入:給定的文本D
輸出:情感詞集合q
步驟1 對(duì)給定的文本分句、分詞并進(jìn)行詞性標(biāo)注處理后得到文本特征詞序列集合
步驟2 利用HowNet情感分析用詞語(yǔ)集中中文正負(fù)面情感詞語(yǔ)和正負(fù)面評(píng)價(jià)詞語(yǔ)建立情感詞表Q,Q 可用如式(6)表示
步驟3 利用建立好的情感詞表Q 統(tǒng)計(jì)給定的文本D中的情感詞,得到情感詞集合q
當(dāng)人們對(duì)于某種事物表述自己的觀點(diǎn)或態(tài)度時(shí),往往會(huì)采用一些諸如 “感覺(jué)”、 “認(rèn)為”等一類(lèi)的主張?jiān)~語(yǔ),并且這些主張?jiān)~語(yǔ)往往會(huì)伴隨第一、第二和第三人稱(chēng)代詞一起出現(xiàn),那么這一類(lèi)的句子是主觀句的可能性很大。例如:“我感覺(jué)iPhone真心不錯(cuò),你值得擁有。”。本文使用的指示性動(dòng)詞是HowNet情感分析用詞語(yǔ)集中中文主張?jiān)~語(yǔ),其分布情況見(jiàn)表2。
表2 指示性動(dòng)詞分布情況
算法2:指示性動(dòng)詞提取算法輸入:給定的文本D
輸出:指示性動(dòng)詞集合z
步驟1 與算法1的步驟1相同;
步驟2 利用HowNet情感分析用詞語(yǔ)集中中文主張?jiān)~語(yǔ)建立指示性動(dòng)詞表Z,Z 可用如式 (8)表示
步驟3 利用建立好的指示性動(dòng)詞表Z 統(tǒng)計(jì)給定的文本D 中的指示性動(dòng)詞,得到指示性動(dòng)詞集合z
感嘆詞是用于表達(dá)各種感情的詞,它與后面句子的其余成分沒(méi)有語(yǔ)法聯(lián)系,并且能更好地幫助人們表達(dá)自身的情感傾向。當(dāng)某個(gè)句子中出現(xiàn) “啊”、“哎呀”、“天呀”等的感嘆詞時(shí),這個(gè)句子很可能是主觀句。例如:“哎呀,我把iPhone落家了?!?。本文通過(guò)對(duì)訓(xùn)練語(yǔ)料中大量主觀性文本的觀察與研究,統(tǒng)計(jì)出適合主觀性文本識(shí)別的感嘆詞,具體分布情況見(jiàn)表3。
表3 感嘆詞分布情況
算法3:感嘆詞提取算法
輸入:給定的文本D
輸出:感嘆詞集合g
步驟1 與算法1的步驟1相同;
步驟2 通過(guò)對(duì)訓(xùn)練語(yǔ)料中大量主觀性文本的觀察與研究,統(tǒng)計(jì)出適合主觀性文本識(shí)別的感嘆詞,建立感嘆詞表G,G 可用如式 (10)表示
步驟3 利用建立好的感嘆詞表G 統(tǒng)計(jì)給定的文本D中的感嘆詞,得到感嘆詞集合g
通常,人們?yōu)榱嗽鰪?qiáng)自己表達(dá)的情感,往往會(huì)使用一些程度副詞加以修飾。當(dāng)某個(gè)句子中含有如 “非?!?、“很”、“相當(dāng)”等之類(lèi)的程度副詞時(shí),這個(gè)句子是主觀句的可能性很大。例如: “iPhone性能相當(dāng)好,我非常喜歡?!?。本文使用的程度副詞是HowNet情感分析用詞語(yǔ)集中中文程度級(jí)別詞語(yǔ),具體的分布情況見(jiàn)表4。
表4 程度副詞分布情況
算法4:程度副詞提取算法
輸入:給定的文本D
輸出:程度副詞集合cd
步驟1 與算法1的步驟1相同
步驟2 利用HowNet情感分析用詞語(yǔ)集中中文程度級(jí)別詞語(yǔ)建立程度副詞表CD,CD 可用如式 (12)表示
步驟3 利用建立好的程度副詞表CD 統(tǒng)計(jì)給定的文本D 中的程度副詞,得到程度副詞集合cd
句子中問(wèn)號(hào)的出現(xiàn)表示人們?cè)谫|(zhì)疑某事物,帶有不確定性;而感嘆號(hào)的出現(xiàn)則表示人們對(duì)事物吃驚、喜悅、嘆息等的態(tài)度,帶有一定的情感。這兩種標(biāo)點(diǎn)符號(hào)都能表達(dá)人們內(nèi)心的情感。由于這兩者在主觀性文本中出現(xiàn)頻率居多,很少在客觀性文本中出現(xiàn),因此,本文將帶有情感色彩的標(biāo)點(diǎn)符號(hào)作為識(shí)別主觀性文本的一種特征。例如:“iPhone各個(gè)方面都挺好,難道你不想擁有一部嗎?”、“iPhone音質(zhì)真好!”。而在有些句子中經(jīng)常會(huì)出現(xiàn)問(wèn)號(hào)、感嘆號(hào)連用的現(xiàn)象,表達(dá)更為強(qiáng)烈的情感,例如:“iPhone各個(gè)方面都挺好,難道你不想擁有一部嗎???”、“iPhone音質(zhì)真好?。。 ?。本文通過(guò)對(duì)訓(xùn)練語(yǔ)料中大量主觀性文本的觀察與研究,統(tǒng)計(jì)出適合主觀性文本識(shí)別的帶有情感色彩的標(biāo)點(diǎn)符號(hào),具體分布見(jiàn)表5。
表5 帶有情感色彩的標(biāo)點(diǎn)符號(hào)分布情況
算法5:帶有情感色彩的標(biāo)點(diǎn)符號(hào)提取算法
輸入:給定的文本D
輸出:帶有情感色彩的標(biāo)點(diǎn)符號(hào)集合bd
步驟1 與算法1的步驟1相同
步驟2 通過(guò)對(duì)訓(xùn)練語(yǔ)料中大量主觀性文本的觀察與研究,統(tǒng)計(jì)出適合主觀性文本識(shí)別的帶有情感色彩的標(biāo)點(diǎn)符號(hào),建立帶有情感色彩的標(biāo)點(diǎn)符號(hào)表BD,BD 可用如式(14)表示
步驟3 利用建立好的帶有情感色彩的標(biāo)點(diǎn)符號(hào)表BD統(tǒng)計(jì)給定的文本D 中的帶有情感色彩的標(biāo)點(diǎn)符號(hào),得到帶有情感色彩的標(biāo)點(diǎn)符號(hào)集合bd
復(fù)句、分句的定義請(qǐng)參見(jiàn)文獻(xiàn) [8]。本文研究的是以關(guān)聯(lián)詞所表示的復(fù)句類(lèi)型,關(guān)聯(lián)詞表達(dá)人的邏輯認(rèn)知,具有一定的主觀性。人們對(duì)于客觀事實(shí)根據(jù)自己所要表達(dá)的意思來(lái)選擇用或不用關(guān)聯(lián)詞、用哪一種關(guān)聯(lián)詞,這種選擇性表達(dá)就是一種主觀性。
本文從以下兩個(gè)方面來(lái)分析關(guān)聯(lián)詞語(yǔ)的主觀性:
(1)文章中關(guān)聯(lián)詞的使用率:本文選擇中國(guó)經(jīng)濟(jì)網(wǎng)的時(shí)政新聞 《外交部:越南沖擊我警戒區(qū)及船只1416艘次》、九九文章網(wǎng)的影評(píng)書(shū)評(píng) 《〈水煮三國(guó)〉讀后感》兩篇文章為代表分析關(guān)聯(lián)詞的主觀性。通過(guò)對(duì)文章中的句子總數(shù)、復(fù)句數(shù)、關(guān)聯(lián)詞組數(shù)進(jìn)行統(tǒng)計(jì),分析關(guān)聯(lián)詞對(duì)主觀句的影響,結(jié)果見(jiàn)表6。
由表6的統(tǒng)計(jì)結(jié)果可知,在新聞體裁的文章中復(fù)句的使用率很高,而關(guān)聯(lián)詞的使用率較低;在書(shū)評(píng)體裁的文章中,復(fù)句的使用率相對(duì)比較低,而關(guān)聯(lián)詞的使用率卻很高。新聞體裁的文章講述的是客觀事實(shí),一般比較客觀;書(shū)評(píng)體裁的文章是評(píng)價(jià)型的文章,一般帶有作者的觀點(diǎn)、態(tài)度或是意見(jiàn),主觀性比較強(qiáng)。從上述兩種體裁關(guān)聯(lián)詞的使用來(lái)看,比較客觀的文體關(guān)聯(lián)詞的使用率低,主觀性強(qiáng)的文本關(guān)聯(lián)詞的使用率較高。由此可得,關(guān)聯(lián)詞對(duì)主觀性的表達(dá)具有一定的影響。
表6 兩文章中復(fù)句和關(guān)聯(lián)詞組使用比例
(2)對(duì)同一客觀事實(shí)使用不同的關(guān)聯(lián)詞:對(duì)于同一個(gè)客觀事實(shí),表達(dá)的方式可以使用單句,還可以使用復(fù)句,其中復(fù)句可以是關(guān)聯(lián)詞的復(fù)句,也可以不使用關(guān)聯(lián)詞。對(duì)于同一個(gè)客觀事實(shí),想要表達(dá)不同的主觀認(rèn)知,就會(huì)使用不同的關(guān)聯(lián)詞。比如對(duì)于客觀事實(shí) “天陰了,要下雨”,沒(méi)有關(guān)聯(lián)詞的連接就是一個(gè)表達(dá)客觀事實(shí)的復(fù)句,而使用不同的關(guān)聯(lián)詞將其連接就構(gòu)成了不同類(lèi)型的復(fù)句:
因?yàn)樘礻幜?,所以要下雨?/p>
不僅天陰了,而且要下雨。
只有天陰了,才要下雨。
如果天陰了,就要下雨。
上述例句涉及4 種類(lèi)型的復(fù)句,分別是因果、遞進(jìn)、條件、假設(shè)關(guān)系的復(fù)句。利用關(guān)聯(lián)詞,可以使分句間的意義關(guān)系明確地表達(dá)出來(lái)。換句話說(shuō),句子中本來(lái)就包含分句間的意義關(guān)系,而使用關(guān)聯(lián)詞之后使分句間的邏輯關(guān)系更加凸顯出來(lái)。對(duì)于同一客觀事實(shí)來(lái)說(shuō),理論上只存在一種意義關(guān)系,在使用不同的關(guān)聯(lián)詞連接后卻表達(dá)了不同的意義。由此可以說(shuō)明關(guān)聯(lián)詞帶有一定的主觀性。
綜上所述,關(guān)聯(lián)詞的使用一般會(huì)帶有使用者的主觀邏輯認(rèn)知,對(duì)主觀句的識(shí)別具有一定的作用。本文通過(guò)對(duì)訓(xùn)練語(yǔ)料中大量主觀性文本的觀察與研究,統(tǒng)計(jì)出適合主觀性文本識(shí)別的關(guān)聯(lián)詞。一般來(lái)說(shuō),文本中的關(guān)聯(lián)詞都是成對(duì)出現(xiàn),常用的關(guān)聯(lián)詞分布情況見(jiàn)表7。
算法6:關(guān)聯(lián)詞提取算法
輸入:給定的文本D
輸出:關(guān)聯(lián)詞集合gl
步驟1 與算法1的步驟1相同
步驟2 通過(guò)對(duì)訓(xùn)練語(yǔ)料中大量主觀性文本的觀察與研究,統(tǒng)計(jì)出適合主觀性文本識(shí)別的關(guān)聯(lián)詞,建立關(guān)聯(lián)詞表GL,GL 可用如式 (16)表示
步驟3 利用建立好的關(guān)聯(lián)詞表GL 統(tǒng)計(jì)給定的文本D中的關(guān)聯(lián)詞,得到關(guān)聯(lián)詞集合gl
表7 常用關(guān)聯(lián)詞分布情況
上述論述特征對(duì)主觀句具有一定的識(shí)別作用,本文利用這6種特征建立一個(gè)主觀線索特征詞表ZG,如式 (18)所示,將主觀線索特征詞表ZG 中包含的各個(gè)特征作為識(shí)別主觀性文本的特征,再利用樸素貝葉斯分類(lèi)器進(jìn)行主觀性文本識(shí)別
本文實(shí)驗(yàn)數(shù)據(jù)采用了2008年中文傾向性分析評(píng)測(cè)提供的 中 文 語(yǔ) 料 集COAE2008。COAE2008 (Chinese opinion analysis evaluation,COAE2008)語(yǔ)料集是第一屆中文傾向性分析評(píng)測(cè)的訓(xùn)練語(yǔ)料,由中科院計(jì)算所和洛陽(yáng)外國(guó)語(yǔ)學(xué)院共同整理和標(biāo)注完成,近40000 篇文本,其中具有觀點(diǎn)傾向性文本數(shù)量超過(guò)4000 篇,語(yǔ)料涉及的領(lǐng)域有影視娛樂(lè)、財(cái)經(jīng)、教育、房產(chǎn)、電腦、手機(jī)等領(lǐng)域的網(wǎng)頁(yè),提取后整理成txt純文本形式,文章從幾個(gè)句子到上百個(gè)句子不等。
本文利用主觀線索特征詞表中包含的各個(gè)特征作為主觀文本識(shí)別特征,通過(guò)人工標(biāo)注篩選的方法,從COAE2008語(yǔ)料集中選取主觀性和客觀性明確的文本各500個(gè),其中300個(gè)主觀文本和300個(gè)客觀文本作為訓(xùn)練數(shù)據(jù),另外的200個(gè)主觀文本和200 個(gè)客觀文本作為測(cè)試數(shù)據(jù)。表8為訓(xùn)練和測(cè)試數(shù)據(jù)的分布情況。
表8 訓(xùn)練和測(cè)試數(shù)據(jù)分布情況
(1)數(shù)據(jù)預(yù)處理:本文利用哈工大社會(huì)計(jì)算與信息檢索研究中心編制的語(yǔ)言技術(shù)平臺(tái) (LTP)分句工具對(duì)數(shù)據(jù)進(jìn)行分句,中科院計(jì)算機(jī)所編制的中文分詞 (ICTCLAS)工具對(duì)數(shù)據(jù)進(jìn)行分詞,再借助停用詞表去停用詞。
(2)特征表示:特征表示包括特征選擇、提取及其值的計(jì)算,常用的特征提取算法有信息增益、文檔頻率、CHI統(tǒng)計(jì)、相對(duì)熵和互信息等。本文利用文檔頻率的方法對(duì)主觀性文本進(jìn)行特征提取,將文本向量化表示,具體步驟如下:
步驟1 對(duì)給定的文本分句、分詞并進(jìn)行詞性標(biāo)注處理后,得到文本特征詞序列集合,形式如式 (19)所示
其中,Ti為特征詞,posi為特征詞的詞性。
步驟2 利用主觀線索詞表ZG 統(tǒng)計(jì)文本中各個(gè)特征出現(xiàn)的次數(shù),得到主管線索特征集合X
其中,i=1,2,…,n,Ai,Bi,Ei,Ki,Mi,Yi分別表示特征qi,zi,gi,cdi,bdi,gli出現(xiàn)的次數(shù)。
步驟3 利用文檔頻率的方法分別計(jì)算P(qi),P(zi),P(gi),P(cdi),P(bdi),P(gli)計(jì)算公式如式 (21)所示
其中,N 為文本中所有特征數(shù)總和,由于P(qi),P(zi),P(gi),P(cdi),P(bdi),P(gli)計(jì)算方法一樣,計(jì)算時(shí)只需將式 (21)的分子替換成其它主觀線索特征出現(xiàn)的次數(shù)。步驟4 將文本向量化表示成式 (22)所示的形式
(3)訓(xùn)練分類(lèi)器:利用向量化的訓(xùn)練數(shù)據(jù)訓(xùn)練樸素貝葉斯分類(lèi)器,生成分類(lèi)模型。
(4)測(cè)試數(shù)據(jù):利用上述分類(lèi)模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類(lèi)。
實(shí)驗(yàn)環(huán)境是使用MyEclipse 8.5進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)時(shí)所用的機(jī)器型號(hào)是聯(lián)想Y480,機(jī)器的主要配置為intel酷睿i5 3210 M 處理器,4G 內(nèi)存,2.5GHz主頻。實(shí)驗(yàn)所采用的評(píng)價(jià)指標(biāo)是準(zhǔn)確率P
式中:Tr(Cj)——分類(lèi)正確的文本數(shù),N(Cj)——屬于類(lèi)別Cj的文本數(shù)。
本文總共做了3組實(shí)驗(yàn),分別為采用傳統(tǒng)樸素貝葉斯進(jìn)行實(shí)驗(yàn)、用樸素貝葉斯+主觀線索 (不含關(guān)聯(lián)詞)進(jìn)行實(shí)驗(yàn)、本文提出的方法進(jìn)行實(shí)驗(yàn)。表9 為3 組實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果。
表9 實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果
最后,本文對(duì)3組實(shí)驗(yàn)進(jìn)行對(duì)比,得出3組實(shí)驗(yàn)對(duì)比結(jié)果見(jiàn)表10。
表10 3組實(shí)驗(yàn)對(duì)比結(jié)果
由表10的3組實(shí)驗(yàn)對(duì)比結(jié)果可以看出,主觀線索特征的加入對(duì)分類(lèi)性能有一定的提升,而含有關(guān)聯(lián)詞的主觀線索特征的加入對(duì)分類(lèi)性能的提升更加明顯。實(shí)驗(yàn)表明,主觀線索對(duì)主觀性文本識(shí)別有一定的幫助,含有關(guān)聯(lián)詞的主觀線索特征比不含有關(guān)聯(lián)詞的主觀線索特征識(shí)別性能要好些。
本文分析了關(guān)聯(lián)詞對(duì)主觀性文本識(shí)別的作用,并將關(guān)聯(lián)詞加入到主觀線索特征中,作為主觀性文本識(shí)別的特征。實(shí)驗(yàn)結(jié)果表明,主觀線索對(duì)主觀性文本識(shí)別有一定的幫助,含有關(guān)聯(lián)詞的主觀線索特征比不含有關(guān)聯(lián)詞的主觀線索特征分類(lèi)性能要好些。本文主要針對(duì)主觀性文本識(shí)別進(jìn)行研究,對(duì)如何準(zhǔn)確有效識(shí)別出主觀性文本進(jìn)行分析,提出關(guān)聯(lián)詞、情感詞以及與指示性動(dòng)詞、感嘆詞、程度副詞、帶有情感色彩的標(biāo)點(diǎn)符號(hào)等6種主觀線索成分作為主觀性文本識(shí)別依據(jù),建立主觀線索特征詞表,用樸素貝葉斯分類(lèi)器對(duì)主觀性文本進(jìn)行識(shí)別,為解決主觀性文本識(shí)別提供可行的方法。
今后的研究工作從兩個(gè)方面展開(kāi):①提高分詞和分句的準(zhǔn)確率,現(xiàn)有的分詞和分句工具準(zhǔn)確率不高,這對(duì)主觀線索的判別有很大影響。②繼續(xù)探討其它的可以作為主觀性文本識(shí)別的主觀線索特征。
[1]ZHAO Yanyan,QIN Bing,LIU Ting.Sentiment analysis[J].Journal of Software,2010,21 (8):1834-1848 (in Chinese). [趙妍妍,秦兵,劉挺.文本情感分析 [J].軟件學(xué)報(bào),2010,21 (8):1834-1848.]
[2]YANG Jiang,HOU Min,WANG Ning.Sentiment polarity analysis of reviews based on shallow text structure[J].Journal of Chinese Information Processing,2011,25 (2):83-88 (in Chinese).[楊江,侯敏,王寧.基于淺層篇章結(jié)構(gòu)的評(píng)論文傾向性分析 [J].中文信息學(xué)報(bào),2011,25 (2):83-88.]
[3]LIAO Xiangwen,LI Yihong.Identification of chinese opinion sentences based on n-gram hyperkernel function [J].Journal of Chinese Information Processing,2011,25 (5):89-93 (in Chinese).[廖祥文,李藝紅.基于N-gram 超核的中文傾向性句子識(shí)別 [J].中文信息學(xué)報(bào),2011,25 (5):89-93.]
[4]YANG Wu,SONG Jingjing,TANG Jiqiang.A study on the classification approach for Chinese MicroBlog subjective and objective sentences [J].Journal of Chongqing University of Technology (Natural Science),2013,27 (1):51-56 (in Chinese).[楊武,宋靜靜,唐繼強(qiáng).中文微博情感分析中主客觀句分類(lèi)方法 [J].重慶理工大學(xué)學(xué)報(bào) (自然科學(xué)),2013,27(1):51-56.]
[5]YAO Tianfang,PENG Siwei.A study of the classification approach for Chinese subjective and objective texts [C]//The Third National Information Retrieval and Content Security Conference Proceedings,2007 (in Chinese). [姚天昉,彭思崴.漢語(yǔ)主客觀文本分類(lèi)方法的研究 [C]//第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集,2007.]
[6]GUO Yunlong,PAN Yubin,ZHANG Zeyu,et al.Multipleclassifiers opinion sentence recognition in Chinese micro-blog based on D-S theory [J].Computer Engineering,2014,40(4):159-163 (in Chinese).[郭云龍,潘玉斌,張澤宇,等.基于證據(jù)理論的多分類(lèi)器中文微博觀點(diǎn)句識(shí)別 [J].計(jì)算機(jī)工程,2014,40 (4):159-163.]
[7]LI Xiaojun,DAI Lin,SHI Hanxiao,et al.Survey on sentiment orientation analysis of texts[J].Journal of Zhejiang University (Engineering Science),2011,45 (7):1165-1173 (in Chinese).[厲小軍,戴霖,施寒瀟,等.文本傾向性分析綜述 [J]. 浙 江 大 學(xué) 學(xué) 報(bào) (工 學(xué) 版),2011,45 (7):1165-1173.]
[8]WANG Wenqi.The subjectivity of connectives of chinese complex sentences[J].Journal of Shanxi Datong University (Social Science),2012,26 (2):80-83 (in Chinese). [王文琦.復(fù)句中關(guān)聯(lián)詞語(yǔ)的主觀性考察 [J].山西大同大學(xué)學(xué)報(bào) (社會(huì)科學(xué)版),2012,26 (2):80-83.]
[9]WEI Xiangfeng,ZHANG Quan,MIAO Jianming,et al.Event sentiment analysis based on semantic chunks[J].Journal of Chinese Information Processing,2012,26 (3):44-48 (in Chinese).[韋向峰,張全,繆建明,等.基于語(yǔ)義塊的事件傾向性分析研究[J].中文信息學(xué)報(bào),2012,26 (3):44-48.]
[10]DANG Lei,ZHANG Lei.Method of discriminant for Chinese sentence sentiment orientation based on HowNet[J].Applica-tion Research of Computers,2010,27 (4):1370-1372 (in Chinese).[黨蕾,張蕾.一種基于知網(wǎng)的中文句子情感傾向判別方法[J].計(jì)算機(jī)應(yīng)用研究,2010,27 (4):1370-1372.]
[11]SUN Jianwang,LV Xueqiang,ZHANG Leihan.Short text classification based on semantics and maximum matching degree[J].Computer Engineering and Design,2013,34 (10):3613-3618 (in Chinese).[孫建旺,呂學(xué)強(qiáng),張雷瀚.基于語(yǔ)義與最大匹配度的短文本分類(lèi)研究 [J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34 (10):3613-3618.]
[12]Taboada M,Brooke J,Tofiloski M,et al.Lexicon-based methods for sentiment analysis [J].Computational linguistics,2011,37 (2):267-307.