亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

以主觀線索為特征的主觀性文本識(shí)別

2015-12-20 06:51:38劉勇華李?lèi)?ài)萍段利國(guó)王鴻翔

計(jì)算機(jī)工程與設(shè)計(jì) 2015年9期

劉勇華，李?lèi)?ài)萍，段利國(guó)，邸鵬，王鴻翔

（太原理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，山西太原030024）

0 引言

文本情感分析的前提是對(duì)文本中主觀成分的識(shí)別和提取。例如：在文本情感分析中［1］，處理的文本類(lèi)型就是主觀性文本。事先對(duì)文本進(jìn)行主觀性判別是很有必要的，不僅可以有效地減少分析的范圍，還可以提高分析的速度和精確度。主觀文本識(shí)別主要有兩種方法，基于詞典和基于統(tǒng)計(jì)?；谠~典的方法利用事先建立的情感詞典（可以人工標(biāo)注或是機(jī)器統(tǒng)計(jì)），統(tǒng)計(jì)文本中的詞語(yǔ)是否含有情感，再進(jìn)一步判別文本主客觀性［2］，這種方法非常依賴情感詞典。基于統(tǒng)計(jì)的方法利用訓(xùn)練好的數(shù)據(jù)模型，采用機(jī)器學(xué)習(xí)的方法，對(duì)待測(cè)文本進(jìn)行判別［3］。常用的機(jī)器學(xué)習(xí)方法有：樸素貝葉斯（NB）、支持向量機(jī) （SVM）、決策樹(shù)、K最近鄰、最大熵模型等。這種方法在訓(xùn)練數(shù)據(jù)的標(biāo)注、特征選取、分類(lèi)器的選取等方面具有一定的局限性。目前，學(xué)者們?yōu)榱说玫礁叩臏?zhǔn)確率和更快的分類(lèi)效率，大多數(shù)采用基于詞典和基于統(tǒng)計(jì)相結(jié)合的方法進(jìn)行文本主觀識(shí)別［4－6，9－11］。針對(duì) 包含豐富情感信息的主觀線索研究還較少，比如復(fù)雜句式的關(guān)聯(lián)詞特征研究較為缺乏。因此，本文將關(guān)聯(lián)詞、情感詞以及指示性動(dòng)詞、感嘆詞、程度副詞、帶有情感色彩的標(biāo)點(diǎn)符號(hào)等6種主觀線索成分作為分類(lèi)特征，建立主觀線索特征詞表，用樸素貝葉斯分類(lèi)器對(duì)文本的主客觀性進(jìn)行判別。

1 相關(guān)知識(shí)

1.1 主客觀文本定義

（1）主觀性文本是指作者對(duì)于非事實(shí)的描述的文本，通常帶有一定的個(gè)人情感色彩。主觀性文本主要分為兩類(lèi)：評(píng)價(jià)和推測(cè)［4］。

目前，主客觀文本分類(lèi)方面，主要是針對(duì)評(píng)價(jià)型的文本進(jìn)行研究。例如：“我認(rèn)為iPhone挺好，值得擁有?！?。

（2）客觀性文本定義請(qǐng) 參見(jiàn) 文獻(xiàn) ［5］。例如：“iPhone4永遠(yuǎn)是一部經(jīng)典，無(wú)法超越?！?。

中文主觀性文本和客觀性文本之間存在很大的區(qū)別，主觀性文本一般表達(dá)人們的情感、看法或是態(tài)度，表達(dá)的形式也是多樣化，不是規(guī)范型的文本，時(shí)常出現(xiàn)不規(guī)范的詞語(yǔ)和結(jié)構(gòu)等。主觀性文本識(shí)別主要以情感詞為主，利用各種文本特征表示方法和分類(lèi)器（一般采用樸素貝葉斯分類(lèi)器）進(jìn)行分類(lèi)識(shí)別［7］。

1.2 文本分類(lèi)過(guò)程

文本分類(lèi)過(guò)程如圖1所示。

圖1 文本分類(lèi)過(guò)程

其中預(yù)處理環(huán)節(jié)包含中文分詞、分句、去停用詞等過(guò)程。特征表示包括特征選擇、特征提取及特征值計(jì)算。

1.3 樸素貝葉斯

樸素貝葉斯（Naive Bayes，NB）定義請(qǐng)參見(jiàn)文獻(xiàn)［4］。

對(duì)需測(cè)試文本D＝｛T1，T2，…，Tn｝，由于NB是基于特征相互獨(dú)立的假設(shè)下，判別其屬于主觀、客觀類(lèi)別C＝｛CS，CO｝，分類(lèi)算法如式（1）所示

其中，P（Cj）表示類(lèi)別Cj的先驗(yàn)概率，P（Ti，Cj）表示特征Ti出現(xiàn)在類(lèi)別Cj中的后驗(yàn)概率。

先驗(yàn)概率P（Cj）的計(jì)算公式如式（2）所示

式中：D（Cj）——類(lèi)別Cj中的文本數(shù)。

后驗(yàn)概率P（Ti，Cj）是特征Ti出現(xiàn)在類(lèi)別Cj中的概率，并且為防止0概率的出現(xiàn)進(jìn)行平滑調(diào)整，計(jì)算公式如式（3）所示

其中，P（Ti，Cj）為特征項(xiàng)Ti在類(lèi)別Cj的文本中出現(xiàn)的次數(shù)，式（4）中M 為特征項(xiàng)Ti在所有類(lèi)別的文本中出現(xiàn)的次數(shù)總和。

2 主觀線索特征

主觀線索特征包括情感詞、第一或第二人稱(chēng)代詞、不規(guī)范的標(biāo)點(diǎn)符號(hào)、帶有情感色彩的標(biāo)點(diǎn)符號(hào)、感嘆詞、程度副詞、發(fā)表看法或意見(jiàn)的動(dòng)詞（指示性動(dòng)詞）、不精確的數(shù)字或日期、關(guān)聯(lián)詞等9種特征。本文選取關(guān)聯(lián)詞、情感詞以及與指示性動(dòng)詞、感嘆詞、程度副詞、帶有情感色彩的標(biāo)點(diǎn)符號(hào)等6種主觀線索特征作為主觀性文本識(shí)別依據(jù)。下面具體介紹每種特征以及特征提取算法。

2.1 情感詞

具有情感的詞的統(tǒng)稱(chēng)為情感詞，以帶有情感的動(dòng)詞和形容詞居多。當(dāng)人們陳述的句子中出現(xiàn)正、負(fù)面的情感詞語(yǔ)或評(píng)價(jià)詞語(yǔ)時(shí)，這個(gè)句子是主觀句的可能性很大。例如：“我喜歡iPhone。”、“iPhone外觀好看?！?。本文所用的情感詞是HowNet情感分析用詞語(yǔ)集中中文正負(fù)面情感詞語(yǔ)和正負(fù)面評(píng)價(jià)詞語(yǔ)，其分布情況見(jiàn)表1。

表1 情感詞分布情況

算法1：情感詞提取算法

輸入：給定的文本D

輸出：情感詞集合q

步驟1 對(duì)給定的文本分句、分詞并進(jìn)行詞性標(biāo)注處理后得到文本特征詞序列集合

步驟2 利用HowNet情感分析用詞語(yǔ)集中中文正負(fù)面情感詞語(yǔ)和正負(fù)面評(píng)價(jià)詞語(yǔ)建立情感詞表Q，Q 可用如式（6）表示

步驟3 利用建立好的情感詞表Q 統(tǒng)計(jì)給定的文本D中的情感詞，得到情感詞集合q

2.2 指示性動(dòng)詞

當(dāng)人們對(duì)于某種事物表述自己的觀點(diǎn)或態(tài)度時(shí)，往往會(huì)采用一些諸如 “感覺(jué)”、 “認(rèn)為”等一類(lèi)的主張?jiān)~語(yǔ)，并且這些主張?jiān)~語(yǔ)往往會(huì)伴隨第一、第二和第三人稱(chēng)代詞一起出現(xiàn)，那么這一類(lèi)的句子是主觀句的可能性很大。例如：“我感覺(jué)iPhone真心不錯(cuò)，你值得擁有。”。本文使用的指示性動(dòng)詞是HowNet情感分析用詞語(yǔ)集中中文主張?jiān)~語(yǔ)，其分布情況見(jiàn)表2。

表2 指示性動(dòng)詞分布情況

算法2：指示性動(dòng)詞提取算法輸入：給定的文本D

輸出：指示性動(dòng)詞集合z

步驟1 與算法1的步驟1相同；

步驟2 利用HowNet情感分析用詞語(yǔ)集中中文主張?jiān)~語(yǔ)建立指示性動(dòng)詞表Z，Z 可用如式（8）表示

步驟3 利用建立好的指示性動(dòng)詞表Z 統(tǒng)計(jì)給定的文本D 中的指示性動(dòng)詞，得到指示性動(dòng)詞集合z

2.3 感嘆詞

感嘆詞是用于表達(dá)各種感情的詞，它與后面句子的其余成分沒(méi)有語(yǔ)法聯(lián)系，并且能更好地幫助人們表達(dá)自身的情感傾向。當(dāng)某個(gè)句子中出現(xiàn) “啊”、“哎呀”、“天呀”等的感嘆詞時(shí)，這個(gè)句子很可能是主觀句。例如：“哎呀，我把iPhone落家了?！?。本文通過(guò)對(duì)訓(xùn)練語(yǔ)料中大量主觀性文本的觀察與研究，統(tǒng)計(jì)出適合主觀性文本識(shí)別的感嘆詞，具體分布情況見(jiàn)表3。

表3 感嘆詞分布情況

算法3：感嘆詞提取算法

輸入：給定的文本D

輸出：感嘆詞集合g

步驟1 與算法1的步驟1相同；

步驟2 通過(guò)對(duì)訓(xùn)練語(yǔ)料中大量主觀性文本的觀察與研究，統(tǒng)計(jì)出適合主觀性文本識(shí)別的感嘆詞，建立感嘆詞表G，G 可用如式（10）表示

步驟3 利用建立好的感嘆詞表G 統(tǒng)計(jì)給定的文本D中的感嘆詞，得到感嘆詞集合g

2.4 程度副詞

通常，人們?yōu)榱嗽鰪?qiáng)自己表達(dá)的情感，往往會(huì)使用一些程度副詞加以修飾。當(dāng)某個(gè)句子中含有如 “非?！?、“很”、“相當(dāng)”等之類(lèi)的程度副詞時(shí)，這個(gè)句子是主觀句的可能性很大。例如： “iPhone性能相當(dāng)好，我非常喜歡?！?。本文使用的程度副詞是HowNet情感分析用詞語(yǔ)集中中文程度級(jí)別詞語(yǔ)，具體的分布情況見(jiàn)表4。

表4 程度副詞分布情況

算法4：程度副詞提取算法

輸入：給定的文本D

輸出：程度副詞集合cd

步驟1 與算法1的步驟1相同

步驟2 利用HowNet情感分析用詞語(yǔ)集中中文程度級(jí)別詞語(yǔ)建立程度副詞表CD，CD 可用如式（12）表示

步驟3 利用建立好的程度副詞表CD 統(tǒng)計(jì)給定的文本D 中的程度副詞，得到程度副詞集合cd

2.5 帶有情感色彩的標(biāo)點(diǎn)符號(hào)

句子中問(wèn)號(hào)的出現(xiàn)表示人們?cè)谫|(zhì)疑某事物，帶有不確定性；而感嘆號(hào)的出現(xiàn)則表示人們對(duì)事物吃驚、喜悅、嘆息等的態(tài)度，帶有一定的情感。這兩種標(biāo)點(diǎn)符號(hào)都能表達(dá)人們內(nèi)心的情感。由于這兩者在主觀性文本中出現(xiàn)頻率居多，很少在客觀性文本中出現(xiàn)，因此，本文將帶有情感色彩的標(biāo)點(diǎn)符號(hào)作為識(shí)別主觀性文本的一種特征。例如：“iPhone各個(gè)方面都挺好，難道你不想擁有一部嗎？”、“iPhone音質(zhì)真好！”。而在有些句子中經(jīng)常會(huì)出現(xiàn)問(wèn)號(hào)、感嘆號(hào)連用的現(xiàn)象，表達(dá)更為強(qiáng)烈的情感，例如：“iPhone各個(gè)方面都挺好，難道你不想擁有一部嗎？？？”、“iPhone音質(zhì)真好?。。　?。本文通過(guò)對(duì)訓(xùn)練語(yǔ)料中大量主觀性文本的觀察與研究，統(tǒng)計(jì)出適合主觀性文本識(shí)別的帶有情感色彩的標(biāo)點(diǎn)符號(hào)，具體分布見(jiàn)表5。

表5 帶有情感色彩的標(biāo)點(diǎn)符號(hào)分布情況

算法5：帶有情感色彩的標(biāo)點(diǎn)符號(hào)提取算法

輸入：給定的文本D

輸出：帶有情感色彩的標(biāo)點(diǎn)符號(hào)集合bd

步驟1 與算法1的步驟1相同

步驟2 通過(guò)對(duì)訓(xùn)練語(yǔ)料中大量主觀性文本的觀察與研究，統(tǒng)計(jì)出適合主觀性文本識(shí)別的帶有情感色彩的標(biāo)點(diǎn)符號(hào)，建立帶有情感色彩的標(biāo)點(diǎn)符號(hào)表BD，BD 可用如式（14）表示

步驟3 利用建立好的帶有情感色彩的標(biāo)點(diǎn)符號(hào)表BD統(tǒng)計(jì)給定的文本D 中的帶有情感色彩的標(biāo)點(diǎn)符號(hào)，得到帶有情感色彩的標(biāo)點(diǎn)符號(hào)集合bd

2.6 關(guān)聯(lián)詞

復(fù)句、分句的定義請(qǐng)參見(jiàn)文獻(xiàn) ［8］。本文研究的是以關(guān)聯(lián)詞所表示的復(fù)句類(lèi)型，關(guān)聯(lián)詞表達(dá)人的邏輯認(rèn)知，具有一定的主觀性。人們對(duì)于客觀事實(shí)根據(jù)自己所要表達(dá)的意思來(lái)選擇用或不用關(guān)聯(lián)詞、用哪一種關(guān)聯(lián)詞，這種選擇性表達(dá)就是一種主觀性。

本文從以下兩個(gè)方面來(lái)分析關(guān)聯(lián)詞語(yǔ)的主觀性：

（1）文章中關(guān)聯(lián)詞的使用率：本文選擇中國(guó)經(jīng)濟(jì)網(wǎng)的時(shí)政新聞《外交部：越南沖擊我警戒區(qū)及船只1416艘次》、九九文章網(wǎng)的影評(píng)書(shū)評(píng) 《〈水煮三國(guó)〉讀后感》兩篇文章為代表分析關(guān)聯(lián)詞的主觀性。通過(guò)對(duì)文章中的句子總數(shù)、復(fù)句數(shù)、關(guān)聯(lián)詞組數(shù)進(jìn)行統(tǒng)計(jì)，分析關(guān)聯(lián)詞對(duì)主觀句的影響，結(jié)果見(jiàn)表6。

由表6的統(tǒng)計(jì)結(jié)果可知，在新聞體裁的文章中復(fù)句的使用率很高，而關(guān)聯(lián)詞的使用率較低；在書(shū)評(píng)體裁的文章中，復(fù)句的使用率相對(duì)比較低，而關(guān)聯(lián)詞的使用率卻很高。新聞體裁的文章講述的是客觀事實(shí)，一般比較客觀；書(shū)評(píng)體裁的文章是評(píng)價(jià)型的文章，一般帶有作者的觀點(diǎn)、態(tài)度或是意見(jiàn)，主觀性比較強(qiáng)。從上述兩種體裁關(guān)聯(lián)詞的使用來(lái)看，比較客觀的文體關(guān)聯(lián)詞的使用率低，主觀性強(qiáng)的文本關(guān)聯(lián)詞的使用率較高。由此可得，關(guān)聯(lián)詞對(duì)主觀性的表達(dá)具有一定的影響。

表6 兩文章中復(fù)句和關(guān)聯(lián)詞組使用比例

（2）對(duì)同一客觀事實(shí)使用不同的關(guān)聯(lián)詞：對(duì)于同一個(gè)客觀事實(shí)，表達(dá)的方式可以使用單句，還可以使用復(fù)句，其中復(fù)句可以是關(guān)聯(lián)詞的復(fù)句，也可以不使用關(guān)聯(lián)詞。對(duì)于同一個(gè)客觀事實(shí)，想要表達(dá)不同的主觀認(rèn)知，就會(huì)使用不同的關(guān)聯(lián)詞。比如對(duì)于客觀事實(shí) “天陰了，要下雨”，沒(méi)有關(guān)聯(lián)詞的連接就是一個(gè)表達(dá)客觀事實(shí)的復(fù)句，而使用不同的關(guān)聯(lián)詞將其連接就構(gòu)成了不同類(lèi)型的復(fù)句：

因?yàn)樘礻幜?，所以要下雨?/p>

不僅天陰了，而且要下雨。

只有天陰了，才要下雨。

如果天陰了，就要下雨。

上述例句涉及4 種類(lèi)型的復(fù)句，分別是因果、遞進(jìn)、條件、假設(shè)關(guān)系的復(fù)句。利用關(guān)聯(lián)詞，可以使分句間的意義關(guān)系明確地表達(dá)出來(lái)。換句話說(shuō)，句子中本來(lái)就包含分句間的意義關(guān)系，而使用關(guān)聯(lián)詞之后使分句間的邏輯關(guān)系更加凸顯出來(lái)。對(duì)于同一客觀事實(shí)來(lái)說(shuō)，理論上只存在一種意義關(guān)系，在使用不同的關(guān)聯(lián)詞連接后卻表達(dá)了不同的意義。由此可以說(shuō)明關(guān)聯(lián)詞帶有一定的主觀性。

綜上所述，關(guān)聯(lián)詞的使用一般會(huì)帶有使用者的主觀邏輯認(rèn)知，對(duì)主觀句的識(shí)別具有一定的作用。本文通過(guò)對(duì)訓(xùn)練語(yǔ)料中大量主觀性文本的觀察與研究，統(tǒng)計(jì)出適合主觀性文本識(shí)別的關(guān)聯(lián)詞。一般來(lái)說(shuō)，文本中的關(guān)聯(lián)詞都是成對(duì)出現(xiàn)，常用的關(guān)聯(lián)詞分布情況見(jiàn)表7。

算法6：關(guān)聯(lián)詞提取算法

輸入：給定的文本D

輸出：關(guān)聯(lián)詞集合gl

步驟1 與算法1的步驟1相同

步驟2 通過(guò)對(duì)訓(xùn)練語(yǔ)料中大量主觀性文本的觀察與研究，統(tǒng)計(jì)出適合主觀性文本識(shí)別的關(guān)聯(lián)詞，建立關(guān)聯(lián)詞表GL，GL 可用如式（16）表示

步驟3 利用建立好的關(guān)聯(lián)詞表GL 統(tǒng)計(jì)給定的文本D中的關(guān)聯(lián)詞，得到關(guān)聯(lián)詞集合gl

表7 常用關(guān)聯(lián)詞分布情況

上述論述特征對(duì)主觀句具有一定的識(shí)別作用，本文利用這6種特征建立一個(gè)主觀線索特征詞表ZG，如式（18）所示，將主觀線索特征詞表ZG 中包含的各個(gè)特征作為識(shí)別主觀性文本的特征，再利用樸素貝葉斯分類(lèi)器進(jìn)行主觀性文本識(shí)別

3 實(shí)驗(yàn)及實(shí)驗(yàn)結(jié)果分析

3.1 實(shí)驗(yàn)語(yǔ)料庫(kù)

本文實(shí)驗(yàn)數(shù)據(jù)采用了2008年中文傾向性分析評(píng)測(cè)提供的中文語(yǔ) 料集COAE2008。COAE2008 （Chinese opinion analysis evaluation，COAE2008）語(yǔ)料集是第一屆中文傾向性分析評(píng)測(cè)的訓(xùn)練語(yǔ)料，由中科院計(jì)算所和洛陽(yáng)外國(guó)語(yǔ)學(xué)院共同整理和標(biāo)注完成，近40000 篇文本，其中具有觀點(diǎn)傾向性文本數(shù)量超過(guò)4000 篇，語(yǔ)料涉及的領(lǐng)域有影視娛樂(lè)、財(cái)經(jīng)、教育、房產(chǎn)、電腦、手機(jī)等領(lǐng)域的網(wǎng)頁(yè)，提取后整理成txt純文本形式，文章從幾個(gè)句子到上百個(gè)句子不等。

本文利用主觀線索特征詞表中包含的各個(gè)特征作為主觀文本識(shí)別特征，通過(guò)人工標(biāo)注篩選的方法，從COAE2008語(yǔ)料集中選取主觀性和客觀性明確的文本各500個(gè)，其中300個(gè)主觀文本和300個(gè)客觀文本作為訓(xùn)練數(shù)據(jù)，另外的200個(gè)主觀文本和200 個(gè)客觀文本作為測(cè)試數(shù)據(jù)。表8為訓(xùn)練和測(cè)試數(shù)據(jù)的分布情況。

表8 訓(xùn)練和測(cè)試數(shù)據(jù)分布情況

3.2 實(shí)驗(yàn)步驟

（1）數(shù)據(jù)預(yù)處理：本文利用哈工大社會(huì)計(jì)算與信息檢索研究中心編制的語(yǔ)言技術(shù)平臺(tái) （LTP）分句工具對(duì)數(shù)據(jù)進(jìn)行分句，中科院計(jì)算機(jī)所編制的中文分詞（ICTCLAS）工具對(duì)數(shù)據(jù)進(jìn)行分詞，再借助停用詞表去停用詞。

（2）特征表示：特征表示包括特征選擇、提取及其值的計(jì)算，常用的特征提取算法有信息增益、文檔頻率、CHI統(tǒng)計(jì)、相對(duì)熵和互信息等。本文利用文檔頻率的方法對(duì)主觀性文本進(jìn)行特征提取，將文本向量化表示，具體步驟如下：

步驟1 對(duì)給定的文本分句、分詞并進(jìn)行詞性標(biāo)注處理后，得到文本特征詞序列集合，形式如式（19）所示

其中，Ti為特征詞，posi為特征詞的詞性。

步驟2 利用主觀線索詞表ZG 統(tǒng)計(jì)文本中各個(gè)特征出現(xiàn)的次數(shù)，得到主管線索特征集合X

其中，i＝1，2，…，n，Ai，Bi，Ei，Ki，Mi，Yi分別表示特征qi，zi，gi，cdi，bdi，gli出現(xiàn)的次數(shù)。

步驟3 利用文檔頻率的方法分別計(jì)算P（qi），P（zi），P（gi），P（cdi），P（bdi），P（gli）計(jì)算公式如式（21）所示

其中，N 為文本中所有特征數(shù)總和，由于P（qi），P（zi），P（gi），P（cdi），P（bdi），P（gli）計(jì)算方法一樣，計(jì)算時(shí)只需將式（21）的分子替換成其它主觀線索特征出現(xiàn)的次數(shù)。步驟4 將文本向量化表示成式（22）所示的形式

（3）訓(xùn)練分類(lèi)器：利用向量化的訓(xùn)練數(shù)據(jù)訓(xùn)練樸素貝葉斯分類(lèi)器，生成分類(lèi)模型。

（4）測(cè)試數(shù)據(jù)：利用上述分類(lèi)模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類(lèi)。

3.3 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)環(huán)境是使用MyEclipse 8.5進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)時(shí)所用的機(jī)器型號(hào)是聯(lián)想Y480，機(jī)器的主要配置為intel酷睿i5 3210 M 處理器，4G 內(nèi)存，2.5GHz主頻。實(shí)驗(yàn)所采用的評(píng)價(jià)指標(biāo)是準(zhǔn)確率P

式中：Tr（Cj）——分類(lèi)正確的文本數(shù)，N（Cj）——屬于類(lèi)別Cj的文本數(shù)。

本文總共做了3組實(shí)驗(yàn)，分別為采用傳統(tǒng)樸素貝葉斯進(jìn)行實(shí)驗(yàn)、用樸素貝葉斯＋主觀線索（不含關(guān)聯(lián)詞）進(jìn)行實(shí)驗(yàn)、本文提出的方法進(jìn)行實(shí)驗(yàn)。表9 為3 組實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果。

表9 實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果

最后，本文對(duì)3組實(shí)驗(yàn)進(jìn)行對(duì)比，得出3組實(shí)驗(yàn)對(duì)比結(jié)果見(jiàn)表10。

表10 3組實(shí)驗(yàn)對(duì)比結(jié)果

由表10的3組實(shí)驗(yàn)對(duì)比結(jié)果可以看出，主觀線索特征的加入對(duì)分類(lèi)性能有一定的提升，而含有關(guān)聯(lián)詞的主觀線索特征的加入對(duì)分類(lèi)性能的提升更加明顯。實(shí)驗(yàn)表明，主觀線索對(duì)主觀性文本識(shí)別有一定的幫助，含有關(guān)聯(lián)詞的主觀線索特征比不含有關(guān)聯(lián)詞的主觀線索特征識(shí)別性能要好些。

4 結(jié)束語(yǔ)

本文分析了關(guān)聯(lián)詞對(duì)主觀性文本識(shí)別的作用，并將關(guān)聯(lián)詞加入到主觀線索特征中，作為主觀性文本識(shí)別的特征。實(shí)驗(yàn)結(jié)果表明，主觀線索對(duì)主觀性文本識(shí)別有一定的幫助，含有關(guān)聯(lián)詞的主觀線索特征比不含有關(guān)聯(lián)詞的主觀線索特征分類(lèi)性能要好些。本文主要針對(duì)主觀性文本識(shí)別進(jìn)行研究，對(duì)如何準(zhǔn)確有效識(shí)別出主觀性文本進(jìn)行分析，提出關(guān)聯(lián)詞、情感詞以及與指示性動(dòng)詞、感嘆詞、程度副詞、帶有情感色彩的標(biāo)點(diǎn)符號(hào)等6種主觀線索成分作為主觀性文本識(shí)別依據(jù)，建立主觀線索特征詞表，用樸素貝葉斯分類(lèi)器對(duì)主觀性文本進(jìn)行識(shí)別，為解決主觀性文本識(shí)別提供可行的方法。

今后的研究工作從兩個(gè)方面展開(kāi)：①提高分詞和分句的準(zhǔn)確率，現(xiàn)有的分詞和分句工具準(zhǔn)確率不高，這對(duì)主觀線索的判別有很大影響。②繼續(xù)探討其它的可以作為主觀性文本識(shí)別的主觀線索特征。

［1］ZHAO Yanyan，QIN Bing，LIU Ting.Sentiment analysis［J］.Journal of Software，2010，21 （8）：1834－1848 （in Chinese）. ［趙妍妍，秦兵，劉挺.文本情感分析［J］.軟件學(xué)報(bào)，2010，21 （8）：1834－1848.］

［2］YANG Jiang，HOU Min，WANG Ning.Sentiment polarity analysis of reviews based on shallow text structure［J］.Journal of Chinese Information Processing，2011，25 （2）：83－88 （in Chinese）.［楊江，侯敏，王寧.基于淺層篇章結(jié)構(gòu)的評(píng)論文傾向性分析［J］.中文信息學(xué)報(bào)，2011，25 （2）：83－88.］

［3］LIAO Xiangwen，LI Yihong.Identification of chinese opinion sentences based on n－gram hyperkernel function ［J］.Journal of Chinese Information Processing，2011，25 （5）：89－93 （in Chinese）.［廖祥文，李藝紅.基于N－gram 超核的中文傾向性句子識(shí)別［J］.中文信息學(xué)報(bào)，2011，25 （5）：89－93.］

［4］YANG Wu，SONG Jingjing，TANG Jiqiang.A study on the classification approach for Chinese MicroBlog subjective and objective sentences ［J］.Journal of Chongqing University of Technology （Natural Science），2013，27 （1）：51－56 （in Chinese）.［楊武，宋靜靜，唐繼強(qiáng).中文微博情感分析中主客觀句分類(lèi)方法［J］.重慶理工大學(xué)學(xué)報(bào) （自然科學(xué)），2013，27（1）：51－56.］

［5］YAO Tianfang，PENG Siwei.A study of the classification approach for Chinese subjective and objective texts ［C］／／The Third National Information Retrieval and Content Security Conference Proceedings，2007 （in Chinese）. ［姚天昉，彭思崴.漢語(yǔ)主客觀文本分類(lèi)方法的研究［C］／／第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集，2007.］

［6］GUO Yunlong，PAN Yubin，ZHANG Zeyu，et al.Multipleclassifiers opinion sentence recognition in Chinese micro－blog based on D－S theory ［J］.Computer Engineering，2014，40（4）：159－163 （in Chinese）.［郭云龍，潘玉斌，張澤宇，等.基于證據(jù)理論的多分類(lèi)器中文微博觀點(diǎn)句識(shí)別［J］.計(jì)算機(jī)工程，2014，40 （4）：159－163.］

［7］LI Xiaojun，DAI Lin，SHI Hanxiao，et al.Survey on sentiment orientation analysis of texts［J］.Journal of Zhejiang University （Engineering Science），2011，45 （7）：1165－1173 （in Chinese）.［厲小軍，戴霖，施寒瀟，等.文本傾向性分析綜述［J］. 浙江大學(xué) 學(xué) 報(bào) （工學(xué) 版），2011，45 （7）：1165－1173.］

［8］WANG Wenqi.The subjectivity of connectives of chinese complex sentences［J］.Journal of Shanxi Datong University （Social Science），2012，26 （2）：80－83 （in Chinese）. ［王文琦.復(fù)句中關(guān)聯(lián)詞語(yǔ)的主觀性考察［J］.山西大同大學(xué)學(xué)報(bào) （社會(huì)科學(xué)版），2012，26 （2）：80－83.］

［9］WEI Xiangfeng，ZHANG Quan，MIAO Jianming，et al.Event sentiment analysis based on semantic chunks［J］.Journal of Chinese Information Processing，2012，26 （3）：44－48 （in Chinese）.［韋向峰，張全，繆建明，等.基于語(yǔ)義塊的事件傾向性分析研究［J］.中文信息學(xué)報(bào)，2012，26 （3）：44－48.］

［10］DANG Lei，ZHANG Lei.Method of discriminant for Chinese sentence sentiment orientation based on HowNet［J］.Applica－tion Research of Computers，2010，27 （4）：1370－1372 （in Chinese）.［黨蕾，張蕾.一種基于知網(wǎng)的中文句子情感傾向判別方法［J］.計(jì)算機(jī)應(yīng)用研究，2010，27 （4）：1370－1372.］

［11］SUN Jianwang，LV Xueqiang，ZHANG Leihan.Short text classification based on semantics and maximum matching degree［J］.Computer Engineering and Design，2013，34 （10）：3613－3618 （in Chinese）.［孫建旺，呂學(xué)強(qiáng)，張雷瀚.基于語(yǔ)義與最大匹配度的短文本分類(lèi)研究［J］.計(jì)算機(jī)工程與設(shè)計(jì)，2013，34 （10）：3613－3618.］

［12］Taboada M，Brooke J，Tofiloski M，et al.Lexicon－based methods for sentiment analysis ［J］.Computational linguistics，2011，37 （2）：267－307.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

以主觀線索為特征的主觀性文本識(shí)別

0 引 言

1 相關(guān)知識(shí)

1.1 主客觀文本定義

1.2 文本分類(lèi)過(guò)程

1.3 樸素貝葉斯

2 主觀線索特征

2.1 情感詞

2.2 指示性動(dòng)詞

2.3 感嘆詞

2.4 程度副詞

2.5 帶有情感色彩的標(biāo)點(diǎn)符號(hào)

2.6 關(guān)聯(lián)詞

3 實(shí)驗(yàn)及實(shí)驗(yàn)結(jié)果分析

3.1 實(shí)驗(yàn)語(yǔ)料庫(kù)

3.2 實(shí)驗(yàn)步驟

3.3 實(shí)驗(yàn)結(jié)果分析

4 結(jié)束語(yǔ)

0 引言