亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        以主觀線索為特征的主觀性文本識(shí)別

        2015-12-20 06:51:38劉勇華李?lèi)?ài)萍段利國(guó)王鴻翔
        關(guān)鍵詞:特征文本情感

        劉勇華,李?lèi)?ài)萍,段利國(guó),邸 鵬,王鴻翔

        (太原理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原030024)

        0 引 言

        文本情感分析的前提是對(duì)文本中主觀成分的識(shí)別和提取。例如:在文本情感分析中[1],處理的文本類(lèi)型就是主觀性文本。事先對(duì)文本進(jìn)行主觀性判別是很有必要的,不僅可以有效地減少分析的范圍,還可以提高分析的速度和精確度。主觀文本識(shí)別主要有兩種方法,基于詞典和基于統(tǒng)計(jì)?;谠~典的方法利用事先建立的情感詞典 (可以人工標(biāo)注或是機(jī)器統(tǒng)計(jì)),統(tǒng)計(jì)文本中的詞語(yǔ)是否含有情感,再進(jìn)一步判別文本主客觀性[2],這種方法非常依賴情感詞典。基于統(tǒng)計(jì)的方法利用訓(xùn)練好的數(shù)據(jù)模型,采用機(jī)器學(xué)習(xí)的方法,對(duì)待測(cè)文本進(jìn)行判別[3]。常用的機(jī)器學(xué)習(xí)方法有:樸素貝葉斯 (NB)、支持向量機(jī) (SVM)、決策樹(shù)、K最近鄰、最大熵模型等。這種方法在訓(xùn)練數(shù)據(jù)的標(biāo)注、特征選取、分類(lèi)器的選取等方面具有一定的局限性。目前,學(xué)者們?yōu)榱说玫礁叩臏?zhǔn)確率和更快的分類(lèi)效率,大多數(shù)采用基于詞典和基于統(tǒng)計(jì)相結(jié)合的方法進(jìn)行文本主觀識(shí)別[4-6,9-11]。針 對(duì) 包 含 豐 富 情 感 信 息 的 主 觀 線 索 研 究 還 較 少,比如復(fù)雜句式的關(guān)聯(lián)詞特征研究較為缺乏。因此,本文將關(guān)聯(lián)詞、情感詞以及指示性動(dòng)詞、感嘆詞、程度副詞、帶有情感色彩的標(biāo)點(diǎn)符號(hào)等6種主觀線索成分作為分類(lèi)特征,建立主觀線索特征詞表,用樸素貝葉斯分類(lèi)器對(duì)文本的主客觀性進(jìn)行判別。

        1 相關(guān)知識(shí)

        1.1 主客觀文本定義

        (1)主觀性文本是指作者對(duì)于非事實(shí)的描述的文本,通常帶有一定的個(gè)人情感色彩。主觀性文本主要分為兩類(lèi):評(píng)價(jià)和推測(cè)[4]。

        目前,主客觀文本分類(lèi)方面,主要是針對(duì)評(píng)價(jià)型的文本進(jìn)行研究。例如:“我認(rèn)為iPhone挺好,值得擁有?!?。

        (2)客 觀 性 文 本 定 義 請(qǐng) 參 見(jiàn) 文 獻(xiàn) [5]。例 如:“iPhone4永遠(yuǎn)是一部經(jīng)典,無(wú)法超越?!?。

        中文主觀性文本和客觀性文本之間存在很大的區(qū)別,主觀性文本一般表達(dá)人們的情感、看法或是態(tài)度,表達(dá)的形式也是多樣化,不是規(guī)范型的文本,時(shí)常出現(xiàn)不規(guī)范的詞語(yǔ)和結(jié)構(gòu)等。主觀性文本識(shí)別主要以情感詞為主,利用各種文本特征表示方法和分類(lèi)器 (一般采用樸素貝葉斯分類(lèi)器)進(jìn)行分類(lèi)識(shí)別[7]。

        1.2 文本分類(lèi)過(guò)程

        文本分類(lèi)過(guò)程如圖1所示。

        圖1 文本分類(lèi)過(guò)程

        其中預(yù)處理環(huán)節(jié)包含中文分詞、分句、去停用詞等過(guò)程。特征表示包括特征選擇、特征提取及特征值計(jì)算。

        1.3 樸素貝葉斯

        樸素貝葉斯(Naive Bayes,NB)定義請(qǐng)參見(jiàn)文獻(xiàn)[4]。

        對(duì)需測(cè)試文本D= {T1,T2,…,Tn},由于NB是基于特征相互獨(dú)立的假設(shè)下,判別其屬于主觀、客觀類(lèi)別C={CS,CO},分類(lèi)算法如式 (1)所示

        其中,P(Cj)表示類(lèi)別Cj的先驗(yàn)概率,P(Ti,Cj)表示特征Ti出現(xiàn)在類(lèi)別Cj中的后驗(yàn)概率。

        先驗(yàn)概率P(Cj)的計(jì)算公式如式 (2)所示

        式中:D(Cj)——類(lèi)別Cj中的文本數(shù)。

        后驗(yàn)概率P(Ti,Cj)是特征Ti出現(xiàn)在類(lèi)別Cj中的概率,并且為防止0概率的出現(xiàn)進(jìn)行平滑調(diào)整,計(jì)算公式如式 (3)所示

        其中,P(Ti,Cj)為特征項(xiàng)Ti在類(lèi)別Cj的文本中出現(xiàn)的次數(shù),式 (4)中M 為特征項(xiàng)Ti在所有類(lèi)別的文本中出現(xiàn)的次數(shù)總和。

        2 主觀線索特征

        主觀線索特征包括情感詞、第一或第二人稱(chēng)代詞、不規(guī)范的標(biāo)點(diǎn)符號(hào)、帶有情感色彩的標(biāo)點(diǎn)符號(hào)、感嘆詞、程度副詞、發(fā)表看法或意見(jiàn)的動(dòng)詞 (指示性動(dòng)詞)、不精確的數(shù)字或日期、關(guān)聯(lián)詞等9種特征。本文選取關(guān)聯(lián)詞、情感詞以及與指示性動(dòng)詞、感嘆詞、程度副詞、帶有情感色彩的標(biāo)點(diǎn)符號(hào)等6種主觀線索特征作為主觀性文本識(shí)別依據(jù)。下面具體介紹每種特征以及特征提取算法。

        2.1 情感詞

        具有情感的詞的統(tǒng)稱(chēng)為情感詞,以帶有情感的動(dòng)詞和形容詞居多。當(dāng)人們陳述的句子中出現(xiàn)正、負(fù)面的情感詞語(yǔ)或評(píng)價(jià)詞語(yǔ)時(shí),這個(gè)句子是主觀句的可能性很大。例如:“我喜歡iPhone。”、“iPhone外觀好看?!?。本文所用的情感詞是HowNet情感分析用詞語(yǔ)集中中文正負(fù)面情感詞語(yǔ)和正負(fù)面評(píng)價(jià)詞語(yǔ),其分布情況見(jiàn)表1。

        表1 情感詞分布情況

        算法1:情感詞提取算法

        輸入:給定的文本D

        輸出:情感詞集合q

        步驟1 對(duì)給定的文本分句、分詞并進(jìn)行詞性標(biāo)注處理后得到文本特征詞序列集合

        步驟2 利用HowNet情感分析用詞語(yǔ)集中中文正負(fù)面情感詞語(yǔ)和正負(fù)面評(píng)價(jià)詞語(yǔ)建立情感詞表Q,Q 可用如式(6)表示

        步驟3 利用建立好的情感詞表Q 統(tǒng)計(jì)給定的文本D中的情感詞,得到情感詞集合q

        2.2 指示性動(dòng)詞

        當(dāng)人們對(duì)于某種事物表述自己的觀點(diǎn)或態(tài)度時(shí),往往會(huì)采用一些諸如 “感覺(jué)”、 “認(rèn)為”等一類(lèi)的主張?jiān)~語(yǔ),并且這些主張?jiān)~語(yǔ)往往會(huì)伴隨第一、第二和第三人稱(chēng)代詞一起出現(xiàn),那么這一類(lèi)的句子是主觀句的可能性很大。例如:“我感覺(jué)iPhone真心不錯(cuò),你值得擁有。”。本文使用的指示性動(dòng)詞是HowNet情感分析用詞語(yǔ)集中中文主張?jiān)~語(yǔ),其分布情況見(jiàn)表2。

        表2 指示性動(dòng)詞分布情況

        算法2:指示性動(dòng)詞提取算法輸入:給定的文本D

        輸出:指示性動(dòng)詞集合z

        步驟1 與算法1的步驟1相同;

        步驟2 利用HowNet情感分析用詞語(yǔ)集中中文主張?jiān)~語(yǔ)建立指示性動(dòng)詞表Z,Z 可用如式 (8)表示

        步驟3 利用建立好的指示性動(dòng)詞表Z 統(tǒng)計(jì)給定的文本D 中的指示性動(dòng)詞,得到指示性動(dòng)詞集合z

        2.3 感嘆詞

        感嘆詞是用于表達(dá)各種感情的詞,它與后面句子的其余成分沒(méi)有語(yǔ)法聯(lián)系,并且能更好地幫助人們表達(dá)自身的情感傾向。當(dāng)某個(gè)句子中出現(xiàn) “啊”、“哎呀”、“天呀”等的感嘆詞時(shí),這個(gè)句子很可能是主觀句。例如:“哎呀,我把iPhone落家了?!?。本文通過(guò)對(duì)訓(xùn)練語(yǔ)料中大量主觀性文本的觀察與研究,統(tǒng)計(jì)出適合主觀性文本識(shí)別的感嘆詞,具體分布情況見(jiàn)表3。

        表3 感嘆詞分布情況

        算法3:感嘆詞提取算法

        輸入:給定的文本D

        輸出:感嘆詞集合g

        步驟1 與算法1的步驟1相同;

        步驟2 通過(guò)對(duì)訓(xùn)練語(yǔ)料中大量主觀性文本的觀察與研究,統(tǒng)計(jì)出適合主觀性文本識(shí)別的感嘆詞,建立感嘆詞表G,G 可用如式 (10)表示

        步驟3 利用建立好的感嘆詞表G 統(tǒng)計(jì)給定的文本D中的感嘆詞,得到感嘆詞集合g

        2.4 程度副詞

        通常,人們?yōu)榱嗽鰪?qiáng)自己表達(dá)的情感,往往會(huì)使用一些程度副詞加以修飾。當(dāng)某個(gè)句子中含有如 “非?!?、“很”、“相當(dāng)”等之類(lèi)的程度副詞時(shí),這個(gè)句子是主觀句的可能性很大。例如: “iPhone性能相當(dāng)好,我非常喜歡?!?。本文使用的程度副詞是HowNet情感分析用詞語(yǔ)集中中文程度級(jí)別詞語(yǔ),具體的分布情況見(jiàn)表4。

        表4 程度副詞分布情況

        算法4:程度副詞提取算法

        輸入:給定的文本D

        輸出:程度副詞集合cd

        步驟1 與算法1的步驟1相同

        步驟2 利用HowNet情感分析用詞語(yǔ)集中中文程度級(jí)別詞語(yǔ)建立程度副詞表CD,CD 可用如式 (12)表示

        步驟3 利用建立好的程度副詞表CD 統(tǒng)計(jì)給定的文本D 中的程度副詞,得到程度副詞集合cd

        2.5 帶有情感色彩的標(biāo)點(diǎn)符號(hào)

        句子中問(wèn)號(hào)的出現(xiàn)表示人們?cè)谫|(zhì)疑某事物,帶有不確定性;而感嘆號(hào)的出現(xiàn)則表示人們對(duì)事物吃驚、喜悅、嘆息等的態(tài)度,帶有一定的情感。這兩種標(biāo)點(diǎn)符號(hào)都能表達(dá)人們內(nèi)心的情感。由于這兩者在主觀性文本中出現(xiàn)頻率居多,很少在客觀性文本中出現(xiàn),因此,本文將帶有情感色彩的標(biāo)點(diǎn)符號(hào)作為識(shí)別主觀性文本的一種特征。例如:“iPhone各個(gè)方面都挺好,難道你不想擁有一部嗎?”、“iPhone音質(zhì)真好!”。而在有些句子中經(jīng)常會(huì)出現(xiàn)問(wèn)號(hào)、感嘆號(hào)連用的現(xiàn)象,表達(dá)更為強(qiáng)烈的情感,例如:“iPhone各個(gè)方面都挺好,難道你不想擁有一部嗎???”、“iPhone音質(zhì)真好?。。 ?。本文通過(guò)對(duì)訓(xùn)練語(yǔ)料中大量主觀性文本的觀察與研究,統(tǒng)計(jì)出適合主觀性文本識(shí)別的帶有情感色彩的標(biāo)點(diǎn)符號(hào),具體分布見(jiàn)表5。

        表5 帶有情感色彩的標(biāo)點(diǎn)符號(hào)分布情況

        算法5:帶有情感色彩的標(biāo)點(diǎn)符號(hào)提取算法

        輸入:給定的文本D

        輸出:帶有情感色彩的標(biāo)點(diǎn)符號(hào)集合bd

        步驟1 與算法1的步驟1相同

        步驟2 通過(guò)對(duì)訓(xùn)練語(yǔ)料中大量主觀性文本的觀察與研究,統(tǒng)計(jì)出適合主觀性文本識(shí)別的帶有情感色彩的標(biāo)點(diǎn)符號(hào),建立帶有情感色彩的標(biāo)點(diǎn)符號(hào)表BD,BD 可用如式(14)表示

        步驟3 利用建立好的帶有情感色彩的標(biāo)點(diǎn)符號(hào)表BD統(tǒng)計(jì)給定的文本D 中的帶有情感色彩的標(biāo)點(diǎn)符號(hào),得到帶有情感色彩的標(biāo)點(diǎn)符號(hào)集合bd

        2.6 關(guān)聯(lián)詞

        復(fù)句、分句的定義請(qǐng)參見(jiàn)文獻(xiàn) [8]。本文研究的是以關(guān)聯(lián)詞所表示的復(fù)句類(lèi)型,關(guān)聯(lián)詞表達(dá)人的邏輯認(rèn)知,具有一定的主觀性。人們對(duì)于客觀事實(shí)根據(jù)自己所要表達(dá)的意思來(lái)選擇用或不用關(guān)聯(lián)詞、用哪一種關(guān)聯(lián)詞,這種選擇性表達(dá)就是一種主觀性。

        本文從以下兩個(gè)方面來(lái)分析關(guān)聯(lián)詞語(yǔ)的主觀性:

        (1)文章中關(guān)聯(lián)詞的使用率:本文選擇中國(guó)經(jīng)濟(jì)網(wǎng)的時(shí)政新聞 《外交部:越南沖擊我警戒區(qū)及船只1416艘次》、九九文章網(wǎng)的影評(píng)書(shū)評(píng) 《〈水煮三國(guó)〉讀后感》兩篇文章為代表分析關(guān)聯(lián)詞的主觀性。通過(guò)對(duì)文章中的句子總數(shù)、復(fù)句數(shù)、關(guān)聯(lián)詞組數(shù)進(jìn)行統(tǒng)計(jì),分析關(guān)聯(lián)詞對(duì)主觀句的影響,結(jié)果見(jiàn)表6。

        由表6的統(tǒng)計(jì)結(jié)果可知,在新聞體裁的文章中復(fù)句的使用率很高,而關(guān)聯(lián)詞的使用率較低;在書(shū)評(píng)體裁的文章中,復(fù)句的使用率相對(duì)比較低,而關(guān)聯(lián)詞的使用率卻很高。新聞體裁的文章講述的是客觀事實(shí),一般比較客觀;書(shū)評(píng)體裁的文章是評(píng)價(jià)型的文章,一般帶有作者的觀點(diǎn)、態(tài)度或是意見(jiàn),主觀性比較強(qiáng)。從上述兩種體裁關(guān)聯(lián)詞的使用來(lái)看,比較客觀的文體關(guān)聯(lián)詞的使用率低,主觀性強(qiáng)的文本關(guān)聯(lián)詞的使用率較高。由此可得,關(guān)聯(lián)詞對(duì)主觀性的表達(dá)具有一定的影響。

        表6 兩文章中復(fù)句和關(guān)聯(lián)詞組使用比例

        (2)對(duì)同一客觀事實(shí)使用不同的關(guān)聯(lián)詞:對(duì)于同一個(gè)客觀事實(shí),表達(dá)的方式可以使用單句,還可以使用復(fù)句,其中復(fù)句可以是關(guān)聯(lián)詞的復(fù)句,也可以不使用關(guān)聯(lián)詞。對(duì)于同一個(gè)客觀事實(shí),想要表達(dá)不同的主觀認(rèn)知,就會(huì)使用不同的關(guān)聯(lián)詞。比如對(duì)于客觀事實(shí) “天陰了,要下雨”,沒(méi)有關(guān)聯(lián)詞的連接就是一個(gè)表達(dá)客觀事實(shí)的復(fù)句,而使用不同的關(guān)聯(lián)詞將其連接就構(gòu)成了不同類(lèi)型的復(fù)句:

        因?yàn)樘礻幜?,所以要下雨?/p>

        不僅天陰了,而且要下雨。

        只有天陰了,才要下雨。

        如果天陰了,就要下雨。

        上述例句涉及4 種類(lèi)型的復(fù)句,分別是因果、遞進(jìn)、條件、假設(shè)關(guān)系的復(fù)句。利用關(guān)聯(lián)詞,可以使分句間的意義關(guān)系明確地表達(dá)出來(lái)。換句話說(shuō),句子中本來(lái)就包含分句間的意義關(guān)系,而使用關(guān)聯(lián)詞之后使分句間的邏輯關(guān)系更加凸顯出來(lái)。對(duì)于同一客觀事實(shí)來(lái)說(shuō),理論上只存在一種意義關(guān)系,在使用不同的關(guān)聯(lián)詞連接后卻表達(dá)了不同的意義。由此可以說(shuō)明關(guān)聯(lián)詞帶有一定的主觀性。

        綜上所述,關(guān)聯(lián)詞的使用一般會(huì)帶有使用者的主觀邏輯認(rèn)知,對(duì)主觀句的識(shí)別具有一定的作用。本文通過(guò)對(duì)訓(xùn)練語(yǔ)料中大量主觀性文本的觀察與研究,統(tǒng)計(jì)出適合主觀性文本識(shí)別的關(guān)聯(lián)詞。一般來(lái)說(shuō),文本中的關(guān)聯(lián)詞都是成對(duì)出現(xiàn),常用的關(guān)聯(lián)詞分布情況見(jiàn)表7。

        算法6:關(guān)聯(lián)詞提取算法

        輸入:給定的文本D

        輸出:關(guān)聯(lián)詞集合gl

        步驟1 與算法1的步驟1相同

        步驟2 通過(guò)對(duì)訓(xùn)練語(yǔ)料中大量主觀性文本的觀察與研究,統(tǒng)計(jì)出適合主觀性文本識(shí)別的關(guān)聯(lián)詞,建立關(guān)聯(lián)詞表GL,GL 可用如式 (16)表示

        步驟3 利用建立好的關(guān)聯(lián)詞表GL 統(tǒng)計(jì)給定的文本D中的關(guān)聯(lián)詞,得到關(guān)聯(lián)詞集合gl

        表7 常用關(guān)聯(lián)詞分布情況

        上述論述特征對(duì)主觀句具有一定的識(shí)別作用,本文利用這6種特征建立一個(gè)主觀線索特征詞表ZG,如式 (18)所示,將主觀線索特征詞表ZG 中包含的各個(gè)特征作為識(shí)別主觀性文本的特征,再利用樸素貝葉斯分類(lèi)器進(jìn)行主觀性文本識(shí)別

        3 實(shí)驗(yàn)及實(shí)驗(yàn)結(jié)果分析

        3.1 實(shí)驗(yàn)語(yǔ)料庫(kù)

        本文實(shí)驗(yàn)數(shù)據(jù)采用了2008年中文傾向性分析評(píng)測(cè)提供的 中 文 語(yǔ) 料 集COAE2008。COAE2008 (Chinese opinion analysis evaluation,COAE2008)語(yǔ)料集是第一屆中文傾向性分析評(píng)測(cè)的訓(xùn)練語(yǔ)料,由中科院計(jì)算所和洛陽(yáng)外國(guó)語(yǔ)學(xué)院共同整理和標(biāo)注完成,近40000 篇文本,其中具有觀點(diǎn)傾向性文本數(shù)量超過(guò)4000 篇,語(yǔ)料涉及的領(lǐng)域有影視娛樂(lè)、財(cái)經(jīng)、教育、房產(chǎn)、電腦、手機(jī)等領(lǐng)域的網(wǎng)頁(yè),提取后整理成txt純文本形式,文章從幾個(gè)句子到上百個(gè)句子不等。

        本文利用主觀線索特征詞表中包含的各個(gè)特征作為主觀文本識(shí)別特征,通過(guò)人工標(biāo)注篩選的方法,從COAE2008語(yǔ)料集中選取主觀性和客觀性明確的文本各500個(gè),其中300個(gè)主觀文本和300個(gè)客觀文本作為訓(xùn)練數(shù)據(jù),另外的200個(gè)主觀文本和200 個(gè)客觀文本作為測(cè)試數(shù)據(jù)。表8為訓(xùn)練和測(cè)試數(shù)據(jù)的分布情況。

        表8 訓(xùn)練和測(cè)試數(shù)據(jù)分布情況

        3.2 實(shí)驗(yàn)步驟

        (1)數(shù)據(jù)預(yù)處理:本文利用哈工大社會(huì)計(jì)算與信息檢索研究中心編制的語(yǔ)言技術(shù)平臺(tái) (LTP)分句工具對(duì)數(shù)據(jù)進(jìn)行分句,中科院計(jì)算機(jī)所編制的中文分詞 (ICTCLAS)工具對(duì)數(shù)據(jù)進(jìn)行分詞,再借助停用詞表去停用詞。

        (2)特征表示:特征表示包括特征選擇、提取及其值的計(jì)算,常用的特征提取算法有信息增益、文檔頻率、CHI統(tǒng)計(jì)、相對(duì)熵和互信息等。本文利用文檔頻率的方法對(duì)主觀性文本進(jìn)行特征提取,將文本向量化表示,具體步驟如下:

        步驟1 對(duì)給定的文本分句、分詞并進(jìn)行詞性標(biāo)注處理后,得到文本特征詞序列集合,形式如式 (19)所示

        其中,Ti為特征詞,posi為特征詞的詞性。

        步驟2 利用主觀線索詞表ZG 統(tǒng)計(jì)文本中各個(gè)特征出現(xiàn)的次數(shù),得到主管線索特征集合X

        其中,i=1,2,…,n,Ai,Bi,Ei,Ki,Mi,Yi分別表示特征qi,zi,gi,cdi,bdi,gli出現(xiàn)的次數(shù)。

        步驟3 利用文檔頻率的方法分別計(jì)算P(qi),P(zi),P(gi),P(cdi),P(bdi),P(gli)計(jì)算公式如式 (21)所示

        其中,N 為文本中所有特征數(shù)總和,由于P(qi),P(zi),P(gi),P(cdi),P(bdi),P(gli)計(jì)算方法一樣,計(jì)算時(shí)只需將式 (21)的分子替換成其它主觀線索特征出現(xiàn)的次數(shù)。步驟4 將文本向量化表示成式 (22)所示的形式

        (3)訓(xùn)練分類(lèi)器:利用向量化的訓(xùn)練數(shù)據(jù)訓(xùn)練樸素貝葉斯分類(lèi)器,生成分類(lèi)模型。

        (4)測(cè)試數(shù)據(jù):利用上述分類(lèi)模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類(lèi)。

        3.3 實(shí)驗(yàn)結(jié)果分析

        實(shí)驗(yàn)環(huán)境是使用MyEclipse 8.5進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)時(shí)所用的機(jī)器型號(hào)是聯(lián)想Y480,機(jī)器的主要配置為intel酷睿i5 3210 M 處理器,4G 內(nèi)存,2.5GHz主頻。實(shí)驗(yàn)所采用的評(píng)價(jià)指標(biāo)是準(zhǔn)確率P

        式中:Tr(Cj)——分類(lèi)正確的文本數(shù),N(Cj)——屬于類(lèi)別Cj的文本數(shù)。

        本文總共做了3組實(shí)驗(yàn),分別為采用傳統(tǒng)樸素貝葉斯進(jìn)行實(shí)驗(yàn)、用樸素貝葉斯+主觀線索 (不含關(guān)聯(lián)詞)進(jìn)行實(shí)驗(yàn)、本文提出的方法進(jìn)行實(shí)驗(yàn)。表9 為3 組實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果。

        表9 實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果

        最后,本文對(duì)3組實(shí)驗(yàn)進(jìn)行對(duì)比,得出3組實(shí)驗(yàn)對(duì)比結(jié)果見(jiàn)表10。

        表10 3組實(shí)驗(yàn)對(duì)比結(jié)果

        由表10的3組實(shí)驗(yàn)對(duì)比結(jié)果可以看出,主觀線索特征的加入對(duì)分類(lèi)性能有一定的提升,而含有關(guān)聯(lián)詞的主觀線索特征的加入對(duì)分類(lèi)性能的提升更加明顯。實(shí)驗(yàn)表明,主觀線索對(duì)主觀性文本識(shí)別有一定的幫助,含有關(guān)聯(lián)詞的主觀線索特征比不含有關(guān)聯(lián)詞的主觀線索特征識(shí)別性能要好些。

        4 結(jié)束語(yǔ)

        本文分析了關(guān)聯(lián)詞對(duì)主觀性文本識(shí)別的作用,并將關(guān)聯(lián)詞加入到主觀線索特征中,作為主觀性文本識(shí)別的特征。實(shí)驗(yàn)結(jié)果表明,主觀線索對(duì)主觀性文本識(shí)別有一定的幫助,含有關(guān)聯(lián)詞的主觀線索特征比不含有關(guān)聯(lián)詞的主觀線索特征分類(lèi)性能要好些。本文主要針對(duì)主觀性文本識(shí)別進(jìn)行研究,對(duì)如何準(zhǔn)確有效識(shí)別出主觀性文本進(jìn)行分析,提出關(guān)聯(lián)詞、情感詞以及與指示性動(dòng)詞、感嘆詞、程度副詞、帶有情感色彩的標(biāo)點(diǎn)符號(hào)等6種主觀線索成分作為主觀性文本識(shí)別依據(jù),建立主觀線索特征詞表,用樸素貝葉斯分類(lèi)器對(duì)主觀性文本進(jìn)行識(shí)別,為解決主觀性文本識(shí)別提供可行的方法。

        今后的研究工作從兩個(gè)方面展開(kāi):①提高分詞和分句的準(zhǔn)確率,現(xiàn)有的分詞和分句工具準(zhǔn)確率不高,這對(duì)主觀線索的判別有很大影響。②繼續(xù)探討其它的可以作為主觀性文本識(shí)別的主觀線索特征。

        [1]ZHAO Yanyan,QIN Bing,LIU Ting.Sentiment analysis[J].Journal of Software,2010,21 (8):1834-1848 (in Chinese). [趙妍妍,秦兵,劉挺.文本情感分析 [J].軟件學(xué)報(bào),2010,21 (8):1834-1848.]

        [2]YANG Jiang,HOU Min,WANG Ning.Sentiment polarity analysis of reviews based on shallow text structure[J].Journal of Chinese Information Processing,2011,25 (2):83-88 (in Chinese).[楊江,侯敏,王寧.基于淺層篇章結(jié)構(gòu)的評(píng)論文傾向性分析 [J].中文信息學(xué)報(bào),2011,25 (2):83-88.]

        [3]LIAO Xiangwen,LI Yihong.Identification of chinese opinion sentences based on n-gram hyperkernel function [J].Journal of Chinese Information Processing,2011,25 (5):89-93 (in Chinese).[廖祥文,李藝紅.基于N-gram 超核的中文傾向性句子識(shí)別 [J].中文信息學(xué)報(bào),2011,25 (5):89-93.]

        [4]YANG Wu,SONG Jingjing,TANG Jiqiang.A study on the classification approach for Chinese MicroBlog subjective and objective sentences [J].Journal of Chongqing University of Technology (Natural Science),2013,27 (1):51-56 (in Chinese).[楊武,宋靜靜,唐繼強(qiáng).中文微博情感分析中主客觀句分類(lèi)方法 [J].重慶理工大學(xué)學(xué)報(bào) (自然科學(xué)),2013,27(1):51-56.]

        [5]YAO Tianfang,PENG Siwei.A study of the classification approach for Chinese subjective and objective texts [C]//The Third National Information Retrieval and Content Security Conference Proceedings,2007 (in Chinese). [姚天昉,彭思崴.漢語(yǔ)主客觀文本分類(lèi)方法的研究 [C]//第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集,2007.]

        [6]GUO Yunlong,PAN Yubin,ZHANG Zeyu,et al.Multipleclassifiers opinion sentence recognition in Chinese micro-blog based on D-S theory [J].Computer Engineering,2014,40(4):159-163 (in Chinese).[郭云龍,潘玉斌,張澤宇,等.基于證據(jù)理論的多分類(lèi)器中文微博觀點(diǎn)句識(shí)別 [J].計(jì)算機(jī)工程,2014,40 (4):159-163.]

        [7]LI Xiaojun,DAI Lin,SHI Hanxiao,et al.Survey on sentiment orientation analysis of texts[J].Journal of Zhejiang University (Engineering Science),2011,45 (7):1165-1173 (in Chinese).[厲小軍,戴霖,施寒瀟,等.文本傾向性分析綜述 [J]. 浙 江 大 學(xué) 學(xué) 報(bào) (工 學(xué) 版),2011,45 (7):1165-1173.]

        [8]WANG Wenqi.The subjectivity of connectives of chinese complex sentences[J].Journal of Shanxi Datong University (Social Science),2012,26 (2):80-83 (in Chinese). [王文琦.復(fù)句中關(guān)聯(lián)詞語(yǔ)的主觀性考察 [J].山西大同大學(xué)學(xué)報(bào) (社會(huì)科學(xué)版),2012,26 (2):80-83.]

        [9]WEI Xiangfeng,ZHANG Quan,MIAO Jianming,et al.Event sentiment analysis based on semantic chunks[J].Journal of Chinese Information Processing,2012,26 (3):44-48 (in Chinese).[韋向峰,張全,繆建明,等.基于語(yǔ)義塊的事件傾向性分析研究[J].中文信息學(xué)報(bào),2012,26 (3):44-48.]

        [10]DANG Lei,ZHANG Lei.Method of discriminant for Chinese sentence sentiment orientation based on HowNet[J].Applica-tion Research of Computers,2010,27 (4):1370-1372 (in Chinese).[黨蕾,張蕾.一種基于知網(wǎng)的中文句子情感傾向判別方法[J].計(jì)算機(jī)應(yīng)用研究,2010,27 (4):1370-1372.]

        [11]SUN Jianwang,LV Xueqiang,ZHANG Leihan.Short text classification based on semantics and maximum matching degree[J].Computer Engineering and Design,2013,34 (10):3613-3618 (in Chinese).[孫建旺,呂學(xué)強(qiáng),張雷瀚.基于語(yǔ)義與最大匹配度的短文本分類(lèi)研究 [J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34 (10):3613-3618.]

        [12]Taboada M,Brooke J,Tofiloski M,et al.Lexicon-based methods for sentiment analysis [J].Computational linguistics,2011,37 (2):267-307.

        猜你喜歡
        特征文本情感
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        如何表達(dá)“特征”
        情感
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        一区二区三区乱码在线 | 欧洲 | 青春草国产视频| 国产精品一区二区三区蜜臀| 色se在线中文字幕视频| 美女被内射中出在线观看| 中文字幕日韩有码在线| 全免费a级毛片免费看无码| 国产精品夜间视频香蕉| 久久久久久久98亚洲精品| 无码中文字幕专区一二三| av人妻在线一区二区三区| 免费人成视网站在线剧情| 国产成+人欧美+综合在线观看 | 国产精品亚洲国产| 二区三区视频在线观看| 亚洲中文中文字幕乱码| 国产熟妇与子伦hd| 人妻少妇精品视频无码专区| 后入内射欧美99二区视频| 亚洲AV无码资源在线观看| 一二区视频免费在线观看| 天堂视频在线观看一二区| 国产精品vⅰdeoxxxx国产 | 日本精品久久久久中文字幕| 中文字幕在线精品视频入口一区 | 日本伦理视频一区二区| 日本真人添下面视频免费| 国外亚洲成av人片在线观看| 久热爱精品视频在线观看久爱 | 国产精品久久久久久久久免费观看 | 69久久夜色精品国产69| 中文字幕一区二区人妻出轨| 日韩国产一区二区三区在线观看| 亚洲视频免费一区二区| 特黄特色的大片观看免费视频| 内射交换多p国产| 国产自产av一区二区三区性色| 东京热东京道日韩av| 麻豆视频在线播放观看| 大桥未久亚洲无av码在线| 自拍亚洲一区欧美另类|