亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖排序的詞匯情感消歧研究

        2014-02-28 00:45:06張紹武林鴻飛宋艷雪
        中文信息學(xué)報(bào) 2014年6期
        關(guān)鍵詞:消歧傾向性詞義

        楊 亮,張紹武,林鴻飛,宋艷雪

        (大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

        1 引言

        文本情感傾向性分析逐漸成為一個(gè)研究熱點(diǎn)[1-2],詞語(yǔ)級(jí)傾向性分析是文本情感分析的基礎(chǔ)。但是,同一個(gè)詞語(yǔ)在不同的語(yǔ)境下可能表達(dá)出不同的情感傾向性。例如下面兩個(gè)句子。

        (1) 這種幼稚的做法最終會(huì)讓你后悔莫及。

        (2) 我那幼稚的弟弟今年才兩歲就已經(jīng)能數(shù)到一百了。

        在《現(xiàn)代漢語(yǔ)詞典》中,“幼稚”有兩個(gè)詞義: (1)年紀(jì)??; (2)形容頭腦簡(jiǎn)單或缺乏經(jīng)驗(yàn)。生活中,詞義(1)經(jīng)常被用來(lái)形容小朋友在思想上的天真無(wú)邪,純真可愛(ài);詞義(2)則常常會(huì)被人們用來(lái)形容成人思想不成熟,眼界狹隘,目光短淺,看問(wèn)題難以洞悉實(shí)質(zhì)。由上述例句可以看出,在不同的語(yǔ)境中,“幼稚”表達(dá)了不同的詞義及情感傾向性: 在句(1)中的“幼稚”表達(dá)的詞義是負(fù)向的情感傾向性,而在句(2)中表達(dá)的詞義卻是正向的情感傾向性。由上可見(jiàn),單純通過(guò)情感詞典判斷類似“幼稚”這樣的含有多詞義且多情感傾向性的詞語(yǔ)有一定局限性,因此需要結(jié)合其所處的上下文環(huán)境進(jìn)行詞義及傾向性的判斷。

        目前在詞義消歧上,國(guó)內(nèi)外已有不少成熟的方法。其中,何徑舟等[3]在分析了特征模板對(duì)消歧結(jié)果影響的基礎(chǔ)上,提出一套基于最大熵分類模型的自動(dòng)特征選擇方法來(lái)實(shí)現(xiàn)詞義消歧。張仰森等[4]針對(duì)最大熵原理只能利用上下文中的顯性統(tǒng)計(jì)特征構(gòu)建語(yǔ)言模型的缺點(diǎn),提出了隱最大熵原理構(gòu)建詞義消歧模型;通過(guò)構(gòu)建面向詞義消歧的條件隨機(jī)場(chǎng)模型庫(kù),車玲等[5]通過(guò)實(shí)驗(yàn)證明,低頻義項(xiàng)可以取得較好的消歧效果。與此同時(shí),Mihalcea[6]提出了基于Wikipedia進(jìn)行詞義消歧的方法。Navigli等[7]提出了一種多語(yǔ)聯(lián)合詞義消歧方法。該方法通過(guò)利用多語(yǔ)知識(shí)庫(kù)和不同語(yǔ)言的譯文作為補(bǔ)充,進(jìn)行了基于圖的詞義消歧。另外,通過(guò)從 Web上自動(dòng)地抽取不同領(lǐng)域的術(shù)語(yǔ)并將這些術(shù)語(yǔ)作為語(yǔ)義知識(shí),Stefano[8]提出了一種無(wú)監(jiān)督的領(lǐng)域詞義消歧方法。然而,目前鮮有研究者從情感傾向性角度進(jìn)行詞義消歧。以情感消歧為出發(fā)點(diǎn),陳建美等[9]通過(guò)貝葉斯方法取得了較好的效果。然而有指導(dǎo)的監(jiān)督學(xué)習(xí)方法跨領(lǐng)域性適用性差,針對(duì)不同領(lǐng)域需要重新標(biāo)注部分信息,因此需要耗費(fèi)大量的人力物力,鑒于此,本文提出了基于圖排序的無(wú)監(jiān)督詞匯情感消歧算法,以此解決上述類似問(wèn)題。

        本文在解決詞匯情感消歧時(shí),充分考慮情感詞所處的上下文語(yǔ)境。在對(duì)語(yǔ)料進(jìn)行預(yù)處理后,利用《現(xiàn)代漢語(yǔ)詞典》構(gòu)建詞義關(guān)系圖,并通過(guò)PageRank算法進(jìn)行迭代計(jì)算直至其收斂。然后,選取多情感詞所含詞義中具有最大權(quán)值的詞義作為該情感詞的最終詞義,從而實(shí)現(xiàn)詞匯的情感消歧。最后,在新浪微博數(shù)據(jù)集和大連理工大學(xué)信息檢索實(shí)驗(yàn)室情感語(yǔ)料庫(kù)[10](下文簡(jiǎn)稱情感語(yǔ)料庫(kù))兩個(gè)語(yǔ)料集上驗(yàn)證了本文方法的有效性。

        2 理論基礎(chǔ)

        2.1 情感詞匯本體

        本文使用的情感詞典資源為大連理工大學(xué)信息檢索實(shí)驗(yàn)室的情感詞匯本體[11](下文簡(jiǎn)稱情感詞匯本體),該情感詞匯本體將情感分為7大類20小類,目前收錄情感詞17 000余條。對(duì)于每個(gè)情感詞,通過(guò)一個(gè)三元組來(lái)描述,如式(1)所示。

        Lexicon=(B, R, E)

        (1)

        其中B表示詞匯的基本信息,主要包括編號(hào)、詞條、對(duì)應(yīng)英文、詞性等信息。R代表詞匯之間的同義關(guān)系,即表示該詞匯與哪些詞匯有同義的關(guān)系。E代表詞匯的情感信息,包括情感類別、情感強(qiáng)度、情感極性,是情感詞匯描述框架中比較重要的一部分。圖1表示“美麗”一詞在情感詞匯本體中的存儲(chǔ)狀態(tài)以及各個(gè)變量所存儲(chǔ)的值。其中表示“美麗”的編號(hào),表示本詞條所存儲(chǔ)的詞匯,表示詞性,表示英文表達(dá)方式,域表示該詞包含的大類情感,其中的“PA”、“PH”、“PB”分別代表大類情感中的“快樂(lè)”、“贊揚(yáng)”、“喜歡”。域采用20維向量形式表示,每一維代表20小類相應(yīng)情感的強(qiáng)度。其中0表示不含該類情感,強(qiáng)度1、3、5、7、9表示強(qiáng)度由小到大。表明詞匯極性,兼有褒義、貶義、中性、褒貶4類。表明詞匯包含的主要情感是消極、積極還是中性。

        圖1 情感本體存儲(chǔ)示例

        由于大量網(wǎng)絡(luò)流行用語(yǔ)經(jīng)常出現(xiàn)在社交媒體的文本中,而且常常帶有明顯的情感傾向性。為了使情感詞典涵蓋范圍更廣,本文在情感詞匯本體的基礎(chǔ)上整合了如“給力”、“頂”等當(dāng)前網(wǎng)絡(luò)流行詞匯,其主要來(lái)自中文傾向性評(píng)測(cè)任務(wù),共153個(gè)網(wǎng)絡(luò)常用流行詞匯,以此輔助本文情感消歧任務(wù)。

        2.2 PageRank算法

        PageRank[12]用于衡量特定網(wǎng)頁(yè)相對(duì)于搜索引擎索引中其他網(wǎng)頁(yè)的重要程度。它充分利用了互聯(lián)網(wǎng)資源中浩瀚復(fù)雜的鏈接結(jié)構(gòu)。一個(gè)頁(yè)面的“得票數(shù)”,即重要性,由所有鏈向它的頁(yè)面的重要性來(lái)決定。所以,到一個(gè)頁(yè)面的超鏈接相當(dāng)于對(duì)該頁(yè)面的投票。一個(gè)頁(yè)面的PageRank值是由所有鏈向它的頁(yè)面(“鏈入頁(yè)面”)的重要性經(jīng)過(guò)遞歸計(jì)算得到的。一個(gè)有較多鏈入的頁(yè)面會(huì)有較高的等級(jí),相反,如果一個(gè)頁(yè)面沒(méi)有任何鏈入頁(yè)面,那么它沒(méi)有等級(jí)。PageRank算法目前已經(jīng)被廣泛地應(yīng)用到了網(wǎng)頁(yè)鏈接分析、社交網(wǎng)絡(luò)、引文分析等領(lǐng)域中。它通過(guò)式(2)計(jì)算每個(gè)網(wǎng)頁(yè)的PageRank值,其中c設(shè)定為0.85[15]。

        (2)

        PageRank之所以成功,歸咎于它考慮到了以下三個(gè)要點(diǎn): 首先,Web頁(yè)反向鏈接的數(shù)目,即該Web頁(yè)受歡迎的程度;其次,Web頁(yè)反向鏈接是否來(lái)源于權(quán)威性網(wǎng)頁(yè),即要考慮反向鏈接網(wǎng)頁(yè)的重要性;最后,Web頁(yè)反向鏈接頁(yè)面的鏈接數(shù),即要考慮該Web頁(yè)被選中的概率。

        3 基于圖排序的詞匯情感消歧模型

        3.1 多情感詞匯的獲取

        多情感詞匯是指具有不同情感傾向性的詞匯,其表達(dá)的情感傾向性依賴于所處的語(yǔ)境,如“驕傲”一詞在下面兩個(gè)句子中所要表達(dá)的情感傾向性。

        a. 莉莉考上了名牌大學(xué),爸爸媽媽都感到非常的驕傲。

        b. 公主般的莉莉總是那么驕傲,從來(lái)不把別人放在眼里。

        在《現(xiàn)代漢語(yǔ)詞典》中,“驕傲”有3個(gè)詞義: (1)自以為了不起,看不起別人; (2)自豪; (3)值得自豪的人或事物。顯然,在句a中“驕傲”表達(dá)的是詞義(2)。而在句b中,其所要表達(dá)的卻是“自以為了不起,看不起別人”的意思,即詞義(1)。從情感傾向性來(lái)看,“驕傲”一詞在句a中表達(dá)的是正向情感傾向性,而在句b中表達(dá)的是負(fù)向情感傾向性。類似于“驕傲”這樣在不同語(yǔ)境中表達(dá)不同情感色彩的詞匯,本文稱之為多情感詞。一個(gè)詞匯有多種情感的問(wèn)題可以看作是詞匯多義問(wèn)題造成的。那么解決詞匯情感消歧問(wèn)題相對(duì)應(yīng)的看作解決詞義消歧問(wèn)題的延續(xù),因而它們之間存在共性。多情感詞匯的挖掘和其情感的確定可以依賴詞義消歧方法,但是二者之間又有所差異,需要根據(jù)多情感詞匯本身的特性進(jìn)行相應(yīng)改進(jìn)及處理。

        多義詞的確定可以根據(jù)《現(xiàn)代漢語(yǔ)多義詞詞典》、《常用多義詞詞典》等詞典實(shí)現(xiàn)。然而,目前沒(méi)有權(quán)威的準(zhǔn)則或詞典來(lái)確認(rèn)一個(gè)情感詞是否為多情感詞匯,更不可能確定多情感詞匯到底包含哪幾種情感。因此,為從情感詞匯本體中挖掘出多情感詞匯,本文提出了機(jī)器過(guò)濾與人工校對(duì)相結(jié)合的方法,具體過(guò)程如下所述。

        (1) 機(jī)器過(guò)濾

        該階段主要通過(guò)兩層過(guò)濾手段實(shí)現(xiàn)。根據(jù)語(yǔ)言習(xí)慣及觀察實(shí)驗(yàn)語(yǔ)料,本文發(fā)現(xiàn)一個(gè)能表達(dá)多種情感的詞也往往含有多個(gè)詞義,且每個(gè)詞義可能表現(xiàn)出不同的情感,故多情感詞匯很可能是多義詞。為了挖掘多情感詞,首先要篩選出多義詞。為此,本文通過(guò)參照《同義詞詞林》[13]篩選出包含在情感詞匯本體中且存在多個(gè)詞義的詞匯,將其作為候選。在《同義詞詞林》中,如果一個(gè)詞存在于多個(gè)組中,本文認(rèn)為此類詞是多義詞,例如,“驕傲”在《同義詞詞林》中存在于下面的兩個(gè)組中(圖2)。

        圖2 多義詞示例

        依據(jù)上述分析,第一層過(guò)濾首先提取在《同義詞詞林》中有兩個(gè)及以上詞義且被情感詞匯本體收錄的詞匯,如“驕傲”等。經(jīng)統(tǒng)計(jì),首次過(guò)濾出來(lái)的詞集合M包含901個(gè)詞匯。

        第二層過(guò)濾是通過(guò)情感詞匯本體描述框架中的20維向量進(jìn)行的。這20維向量代表該情感詞在20小類情感上的相應(yīng)情感強(qiáng)度。集合M中的詞匯,并不一定都是多情感詞匯。所以,對(duì)于集合M中的每個(gè)詞匯,若其在向量上只有一個(gè)分量大于0,則表明其只有一種情感,故不屬于多情感詞,應(yīng)過(guò)濾掉。若在情感詞匯本體描述框架中在向量上含有兩個(gè)及兩個(gè)以上分量大于0的,類似“驕傲”一詞的向量形式為: ,這表明“驕傲”分別有“快樂(lè)”、“贊揚(yáng)”和“貶責(zé)”三種情感,即表明“驕傲”為多情感詞匯,應(yīng)該保留下來(lái)。本文將第二次過(guò)濾后保留下來(lái)的詞匯集合表示為N。

        (2) 人工校對(duì)

        為進(jìn)一步保證多情感詞匯的選取質(zhì)量,本文接下來(lái)進(jìn)行人工校對(duì)。對(duì)于詞匯集合N,我們根據(jù)《現(xiàn)代漢語(yǔ)詞典》提取出精準(zhǔn)的多情感詞匯。為避免個(gè)人主觀性影響,校驗(yàn)過(guò)程中,本文采取3人獨(dú)立校驗(yàn),然后取3人校驗(yàn)結(jié)果的交集部分,最后得到確定多情感詞236個(gè)。

        3.2 基于 PageRank排序的詞匯情感消歧

        針對(duì)消歧原理,本文對(duì)PageRank進(jìn)行改進(jìn),并將其應(yīng)用在詞語(yǔ)情感消歧問(wèn)題中。下面是一個(gè)PageRank的計(jì)算例子。圖3表示的是一個(gè)web頁(yè)面的鏈接結(jié)構(gòu)圖。其中節(jié)點(diǎn)A、B、C代表3個(gè)Web頁(yè)面,有向邊代表頁(yè)面的鏈接結(jié)構(gòu)。PR(A)、PR(B)、PR(C)分別表示節(jié)點(diǎn)A、B、C的PageRank值,在圖3的右側(cè)定義了各個(gè)節(jié)點(diǎn)PageRank值的計(jì)算公式。圖3下方給出了各個(gè)節(jié)點(diǎn)前三次迭代值和最終迭代值的詳細(xì)計(jì)算過(guò)程。

        圖3 網(wǎng)頁(yè)鏈接示例

        第一次: PR(C)=0.33/2+0.33=0.5

        PR(A)=0.33 PR(B)=0.17

        第二次: PR(C)=0.33/2+0.17=0.33

        PR(A)=0.5 PR(B)=0.17

        第三次: PR(C)=0.42

        PR(A)=0.33 PR(B)=0.25

        最終值: PR(C)=0.4

        PR(A)=0.4 PR(B)=0.2

        由上述例子可以看出,迭代結(jié)束后,圖中每個(gè)頂點(diǎn)的PageRank值代表了該頂點(diǎn)在圖中的重要程度,即在隨機(jī)游走過(guò)程中找到該頂點(diǎn)的可能性。PageRank算法的“投票”思想同樣適用于詞匯的情感消歧。本文將詞匯的多個(gè)詞義視為圖上的節(jié)點(diǎn),鏈接到某一個(gè)詞義頂點(diǎn)的鏈接數(shù)目越多說(shuō)明該頂點(diǎn)與上下文語(yǔ)境的相關(guān)性越大,即該詞義越有可能是符合該語(yǔ)境下的詞義。在進(jìn)行情感消歧時(shí),本模型通過(guò)在詞義關(guān)系圖上游走,最終的穩(wěn)定分布概率值可以被用來(lái)決定所給定序列最可能的詞義集合。

        此部分將介紹關(guān)系圖的構(gòu)造。對(duì)于一個(gè)給定的詞序列W={w1,w2,…,wn},《現(xiàn)代漢語(yǔ)詞典》中,每一個(gè)詞wi的詞義表示為式(3)。

        (3)

        其中m表示詞wi的詞義數(shù)。n表示詞序列W中詞語(yǔ)的個(gè)數(shù)。

        (4)

        (5)

        在詞義關(guān)系圖中,詞義與詞義間的依賴關(guān)系可通過(guò)有向邊權(quán)重的大小表示。通過(guò)權(quán)重大小來(lái)衡量依賴關(guān)系的強(qiáng)弱,當(dāng)邊的權(quán)重為0時(shí)表示兩個(gè)詞義之間沒(méi)有依賴關(guān)系。圖4展示了4個(gè)序列詞構(gòu)成的詞義關(guān)系圖,表示了4個(gè)詞序列詞義間的依賴關(guān)系。對(duì)于一個(gè)給定的詞義關(guān)系圖,可以通過(guò)圖排序算法得到每個(gè)詞中各個(gè)詞義被選中的權(quán)值。即在詞義關(guān)系圖上隨機(jī)游走后得到的穩(wěn)定權(quán)值,其決定了該頂點(diǎn)的重要性。圖4中每個(gè)頂點(diǎn)旁邊方括號(hào)中的數(shù)字表示最終的穩(wěn)定權(quán)值分布。迭代開(kāi)始時(shí),每個(gè)頂點(diǎn)的初始值都為1,待收斂后,所有詞義中概率最大的詞義即為該情感詞的最終詞義。如圖4所示,由于在w1的所有詞義中,詞義1的最終迭代權(quán)值1.39,在3個(gè)詞義中最大,故選取詞義1作為最終詞義。

        圖4 詞義關(guān)系圖示例

        圖排序算法的全局性是解決詞匯情感消歧問(wèn)題的關(guān)鍵,其不僅僅依賴于本地的特殊頂點(diǎn)或者單個(gè)頂點(diǎn)信息,而是從全體性出發(fā)挖掘詞義之間的依賴關(guān)系。設(shè)已給定的頂點(diǎn)b和a間有向邊的權(quán)重是wba,則頂點(diǎn)a的迭代計(jì)算式(6)如下所示。

        (6)

        基于圖排序的詞匯情感消歧算法主要包含以下3個(gè)步驟: (1)構(gòu)造詞序列W的詞義關(guān)系圖; (2)計(jì)算圖中每個(gè)頂點(diǎn)的WP值; (3)利用WP值實(shí)現(xiàn)詞匯的情感消歧。具體過(guò)程為: 對(duì)于所有詞,將其在《現(xiàn)代漢語(yǔ)詞典》中的每個(gè)詞義作為頂點(diǎn)加入圖中。通過(guò)式(4)、(5)計(jì)算任意兩個(gè)頂點(diǎn)之間的權(quán)重,并將其作為有向邊的權(quán)重加入圖中。構(gòu)建圖時(shí),本文通過(guò)最大距離MaxDist來(lái)約束權(quán)重的計(jì)算,即在尋找與詞義i有關(guān)系的詞義j時(shí),允許跨越最多MaxDist的距離。對(duì)于MaxDist的設(shè)定主要考慮語(yǔ)言及思維習(xí)慣,即一個(gè)詞在句中的詞義受其前后詞影響。若選擇過(guò)大的間距則會(huì)引入較大的噪音,若選擇間距過(guò)小則可能丟失詞與詞之間的語(yǔ)義信息,綜合二者考慮,本文將MaxDist設(shè)為3,即最大允許跨越的距離為3。在詞義關(guān)系圖構(gòu)建完成后,通過(guò)式(6)迭代計(jì)算直至收斂,最后得到每個(gè)頂點(diǎn)的WP值。對(duì)于每個(gè)多情感詞,選取其所有詞義中WP值最大的詞義作為當(dāng)前語(yǔ)境下的詞義。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 實(shí)驗(yàn)設(shè)置

        為了說(shuō)明本文算法的可移植性和魯棒性,本文分別在微博語(yǔ)料和情感語(yǔ)料庫(kù)上對(duì)兩種方法作了對(duì)比,二者為基于詞性和情感頻率的方法和基于貝葉斯模型的詞匯情感消歧方法。情感語(yǔ)料庫(kù)中包含250 021個(gè)句子,句子覆蓋小學(xué)教材、電影劇本、童話故事、文學(xué)期刊,內(nèi)容表達(dá)比較規(guī)范,從時(shí)間、空間、學(xué)科、風(fēng)格和構(gòu)成上看覆蓋面大。而微博內(nèi)容的主題多樣,表達(dá)隨意,并且每條微博所包含的信息量少,文字簡(jiǎn)短,事件核心突出。所以,采用兩種風(fēng)格不同的語(yǔ)料更能驗(yàn)證本文所提出的方法的可移植性和魯棒性。

        本文首先爬取新浪微博文本內(nèi)容作為備選語(yǔ)料集,然后篩選出帶有多情感詞的句子。另外,為了構(gòu)建相對(duì)完整的詞義關(guān)系圖,本文不考慮特別短小的句子(存在信息丟失等問(wèn)題)和廣告等噪音數(shù)據(jù)。對(duì)篩選過(guò)后的微博句子進(jìn)行分句,根據(jù)每個(gè)多情感詞匯,選取包含它的30個(gè)句子作為后續(xù)實(shí)驗(yàn)語(yǔ)料。之所以選擇30條作為標(biāo)準(zhǔn),是由于根據(jù)觀察,超出30條后所獲取的重復(fù)句子明顯增加,很少能再獲得新的實(shí)例。最后,對(duì)篩選出來(lái)的語(yǔ)料中每個(gè)句子所出現(xiàn)的多情感詞匯進(jìn)行詞義及情感標(biāo)注,標(biāo)準(zhǔn)參照為3.1節(jié)中的部分。

        為檢驗(yàn)方法的有效性,本文設(shè)置如下兩個(gè)對(duì)比實(shí)驗(yàn): (1)詞性ccat與情感頻率fs相結(jié)合的詞匯情感消歧,此方法是一種基于統(tǒng)計(jì)的方法; (2)基于貝葉斯模型的詞匯情感消歧,該方法在已標(biāo)注語(yǔ)料上提取多情感詞匯的屬性及特征,然后訓(xùn)練模型進(jìn)而對(duì)測(cè)試語(yǔ)料進(jìn)行詞匯情感消歧。在進(jìn)行基于貝葉斯模型的詞匯情感消歧時(shí),將語(yǔ)料按照2∶1的比例分為訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料進(jìn)行實(shí)驗(yàn)。下面介紹上述兩種對(duì)比方法的實(shí)現(xiàn)過(guò)程。

        1. 基于詞性和情感頻率的詞匯情感消歧: (1)使用分詞軟件NLPIR[14]對(duì)句子進(jìn)行分詞、詞性標(biāo)注,去停用詞,并設(shè)句子中的多情感詞匯為w,詞性為p。(2)在情感詞匯本體中查找域?yàn)閣、域?yàn)閜的詞條,查看其域中的值是否唯一。當(dāng)中的值多于1個(gè)時(shí),統(tǒng)計(jì)其各個(gè)情感在標(biāo)注語(yǔ)料中的出現(xiàn)頻率,并將該詞在語(yǔ)料庫(kù)中情感頻率最高的作為該詞在此句中的情感。

        2. 基于貝葉斯模型的詞匯情感消歧: 該方法首先在已標(biāo)注語(yǔ)料中統(tǒng)計(jì)多情感詞的詞義和其上下文語(yǔ)境的關(guān)系,進(jìn)而得到一個(gè)知識(shí)庫(kù)。然后計(jì)算多情感詞w在特定的語(yǔ)用環(huán)境C下表現(xiàn)各種情感的后驗(yàn)概率值,最后根據(jù)后驗(yàn)概率大小決定其所述類別,如式(7)所示。其中,count表示所獲得的相關(guān)句子在語(yǔ)料庫(kù)中所出現(xiàn)的總數(shù)。

        (7)

        通過(guò)實(shí)驗(yàn),本文發(fā)現(xiàn)隨著MaxDist的增大,詞義間的依賴性逐漸衰退,且當(dāng)MaxDist=3時(shí)所得到的信息最大。待詞義關(guān)系圖建成后,初始每個(gè)詞義頂點(diǎn)的WP值為1,按照式(6)對(duì)圖中的頂點(diǎn)迭代計(jì)算。實(shí)驗(yàn)中發(fā)現(xiàn)經(jīng)過(guò)20次的迭代計(jì)算后,每一個(gè)詞義頂點(diǎn)的WP值基本趨于穩(wěn)定。最后,選取情感詞的所有詞義中WP值最高的作為該情感詞的情感傾向性,實(shí)現(xiàn)詞匯的情感消歧。

        4.2 結(jié)果及分析

        本文用準(zhǔn)確率作為實(shí)驗(yàn)結(jié)果評(píng)價(jià)指標(biāo),此處指的是情感傾向性判斷正確的多情感詞數(shù)量占待預(yù)測(cè)詞匯總量的比例。表1展示了3種方法在微博語(yǔ)料上的實(shí)驗(yàn)結(jié)果。

        表1 微博語(yǔ)料上的對(duì)比實(shí)驗(yàn)

        分析實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),基于詞性和情感頻率的情感消歧方法的正確率為68.22%。雖然多情感詞有多個(gè)詞義,但在生活中,人們通常只會(huì)常用其某一個(gè)詞義,表達(dá)某一種情感。即最常用的詞義,最多見(jiàn)的情感會(huì)應(yīng)用在日常表達(dá)交流中。所以,基于詞性和情感頻率的詞匯情感消歧方法能獲得68.22%準(zhǔn)確率。伴隨著網(wǎng)絡(luò)文化的發(fā)展,許多網(wǎng)絡(luò)流行用語(yǔ)日益涌現(xiàn)。微博作為當(dāng)下比較流行的社交媒體,其文本形式受限于時(shí)間、空間等諸多因素,即某時(shí)段的微博語(yǔ)料主要和該時(shí)間段內(nèi)所發(fā)生的熱門話題有關(guān)。鑒于此,該方法的正確率有待提高。

        相比基于詞性和情感頻率的詞匯情感消歧方法,基于貝葉斯模型的詞匯情感消歧方法大約提高了3.24%,但是其效果卻低于基于圖排序模型的詞匯情感消歧方法約2%。本文認(rèn)為主要由以下原因?qū)е隆?/p>

        (1) 訓(xùn)練集的規(guī)模、領(lǐng)域都會(huì)都對(duì)貝葉斯分類模型有一定的影響。另外,特征選取的質(zhì)量直接影響到分類結(jié)果。

        (2) 由于微博更新速度較快、內(nèi)容短小,主題多樣,所以當(dāng)測(cè)試集和訓(xùn)練集主題有所差異時(shí),對(duì)測(cè)試集語(yǔ)料來(lái)說(shuō),分類模型可能無(wú)法獲得部分先驗(yàn)知識(shí)作為參考,故導(dǎo)致分類結(jié)果不理想。這也就是其針對(duì)跨領(lǐng)域問(wèn)題上沒(méi)有圖排序模型效果好的最主要原因。

        相比前兩種情感消歧方法,本文在微博語(yǔ)料上所提出的基于圖排序模型方法有其優(yōu)越性。基于圖排序模型方法在準(zhǔn)確率上分別有2.04%和5.29%的提高。這是由于該方法是基于詞義依賴關(guān)系,從整體出發(fā)充分考慮了上下文的語(yǔ)義環(huán)境。在進(jìn)行情感消歧時(shí),不依賴于訓(xùn)練集的規(guī)模和特征的選取質(zhì)量,同時(shí)也不受限于文本內(nèi)容的領(lǐng)域和主題。綜上所述,該方法取得了更好的效果,但仍有提高的余地。分析實(shí)驗(yàn)結(jié)果我們發(fā)現(xiàn)存在以下問(wèn)題。

        (1) 在詞典中描述詞匯詞義的句子一般較為短小,包含的詞語(yǔ)比較少,導(dǎo)致在計(jì)算詞匯間相似度時(shí)受到影響。

        (2) 在微博語(yǔ)料中,表達(dá)相對(duì)隨意,且新組合詞、網(wǎng)絡(luò)流行用語(yǔ)以及新生僻詞較多。而通常這些比較流行的網(wǎng)絡(luò)用語(yǔ)及組合詞卻沒(méi)有被《現(xiàn)代漢語(yǔ)詞典》所收錄,在一定程度上影響了實(shí)驗(yàn)精確度。同時(shí)微博句子比較短小,表達(dá)形式隨意,相對(duì)不規(guī)范,甚至經(jīng)常出現(xiàn)只言片語(yǔ)的情況。所以導(dǎo)致詞義關(guān)系圖構(gòu)建相對(duì)比較困難,進(jìn)而影響詞義相似度的計(jì)算,也是影響實(shí)驗(yàn)精度的重要因素之一。

        (3) 在《現(xiàn)代漢語(yǔ)詞典》中,示例信息往往可以更好地反映該詞義所要表達(dá)的情感信息,因?yàn)橄啾仍~義的定義,示例內(nèi)容更接近人們表達(dá)的實(shí)際情況。所以,充分利用示例信息是我們下一步的工作之一。

        為了驗(yàn)證本文所提出的方法在標(biāo)準(zhǔn)語(yǔ)料集上的有效性,本文將上述提到3種方法在情感語(yǔ)料庫(kù)上進(jìn)行了實(shí)驗(yàn),并和在微博語(yǔ)料上取得的精度進(jìn)行了對(duì)照,結(jié)果如圖5所示。

        圖5 語(yǔ)料庫(kù)和微博的實(shí)驗(yàn)對(duì)比結(jié)果

        從圖5可以看出,在情感語(yǔ)料庫(kù)上,基于圖模型的情感消歧方法仍優(yōu)于其他兩種方法。這主要是由于該方法基于語(yǔ)義分析,不受限于特征的提取精度和語(yǔ)料自身特性,所以在情感消歧準(zhǔn)確率上表現(xiàn)相對(duì)較好。

        分析基于詞性和情感頻率的詞匯情感消歧法在情感語(yǔ)料庫(kù)和微博語(yǔ)料上的結(jié)果可以看出,在微博語(yǔ)料上取得的精度相對(duì)較高。這主要是由于兩種語(yǔ)料在行文風(fēng)格、知識(shí)背景、描述主題等方面的差異所導(dǎo)致。情感語(yǔ)料庫(kù)中表達(dá)比較規(guī)范,較為書(shū)面化,通常采用比較含蓄的方法抒發(fā)感情。而在微博中表達(dá)比較隨意,較為口語(yǔ)化,情感抒發(fā)方式相對(duì)直接。相比情感語(yǔ)料庫(kù)上,基于貝葉斯模型消歧方法在微博語(yǔ)料取得的結(jié)果也相對(duì)較好。這主要是由于情感語(yǔ)料庫(kù)覆蓋范圍較廣,包括小學(xué)教材、電影劇本、童話故事、文學(xué)期刊等。所以分類模型很可能無(wú)法獲得某些領(lǐng)域或主題的先驗(yàn)知識(shí),進(jìn)而影響了分類精度。這也驗(yàn)證了監(jiān)督學(xué)習(xí)在跨領(lǐng)域問(wèn)題處理上的欠缺。

        從圖5我們可以發(fā)現(xiàn),不同于前兩種方法,基于圖模型的消歧方法在情感語(yǔ)料庫(kù)上表現(xiàn)相對(duì)較好。這主要是由于微博的內(nèi)容相對(duì)短小,構(gòu)建完整的詞義關(guān)系圖比較困難,進(jìn)而影響了實(shí)驗(yàn)準(zhǔn)確率。而情感語(yǔ)料中的表達(dá)方式比較規(guī)范,能夠較為準(zhǔn)確地構(gòu)建詞義關(guān)系圖,因此實(shí)驗(yàn)結(jié)果相對(duì)微博數(shù)據(jù)較好。

        綜上所述,通過(guò)在兩種表達(dá)方式不同的語(yǔ)料集上進(jìn)行測(cè)試,驗(yàn)證了本文提出的基于圖排序模型的詞匯情感消歧方法都優(yōu)于其他兩種對(duì)比方法。這充分說(shuō)明了該方法的有效性,也體現(xiàn)了本文方法在跨領(lǐng)域性、適用性和魯棒性方面的優(yōu)勢(shì)。

        5 結(jié)束語(yǔ)

        本文詳細(xì)介紹了基于圖模型的詞匯情感消歧的方法,并在微博語(yǔ)料庫(kù)和情感語(yǔ)料庫(kù)上驗(yàn)證了該方法的有效性。下一步的工作是充分利用《現(xiàn)代漢語(yǔ)詞典》中的示例信息,因?yàn)槭纠仍~義定義更接近人們的用語(yǔ)習(xí)慣,將示例和上下文的互信息性也考慮到詞義的相似度計(jì)算中。另外,由于在特定領(lǐng)域內(nèi)語(yǔ)義與情感關(guān)聯(lián)性很強(qiáng),因此將詞義的領(lǐng)域信息融入詞匯情感消歧中也是未來(lái)重要的工作之一。

        [1] Pang B, Lee L. Opinion mining and sentiment analysis[J]. Foundations and trends in information retrieval, 2008, 2(1-2): 1-135.

        [2] Liu B, Zhang L. A survey of opinion mining and sentiment analysis[M]. Mining Text Data. Springer US, 2012: 415-463.

        [3] 何徑舟, 王厚峰. 基于特征選擇和最大熵模型的漢語(yǔ)詞義消歧[J]. 軟件學(xué)報(bào), 2010, 21(6): 1287-1295.

        [4] 張仰森, 黃改娟, 蘇文杰. 基于隱最大熵原理的漢語(yǔ)詞義消歧方法[J]. 中文信息學(xué)報(bào), 2012, 26(3): 72-78.

        [5] 車玲, 張仰森. 面向詞義消歧的條件隨機(jī)場(chǎng)模型庫(kù)構(gòu)建[J]. 計(jì)算機(jī)工程, 2012, 38(20):152-159.

        [6] Mihalcea R. Using wikipedia for automatic word sense disambiguation[C]//Proceedings of Human Language Technology conference and conference on Empirical Methods in Natural Language Processing, Rochester, 2007, 196-203.

        [7] Navigli R, Ponzetto S P. Joining forces pays off: Multilingual joint word sense disambiguation[C]//Proceedings of the 2012 joint conference on empirical methods in natural language processing and computational natural language learning. Association for Computational Linguistics, 2012: 1399-1410.

        [8] Faralli S, Navigli R. A new minimally-supervised framework for domain Word Sense Disambiguation[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Association for Computational Linguistics, 2012: 1411-1422.

        [9] 陳建美,林鴻飛.基于貝葉斯模型的詞匯情感消歧[C]第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集,大連, 2007: 594-599.

        [10] Yang L, Lin H. Construction and application of Chinese emotional corpus[M]. Chinese Lexical Semantics. Springer Berlin Heidelberg, 2013: 122-133.

        [11] 徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J]. 情報(bào)學(xué)報(bào), 2008, 27(2): 180-185.

        [12] 曹軍. Google的PageRank技術(shù)剖析[J].情報(bào)學(xué)報(bào), 2002,10: 15-18.

        [13] 哈爾濱工業(yè)大學(xué)《同義詞詞林》擴(kuò)展版[DB/OL]. http://ir.hit.edu.cn/phpwebsite/index.php?module=pagemaster&PAGE_user_op=view_page&PAGE_id=162.

        [14] NLPIR分詞系統(tǒng)[DB/OL]. http://ictclas.nlpir.org/.

        [15] PageRank[DB/OL]. http://zh.wikipedia.org/wiki/PageRank.

        猜你喜歡
        消歧傾向性詞義
        基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
        基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測(cè)
        基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
        西夏語(yǔ)“頭項(xiàng)”詞義考
        西夏研究(2020年1期)2020-04-01 11:54:26
        詞義辨別小妙招——看圖辨詞
        藏文歷史文獻(xiàn)識(shí)別過(guò)程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
        關(guān)于醫(yī)患沖突報(bào)道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
        “沒(méi)準(zhǔn)兒”“不一定”“不見(jiàn)得”和“說(shuō)不定”的語(yǔ)義傾向性和主觀性差異
        字意與詞義
        一種面向博客群的主題傾向性分析模型
        少妇厨房愉情理伦片免费 | 无码国产精品一区二区免费式直播| 亚洲精品毛片一区二区三区 | 国产裸体xxxx视频在线播放| 可以免费观看的毛片| 亚洲va精品va国产va| 日本最新视频一区二区| 天天碰免费上传视频| 成年女人永久免费看片| 少妇被粗大猛进进出出| 水蜜桃男女视频在线观看网站| 男人扒开添女人下部免费视频| 韩国v欧美v亚洲v日本v| 亚洲日日噜噜噜夜夜爽爽| 亚洲av午夜福利精品一区不卡| 国产乱妇无码大片在线观看 | 日本一区二三区在线中文| 成人影片麻豆国产影片免费观看| 少妇无码太爽了不卡视频在线看| 久久无码一一区| 中文字幕丰满人妻被公强| 国产香港明星裸体xxxx视频| 日韩插啊免费视频在线观看| 亚洲午夜久久久久中文字幕| 日本免费一区二区精品| 丰满人妻被两个按摩师| 97久久天天综合色天天综合色hd| 色噜噜狠狠色综合欧洲| 国产亚洲一本二本三道| 久久久久av无码免费网| 免费一区在线观看| 久久激情人妻中文字幕| 亚洲综合日韩精品一区二区| 爆爽久久久一区二区又大又黄又嫩| 国产一极毛片| 麻豆夫妻在线视频观看| 亚洲国产精品成人久久久| 国产午夜精品久久久久免费视 | 国产精品一区二区av麻豆日韩| 欧美金发尤物大战黑人| 一区二区三区内射视频在线观看|