亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        話題型微博中第三人稱(chēng)代詞消解

        2014-06-08 07:17:10
        關(guān)鍵詞:第三人稱(chēng)指代微博

        張 瑛

        (中國(guó)傳媒大學(xué)文學(xué)院,北京100024)

        引 言

        話題型微博是指“圍繞某一話題即標(biāo)簽(hashtag)闡發(fā)意見(jiàn)、進(jìn)行討論的微博形式”[1],見(jiàn)例1。標(biāo)簽的形式化特征為雙“#”號(hào),即例1中的“#笑傲江湖#”。話題型微博正文則是針對(duì)該標(biāo)簽發(fā)表的言論,即例1中“雖然令狐沖最后娶的是任盈盈,其實(shí)他心里真正愛(ài)的是東方不敗”。人稱(chēng)代詞消解是指將文本中具有指代性質(zhì)的人稱(chēng)代詞消解為其指代的對(duì)象,例如:將例1中“他”消解為“令狐沖”。

        例1:#笑傲江湖#雖然令狐沖最后娶的是任盈盈,其實(shí)他心里真正愛(ài)的是東方不敗。

        隨著大數(shù)據(jù)時(shí)代的來(lái)臨,話題型微博已經(jīng)成為重要的數(shù)據(jù)資源,而針對(duì)話題型微博的信息挖掘也備受人們關(guān)注。

        話題型微博的特點(diǎn)在于微博主就標(biāo)簽進(jìn)行集中討論,于是微博主常使用第三人稱(chēng)代詞指稱(chēng)與標(biāo)簽相關(guān)的信息。這雖然使得語(yǔ)言經(jīng)濟(jì)明了,但為話題型微博信息處理增加了難度。因此,對(duì)話題型微博中第三人稱(chēng)代詞進(jìn)行消解成為話題型微博信息挖掘(例如:微博評(píng)價(jià)對(duì)象提取、微博熱點(diǎn)話題追蹤、微博情感語(yǔ)義分析等等)的一個(gè)基礎(chǔ)任務(wù)。

        一 相關(guān)文獻(xiàn)

        目前,已有較多學(xué)者對(duì)漢語(yǔ)第三人稱(chēng)代詞消解進(jìn)行了研究,例如:王厚峰、梅錚提出基于魯棒性的人稱(chēng)代詞消解方法,其第三人稱(chēng)代詞(他/他們/她)消解的平均正確率達(dá)到了84%[2]。龐寧、蘇尚宏等采用了最大熵和決策樹(shù)兩種算法對(duì)中文人稱(chēng)代詞進(jìn)行消解,第三人稱(chēng)消解結(jié)果F-值分別達(dá)到70.1%和68.1%[3]。宋巍、秦兵等基于依存句法與語(yǔ)義相結(jié)合方法對(duì)中文代詞進(jìn)行了消解,整體正確率達(dá)到84.38%[4]。然而,這些消解算法主要針對(duì)常規(guī)書(shū)面語(yǔ)料,對(duì)語(yǔ)篇長(zhǎng)度、文本語(yǔ)言的規(guī)范性都有較高要求。話題型微博屬于短文本,人稱(chēng)代詞語(yǔ)篇信息少,并且文本口語(yǔ)化程度較高,其第三人稱(chēng)代詞使用也與其他常規(guī)文本有所不同。因此,分析話題型微博人稱(chēng)代詞使用特點(diǎn)之后,我們提出了基于多層面語(yǔ)言信息的消解算法。

        二 話題型微博第三人稱(chēng)代詞使用特點(diǎn)

        在不同語(yǔ)域中,第三人稱(chēng)代詞的使用也會(huì)有相應(yīng)變化。話題型微博雖然單獨(dú)成篇,但是其他圍繞同一話題的微博與之可形成一個(gè)話題型微博群。一個(gè)話題型微博群可視為眾多微博博主就一個(gè)主要話題(體現(xiàn)為微博中的標(biāo)簽)進(jìn)行的多人會(huì)話。這一特征導(dǎo)致單篇話題型微博中人稱(chēng)代詞使用具有其自身特點(diǎn),我們分析了中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)2013年第二屆中文微博情感分析評(píng)測(cè)語(yǔ)料,發(fā)現(xiàn)話題型微博中第三人稱(chēng)代詞用法不合語(yǔ)法現(xiàn)象較多,常出現(xiàn)外指,還存在一定數(shù)量的非指稱(chēng)性人稱(chēng)代詞。

        (一)不合語(yǔ)法現(xiàn)象

        話題型微博其實(shí)是微博主在話題型微博群這一多人會(huì)話中的發(fā)言,是一種口語(yǔ)轉(zhuǎn)換文本。因此,話題型微博口語(yǔ)特征較強(qiáng),常出現(xiàn)大量不符合語(yǔ)法規(guī)范的語(yǔ)言現(xiàn)象,包括第三人稱(chēng)的使用,見(jiàn)例2。

        例2:#新版笑傲江湖 #任盈盈回想起東方和令狐沖在一起的時(shí)候,他告訴他爹東方在靈柩寺。(“他”用于指代男性,而此處卻指代女性)

        在進(jìn)行第三人稱(chēng)代詞消解時(shí),“性別一致”、“范疇一致”是機(jī)器篩選潛在指稱(chēng)對(duì)象的一個(gè)重要判斷標(biāo)準(zhǔn)。例2中第三人稱(chēng)的不規(guī)范使用雖然不會(huì)對(duì)人們理解微博語(yǔ)義造成干擾,但卻為機(jī)器進(jìn)行第三人稱(chēng)自動(dòng)消解增添了難度。

        (二)外指較多

        在話題型微博中,第三人稱(chēng)代詞經(jīng)常出現(xiàn)外指現(xiàn)象。這是由于微博主已經(jīng)就所討論話題形成了共識(shí),會(huì)直接在單篇話題型微博中使用第三人稱(chēng)代詞指稱(chēng)與話題型相關(guān)的信息,見(jiàn)例3。

        例3:#王語(yǔ)嫣#不知道這版的王語(yǔ)嫣還會(huì)是龍姑娘么,如果是她或者袁珊珊,那我就無(wú)力坑爹了(外指王語(yǔ)嫣扮演者張檬)。

        外指一直是指代消解中的難點(diǎn)。對(duì)其進(jìn)行消解往往需要更多語(yǔ)境信息和世界知識(shí)。因此,對(duì)話題型微博進(jìn)行第三人稱(chēng)代詞消解時(shí),我們需要對(duì)文本進(jìn)行更深層次的預(yù)處理,以保障消解的正確率。

        (三)非指稱(chēng)性第三人稱(chēng)代詞

        話題型微博屬于特殊的多人會(huì)話,其文本口語(yǔ)特征較強(qiáng),會(huì)出現(xiàn)很多口語(yǔ)詞匯。其中,有些口語(yǔ)詞匯雖然具有第三人稱(chēng)代詞的詞型,但卻不具備任何指稱(chēng)功能,我們稱(chēng)之為非指稱(chēng)性第三人稱(chēng)代詞,見(jiàn)例4。

        例4:#曼聯(lián)V.S.皇馬#他娘的,這場(chǎng)比賽全被那二貨裁判給毀了。

        如果系統(tǒng)無(wú)法識(shí)別這些非指稱(chēng)性第三人稱(chēng)代詞,將會(huì)得出錯(cuò)誤消解結(jié)果,降低消解系統(tǒng)的性能。值得慶幸的是,這類(lèi)非指稱(chēng)性人稱(chēng)代詞用法相對(duì)固定,我們可建構(gòu)一個(gè)非指稱(chēng)性第三人稱(chēng)代詞詞表將其排除。

        三 消解策略

        話題型微博第三人稱(chēng)代詞的消解要難于傳統(tǒng)的消解。難點(diǎn)首先體現(xiàn)在語(yǔ)料上,話題型微博文本口語(yǔ)化程度高,句子不規(guī)范,篇幅短。這說(shuō)明話題型微博不但難以預(yù)處理,還缺乏一些第三人稱(chēng)代詞消解中常用到的語(yǔ)言信息,例如:語(yǔ)篇信息、短語(yǔ)或依存句法結(jié)構(gòu)信息(口語(yǔ)語(yǔ)句不流暢所致)。難點(diǎn)其次體現(xiàn)在待消解項(xiàng)上,上文中指出話題型微博中第三人稱(chēng)代詞語(yǔ)境依賴(lài)性強(qiáng),不符合語(yǔ)法現(xiàn)象較多。這意味著“性別一致”、“范疇一致”等語(yǔ)言原則在消解算法中的權(quán)重需要降低,而語(yǔ)用信息權(quán)重需要增加。鑒于已有的第三人稱(chēng)代詞消解算法無(wú)法完全適用于話題型微博,我們提出基于多層面語(yǔ)言信息的消解策略。

        (一)句法層面語(yǔ)言信息

        話題型微博句子較短。侯敏等對(duì)20篇話題型微博進(jìn)行句長(zhǎng)統(tǒng)計(jì),得出話題型微博的句長(zhǎng)僅20個(gè)字[1]。同時(shí),話題型微博句子口語(yǔ)化程度較高。這就造成話題型微博句子自動(dòng)短語(yǔ)或依存句法分析的結(jié)果準(zhǔn)確率很低。因此,我們對(duì)文本僅進(jìn)行淺層的句法標(biāo)注,包括句首/句尾標(biāo)注,主語(yǔ)/賓語(yǔ)標(biāo)注。

        句首和句尾標(biāo)注是指為每一個(gè)句子的句首和句尾添加形式標(biāo)記。我們可以通過(guò)判斷第三人稱(chēng)代詞是否位于句首或句尾進(jìn)行相應(yīng)的規(guī)則匹配。通常位于句首的第三人稱(chēng)代詞其指稱(chēng)對(duì)象首先排除句內(nèi)命名實(shí)體,采用跨句消解,而位于句尾的第三人稱(chēng)代詞指稱(chēng)則可通過(guò)逆向匹配尋找最近的潛在指稱(chēng)對(duì)象。

        主語(yǔ)/賓語(yǔ)標(biāo)注是指以句中動(dòng)詞為錨點(diǎn),對(duì)句中的主語(yǔ)和賓語(yǔ)進(jìn)行區(qū)分并標(biāo)注?;贕rosz&Sidner的中心理論[5]以及趙鳴、劉濤對(duì)語(yǔ)言回指加工的ERP實(shí)驗(yàn)[6],我們認(rèn)為區(qū)分主語(yǔ)和賓語(yǔ)將提高消解規(guī)則的準(zhǔn)確性,例如,出于主語(yǔ)位置的名詞性短語(yǔ)優(yōu)先成為下一句中第三人稱(chēng)代詞的回指對(duì)象;在相鄰的兩個(gè)句子中,與第三人稱(chēng)處于同等句法位置的名詞性短語(yǔ)優(yōu)先成為回指對(duì)象。

        (二)語(yǔ)義層面語(yǔ)言信息

        鑒于話題型微博中第三人稱(chēng)代詞常出現(xiàn)違背“性別一致”、“范疇一致”等語(yǔ)義原則現(xiàn)象,我們將減少這類(lèi)語(yǔ)義約束在消解規(guī)則中的權(quán)重。同時(shí),我們?cè)黾恿恕坝猩?無(wú)生命”,“集體/個(gè)體”等語(yǔ)義范疇,以便于對(duì)潛在先行語(yǔ)進(jìn)行篩選。

        由于話題型微博較短,導(dǎo)致人稱(chēng)代詞上下文信息較少。為提供篇章信息,我們?yōu)樵~語(yǔ)添加了“提示話題”、“話題轉(zhuǎn)折”、“對(duì)比”、“排除”等語(yǔ)義信息,這些語(yǔ)義信息能夠有效提示第三人稱(chēng)的上下文結(jié)構(gòu)。

        (三)語(yǔ)用層面語(yǔ)言信息

        話題型微博群是微博主圍繞同一話題進(jìn)行討論而形成的多人會(huì)話。與話題相關(guān)的知識(shí)常常被微博主們視為共有的語(yǔ)境信息,許多單篇話題型微博中第三人稱(chēng)代詞都需要依據(jù)這些語(yǔ)境信息才能得到消解,見(jiàn)例5。

        例5:#王語(yǔ)嫣#丑死了,老子最討厭她了,演個(gè)戲作的要死!

        #王語(yǔ)嫣#長(zhǎng)得很一般,沒(méi)有特點(diǎn)……感覺(jué)她長(zhǎng)得像個(gè)男人!

        #王語(yǔ)嫣#我更喜歡她的“海蘭珠”。

        在例5中,三條話題型微博都以“王語(yǔ)嫣”為話題進(jìn)行評(píng)論,單篇話題型微博中第三人稱(chēng)均是外指,可依據(jù)話題的語(yǔ)境信息被消解為“張檬”(王語(yǔ)嫣的扮演者)。我們認(rèn)為一個(gè)話題型微博群中高頻名詞性詞匯體現(xiàn)了話題的相關(guān)熱點(diǎn),極有可能是第三人稱(chēng)潛在的外指對(duì)象。因此,我們以話題型微博群中的高頻名詞性詞匯為內(nèi)容,構(gòu)建了話題熱點(diǎn)表單。當(dāng)判定話題型微博中第三人稱(chēng)代詞為外指時(shí),匹配規(guī)則將調(diào)用話題熱點(diǎn)表單對(duì)其進(jìn)行消解。

        四 實(shí)驗(yàn)及結(jié)果分析

        (一)系統(tǒng)流程及實(shí)驗(yàn)語(yǔ)料

        基于上述策略,我們構(gòu)建了一個(gè)第三人稱(chēng)代詞消解系統(tǒng)。系統(tǒng)包含三個(gè)部分:文本預(yù)處理;待消解項(xiàng)定位及類(lèi)別判斷;待消解項(xiàng)消解。系統(tǒng)流程如圖。

        在輸入待消解微博之后,文本去噪模塊將針對(duì)話題型微博出現(xiàn)的網(wǎng)址、表情符號(hào)和圖片鏈接等信息噪音進(jìn)行清洗。經(jīng)過(guò)去噪處理的文本會(huì)依據(jù)分詞詞典及分詞規(guī)則庫(kù)進(jìn)行分詞;依據(jù)非指稱(chēng)性第三人稱(chēng)代詞底表剔除不具備指稱(chēng)功能的第三人稱(chēng)代詞;同時(shí),利用語(yǔ)義信息詞典以及語(yǔ)用信息統(tǒng)計(jì)結(jié)果進(jìn)行多層面語(yǔ)言信息標(biāo)注。隨后,系統(tǒng)將會(huì)自動(dòng)識(shí)別文本中第三人稱(chēng)代詞,并列為待消解項(xiàng)。待消解項(xiàng)將依據(jù)規(guī)則判斷為外指或內(nèi)指。內(nèi)指第三人稱(chēng)代詞將依據(jù)內(nèi)指消解規(guī)則進(jìn)行消解,而外指第三人稱(chēng)代詞將會(huì)調(diào)用話題熱點(diǎn)表單,并基于外指消解規(guī)則進(jìn)行消解,最后輸出消解結(jié)果。

        本次實(shí)驗(yàn)語(yǔ)料選用了中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)2013年第二屆中文微博情感分析評(píng)測(cè)語(yǔ)料,共10組話題型微博群,1000篇話題型微博,2135個(gè)句子。其中,第三人稱(chēng)代詞共有223處。

        (二)評(píng)測(cè)標(biāo)準(zhǔn)及實(shí)驗(yàn)結(jié)果

        本文依據(jù)國(guó)際信息理解大會(huì)(MUC,Message Understanding Conference)對(duì)指代消解的評(píng)測(cè)標(biāo)準(zhǔn)來(lái)判斷系統(tǒng)性能,包括準(zhǔn)確率(precision)、召回率(recall)和F指數(shù)(F-measure),公式如下:

        我們使用消解系統(tǒng)對(duì)語(yǔ)料進(jìn)行第三人稱(chēng)代詞消解,得出實(shí)驗(yàn)結(jié)果如下表:

        表3 :第三人稱(chēng)代詞消解結(jié)果

        結(jié)果顯示,第三人稱(chēng)代詞總體消解F指數(shù)為85.83%。其中,“他”消解結(jié)果F指數(shù)最高,達(dá)到了94.60;“他們”消解結(jié)果 F指數(shù)最低,僅41.67%;“她”、“它”、“其”的結(jié)果較為相近,分別是80.77%、76.92%和 76.19%。在話題型微博中,“他”的指代對(duì)象較為簡(jiǎn)單,多為篇章內(nèi)指或與話題相關(guān)外指,話題熱點(diǎn)表單較好地提高了“他”的消解正確率。“他們”的指代對(duì)象相對(duì)而言較為復(fù)雜,其指稱(chēng)對(duì)象常常為多個(gè)命名實(shí)體。我們對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了回查,發(fā)現(xiàn)錯(cuò)誤原因主要有以下幾點(diǎn):

        (1)文本預(yù)處理錯(cuò)誤,導(dǎo)致某些命名實(shí)體未能被正確識(shí)別,影響了進(jìn)一步消解。

        (2)第三人稱(chēng)代詞類(lèi)別判斷模塊將外指錯(cuò)判為內(nèi)指,錯(cuò)誤地匹配了內(nèi)指消解規(guī)則。

        (3)第三人稱(chēng)代詞與其指稱(chēng)對(duì)象距離較遠(yuǎn),通???個(gè)以上的句子或多個(gè)命名實(shí)體,導(dǎo)致消解規(guī)則匹配錯(cuò)誤。

        (4)第三人稱(chēng)復(fù)數(shù)“他們”指代對(duì)象為間隔分布的多個(gè)命名實(shí)體,匹配規(guī)則未能完整提取所有指稱(chēng)對(duì)象。

        上述分析表明,提高文本預(yù)處理正確率將有助于第三人稱(chēng)代詞消解規(guī)則匹配。同時(shí),對(duì)第三人稱(chēng)代詞的指稱(chēng)類(lèi)別進(jìn)行區(qū)分也可提高消解系統(tǒng)性能。第三人稱(chēng)復(fù)數(shù)“他們”的消解規(guī)則有待進(jìn)一步改進(jìn)。

        結(jié) 語(yǔ)

        針對(duì)話題型微博這一特殊語(yǔ)域,我們提出了基于多層面語(yǔ)言信息的第三人稱(chēng)消解策略,實(shí)驗(yàn)結(jié)果F指數(shù)達(dá)到了85.83%。這說(shuō)明這一策略在話題型微博語(yǔ)域是行之有效的。然而,策略中所提及的話題熱點(diǎn)表單具有一定局限性,需要隨著語(yǔ)料話題的更換而更新。如何將這一策略應(yīng)用于其他語(yǔ)域有待進(jìn)一步研究。

        [1]侯敏,滕永林,李雪燕等.話題型微博語(yǔ)言特點(diǎn)及其情感分析策略研究[J].語(yǔ)言文字應(yīng)用,2013(2).

        [2]王厚峰.魯棒性的漢語(yǔ)人稱(chēng)代詞消解[J].軟件學(xué)報(bào),2005(5).

        [3]龐寧,蘇尚宏,賴(lài)振丹.中文人稱(chēng)代詞消解研究[J].太原科技大學(xué)學(xué)報(bào),2008(3).

        [4]宋巍,秦兵,郎君等.句法與詞義相結(jié)合的中文代詞消解[J].中文信息學(xué)報(bào),2008(6).

        [5]S.Gupta,M.Purver and D.Jurafsky.Disambiguating Between Generic and Referential"you"in Dialogue[A].Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics(ACL)[C].Madison:Omnipress,2007.

        [6]趙鳴,劉濤.語(yǔ)言回指加工的ERP研究述評(píng)[J].心理科學(xué)進(jìn)展,2011(3).

        猜你喜歡
        第三人稱(chēng)指代微博
        青少年數(shù)字素養(yǎng)的社會(huì)與文化內(nèi)涵及其教育啟示
        Let’s Save Food To Fight Hunger
        奧卡姆和布列丹對(duì)指代劃分的比較
        談?wù)動(dòng)⒄Z(yǔ)教學(xué)中 第三人稱(chēng)單數(shù)及其后面動(dòng)詞的用法
        用第三人稱(chēng)和自己說(shuō)話能減壓
        幸福·悅讀(2017年10期)2017-10-18 10:16:13
        It’s Your Turn, Roger! (I)
        事實(shí)與流言的博弈
        人間(2016年26期)2016-11-03 18:19:04
        “不一而足”話討論
        自然語(yǔ)言中的指代技術(shù)的研究
        河南科技(2014年10期)2014-02-27 14:09:37
        神回復(fù)
        意林(2013年15期)2013-05-14 16:49:23
        日韩女同视频在线网站| 麻豆密入视频在线观看| 亚洲精品国产熟女久久| 怡红院a∨人人爰人人爽| 9191在线亚洲精品| 久久精品国产亚洲av热一区| 亚洲熟妇av一区二区在线观看| 亚洲av乱码一区二区三区按摩 | 国产精品女同一区二区免费站| 欧美成人在线视频| 欧美精品中文| 毛片av在线播放亚洲av网站| 国产黄色一级到三级视频| 人妖一区二区三区四区| 国产乱人偷精品人妻a片| 久久久久亚洲av无码专区网站| 欧美自拍丝袜亚洲| av天堂手机在线免费| 国产精品一二三区亚洲| 国产av自拍视频在线观看| 高清破外女出血av毛片| 动漫在线无码一区| 台湾佬中文偷拍亚洲综合| 狠色人妻丝袜中文字幕| 十四以下岁毛片带血a级| 亚洲国产精品无码专区影院| 亚洲va中文字幕无码久久不卡 | 成人国产精品免费视频| 久久精品中文字幕第一页| 国产亚洲av综合人人澡精品| 精品无码人妻夜人多侵犯18| 亚洲精品无amm毛片| 免费a级毛片无码无遮挡| 国产欧美精品在线一区二区三区| 肉丝高跟国产精品啪啪| 99re6在线视频精品免费下载| 午夜福利麻豆国产精品| 国产一区二区三区免费在线视频| 99精品久久精品一区| 色欲欲www成人网站| 国产成人精品电影在线观看|