亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢語(yǔ)情感問(wèn)題類型分類研究

        2011-06-28 02:18:40李婷玉葛正榮姚天昉
        中文信息學(xué)報(bào) 2011年2期
        關(guān)鍵詞:持有者主題詞層面

        李婷玉,葛正榮,姚天昉

        (上海交通大學(xué) 計(jì)算機(jī)科學(xué)與工程系,上海 200240)

        1 概述

        網(wǎng)絡(luò)技術(shù)的高速發(fā)展,宣告了信息時(shí)代的到來(lái)。如何將自己需要的信息從網(wǎng)絡(luò)上海量的數(shù)據(jù)中抽取出來(lái),已經(jīng)成為一個(gè)熱點(diǎn)研究方向。傳統(tǒng)搜索引擎的方法往往是依靠關(guān)鍵字的搜索,通過(guò)匹配來(lái)檢索出用戶所需要的信息和內(nèi)容。但是,關(guān)鍵字的匹配并不能很好地獲取用戶所需要的內(nèi)容,往往會(huì)夾雜著大量的無(wú)用信息,需要用戶人工篩選。而問(wèn)答系統(tǒng)(Question Answering)的出現(xiàn)有望代替原有的信息檢索技術(shù),使用戶能夠更方便地找到所要的信息。

        傳統(tǒng)的問(wèn)答系統(tǒng)一般只針對(duì)比較簡(jiǎn)單的、基于事實(shí)的問(wèn)句,而隨著大量評(píng)論性信息的出現(xiàn),傳統(tǒng)的問(wèn)答系統(tǒng)回答這些情感問(wèn)題不再顯得有效。對(duì)此,Wiebe和Cardie等人首先實(shí)現(xiàn)了一個(gè)MPQA(Multi-Perspective Question Answering)系統(tǒng),它沒(méi)有專門對(duì)問(wèn)題進(jìn)行分類,而只是簡(jiǎn)單地采用人工的方法對(duì)情感問(wèn)題和基于事實(shí)的問(wèn)題進(jìn)行手工標(biāo)識(shí), 構(gòu)建了一個(gè)主觀性文本語(yǔ)料庫(kù),通過(guò)分析和抽取語(yǔ)料庫(kù)中的情感信息片段,回答情感問(wèn)題。Someasundaran和Wilson[1]等人在此基礎(chǔ)上,進(jìn)一步對(duì)情感的類型體系進(jìn)行細(xì)分。 接著,Yu和Hatzivassibloglou[2]分別在篇章層和句子層對(duì)情感分類做了研究。針對(duì)一個(gè)情感問(wèn)題,他們?cè)噲D在文本中尋找與問(wèn)題具有相同情感傾向的句子,然后根據(jù)這些情感句子產(chǎn)生答案,但是在情感問(wèn)題分析方面,僅僅只是對(duì)情感問(wèn)題的極性進(jìn)行了分類。Kim和Hovy[3]專門對(duì)情感問(wèn)答系統(tǒng)中句子的情感持有者識(shí)別做了研究。Lun-Wei Ku和Hsin-His Chen[4]等人基于TREC-11和NTCIR等語(yǔ)料實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的情感問(wèn)答系統(tǒng)。

        情感問(wèn)題分析是情感問(wèn)答系統(tǒng)中第一個(gè)處理步驟,它對(duì)于理解問(wèn)題的關(guān)鍵信息、提高檢索速度、縮小答案范圍等具有重要的意義。由于對(duì)漢語(yǔ)的搜索技術(shù)研究開展地比較晚,再加上中文的復(fù)雜性,所以西方研究者所提出的一些方法與技術(shù)往往會(huì)“水土不服”。本文將重點(diǎn)研究非特定領(lǐng)域的情感問(wèn)題分類,從語(yǔ)法、語(yǔ)義、領(lǐng)域等不同層面分析并定義情感問(wèn)題的類型。在語(yǔ)法層面,采用漢語(yǔ)語(yǔ)法的疑問(wèn)句式的分類標(biāo)準(zhǔn);在語(yǔ)義層面,利用關(guān)鍵字等特征進(jìn)行分類;在領(lǐng)域?qū)用妫捎帽倔w等工具確定領(lǐng)域。在此基礎(chǔ)上建立情感問(wèn)題類型體系。接著篩選區(qū)分情感問(wèn)題和非情感問(wèn)題的敏感特征,這些特征可以來(lái)源于不同的語(yǔ)言層面。在完成情感問(wèn)題和非情感問(wèn)題分類以后,針對(duì)情感問(wèn)題,采用情感問(wèn)題類型體系對(duì)它進(jìn)行進(jìn)一步分類,確定問(wèn)題的關(guān)鍵信息(如命名實(shí)體)與預(yù)期候選答案的關(guān)系。

        2 情感問(wèn)題類型分類

        一般采用基于示例的指導(dǎo)性學(xué)習(xí)進(jìn)行問(wèn)題分類時(shí),都按照疑問(wèn)短語(yǔ)來(lái)進(jìn)行[5],其主要方法有以下幾種:統(tǒng)計(jì)方法、規(guī)則學(xué)習(xí)、樹方法以及神經(jīng)網(wǎng)絡(luò)方法等。其中最常用的是統(tǒng)計(jì)方法,其次是規(guī)則學(xué)習(xí)和樹方法,而神經(jīng)網(wǎng)絡(luò)方法較少用。

        在本次實(shí)驗(yàn)中,我們考慮從語(yǔ)法、語(yǔ)義、領(lǐng)域等層面分析并定義情感問(wèn)題的類型。在語(yǔ)法層面,采用漢語(yǔ)語(yǔ)法的疑問(wèn)句式的分類標(biāo)準(zhǔn);在語(yǔ)義層面,利用關(guān)鍵字等特征進(jìn)行分類;在領(lǐng)域?qū)用?,可以采用本體等工具確定領(lǐng)域。并在此基礎(chǔ)上建立情感問(wèn)題類型體系。針對(duì)情感問(wèn)題,采用情感問(wèn)題類型體系對(duì)它進(jìn)一步分類,確定問(wèn)題的關(guān)鍵信息和與預(yù)期候選答案的關(guān)系。

        所以,總的來(lái)說(shuō),對(duì)于問(wèn)題的分析,最終將有三部分組成:

        a) 語(yǔ)義層面的一些關(guān)鍵詞;

        b) 語(yǔ)法層面的不同疑問(wèn)句類型的分類;

        c) 領(lǐng)域?qū)用骖I(lǐng)域的確定。

        2.1 語(yǔ)義層面

        對(duì)于一般的文本來(lái)說(shuō),往往可以通過(guò)一些關(guān)鍵詞的搜索來(lái)進(jìn)行語(yǔ)義層面的分類。但是問(wèn)題分類有其特殊性,由于篇幅較小,一個(gè)問(wèn)題不超過(guò)20個(gè)語(yǔ)素,所以往往其語(yǔ)義不容易判斷。而對(duì)于情感問(wèn)題來(lái)說(shuō),它的問(wèn)題覆蓋面更狹窄,情感問(wèn)題往往是圍繞著一個(gè)情感表達(dá)事件來(lái)進(jìn)行提問(wèn)。因此只要將關(guān)于這個(gè)情感表達(dá)事件描述的關(guān)鍵詞抽取出來(lái),那么,就可以了解整個(gè)情感表達(dá)事件的大致意思。通過(guò)對(duì)大量情感問(wèn)題的觀察,我們認(rèn)為主要有以下幾個(gè)關(guān)鍵詞:

        (1) 情感詞(sentiment word)

        對(duì)于絕大多數(shù)情感問(wèn)題來(lái)說(shuō),帶有極性的形容詞或者動(dòng)詞往往是表達(dá)情感和看法用的最多的語(yǔ)素。因?yàn)樗鼛в幸欢ǖ那楦袃A向,而這些傾向則往往用來(lái)表達(dá)人對(duì)于事物的態(tài)度。本次實(shí)驗(yàn)利用《知網(wǎng)》(HowNet)情感詞辭典來(lái)判斷情感詞。

        值得一提的是,大多數(shù)情感詞具有兩種詞性,一為形容詞,另一為動(dòng)詞。由于這兩種詞在句中的語(yǔ)法作用不同,所以往往要分開標(biāo)記。

        (2) 主題詞(target)

        在情感問(wèn)題中,情感詞是用來(lái)修飾主題詞的,是為了對(duì)該主題表達(dá)一定的情感。在本次實(shí)驗(yàn)中,主要利用我們實(shí)驗(yàn)室已有的汽車主題庫(kù)進(jìn)行搜索[6]。

        (3) 持有者(holder)

        在情感問(wèn)題中,不同的人和團(tuán)體對(duì)于相同的主題可能抱有不同的情感和看法,因此持有者也應(yīng)該作為一個(gè)關(guān)鍵詞。

        由于持有者可以是任何人、組織或者團(tuán)體,范圍很大,所以利用辭典不可能囊括。因此,還要加上語(yǔ)法上的判斷,比如動(dòng)詞前面很有可能就是情感的持有者,特別是建議性動(dòng)詞和情感動(dòng)詞。所以對(duì)于這兩者前面的名詞、代詞,和一些專有名詞,都認(rèn)為是情感持有者并提取出來(lái)。要注意的是,很多句子中會(huì)缺少情感持有者。

        例如:吉普車安全嗎?

        問(wèn)題的情感持有者被省略了。通過(guò)分析,本次實(shí)驗(yàn)中把情感持有者省略的狀況認(rèn)為是對(duì)于“你”的提問(wèn)。對(duì)于上例即看作“你認(rèn)為吉普車安全嗎?”

        2.2 語(yǔ)法層面

        在本次實(shí)驗(yàn)中對(duì)于情感問(wèn)題分類的語(yǔ)法層面研究主要向英語(yǔ)語(yǔ)法借鑒[7],將其分成兩大類,即一般疑問(wèn)句和特殊疑問(wèn)句。鑒于一般疑問(wèn)句的回答比較簡(jiǎn)單,所以不再細(xì)分。而特殊疑問(wèn)句首先與上一節(jié)抽取到的三個(gè)關(guān)鍵詞相對(duì)應(yīng)。用英語(yǔ)來(lái)表示即為:情感詞對(duì)應(yīng)“how”,主題詞對(duì)應(yīng)“what”,持有者對(duì)應(yīng)“who”。同樣問(wèn)原因“why”的特殊疑問(wèn)句也可以放在情感問(wèn)題的分類里面,但是對(duì)于“where”和“when”這兩個(gè)問(wèn)地點(diǎn)和時(shí)間的特殊疑問(wèn)詞,則將它們舍去,因?yàn)樗鼈兛偸浅霈F(xiàn)在非情感問(wèn)題當(dāng)中,不在我們所討論的情感問(wèn)題范疇之內(nèi)。

        情感問(wèn)題分類如表1所示。

        表1 情感問(wèn)題分類表

        情感詞類:這類問(wèn)題是詢問(wèn)人或者團(tuán)體對(duì)于某一事件或事物的看法,而這類問(wèn)題回答的要點(diǎn)總是在于情感詞,表2是幾種基本的問(wèn)句類型。

        表2 情感詞類句式規(guī)則表

        主題詞類:這類問(wèn)題是詢問(wèn)人或者團(tuán)體什么事物或事件持有特定的看法,而這類問(wèn)題回答的要點(diǎn)總是在于主題詞,表3是幾種基本的問(wèn)句類型。

        持有者類:這類問(wèn)題是詢問(wèn)哪些人或團(tuán)體對(duì)某些事物或事件持有某種看法,而這類問(wèn)題回答的要點(diǎn)總是在于持有者,表4是幾種基本的問(wèn)句類型。

        表3 主題詞類句式規(guī)則表

        表4 持有者類句式規(guī)則表

        原因類:這類問(wèn)題是詢問(wèn)情感事件表達(dá)的原因,而這類問(wèn)題的回答要點(diǎn)總是在于理由,表5是幾種基本的問(wèn)句類型。

        表5 原因類句式規(guī)則表

        一般疑問(wèn)句類:在情感問(wèn)題中,一般疑問(wèn)句常常詢問(wèn)某一情感表達(dá)事件的正確與否,而這類問(wèn)題的答案一般只有兩種:正確或錯(cuò)誤。表6是幾種基本的問(wèn)句類型。

        從上述五種疑問(wèn)句類型中可以總結(jié)出幾點(diǎn)情感問(wèn)題句式規(guī)律:

        (1) 一般來(lái)說(shuō)主題詞和情感詞的位置可以互換,且不影響句子的表達(dá)。

        (2) 一般來(lái)說(shuō)句子帶有持有者和建議性動(dòng)詞的,兩者可以省略,不影響句子的表達(dá)。

        (3) 疑問(wèn)詞的不同和某種關(guān)鍵詞的缺失往往決定了句子的類型。

        表6 一般疑問(wèn)句句式規(guī)則表

        2.3 領(lǐng)域?qū)用?/h3>

        對(duì)情感問(wèn)題的分析來(lái)看,決定這個(gè)問(wèn)題是屬于哪個(gè)領(lǐng)域最關(guān)鍵的是主題詞。主題詞往往決定了情感所針對(duì)的對(duì)象,這個(gè)對(duì)象屬于哪個(gè)領(lǐng)域則這個(gè)情感問(wèn)題也屬于該領(lǐng)域。在本次實(shí)驗(yàn)中,利用Google來(lái)進(jìn)行相關(guān)性的搜索。比如主題是“奔馳”,那么在Google中輸入“奔馳 汽車”,記錄其相關(guān)網(wǎng)頁(yè)數(shù)量,同時(shí)也輸入“奔馳 食物”,記錄其相關(guān)網(wǎng)頁(yè)數(shù)量,“汽車”和“食物”為領(lǐng)域。當(dāng)將主題詞和不同的領(lǐng)域的搜索引擎相關(guān)網(wǎng)頁(yè)數(shù)得到后,其中數(shù)值最大的領(lǐng)域便是這個(gè)主題的領(lǐng)域。對(duì)于問(wèn)題的領(lǐng)域,并不是說(shuō)要將其限定在某個(gè)領(lǐng)域中,而是將其歸納到某個(gè)領(lǐng)域中方便以后對(duì)答案進(jìn)行篩選等步驟,對(duì)于問(wèn)題本身沒(méi)有影響。

        例如:對(duì)于主題“寶馬”的領(lǐng)域判斷,以下數(shù)據(jù)來(lái)源于www.google.com。

        約有 19 100 000項(xiàng)符合 寶馬 汽車 的查詢結(jié)果

        約有 9 730 000項(xiàng)符合 寶馬 食物 的查詢結(jié)果

        約有 1 570 000項(xiàng)符合 寶馬 mp3 的查詢結(jié)果

        可見寶馬與汽車的相關(guān)網(wǎng)頁(yè)最多,所以判斷寶馬屬于汽車領(lǐng)域。

        3 系統(tǒng)介紹及實(shí)驗(yàn)分析

        從圖1來(lái)看,在語(yǔ)義、語(yǔ)法、領(lǐng)域三個(gè)方面,語(yǔ)義層次的分析最重要,它是一切的基礎(chǔ),關(guān)鍵詞的標(biāo)注是另外兩步的基礎(chǔ)。而語(yǔ)法層面和領(lǐng)域?qū)用嬖谀玫秸Z(yǔ)義分析的結(jié)果后則可以分別獨(dú)立執(zhí)行,最后將三個(gè)部分的結(jié)果整合輸出。

        圖1 情感問(wèn)題分類流程圖

        本次實(shí)驗(yàn)對(duì)于每種疑問(wèn)句類型準(zhǔn)備20句左右的測(cè)試語(yǔ)料,并按難度將其分成三等,對(duì)整個(gè)情感問(wèn)題分類系統(tǒng)進(jìn)行測(cè)試,并且手工判斷其結(jié)果正確與否。最后的結(jié)果如表7所示。

        從表7看來(lái),本次實(shí)驗(yàn)的結(jié)果一開始不是十分理想,仔細(xì)觀察一些錯(cuò)位的句子,發(fā)現(xiàn)主要有以下幾個(gè)主要問(wèn)題:

        例1:哪些人覺(jué)得寶馬車是最舒適的跑車?

        這句問(wèn)題,系統(tǒng)的類型判斷正確,但是對(duì)于情感詞的提取則不夠精確,系統(tǒng)提取了“舒適”而不是“最舒適”,而“最”、“不”、“比較”這類副詞對(duì)于后續(xù)研究中對(duì)于答案的搜索有著至關(guān)重要的作用,所以應(yīng)該將情感形容詞前的副詞一并加入情感詞輸出。

        例2: 為什么人們覺(jué)得奧迪漂亮安全?

        該句疑問(wèn)句分類正確,但是對(duì)于情感詞的提取不夠全面,系統(tǒng)提取了“漂亮”,但是“安全”則被忽略了。在情感問(wèn)題中,常常有這一類問(wèn)題,其主題擁有多個(gè)情感詞。應(yīng)該將并列的情感詞一起輸出。

        表7 情感問(wèn)題分類系統(tǒng)實(shí)驗(yàn)結(jié)果

        修改了以上一些問(wèn)題之后,用新的系統(tǒng)來(lái)進(jìn)行測(cè)試,結(jié)果有了很大的改善,對(duì)于簡(jiǎn)單和中等的情感問(wèn)題處理得比較理想。但是,對(duì)于困難的情感問(wèn)題,處理起來(lái)仍有些吃力,主要是由于漢語(yǔ)隨意性較強(qiáng),句型、詞性等在不同的情況下都可以有不同的變化。

        4 結(jié)束語(yǔ)

        本文對(duì)情感問(wèn)題分類進(jìn)行研究,從語(yǔ)義、語(yǔ)法和領(lǐng)域三個(gè)方面對(duì)其進(jìn)行分類。語(yǔ)義上挑選出三種關(guān)鍵詞;在語(yǔ)法上,將問(wèn)題分成五種類型,并制定相應(yīng)的規(guī)則,對(duì)其進(jìn)行分類;在領(lǐng)域上,利用網(wǎng)絡(luò)搜索引擎得到結(jié)果進(jìn)行分類。實(shí)驗(yàn)的結(jié)果比較理想。經(jīng)過(guò)實(shí)驗(yàn),我們認(rèn)為漢語(yǔ)情感問(wèn)題分類最關(guān)鍵的部分還是在語(yǔ)法層面,如果能將每個(gè)詞在句子中所起到的作用分析清楚并且在系統(tǒng)中很好地加以識(shí)別,分類會(huì)方便很多。

        綜上所述,可以看出:漢語(yǔ)情感問(wèn)答系統(tǒng)作為一個(gè)新興的搜索引擎發(fā)展方向,對(duì)其的研究才剛剛起步,不管是理論上還是工程上,仍有很大的提升空間。

        [1] SOMASUNDARAN S, WILSON T, WIEBE J, et al. QA with attitude: exploiting opinion type analysis for improving question answering in on-line discussions and the news[C]//Proceedings of the International Conference on Weblogs and Social Media. Boulder, Colorado,USA, 2007.

        [2] YU H, HATZIVASSILOGLOU V. Towards answering opinion questions: separating facts from opinions and identifying the polarity of opinion sentences[C]//Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing. Sapporo, Japan, 2003: 129-136.

        [3] Kim, S-M and Hovy, E. Identifying Opinion Holders for Question Answering in Opinion Texts[C]//Proceedings of AAAI-05 Workshop on Question Answering in Restricted Domains.2005.

        [4] Lun-Wei Ku etc. Question Analysis and Answer Passage Retrieval for Opinion Question Answering Systems[C]//Computational Linguistics and Chinese Language Processing Vol.13,No.3, September 2008: 307-326.

        [5] 鄭實(shí)福,劉挺,秦兵,等.自動(dòng)問(wèn)答綜述[J].中文信息學(xué)報(bào),2002,16(6):46-52.

        [6] 姚天昉,聶青陽(yáng),李建超,等. 一個(gè)用于漢語(yǔ)汽車評(píng)論的意見挖掘系統(tǒng)[C]//中文信息處理前沿進(jìn)展-中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集. 北京:清華大學(xué)出版社,2006,260-281.

        [7] 張剛,劉挺,鄭實(shí)福,等.開放域中文問(wèn)答系統(tǒng)的研究與實(shí)現(xiàn)[C]//哈爾濱工業(yè)大學(xué)信息檢索研究室論文集,第一卷,2003.

        猜你喜歡
        持有者主題詞層面
        江陰市三個(gè)層面構(gòu)建一體化治理重大事故隱患機(jī)制
        健康到底是什么層面的問(wèn)題
        最低密度冰:水的第18種晶形
        新天地(2016年3期)2016-05-30 10:48:04
        高三化學(xué)復(fù)習(xí)的四個(gè)“層面”
        財(cái)政部:央企紅利轉(zhuǎn)社保可緩解養(yǎng)老金繳費(fèi)壓力
        策略探討:有效音樂(lè)聆聽的三層面教學(xué)研究(二)
        我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
        我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
        2014年第16卷第1~4期主題詞索引
        《疑難病雜志》2014年第13卷主題詞索引
        国产成人国产三级国产精品| 久久精品国产免费观看99| 日韩人妻无码中文字幕一区| 日韩有码在线免费视频| 色综合久久蜜芽国产精品| 国内精品久久久久影院一蜜桃 | 精品女同一区二区三区免费播放| 亚洲一区二区免费在线观看视频 | 亚洲色无码播放| 国产成人香蕉久久久久| 看一区二区日本视频免费| 无码人妻一区二区三区免费看| 丰满老熟妇好大bbbbb| 精品午夜一区二区三区久久 | 韩日无码不卡| 亚洲综合一区二区三区在线观看| 国产后入清纯学生妹| 亚洲精品无码高潮喷水在线| 午夜无码亚| 亚洲国产精品国自拍av| 人与动牲交av免费| 正在播放国产多p交换视频| 日韩精品一二区在线视频| 亚洲一区二区三区四区地址| 99视频30精品视频在线观看| 国产三级精品三级国产| 男女啦啦啦视频在线观看| 免费av一区二区三区| 131美女爱做视频| 国产丰满乱子伦无码专| 麻婆视频在线免费观看| 久久精品国产亚洲av电影网| 国产一区二区精品在线观看| 久草视频在线播放免费| 999精品无码a片在线1级| 人人妻人人澡人人爽曰本| 国产精品久久一区性色a| 国产麻豆精品传媒av在线| 国产高清在线精品一区二区三区 | 熟妇丰满多毛的大隂户| 久久精品国产6699国产精|