亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文微博評(píng)價(jià)對(duì)象識(shí)別研究

        2017-02-22 07:10:56景,牛
        關(guān)鍵詞:博文相似性語義

        張 景,牛 耘

        (南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210016)

        中文微博評(píng)價(jià)對(duì)象識(shí)別研究

        張 景,牛 耘

        (南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210016)

        旨在對(duì)中文微博文本的句子中評(píng)價(jià)對(duì)象進(jìn)行識(shí)別。評(píng)價(jià)對(duì)象識(shí)別是指識(shí)別出評(píng)論中情感表達(dá)所針對(duì)的對(duì)象,進(jìn)行評(píng)價(jià)對(duì)象的識(shí)別有助于對(duì)事件發(fā)展?fàn)顩r進(jìn)行監(jiān)控管理。目前,針對(duì)中文微博領(lǐng)域評(píng)價(jià)對(duì)象識(shí)別的研究較少。由于微博文本的句子簡(jiǎn)短、語言表達(dá)不夠規(guī)范且表達(dá)的觀點(diǎn)缺少帶情感傾向性的詞語(評(píng)價(jià)詞),因而傳統(tǒng)的通過評(píng)價(jià)詞來找到評(píng)價(jià)對(duì)象的方法不適用于微博文本。利用詞性分析提取和過濾評(píng)價(jià)對(duì)象候選詞,并結(jié)合語義分析對(duì)句子中的候選詞進(jìn)行分類,基于相似的句子有著相似的評(píng)價(jià)對(duì)象的假設(shè),采用候選詞的相似性迭代算法識(shí)別中文微博文本句子中的評(píng)價(jià)對(duì)象。實(shí)驗(yàn)結(jié)果表明,通過深入分析微博文本的語言特征提出的方法,提高了對(duì)評(píng)價(jià)對(duì)象識(shí)別的精度。

        評(píng)價(jià)對(duì)象;候選詞提?。徽Z義分析;相似性計(jì)算

        0 引 言

        隨著微博、博客、論壇等社交媒體的蓬勃發(fā)展,越來越多的用戶參與到社交網(wǎng)絡(luò)平臺(tái)內(nèi)容建設(shè)的過程中,互聯(lián)網(wǎng)上產(chǎn)生了大量帶有情感色彩的評(píng)論信息。為了能夠?qū)λ鼈兏玫剡M(jìn)行加工匯總,找出富有價(jià)值的信息,情感分析作為自然語言處理領(lǐng)域中的一個(gè)熱點(diǎn)問題應(yīng)運(yùn)而生。目前,越來越多的研究者將目光轉(zhuǎn)向更細(xì)粒度的情感分析任務(wù),如評(píng)價(jià)對(duì)象的識(shí)別,具體表現(xiàn)為識(shí)別出某段評(píng)論中情感表達(dá)所針對(duì)的對(duì)象。評(píng)價(jià)對(duì)象識(shí)別的研究能夠在某個(gè)社會(huì)熱點(diǎn)事件、電影、品牌等話題方面發(fā)現(xiàn)不同用戶所關(guān)心討論的各個(gè)主題,更加全面地了解公眾對(duì)于一個(gè)話題意見表達(dá)的方方面面,有助于對(duì)事件發(fā)展?fàn)顩r進(jìn)行監(jiān)控管理,甚至對(duì)事件發(fā)展?fàn)顩r進(jìn)行預(yù)測(cè)。因而,評(píng)價(jià)對(duì)象識(shí)別的研究具有一定的商業(yè)價(jià)值及應(yīng)用前景。

        目前,關(guān)于評(píng)價(jià)對(duì)象識(shí)別的研究大部分集中于新聞、產(chǎn)品或電影評(píng)論領(lǐng)域。傳統(tǒng)的研究方法中,大多先將評(píng)價(jià)對(duì)象限定在名詞或名詞性短語的范疇內(nèi),進(jìn)而通過帶有情感傾向性的詞語(評(píng)價(jià)詞)來幫助對(duì)評(píng)價(jià)對(duì)象的識(shí)別。然而,在中文微博領(lǐng)域關(guān)于評(píng)價(jià)對(duì)象識(shí)別的研究很少。一方面,微博文本具有口語化程度強(qiáng)、表達(dá)情感強(qiáng)烈而理性評(píng)價(jià)淡化、觀點(diǎn)表達(dá)隱晦、評(píng)價(jià)對(duì)象在句子中不直接出現(xiàn)、語言不夠規(guī)范等特點(diǎn)[1]。另一方面,微博文本句子簡(jiǎn)短、口語色彩濃重,表達(dá)觀點(diǎn)的句子并不總是包含評(píng)價(jià)詞。故傳統(tǒng)的利用評(píng)價(jià)詞對(duì)評(píng)價(jià)對(duì)象識(shí)別的方法并不適用于中文微博文本。所以,針對(duì)中文微博文本評(píng)價(jià)對(duì)象識(shí)別的研究具有很大的挑戰(zhàn)和意義。

        通過深入分析微博文本的語言特征,結(jié)合詞性及語義分析提取和過濾評(píng)價(jià)對(duì)象候選詞,基于相似的句子有著相似的評(píng)價(jià)對(duì)象的假設(shè),提出了一種候選詞的相似性迭代算法來識(shí)別評(píng)價(jià)對(duì)象。實(shí)驗(yàn)結(jié)果表明,該方法提高了對(duì)評(píng)價(jià)對(duì)象識(shí)別的精度。

        1 相關(guān)工作

        評(píng)價(jià)對(duì)象的抽取是識(shí)別出評(píng)論中情感表達(dá)所面向的對(duì)象?,F(xiàn)有的研究大部分集中于產(chǎn)品評(píng)價(jià)領(lǐng)域中評(píng)價(jià)對(duì)象的抽取。主要有兩種基本方法:非監(jiān)督和有監(jiān)督的方法。

        1.1 基于非監(jiān)督的評(píng)價(jià)對(duì)象識(shí)別

        在非監(jiān)督的學(xué)習(xí)方法中,倪茂樹等[2]使用關(guān)聯(lián)規(guī)則挖掘的方法找出頻繁出現(xiàn)的候選評(píng)價(jià)對(duì)象,繼而使用兩種剪枝方法去除錯(cuò)誤樣例。隨之發(fā)現(xiàn)在評(píng)論文本中,人們?cè)u(píng)論相同的評(píng)價(jià)對(duì)象時(shí)會(huì)使用相同的評(píng)價(jià)詞。故通常根據(jù)評(píng)價(jià)對(duì)象和評(píng)價(jià)詞之間的依賴關(guān)系迭代地進(jìn)行引導(dǎo)提取。Qiu等[3]利用依存句法分析制定了八條啟發(fā)式的語法規(guī)則并采用雙傳播方法迭代地提取出評(píng)價(jià)對(duì)象和評(píng)價(jià)詞。Zhang等[4]拓展了Qiu的方法,增加了兩條規(guī)則(如部分-整體和否定規(guī)則),來增加召回率,采用HITS算法對(duì)評(píng)價(jià)對(duì)象候選詞打分并排序,提高了準(zhǔn)確度。為了降低句法分析工具帶來的誤差,Liu等[5-6]通過翻譯模型中的詞對(duì)齊方法來捕捉評(píng)價(jià)詞和評(píng)價(jià)對(duì)象間的關(guān)系。此后,Liu等[7]進(jìn)一步進(jìn)行研究,考慮了候選詞間的語義關(guān)系并結(jié)合句法關(guān)系提取評(píng)價(jià)對(duì)象和評(píng)價(jià)詞。高磊[8]、文坤梅等[9]通過對(duì)微博文本內(nèi)容進(jìn)行句法依賴關(guān)系分析結(jié)合情感詞典得到成對(duì)的<情感詞,情感對(duì)象>關(guān)系,進(jìn)而抽取情感對(duì)象。

        1.2 基于有監(jiān)督的評(píng)價(jià)對(duì)象識(shí)別

        在有監(jiān)督的學(xué)習(xí)方法中,評(píng)價(jià)對(duì)象的抽取可以看作是信息抽取問題中的一個(gè)特例。信息抽取的研究中提出了很多監(jiān)督學(xué)習(xí)算法。其中主流的方法有隱馬爾可夫模型、支持向量機(jī)和條件隨機(jī)場(chǎng)。由于這些方法是監(jiān)督學(xué)習(xí)技術(shù),所以事先需要有標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練。Jakob等[10]基于CRF模型將評(píng)價(jià)對(duì)象識(shí)別的問題建模成信息抽取的任務(wù)。其使用的特征有詞、詞性、最短依賴路徑、詞距離,驗(yàn)證了此模型在不同領(lǐng)域的評(píng)價(jià)對(duì)象識(shí)別任務(wù)中取得了較好的結(jié)果。王榮洋等[11]通過大量實(shí)驗(yàn),系統(tǒng)地比較研究了各類特征在基于CRFs的評(píng)價(jià)對(duì)象識(shí)別系統(tǒng)中的選擇對(duì)性能的影響,將特征歸納為詞法、語法、相對(duì)位置、語義四大類別。實(shí)驗(yàn)結(jié)果表明,重點(diǎn)引入的語義角色標(biāo)注特征對(duì)評(píng)價(jià)對(duì)象識(shí)別起到了很好的指示作用。郝志峰等[12]在傳統(tǒng)的CRF序列標(biāo)記模型上增加情感對(duì)象的全局節(jié)點(diǎn),有效地結(jié)合上下文信息、句法依賴以及情感詞典,從而可以識(shí)別出微博中的情感對(duì)象。

        2 中文微博評(píng)價(jià)對(duì)象的識(shí)別

        與產(chǎn)品評(píng)價(jià)領(lǐng)域不同,微博文本通常圍繞某一話題標(biāo)簽表達(dá)情感、闡發(fā)意見并進(jìn)行討論,因而形成了帶有一個(gè)鮮明主題的話題型微博群。話題型微博由話題標(biāo)簽(hashtag)和正文(content)兩部分組成,如:“#90后暴打老人#公德喪失!這是教育的失敗”。其中,“#”之間即為話題標(biāo)簽,除話題標(biāo)簽外即是正文,由一條或多條句子構(gòu)成。文中目標(biāo)是識(shí)別出話題型微博文本觀點(diǎn)句中的評(píng)價(jià)對(duì)象。首先,在一個(gè)話題下,結(jié)合詞性及語義分析提取和過濾評(píng)價(jià)對(duì)象候選詞。然后,基于相似的句子有著相似的評(píng)價(jià)對(duì)象的假設(shè),利用候選詞的相似性迭代算法對(duì)候選詞打分。最后,對(duì)于每一個(gè)句子,提取出得分最高的候選詞作為當(dāng)前句子的評(píng)價(jià)對(duì)象。

        2.1 評(píng)價(jià)對(duì)象候選詞的提取及過濾

        觀察語料,發(fā)現(xiàn)評(píng)價(jià)對(duì)象大多以名詞或名詞性短語的形式存在,而且不同詞間的語義差異有助于過濾句子中的評(píng)價(jià)對(duì)象。所以,利用詞性信息和語義分析對(duì)評(píng)價(jià)對(duì)象候選詞進(jìn)行提取和過濾。

        (1)提取候選詞。

        利用中文分詞工具ICTCLAS進(jìn)行分詞及詞性標(biāo)記后,針對(duì)微博正文中的每一個(gè)句子,提取出名詞或名詞性短語作為當(dāng)前句子中的顯性評(píng)價(jià)對(duì)象候選詞。而對(duì)于沒有顯性評(píng)價(jià)對(duì)象候選詞的句子,若其所在微博的前一個(gè)句子存在顯性評(píng)價(jià)對(duì)象候選詞,則以前一個(gè)句子中的顯性評(píng)價(jià)對(duì)象候選詞作為當(dāng)前句子的隱性評(píng)價(jià)對(duì)象候選詞。同時(shí),對(duì)于微博中的所有句子,提取話題標(biāo)簽內(nèi)的名詞或名詞性短語作為隱性評(píng)價(jià)對(duì)象候選詞。其中,名詞性短語只包含名詞和漢字“的”,由定語和中心詞構(gòu)成。中心詞是名詞,其定語是名詞或“的”字短語(如“中國的”)。在“中國/ns 人/n 的/ude1 尊嚴(yán)/n 何在/vi ?/ww”一句中,“中國人的尊嚴(yán)”作為名詞性短語被提取出作為評(píng)價(jià)對(duì)象候選詞。

        (2)過濾候選詞。

        觀察語料發(fā)現(xiàn),僅僅依靠詞性提取候選詞,則忽略了詞類內(nèi)部不同詞之間的語義差異。有些詞拋開上下文語境顯然不能單獨(dú)擔(dān)任評(píng)價(jià)對(duì)象,這些詞被稱為評(píng)價(jià)對(duì)象絕緣詞,如“詳情、時(shí)候、大家”等。分析語料人工篩選出13個(gè)詞并結(jié)合周紅照等[13]篩選出的81個(gè)詞共94個(gè)作為評(píng)價(jià)對(duì)象絕緣詞對(duì)候選詞進(jìn)行過濾,去掉評(píng)價(jià)對(duì)象候選詞中的評(píng)價(jià)對(duì)象絕緣詞。

        2.2 評(píng)價(jià)對(duì)象的識(shí)別

        發(fā)現(xiàn)在一個(gè)話題下,相似的句子有著相似的評(píng)價(jià)對(duì)象,如表1所示。

        表1 同一話題下相似的句子

        表中每個(gè)話題下的兩個(gè)句子都是相似的,因?yàn)樗鼈儞碛邢嗤囊粋€(gè)或數(shù)個(gè)詞。如相似的句子:“太厲害了吧……”和“90后太厲害了!”兩句中有三個(gè)相同的詞“太”、“厲害”、“了”。文中方法是通過計(jì)算句子間的相似性,對(duì)每一個(gè)句子中的評(píng)價(jià)對(duì)象候選詞打分,得分最高的候選詞作為當(dāng)前句子的評(píng)價(jià)對(duì)象。

        已有的研究中,Zhou等[14]也是根據(jù)相似性計(jì)算提出了非監(jiān)督標(biāo)簽傳播算法(Unsupervised Label Propagation,ULP)。通過句子間的相似性計(jì)算更新微博文本的句子中評(píng)價(jià)對(duì)象候選詞分值,來確定句子中的評(píng)價(jià)對(duì)象。他們的方法存在以下不足之處:第一,Zhou等沒有從語義上對(duì)句子進(jìn)行分析,忽略了詞位置和詞語搭配對(duì)識(shí)別評(píng)價(jià)對(duì)象的重要指示作用;第二,對(duì)于相似句子數(shù)很少的句子,候選詞的分值在更新過程中變化不大,Zhou等并沒有對(duì)候選詞初始分值的設(shè)定做深入的分析。所以,文中基于相似的句子有著相似的評(píng)價(jià)對(duì)象的假設(shè),針對(duì)以上問題,提出了以下方法。

        2.2.1 句子的向量表示

        為了表示句子中的候選詞成為評(píng)價(jià)對(duì)象的可能性大小,文中將微博正文中的句子用向量表示。其中,向量的每一維對(duì)應(yīng)了一個(gè)候選詞,每一維的權(quán)重表示該候選詞成為評(píng)價(jià)對(duì)象的可能性大小。

        (1)

        其中,w表示句子v中的候選詞CTk成為評(píng)價(jià)對(duì)象的可能性大小,不屬于當(dāng)前句子中的候選詞對(duì)應(yīng)的向量權(quán)值為0。

        發(fā)現(xiàn)評(píng)價(jià)對(duì)象候選詞在句子中與不同詞語的搭配及不同的出現(xiàn)位置,影響了候選詞成為評(píng)價(jià)對(duì)象的可能性不同。故先對(duì)一個(gè)話題下的候選詞進(jìn)行分類,幫助設(shè)置句子的向量的初始權(quán)重。

        觀察語料發(fā)現(xiàn),與某些詞語搭配及出現(xiàn)在句首與標(biāo)點(diǎn)符號(hào)后的候選詞,更有可能是當(dāng)前句子的評(píng)價(jià)對(duì)象。首先,對(duì)以這兩種方式出現(xiàn)的候選詞做深入分析,如下:

        (1)評(píng)價(jià)觸發(fā)詞之后的詞。根據(jù)語用習(xí)慣,評(píng)價(jià)對(duì)象經(jīng)常和一些特定的詞語搭配且緊跟在這些詞語之后,這些詞往往是一個(gè)評(píng)價(jià)的觸媒,稱之為“評(píng)價(jià)觸發(fā)詞”,主要有以下四種類型。

        ·連詞。如:由于(連詞)金基范版段譽(yù)(評(píng)價(jià)對(duì)象)太磕磣,所以顯得張檬的王語嫣就不是太對(duì)不起觀眾了。

        ·動(dòng)詞。如:我覺得(動(dòng)詞)這種行為(評(píng)價(jià)對(duì)象)太過分了!

        ·副詞。如:其實(shí)(副詞)韓寒(評(píng)價(jià)對(duì)象)真的沒什么文學(xué)天賦,只是長(zhǎng)得好看而已。

        ·話語標(biāo)記詞。話語標(biāo)記詞是由數(shù)個(gè)不同詞性的一元詞構(gòu)成,有助于語篇的連貫性與條理性,并起到一定的指示作用。如:客觀說(話語標(biāo)記詞)《魔境仙蹤》(評(píng)價(jià)對(duì)象)很一般。

        分析語料人工篩選出12個(gè)詞并結(jié)合周紅照等[13]篩選出的46個(gè)詞共58個(gè)作為評(píng)價(jià)觸發(fā)詞,記緊跟觸發(fā)詞之后的評(píng)價(jià)對(duì)象候選詞為“搭配詞”。

        (2)句首及標(biāo)點(diǎn)符號(hào)后的詞。評(píng)價(jià)對(duì)象經(jīng)常會(huì)出現(xiàn)在以下兩種位置:句首和標(biāo)點(diǎn)符號(hào)之后。如:“360真是有種攀龍附鳳的感覺。”“剛還看了直播,不錯(cuò),這小伙子有前途。”分析語料記出現(xiàn)在句首和標(biāo)點(diǎn)符號(hào)之后的評(píng)價(jià)對(duì)象候選詞為“位置詞”。

        其次,綜合以上兩種類型的候選詞和句中候選詞的提取方式,句子中的候選詞分類如圖1所示。

        圖1 句子中的候選詞分類

        記C1為句子中的位置詞和搭配詞集,C2為句子中顯性評(píng)價(jià)對(duì)象候選詞中除位置詞和搭配詞之外的詞的集合,C3為句子中隱性評(píng)價(jià)對(duì)象候選詞集。

        對(duì)于句子v,文中根據(jù)候選詞的分類,對(duì)句子的向量初始權(quán)重設(shè)置為:當(dāng)CTk∈C1時(shí),w=1.5;當(dāng)CTk∈C2時(shí),w=1;當(dāng)CTk∈C3時(shí),w=0.5。

        通過對(duì)句子的向量的深入分析,發(fā)現(xiàn)當(dāng)句子v的相似句子數(shù)少于等于10時(shí),其向量權(quán)值在計(jì)算更新過程中變化不大,故對(duì)向量初始權(quán)值進(jìn)行重新設(shè)定以幫助找到正確的評(píng)價(jià)對(duì)象。認(rèn)為除搭配詞和位置詞之外的集合中顯性和隱性候選詞的重要性程度一致,對(duì)于相似句子數(shù)少于等于10的句子v的向量初始權(quán)重設(shè)置為:當(dāng)CTk∈C1時(shí),w=1.5;當(dāng)CTk∈C2或CTk∈C3時(shí),w=1。

        2.2.2 構(gòu)造無向圖

        為了能夠直觀表示一個(gè)話題下微博正文中句子間的關(guān)系,為每一個(gè)話題構(gòu)造了一個(gè)無向圖G=〈V,E,W〉。其中,節(jié)點(diǎn)v∈V表示微博正文中的一個(gè)句子。相似的兩個(gè)句子之間相互連通構(gòu)成一條邊e∈E,邊上的權(quán)值表示兩個(gè)句子間的相似度,故無向圖中所有邊上的權(quán)值構(gòu)成一個(gè)相似性矩陣W。句子u和v間的相似度利用向量空間模型計(jì)算如下:

        (2)

        其中,Tu和Tv分別表示句子u和v的詞頻向量。

        2.2.3 評(píng)價(jià)對(duì)象的確定

        由于一個(gè)句子中有一個(gè)或多個(gè)評(píng)價(jià)對(duì)象候選詞,因此基于無向圖G及相似的句子有著相似的評(píng)價(jià)對(duì)象的假設(shè),可以得出相似的兩個(gè)句子中實(shí)際為評(píng)價(jià)對(duì)象的候選詞之間的相似度很高,所以可以通過計(jì)算句子中所有候選詞間的相似性來幫助識(shí)別評(píng)價(jià)對(duì)象。

        首先,定義候選詞間的相似性。若兩個(gè)評(píng)價(jià)對(duì)象候選詞有相同的漢字,則認(rèn)為這兩個(gè)候選詞是相似的。根據(jù)一個(gè)話題下所有候選詞間的相似度構(gòu)造候選詞間的相似性矩陣S。候選詞CTi和CTj間的相似性計(jì)算如下:

        (3)

        其中,A(CTi)表示構(gòu)成第i個(gè)候選詞的字的集合。

        (4)

        最后,對(duì)句子v的向量迭代計(jì)算更新過程如下:

        (5)

        (6)

        3 實(shí) 驗(yàn)

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        文中利用第一屆自然語言處理與中文計(jì)算會(huì)議(NLP&CC 2013)面向中文微博的情感分析評(píng)測(cè)提供的20個(gè)話題的微博測(cè)試語料。據(jù)統(tǒng)計(jì),每個(gè)話題中已被人工標(biāo)注有觀點(diǎn)句和情感對(duì)象標(biāo)識(shí)的大約有100條微博。且在所有話題下,2 152條觀點(diǎn)句中標(biāo)記了2 357個(gè)評(píng)價(jià)對(duì)象,平均每個(gè)觀點(diǎn)句有1.09個(gè)評(píng)價(jià)對(duì)象,表明對(duì)觀點(diǎn)句僅抽取一個(gè)候選詞作為評(píng)價(jià)對(duì)象的方法是合理的。

        3.2 實(shí)驗(yàn)設(shè)置

        文中采用嚴(yán)格評(píng)價(jià)和寬松評(píng)價(jià)兩種方式,均使用精確率(P)、召回率(R)以及F值(F)作為評(píng)價(jià)標(biāo)準(zhǔn)。需要指出的是,比較提交的評(píng)價(jià)對(duì)象正確與否是根據(jù)評(píng)價(jià)對(duì)象在整條微博中的起始位置和終止位置與標(biāo)注的結(jié)果是否一致來判斷的。

        一個(gè)句子中,嚴(yán)格評(píng)價(jià)要求提交的評(píng)價(jià)對(duì)象的起止位置和標(biāo)注完全一致。而寬松評(píng)價(jià),首先定義提交的評(píng)價(jià)對(duì)象的起止區(qū)間s和標(biāo)注的評(píng)價(jià)對(duì)象的起止區(qū)間s′之間的覆蓋率c:

        (7)

        假設(shè)提交的評(píng)價(jià)對(duì)象結(jié)果的集合為S,標(biāo)注的結(jié)果集合為S′,兩個(gè)結(jié)果集合之間的覆蓋率C定義為:

        (8)

        則精確率、召回率和F值為:

        (9)

        (10)

        (11)

        3.3 實(shí)驗(yàn)結(jié)果及分析

        由于只有觀點(diǎn)句中才會(huì)有評(píng)價(jià)對(duì)象,故只對(duì)標(biāo)注出的觀點(diǎn)句中識(shí)別出的評(píng)價(jià)對(duì)象進(jìn)行對(duì)比實(shí)驗(yàn)。在已標(biāo)注的20個(gè)話題型微博測(cè)試語料上實(shí)現(xiàn)了ULP算法[2],并與CSI1和CSI2進(jìn)行比較。文中方法CSI1代表對(duì)于句子的向量初始權(quán)值設(shè)定上,僅考慮了語義分析提出位置詞和搭配詞對(duì)識(shí)別評(píng)價(jià)對(duì)象的指示作用,相似句子數(shù)很少的句子并未另作考慮;CSI2代表既進(jìn)行語義分析提出位置詞和搭配詞的指示作用,又對(duì)相似句子數(shù)很少的句子加以考慮。實(shí)驗(yàn)結(jié)果如表2、表3所示。關(guān)于式(6)中的參數(shù),設(shè)置為pinj=pcont=0.5。

        表2 評(píng)價(jià)對(duì)象識(shí)別結(jié)果(嚴(yán)格評(píng)價(jià)方式)

        表3 評(píng)價(jià)對(duì)象識(shí)別結(jié)果(寬松評(píng)價(jià)方式)

        由表2、表3可以看出,從嚴(yán)格評(píng)價(jià)和寬松評(píng)價(jià)兩個(gè)方面來看,文中方法對(duì)觀點(diǎn)句中評(píng)價(jià)對(duì)象的識(shí)別效果均優(yōu)于ULP。嚴(yán)格評(píng)價(jià)上,CSI1和CSI2相對(duì)于ULP在精確率上分別提高了1.4%、2.3%,在召回率上分別提高了1.2%、2.1%;寬松評(píng)價(jià)上,CSI1和CSI2相對(duì)于ULP在精確率上均提高了0.6%,在召回率上分別提高了0.8%、1.8%。實(shí)驗(yàn)結(jié)果表明,文中結(jié)合語義分析并對(duì)句子中的候選詞初始分值的設(shè)定作深入分析,從而對(duì)評(píng)價(jià)對(duì)象的識(shí)別有了明顯提升。

        同時(shí),比較文中方法CSI1和CSI2,嚴(yán)格評(píng)價(jià)上,CSI2相對(duì)于CSI1在精確率和召回率上均提高了0.9%;寬松評(píng)價(jià)上,召回率提高了1%。實(shí)驗(yàn)結(jié)果表明,對(duì)句子的向量初始權(quán)值設(shè)定時(shí),考慮相似句子數(shù)很少的句子的情況,有助于提高評(píng)價(jià)對(duì)象識(shí)別的準(zhǔn)確度。

        4 結(jié)束語

        文中基于相似的句子有著相似的評(píng)價(jià)對(duì)象的假設(shè),提出了改進(jìn)的非監(jiān)督標(biāo)簽傳播算法來識(shí)別話題型微博中的評(píng)價(jià)對(duì)象。文中方法進(jìn)行了語義分析,并考慮了相似句子數(shù)很少的句子的情況。將文中方法與ULP對(duì)比發(fā)現(xiàn),文中方法提高了對(duì)評(píng)價(jià)對(duì)象識(shí)別的精度,但并未考慮句子間相似性計(jì)算與候選詞相似性計(jì)算上的誤差。下一步將結(jié)合語料分析針對(duì)這兩個(gè)問題進(jìn)行改進(jìn),以更好地識(shí)別評(píng)價(jià)對(duì)象。

        [1] 侯 敏,滕永林,李雪燕,等.話題型微博語言特點(diǎn)及其情感分析策略研究[J].語言文字應(yīng)用,2013(2):135-143.

        [2] 倪茂樹,林鴻飛.基于關(guān)聯(lián)規(guī)則和極性分析的商品評(píng)論挖掘[C]//第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議.出版地不詳:出版者不詳,2007:628-634.

        [3]QiuGuang,LiuBing,BuJiajun,etal.Expandingdomainsentimentlexiconthroughdoublepropagation[C]//Proceedingsoftwenty-firstinternationaljointconferenceonartificialintelligence.Pasadena,California,USA:[s.n.],2009:1199-1204.

        [4]ZhangLei,LiuBing,LimSH,etal.Extractingandrankingproductfeaturesinopiniondocuments[C]//Proceedingsofthe23rdinternationalconferenceoncomputationallinguistics.Posters:AssociationforComputationalLinguistics,2010:1462-1470.

        [5]LiuKang,XuLiheng,ZhaoJun.Opiniontargetextractionusingword-basedtranslationmodel[C]//Proceedingsofthe2012jointconferenceonempiricalmethodsinnaturallanguageprocessingandcomputationalnaturallanguagelearning.JejuIsland,Korea:AssociationforComputationalLinguistics,2012:1346-1356.

        [6]LiuKang,XuLiheng,LiuYang,etal.Opiniontargetextractionusingpartially-supervisedwordalignmentmodel[C]//Proceedingsofthetwenty-thirdinternationaljointconferenceonartificialintelligence.[s.l.]:AAAIPress,2013:2134-2140.

        [7]LiuKang,XuLiheng,ZhaoJun.Extractingopiniontargetsandopinionwordsfromonlinereviewswithgraphco-ranking[C]//Proceedingsofthe52ndannualmeetingoftheassociationforcomputationallinguistics.Baltimore,Maryland,USA:[s.n.],2014:314-324.

        [8] 高 磊,李 斌,戴新宇,等.基于依存分析和褒義指向的微博情感隊(duì)形抽取方法[C]//自然語言處理與中文計(jì)算會(huì)議.北京:出版者不詳,2012.

        [9] 文坤梅,徐 帥.基于句法依存關(guān)系的微博情感分析方法[C]//自然語言處理與中文計(jì)算會(huì)議.北京:出版者不詳,2012.

        [10]JakobN,GurevychI.Extractingopiniontargetsinasingle-andcross-domainsettingwithconditionalrandomfields[C]//Proceedingsofthe2010conferenceonempiricalmethodsinnaturallanguageprocessing.[s.l.]:AssociationforComputationalLinguistics,2010:1035-1045.

        [11] 王榮洋,鞠久朋,李壽山,等.基于CRFs的評(píng)價(jià)對(duì)象抽取特征研究[J].中文信息學(xué)報(bào),2012,26(2):56-61.

        [12] 郝志峰,杜慎芝,蔡瑞初,等.基于全局變量CRFs模型的微博情感對(duì)象識(shí)別方法[J].中文信息學(xué)報(bào),2015,29(4):50-58.

        [13] 周紅照,侯明午,顏彭莉,等.語義特征在評(píng)價(jià)對(duì)象抽取與極性判定中的作用[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2014,50(1):93-99.

        [14]ZhouXinjie,WanXiaojun,XiaoJianguo.CollectiveopiniontargetextractioninChinesemicroblogs[C]//Proceedingsofthe2013conferenceonempiricalmethodsinnaturallanguageprocessing.Seattle,Washington,USA:[s.n.],2013:1840-1850.

        Research on Opinion Target Extraction in Chinese Microblogs

        ZHANG Jing,NIU Yun

        (School of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China)

        It focuses on extracting opinion targets in Chinese microblogs.Opinion target extraction aims to find the object to which the opinion is expressed,helping to monitor and control the development of events.At present,there are few researches on opinion target extraction in Chinese microblogs.Due to short text span,colloquial writing style and the lack of words with emotional tendency (opinion words) in Microblogs,the traditional approaches rely on opinion words are not suitable for microblogs. In this paper, we use the part-of-speech analysis to extract and filter candidate words,and combine semantic analysis to classify candidate words.Based on the assumption that similar messages may have similar opinion targets,a similarity iterative algorithm of candidate words is proposed to extract opinion targets.Experimental results show that by deeply analyzing language features of Microblogs,the proposed method has improved high accuracy.

        opinion target;candidate extraction;semantic analysis;similarity calculation

        2016-03-11

        2016-06-15

        時(shí)間:2017-01-04

        國家自然科學(xué)基金資助項(xiàng)目(61202132)

        張 景(1991-),女,碩士研究生,研究方向?yàn)樽匀徽Z言處理;牛 耘,副教授,CCF會(huì)員,研究方向?yàn)樽匀徽Z言處理。

        http://www.cnki.net/kcms/detail/61.1450.TP.20170104.1028.054.html

        TP31

        A

        1673-629X(2017)01-0006-05

        10.3969/j.issn.1673-629X.2017.01.002

        猜你喜歡
        博文相似性語義
        一類上三角算子矩陣的相似性與酉相似性
        第一次掙錢
        淺析當(dāng)代中西方繪畫的相似性
        語言與語義
        誰和誰好
        低滲透黏土中氯離子彌散作用離心模擬相似性
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        認(rèn)知范疇模糊與語義模糊
        打電話2
        国产香蕉尹人在线观看视频| 久久精品国产亚洲av性瑜伽| 久久久精品国产免大香伊| 极品成人影院| 国产欧美va欧美va香蕉在线观| 国产精品国产三级国av在线观看 | 久久无码av中文出轨人妻| 五月天欧美精品在线观看| 中文字幕人妻少妇久久| 免费在线观看av不卡网站| 极品av麻豆国产在线观看| 欧美a视频在线观看| 日本一区二区高清在线观看| 色哟哟亚洲色精一区二区| 夜夜未满十八勿进的爽爽影院| 51精品视频一区二区三区| 国产伦精品一区二区三区| 日本真人边吃奶边做爽电影| 亚洲 自拍 另类 欧美 综合| 日韩毛片久久91| 狂插美女流出白浆视频在线观看| 亚洲国产成人久久三区| 久热香蕉视频| 国模一区二区三区白浆| 操风骚人妻沉沦中文字幕| 人妻精品动漫h无码网站| 九九久久国产精品大片| 女主播国产专区在线观看| 日韩精品专区av无码| 国产黑色丝袜在线观看下| 亚洲中文字幕有码av| 一区二区三区国产精品乱码| 中文字幕在线播放| 久久亚洲成a人片| 91九色播放在线观看| 屁屁影院ccyy备用地址| 国产成人77亚洲精品www| 国产黄页网站在线观看免费视频| 国产一区二区三区最新视频| 丰满少妇被猛进去高潮| 国产麻豆成人精品av|