亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于評(píng)論質(zhì)量的多文檔文本情感摘要

        2015-04-21 08:17:28林莉媛王中卿李壽山周國(guó)棟
        中文信息學(xué)報(bào) 2015年4期
        關(guān)鍵詞:語料節(jié)點(diǎn)文本

        林莉媛,王中卿,李壽山,周國(guó)棟

        (蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

        ?

        基于評(píng)論質(zhì)量的多文檔文本情感摘要

        林莉媛,王中卿,李壽山,周國(guó)棟

        (蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

        文本情感摘要任務(wù)旨在對(duì)帶有情感的文本數(shù)據(jù)進(jìn)行濃縮、提煉進(jìn)而產(chǎn)生文本所表達(dá)的關(guān)于情感意見的摘要,用以幫助用戶更好地閱讀、理解情感文本的內(nèi)容。該文主要研究多文檔的文本情感摘要問題, 重點(diǎn)針對(duì)網(wǎng)絡(luò)上存在的同一個(gè)產(chǎn)品的多個(gè)評(píng)論進(jìn)行摘要抽取。在情感文本中,情感相關(guān)性是一個(gè)重要的特點(diǎn),該文將充分考慮情感信息對(duì)文本情感摘要的重要影響。同時(shí),對(duì)于評(píng)論語料,質(zhì)量高的評(píng)論或者說可信度高的評(píng)論可以幫助用戶更好的了解評(píng)論中所評(píng)價(jià)的對(duì)象。因此,該文將充分考慮評(píng)論質(zhì)量對(duì)文本情感摘要的影響。并且為了進(jìn)行關(guān)于文本情感摘要的研究,該文收集并標(biāo)注了一個(gè)基于產(chǎn)品評(píng)論的英文多文檔文本情感摘要語料庫(kù)。實(shí)驗(yàn)證明,情感信息和評(píng)論質(zhì)量能夠幫助多文檔文本情感摘要,提高摘要效果。

        情感摘要;多文檔;評(píng)論質(zhì)量

        1 引言

        互聯(lián)網(wǎng)中包含了豐富的用戶對(duì)于各種事物的情感、觀點(diǎn)等信息,而產(chǎn)品評(píng)論是其中重要的一部分,如“I’mprobablygoingtoreturnthem,Ireallydislikethedesign.”、“Theyworkgreat,welovethem.”等。在網(wǎng)絡(luò)上撰寫評(píng)論是很普遍的行為,而人們?cè)谫?gòu)買某個(gè)產(chǎn)品時(shí)也會(huì)先閱讀一下該產(chǎn)品的評(píng)論。但是當(dāng)某個(gè)產(chǎn)品有大量的評(píng)論時(shí),一次性閱讀完這些評(píng)論太費(fèi)時(shí)、費(fèi)力。文本摘要,尤其是文本情感摘要就可以很好地解決這個(gè)問題。

        文本情感摘要(Opinion Summarization)可以在很大程度上幫助用戶更好地理解網(wǎng)絡(luò)上大量的情感信息,是自然語言處理的一個(gè)重要課題[1]。文本情感摘要可以應(yīng)用在很多方面。例如,對(duì)搜索引擎返回結(jié)果的支持,對(duì)問答系統(tǒng)的支持,對(duì)話題檢測(cè)與跟蹤的支持等。由于人工的抽取文本情感摘要耗時(shí)耗力,因此自動(dòng)的文本情感摘要就成了迫切需要解決的問題。

        在評(píng)論文本中,句子間的主題與情感表達(dá)密切相關(guān),他們之間的關(guān)系對(duì)摘要的產(chǎn)生有很大的影響。同時(shí),由于缺乏編輯和質(zhì)量控制,評(píng)論的質(zhì)量差異很大。目前,部分電子商務(wù)網(wǎng)站已經(jīng)提供了用戶參與的評(píng)論質(zhì)量評(píng)價(jià)機(jī)制,例如,Amazon*www.amazon.com購(gòu)物網(wǎng)站允許用戶對(duì)評(píng)論是否有用(helpful)進(jìn)行投票。如圖1顯示的是Amazon.com網(wǎng)站的評(píng)論, 圖1中有

        “45,933 of 46,428 people found the following review helpful”。通過這種用戶參與的方式可以較準(zhǔn)確的判斷評(píng)論的質(zhì)量。Chen等[2]中發(fā)現(xiàn)通過“helpful”投票評(píng)價(jià)的評(píng)論會(huì)明確的影響產(chǎn)品的銷量。Kim等[3]和Hong等[4]中都使用“helpful”信息評(píng)價(jià)評(píng)論的質(zhì)量的。

        圖1 Amazon.com上關(guān)于評(píng)論質(zhì)量的一條評(píng)論實(shí)例

        因此,本文的主要研究情感和評(píng)論質(zhì)量(“helpful”)對(duì)情感摘要的影響。在具體實(shí)現(xiàn)中,我們采用PageRank算法和HITS算法,同時(shí)利用情感信息和評(píng)論質(zhì)量信息進(jìn)行文本情感摘摘要的抽取。實(shí)驗(yàn)結(jié)果表明,情感信息和評(píng)論質(zhì)量信息對(duì)摘要的提高有很大的幫助。

        本文其他部分的組織結(jié)構(gòu)為: 第二部分介紹了摘要的相關(guān)工作;第三部分介紹了我們使用的語料;第四部分介紹了我們的方法;第五部分介紹了實(shí)驗(yàn)結(jié)果;第六部分對(duì)本文進(jìn)行了總結(jié)并提出了進(jìn)一步的工作。

        2 相關(guān)工作

        自動(dòng)摘要的研究開始于1950年間[5]。自動(dòng)摘要可分為: 基于統(tǒng)計(jì)的摘要(Extractive Summarization)[6-7]和基于自然語言理解的摘要(Abstractive Summarization)[8-9]。本文采用的是基于統(tǒng)計(jì)的摘要。

        文本情感摘要是自動(dòng)摘要和情感分析研究里面的一個(gè)基本問題。但是在早期的研究中,情感摘要主要集中在預(yù)測(cè)給定的文本的整體情感傾向(positive或negative)[10-12]。例如,Pang等[10]提出通過機(jī)器學(xué)習(xí)的方法對(duì)文本進(jìn)行情感分類。Hu和Liu[11]一文中先識(shí)別出評(píng)論中的正、負(fù)類情感句子,再獲取正、負(fù)類摘要。Popescu 和 Etzioni[12]提出“OPINE”的方法預(yù)測(cè)評(píng)論中對(duì)產(chǎn)品屬性的評(píng)論的情感傾向。近幾年,情感摘要主要是對(duì)評(píng)論實(shí)體的某一屬性進(jìn)行打分或摘要,例如,對(duì)MP3的評(píng)論中電池壽命: 1 stars,屏幕: 3.5 stars等[13-17]。這樣產(chǎn)生的摘要都很有用,也可以表達(dá)用戶對(duì)產(chǎn)品或產(chǎn)品屬性的情感傾向,但是這樣的摘要缺少對(duì)評(píng)論的整體把握,當(dāng)用戶想要對(duì)評(píng)論有整體的了解時(shí),還是需要閱讀更多的評(píng)論以進(jìn)行了解。因此本文的多文檔文本情感摘要旨在將大量的評(píng)論進(jìn)行濃縮、提煉,幫助用戶消化網(wǎng)絡(luò)上大量的觀點(diǎn)。本文的情感摘更能給讀者更全面的觀感,從整體上了解評(píng)論中大多數(shù)人對(duì)產(chǎn)品的看法。

        然而,評(píng)論的質(zhì)量參差不齊,質(zhì)量高的評(píng)論更能獲得用戶的信賴。在現(xiàn)有的研究中,評(píng)論質(zhì)量與摘要的關(guān)系的研究還比較少。Liu等[18]對(duì)低質(zhì)量的產(chǎn)品評(píng)論進(jìn)行檢測(cè),用以幫助情感摘要,但該文中的摘要屬于對(duì)評(píng)論實(shí)體的某一屬性的摘要,與本文中的情感摘要不同。本文中利用Amazon.com網(wǎng)站用戶參與的評(píng)論質(zhì)量評(píng)價(jià)機(jī)制(即評(píng)論是否“helpful”)研究評(píng)論質(zhì)量與情感摘要的關(guān)系。

        3 語料標(biāo)注

        本文基于Amazon.com購(gòu)物網(wǎng)中的評(píng)論資源展開實(shí)驗(yàn)與分析。我們從網(wǎng)站中收集了30個(gè)主題(產(chǎn)品)的評(píng)論語料,其中包含了電子產(chǎn)品的評(píng)論、書籍的評(píng)論、影視的評(píng)論、生活用品的評(píng)論等。每個(gè)主題包含500篇評(píng)論,其中包含褒義評(píng)論和貶義評(píng)論,每條評(píng)論包含了用戶的投票信息(即有多少人認(rèn)為該評(píng)論有用)。每個(gè)主題平均有3 318.1個(gè)句子,49 691.2個(gè)單詞。我們從每個(gè)主題的500篇評(píng)論中抽取最有代表性的句子作為每個(gè)主題的文本情感摘要。

        為了抽取每個(gè)主題的產(chǎn)品評(píng)論的文本情感摘要,我們邀請(qǐng)三名標(biāo)注者進(jìn)行標(biāo)注并且每名標(biāo)注者的標(biāo)注過程都是相互獨(dú)立的。表1中給出了三名標(biāo)注者一致性的結(jié)果。

        表1 人工標(biāo)注的實(shí)驗(yàn)結(jié)果

        我們抽取的文本情感摘要的標(biāo)準(zhǔn)是選擇觀點(diǎn)和內(nèi)容在整個(gè)評(píng)論中出現(xiàn)頻率較高,且覆蓋面較廣的評(píng)論語句。每個(gè)主題的摘要的單詞總數(shù)在120個(gè)單詞左右。平均壓縮比為7.5%。下面將給出關(guān)于“Breville BJE200XL Compact Juice Fountain 700-Watt Juice Extractor”的其中一個(gè)人工標(biāo)注的結(jié)果。

        “Thisjuiceriseasytouse,andnothardtokeepclean.Themotoronthisthingisverypowerful.Theonlydownsideiswherethejuicecomesout,thereisasmalllipthatisnearimpossibletoclean...soit’skindagross.Goodqualityconstruction,workswell,mightbenefitfromaslowerspeedtoextractmorejuicebutgenerallyverysatisfied.Icannotbelievethatforsuchareasonableprice,IwasabletogetsuchaFANTASTICjuicer.Thisissosimpletoclean...andit’sverypowerful...andwe’rereallyenjoyingmakingupourownjuices!Thismachinehaslotsofpower,cleansupeasily,issolidlybuilt,andlooksgood”.

        4 基于情感信息和評(píng)論質(zhì)量的情感摘要

        本文中我們把文本情感摘要看成是基于主題的句子排序任務(wù)。為了研究情感信息和評(píng)論質(zhì)量對(duì)文本情感摘要的影響,我們使用PageRank算法和HITS算法。

        4.1 基于情感信息和評(píng)論質(zhì)量的PageRank模型

        PageRank是一種常見的隨機(jī)游走(Random Walk)模型[19-21]。本文中采用一種融合情感信息和句子的評(píng)論質(zhì)量信息的三層圖模型的PageRank框架做摘要。在該模型中,中間層為基礎(chǔ)PageRank模型,上層為句子間的情感聯(lián)系,下層為句子的質(zhì)量信息關(guān)系。圖2描述了三層圖模型的PageRank框架。

        圖2 基于情感信息和評(píng)論質(zhì)量的PageRank模型

        在文本摘要中,PageRank模型首先構(gòu)建一張有向圖G=〈Vs,Ess〉,其中頂點(diǎn)集VS是集合S(某個(gè)主題中所有句子的集合)中的句子,即每個(gè)句子為一個(gè)節(jié)點(diǎn),邊Ess是句子之間的關(guān)系。用節(jié)點(diǎn)i到節(jié)點(diǎn)j的轉(zhuǎn)移概率p(i→j)定義兩節(jié)點(diǎn)之間的邊的權(quán)重。表示為式(1)。

        (1)

        其中f(i→j)為節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的相似度,本文中使用余弦相似度(Cosine)[23]作為相似度算法,如式(2)所示。

        (2)

        若兩節(jié)點(diǎn)間存在關(guān)系,則兩節(jié)點(diǎn)間的轉(zhuǎn)移概率大于0,即兩節(jié)點(diǎn)之間存在關(guān)系。令f(i→i)=0,用于避免自身之間的轉(zhuǎn)移,并且一般情況下p(i→j)不一定等于p(j→i)。

        以圖2為基礎(chǔ),句子i的打分Score(si)可以由其他和i有關(guān)聯(lián)的句子推導(dǎo)出,在PageRank算法中它可以以遞歸的方式表現(xiàn)出來如式(3)所示。

        (3)

        式(3)中μ是一個(gè)阻尼因子,在計(jì)算過程中一般設(shè)置為0.85[19]。所有句子的初始值都設(shè)為1,算法采用迭代的方式直至收斂[20]。

        在圖2的模型中,本文將兩個(gè)句子i和j的相似度修訂為f(i→j,θij,φij),θij為兩個(gè)句子間的情感關(guān)系,φij為句子間的質(zhì)量關(guān)系。通過為情感句加入情感信息的特征和評(píng)論質(zhì)量信息的特征可以使兩個(gè)帶有情感的句子或者評(píng)論質(zhì)量高的句子聯(lián)系更加緊密,使兩個(gè)句子i和j的相似度也隨之增大。

        本文中采用Unigram構(gòu)建特征向量。為了利用情感信息,首先判斷每個(gè)句子是否帶有情感,如果帶有情感則為該句的特征向量加入一個(gè)“OPINION”特征,其特征值λ1大于0。在判斷句子是否帶情感時(shí): 首先,本文采用最大熵分類器對(duì)語料進(jìn)行正負(fù)分類,具體實(shí)現(xiàn)是借助MALLET*http://mallet.cs.umass.edu/機(jī)器學(xué)習(xí)工具包,分類過程中,所有參數(shù)都設(shè)置為它們的默認(rèn)值;其次,當(dāng)分為正負(fù)類的概率大于0.7時(shí),本文認(rèn)為句子是帶情感的。本文使用的訓(xùn)練語料包含書籍(Book)、DVD、電子產(chǎn)品(Electronic)、和廚房用品(Kitchen)*The data is from multi-domain sentiment dataset v2.0. http://www.seas.upenn.edu/~mdredze/datasets/sentiment/.四個(gè)領(lǐng)域的評(píng)論。

        本文采用如下的方法利用評(píng)論質(zhì)量信息。首先,與Hong等[4]提及的一樣,“有用率”h(當(dāng)“933of1 000peoplefoundthefollowingreviewhelpful”,則“有用率”h=933/1 000)大于0.6的評(píng)論文本認(rèn)為是質(zhì)量高的評(píng)論;其次,給質(zhì)量高的評(píng)論加入一個(gè)“HELPFUL”的特征,其特征值λ3大于0;同時(shí)加入“單詞+#”的特征,其特征值λ4大于0。

        當(dāng)?shù)Y(jié)束,所有句子的打分被確定后,打分高的句子被認(rèn)為具有較高的信息量和與主題相關(guān)度高,并選擇這樣的句子作為構(gòu)建摘要。

        4.2 基于情感信息和評(píng)論質(zhì)量的HITS模型

        本文中引入的另一個(gè)句子排序算法為HITS算法[20]。HITS算法有兩個(gè)重要概念:hub(中心節(jié)點(diǎn))和authority(權(quán)威節(jié)點(diǎn))。一個(gè)好的中心節(jié)點(diǎn)(hub)應(yīng)該指向很多好的權(quán)威性節(jié)點(diǎn)(authority),而一個(gè)好的權(quán)威性節(jié)點(diǎn)(authority)應(yīng)該被很多好的中心性節(jié)點(diǎn)(hub)所指向。用遞歸循環(huán)計(jì)算出hub值和authority值。

        在文本摘要中HITS模型被廣泛地應(yīng)用[20-21]。本文采用基于單詞的HITS算法,算法中將單詞作為權(quán)威節(jié)點(diǎn)authority,句子作為中心節(jié)點(diǎn)hub,如圖3的第二層和第三層。通過HITS算法對(duì)句子進(jìn)行排序,獲取排序值大的句子作為摘要。

        (4)

        (5)

        (6)

        (7)

        句子的中心節(jié)點(diǎn)初始值和單詞的權(quán)威節(jié)點(diǎn)初始值都設(shè)置為1。算法結(jié)束后,得到所有句子的打分Score(si)=Hub(si),選擇打分高的句子構(gòu)建摘要。

        本文采用如圖3的模型將情感信息和評(píng)論的質(zhì)量信息融入到HITS模型中。與PageRank類似,為質(zhì)量高的評(píng)論加入“HELPFUL”特征和“單詞+#”特征作為利用評(píng)論質(zhì)量信息的方式。而與PageRank有所不同的是,在利用情感信息時(shí)本文將句子中的詞與情感詞詞典*情感詞詞典: http://www.cs.pitt.edu/mpqa/#subj_lexicon對(duì)照,找出情感詞,加入“情感詞+*”的特征,其特征值λ2大于0。這樣做主要是因?yàn)镻ageRank更注重句子與句子之間的關(guān)系,加入“OPINION”特征比加入“情感詞+*”的特征空間更密集,可以更有效地聯(lián)系兩個(gè)句子。而本文采用基于單詞的HITS算法,“情感詞+*”的特征能更有效的突出句子的情感特性。

        圖3 基于情感信息和評(píng)論質(zhì)量的HITS模型

        在圖3的模型中,擴(kuò)展層為情感信息和評(píng)論質(zhì)量信息層,中間層為句子層,底層為單詞層。通過該模型我們將authority值和hub值的計(jì)算方式修訂為式(8)~(11)。

        (8)

        (9)

        (10)

        (11)

        5 實(shí)驗(yàn)結(jié)果及分析

        這一節(jié)中,將給出本文的實(shí)驗(yàn)設(shè)置、實(shí)驗(yàn)結(jié)果及分析。

        5.1 實(shí)驗(yàn)設(shè)置

        本文收集了30個(gè)主題的產(chǎn)品評(píng)論,每個(gè)主題有500篇評(píng)論,并由三人對(duì)其進(jìn)行標(biāo)注。語料中的每一個(gè)語句用基于詞的Unigram特征構(gòu)建相應(yīng)的特征向量表示。人工標(biāo)注的結(jié)果作為評(píng)價(jià)標(biāo)準(zhǔn),評(píng)測(cè)的工具是ROUGE-1.5.5[24]。該工具被廣泛用于自動(dòng)摘要的評(píng)價(jià)。它通過計(jì)算參考標(biāo)準(zhǔn)與候選摘要之間的重疊單元(如:n-gram、單詞序列、單詞對(duì)等)來評(píng)價(jià)摘要的質(zhì)量。其中ROUGE-N為n-gram的召回率,計(jì)算方法如式(12)所示。

        ROUGE-N=

        (12)

        式(12)中,n表示n-gram的長(zhǎng)度,Countmatch(n-gram)指的是一個(gè)候選摘要和參考摘要集中共同出現(xiàn)n-gram的個(gè)數(shù)。ROUGE的結(jié)果中給出了1-gram、2-gram、3-gram、和4-gram,以及最長(zhǎng)公共子序列的值。在這些數(shù)值中unigram(ROUGE-1)最常被使用。在我們的實(shí)驗(yàn)中我們給出了ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-L(最長(zhǎng)公共子序列的值)和ROUGE-W(加權(quán)最長(zhǎng)公共子序列的值,加權(quán)值為1.2)的結(jié)果。在對(duì)語料進(jìn)行情感傾向分類時(shí)我們使用的是最大熵工具。

        5.2 實(shí)驗(yàn)結(jié)果及分析

        情感是評(píng)論語料的一個(gè)重要特征,情感摘要就是要體現(xiàn)用戶的情感。而評(píng)論質(zhì)量的好壞會(huì)影響讀者的閱讀,好的評(píng)論如Amazon.com購(gòu)物網(wǎng)上“有用率”高的評(píng)論會(huì)明顯影響潛在用戶是否購(gòu)買產(chǎn)品。而情感摘要正是為了給用戶在購(gòu)買產(chǎn)品時(shí)提供幫助,體現(xiàn)大部分人的觀點(diǎn)。因此基于這些想法,我們提出基于情感信息和評(píng)論質(zhì)量的情感摘要,表2和表3將分別給出PageRank和HITS的實(shí)驗(yàn)結(jié)果。在實(shí)驗(yàn)過程中,實(shí)驗(yàn)結(jié)果會(huì)隨著特征權(quán)值的改變而改變。根據(jù)實(shí)驗(yàn)結(jié)果,我們進(jìn)行了交叉驗(yàn)證。進(jìn)行PageRank實(shí)驗(yàn)時(shí),最終選定“OPINION”特征的權(quán)值為5。質(zhì)量高的評(píng)論的“單詞+#”特征和“HELPFUL”特征的權(quán)值都為2×h×log(評(píng)論總?cè)藬?shù))。

        在進(jìn)行HITS實(shí)驗(yàn)時(shí),“情感詞+*”特征的權(quán)值為10。質(zhì)量高的評(píng)論的“單詞+#”特征和"HELPFUL"特征的權(quán)值為2×h×log(評(píng)論總?cè)藬?shù))。

        表2和表3中PageRank和HITS表示的是傳統(tǒng)的PageRank和HITS算法的實(shí)驗(yàn)結(jié)果, “+opinion”表示添加情感信息的結(jié)果, "+quality"表示

        表2 PageRank的實(shí)驗(yàn)結(jié)果

        表3 HITS的實(shí)驗(yàn)結(jié)果

        利用評(píng)論質(zhì)量信息的結(jié)果,"Our Approach"表示同時(shí)使用情感信息和評(píng)論質(zhì)量信息的結(jié)果,而"Human"表示人工標(biāo)注交叉驗(yàn)證的結(jié)果。

        由表2和表3中的實(shí)驗(yàn)結(jié)果我們可以看出(ROUGE-1): 加入情感信息后,PageRank提高了3個(gè)百分點(diǎn),HITS提高了4.4個(gè)百分點(diǎn),這表明“情感”作為評(píng)論文本的一個(gè)重要特征,對(duì)情感摘要有重要的作用;加入評(píng)論質(zhì)量信息后,PageRank提高了2.5個(gè)百分點(diǎn),HITS提高了2.6個(gè)百分點(diǎn),這顯示出高質(zhì)量的情感文本具有更高的可信度,對(duì)情感摘要的形成有積極的作用;當(dāng)情感信息和評(píng)論質(zhì)量信息同時(shí)使用時(shí),PageRank提高了4個(gè)百分點(diǎn),HITS提高了將近6個(gè)百分點(diǎn),這表明情感信息和評(píng)論質(zhì)量對(duì)情感摘要的重要性,并且兩者有相輔相成的作用。表2和表3中除了ROUGE-1有明顯提升,加入了情感信息和評(píng)論質(zhì)量信息后,摘要的各個(gè)指標(biāo)也都有明顯的提升,這說明在意思上也更接近人工摘要意思。雖然同時(shí)使用情感信息和評(píng)論質(zhì)量信息的效果沒有比單獨(dú)使用情感信息的效果高很多,但是還是有一定的提升的,這主要是因?yàn)閮煞N信息在一定程度上有重疊。

        表2和表3中加入評(píng)論質(zhì)量信息的效果沒有加入情感信息的效果明顯,這是因?yàn)椋瑩碛星楦行畔⒌木渥颖葥碛性u(píng)論質(zhì)量信息的句子的數(shù)量多,即情感信息的影響比質(zhì)量信息的影響高。

        6 總結(jié)與展望

        本文研究了評(píng)論質(zhì)量和情感信息對(duì)情感摘要的影響并結(jié)合PageRank算法和HITS算法將這兩種信息同時(shí)應(yīng)用于英文的多文檔文本情感摘要任務(wù)。實(shí)驗(yàn)結(jié)果表明評(píng)論質(zhì)量與情感信息對(duì)情感摘要有重要的影響,能夠有效地提高自動(dòng)情感摘要的準(zhǔn)確率。在接下來的工作中我們將收集更多其他領(lǐng)域的評(píng)論語料用于驗(yàn)證本文提出的方法。同時(shí),我們將考慮如何更有效地利用評(píng)論質(zhì)量信息和情感信息,尋找更好的評(píng)價(jià)評(píng)論質(zhì)量的方法,使自動(dòng)情感摘要的效果有進(jìn)一步提升。

        [1] Ganesan K, C Zhai, J Han. Opinosis: A Graph-Based Approach to Abstractive Summarization of Highly Redundant Opinions[C]//Proceeding of Coling-2008,2008.

        [2] Chen P, Dhanasobhon S, Smith M. All Reviews Are Not Created Equal: The Disaggregate Impact of Reviews on Sales on Amazon.com[J]//Carnegie Mellon University.

        [3] Soo-Min Kim, Patrick Pantel, Tim Chklovski, et al. Automatically Assessing Re-view Helpfulness[C]//Proceeding of EMNLP-2006, 2006.

        [4] Hong Y, J Lu, J Yao, et al. What reviews are satisfactory: novel features for automatic helpfulness voting[C]//Proceeding of SIGIR-2012.

        [5] Luhn H P. The Automatic Creation of Literature Abstracts[C]//Proceedings of the IRE National Convention.

        [6] Lin C. Training a Selection Function for Extraction[C]//Proceedings of CIKM-1999.

        [7] Radev D, H Jing, M Stys, et al. Centroid-based Summarization of Multiple Documents[J]. Information Processing and Management.2004,919-938.

        [8] Radev DR, K McKe-own. Generating natural language summaries from multiple on-line sources[J]. Computational Linguistics,1998,24(3):1-31.

        [9] Celikyilmaz A, D Hakkani-Tur. Discovery of Topically Coherent Sentences for Extractive Summarization[C]//Proceeding of ACL-2011.

        [10] Pang B, Lillian L S. Vaithyanathan. Thumbs up sentiment classification using machine learning techniques[C]//Proceeding of EMNLP-2002.

        [11] Hu M, B Liu. Mining and summarizing customer reviews[C]//Proceeding of KDD -2004.

        [12] Ana-Maria Popescu, O Etzioni. Extracting product features and opinions from reviews[C]//Proceeding of HLT-EMNLP-2005.

        [13] Snyder B, R Barzilay. Multiple aspect ranking using the good grief algorithm[C]//Proceeding of HLT-NAACL-2007.

        [14] Lu Yue, ChengXiang Zhai, Neel Sundaresan. Rated aspect summarization of short comments[C]//Proceeding of WWW-2009.

        [15] Lerman, Kevin, Sasha Blair-Goldensohn, et al. Sentiment summarization: Evaluating and learning user preferences[C]//Proceeding of EACL-2009.

        [16] Ivan Titov R. Mcdonald. A joint model of text and aspect ratings for sentiment summarization[C]//Proceeding of ACL-2008.

        [17] Wang H, Y Lu, C Zhai. Latent aspect rating analysis on review text data: a rating regression approach[C]//Proceeding of KDD-2010.

        [18] Liu J, Cao Y, Lin C Y, et al. Low-quality product review detection in opinion summarization[C]//Proceeding of EMNLP-Coling- 2007.

        [19] Page L, Brin S, Motwani R, et al. The PageRank Citation Ranking: Bringing Order to the Web[R]. Technical report, Stanford Digital Libraries.

        [20] Wan X, Yang J. Multi-document Summarization using Cluster-based Link Analysis[C]//Proceeding of SIGIR-2008.

        [21] Li F, Tang Y, Huang M, et al. Answering Opinion Questions with Random Walks on Graphs[C]//Proceeding of ACL-2010.

        [22] Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrival[M]. ACM Press and Addison Wesley.

        [23] Kleinberg M. Authoritative Sources in a Hyperlinked Environment.[C]//Proceeding of the ACM-SLAM.

        [24] Lin C. ROUGE: a Package for Automatic Evaluation of Summaries[C]//Proceeding of ACL-2004.

        [25] 宗成慶,統(tǒng)計(jì)自然語言處理[M],清華大學(xué)出版社, 2008.5.

        [26] 張瑾,王小磊,許洪波,自動(dòng)文摘評(píng)價(jià)方法綜述[J],中文信息學(xué)報(bào),2008,22(3):81-88.

        [27] 秦兵,劉挺,李生,多文檔自動(dòng)文摘綜述[J],中文信息學(xué)報(bào),2005,19(6):13-20.

        [28] 苗家,馬軍,陳竹敏,一種基于HITS算法的Blog文摘方法[J],中文信息學(xué)報(bào),2011,25(1):104-109.

        Quality-based Multi-document Opinion Summarization

        LIN Liyuan, WANG Zhongqing, LI Shoushan, ZHOU Guodong

        (School of Computer Sciences and Technology, Soochow University, Suzhou, Jiangsu 215006, China)

        Opinion summarization aims to concentrate and refine the text data so as to generate a summary of the text regarding the expressed opinion. It helps users reading and understanding the content of the opinion text. This study focuses on multi-document opinion summarization where the main task is to generate a summary given amounts of reviews towards the same product. Opinion relevance is an important feature for opinion text, which is considered in our opinion summarization method. Meanwhile,users can better understand the objects that mentioned in the reviews by the help of high quality reviews or high credibility reviews, which is also considered in our method. We further collect and annotate an English multi-document corpus on product reviews. Empirical studies on the corpus demonstrate that incorporating opinion and quality information is effective for multi -document opinion summarization.

        opinion summarization; multi-document; reviews quality

        林莉媛(1987—),碩士,主要研究領(lǐng)域?yàn)槲谋厩楦姓?。E-mail:scarecrowlly@gmail.com王中卿(1987—),博士研究生,主要研究領(lǐng)域?yàn)榍楦蟹治雠c社會(huì)計(jì)算。E-mail:wangzq.antony@gmail.com李壽山(1980—),博士,教授,主要研究領(lǐng)域?yàn)榍楦蟹治雠c社會(huì)計(jì)算。E-mail:lishoushan@suda.edu.cn

        1003-0077(2015)04-0033-07

        2013-7-14 定稿日期: 2013-10-12

        國(guó)家自然科學(xué)基金(61003155,60873150);模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室開放課題基金資助項(xiàng)目

        TP391

        A

        猜你喜歡
        語料節(jié)點(diǎn)文本
        CM節(jié)點(diǎn)控制在船舶上的應(yīng)用
        Analysis of the characteristics of electronic equipment usage distance for common users
        基于AutoCAD的門窗節(jié)點(diǎn)圖快速構(gòu)建
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        抓住人才培養(yǎng)的關(guān)鍵節(jié)點(diǎn)
        《苗防備覽》中的湘西語料
        国产精品自拍首页在线观看| 熟女免费视频一区二区| 国产亚洲超级97免费视频| 午夜理论片yy44880影院| 精品一品国产午夜福利视频| 高清国产亚洲va精品| 久久老熟女一区二区三区| 亚洲无av在线中文字幕| 亚洲日韩中文字幕一区| 巨熟乳波霸若妻在线播放| 日中文字幕在线| 亚洲中文久久久久无码| 日本草逼视频免费观看| 亚洲av色精品国产一区二区三区| 精品人妻一区二区三区浪人在线| 国产精成人品日日拍夜夜免费 | 一边做一边说国语对白| 国产av精国产传媒| 亚洲欧美在线视频| 中文字幕熟女激情50路| 色欲人妻aaaaaaa无码| 国产成人综合久久精品免费 | 亚洲第一se情网站| 亚洲精品无码国模| 国内精品视频成人一区二区| 新视觉亚洲三区二区一区理伦| 国产色系视频在线观看| 天码av无码一区二区三区四区 | 久久天天躁狠狠躁夜夜av浪潮 | 97成人碰碰久久人人超级碰oo | 青草蜜桃视频在线观看| 国产午夜精品久久精品| av免费不卡国产观看| 最新69国产成人精品视频免费| 亚洲福利天堂网福利在线观看| 国产av一区二区日夜精品剧情 | 国产爆乳乱码女大生Av| 午夜一区二区三区av| 免费黄片小视频在线播放| 亚洲成av人在线播放无码| 久久久久久免费毛片精品|