許延祥,羅鐵堅(jiān),周 佳,王 竹
(中國(guó)科學(xué)院大學(xué),北京100049)
互聯(lián)網(wǎng)的迅猛發(fā)展使 Web2.0技術(shù)普遍應(yīng)用,這些應(yīng)用匯聚了海量用戶貢獻(xiàn)內(nèi)容(UGC),其中包含了對(duì)相關(guān)對(duì)象的意見和見解,它們?cè)谌藗兘?jīng)濟(jì)和政治生活中起到?jīng)Q策參考作用。而人工提取意見效率低下,因而催生了計(jì)算領(lǐng)域的意見挖掘研究。對(duì)意見的廣泛研究始于2001年[1]?!耙庖娡诰颉保╫pinion mining)最初由Dave在2003年 WWW會(huì)議上提出,用于分析網(wǎng)民對(duì)于產(chǎn)品各個(gè)特征的看法[2]。2006年,TREC會(huì)議首次設(shè)置了針對(duì) Blog的意見分析相關(guān)的研究TRACK[3]。國(guó)內(nèi)在此領(lǐng)域有專門的會(huì)議COAE,已經(jīng)舉辦了3屆(2008,2009,2011)。第3屆COAE會(huì)議主要針對(duì)評(píng)價(jià)文本[4]。
對(duì)給定文本T,意見挖掘旨在將其中表達(dá)意見的元組提取出來,即確定映射f:T→{(e1,e2,...,en)},其中e為意見元組的構(gòu)成要素。
文獻(xiàn)[5]定義意見元組為(主題topic,持有者Holder,陳述claim,情感sentiment);文獻(xiàn)[6]則定義為(對(duì)象o,特征f,意見傾向oo,持有者h(yuǎn),時(shí)間t)。對(duì)元組定義的差異在于文本類型及挖掘目標(biāo)的不同。文本主要來自交易網(wǎng)站、論壇、新聞網(wǎng)站、博客/微博和政治辯論等,其意見挖掘目的比較如表1所示。
表1 文本意見挖掘目的之比較
目前,針對(duì)產(chǎn)品和服務(wù)的評(píng)價(jià)文本(review)被研究最多,主要原因:一是該類文本廣泛深入地影響人們的消費(fèi)行為,需求驅(qū)動(dòng)研究;二是該類文本中非意見信息少、附帶的打分評(píng)級(jí)可轉(zhuǎn)化為傾向標(biāo)注,便于計(jì)算性研究。
按文獻(xiàn)[7]的綜述,評(píng)價(jià)文本中意見持有者通常被認(rèn)為是評(píng)價(jià)者本人,因而不做專門挖掘。但實(shí)際評(píng)價(jià)中會(huì)有引用他人評(píng)價(jià)作為自己意見的情況,也有對(duì)引用意見進(jìn)行評(píng)價(jià)進(jìn)而形成自己意見的情況,對(duì)此應(yīng)作為一種特殊意見表達(dá)形式來區(qū)別處理。
意見對(duì)象需指明,以區(qū)別于文中其他對(duì)象。評(píng)價(jià)語(yǔ)體現(xiàn)意見內(nèi)涵,因而通常也被列為意見要素[4,8]。評(píng)價(jià)文本意見元組可定義為:(o,f,a,p)。其中,o為意見對(duì)象,包括產(chǎn)品和服務(wù);f代表特征(feature);a代表評(píng)價(jià)語(yǔ)(apprise);p代表傾向(polarity)。意見挖掘目標(biāo)為:?文本T,確定映射F:T→{(o,f,a,p)}。
意見在評(píng)價(jià)文本中則藉由語(yǔ)言形式表達(dá)出對(duì)特定事物的正面或負(fù)面傾向。由于語(yǔ)言表達(dá)的復(fù)雜性,從大規(guī)模文本集合中準(zhǔn)確、全面地獲取意見仍是相當(dāng)有挑戰(zhàn)難度的問題。在中文領(lǐng)域,以COAE2011的任務(wù)3為例[4],其面向三個(gè)領(lǐng)域評(píng)價(jià)文本,抽取被評(píng)價(jià)特征與相應(yīng)評(píng)價(jià)語(yǔ)并確定褒貶性。其特征與評(píng)價(jià)語(yǔ)搭配最好召回率為0.051 457(電子產(chǎn)品領(lǐng)域)。
本文認(rèn)為,導(dǎo)致意見元組抽取召回率低的主要原因之一是對(duì)語(yǔ)言表達(dá)意見方式的認(rèn)識(shí)有所欠缺,導(dǎo)致現(xiàn)有挖掘算法通常只能覆蓋意見的部分表達(dá)形式。因而,本文提出研究意見分布規(guī)律,以制定更加合理的挖掘策略。
本文首先比較意見挖掘的相關(guān)工作;然后提出分析評(píng)價(jià)文本中意見分布規(guī)律的理論框架和意見標(biāo)注方法;之后根據(jù)對(duì)語(yǔ)料的標(biāo)注與統(tǒng)計(jì),得出意見分布規(guī)律;最后基于這些規(guī)律,給出了相應(yīng)的策略。
對(duì)評(píng)價(jià)文本的意見挖掘一般被分解為兩個(gè)子任務(wù)來進(jìn)行[9-10]:1)對(duì)產(chǎn)品特征的識(shí)別;2)對(duì)與識(shí)別出特征相關(guān)聯(lián)的評(píng)價(jià)語(yǔ)的提?。皟A向判斷)。
來自網(wǎng)絡(luò)的評(píng)價(jià)文本主要有3種格式[11]:(1)分別指出優(yōu)點(diǎn)和缺點(diǎn),再給出詳細(xì)評(píng)論;(2)分別給出針對(duì)優(yōu)點(diǎn)和缺點(diǎn)的詳細(xì)評(píng)論;(3)優(yōu)點(diǎn)和缺點(diǎn)混雜的自由評(píng)論。
對(duì)于格式(1),Liu在文獻(xiàn)[12]中提供出了一種基于標(biāo)注序列規(guī)則(LSR)的方法,該方法假定每個(gè)由標(biāo)點(diǎn)符區(qū)隔的子句或短語(yǔ)只包括一個(gè)特征,分三個(gè)步驟進(jìn)行:1)對(duì)原文進(jìn)行詞性標(biāo)注(POS tagging),例如,語(yǔ)句“Memory is stingy”標(biāo)注后變?yōu)樾蛄校迹鹠emoly,NN}{is,VB}{stingy,JJ}>;2)在新序列中的標(biāo)注出特征,上例變?yōu)椋迹鏵eature,NN}{is,VB}{stingy,JJ}>;3)以所得序列集合識(shí)別新語(yǔ)料中的特征,例如,將新評(píng)價(jià)語(yǔ)句片斷與上述序列進(jìn)行模式匹配,提取與$feature相對(duì)應(yīng)的詞作為特征。
上述方法只對(duì)簡(jiǎn)短明確的優(yōu)缺點(diǎn)評(píng)價(jià)有效,對(duì)于語(yǔ)句結(jié)構(gòu)更復(fù)雜且含有較多無關(guān)信息的詳細(xì)評(píng)論效果并不好。而多數(shù)評(píng)價(jià)屬于后者,如eBay、淘寶上的評(píng)價(jià)。針對(duì)自由評(píng)價(jià)的特征識(shí)別方法有以下幾種。
詞頻法。Hu在文獻(xiàn)[11,13]中假定產(chǎn)品屬性都是名詞,首先對(duì)評(píng)價(jià)文本進(jìn)行詞性標(biāo)注,然后通過聯(lián)合規(guī)則挖掘(Association Rule Mining)找出高頻出現(xiàn)的名詞作為被評(píng)價(jià)的特性。已識(shí)別特征共現(xiàn)的形容詞被作為情感詞,再根據(jù)名詞與情感詞的共現(xiàn)關(guān)系,識(shí)別出低頻特性。
特征表法。Popescu與Etzioni[14]考慮到特征與被評(píng)價(jià)產(chǎn)品之間在概念上的固有關(guān)聯(lián),提出用手工制定的“局部-整體關(guān)系鑒別器”(meronymy discriminator)作為識(shí)別特征的方法,取得了比Hu等在文獻(xiàn)[11,13]中更好的性能。
語(yǔ)義詞典法。Li利用WordNet和演員表提取電影評(píng)論句中特征和情感詞列表,對(duì)識(shí)別出的同義特征借助 WordNet進(jìn)行合并[12,15]。
序列標(biāo)注法。Liu等人在語(yǔ)料中標(biāo)注特征,然后提取包含特征的3-gram,通過關(guān)聯(lián)規(guī)則挖掘算法(Association Rule Mining)獲得特征標(biāo)注模型,然后以此提取新語(yǔ)料中的特征[16]。
位置關(guān)系法。Skomorowski的方法則是統(tǒng)計(jì)形容詞性的情感詞與產(chǎn)品特征的位置關(guān)系,然后根據(jù)情感詞提取產(chǎn)品屬性[17]。
詞頻法、特征表法、語(yǔ)義詞典法都屬于無監(jiān)督學(xué)習(xí)方法,方法的準(zhǔn)確率和召回率都不高。序列標(biāo)注法、位置關(guān)系屬于有監(jiān)督挖掘方法,準(zhǔn)確率相對(duì)較高,但依賴于人工標(biāo)記語(yǔ)料庫(kù)的規(guī)模,且缺乏領(lǐng)域擴(kuò)展性。
對(duì)評(píng)價(jià)語(yǔ)的提取方法主要利用特征與評(píng)價(jià)語(yǔ)在位置上的鄰接關(guān)系。主要有3種辦法。
共現(xiàn)窗口法。Hu假定特征與評(píng)價(jià)語(yǔ)會(huì)在同一句子中出現(xiàn),在得到句中特征后,選取特征前后一定長(zhǎng)度的詞序列為觀察窗口,取出其中的形容詞作為該特征的評(píng)價(jià)語(yǔ)[11,13]。這種方法沒有處理特征和評(píng)價(jià)語(yǔ)的對(duì)應(yīng)問題,而且只提取形容詞的評(píng)價(jià),所以性能相對(duì)較低。
句法規(guī)則法。Popescu將句法依存、詞性與規(guī)則相結(jié)合,這樣可以提取所有詞性的情感詞,但是由于規(guī)則需要人工整理,如果情感詞出現(xiàn)的形式不在規(guī)則中就無法提?。?8]。
輔助信息法。在[9,19]中采用了匹配信息、手工制定規(guī)則及情感相關(guān)詞匯來提高評(píng)價(jià)語(yǔ)識(shí)別性能。
由于中文的詞間無明顯分隔,且單詞在語(yǔ)句中沒有形態(tài)變化,因而中文意見挖掘要先解決分詞與詞性標(biāo)注的 問題[20-22]。在此 基 礎(chǔ) 上,針 對(duì) 全 文[23-24]和句子[25-26]的傾向性分析已經(jīng)取得了一定進(jìn)展。對(duì)于意見元素提取,文獻(xiàn)[27]采用了詞形與詞性模板對(duì)特定領(lǐng)域進(jìn)行了特征抽取,并用Bootstrapping方法擴(kuò)展抽取結(jié)果;文獻(xiàn)[28]先使用句法分析結(jié)果獲取候選評(píng)價(jià)特征,再結(jié)合PMI算法和名詞剪枝算法對(duì)候選特征進(jìn)行篩選;文獻(xiàn)[29]以核心句和句法關(guān)系為特征參數(shù)有效提高了CRFs的評(píng)價(jià)對(duì)象抽取性能;文獻(xiàn)[30]利用6種詞語(yǔ)搭配模式同步提取評(píng)價(jià)特征和評(píng)價(jià)語(yǔ)。此外,文獻(xiàn)[31-32]提出了對(duì)意見型文本的劃分及語(yǔ)料建設(shè)方法,是進(jìn)行意見挖掘的基礎(chǔ)性工作。
當(dāng)前意見挖掘方法過于依賴顯式語(yǔ)言特征,例如,以高頻出現(xiàn)名詞或名詞短語(yǔ)為特征,與特征在句中共現(xiàn)的形容詞為評(píng)價(jià)語(yǔ)。但是,有些特征并不以字面形式出現(xiàn)在文本中,而是通過評(píng)價(jià)語(yǔ)的語(yǔ)義關(guān)聯(lián)體現(xiàn)出來;同時(shí),意見既能用含有情感詞的主觀句來表達(dá),也能用不含情感詞的客觀句來表達(dá)[4,33]。因此,對(duì)意見表達(dá)規(guī)律進(jìn)行深入和全面研究,將有助于發(fā)現(xiàn)提高意見挖掘召回率的策略和方法。
為研究意見分布規(guī)律,我們首先提出理論框架來確定:1)在何種粒度上研究意見分布;2)如何判別意見的存在;3)意見相關(guān)的表達(dá)方式如何分類。
文本具有“篇章→段落→句子→子句→短語(yǔ)→單詞→字”7個(gè)層面的粒度劃分。其中,句子是表達(dá)完整思想的最小單元,針對(duì)意見的抽取研究通常是以句子為單元來進(jìn)行的,如COAE2011的任務(wù)3的要求。
本文把句子作為意見分析單元,對(duì)包含意見的句子稱為意見句,反之稱為非意見句。對(duì)于意見表達(dá)模糊的句子,作為非意見句處理。
針對(duì)評(píng)價(jià)文本意見元組 (o,f,a,p),從給定句子中提取一條完整意見需要完成4個(gè)方面的任務(wù)。
1)確定是針對(duì)目標(biāo)對(duì)象(而不是其他對(duì)象);
2)識(shí)別評(píng)價(jià)所針對(duì)的對(duì)象特征;
3)提取與特征相關(guān)的評(píng)價(jià)語(yǔ);
4)判斷評(píng)價(jià)語(yǔ)的意見傾向(正面、負(fù)面)。
任務(wù)(1)和(2)強(qiáng)調(diào)針對(duì)性;任務(wù)(3)和(4)強(qiáng)調(diào)評(píng)價(jià)語(yǔ)的傾向性,因而有如下意見判斷準(zhǔn)則。
1)針對(duì)性準(zhǔn)則。成立的意見必須是針對(duì)所評(píng)論的對(duì)象或其特征,而不是針對(duì)其他對(duì)象。針對(duì)性判別的前提是,全面了解目標(biāo)對(duì)象所具有的特征,判別過程就是判斷評(píng)價(jià)文本中的句子是否與關(guān)注特征集的某個(gè)(些)特征項(xiàng)具有語(yǔ)義關(guān)聯(lián),如圖1所示。
圖1中體現(xiàn)兩種特征表達(dá)方法:1)顯式表示。特征直接以字面形式出現(xiàn),如“房間”“設(shè)施”等;2)隱性特征,特征項(xiàng)不出現(xiàn),利用評(píng)價(jià)語(yǔ)與特征的語(yǔ)義關(guān)聯(lián)來表示,例如,“禮貌”“接待”在描述“服務(wù)”特征。
圖1 酒店評(píng)價(jià)文本的針對(duì)性判別
2)傾向性準(zhǔn)則。成立的意見必須體現(xiàn)傾向,傾向是評(píng)價(jià)者對(duì)目標(biāo)對(duì)象在某個(gè)特征的評(píng)價(jià)維度上與比較基準(zhǔn)比較的結(jié)果,如圖2所示。
圖2 比較基準(zhǔn)
傾向性有三種體現(xiàn)形式:一是比較基準(zhǔn)為另一對(duì)象,傾向性為與此對(duì)象的直接比較,例如,“這臺(tái)電腦還沒我以前用的那臺(tái)快呢”;二是比較基準(zhǔn)為可刻度化評(píng)價(jià)維度上的取值區(qū)間,傾向性為目標(biāo)對(duì)象的量化描述與比較基準(zhǔn)的相對(duì)位置,例如,“房間的雙人床才1米5”,比較基準(zhǔn)是下限大于“1米5”的取值區(qū)間;三是直接用情感詞語(yǔ)描述傾向性,例如,“這本書的裝禎很精美”中“精美”體現(xiàn)正面傾向。
傾向性依賴于針對(duì)性而存在,意見的成立必須同時(shí)滿足針對(duì)性和傾向性的判別要求。
語(yǔ)言能借助字面含義傳達(dá)豐富的“言外之意”,意見的表達(dá)尤其如此。例如,句子“把浴巾放在浴缸里希望更換,晚上看到更換的浴巾上竟然有毛發(fā)”,形式上陳述一個(gè)客觀事件,但目的卻是以此提出意見。這種字面內(nèi)涵小于實(shí)際內(nèi)涵的語(yǔ)義差異給意見分析帶來的困難在文獻(xiàn)[34]中已有論述。為深入研究這種差異,本文按字面內(nèi)涵把句子歸納為四種類型①此處受系統(tǒng)功能語(yǔ)言學(xué)派韓禮德啟發(fā),其把語(yǔ)言功能分為:概念功能、人際功能和語(yǔ)篇功能三類。,再分別研究各類型句子上的意見分布。
1)客觀句,即陳述客觀事實(shí);
2)主觀句,即表達(dá)主觀想法,在形式上含有情感詞,情感詞包括有主觀傾向的形容詞(如“好”、“精彩”、“差”)和體現(xiàn)思維活動(dòng)的動(dòng)詞(如“喜歡”“認(rèn)為”“猜測(cè)”“建議”等);
3)混合句,特指部分子句陳述事實(shí)、部分子句表達(dá)想法的復(fù)合句;
4)組織句,用于組織篇章的引語(yǔ)、黏合語(yǔ)或過渡句等,如“下面我分4點(diǎn)來講一下”。
其中,組織句不包含意見,予以忽略。本文的主要分析意見在前三類句子中的分布(圖3)。
圖3 意見分析研究目標(biāo)
針對(duì)意見分布規(guī)律研究目的,本文構(gòu)建語(yǔ)料庫(kù)并進(jìn)行標(biāo)注處理如下。
本文選擇譚松波整理公布的“中文情感挖掘語(yǔ)料-ChnSentiCorp”作為初始語(yǔ)料②http://www.searchforum.org.cn/tansongbo/senti_corpus.jsp。該語(yǔ)料覆蓋了服務(wù)(酒店)、精神類產(chǎn)品(書籍)和物質(zhì)類產(chǎn)品(電腦)三個(gè)領(lǐng)域的評(píng)價(jià),因而具有多領(lǐng)域代表性。
初始語(yǔ)料已做了文本級(jí)情感分類,以每個(gè)評(píng)價(jià)文本為獨(dú)立文件的形式提供各領(lǐng)域去重正負(fù)類文本各2 000,共12 000文本,語(yǔ)料規(guī)模為109萬字。
本文以文本為記錄單元把初始語(yǔ)料存入數(shù)據(jù)庫(kù)中(入庫(kù)語(yǔ)料的字?jǐn)?shù)與句數(shù)統(tǒng)計(jì)如表2所示),然后以半角和全角的句號(hào)、嘆號(hào)、問號(hào)及換行符為依據(jù)進(jìn)行了分句處理③注:分句前先把句號(hào)(。。。或...)拼接成的省略號(hào)轉(zhuǎn)換成真正的省略號(hào)(…);分句后對(duì)于多個(gè)?或!連用的情況只保留一個(gè)符號(hào),入庫(kù)時(shí)去除文本及句子前后多余的空行。。分句結(jié)果以句子為記錄單元存入表tan_sen中,并記錄句子所屬文本、領(lǐng)域等信息。
從表3可以看出不同領(lǐng)域的用詞與用句有較大差異:電腦評(píng)價(jià)最為簡(jiǎn)潔,且正面與負(fù)面評(píng)價(jià)比較均衡;書籍正面評(píng)價(jià)最為復(fù)雜,且傾向于使用長(zhǎng)句。
表2 ChnSentiCorp語(yǔ)料句長(zhǎng)與句數(shù)統(tǒng)計(jì)信息
為保持語(yǔ)料的領(lǐng)域間平衡和領(lǐng)域內(nèi)的正負(fù)類別平衡,本文從tan_sen中按領(lǐng)域隨機(jī)選擇分屬正負(fù)文本的各2 000個(gè)句子,共計(jì)12 000句,存入“tan_sen_x”表中,形成新的語(yǔ)料庫(kù),規(guī)模為320 165字。
本文用java語(yǔ)言開發(fā)了一個(gè)輔助意見標(biāo)注的程序<XO-意見標(biāo)注與挖掘平臺(tái)1.0>①下載:http://idea.gucas.ac.cn/index.php/People/Xuyanxiang。主要功能為以下三點(diǎn)。
1)句子級(jí)標(biāo)注。標(biāo)注每個(gè)句子是否含有意見及其句子類型(主觀句、客觀句、混合句)。意見標(biāo)注結(jié)果記錄在tan_sen_x的新建字段“is_opinion”中,句子類型記錄在新建字段“sen_type”中。
2)特征級(jí)標(biāo)注。標(biāo)注句中的特征與評(píng)價(jià)語(yǔ)。在tan_sen_x新建字段“sen_opinion”存儲(chǔ)原語(yǔ)料句副本,在該副本中直接加入對(duì)識(shí)別出特征和評(píng)價(jià)語(yǔ)的標(biāo)記。特征采用“?!眮順?biāo)記;評(píng)價(jià)語(yǔ)采用“-2,-1,0,1,2”來標(biāo)記,對(duì)應(yīng)于“很差、差、一般、好、很好”等5個(gè)傾向強(qiáng)度等級(jí)。特征或評(píng)價(jià)語(yǔ)用“{}”包圍起來,標(biāo)記以“/”開頭,緊隨其后。
3)詞性標(biāo)注。在tan_sen_x中新建字段“sen_pos”存儲(chǔ)原句副本。把經(jīng)過分詞、詞性標(biāo)注處理的句子記入sen_pos中。詞性標(biāo)記緊隨相應(yīng)詞語(yǔ)之后,標(biāo)記與詞語(yǔ)之間用“/”符號(hào)分隔。分詞與詞性標(biāo)注引入軟件包ICTCLAS2011_Windows_32_jni②http://ictclas.org/ictclas_download.aspx來完成。
由于意見形式多樣,為保證意見標(biāo)注的準(zhǔn)確性,本文采用3人分別標(biāo)注再交叉驗(yàn)證的方法。首先統(tǒng)一3人對(duì)意見判別標(biāo)準(zhǔn)的認(rèn)識(shí),然后各自獨(dú)立標(biāo)注不同的文本,在完成自己任務(wù)后,檢查另2人的標(biāo)注結(jié)果。當(dāng)判別不一致時(shí),檢查者與標(biāo)注者進(jìn)行討論,能達(dá)成一致則標(biāo)注,否則舍棄該語(yǔ)料。事實(shí)上,不能達(dá)成一致認(rèn)識(shí)的語(yǔ)句通常存在著歧義缺陷。
基于對(duì)tan_sen_x的標(biāo)注與統(tǒng)計(jì)分析,得出以下8個(gè)方面的意見分布規(guī)律。
各領(lǐng)域評(píng)價(jià)文本的意見在3種句子上的分布統(tǒng)計(jì)如圖4所示。從中可得到2點(diǎn)啟示。
1)相同樣本規(guī)模(正負(fù)各2 000),電腦領(lǐng)域的語(yǔ)料包含的意見句數(shù)量明顯高于另兩個(gè)領(lǐng)域,這說明電腦評(píng)價(jià)文本中意見表達(dá)更加直接。
圖4 意見分布的主觀與客觀對(duì)比
2)主觀句表達(dá)意見相對(duì)客觀句在比重上并不占明顯優(yōu)勢(shì),因而意見挖掘研究必須重視客觀句及混合句,否則將無法突破召回率的性能瓶頸。
對(duì)混合意見句中的子句進(jìn)一步分析,發(fā)現(xiàn)有兩種情況:一是主觀子句表達(dá)情感傾向(或意見),客觀子句做補(bǔ)充說明;二是客觀子句體現(xiàn)意見針對(duì)性,主觀子句表達(dá)情緒或情感傾向。前一種情況占多數(shù),約為73%。將前一種計(jì)為主觀意見句,后一種計(jì)為客觀意見句,則主觀意見句與客觀意見句之比為64%∶36%(3 674∶2 068)。
因而,如果不能有效地從客觀(子)句中挖掘意見,則意見召回率的性能上限是64%。
對(duì)tan_sen_x標(biāo)注的特征進(jìn)行統(tǒng)計(jì)歸類后,得到如下結(jié)果:
1)書籍領(lǐng)域涉及5個(gè)大類、23個(gè)小類特征;
2)酒店領(lǐng)域涉及8個(gè)大類,94個(gè)小類特征;
3)電腦領(lǐng)域涉及26個(gè)大類、134個(gè)小類特征。
相對(duì)于32萬字、12 000句的語(yǔ)料規(guī)模,我們發(fā)現(xiàn)特征的類別數(shù)量是很有限的。
一個(gè)領(lǐng)域中包含的特征子類別(即具體特征項(xiàng))從20多到100多不等。我們希望了解手工標(biāo)注多少語(yǔ)句后可發(fā)現(xiàn)全部或絕大部分特征。為消除文本集合命名整理時(shí)可能存在的排序偏向,本文采用3種順序提取并統(tǒng)計(jì)標(biāo)注特征:一種是從前向后(前統(tǒng)計(jì)),一種是從后向前(后統(tǒng)計(jì)),第三種是從中間向前后(中統(tǒng)計(jì))。結(jié)果如圖5的1~3所示。統(tǒng)計(jì)表明,當(dāng)領(lǐng)域樣本空間為4 000時(shí),對(duì)于書籍領(lǐng)域,標(biāo)注數(shù)不到300,即可涉及全部23個(gè)具體特征;對(duì)于酒店,標(biāo)注數(shù)不到450,即可涉及94個(gè)特征中的92個(gè),對(duì)于電腦領(lǐng)域,標(biāo)注數(shù)不到550,即可涉及134個(gè)具體特征中的132個(gè)。上述規(guī)律表明隨機(jī)抽取少量語(yǔ)料(300~600)即可確定酒店等領(lǐng)域中的絕大部分特征項(xiàng)。
意見在特征類別上的分布統(tǒng)計(jì)如下圖5的4~6所示。標(biāo)注中發(fā)現(xiàn),同一個(gè)特征項(xiàng)可用不同的詞顯性表示。例如,“紙質(zhì)”“書頁(yè)”都是“紙張”的同義詞,“字體”“行距”都是“排版”的同類詞。
對(duì)tan_sen_x進(jìn)行特征詞歸類,即建立同義或同類特征詞與所屬特征項(xiàng)的對(duì)應(yīng)列表,然后按表統(tǒng)計(jì),結(jié)果表明:書籍的23類特征項(xiàng)用到79種特征詞;酒店的94類特征項(xiàng)用到358種特征詞;電腦的133類特征項(xiàng)用到225種特征詞。平均每個(gè)具體特征采用2.64種不同的特征詞。由于特征項(xiàng)與特征詞的關(guān)聯(lián)不一定體現(xiàn)在文本中,因而建立相應(yīng)的關(guān)聯(lián)列表是挖掘的必需。
借助語(yǔ)義詞典(如 WordNet)可分類同義特征詞[35],但對(duì)具體領(lǐng)域特征的覆蓋率較低,會(huì)影響特征識(shí)別性能。特征詞與特征項(xiàng)的規(guī)模相對(duì)有限,因而手工建立關(guān)聯(lián)列表更加合理、可行。
圖5 意見在特征類型上的分布對(duì)比
評(píng)價(jià)文本涉及特征并非都顯式出現(xiàn)在文本中,有時(shí)借助評(píng)價(jià)語(yǔ)或事件來體現(xiàn),如“電腦有點(diǎn)沉”,評(píng)價(jià)語(yǔ)是“有點(diǎn)沉”,所針對(duì)的隱性特征是“重量”。
經(jīng)抽樣統(tǒng)計(jì)(在每個(gè)領(lǐng)域各抽500個(gè)意見句),這種隱性特征的分布情況為:書籍中占35.3%;酒店中占28.7%;電腦中占31.5%,總平均為31.8%。
對(duì)比三個(gè)領(lǐng)域的特征項(xiàng),得到如圖6所示結(jié)果。3個(gè)領(lǐng)域共同特征項(xiàng)是總體感覺、價(jià)格和性價(jià)比;書籍與電腦的共項(xiàng)是完好度、配送速度、快遞態(tài)度客服和退換,酒店與電腦的共項(xiàng)是服務(wù)態(tài)度。從中可看出領(lǐng)域間共同特征項(xiàng)比例很小,且不是被評(píng)價(jià)對(duì)象的主體特征。這種分布表明意見特征具有天然領(lǐng)域差異性。
圖6 特征分布的領(lǐng)域?qū)Ρ?/p>
經(jīng)歸納,tan_sen_x中主觀句表達(dá)意見有5種方式:1)情感式,表達(dá)主體對(duì)客體的情感傾向,例如,“我很喜歡它的金屬機(jī)身”;2)評(píng)價(jià)式,以客體為主語(yǔ)的直接評(píng)價(jià),例如,“小玻翻書是一套不錯(cuò)的書”;3)質(zhì)疑式,用反問句式提出意見(通常是負(fù)面的),例如,“難道這就是號(hào)稱四星級(jí)酒店的服務(wù)嗎”;4)建議式,以建議表達(dá)意見,例如,“機(jī)器的cpu最好用zm82”;5)轉(zhuǎn)述式,分兩種情形,一是評(píng)價(jià)者以被轉(zhuǎn)述的主觀意見為自己的意見,例如,“朋友認(rèn)為這家酒店還不錯(cuò)”,二是對(duì)轉(zhuǎn)述內(nèi)容進(jìn)行評(píng)價(jià)形成自己意見,例如,“網(wǎng)友評(píng)論說這家酒店很好,但我不這么認(rèn)為”。
抽樣500個(gè)主觀意見句統(tǒng)計(jì),以上5種主觀式意見表達(dá)方式的分布比較如圖7左圖所示。其中情感式和評(píng)價(jià)式占了大多數(shù)。
經(jīng)歸納,tan_sen_x中客觀句表達(dá)意見有3種方式:1)存在式,判斷期望的事物存在與否,例如,“連洗浴液都沒有”,或判斷存在事物是否非心理期望,例如,“枕頭上竟然有毛發(fā)”,再或判斷存在事物是否超出期望,例如,“房間竟有免費(fèi)飲料送”;2)描述式,用客觀描述(通常是量化數(shù)據(jù))與心理預(yù)期的差距表達(dá)對(duì)意見,例如,“雙人房間的床只有大約1米寬”;3)事件式,用事件蘊(yùn)涵的現(xiàn)實(shí)意義表達(dá)意見,例如,“第三次才開機(jī)成功”。
以上3種客觀意見表達(dá)方式在3個(gè)領(lǐng)域的抽樣統(tǒng)計(jì)結(jié)果如圖7右圖所示(抽樣數(shù)為500個(gè)客觀意見句)。其中存在式和事件式占了大多數(shù)。
圖7 意見在表達(dá)方式上的分布
根據(jù)意見在表達(dá)方式上的分布規(guī)律,我們提出以下5點(diǎn)意見挖掘策略,包括建立3種列表,對(duì)主觀、客觀2類句式采用不同方式處理。
1)特征項(xiàng)列表。由于特征項(xiàng)對(duì)意見挖掘的整體性能影響較大,應(yīng)盡可能提高對(duì)特征項(xiàng)的識(shí)別精度。特征項(xiàng)的隨機(jī)分布和有限性使得手工識(shí)別或修正特征項(xiàng)集合是可行的。有研究在建立領(lǐng)域?qū)ο蟊倔w庫(kù)即是這方面工作的例子[36-37]。
2)特征詞列表。由于特征項(xiàng)與特征詞的類屬關(guān)系并不能通過字面完全反映出來,為準(zhǔn)確提取特征詞并分類統(tǒng)計(jì)必須建立特征詞與特征項(xiàng)的對(duì)應(yīng)關(guān)系表,創(chuàng)建過程可借助語(yǔ)義詞典(如 WordNet,Hownet),但通常來講手工創(chuàng)建過程是必要的。
3)隱性特征表。隱性特征項(xiàng)在文中沒有對(duì)應(yīng)的特征詞,是基于與評(píng)價(jià)語(yǔ)或事件的語(yǔ)義關(guān)聯(lián)來體現(xiàn)的。為對(duì)其識(shí)別必須顯式地記錄下這種關(guān)聯(lián),關(guān)聯(lián)分兩種:一種是特征與評(píng)價(jià)性形容詞的關(guān)聯(lián);另一種是特征與描述事件的主導(dǎo)動(dòng)詞的關(guān)聯(lián)。該列表領(lǐng)域相關(guān),不同的領(lǐng)域需建立不同的隱性特征表。
4)分類處理主觀意見句。對(duì)于情感式和評(píng)價(jià)式的意見主觀表達(dá)方式,可基于情感詞進(jìn)行識(shí)別;對(duì)于質(zhì)疑、建議和轉(zhuǎn)述等3種方式,則需要按特殊句式進(jìn)行模式識(shí)別,然后進(jìn)行語(yǔ)義轉(zhuǎn)換處理,再提取意見元組。
5)基于指示詞處理客觀句??陀^句有明確針對(duì)性(也需基于特征詞列表和隱性特征表識(shí)別)。而其傾向性的表達(dá)則借助由助詞或副詞形成的語(yǔ)氣,例如,“都”“只”“才”等。因而識(shí)別客觀句式意見的方法是基于標(biāo)注語(yǔ)料計(jì)算出這樣的傾向指示詞,然后擇取其中置信度較高的來確定目標(biāo)句的傾向性,句中指示詞所修飾的詞或短語(yǔ)即為評(píng)價(jià)語(yǔ)。另外,雖然建立通用的知識(shí)推理規(guī)則仍有巨大挑戰(zhàn),但針對(duì)具體領(lǐng)域的意見挖掘需要,可歸納出某些能提高客觀句式意見挖掘性能的推理規(guī)則。例如,建立規(guī)則“?新的衛(wèi)浴用品,?毛發(fā)→清潔服務(wù)差(負(fù)面意見)”,則可通過語(yǔ)境下“毛發(fā)”一詞發(fā)現(xiàn)負(fù)面意見。
本文對(duì)評(píng)價(jià)文本中意見元組抽取召回率不高是否與意見表達(dá)方式的分布規(guī)律有關(guān)進(jìn)行了研究。論文對(duì)100萬字規(guī)模的語(yǔ)料庫(kù)統(tǒng)計(jì)發(fā)現(xiàn),客觀句表達(dá)意見情況占36%,這揭示了只考慮分析主觀句是召回率低的主要原因之一。
對(duì)不同評(píng)價(jià)領(lǐng)域中特征分布研究發(fā)現(xiàn),特征具有數(shù)量少、領(lǐng)域差異大、隨機(jī)分布且用詞多樣的特點(diǎn),同時(shí)隱性特征廣泛存在。這些發(fā)現(xiàn)支持了手工識(shí)別特征做法的合理性。論文從語(yǔ)料庫(kù)歸納出意見表達(dá)方式有5種主觀句式,3種客觀句式,并給出了針對(duì)句式特點(diǎn)采取不同挖掘策略的方法。
由于特征與傾向的關(guān)系通?;谠~語(yǔ)間的語(yǔ)義關(guān)聯(lián)或句子語(yǔ)義來體現(xiàn),因而意見表達(dá)是語(yǔ)義相關(guān)的,這導(dǎo)致以詞袋方法或淺層語(yǔ)言信息為基礎(chǔ)的算法可能對(duì)情感分類有效,但進(jìn)行意見挖掘時(shí)則往往性能較差。所以,把上述語(yǔ)義關(guān)系以某種數(shù)據(jù)結(jié)構(gòu)固化下來是提高意見挖掘召回率的必要辦法。
[1]B Pang,L Lee.Opinion mining and sentiment analysis.[M].Foundations and Trends in Information Retrieval 2(1-2),2008:7.
[2]K Dave,S Lawrence,D M Pennock.Mining the peanut gallery:Opinion extraction and semantic classiffication of product reviewes [C]//Proceedings of WWW,2003:519-528.
[3]I Ounis,M de Rijke,C Macdonald,et al.Overview of the TREC-2006blog track[C]//Proceedings of the 15th Text Retrieval Conference(TREC),2006.
[4]許洪波,孫樂,姚天昉,等.第三屆中文傾向性分析評(píng)測(cè)(COAE2011)總結(jié)報(bào)告[R]//許洪波,孫樂,姚天昉.第三屆中文傾向性分析評(píng)測(cè)(COAE2011),2011:1-24
[5]S Kim,E Hovy.Determining the sentiment of opinions[C]//Proceedings of Interntional Conference on Computational Linguistics(COLING-2004),2004.
[6]B Liu.Sentiment Analysis and Opinion Mining[R],AAAI-2011Tutorial,San Francisco,USA Aug.8,2011
[7]B Pang,L Lee.Opinion mining and sentiment analysis.[M]Foundations and Trends in Information Retrieval 2(1-2),2008:57-59.
[8]A Popescu,O Etzioni.Extracting product features and opinions from reviews[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing(EMNLP-2005),2005.
[9]A M Popescu,O Etzioni.Extracting product features and opinions from reviews[C]//Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing(HLT/EMNLP),2005.
[10]J Yi,W Niblack.Sentiment mining in WebFountain[C]//Proceedings of the International Conference on Data Engineering(ICDE),2005.
[11]M Hu,B Liu.Mining and summarizing customer reviews[C]//Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD-2004),2004.
[12]B Liu,M Hu,J Cheng.Opinion observer:Analyzing and comparing opinions on the web[C]//Proceedings of WWW,2005.
[13]M Hu,B Liu.Mining opinion features in customer reviews[C]//Proceedings of AAAI,2004:755-760.
[14]A M Popescu,O Etzioni.Extracting product features and opinions from reviews[C]//Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing(HLT/EMNLP),2005.
[15]L Zhuang,F(xiàn) Jing,X Y Zhu,et al,Movie review mining and summarization[C]//Proceedings of the ACM SIGIR Conference on Information and Knowledge Management(CIKM),2006.
[16]B Liu,M Hu,J Cheng.Opinion observer:Analyzing and comparing opinions on the web[C]//Proceedings of WWW,2005.
[17]J Skomrowski.Topical Opinion Retrieval[D].Disertation of Master of Mathematics in Computer Science.Waterloo,Canada,2006
[18]K Puspesh. Multi-document Update and Opinion Summarization[D].Disertation of of Master of Technology.Indian Institution of Technology.2008
[19]S Morinaga,K Yamanishi,K Tateishi,et al.Mining product reputations on the Web[C]//Proceedings of the ACM SIGKDD Conference on Knowledge Discovery and Data Mining(KDD),2002:341-349.
[20]李壽山,黃居仁.基于詞邊界分類的中文分詞方法[J].中文信息學(xué)報(bào),2010,24(1):3-7.
[21]王麗杰,車萬翔,劉挺.基于SVMTool的中文詞性標(biāo)注[J].中文信息學(xué)報(bào),2009,23(4):16-21.
[22]邢富坤,宋柔,羅智勇.SSD模型及其在漢語(yǔ)詞性標(biāo)注中的應(yīng)用[J].中文信息學(xué)報(bào),2009,24(1):20-24.
[23]吳瓊,譚松波,張剛,等.跨領(lǐng)域傾向性分析相關(guān)技術(shù)研究[J].中文信息學(xué)報(bào),2010,24(1):77-83.
[24]劉全升,姚天昉.基于關(guān)聯(lián)度模型的文本傾向性檢索研究[J].中文信息學(xué)報(bào),2011,25(1):16-19.
[25]楊源,林鴻飛.基于產(chǎn)品屬性的條件句傾向性分析[J].中文信息學(xué)報(bào),2011,25(3):86-92.
[26]宋銳,林鴻飛,常富洋.中文比較句識(shí)別及比較關(guān)系抽?。跩].中文信息學(xué)報(bào),2009,23(2):102-107,122.
[27]宋曉雷,王素格,李紅霞.面向特定領(lǐng)域的產(chǎn)品評(píng)價(jià)對(duì)象自動(dòng)識(shí)別研究[J].中文信息學(xué)報(bào),2010,24(1):89-93.
[28]劉鴻宇,趙妍妍,秦兵,等.評(píng)價(jià)對(duì)象抽取及其傾向性分析[J].中文信息學(xué)報(bào),2010,24(1):84-88,122.
[29]張莉,錢玲飛,許鑫.基于核心句及句法關(guān)系的評(píng)價(jià)對(duì)象抽取[J].中文信息學(xué)報(bào),2011,25(3):23-29.
[30]王素格,楊安娜.基于混合語(yǔ)言信息的詞語(yǔ)搭配傾向判別方法[J].中文信息學(xué)報(bào),2010,24(3):69-74.
[31]劉全升,姚天昉,黃高輝,等.漢語(yǔ)意見型主觀性文本類型體系的研究[J].中文信息學(xué)報(bào),2008,22(6):63-68.
[32]宋鴻彥,劉軍,姚天昉,等.漢語(yǔ)意見型主觀性文本標(biāo)注語(yǔ)料庫(kù)的構(gòu)建[J].中文信息學(xué)報(bào),2009,23(2):123-128.
[33]B Pang,L Lee.Opinion mining and sentiment analysis[M].Foundations and Trends in Information Retrieval 2(1-2),2008:26.
[34]B Pang,L Lee.Opinion mining and sentiment analysis[M].Foundations and Trends in Information Retrieval 2(1-2),2008:17-22.
[35]A Esuli,F(xiàn) Sebastiani.PageRanking WordNet synsets:An application to opinion mining[C]//Proceedings of the Association for Computational Linguistics(ACL),2007.
[36]Y Lu,H Duan,H Wang,et al.Exploiting Structured Ontology to Organize Scattered Online Opinions[C]//Proceedings of Interntional Conference on Computational Linguistics(COLING-2010),2010.
[37]姚天昉,聶青陽(yáng),李建超,等.一個(gè)用于漢語(yǔ)汽車評(píng)論的意見挖掘系統(tǒng)[C]//曹右琦,孫茂松.中文信息處理前沿進(jìn)展—中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集.北京:清華大學(xué)出版社,2006:260-281.