顏端武 江 蕊 楊雄飛 鞠 寧(南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院信息管理系,江蘇 南京 210094)
互聯(lián)網(wǎng)的快速發(fā)展推動(dòng)著人類交流方式的變革,人們?cè)絹碓綗嶂杂谠诰W(wǎng)絡(luò)媒介上發(fā)表、交流和傳播關(guān)乎社會(huì)、政治、經(jīng)濟(jì)、文化等不同層面事件的看法,網(wǎng)絡(luò)已成為人們發(fā)表口碑信息的主陣地。同時(shí),這些口碑信息中往往蘊(yùn)含著豐富的個(gè)人情感,對(duì)其進(jìn)行監(jiān)測(cè)分析有助于企業(yè)或政府部門實(shí)時(shí)把握輿論態(tài)勢(shì),必要時(shí)可及時(shí)采取有效措施,避免口碑危機(jī)發(fā)生。
意見挖掘技術(shù)的發(fā)展可為網(wǎng)絡(luò)口碑的監(jiān)測(cè)分析提供有效技術(shù)支撐,近年來得到了較多關(guān)注。所謂意見挖掘(Opinion Mining)又可稱為情感分析,是對(duì)人們針對(duì)諸如產(chǎn)品服務(wù)、組織、個(gè)體、事件、主題等實(shí)體的觀點(diǎn)、情緒、態(tài)度等做出有效地挖掘和分析,然后進(jìn)一步對(duì)挖掘出來的信息進(jìn)行歸納和推理的一類技術(shù)。意見挖掘主要采用自然語(yǔ)言處理、文本分析和情感計(jì)算等相關(guān)技術(shù)對(duì)互聯(lián)網(wǎng)中海量的產(chǎn)品評(píng)論、微博、博客和論壇帖子等文本進(jìn)行意見抽取或情感分類,總的說來,意見挖掘?qū)儆谖谋就诰虻囊粋€(gè)細(xì)分研究領(lǐng)域[1]。
目前,基于處理文本粒度的不同,意見挖掘可分為篇章級(jí)、句子級(jí)、短語(yǔ)級(jí)等研究層次,而按照分析粒度的不同,可將意見挖掘分為粗粒度意見挖掘和細(xì)粒度意見挖掘[2]。粗粒度意見挖掘一般從整體上來判斷文本的情感極性,而細(xì)粒度意見挖掘則深入到產(chǎn)品特征層面,能夠提取到評(píng)價(jià)信息中涉及的評(píng)價(jià)對(duì)象、評(píng)價(jià)詞以及對(duì)應(yīng)的評(píng)價(jià)傾向等意見要素[3]。一般情況下,篇章級(jí)和句子級(jí)的意見挖掘?qū)儆诖至6鹊囊庖娡诰?,但在大?shù)據(jù)時(shí)代背景下,這種整體情感傾向性的分析已經(jīng)滿足不了人們的需求,尤其對(duì)于企業(yè)和消費(fèi)者來說,他們開始追求更加細(xì)致和精準(zhǔn)的分析挖掘。企業(yè)希望從評(píng)論中獲取自身產(chǎn)品服務(wù)在具體特征或?qū)傩陨系目诒畔ⅲ瑤椭M(jìn)行針對(duì)性的改善或提高,從而為消費(fèi)者提供更加滿意的產(chǎn)品和服務(wù),進(jìn)一步鞏固自身在行業(yè)中的競(jìng)爭(zhēng)地位,也能避免口碑危機(jī)的發(fā)生。消費(fèi)者則希望從評(píng)論中獲取符合自身個(gè)性化要求的相關(guān)產(chǎn)品或服務(wù)信息,進(jìn)而做出購(gòu)買決策。細(xì)粒度的意見挖掘相比而言更加能夠滿足企業(yè)和消費(fèi)者的現(xiàn)實(shí)需求,有效幫助他們減輕信息過載和認(rèn)知成本等問題,因此在近年來得到了學(xué)者們的廣泛關(guān)注。本文的研究流程如圖1所示:
圖1 研究流程圖
為了從整體上了解產(chǎn)品評(píng)論細(xì)粒度意見挖掘研究的發(fā)展情況,本文以“細(xì)粒度意見挖掘”、“細(xì)粒度情感分析”以及“產(chǎn)品評(píng)論挖掘”、“產(chǎn)品評(píng)論分析”為關(guān)鍵詞在中國(guó)知網(wǎng)上進(jìn)行相關(guān)中文文獻(xiàn)的檢索,分別檢索到相關(guān)文獻(xiàn)75篇和558篇;相應(yīng)的以“Fine-grained Opinion Mining”、“Fine-grained Sentiment Analysis”以及“Product Reviews Mining”、“Product Reviews Analysis”為關(guān)鍵詞在Web of Science上進(jìn)行相關(guān)外文文獻(xiàn)的檢索,分別檢索到相關(guān)文獻(xiàn)213篇和804篇。根據(jù)中外相關(guān)文獻(xiàn)的年代分布對(duì)比(見圖1)可以看出,產(chǎn)品評(píng)論挖掘、細(xì)粒度意見挖掘在近年來逐步成為研究熱點(diǎn),國(guó)內(nèi)外的相關(guān)文獻(xiàn)數(shù)量都有著較快增長(zhǎng),其中國(guó)外相關(guān)研究的開展起步較早,研究成果也較國(guó)內(nèi)更為豐富??偟膩碚f,該領(lǐng)域研究有著較好的發(fā)展前景,尤其在大數(shù)據(jù)時(shí)代愈加受到國(guó)內(nèi)外學(xué)者的關(guān)注。
圖2 中外相關(guān)文獻(xiàn)年代分布
意見挖掘往往又被稱為情感分析,而在實(shí)際過程中意見挖掘是在評(píng)價(jià)要素抽取的基礎(chǔ)上再進(jìn)一步進(jìn)行情感分析,因此從嚴(yán)格意義上來講,情感分析應(yīng)屬于意見挖掘的組成內(nèi)容??偟膩碚f,意見挖掘主要是運(yùn)用自然語(yǔ)言處理、信息抽取、數(shù)據(jù)挖掘等技術(shù)方法對(duì)目標(biāo)文本信息進(jìn)行主客觀分析以及進(jìn)一步對(duì)主觀性文本進(jìn)行情感分析,從而幫助抽取出文本信息中有價(jià)值的意見信息或知識(shí)。從文本粒度出發(fā),意見挖掘任務(wù)可劃分為篇章級(jí)、句子級(jí)以及短語(yǔ)級(jí),而根據(jù)挖掘范圍和程度的不同,總體上可以分為粗粒度意見挖掘和細(xì)粒度意見挖掘。從挖掘任務(wù)來看,產(chǎn)品評(píng)論細(xì)粒度意見挖掘主要涉及主客觀分類、主題識(shí)別、意見評(píng)價(jià)者識(shí)別、情感傾向性分析等方面。
意見挖掘簡(jiǎn)言之就是從評(píng)論信息中抽取出有價(jià)值的意見信息,本質(zhì)上屬于信息抽取的范疇,目前國(guó)內(nèi)外學(xué)者關(guān)于意見挖掘已經(jīng)開展了一系列研究。國(guó)外學(xué)者中,Pak等通過建立情感分類模型,從整體上分析Twitter用戶的評(píng)論語(yǔ)料的情感傾向,從而獲得用戶針對(duì)產(chǎn)品或服務(wù)的意見態(tài)度和情感傾向[4]。Taboada等提出了一種基于詞典的方法從文本中提取情感,利用SO-CAL模型進(jìn)行情感極性分類[5]。Hu等運(yùn)用關(guān)聯(lián)規(guī)則技術(shù)抽取出評(píng)論信息中高頻出現(xiàn)的名詞和名詞性短語(yǔ)并進(jìn)一步進(jìn)行冗余過濾,進(jìn)而識(shí)別出語(yǔ)料中受到廣泛關(guān)注的評(píng)論對(duì)象及其屬性[6]。Somprasertsri等結(jié)合句法特征和語(yǔ)義信息,根據(jù)句子成分間的依存關(guān)系設(shè)計(jì)了5種抽取模板幫助提取出產(chǎn)品評(píng)論中的評(píng)價(jià)特征和觀點(diǎn)詞對(duì)[7]。國(guó)內(nèi)學(xué)者中,潘艷茜等基于SVM模型提出一種結(jié)合微博和汽車評(píng)論語(yǔ)料的分類方法,以解決微博中用戶觀點(diǎn)句和非觀點(diǎn)句不平衡的問題[8]。祝振媛基于特征詞向量空間和關(guān)鍵詞提取,構(gòu)建形成一套基于信息分類的英文網(wǎng)絡(luò)書評(píng)內(nèi)容挖掘方法體系[9]。根據(jù)對(duì)已有研究成果的總結(jié)可以發(fā)現(xiàn),意見挖掘的研究呈現(xiàn)出從傳統(tǒng)的粗粒度意見挖掘向細(xì)粒度意見挖掘發(fā)展轉(zhuǎn)變的趨勢(shì)。
在大數(shù)據(jù)背景下,意見挖掘技術(shù)的發(fā)展順應(yīng)了時(shí)代對(duì)海量數(shù)據(jù)價(jià)值挖掘的需求,因此吸引了大量的研究者對(duì)其展開研究。同時(shí),意見挖掘研究也開始逐步面向電商平臺(tái)建設(shè)、網(wǎng)絡(luò)輿情監(jiān)測(cè)、網(wǎng)絡(luò)口碑分析、競(jìng)爭(zhēng)情報(bào)分析以及新產(chǎn)品市場(chǎng)預(yù)測(cè)等相關(guān)領(lǐng)域,旨在幫助企業(yè)了解消費(fèi)者的喜愛偏好、改善企業(yè)經(jīng)營(yíng)模式以及提高自身產(chǎn)品和服務(wù)水平,同時(shí)也為消費(fèi)者做出購(gòu)買決策提供有效的參考。
粗粒度意見挖掘主要是對(duì)文本進(jìn)行整體的情感傾向性分類,即首先判斷出文本是否具有傾向性,再對(duì)具有傾向性的文本進(jìn)行極性分類,一般分為正面和負(fù)面,或者是褒義、中性和貶義等。國(guó)內(nèi)外學(xué)者分別從不同角度開展了一些具體的研究。國(guó)外研究中,Yu等提出了一個(gè)貝葉斯分類器用于新聞評(píng)論的正負(fù)面觀點(diǎn)分類,實(shí)驗(yàn)證明其分類性能非常高,精確度和召回率高達(dá)97%[10]。Jiang等運(yùn)用五折交叉驗(yàn)證的方法對(duì)推文進(jìn)行主客觀分類,然后擴(kuò)展情感詞典對(duì)主觀推文進(jìn)行情感分類,取得了較好的實(shí)驗(yàn)結(jié)果[11]。國(guó)內(nèi)研究中,丁晟春等借助SVM模型,使用句式特征、句內(nèi)特征和隱性特征對(duì)中文微博文本進(jìn)行主客觀識(shí)別和情感傾向性分析,并通過實(shí)驗(yàn)證明了所提方法的可行性和有效性[12]。李本陽(yáng)等將篇章級(jí)的情感傾向性分析劃分成兩層,在分析過程中引入句子級(jí)的情感傾向性分析,利用交叉驗(yàn)證進(jìn)一步構(gòu)建了單層標(biāo)注級(jí)聯(lián)模型[13]。
在粗粒度意見挖掘相關(guān)研究中可以發(fā)現(xiàn),很多研究者嘗試將文本分類器應(yīng)用到文本的情感分類上,但實(shí)際分類效果存在一定的差異,同時(shí)分類器的分類性能除了與分類特征的選擇有關(guān),與領(lǐng)域文本特征也有很大關(guān)系。
粗粒度的意見挖掘只能從整體上判斷文本的情感傾向性,而不能深入挖掘用戶對(duì)于具體評(píng)論對(duì)象及其相關(guān)屬性的情感態(tài)度。以產(chǎn)品為例,產(chǎn)品往往存在不同的特征屬性,消費(fèi)者對(duì)其整體的情感傾向不能代表消費(fèi)者對(duì)其局部特征屬性方面也持有相同的情感傾向,同時(shí)消費(fèi)者在對(duì)產(chǎn)品進(jìn)行評(píng)價(jià)或進(jìn)行同類型產(chǎn)品對(duì)比時(shí),往往會(huì)從具體的產(chǎn)品特征及屬性的角度發(fā)表觀點(diǎn)意見。不管是消費(fèi)者還是企業(yè)都希望在了解產(chǎn)品的整體情感傾向的同時(shí),對(duì)于自身所關(guān)注的產(chǎn)品特征的情感傾向也能有所掌握。基于這樣的現(xiàn)實(shí)需求,細(xì)粒度意見挖掘成為意見挖掘領(lǐng)域的新熱點(diǎn),并且主要應(yīng)用于企業(yè)產(chǎn)品或服務(wù)評(píng)論的分析挖掘。
細(xì)粒度意見挖掘在粗粒度意見挖掘的基礎(chǔ)上進(jìn)一步深入,具體到產(chǎn)品的特征層面,運(yùn)用信息抽取技術(shù)抽取出評(píng)論文本中的評(píng)論主體、評(píng)價(jià)特征、評(píng)價(jià)詞以及文本情感傾向等意見要素,為現(xiàn)實(shí)應(yīng)用提供有價(jià)值的細(xì)節(jié)信息[3]。目前,面向產(chǎn)品評(píng)論的細(xì)粒度意見挖掘主要涉及產(chǎn)品特征抽取、評(píng)價(jià)詞識(shí)別、評(píng)價(jià)特征與評(píng)價(jià)詞搭配抽取、情感計(jì)算等方面研究?jī)?nèi)容。隨著細(xì)粒度意見挖掘研究的興起,國(guó)內(nèi)外學(xué)者從不同的角度出發(fā)開展了各自的研究工作,取得了一定的研究成果,下文將從主要任務(wù)和關(guān)鍵技術(shù)兩個(gè)方面對(duì)相關(guān)研究成果分別進(jìn)行總結(jié)。
Medhat等認(rèn)為基于產(chǎn)品評(píng)論的細(xì)粒度意見挖掘具體包括4個(gè)步驟,分別是情感識(shí)別、產(chǎn)品屬性選擇、情感分類和情感極性識(shí)別,從而總結(jié)出細(xì)粒度意見挖掘的主要任務(wù)是特征識(shí)別和情感分類[14]。徐冰等指出細(xì)粒度意見挖掘的主要任務(wù)是分析提取情感傾向以及與之相關(guān)聯(lián)的各要素,包括評(píng)價(jià)對(duì)象、傾向極性和強(qiáng)度等[15]。萬琪等指出評(píng)價(jià)對(duì)象識(shí)別,抽取情感的表達(dá)、觀點(diǎn)持有者等是細(xì)粒度意見挖掘的主要任務(wù)[16]。
通常情況下,細(xì)粒度意見挖掘?qū)嶋H分為3個(gè)步驟進(jìn)行:①評(píng)論文本的主客觀分類;②評(píng)論對(duì)象的特征或?qū)傩约皩?duì)應(yīng)情感詞的識(shí)別;③評(píng)論對(duì)象特征或?qū)傩缘那楦袠O性分類,即依據(jù)事先定義的情感詞的極性值進(jìn)行情感傾向分類,例如分類為正向極性或負(fù)向極性[17]。因此,細(xì)粒度意見挖掘的主要任務(wù)可以具體總結(jié)為:①文本的主客觀分類;②評(píng)價(jià)對(duì)象、評(píng)價(jià)詞及兩者間搭配等評(píng)價(jià)要素的抽取;③面向評(píng)價(jià)對(duì)象的情感極性計(jì)算這3個(gè)方面。其中,評(píng)價(jià)要素的抽取是細(xì)粒度意見挖掘的關(guān)鍵任務(wù)。
3.2.1 主客觀分類
網(wǎng)絡(luò)文本可分為主觀性文本和客觀性文本,其中客觀性文本只是針對(duì)評(píng)論對(duì)象的客觀性描述,往往不帶有感情色彩,而主觀性文本是對(duì)評(píng)論對(duì)象的意見觀點(diǎn)的集合,帶有個(gè)人的主觀情感[18]。換句話說,主觀性文本是真正意義上的評(píng)論句,也是意見挖掘的主要對(duì)象,因此,在對(duì)文本進(jìn)行意見挖掘時(shí),首先需要對(duì)評(píng)論文本進(jìn)行主客觀分類,即識(shí)別出其中的主觀性文本,從而幫助縮小范圍,減少干擾。
主客觀分類的主要目的是幫助提高評(píng)價(jià)要素抽取的效率和準(zhǔn)確性,為此,國(guó)內(nèi)外學(xué)者嘗試不同的方法實(shí)現(xiàn)評(píng)論文本的主客觀分類。Toprak等人基于詞語(yǔ)特征、詞性特征以及詞典信息特征(主要是情感詞典),利用SVM分類器實(shí)現(xiàn)基于監(jiān)督學(xué)習(xí)模型的文本主觀性分類,實(shí)驗(yàn)發(fā)現(xiàn)詞典信息特征能夠顯著幫助提高分類任務(wù)的召回率[19]。Lambov等人在構(gòu)建跨領(lǐng)域的分類模型時(shí),提出和評(píng)估了一種融合高層次特征(如情感詞的極性強(qiáng)度)和低層次特征(如TF-IDF信息)的協(xié)同訓(xùn)練方法,其實(shí)驗(yàn)結(jié)果的精度水平達(dá)到了86.4%,表明了該方法能夠顯著提高主觀分類的準(zhǔn)確率[20]。對(duì)于中文文本的主客觀分類問題,郭云龍等人根據(jù)構(gòu)建的詞語(yǔ)字典與詞性字典,分析支持向量機(jī)、樸素貝葉斯、K最近鄰等分類模型,并利用證據(jù)理論結(jié)合多分類器對(duì)中文微博的觀點(diǎn)句進(jìn)行識(shí)別[21]。張博等人基于SVM分類器對(duì)中文句子主客觀分類的特征選擇進(jìn)行了研究,提出了情感詞、指示性動(dòng)詞、指示性副詞、語(yǔ)氣詞及語(yǔ)氣標(biāo)點(diǎn)符號(hào)等語(yǔ)義層面的特征,還對(duì)N-POS、N-Gram等語(yǔ)法層面的特征加以探討,通過選擇不同的特征維數(shù),找到了使性能達(dá)到最優(yōu)的特征組合形式,最終達(dá)到了令人滿意的分類結(jié)果[22]。
總的來說,主客觀文本的分類目前主要是以情感詞為主,結(jié)合文本類型和文本特征表示方法加以實(shí)現(xiàn),如何從更深層次的角度選取評(píng)論文本特征以幫助提高分類的準(zhǔn)確性是眾多學(xué)者正在尋求突破的地方。
3.2.2 評(píng)價(jià)要素抽取
1)評(píng)價(jià)特征的識(shí)別
評(píng)價(jià)特征的識(shí)別往往也被稱為評(píng)價(jià)對(duì)象的抽取。國(guó)外學(xué)者中,Hu等根據(jù)評(píng)價(jià)特征往往以高頻詞或短語(yǔ)的形式出現(xiàn)的規(guī)律,采用基于關(guān)聯(lián)規(guī)則的挖掘方法識(shí)別出評(píng)論句中的評(píng)價(jià)特征[6]。Goldensohn等運(yùn)用基于統(tǒng)計(jì)和規(guī)則的方法幫助識(shí)別餐館、酒店等服務(wù)評(píng)論語(yǔ)料中的評(píng)價(jià)特征[23]。Qiu等采用雙向傳播的方法進(jìn)行觀點(diǎn)詞擴(kuò)充和評(píng)價(jià)特征的識(shí)別[24]。一些研究者還將主題計(jì)算模型引入到意見挖掘研究中。Titov等利用LDA模型獲取到產(chǎn)品特征,在此基礎(chǔ)上對(duì)相似的特征進(jìn)行主題聚合[25]。Zhai等提出了帶約束的LDA模型來實(shí)現(xiàn)商品特征抽取及分組[26]。彭云等根據(jù)產(chǎn)品評(píng)論詞語(yǔ)間的語(yǔ)義關(guān)系,提出語(yǔ)義關(guān)系約束的主題模型SRC-LDA,以發(fā)現(xiàn)細(xì)粒度特征詞、情感詞及之間的語(yǔ)義關(guān)聯(lián)性[27]。游貴榮等使用詞性路徑匹配模板檢測(cè)評(píng)論中的評(píng)價(jià)句,并加入自定義評(píng)價(jià)詞詞典進(jìn)行評(píng)價(jià)特征識(shí)別工作[28]。王榮洋等則基于CRFs模型提出了一種面向產(chǎn)品評(píng)論的評(píng)價(jià)特征識(shí)別方法[29]。
已有研究中進(jìn)行評(píng)價(jià)特征識(shí)別的方法主要有基于頻率、基于模板規(guī)則、基于圖論、基于條件隨機(jī)場(chǎng)、基于深度學(xué)習(xí)等諸多方法。其中,基于頻率的方法較為常見,但只能抽取頻繁出現(xiàn)的評(píng)價(jià)特征,對(duì)于非頻繁出現(xiàn)的評(píng)價(jià)對(duì)象還需要采取其他技術(shù)手段;基于規(guī)則模板的方法無需大量標(biāo)注語(yǔ)料且算法時(shí)間復(fù)雜度低,但受限于句法分析器的性能而表現(xiàn)差強(qiáng)人意;基于圖論的方法假設(shè)評(píng)價(jià)特征為名詞或名詞性短語(yǔ)和評(píng)價(jià)詞為形容詞,利用評(píng)價(jià)特征和評(píng)價(jià)詞的共現(xiàn)強(qiáng)化來實(shí)現(xiàn)兩者的聯(lián)合抽取,但在句子中無形容詞性的評(píng)價(jià)詞的情況下存在一定的問題;基于條件隨機(jī)場(chǎng)的方法可以較為精確地抽取出評(píng)價(jià)特征,但是該方法需要大量的訓(xùn)練集,對(duì)語(yǔ)料標(biāo)注的質(zhì)量要求也比較高;基于深度學(xué)習(xí)的方法近年來深受歡迎,其避免了大量特征方面的工程工作,能在一定程度上從語(yǔ)義角度分析評(píng)價(jià)對(duì)象,但是在實(shí)際研究中面臨模型訓(xùn)練時(shí)間復(fù)雜度高和領(lǐng)域遷移困難等問題。
2)評(píng)價(jià)詞的識(shí)別
評(píng)價(jià)詞即評(píng)論中帶有觀點(diǎn)色彩的詞,部分研究者也將其稱為情感詞。目前大部分研究都采用基于詞典的方法和基于語(yǔ)料庫(kù)的方法進(jìn)行評(píng)價(jià)詞的識(shí)別?;谠~典的方法常通過計(jì)算候選詞與情感種子集中的情感詞的關(guān)聯(lián)度來進(jìn)行評(píng)價(jià)詞識(shí)別,如國(guó)外Kim等通過構(gòu)建種子詞語(yǔ),使用WordNet計(jì)算新詞的情感傾向性[30],國(guó)內(nèi)朱嫣嵐等利用HowNet對(duì)中文詞匯語(yǔ)義的傾向性進(jìn)行計(jì)算[31]。Turney等基于評(píng)論語(yǔ)料庫(kù),通過點(diǎn)互信息方法計(jì)算出候選詞與種子詞在語(yǔ)料庫(kù)中的PMI值,進(jìn)而分析出候選詞的傾向性[32]。王振宇等則將情感詞典和語(yǔ)料庫(kù)兩種方法相結(jié)合,用以計(jì)算出新詞的傾向性[33]。
總體來看,目前評(píng)價(jià)詞識(shí)別技術(shù)的效果取決于情感詞典和語(yǔ)料庫(kù)的詞匯收錄規(guī)模和情感標(biāo)注質(zhì)量,因此存在很大的局限性,尤其是在進(jìn)行領(lǐng)域遷移時(shí)面臨很大的問題。部分研究者開始嘗試從句子本身出發(fā),通過分析句子成分間的依賴關(guān)系和詞性特征識(shí)別出評(píng)價(jià)詞,如王娟等從評(píng)價(jià)詞的詞性出發(fā),找出其在句子中可能的句法位置,利用評(píng)價(jià)詞與其他句子成分間的依存關(guān)系制定了一系列抽取規(guī)則,幫助識(shí)別出評(píng)價(jià)詞[34]。
3)評(píng)價(jià)對(duì)象與評(píng)價(jià)詞的搭配抽取
過往的評(píng)價(jià)對(duì)象與評(píng)價(jià)詞搭配的抽取常采用基于窗口的方法,以評(píng)價(jià)對(duì)象或者評(píng)價(jià)詞為中心,在特定范圍查找識(shí)別出相應(yīng)的評(píng)價(jià)詞或評(píng)價(jià)對(duì)象,進(jìn)而實(shí)現(xiàn)兩者搭配的抽取。目前,部分研究者嘗試通過其他方法來實(shí)現(xiàn)對(duì)評(píng)價(jià)搭配的抽取工作。國(guó)外研究中,Lakkaraju等利用機(jī)器學(xué)習(xí)并結(jié)合依存句法分析,使用HMM模型實(shí)現(xiàn)評(píng)價(jià)搭配的抽取[35]。Feng等基于人工標(biāo)注評(píng)價(jià)對(duì)象和評(píng)價(jià)詞,然后根據(jù)句法分析制定句法規(guī)則并根據(jù)規(guī)則抽取評(píng)價(jià)搭配[36]。Somprasertsri等在句法及語(yǔ)義分析基礎(chǔ)上提出基于依存關(guān)系模板的評(píng)價(jià)搭配抽取方法[7]。國(guó)內(nèi)研究中,郭沖等則利用情感本體樹和先驗(yàn)知識(shí)模板匹配算法幫助識(shí)別出評(píng)論句中的評(píng)價(jià)搭配[3]。方明等采用基于最大熵模型的方法實(shí)現(xiàn)對(duì)酒店評(píng)論文本中的評(píng)價(jià)搭配抽取[37]。
傳統(tǒng)的評(píng)價(jià)搭配抽取方法對(duì)于一些句式表達(dá)較為復(fù)雜或特殊的句子難以保證抽取的準(zhǔn)確率,借助依存句法分析,根據(jù)句子成分間的語(yǔ)義依賴關(guān)系進(jìn)行評(píng)價(jià)搭配的抽取能夠進(jìn)一步提高抽取結(jié)果的準(zhǔn)確率,因此在近年來得到了較多研究者的關(guān)注。
3.2.3情感極性計(jì)算
早期的評(píng)論情感計(jì)算主要實(shí)現(xiàn)情感傾向的定性判斷,即識(shí)別出評(píng)論句的感情色彩是正面還是負(fù)面,或者是褒義、貶義還是中性,一般常采用分類器實(shí)現(xiàn)文本的傾向分類。后來部分研究者又進(jìn)一步嘗試在定性判斷的基礎(chǔ)上實(shí)現(xiàn)定量計(jì)算,即計(jì)算出情感傾向的強(qiáng)度值,如用[-1,1]區(qū)間內(nèi)的值來表示強(qiáng)度值大小。目前,國(guó)內(nèi)外學(xué)者在不同方面上都取得了一定的研究成果。國(guó)外研究中,Wang等基于無監(jiān)督的學(xué)習(xí)方法,利用EM算法和樸素貝葉斯分類器優(yōu)化進(jìn)行文本傾向分類,實(shí)驗(yàn)結(jié)果表明分類正確率較高[38]。Socher等提出基于遞歸自動(dòng)編碼的半監(jiān)督情感句分析模型,構(gòu)建短語(yǔ)樹并提取短語(yǔ)節(jié)點(diǎn)特征預(yù)測(cè)句子情感極性[39]。國(guó)內(nèi)研究中,萬常選等認(rèn)為影響句子情感傾向值的詞性包括形容詞、動(dòng)詞、副詞和名詞,其通過分析句子成分間的不同依存關(guān)系對(duì)句子情感值的影響,設(shè)計(jì)了6種情感計(jì)算的規(guī)則,結(jié)合實(shí)驗(yàn)證明了規(guī)則的有效性[40]。王中卿等則設(shè)計(jì)開發(fā)了一種用于抽取中文觀點(diǎn)句和識(shí)別情感極性的系統(tǒng)—Suda_SAM_OMS系統(tǒng),取得不錯(cuò)的效果[41]。
總的說來,情感計(jì)算的研究由最初的定性判斷逐步向定量計(jì)算發(fā)展,不再局限于情感傾向的二分類,即正面和負(fù)面,開始嘗試更細(xì)粒度的極性值計(jì)算。一方面,研究者們?cè)跇?gòu)建情感詞典時(shí)嘗試賦予情感詞一個(gè)量化的情感值,對(duì)于影響情感值的副詞、否定詞等賦予相應(yīng)的影響因子;另一方面,根據(jù)句子成分的依存關(guān)系等特征設(shè)計(jì)具體計(jì)算規(guī)則,得到具體的情感強(qiáng)度數(shù)值。
本文圍繞網(wǎng)絡(luò)產(chǎn)品評(píng)論細(xì)粒度意見挖掘這一主題對(duì)國(guó)內(nèi)外研究成果進(jìn)行了研究綜述。首先,對(duì)意見挖掘的基礎(chǔ)理論進(jìn)行介紹,包括基本概念、主要內(nèi)容及分類,并按照粒度層次,對(duì)粗粒度意見挖掘和細(xì)粒度意見挖掘的研究現(xiàn)狀分別進(jìn)行論述;在此基礎(chǔ)上,著重針對(duì)細(xì)粒度意見挖掘的主要任務(wù)和關(guān)鍵技術(shù)方法進(jìn)行研究梳理。通過對(duì)已有研究成果的總結(jié)可以發(fā)現(xiàn),細(xì)粒度意見挖掘作為網(wǎng)絡(luò)產(chǎn)品評(píng)論挖掘的重要發(fā)展方向,已經(jīng)受到來自情報(bào)學(xué)、計(jì)算機(jī)科學(xué)、管理學(xué)等不同背景學(xué)者越來越多的研究關(guān)注。
目前,國(guó)內(nèi)外學(xué)者在網(wǎng)絡(luò)產(chǎn)品評(píng)論細(xì)粒度意見挖掘方面已經(jīng)取得相當(dāng)不錯(cuò)的研究成果。但是,由于自然語(yǔ)言的復(fù)雜性、文字表述的多樣性和靈活性,如何提升細(xì)粒度意見挖掘的性能是目前該領(lǐng)域研究面臨的重要問題。從研究發(fā)展趨勢(shì)來看,如何將多來源的、異構(gòu)同性的產(chǎn)品評(píng)論進(jìn)行匯聚和對(duì)比,結(jié)合細(xì)粒度意見挖掘開展比較意見挖掘研究,以幫助企業(yè)和消費(fèi)者更好的進(jìn)行市場(chǎng)和購(gòu)物決策,是目前值得進(jìn)一步研究的課題;在技術(shù)應(yīng)用方面,目前的研究大多以方法模型和實(shí)驗(yàn)研究為主,加快實(shí)施和大力推進(jìn)網(wǎng)絡(luò)產(chǎn)品評(píng)論細(xì)粒度意見挖掘在口碑監(jiān)測(cè)、市場(chǎng)分析、客戶服務(wù)等方面的實(shí)際應(yīng)用,無疑具有重要現(xiàn)實(shí)意義。