尹裴
摘要:文章主要針對中文在線產(chǎn)品評論進行研究,識別與抽取其中的基本評價單元——“特征、觀點對”(Feature-Opinion Pair,F(xiàn)OP),提出基于語義詞典的特征觀點對提取方法。先通過分詞與詞性標注產(chǎn)生實詞序列,并保留其中特定的名詞、動詞、形容詞與副詞生成產(chǎn)品特征與觀點詞序列,再通過進一步的精煉與映射成為評論特征與觀點詞序列,最后運用匹配與抽取算法自動生成特征觀點對。實驗結果表明,本方法的查全率約為87.62%,查準率約為79.44%,其性能與基線方法相比,有明顯地提高。
關鍵詞:在線產(chǎn)品評論;產(chǎn)品特征;特征觀點對;語義
一、引言
隨著口碑營銷等新型營銷模式的興起,在線評論的挖掘受到越來越多的關注。用戶往往是根據(jù)產(chǎn)品的不同特征發(fā)表相應的觀點,所以評論中的產(chǎn)品特征及其觀點便成為反應用戶對產(chǎn)品認知和評價的基本單元。
特征觀點對的提取是挖掘評論商業(yè)價值的最重要一步。現(xiàn)有的方法多為針對英文評論中特征觀點對的提取。英文評論句式固定、語法規(guī)范,而中文評論則存在口語化嚴重、語法不規(guī)范、語義模糊及主語缺失的特點,在一定程度上加大了評論挖掘的難度。由于中文與英文在表達方式上的較大差別,英文評論挖掘的方法無法直接應用到中文評論中。
因此,本文主要針對中文產(chǎn)品評論中的特征觀點對進行挖掘,在已有研究的基礎上,提出基于語義詞庫的挖掘方法,并通過實驗來驗證該方法的有效性,最后再分類統(tǒng)計特征觀點,實現(xiàn)評論信息的有效組織。
二、文獻綜述
基于統(tǒng)計的方法利用基于統(tǒng)計的算法識別特征詞,再采用鄰近原則來判斷相應的觀點。例如,Liu(2006)首先識別句子中的名詞或名詞短語,然后使用關聯(lián)規(guī)則挖掘出頻繁項作為產(chǎn)品特征,將離產(chǎn)品特征最近的形容詞作為評論觀點。Scaffidi(2007)通過人工建立特定產(chǎn)品的特征集合來識別評論中的產(chǎn)品特征,再將與產(chǎn)品特征相鄰的形容詞作為評論觀點。Zhang等(2010)通過條件隨機場識別產(chǎn)品特征,再基于鄰近原則與語法樹識別與產(chǎn)品特征相對應的評價觀點。
基于語義的方法將語言學知識引入評論挖掘,通過構建語言模式、語法規(guī)則或情感詞典來識別特征觀點對。例如,Zhuang, Jing和Zhu(2006)基于WordNet人工定義電影的特征及觀點,通過依存句法圖獲取特征-觀點對。Miao, Li和Zeng(2010)通過人工預先定義語法規(guī)則識別特征觀點對。Zhao等(2010)通過獲取句法路徑與計算句法路徑編輯距離抽取特征觀點對。Vu等(2011)利用預先定義的語法規(guī)則與同義詞挖掘特征觀點對。Qiu等(2009)利用句法依存樹識別特征觀點對,Qiu等(2011)基于人工挑選的種子觀點詞,自動學習更多的評價觀點及其評價對象。Somprasertsri和Lalitrojwong(2010)構建領域本體存儲產(chǎn)品特征的同義詞和觀點詞的極性。
三、特征-觀點對的提取方法
本文提出一種基于語義詞庫的、直接提取產(chǎn)品特征與觀點的方法,針對產(chǎn)品評論構建語義詞庫存儲產(chǎn)品特征與觀點,以及特征與特征、觀點與觀點及特征與觀點之間的語義關系,在此基礎上實現(xiàn)對產(chǎn)品特征及其觀點的識別與提取。其基本流程如圖1所示。
1. 步驟1:分詞與詞性標注
分詞是將評論劃分為若干詞語及標點,并為每個詞語及標點標注相應詞性。經(jīng)過分詞與詞性標注處理后,建立事務數(shù)據(jù)庫,以文本文件的形式存儲評論。以句子為單位,提取評論中的名詞、形容詞、動詞、副詞及相關短語作為項,生成實詞序列。
2. 步驟2:產(chǎn)品特征與觀點標注
建立詞庫,存儲產(chǎn)品特征、觀點及常見副詞,以便從實詞序列中識別產(chǎn)品特征及其觀點。根據(jù)“常見副詞庫”、“觀點詞庫”和“特征詞庫”,將評論中的詞語標注為特征(F)或觀點(O),無法匹配的詞語則刪除。該過程如圖1所示。
3. 步驟3:精煉“產(chǎn)品特征-觀點詞對”
經(jīng)標注得到的“產(chǎn)品特征-觀點詞對”較為粗糙,存在冗余、歧義和特征缺失等問題,因此需要精煉,去其糟粕取其精華。
(1) 降低冗余。將語義上相同或相近的詞語進行合并。多個產(chǎn)品特征可能指示產(chǎn)品的同一方面也合并。某些基本特征與其使用動作相對應,如“揚聲器”與“外放”、“瀏覽器”與“瀏覽”等,也將其合并。
(2)減少歧義。某些特征詞前面必須加上限定詞才具有實際的意義,若單獨使用則產(chǎn)生歧義。本文采用互信息來衡量特征詞與其限定詞之間的共現(xiàn)性,以獲取匹配規(guī)則。
互信息越大,特征詞w1與w2匹配效果越好。
(3)特征缺失處理。中文評論常出現(xiàn)主語缺失的現(xiàn)象,即存在隱式特征,需要根據(jù)觀點詞補充相應特征詞。觀點詞可分為兩類:一類是明確指示有限個具體特征的觀點詞,稱為特征指示詞,如“貴”指示“價格”;另一類是具有籠統(tǒng)含義,可修飾任意特征的觀點詞,稱為一般觀點詞,如“不錯”。對于特征指示詞自動匹配其所指示的特征;而一般觀點詞則自動與其相鄰的、同一短句中的特征配對。
4. 步驟4:“特征-觀點詞對”匹配與抽取
(1) FO模式(或OF模式)。該模式中特征與觀點一一對應,直接生成特征觀點對
(2)FFO模式。該模式為多個特征與單個觀點的組合形式,根據(jù)特征之間的關系,F(xiàn)FO模式可進一步分為兩類:一是 特征間具有層次性,如“手機操作方便”,經(jīng)標注為“手機/F操作/F方便/O”,其中“操作”為手機的使用行為,與“手機”是上下層關系,僅保留最后一個F,生成特征觀點對(操作,方便)。二是評論特征間具有同位性,如“外觀和操作系統(tǒng)都不錯”,經(jīng)標注為“外觀/F操作系統(tǒng)/F不錯/O”,其中“外觀”和“操作系統(tǒng)”為并列關系,生成特征觀點對(外觀,不錯)與(操作系統(tǒng),不錯)。
(3)FOO模式。該模式為單個特征與多個觀點的組合形式,根據(jù)“F”與“O”之間的搭配關系,F(xiàn)OO模式可進一步分為兩類:一是每個觀點詞都用來形容評論特征,如 “屏幕大而清晰”,經(jīng)標注為“屏幕/F大/O清晰/O”,其中“大”和“清晰”都形容“屏幕”,生成特征觀點對(屏幕,大)與(屏幕,清晰)。二是含有無法搭配評論特征的觀點詞,如 “按鍵靈活清楚”,經(jīng)標注為“按鍵/F靈活/O清楚/O”,其中“靈活”修飾“按鍵”,而“清楚”與“按鍵”因無法搭配而刪除。
(4)FFOFOO模式。該模式為多特征多觀點的組合形式,可以“F”開頭和“O”結尾的最長序列為對象,將其拆分成FFO模式或FOO模式。
四、實驗設計
(一)實驗準備
本文選擇電子商務網(wǎng)站的手機評論作為語料來源。采用中國科學院計算技術研究所研制的ICTCLAS進行分詞和詞性標注,并用“,”替代評論中的空格、“~”、“/”等符號。對于評論中出現(xiàn)的專有名詞與口語化詞匯,則按照未登錄詞進行標注。
挑選兩名語言學學者對實驗語料人工標注特征觀點對。標注結果如表1所示。結果顯示96.3%的評論句中包含特征觀點對,說明特征觀點對是產(chǎn)品評論中的重要的基本單元。同時,觀點詞總數(shù)多于特征觀點對總數(shù),說明存在隱式特征。
本文使用信息檢索領域標準的評價準則:準確率(P)、召回率(R)和調和評價值(F)來對實驗結果進行評價。具體定義為:P=|A∩B|/|A|;R=|A∩B|/|B|;F = 2*P*R/(P+R)。其中,A表示系統(tǒng)識別出的特征觀點對集合,B表示人工標注的特征觀點對集合。
(二)對比實驗
從基于統(tǒng)計與基于語義兩類研究中分別選取具有代表性的方法作為基線實驗,與本文提出的方法進行對比。1. Liu (2006)提出的基于關聯(lián)規(guī)則與鄰近匹配原則的算法。2. Popescu和Etzioni提出的基于互信息與句法規(guī)則的算法。表2列出了對比實驗結果。
本文提出的方法在召回率和調和評價值上都高于兩組基線方法,說明基于語義的方法總體上優(yōu)于基于統(tǒng)計的方法,且以詞庫為基礎,分析詞語間的語義關系,更有利于評論挖掘。
五、總結
本文針對中文在線產(chǎn)品評論進行研究,提出基于語義詞典的方法,對評論中的基本評價單元“特征觀點對”實現(xiàn)有效地識別與提取。針對已有研究的不足,本文通過建立詞庫存儲產(chǎn)品特征及其多種表達形式,再經(jīng)同義詞合并解決評論的口語化問題;通過特征與特征的共現(xiàn)性消除語義上的歧義;根據(jù)特征與觀點間的語義關系補充句中缺失的主語;通過將產(chǎn)品特征映射為評論特征減少特征集的維度,便于對挖掘結果進行有效地統(tǒng)計分析。
最后,設計對比實驗,結果表明本文提出的方法能有效地提高中文產(chǎn)品評論挖掘的效果。今后的研究將對所得到的特征觀點對進行情感極性分類,以此比較不同產(chǎn)品的優(yōu)缺點,將評論挖掘應用到商業(yè)實例中。
參考文獻:
[1]Popescu A.M. and Etzioni,O. Extracting Product Features and Opinions from Reviews[C]//Proc. Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing(HLT/EMNLP), Vancouver, Canada,2005.
[2]Scaffidi C., Bierhoff K., Chang E., et al,Red Opal:Product-Feature Scoring from Reviews [C]// Proc. of the 8th ACM Conf. on Electronic commerce,2007.
[3]Zhang S., Jia W., Xia Y., Meng Y., Yu H. Extracting Product Features and Sentiments from Chinese Customer Reviews[C]// Proc. of the the 7th Intl Conf. on Language Resources and Evaluation, 2010.
[4]Zhuang L., Jing F., Zhu X. Movie Review Mining and Summarization [C]//Proc. of the 15th ACM Intl Conf. on Information and Knowledge Management, 2006.
[5]Miao Q., Li Q., Zeng D. Fine-Grained Opinion Mining by Integrating Multiple Review Sources [J]. Journal of the American Society for Information Science and Technology,2010(11).
[6]Vu T.T., Pham H.T., Luu C.T., Ha Q.T. A Feature-Based Opinion Mining Model on Product Reviews in Vietnamese [J].Studies in Computational Intelligence,2011.
[7]Qiu, G., Liu, B., Bu, J., Chen, C. Expanding Domain Sentiment Lexicon through Double Propagation[C]//Proc. of the 21st Intl Joint Conf. on Artificial intelligence,2009.
[8]Qiu, G., Liu, B., Bu, J., Chen, C. Opinion Word Expansion and Target Extraction through Double Propagation[J]. Computational Linguistics,2011(01).
[9]Somprasertsri G., Lalitrojwong P. Mining Feature-Opinion in Online Customer Reviews for Opinion Summarization [J].Journal of Universal Computer Science, 2010(06).
*基金項目:國家自然科學基金青年項目(71601119)“基于在線評論情感分析的社交媒體用戶推薦”;教育部人文社會科學研究一般項目(16YJCZH138)“在線評論中面向產(chǎn)品特征的消費者意見挖掘:細粒度的情感分析視角”;上海市教育發(fā)展基金會和上海市教育委員會“晨光計劃”(16CG53)“社會網(wǎng)絡環(huán)境下基于情感分析的用戶推薦研究”;上海高校青年教師培養(yǎng)資助計劃(ZZslg16019)“基于細粒度情感分析的在線評論意見挖掘”。
(作者單位:上海理工大學管理學院)