亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

中文在線產(chǎn)品評(píng)論中“特征—觀點(diǎn)對(duì)”的挖掘方法

2019-05-25 07:50:26尹裴

中國(guó)集體經(jīng)濟(jì) 2019年12期

關(guān)鍵詞：語(yǔ)義

尹裴

摘要：文章主要針對(duì)中文在線產(chǎn)品評(píng)論進(jìn)行研究，識(shí)別與抽取其中的基本評(píng)價(jià)單元——“特征、觀點(diǎn)對(duì)”（Feature-Opinion Pair，F(xiàn)OP），提出基于語(yǔ)義詞典的特征觀點(diǎn)對(duì)提取方法。先通過(guò)分詞與詞性標(biāo)注產(chǎn)生實(shí)詞序列，并保留其中特定的名詞、動(dòng)詞、形容詞與副詞生成產(chǎn)品特征與觀點(diǎn)詞序列，再通過(guò)進(jìn)一步的精煉與映射成為評(píng)論特征與觀點(diǎn)詞序列，最后運(yùn)用匹配與抽取算法自動(dòng)生成特征觀點(diǎn)對(duì)。實(shí)驗(yàn)結(jié)果表明，本方法的查全率約為87.62%，查準(zhǔn)率約為79.44%，其性能與基線方法相比，有明顯地提高。

關(guān)鍵詞：在線產(chǎn)品評(píng)論；產(chǎn)品特征；特征觀點(diǎn)對(duì)；語(yǔ)義

一、引言

隨著口碑營(yíng)銷等新型營(yíng)銷模式的興起，在線評(píng)論的挖掘受到越來(lái)越多的關(guān)注。用戶往往是根據(jù)產(chǎn)品的不同特征發(fā)表相應(yīng)的觀點(diǎn)，所以評(píng)論中的產(chǎn)品特征及其觀點(diǎn)便成為反應(yīng)用戶對(duì)產(chǎn)品認(rèn)知和評(píng)價(jià)的基本單元。

特征觀點(diǎn)對(duì)的提取是挖掘評(píng)論商業(yè)價(jià)值的最重要一步?，F(xiàn)有的方法多為針對(duì)英文評(píng)論中特征觀點(diǎn)對(duì)的提取。英文評(píng)論句式固定、語(yǔ)法規(guī)范，而中文評(píng)論則存在口語(yǔ)化嚴(yán)重、語(yǔ)法不規(guī)范、語(yǔ)義模糊及主語(yǔ)缺失的特點(diǎn)，在一定程度上加大了評(píng)論挖掘的難度。由于中文與英文在表達(dá)方式上的較大差別，英文評(píng)論挖掘的方法無(wú)法直接應(yīng)用到中文評(píng)論中。

因此，本文主要針對(duì)中文產(chǎn)品評(píng)論中的特征觀點(diǎn)對(duì)進(jìn)行挖掘，在已有研究的基礎(chǔ)上，提出基于語(yǔ)義詞庫(kù)的挖掘方法，并通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證該方法的有效性，最后再分類統(tǒng)計(jì)特征觀點(diǎn)，實(shí)現(xiàn)評(píng)論信息的有效組織。

二、文獻(xiàn)綜述

基于統(tǒng)計(jì)的方法利用基于統(tǒng)計(jì)的算法識(shí)別特征詞，再采用鄰近原則來(lái)判斷相應(yīng)的觀點(diǎn)。例如，Liu（2006）首先識(shí)別句子中的名詞或名詞短語(yǔ)，然后使用關(guān)聯(lián)規(guī)則挖掘出頻繁項(xiàng)作為產(chǎn)品特征，將離產(chǎn)品特征最近的形容詞作為評(píng)論觀點(diǎn)。Scaffidi（2007）通過(guò)人工建立特定產(chǎn)品的特征集合來(lái)識(shí)別評(píng)論中的產(chǎn)品特征，再將與產(chǎn)品特征相鄰的形容詞作為評(píng)論觀點(diǎn)。Zhang等（2010）通過(guò)條件隨機(jī)場(chǎng)識(shí)別產(chǎn)品特征，再基于鄰近原則與語(yǔ)法樹識(shí)別與產(chǎn)品特征相對(duì)應(yīng)的評(píng)價(jià)觀點(diǎn)。

基于語(yǔ)義的方法將語(yǔ)言學(xué)知識(shí)引入評(píng)論挖掘，通過(guò)構(gòu)建語(yǔ)言模式、語(yǔ)法規(guī)則或情感詞典來(lái)識(shí)別特征觀點(diǎn)對(duì)。例如，Zhuang， Jing和Zhu（2006）基于WordNet人工定義電影的特征及觀點(diǎn)，通過(guò)依存句法圖獲取特征-觀點(diǎn)對(duì)。Miao， Li和Zeng（2010）通過(guò)人工預(yù)先定義語(yǔ)法規(guī)則識(shí)別特征觀點(diǎn)對(duì)。Zhao等（2010）通過(guò)獲取句法路徑與計(jì)算句法路徑編輯距離抽取特征觀點(diǎn)對(duì)。Vu等（2011）利用預(yù)先定義的語(yǔ)法規(guī)則與同義詞挖掘特征觀點(diǎn)對(duì)。Qiu等（2009）利用句法依存樹識(shí)別特征觀點(diǎn)對(duì)，Qiu等（2011）基于人工挑選的種子觀點(diǎn)詞，自動(dòng)學(xué)習(xí)更多的評(píng)價(jià)觀點(diǎn)及其評(píng)價(jià)對(duì)象。Somprasertsri和Lalitrojwong（2010）構(gòu)建領(lǐng)域本體存儲(chǔ)產(chǎn)品特征的同義詞和觀點(diǎn)詞的極性。

三、特征-觀點(diǎn)對(duì)的提取方法

本文提出一種基于語(yǔ)義詞庫(kù)的、直接提取產(chǎn)品特征與觀點(diǎn)的方法，針對(duì)產(chǎn)品評(píng)論構(gòu)建語(yǔ)義詞庫(kù)存儲(chǔ)產(chǎn)品特征與觀點(diǎn)，以及特征與特征、觀點(diǎn)與觀點(diǎn)及特征與觀點(diǎn)之間的語(yǔ)義關(guān)系，在此基礎(chǔ)上實(shí)現(xiàn)對(duì)產(chǎn)品特征及其觀點(diǎn)的識(shí)別與提取。其基本流程如圖1所示。

1. 步驟1：分詞與詞性標(biāo)注

分詞是將評(píng)論劃分為若干詞語(yǔ)及標(biāo)點(diǎn)，并為每個(gè)詞語(yǔ)及標(biāo)點(diǎn)標(biāo)注相應(yīng)詞性。經(jīng)過(guò)分詞與詞性標(biāo)注處理后，建立事務(wù)數(shù)據(jù)庫(kù)，以文本文件的形式存儲(chǔ)評(píng)論。以句子為單位，提取評(píng)論中的名詞、形容詞、動(dòng)詞、副詞及相關(guān)短語(yǔ)作為項(xiàng)，生成實(shí)詞序列。

2. 步驟2：產(chǎn)品特征與觀點(diǎn)標(biāo)注

建立詞庫(kù)，存儲(chǔ)產(chǎn)品特征、觀點(diǎn)及常見副詞，以便從實(shí)詞序列中識(shí)別產(chǎn)品特征及其觀點(diǎn)。根據(jù)“常見副詞庫(kù)”、“觀點(diǎn)詞庫(kù)”和“特征詞庫(kù)”，將評(píng)論中的詞語(yǔ)標(biāo)注為特征（F）或觀點(diǎn)（O），無(wú)法匹配的詞語(yǔ)則刪除。該過(guò)程如圖1所示。

3. 步驟3：精煉“產(chǎn)品特征-觀點(diǎn)詞對(duì)”

經(jīng)標(biāo)注得到的“產(chǎn)品特征-觀點(diǎn)詞對(duì)”較為粗糙，存在冗余、歧義和特征缺失等問(wèn)題，因此需要精煉，去其糟粕取其精華。

（1）降低冗余。將語(yǔ)義上相同或相近的詞語(yǔ)進(jìn)行合并。多個(gè)產(chǎn)品特征可能指示產(chǎn)品的同一方面也合并。某些基本特征與其使用動(dòng)作相對(duì)應(yīng)，如“揚(yáng)聲器”與“外放”、“瀏覽器”與“瀏覽”等，也將其合并。

（2）減少歧義。某些特征詞前面必須加上限定詞才具有實(shí)際的意義，若單獨(dú)使用則產(chǎn)生歧義。本文采用互信息來(lái)衡量特征詞與其限定詞之間的共現(xiàn)性，以獲取匹配規(guī)則。

互信息越大，特征詞w1與w2匹配效果越好。

（3）特征缺失處理。中文評(píng)論常出現(xiàn)主語(yǔ)缺失的現(xiàn)象，即存在隱式特征，需要根據(jù)觀點(diǎn)詞補(bǔ)充相應(yīng)特征詞。觀點(diǎn)詞可分為兩類：一類是明確指示有限個(gè)具體特征的觀點(diǎn)詞，稱為特征指示詞，如“貴”指示“價(jià)格”；另一類是具有籠統(tǒng)含義，可修飾任意特征的觀點(diǎn)詞，稱為一般觀點(diǎn)詞，如“不錯(cuò)”。對(duì)于特征指示詞自動(dòng)匹配其所指示的特征；而一般觀點(diǎn)詞則自動(dòng)與其相鄰的、同一短句中的特征配對(duì)。

4. 步驟4：“特征-觀點(diǎn)詞對(duì)”匹配與抽取

（1） FO模式（或OF模式）。該模式中特征與觀點(diǎn)一一對(duì)應(yīng)，直接生成特征觀點(diǎn)對(duì)

（2）FFO模式。該模式為多個(gè)特征與單個(gè)觀點(diǎn)的組合形式，根據(jù)特征之間的關(guān)系，F(xiàn)FO模式可進(jìn)一步分為兩類：一是特征間具有層次性，如“手機(jī)操作方便”，經(jīng)標(biāo)注為“手機(jī)/F操作/F方便/O”，其中“操作”為手機(jī)的使用行為，與“手機(jī)”是上下層關(guān)系，僅保留最后一個(gè)F，生成特征觀點(diǎn)對(duì)（操作，方便）。二是評(píng)論特征間具有同位性，如“外觀和操作系統(tǒng)都不錯(cuò)”，經(jīng)標(biāo)注為“外觀/F操作系統(tǒng)/F不錯(cuò)/O”，其中“外觀”和“操作系統(tǒng)”為并列關(guān)系，生成特征觀點(diǎn)對(duì)（外觀，不錯(cuò)）與（操作系統(tǒng)，不錯(cuò)）。

（3）FOO模式。該模式為單個(gè)特征與多個(gè)觀點(diǎn)的組合形式，根據(jù)“F”與“O”之間的搭配關(guān)系，F(xiàn)OO模式可進(jìn)一步分為兩類：一是每個(gè)觀點(diǎn)詞都用來(lái)形容評(píng)論特征，如 “屏幕大而清晰”，經(jīng)標(biāo)注為“屏幕/F大/O清晰/O”，其中“大”和“清晰”都形容“屏幕”，生成特征觀點(diǎn)對(duì)（屏幕，大）與（屏幕，清晰）。二是含有無(wú)法搭配評(píng)論特征的觀點(diǎn)詞，如 “按鍵靈活清楚”，經(jīng)標(biāo)注為“按鍵/F靈活/O清楚/O”，其中“靈活”修飾“按鍵”，而“清楚”與“按鍵”因無(wú)法搭配而刪除。

（4）FFOFOO模式。該模式為多特征多觀點(diǎn)的組合形式，可以“F”開頭和“O”結(jié)尾的最長(zhǎng)序列為對(duì)象，將其拆分成FFO模式或FOO模式。

四、實(shí)驗(yàn)設(shè)計(jì)

（一）實(shí)驗(yàn)準(zhǔn)備

本文選擇電子商務(wù)網(wǎng)站的手機(jī)評(píng)論作為語(yǔ)料來(lái)源。采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制的ICTCLAS進(jìn)行分詞和詞性標(biāo)注，并用“，”替代評(píng)論中的空格、“～”、“/”等符號(hào)。對(duì)于評(píng)論中出現(xiàn)的專有名詞與口語(yǔ)化詞匯，則按照未登錄詞進(jìn)行標(biāo)注。

挑選兩名語(yǔ)言學(xué)學(xué)者對(duì)實(shí)驗(yàn)語(yǔ)料人工標(biāo)注特征觀點(diǎn)對(duì)。標(biāo)注結(jié)果如表1所示。結(jié)果顯示96.3%的評(píng)論句中包含特征觀點(diǎn)對(duì)，說(shuō)明特征觀點(diǎn)對(duì)是產(chǎn)品評(píng)論中的重要的基本單元。同時(shí)，觀點(diǎn)詞總數(shù)多于特征觀點(diǎn)對(duì)總數(shù)，說(shuō)明存在隱式特征。

本文使用信息檢索領(lǐng)域標(biāo)準(zhǔn)的評(píng)價(jià)準(zhǔn)則：準(zhǔn)確率（P）、召回率（R）和調(diào)和評(píng)價(jià)值（F）來(lái)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。具體定義為：P=|A∩B|/|A|；R=|A∩B|/|B|；F = 2*P*R/（P+R）。其中，A表示系統(tǒng)識(shí)別出的特征觀點(diǎn)對(duì)集合，B表示人工標(biāo)注的特征觀點(diǎn)對(duì)集合。

（二）對(duì)比實(shí)驗(yàn)

從基于統(tǒng)計(jì)與基于語(yǔ)義兩類研究中分別選取具有代表性的方法作為基線實(shí)驗(yàn)，與本文提出的方法進(jìn)行對(duì)比。1. Liu （2006）提出的基于關(guān)聯(lián)規(guī)則與鄰近匹配原則的算法。2. Popescu和Etzioni提出的基于互信息與句法規(guī)則的算法。表2列出了對(duì)比實(shí)驗(yàn)結(jié)果。

本文提出的方法在召回率和調(diào)和評(píng)價(jià)值上都高于兩組基線方法，說(shuō)明基于語(yǔ)義的方法總體上優(yōu)于基于統(tǒng)計(jì)的方法，且以詞庫(kù)為基礎(chǔ)，分析詞語(yǔ)間的語(yǔ)義關(guān)系，更有利于評(píng)論挖掘。

五、總結(jié)

本文針對(duì)中文在線產(chǎn)品評(píng)論進(jìn)行研究，提出基于語(yǔ)義詞典的方法，對(duì)評(píng)論中的基本評(píng)價(jià)單元“特征觀點(diǎn)對(duì)”實(shí)現(xiàn)有效地識(shí)別與提取。針對(duì)已有研究的不足，本文通過(guò)建立詞庫(kù)存儲(chǔ)產(chǎn)品特征及其多種表達(dá)形式，再經(jīng)同義詞合并解決評(píng)論的口語(yǔ)化問(wèn)題；通過(guò)特征與特征的共現(xiàn)性消除語(yǔ)義上的歧義；根據(jù)特征與觀點(diǎn)間的語(yǔ)義關(guān)系補(bǔ)充句中缺失的主語(yǔ)；通過(guò)將產(chǎn)品特征映射為評(píng)論特征減少特征集的維度，便于對(duì)挖掘結(jié)果進(jìn)行有效地統(tǒng)計(jì)分析。

最后，設(shè)計(jì)對(duì)比實(shí)驗(yàn)，結(jié)果表明本文提出的方法能有效地提高中文產(chǎn)品評(píng)論挖掘的效果。今后的研究將對(duì)所得到的特征觀點(diǎn)對(duì)進(jìn)行情感極性分類，以此比較不同產(chǎn)品的優(yōu)缺點(diǎn)，將評(píng)論挖掘應(yīng)用到商業(yè)實(shí)例中。

參考文獻(xiàn)：

[1]Popescu A.M. and Etzioni，O. Extracting Product Features and Opinions from Reviews[C]//Proc. Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing（HLT/EMNLP）， Vancouver， Canada，2005.

[2]Scaffidi C.， Bierhoff K.， Chang E.， et al，Red Opal：Product-Feature Scoring from Reviews [C]// Proc. of the 8th ACM Conf. on Electronic commerce，2007.

[3]Zhang S.， Jia W.， Xia Y.， Meng Y.， Yu H. Extracting Product Features and Sentiments from Chinese Customer Reviews[C]// Proc. of the the 7th Intl Conf. on Language Resources and Evaluation， 2010.

[4]Zhuang L.， Jing F.， Zhu X. Movie Review Mining and Summarization [C]//Proc. of the 15th ACM Intl Conf. on Information and Knowledge Management， 2006.

[5]Miao Q.， Li Q.， Zeng D. Fine-Grained Opinion Mining by Integrating Multiple Review Sources [J]. Journal of the American Society for Information Science and Technology，2010（11）.

[6]Vu T.T.， Pham H.T.， Luu C.T.， Ha Q.T. A Feature-Based Opinion Mining Model on Product Reviews in Vietnamese [J].Studies in Computational Intelligence，2011.

[7]Qiu， G.， Liu， B.， Bu， J.， Chen， C. Expanding Domain Sentiment Lexicon through Double Propagation[C]//Proc. of the 21st Intl Joint Conf. on Artificial intelligence，2009.

[8]Qiu， G.， Liu， B.， Bu， J.， Chen， C. Opinion Word Expansion and Target Extraction through Double Propagation[J]. Computational Linguistics，2011（01）.

[9]Somprasertsri G.， Lalitrojwong P. Mining Feature-Opinion in Online Customer Reviews for Opinion Summarization [J].Journal of Universal Computer Science， 2010（06）.

*基金項(xiàng)目：國(guó)家自然科學(xué)基金青年項(xiàng)目（71601119）“基于在線評(píng)論情感分析的社交媒體用戶推薦”；教育部人文社會(huì)科學(xué)研究一般項(xiàng)目（16YJCZH138）“在線評(píng)論中面向產(chǎn)品特征的消費(fèi)者意見挖掘：細(xì)粒度的情感分析視角”；上海市教育發(fā)展基金會(huì)和上海市教育委員會(huì)“晨光計(jì)劃”（16CG53）“社會(huì)網(wǎng)絡(luò)環(huán)境下基于情感分析的用戶推薦研究”；上海高校青年教師培養(yǎng)資助計(jì)劃（ZZslg16019）“基于細(xì)粒度情感分析的在線評(píng)論意見挖掘”。

（作者單位：上海理工大學(xué)管理學(xué)院）