亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文在線產(chǎn)品評論中“特征—觀點對”的挖掘方法

        2019-05-25 07:50:26尹裴
        中國集體經(jīng)濟 2019年12期
        關鍵詞:語義

        尹裴

        摘要:文章主要針對中文在線產(chǎn)品評論進行研究,識別與抽取其中的基本評價單元——“特征、觀點對”(Feature-Opinion Pair,F(xiàn)OP),提出基于語義詞典的特征觀點對提取方法。先通過分詞與詞性標注產(chǎn)生實詞序列,并保留其中特定的名詞、動詞、形容詞與副詞生成產(chǎn)品特征與觀點詞序列,再通過進一步的精煉與映射成為評論特征與觀點詞序列,最后運用匹配與抽取算法自動生成特征觀點對。實驗結果表明,本方法的查全率約為87.62%,查準率約為79.44%,其性能與基線方法相比,有明顯地提高。

        關鍵詞:在線產(chǎn)品評論;產(chǎn)品特征;特征觀點對;語義

        一、引言

        隨著口碑營銷等新型營銷模式的興起,在線評論的挖掘受到越來越多的關注。用戶往往是根據(jù)產(chǎn)品的不同特征發(fā)表相應的觀點,所以評論中的產(chǎn)品特征及其觀點便成為反應用戶對產(chǎn)品認知和評價的基本單元。

        特征觀點對的提取是挖掘評論商業(yè)價值的最重要一步。現(xiàn)有的方法多為針對英文評論中特征觀點對的提取。英文評論句式固定、語法規(guī)范,而中文評論則存在口語化嚴重、語法不規(guī)范、語義模糊及主語缺失的特點,在一定程度上加大了評論挖掘的難度。由于中文與英文在表達方式上的較大差別,英文評論挖掘的方法無法直接應用到中文評論中。

        因此,本文主要針對中文產(chǎn)品評論中的特征觀點對進行挖掘,在已有研究的基礎上,提出基于語義詞庫的挖掘方法,并通過實驗來驗證該方法的有效性,最后再分類統(tǒng)計特征觀點,實現(xiàn)評論信息的有效組織。

        二、文獻綜述

        基于統(tǒng)計的方法利用基于統(tǒng)計的算法識別特征詞,再采用鄰近原則來判斷相應的觀點。例如,Liu(2006)首先識別句子中的名詞或名詞短語,然后使用關聯(lián)規(guī)則挖掘出頻繁項作為產(chǎn)品特征,將離產(chǎn)品特征最近的形容詞作為評論觀點。Scaffidi(2007)通過人工建立特定產(chǎn)品的特征集合來識別評論中的產(chǎn)品特征,再將與產(chǎn)品特征相鄰的形容詞作為評論觀點。Zhang等(2010)通過條件隨機場識別產(chǎn)品特征,再基于鄰近原則與語法樹識別與產(chǎn)品特征相對應的評價觀點。

        基于語義的方法將語言學知識引入評論挖掘,通過構建語言模式、語法規(guī)則或情感詞典來識別特征觀點對。例如,Zhuang, Jing和Zhu(2006)基于WordNet人工定義電影的特征及觀點,通過依存句法圖獲取特征-觀點對。Miao, Li和Zeng(2010)通過人工預先定義語法規(guī)則識別特征觀點對。Zhao等(2010)通過獲取句法路徑與計算句法路徑編輯距離抽取特征觀點對。Vu等(2011)利用預先定義的語法規(guī)則與同義詞挖掘特征觀點對。Qiu等(2009)利用句法依存樹識別特征觀點對,Qiu等(2011)基于人工挑選的種子觀點詞,自動學習更多的評價觀點及其評價對象。Somprasertsri和Lalitrojwong(2010)構建領域本體存儲產(chǎn)品特征的同義詞和觀點詞的極性。

        三、特征-觀點對的提取方法

        本文提出一種基于語義詞庫的、直接提取產(chǎn)品特征與觀點的方法,針對產(chǎn)品評論構建語義詞庫存儲產(chǎn)品特征與觀點,以及特征與特征、觀點與觀點及特征與觀點之間的語義關系,在此基礎上實現(xiàn)對產(chǎn)品特征及其觀點的識別與提取。其基本流程如圖1所示。

        1. 步驟1:分詞與詞性標注

        分詞是將評論劃分為若干詞語及標點,并為每個詞語及標點標注相應詞性。經(jīng)過分詞與詞性標注處理后,建立事務數(shù)據(jù)庫,以文本文件的形式存儲評論。以句子為單位,提取評論中的名詞、形容詞、動詞、副詞及相關短語作為項,生成實詞序列。

        2. 步驟2:產(chǎn)品特征與觀點標注

        建立詞庫,存儲產(chǎn)品特征、觀點及常見副詞,以便從實詞序列中識別產(chǎn)品特征及其觀點。根據(jù)“常見副詞庫”、“觀點詞庫”和“特征詞庫”,將評論中的詞語標注為特征(F)或觀點(O),無法匹配的詞語則刪除。該過程如圖1所示。

        3. 步驟3:精煉“產(chǎn)品特征-觀點詞對”

        經(jīng)標注得到的“產(chǎn)品特征-觀點詞對”較為粗糙,存在冗余、歧義和特征缺失等問題,因此需要精煉,去其糟粕取其精華。

        (1) 降低冗余。將語義上相同或相近的詞語進行合并。多個產(chǎn)品特征可能指示產(chǎn)品的同一方面也合并。某些基本特征與其使用動作相對應,如“揚聲器”與“外放”、“瀏覽器”與“瀏覽”等,也將其合并。

        (2)減少歧義。某些特征詞前面必須加上限定詞才具有實際的意義,若單獨使用則產(chǎn)生歧義。本文采用互信息來衡量特征詞與其限定詞之間的共現(xiàn)性,以獲取匹配規(guī)則。

        互信息越大,特征詞w1與w2匹配效果越好。

        (3)特征缺失處理。中文評論常出現(xiàn)主語缺失的現(xiàn)象,即存在隱式特征,需要根據(jù)觀點詞補充相應特征詞。觀點詞可分為兩類:一類是明確指示有限個具體特征的觀點詞,稱為特征指示詞,如“貴”指示“價格”;另一類是具有籠統(tǒng)含義,可修飾任意特征的觀點詞,稱為一般觀點詞,如“不錯”。對于特征指示詞自動匹配其所指示的特征;而一般觀點詞則自動與其相鄰的、同一短句中的特征配對。

        4. 步驟4:“特征-觀點詞對”匹配與抽取

        (1) FO模式(或OF模式)。該模式中特征與觀點一一對應,直接生成特征觀點對

        (2)FFO模式。該模式為多個特征與單個觀點的組合形式,根據(jù)特征之間的關系,F(xiàn)FO模式可進一步分為兩類:一是 特征間具有層次性,如“手機操作方便”,經(jīng)標注為“手機/F操作/F方便/O”,其中“操作”為手機的使用行為,與“手機”是上下層關系,僅保留最后一個F,生成特征觀點對(操作,方便)。二是評論特征間具有同位性,如“外觀和操作系統(tǒng)都不錯”,經(jīng)標注為“外觀/F操作系統(tǒng)/F不錯/O”,其中“外觀”和“操作系統(tǒng)”為并列關系,生成特征觀點對(外觀,不錯)與(操作系統(tǒng),不錯)。

        (3)FOO模式。該模式為單個特征與多個觀點的組合形式,根據(jù)“F”與“O”之間的搭配關系,F(xiàn)OO模式可進一步分為兩類:一是每個觀點詞都用來形容評論特征,如 “屏幕大而清晰”,經(jīng)標注為“屏幕/F大/O清晰/O”,其中“大”和“清晰”都形容“屏幕”,生成特征觀點對(屏幕,大)與(屏幕,清晰)。二是含有無法搭配評論特征的觀點詞,如 “按鍵靈活清楚”,經(jīng)標注為“按鍵/F靈活/O清楚/O”,其中“靈活”修飾“按鍵”,而“清楚”與“按鍵”因無法搭配而刪除。

        (4)FFOFOO模式。該模式為多特征多觀點的組合形式,可以“F”開頭和“O”結尾的最長序列為對象,將其拆分成FFO模式或FOO模式。

        四、實驗設計

        (一)實驗準備

        本文選擇電子商務網(wǎng)站的手機評論作為語料來源。采用中國科學院計算技術研究所研制的ICTCLAS進行分詞和詞性標注,并用“,”替代評論中的空格、“~”、“/”等符號。對于評論中出現(xiàn)的專有名詞與口語化詞匯,則按照未登錄詞進行標注。

        挑選兩名語言學學者對實驗語料人工標注特征觀點對。標注結果如表1所示。結果顯示96.3%的評論句中包含特征觀點對,說明特征觀點對是產(chǎn)品評論中的重要的基本單元。同時,觀點詞總數(shù)多于特征觀點對總數(shù),說明存在隱式特征。

        本文使用信息檢索領域標準的評價準則:準確率(P)、召回率(R)和調和評價值(F)來對實驗結果進行評價。具體定義為:P=|A∩B|/|A|;R=|A∩B|/|B|;F = 2*P*R/(P+R)。其中,A表示系統(tǒng)識別出的特征觀點對集合,B表示人工標注的特征觀點對集合。

        (二)對比實驗

        從基于統(tǒng)計與基于語義兩類研究中分別選取具有代表性的方法作為基線實驗,與本文提出的方法進行對比。1. Liu (2006)提出的基于關聯(lián)規(guī)則與鄰近匹配原則的算法。2. Popescu和Etzioni提出的基于互信息與句法規(guī)則的算法。表2列出了對比實驗結果。

        本文提出的方法在召回率和調和評價值上都高于兩組基線方法,說明基于語義的方法總體上優(yōu)于基于統(tǒng)計的方法,且以詞庫為基礎,分析詞語間的語義關系,更有利于評論挖掘。

        五、總結

        本文針對中文在線產(chǎn)品評論進行研究,提出基于語義詞典的方法,對評論中的基本評價單元“特征觀點對”實現(xiàn)有效地識別與提取。針對已有研究的不足,本文通過建立詞庫存儲產(chǎn)品特征及其多種表達形式,再經(jīng)同義詞合并解決評論的口語化問題;通過特征與特征的共現(xiàn)性消除語義上的歧義;根據(jù)特征與觀點間的語義關系補充句中缺失的主語;通過將產(chǎn)品特征映射為評論特征減少特征集的維度,便于對挖掘結果進行有效地統(tǒng)計分析。

        最后,設計對比實驗,結果表明本文提出的方法能有效地提高中文產(chǎn)品評論挖掘的效果。今后的研究將對所得到的特征觀點對進行情感極性分類,以此比較不同產(chǎn)品的優(yōu)缺點,將評論挖掘應用到商業(yè)實例中。

        參考文獻:

        [1]Popescu A.M. and Etzioni,O. Extracting Product Features and Opinions from Reviews[C]//Proc. Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing(HLT/EMNLP), Vancouver, Canada,2005.

        [2]Scaffidi C., Bierhoff K., Chang E., et al,Red Opal:Product-Feature Scoring from Reviews [C]// Proc. of the 8th ACM Conf. on Electronic commerce,2007.

        [3]Zhang S., Jia W., Xia Y., Meng Y., Yu H. Extracting Product Features and Sentiments from Chinese Customer Reviews[C]// Proc. of the the 7th Intl Conf. on Language Resources and Evaluation, 2010.

        [4]Zhuang L., Jing F., Zhu X. Movie Review Mining and Summarization [C]//Proc. of the 15th ACM Intl Conf. on Information and Knowledge Management, 2006.

        [5]Miao Q., Li Q., Zeng D. Fine-Grained Opinion Mining by Integrating Multiple Review Sources [J]. Journal of the American Society for Information Science and Technology,2010(11).

        [6]Vu T.T., Pham H.T., Luu C.T., Ha Q.T. A Feature-Based Opinion Mining Model on Product Reviews in Vietnamese [J].Studies in Computational Intelligence,2011.

        [7]Qiu, G., Liu, B., Bu, J., Chen, C. Expanding Domain Sentiment Lexicon through Double Propagation[C]//Proc. of the 21st Intl Joint Conf. on Artificial intelligence,2009.

        [8]Qiu, G., Liu, B., Bu, J., Chen, C. Opinion Word Expansion and Target Extraction through Double Propagation[J]. Computational Linguistics,2011(01).

        [9]Somprasertsri G., Lalitrojwong P. Mining Feature-Opinion in Online Customer Reviews for Opinion Summarization [J].Journal of Universal Computer Science, 2010(06).

        *基金項目:國家自然科學基金青年項目(71601119)“基于在線評論情感分析的社交媒體用戶推薦”;教育部人文社會科學研究一般項目(16YJCZH138)“在線評論中面向產(chǎn)品特征的消費者意見挖掘:細粒度的情感分析視角”;上海市教育發(fā)展基金會和上海市教育委員會“晨光計劃”(16CG53)“社會網(wǎng)絡環(huán)境下基于情感分析的用戶推薦研究”;上海高校青年教師培養(yǎng)資助計劃(ZZslg16019)“基于細粒度情感分析的在線評論意見挖掘”。

        (作者單位:上海理工大學管理學院)

        猜你喜歡
        語義
        為什么字看久了就不認識了
        語言與語義
        “社會”一詞的語義流動與新陳代謝
        “上”與“下”語義的不對稱性及其認知闡釋
        “吃+NP”的語義生成機制研究
        長江學術(2016年4期)2016-03-11 15:11:31
        “V+了+NP1+NP2”中V的語義指向簡談
        認知范疇模糊與語義模糊
        “V+X+算+X”構式的語義功能及語義網(wǎng)絡——兼及與“V+X+是+X”構式的轉換
        語言與翻譯(2014年2期)2014-07-12 15:49:25
        “熊孩子”語義新探
        語文知識(2014年2期)2014-02-28 21:59:18
        “深+N季”組配的認知語義分析
        當代修辭學(2011年6期)2011-01-29 02:49:50
        中文字幕乱码人妻一区二区三区| 国产一区曰韩二区欧美三区| 欧美午夜精品久久久久免费视| 国产在线一区观看| 亚洲色图在线视频免费观看| 国产一区二区三区免费av| 一本色道久久综合亚洲精品蜜臀| 精品国产免费一区二区久久| 新婚少妇无套内谢国语播放 | 少妇人妻偷人精品视蜜桃| 思思99热精品免费观看| 国产一区二区精品网站看黄| 久久国产精品免费久久久| 国产一级二级三级在线观看视频| 色综合久久无码五十路人妻| 三级4级全黄60分钟| 精品亚洲女同一区二区| 久久综合一本中文字幕| 亚洲天堂亚洲天堂亚洲色图| 中文字幕日本人妻久久久免费| 人妻夜夜爽天天爽一区| 国产精品国产三级国av| 国产亚洲美女精品久久久2020| 人妻有码av中文幕久久| 内射人妻视频国内| h国产视频| 亚洲黄色一插一抽动态图在线看| 人妻少妇偷人精品一区二区| 国产精品女老熟女一区二区久久夜 | 中文字幕一区二区中出后入| 骚片av蜜桃精品一区| 18级成人毛片免费观看| 国产一区二区三区最新视频| 偷拍一区二区三区四区视频| 日本中文字幕一区二区高清在线| 欧美极品第一页| 久久这黄色精品免费久| av黄色在线免费观看| 亚洲国产精彩中文乱码av| 爆爽久久久一区二区又大又黄又嫩| 亚洲AⅤ精品一区二区三区|