亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向產(chǎn)品開發(fā)的評論挖掘方法研究

        2018-02-09 17:54:40許祥軍魏紅芹
        現(xiàn)代計算機 2018年1期
        關鍵詞:特征情感用戶

        許祥軍,魏紅芹

        (東華大學旭日工商管理學院,上海 200051)

        0 引言

        近年來,互聯(lián)網(wǎng)的興起與快速發(fā)展拓寬了傳統(tǒng)的的商品銷售渠道,越來越多的消費者選擇通過網(wǎng)絡來購買日常用品,甚至一些貴重物品。大量購物行為的產(chǎn)生在網(wǎng)上留下了成千上萬的評論數(shù)據(jù),并且這些評論信息在影響消費者購買決定中占有很重要作用[1]。主要原因是評論數(shù)據(jù)中,蘊含有大量的用戶對產(chǎn)品的體驗和需求信息,這些信息對于生產(chǎn)商來說具有很大的利用價值。但由于評論信息數(shù)據(jù)量大,并且雜亂無章,生產(chǎn)商很難獲得消費者對于該產(chǎn)品較為系統(tǒng)的評價以及用戶需求。如何行之有效的從評論中挖掘信息,成為近年來的研究熱點。

        產(chǎn)品評論挖掘的應用能夠快速有效地從大量網(wǎng)絡評論中,獲取有效的信息。產(chǎn)品評論挖掘主要涉及產(chǎn)品特征的提取,情感傾向判斷,評論挖掘結果匯總以及按用戶觀點排序等[2]。

        產(chǎn)品特征提取與情感傾向判斷,既是評論挖掘的重點又是其難點。由于,本文研究目的是從評論中挖掘出產(chǎn)品開發(fā)所需信息,包括兩個方面:一是產(chǎn)品本身信息,主要是產(chǎn)品現(xiàn)有各特征的優(yōu)點和缺點等;二是顧客相關信息,主要是顧客需求和顧客喜好等。因此,準確而全面的產(chǎn)品特征提取以及情感傾向判斷是產(chǎn)品開發(fā)成敗的決定性因素。

        1 相關研究介紹

        Hu和Liu[3]首先采用關聯(lián)規(guī)則算法抽取英文評論產(chǎn)品特征,并對手機、數(shù)碼相機等產(chǎn)品評論進行特征提取,查準率與查全率分別達到72%,80%;隨后,對情感詞進行抽取與分析,判斷用戶的情感傾向[4]。

        李實等[5]針對中文的特點,提出了面向中文的客戶評論挖掘方法,該方法是基于改進的關聯(lián)規(guī)則算法,通過對5種產(chǎn)品的評論語料為例,實現(xiàn)了針對中文產(chǎn)品評論的產(chǎn)品特征信息挖掘。

        林欽和等[6]基于關聯(lián)規(guī)則算法與依存關系提取產(chǎn)品特征,采用HowNet情感詞語庫和依存關系來挖掘極性詞與產(chǎn)品特征的關系,并結合詞匯相似度計算和同義詞詞林識別未收錄詞的情感極性,最后,考慮程度詞強度差距、以及程度詞和否定詞共現(xiàn)語序引起的語義差異,逐級計算情感傾向程度。

        杜嘉忠等[7]提出一種基于領域?qū)S们楦性~的情感分析方法,通過計算機輔助與手工結合的方式獲取特征;通過使用改進的TF-IDF算法來區(qū)分通用情感詞與專用情感詞,構建帶有情感的本體,然后構建特征-情感詞本體,利用本體對評論進行情感分析。

        前者研究[3,5-6]在產(chǎn)品特征提取時,并未考慮低頻詞,隨著評論數(shù)據(jù)的增長,低頻詞數(shù)量也會增大;文獻[6]在情感分析時,未考慮了情感詞描述不同產(chǎn)品特征表達不同傾向的問題;文獻[7]解決了此問題,但依賴人工方式工作量大且可移植性差。本文將主要通過對產(chǎn)品開發(fā)中的技術特征需求以及這些需求對應的用戶需求進行分析,對常規(guī)的評論挖掘算法進行優(yōu)化,提出了一套可幫助產(chǎn)品研發(fā)人員從海量網(wǎng)絡評論中有效獲取有價值信息的方法。

        2 面向產(chǎn)品開發(fā)的評論挖掘方法

        由于本文主要面向產(chǎn)品開發(fā),故只考慮產(chǎn)品本身特征,不考慮網(wǎng)店服務質(zhì)量,快遞服務質(zhì)量等與產(chǎn)品開發(fā)無關信息;此外,在結果分析上,主要是進行產(chǎn)品優(yōu)缺點分析,尤其是注重缺點分析,同時包括對用戶需求的分析。

        基于評論挖掘的產(chǎn)品開發(fā)內(nèi)容包括:評論文本預處理、面向產(chǎn)品開發(fā)的特征提取、基于產(chǎn)品特征的情感傾向和強度分析。

        2.1 產(chǎn)品評論文本預處理

        首先對用戶評論進行文本預處理,其主要作用是為了分詞與詞性標注的準確,便于下一步工作的順利進行。

        (1)評論處理

        為了便于情感分析與數(shù)據(jù)的挖掘,首先將用戶評論按照句子為單位進行分割,得到句子級的客戶評論。

        (2)面向產(chǎn)品開發(fā)的用戶自定義字典處理

        自定義字典的作用是為了提高分詞,從而促進產(chǎn)品特征提取的準確性,因而本文針對產(chǎn)品開發(fā)評論挖掘,從以下兩方面進行用戶自定義詞典設計:

        (1)生產(chǎn)商的說明書中包含大量的規(guī)范化產(chǎn)品特征名詞;

        (2)評論文本中單詞長度大于等于3的英文詞匯,例如“cpu”、“wifi”等。

        將兩部分詞匯放入用戶自定義字典中,并將詞性標注為“n”。

        2.2 面向產(chǎn)品開發(fā)的特征提取

        由于產(chǎn)品特征是開發(fā)時所針對的主要決策對象,故應盡可能準確而全面的覆蓋用戶評論,將其提取出來。因此,在文本預處理之后,需要提取產(chǎn)品特征。

        產(chǎn)品特征主要是以大量的名詞形式存在的,首先,依據(jù)詞性標注提取名詞,根據(jù)詞頻來過濾掉低頻詞,得到非低頻詞,再利用點互信息算法(Pointwise Mutual In?formation,PMI)進行詞語關聯(lián)度分析,對非低頻詞中與手機和手機屬性信息關聯(lián)度低的名詞進行刪除。PMI算法公式如下:

        其中word1表示手機以及手機屬性信息,word2表示產(chǎn)品特征,P(word1word2)表示 word1與 word2共同出現(xiàn)的概率,P(word1)、P(word2)分別表示 word1,word2單獨出現(xiàn)的概率。

        低頻詞,大部分是描述形式不規(guī)范的詞,部分詞是因為在文檔中很少被使用。針對低頻詞,可以使用TF-IDF(Term Frequency-Inverse Document Frequency)算法,其中逆向文件頻率IDF是一個詞語普遍重要性的度量,包含詞條的文檔越少,IDF越大。因此,對于低頻詞有著較好的區(qū)分。但TF-IDF算法依然有著明顯的不足之處:處理低頻詞時,該方法沒有考慮低頻詞在整個文本中分布情況,部分含有大量信息的低頻詞由于權重低于閾值而被刪除[8]。因此,本文對TF-IDF算法做出改進,使之能夠通過改進將低頻詞中產(chǎn)品特征的權重提升。改進有如下幾點:

        (1)在原基礎上考慮產(chǎn)品特征的在句中位置,分布在句首以及句尾的名詞權重增加;

        (2)長度越長的名詞包含的信息越多,權重同樣需要增加;

        (3)組合名詞(例:數(shù)字與英文、中文與數(shù)字等)大多數(shù)往往表示產(chǎn)品特征,對此也相應的增加權重。

        綜上,形成新的改進TF-IDF算法公式為:

        其中tfi表示名詞i在文檔中頻率,idfi表示名詞i逆向文件頻率,pi表示表示名詞i在評論句中的位置權重表示名詞i的長度,N表示名詞集合,以名詞長度除以最長名詞長度作為長度權重,g表示組合名詞權重,當名詞不為組合名詞時g為1。

        最后將經(jīng)詞頻以及PMI算法過濾提取出的產(chǎn)品特征與用改進TF-IDF算法提取結果合并,得到最終產(chǎn)品特征集合。

        2.3 基于產(chǎn)品特征的情感傾向與強度分析

        網(wǎng)絡評論中的語句,其中短評論語句占多數(shù),如:“1600像素絕對夠勁”、“音質(zhì)非常清晰,聽的很清楚”等。但其中仍有數(shù)量可觀的長評論語句,如:“外觀挺漂亮,物流超快,手機功能也挺多,充電挺快,目前感覺還不錯!”等。長評論語句中的特征屬性有2個及以上,單純的進行產(chǎn)品特征的情感傾向與強度分析是不適合的,從評論語句可以看出,對含有產(chǎn)品特征的語句按“,”分割,可以將長評論分成若干有效的短評論,本文依據(jù)短評論首先基于判斷產(chǎn)品特征的情感傾向,然后進行情感強度計算。

        Turney[9]在PMI算法的基礎上提出情感傾向點互信息算法(Semantic Orientation Pointwise Mutual Infor?mation,SOPMI),通過計算評論文本中情感詞組的語義傾向來區(qū)分情感傾向。公示如下:

        其中word為情感詞,pword為正向基準詞,nword為負向基準詞,Pset為正向基準詞集合,Nset為負向基準詞集合。

        但SOPMI算法并不能區(qū)分情感詞描述對象,如:單獨的情感詞“高”與“價格”、“像素”一起出現(xiàn),情感傾向相反;此外,否定詞的數(shù)量也會進一步影響情感傾向。因此,本文在SOPMI算法基礎上增加產(chǎn)品特征與否定詞,計算<產(chǎn)品特征,情感詞,否定詞數(shù)量>與基準詞詞組PMI值,輸出結果<產(chǎn)品特征,情感傾向>。新的SOPMI算法公式如下:

        其中f表示產(chǎn)品特征,N表示否定詞數(shù)量,(N%2)表示取余數(shù),其他符號同公式(3)。

        獲?。籍a(chǎn)品特征,情感傾向>之后,進行產(chǎn)品特征的情感強度計算。情感強度需要引入程度詞,并且程度詞與否定詞的位置關系會對情感強度產(chǎn)生影響,例如:“手機屏幕不是很清晰”,“手機屏幕很不清晰”,前者在強度上明顯小于后者。因此,在情感強度計算時,構建<產(chǎn)品特征,情感傾向,程度詞,程度詞位置>,輸出結果<產(chǎn)品特征,情感強度>。

        基于產(chǎn)品特征的情感傾向與強度分析步驟為:

        步驟1:提取情感詞,構建<產(chǎn)品特征,情感詞>;

        步驟2:天貓購物平臺獲取11萬條產(chǎn)品評論,經(jīng)過文本預處理后,提取形容詞,選取詞頻較高且觀點鮮明的正向基準詞與負向基準詞各5個;

        步驟3:從網(wǎng)絡與文獻中獲取否定詞,構建否定詞詞典;

        步驟4:依據(jù)用戶評論構建<產(chǎn)品特征,情感詞,否定詞>;

        步驟5:運用改進SOPMI算法進行情感傾向判斷,輸出<產(chǎn)品特征,情感傾向>;

        步驟6:利用知網(wǎng)中的程度詞,并按照程度不同分為5類,構建程度詞詞典;

        步驟7:依據(jù)用戶評論構建<產(chǎn)品特征,情感傾向,程度詞,程度詞位置>;

        步驟8:情感詞傾向為正,則情感值+1;反之,則情感值-1,初始值為0;

        步驟9:程度詞在否定詞與產(chǎn)品特征中間,則情感強度值*0.5;其他位置,則情感強度值乘以相應的程度詞權重;

        步驟10:若短評論末尾標點符號為“!”,則情感值*1.5;

        步驟11:輸出結果<產(chǎn)品特征,情感強度值>;

        步驟12:將相同屬性的產(chǎn)品特征合并,得到其正向總值,負向總值以及零分結果數(shù)量。

        3 實驗數(shù)據(jù)分析

        3.1 原始實驗數(shù)據(jù)獲取

        運用爬蟲技術從購物平臺上獲取用戶評論,實驗數(shù)據(jù)來源包含兩部分:

        (1)天貓商城關于小米5手機的評論,共1000條評論;

        (2)天貓商城各品牌智能手機評論語句,共約11萬條評論。

        3.2 性能評價指標

        在評論挖掘中,常用的性能評價指標為查準率P(Precision)、查全率 R(Recall)以及綜合值 F-score。

        其中在產(chǎn)品特征提取與情感分析中,A表示識別正確(產(chǎn)品特征或情感句)的數(shù)量,B表示識別錯誤(產(chǎn)品特征或情感句)的數(shù)量,C表示未識別(產(chǎn)品特征或情感句)的數(shù)量。

        3.3 產(chǎn)品特征抽取結果分析

        根據(jù)詞頻過濾(閾值>=3)以及詞語關聯(lián)度過濾,得到產(chǎn)品特征118個;采用改進TF-IDF方法抽取特征詞得到17個,最后得到產(chǎn)品特征集135個,查準率、查全率以及F-值分別為:84%,82%,83%。表1為手機產(chǎn)品特征集合(選取用戶關注度前15的屬性)。

        表1 手機產(chǎn)品特征集合

        3.4 觀點句傾向及強度結果分析

        對于基于產(chǎn)品特征的情感傾向判斷結果。本文對前200條觀點短評論進行人工分析,查準率、查全率以及F-值分別為:80%,85%,82%。

        3.5 面向產(chǎn)品開發(fā)的評論挖掘結果分析

        將觀點句結果按照手機屬性進行匯總,可得各屬性的情感得分情況。本文選取具有代表性6個產(chǎn)品屬性進行分析,如圖1所示。

        圖1 手機屬性情感得分

        根據(jù)用戶評論,統(tǒng)計各手機屬性中產(chǎn)品特征被提及次數(shù),再除以不同屬性下產(chǎn)品特征名詞數(shù)量,獲得手機屬性平均提及次數(shù),將均值定義為用戶對該手機屬性的平均關注度,從中可以發(fā)現(xiàn)受用戶關注的手機屬性。圖1中6個產(chǎn)品特征,消費者關注度依次降低。從圖中可以看出;質(zhì)量、系統(tǒng)和性能不僅關注度高,正面評價得分依舊很高,處理器、內(nèi)存和屏幕的負向評價得分超過或接近正向得分。同時,系統(tǒng)的負向得分和零分數(shù)量很高。為了進一步了解處理器、內(nèi)存、屏幕和系統(tǒng)缺陷在何處,本文對其的評價詞進行提取并按詞頻排序,發(fā)現(xiàn)消費者對于處理器、內(nèi)存、屏幕、系統(tǒng)主要評價分別為:卡頓、占用、失靈、發(fā)熱。

        從消費者評論中不僅能夠發(fā)現(xiàn)產(chǎn)品的缺點和消費者的關注點,更能發(fā)現(xiàn)不同消費者需求信息。例如:根據(jù)游戲類產(chǎn)品特征,提取用戶評論,可以發(fā)現(xiàn)用戶的需求主要是系統(tǒng)流暢、電池續(xù)航能力高等;針對照相機類,可以發(fā)現(xiàn)用戶需求主要是像素高、不發(fā)燙等。

        因此,挖掘用戶評論時,可以發(fā)現(xiàn)產(chǎn)品優(yōu)缺點以及用戶線需求等信息,生產(chǎn)商可以進行針對性的產(chǎn)品開發(fā),從而設計出滿足客戶需求的產(chǎn)品,提高客戶滿意度,提升手機銷售量。

        4 結語

        本文針對生產(chǎn)商研發(fā)產(chǎn)品的特殊需求進行了網(wǎng)絡評論挖掘方法的研究,設計了完整的挖掘過程模型和各子任務的具體挖掘算法。首先采用考慮低頻詞的產(chǎn)品特征提取方法,取得了較理想的結果;然后根據(jù)情感詞描述不同產(chǎn)品特征表達不同傾向的問題,提出基于產(chǎn)品特征的情感傾向與情感強度分析的方法。最后,通過數(shù)據(jù)實驗表明本文方法的有效性,且本文所述方法對于完全創(chuàng)新型產(chǎn)品以及改進型產(chǎn)品的開發(fā)均有一定的參考意義。

        [1]Utz S,Kerkhof P,van den Bos J.Consumers Rule:How Consumer Reviews Influence Perceived Trustworthiness of Online Stores[J].Electronic Commerce Research and Applications,2012,11(1):49-58.

        [2]郗亞輝,張明,袁方,王煜.產(chǎn)品評論挖掘研究綜述[J].山東大學學報(理學版),2011,46(5):16-23+38.

        [3]Hu M,Liu B.Mining and Summarizing Customer Reviews[C].Proceedings of the tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2004:168-177.

        [4]Liu B,Hu M,Cheng J.Opinion Observer:Analyzing and Comparing Opinions on the Web[C].Proceedings of the 14th International Con?ference on World Wide Web.ACM,2005:342-351.

        [5]李實,葉強,李一軍.中文網(wǎng)絡客戶評論的產(chǎn)品特征挖掘方法研究[J].管理科學學報,2009.

        [6]林欽和,劉鋼,陳榮華.基于情感計算的商品評論分析系統(tǒng)[J].計算機應用與軟件,2014,31(12):39-44.

        [7]杜嘉忠,徐健,劉穎.網(wǎng)絡商品評論的特征-情感詞本體構建與情感分析方法研究[J].現(xiàn)代圖書情報技術,2014,30(5):74-82.

        [8]Lewis D D.Feature Selection and Feature Extraction for Text Categorization[C].Proceedings of the Workshop on Speech and Natural Language.Association for Computational Linguistics,1992:212-217.

        [9]Turney P D.Thumbs up or Thumbs down?:Semantic Orientation Applied to Unsupervised Classification of Reviews[C].Proceedings of the 40th Annual Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2002:417-424.

        猜你喜歡
        特征情感用戶
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        如何表達“特征”
        情感
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        如何在情感中自我成長,保持獨立
        抓住特征巧觀察
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        日躁夜躁狠狠躁2001| 亚洲国产精品无码久久电影| 欧美在线a| 天天躁日日躁狠狠躁一区| 亚洲另类激情专区小说婷婷久| 99久久久精品免费| 69精品人妻一区二区| 久久迷青品着产亚洲av网站| 中文字幕av素人专区| 国产天堂av在线一二三四| 午夜dv内射一区二区| 日韩人妻无码精品-专区| 厨房玩丰满人妻hd完整版视频 | 日韩少妇人妻一区二区| 国产高清精品一区二区| 精品人妻系列无码人妻漫画| 艳妇臀荡乳欲伦69调教视频| 一本一道av无码中文字幕﹣百度 | 精品视频一区二区三区日本| 女人色熟女乱| 亚洲av日韩精品久久久久久| 日本精品一区二区在线看| 亚洲av毛片在线免费看| 熟女少妇精品一区二区| 久久福利青草精品免费| 亚洲一区二区三区在线观看蜜桃| 国产一区二区三区av免费| 凹凸国产熟女精品视频app| 亚洲毛片αv无线播放一区| 97超级碰碰人妻中文字幕 | 韩国无码av片在线观看网站| 亚洲一二三区在线观看| 女人的天堂av免费看| 久久夜色精品国产九色| 国产精品一区二区久久久av| 免费大片黄国产在线观看| av蓝导航精品导航| 久久AV中文综合一区二区| 日本熟妇裸体视频在线| 青青草大香蕉视频在线观看| 亚洲乱亚洲乱妇|