亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多特征組合的在線產(chǎn)品評(píng)論情感挖掘研究

        2017-05-31 08:39:14何有世王明
        軟件導(dǎo)刊 2017年5期

        何有世 王明

        摘要摘要:近年來(lái),如何利用計(jì)算機(jī)自動(dòng)、快速、準(zhǔn)確地識(shí)別大量文本產(chǎn)品評(píng)論數(shù)據(jù)情感傾向是自然語(yǔ)言處理領(lǐng)域關(guān)注的重點(diǎn)話(huà)題。使用數(shù)據(jù)抓取軟件,抓取亞馬遜官網(wǎng)華為honor暢玩版4X手機(jī)在線評(píng)論進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)中按照一定的語(yǔ)法規(guī)則將每條完整的在線產(chǎn)品評(píng)論分成若干子句,識(shí)別其中有效子句,提取有效子句評(píng)論中多種特征進(jìn)行組合,然后選用C4.5決策樹(shù)機(jī)器學(xué)習(xí)法來(lái)識(shí)別子句的情感傾向,并對(duì)多組實(shí)驗(yàn)結(jié)果進(jìn)行分析對(duì)比。實(shí)驗(yàn)結(jié)果表明,選擇子句中情感詞數(shù)量和否定詞數(shù)量作為特征組合時(shí),加權(quán)后模型的查準(zhǔn)率和查全率均達(dá)到96%;程度副詞和特殊符號(hào)對(duì)模型的作用比較微弱,僅有1%的影響;程度副詞的作用略?xún)?yōu)于特殊符號(hào)。

        關(guān)鍵詞關(guān)鍵詞:決策樹(shù);多特征組合;產(chǎn)品評(píng)論;情感分析

        DOIDOI:10.11907/rjdk.162835

        中圖分類(lèi)號(hào):TP301

        文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2017)005000105

        0引言

        計(jì)算機(jī)網(wǎng)絡(luò)、電子商務(wù)和移動(dòng)技術(shù)的飛速發(fā)展,使用戶(hù)更加便捷地融入網(wǎng)絡(luò),成為信息的使用者和創(chuàng)造者?,F(xiàn)今,人們更加習(xí)慣于在互聯(lián)網(wǎng)上發(fā)表自己對(duì)產(chǎn)品、服務(wù)或事件的觀點(diǎn)、偏好及情感傾向。CNNIC在《第37次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]中指出:截至2015年12月份,我國(guó)網(wǎng)民數(shù)量達(dá)到6.88億,互聯(lián)網(wǎng)普及率接近50.3%,龐大網(wǎng)民數(shù)量為生成海量互聯(lián)數(shù)據(jù)提供了基礎(chǔ)。其中,在線產(chǎn)品評(píng)論數(shù)據(jù)具有很大的商業(yè)價(jià)值。面對(duì)海量的碎片化、非結(jié)構(gòu)化、口語(yǔ)化、隨意化和多樣化的交易評(píng)論信息,如何借助計(jì)算機(jī)提取有價(jià)值的信息,幫助企業(yè)快速定位用戶(hù)偏好及喜愛(ài)和消費(fèi)者快速檢索所需的信息來(lái)了解產(chǎn)品的質(zhì)量和口碑,一直是學(xué)者研究的重點(diǎn)和難點(diǎn)。

        情感分析又稱(chēng)為意見(jiàn)挖掘,簡(jiǎn)言之,即從帶有情感色彩的主觀性文本中抽取用戶(hù)對(duì)話(huà)題、產(chǎn)品、個(gè)人、組織和服務(wù)等的情緒、評(píng)價(jià)、喜好、情感傾向[24]。按照處理文本的內(nèi)容,可分為基于新聞評(píng)論的情感分析和基于產(chǎn)品評(píng)論的情感分析[5]。前者主要處理網(wǎng)絡(luò)新聞事件評(píng)論,后者研究對(duì)象主要是網(wǎng)購(gòu)后對(duì)產(chǎn)品、服務(wù)等的在線評(píng)論。

        目前,國(guó)內(nèi)外學(xué)者對(duì)文本情感分析已經(jīng)作了大量研究,常用的方法可以分為兩類(lèi):基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法[67]?;谇楦性~典的方法使用知網(wǎng)Hownet、Wordnet和臺(tái)灣大學(xué)情感詞典N(xiāo)TUSD等詞典[810],該方法雖然簡(jiǎn)單直觀,但忽略了文本中情感單元和修飾詞之間的關(guān)系。該方法在句子級(jí)情感識(shí)別上存在不足,但在詞語(yǔ)級(jí)情感識(shí)別上可以發(fā)揮很大作用?;跈C(jī)器學(xué)習(xí)的方法又可以分為有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)兩種。常用的有監(jiān)督方法有ME、NB、SVM、CRF等,無(wú)監(jiān)督方法有PMI等[1113]。基于機(jī)器學(xué)習(xí)的情感分類(lèi)方法是通過(guò)提取文本特征,運(yùn)用數(shù)理模型,把文本特征作為輸入變量,經(jīng)過(guò)函數(shù)運(yùn)算后輸出結(jié)果,根據(jù)結(jié)果對(duì)文本進(jìn)行分類(lèi)。該方法不僅考慮到語(yǔ)句文本中的情感詞語(yǔ)及還考慮了句法結(jié)構(gòu),詞語(yǔ)之間修飾關(guān)系。該方法有較高的正確率和穩(wěn)定性,同時(shí)方便地?cái)U(kuò)展到不同領(lǐng)域。但由于中文詞語(yǔ)的一字多義、交叉歧義、表達(dá)多樣性、句式的復(fù)雜性、語(yǔ)言結(jié)構(gòu)的復(fù)雜性和詞語(yǔ)的不間斷性等,使得中文分詞和情感分析工作比英語(yǔ)更加困難,學(xué)者們一直在尋找方案以提高中文文本情感識(shí)別的準(zhǔn)確率。

        已有研究多關(guān)注一條完整在線產(chǎn)品評(píng)論的情感傾向。該方法主要存在以下兩個(gè)方面的不足:一是不能正確反映用戶(hù)內(nèi)心的情感,對(duì)于一款產(chǎn)品,用戶(hù)可能喜歡某些方面的設(shè)計(jì),對(duì)另一些設(shè)計(jì)感到不滿(mǎn),如果僅用評(píng)論的整體情感傾向代替用戶(hù)對(duì)產(chǎn)品某一具體方面的情感傾向,顯然存在誤差;二是混淆評(píng)價(jià)對(duì)象,因?yàn)槎鄶?shù)分析針對(duì)的是用戶(hù)的完整評(píng)論,不能識(shí)別出用戶(hù)對(duì)某個(gè)具體評(píng)價(jià)對(duì)象的情感傾向。因此,針對(duì)以上兩點(diǎn),本文對(duì)每條完整的評(píng)論按照一定的語(yǔ)法規(guī)則進(jìn)行分句,識(shí)別有效子句,提取評(píng)價(jià)對(duì)象,使用C4.5決策樹(shù)識(shí)別子句的情感傾向,該方法采用最大信息增益率作為決策樹(shù)的屬性選擇標(biāo)準(zhǔn),選擇的屬性作為分裂節(jié)點(diǎn),最初選擇的屬性作為決策樹(shù)的根節(jié)點(diǎn),對(duì)于分裂節(jié)點(diǎn)的不同取值,采用遞歸的方法求其子樹(shù),相比于樸素貝葉斯方法,該方法在分類(lèi)的穩(wěn)定性上具有明顯優(yōu)勢(shì)。

        1相關(guān)工作

        在線產(chǎn)品評(píng)論的情感分析側(cè)重點(diǎn)不同于新聞評(píng)論的情感分析。在線產(chǎn)品評(píng)論的情感分析更加關(guān)注用戶(hù)對(duì)產(chǎn)品屬性或服務(wù)的評(píng)價(jià),可以忽略評(píng)論中一些具有情感傾向的詞語(yǔ)或句子。判斷一條在線產(chǎn)品評(píng)論是否有用,關(guān)鍵在于文本中是否包含評(píng)價(jià)詞、產(chǎn)品屬性等。比如華為honor暢玩版4X在線產(chǎn)品評(píng)論:“一直在用華為的手機(jī),這款手機(jī)挺喜歡的。”該評(píng)論就是垃圾信息,雖然文本中出現(xiàn)情感詞“喜歡”,但是句子不包含產(chǎn)品屬性和評(píng)價(jià)詞,不能區(qū)別產(chǎn)品屬性的好與壞。假設(shè)“喜歡”一詞出現(xiàn)在新聞評(píng)論,該語(yǔ)句一定代表了評(píng)論者的一種正向的感傾向,不能視為垃圾信息。為了更準(zhǔn)確地識(shí)別在線產(chǎn)品評(píng)論的情感傾向,本文做了如下相關(guān)工作:數(shù)據(jù)抓取、隱性產(chǎn)品屬性追加、用戶(hù)分詞詞典、評(píng)價(jià)詞表、否定詞表、程度副詞表等的建立和預(yù)處理。

        1.1數(shù)據(jù)抓取

        采用八爪魚(yú)采集器從亞馬遜官網(wǎng)抓取華為honor暢玩版4X的在線產(chǎn)品評(píng)論信息。八爪魚(yú)采集器簡(jiǎn)化了用戶(hù)獲取信息的流程,實(shí)現(xiàn)數(shù)據(jù)自動(dòng)采集、編輯和規(guī)范化,降低提取信息的成本。通過(guò)設(shè)計(jì)評(píng)論信息提取規(guī)則,從亞馬遜官網(wǎng)提取在線評(píng)論信息,得到正面在線評(píng)價(jià)500條,負(fù)面在線評(píng)價(jià)197條。

        1.2隱性產(chǎn)品屬性追加

        由于用戶(hù)輸入網(wǎng)頁(yè)評(píng)論具有隨意性,可能導(dǎo)致文本評(píng)論中沒(méi)有評(píng)價(jià)對(duì)象或?qū)傩灾?,僅有評(píng)價(jià)詞。例如:“個(gè)人感覺(jué)5.5太大了,不好拿”。該評(píng)論中“個(gè)人感覺(jué)5.5太大了”隱含了評(píng)價(jià)對(duì)象屏幕。對(duì)于該類(lèi)問(wèn)題,本文設(shè)計(jì)了常用評(píng)價(jià)對(duì)象和評(píng)價(jià)詞對(duì)應(yīng)表,使用Java程序自動(dòng)識(shí)別評(píng)價(jià)詞,再檢索評(píng)價(jià)對(duì)象,如果檢索不成功,則添加對(duì)應(yīng)的評(píng)價(jià)對(duì)象,否則不作任何處理。

        1.3詞典建立

        為了更加準(zhǔn)確地識(shí)別產(chǎn)品評(píng)論中的特征詞語(yǔ),如情感詞、評(píng)價(jià)對(duì)象、否定詞和程度副詞等,為后面的機(jī)器學(xué)習(xí)提供可靠的數(shù)據(jù),本文建立了相應(yīng)的詞表。

        1.3.1用戶(hù)分詞詞典

        使用中科院張華平博士研發(fā)的中文分詞軟件NLPIR2016對(duì)在線產(chǎn)品評(píng)論進(jìn)行分詞處理,其主要功能包括中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、用戶(hù)詞典功能、微博分詞、新詞發(fā)現(xiàn)與關(guān)鍵詞提取等。對(duì)于特定領(lǐng)域本體相關(guān)屬性和常用短語(yǔ)不能正確進(jìn)行分詞,可以人工添加用戶(hù)詞典輔助分詞。本文添加不能被正確識(shí)別的手機(jī)產(chǎn)品屬性,形成用戶(hù)詞典表,如圖1所示。圖1中沒(méi)有詞性標(biāo)注的詞語(yǔ)在NLPIR軟件中默認(rèn)是名詞,vi表示不及物動(dòng)詞。

        1.3.2評(píng)價(jià)詞表

        評(píng)價(jià)詞表達(dá)了用戶(hù)對(duì)評(píng)價(jià)對(duì)象的情感傾向,最能反映用戶(hù)對(duì)產(chǎn)品屬性的喜惡之情,在文本情感分析中有著舉足輕重的作用。本文結(jié)合Hownet的正、負(fù)評(píng)價(jià)詞表,以及從亞馬遜官網(wǎng)抓取的評(píng)論信息,剔除與手機(jī)領(lǐng)域無(wú)關(guān)的評(píng)價(jià)詞,如:安樂(lè)、安全等,添加新的評(píng)價(jià)詞,如:高大上、物美價(jià)廉等。最終得到正向評(píng)價(jià)詞表、負(fù)向評(píng)價(jià)詞表。部分正、負(fù)向評(píng)價(jià)詞表如圖2所示。

        1.3.3否定詞表

        否定詞語(yǔ)的出現(xiàn)一般會(huì)反轉(zhuǎn)語(yǔ)句的情感傾向,使得語(yǔ)句的正向情感變成負(fù)向情感,負(fù)向情感變成正向情感。本文在抓取的評(píng)論和網(wǎng)絡(luò)資源中提取了常用否定詞,形成否定詞表,部分否定詞表如圖3所示。

        1.3.4程度副詞表

        對(duì)于程度副詞,其位置的不同會(huì)影響到文本語(yǔ)句的情感傾向。本文關(guān)注兩種位置不同的程度副詞。1)其位置在否定詞和評(píng)級(jí)詞之間;2)其位置在否定詞之前。例如:“手機(jī)配置不是很高”,“手機(jī)配置很不高”,前者整個(gè)語(yǔ)句的負(fù)面情感傾向要明顯弱于后者。因此本文更加關(guān)注其出現(xiàn)的位置而不是其語(yǔ)氣強(qiáng)度,部分程度副詞表如圖4所示。

        1.4預(yù)處理

        預(yù)處理是指使用NLPIR分詞軟件之前對(duì)在線產(chǎn)品評(píng)論的處理、加工,提取有用信息,分為以下幾個(gè)步驟:

        (1)拆分每條完整評(píng)論。根據(jù)評(píng)論文本中的特殊標(biāo)點(diǎn)符號(hào)把一條完整的評(píng)論分成若干子句,特殊標(biāo)點(diǎn)符號(hào)包含逗號(hào)、句號(hào)、井號(hào)、嘆號(hào)、問(wèn)號(hào)和破折號(hào)。根據(jù)用戶(hù)的表達(dá)習(xí)慣,一般用逗號(hào)分隔的子句已包含評(píng)價(jià)對(duì)象和評(píng)價(jià)詞,所以選取逗號(hào)分割語(yǔ)句。在輸入文本評(píng)論時(shí),用戶(hù)可能使用井號(hào)、破折號(hào)替代逗號(hào)、句號(hào),因此特殊標(biāo)點(diǎn)符號(hào)也包含井號(hào)和破折號(hào)。

        (2)使用NLPIR API對(duì)子句進(jìn)行分詞處理,詞性標(biāo)注,去除停用詞。

        (3)識(shí)別有效子句。本文僅處理包含手機(jī)產(chǎn)品屬性的文本評(píng)論。如果評(píng)價(jià)對(duì)象是客服服務(wù)、快遞速度和態(tài)度等與手機(jī)產(chǎn)品屬性無(wú)關(guān)的,則直接刪除該評(píng)論;如果需要測(cè)評(píng)商城和快遞服務(wù),則需要保留,然后刪除不包含手機(jī)產(chǎn)品屬性或評(píng)價(jià)詞的子句,降低干擾語(yǔ)句出現(xiàn)的概率。

        最終得到有效子句3 161條。其中,正面文本評(píng)論2 119條,負(fù)面1 042條。

        2模型建立

        使用決策樹(shù)對(duì)數(shù)據(jù)集建立模型,主要包含以下4個(gè)步驟:

        (1)計(jì)算所有屬性劃分?jǐn)?shù)據(jù)集所得的信息增益。信息熵的計(jì)算公式:

        H(C)=-∑iP(ci)log2P(ci)(1)

        在實(shí)際計(jì)算中,P(ci)取值是類(lèi)別為ci的樣本所占總樣本的比例,即:

        P(ci)=|ci|/|C|(2)

        其中,|C|是訓(xùn)練集樣本的總數(shù),|ci|表示類(lèi)別為ci的樣本數(shù)。

        假設(shè)用屬性A來(lái)劃分?jǐn)?shù)據(jù)集S中的數(shù)據(jù),屬性A對(duì)數(shù)據(jù)集S的劃分熵值為H(C|A)。如果屬性A是離散型數(shù)據(jù)類(lèi)型,有K個(gè)不同的取值,則屬性A依據(jù)這K個(gè)不同的取值將S劃分為K個(gè)子集{S1,S2,...Sk} ,屬性A劃分為S的信息熵為:

        H(C|A)=∑kj=1CjCH(Cj)(3)

        如果屬性A是連續(xù)型數(shù)據(jù)類(lèi)型,則按照屬性A的取值遞增排序,將每對(duì)相鄰的中點(diǎn)看作可能的分裂點(diǎn),計(jì)算每個(gè)可能的分裂點(diǎn):

        H(C|A)=|SL||S|H(CL)+|SR||S|H(CR)(4)

        其中,SL和SR分別對(duì)應(yīng)該分裂點(diǎn)劃分的左右兩部分子集,選擇H(C|A)值最小的分裂點(diǎn)作為屬性A的最佳分裂點(diǎn)。屬性A的信息增益:

        Gain(S,A)=H(C)-H(C|A)(5)

        該值的大小代表屬性A對(duì)數(shù)據(jù)集S的識(shí)別能力。

        (2)計(jì)算各屬性的分裂信息和信息增益率。C4.5引入了分裂信息來(lái)調(diào)節(jié)信息增益,屬性A的分裂信息為:

        SplitE(A)=-∑kj=1|Sj||S|log2|Sj||S|(6)

        屬性A的信息增益率為:

        GainRatio(A)=Gain(S,A)SplitE(A)(7)

        (3)選擇信息增益率最大的屬性作為分裂節(jié)點(diǎn),信息增益率可以部分消減因?qū)傩苑诸?lèi)數(shù)目產(chǎn)生的影響。

        (4)把該節(jié)點(diǎn)作為根節(jié)點(diǎn),對(duì)其屬性的不同值,遞歸調(diào)用以上方法,求其子樹(shù),該過(guò)程還包含根據(jù)每個(gè)葉子節(jié)點(diǎn)包含的最少實(shí)例數(shù)量和置信因子對(duì)生產(chǎn)樹(shù)進(jìn)行修剪,克服過(guò)擬合現(xiàn)象。

        3實(shí)驗(yàn)及結(jié)果分析

        本文主要研究在線產(chǎn)品評(píng)論的情感分析,即通過(guò)機(jī)器學(xué)習(xí)的方法識(shí)別出文本的正、負(fù)面情感。首先使用網(wǎng)絡(luò)爬蟲(chóng)軟件八爪魚(yú)抓取honor暢玩版4X手機(jī)在線產(chǎn)品評(píng)論,然后對(duì)其進(jìn)行特殊處理。過(guò)濾評(píng)論中的無(wú)效語(yǔ)句,添加隱形產(chǎn)品屬性,根據(jù)產(chǎn)品屬性把在線產(chǎn)品評(píng)論分割成不同的簡(jiǎn)單子句。使用NLPIR2016分詞工具對(duì)處理后的有效子句評(píng)論進(jìn)行分詞,詞性標(biāo)注,去除停用詞,抽取文本特征,從中選擇不同特征項(xiàng)進(jìn)行組合,得到特征向量,最后使用C4.5建立模型,并檢驗(yàn)?zāi)P偷男阅堋?/p>

        3.1在線產(chǎn)品評(píng)論數(shù)據(jù)抓取流程

        在線產(chǎn)品評(píng)論數(shù)據(jù)抓取主要分為3個(gè)過(guò)程:制定數(shù)據(jù)抓取規(guī)則、運(yùn)行規(guī)則,導(dǎo)出數(shù)據(jù)到本地計(jì)算機(jī)。①制定規(guī)則。該步驟為核心步驟,主要包括分頁(yè)設(shè)置、循環(huán)設(shè)置、列表設(shè)置、提取字段設(shè)置。設(shè)置Xpath路徑正則表達(dá)式,匹配評(píng)論信息對(duì)應(yīng)的html標(biāo)簽,抓取評(píng)論數(shù)據(jù);②運(yùn)行規(guī)則。打開(kāi)已經(jīng)設(shè)置成功的規(guī)則,單擊“啟用單機(jī)采集”選項(xiàng),出現(xiàn)采集頁(yè)面后,單擊“運(yùn)行”按鈕;③導(dǎo)出數(shù)據(jù)。數(shù)據(jù)采集完成后,選擇“導(dǎo)出到Excel 2003”選項(xiàng),將數(shù)據(jù)導(dǎo)入到本地計(jì)算機(jī)。

        抓取在線產(chǎn)品評(píng)論的工作流程如圖5所示。

        3.2基于決策樹(shù)的情感分析

        基于決策樹(shù)方法的情感分析的過(guò)程整體上分為3步:①預(yù)處理。對(duì)抓取的在線產(chǎn)品評(píng)論進(jìn)行預(yù)處理,主要包括拆分子句、刪除垃圾評(píng)論、添加隱形產(chǎn)品屬性、識(shí)別有效子句等;②文本分詞、表示。添加用戶(hù)分詞詞典,使用NLPIR API完成分詞、詞性標(biāo)志,去除停用詞語(yǔ),提取并修正文本特征,完成特殊語(yǔ)句處理,選擇不同的特征向量進(jìn)行組合;③情感分析。使用weka中的J48建立模型,選用十字交叉法拆分?jǐn)?shù)據(jù),并根據(jù)查確率、查全率和F值3個(gè)指標(biāo)檢驗(yàn)?zāi)P偷男阅堋?/p>

        本文使用NLPIR2016分詞軟件對(duì)處理后的在線產(chǎn)品評(píng)論進(jìn)行分詞處理,該分詞軟件有很高的正確率和運(yùn)行效率,允許用戶(hù)添加用戶(hù)詞典,提高了軟件分詞的正確率。本文中添加的用戶(hù)詞典是手機(jī)產(chǎn)品屬性,其作用是降低軟件分詞的錯(cuò)誤率,確保提取正確的產(chǎn)品屬性。NLPIR完成分詞后,標(biāo)注詞語(yǔ)的詞性,去除停用詞。停用詞主要包括表示數(shù)量的數(shù)詞、人稱(chēng)代詞、帶有單位的量詞等。

        提取文本評(píng)論中的特征項(xiàng),本文選用的特征項(xiàng)如下:正面評(píng)價(jià)詞數(shù)量、負(fù)面評(píng)價(jià)詞數(shù)量、否定詞、程度副詞、特殊符號(hào)。其含義如表1所示。

        語(yǔ)句中的評(píng)價(jià)詞表達(dá)了用戶(hù)對(duì)產(chǎn)品屬性的態(tài)度,與語(yǔ)句的情感傾向存在直接關(guān)系。否定詞語(yǔ)的出現(xiàn)往往會(huì)改變語(yǔ)句的情感傾向。大部分學(xué)者只關(guān)注程度副詞的強(qiáng)度值,本文關(guān)注其在文本中所在的位置,其在語(yǔ)句中的位置影響語(yǔ)句的情感強(qiáng)度。詞語(yǔ)中特殊符號(hào)在一定程度上也反映了評(píng)論者的情感傾向。模型中正向情感傾向標(biāo)注為1,負(fù)向情感傾向標(biāo)注為-1。

        對(duì)于一些特殊語(yǔ)句、評(píng)價(jià)對(duì)象及評(píng)價(jià)詞,本文作如下特殊處理:

        (1)含有“除”的特殊比較句。該語(yǔ)句含義的側(cè)重點(diǎn)一般在后半部分。因?yàn)榍捌陬A(yù)處理會(huì)把含有“除”的比較句拆分成兩個(gè)子句,所以需要合并含有“除”的比較子句和與其緊挨的下一子句,使得比較句的表達(dá)意思更加完全。

        (2)非評(píng)價(jià)詞錯(cuò)誤識(shí)別為評(píng)價(jià)詞的特殊情況。本文采用匹配評(píng)價(jià)詞表的方式來(lái)識(shí)別評(píng)價(jià)詞。該方法存在不足之處,當(dāng)子句中包含評(píng)價(jià)詞,但該詞不能表達(dá)評(píng)價(jià)詞的情感傾向時(shí),非評(píng)價(jià)詞錯(cuò)誤識(shí)別為評(píng)價(jià)詞的現(xiàn)象就出現(xiàn)了。本文針對(duì)這種情況,設(shè)置了對(duì)應(yīng)的檢驗(yàn)規(guī)則,發(fā)現(xiàn)并刪除誤判的評(píng)價(jià)詞,增加數(shù)據(jù)的真實(shí)性和可靠性。實(shí)驗(yàn)發(fā)現(xiàn),對(duì)于僅包含一個(gè)漢字的評(píng)價(jià)詞,其被錯(cuò)誤識(shí)別的概率較高。

        同一評(píng)價(jià)詞修飾不同評(píng)價(jià)對(duì)象時(shí)表達(dá)的情感傾向有所差別。比如評(píng)價(jià)詞“高”對(duì)應(yīng)不同評(píng)價(jià)對(duì)象“配置”和“價(jià)格”,對(duì)于前一個(gè)評(píng)價(jià)對(duì)象來(lái)說(shuō)是正面的評(píng)價(jià)詞,對(duì)于后者就變成了負(fù)面情感詞。本文中對(duì)于后者做了添加否定詞的處理,使其變得規(guī)律化。

        此外,評(píng)價(jià)詞的前后出現(xiàn)程度副詞,并導(dǎo)致其表示的情感傾向發(fā)生變化時(shí),對(duì)該子句做添加否定詞的處理。對(duì)于特定的評(píng)價(jià)對(duì)象,出現(xiàn)特定的詞語(yǔ),通過(guò)添加否定詞處理使其規(guī)范化。

        3.3實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)中選擇不同的特征組合,使用十字交叉進(jìn)行試驗(yàn),其對(duì)應(yīng)關(guān)系如表2所示。

        實(shí)驗(yàn)中采用weka中的J48分類(lèi)方法來(lái)識(shí)別文本的情感傾向。實(shí)驗(yàn)結(jié)果使用weka默認(rèn)的評(píng)價(jià)指標(biāo),其指標(biāo)包含如下:Precision表示查準(zhǔn)率,檢測(cè)搜索系統(tǒng)拒絕非相關(guān)信息的能力;Recall表示查全率,檢測(cè)檢索系統(tǒng)檢出相關(guān)信息的能力;FMeasure是查全率和查準(zhǔn)率的調(diào)和平均數(shù),綜合評(píng)價(jià)方法的效果;ROC Area表示接受者操作特征曲線面積,其值越接近1,表明模型的分類(lèi)效果越好。其實(shí)驗(yàn)結(jié)果如表3所示,其中每組實(shí)驗(yàn)包含正向、負(fù)向情感傾向和加權(quán)后各項(xiàng)指標(biāo)的值。

        3.4結(jié)果分析

        從表3的實(shí)驗(yàn)結(jié)果可以看出,實(shí)驗(yàn)1僅使用情感詞的數(shù)量特征,實(shí)驗(yàn)結(jié)果加權(quán)后查準(zhǔn)率為85.5%,查全率和F值也在85%以上。實(shí)驗(yàn)2加入程度副詞,結(jié)果有所改善,查準(zhǔn)率、查全率和F值約提升1%,但效果不是很明顯。實(shí)驗(yàn)3與實(shí)驗(yàn)1對(duì)比,添加了否定詞數(shù)量特征,結(jié)果發(fā)生顯著變化,加權(quán)后查準(zhǔn)率、查全率和F值均達(dá)到96%。表明否定詞特征在實(shí)驗(yàn)中起到積極作用,否定詞的出現(xiàn)一般會(huì)改變?cè)姓Z(yǔ)句的情感傾向。實(shí)驗(yàn)4是在實(shí)驗(yàn)3的基礎(chǔ)上加入了程度副詞特征,加權(quán)后實(shí)驗(yàn)指標(biāo)查準(zhǔn)率、查全率和F值下降0.1%左右,僅ROC增加0.3%,模型性能總體略微下降,與實(shí)驗(yàn)2有相似之處。實(shí)驗(yàn)中程度副詞的出現(xiàn)與否和子句中的否定詞有關(guān),并且程度副詞不轉(zhuǎn)變語(yǔ)句的總體情感傾向,只是改變情感的強(qiáng)弱,當(dāng)程度副詞和否定詞同時(shí)出現(xiàn)時(shí),程度副詞不起作用或者發(fā)揮輕微地消極作用。實(shí)驗(yàn)5與實(shí)驗(yàn)4相比,增加了特殊符號(hào)特征,但實(shí)驗(yàn)結(jié)果中大部分指標(biāo)相同,表明該特征在實(shí)驗(yàn)中沒(méi)有起到積極作用,因?yàn)閷?shí)驗(yàn)中包含特殊符號(hào)的子句數(shù)量很少,只有26條,這與用戶(hù)的表達(dá)習(xí)慣有關(guān),當(dāng)用戶(hù)表示不滿(mǎn)情感時(shí),用戶(hù)輸入問(wèn)號(hào)或者語(yǔ)氣詞表示其不滿(mǎn)情感的可能性比較低。

        4結(jié)語(yǔ)

        本文使用決策樹(shù)多特征組合研究在線產(chǎn)品評(píng)論的情感傾向。抓取亞馬遜官網(wǎng)的評(píng)論數(shù)據(jù),從評(píng)論中提取特征,采用多種特征進(jìn)行組合,并取得較好的實(shí)驗(yàn)效果,該方法的準(zhǔn)確率達(dá)到96%。實(shí)驗(yàn)表明,子句中評(píng)價(jià)詞的數(shù)量和否定詞的數(shù)量等特征很大程度上決定了該子句的情感傾向,而實(shí)驗(yàn)中的程度副詞和特殊符號(hào)等特征并沒(méi)有產(chǎn)生顯著的積極作用,沒(méi)有顯著提高實(shí)驗(yàn)結(jié)果。由于實(shí)驗(yàn)的樣本數(shù)量有限,用戶(hù)的表達(dá)方式和規(guī)則不能統(tǒng)計(jì)完全,實(shí)驗(yàn)還有待繼續(xù)完善和改進(jìn)。

        通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),該實(shí)驗(yàn)仍有提升的空間。隨著網(wǎng)絡(luò)的發(fā)展,新詞不斷產(chǎn)生,尤其是網(wǎng)絡(luò)熱詞,一些詞語(yǔ)被賦予新的含義,如何正確識(shí)別這些詞語(yǔ)的情感傾向也是一個(gè)亟待解決的難題;同時(shí)加上網(wǎng)絡(luò)的普及和用戶(hù)的參與,產(chǎn)生了海量的評(píng)論信息。如何使用云技術(shù)高效、準(zhǔn)確地識(shí)別評(píng)論的情感傾向,需要繼續(xù)深入研究。

        參考文獻(xiàn)參考文獻(xiàn):

        [1]CNNIC.第37次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r調(diào)查統(tǒng)計(jì)報(bào)告[R].北京:中國(guó)互聯(lián)網(wǎng)中心,2016.

        [2]SERRANOGUERRERO J,OLIVAS J A,ROMERO F P,et al.Sentiment analysis: a review and comparative analysis of web services[J].Information Sciences,2015,311(5):1838.

        [3]QI J,F(xiàn)U X,ZHU G.Subjective wellbeing measurement based on Chinese grassroots blog text sentiment analysis[J].Information & Management,2015,52(7):859869.

        [4]張紫瓊,葉強(qiáng),李一軍.互聯(lián)網(wǎng)商品評(píng)論情感分析研究綜述[J].管理科學(xué)學(xué)報(bào),2010(6):8496.

        [5]ZHANG L,GHOSH R,DEKHIL M,et al.Combining lexiconbased and learningbased methods for twitter sentiment analysis[J].Hp Laboratories Technical Report,2011.

        [6]PANG B,LEE L,Vaithyanathan S.Thumbs up sentiment classification using machine learning techniques[J].Proceedings of Emnlp,2002(3):7986.

        [7]付麗娜,肖和,姬東鴻.基于OCSVM的新情感詞識(shí)別[J].計(jì)算機(jī)應(yīng)用研究,2015(7):19461948,1952.

        [8]KAMPS J.Using wordnet to measure semantic orientation of adjectives[C].International Conference on Language Resources and Evaluation,2004:11151118.

        [9]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào),2006(1):1420.

        [10]王振宇,吳澤衡,胡方濤.基于HowNet和PMI的詞語(yǔ)情感極性計(jì)算[J].計(jì)算機(jī)工程,2012(15):187189,193.

        [11]李婷婷,姬東鴻.基于SVM和CRF多特征組合的微博情感分析[J].計(jì)算機(jī)應(yīng)用研究,2015(4):978981.

        [12]TURNEY P D.Thumbs up or thumbs down:semantic orientation applied to unsupervised classification of reviews[J].Proceedings of Annual Meeting of the Association for Computational Linguistics,2010:417424.

        [13]王祖輝,姜維,李一軍.在線產(chǎn)品評(píng)論情感分析中固定搭配特征提取方法研究[J].管理工程學(xué)報(bào),2014(4):180186.

        責(zé)任編輯(責(zé)任編輯:孫娟)

        麻豆激情视频在线观看| 国产性生交xxxxx免费| 精精国产xxxx视频在线| h动漫尤物视频| 麻豆成人久久精品一区| 国模冰莲自慰肥美胞极品人体图| 国产成人大片在线播放| 亚洲男人天堂黄色av| 女人被狂躁到高潮视频免费网站| 国产人成精品免费视频| 91国产超碰在线观看| 亚洲精品一区三区三区在线| 日本高清视频xxxxx| 在线观看91精品国产免费免费| 丝袜美腿网站一区二区| 熟女高潮av一区二区| 肉色丝袜足j视频国产| 麻豆亚洲av永久无码精品久久| 欧美日韩亚洲综合久久久| 亚洲中文中文字幕乱码| 亚州性无码不卡免费视频| 亚洲gv白嫩小受在线观看| 激情人妻网址| 亚洲女同av在线观看| 国产无遮挡又爽又刺激的视频老师| 久久精品久久精品中文字幕| 精品粉嫩国产一区二区三区| 极品粉嫩小仙女高潮喷水网站| 男人的天堂免费a级毛片无码| 天美麻花果冻视频大全英文版| 中文字幕一二区中文字幕| 日韩亚洲无吗av一区二区| 国产成熟人妻换╳╳╳╳| 国产午夜精品福利久久| 亚洲一区中文字幕视频| 欧洲多毛裸体xxxxx| 成年男女免费视频网站| 国产一区二区黑丝美女| 亚洲国产成人极品综合| 亚洲精品人成无码中文毛片| 日韩亚洲制服丝袜中文字幕 |