亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文產(chǎn)品評(píng)論的維度挖掘及情感分析技術(shù)研究*

        2018-03-12 08:38:03趙志濱
        計(jì)算機(jī)與生活 2018年3期
        關(guān)鍵詞:子句詞典整體

        趙志濱,劉 歡,姚 蘭,于 戈

        東北大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,沈陽(yáng) 110819

        1 引言

        近些年,電子商務(wù)迅猛發(fā)展,消費(fèi)者可以通過(guò)電商平臺(tái)完成在線(xiàn)購(gòu)物和支付,這一方面提高了交易效率,同時(shí)也減少了商品流通環(huán)節(jié)和倉(cāng)儲(chǔ)費(fèi)用,降低了交易成本。為了提升服務(wù)質(zhì)量和吸引消費(fèi)者,絕大多數(shù)電商平臺(tái)都鼓勵(lì)消費(fèi)者發(fā)表購(gòu)物評(píng)論,以表達(dá)消費(fèi)者對(duì)產(chǎn)品各個(gè)屬性維度上的意見(jiàn)。這些包含了消費(fèi)者購(gòu)物和產(chǎn)品使用體驗(yàn)的評(píng)論成為一種重要的市場(chǎng)信息資源。消費(fèi)者可以將他人的評(píng)論作為指引,了解目標(biāo)商品在各個(gè)屬性維度上的指標(biāo)或者優(yōu)缺點(diǎn),從而最大可能地實(shí)現(xiàn)理性消費(fèi)和科學(xué)消費(fèi)。對(duì)于商家或者生產(chǎn)者來(lái)說(shuō),這些消費(fèi)者評(píng)論是最為直接和重要的市場(chǎng)反饋信息,據(jù)此可以了解市場(chǎng)需求,從而有的放矢地改進(jìn)服務(wù),提升產(chǎn)品質(zhì)量,指導(dǎo)新產(chǎn)品研發(fā),或者實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo)。

        一個(gè)商品會(huì)包含眾多的屬性維度,消費(fèi)者的評(píng)論談及其中的某些維度,并包含針對(duì)具體屬性維度的評(píng)價(jià),即維度情感。消費(fèi)者綜合考慮不同維度的情感,潛在地為產(chǎn)品評(píng)論賦予整體情感。例如,表1中列舉了3條來(lái)自于京東商城洗衣液商品的評(píng)論。表2則是表1中3條評(píng)論所描述的屬性維度、維度情感和整體情感。

        評(píng)論r1談到了商品的“香味”和“物流/送貨速度”兩個(gè)維度,且維度情感都為正面。顯然,評(píng)論r1的整體情感為正面。

        評(píng)論r2談到了“物流/送貨速度”、“濃度”、“清潔效果”三方面,其中對(duì)于“物流/送貨速度”評(píng)價(jià)為正面,而對(duì)于“濃度”和“清潔效果”的評(píng)價(jià)為負(fù)面。顯然,r2的整體情感為負(fù)面。

        Table 1 Examples of product's reviews表1 產(chǎn)品評(píng)論舉例

        Table 2 Dimensions,dimensional sentiments and overall sentiments of reviews in Table 1表2 表1中評(píng)論的維度、維度的情感、整體情感

        評(píng)論r3談到了“物流/送貨速度”、“易漂洗性”和“產(chǎn)品價(jià)格”3個(gè)屬性維度。同r2一樣,評(píng)論在不同屬性維度上所表達(dá)的情感有正有負(fù)。如果依靠傳統(tǒng)的情感標(biāo)注方法,即整體情感是各個(gè)維度情感的簡(jiǎn)單累加,那么r3的情感值將會(huì)被判定為負(fù)面。這顯然是錯(cuò)誤的,因?yàn)樵u(píng)論中明確地表達(dá)了消費(fèi)者繼續(xù)購(gòu)買(mǎi)這款洗衣液的意愿。這也就意味著,消費(fèi)者對(duì)于該產(chǎn)品的整體情感應(yīng)為正。

        從上面的例子中可以看出:(1)一條評(píng)論的整體情感是該評(píng)論所包含的屬性維度及其對(duì)應(yīng)情感的綜合結(jié)果;(2)對(duì)于同一種商品,消費(fèi)者對(duì)于商品的不同屬性的重視程度也不相同。反映到評(píng)論中,商品的不同屬性應(yīng)有不同的權(quán)重,權(quán)重大的維度上的情感對(duì)于整體情感的影響也更大。換句話(huà)說(shuō),評(píng)論的整體情感不僅依賴(lài)于所包含的維度情感,也與屬性維度對(duì)于商品的重要性程度,或者說(shuō)與消費(fèi)者對(duì)于商品不同維度的關(guān)注度有關(guān)。

        本文使用規(guī)則匹配的方法抽取評(píng)論維度,然后使用決策樹(shù)算法計(jì)算評(píng)論維度情感。雖然消費(fèi)者對(duì)于不同產(chǎn)品維度的重視程度具有個(gè)體差異,但從群體來(lái)講,具有統(tǒng)計(jì)規(guī)律。因此,本文通過(guò)對(duì)人工標(biāo)注數(shù)據(jù)集中的維度被提及的概率以及維度情感和總體情感的一致性分析計(jì)算維度權(quán)重。評(píng)論的整體情感是維度情感的加權(quán)累加。本文主要貢獻(xiàn)如下:

        (1)構(gòu)造了包括詞語(yǔ)搭配關(guān)系的維度詞典,并實(shí)現(xiàn)了基于詞典的評(píng)論維度挖掘;使用卡方統(tǒng)計(jì)對(duì)維度詞典進(jìn)行擴(kuò)充。實(shí)驗(yàn)結(jié)果表明,基于詞表的規(guī)則匹配方法在維度挖掘方面具有很好的準(zhǔn)確性,結(jié)果的可解釋性也更好。

        (2)使用監(jiān)督學(xué)習(xí)的決策樹(shù)算法進(jìn)行維度情感分類(lèi),其中使用最小Gini系數(shù)選擇分裂屬性。實(shí)驗(yàn)表明,這種方法可以得到較好的維度情感分類(lèi)準(zhǔn)確性。

        (3)用戶(hù)對(duì)產(chǎn)品各個(gè)屬性的重視度不同,因此評(píng)論中各個(gè)維度的權(quán)重對(duì)于評(píng)論整體情感的影響也不同。本文提出了維度權(quán)重計(jì)算方法,其中考慮了維度在評(píng)論中的提及概率以及維度情感與整體情感的一致性,最后綜合維度情感和維度權(quán)重來(lái)計(jì)算評(píng)論的整體情感。

        在此需要特別指出的是,本文在評(píng)論有效性判定、評(píng)論維度抽取方面采用的是規(guī)則匹配的方法,其基礎(chǔ)是維度詞典,因此只適用于中文評(píng)論文本。但是,本文所提出的處理思想可適用于其他語(yǔ)言的評(píng)論文本挖掘工作。

        本文組織結(jié)構(gòu)如下:第2章是相關(guān)工作,介紹了維度抽取和文本情感分析方面已有的最新研究成果;第3章給出了本文工作的相關(guān)概念以及符號(hào)定義,包括問(wèn)題的形式化描述;第4章詳細(xì)介紹了維度抽取、維度情感分析、維度權(quán)重計(jì)算以及評(píng)論整體情感計(jì)算方法;第5章介紹了實(shí)驗(yàn)細(xì)節(jié),并分析了實(shí)驗(yàn)結(jié)果;第6章總結(jié)全文,并提出后續(xù)的研究計(jì)劃。

        2 相關(guān)工作

        本文工作的核心是評(píng)論維度抽取和評(píng)論情感分析?,F(xiàn)就這兩方面的最新研究成果進(jìn)行總結(jié)。

        如果把每一個(gè)產(chǎn)品維度都看作是一個(gè)標(biāo)簽,那么一條評(píng)論包含多個(gè)產(chǎn)品維度,也就應(yīng)被分配多個(gè)標(biāo)簽。因此,評(píng)論文本的產(chǎn)品維度抽取,本質(zhì)上是一個(gè)多標(biāo)簽分類(lèi)問(wèn)題,這是學(xué)術(shù)界關(guān)注的一個(gè)熱點(diǎn)問(wèn)題。大體上,解決多標(biāo)簽分類(lèi)問(wèn)題可以有三種方法:傳統(tǒng)的機(jī)器學(xué)習(xí)算法、深度學(xué)習(xí)算法和基于詞表的規(guī)則匹配算法。Zhang等人[1]系統(tǒng)地總結(jié)了多標(biāo)簽機(jī)器學(xué)習(xí)算法:(1)一階算法,假設(shè)標(biāo)簽之間相互獨(dú)立,那么就可以把多標(biāo)簽分類(lèi)問(wèn)題轉(zhuǎn)換為一系列獨(dú)立的傳統(tǒng)分類(lèi)問(wèn)題。典型的一階算法有BR(binary relevance)[2]、ML-kNN(multi-labelk-nearest neighbor)[3]和ML-DT(multi-label decision tree)[4]。(2)二階算法,考慮了標(biāo)簽之間的兩兩相關(guān)性,這也導(dǎo)致了二階算法較一階算法的計(jì)算復(fù)雜度有顯著的增加。典型的二階算法有Calibrated Label Ranking[5]、Rank-SVM(ranking support vector machine)[6]和 CML(collective multi-label classifier)[7]。(3)高階算法,考慮多個(gè)標(biāo)簽之間的相關(guān)性,自然計(jì)算復(fù)雜度會(huì)更高。典型的高階 算 法 有 Classifier Chains[8]和 Randomk-labelsets[9]。Zhang等人[10]研究了維度抽取和實(shí)體抽取兩大核心問(wèn)題,分析了維度抽取的3種主要方法,并提出了基于半監(jiān)督的實(shí)體抽取方法。近些年,深度學(xué)習(xí)技術(shù)被應(yīng)用到了解決多標(biāo)簽分類(lèi)問(wèn)題上。例如,Read等人[11]使用Restricted Boltzmann Machine構(gòu)建隱含層,既提高了分類(lèi)的準(zhǔn)確性,也降低了分類(lèi)時(shí)間。

        無(wú)論是機(jī)器學(xué)習(xí)方法,還是深度學(xué)習(xí)方法,在解決多標(biāo)簽問(wèn)題時(shí),都存在著兩個(gè)棘手的問(wèn)題:第一,高質(zhì)量訓(xùn)練數(shù)據(jù)的獲取問(wèn)題。這里高質(zhì)量的含義是既要準(zhǔn)確,又要充分。但是當(dāng)標(biāo)簽數(shù)量很多時(shí),數(shù)據(jù)傾斜現(xiàn)象會(huì)非常嚴(yán)重,某些標(biāo)簽下很難獲得充足的訓(xùn)練數(shù)據(jù)。這就導(dǎo)致了機(jī)器學(xué)習(xí)算法,或者深度學(xué)習(xí)算法對(duì)這些標(biāo)簽的分類(lèi)結(jié)果準(zhǔn)確性下降。第二,結(jié)果缺乏可解釋性,難于進(jìn)行調(diào)試。上述兩個(gè)缺點(diǎn)是機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法工程應(yīng)用的巨大阻礙。

        文本情感分析又稱(chēng)文本傾向性分析、意見(jiàn)挖掘,它是對(duì)帶有情感色彩的主觀(guān)性文本進(jìn)行分析、處理、歸納和推理的過(guò)程。文本情感分析的方法主要分為兩類(lèi):一是基于情感詞典的文本情感分類(lèi)方法;二是基于機(jī)器學(xué)習(xí)的文本情感分類(lèi)方法。

        基于情感詞典的文本情感分類(lèi)方法的基礎(chǔ)是準(zhǔn)確而且全面的情感詞典。Tong等人[12]人工抽取影評(píng)領(lǐng)域的詞語(yǔ),并進(jìn)行極性(position/negative)的標(biāo)注,從而建立了專(zhuān)門(mén)的情感詞典。Hu等人[13]通過(guò)使用已標(biāo)注極性的形容詞,結(jié)合WordNet中詞間的近義、同義關(guān)系來(lái)判斷新詞的情感極性,以計(jì)算主觀(guān)文本的情感極性。為了計(jì)算微博數(shù)據(jù)傳達(dá)的情感,Shen等人[14]對(duì)情感詞進(jìn)行了細(xì)分,建立了態(tài)度權(quán)重詞典(weight dictionary,WD)、消極詞典(negative words dictionary,NWD)、程度詞典(degree words dictionary,DWD)和感嘆詞典(interjection words dictionary,IWD),如此計(jì)算的微博情感指數(shù)更加精確。在假定具有了完善的情感詞典后,另一項(xiàng)核心工作是確定具體語(yǔ)境中各個(gè)細(xì)分詞典詞語(yǔ)之間的搭配關(guān)系,如使用句法分析技術(shù),這樣才能盡可能地保證分析結(jié)果的準(zhǔn)確性。

        機(jī)器學(xué)習(xí)分類(lèi)算法如決策樹(shù)、支持向量機(jī)、樸素貝葉斯等,其核心思想是通過(guò)訓(xùn)練集構(gòu)造分類(lèi)模型,從而對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)。Pang等人[15]使用樸素貝葉斯、支持向量機(jī)和最大熵分類(lèi)器進(jìn)行文本情感分類(lèi),他們嘗試用不同的特征選擇方法進(jìn)行實(shí)驗(yàn),并比較實(shí)驗(yàn)結(jié)果。Hassan等人[16]采用監(jiān)督型馬爾科夫模型,使用詞性信息和依存關(guān)系來(lái)確定消息極性。劉志明等人[17]使用3種機(jī)器學(xué)習(xí)算法、3種特征選取算法以及3種特征項(xiàng)權(quán)重計(jì)算方法對(duì)微博進(jìn)行情感分類(lèi)研究。實(shí)驗(yàn)結(jié)果表明,針對(duì)不同的特征權(quán)重計(jì)算方法,支持向量機(jī)和樸素貝葉斯分類(lèi)算法各有優(yōu)勢(shì),信息增益特征選取方法相比于其他方法效果明顯要好。Basari等人[18]使用支持向量機(jī)模型結(jié)合粒子群優(yōu)化算法計(jì)算文本情感,實(shí)驗(yàn)結(jié)果的準(zhǔn)確率達(dá)到77%。

        文獻(xiàn)[19-20]的工作與本文的工作比較相似。文獻(xiàn)[19]提出了LARAM(latent aspect rating analysis model)模型,在已知評(píng)論整體情感的情況下,挖掘評(píng)論中的潛在維度、維度情感和個(gè)性化的維度權(quán)重。針對(duì)旅館的評(píng)論數(shù)據(jù)集和MP3播放器數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,證明了算法的有效性。文獻(xiàn)[20]通過(guò)統(tǒng)一框架CARW(collectively estimate aspect ratings and weights)來(lái)完成同樣的3個(gè)任務(wù)。上述兩個(gè)工作和本文工作的主要區(qū)別是:

        (1)雖然都是對(duì)評(píng)論所談及的維度進(jìn)行挖掘,但本文采用的方法與上述工作不同。本文以維度詞典為基礎(chǔ),并確定了維度詞的搭配關(guān)系,同時(shí)引入了句法分析技術(shù),這一方面能夠提高維度挖掘的準(zhǔn)確性,另一方面也適用于維度數(shù)量較多的情況。以電商平臺(tái)上的洗衣液評(píng)論為例,在領(lǐng)域?qū)<业闹笇?dǎo)下,需要抽取的維度數(shù)量為69個(gè)。其中關(guān)于某些維度的評(píng)論非常稀疏,在這種情況下,使用機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)的方法就會(huì)面臨訓(xùn)練集標(biāo)注工作量巨大和數(shù)據(jù)傾斜問(wèn)題。此時(shí),詞典方式是最為直接有效的方法。

        (2)在獲取了維度情感的基礎(chǔ)上,本文的目標(biāo)是挖掘消費(fèi)者整體對(duì)于產(chǎn)品各個(gè)維度的關(guān)注度,從而推導(dǎo)出產(chǎn)品的維度權(quán)重,并通過(guò)維度情感的線(xiàn)性組合得到整體情感。這與文獻(xiàn)[19-20]分析個(gè)別用戶(hù)的維度偏好也是不同的。

        3 問(wèn)題描述

        設(shè)R={r1,r2,…,rR}表示一組評(píng)論集合,S={S1,S2,…,SR}表示R中評(píng)論的整體情感的集合,其中Si∈S是評(píng)論ri∈R的整體情感。

        定義1產(chǎn)品維度,也稱(chēng)產(chǎn)品屬性,是產(chǎn)品本身及外延性質(zhì)的總集,可表示為A={a1,a2,…,aA}。消費(fèi)者對(duì)產(chǎn)品進(jìn)行評(píng)論時(shí)會(huì)涉及產(chǎn)品的若干維度。例如,洗衣液產(chǎn)品有“價(jià)格”、“清潔效果”、“產(chǎn)品質(zhì)量”等維度。

        評(píng)論ri所包含的維度可以表示為一個(gè)A維向量

        定義2維度情感,評(píng)論ri中針對(duì)某一個(gè)具體產(chǎn)品維度ax(ax∈A)的情感傾向稱(chēng)為ax的維度情感,記作本文維度情感的情感等級(jí)分為:1-負(fù)面,3-中性,5-正面。

        顯然,評(píng)論ri的全部維度情感構(gòu)成一個(gè)A維向量

        定義3維度權(quán)重,是評(píng)論者針對(duì)所有產(chǎn)品維度所表現(xiàn)出的群體偏好分布特征,用W=<w1,w2,…,wA>表示。其中,wx是ax屬性維度的權(quán)重,它與維度ax在全體評(píng)論中被談及的次數(shù)以及ax的維度情感與評(píng)論整體情感的一致性有關(guān)。

        根據(jù)上述定義,本文研究的問(wèn)題是:

        (1)提出維度挖掘函數(shù)F,對(duì)于任意評(píng)論ri,挖掘ri的產(chǎn)品維度向量,形式化描述為F:ri→Vi;

        (2)提出維度情感判定函數(shù)G,在(1)的基礎(chǔ)上,確定ri的維度情感向量,形式化描述為

        (3)確定W=<w1,w2,…,wA> ,根據(jù)(2)的維度情感向量,計(jì)算評(píng)論ri的整體情感值Si。

        4 算法描述

        下面詳細(xì)介紹評(píng)論維度抽取、維度情感計(jì)算、維度權(quán)重計(jì)算以及評(píng)論整體情感計(jì)算。首先,給出本文工作的前提條件或假設(shè):

        (1)只針對(duì)有效評(píng)論展開(kāi),有效評(píng)論是指評(píng)論內(nèi)容中至少涉及到了產(chǎn)品的一個(gè)屬性維度;

        (2)如果評(píng)論中涉及到了某一個(gè)產(chǎn)品維度,則一定包含相應(yīng)的維度情感;

        (3)評(píng)論的整體情感依賴(lài)于評(píng)論所描述的維度及其情感,以及維度的權(quán)重,維度權(quán)重越大,對(duì)評(píng)論的整體情感影響越大。

        4.1 維度挖掘

        如前所述,本文在維度挖掘方面,采用的是基于詞典的規(guī)則匹配方法。基本思想是:首先根據(jù)人工分析確定產(chǎn)品評(píng)論的維度,然后為每一個(gè)維度確定維度詞典,即描述一個(gè)具體產(chǎn)品維度的常用詞集合。這里需要注意的是,很多詞語(yǔ)可能出現(xiàn)在多個(gè)維度詞典中,比如說(shuō)“便宜”,如果評(píng)論文本為“東西真便宜”,那么它指的是“產(chǎn)品價(jià)格”維度;如果評(píng)論文本為“比超市便宜”,那么它指的是“購(gòu)物渠道價(jià)格”維度。為解決這個(gè)問(wèn)題,在維度詞典中引入了詞與詞之間的搭配關(guān)系。詞語(yǔ)以及詞語(yǔ)之間的搭配關(guān)系共同構(gòu)成了維度挖掘詞典。

        基于詞典的維度抽取方法的具體執(zhí)行過(guò)程是:首先,對(duì)評(píng)論文本根據(jù)標(biāo)點(diǎn)符號(hào)分割成子句;然后,針對(duì)每個(gè)子句,使用包含有詞語(yǔ)搭配關(guān)系的維度詞典進(jìn)行匹配。評(píng)論子句的維度就是與其匹配次數(shù)最多的維度[21]。

        顯然,維度詞典的完整性直接影響到維度抽取的準(zhǔn)確性。維度詞典的構(gòu)造過(guò)程是:首先,為產(chǎn)品的每個(gè)維度預(yù)先設(shè)定種子詞語(yǔ);然后,計(jì)算評(píng)論子句中的每個(gè)詞與各維度種子詞語(yǔ)的卡方統(tǒng)計(jì)值,并將卡方值最大的詞語(yǔ)加入到相應(yīng)的維度詞典中,從而實(shí)現(xiàn)維度詞典的擴(kuò)充。詞語(yǔ)t和維度ax相關(guān)性的卡方統(tǒng)計(jì)值計(jì)算公式如式(3)所示:

        其中,F(xiàn)1是t出現(xiàn)在屬于維度ax的評(píng)論子句中的次數(shù);F2是t出現(xiàn)在不屬于維度ax的評(píng)論子句中的次數(shù);F3是屬于維度ax但不包含t的評(píng)論子句的個(gè)數(shù);F4是既不屬于維度ax,又不包含詞t的評(píng)論子句的個(gè)數(shù);F是詞t出現(xiàn)的總次數(shù)。

        4.2 維度情感計(jì)算

        維度抽取后已得出每條評(píng)論子句的維度,且每個(gè)維度對(duì)應(yīng)著一種情感,因此維度情感分析是一個(gè)傳統(tǒng)的單標(biāo)簽多分類(lèi)問(wèn)題。另外,絕大多數(shù)評(píng)論子句中針對(duì)同一維度的情感詞具有方向一致性,因此選擇使用監(jiān)督學(xué)習(xí)方法對(duì)評(píng)論子句進(jìn)行情感分類(lèi),具體采用決策樹(shù)分類(lèi)算法。

        決策樹(shù)是一個(gè)樹(shù)形結(jié)構(gòu),它從根節(jié)點(diǎn)開(kāi)始對(duì)數(shù)據(jù)樣本進(jìn)行測(cè)試,根據(jù)不同的結(jié)果將數(shù)據(jù)樣本劃分成不同的數(shù)據(jù)樣本子集。它是通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的過(guò)程。構(gòu)造決策樹(shù)的關(guān)鍵性?xún)?nèi)容是進(jìn)行屬性選擇度量。屬性選擇度量算法有很多,不同的決策樹(shù)實(shí)現(xiàn)方法有不同的選擇度量算法。本文采用CART(classification and regression tree)算法實(shí)現(xiàn)決策樹(shù)。CART算法采用最小Gini系數(shù)選擇分裂屬性[22]。Gini系數(shù)的定義如式(4)所示:

        其中,E表示訓(xùn)練樣本的集合;G表示維度情感類(lèi)別的集合,文中G={1,3,5};pi=|Gi|/|E|為樣本集中樣本屬于Gi的概率。

        使用決策樹(shù)方法判斷維度情感的具體步驟是:首先,在評(píng)論數(shù)據(jù)集中隨機(jī)選擇一定量的評(píng)論數(shù)據(jù),使用維度抽取方法確定有效子句;然后,人工標(biāo)注每條評(píng)論子句的情感,形成訓(xùn)練數(shù)據(jù)集;使用訓(xùn)練數(shù)據(jù)集訓(xùn)練分類(lèi)器;最后,對(duì)未標(biāo)注評(píng)論子句進(jìn)行分類(lèi)預(yù)測(cè),得出維度情感。注意,評(píng)論的維度情感是一個(gè)向量,向量中的每個(gè)元素對(duì)應(yīng)于一個(gè)產(chǎn)品維度的情感值。評(píng)論中未出現(xiàn)的產(chǎn)品維度,其維度情感標(biāo)注為0。

        4.3 維度權(quán)重及整體情感的計(jì)算

        不同產(chǎn)品的主要功能不同,因此用戶(hù)對(duì)于產(chǎn)品各個(gè)屬性維度的關(guān)注度也不盡相同。用戶(hù)對(duì)于產(chǎn)品的評(píng)論的總體情感,既與其對(duì)各個(gè)維度的維度情感有關(guān),也與各個(gè)維度的維度權(quán)重有關(guān)。如果消費(fèi)者群體對(duì)某個(gè)維度關(guān)注度較高,那么該維度對(duì)評(píng)論的整體情感影響也會(huì)較大。維度ax對(duì)于整體情感的影響權(quán)重與兩方面因素有關(guān):維度ax在全體評(píng)論中被談及的概率,以及ax的維度情感與評(píng)論整體情感的一致性。本文綜合考慮了上述兩點(diǎn)來(lái)計(jì)算維度權(quán)重,為此隨機(jī)地選擇了評(píng)論子集R??R,并人工標(biāo)注了維度、維度情感和整體情感。

        維度ax在評(píng)論中被談及概率由式(5)計(jì)算:

        維度ax的維度情感和評(píng)論的整體情感一致性計(jì)算如式(6)和式(7)所示:

        則維度ax的綜合權(quán)重計(jì)算如式(8)所示:

        式(8)說(shuō)明,維度ax在評(píng)論中被談及的概率越大,則消費(fèi)者對(duì)此的關(guān)注度就越大。同時(shí),ax的維度情感與評(píng)論的整體情感一致性越高,說(shuō)明ax對(duì)整體情感的決定性越強(qiáng)。

        到此,已經(jīng)通過(guò)維度挖掘獲取了一條評(píng)論中談及的產(chǎn)品維度,并使用決策樹(shù)算法判定了維度情感。在綜合考慮了維度在評(píng)論中的出現(xiàn)概率以及維度情感與整體情感一致性的情況下,計(jì)算了產(chǎn)品各個(gè)維度的維度權(quán)重。在此基礎(chǔ)上,評(píng)論的整體情感則是評(píng)論的維度情感向量與維度權(quán)重向量的內(nèi)積,如式(9)所示:

        5 實(shí)驗(yàn)

        5.1 實(shí)驗(yàn)數(shù)據(jù)集及環(huán)境介紹

        本文選取了32 000條的京東商城洗衣液產(chǎn)品評(píng)論作為實(shí)驗(yàn)數(shù)據(jù)集,并對(duì)這些評(píng)論進(jìn)行了人工標(biāo)注作為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。標(biāo)注內(nèi)容包括產(chǎn)品維度、維度情感和總體情感。領(lǐng)域?qū)<抑付水a(chǎn)品維度表,共分為10個(gè)大類(lèi),分別是“方便性”、“品牌”、“包裝”、“產(chǎn)品”、“性?xún)r(jià)比”、“價(jià)格”、“香味”、“快遞”、“購(gòu)物渠道”和“產(chǎn)品功效”。每個(gè)大類(lèi)下又細(xì)分為若干個(gè)二級(jí)維度,總共有69個(gè)二級(jí)維度。本文的工作,包括實(shí)驗(yàn),都是針對(duì)二級(jí)維度進(jìn)行的。

        本文均采用Python 3.5語(yǔ)言實(shí)現(xiàn)。評(píng)論數(shù)據(jù)采用MongoDB存儲(chǔ)。實(shí)驗(yàn)物理機(jī)硬件配置如表3所示。

        Table 3 Hardware environment in experiments表3 實(shí)驗(yàn)物理機(jī)配置

        為提高處理效率,在3臺(tái)物理機(jī)上構(gòu)建了9個(gè)虛擬計(jì)算節(jié)點(diǎn),平均分配數(shù)據(jù)以實(shí)現(xiàn)均衡的并行處理。

        5.2 實(shí)驗(yàn)結(jié)果

        5.2.1 維度抽取

        在維度抽取實(shí)驗(yàn)中,以人工標(biāo)注的32 000條評(píng)論數(shù)據(jù)的維度標(biāo)注結(jié)果作為標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集。實(shí)驗(yàn)過(guò)程是:針對(duì)一條評(píng)論數(shù)據(jù),首先使用標(biāo)點(diǎn)符號(hào)對(duì)評(píng)論進(jìn)行分割,每條評(píng)論都被分割為若干子句;然后,使用維度詞表中的詞語(yǔ)及其搭配關(guān)系對(duì)子句進(jìn)行匹配,并輸出該子句的維度挖掘結(jié)果。

        如前文所述,維度挖掘本質(zhì)上是一個(gè)多標(biāo)簽分類(lèi)問(wèn)題,因此挖掘結(jié)果的正確性需要通過(guò)集合比較來(lái)進(jìn)行評(píng)價(jià)。本文采用基于樣本的評(píng)價(jià)指標(biāo)[1]。假設(shè)評(píng)論ri的事實(shí)標(biāo)簽集為Vi,則維度抽取的評(píng)價(jià)指標(biāo)定義如式(10)所示:

        其中,p為測(cè)試樣本數(shù)量,即32 000條;β取通常值1。維度抽取實(shí)驗(yàn)結(jié)果如表4所示。

        Table 4 Result of dimension mining表4 維度抽取實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)結(jié)果表明,本文維度抽取準(zhǔn)確性較高,說(shuō)明本文方法能夠較好地識(shí)別評(píng)論所談及的產(chǎn)品屬性。實(shí)驗(yàn)中使用標(biāo)點(diǎn)符號(hào)把評(píng)論文本分隔成子句。一般情況下評(píng)論中每個(gè)子句談及的產(chǎn)品維度比較單一,這是維度抽取結(jié)果性能較好的基本原因。另外,本文方法的維度詞典規(guī)模較大,搭配關(guān)系超過(guò)10萬(wàn),這也是維度抽取準(zhǔn)確性較好的原因。在實(shí)驗(yàn)中還發(fā)現(xiàn),有些維度在所有的用戶(hù)評(píng)論中很少涉及,例如“包裝開(kāi)啟方便性”、“生產(chǎn)工藝”等,說(shuō)明消費(fèi)者對(duì)這些產(chǎn)品維度關(guān)注度低。

        5.2.2 維度情感分析

        維度情感分析的本質(zhì)是傳統(tǒng)的單標(biāo)簽分類(lèi)問(wèn)題。本文工作的情感分為3類(lèi):1-負(fù)面,3-中性,5-正面。維度情感分析實(shí)驗(yàn)的目的是評(píng)估使用決策樹(shù)分類(lèi)算法實(shí)現(xiàn)評(píng)論子句情感分類(lèi)的效果。人工標(biāo)注的32 000條數(shù)據(jù)作為事實(shí)數(shù)據(jù)集,從中隨機(jī)選取了數(shù)據(jù)總量的60%作為訓(xùn)練集,其余的40%數(shù)據(jù)作為測(cè)試數(shù)據(jù)集。實(shí)驗(yàn)評(píng)價(jià)指標(biāo)與傳統(tǒng)的機(jī)器學(xué)習(xí)分類(lèi)算法評(píng)價(jià)指標(biāo)相同。實(shí)驗(yàn)發(fā)現(xiàn),使用卡方統(tǒng)計(jì)測(cè)量特征與類(lèi)別之間的依賴(lài)性來(lái)進(jìn)行特征選取,且特征數(shù)為2 000時(shí),決策樹(shù)分類(lèi)效果最佳。實(shí)驗(yàn)結(jié)果如表5所示。

        Table 5 Result of dimensional-level sentiment analysis表5 維度情感分析結(jié)果

        實(shí)驗(yàn)結(jié)果表明,使用決策樹(shù)分類(lèi)算法進(jìn)行維度情感分析的效果良好。在實(shí)驗(yàn)中,把包含維度信息的子句作為情感分析的語(yǔ)料,而子句是通過(guò)標(biāo)點(diǎn)符號(hào)切割的,因此實(shí)驗(yàn)結(jié)果的準(zhǔn)確性嚴(yán)重依賴(lài)于評(píng)論中標(biāo)點(diǎn)符號(hào)使用的規(guī)范性。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),絕大多數(shù)評(píng)論中都有標(biāo)點(diǎn)符號(hào)分割,且絕大多數(shù)維度情感特征詞都和維度信息位于同一個(gè)子句中,這是維度情感分類(lèi)結(jié)果較好的原因。

        5.2.3 整體情感分析

        在整體情感分析實(shí)驗(yàn)中,首先使用32 000條人工標(biāo)注數(shù)據(jù)集計(jì)算維度權(quán)重,然后使用式(9)計(jì)算評(píng)論的整體情感,并與人工標(biāo)注的評(píng)論整體情感進(jìn)行比較。實(shí)驗(yàn)結(jié)果如表6所示。

        Table 6 Result of overall sentiment analysis表6 整體情感分析結(jié)果

        實(shí)驗(yàn)結(jié)果表明,本文的權(quán)重計(jì)算方法有效。實(shí)際上,按權(quán)重對(duì)維度進(jìn)行了排序輸出,發(fā)現(xiàn)權(quán)重較高的前5位產(chǎn)品屬性依次是“價(jià)格”、“購(gòu)物渠道價(jià)格”、“物流/快遞速度”、“快遞服務(wù)態(tài)度”、“清潔效果”。這與人們默認(rèn)的選購(gòu)洗衣液產(chǎn)品的情感傾向稍微有些差別。一般認(rèn)為,洗衣液產(chǎn)品最為關(guān)鍵的屬性應(yīng)該是“清潔效果”,但在本文的計(jì)算結(jié)果中,“清潔效果”僅位于第5位。為此,按照維度標(biāo)簽提取了相應(yīng)的評(píng)論進(jìn)行了分析,發(fā)現(xiàn)了其中的邏輯:網(wǎng)購(gòu)行為往往帶有很強(qiáng)的目的性,即用戶(hù)已經(jīng)在線(xiàn)下確定了目標(biāo)商品,因此網(wǎng)購(gòu)行為更多關(guān)注的是價(jià)格和物流速度;很多評(píng)論中提到了“快遞服務(wù)態(tài)度”,相應(yīng)的評(píng)價(jià)內(nèi)容主要是快遞員是否送貨上門(mén)。產(chǎn)生這一現(xiàn)象的主要原因是,很多消費(fèi)者因?yàn)殡娚痰拇黉N(xiāo)活動(dòng)購(gòu)買(mǎi)了很多洗衣液,重量較大,而且購(gòu)買(mǎi)者往往是女性,因此她們比較重視快遞員是否能夠送貨上門(mén)。通過(guò)這些深入觀(guān)察,也能反映出本文維度權(quán)重計(jì)算方法是正確的。

        6 總結(jié)與展望

        本文針對(duì)電商平臺(tái)的產(chǎn)品評(píng)論信息,完成了維度抽取、維度情感分析和整體情感分析工作。首先,構(gòu)建維度詞典,采用了基于詞典的維度抽取方法;然后,使用決策樹(shù)的方法對(duì)維度情感進(jìn)行分類(lèi);通過(guò)對(duì)評(píng)論數(shù)據(jù)的統(tǒng)計(jì),確定了維度權(quán)重,并基于維度情感和維度權(quán)重計(jì)算評(píng)論的整體情感?;谡鎸?shí)的評(píng)論數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,本文提出的維度挖掘方法、維度情感計(jì)算方法、維度權(quán)重計(jì)算方法,以及評(píng)論整體情感分類(lèi)技術(shù)均具有很好的性能。

        下一步將針對(duì)如下兩個(gè)問(wèn)題展開(kāi)研究:第一,當(dāng)前的維度信息是領(lǐng)域?qū)<一诮?jīng)驗(yàn)設(shè)定的,缺乏科學(xué)性依據(jù),因此計(jì)劃根據(jù)采集的數(shù)據(jù),使用聚類(lèi)算法,自動(dòng)推薦維度標(biāo)簽;第二,生產(chǎn)企業(yè)為了提升產(chǎn)品的競(jìng)爭(zhēng)力,會(huì)經(jīng)常向產(chǎn)品中添加新功能,這會(huì)導(dǎo)致新維度的產(chǎn)生,那么用戶(hù)評(píng)論中一定會(huì)有提及,如何自動(dòng)感知評(píng)論中的新維度信息也是一個(gè)很有挑戰(zhàn)性的問(wèn)題。

        [1]Zhang Minling,Zhou Zhihua.A review on multi-label learning algorithms[J].IEEE Transactions on Knowledge and Data Engineering,2014,26(8):1819-1837.

        [2]Boutell M R,Luo Jiebo,Shen Xiping,et al.Learning multilabel scene classification[J].Pattern Recognition,2004,37(9):1757-1771.

        [3]Zhang Minling,Zhou Zhihua.ML-KNN:a lazy learning approach to multi-label learning[J].Pattern Recognition,2007,40(7):2038-2048.

        [4]Clare A,King R D.Knowledge discovery in multi-label phenotype data[C]//LNCS 2168:Proceedings of the 5th European Conference on Principles of Data Mining and Knowledge Discovery,Freiburg,Sep 3-5,2001.Berlin,Heidelberg:Springer,2001:42-53.

        [5]Fürnkranz J,Hüllermeier E,Mencía E L,et al.Multilabel classification via calibrated label ranking[J].Machine Learning,2008,73(2):133-153.

        [6]Elisseff A,Weston J.A kernel method for multi-labelled classification[C]//Proceedings of the 14th International Conference on Neural Information Processing Systems:Natural and Synthetic,Vancouver,Dec 3-8,2001.Cambridge:MIT Press,2001:681-687.

        [7]Ghamrawi N,McCallum A.Collective multi-label classification[C]//Proceedings of the 14th ACM International Conference on Information and Knowledge Management,Bremen,Oct 31-Nov 5,2005.New York:ACM,2005:195-200.

        [8]Read J,Pfahringer B,Holmes G,et al.Classifier chains for multi-label classification[J].Machine Learning,2011,85(3):333-359.

        [9]Tsoumakas G,Vlahavas I.Random k-labelsets:an ensemble method for multilabel classification[C]//Proceedings of the 18th European Conference on Machine Learning,Warsaw,Sep 17-21,2007.Berlin,Heidelberg:Springer,2007:406-417.

        [10]Zhang Lei,Liu Bing.Aspect and entity extraction for opinion mining[M]//Chu W W.Data Mining and Knowledge Discovery for Big Data.Berlin,Heidelberg:Springer,2014:1-40.

        [11]Read J,Perez-Cruz F.Deep learning for multi-label classification[J].Machine Learning,2014,85(3):333-359.

        [12]Tong R M.An operational system for detecting and tracking opinions in online discussions[C]//Proceedings of the ACM SIGIR Workshop on Operational Text Classification,New Orleans,2001.New York:ACM,2001:1-6.

        [13]Hu Minqing,Liu Bing.Mining and summarizing customer reviews[C]//Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Seattle,Aug 22-25,2004.New York:ACM,2004:168-177.

        [14]Shen Yang,Li Shuchen,Zheng Ling,et al.Emotion mining research on micro-blog[C]//Proceedings of the 1st IEEE Symposium on Web Society,Lanzhou,Aug 23-24,2009.Piscataway:IEEE,2009:71-75.

        [15]Pang Bo,Lee L,Vaithyanathan S.Thumbs up?:sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing,Philadelphia,Jul 6-12,2002.Stroudsburg:ACL,2002:79-86.

        [16]Hassan A,Qazvinian V,Radev D.What's with the attitude?:identifying sentences with attitude in on-line discussions[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing,Cambridge,Oct 9-11,2010.Stroudsburg:ACL,2010:1245-1255.

        [17]Liu Zhiming,Liu Lu.Empirical study of sentiment classification for Chinese microblog based on machine learning[J].Computer Engineering andApplications,2012,48(1):1-4.

        [18]Basari A S H,Hussin B,Ananta I G P,et al.Opinion mining of movie review using hybrid method of support vector machine and particle swarm optimization[J].Procedia Engineering,2013,53(7):453-462.

        [19]Wang Hongning,Lu Yue,Zhai Chengxiang.Latent aspect rating analysis without aspect keyword supervision[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,San Diego,Aug 21-24,2011.New York:ACM,2011:618-626.

        [20]Wang Feng,Chen Li.Review mining for estimating users'ratings and weights for product aspects[J].Web Intelligence,2015,13(3):137-152.

        [21]Wang Hongning,Lu Yue,Zhai Chengxiang.Latent aspect rating analysis on review text data:a rating regression approach[C]//Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Washington,Jul 25-28,2010.New York:ACM,2010:783-792.

        [22]Zhang Liang,Ning Qian.Two improvements on CART decision tree and its application[J].Computer Engineering and Design,2015,36(5):1209-1213.

        附中文參考文獻(xiàn):

        [17]劉志明,劉魯.基于機(jī)器學(xué)習(xí)的中文微博情感分類(lèi)實(shí)證研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(1):1-4.

        [22]張亮,寧芊.CART決策樹(shù)的兩種改進(jìn)及應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2015,36(5):1209-1213.

        猜你喜歡
        子句詞典整體
        命題邏輯中一類(lèi)擴(kuò)展子句消去方法
        命題邏輯可滿(mǎn)足性問(wèn)題求解器的新型預(yù)處理子句消去方法
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        歌曲寫(xiě)作的整體構(gòu)思及創(chuàng)新路徑分析
        流行色(2019年7期)2019-09-27 09:33:10
        關(guān)注整體化繁為簡(jiǎn)
        西夏語(yǔ)的副詞子句
        西夏學(xué)(2018年2期)2018-05-15 11:24:42
        評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
        設(shè)而不求整體代換
        詞典例證翻譯標(biāo)準(zhǔn)探索
        命題邏輯的子句集中文字的分類(lèi)
        色一情一区二区三区四区| av无码一区二区三区| 中文字幕人妻在线中字| a人片在线观看苍苍影院| 国产av日韩a∨亚洲av电影| 亚洲AV秘 片一区二区三| 无遮挡边吃摸边吃奶边做| 欧美日韩国产色综合一二三四| 老汉tv永久视频福利在线观看| 国产精品一区二区午夜久久| 一区二区亚洲精美视频| 日本午夜艺术一区二区| 国产毛片av一区二区| 色偷偷偷在线视频播放| 一本本月无码-| 国产70老熟女重口小伙子| 大香视频伊人精品75| 成人精品国产亚洲欧洲| 亚洲一区精品一区在线观看| 中文字幕在线乱码日本| 日本亚洲精品一区二区三| 国产98色在线 | 国产| 国产伦久视频免费观看视频| 欧美日韩成人在线| 99re国产电影精品| 丝袜美腿精品福利在线视频| 国产精品国产三级国产a| 国产成人精品久久综合| 亚洲天堂手机在线| 中文字幕一区韩国三级| 偷拍视频十八岁一区二区三区| 中文字幕人妻少妇伦伦| 成人内射国产免费观看| 国产成人精品无码播放 | 久久亚洲精品成人av无码网站| 日本理伦片午夜理伦片| 一区二区免费电影| 一区二区三区四区四色av| 久久91精品国产一区二区| 高潮内射双龙视频| 正在播放国产多p交换视频|