摘 要:電子商務(wù)的發(fā)展開(kāi)辟了一條新的購(gòu)物途徑,越來(lái)越多的商品在電子商務(wù)平臺(tái)出售,為了增強(qiáng)用戶購(gòu)物體驗(yàn),電子商務(wù)平臺(tái)為客戶提供了評(píng)論平臺(tái)。隨著客戶的增加,評(píng)論信息數(shù)量迅猛增長(zhǎng),并且評(píng)論信息具有很大的主觀隨意性,這給潛在用戶群獲取信息帶來(lái)很大的困難。針對(duì)這一情況,網(wǎng)絡(luò)評(píng)論挖掘技術(shù)應(yīng)運(yùn)而生,近年來(lái)已經(jīng)成為計(jì)算機(jī)科學(xué)、管理學(xué)、經(jīng)濟(jì)學(xué)等領(lǐng)域的研究熱點(diǎn)。本文簡(jiǎn)要從特征提取和情感分類兩個(gè)方面論述當(dāng)前網(wǎng)絡(luò)評(píng)論挖掘的關(guān)鍵技術(shù)與方法。
關(guān)鍵詞:網(wǎng)絡(luò)評(píng)論挖掘;特征提??;情感分類
中圖分類號(hào):TP391.1
隨著電子商務(wù)的蓬勃發(fā)展,越來(lái)越多的商品在電子商務(wù)平臺(tái)上銷售,為了提高客戶購(gòu)物體驗(yàn),平臺(tái)為客戶提供了商品評(píng)論功能。客戶通過(guò)瀏覽大量的網(wǎng)絡(luò)評(píng)論來(lái)了解產(chǎn)品和服務(wù)的口碑,幫助做出可靠的決策。同時(shí)客戶評(píng)論作為反饋機(jī)制也幫助了生產(chǎn)商、銷售商提升產(chǎn)品質(zhì)量,改進(jìn)服務(wù)水平,從而提高競(jìng)爭(zhēng)力。但是評(píng)論數(shù)量的飛速增長(zhǎng),使得信息越來(lái)越龐雜,造成了評(píng)論中的有用信息難以獲取的后果。因此,迫切需要借助一定的技術(shù)手段來(lái)使這一過(guò)程變得更為快捷和準(zhǔn)確。
1 網(wǎng)絡(luò)評(píng)論挖掘框架
網(wǎng)絡(luò)評(píng)論挖掘作為非結(jié)構(gòu)化信息挖掘的一個(gè)新興領(lǐng)域,主要涉及情感分析、評(píng)論中產(chǎn)品特征挖掘,以及評(píng)論中主觀內(nèi)容識(shí)別等[1][2]。與傳統(tǒng)文本挖掘的區(qū)別[3],首先,網(wǎng)絡(luò)評(píng)挖掘的結(jié)果是一個(gè)結(jié)構(gòu)化的評(píng)論摘要;其次,網(wǎng)絡(luò)評(píng)論挖掘只關(guān)注用戶表達(dá)了積極或者消極觀點(diǎn)的特征;最后,傳統(tǒng)文本挖掘是通過(guò)摘取或者重寫原文本的部分子句來(lái)得到文本摘要。
評(píng)論文本是一種非結(jié)構(gòu)化的短文本、包含許多零散冗余的信息,一些傳統(tǒng)的文本挖掘方法不適用于評(píng)論文本中的觀點(diǎn)挖掘。Popescu等人[4]將網(wǎng)絡(luò)評(píng)論挖掘問(wèn)題分為幾個(gè)子任務(wù):(1)挖掘重要產(chǎn)品特征;(2)挖掘用戶對(duì)于產(chǎn)品特征的主觀觀點(diǎn);(3)判斷評(píng)論觀點(diǎn)的情感導(dǎo)向;(4)根據(jù)觀點(diǎn)的重要性進(jìn)行排名。
2 評(píng)論特征挖掘
評(píng)論特征挖掘是指從大量評(píng)論中自動(dòng)獲取備受關(guān)注的重要評(píng)論特征。評(píng)論特征包括,產(chǎn)品特征,例如手機(jī)類商品的外觀、系統(tǒng)、性價(jià)比等,還包括商家的服務(wù)質(zhì)量以及物流速度等。針對(duì)這一任務(wù)研究人員提出了很多方法,而非直接通過(guò)人工定義的方式來(lái)規(guī)定評(píng)論特征,其必要性主要包括以下幾個(gè)方面[3]:(1)對(duì)于商家來(lái)說(shuō),通常會(huì)同時(shí)出售大量商品,為每一種商品定義數(shù)條特征是很有挑戰(zhàn)性不現(xiàn)實(shí)的任務(wù);(2)對(duì)于同一個(gè)特征,商家或者生產(chǎn)商的用詞可能會(huì)和消費(fèi)者有很大不同,并且,消費(fèi)者可能還關(guān)注商家或者生產(chǎn)商沒(méi)有提到的特征;(3)商家或者生產(chǎn)商可能會(huì)有意忽視產(chǎn)品的缺點(diǎn)特征,不希望消費(fèi)者注意到的商品的缺陷,從而不會(huì)提供商品的缺點(diǎn)特征。
Kobayashi等人采用了一個(gè)半自動(dòng)化的循環(huán)方法提取產(chǎn)品特征和用戶觀點(diǎn),但是需要大量的人工參與;Popescu利用貝葉斯分類提取產(chǎn)品特征[4]。Bing Liu,Minqing Hu[3]利用關(guān)聯(lián)規(guī)則方法挖掘評(píng)論中特征和評(píng)價(jià)該特征的情感詞,并在此基礎(chǔ)上進(jìn)行了后續(xù)的研究,判斷用戶對(duì)這些特征的情感導(dǎo)向。
目前對(duì)于中文評(píng)論中的產(chǎn)品特征挖掘研究主要集中在需要人工參與的監(jiān)督型方法或者半監(jiān)督型方法,姚天昉等人[5]利用本體建立了汽車的產(chǎn)品特征;劉健等人[6]提出了意見(jiàn)實(shí)例抽?。╫pinion instance extraction),但需要建立相關(guān)的領(lǐng)域知識(shí)。Shi等人面向中文也作了挖掘產(chǎn)品特征的研究,但是需要人工建立基于產(chǎn)品屬性的概念模型。
李實(shí)等[7]在Liu研究的基礎(chǔ)上對(duì)方法進(jìn)行了改進(jìn),增加中文分詞、刪除非頻繁特征抽取等步驟,將該方法應(yīng)用于中文網(wǎng)絡(luò)評(píng)論特征挖掘領(lǐng)域,取得了很好的實(shí)驗(yàn)成果。該方法的主要步驟:
第1步:對(duì)評(píng)論語(yǔ)料分詞。
第2步:對(duì)分詞結(jié)果進(jìn)行詞性標(biāo)注。
第3步:將標(biāo)注的名詞創(chuàng)建事務(wù)文件。
第4步:基于關(guān)聯(lián)規(guī)則Apriori算法挖掘頻繁特征集。本步驟中僅僅使用Apriori算法中的第一步,生成頻繁特征集,而不生成頻繁項(xiàng)之間的關(guān)聯(lián)規(guī)則。
第5步:在第4步的基礎(chǔ)上,按照鄰近規(guī)則進(jìn)行剪枝。鄰近規(guī)則定義:假設(shè)s是頻繁項(xiàng),s中包含n個(gè)詞,句子x包含s,而且s中的詞出現(xiàn)在x中的順序?yàn)閟1,s2,…,sn,如果s中任意兩個(gè)詞在x中相鄰,則稱s是一個(gè)鄰近特征短語(yǔ)。例如:s={“手機(jī)”,”屏幕”},x:“手機(jī)屏幕很大”,則s是一個(gè)鄰近特征短語(yǔ),可以合并成特征“手機(jī)屏幕”。
第6步:過(guò)濾掉非產(chǎn)品特征的常見(jiàn)中文頻繁項(xiàng)名詞和單個(gè)字名詞。例如,評(píng)論中經(jīng)常出現(xiàn)的稱呼用語(yǔ)。
網(wǎng)絡(luò)評(píng)論的隨意性、不規(guī)范性給評(píng)論特征提取帶來(lái)了很多困難,為了獲得更準(zhǔn)確的評(píng)論特征,還需要在上述關(guān)聯(lián)規(guī)則挖掘的基礎(chǔ)上,進(jìn)行人工篩選,但是相對(duì)于其他人工半人工的挖掘方法,在關(guān)聯(lián)規(guī)則挖掘結(jié)果的基礎(chǔ)上進(jìn)行篩選,減少了很多工作量,具有可行性。
3 情感分類
網(wǎng)絡(luò)評(píng)論的情感分類是指,在網(wǎng)絡(luò)評(píng)論特征挖掘的基礎(chǔ)上,針對(duì)特征挖掘出相應(yīng)的特征-情感詞對(duì),對(duì)特征相應(yīng)的情感詞進(jìn)行情感分類,從而得到客戶對(duì)該特征的評(píng)價(jià)。
3.1 詞典方法
詞語(yǔ)或短語(yǔ)的極性判斷需要極性詞典,主要利用詞典中詞之間的同義詞、反義詞、上位詞等聯(lián)系來(lái)獲取詞的極性,或者根據(jù)詞典計(jì)算詞之間的相似性來(lái)獲取詞的極性。
Hu和Liu利用WordNet的同義詞和反義詞對(duì)情感詞進(jìn)行極性分析。王素格等[8]利用中文的《同義詞詞林》對(duì)人工收集的褒義詞和貶義詞種子集進(jìn)行擴(kuò)展,從而建立極性詞典。利用一個(gè)詞的同義詞集中屬于極性詞典中褒義詞和貶義詞的數(shù)量,可以計(jì)算出一個(gè)詞屬于褒義和貶義詞的概率,通過(guò)這個(gè)概率值可以去掉極性詞典中極性模糊的詞,也可以判斷極性詞典中未包含的詞的極性[9]。
3.2 語(yǔ)義方法
利用文本中詞語(yǔ)的點(diǎn)互信息量或者與基準(zhǔn)詞的對(duì)比來(lái)獲悉詞語(yǔ)的情感極性,對(duì)整篇文章的情感詞匯進(jìn)行累加、平均,利用正負(fù)情感詞匯的概率得出文本的情感極性。Turney等人[10]最早提出將點(diǎn)互信息與信息檢索方法相結(jié)合,借助搜索引擎的后臺(tái)數(shù)據(jù)庫(kù)獲得語(yǔ)義傾向信息。其可靠性已經(jīng)在英文客戶情感分類的研究中得到了初步的驗(yàn)證。
3.3 機(jī)器學(xué)習(xí)方法
利用人工標(biāo)注文本情感極性,通過(guò)對(duì)語(yǔ)料、一元特征、二元特征、分類器的訓(xùn)練,得出文本的情感極性,實(shí)現(xiàn)對(duì)文本的情感分析。這種方法是根據(jù)機(jī)器學(xué)習(xí)的方法來(lái)設(shè)計(jì)的。Bo Pang使用了常用的機(jī)器學(xué)習(xí)方法包括Naive Bayes、SVM、最大熵等方法實(shí)驗(yàn)了分類器的效果,突破了原來(lái)情感分析把評(píng)論分為“支持”,或“反對(duì)”的局限,把消費(fèi)者評(píng)價(jià)按情感強(qiáng)度由好到差分為多點(diǎn)評(píng)級(jí)(比如一星到五星)。Eguchi和Lavrenk結(jié)合了情感相關(guān)模型和主題相關(guān)模型,考慮了主題的情感程度,使得用戶可以通過(guò)輸入主題和特定情感極性來(lái)進(jìn)行查詢。Prabowo等[11]結(jié)合基于規(guī)則的分類、監(jiān)督學(xué)習(xí)和機(jī)器學(xué)習(xí)方法提出一種新的綜合情感分析方法。
到目前為止,英文的情感詞典數(shù)據(jù)庫(kù)較為完善,相關(guān)資源較為豐富,而中文情感詞典的數(shù)據(jù)庫(kù)資源相對(duì)匱乏。并且語(yǔ)義極性分析和機(jī)器學(xué)習(xí)情感分類研究領(lǐng)域,主要的研究成果依然集中在英文語(yǔ)種。由于語(yǔ)言結(jié)構(gòu)的差別,現(xiàn)有的面向英文客戶評(píng)論情感分析的語(yǔ)義方法無(wú)法直接用于中文客戶評(píng)論。針對(duì)中文評(píng)論挖掘,需要我們探索適合中文特點(diǎn)的解決方法。
4 結(jié)束語(yǔ)
產(chǎn)品評(píng)論挖掘作為一個(gè)新興的研究領(lǐng)域,還存在很多問(wèn)題沒(méi)有解決,需要進(jìn)一步研究的內(nèi)容主要有:
4.1 統(tǒng)一的評(píng)論挖掘框架
目前大多數(shù)挖掘方法都是針對(duì)特定的評(píng)論,需要異地昂的專業(yè)領(lǐng)域知識(shí)。隨著網(wǎng)絡(luò)評(píng)論的多樣化,包括商品評(píng)論、新聞評(píng)論、微博評(píng)論、游友點(diǎn)評(píng)等,迫切需要提出一個(gè)統(tǒng)一的挖掘框架適用于各個(gè)領(lǐng)域的評(píng)論挖掘。
4.2 垃圾評(píng)論的過(guò)濾
網(wǎng)絡(luò)評(píng)論的開(kāi)放性、主觀隨意性導(dǎo)致評(píng)論中可能夾雜著很多廣告、惡意差評(píng)、人為好評(píng)、以及內(nèi)容無(wú)關(guān)等垃圾評(píng)論,有效過(guò)濾掉這些評(píng)論,有助于更客觀的挖掘。
4.3 評(píng)論用語(yǔ)規(guī)范
網(wǎng)絡(luò)產(chǎn)品評(píng)論中評(píng)論特征以及對(duì)應(yīng)的情感詞經(jīng)常出現(xiàn)一些特有的網(wǎng)絡(luò)用語(yǔ)、習(xí)語(yǔ)等,需要采取有效的手段抽取這些口語(yǔ)化、不規(guī)范的用詞。同時(shí)對(duì)于網(wǎng)絡(luò)用語(yǔ)、習(xí)語(yǔ)等情感詞極性也不能從傳統(tǒng)詞典中獲取。情感詞極性以及強(qiáng)度的判斷依然是一個(gè)充滿挑戰(zhàn)的問(wèn)題。
參考文獻(xiàn):
[1]黃永文,何中市,伍星.用戶評(píng)論的分類獲取[J].計(jì)算機(jī)應(yīng)用,2009(03):63.
[2]李實(shí),葉強(qiáng).挖掘中文網(wǎng)絡(luò)客戶評(píng)論的產(chǎn)品特征及情感傾向[J].計(jì)算機(jī)應(yīng)用研究,2010(08).
[3]Hu M,Liu B.Mining opinion features in customer reviews[J].AAAI.2004(04):755-760.
[4]Popescu A M,Etzioni O Extracting product features and opinions from reviews[J].Natural language processing and text mining.Springer London,2007:9-28.
[5]姚天昉,程希文,徐飛玉.文本意見(jiàn)挖掘綜述[J].中文信息學(xué)報(bào),2008(03):71-80.
[6]Liu J,Wu G,Yao J.Opinion searching in multi-product reviews[A].Computer and Information Technology,2006.CIT'06.The Sixth IEEE International Conference on[C].IEEE,2006:25-25.
[7]李實(shí),葉強(qiáng),李一軍.中文網(wǎng)絡(luò)客戶評(píng)論的產(chǎn)品特征挖掘方法研究[J].管理科學(xué)學(xué)報(bào),2009(12).
[8]王素格.基于Web的評(píng)論文本情感分類問(wèn)題研究[D].上海大學(xué),2008.
[9]郗亞輝,張明,袁方.產(chǎn)品評(píng)論挖掘研究綜述[J].山東大學(xué)學(xué)報(bào),2011(05).
[10]Turney P D,Littman M L. Measuring praise and criticism:Inference of semantic orientation from association[J].ACM Transactions on Information Systems(TOIS),2003(21):315-346.
[11]Prabowo R,Thelwall M.Sentiment analysis:A combined approach[J].Journal of Informetrics,2009(02):143-157.
作者簡(jiǎn)介:楊桂芳(1990-),女,河北人,碩士在讀,研究方向:網(wǎng)絡(luò)文本挖掘。
作者單位:同濟(jì)大學(xué) 電子與信息工程學(xué)院計(jì)算機(jī)系,上海 201804