王洋
【摘 要】目的:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和智能設(shè)備的普及,電商平臺出現(xiàn)了大量商品評論信息,分析和挖掘商品評論文本的情感,對于研究用戶需求、商品口碑具有極其重要的價(jià)值。方法:文章利用編程語言python獲取電商平臺的商品評論信息,采用算法與人工相結(jié)合的方式,從數(shù)據(jù)預(yù)處理、特征詞表的構(gòu)建、修飾詞表和情感詞表的擴(kuò)充等方面分析商品的評論信息和用戶對相應(yīng)屬性的評價(jià)觀點(diǎn)。結(jié)果:實(shí)現(xiàn)了商品屬性和評價(jià)情感詞的抽取和分類,實(shí)現(xiàn)了商品評論的情感傾向性分析,深入了解用戶需求和產(chǎn)品口碑。局限:依賴情感詞典進(jìn)行情感分析,為取得更加精確的結(jié)果,情感詞典需要不斷完善。
【關(guān)鍵詞】情感分析;產(chǎn)品評論;文本挖掘
【中圖分類號】TP391.1 【文獻(xiàn)標(biāo)識碼】A 【文章編號】1674-0688(2019)05-0130-03
1 背景介紹和研究目的
智能手機(jī)作為最主要的智能移動終端,深刻地影響著人們生活的方方面面。有報(bào)告顯示,2017年上半年,中國手機(jī)市場出貨量達(dá)2.81億部,智能手機(jī)用戶規(guī)模達(dá)到6.55億人[1]。消費(fèi)者面對日益同質(zhì)化的手機(jī)難以選擇,同時(shí)手機(jī)廠商也難以捕捉用戶需求,從而進(jìn)行針對性的產(chǎn)品更新和升級。
情感分析又稱為情感挖掘、意見抽取、傾向性分析,是指通過用戶對某一事件或商品的評論文本進(jìn)行分析、歸納,進(jìn)而發(fā)現(xiàn)其觀點(diǎn)和傾向性情感[2]?;谑謾C(jī)評論文本的情感分析,能有效地解決上述問題,對研究消費(fèi)者需求和推動產(chǎn)品更新?lián)Q代具有積極的指導(dǎo)意義。
2 情感分析方法
(1)數(shù)據(jù)的獲取與預(yù)處理。本文利用編程語言python,從電商平臺“京東商城”抓取了手機(jī)產(chǎn)品的評論文本,包括會員姓名、評價(jià)內(nèi)容、追評內(nèi)容、評價(jià)時(shí)間等字段,考慮到抓取數(shù)據(jù)存在冗余和無效數(shù)據(jù),必須對抓取到的數(shù)據(jù)進(jìn)行預(yù)處理,包括對獲取的數(shù)據(jù)進(jìn)行冗余的刪除、字符的過濾、詞形的轉(zhuǎn)換等,然后借助中文分詞工具Jieba去除停用詞和分詞。
(2)詞典構(gòu)建。本文以中文情感詞匯本體庫為基礎(chǔ)詞典進(jìn)行情感詞典的擴(kuò)建,該詞典由大連理工大學(xué)構(gòu)建。本研究中規(guī)定情感詞的極性取值:-1為貶義、0為中性、1為褒義,以便更好地計(jì)算評論中的情感強(qiáng)度。同時(shí),通過人工添加的方式補(bǔ)充手機(jī)評論領(lǐng)域特定的情感詞并賦予強(qiáng)度值,例如人工添加“發(fā)燙”并賦值為-1,進(jìn)行情感詞典的補(bǔ)充。借鑒高寧[3]對于程度副詞與否定副詞共現(xiàn)的研究,同時(shí)參考施寒瀟[4]、梅莉莉[5]等人的研究,建立情感詞典、程度副詞詞典和否定詞詞典。分詞后的評論文本結(jié)合以上3個詞典計(jì)算出每個屬性的情感傾向。
(3)細(xì)粒度情感計(jì)算模型。計(jì)算情感詞I的情感強(qiáng)度值的公式為I=α×β。其中,α表示情感詞的強(qiáng)度,β表示情感詞的極性值。根據(jù)自定義補(bǔ)充的情感詞典,α的取值為1~7。β的取值為-1、0、1,分別表示負(fù)面情感、中性情感和正面情感。結(jié)合程度副詞、否定詞,將情感詞的情感得分進(jìn)一步優(yōu)化,最終公式為Ei=(-1)γiPiIiMi。其中,Ei為最終情感詞得分,γ為否定詞的數(shù)目,決定情感詞的詞極性。P表示程度副詞的強(qiáng)度,數(shù)值越大,則強(qiáng)度越高。
3 實(shí)證研究
3.1 數(shù)據(jù)收集與處理
本研究通過python從“京東商城”爬取iPhone X、iPhone XR、榮耀Magic2、華為P30 Pro、小米9、OPPO R15x、vivo iQOO、榮耀Play、vivo Z3和榮耀8X 10款手機(jī)的相關(guān)評論,共10 000條評論數(shù)據(jù),在去除重復(fù)評論后共獲得9470條樣本評論數(shù)據(jù)。將抓取的評論內(nèi)容進(jìn)行去停用詞、分詞等預(yù)處理,再運(yùn)用TF-IDF算法進(jìn)行關(guān)鍵詞提取。word2vec詞向量分類結(jié)合人工篩選,抽取歸納手機(jī)屬性和近義詞,并對評論數(shù)據(jù)按手機(jī)屬性計(jì)算情感得分。
3.2 爆款手機(jī)影響因素的建立
詞云圖的制作(如圖1所示),通過對預(yù)處理后的評論文本提取高頻詞,并繪制詞云圖,可以直觀地展示出評論重點(diǎn),有助于手機(jī)特征的總結(jié)歸納。
從詞云圖和高頻詞中歸納消費(fèi)者購買手機(jī)的主要關(guān)注點(diǎn)發(fā)現(xiàn)有七大屬性,并基于word2vec詞向量分類與人工篩選相結(jié)合的方法,抽取七大屬性相關(guān)近義詞。
七大屬性和相關(guān)近義詞部分結(jié)果見表1。
3.3 手機(jī)評論情感分析研究
對所搜集的評論集進(jìn)行情感劃分,計(jì)算每款手機(jī)七大屬性的得分,結(jié)果如圖2所示。
將屬性得分總分結(jié)合各手機(jī)型號的均價(jià),可以把10款手機(jī)劃分為以下3個層次。
第一層次為榮耀Play、榮耀8X、OPPO R15x和vivo Z3,這4款手機(jī)的不同配置均價(jià)在1 600~2 000元的價(jià)格區(qū)間,低于中國信通研究院公布的2018年國內(nèi)市場智能手機(jī)的均價(jià)(2 523元)[6]。該類手機(jī)的特點(diǎn)是“物美價(jià)廉”,以低于2 000元的價(jià)格獲取能保證用戶日常體驗(yàn)的硬件配置,雖然不及各品牌的旗艦機(jī)型,但也區(qū)別于使用感極差的低端手機(jī)。
第二層次為小米9、榮耀Magic2和vivo iQOO。該類手機(jī)的特點(diǎn)是“主打性價(jià)比”,保證在使用頂級硬件設(shè)備的情況下比其他廠商的旗艦機(jī)的價(jià)格更低,以價(jià)格優(yōu)勢獲取部分高端手機(jī)使用者。例如,小米9在各項(xiàng)得分上均保持平均分以上的水平,唯一的短板是其電池容量較小,用戶對其電池續(xù)航有所擔(dān)憂。
第三層次為iPhone X、iPhone XR和華為P30 Pro。這類手機(jī)的特點(diǎn)是“追求極致”。眾所周知,iPhone引領(lǐng)著智能手機(jī)行業(yè)的發(fā)展,推動了指紋解鎖、面部識別等技術(shù)的運(yùn)用,其定價(jià)也從4 000元逐步提升到2018年的上萬元,iPhone具有非常強(qiáng)大的品牌價(jià)值。但是近年來,iPhone創(chuàng)新乏力,在外觀和技術(shù)上都沒有明顯的創(chuàng)新,導(dǎo)致了iPhone在我國的銷量不斷下滑。這也符合邊際效用遞減規(guī)律[7],即iPhone在沒有跨越式發(fā)展的情況下,例行的升級換代已經(jīng)無法打動消費(fèi)者。
作為國產(chǎn)品牌的華為手機(jī)近年來發(fā)展迅速,憑借mate系列和p系列成功占據(jù)高端手機(jī)市場。華為P30 Pro憑借其獨(dú)占一檔的拍攝能力獲得了用戶的廣泛好評,成為華為手機(jī)P系列的核心招牌。在電池續(xù)航和性能方面,華為P30 Pro的得分都處于較高水平,但在屏幕方面的得分較低,這也是被消費(fèi)者廣泛吐槽和質(zhì)疑的,認(rèn)為華為P30 Pro不應(yīng)該配置一塊較低水平的屏幕。
通過上述分析發(fā)現(xiàn),中國智能手機(jī)市場有幾個明顯的特點(diǎn):第一,中國作為發(fā)展中國家,消費(fèi)者的消費(fèi)水平不斷提升,但仍未達(dá)到發(fā)達(dá)國家水平,這就導(dǎo)致消費(fèi)者對于價(jià)格十分敏感,售價(jià)成為消費(fèi)者選擇手機(jī)的重要篩選標(biāo)準(zhǔn)。體現(xiàn)在除iPhone以外的品牌全部都推出了“低價(jià)千元機(jī)”和“性價(jià)比手機(jī)”,以獲取更多的消費(fèi)者。第二,消費(fèi)者對手機(jī)的需求愈發(fā)多樣,從硬件配置到系統(tǒng)流暢度再到拍照能力和電池續(xù)航,用戶對手機(jī)的各個方面都更加挑剔,這也是小米、榮耀等品牌所推行的策略,即“無明顯缺點(diǎn)的水桶機(jī)”,以提高手機(jī)口碑。第三,我國除華為手機(jī)之外,其余手機(jī)的品牌價(jià)值并不突出。對比iPhone,我國僅有華為手機(jī)站在高端手機(jī)市場,不以絕對的性價(jià)比作為核心競爭力。如何提升手機(jī)的品牌價(jià)值,是國內(nèi)手機(jī)廠商必須關(guān)注的一個重要問題。
4 結(jié)語
手機(jī)評論文本中蘊(yùn)含了大量的情感信息,通過對手機(jī)評論文本進(jìn)行情感分析,可以挖掘其中的用戶情感和商業(yè)價(jià)值。本研究對于消費(fèi)者和廠商而言都具有借鑒意義。這一研究方法不局限于手機(jī)行業(yè),也同樣適用于擁有大量用戶評論的其他商業(yè)領(lǐng)域。
同時(shí),本研究也存在不足之處。情感評分依賴于完備的情感詞典,情感詞典需要進(jìn)一步完善。此外,受抓取平臺的限制,與手機(jī)近10萬量級的銷量相比,研究所反映的結(jié)論有限。
參 考 文 獻(xiàn)
[1]中國互聯(lián)網(wǎng)絡(luò)信息中心.第41次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》發(fā)布[EB/OL].http://www.cbdio.com/BigData/2018-02/01/content_5672382.htm,2018-02-01.
[2]李天辰,殷建平.基于主題聚類的情感極性判別方法[J].計(jì)算機(jī)科學(xué)與探索,2016,10(7):989-994.
[3]高寧.現(xiàn)代漢語程度副詞與否定副詞共現(xiàn)的認(rèn)知研究[D].長春:吉林大學(xué),2013.
[4]施寒瀟.細(xì)粒度情感分析研究[D].蘇州:蘇州大學(xué),2013.
[5]梅莉莉,黃河燕,周新宇,等.情感詞典構(gòu)建綜述[J].中文信息學(xué)報(bào),2016,30(5):19-27.
[6]迪信通在云南.中國信通研究院發(fā)布最新報(bào)告:2018國內(nèi)手機(jī)均價(jià)2523元[Z].http://www.sohu.com/a/298428947_401685,2019-03-01.
[7]張昆侖.邊際效用遞減規(guī)律新探[J].天津財(cái)經(jīng)學(xué)院學(xué)報(bào),2004(4):8-10.
[責(zé)任編輯:陳澤琦]