谷瑩 李賀 李葉葉 劉嘉宇
收稿日期:2020-09-08
基金項目:國家自然科學(xué)基金項目“基于圖模型的多源異構(gòu)在線產(chǎn)品評論數(shù)據(jù)融合與知識發(fā)現(xiàn)研究”(項目編號:71974075)。
作者簡介:谷瑩(1991-),女,博士研究生,研究方向:情報分析、數(shù)據(jù)挖掘。李賀(1964-),女,教授,研究方向:數(shù)據(jù)挖掘、知識管理。李葉葉(1994-),女,碩士研究生,研究方向:數(shù)據(jù)挖掘。劉嘉宇(1995-),男,碩士研究生,研究方向:數(shù)據(jù)挖掘。
摘 要:[目的/意義]提出一種基于在線產(chǎn)品評論的競爭情報挖掘框架,為企業(yè)改進產(chǎn)品設(shè)計和制定競爭策略提供參考。[方法/過程]利用Word2vec技術(shù)構(gòu)建產(chǎn)品特征詞集合,識別用戶評論主題特征。然后使用情感分析方法對評論文本進行分類,得到特征維度的評論情感。最后從產(chǎn)品主題特征和情感態(tài)度特征兩方面進行數(shù)據(jù)分析,并以可視化結(jié)果呈現(xiàn)。[結(jié)果/結(jié)論]以汽車行業(yè)的評論數(shù)據(jù)為例進行實驗,結(jié)果表明該方法能夠有效提取產(chǎn)品情報信息,幫助企業(yè)有效識別自身品牌及競爭對手的優(yōu)勢和劣勢,為大數(shù)據(jù)環(huán)境下的競爭情報挖掘提供方法指導(dǎo)。
關(guān)鍵詞:在線評論;企業(yè);競爭情報;數(shù)據(jù)挖掘;Word2vec;情感分析;汽車行業(yè)
DOI:10.3969/j.issn.1008-0821.2021.01.003
〔中圖分類號〕G250.25 〔文獻標識碼〕A 〔文章編號〕1008-0821(2021)01-0024-08
Research on Demand Mining of Enterprise Competitive
Intelligence Based on Online Reviews
Gu Ying Li He Li Yeye Liu Jiayu
(School of Management,Jilin University,Changchun 130022,China)
Abstract:[Purpose/Significance]This paper proposes a competitive intelligence mining framework based on online product reviews,for the aim of providing a reference for companies to improve product design and formulate competitive strategies.[Method/Process]Word2vec was used to construct product feature word collections to identify user comment topic features.Then,the paper applied sentiment analysis methods to classify review texts and obtain review sentiment in feature dimensions.Finally,this paper took the review data of automobile industry as an example,and presented the visualization results.[Result/Conclusion]The experimental results showed that the method could effectively extract product information,help companies effectively identify the advantages and disadvantages of their own brands and competitors,and provide method guidance for competitive intelligence mining in a big data environment.
Key words:online product reviews;enterprise;competitive Intelligence;data mining;Word2vec;sentiment analysis;automobile industry
隨著Web技術(shù)的迅速發(fā)展和信息化的廣泛應(yīng)用,人們信息交流和信息獲取的方式發(fā)生了顯著變化。據(jù)CNNIC的第45次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》顯示,截至2020年3月,中國網(wǎng)民規(guī)模為9.04億,互聯(lián)網(wǎng)普及率64.5%,較2018年底提升4.9個百分點[1]?;ヂ?lián)網(wǎng)環(huán)境下,越來越多的消費者傾向于通過網(wǎng)絡(luò)平臺分享關(guān)于產(chǎn)品的使用體驗和看法,這些評論以文本的形式傳播,從而形成網(wǎng)絡(luò)口碑。作為網(wǎng)絡(luò)口碑的主要來源,在線評論體現(xiàn)出消費者對產(chǎn)品質(zhì)量的情感評價。研究表明,在線產(chǎn)品評論會影響消費者的品牌認知,從而影響其決策行為[2]。同時企業(yè)市場競爭日趨激烈,產(chǎn)品同質(zhì)化嚴重,在線評論作為一種新型情報源,挖掘評論中潛在的價值,有助于企業(yè)經(jīng)營管理和建立良好的品牌形象[3]?;ヂ?lián)網(wǎng)平臺為企業(yè)提供了開放的信息渠道,通過獲取用戶反饋信息,企業(yè)可以進行自我分析與競爭對手分析,從而改進產(chǎn)品設(shè)計,制定正確的市場競爭策略[4]。然而在線產(chǎn)品評論數(shù)量巨大,多以非結(jié)構(gòu)化文本呈現(xiàn),傳統(tǒng)分析方法難以適用,如何從海量的評論中提取高質(zhì)量的信息成為亟需解決的問題。鑒于此,本文提出一種面向在線產(chǎn)品評論的競爭情報需求挖掘框架,采用深度學(xué)習(xí)技術(shù)和情感分析方法,從用戶視角細粒度挖掘企業(yè)情報。
1 相關(guān)研究
1.1 在線評論特征詞抽取研究
特征是用戶評論語句中粒度最細的評價單元,產(chǎn)品特征主要表現(xiàn)為消費者對某一產(chǎn)品功能、組成部件及屬性的關(guān)注程度。產(chǎn)品特征抽取作為研究在線評論挖掘的關(guān)鍵技術(shù),特征抽取的準確性直接影響評論挖掘的效果。關(guān)于產(chǎn)品關(guān)鍵詞抽取,學(xué)者們已經(jīng)積累了不少研究成果。Hu M等最早提出結(jié)合詞頻和關(guān)聯(lián)規(guī)則方法從產(chǎn)品評論中抽取候選關(guān)鍵詞,并使用剪枝過濾算法識別出評價對象及其功能特征[5]。Quan C等在產(chǎn)品特征提取研究中,將互信息法引入Tf-idf算法中,設(shè)計新的相似性度量方法用以評估候選對象與領(lǐng)域?qū)嶓w關(guān)系,據(jù)此實現(xiàn)無監(jiān)督的抽取方法[6]。王娟等結(jié)合句法結(jié)構(gòu)和依存關(guān)系抽取情感評價單元,完成了領(lǐng)域情感評價對象的自動抽取,提高了情感傾向計算的準確性[7]。彭云等利用句法分析和詞義理解獲取語義關(guān)系,提出SRC-LDA主題模型,挖掘特征詞與情感詞語義相關(guān)性,實現(xiàn)語義約束下的細粒度主題特征抽取[8]。王榮洋等基于條件隨機場模型,引入語義角色標注方法,捕獲評價對象和情感詞的關(guān)系,用于評價對象的抽取[9]。已有研究主要通過詞頻規(guī)則或主題模型提取產(chǎn)品特征,然而這些方法沒有考慮詞語信息的深層語義聯(lián)系。
近年來,隨著深度學(xué)習(xí)技術(shù)的出現(xiàn),神經(jīng)網(wǎng)絡(luò)模型在情感分析領(lǐng)域逐漸受到關(guān)注。相比其他模型,Word2vec以無監(jiān)督的方式從海量評論語料中學(xué)習(xí)詞語的向量表示,不需要人工標注和復(fù)雜的特征工程[10],因而很多學(xué)者將Word2vec詞表征方法引入關(guān)鍵詞抽取研究中。如Poria S等結(jié)合詞嵌入和卷積神經(jīng)網(wǎng)絡(luò)模型,提出基于深度學(xué)習(xí)方面的提取方法,改善了關(guān)鍵詞的抽取性能[11]。寧建飛等將詞向量模型引入Textrank算法中,依據(jù)詞匯相似度和鄰接關(guān)系構(gòu)建概率矩陣,實現(xiàn)詞圖迭代的關(guān)鍵詞抽取方法[12]。文秀賢等在商品特征提取任務(wù)中,利用Word2vec模型對評論關(guān)鍵詞向量化,采用K-means聚類算法確定商品維度,提升了用戶偏好挖掘的準確性[13]。綜上可知,與傳統(tǒng)的關(guān)鍵詞抽取方法相比,Word2vec模型能夠表達豐富的語境信息,更適合于關(guān)鍵詞抽取。
1.2 在線評論與競爭情報挖掘研究
互聯(lián)網(wǎng)技術(shù)的發(fā)展帶來口碑傳播方式的變化。在線評論作為新型口碑傳播方式,是企業(yè)獲取消費者意見反饋的重要信息來源和途徑,對企業(yè)開展競爭情報工作具有重要意義。如何從在線評論中挖掘潛在的規(guī)律是競爭情報領(lǐng)域的重點關(guān)注問題。
目前,國內(nèi)外學(xué)者已對競爭企業(yè)的在線評論挖掘進行了大量研究。國外學(xué)者研究主要集中在商業(yè)情報價值分析方面。Zhang W等以客戶評論反饋意見為數(shù)據(jù)集,利用情感分析系統(tǒng)挖掘產(chǎn)品評價語句的情感極性,從而識別出影響用戶滿意度的因素[14]。He W等通過收集競爭對手的評論數(shù)據(jù),提出基于情感基準的社交媒體競爭分析框架,以增強企業(yè)營銷情報并進一步改善客戶體驗[15]。Xu K等利用亞馬遜評論數(shù)據(jù),提出圖模型方法從用戶評論中挖掘產(chǎn)品比較關(guān)系并可視化,以幫助企業(yè)進行風(fēng)險管理和提供決策支持[16]。Xu X等將文本挖掘方法和LSA模型應(yīng)用于酒店用戶評論中,從消費者滿意度的角度挖掘用戶對產(chǎn)品的評價,從而改進企業(yè)的市場定位和營銷策略[17]。He W等以社交網(wǎng)站的比薩連鎖店為研究案例,利用文本挖掘和價值分析方法,深入挖掘不同連鎖店的用戶偏好,有效地評估了不同企業(yè)的競爭環(huán)境[18]。
國內(nèi)學(xué)者更注重探索情感分析和機器學(xué)習(xí)技術(shù)在產(chǎn)品競爭情報領(lǐng)域的應(yīng)用。翟東升等爬取手機評論數(shù)據(jù),通過構(gòu)建情感詞典的方法挖掘企業(yè)競爭情報,分析競爭產(chǎn)品的優(yōu)勢及需要改進的方向[19]。張洋等提出基于多源用戶評論數(shù)據(jù)的競爭情報模型,從內(nèi)容分析、情感分析和共現(xiàn)分析角度挖掘用戶評論數(shù)據(jù),從而幫助企業(yè)確定產(chǎn)品競爭領(lǐng)域[20]。肖璐等利用信息抽取技術(shù)和情感分析技術(shù)對本企業(yè)產(chǎn)品特征進行優(yōu)劣勢分析,并根據(jù)產(chǎn)品相似度算法識別出企業(yè)競爭對手[21]。聶卉等利用機器學(xué)習(xí)方法對餐飲業(yè)的在線評論數(shù)據(jù)進行挖掘,實現(xiàn)了企業(yè)細粒度的競爭情報獲取[22]。王樹義等提出將情感分類和LDA主題模型結(jié)合的方法,對企業(yè)新聞評論進行分析,識別出不同企業(yè)新聞的關(guān)注重點,提高了主題抽取的效率[23]。陳元等以競爭情報工作流程為出發(fā)點,利用SVM和SO-LSA算法對用戶評論數(shù)據(jù)進行情感分析,進而獲取企業(yè)產(chǎn)品情報[24]。
通過文獻梳理可以發(fā)現(xiàn),國內(nèi)外關(guān)于競爭情報的研究傾向于和情感分析相結(jié)合,但現(xiàn)有研究存在情感分析粒度不夠細致、產(chǎn)品特征提取方法較為簡單等問題。而企業(yè)產(chǎn)品特征的情報挖掘更適合細粒度情感分析[25]。因此,本文以細粒度情感分析為出發(fā)點,提出基于在線產(chǎn)品評論的企業(yè)競爭情報分析框架,以汽車品牌的評論數(shù)據(jù)為數(shù)據(jù)源,結(jié)合詞向量技術(shù)和自然語言處理技術(shù),挖掘競爭企業(yè)產(chǎn)品情報,為企業(yè)品牌營銷和戰(zhàn)略定位提供參考。
2 基于在線產(chǎn)品評論的競爭情報挖掘框架
為了準確、高效地獲取企業(yè)情報信息,本研究基于Word2vec構(gòu)建了一個在線產(chǎn)品評論競爭情報挖掘框架,具體任務(wù)包括:①通過爬蟲技術(shù)抓取競爭企業(yè)的在線評論文本并進行預(yù)處理,形成實驗數(shù)據(jù)集;②對處理后的文本抽取產(chǎn)品關(guān)鍵詞,借助Word2vec學(xué)習(xí)特征詞在專業(yè)領(lǐng)域的向量表達,得到產(chǎn)品特征指標詞集合;③利用深度學(xué)習(xí)情感分類模型獲取情感標簽,根據(jù)特征維度匯聚產(chǎn)品評論情感;④根據(jù)競爭企業(yè)評論挖掘結(jié)果進行可視化分析。
2.1 在線產(chǎn)品評論數(shù)據(jù)獲取與處理
本文以專業(yè)社交媒體測評網(wǎng)站為數(shù)據(jù)來源。為了全面獲取用戶評論數(shù)據(jù),實驗通過Python制定相應(yīng)規(guī)則抓取汽車評論文本。抓取的記錄包括評論內(nèi)容、用戶名、評論時間、產(chǎn)品類型等字段,將采集到的數(shù)據(jù)存放于Excel文件中保存,提取評論內(nèi)容字段信息,作為評論語料。為確保數(shù)據(jù)分析的質(zhì)量,需要清理噪音數(shù)據(jù),去除與評論主題無關(guān)的廣告信息和重復(fù)評論記錄。分詞是自然語言處理的基礎(chǔ)工作,由于Jieba分詞簡單易用,對中文文本處理效果較好,所以本研究使用該工具對實驗數(shù)據(jù)集進行分詞和詞性標注。為提高分詞準確性,根據(jù)初始分詞結(jié)果和領(lǐng)域詞典構(gòu)建自定義詞典,并加載停用詞表,去除與產(chǎn)品特征和情感表達無關(guān)的詞語,為后續(xù)的分析做準備。
2.2 基于詞向量的特征提取
Word2vec是由Mikolov T等提出的一種詞語語義計算工具[26],通過神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練模型,然后將詞語轉(zhuǎn)化為詞向量,映射到高維空間中進行向量運算,從而預(yù)測與其語義相關(guān)的詞語。Word2vec包含兩種模型:CBOW模型和Skip-gram模型。CBOW模型是通過周圍詞預(yù)測當(dāng)前詞語概率;而Skip-gram模型則依據(jù)當(dāng)前詞預(yù)測周圍詞語的概率。由于Skip-gram模型對低頻詞匯處理具有優(yōu)勢[27],因此本文采用Skip-gram模型進行訓(xùn)練,模型主要由輸入層、投影層、輸出層組成,其結(jié)構(gòu)如圖2所示。
Skip-gram模型主要通過隨機梯度下降算法訓(xùn)練目標函數(shù),模型目標是根據(jù)當(dāng)前詞語預(yù)測上下文的信息。模型訓(xùn)練完成后,可以獲得詞語的向量表示,詞語之間的相似度通過余弦距離來衡量。語義相似度的計算公式為:
Semantic_similarity=cosθ=u·vu·v(1)
其中,u和v分別表示兩個詞匯的詞向量,語義相似度的取值為[0,1]。
產(chǎn)品特征抽取是用戶評論挖掘的基礎(chǔ),同時在企業(yè)競爭情報挖掘環(huán)節(jié)起著關(guān)鍵作用,故本文采用Word2vec詞向量聚類的方法構(gòu)建產(chǎn)品特征詞集,產(chǎn)品特征詞集構(gòu)建步驟如下:
1)初始特征詞匯選取。對經(jīng)過預(yù)處理后評論文本中的名詞和動詞詞頻進行統(tǒng)計,選取高頻詞語作為種子詞語,然后將詞義相同的特征詞進行歸類,形成初始產(chǎn)品特征指標詞集。
2)詞向量訓(xùn)練。利用Gensim庫的Word2vec工具對分詞后的評論語料進行訓(xùn)練,可以得到詞向量模型以及相應(yīng)維度的詞語向量表示。上下文窗口距離和向量空間維度是模型訓(xùn)練的重要參數(shù),窗口越大,涉及的語境信息越多,向量表征效果越好。本文將上下文窗口距離設(shè)為5,詞語向量維度500。
3)產(chǎn)品特征詞集構(gòu)建。為了全面獲取產(chǎn)品特征,使用Word2vec模型計算評論集中詞語與初始指標詞語的夾角余弦值,選取相似度較高的若干詞語作為候選特征詞,完成產(chǎn)品特征詞庫的擴充。
2.3 評論情感分類
使用基于深度學(xué)習(xí)的情感自動分類模型,對汽車評論文本進行情感分類。獲取評論數(shù)據(jù)集的評價短語,這些短語經(jīng)過模型處理后,每一個評價短語會被標記為帶有正負極性的情感標簽。
本文借助百度AI開放平臺提供的深度語義情感分析模型對評論文本進行細粒度情感分析。首先運用Python語言獲取Access Token,然后調(diào)用AIPNLP模塊,對輸入的文本進行循環(huán)處理,最終輸出評論情感標簽及評論情感極性。Senta情感分析系統(tǒng)是基于大規(guī)模評論語料進行訓(xùn)練,能夠?qū)斎胛谋具M行語義理解,并基于語義表示進行情感傾向判斷,情感分類準確度較高。
2.4 情感值量化與可視化分析
針對抽取的特征-評價短語,按產(chǎn)品屬性匯聚評價情感詞,統(tǒng)計用戶對同一屬性的情感傾向,實現(xiàn)用戶情感的量化分析。通過特征-評價短語的匯聚,得到不同品牌用戶關(guān)注特征的正面評論和負面評論比例分布,有助于企業(yè)從用戶角度獲取有價值的信息,從而識別品牌特征優(yōu)劣,更好地改進產(chǎn)品設(shè)計以滿足用戶需求。
3 實驗過程及結(jié)果分析
3.1 實驗數(shù)據(jù)來源
太平洋汽車網(wǎng)是國內(nèi)專業(yè)的汽車測評網(wǎng)站,網(wǎng)站具有覆蓋范圍廣、專業(yè)性強、商業(yè)化程度低等特點,網(wǎng)站的評論內(nèi)容能夠真實反映用戶見解和情感信息。本文以太平洋汽車網(wǎng)為研究對象,利用數(shù)據(jù)挖掘方法,實現(xiàn)競爭情報信息的獲取。根據(jù)品牌知名度和產(chǎn)品綜合排名,選取桑塔納和卡羅拉兩個品牌作為研究樣本,利用Python編程抓取研究數(shù)據(jù),截止時間為2020年5月25日,共采集9 139條評論語料,經(jīng)數(shù)據(jù)清洗后得到實驗數(shù)據(jù)集。借助Jieba函數(shù)對實驗文本進行分詞處理,同時加入自定義詞表和停用詞表,得到最終分詞結(jié)果。
3.2 產(chǎn)品特征指標提取和分類
針對汽車評論數(shù)據(jù)集,根據(jù)句法規(guī)則對其進行標注,按照標注結(jié)果選取評論中的動詞和名詞作為備選產(chǎn)品特征指標詞,選取詞頻統(tǒng)計排名前100的詞為產(chǎn)品特征指標詞。由于存在非領(lǐng)域特征詞,需要人工對其進行篩選,將篩選后的詞語進行分類,對同義詞進行合并,作為產(chǎn)品特征種子詞;將分詞后的評論文本作為Word2vec的輸入語料,借助Gensim庫的Word2vec函數(shù)訓(xùn)練生成詞向量文件,利用相似度函數(shù),計算種子詞語的相似特征詞。產(chǎn)品指標詞的詞向量結(jié)果如表1所示。以指標詞“造型”為例,相似度排名前30的詞語如表2所示。按照上述方法,擴充種子詞匯,形成最終產(chǎn)品特征詞集,如表3所示。
3.3 競爭情報挖掘結(jié)果分析
本研究共獲得80 285條特征-情感詞對,通過用戶評論挖掘,將產(chǎn)品主題特征劃分為9個維度。根據(jù)產(chǎn)品特征詞分類結(jié)果,計算用戶對產(chǎn)品特征的關(guān)注程度;將產(chǎn)品特征和用戶評論情感匯聚,計算不同主題特征的用戶情感,實現(xiàn)用戶評論細粒度情感分析。
3.3.1 產(chǎn)品關(guān)注特征對比分析
圖3顯示了用戶對兩個品牌產(chǎn)品特征的關(guān)注情況分布。可以看出,用戶對桑塔納和卡羅拉的產(chǎn)品關(guān)注特征基本一致,主要體現(xiàn)在空間、舒適性、外觀、性價比、動力方面。不同的是,在空間和性價比特征上,用戶對卡羅拉的關(guān)注程度明顯高于桑塔納;而在動力和系統(tǒng)方面,用戶對桑塔納的關(guān)注程度較高。說明對于某一產(chǎn)品特征,用戶對不同品牌的關(guān)注程度有所不同??傮w而言,企業(yè)應(yīng)準確把握和評估用戶產(chǎn)品關(guān)注特征,確定企業(yè)品牌的重點發(fā)展方面,找到產(chǎn)品創(chuàng)新點,以吸引更多的用戶。
3.3.2 品牌情感特征對比分析
根據(jù)情感分類結(jié)果,計算用戶情感極性,繪制品牌情感特征柱形圖。根據(jù)圖4可知,該品牌汽車在外觀、空間、操控等方面好評率占比較高,用戶認可度較大,因此這些特征可以作為該品牌營銷的優(yōu)勢和亮點,從而使產(chǎn)品更加具有競爭力。但是在動力特征上,品牌負面評價占比較大。大部分用戶對產(chǎn)品動力表現(xiàn)不滿意,動力性差是消費者對產(chǎn)品使用的整體感受,是產(chǎn)品營銷的劣勢,不利于產(chǎn)品的競爭,設(shè)計人員應(yīng)重點對動力特征進行改進。而內(nèi)飾和舒適性屬性用戶滿意度一般,沒有明顯態(tài)度傾向,說明這兩個屬性是企業(yè)繼續(xù)努力提升的兩個產(chǎn)品特征。
圖5為卡羅拉用戶評論情感量化結(jié)果??梢钥闯觯撈放飘a(chǎn)品“空間”屬性的用戶正面評價比例最高,大多數(shù)關(guān)于空間的評價是空間寬敞、儲物空間豐富、容量足等,說明用戶對該品牌的空間特征很滿意。但產(chǎn)品舒適性方面評分較低,主要體現(xiàn)在隔音效果不好、胎噪聲大、乘坐不舒適等,研究人員應(yīng)予以重視。而系統(tǒng)配置的好評率最低,說明用戶對產(chǎn)品配置最為不滿,配置不足是該品牌的痛點所在,企業(yè)應(yīng)盡快對痛點問題進行改進。
綜上可以看出,桑塔納在外觀、操控、油耗方面優(yōu)勢較為突出,用戶整體評價表現(xiàn)為高認可度,但用戶對系統(tǒng)配置較為不滿;卡羅拉在外觀和操控上用戶滿意度也較高,而油耗特征的表現(xiàn)不如桑塔納突出,但內(nèi)飾和系統(tǒng)配置方面比桑塔納更具有吸引力。根據(jù)以上分析可知,兩個品牌在外觀和操控方面整體好評率較高,表明獲得了用戶普遍認可,而系統(tǒng)配置特征都顯示出低滿意度,說明企業(yè)應(yīng)注重產(chǎn)品機械部件等硬件方面性能的提升。不同企業(yè)品牌在產(chǎn)品特征方面各有優(yōu)劣,企業(yè)應(yīng)針對自身的優(yōu)劣對產(chǎn)品進行改進,在了解競爭對手的產(chǎn)品特征情況下,保持自己的優(yōu)勢特征,改進劣勢特征,對企業(yè)的長久發(fā)展具有重要作用。
3.3.3 品牌服務(wù)特征對比分析
根據(jù)關(guān)鍵詞抽取結(jié)果,將產(chǎn)品評論服務(wù)特征分為3類,分別為售后維修、故障情況和服務(wù)態(tài)度。根據(jù)服務(wù)特征詞分類表,利用Excel對用戶評論數(shù)量進行統(tǒng)計,計算產(chǎn)品服務(wù)特征的用戶關(guān)注度,產(chǎn)品服務(wù)特征的評論占比統(tǒng)計結(jié)果如圖6所示。
從圖6可以看出,桑塔納售后維修的評論占比最高,服務(wù)態(tài)度和故障情況的評論占比相對較低,僅占據(jù)服務(wù)特征總體評論的1/4;對卡羅拉而言,用戶對故障情況的討論明顯高于服務(wù)態(tài)度和售后維修,并且用戶對服務(wù)態(tài)度的討論最少。綜上可知,在服務(wù)特征評論中,售后維修和故障情況是兩個品牌的關(guān)注重點,企業(yè)應(yīng)加強對產(chǎn)品服務(wù)質(zhì)量的改進。
3.3.4 細粒度評價對比分析
圖7顯示了用戶關(guān)于動力屬性的細粒度評價統(tǒng)計分布。由圖7可知,動力屬性評價主要包括超車、起步、加速、提速和動力性等方面。從評論中可以看出,正面評價主要表現(xiàn)為提速效果好、起步輕松、加速能力出眾、動力表現(xiàn)優(yōu)秀、超車迅速。而負面評價表現(xiàn)為超車困難、加速能力弱、提速表現(xiàn)不好、起步速度慢、動力性差。由此可知,用戶關(guān)于動力特征的關(guān)注方面較為集中,動力能力的提升對企業(yè)來說至關(guān)重要,有利于企業(yè)口碑的改善,塑造良好企業(yè)形象,從而提高消費者的滿意度。
4 結(jié)束語
網(wǎng)絡(luò)評論日益豐富,大數(shù)據(jù)環(huán)境下的競爭情報挖掘具有重要理論意義和應(yīng)用價值。本文以社交媒體評論數(shù)據(jù)為研究對象,提出一種面向在線產(chǎn)品評論的競爭情報挖掘框架,該框架綜合運用自然語言處理技術(shù)和深度學(xué)習(xí)技術(shù),從用戶關(guān)注度和滿意度兩方面對產(chǎn)品評論數(shù)據(jù)進行分析,通過Word2vec構(gòu)建產(chǎn)品特征詞庫,實現(xiàn)產(chǎn)品特征詞聚類;并在此基礎(chǔ)上分析用戶情感傾向,據(jù)此實現(xiàn)細粒度情感分析。為驗證模型可行性,以桑塔納和卡羅拉兩個競爭品牌作為研究案例進行實驗分析。依據(jù)實驗結(jié)果,本文提出的模型和方法是有效的,運用這種方法可以將用戶生成內(nèi)容轉(zhuǎn)化為有價值的情報,幫助企業(yè)系統(tǒng)分析自身品牌及競爭對手的優(yōu)勢和劣勢,從而為產(chǎn)品改進和戰(zhàn)略規(guī)劃提供決策依據(jù)。本研究也存在一些不足:本文僅利用產(chǎn)品評論內(nèi)容數(shù)據(jù)進行分析,沒有考慮到時間因素和其他形式數(shù)據(jù);研究框架有待完善,情感分類算法還需進一步優(yōu)化,未來研究將考慮利用多平臺數(shù)據(jù)進行深入分析。
參考文獻
[1]中國互聯(lián)網(wǎng)絡(luò)信息中心.第45次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/202004/P020200428596599037028.pdf,2020-05-25.
[2]Hu N,Liu L,Zhang J J.Do Online Reviews Affect Product Sales?The Role of Reviewer Characteristics and Temporal Effects[J].Information Technology & Management,2008,9(3):201-214.
[3]王仁武,宋家怡,陳川寶.基于Word2vec的情感分析在品牌認知中的應(yīng)用研究[J].圖書情報工作,2017,61(22):6-12.
[4]周珍妮,黃曉斌.網(wǎng)絡(luò)用戶評論在企業(yè)競爭情報研究中的應(yīng)用[J].情報理論與實踐,2012,35(5):15-20.
[5]Hu M,Liu B.Mining and Summarizing Customer Reviews[C]//Tenth Acm Sigkdd International Conference on Knowledge Discovery & Data Mining.ACM,2004.
[6]Quan C,Ren F.Unsupervised Product Feature Extraction for Feature-oriented Opinion Determination[J].Information Ences,2014,272:16-28.
[7 ]王娟,曹樹金,謝建國.基于短語句法結(jié)構(gòu)和依存句法分析的情感評價單元抽取[J].情報理論與實踐,2017,40(3):107-113.
[8]彭云,萬常選,江騰蛟,等.基于語義約束LDA的商品特征和情感詞提取[J].軟件學(xué)報,2017,28(3):676-693.
[9]王榮洋,鞠久朋,李壽山,等.基于CRFs的評價對象抽取特征研究[J].中文信息學(xué)報,2012,26(2):56-61.
[10]李楓林,柯佳.詞向量語義表示研究進展[J].情報科學(xué),2019,37(5):155-165.
[11]Poria S,Cambria E,Gelbukh A,et al.Aspect Extraction for Opinion Mining with a Deep Convolutional Neural Network[J].Knowledge Based Systems,2016:42-49.
[12]寧建飛,劉降珍.融合Word2vec與TextRank的關(guān)鍵詞抽取研究[J].現(xiàn)代圖書情報技術(shù),2016,(6):20-27.
[13]文秀賢,徐健.基于用戶評論的商品特征提取及特征價格研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(7):42-51.
[14]Zhang W,Xu H,Wan W.Weakness Finder:Find Product Weakness from Chinese Reviews By Using Aspects Based Sentiment Analysis[J].Expert Systems with Applications,2012,39(11):10283-10291.
[15]He W,Wu H,Yan G,et al.A Novel Social Media Competitive Analytics Framework with Sentiment Benchmarks[J].Information & Management,2015,52(7):801-812.
[16]Xu K,Liao S S,Li J,et al.Mining Comparative Opinions from Customer Reviews for Competitive Intelligence[J].Decision Support Systems,2011,50(4):743-754.
[17]Xu X,Wang X,Li Y,et al.Business Intelligence in Online Customer Textual Reviews:Understanding Consumer Perceptions and Influential Factors[J].International Journal of Information Management,2017,37(6):673-683.
[18]He W,Zha S,Li L.Social Media Competitive Analysis and Text Mining:A Case Study in the Pizza Industry[J].International Journal of Information Management,2013,33(3):464-472.
[19]翟東升,徐穎,黃魯成.基于產(chǎn)品評論挖掘的競爭產(chǎn)品優(yōu)勢分析[J].情報雜志,2013,32(2):45-51.
[20]張洋,凌婉陽.基于多源社會化媒體評論的競爭情報挖掘研究[J].情報理論與實踐,2015,38(7):59-66.
[21]肖璐,陳果,劉繼云.基于情感分析的企業(yè)產(chǎn)品級競爭對手識別研究——以用戶評論為數(shù)據(jù)源[J].圖書情報工作,2016,60(1):83-90.
[22]聶卉,李通,何歡,等.基于在線評論的商業(yè)競爭情報自動獲取[J].情報雜志,2018,37(10):167-173.
[23]王樹義,廖樺濤,吳查科.基于情感分類的競爭企業(yè)新聞文本主題挖掘[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(3):70-78.
[24]陳元,趙靜.基于WEB用戶產(chǎn)品評論的企業(yè)競爭情報挖掘?qū)嵶C研究[J].情報科學(xué),2016,34(4):80-85.
[25]唐曉波,劉廣超.細粒度情感分析研究綜述[J].圖書情報工作,2017,61(5):132-140.
[26]Mikolov T,Sutskever I,Chen K,et al.Distributed Representations of Words and Phrases and Their Compositionality[C]//Advances in Neural Information Processing Systems,2013:3111-3119.
[27]王仁武,陳川寶,孟現(xiàn)茹.基于詞向量擴展的學(xué)術(shù)資源語義檢索技術(shù)[J].圖書情報工作,2018,62(19):111-119.
(責(zé)任編輯:郭沫含)