閆洲
【摘 要】本文是對抓取到的6131條某電商平臺上的某品牌面膜的消費者評論數據做文本挖掘分析。第一步是對抓取到的評論數據進行基本的數據預處理、中文分詞;接下來通過建立語義網絡和LDA主題模型等數據挖掘模型,實現對文本評論數據的情感傾向性分析以及對其所隱藏信息的挖掘分析,得到有價值的潛在內容;最后提出相應的可行性的建議。
【關鍵詞】文本挖掘;電商平臺
一、引言
隨著中國互聯網經濟的發(fā)展,在“互聯網+”的背景下,電子商務得到了快速發(fā)展,網上購物在中國越來越流行。人們在工作和生活之余對于網上購物的需求變得越來越多樣化,這樣的發(fā)展狀況給天貓、京東等電商平臺帶來了很好的發(fā)展機遇,但是與此同時,多樣化的需求也推動了更多電商平臺的崛起,引發(fā)了更為激烈的競爭。在電商平臺這樣激烈競爭的大背景下,除了提高商品的質量、壓低商品的價格和合適的營銷手段外,了解更多消費者的心聲、發(fā)現商品痛點對于電商平臺來說也變得越來越有必要。而這其中最為有效的方式就是利用消費者的文本評論數據,進行潛在信息的一種數據挖掘分析工作,這對于電商平臺以及產品都會有很大的意義。
二、研究目的與方法
本文選取了某電商平臺上的某品牌面膜作為研究對象,抓取了2017年1月至2017年6月6個月共計6131條消費者評論數據做文本挖掘分析。預期得到的目標如下:(1)分析產品評論的用戶情感傾向;(2)從評論文本數據中挖掘出該品牌的優(yōu)點與不足。
本文的研究主要分為以下3個步驟:(1)對抓取的數據進行基本的操作處理,包括數據預處理、中文分詞等操作;(2)文本評論數據經過處理后,運用多種手段對評論數據進行多方面的分析;(3)從對應結果的分析中獲取文本評論數據中有價值的內容。
三、研究過程
(一)評論預處理
文本評論數據里面存在大量價值含量很低甚至沒有價值含量的條目,如果將這些無價值的數據也進行分詞、詞頻統(tǒng)計甚至情感分析,會對分析造成很大的影響,得到的分析結果也會存在問題。那么在利用這些文本評論數據之前就必須先進行文本預處理,把大量的諸如此類的無價值含量的評論數據去除。
對這些文本評論數據的預處理主要由三個部分組成:文本去重、機械壓縮去詞以及短句刪除。
1.文本去重
本文采用一些相對簡單的文本去重思路。由于相近的評論語句存在了不少是有用的評論,去除掉這類語句當然是不合適的。那么為了保存足夠多的有用語料,就只能針對于完全重復的語句進行處理。因此,處理這樣的完全重復的語句,直接采用最方便的比較刪除法,即兩兩對比,如果完全相同就去除的方法。
2.機械壓縮去詞
機械壓縮去詞實際上要處理的語句就是評論語句中有連續(xù)累贅重復的部分,從一般的評論偏好角度來講,一般人制造無意義的連續(xù)重復只會在開頭和結果進行,如“為什么為什么為什么快遞這么慢?!”和“效果很好很好很好”。因此我們只對評論文本開頭和結尾的連續(xù)重復進行機械壓縮去詞的處理。
連續(xù)累贅重復的判斷可通過建立兩個存放國際字符的列表來完成,先放第一個列表,再放第二個列表,一個個讀取國際字符,并按照不同情況,將其放入第一或第二個列表或觸發(fā)壓縮判斷,若得出重復(及列表1與列表2有意義的部分完全一對一相同)則壓縮去除,這樣當然就要有相關的放置判斷及壓縮規(guī)則。在機械壓縮去詞處理的連續(xù)累贅重復的判斷及壓縮規(guī)則設定的時候,必然要考慮到詞法結構的問題。
3.短句刪除
完成機械壓縮去詞的操作后,需要進行短句刪除。雖然精簡的敘述在一些時候是一種很良好的習慣,但是由語言的特點可知,從根本上說,字數越少其所能夠表達出的意義就會越少。想表達特定的意思就需要有相應數量的字數,太少的字數的評論語句必然是沒有意義的評論。比如三個字,就只能表達諸如“質量差”、“很不錯”等等?;谝陨显?,我們需要刪除掉這些過短且沒有意義的文本評論。
顯然,短句刪除中最重要的環(huán)節(jié)就是保留評論的字數下限的確定。因為這個操作沒有明確的固定標準,只能結合實際語句來確定。一般6到10個國際字符是較為合理的下限,本文我們設定下限為7個國際字符,即經過機械壓縮去詞之后得到的語句若小于等于6個國際字符,則將該語句刪除。
(二)文本評論分詞
在中文語句中,通過分界符只能對字、句和段落進行簡單的劃分,而對于“詞”或者說“詞組”來講,它們之間的邊界非常模糊,沒有一個真正嚴格意義上的分界符,不容易劃分。所以,在對文本評論數據進行挖掘分析時,要對這些文本數據進行分詞,將連續(xù)的字序列按照一定的規(guī)范重新排列組合成一個詞序列。
三、模型構建分析
(一)情感傾向性分析
為了分析消費者對一件產品的總體情感傾向,我們可以對該商品的評論數據集做情感傾向分析,以此得到對商品的總體印象。本文是基于詞向量和深度學習方法對評論數據集做情感傾向性分析。
評論集子集的標注與映射。利用詞向量構建的結果,我們進行評論集子集的人工標注,正面評論標為1,負面評論標記為2。然后我們將每條評論映射為一個向量,將分詞后評論中的所有詞語對應的詞向量相加做平均,使得一條評論對應一個向量。由于數據量過大,純人工標注需要耗費大量時間,所以這里我們仍然使用ROSTCM6軟件情感分析的功能進行評論數據集的正負面標注。
(二)基于語義網絡的評論分析
使用語義網絡對評論進行進一步的分析,通過語言關系構建有利于濾取產品的獨有優(yōu)勢、各產品抱怨點以及顧客購買原因等,并結合以上分析對品牌產品的改進提出建議。要進行語義網絡分析,首先我們要分別對兩大組重新進行分詞處理,并提取出高頻詞。因為只有高頻詞之間的語義聯系才是真正有意義的,個性化詞語間關系不具代表性。然后在此基礎上過濾掉顯著的無意義的成分,減少分析干擾。最后再抽取行特征,處理完后便可進行兩組的語義網絡的構建。endprint
(三)基于LDA模型的主題分析
基于語義網絡的評論分析進行初步數據感知后,我們從統(tǒng)計學的角度,對主題的特征詞出現頻率進行量化表示。本文使用機器標注來將文本分為正面和負面評論數據,仍然采用ROSTCM6中的情感分析做機器分類,生成“正面情感結果”、“負面情感結果”和“中性情感結果”,我們不處理“中性情感結果”,直接對“正面情感結果”和“負面情感結果”數據進行LDA主題分析。
由ROSTCM6進行情感分析得到的數據還包含每條評論的評分前綴,因此,我們需要刪除前綴評分。由于文本數據是用unicode進行編碼,在處理前,需要另存為UTF-8編碼再進行前綴評分刪除。刪除評分前綴后,要進行文本分詞。在經過LDA主題分析后,評論被分為三個主題,每個主題下生成10個最有可能出現的詞語,下表表示了正面評論文本的潛在主題和負面評論文本的潛在主題。
根據正面評價潛在主題的特征詞提取結果,主題1中的高頻特征詞,即很好,送貨、快、就是、好、包裝、速度等,主要反映了該電商平臺送貨快、服務非常好;主題2中的高頻特征詞主要反映了產品的效果,是正品;主題3中的高頻特征詞主要是產品是否劃算、是否值得購買。
根據負面評價潛在主題的特征詞提取結果,主題1中的高頻特征詞,即物流,假貨、真假、服務、不好、包裝、售后等,主要反映了產品包裝不好、客服售后態(tài)度不好;主題2中的高頻特征詞主要反映了產品的使用效果不好;主題3中的高頻特征詞主要是產品是否為正品。
四、結論
綜合以上的分析可以看出,該品牌面膜的優(yōu)勢集中在:效果好、價格實惠;該電商平臺的優(yōu)勢集中在:服務好、快遞效率高。而用戶抱怨的集中點主要是個別使用效果不好、客服態(tài)度以及售后服務上。為此我們提出以下建議:
(一)由于該電商平臺物流的特殊性,在一二線城市的分布比較完整,覆蓋面廣,但是在三線城市以下,尤其是鄉(xiāng)鎮(zhèn)城市,商品配送的效率還有待提高。同時在物流運輸環(huán)節(jié),也要注意保存商品的完整性。
(二)提高客服及售后服務的規(guī)范性,客服的服務態(tài)度和商品售后服務的保障是影響消費者評價的重要因素。
【參考文獻】
[1]阮光冊.基于文本挖掘的網絡新聞報道差異分析[J].情報科學,2012,30(1):105-109.
[2]陳江濤,張金隆,張亞軍.在線商品評論有用性影響因素研究:基于文本語義視角[J].圖書情報工作,2012,56(10):119-123.
[3]張志飛,苗奪謙,張亞軍.基于LDA主題模型的短文本分類方法[J].計算機應用,2013,33(6):1587-1590.
[4]閆強,孟躍.在線評論的感知有用性影響因素——基于在線影評的實證研[J].中國管理科學,2013,21(S1):126-131.endprint