王,龔莉萍,劉漢濤,李文藻,3
(1.四川省教育信息化與大數據中心,四川 成都 610000;2.成都體育學院,四川 成都 610000;3.成都信息工程大學,四川 成都 610000)
在新一代通信技術的高速發(fā)展下,評論參與、評論轉發(fā)或者信息報道更加簡便[1]。而在網絡購物已經成為生活常態(tài)的今天,用戶對于商品的感受評論以及改進建議對商品發(fā)展具有強大的推動作用,甚至決定著商品的研發(fā)方向。商家從大量褒貶不一、非結構化的評論中準確獲知用戶群體對商品的態(tài)度和意見,對產品改進及經營決策至關重要。特別是在用戶追求商品質量的相關領域,比如更新?lián)Q代快的智能產品領域,網絡評論關注群體多、用戶參與感強、媒體關注度高等特征明顯。這些特征會使網絡評論的用戶群體情緒認同感強,事后處理成本高,擴散和影響持續(xù)周期長,商品的研發(fā)或者經營可能遭受損失。
目前,國內外學者對用戶群體評論情緒的分析主要通過機器學習[2]、情感詞提取[3]等方法,圍繞用戶體驗感知、用戶情感等視角展開多范疇研究。雖然出現(xiàn)了基于人工智能等方式的網絡評論群體情緒監(jiān)測分析技術[4],但基于神經網絡的網絡評論群體情緒分析存在兩方面的挑戰(zhàn),首先,由于語義理解的偏差,對評論中的信息理解感知結果相對較差;其次,采用基于神經網絡的方式時需要大量商品評論數據作為神經網絡的訓練樣本。而通過情感詞提取的方法識別群體情緒時,情感分析的結果好壞對情感詞的構建是否完善依賴程度高。
基于以上研究方式的一些不足之處,筆者提出了一種基于網絡評論小樣本數據的群體情緒量化方法,通過k-means聚類算法對數據進行分類。該方法在網絡評論群體情緒出現(xiàn)初期,僅有少量樣本數據的條件下,對網絡評論的群體情緒進行識別分析。k-means聚類算法因為其較好的穩(wěn)定性和聚類效果,也被廣泛用于文本挖掘[5]、風險評估[6]等各項研究,也有學者將之用于基于文本挖掘的網絡評論情緒分類研究[7]。
網絡商品評論的生態(tài)環(huán)境具有復雜性特征,網民的評論數據往往也包含如時間維度、情感及關注程度等方面的信息。聚類分析是群體情緒分析中獲取群體情緒特征的主要手段。通過聚類后的結果分析我們可以發(fā)現(xiàn)一些潛在的隱性知識[5],客觀揭示了研究對象間的相似程度,從而發(fā)現(xiàn)隱含的客觀規(guī)律[6]。傳統(tǒng)的文本建模方法是基于詞空間的建模方法,一方面,這種建模方法語義識別困難,存在一詞多義(多義詞)和多詞一義(同義詞)的問題;另一方面,隨著語料庫規(guī)模的增加,基于詞空間的建模方法會面臨維數過高、數據稀疏等問題[7]。此外,各種商品評論本身一般含有較多的專業(yè)名詞,進行對比分析存在一定難度。因此,筆者決定采用客觀的評論字數及帶有明顯情緒的標點符號(如“!”“?”等)作為評論的特征數據,構建網絡評論群體情緒分析算法,既規(guī)避語義識別、語料庫規(guī)模增加的問題,同時又促進評論的群體情緒自動化定位。在提出的算法中,表情符號和標點符號都屬于情緒因子:在網絡交流過程中,表情符號非常流行,它以簡單圖形或彩色圖像甚至動畫等表情達意,通俗易懂,與語言中的體態(tài)語相類似,形成了一種顯式的、固定的情緒表達方式;標點符號在網絡評論群體情緒分析中同樣起到關鍵作用,標點符號的使用會導致評論表達情緒出現(xiàn)差別,也是理解和判斷網絡評論表達情緒的重要手段[8]?;诰W絡評論小樣本數據的群體情緒量化流程如圖1所示。
圖1 基于網絡評論小樣本數據的群體情緒量化流程
針對商品對象網絡評論群體情緒的量化分為數據預處理與評論群體情緒量化算法兩部分。第一階段為數據預處理階段,該階段需要通過一種量化模型,對所有的評論數據進行客觀量化處理。本模型選擇評論字數因子γ,情緒ε作為評論數據的特征因子[9]。
在評論數據樣本集?中,對γ進行歸一化處理。這里采取最小-最大規(guī)范化實現(xiàn)線性變換,使得γ∈(0,1]。
式中:γi為評論數據i的字數;max(γ?)為取樣評論數據集中的數據最大值。通過公式(1)可以將評論數據的字數信息量化映射至對應區(qū)間。
情緒因子ε因為樣本數量不多,采取人工辨別的方式對評論表現(xiàn)的情緒進行判定。如“!”在負面評論中常用于突出強調不滿情緒;而“?”表示疑問語氣,常用于質疑和懷疑;按照網絡評論常用的消極表情(如“[淚]”“[怒]”“[弱]”等),以及情緒標點符號(如“!”“?”等),將評論表達的情緒分為平緩、較激烈、激烈。情緒判定標準為:小于2個消極表情和情緒標點符號的評論判定為平緩;包含2個消極表情和情緒標點符號的評論判定為較激烈;大于2個消極表情和情緒標點符號的評論判定為激烈。我們經過多次實驗及分析推論,將平緩定為0.2(2個以下標點符號),較激烈定為0.5(2個標點符號),激烈定為0.8(3個及以上標點符號)。
在通過評論字數因子γ,情緒因子ε的量化后,為每條評論附加了2個維度的特征向量。在特征向量的基礎上,每條評論能夠在二維笛卡爾坐標中表達具體的位置。依據以上量化方法,每條評論的數據將會出現(xiàn)在坐標系中的第一象限。由于評論在一定程度上反映了商品的關注度以及用戶的使用感受,容易在量化后出現(xiàn)聚集特征[10-11]。因此,第二階段中,采用k-means聚類算法對以上量化數據進行聚類分析時,有利于統(tǒng)計樣本數據中商品受關注程度及用戶群體對商品的感受程度?;谠u論數據量化后的k-means聚類算法處理流程如下:
基于評論數據量化后的k-means聚類算法
(1)隨機選取k個點為初始聚集簇心(樣本點選擇);
(2)分別計算每個樣本點到k個簇心的距離(D);
(3)選擇每個點至簇心的最短距離mix(D),歸屬該簇;
(4)計算每簇的質心(平均距離中心),以作為新分簇的簇心;
(5)迭代步驟(2)~(5),在ω次后退出循環(huán)。
通過k-means算法處理后,坐標系中量化后的評論數據將會歸屬于不同的簇分類。通過聚類算法,我們基本將評論的小樣本數據進行了相應分類,使評論數據實現(xiàn)聚焦的功能。由于算法特征較好,該類無監(jiān)督學習方法也可用于行為畫像等領域。
基于以上方法,本文選擇取樣了近期“****小米手機”商品的評論,進行相應實驗及討論分析。我們隨機選取近期新品發(fā)布后短時段內用戶的消極評論50條數據,進行以上算法處理,具體見表1所列。
表1 “****馬拉松事故”網友評論抽樣事例
其中,k-means聚類算法中k值選擇為2與3,ω取值1 000,其結果如圖2、圖3所示。
圖2 k=2時評論數據分類
圖3 k=3時評論數據分類
通過算法結果圖2、圖3可以看到,評論數據量化后均分布于坐標系第一象限。我們對量化后評論數據進行聚類處理,算法很好地將數據進行了分簇。針對圖2中的結果,可以觀察到分類2靠近(0,0)點,分析數據后得出分類1數據占比為56%,分類2數據占比為44%。圖3中k值為3的情況下,分類1占比為26%,分類2占比為38%,分類3占比為36%?;谠u論數據的量化方式,我們依據字數因子γ、情緒ε可知,一定程度上特征因子的值越大,網絡評論群體情緒擴散的可能性也越大。所以分簇占比中比例靠近(1,1)點的比例,一定程度上能夠反映網絡評論群體情緒擴散的可能性。同時我們觀察到:在實際應用中,簇心K=3相比于K=2時,評論種類劃分更細,但是不一定有利于數據分析。在目前取樣的數據集中,超過半數的評論數據分簇后劃分在靠近(1,1)點,所以聚類比例可以作為商品網絡評論中用戶群體不滿情緒較大的分析依據。
本文提出了一種網絡評論群體情緒量化模型與采用k-means聚類算法對量化后的網絡評論數據進行聚類的方法。該方法在基于網絡評論小樣本數據的基礎上進行了完整的實驗,為后期網絡評論群體情緒分析中的機器學習提出了一種新的網絡評論群體情緒量化前置處理方法。量化后的評論數據隨著分簇數量動態(tài)變化,可以實時監(jiān)測評論群體的情緒程度,幫助商家做出相應的經營決策,幫助買家了解商品。而對情緒的具體分類比例閾值的確定,本文中沒有詳細研究,這將是未來研究工作中的重點。