楊君子,周林錦,張利民,韓媛媛,程鳳林,張軍芳,袁 挺
(衡水學院數(shù)學與計算機科學系,河北 衡水 053000)
在互聯(lián)網(wǎng)迅速發(fā)展的今天,手機、電腦等電子設(shè)備的使用越來越廣泛,人們已經(jīng)逐漸養(yǎng)成了線上購物的習慣。隨著線上購物越來越受歡迎,電子商務(wù)成為了新潮流,電商平臺直播營銷成為了一種新的銷售手段,為助推鄉(xiāng)村振興,各地掀起了主播帶貨的熱潮,為特色農(nóng)產(chǎn)品打開了更為寬廣的銷售渠道。特色農(nóng)產(chǎn)品企業(yè)要想取得長久的發(fā)展,需要線上平臺和企業(yè)保障自身產(chǎn)品物美價廉,誠信經(jīng)營。此外,企業(yè)還需要對消費者的消費心理進行研究,根據(jù)平臺上消費者的評論數(shù)據(jù),制定合理的銷售策略。
傳統(tǒng)的購物可以直接通過觸摸、試穿等方式直接感受到產(chǎn)品質(zhì)量的好壞,來決定是否購買。但在線上購物時,消費者無法直接感受到產(chǎn)品的好壞,只有通過商品的評論來進行判斷,所以商品評論的好壞能間接決定產(chǎn)品的銷量。特色農(nóng)產(chǎn)品企業(yè)要充分利用平臺上海量的銷售數(shù)據(jù)信息,對這些信息進行深度挖掘,獲得有價值的信息,分析消費者對所購買產(chǎn)品的情感態(tài)度,及時發(fā)現(xiàn)消費者的購買偏好,及時了解消費者的購物需求,從而抓住商機,提升銷售量,減少風險損失。課題組主要基于電商平臺特色農(nóng)產(chǎn)品的評論數(shù)據(jù),分析特色農(nóng)產(chǎn)品在電商平臺銷售中存在的問題,主要應(yīng)用一種非監(jiān)督機器學習技術(shù)LDA主題模型,構(gòu)建消費者對商品的情感分析,幫助賣家發(fā)現(xiàn)產(chǎn)品銷售中存在的問題,改進銷售策略,擴大銷售。
本研究對電商商品的評論數(shù)據(jù)進行挖掘,是對電商產(chǎn)品評論關(guān)注點的研究。如圖1所示,是電商平臺上面銷量最好的4款某酒業(yè)產(chǎn)品的評論數(shù),因為50度產(chǎn)品的評論數(shù)樣本最多同時好壞評差異最大,所以選擇某酒業(yè)50度產(chǎn)品作為研究對象。
圖1 評論數(shù)表
獲取到數(shù)據(jù)以后,構(gòu)建了包含數(shù)據(jù)預處理和LDA模型分析的一套情感分析模型,其技術(shù)路線如圖2所示。首先,從電商產(chǎn)品評論中把關(guān)鍵詞提取出來,然后進行文本去重分詞等數(shù)據(jù)的預處理,最后建立LDA情感分析模型,并進行模型結(jié)果的評估。
圖2 電商商品評價情感分析技術(shù)路線
評論數(shù)據(jù)中包含了很多重復的文本,這些重復的數(shù)據(jù)有可能是平臺商家購買的水軍所發(fā)布的評論,即為了營造出商品很好的假象而通過不正當手段對自家商品直接給予好評。這些重復評論可能掩飾商品品質(zhì)而誤導消費者,現(xiàn)對這些重復的文本進行處理。如圖3所示,為本研究獲取的部分評論數(shù)據(jù)。
圖3 部分評論數(shù)據(jù)
因為線上購物平臺的商品評價信息有效性不一,進行去重后還是有很多參考意義不大的重復語句,比如“可以可以可以”“不錯不錯不錯”“好喝好喝”等。
因此,設(shè)定語句壓縮的規(guī)則[1]如下:
若讀入與上列表相同,下為空,則放下;
若讀入與上列表相同,下有,判斷重復,清空下表;
若讀入與上列表相同,下有,判斷不重,清空上下;
若讀入與上列表不同,字符≥2,判斷重復,清空上下;
若讀入與上列表不同,下為空,判斷不重復,繼續(xù)放上;
若讀入與上列表不同,下有,判斷不重復,放下;
讀完后,判斷上下,若重復則壓縮。
根據(jù)以上幾條壓縮語句規(guī)則,得到了已壓縮去詞完成的精簡語料,如圖4所示。
圖4 壓縮去詞結(jié)果
有部分評論過短,比如“很好”“很棒”“贊”“不好”,這些過短的評論看似是對商品的好評或差評,但還有可能是消費者為了獲取積分而給予的評論,是隨意完成的,而刪除之后保留的長句子能更好地完成對商品評論的情感分析。因此,需要對這樣的短句子進行過濾,過濾后的結(jié)果中已經(jīng)不顯示較短的句子。
文本分詞是中文文本處理中的一個重要步驟,若分詞效果好,可以清晰看出評論內(nèi)容主要表達的含義;若分詞效果不好,則嚴重影響對評論文本情感的分析。比如,“服務(wù)非常好”分詞的一般結(jié)果應(yīng)為“服務(wù)”“非常”和“好”,若分成“服”“務(wù)非”和“常好”則嚴重丟失了文本的情感含義。根據(jù)已有研究結(jié)果顯示,jieba分詞精度高達97%以上。采用jieba分詞對本研究的評論數(shù)據(jù)進行處理,獲得的正面詞匯和負面詞匯數(shù)據(jù)如表1所示。
表1 正面和負面評論數(shù)據(jù)分詞結(jié)果
評價信息中也有很多出現(xiàn)次數(shù)很多但是沒有明顯意義的用詞,例如語氣助詞等。 把停用詞進行過濾去除,可以減少存儲空間的占用,提升搜索速度,更能在一定程度上增加關(guān)鍵詞密度,讓優(yōu)化的關(guān)鍵詞更突出。
通過挖掘評論數(shù)據(jù),分析購買者的情感需求,即深入探究評論信息中包含的潛在主題。在模型里,可觀測變量就是評論信息中的特征詞。假如某個潛在主題又是其他評論信息中的主題,那么這個潛在主題很大程度上就可以認為是整體評論信息中的熱門點。而在這個潛在主題中出現(xiàn)次數(shù)最多的特征詞就可能是熱門關(guān)注點中的評論詞。分別統(tǒng)計正面和負面兩種情緒傾向下的主題發(fā)生和分布的情況,對兩種情緒和傾向下各主題的發(fā)生概率和發(fā)生次數(shù)進行由高到低的排序,根據(jù)分析的需要,在重點評論中選擇一個最熱門的話題作為熱點,然后根據(jù)潛在話題和注意詞的出現(xiàn)概率,得到相應(yīng)的熱門關(guān)注點。計算主題概率的LDA模型步驟如下[2-3]:
1)輸入文檔集,對文檔集的各個子文檔進行編號;
2)獲取每篇文章的主題概率分布;
3)獲取每篇文章下每個主題的生成詞概率分布;
4)從文檔集合中獲取每個主題的編號映射表;
5)通過統(tǒng)計詞頻對參數(shù)進行評估,選取最大概率詞作為主題詞。
將數(shù)據(jù)代入程序中,實現(xiàn)了對正面主題和負面主題的分析,結(jié)果如圖5所示。
經(jīng)過LDA模型主題分析,可以把評論數(shù)據(jù)歸納成4個主題,每個主題下分別生成10個出現(xiàn)可能性最高的詞匯。
根據(jù)對電商產(chǎn)品正面評論的4個潛在主題的特征詞進行提取,主題一中的高頻特征詞有專業(yè)、舒適、香型、口感,主要反映用戶本身對某酒業(yè)酒味道的喜歡;主題二中的高頻特征詞有推薦、經(jīng)典、值得、期待,主要反映客戶主觀上的喜歡;主題三和四中的高頻特征詞為值得、設(shè)計、紙箱、速度、包裝,主要反映產(chǎn)品質(zhì)量很好,外觀漂亮,值得買,客戶很滿意。
根據(jù)對電商產(chǎn)品負面評論的4個潛在主題的特征詞進行提取,主題一中的高頻特征詞有不能、打開、整箱、包裝,主要反映商家對酒的包裝防護不足;主題二中的高頻特征詞有后勁、質(zhì)量、一般、郁悶,主要反映了酒的后勁有點大;主題三中的高頻特征詞有發(fā)貨、塑料、防護、未敢,主要也是反映商家對酒包裝防護的不足;主題四中的高頻特征詞有送貨、下樓、發(fā)貨、一般、郁悶、店家、降價,主要反映客戶對商品價格不穩(wěn)定、物流服務(wù)差的不滿。
綜合以上對主題及其中的高頻特征詞的分析可以看出,某酒業(yè)產(chǎn)品有以下幾個優(yōu)勢:口感好,性價比高,外觀顏值高,質(zhì)量不錯。相對而言,也有幾個不足:對酒的包裝防護不到位,酒的后勁大,價格不穩(wěn)定,物流服務(wù)不好。
根據(jù)對電商平臺產(chǎn)品的用戶評價進行LDA主題模型分析,對電商平臺提出以下建議:
1)在產(chǎn)品性價比高、顏值高、服務(wù)好的前提下,要保證口感不變,提高產(chǎn)品質(zhì)量;
2)提升商品的包裝防護,保持商品價格的穩(wěn)定;
3)選擇好的物流公司進行合作,提高物流服務(wù)態(tài)度。
互聯(lián)網(wǎng)的發(fā)展帶動了人們的在線消費能力,而部分特色農(nóng)產(chǎn)品賣家則對商品的優(yōu)點、賣點和不足不夠清晰。為了發(fā)現(xiàn)市場中存在的問題和潛在的機遇,課題組構(gòu)建了基于電商商品評論數(shù)據(jù)的情感分析文本挖掘模型,以幫助特色農(nóng)產(chǎn)品銷售賣家和電商平臺做出合適的產(chǎn)品發(fā)展決策,為提高產(chǎn)品競爭力提供參考。首先,對評論數(shù)據(jù)進行了預處理,包含文本去重、機械壓縮去詞、短句過濾、文本分詞、去除停用詞5個步驟,獲取到了用于主題分析的數(shù)據(jù)文檔[4-5]。再根據(jù)分析結(jié)果,分別挖掘情感態(tài)度不同情況下的潛在主題,以此獲取不同需求的消費者對線上消費產(chǎn)品的情感喜好度。分析結(jié)果顯示,產(chǎn)品有以下幾個優(yōu)勢:口感好,性價比高,外觀顏值高。相對而言也有幾個不足:對酒的包裝防護不到位,產(chǎn)品后勁大,價格不穩(wěn)定,物流服務(wù)不好。因此,商家仍需提高產(chǎn)品質(zhì)量和服務(wù),研發(fā)不同類型的產(chǎn)品,以滿足不同消費者的購買需求。同時,物流公司需要有良好的服務(wù)態(tài)度,及時將產(chǎn)品送到顧客手中,提升和維護企業(yè)形象。另外,商家仍需要創(chuàng)新網(wǎng)絡(luò)發(fā)展營銷模式,發(fā)揮產(chǎn)品特色,不斷使網(wǎng)絡(luò)營銷策略更加成熟,推動區(qū)域經(jīng)濟的發(fā)展。