陳紀元 北京市豐臺區(qū)豐臺第二中學
電子商務是以信息、網(wǎng)絡技術(shù)為手段,以商品交換為中心的商務活動,可以理解為電子商務是對傳統(tǒng)商業(yè)活動的電子化、信息化。近年來,隨著國民經(jīng)濟的不斷增長,電子商務的規(guī)模、覆蓋領(lǐng)域都有了質(zhì)的飛躍。經(jīng)過近20年積極推進和創(chuàng)新發(fā)展,“十二五”期間,我國電子商務交易規(guī)模從2011年的6萬億元增至2015年的21.8萬億元,已經(jīng)成為全球規(guī)模最大、發(fā)展速度最快的電子商務市場。2016年12月,商務部、中央網(wǎng)信辦、發(fā)展改革委三部門聯(lián)合印發(fā)了《電子商務“十三五”發(fā)展規(guī)劃》,確立了“2020年電子商務交易額40萬億元、網(wǎng)上零售總額10萬億元、相關(guān)從業(yè)者5000萬人”三大發(fā)展指標[1]。電子商務的發(fā)展一方面促進了社會經(jīng)濟的增長,同時也帶來了海量的就業(yè)機會,其未來將有著廣闊的發(fā)展前景。
在電子商務中,用戶在購買商品后會對商品的使用效果進行反饋,常常以評論的形式展示出來,這些評論在較大程度上反映了用戶對商品的情感狀態(tài),對于潛在用戶的購買行為有著十分明顯的影響。同時,評論中不僅包含用戶對商品使用后的滿意情況,也包含其購物的偏好信息,如果能對評論進行深入挖掘,就可以幫助用戶推薦商品,提升購物體驗,也能幫助商家對商品的屬性進行分析,據(jù)此優(yōu)化后續(xù)產(chǎn)品更新方案[2]。用戶購買商品后也會在各種社交媒體上進行分享,表達自己的使用感受,分析同類商品的優(yōu)缺點;此外,一些專門的商品評測機構(gòu)也會在網(wǎng)絡上發(fā)布其評測結(jié)果,對社交媒體以及網(wǎng)絡上相關(guān)的信息進行分析有助于商品生產(chǎn)者了解用戶對商品的使用感受,進而對商品進行改進。本文將介紹文本情感分析的原理,以及在電子商務中的應用情況,討論其存在的不足,以期為其未來發(fā)展提供參考。
文本情感分析是指對包含用戶情感態(tài)度的文本數(shù)據(jù)進行識別與分析,可以在在詞語、語句及語段三個粒度上進行分析,而在電子商務里主要是針對語句層面的數(shù)據(jù)進行分析。文本情感分析的主要流程為文本采集與篩選、文本情感信息的抽取、文本情感信息的分析以及文本情感信息的歸納[3]。
一般而言,商品相關(guān)的文本如評論、用戶發(fā)布的狀態(tài)等數(shù)據(jù)可以利用爬蟲技術(shù)從淘寶、京東、微博等平臺進行采集,之后對這些文本進行篩選,選取滿足設定閾值(文本長度,非表情符合數(shù)量)的部分進行下一步分析。文本信息抽取是將自然語言形式的評論性文本轉(zhuǎn)化為一定的信息單元,并將其轉(zhuǎn)化為計算機能夠識別處理的文本模型,這部分充當了用戶語言與情感分析的橋梁。而情感信息分類是將通過計算機處理后的文本模型根據(jù)評論人、被評價的商品,以及情感的傾向性和強度等標準進行識別、分類,以此提取出文本中所蘊含的核心信息。例如在對用戶對產(chǎn)品的褒貶進行分類時,“寶貝很好”與“真垃圾”的文本會被識別為傾向褒義與貶義。情感信息的歸納則是將以上分析的結(jié)果進行綜合匯總,生成最終對全部文本信息的報告,以便商家了解用戶對商品的總結(jié)評價。
在電子商務中,用戶對產(chǎn)品發(fā)生的情感變化或外界因素導致用戶放棄繼續(xù)購買使用產(chǎn)品的現(xiàn)象稱為客戶流失。而客戶流失預測則是根據(jù)客戶的歷史信息,判斷客戶對產(chǎn)品的情感態(tài)度,識別客戶流失的影響因素,預測出潛在流失客戶并制定挽留策略的過程。在一些研究中發(fā)現(xiàn),新用戶的拓展成本遠大于對已有客戶的挽留成本,因此對客戶的流失預測在電子商務中具有重要的應用價值。近年來,許多研究者開始利用文本情感分析技術(shù)進行客戶流失預測[4]。
在判斷客戶情感傾向方面,首先借助情感詞典(如知網(wǎng)的HowNet詞典)對文本進行分詞,之后進行文本特征的選擇,提取文本中的情感特征,之后進行情感傾向的識別,可以采用機器學習模型完成。在獲得用戶的情感分析報告之后,商家可以據(jù)此分析用戶的使用感受,進而預測客戶的流失情況,并分析客戶流失的原因,進而作出針對性的挽留策略。
根據(jù)文本情感分析技術(shù)對單個用戶進行追蹤,通過分析用戶所購買的產(chǎn)品以及使用感受,就可以推測用戶的購買偏好即為用戶偏好識別。根據(jù)用戶的偏好,可以個性化地為其推薦商品。在得知用戶的購買偏好之后,對其推薦商品不但可以有效增加商品的銷售量,同時也迎合了客戶的使用感受,提高了用戶對平臺的忠誠度與好感度。而利用文本情感分析技術(shù)對用戶的偏好識別是目前電子商務領(lǐng)域最熱門的研究領(lǐng)域[5]。
阿里巴巴旗下淘寶購物平臺的用戶、商品數(shù)量都數(shù)以億計,平臺需要對用戶的檢索請求做出毫秒級處理、響應,其檢索結(jié)果的準確性將直接影響用戶的購物體驗,因此,如何提高搜索體驗是淘寶網(wǎng)面臨的難題。近年來,利用用戶對商品的偏好提高電子商務平臺用戶的搜索體驗越來越受到重視。淘寶網(wǎng)對用戶進行偏好識別的重要方法就是利用文本情感分析技術(shù),數(shù)據(jù)主要采用用戶的評論文本。其分析步驟為:首先對用戶所評價的商品進行分類,例如“服飾”“日用品”,這是為了獲得用戶在網(wǎng)站上對不同品類商品的購買傾向,同時不同品類對應的關(guān)鍵情感詞也有所不同;其次是對評論文本進行處理,要從價格、質(zhì)量、服務、物流等方面逐一獲取用戶的態(tài)度,例如在分析一款商品的評價時,抓取的情感詞有“物美價廉”、“出水流暢”、“到貨快”等,這分別對應這款商品的價格、質(zhì)量和物流;最后則是根據(jù)用戶的情感態(tài)度判斷其購買偏好,例如用戶評價商品為“小貴”,則代表這款商品的價位高于用戶期望值,那么在為用戶推薦同款商品時則選取價格區(qū)間更低的進行推薦。又如某位客戶評價中含有物流的情感詞更多,則說明他購買時更注重物流,那么推薦的商品的物流應該更快。
商品使用調(diào)查是通過統(tǒng)計學手段來獲取用戶對商品的態(tài)度、意見等信息的過程。商品使用調(diào)查的覆蓋面廣泛,調(diào)查問題可以多樣,結(jié)果的可信性越高,獲得的用戶群體對商品的使用感受數(shù)據(jù)以及建議就越準確,根據(jù)這些反饋對商品的生產(chǎn)和銷售可以改進,對于電商企業(yè)和商品廠家都具有重要的意義。但傳統(tǒng)的問卷等調(diào)查方式在對調(diào)查數(shù)據(jù)的收集、清洗、分析等階段均需要投入大量的人力與時間,成本較高,特別是對于訪談獲取的含有長段落文本的調(diào)查數(shù)據(jù)的分析處理則更加費時費力。為此,越來越多的研究者開始通過文本情感分析技術(shù)進行商品調(diào)查方面的研究,不但可以更快捷地獲取調(diào)查數(shù)據(jù),同時對于主觀性文字也具有良好的分析能力,從而節(jié)省大量人力物力。
商品使用調(diào)查的方式多樣,可分為訪談類及問卷類兩種。對于定性的開放性問題,基于文本情感分析技術(shù)的訪談類與問卷類調(diào)查其流程基本相同,只是在數(shù)據(jù)的獲取方面有所差異:對于訪談類,調(diào)查結(jié)果是語音,需通過語音識別技術(shù)將其轉(zhuǎn)為可識別的文本后進行分析;對于問卷類則需要使用文本識別技術(shù)獲取原始的調(diào)查數(shù)據(jù)。后續(xù)的分析過程與3.1和3.2節(jié)的過程相似,但需要注意的是調(diào)查問卷中不僅僅含有用戶的使用態(tài)度,有些問卷中還含有用戶對產(chǎn)品的意見和建議,需要通過提取文本中的關(guān)鍵詞來獲取。
盡管情感分析適用于諸多領(lǐng)域,但現(xiàn)階段這項技術(shù)還面臨許多挑戰(zhàn)。
首先是用戶隱私問題。由于電商評論數(shù)據(jù)是用戶對商品情況的主觀表達,其中難免會包含用戶的隱私信息,如用戶的地址、興趣愛好等,這些信息目前是公開的,所有用戶都可以看到,但如果被不法分子獲取,通過綜合分析也會竊取用戶的敏感信息,因此,電子商務企業(yè)在利用這些數(shù)據(jù)時也應注重對用戶隱私的保護。
其次是算法性能問題?,F(xiàn)有的文本情感分析技術(shù)是建立在自然語言處理技術(shù)的基礎(chǔ)上,而對自然語言的理解一直是研究者有待攻克的難題。例如,同一段文字在不同的語境下可能意思不同,選取的情感詞不應僅局限于副詞與形容詞,一些名詞、新詞等也會是用戶態(tài)度的表達。因此,在文本情感分析技術(shù)的發(fā)展過程中應注重對自然語言處理技術(shù)本身的研發(fā),提高對文本信息分析的準確性。
本文介紹了文本情感分析的原理,分析了其在電子商務中客戶流失預測、用戶偏好識別與商品推薦以及商品使用調(diào)查三個方面的應用情況。文本情感分析是針對自然語言的研究,我國在這方面研究的起步較晚,其原因主要在于漢語表達的多樣性與復雜性,以及國內(nèi)網(wǎng)絡用語的隨意和多樣性。隨著情感詞典和算法的完善,文本情感分析技術(shù)將會有越來越多的應用,不僅僅局限在電子商務領(lǐng)域。