李 想
(寧波大學(xué) 機(jī)械工程與力學(xué)學(xué)院,寧波 315211)
在線客戶評(píng)論是消費(fèi)者在網(wǎng)絡(luò)消費(fèi)平臺(tái)上發(fā)表的,對(duì)某種產(chǎn)品或服務(wù)的使用體驗(yàn)和質(zhì)量評(píng)價(jià),通過(guò)在線評(píng)論,消費(fèi)者可以更好地獲取產(chǎn)品質(zhì)量信息、評(píng)估商家信譽(yù)[1].一方面,對(duì)在線評(píng)論的研究有助于幫助電商平臺(tái)挖掘顧客消費(fèi)行為與消費(fèi)特征[2,3],并根據(jù)消費(fèi)者的差異性為不同類(lèi)別的消費(fèi)者提供專(zhuān)屬服務(wù);另一方面,以顧客需求為主導(dǎo)的消費(fèi)模式以深入人心,在線評(píng)論包含大量的顧客意見(jiàn)[4],對(duì)產(chǎn)品的優(yōu)化改進(jìn)有重要的參考意義.
目前,對(duì)于在線評(píng)論的研究已經(jīng)取得很多的成果.苗蕊等從歸因理論的視角,對(duì)真實(shí)評(píng)分和平均評(píng)分的差異性所產(chǎn)生的有用性影響進(jìn)行解讀,為評(píng)論數(shù)據(jù)的研究提供新的理論支撐[5];Alaei AR 等從數(shù)據(jù)集的使用和關(guān)鍵評(píng)價(jià)指標(biāo)的表現(xiàn)兩個(gè)方面對(duì)旅游業(yè)應(yīng)用的不同情緒分析方法進(jìn)行了評(píng)價(jià),并對(duì)情感分析在旅游業(yè)中未來(lái)的研究趨勢(shì)進(jìn)行了總結(jié)[6];修國(guó)義等引入信源和信宿對(duì)在線評(píng)論信息傳遞效率進(jìn)行測(cè)量,輔助讀者對(duì)重要的在線信息進(jìn)行篩選[7];Cheng XS 等通過(guò)實(shí)證研究了網(wǎng)上評(píng)論內(nèi)容對(duì)潛在顧客信任認(rèn)知的影響,并對(duì)信任感知的相關(guān)關(guān)系進(jìn)行了研究,發(fā)現(xiàn)評(píng)論內(nèi)容正向影響消費(fèi)者對(duì)酒店的信任[8];于超等提出一種基于在線評(píng)論的服務(wù)要素的優(yōu)化配置方法,提取出滿足顧客需求程度最大的服務(wù)要素[9].
不難看出,對(duì)在線評(píng)論的研究多集中在對(duì)消費(fèi)者的影響上[10],在企業(yè)的產(chǎn)品優(yōu)化決策方面的應(yīng)用較少.在線評(píng)論中包含了大量的顧客對(duì)產(chǎn)品的意見(jiàn)信息,研究如何從非結(jié)構(gòu)化的評(píng)論數(shù)據(jù)中提取出重要的意見(jiàn)信息,對(duì)產(chǎn)品的優(yōu)化有著重要的指導(dǎo)意義.文章把產(chǎn)品評(píng)論數(shù)據(jù)應(yīng)用于產(chǎn)品的更新優(yōu)化中,對(duì)產(chǎn)品優(yōu)化輔助信息獲取的技術(shù)和方法進(jìn)行研究,第1 節(jié)介紹了基于在線評(píng)論的產(chǎn)品優(yōu)化決策信息的獲取的分析流程,第2 節(jié)計(jì)算了顧客意見(jiàn)的權(quán)值計(jì)算方法,第3 節(jié)介紹了產(chǎn)品優(yōu)化信息的提取流程,第4 節(jié)通過(guò)實(shí)例驗(yàn)證了方法的可行性.
基于在線評(píng)論的產(chǎn)品優(yōu)化決策信息的獲取的分析流程分為幾個(gè)步驟:評(píng)論數(shù)據(jù)采集,對(duì)數(shù)據(jù)的進(jìn)行預(yù)處理,對(duì)評(píng)論數(shù)據(jù)進(jìn)行挖掘,數(shù)據(jù)的應(yīng)用和展示,如圖1所示.
圖1 基于在線評(píng)論的產(chǎn)品優(yōu)化決策信息獲取的挖掘流程
文章采用scrapy 爬蟲(chóng)框架從電商網(wǎng)站爬取在線評(píng)論數(shù)據(jù),并保存到語(yǔ)料庫(kù)中;然后對(duì)語(yǔ)料庫(kù)中的數(shù)據(jù)進(jìn)行清洗和預(yù)處理,如去重、分詞、分句等;在線評(píng)論挖掘是對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行產(chǎn)品特征抽取和顧客意見(jiàn)抽取,評(píng)論數(shù)據(jù)的情感分類(lèi)計(jì)算,產(chǎn)品特征意見(jiàn)詞對(duì)的抽取;評(píng)論的應(yīng)用主要是通過(guò)特征意見(jiàn)權(quán)重計(jì)算對(duì)特征意見(jiàn)詞對(duì)進(jìn)行重要性排序,構(gòu)建從評(píng)論到產(chǎn)品優(yōu)化的關(guān)聯(lián)矩陣,獲取優(yōu)化信息.
詞頻統(tǒng)計(jì)指統(tǒng)計(jì)某詞在文件中出現(xiàn)的次數(shù),主要方法有IDF、TF-IDF 等[11],對(duì)評(píng)論數(shù)據(jù)進(jìn)行詞頻統(tǒng)計(jì)一定程度上可以反映顧客對(duì)產(chǎn)品各維度的關(guān)注情況.詞頻統(tǒng)計(jì)的基本思想是根據(jù)詞頻找到重要性較高的詞,而通過(guò)加權(quán)的方式過(guò)濾掉重要性低的詞,由于是對(duì)評(píng)論數(shù)據(jù)進(jìn)行統(tǒng)計(jì),一個(gè)詞出現(xiàn)在多條評(píng)論中時(shí),其重要性并不需要被降低,所以文章采用基于詞頻的方式直接進(jìn)行統(tǒng)計(jì),并通過(guò)詞頻占比的方式計(jì)算詞的關(guān)注度,如式(1)所示.
情感分類(lèi)是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程[12-15].文章通過(guò)對(duì)評(píng)論數(shù)據(jù)的情感分析,探究顧客對(duì)產(chǎn)品各特征(外觀、功能等)的看法,確定產(chǎn)品在客戶心中的滿意程度,根據(jù)顧客的滿意情況求出產(chǎn)品各特征在優(yōu)化過(guò)程中的情感權(quán)重,即滿意度和重要性呈負(fù)相關(guān),基本步驟如下:
(1)預(yù)處理 通過(guò)編寫(xiě)代碼自動(dòng)實(shí)現(xiàn)評(píng)論數(shù)據(jù)的去重、清洗、分詞、去停用詞的工作.
(2)特征提取 由于機(jī)器學(xué)習(xí)只能對(duì)數(shù)值或類(lèi)別數(shù)據(jù)進(jìn)行訓(xùn)練,所以需要轉(zhuǎn)化成向量的形式,文章通過(guò)Doc2Vec 詞向量模型[16]對(duì)處理好的數(shù)據(jù)進(jìn)行特征向量提取.
(3)情感分類(lèi) 通過(guò)邏輯回歸分類(lèi)器對(duì)提取的特征向量進(jìn)行訓(xùn)練,生成情感分類(lèi)模型,實(shí)現(xiàn)對(duì)評(píng)論數(shù)據(jù)的情感分類(lèi).
文章選取已標(biāo)記的消極評(píng)論和積極評(píng)論各5000 條作為訓(xùn)練集,通過(guò)對(duì)訓(xùn)練集預(yù)處理、特征提取、分類(lèi)器訓(xùn)練3 個(gè)步驟,構(gòu)建分類(lèi)模型,隨機(jī)抽取消極評(píng)論和積極評(píng)論各1000 條作為測(cè)試集,分類(lèi)準(zhǔn)確率88.6%,召回率87.7%,通過(guò)訓(xùn)練好的模型對(duì)數(shù)據(jù)進(jìn)行情感分類(lèi),然后按照式(2)進(jìn)行顧客的滿意度在產(chǎn)品優(yōu)化中的權(quán)重計(jì)算.
一般顧客的產(chǎn)品某一特征滿意程度越低其在產(chǎn)品優(yōu)化中的重要性越高,即其重要性和滿意度成負(fù)相關(guān),式(2)主要用于計(jì)算產(chǎn)品各特征的情感權(quán)值,表征產(chǎn)品各維度在產(chǎn)品優(yōu)化中的重要程度.ti為產(chǎn)品的某一特征,Q(ti)表示ti特征的情感權(quán)值,qi為情感占比,λ為權(quán)重系數(shù),qk表示情感閾值,當(dāng)產(chǎn)品某一維度情感占比低于閾值時(shí),可以根據(jù)優(yōu)化的需要適當(dāng)提高情感權(quán)重,情感閾值體現(xiàn)對(duì)滿意度低于某值的特征的容忍程度.
顧客對(duì)產(chǎn)品某一特征可能會(huì)有多個(gè)意見(jiàn),為表征各意見(jiàn)的重要程度,文章把在某一產(chǎn)品特征中的某一顧客意見(jiàn)的重要性用內(nèi)權(quán)值表示,并通過(guò)式(3)計(jì)算某一產(chǎn)品特征的各意見(jiàn)內(nèi)權(quán)值.由于顧客的表達(dá)的多數(shù)為非專(zhuān)業(yè)術(shù)語(yǔ),同一意見(jiàn)可能適用于多個(gè)產(chǎn)品特征,這時(shí)需要降低其權(quán)重,文章提出了外權(quán)值的概念,表示某一意見(jiàn)對(duì)各產(chǎn)品維度的重要程度,使用式(4)進(jìn)行計(jì)算.
式中,ti表示產(chǎn)品某一維度,oj表示ti的某一顧客意見(jiàn),oji為權(quán)重,In(ti)為指向ti的 意見(jiàn)權(quán)重集合,out(ti)為oj指向的產(chǎn)品維度的意見(jiàn)權(quán)重集時(shí)合.
產(chǎn)品特征ti的 某一顧客意見(jiàn)oj的重要性由ti的關(guān)注度、滿意度、內(nèi)權(quán)重、外權(quán)重共同決定,所以由式(1)-式(4)得出產(chǎn)品特征ti的 某一顧客意見(jiàn)oj的總的權(quán)值為:
通過(guò)式(5)即可分別求得各客戶意見(jiàn)總體權(quán)重,權(quán)值越大其特征-意見(jiàn)詞對(duì)tioj的重要程度越高,其中 β是為了平衡值得大小便于展示,當(dāng)qi≥qk時(shí) λ的值為1.
文章為了能從評(píng)論數(shù)據(jù)中提取出用于產(chǎn)品優(yōu)化的輔助信息,需要先提取出在線評(píng)論中的顧客的具體意見(jiàn),基本流程如圖2所示.
圖2 顧客意見(jiàn)提取流程
文章通過(guò)詞頻抽取出來(lái)客戶關(guān)注的產(chǎn)品特征和顧客意見(jiàn)構(gòu)建特征詞庫(kù)T和意見(jiàn)詞庫(kù)O,假設(shè)每個(gè)產(chǎn)品特征都指向所有的客戶意見(jiàn),形成特征-意見(jiàn)詞對(duì)tioj,再通過(guò)權(quán)重計(jì)算式(5)計(jì)算出評(píng)論中的特征-意見(jiàn)詞對(duì)tioj的權(quán)重矩陣,最后根據(jù)權(quán)重矩陣提取出重要的顧客意見(jiàn).
評(píng)論中的顧客意見(jiàn)一般為顧客對(duì)產(chǎn)品某些特征的情感表達(dá)或問(wèn)題現(xiàn)象的描述,表達(dá)較為模糊,需要構(gòu)建客戶意見(jiàn)tioj與具體優(yōu)化信息optr的映射關(guān)系,映射關(guān)系及其權(quán)重w每個(gè)企業(yè)都有所偏重,一般由專(zhuān)業(yè)人士確定,其映射關(guān)系如表1所示,其optr的重要性由tioj-optr映射關(guān)系表中的權(quán)重w和顧客意見(jiàn)的重要性共同決定.
表1 顧客意見(jiàn)和優(yōu)化輔助信息的映射關(guān)系
假設(shè)任何一個(gè)的tioj都指向所有opt,通過(guò)w表示其相關(guān)性程度,如表1所示.映射關(guān)系組成的矩陣中,一般一個(gè)tioj對(duì)應(yīng)一個(gè)或幾個(gè)optr,所以映射關(guān)系矩陣是一個(gè)多數(shù)值為零的矩陣.通過(guò)權(quán)重矩陣提取出重要的tioj,再由映射關(guān)系表提取出對(duì)應(yīng)的optr,實(shí)現(xiàn)由顧客模糊的情感表達(dá)到產(chǎn)品優(yōu)化所需要的決策信息的映射.
通過(guò)scrapy 框架爬取vivo X20 手機(jī)在天貓網(wǎng)站上的產(chǎn)品評(píng)論信息,構(gòu)建分析模型對(duì)這些評(píng)論語(yǔ)句進(jìn)行分詞等預(yù)處理操作,計(jì)算顧客關(guān)注的詞頻占比F(ti),詞頻統(tǒng)計(jì)的結(jié)果可視化展示如圖3所示.
圖3 評(píng)論數(shù)據(jù)的詞云圖
根據(jù)詞頻統(tǒng)計(jì)提取出的客戶關(guān)注度較高的產(chǎn)品特征,更新特征詞庫(kù),對(duì)特征詞進(jìn)行情感分類(lèi),并計(jì)算客戶滿意度Q(ti),情感閾值設(shè)置為0.5,情感權(quán)重系數(shù)設(shè)置為2,情感分類(lèi)結(jié)果的可視化展示如圖4所示.
在圖4中,x軸以上的為正面評(píng)論數(shù),x軸以下的為負(fù)面的評(píng)論數(shù).通過(guò)情感分類(lèi)結(jié)果可以直觀的了解顧客對(duì)產(chǎn)品和服務(wù)屬性的滿意情況.
圖4 在線評(píng)論的情感分類(lèi)結(jié)果
更新顧客意見(jiàn)詞庫(kù),構(gòu)建產(chǎn)品特征和顧客意見(jiàn)的映射關(guān)系,根據(jù)權(quán)重計(jì)算式(5)把評(píng)論中的特征-意見(jiàn)詞對(duì)tioj轉(zhuǎn)化為權(quán)重矩陣,對(duì)重要的客戶意見(jiàn)進(jìn)行降序排列,提取前5 個(gè)特征-意見(jiàn)詞對(duì),如表2所示.
表2 顧客意見(jiàn)及其權(quán)重表
根據(jù)tioj-optr映射關(guān)系,提取出產(chǎn)品優(yōu)化所需要的輔助參考信息optr,文章設(shè)置信息映射關(guān)系表中的權(quán)重都為1,其optr重要性全由tioj的重要性決定,optr的提取 如表3所示.
表3 顧客意見(jiàn)和優(yōu)化輔助信息的相關(guān)矩陣
通過(guò)分析可知,這款產(chǎn)品在服務(wù)質(zhì)量、電池、內(nèi)存等方面需要優(yōu)化提升,具體優(yōu)化方案如上表所示,優(yōu)化信息中的列權(quán)重之和表征優(yōu)化信息的重要性,在實(shí)際應(yīng)用中,每個(gè)企業(yè)的優(yōu)化方法有所側(cè)重,這時(shí)專(zhuān)家可以適當(dāng)?shù)恼{(diào)整映射關(guān)系矩陣中的權(quán)重系數(shù),提高本方法的適用性.
最終根據(jù)相關(guān)矩陣中權(quán)重的列和,對(duì)產(chǎn)品優(yōu)化信息進(jìn)行降序排列,本章節(jié)僅取top4 進(jìn)行展示,如表4所示.
表4 產(chǎn)品優(yōu)化方案
文章對(duì)產(chǎn)品優(yōu)化輔助信息獲取的技術(shù)和方法進(jìn)行了研究,通過(guò)構(gòu)建的客戶意見(jiàn)的權(quán)重算法模型,實(shí)現(xiàn)了產(chǎn)品優(yōu)化輔助信息提取,為企業(yè)中產(chǎn)品的優(yōu)化提供參考.通過(guò)實(shí)例分析提取出產(chǎn)品優(yōu)化所需要的顧客反饋信息,在節(jié)省的大量的人力成本的情況下為產(chǎn)品的優(yōu)化提供數(shù)據(jù)支持,提高了產(chǎn)品優(yōu)化的科學(xué)性.