沈 超,王安寧,陸效農(nóng),彭張林,張 強
(1.合肥工業(yè)大學(xué)管理學(xué)院,安徽 合肥 230009;2.安徽工程大學(xué)經(jīng)濟與管理學(xué)院,安徽 蕪湖 241000;3.過程優(yōu)化與智能決策教育部重點實驗室,安徽 合肥 230009)
隨著科學(xué)技術(shù)的發(fā)展和物質(zhì)生活的豐富,消費者的需求變化越來越快.企業(yè)能否及時把握市場需求變化是決定產(chǎn)品成功的關(guān)鍵.產(chǎn)品設(shè)計者通常使用一些需求模型來預(yù)測客戶偏好,以確定下一代產(chǎn)品應(yīng)該包含和排除的產(chǎn)品屬性.對于高度波動的市場,傳統(tǒng)的需求建模技術(shù)運用單次獲取的調(diào)研數(shù)據(jù)生成預(yù)測模型,往往無法反映產(chǎn)品趨勢的演變過程.
在線評論作為一種新的口碑形式,包含了消費者對產(chǎn)品的全方面評價,有助于企業(yè)了解客戶的偏好.同時,在線評論的收集成本低、更新速度快,對制造企業(yè)及時準(zhǔn)確地獲取客戶偏好變化趨勢具有重要價值.
客戶的需求往往是動態(tài)的,獲取客戶需求及其變化趨勢是一項復(fù)雜的工作.為了及時、準(zhǔn)確地從在線評論中獲取客戶需求的變化,本文提出了一種客戶偏好趨勢挖掘方法.首先,利用信息增益方法測量產(chǎn)品屬性對客戶滿意的重要性,并基于時間序列分析預(yù)測下一時間節(jié)點產(chǎn)品屬性的重要性,實現(xiàn)產(chǎn)品屬性重要性的測量與預(yù)測.然后,基于產(chǎn)品屬性重要性的測量,采用決策樹模型識別出隨時間變化的關(guān)鍵產(chǎn)品屬性.最后,結(jié)合產(chǎn)品屬性重要性的預(yù)測結(jié)果,運用Mann-Kendall 統(tǒng)計趨勢識別技術(shù),依據(jù)產(chǎn)品屬性重要性的變化趨勢將非關(guān)鍵產(chǎn)品屬性分成三類:過時屬性、增值屬性和穩(wěn)定屬性.通過一個汽車產(chǎn)品的示例驗證了本文所提出模型的有效性.研究結(jié)果表明,本文提出的產(chǎn)品屬性分類有助于指導(dǎo)產(chǎn)品架構(gòu),支持在下一代產(chǎn)品設(shè)計中何時包含或排除某些產(chǎn)品功能的決策;所建立的客戶偏好趨勢挖掘模型在k+1 階段樣本分類準(zhǔn)確性預(yù)測上要優(yōu)于單純的決策樹模型,在k+2 階段的預(yù)測效果更加明顯.本文的研究結(jié)果將對新產(chǎn)品開發(fā)過程中產(chǎn)品設(shè)計者制定產(chǎn)品開發(fā)策略起到輔助決策作用.
在產(chǎn)品設(shè)計中,經(jīng)常會應(yīng)用到一些需求建模和偏好測量的方法,例如質(zhì)量功能展開、聯(lián)合分析、離散選擇模型和監(jiān)督機器學(xué)習(xí)模型.本節(jié)只討論決策樹分類模型,它在產(chǎn)品設(shè)計領(lǐng)域的應(yīng)用比較普遍[1].
決策樹代表的是對象屬性與對象值之間的一種映射關(guān)系.產(chǎn)品設(shè)計領(lǐng)域常運用C4.5 等決策樹分類算法分析大規(guī)模消費者數(shù)據(jù)用于產(chǎn)品概念生成.決策樹作為一種預(yù)測模型,算法的基礎(chǔ)是經(jīng)典信息熵理論.在產(chǎn)品設(shè)計術(shù)語中,信息熵可以表示為在數(shù)據(jù)集S中,區(qū)分一個類別和另一個類別的不確定性,可以表示為
其中p(cr)表示數(shù)據(jù)集S中的類變量cr的概率,k表示類變量值的個數(shù).
為了確定最大能力的屬性,減少選擇集的不確定性,根據(jù)屬性變量的取值劃分為n個子數(shù)據(jù)集.給定一個特定的屬性a,信息熵是該屬性的每個唯一值的信息熵的總和為
其中Sj表示訓(xùn)練數(shù)據(jù)S的子集,包含屬性的互斥結(jié)果值,| · |表示集合所包含的元素個數(shù).例如,屬性有三個互斥結(jié)果值(高,中和低),則訓(xùn)練集S將被劃分為三個數(shù)據(jù)子集,S1將包含屬性值為低的所有數(shù)據(jù)實例.
ID3 決策樹分類算法使用信息增益作為屬性選擇的度量,實質(zhì)上是屬性提供的類變量不確定性的減少量.屬性a的Entropya(S)越低,其增益gain(a)越高,這兩者的關(guān)系可表示為
C4.5 算法是繼ID3 算法后的決策樹分類算法,使用增益率進行度量,克服了包含更多互斥結(jié)果屬性帶來的偏差.增益率可以定義為[2]
決策樹分類模型克服了離散選擇模型對高維數(shù)據(jù)進行分析時通常會出現(xiàn)的多重共線問題,更加適合大規(guī)模數(shù)據(jù)分析.此外,由于決策樹分類模型和離散選擇模型都是處理靜態(tài)數(shù)據(jù),單純的決策樹分類模型限制了分析客戶偏好變化趨勢的能力.因此,需要對決策樹模型進行優(yōu)化,從而提高模型分析偏好趨勢的有效性.
為了克服靜態(tài)需求模型的挑戰(zhàn),在效用理論、數(shù)據(jù)挖掘和機器學(xué)習(xí)研究中,時間序列建模技術(shù)應(yīng)運而生.現(xiàn)有文獻針對量化客戶偏好演變,構(gòu)建了時間序列效用函數(shù)模型.Mela 等[3]調(diào)查了營銷活動對消費者選擇行為的短期、中期和長期影響,并在多項Logit 模型中選擇一階導(dǎo)數(shù)信息來量化客戶偏好的時間敏感性.Jedidi 等[4]提出了一個異方差、可變參數(shù)聯(lián)合概率的回歸模型,研究了營銷領(lǐng)域中促銷和廣告之間的權(quán)衡.Seetharaman[5]提出了一種效用理論的品牌選擇模型,該模型考慮了四種不同的狀態(tài)依賴性來源,包括消費者選擇和營銷變量的滯后效應(yīng).Lachaab 等[6]在選擇模型中結(jié)合參數(shù)驅(qū)動的偏好動力學(xué),提出了貝葉斯?fàn)顟B(tài)空間框架,建立了時間離散選擇模型.
上述模型試圖模擬不斷變化的客戶偏好,但是它們主要關(guān)注模型參數(shù)的變化,而不是屬性-類變量關(guān)系的潛在演化.此外,這些時間序列模型不能為設(shè)計者提供下一代產(chǎn)品設(shè)計屬性相關(guān)性的度量.由于所提出的基于時間序列效用是面向營銷領(lǐng)域的,它們更關(guān)注于客戶偏好的經(jīng)濟影響,比如品牌偏好的演變,廣告影響等.但是,設(shè)計工程師面臨的挑戰(zhàn)是確定最佳屬性組合,以便產(chǎn)品架構(gòu)設(shè)計能夠滿足不斷變化的客戶偏好.
除此之外,上述時間序列挖掘算法沒有表明哪些屬性可能隨時間推移表現(xiàn)出較弱預(yù)測能力.因此,必須建立出一種趨勢預(yù)測模型使設(shè)計工程師能夠及時有效地了解不斷變化的客戶偏好.
在線評論作為一種新的口碑形式,引起了信息系統(tǒng)、市場營銷以及產(chǎn)品設(shè)計等領(lǐng)域研究者的極大關(guān)注[7,8]對于產(chǎn)品設(shè)計研究而言,在線評論是消費者主動發(fā)表的客戶聲音,而非被動的問答,對企業(yè)準(zhǔn)確地獲取客戶需求和偏好具有十分重要的價值.
從在線評論中獲取客戶偏好,首要任務(wù)是從評論文本中提取出重要的客戶聲音信息,主要包括客戶討論的產(chǎn)品屬性及其情感態(tài)度[9,10].在線評論中提及的產(chǎn)品屬性通常為名詞及名詞短語,因此頻繁出現(xiàn)的名詞及名詞短語通常被認(rèn)為是潛在的產(chǎn)品屬性[11,12].基于這種考慮,學(xué)者們通常會采用POS 詞性標(biāo)注方法從評論文本中提取出產(chǎn)品屬性.對于產(chǎn)品屬性的情感極性,目前文獻主要是采用情感詞典方法和機器學(xué)習(xí)方法.情感詞典方法主要利用大量標(biāo)注樣本訓(xùn)練生成情感詞典,情感詞典中包含了正面情感和負面情感的詞語,通過情感詞典識別語句中帶有情感極性的詞語,并以此判定產(chǎn)品屬性的情感態(tài)度.
許多學(xué)者結(jié)合從評論文本中提取的客戶聲音和消費者的打分、購買等數(shù)據(jù),利用聯(lián)合分析、離散選擇模型等偏好模型,分析產(chǎn)品屬性對客戶滿意、產(chǎn)品價格或產(chǎn)品銷量的影響機制[13,14].劉曉君等[15]運用復(fù)雜網(wǎng)絡(luò)方法和隱含狄利克雷分配模型,探討了在線評論的相互關(guān)系及整體演化發(fā)展.本文主要是采用決策樹模型分析客戶偏好的時序變化,將產(chǎn)品屬性分為關(guān)鍵屬性和非關(guān)鍵屬性.對于非關(guān)鍵屬性,根據(jù)重要性變化趨勢分為三類:過時屬性、增值屬性和穩(wěn)定屬性.這種產(chǎn)品屬性分類,有助于指導(dǎo)制造企業(yè)的產(chǎn)品架構(gòu)設(shè)計,以及輔助產(chǎn)品資金投入方案決策.
客戶偏好反映了客戶習(xí)慣于消費某種產(chǎn)品的心理行為,提升企業(yè)產(chǎn)品和服務(wù)價值的關(guān)鍵所在就是不斷滿足客戶的需求偏好,只有滿足了不同客戶的需求,才能實現(xiàn)產(chǎn)品和服務(wù)的價值最大化.客戶偏好的研究還是企業(yè)進行市場細分的基礎(chǔ),企業(yè)通過不同客戶群的偏好從而合理的選擇營銷策略和銷售管理方案.
目前,相關(guān)文獻主要基于營銷理論和市場細分過程,采用傳統(tǒng)的統(tǒng)計調(diào)查和實證分析等方法分析客戶偏好.例如,Das 等[16]通過多元統(tǒng)計技術(shù)對反饋調(diào)查獲得的信息進行處理,以獲得顧客對鞋業(yè)零售市場中的特征偏好.Mihelis 等[17]對民營銀行客戶滿意度進行調(diào)查,并基于多準(zhǔn)則分析和偏好分解模型挖掘具有獨特偏好和期望的客戶集群.Kontot 等[18]針對影響客戶對伊斯蘭銀行存款偏好的因素進行面對面訪談,并制定針對性的調(diào)查問卷,從而發(fā)現(xiàn)影響顧客決策偏好的決定因素.Cao 等[19]開發(fā)了偏好分類法對產(chǎn)品屬性進行分類,實現(xiàn)將客戶偏好映射到產(chǎn)品領(lǐng)域本體,從而驅(qū)動高級概念生成,并且通過有關(guān)手機產(chǎn)品的實證研究證明了客戶偏好驅(qū)動的概念生成方法的有效性.
隨著計算機技術(shù)的發(fā)展,基于Web 日志挖掘、網(wǎng)頁數(shù)據(jù)挖掘逐漸成為獲取客戶偏好的主要方法.Zhou等[20]基于用戶生成的在線產(chǎn)品評論的情緒分析,來預(yù)測客戶偏好的趨勢,并通過平板電腦的應(yīng)用案例驗證了所提方法的有效性.Zhang 等[21]提出了一種基于在線產(chǎn)品購買數(shù)據(jù)的客戶偏好預(yù)測方法,并以玩具車的特征表征和顧客偏好預(yù)測為例說明了所提出的方法的有效性.Milovanovi? 等[22]建立了一種基于社交網(wǎng)絡(luò)分析(SNA)的客戶偏好識別方法,獲取的客戶偏好用于開發(fā)推薦系統(tǒng)以及營銷策略的定制.Ye 等[23]從時間和空間上對旅客的住宿偏好進行分析,并運用酒店的在線評論挖掘來自不同地區(qū)旅客的季節(jié)性需求偏好.此外,研究者還通過建立智能算法系統(tǒng)實現(xiàn)客戶偏好的收集.例如,Li 等[24]基于AP-KNN 算法開發(fā)了一個軟件原型系統(tǒng),實現(xiàn)了客戶反饋收集、客戶偏好推理以及動機分析.Ma 等[25]提出了連續(xù)偏好趨勢挖掘(CPTM)算法以從交易數(shù)據(jù)中捕獲客戶購買模式的隱藏趨勢.
從前期對客戶需求偏好研究的文獻來看,客戶偏好研究的數(shù)據(jù)獲取經(jīng)歷了從傳統(tǒng)調(diào)查到網(wǎng)絡(luò)數(shù)據(jù)的轉(zhuǎn)變,相對應(yīng)的研究方法也從實證研究發(fā)展到網(wǎng)絡(luò)數(shù)據(jù)挖掘.在當(dāng)前研究的基礎(chǔ)上,本文基于在線評論數(shù)據(jù),運用決策樹模型和趨勢檢驗?zāi)P蛯Ξa(chǎn)品屬性進行分類,分析客戶偏好變化趨勢.
圖1 介紹了偏好趨勢挖掘模型的總體流程,主要包括產(chǎn)品屬性重要性測量和預(yù)測,關(guān)鍵產(chǎn)品屬性識別以及非關(guān)鍵產(chǎn)品屬性分類.通過這3 個步驟,可以預(yù)測產(chǎn)品每個屬性的趨勢模式是單調(diào)增加,單調(diào)減少或是季節(jié)性趨勢;選擇相關(guān)性(可以用信息增益度量)最高的屬性作為關(guān)鍵屬性,運用決策樹模型將客戶對產(chǎn)品的打分進行分類:而對于非關(guān)鍵屬性,運用Mann-Kendall 方法將其分為過時屬性、增值屬性和穩(wěn)定屬性三個類別.這一過程獲得的結(jié)果可以為制造企業(yè)在開發(fā)產(chǎn)品時應(yīng)該加入何種功能提供參考.
圖1 偏好趨勢挖掘模型框架Fig.1 The framework of preference trend mining model
在線評論數(shù)據(jù)通常包含評論文本和客戶對產(chǎn)品的打分.根據(jù)收集的大規(guī)模在線評論,本文首先采用POS 詞性標(biāo)記方法提取潛在產(chǎn)品屬性詞語[26],然后通過人工剔除其中常見的非屬性詞語,并對剩余潛在屬性詞語進行同義詞合并,生成產(chǎn)品屬性詞典.依據(jù)生成的屬性詞典,可以識別每條評論提及的產(chǎn)品屬性.若屬性出現(xiàn)在滿意評論中,則屬性情感為正面;若屬性出現(xiàn)在不滿意評論中,則屬性情感為負面[27,28].
此外,本文將客戶對產(chǎn)品的打分作為類變量,視為客戶滿意程度.為方便計算,可以將客戶對產(chǎn)品的打分劃分為高,中,低三個類別.結(jié)合屬性情感(正面,負面和未出現(xiàn))以及客戶對產(chǎn)品的打分(高,中,低),可以運用信息增益方法計算每個產(chǎn)品屬性對于客戶滿意度的影響大小.因此,產(chǎn)品屬性a的信息熵為
其中S+,S-和S0分別表示產(chǎn)品屬性a為正面、負面以及未出現(xiàn)的評論.
結(jié)合式(3)可以計算每個產(chǎn)品屬性的信息增益.將處理好的數(shù)據(jù)集劃分為n節(jié)時間段,分別計算每節(jié)時間段產(chǎn)品屬性的重要性,并采用Holt-Winters 模型,從而實現(xiàn)產(chǎn)品屬性重要性的測量和預(yù)測.
以屬性1 和屬性2 為例,屬性1 和屬性2 的正負面評論數(shù)量及其信息增益如圖2 所示.可以看出屬性1負面評論數(shù)量較多,且呈現(xiàn)增長趨勢.而屬性2 正面評論呈現(xiàn)增長趨勢,且遠多于負面評論.同時,屬性1 重要性在后面幾個時間階段呈現(xiàn)緩慢下降趨勢,而屬性2 重要性卻呈現(xiàn)不斷上升趨勢.
圖2 產(chǎn)品屬性情感和信息增益變化趨勢Fig.2 The trends of product attribute sentiment and information gain
從圖2(c)還可以發(fā)現(xiàn),在時間段6 之后,屬性2 的重要性開始超過屬性1.在時間段6 之前生成的產(chǎn)品屬性重要性測量中,將無法發(fā)現(xiàn)這一新興客戶偏好趨勢.為了克服這項挑戰(zhàn),本文采用Holt-Winters 指數(shù)平滑模型預(yù)測下一階段的客戶偏好,運用加權(quán)平均技術(shù),同時考慮時間序列中數(shù)據(jù)趨勢和季節(jié)性成分.Holt-Winters 是一種非參數(shù)模型,可用于將具有線性趨勢、季節(jié)變動和隨機變動的時間序列進行分解,并結(jié)合指數(shù)平滑法對屬性重要性進行第k步預(yù)測,有助于在市場空間中對新興的偏好趨勢進行判斷.一般把時間序列的系統(tǒng)性部分分為水平、趨勢和季節(jié)性三種成分[29].針對這三種成分,分別對長期趨勢、趨勢增量和季節(jié)變動做出估計,k步提前預(yù)測模型為
式(6)中,水平成分Lt可表示為
趨勢成分Tt可表示為
季節(jié)性成分It可表示為
其中yt表示近期時間段t時刻的數(shù)據(jù)點,yt(k)表示超過yt的第k節(jié)時間段的預(yù)測值,有yt(k)=yt+k,s表示季節(jié)性頻率.平滑參數(shù)α,γ和δ都在[0,1]范圍內(nèi),并通過最小化前一個時間段步長的誤差平方和來估計[30].
關(guān)鍵產(chǎn)品屬性識別是需求預(yù)測模型的主要挑戰(zhàn)之一,本文采用決策樹分類模型幫助制造企業(yè)理解關(guān)鍵產(chǎn)品屬性.為便于理解,本文提供以下示例用于理解關(guān)鍵產(chǎn)品屬性識別過程.假定汽車產(chǎn)品的屬性集合為{外觀,內(nèi)飾,動力,油耗,操控,天窗},所有產(chǎn)品屬性有正面、負面和未出現(xiàn)三個屬性值.客戶對產(chǎn)品的打分被定義為依賴于多個屬性情感的類變量,取值集合為{高,中,低}.
對于某一時間段的關(guān)鍵產(chǎn)品屬性識別,圖3 給出了決策樹模型的直觀表示.決策樹模型一般包括收集和準(zhǔn)備數(shù)據(jù)、選取劃分算法、構(gòu)造決策樹、測試和使用算法等步驟.通常,決策樹模型依據(jù)信息增益或Gini指數(shù)等算法進行數(shù)據(jù)集劃分.本文采用信息增益作為劃分?jǐn)?shù)據(jù)集的依據(jù).首先,依據(jù)式(3)和式(5)計算每個產(chǎn)品屬性對應(yīng)的信息增益;然后,挑選信息增益最大的產(chǎn)品屬性劃分?jǐn)?shù)據(jù)集.通過決策樹模型,驗證了四個關(guān)鍵產(chǎn)品屬性“動力”、“內(nèi)飾”、“油耗”和“外觀”,同時了解到這四個關(guān)鍵產(chǎn)品屬性的分類能力是依次減弱的.
圖3 決策樹分類模型示例Fig.3 The example of decision tree classification model
為了給設(shè)計工程師提供細粒度的客戶需求,本文采用點互信息(PMI)來挖掘每個時間段的屬性觀點[31],例如“外觀–優(yōu)雅”、“油耗–較高”等.PMI 可以用于衡量兩個變量之間的相關(guān)性,
其中p(a,o)表示產(chǎn)品屬性與屬性觀點o共同出現(xiàn)的概率,p(a)表示產(chǎn)品屬性a出現(xiàn)的概率,p(o)表示觀點o出現(xiàn)的概率.
根據(jù)PMI 值的大小,可以從評論文本中識別出每個產(chǎn)品屬性的客戶觀點.關(guān)鍵產(chǎn)品屬性及其觀點隨著時間的推移也在不斷變遷.其演變趨勢有助于制造企業(yè)加深對客戶需求和偏好的了解.為了便于理解,本節(jié)給出一個示例,如圖4 所示.可以發(fā)現(xiàn),在T2時刻,“配置”成為關(guān)鍵屬性,并且其受關(guān)注程度到T3時刻逐步增大,此外,隨時間變化,關(guān)鍵屬性“外觀”的關(guān)注度在逐漸增大.對于屬性觀點,消費者越來越厭惡大眾風(fēng)格的“內(nèi)飾”,越來越偏好環(huán)保的“外觀”.
圖4 關(guān)鍵產(chǎn)品屬性及其觀點變遷的示例Fig.4 An example of key product attributes and their views change
此外,可以發(fā)現(xiàn)產(chǎn)品屬性“操控”和“天窗”并不在決策樹模型分類規(guī)則中,本文將其稱為非關(guān)鍵產(chǎn)品屬性.對于非關(guān)鍵產(chǎn)品屬性,存在兩點疑問:1)是否存在一些產(chǎn)品屬性沒有在決策樹分類規(guī)則中,但是在產(chǎn)品設(shè)計中對設(shè)計工程師和制造企業(yè)十分重要?2)非關(guān)鍵產(chǎn)品屬性在未來的產(chǎn)品設(shè)計中是否會轉(zhuǎn)變成關(guān)鍵產(chǎn)品屬性? 這些疑問提示設(shè)計工程師不能忽略非關(guān)鍵產(chǎn)品屬性,一旦忽略非關(guān)鍵產(chǎn)品屬性將無法完整地獲取客戶需求,從而容易導(dǎo)致產(chǎn)品開發(fā)的失敗.對于非關(guān)鍵產(chǎn)品屬性,將在3.3 節(jié)予以詳細的探討.
產(chǎn)品屬性對消費者購買決策具有至關(guān)重要的影響,關(guān)系到制造企業(yè)新產(chǎn)品開發(fā)策略是否能滿足市場的需求.在新產(chǎn)品開發(fā)策略過程中,非關(guān)鍵產(chǎn)品屬性不會顯著影響客戶滿意程度.但是,為了避免忽略一些重要產(chǎn)品屬性,對于非關(guān)鍵產(chǎn)品屬性,采用Mann-Kendall 趨勢檢測,觀察每個產(chǎn)品屬性重要性是否表現(xiàn)出單調(diào)減少或單調(diào)增加趨勢,也就是產(chǎn)品屬性的未來趨勢是失去滿足客戶的能力還是獲取不斷滿足客戶的能力,從而將產(chǎn)品屬性確定為過時屬性或增值屬性.對于檢測過程中產(chǎn)品屬性重要性沒有表現(xiàn)出明顯單調(diào)減少或者單調(diào)增加趨勢,比如,表現(xiàn)出在某一范圍內(nèi)周期性波動趨勢,或者是平穩(wěn)趨勢,將這類產(chǎn)品屬性統(tǒng)一歸為穩(wěn)定屬性.這樣,所有的產(chǎn)品屬性根據(jù)其重要性隨時間變化,都可以分成確定類別,為產(chǎn)品開發(fā)工程師提供一定的參考.
1)過時屬性.在給定的時間段t1到tn過程中,如果在迭代過程中認(rèn)為屬性a是非關(guān)鍵的,并且隨著時間推移不會系統(tǒng)地影響客戶滿意度,則屬性a被定義為過時屬性.通過Mann-Kendall 趨勢檢測,如果屬性a的重要性表現(xiàn)出單調(diào)減少趨勢,表明屬性a隨時間推移不斷失去滿足客戶偏好的能力.如果產(chǎn)品屬性在給定時間序列結(jié)束時屬于該分類,則在下一代產(chǎn)品設(shè)計中忽略該產(chǎn)品屬性.
2)增值屬性.給定的時間段t1到tn過程中,如果在迭代過程中認(rèn)為屬性a是非關(guān)鍵的,并且隨著時間推移會系統(tǒng)地影響客戶滿意度,則屬性a被定義為增值屬性.通過Mann-Kendall 趨勢檢測,如果屬性a的重要性表現(xiàn)出單調(diào)增加趨勢,表明屬性a隨時間推移始終獲得滿足客戶偏好的能力.如果產(chǎn)品屬性在給定時間序列結(jié)束時屬于此分類,盡管表征出一定的非關(guān)鍵性,也應(yīng)該視為對產(chǎn)品設(shè)計至關(guān)重要的產(chǎn)品屬性.
3)穩(wěn)定屬性.給定的時間段t1到tn過程中,如果在迭代過程中認(rèn)為屬性a是非關(guān)鍵的,并且隨著時間推移無法確定與客戶滿意度的可辨別關(guān)系,則屬性a被定義為穩(wěn)定屬性.通過Mann-Kendall 趨勢檢測,穩(wěn)定屬性的重要性沒有單調(diào)增加或減少的趨勢.在產(chǎn)品設(shè)計中表現(xiàn)出這種情況的產(chǎn)品屬性可能是消費者尚未完全意識到的新穎屬性.這類產(chǎn)品屬性不應(yīng)該被忽略,經(jīng)過消費者的口碑傳播最終可能成為增值屬性.
本文使用非參數(shù)Mann-Kendall 方法來檢測迭代過程中被認(rèn)為是非關(guān)鍵產(chǎn)品屬性的重要性變化趨勢.Mann-Kendall 檢驗[32]方法不要求被分析樣本遵從一定分布,同時也不受異常值的干擾.由于計算簡便,眾多學(xué)者將其應(yīng)用于分析關(guān)鍵要素的時間序列變化趨勢,Mann-Kendall 測試的統(tǒng)計量[33]為
其中n表示時間序列數(shù)據(jù)點的總數(shù),xj代表前一時刻數(shù)據(jù)點,xi代表當(dāng)前數(shù)據(jù)點.
按下列方式標(biāo)準(zhǔn)化統(tǒng)計量S,即
統(tǒng)計量Z服從標(biāo)準(zhǔn)正態(tài)分布.如果p–值小于顯著性水平(α=0.05),表明存在變化趨勢,Z為負值,則為增值屬性,Z為正值,則為過時屬性.如果p–值大于顯著性水平,則為穩(wěn)定屬性.企業(yè)決策者希望了解特定產(chǎn)品的整體市場需求,以便可以做出潛在產(chǎn)品的開發(fā)決策,基于時間序列趨勢,利用Holt-Winters 方法可以估計產(chǎn)品屬性在下一階段的重要性水平,并結(jié)合決策樹分類模型和Mann-Kendall 檢驗,可以為企業(yè)的產(chǎn)品設(shè)計與開發(fā)提供輔助決策.
汽車作為重要的消費產(chǎn)品,在汽車論壇上有著大量的客戶評論.因此,本文以汽車產(chǎn)品為研究對象,在易車網(wǎng)、太平洋汽車網(wǎng)上收集了12 款國產(chǎn)汽車SUV 品牌的所有客戶評論,數(shù)據(jù)內(nèi)容包括滿意部分、不滿意部分、客戶對產(chǎn)品的打分和評論時間.考慮到產(chǎn)品的更新周期以及收集的數(shù)據(jù)集的大小,即汽車公司的汽車產(chǎn)品一年更新1 次到2 次,收集的評論數(shù)據(jù)集要能保證實驗結(jié)果中的趨勢變化較為明顯,本實驗采用3 年的在線評論數(shù)據(jù),共計有效評論16 388 條,從2014 年7 月到2017 年6 月,分為12 個階段,每個階段代表1 個季度(見圖7 和圖9).
圖9 偏好趨勢模型和決策樹模型預(yù)測準(zhǔn)確率對比Fig.9 Comparison of predictive accuracy between preference trend model and decision tree model
基于現(xiàn)有產(chǎn)品屬性識別方法,本案例研究識別出24 個汽車產(chǎn)品屬性.根據(jù)產(chǎn)品屬性在滿意評論和不滿意評論中出現(xiàn)的頻次,得到產(chǎn)品屬性正負面情感的分布,如圖5 所示.可以看出“外觀”、“配置”和“價格”等產(chǎn)品屬性的正面情感遠多于負面情感;相反,“用料”、“隔音”和“后備箱”等產(chǎn)品屬性的負面情感遠多于正面情感; 此外,“油耗”、“動力”和“中控”等產(chǎn)品屬性的正負面情感相差不大.同時,可以得到客戶打分的分布,如圖6 所示.由于5 分和4 分的評論遠多于其他打分,為確保類變量分布的均衡,本案例研究將5 分設(shè)定為高分,4 分設(shè)定為中等分,3 分及以下打分設(shè)定為低分.
圖5 產(chǎn)品屬性的正負面情感分布Fig.5 Positive and negative emotional distribution of product attributes
圖6 客戶打分的分布Fig.6 The distribution of customers’score
本文提出的基于在線評論的客戶偏好趨勢挖掘方法,首先利用Holt-Winters 方法預(yù)測下一階段產(chǎn)品屬性重要性,然后結(jié)合決策樹分類模型和Mann-Kendall 檢驗分析客戶偏好變化趨勢.因此,首先展示產(chǎn)品屬性重要性隨時間變化趨勢,并檢驗Holt-Winters 方法預(yù)測的效果.圖7 展示了“動力”、“內(nèi)飾”、“外觀”、“油耗”和“導(dǎo)航”屬性在12 個階段的變化趨勢以及第13 個階段的預(yù)測值.可以看出“動力”和“內(nèi)飾”呈現(xiàn)增長趨勢,“導(dǎo)航”呈現(xiàn)降低趨勢,“油耗”呈現(xiàn)周期性變化,“外觀”基本保持穩(wěn)定趨勢.此外,可以觀察到“動力”在第12 階段開始高于“外觀”,“內(nèi)飾”在第13 階段開始高于“外觀”,與Holt-Winters 模型的預(yù)測相吻合.
圖7 不同時間段各屬性信息增益變化Fig.7 The change of information gain of each attribute in different time periods
為了展示決策樹分類模型和Mann-Kendall 檢驗的效果,本節(jié)利用最新數(shù)據(jù)集(第13 時間階段)生成的預(yù)測結(jié)果,如圖8 所示.可以看出關(guān)鍵產(chǎn)品屬性依次為“動力”、“內(nèi)飾”、“外觀”、“價格”、“油耗”、“空間”、“用料”和“配置”.對于不在決策樹分類規(guī)則中的非關(guān)鍵產(chǎn)品屬性,設(shè)計工程師并不能直接忽略.非關(guān)鍵產(chǎn)品屬性僅僅意味著信息增益不夠高,不代表對客戶滿意的影響可以忽略.本文將這些非關(guān)鍵產(chǎn)品屬性分為過時屬性、增值屬性或穩(wěn)定屬性,Mann Kendall 趨勢檢驗結(jié)果如表1 所示,結(jié)果表明“智能語言”、“中控”、“隔音”、“做工”、“天窗”、“影像”和“后備箱”表征為增值屬性;“大燈”、“輪胎”、“一鍵功能”、“座椅”、“安全”、“底盤”、“舒適”和“控制”表征為穩(wěn)定屬性;“導(dǎo)航”表征為過時屬性.
圖8 第13 時間階段生成的決策樹Fig.8 Decision tree generated in the 13th time period
表1 非關(guān)鍵屬性趨勢檢驗結(jié)果Table 1 The trend test result of Non-critical attribute
續(xù)表1Table 1 Continues
由于產(chǎn)品開發(fā)需要一定的周期,因此客戶偏好模型必須具備能夠預(yù)測未來一段時間客戶需求的能力.本節(jié)將對比決策樹模型和本文提出的客戶偏好趨勢模型.單純的決策樹模型主要是根據(jù)最新數(shù)據(jù)集生成的分類規(guī)則來判別未來階段的客戶滿意度.本文的的客戶偏好模型可以利用時間序列數(shù)據(jù),先剔除非關(guān)鍵屬性中的過時屬性和穩(wěn)定屬性,然后根據(jù)最近數(shù)據(jù)集生成的決策樹分類規(guī)則判別未來階段的客戶滿意度.舉例來說,當(dāng)前是第10 階段,單純的決策樹模型根據(jù)第10 階段的數(shù)據(jù)生成分類規(guī)則,然后用于測試第11或12 階段樣本分類的準(zhǔn)確率.客戶偏好趨勢模型根據(jù)第1 階段至第9 階段,判別產(chǎn)品屬性的類型,然后選擇關(guān)鍵屬性和增值屬性,生成第10 階段的決策樹分類規(guī)則,并用于測試第11 階段或12 階段樣本分類的準(zhǔn)確率.
本文研究選擇預(yù)測k+1 階段和k+2 階段的樣本分類準(zhǔn)確率,結(jié)果如圖9 所示.可以發(fā)現(xiàn)客戶偏好趨勢模型明顯優(yōu)于單純的決策樹模型.此外,在k+2 階段客戶偏好趨勢模型的優(yōu)越性更加明顯.比較結(jié)果表明本文提出的客戶偏好趨勢挖掘模型能夠較好地預(yù)測未來一段時間的客戶需求.
本文主要的貢獻是利用在線評論數(shù)據(jù)生成客戶偏好趨勢.首先,使用信息增益測量產(chǎn)品屬性的重要性,并運用時間序列模型預(yù)測產(chǎn)品屬性重要性的變化趨勢;然后,運用決策樹分類模型識別隨時間推移的關(guān)鍵產(chǎn)品屬性;最后,運用Mann-Kendall 統(tǒng)計趨勢識別技術(shù)將非關(guān)鍵產(chǎn)品屬性分為過時屬性、增值屬性和穩(wěn)定屬性.本文研究可以有助于制造企業(yè)洞察市場變化,并且指導(dǎo)產(chǎn)品架構(gòu),從而使生產(chǎn)的產(chǎn)品最大化地滿足市場客戶的需求和偏好.由于在線評論數(shù)據(jù)樣本存在著自我選擇偏差性,今后可以結(jié)合傳統(tǒng)調(diào)研數(shù)據(jù)與在線評論數(shù)據(jù)的各自特點,從而使獲得的客戶偏好更加真實.另一方面,在線評論提及的產(chǎn)品屬性主要是客戶的主觀感知屬性,而對一些企業(yè)設(shè)定的產(chǎn)品結(jié)構(gòu)細節(jié)屬性缺乏討論,所以,在今后的研究工作中,可以構(gòu)建客戶主觀屬性與產(chǎn)品客觀屬性的映射關(guān)系,從而有效地利用在線評論中的客戶主觀信息,更加細粒度地支持企業(yè)的產(chǎn)品架構(gòu)設(shè)計.