陳興達(dá)
?
長(zhǎng)租公寓租戶退租原因分類(lèi)模型的構(gòu)建
陳興達(dá)
(天津商業(yè)大學(xué),天津 300000)
隨著長(zhǎng)租公寓行業(yè)的發(fā)展,市場(chǎng)規(guī)模不斷擴(kuò)大,為了保證產(chǎn)品和服務(wù)的質(zhì)量,長(zhǎng)租公寓的管理需要更加科學(xué)、精準(zhǔn)。用戶退租的原因能夠反應(yīng)出用戶對(duì)于產(chǎn)品和服務(wù)存在哪些不滿,進(jìn)而,長(zhǎng)租公寓企業(yè)可以通過(guò)這些信息進(jìn)行改善。為了通過(guò)這些退租用戶留下的文本信息挖掘有用的信息,利用某長(zhǎng)租公寓2018-01—2018-08的退租用戶在退租時(shí)留下的文本新息,構(gòu)建了一個(gè)可以用來(lái)對(duì)用戶退租原因進(jìn)行分類(lèi)的決策樹(shù)模型,并且模型的準(zhǔn)確性較高。通過(guò)此模型可以準(zhǔn)確發(fā)現(xiàn)用戶退租是因?yàn)榻?jīng)營(yíng)中的哪些問(wèn)題造成的,借此有針對(duì)性地改善長(zhǎng)租公寓提供給用戶的產(chǎn)品和服務(wù)。
文本分類(lèi);機(jī)器學(xué)習(xí);決策樹(shù)模型;長(zhǎng)租公寓
隨著房?jī)r(jià)的不斷上漲,尤其是2016年之后,一、二線城市房?jī)r(jià)的大幅上漲,租房已經(jīng)成為工作在一、二線城市上班族的“必選項(xiàng)”。由于傳統(tǒng)租賃市場(chǎng)的種種問(wèn)題,越來(lái)越多的人選擇管理更加規(guī)范、服務(wù)更加專業(yè)的長(zhǎng)租公寓。在這樣的背景下,長(zhǎng)租公寓的品牌如雨后春筍一般出現(xiàn),并且整個(gè)行業(yè)的規(guī)模也在迅速擴(kuò)大。體量的增長(zhǎng)對(duì)長(zhǎng)租公寓企業(yè)管理的各個(gè)環(huán)節(jié)提出了更高的要求。只有及時(shí)發(fā)現(xiàn)產(chǎn)品和服務(wù)中存在的問(wèn)題,及時(shí)解決問(wèn)題,才能為廣大租客提供更優(yōu)質(zhì)的服務(wù)。顯而易見(jiàn),對(duì)提供租賃服務(wù)的長(zhǎng)租公寓公司的哪些服務(wù)不滿意,租戶是最了解的。其中一部分用戶在不滿達(dá)到一定程度后,就會(huì)選擇不再租住該品牌的公寓,進(jìn)而進(jìn)行退租。這部分用戶的流失原因就是對(duì)產(chǎn)品和服務(wù)中的薄弱環(huán)節(jié)最好的反映。所以市場(chǎng)上的長(zhǎng)租公寓品牌在服務(wù)流程設(shè)計(jì)時(shí),都會(huì)記錄用戶的退租原因,這部分信息在用戶退租時(shí)客服會(huì)記錄,或者客戶在退租時(shí)通過(guò)手機(jī)客戶端進(jìn)行反饋。但是這些有意義的信息往往是通過(guò)文本記錄的,無(wú)法直接進(jìn)行統(tǒng)計(jì)和分析。本文通過(guò)構(gòu)建決策樹(shù)模型對(duì)于用戶退租時(shí)留下的文本信息作為特征,將不同退租用戶進(jìn)行分類(lèi),確定退租用戶因何原因退租。
本文所采用的樣本數(shù)據(jù)集為某長(zhǎng)租公寓公司20182-01—2018-08的退租用戶退租時(shí)留下的退租原因文本,主要記錄了用戶因何原因選擇退租。最終的目標(biāo)是希望構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型,能夠自動(dòng)將用戶退租文本進(jìn)行分類(lèi),確定用戶的退租原因。
訓(xùn)練集的構(gòu)建思路為,首先將樣本集內(nèi)的用戶根據(jù)其退租時(shí)留下的文本信息進(jìn)行人工分類(lèi),判斷其因何原因退租;然后給數(shù)據(jù)集中的每一個(gè)樣本標(biāo)記一個(gè)標(biāo)簽,代表其退租的原因。在所有樣本中的用戶都被標(biāo)記完成后,再將其留下的文本進(jìn)行處理,將每個(gè)用戶留下的退租原因文本進(jìn)行處理,形成一個(gè)特征向量,特征向量中的元素為1或者0,代表某一個(gè)詞語(yǔ)是否出現(xiàn)。所有的工作完成后,獲得一個(gè)可以用來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)集。
2.1.1 訓(xùn)練樣本標(biāo)簽
根據(jù)行業(yè)運(yùn)營(yíng)的經(jīng)驗(yàn),目前長(zhǎng)租公寓租戶的退租原因主要分為以下幾大類(lèi):①銷(xiāo)售人員在銷(xiāo)售過(guò)程中沒(méi)能詳實(shí)介紹房屋的實(shí)際情況,以及在入住后租客和長(zhǎng)租公寓企業(yè)各自的責(zé)任和義務(wù),租客實(shí)際入住后發(fā)現(xiàn)與預(yù)期不符合,產(chǎn)生退租,簡(jiǎn)稱“銷(xiāo)售原因”;②對(duì)于房屋質(zhì)量不滿意,例如對(duì)空氣質(zhì)量、房屋內(nèi)設(shè)施質(zhì)量,以及其他配套設(shè)施不滿意,簡(jiǎn)稱“房屋質(zhì)量原因”;③租客自身信用問(wèn)題無(wú)法通過(guò)信貸審核,不能分期付款作為支出房租,只能選擇退租,簡(jiǎn)稱“金融分期被拒”;④租客對(duì)于長(zhǎng)租公寓企業(yè)提供的客戶服務(wù)不滿意,例如400客服電話無(wú)法接通,或無(wú)法提供有效的客服支持等,簡(jiǎn)稱“客服原因”;⑤客戶自身需求結(jié)構(gòu)發(fā)生變化導(dǎo)致的退租,例如公司提供宿舍、自住購(gòu)房等,簡(jiǎn)稱“客戶自身原因”;⑥由于政策原因,需要將出租房?jī)?nèi)隔斷墻強(qiáng)制拆除等原因造成的退租,簡(jiǎn)稱“外部原因”;⑦由于工作調(diào)動(dòng)造成的退租,簡(jiǎn)稱“工作調(diào)動(dòng)原因”。
按照上述分類(lèi)原則,將45 276條樣本數(shù)據(jù)進(jìn)行人工分類(lèi),分類(lèi)后每類(lèi)樣本的數(shù)量如表1所示。
2.1.2 特征向量構(gòu)造
本文構(gòu)建樣本的特征向量思路為:首先將所有的文本進(jìn)行分詞,分詞后將重復(fù)出現(xiàn)的單詞去除,僅留下一個(gè),這樣就構(gòu)成了一個(gè)所有出現(xiàn)過(guò)的單詞的集合,為了方便,之后在本文中簡(jiǎn)稱這個(gè)集合為“詞典”。特征向量的維度與詞典的維度相同,特征向量中每個(gè)位置對(duì)應(yīng)詞典中對(duì)應(yīng)位置的單詞,并且特征向量中的每個(gè)元素的取值為1或者0,代表對(duì)應(yīng)單詞是否出現(xiàn)在此樣本中。
取樣本中的某一個(gè)退租用戶退租原因的文本舉例,該用戶退租原因的文本為“房屋空氣問(wèn)題無(wú)責(zé)退租、押金全退、結(jié)算剩余房租、結(jié)清水電燃”,按照此方法構(gòu)建特征向量的方法可以得到特征向量如圖1所示。
表1 數(shù)據(jù)集中各類(lèi)樣本的數(shù)量
類(lèi)別樣本數(shù)量 銷(xiāo)售原因567 房屋質(zhì)量原因649 金融分期被拒2 940 客服原因16 客戶自身原因2 060 外部原因1 083 工作調(diào)動(dòng)原因37 691
依照上文中闡述的詞典和特征向量的構(gòu)造方法,通過(guò)Python中的jieba分詞以及scikit-learn模組將45 276條樣本進(jìn)行處理,得到每條樣本的特征向量。
本文采用的機(jī)器學(xué)習(xí)模型為決策樹(shù)模型。決策樹(shù)模型本質(zhì)上就是一個(gè)完備的定義在特征空間與類(lèi)空間的條件概率分布。決策樹(shù)模型存在以下一些優(yōu)點(diǎn):①相較于支持向量機(jī)模型等模型,決策樹(shù)模型更容易解釋,并且可以通過(guò)決策樹(shù)將分類(lèi)規(guī)則可視化;②決策樹(shù)模型對(duì)于數(shù)據(jù)處理等要求比較低,不需要進(jìn)行正態(tài)化,特征間不同量綱不會(huì)對(duì)于模型的學(xué)習(xí)和預(yù)測(cè)造成影響;③模型的初始假設(shè)比較簡(jiǎn)單,相較于樸素貝葉斯等模型那樣嚴(yán)格對(duì)于特征間關(guān)系的假設(shè)來(lái)說(shuō),決策樹(shù)模型對(duì)于特征間關(guān)系的要求較低。
決策樹(shù)模型學(xué)習(xí)算法主要包括以下3個(gè)步驟:①特征選擇,也就是選擇哪個(gè)特征進(jìn)行分類(lèi);②決策樹(shù)的生成;③為了防止過(guò)擬合,需要將第二步生成的決策樹(shù)進(jìn)行剪枝。
本文在學(xué)習(xí)決策樹(shù)模型時(shí)選用的為CART算法。CART算法在決策樹(shù)生成的過(guò)程中通過(guò)遞歸的方法構(gòu)造二叉樹(shù)形式的決策樹(shù),并且利用基尼指數(shù)作為最優(yōu)特征選擇的標(biāo)準(zhǔn)。所謂基尼指數(shù)就是指在分類(lèi)問(wèn)題中,假設(shè)存在個(gè)類(lèi)別,某一個(gè)樣本屬于第個(gè)類(lèi)別的概率為n,則概率分布的基尼指數(shù)定義為:
訓(xùn)練樣本已經(jīng)確定的情況下,假設(shè)樣本數(shù)據(jù)集合用表示,可以通過(guò)如下公式計(jì)算基尼指數(shù):
式(2)中:是樣本中類(lèi)的個(gè)數(shù);n為樣本中第類(lèi)樣本的子集;∣n∣代表樣本中第類(lèi)子集內(nèi)樣本的數(shù)量。
在決策樹(shù)生成階段,從決策樹(shù)的根節(jié)點(diǎn)開(kāi)始,對(duì)于每個(gè)特征以及該特征的每個(gè)可能取值作為分割點(diǎn),將樣本進(jìn)行分割,計(jì)算當(dāng)選擇該特征及特征取值作為分割點(diǎn)后,樣本的基尼指數(shù),最終選擇某一個(gè)特征及其特征值的取值作為分割點(diǎn)。當(dāng)這個(gè)特征的特定取值分割樣本后,得到的基尼指數(shù)最小。從根節(jié)點(diǎn)開(kāi)始按照這個(gè)原則遞歸的向下分割,直到所有的節(jié)點(diǎn)都為葉節(jié)點(diǎn)。但是按照這個(gè)方法生成的決策樹(shù),在泛化的能力上比較差,需要通過(guò)剪枝降低過(guò)擬合的風(fēng)險(xiǎn)。
在剪枝階段,首先從上一步生成的整體樹(shù)0開(kāi)始進(jìn)行剪枝。選擇整體樹(shù)中的某一個(gè)內(nèi)部節(jié)點(diǎn),那么以為單節(jié)點(diǎn)樹(shù)的損失函數(shù)則為:
α()=()+. (3)
以為根節(jié)點(diǎn)的子樹(shù)t的損失函數(shù)為:
α(t)=(t)+∣t∣. (4)
當(dāng)=0及充分小時(shí),存在如下關(guān)系:
α(t)<α(). (5)
當(dāng)增大時(shí),存在某一使得:
α(t)=α(). (6)
按照機(jī)器學(xué)習(xí)訓(xùn)練的一般方法,通過(guò)Python語(yǔ)言中的scikit-learn模組隨機(jī)抽取數(shù)據(jù)集中的70%作為模型訓(xùn)練的訓(xùn)練集,剩余30%的樣本作為模型評(píng)估的測(cè)試集,拆分后訓(xùn)練集和測(cè)試集中各類(lèi)退租用戶的數(shù)量如表2所示。
表2 訓(xùn)練集和測(cè)試集中各類(lèi)樣本數(shù)量
類(lèi)別訓(xùn)練集測(cè)試集 銷(xiāo)售原因419148 房屋質(zhì)量原因496153 金融被拒2 200740 客服原因124 客戶自身原因1 559501 外部原因798285 工作調(diào)動(dòng)原因28 4739 488
在確定訓(xùn)練集后,通過(guò)訓(xùn)練集利用Python語(yǔ)言中的scikit-learn模組對(duì)于決策樹(shù)模型進(jìn)行學(xué)習(xí),然后通過(guò)測(cè)試集對(duì)模型預(yù)測(cè)能力進(jìn)行評(píng)估,模型準(zhǔn)確率的相關(guān)指標(biāo)如表3所示。從預(yù)測(cè)準(zhǔn)確程度的3個(gè)指標(biāo)來(lái)看,由于銷(xiāo)售原因、房屋質(zhì)量原因退租的用戶樣本相對(duì)較少,所以對(duì)于這兩類(lèi)樣本的預(yù)測(cè)能力相對(duì)較差,但是學(xué)習(xí)到的決策樹(shù)模型的綜合預(yù)測(cè)準(zhǔn)確率達(dá)到97%,說(shuō)明學(xué)習(xí)到的決策樹(shù)模型分類(lèi)能力出色。
本文通過(guò)構(gòu)建決策樹(shù)模型對(duì)長(zhǎng)租公寓退租用戶的退租原因進(jìn)行分類(lèi),通過(guò)此模型可以為長(zhǎng)租公寓經(jīng)營(yíng)者提供一個(gè)量化的數(shù)據(jù)支持。在實(shí)際應(yīng)用中可以通過(guò)本模型對(duì)不同時(shí)期的退租用戶對(duì)退租原因進(jìn)行預(yù)測(cè),并統(tǒng)計(jì)各個(gè)時(shí)期不同原因退租用戶的變化。假設(shè)由于“銷(xiāo)售原因”退租的用戶增加,長(zhǎng)租公寓管理者就可以判斷在銷(xiāo)售環(huán)節(jié)自己存在不足。本文提供了一個(gè)進(jìn)行文本分類(lèi)的方法,即先構(gòu)建詞典,再通過(guò)詞典將每條文本轉(zhuǎn)化為特征向量,最后通過(guò)特征向量學(xué)習(xí)機(jī)器學(xué)習(xí)模型。
表3 模型準(zhǔn)確率的相關(guān)指標(biāo)
PrecisionRecallF1-score 銷(xiāo)售原因0.490.500.50 房屋質(zhì)量原因0.610.590.60 金融被拒0.920.950.93 客服原因0.000.000.00 客戶自身原因0.910.930.92 外部原因0.960.920.94 工作調(diào)動(dòng)原因0.990.990.99 平均值0.970.970.97
2095-6835(2019)05-0130-03
F299.23
A
10.15913/j.cnki.kjycx.2019.05.130
陳興達(dá)(1989—),男,遼寧西豐人,主要研究方向?yàn)閿?shù)量經(jīng)濟(jì)學(xué)、經(jīng)濟(jì)預(yù)測(cè)與決策。
〔編輯:嚴(yán)麗琴〕