李冶 秦嘉寧
摘 要:本文使用K-means聚類算法對(duì)數(shù)據(jù)進(jìn)行分類,給同一屬性的數(shù)據(jù)打上標(biāo)簽,從而形成對(duì)客戶的精準(zhǔn)畫像,并根據(jù)已給公司車險(xiǎn)業(yè)務(wù)的數(shù)據(jù),運(yùn)用了單因素敏感度分析法,篩選出具有解釋能力的變量,繼而選定廣義線性模型中的Logistics多元回歸模型,確定了模型結(jié)構(gòu)和定量計(jì)算公式,建立了具有可操作性和可推廣性的續(xù)保率預(yù)測(cè)模型,并使用VBA編程語言,實(shí)現(xiàn)了模型的自動(dòng)化求解,對(duì)續(xù)保率進(jìn)行了較為準(zhǔn)確的預(yù)測(cè)。最后還對(duì)模型進(jìn)行評(píng)價(jià),對(duì)模型優(yōu)點(diǎn)和缺點(diǎn)進(jìn)行了客觀評(píng)價(jià),對(duì)存在的不足進(jìn)行了改進(jìn),最后,將模型進(jìn)行了縱向和橫向等多個(gè)方向的推廣。
關(guān)鍵詞:車險(xiǎn)續(xù)保;Logistics回歸;K-means聚類算法;畫像
一、研究背景
隨著經(jīng)濟(jì)的高速發(fā)展,汽車成為了人們不可缺少的交通工具,伴隨著汽車行業(yè)的高速發(fā)展,出現(xiàn)了機(jī)動(dòng)車的保險(xiǎn),即車險(xiǎn)。保險(xiǎn)自身是一種分散風(fēng)險(xiǎn)、消化損失的經(jīng)濟(jì)補(bǔ)償制度,車險(xiǎn)即為分散機(jī)動(dòng)車輛在行駛過程中可能發(fā)生的未知風(fēng)險(xiǎn)和損失的一種保障機(jī)制。種類主要有國家強(qiáng)制的交強(qiáng)險(xiǎn)和商業(yè)險(xiǎn),汽車保險(xiǎn)是財(cái)產(chǎn)保險(xiǎn)的一種,在財(cái)產(chǎn)保險(xiǎn)領(lǐng)域中,汽車保險(xiǎn)屬于一個(gè)相對(duì)年輕的險(xiǎn)種。和其他保險(xiǎn)險(xiǎn)種一樣,汽車保險(xiǎn)為了擴(kuò)大市場(chǎng)份額,在保證新客戶的同時(shí)也要保證老客戶的續(xù)保率。
二、研究現(xiàn)狀綜述
據(jù)當(dāng)前的研究現(xiàn)狀表明,續(xù)保率主要受已續(xù)保年限、公司、車齡、被保險(xiǎn)人年齡、NCD等因素的影響。車保的續(xù)保業(yè)務(wù)占比也逐年提升,長(zhǎng)期將對(duì)行業(yè)競(jìng)爭(zhēng)和發(fā)展模式產(chǎn)生重要影響。隨著新車銷售放緩,車險(xiǎn)市場(chǎng)中新車業(yè)務(wù)占比日漸下滑。一些較大的保險(xiǎn)公司,在續(xù)保方面仍占據(jù)了較大的市場(chǎng),但已經(jīng)呈現(xiàn)出一定的防守態(tài)勢(shì)。在整個(gè)車保險(xiǎn)行業(yè)上,還未能對(duì)客戶的續(xù)保率做出較為準(zhǔn)確的預(yù)測(cè),當(dāng)在如何提高續(xù)保率方面已經(jīng)有了一定的研究,在針對(duì)不同的客戶提供一系列的福利方案也有了一定的戰(zhàn)略,但在針對(duì)客戶的具體畫像方面還未有較為成熟的策略。
三、建模過程
本文對(duì)已有客戶續(xù)保率數(shù)據(jù)進(jìn)行分析處理,得到有效的數(shù)據(jù)之后,對(duì)客戶進(jìn)行了畫像。根據(jù)附件一中的數(shù)據(jù),給客戶的畫像貼上了購車檔次、客戶性別、年齡階段、駕駛習(xí)慣記錄、客戶按保單分類、是否是本省客戶、三者險(xiǎn)投保情況七個(gè)標(biāo)簽。
將表中數(shù)據(jù)以概率形式(即權(quán)重向量)把屬性變量聯(lián)系起來,即
而續(xù)保概率,因此,直接把概率與之間建立函數(shù)關(guān)系是不可取的。
故假設(shè)變量的函數(shù)形式為
Logistics模型是取列聯(lián)表中具有優(yōu)勢(shì)的對(duì)數(shù)。當(dāng),可以取任意實(shí)數(shù),彌補(bǔ)了線性概率模型結(jié)構(gòu)的不足之處。
因變量續(xù)保是二分變量,令產(chǎn)生續(xù)保結(jié)果表示為,不產(chǎn)生續(xù)保結(jié)果表示為,故續(xù)保概率可表示為。設(shè)影響客戶是否續(xù)保的因素有個(gè),為,故續(xù)保率影響公式可列為
設(shè)為對(duì)應(yīng)影響因素的權(quán)重向量,故多元logistics模型的形式可化為
將等式兩邊各取對(duì)數(shù),可得出求解續(xù)保率的公式為
由于模型中的因變量是二分的,而不是連續(xù)變量,故其誤差符合二項(xiàng)分布,而不是正態(tài)分布。因此權(quán)重向量應(yīng)使用極大似然估計(jì)法模擬得出。
四、模型的應(yīng)用
(一)數(shù)據(jù)預(yù)處理。對(duì)客戶續(xù)保數(shù)據(jù)進(jìn)行預(yù)處理,保險(xiǎn)時(shí)間小于一年的數(shù)據(jù)對(duì)續(xù)保概率的預(yù)測(cè)作用效果不大,故剔除保險(xiǎn)期限小于一年的記錄。
(二)變量選取與說明。單因素敏感性分析法 假定其他因素不發(fā)生變化,就單個(gè)不確定因素的變動(dòng)計(jì)算對(duì)經(jīng)濟(jì)效果指標(biāo)的影響,在分析方法上類似于數(shù)學(xué)上多元函數(shù)的偏微分。
基于收集到的現(xiàn)有字段進(jìn)行數(shù)據(jù)分析。采用單因素敏感性分析法,將所有已獲取變量進(jìn)行分析,從中選取具有統(tǒng)計(jì)顯著性和存在合理趨勢(shì)的變量,見表。
運(yùn)用SPSS軟件對(duì)處理后的數(shù)據(jù)進(jìn)行多元Logistics分析,將品牌、車系這兩個(gè)過于分散的因素過濾,把其他變量導(dǎo)入模型中。
模型擬合卡方值為4631.121,自由度為65,顯著性0.000小于0.05,說明模型的擬合優(yōu)度較好。從各變量的卡方占比可得出,對(duì)是否續(xù)保影響力較大的因素有銷售渠道、是否本省車牌,NCD、立案件數(shù)、續(xù)保年、風(fēng)險(xiǎn)類別及簽單保費(fèi),詳見表。
將模型求解結(jié)果參數(shù)估計(jì)值導(dǎo)出,其中B行為各變量對(duì)應(yīng)回歸系數(shù)。
選擇原表中四千條記錄作為續(xù)保概率預(yù)測(cè)訓(xùn)練集,與真實(shí)情況比較,模型擬合效果。將模型回歸系數(shù)迭代入各條數(shù)據(jù),得模型擬合程度評(píng)估。實(shí)測(cè)否,預(yù)測(cè)否3148條記錄,預(yù)測(cè)是5條記錄,否值預(yù)測(cè)正確率99.8%;實(shí)測(cè)是,預(yù)測(cè)否1條記錄,預(yù)測(cè)是1035條記錄,是值預(yù)測(cè)正確率99.9%。整體預(yù)測(cè)正確百分比為99.9%,可見模擬預(yù)測(cè)良好。
因?yàn)椴煌目蛻魧?duì)續(xù)保有著不同的積極性,續(xù)保的概率會(huì)受到許多因素的影響,而優(yōu)惠福利則是直接的影響因素,根據(jù)一中得到的客戶畫像,將客戶分成不同的類型,然后再對(duì)不同類型的客戶,分析客戶的內(nèi)在屬性和續(xù)保率的相關(guān)關(guān)系,分析出對(duì)優(yōu)惠和福利較為敏感的客戶,設(shè)計(jì)出不同的優(yōu)惠和福利方案,增加他們續(xù)保的積極性,從而提高客戶的續(xù)保率。
(三)問題的求解。已求客戶畫像的相關(guān)屬性和和客戶續(xù)保率的線性相關(guān)系數(shù),相關(guān)系數(shù)為正表示續(xù)保率隨著相關(guān)屬性值的增加而增加,相關(guān)系數(shù)為負(fù),表示續(xù)保率隨著相關(guān)屬性值的增加而減少。對(duì)含有較大負(fù)相關(guān)屬性值的客戶應(yīng)該提供一系列的優(yōu)惠和福利,增加他們的續(xù)保積極性。根據(jù)客戶畫像的不同屬性,提供如下的優(yōu)惠和福利方案:隨著車齡的增加,降低簽單保費(fèi),增加續(xù)保的優(yōu)惠和福利。
車齡在0-3年的客戶續(xù)保優(yōu)惠5%,車齡在4-6年的客戶續(xù)保優(yōu)惠10%,車齡在7-10年的客戶續(xù)保優(yōu)惠15%。
客戶年齡越小,續(xù)保的福利越大。
年齡在18-30的客戶續(xù)保優(yōu)惠5%,年齡在30-55的客戶續(xù)保優(yōu)惠5%,年齡在55歲以上的客戶續(xù)保優(yōu)惠15%。
對(duì)外省的客戶,提供較高優(yōu)惠,吸引續(xù)保。
對(duì)于本省客戶續(xù)保優(yōu)惠5%,對(duì)于外省客戶續(xù)保優(yōu)惠15%。
隨著續(xù)保年的增加,續(xù)保的優(yōu)惠越來越高。
對(duì)于續(xù)保0-3年的客戶每增加一年多優(yōu)惠2%,對(duì)于續(xù)保4-6年的客戶每增加一年多優(yōu)惠3%,對(duì)于續(xù)保6年以上的客戶每增加一年多優(yōu)惠5%。
根據(jù)客戶的駕駛習(xí)慣記錄,對(duì)習(xí)慣較好的客戶提供較高的續(xù)保優(yōu)惠政策。
對(duì)于駕駛習(xí)慣優(yōu)秀的客戶續(xù)保優(yōu)惠15%,對(duì)于駕駛習(xí)慣良好的客戶續(xù)保優(yōu)惠10%,
對(duì)于駕駛習(xí)慣一般的客戶續(xù)保優(yōu)惠5%,對(duì)于駕駛習(xí)慣不良的客戶續(xù)保無優(yōu)惠,對(duì)于駕駛習(xí)慣嚴(yán)重不良的客戶保險(xiǎn)費(fèi)加15%。
五、模型的評(píng)價(jià)
1.優(yōu)點(diǎn)。① Logistics模型能與實(shí)際緊密聯(lián)系,能夠結(jié)合實(shí)際情況對(duì)問題進(jìn)行求解,使模型更貼合實(shí)際,通用性和推廣性很強(qiáng)。②基于Logistics模型考慮相對(duì)全面,綜合考慮了可能影響續(xù)保率的各種因素,仿真結(jié)果合理性較強(qiáng)。③Logistics模型可操作性強(qiáng),適用范圍廣泛,模型安排方案具體,可以預(yù)測(cè)未來不同情況下的續(xù)保率。④該模型對(duì)于數(shù)據(jù)樣本無嚴(yán)格限制,既適用于小樣本,也適用于多單元、多指標(biāo)的大樣本,比較靈活方便。
2.缺點(diǎn)。①對(duì)需要輸入數(shù)據(jù)的格式有嚴(yán)格的要求,對(duì)數(shù)據(jù)屬性的增減不敏感。②模型復(fù)雜因素較多,無法對(duì)其精確地反映出來。
六、模型的推廣
本題基于Logistics模型,解決了保險(xiǎn)公司對(duì)于客戶續(xù)保率的預(yù)測(cè)問題,采用了對(duì)不連續(xù)變量進(jìn)行分類匯總分析的方法,具有一定的合理性,可以用于各種不連續(xù)變量預(yù)測(cè)問題。 通過對(duì)不同影響因素對(duì)于目標(biāo)變量作用力大小的研究,可使決策主體根據(jù)市場(chǎng)變化迅速做出反應(yīng),并調(diào)整目標(biāo)戰(zhàn)略,可使損失降至最低,適用于一系列預(yù)測(cè)問題,且這種方法能使預(yù)測(cè)擬合效果達(dá)到最大。
參考文獻(xiàn)
[1] 王夢(mèng)晨. A公司車險(xiǎn)業(yè)務(wù)續(xù)保率影響因素研究[D].湖南大學(xué),2017.
[2] 車險(xiǎn)市場(chǎng)續(xù)保情況研究[N]. 中國保險(xiǎn)報(bào),2016-08-17(004).
[3] 顏康熙. 人保財(cái)險(xiǎn)廈門分公司車險(xiǎn)客戶價(jià)值挖掘研究[D].南華大學(xué),2016.
第一作者簡(jiǎn)介:李冶(1999—)女,漢族,安徽六安人,單位:安徽財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,本科學(xué)歷,信息管理與信息系統(tǒng)專業(yè),研究方向:信息管理
第二作者簡(jiǎn)介:秦嘉寧(2000——)女,漢族,安徽宿州人,單位:安徽財(cái)經(jīng)大學(xué)金融學(xué)院,本科學(xué)歷,金融學(xué)專業(yè)