鄒洋
摘 要:本文從車險(xiǎn)業(yè)的角度出發(fā),根據(jù)未來車險(xiǎn)業(yè)的發(fā)展趨勢(shì),為車險(xiǎn)業(yè)提高客戶續(xù)保率提供了一定數(shù)據(jù)支持。本文通過對(duì)提供的保單數(shù)據(jù)進(jìn)行分析,建立了相關(guān)模型。根據(jù)得到的相應(yīng)模型結(jié)果,提出了車險(xiǎn)業(yè)為增加續(xù)保率合理的優(yōu)惠方案和政策。首先對(duì)附件1中數(shù)據(jù)進(jìn)行了描述性統(tǒng)計(jì)分析,其次對(duì)數(shù)據(jù)中存在的屬性特征進(jìn)行了獨(dú)熱編碼,將其變成了數(shù)值特征,以便進(jìn)一步的分析。在建立求解模型前,根據(jù)未來車險(xiǎn)業(yè)的發(fā)展趨勢(shì)刪除對(duì)續(xù)保結(jié)果影響不大的特征。
關(guān)鍵詞:逐步回歸算法? 續(xù)保概率? 數(shù)學(xué)建模
近幾年保險(xiǎn)行業(yè)有一種非常流行的保險(xiǎn)類型——汽車保險(xiǎn),伴隨我國(guó)當(dāng)前的全民汽車擁有率的上升,汽車保險(xiǎn)正在一步步進(jìn)入到我們的生活中[1]。與其他保險(xiǎn)類型相同,為了使得市場(chǎng)份額擴(kuò)大,汽車保險(xiǎn)應(yīng)該保證新老客戶的續(xù)保率[2]。保險(xiǎn)公司提高車險(xiǎn)優(yōu)質(zhì)業(yè)務(wù)續(xù)保率最根本的一點(diǎn)就是要建立完善的續(xù)保管理體系,全面推動(dòng)公司的續(xù)保工作[3]。在信息時(shí)代下,我們需要建立更完善的體系,用以分析客戶的心理活動(dòng),對(duì)客戶進(jìn)行精準(zhǔn)畫像,建立針對(duì)不同客戶的車險(xiǎn)購(gòu)置方案模型,提高車險(xiǎn)的續(xù)保率,更好地為車險(xiǎn)行業(yè)服務(wù)。
1 模型的建立
1.1 描述性統(tǒng)計(jì)分析
根據(jù)問題中所給未來車險(xiǎn)業(yè)發(fā)展趨勢(shì)所涉及的因素,對(duì)一些不必要特征進(jìn)行刪除,例如是否本省車牌、三者險(xiǎn)保額(缺失值過多)、已決賠款(缺失值過多)等特征進(jìn)行刪除。將特征歸為三類:一是客戶信息,二是保單信息,三是汽車相關(guān)信息。在本文的分析中,將品牌和車系作為分類標(biāo)準(zhǔn),同種品牌與類型的車輛作為一類進(jìn)行分析,然后再根據(jù)客戶的詳細(xì)信息進(jìn)行精準(zhǔn)畫像,建立客戶續(xù)保的概率模型,求解出不同類型客戶的續(xù)保概率。
1.2 數(shù)據(jù)預(yù)處理
數(shù)據(jù)中包含了屬性特征,因此需要對(duì)其進(jìn)行數(shù)值化處理,才能進(jìn)一步的建模分析。本文中運(yùn)用獨(dú)熱編碼的方法,Python被用來對(duì)其進(jìn)行數(shù)字處理。獨(dú)熱編碼(One-Hot)編碼,也被稱作一位有效的編碼,主要是利用具有N個(gè)狀態(tài)的寄存器來編碼這N個(gè)狀態(tài),每一個(gè)狀態(tài)都有其獨(dú)立的寄存器位,而且在任何時(shí)刻這些寄存器位只有一位是有效的。One-Hot將分類變量表示為二進(jìn)制向量。首先要做的就是將分類值映射到整數(shù)值,其次將每一個(gè)整數(shù)值表示成二進(jìn)制形式,除整數(shù)的索引之外,值都為零,被標(biāo)記為1。
1.3 模型的建立
邏輯回歸(Logistic Regression, LR)模型其實(shí)只是以線性回歸為基礎(chǔ),再套用一個(gè)邏輯函數(shù),正是這個(gè)邏輯函數(shù)的原因,使得該模型成為機(jī)器學(xué)習(xí)領(lǐng)域一顆閃亮的星,更是計(jì)算廣告學(xué)的核心。邏輯回歸算法在實(shí)際過程中主要用于解決二分類問題,它同Adaline線性自適應(yīng)算法很類似,主要是將線性函數(shù)的結(jié)果映射到sigmoid函數(shù)中,找到分類超平面。
sigmoid的函數(shù)輸出處在(0,1)當(dāng)中,它的中間值為0.5,那么前面的公式的含義就容易理解了,由于的輸出處在(0,1)當(dāng)中,這也就可以說明數(shù)據(jù)屬于某一類別的概率,例如:侃(x)<0.5則說明當(dāng)前數(shù)據(jù)屬于A類,所以我們可以將sigmoid函數(shù)看成樣本數(shù)據(jù)的概率密度函數(shù)。二分類問題可以看成伯努利分布,因此對(duì)于輸入x分類結(jié)果為類別1和類別0的概率分別為:
然后利用梯度下降法求解的最小值,最后根據(jù)邏輯回歸的性質(zhì),建立是否續(xù)保的分類模型,并求解不同客戶續(xù)保的概率,在此過程中,即求解分類到續(xù)保類的概率。
1.4 模型的求解
對(duì)邏輯回歸模型進(jìn)行求解,得到有關(guān)客戶個(gè)人信息的結(jié)果顯示圖,由于數(shù)據(jù)量太多,無法進(jìn)行一一顯示,因此在正文中僅顯示部分?jǐn)?shù)據(jù)的續(xù)保概率結(jié)果。
從客戶續(xù)保率與客戶車齡分布圖中,我們可以知道,當(dāng)客戶的車齡越高,其續(xù)保率越低,當(dāng)客戶車齡較低時(shí),其續(xù)保率越高。當(dāng)車齡為1年時(shí),續(xù)保率高達(dá)0.85。
該模型對(duì)于客戶實(shí)際情況有著精確的描述,以及能夠?qū)蛻羰欠窭m(xù)保的概率進(jìn)行求解。從客戶所購(gòu)買汽車的類型出發(fā),我們也可以建立邏輯回歸模型,對(duì)其進(jìn)行續(xù)保率求解。
2 問題2模型的建立
2.1 模型的建立
建立基于逐步回歸算法的邏輯回歸樹預(yù)測(cè)模型,根據(jù)不同客戶的不同情況,將其轉(zhuǎn)化為初始值選擇的約束條件。
逐步回歸所要表達(dá)的基本思想是:以各個(gè)因素對(duì)于y的影響程度的大小為依據(jù),回歸方程由大到小逐個(gè)被引入,并且可以隨時(shí)檢驗(yàn)回歸方程中在該時(shí)刻所包含的全部變量,看其是否還是非常顯著,如不再顯著則可將其剔除,直到在回歸方程中所包含的全部變量對(duì)y的作用都是顯著的,再考慮將一些新的變量引入其中。然后再?gòu)氖O碌奈催x因子中,選出對(duì)于y作用最大的那個(gè),對(duì)該因子的顯著性進(jìn)行檢測(cè),顯著的,則引入方程,不顯著的,則不引入。直到最終沒有可以引入的顯著因子,也沒有不顯著的變量需要剔除為止。
步驟1:計(jì)算變量均值,和差平方和。記各自的標(biāo)準(zhǔn)化變量為:
步驟2:計(jì)算的相關(guān)系數(shù)矩陣。
步驟3:假設(shè)當(dāng)前已選取K個(gè)變量:,并且互不相同,經(jīng)過變換變成,對(duì)j=1,2,...,k進(jìn)行逐一的計(jì)算標(biāo)準(zhǔn)化變量的偏回歸平方和
步驟4:循環(huán)以上步驟,直至最終選上了t個(gè)變量,且互不相同,經(jīng)過變換后為,則對(duì)應(yīng)的回歸方程為:
3 結(jié)語
本文中的模型充分考慮了各個(gè)方面的綜合因素,在大量的數(shù)據(jù)支持下,邏輯回歸模型有更好的分類結(jié)果。且邏輯回歸模型本身是通過概率來進(jìn)行分類。而本文所研究的問題的實(shí)質(zhì)也是一個(gè)根據(jù)概率來進(jìn)行分類的二分類問題。因此在此問題中,可以得到良好的結(jié)果。但是該模型在實(shí)現(xiàn)方面依賴于大數(shù)據(jù)的處理,需要對(duì)數(shù)據(jù)做比較精確的預(yù)處理才能得到理想的結(jié)果;在優(yōu)惠政策的制定上,只是考慮了“折扣”這一種優(yōu)惠,可以挖掘其他的優(yōu)惠條件進(jìn)行方案的制定。
參考文獻(xiàn)
周國(guó)清,陳昆華,何素楠,等.基于邏輯回歸模型的來賓市巖溶塌陷敏感性評(píng)價(jià)[J].安全與環(huán)境工程,2014,21(06).
董志勇.費(fèi)率市場(chǎng)化對(duì)車險(xiǎn)市場(chǎng)影響的經(jīng)濟(jì)學(xué)模型分析[J].保險(xiǎn)研究,2011(05).
王勇,高峰.保險(xiǎn)需求悖論的解釋——來自中國(guó)汽車險(xiǎn)市場(chǎng)的實(shí)證研究[J].南開管理評(píng)論,2008,11(05).