劉征宇, 夏 偉, 劉寧波, 張 利
(1.合肥工業(yè)大學(xué) 機(jī)械與汽車(chē)工程學(xué)院,安徽 合肥 230009;2.合肥工業(yè)大學(xué) 安全關(guān)鍵工業(yè)測(cè)控技術(shù)教育部工程研究中心,安徽 合肥
230009;3.合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009;4.蚌埠學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系,安徽 蚌埠 233030)
車(chē)險(xiǎn)是指對(duì)機(jī)動(dòng)車(chē)輛由于自然災(zāi)害或意外事故所造成的人身傷亡或財(cái)產(chǎn)損失負(fù)賠償責(zé)任的一種商業(yè)保險(xiǎn)。根據(jù)文獻(xiàn)[1],2012年我國(guó)車(chē)險(xiǎn)行業(yè)的保費(fèi)收入為4 005億人民幣。
目前我國(guó)的車(chē)險(xiǎn)計(jì)算基本以車(chē)輛價(jià)格、噸位、座位數(shù)等自然屬性和駕駛?cè)说哪挲g、性別等信息作為計(jì)算保費(fèi)的依據(jù),缺乏直接涉及行車(chē)安全的定價(jià)因子,存在大部分安全駕駛員為少數(shù)高風(fēng)險(xiǎn)駕駛員買(mǎi)單的不合理現(xiàn)狀[2]。
隨著車(chē)聯(lián)網(wǎng)技術(shù)的發(fā)展,其與車(chē)險(xiǎn)行業(yè)的結(jié)合成為一種趨勢(shì)。在保險(xiǎn)車(chē)聯(lián)網(wǎng)的基礎(chǔ)上,本文對(duì)車(chē)險(xiǎn)行業(yè)定價(jià)因子的獲取進(jìn)行了研究。車(chē)聯(lián)網(wǎng)可以為車(chē)險(xiǎn)行業(yè)提供車(chē)輛性能狀態(tài)、駕駛員駕駛習(xí)慣和駕駛時(shí)間等信息,再結(jié)合主成分分析算法進(jìn)行去相關(guān)性和降維處理,從而為車(chē)險(xiǎn)行業(yè)篩選更有效的定價(jià)因子數(shù)據(jù)。
投保車(chē)輛發(fā)生事故后的索賠金額除了與車(chē)輛的自然屬性,如價(jià)格、噸位等有關(guān)外,還與車(chē)輛的性能狀態(tài)、駕駛?cè)藛T的駕駛行為習(xí)慣、道路環(huán)境等因素相關(guān),而這些因素恰恰是車(chē)輛發(fā)生事故的主要原因。本文根據(jù)國(guó)外成功經(jīng)驗(yàn)[3-4],并結(jié)合對(duì)車(chē)險(xiǎn)定價(jià)因素的研究,提出2類(lèi)可控風(fēng)險(xiǎn)因素:車(chē)輛的性能狀態(tài)和駕駛?cè)藛T的駕駛習(xí)慣。
影響行車(chē)安全的車(chē)輛性能狀態(tài)主要有汽車(chē)的動(dòng)力系統(tǒng)性能、制動(dòng)系統(tǒng)性能、傳動(dòng)系統(tǒng)性能和轉(zhuǎn)向系統(tǒng)性能等[5];而駕駛?cè)藛T的駕駛習(xí)慣主要包括加速、減速及是否疲勞駕駛等。本文依據(jù)可采集的車(chē)載診斷系統(tǒng)信息和GPS數(shù)據(jù),選擇以下風(fēng)險(xiǎn)因子,見(jiàn)表1所列。
表1 風(fēng)險(xiǎn)因子
為反映車(chē)輛的性能狀態(tài)和駕駛?cè)藛T的駕駛習(xí)慣,選取12個(gè)風(fēng)險(xiǎn)因子作為車(chē)險(xiǎn)行業(yè)的定價(jià)因子。在主成分分析法的基礎(chǔ)上設(shè)計(jì)基于指標(biāo)重要性權(quán)值的主成分分析法,使用此方法對(duì)風(fēng)險(xiǎn)因子進(jìn)行降維操作,獲得可以表征車(chē)輛性能狀態(tài)和駕駛?cè)藛T駕駛習(xí)慣的4個(gè)主成分,作為應(yīng)用于車(chē)險(xiǎn)行業(yè)的定價(jià)因子。
主成分分析(principal component analysis,PCA)是一種對(duì)多指標(biāo)數(shù)據(jù)進(jìn)行處理的技術(shù),這種方法可以有效地找出數(shù)據(jù)中最主要的元素和結(jié)構(gòu),去除噪音和冗余,將原有的多指標(biāo)數(shù)據(jù)降維,而又保留原數(shù)據(jù)包含的大部分信息[6]。其幾何思想如圖1所示:設(shè)有一組二維數(shù)據(jù),坐標(biāo)系為x1、x2,二維數(shù)據(jù)分布在一個(gè)橢圓形的區(qū)域中。定義橢圓形的長(zhǎng)軸為F1,短軸為F2。從圖中可以看出,在短軸F2方向,數(shù)據(jù)變化很??;在長(zhǎng)軸F1方向上,數(shù)據(jù)的差值較大,反映的數(shù)據(jù)樣本信息也較多。假設(shè)短軸縮小一點(diǎn)時(shí),二維數(shù)據(jù)就可以采用長(zhǎng)軸上的數(shù)據(jù)進(jìn)行表示。旋轉(zhuǎn)坐標(biāo)系,使坐標(biāo)軸x1、x2與長(zhǎng)軸F1、短軸F2重合,此時(shí)忽略F2方向的數(shù)據(jù),將二維數(shù)據(jù)向F1方向投影,所得即為主成分。
圖1 主成分分析法的幾何思想
雖然主成分分析法在統(tǒng)計(jì)分析、模式識(shí)別、圖像處理等方面獲得了廣泛應(yīng)用,但仍然有其局限性,例如對(duì)異常數(shù)據(jù)的敏感性和對(duì)高斯分布的局限性[7]。對(duì)此,文獻(xiàn)[8]提出了基礎(chǔ)分簇的PCA算法,而本文主要考慮各指標(biāo)數(shù)據(jù)的重要性差異。
傳統(tǒng)的主成分分析方法采用數(shù)據(jù)方差的大小作為選擇主成分的依據(jù),而對(duì)各指標(biāo)數(shù)據(jù)的重要性并無(wú)涉及。此方法對(duì)指標(biāo)重要性相同的應(yīng)用,例如圖像處理,并無(wú)影響;而對(duì)指標(biāo)重要性不相同的應(yīng)用,例如涉及行車(chē)安全的各指標(biāo)分析,就存在將方差比較小的重要指標(biāo)數(shù)據(jù)去除的情況。因此本文提出基于指標(biāo)重要性權(quán)值的主成分分析方法,對(duì)各指標(biāo)賦予不同的權(quán)值,以對(duì)主成分分析結(jié)果進(jìn)行調(diào)整。各指標(biāo)的權(quán)重采用層次分析法(analytic hierarchy process,AHP)獲得。
層次分析法把復(fù)雜問(wèn)題中的各種指標(biāo)通過(guò)劃分為相互聯(lián)系的有序?qū)哟?,使之條理化,根據(jù)人們對(duì)一定客觀現(xiàn)實(shí)的主觀判斷建立判斷矩陣。而后,通過(guò)排序計(jì)算和一致性檢驗(yàn)反映每一層次元素相對(duì)重要性次序的權(quán)值[9]。其實(shí)現(xiàn)過(guò)程如下。
(1)建立層次結(jié)構(gòu)模型。將決策的目標(biāo)、決策考慮的準(zhǔn)則和實(shí)現(xiàn)方案分為最高層、中間層和最低層,建立層次結(jié)構(gòu)模型。
(2)構(gòu)造判斷矩陣。設(shè)判斷矩陣為:
由于指標(biāo)較多,因此不能將所有指標(biāo)放在一起比較,而是兩兩進(jìn)行比較。判斷矩陣用于標(biāo)注2個(gè)指標(biāo)兩兩比較時(shí)的相對(duì)重要性值,該值使用Santy提出的1~9標(biāo)度方法給出,見(jiàn)表2所列。
如果判斷矩陣A滿足aij=aikakj,則稱A為一致陣;而當(dāng)矩陣A不一致時(shí),需對(duì)不一致的范圍進(jìn)行檢驗(yàn)。
(3)層次單排序及其一致性檢驗(yàn)。層次單排序就是把本層所有各元素對(duì)上一層排出評(píng)比順序,這就要在判斷矩陣上進(jìn)行計(jì)算,最常用的計(jì)算方法有和積法和方根法。一致性檢驗(yàn)是為了將A的不一致程度控制在允許范圍之內(nèi)。
設(shè)有m個(gè)樣本,每個(gè)樣本有n個(gè)指標(biāo)數(shù)據(jù),這樣就構(gòu)成了一個(gè)Xij(i=1,2,…,m;j=1,2,…,n)的樣本矩陣,記Xj為X的第j個(gè)列向量。在本文的仿真驗(yàn)證中,n個(gè)指標(biāo)為12個(gè)風(fēng)險(xiǎn)因子,m個(gè)樣本為10組樣本數(shù)據(jù)。
(1)采用上述的層次分析法獲得各指標(biāo)的重要性權(quán)值W=[w1,w2,…,wn],將此權(quán)值作為主成分分析的依據(jù),參與主成分的降維過(guò)程。
(2)為了消除各指標(biāo)量綱的影響,使用(1)式對(duì)樣本數(shù)據(jù)矩陣進(jìn)行標(biāo)準(zhǔn)化處理,使各指標(biāo)數(shù)據(jù)均值為0,方差為1。
表2 判斷矩陣元素的標(biāo)度方法
(3)使用(3)式建立標(biāo)準(zhǔn)化矩陣Y的相關(guān)系數(shù)矩陣C。在相關(guān)系數(shù)矩陣中,對(duì)角線元素表示各個(gè)指標(biāo)的方差,其余元素表示2個(gè)指標(biāo)的相關(guān)系數(shù)。
(4)使用指標(biāo)重要性權(quán)值Wi對(duì)相關(guān)系數(shù)矩陣C進(jìn)行調(diào)整,如(4)式。在主成分分析中,以各指標(biāo)數(shù)據(jù)的方差作為降維的依據(jù),(4)式使用指標(biāo)重要性權(quán)值對(duì)各指標(biāo)數(shù)據(jù)的方差做替換,使權(quán)值參與主成分的降維過(guò)程。
(5)特征值分解。矩陣C為對(duì)稱矩陣,將C對(duì)角化,即對(duì)C進(jìn)行特征值分解,得到特征值,記為λ1>λ2>…>λm(m≤n),組成特征值矩陣Λ;特征向量單位正交化組成矩陣A,則有ATCA=Λ…
在特征值矩陣Λ中,其對(duì)角線元素λ1,λ2,…,λm是各指標(biāo)去除相關(guān)性后的方差,代表了各指標(biāo)實(shí)際攜帶信息的多少,以此作為主成分選擇的依據(jù)。令。則稱Sk為第k個(gè)主成分的貢獻(xiàn)率,Tk為前k個(gè)主成分的貢獻(xiàn)率。
對(duì)主成分個(gè)數(shù)的確定有2種策略:
(1)均數(shù)法。計(jì)算特征值的均數(shù),取λ大于均數(shù)的主成分。
(2)經(jīng)驗(yàn)法。當(dāng)Tk達(dá)到一定程度(如80%~95%)時(shí),取前k個(gè)主成分。
獲得主成分:Zi=a1iY1+a2iY2+…+aniYn。
由于目前車(chē)險(xiǎn)車(chē)聯(lián)網(wǎng)的思想尚未在國(guó)內(nèi)得到應(yīng)用,車(chē)險(xiǎn)公司也未采集相關(guān)的風(fēng)險(xiǎn)因子數(shù)據(jù),為說(shuō)明本方法的可操作性,本文設(shè)計(jì)了一套車(chē)載信息采集終端,用于從車(chē)載診斷系統(tǒng)讀取相關(guān)數(shù)據(jù)。風(fēng)險(xiǎn)因子數(shù)據(jù)由車(chē)載信息采集終端獲得的原始數(shù)據(jù)計(jì)算得到,采集周期為1個(gè)行程(從發(fā)動(dòng)機(jī)啟動(dòng)到關(guān)閉),以在10臺(tái)車(chē)輛上采集的數(shù)據(jù)作為分析依據(jù)。數(shù)據(jù)如下所示:
對(duì)風(fēng)險(xiǎn)因子重要性權(quán)值的計(jì)算采用稱為Yaahp的層次分析軟件。Yaahp(Yet Another AHP)是欣晟允軟件技術(shù)有限公司開(kāi)發(fā)的一個(gè)層次分析法(AHP)軟件,提供方便的層次模型構(gòu)造、判斷矩陣數(shù)據(jù)錄入、排序權(quán)重計(jì)算以及計(jì)算數(shù)據(jù)導(dǎo)出等功能。
(1)風(fēng)險(xiǎn)因子的層次結(jié)構(gòu)模型。建立關(guān)于風(fēng)險(xiǎn)因子的層次結(jié)構(gòu)模型如圖2所示。在此模型中,主要為確定各風(fēng)險(xiǎn)因子相對(duì)于駕駛風(fēng)險(xiǎn)的重要性權(quán)值,所以將風(fēng)險(xiǎn)因素作為準(zhǔn)則一層,風(fēng)險(xiǎn)因子作為對(duì)應(yīng)的準(zhǔn)則二層;為了模型的完整性,在此選擇駕駛風(fēng)險(xiǎn)作為目標(biāo)層,駕駛?cè)藛T1、駕駛?cè)藛T2作為方案層,對(duì)本次分析來(lái)說(shuō),方案層無(wú)意義。
圖2 風(fēng)險(xiǎn)因子的層次結(jié)構(gòu)模型
(2)風(fēng)險(xiǎn)因子的判斷矩陣。構(gòu)造本模型的層次間判斷矩陣。判斷矩陣分為2層,第1層為車(chē)輛性能狀態(tài)相對(duì)駕駛行為習(xí)慣的標(biāo)度;第2層分為2個(gè)矩陣,包括車(chē)輛性能狀態(tài)相關(guān)風(fēng)險(xiǎn)因子的兩兩相對(duì)標(biāo)度,即
和駕駛行為習(xí)慣相關(guān)風(fēng)險(xiǎn)因子的兩兩相對(duì)標(biāo)度,即
最后采用和積法計(jì)算各個(gè)權(quán)向量,并通過(guò)一致性檢驗(yàn),獲得2個(gè)風(fēng)險(xiǎn)因素,12個(gè)風(fēng)險(xiǎn)因子的重要性權(quán)值,見(jiàn)表3所列。
表3 風(fēng)險(xiǎn)因子權(quán)值
采用本文提出的基于重要性權(quán)值的主成分分析方法,按照?qǐng)D3所示流程,運(yùn)用Matlab軟件對(duì)采集到的數(shù)據(jù)進(jìn)行降維處理[10],其中風(fēng)險(xiǎn)因子的重要性權(quán)值在3.1節(jié)中獲得。
圖3 基于指標(biāo)重要性權(quán)值的主成分分析法流程圖
最后得到主成分的特征值如圖4所示。主成分分析結(jié)果見(jiàn)表4所列,前4個(gè)主成分的貢獻(xiàn)率已經(jīng)達(dá)到88.82%,說(shuō)明這4個(gè)主成分基本包含了全部12項(xiàng)因子所具有的信息。故最終的定價(jià)因子選擇此4個(gè)主成分,定價(jià)因子數(shù)據(jù)由公式Z=Y(jié)Ak(Ak為前4個(gè)特征值對(duì)應(yīng)的特征向量矩陣)獲得。
圖4 主成分特征值
表4 主成分因子的特征值、貢獻(xiàn)率
本文主要對(duì)車(chē)險(xiǎn)行業(yè)的定價(jià)因子進(jìn)行研究。在可獲得數(shù)據(jù)的基礎(chǔ)上,結(jié)合相關(guān)資料,選擇車(chē)輛的性能狀態(tài)和駕駛?cè)藛T的駕駛習(xí)慣2類(lèi)風(fēng)險(xiǎn)因素、12個(gè)風(fēng)險(xiǎn)因子。采用改進(jìn)的主成分分析法對(duì)風(fēng)險(xiǎn)因子數(shù)據(jù)進(jìn)行降維處理,獲得4個(gè)能為車(chē)險(xiǎn)行業(yè)提供有效定價(jià)依據(jù)的主成分因子。
[1] 中國(guó)保險(xiǎn)年鑒編委會(huì).中國(guó)保險(xiǎn)年鑒2013[R].北京:中國(guó)保險(xiǎn)年鑒社,2013.
[2] 楊世東.我國(guó)汽車(chē)保險(xiǎn)理賠中存在問(wèn)題及對(duì)策研究[J].現(xiàn)代經(jīng)濟(jì)信息,2011(9):185-188.
[3] Xie Chengqiu,Parker D.A social psychological approach to driving violations intwo Chinese cities[J].Transportation Research Part F,2002:293-308.
[4] 李平凡.駕駛行為表征指標(biāo)及分析方法研究[D].吉林:吉林大學(xué)交通學(xué)院,2010.
[5] 夏均忠.汽車(chē)綜合性能檢測(cè)[M].北京:機(jī)械工業(yè)出版社,2011:3-5.
[6] Eriksson L,Johansson E,Wold S.Multi-and megavariate data analysis[M].Umea:Umetrics AB,2006:19-25.
[7] Sato-Ilic M,Jain L C.Innovations in fuzzy clustering[M].Springer-Verlag New York Inc,2006:30-34.
[8] Heo G,Gader P,F(xiàn)rigui H.Robust kernel PCA using fuzzy membership[C]//Proceedings of International Joint Conference on Neural Networks,2009:1213-1220.
[9] Liu F H F,Hai H L.The voting analytic hierarchy process method for selecting supplier[J].International Journal of Production Economics,2005,97(3),308-317.
[10] 吳 鵬.MATLAB高效編程技巧與應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2010:197-212.