韓家群,劉南杰,黃 波,趙海濤
(1.南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003;2.南京郵電大學(xué) 網(wǎng)絡(luò)基因工程研究所,江蘇 南京 210003)
基于車聯(lián)網(wǎng)大數(shù)據(jù)的UBI系統(tǒng)研究
韓家群1,2,劉南杰1,2,黃 波1,2,趙海濤1,2
(1.南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003;2.南京郵電大學(xué) 網(wǎng)絡(luò)基因工程研究所,江蘇 南京 210003)
在大數(shù)據(jù)和車聯(lián)網(wǎng)時代背景下,提出了基于大數(shù)據(jù)的車聯(lián)網(wǎng)保險系統(tǒng)的研究,即基于駕駛行為的車輛保險系統(tǒng)(Usage-Based Insurance,UBI)。該系統(tǒng)在智能車載終端OBD的應(yīng)用、車輛數(shù)據(jù)收集、駕駛行為信息存儲及處理、數(shù)據(jù)分析建模的基礎(chǔ)上給出了合理的車險預(yù)測方案,并針對用戶個性化服務(wù)進(jìn)行了模塊化的系統(tǒng)分析和處理。此外,在駕駛行為分析研究的基礎(chǔ)上,給出了車險預(yù)測模型和UBI車險定價策略。系統(tǒng)的分析結(jié)果表明,在車聯(lián)網(wǎng)大數(shù)據(jù)時代下的UBI系統(tǒng)在車險行業(yè)有很好的應(yīng)用前景。
車聯(lián)網(wǎng);大數(shù)據(jù);車輛保險系統(tǒng);車保險
2013年國內(nèi)的財險行業(yè)突破了億萬元大關(guān),比2009年增加了21.3%,盡管如此,但保險行業(yè)的盈利仍然不理想[1]。由于傳統(tǒng)的機(jī)動車輛保險只考慮車輛購置價、購車類型等,車輛保險模式極其單一,沒有考慮駕駛行為對機(jī)動車輛保險的影響,導(dǎo)致大部分優(yōu)質(zhì)的車險用戶為少數(shù)因惡劣的駕駛行為造成高額理賠的用戶買單,因而使得投保人的車險保費設(shè)定存在嚴(yán)重不合理的現(xiàn)象[2]。
相比之下,國外的保險費率更為靈活。例如,美國未婚低齡保險費率最高(缺乏責(zé)任感,易出現(xiàn)車輛事故);德國新手費率高(出險概率高);加拿大周末用車比上班用車費率低(出險概率低)。國外積極推廣的UBI保險[3],取得了一定的成效,未來UBI的車聯(lián)網(wǎng)保險模式也將被持續(xù)推廣與應(yīng)用。
隨著互聯(lián)網(wǎng)時代的到來和技術(shù)全球化的發(fā)展,移動互聯(lián)網(wǎng)正在不斷滲透到社會、經(jīng)濟(jì)各個領(lǐng)域,同樣地互聯(lián)網(wǎng)下的車聯(lián)網(wǎng)也正向著汽車保險行業(yè)滲透,因而基于車聯(lián)網(wǎng)的汽車保險行業(yè)有巨大的發(fā)展前景。其中,車聯(lián)網(wǎng)技術(shù)、大數(shù)據(jù)技術(shù)等是未來保險行業(yè)發(fā)展的核心驅(qū)動力[4]。在這樣的時代背景下,對車聯(lián)網(wǎng)保險進(jìn)行了研究,并創(chuàng)新性提出了大數(shù)據(jù)時代下的UBI系統(tǒng)研究。該系統(tǒng)從車主的駕駛行為習(xí)慣、行車?yán)锍?、購置價格及車輛類型等方面進(jìn)行綜合分析,在車聯(lián)網(wǎng)保險的第一代基于按里程付費(Pay As You Drive,PAYD)的車保險到第二代考慮駕駛安全(Pay How You Drive,PHYD)的車保險基礎(chǔ)上,提出車和人相結(jié)合多模式厘定車險方案,打破傳統(tǒng)的只對車或者人單一的分析模式。文中分析處理的數(shù)據(jù)均是由車載終端OBD收集的真實駕駛行為數(shù)據(jù)[5-6]。
車聯(lián)網(wǎng)(Internet of Vehicles,IOV)是通過OBD、GPS等裝置,完成車自身狀態(tài)和環(huán)境信息數(shù)據(jù)的采集[7],通過互聯(lián)網(wǎng)將采集的數(shù)據(jù)傳輸?shù)街醒胩幚砥鞑?shù)據(jù)進(jìn)行分析處理,并對不同需求的車輛進(jìn)行有效監(jiān)管和提供綜合服務(wù)的系統(tǒng),實現(xiàn)車輛的智能化控制。
車載診斷(On-Board Diagnostics,OBD)是車聯(lián)網(wǎng)的核心技術(shù),融合了汽車智能感知模塊、汽車與互聯(lián)網(wǎng)的連接模塊、汽車系統(tǒng)和部件(發(fā)動機(jī)、排放控制系統(tǒng)等)的監(jiān)測模塊,實現(xiàn)車輛狀況的實時記錄和報告。OBD模式的車聯(lián)網(wǎng)系統(tǒng)是由OBD終端、后臺系統(tǒng)、手機(jī)APP這三個主要部分組成。圖1為OBD模式下的車聯(lián)網(wǎng)模型,車輛內(nèi)置的傳感器具有智能感知功能,車載診斷OBD通過控制局部網(wǎng)(Controller Aver Network,CAN)與總線相連,獲取電控單元(Engine Control Unit,ECU)中的車輛狀態(tài)信息。該模式系統(tǒng)與物聯(lián)網(wǎng)的邏輯組成類似,由數(shù)據(jù)采集、數(shù)據(jù)分析處理、數(shù)據(jù)報告等組成。
圖1 OBD模式下的車聯(lián)網(wǎng)模型
大數(shù)據(jù)是來源于人類活動,通過記錄人類某些行為而得到的數(shù)據(jù)。在人類發(fā)現(xiàn)數(shù)據(jù)其他價值以前,數(shù)據(jù)只是一個數(shù)量上的理解,由于互聯(lián)網(wǎng)的快速發(fā)展,數(shù)據(jù)出現(xiàn)井噴式發(fā)展,使任何數(shù)據(jù)背后都有其自身的信息價值。文中提出的UBI系統(tǒng)研究正是在大數(shù)據(jù)分析和處理的基礎(chǔ)上,針對車保用戶專業(yè)化和個性化服務(wù)給出了合理的車險模式。
大數(shù)據(jù)是指新一代對大量的各種樣式的數(shù)據(jù)進(jìn)行高速捕獲、提取、分析和處理后得到數(shù)據(jù)規(guī)律,從而取得額外價值的技術(shù)。它具有海量性(Volume)、快速變動(Variety)、多樣化(Velocity)、信息價值(Value)和真實性(Veracity)五大特征。大數(shù)據(jù)不在于數(shù)據(jù)本身的信息意義,而是它能衍生出多維度潛在的信息價值[8-9]。
大數(shù)據(jù)處理的生命周期包含數(shù)據(jù)源、收集、存儲、分析處理和預(yù)測等過程,生命周期體現(xiàn)了不同階段對數(shù)據(jù)實施不同的處理策略。
如圖2所示,大數(shù)據(jù)時代的UBI系統(tǒng)主要由數(shù)據(jù)源、數(shù)據(jù)的處理、數(shù)據(jù)的分析和預(yù)測模型等部分組成。
圖2 基于大數(shù)據(jù)的UBI車險系統(tǒng)
3.1 數(shù)據(jù)源
機(jī)動車輛中安裝的OBD對車輛的各個系統(tǒng)進(jìn)行實時監(jiān)測,車聯(lián)網(wǎng)的應(yīng)用實現(xiàn)了從客戶端-服務(wù)器(Client/Server)成功連接,服務(wù)器是整個應(yīng)用系統(tǒng)的資源中心,客戶端發(fā)送的數(shù)據(jù)傳送到數(shù)據(jù)庫服務(wù)器,客戶端也可以對數(shù)據(jù)庫進(jìn)行訪問。文中數(shù)據(jù)源存儲在關(guān)系數(shù)據(jù)庫MySQL中,通過數(shù)據(jù)網(wǎng)關(guān)傳輸?shù)椒植际綌?shù)據(jù)庫管理系統(tǒng)中。MySQL具有體積小、速度快、成本低等特點,適用于車況中快速產(chǎn)生數(shù)據(jù),及時更新數(shù)據(jù)庫中的數(shù)據(jù),去除了冗余的數(shù)據(jù)信息,減少了網(wǎng)絡(luò)資源的浪費。
3.2 數(shù)據(jù)處理
數(shù)據(jù)處理包含數(shù)據(jù)預(yù)處理和數(shù)據(jù)存儲兩部分,數(shù)據(jù)預(yù)處理可以獲取對車保險預(yù)測方案有價值的數(shù)據(jù)信息。通過對駕駛行為有關(guān)的數(shù)據(jù)解析,篩選出文中提出的UBI系統(tǒng)所需的數(shù)據(jù),如每日四急(急剎車、急加速、急減速、急轉(zhuǎn)彎)次數(shù)、行駛里程、出行時間、超速次數(shù)等數(shù)據(jù),然后對這些數(shù)據(jù)進(jìn)行分類、合并,并存儲到分布式數(shù)據(jù)庫HBase中。HBase是一種基于Hadoop的項目,也稱Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)[10]。它是一個非結(jié)構(gòu)化數(shù)據(jù)存儲的分布式數(shù)據(jù)庫,使用Zookeeper管理集群,在架構(gòu)層面上分為Master(Zookeeper中的leader)和多個區(qū)域服務(wù)器(Region Server,RS)?;炯軜?gòu)如圖3所示。其中,RS是集群中的一個節(jié)點,每個RS可以負(fù)責(zé)管理多個Region,每個Region只能由一個RS提供服務(wù)。HBase中需要多個Region存儲數(shù)據(jù),HBase給每個Region定義一定的范圍,落在規(guī)定范圍的數(shù)據(jù),就會分配給規(guī)定的Region,從而把負(fù)載分到各個節(jié)點上,這就是分布式存儲的過程及優(yōu)點。
圖3 HBase基本架構(gòu)
YARN(Yet Another Resource Negotiator)是分布式集群的資源管理器。MapReduce1架構(gòu)在整個集群上執(zhí)行Map和Reduce任務(wù)并報告結(jié)果,但在大型集群中,當(dāng)集群節(jié)點超過一定量時,就會出現(xiàn)級聯(lián)故障,級聯(lián)故障通過網(wǎng)絡(luò)泛洪形式導(dǎo)致整個集群嚴(yán)重惡化。為了克服MapReduce1的這種缺陷,采用YARN分層集群管理框架的技術(shù),能使集群共享、可伸縮和更可靠。YARN分層結(jié)構(gòu)是資源管理程序(ResourceManager)將各部分資源傳給基礎(chǔ)節(jié)點代理程序(NodeManager),NodeManager啟動和監(jiān)視基礎(chǔ)應(yīng)用程序執(zhí)行和資源管理(CPU、內(nèi)存等資源分配)。
Spark是一個基于內(nèi)存計算的集群計算系統(tǒng),它的核心是彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets,RDD)。Spark的所有操作基于RDD,RDD是容錯的、并行的數(shù)據(jù)結(jié)構(gòu),RDD是一個不可修改的分布的對象集合。每個RDD由多個分區(qū)組成,每個分區(qū)可以同時在集群中的不同節(jié)點上計算。RDD的分區(qū)特性與并行計算能力,使得Spark可以更好地利用可伸縮的硬件資源。若將分區(qū)與持久化二者結(jié)合起來,就能更加高效地處理海量數(shù)據(jù)[11]。
文中收集了1 000輛汽車數(shù)據(jù),并分析處理駕駛行為相關(guān)數(shù)據(jù)信息,如四急、行駛里程、最大瞬時速度和出行的時間。圖4是基于駕駛行為分別從每天駕駛的距離、每天四急的次數(shù)總和、最大速度和最晚出行時間四個方面所得數(shù)據(jù)的柱狀圖。通過這些數(shù)據(jù)的分析,得出相應(yīng)的駕駛行為處理結(jié)果,為文中大數(shù)據(jù)時代下的UBI車保險方案提供有力證據(jù)。
圖4 基于駕駛行為的數(shù)據(jù)分析
3.3 數(shù)據(jù)建模分析
數(shù)據(jù)建模分析是針對預(yù)處理提取的數(shù)據(jù)特征,得到想要的結(jié)果。在數(shù)據(jù)提取后,常使用的是Spark算法。Spark常用的應(yīng)用有Spark SQL、Spark Streaming、MLLib、Graph等。Spark SQL使用RDD實現(xiàn)SQL查詢;Spark Streaming流式計算,提供實時計算功能;GraphX圖計算框架,實現(xiàn)了基本的圖計算功能,常用圖算法和pregel圖編程框架;MLLib機(jī)器學(xué)習(xí)庫,提供常用分類、聚類、回歸、交叉檢驗等機(jī)器學(xué)習(xí)算法并行實現(xiàn),如樸素貝葉斯、邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、TFIDF、協(xié)同過濾等算法,在MLLib中已經(jīng)存在,只需將數(shù)據(jù)帶入,調(diào)用比較方便。
3.4 車保險的預(yù)測方案
文中提出的UBI系統(tǒng)對不同的駕駛行為給予不同的保險費率,并提供個性化的增值服務(wù)。在大數(shù)據(jù)分析處理后,該系統(tǒng)提供的機(jī)動車輛保險的實施方案如下:
給每個用戶每天設(shè)置一個基總分?jǐn)?shù)值(如100分),四急/每日行駛總里程/每日超速次數(shù)/每日夜間行駛時間按5:2:2:1分配總分值,即50分/20分/20分/10分。
表1是根據(jù)駕駛行為制定的評分規(guī)則,通過累計的分?jǐn)?shù),判斷一個人的駕駛行為的優(yōu)良性[12]。
表1 評分規(guī)則
根據(jù)方案累計一年的得分情況記為Sum,駕駛的天數(shù)即算入計算分?jǐn)?shù)的天數(shù)為Day,平均得分記為Avg:
Avg=Sum/Day
為了防止惡意做假行為,天數(shù)Day有一定的規(guī)定:若Day<100,視為最低等級,100≤Day<250,則在原來的Sum上乘一定比例50%,若Day≥250則按照原Sum計算。
根據(jù)Avg分析將不同客戶分為不同的等級,Avg≥80為五星級客戶,60≤Avg<80為四星級客戶,40≤Avg<60為三星級客戶,20≤Avg<40為二星級客戶,0≤Avg<20為一星級客戶。
不同星級的客戶可以承擔(dān)不同車保險費率,保險公司應(yīng)獎勵優(yōu)質(zhì)客戶(即星級高的客戶),在下一年的保險中給予優(yōu)惠活動,同時,懲罰劣質(zhì)用戶(即星級低的客戶),可以提高來年投保車輛的保險費率。此外,獲取的數(shù)據(jù)還可以為客戶提供個性化服務(wù),如根據(jù)駕駛習(xí)慣和經(jīng)常去的地方,適時為其推薦地方特色和商店活動信息,對于駕駛行為不良的用戶給予及時提醒等服務(wù)。
大數(shù)據(jù)時代下的UBI系統(tǒng)從大數(shù)據(jù)的獲取、存儲、分析、建模等方面進(jìn)行了詳細(xì)的描述,以四急、駕駛里程等為依據(jù)制定了合理的UBI的車險費率模型。該系統(tǒng)具有真實性和實際價值意義,在車險行業(yè)具有很好的應(yīng)用前景[3,13]。
[1] 迪納科技.保險行業(yè)車聯(lián)網(wǎng)解決方案白皮書[EB/OL].[2014-04-01].http://www.cpsdna.com/article-545.html.
[2] 彭江琴,劉南杰,趙海濤,等.智能UBI系統(tǒng)研究[J].計算機(jī)技術(shù)與發(fā)展,2016,26(1):142-146.
[3] Kusek G,Kilic I.Project-based application on big data usage[C]//2015 fourth international conference on agro-geoinformatics.[s.l.]:[s.n.],2015:89-92.
[4] 劉文鵬.大數(shù)據(jù)時代的汽車保險[J].經(jīng)營者,2015(2):166-167.
[5] 喬 木.大數(shù)據(jù)語境下UBI發(fā)展現(xiàn)狀及趨勢研究[J].現(xiàn)代商業(yè),2015(1):53-54.
[6] 梁小英,朱園麗,趙一衡.科技引領(lǐng)未來,專業(yè)創(chuàng)造價值——大數(shù)據(jù)時代下的UBI產(chǎn)品探索[J].金融電子化,2014(9):28-29.
[7] 劉南杰.崛起的車聯(lián)網(wǎng)[J].音響改裝技術(shù),2013(11):50.
[8] Demchenko Y,de Laat C,Membrey P.Defining architecture components of the Big Data Ecosystem[C]//2014 international conference on collaboration technologies and systems.[s.l.]:[s.n.],2014:104-112.
[9] Tekiner F,Keane J A.Big data framework[C]//2013 IEEE international conference on systems,man and cybernetics.[s.l.]:IEEE,2013:1494-1499.
[10] Pandey S,Tokekar V.Prominence of MapReduce in big data processing[C]//2014 fourth international conference on communication systems and network technologies.[s.l.]:[s.n.],2014:555-560.
[11] Riggins F J,Wamba S F.Research directions on the adoption,usage,and impact of the internet of things through the use of big data analytics[C]//2015 48th Hawaii international conference on system sciences.[s.l.]:[s.n.],2015:1531-1540.
[12] 彭江琴,劉南杰,仲 浩,等.基于GID的UBI系統(tǒng)研究[J].微型機(jī)與應(yīng)用,2014,33(22):51-53.
[13] 郁佳敏.車聯(lián)網(wǎng)大數(shù)據(jù)時代汽車保險業(yè)的機(jī)遇和挑戰(zhàn)[J].南方金融,2013(12):89-95.
Research on UBI System Based on Big Data in IOV
HAN Jia-qun1,2,LIU Nan-jie1,2,HUANG Bo1,2,ZHAO Hai-tao1,2
(1.College of Telecommunications & Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China;2.Network Gene Engineering Research Institute,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)
Under the era background of Big Data and IOV (Internet of Vehicle),the research on the insurance system for IOV based on Big Data is carried out and the UBI (Usage-Based Insurance) system is proposed.The proper scheme of forecasting automobile insurance is presented through equipping the vehicle with OBD (On-Board Diagnostics),collecting the vehicle data,storing and processing the information about driving behavior,modeling the analysis on data by UBI system.The modular system is analyzed and processed in terms of personalized service of users.In addition,on the basis of analyzing the driving behavior,the model of forecasting the automobile insurance and the pricing policy of UBI are proposed.The analysis results show that the UBI system is of broad and potential application prospects in the field of automobile insurance in the era of Big Data.
IOV;Big Data;UBI;automobile insurance
2016-01-19
2016-05-11
時間:2016-11-22
國家(青年)自然科學(xué)基金(61201162);政策引導(dǎo)類計劃(產(chǎn)學(xué)研合作)—前瞻性聯(lián)合研究項目(BY2015011-01)
韓家群(1991-),女,碩士研究生,研究方向為車聯(lián)網(wǎng)大數(shù)據(jù);劉南杰,博士,教授,研究方向為泛在通信、車聯(lián)網(wǎng)、智能交通。
http://www.cnki.net/kcms/detail/61.1450.TP.20161122.1231.048.html
TN911
A
1673-629X(2016)12-0026-04
10.3969/j.issn.1673-629X.2016.12.006