大數(shù)據(jù)指大小超出常規(guī)數(shù)據(jù)庫軟件,具有采集、存儲、管理和分析等能力的數(shù)據(jù)集。相較于傳統(tǒng)意義上的數(shù)據(jù)分析,大數(shù)據(jù)具有更大的體量,包含更多的信息和維度,蘊含著更大的潛在價值,其特點如圖1所示。
可以說,大數(shù)據(jù)的便利已經(jīng)滲透至各行各業(yè),而本身就依賴于大量數(shù)據(jù)進行分析、預(yù)測的保險領(lǐng)域,更是早已廣泛運用大數(shù)據(jù)相關(guān)技術(shù)來提升自身的業(yè)績與容錯率,主要應(yīng)用于精準(zhǔn)營銷與風(fēng)控。精準(zhǔn)營銷是利用大量匯集的用戶資料,通過數(shù)學(xué)模型進行分析、聚類,定位優(yōu)先級較高的目標(biāo)客戶群體,在有力發(fā)展目標(biāo)客戶群體的同時減少大量“地毯式營銷”的成本;風(fēng)控則是基于“未來是過去的重復(fù)”這一理念,通過分析之前發(fā)生過的模式與邏輯而預(yù)測未來風(fēng)險走勢。
圖1 大數(shù)據(jù)的特點
決策樹(Decision Tree)是一種在已知各種情況發(fā)生概率的基礎(chǔ)上,將各種情況的結(jié)果分類成不同輸出的圖解法。決策樹是一種樹形結(jié)構(gòu),其中每個內(nèi)部節(jié)點均表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節(jié)點代表一種類別,如圖2所示。
決策樹模型有回歸樹(Regression Tree)、分類樹(Classification Tree)等類別,其區(qū)別在于分類節(jié)點與剪枝策略的選擇不同。
K最近鄰(k-Nearest Neighbor,KNN)算法,是一個理論上比較成熟的分類算法。該方法的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的多數(shù)屬于某一個類別,則該樣本也屬于這個類別,如圖3所示。
圖2 決策樹模型示例
圖3 K最近鄰算法模型示例
首先,在現(xiàn)場開始大數(shù)據(jù)審計工作前,審計人員需要制定初始規(guī)則庫作為早期大數(shù)據(jù)分析的邏輯依據(jù),其規(guī)則會隨著審計工作的進行不斷更新、完善。其次,審計人員從公司業(yè)務(wù)系統(tǒng)中導(dǎo)出審計期間的所有數(shù)據(jù),在獨立的服務(wù)器中搭建測試環(huán)境,這樣既減少審計工作對于正常業(yè)務(wù)開展產(chǎn)生的影響,也防止IT人員在審計實施中對原始數(shù)據(jù)進行修改與刪除。再次,根據(jù)原始數(shù)據(jù)和規(guī)則庫,審計人員初步篩選出所需要的庫表與字段信息。最后,將相關(guān)字段提取后,得到的中間表即為第一次導(dǎo)出的疑似問題清單。
例如,在“倒簽單”規(guī)則中,對應(yīng)的業(yè)務(wù)邏輯為,保單的核保時間晚于保險起期,即保單在完成審核之前已經(jīng)開始其保險期即為倒簽單。因此,在該邏輯中最關(guān)鍵的字段便是“核保時間”與“保險起期”,只要以二者的時間先后關(guān)系作為判定依據(jù),即可發(fā)現(xiàn)某一保單是否為“倒簽單”,并將所有重要的相關(guān)信息調(diào)取出來,形成一份有價值的中間表。審計人員可從中間表中看到倒簽保單的投保人、被保險人、險種、保額、保費、暫保期、是否出險等重要信息,并且這些信息將成為挖掘問題原因與細(xì)化規(guī)則的重要依據(jù)。
“保單拆分”規(guī)則在業(yè)務(wù)邏輯上的定義非常明確,即將一個保單拆分為兩個甚至多個保單,總保險期間不變。因此,審計人員在分析該規(guī)則時,需要以所有保單的起止日期、投保人、被保險人、標(biāo)的名稱、保額與保費等信息作為匹配的依據(jù)。
審計人員可以利用決策樹算法按照不同類別細(xì)分,設(shè)計出完善的程序模塊,進一步分析疑似問題清單中的大批量保單數(shù)據(jù)。
在“倒簽單”規(guī)則中,得到所有倒簽保單的列表后,審計人員可以將其按照有無暫保單、是否曾經(jīng)出險、車險/非車險等不同維度進行分類,對所有倒簽保單進一步分析,逐步生成如圖4所示的決策樹模型。根據(jù)項目需要和實際數(shù)據(jù)特點,可以選擇相應(yīng)的剪枝方法。根據(jù)規(guī)定,車險是“見費出單”,故不允許出現(xiàn)倒簽單現(xiàn)象,這就說明險種為車險的“倒簽單”現(xiàn)象均為疑似問題,需進一步檢查;而對于具備暫保單的非車險倒簽保單,則需再檢查其暫保期間是否符合保監(jiān)會與公司的相關(guān)規(guī)定,若暫保期過長,也被視為疑似問題保單。值得關(guān)注的是曾經(jīng)出險的倒簽單,因為該類保單很有可能為公司帶來了實際的經(jīng)濟損失(未出險的倒簽單存在風(fēng)險,但未造成實質(zhì)性影響)。
在“保單拆分”規(guī)則中,數(shù)據(jù)邏輯與業(yè)務(wù)邏輯之間的轉(zhuǎn)換存在一定難度:雖然從業(yè)務(wù)邏輯上保單拆分的定義非常明確,但從數(shù)據(jù)邏輯中這一定義并不是很好界定。在實際調(diào)取數(shù)據(jù)時,審計人員需要嘗試多種方式,準(zhǔn)確地將規(guī)則邏輯轉(zhuǎn)換為計算機語句來執(zhí)行,而不能簡單地通過調(diào)取字段數(shù)據(jù)來判定問題。在編寫計算機語句時,還需進行反復(fù)測試,把其中的干擾邏輯找出來。如保險期本身就小于一年的保單,著重篩選特定模式的保單,如同一投保人的連續(xù)兩個保單,第一單的保險止期在12月31日,第二單的保險起期在次年1月1日;或同一投保人連續(xù)兩個保單的保險期間加和為一年等。通過各種特定模式的規(guī)則細(xì)化,不斷完善數(shù)據(jù)邏輯,盡量做到準(zhǔn)確找出所有拆分保單。
在把規(guī)則轉(zhuǎn)化為計算機語句并篩選出所有疑似問題清單后,審計人員可利用清單尋找規(guī)則之間的關(guān)聯(lián)性與潛在的可挖掘點。在篩選出“保單拆分”的問題清單后,將清單中不同類別的拆分保單進行深層分析,從中找出相似的模式。例如,若某公司較集中出現(xiàn)將保單拆分成“前一保單保險止期為當(dāng)年12月31日、后一保單保險起期為次年1月1日”,則可以查看該機構(gòu)歷年的保費收入曲線,是否經(jīng)常出現(xiàn)1月份的保費收入較高的現(xiàn)象。因為拆分保單可以使保費收入分別在不同時點確認(rèn),所以如果經(jīng)常出現(xiàn)上述拆單模式,很大可能是該機構(gòu)為了保證完成次年的保費收入任務(wù),將當(dāng)年超額完成的一部分保費收入通過拆分的方式轉(zhuǎn)到次年。通過這種關(guān)聯(lián),審計人員可收集各機構(gòu)的保費收入趨勢并建立模型,從而在未查看所有保單的情況下初步預(yù)測其中可能存在的問題。
利用k最近鄰模型,審計人員可歸納出虛假賠案的特征,并利用所發(fā)現(xiàn)的特征對賠案進行聚類,若有特征相似的賠案,即可暫時歸類為重點關(guān)注賠案。這樣可以大大減少翻閱賠案紙質(zhì)單據(jù)及查看系統(tǒng)界面的工作量,鎖定可能存在的虛假賠案范圍,如圖5所示。
圖4 “倒簽單”決策樹示例圖
圖5 虛假賠案k最近鄰模型示例圖
大數(shù)據(jù)分析在財險審計中的應(yīng)用還處于起步階段,很多成熟的大數(shù)據(jù)模型與工具還未被完全應(yīng)用于財險審計中,財險審計發(fā)展前景可期。當(dāng)信息技術(shù)越來越成熟、系統(tǒng)數(shù)據(jù)越來越完善,大數(shù)據(jù)分析必將為財險審計提供更多的幫助。
主要參考文獻
王磊.數(shù)據(jù)挖掘技術(shù)在保險公司內(nèi)部審計中的運用研究[D].山東財經(jīng)大學(xué), 2015
武茗馨.大數(shù)據(jù)技術(shù)在金融行業(yè)內(nèi)部審計中的應(yīng)用探究[J].時代金融, 2016(11):269-270+276