賴華梁,陳建國
基于異常檢測和神經網(wǎng)絡的財政欺詐屏蔽分析
賴華梁,陳建國
(華南農業(yè)大學數(shù)學與信息學院,廣州 510642)
隨著國家對“三農”問題的重視,作為“三農”政策的重要組成部分,近年來國家逐漸加大農業(yè)財政補貼的力度,同時也出現(xiàn)一些財政補貼申請存在欺詐的問題。以Clementine提供的虛擬數(shù)據(jù)為基礎,分析財政補貼申請中可能出現(xiàn)欺詐行為的情況,通過運用SPSS Clementine 11.1軟件,利用異常檢測和神經網(wǎng)絡兩種分類算法,對財政申請的欺詐行為進行數(shù)據(jù)挖掘分析,挖掘出存在較大欺詐可能性的申請者。
財政補貼;異常檢測;神經網(wǎng)絡;數(shù)據(jù)挖掘
國外發(fā)達國家農產品貿易普遍較為繁榮。例如,美國2013年農品出口總額達到了創(chuàng)紀錄的1409億美元,主要得益于其不斷調整的農業(yè)財政補貼政策。日本在二戰(zhàn)后,經濟復蘇快速發(fā)展,由于其固有的地理因素限制了農業(yè)生產效率,日本政府在結合本國實情基礎上,推出了一系列有針對性的農業(yè)補貼政策,最大限度的發(fā)揮了日本農業(yè)的優(yōu)勢。
中國是個農業(yè)大國,但是農業(yè)一直處于相對落后狀態(tài)。農業(yè)補貼政策對我國農業(yè)發(fā)展有著巨大的推動作用,我國財政補貼支農政策經過多年的演變、調整和發(fā)展,財政支持“三農”政策框架體系已經顯現(xiàn)。由于相關政策存在監(jiān)管死角,引發(fā)了諸如補貼申請欺詐等情況。在全球范圍內,申請欺詐已經被確定為金融機構收益損失的重大來源。
本文使用SPPSS Clementine 11.1提供的虛擬數(shù)據(jù),模擬農業(yè)發(fā)展財政補貼申請案例,此案例中的財政補貼包括兩種類型:耕地開發(fā)財政補貼和退役田地財政補貼。本文通過使用數(shù)據(jù)挖掘分析方法發(fā)現(xiàn)偏離常態(tài),同時突出了有必要進一步調查的異常記錄。財政補貼申請金額取決于田地的類型和大小。
1.1 數(shù)據(jù)字段
本文分析采用SPSS Clementine 11.1提供的虛擬數(shù)據(jù),如表1所示,該數(shù)據(jù)共有10個字段。
表1 農業(yè)申請記錄字段
1.2 異常檢測算法
異常檢測是數(shù)據(jù)挖掘中一個重要方面,一般用來發(fā)現(xiàn)較小規(guī)模的模式,即數(shù)據(jù)集中顯著不同于其他數(shù)據(jù)的對象。
Hawkins認為,異常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機偏差,而是產生于完全不同的機制。后來研究者們根據(jù)對異常存在的不同假設,發(fā)展了很多異常檢測算法,大體可以分為基于統(tǒng)計的算法、基于深度的算法、基于距離的算法、基于密度的算法,以及面向高維數(shù)據(jù)的算法等。
1.3 BP神經網(wǎng)絡算法
BP神經網(wǎng)絡是由非線性變換單元組成的前饋網(wǎng)絡,由輸入層、輸出層和隱含層組成。理論證明:對于任何一個閉區(qū)間內的連續(xù)函數(shù)可以用一個隱含層的BP網(wǎng)絡來逼近,因而一個三層的BP網(wǎng)絡可以完成任意的n維到m維的映射。
(1)BP神經網(wǎng)絡結構
圖1 BP神經網(wǎng)絡拓撲結構圖
BP神經網(wǎng)絡是基于BP誤差傳播算法的多層前饋網(wǎng)絡,多層BP網(wǎng)絡包含輸入節(jié)點、輸出節(jié)點,以及一層或多層隱含節(jié)點。三層BP網(wǎng)絡拓撲結構如圖1所示。各層神經元與下層所有的神經元連接,同層神經元之間沒有連接。
1.4 數(shù)據(jù)預篩選
使用異常處理算法對300條申請記錄進行預篩選,初步確定可能存在欺詐行為的申請者。
(1)確定異常范圍。在異常檢測節(jié)點的“模型”選項卡中,選擇訓練數(shù)據(jù)中大多數(shù)異常記錄的數(shù)目。
(2)查看異常檢測結果。使用表將異常結果進行呈現(xiàn),結果顯示,經過數(shù)據(jù)預篩選判斷存在潛在欺詐可能的10條記錄,ID字段標識分別為:633,647,654,703,704,739,752,791,813,883。
2.1 數(shù)據(jù)調查
首先,思考數(shù)據(jù)中可能存在的詐欺類型。一種可能是一塊田地同時出現(xiàn)多份財政補貼資助申請表。具體步驟如下:
(1)要檢查重復申請,需將分布節(jié)點連接至數(shù)據(jù)集,然后選擇姓名字段(假定該字段具有識別每塊田地的唯一值)。最終的分布圖將顯示一些進行了多次申請的田地。
(2)以上述步驟結果此為基礎,使用選擇節(jié)點放棄具有多個記錄的田地所對應的記錄。關注申請資助的單塊田地的特征。根據(jù)田地的大小、主要農作物類型、土壤類型等來評估該田地的期望收入。在導出節(jié)點中使用CLEM語言導出新字段。通過farmsize*rainfall *landquality這一簡單公式評估收入。
(3)調查偏離評估值的農民。需要導出另一個字段,對兩個值進行比較并返回一個百分比差值,該字段被稱為diff,繪制diff的直方圖。通過疊加申請類型來檢查其會不會影響評估收入之間的差距。
圖2 數(shù)據(jù)預篩選——異常檢測模型
2.2 訓練神經網(wǎng)絡
在最初的數(shù)據(jù)調查中,在考慮各種因素的情況下將實際申請金額與期望金額進行比較很有用。這就是神經網(wǎng)絡的意義所在。在數(shù)據(jù)中使用變量,神經網(wǎng)絡可以根據(jù)目標變量或相關變量來進行預測。通過這些預測變量,可以查明偏差的記錄或記錄組。步驟如下:
(1)建模準備過程中,應首先將類型節(jié)點添加到當前流中。由于要使用數(shù)據(jù)中的其他變量來預測申請值,可以使用類型節(jié)點將申請金額的方向設置為輸出。
(2)大多數(shù)案例的預期申請金額與實際申請金額都基本相符。導出另一個claimdiff字段(與之前導出的“收入差額”字段類似)。
(3)為了說明實際申請金額與預估申請金額之間的差異,使用claimdiff直方圖。了解申請金額比預估金額(由神經網(wǎng)絡判斷)高的人。
(4)通過在直方圖劃出區(qū)域,可以右鍵單擊劃出的區(qū)域,然后生成一個選擇節(jié)點以進一步調查claimdiff值相對較大(如大于50%)的人。這些申請有待進一步調查。
2.3 重訪異常檢測
作為使用“神經網(wǎng)絡”的一種備選方案,再次使用“異常檢測”,但此次僅檢測“神經網(wǎng)絡”模型中所用記錄的子集(claimtype=='arable_dev')。具體步驟如下:
(1)在與添加神經網(wǎng)絡節(jié)點相同的位置添加異常檢測節(jié)點(這樣兩個節(jié)點便同時成為相同類型節(jié)點的兩個分支)。在“模型”選項卡中,如前所述選擇訓練數(shù)據(jù)中大多數(shù)異常記錄的數(shù)目,然后輸入值10。
(2)執(zhí)行此節(jié)點,將已生成模型添加到流,如前所述選擇相應選項以放棄非異常記錄。添加表節(jié)點,然后執(zhí)行以查看結果。
最終建立如圖3所示的異常檢測與神經網(wǎng)絡對比模型。
圖3 異常檢測與神經網(wǎng)絡對比模型
通過上節(jié)的分析,根據(jù)不同判斷規(guī)則,得出了相應的異常檢測結果。
3.1 數(shù)據(jù)調查
通過選擇姓名字段(假定該字段具有識別每塊田地的唯一值)輸出申請者name字段的分布表。最終的分布圖4顯示name618和name777兩個申請者有多條申請記錄,認為有較大可能存在潛在欺詐行為。
3.2 神經網(wǎng)絡與異常檢測結果
如圖5所示,是在“重訪異常檢測”后得到的判斷結果;圖6是訓練神經網(wǎng)絡得到的判斷結果。不難發(fā)現(xiàn),其中ID為773、897和899在兩種分析模型中同時出現(xiàn),可以認為上述3個申請者存在較大的欺詐可能。
圖4 name字段分布圖
圖5 重訪異常檢測結果
圖6 神經網(wǎng)絡檢測結果
同時綜合前面得到同一申請者有多條申請記錄的name618和name777,因此認為一共有5個申請者存在潛在的欺詐行為。
使用“異常檢測”進行預篩選后,可以創(chuàng)建一個模型,將模型預測值與數(shù)據(jù)集中的現(xiàn)有值(關于田地收入字段)進行比較。從比較結果看出,偏差主要出現(xiàn)在某類財政補貼申請(耕地開發(fā))中,然后選擇相應記錄進行進一步調查。通過訓練神經網(wǎng)絡模型,申請金額與田地大小、評估收入、主要農作物等之間建立了關系。與網(wǎng)絡模型預估金額相差較大(大于50%)的申請將檢測出來并有待進一步調查。當然,有可能所有這些申請都是有效的,但他們與標準數(shù)據(jù)存在偏差的事實值得引起人們的注意。
為了進行比較,將再次使用異常檢測節(jié)點,但此次只針對“神經網(wǎng)絡”分析中包含的耕地開發(fā)財政補貼使用該節(jié)點。除存在些微差別之外,此方法得到的結果與“神經網(wǎng)絡”方法幾乎相同。由于兩種方法均為勘察方法,這也在情理之中。
[1]董理.日本農業(yè)財政補貼政策及對中國的借鑒[J].世界農業(yè),2012(12):34-36.
[2]郭偉,張海風,苑連霞.美國農業(yè)財政補貼政策及對我國農業(yè)發(fā)展的啟示[J].對外經貿實務,2014(08):35-38.
[3]杜晨雪.淺析中國農業(yè)財政補貼政策[J].商業(yè)文化(學術版),2010(10):82-83.
[4]高莉.欺詐偵測系統(tǒng)解決方案研究[J].金融電子化,2012(07):65-67.
[5]李炎,李皓,錢肖魯,等.異常檢測算法分析[J].計算機工程,2002(06):5-6.
[6]王建琦,李友年,陳星陽.基于BP神經網(wǎng)絡算法的自動駕駛儀設計[J].航空兵器,2007(04):3-5.
Analysis of the Financial Fraud Screening Based on the Anomaly Detection and Neural Network
LAI Hua-liang,CHEN Jian-guo
(College of Mathematics and Informatics,South China Agricultural University,Guangzhou 510642)
As the country's emphasis on"three rural"issue,as an important part of the"three rural"policy,in recent years,the government gradually increases the intensity of agricultural subsidies.At the same time there are also appeared some subsidies fraud.Based on the virtual data provided by Clementine,analyses the fiscal subsidy application may occur in the case of fraud,by using the software of SPSS Clementine 11.1,uses two kinds of classification algorithms include anomaly detection and neural network,carries on the data mining analysis to the financial application fraudulent practice,digs out the possibility of applicants is fraud,finally digs out the applicants which with big possibility of fraudulent.
Financial Subsidies;Anomaly Detection;Neural Network;Data Mining
1007-1423(2016)33-0025-04
10.3969/j.issn.1007-1423.2016.33.006
賴華梁(1991-),男,廣東梅州人,碩士研究生,研究方向為數(shù)據(jù)挖掘、管理信息系統(tǒng)
2016-09-06
2016-10-30
陳建國(1963-),男,湖南岳陽人,博士研究生,教授,研究方向為工業(yè)工程