亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于異常檢測和神經網(wǎng)絡的財政欺詐屏蔽分析

        2016-12-28 01:22:58賴華梁陳建國
        現(xiàn)代計算機 2016年33期
        關鍵詞:檢測

        賴華梁,陳建國

        基于異常檢測和神經網(wǎng)絡的財政欺詐屏蔽分析

        賴華梁,陳建國

        (華南農業(yè)大學數(shù)學與信息學院,廣州 510642)

        隨著國家對“三農”問題的重視,作為“三農”政策的重要組成部分,近年來國家逐漸加大農業(yè)財政補貼的力度,同時也出現(xiàn)一些財政補貼申請存在欺詐的問題。以Clementine提供的虛擬數(shù)據(jù)為基礎,分析財政補貼申請中可能出現(xiàn)欺詐行為的情況,通過運用SPSS Clementine 11.1軟件,利用異常檢測和神經網(wǎng)絡兩種分類算法,對財政申請的欺詐行為進行數(shù)據(jù)挖掘分析,挖掘出存在較大欺詐可能性的申請者。

        財政補貼;異常檢測;神經網(wǎng)絡;數(shù)據(jù)挖掘

        0 引言

        國外發(fā)達國家農產品貿易普遍較為繁榮。例如,美國2013年農品出口總額達到了創(chuàng)紀錄的1409億美元,主要得益于其不斷調整的農業(yè)財政補貼政策。日本在二戰(zhàn)后,經濟復蘇快速發(fā)展,由于其固有的地理因素限制了農業(yè)生產效率,日本政府在結合本國實情基礎上,推出了一系列有針對性的農業(yè)補貼政策,最大限度的發(fā)揮了日本農業(yè)的優(yōu)勢。

        中國是個農業(yè)大國,但是農業(yè)一直處于相對落后狀態(tài)。農業(yè)補貼政策對我國農業(yè)發(fā)展有著巨大的推動作用,我國財政補貼支農政策經過多年的演變、調整和發(fā)展,財政支持“三農”政策框架體系已經顯現(xiàn)。由于相關政策存在監(jiān)管死角,引發(fā)了諸如補貼申請欺詐等情況。在全球范圍內,申請欺詐已經被確定為金融機構收益損失的重大來源。

        本文使用SPPSS Clementine 11.1提供的虛擬數(shù)據(jù),模擬農業(yè)發(fā)展財政補貼申請案例,此案例中的財政補貼包括兩種類型:耕地開發(fā)財政補貼和退役田地財政補貼。本文通過使用數(shù)據(jù)挖掘分析方法發(fā)現(xiàn)偏離常態(tài),同時突出了有必要進一步調查的異常記錄。財政補貼申請金額取決于田地的類型和大小。

        1 前期研究

        1.1 數(shù)據(jù)字段

        本文分析采用SPSS Clementine 11.1提供的虛擬數(shù)據(jù),如表1所示,該數(shù)據(jù)共有10個字段。

        表1 農業(yè)申請記錄字段

        1.2 異常檢測算法

        異常檢測是數(shù)據(jù)挖掘中一個重要方面,一般用來發(fā)現(xiàn)較小規(guī)模的模式,即數(shù)據(jù)集中顯著不同于其他數(shù)據(jù)的對象。

        Hawkins認為,異常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機偏差,而是產生于完全不同的機制。后來研究者們根據(jù)對異常存在的不同假設,發(fā)展了很多異常檢測算法,大體可以分為基于統(tǒng)計的算法、基于深度的算法、基于距離的算法、基于密度的算法,以及面向高維數(shù)據(jù)的算法等。

        1.3 BP神經網(wǎng)絡算法

        BP神經網(wǎng)絡是由非線性變換單元組成的前饋網(wǎng)絡,由輸入層、輸出層和隱含層組成。理論證明:對于任何一個閉區(qū)間內的連續(xù)函數(shù)可以用一個隱含層的BP網(wǎng)絡來逼近,因而一個三層的BP網(wǎng)絡可以完成任意的n維到m維的映射。

        (1)BP神經網(wǎng)絡結構

        圖1 BP神經網(wǎng)絡拓撲結構圖

        BP神經網(wǎng)絡是基于BP誤差傳播算法的多層前饋網(wǎng)絡,多層BP網(wǎng)絡包含輸入節(jié)點、輸出節(jié)點,以及一層或多層隱含節(jié)點。三層BP網(wǎng)絡拓撲結構如圖1所示。各層神經元與下層所有的神經元連接,同層神經元之間沒有連接。

        1.4 數(shù)據(jù)預篩選

        使用異常處理算法對300條申請記錄進行預篩選,初步確定可能存在欺詐行為的申請者。

        (1)確定異常范圍。在異常檢測節(jié)點的“模型”選項卡中,選擇訓練數(shù)據(jù)中大多數(shù)異常記錄的數(shù)目。

        (2)查看異常檢測結果。使用表將異常結果進行呈現(xiàn),結果顯示,經過數(shù)據(jù)預篩選判斷存在潛在欺詐可能的10條記錄,ID字段標識分別為:633,647,654,703,704,739,752,791,813,883。

        2 建模分析與驗證

        2.1 數(shù)據(jù)調查

        首先,思考數(shù)據(jù)中可能存在的詐欺類型。一種可能是一塊田地同時出現(xiàn)多份財政補貼資助申請表。具體步驟如下:

        (1)要檢查重復申請,需將分布節(jié)點連接至數(shù)據(jù)集,然后選擇姓名字段(假定該字段具有識別每塊田地的唯一值)。最終的分布圖將顯示一些進行了多次申請的田地。

        (2)以上述步驟結果此為基礎,使用選擇節(jié)點放棄具有多個記錄的田地所對應的記錄。關注申請資助的單塊田地的特征。根據(jù)田地的大小、主要農作物類型、土壤類型等來評估該田地的期望收入。在導出節(jié)點中使用CLEM語言導出新字段。通過farmsize*rainfall *landquality這一簡單公式評估收入。

        (3)調查偏離評估值的農民。需要導出另一個字段,對兩個值進行比較并返回一個百分比差值,該字段被稱為diff,繪制diff的直方圖。通過疊加申請類型來檢查其會不會影響評估收入之間的差距。

        圖2 數(shù)據(jù)預篩選——異常檢測模型

        2.2 訓練神經網(wǎng)絡

        在最初的數(shù)據(jù)調查中,在考慮各種因素的情況下將實際申請金額與期望金額進行比較很有用。這就是神經網(wǎng)絡的意義所在。在數(shù)據(jù)中使用變量,神經網(wǎng)絡可以根據(jù)目標變量或相關變量來進行預測。通過這些預測變量,可以查明偏差的記錄或記錄組。步驟如下:

        (1)建模準備過程中,應首先將類型節(jié)點添加到當前流中。由于要使用數(shù)據(jù)中的其他變量來預測申請值,可以使用類型節(jié)點將申請金額的方向設置為輸出。

        (2)大多數(shù)案例的預期申請金額與實際申請金額都基本相符。導出另一個claimdiff字段(與之前導出的“收入差額”字段類似)。

        (3)為了說明實際申請金額與預估申請金額之間的差異,使用claimdiff直方圖。了解申請金額比預估金額(由神經網(wǎng)絡判斷)高的人。

        (4)通過在直方圖劃出區(qū)域,可以右鍵單擊劃出的區(qū)域,然后生成一個選擇節(jié)點以進一步調查claimdiff值相對較大(如大于50%)的人。這些申請有待進一步調查。

        2.3 重訪異常檢測

        作為使用“神經網(wǎng)絡”的一種備選方案,再次使用“異常檢測”,但此次僅檢測“神經網(wǎng)絡”模型中所用記錄的子集(claimtype=='arable_dev')。具體步驟如下:

        (1)在與添加神經網(wǎng)絡節(jié)點相同的位置添加異常檢測節(jié)點(這樣兩個節(jié)點便同時成為相同類型節(jié)點的兩個分支)。在“模型”選項卡中,如前所述選擇訓練數(shù)據(jù)中大多數(shù)異常記錄的數(shù)目,然后輸入值10。

        (2)執(zhí)行此節(jié)點,將已生成模型添加到流,如前所述選擇相應選項以放棄非異常記錄。添加表節(jié)點,然后執(zhí)行以查看結果。

        最終建立如圖3所示的異常檢測與神經網(wǎng)絡對比模型。

        圖3 異常檢測與神經網(wǎng)絡對比模型

        3 挖掘結果分析

        通過上節(jié)的分析,根據(jù)不同判斷規(guī)則,得出了相應的異常檢測結果。

        3.1 數(shù)據(jù)調查

        通過選擇姓名字段(假定該字段具有識別每塊田地的唯一值)輸出申請者name字段的分布表。最終的分布圖4顯示name618和name777兩個申請者有多條申請記錄,認為有較大可能存在潛在欺詐行為。

        3.2 神經網(wǎng)絡與異常檢測結果

        如圖5所示,是在“重訪異常檢測”后得到的判斷結果;圖6是訓練神經網(wǎng)絡得到的判斷結果。不難發(fā)現(xiàn),其中ID為773、897和899在兩種分析模型中同時出現(xiàn),可以認為上述3個申請者存在較大的欺詐可能。

        圖4 name字段分布圖

        圖5 重訪異常檢測結果

        圖6 神經網(wǎng)絡檢測結果

        同時綜合前面得到同一申請者有多條申請記錄的name618和name777,因此認為一共有5個申請者存在潛在的欺詐行為。

        4 結語

        使用“異常檢測”進行預篩選后,可以創(chuàng)建一個模型,將模型預測值與數(shù)據(jù)集中的現(xiàn)有值(關于田地收入字段)進行比較。從比較結果看出,偏差主要出現(xiàn)在某類財政補貼申請(耕地開發(fā))中,然后選擇相應記錄進行進一步調查。通過訓練神經網(wǎng)絡模型,申請金額與田地大小、評估收入、主要農作物等之間建立了關系。與網(wǎng)絡模型預估金額相差較大(大于50%)的申請將檢測出來并有待進一步調查。當然,有可能所有這些申請都是有效的,但他們與標準數(shù)據(jù)存在偏差的事實值得引起人們的注意。

        為了進行比較,將再次使用異常檢測節(jié)點,但此次只針對“神經網(wǎng)絡”分析中包含的耕地開發(fā)財政補貼使用該節(jié)點。除存在些微差別之外,此方法得到的結果與“神經網(wǎng)絡”方法幾乎相同。由于兩種方法均為勘察方法,這也在情理之中。

        [1]董理.日本農業(yè)財政補貼政策及對中國的借鑒[J].世界農業(yè),2012(12):34-36.

        [2]郭偉,張海風,苑連霞.美國農業(yè)財政補貼政策及對我國農業(yè)發(fā)展的啟示[J].對外經貿實務,2014(08):35-38.

        [3]杜晨雪.淺析中國農業(yè)財政補貼政策[J].商業(yè)文化(學術版),2010(10):82-83.

        [4]高莉.欺詐偵測系統(tǒng)解決方案研究[J].金融電子化,2012(07):65-67.

        [5]李炎,李皓,錢肖魯,等.異常檢測算法分析[J].計算機工程,2002(06):5-6.

        [6]王建琦,李友年,陳星陽.基于BP神經網(wǎng)絡算法的自動駕駛儀設計[J].航空兵器,2007(04):3-5.

        Analysis of the Financial Fraud Screening Based on the Anomaly Detection and Neural Network

        LAI Hua-liang,CHEN Jian-guo

        (College of Mathematics and Informatics,South China Agricultural University,Guangzhou 510642)

        As the country's emphasis on"three rural"issue,as an important part of the"three rural"policy,in recent years,the government gradually increases the intensity of agricultural subsidies.At the same time there are also appeared some subsidies fraud.Based on the virtual data provided by Clementine,analyses the fiscal subsidy application may occur in the case of fraud,by using the software of SPSS Clementine 11.1,uses two kinds of classification algorithms include anomaly detection and neural network,carries on the data mining analysis to the financial application fraudulent practice,digs out the possibility of applicants is fraud,finally digs out the applicants which with big possibility of fraudulent.

        Financial Subsidies;Anomaly Detection;Neural Network;Data Mining

        1007-1423(2016)33-0025-04

        10.3969/j.issn.1007-1423.2016.33.006

        賴華梁(1991-),男,廣東梅州人,碩士研究生,研究方向為數(shù)據(jù)挖掘、管理信息系統(tǒng)

        2016-09-06

        2016-10-30

        陳建國(1963-),男,湖南岳陽人,博士研究生,教授,研究方向為工業(yè)工程

        猜你喜歡
        檢測
        QC 檢測
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        “幾何圖形”檢測題
        “角”檢測題
        “有理數(shù)的乘除法”檢測題
        “有理數(shù)”檢測題
        “角”檢測題
        “幾何圖形”檢測題
        色婷婷av一区二区三区不卡| 国产色a在线观看| 久久亚洲精品成人| 日本一区二区三区资源视频| 国产精品亚洲一区二区三区16| 无码中文亚洲av影音先锋 | 东北寡妇特级毛片免费| AV无码中文字幕不卡一二三区| 日本岛国一区二区三区| 亚洲综合一区二区三区天美传媒| 蜜桃av抽搐高潮一区二区| 国内少妇自拍区免费视频| 在线观看极品裸体淫片av| 精品国产黄一区二区三区| 狠狠精品久久久无码中文字幕 | 亚洲色成人www永久在线观看| 日韩欧美亚洲综合久久影院d3| 中文无码一区二区不卡αv| 亚洲AV无码成人网站久久精品| 日韩一区二区三区天堂| 亚洲综合网国产精品一区| 久久精品麻豆日日躁夜夜躁| 亚洲av无码一区二区三区网站| 亚洲成aⅴ人片在线观看天堂无码| 亚洲av专区一区二区| 丰满的人妻hd高清日本| 无码中文字幕色专区| 亚洲精品熟女乱色一区| 白白在线视频免费观看嘛| 国产如狼似虎富婆找强壮黑人| 伊人久久亚洲综合影院首页| 人妻丰满熟妇一二三区| 欧美丰满老熟妇aaaa片| 免费做爰猛烈吃奶摸视频在线观看| 无码流畅无码福利午夜| 一区二区三区日韩亚洲中文视频| 午夜福利啪啪片| аⅴ天堂国产最新版在线中文| 蜜桃传媒免费观看视频| 亚洲av无码国产综合专区| 在线中文字幕有码中文|