張鴻雁
(晉中學(xué)院 信息技術(shù)與工程學(xué)院,山西 晉中 030619)
?
探討嵌入式數(shù)據(jù)挖掘模型在銀行卡業(yè)務(wù)中的運(yùn)用
張鴻雁
(晉中學(xué)院 信息技術(shù)與工程學(xué)院,山西 晉中 030619)
針對(duì)既有數(shù)據(jù)的挖掘系統(tǒng)算法運(yùn)行效率比較低、結(jié)構(gòu)松散揭合等問題,建立嵌入式的數(shù)據(jù)挖掘相關(guān)模型,以便完成算法組件化的管理,同時(shí)把整個(gè)數(shù)據(jù)的流程歸入到數(shù)據(jù)庫中,這樣不僅可以對(duì)數(shù)據(jù)的挖掘過程進(jìn)行簡(jiǎn)化,而且能夠大幅度提高數(shù)據(jù)的挖掘效率。
嵌入式;數(shù)據(jù)挖掘模型;銀行卡
數(shù)據(jù)挖掘主要從相關(guān)數(shù)據(jù)庫中挖掘相關(guān)知識(shí),其是在銀行卡數(shù)據(jù)儲(chǔ)存方式的基礎(chǔ)上,采取有效分析研究工具與方法,從傳統(tǒng)失誤型的數(shù)據(jù)庫中獲取深層次信息。但是,在數(shù)據(jù)的挖掘技術(shù)逐漸發(fā)展的過程中,怎樣充分結(jié)合數(shù)據(jù)倉庫的挖掘系統(tǒng)以及數(shù)據(jù)庫的系統(tǒng),開始變成數(shù)據(jù)挖掘中的一個(gè)重要問題。
1.1關(guān)聯(lián)分析
通過關(guān)聯(lián)規(guī)則的挖掘,可以發(fā)現(xiàn)很多數(shù)據(jù)項(xiàng)集間存在相關(guān)關(guān)系或者是關(guān)聯(lián)性,如果兩個(gè)以及多個(gè)變量取值間存在規(guī)律,就可稱作某一種關(guān)聯(lián),如兩個(gè)以及多個(gè)數(shù)據(jù)項(xiàng)取值間重復(fù)率比較高,就會(huì)存在關(guān)聯(lián)性[1]。
1.2分類分析
分類過程需要找出相關(guān)數(shù)據(jù),同時(shí)對(duì)概念模型與數(shù)據(jù)進(jìn)行區(qū)分,這樣對(duì)于標(biāo)記與預(yù)測(cè)對(duì)象類比較方便。通常數(shù)據(jù)的分類主要包含兩步的過程,也就是建立模型、使用模型。而導(dǎo)出模型主要在訓(xùn)練數(shù)據(jù)分析基礎(chǔ)上,應(yīng)用多種模式對(duì)挖掘數(shù)據(jù)進(jìn)行分析。
1.3聚類的分析。
聚類分析主要是把數(shù)據(jù)與對(duì)象分為不同的類,在同類中對(duì)象相似度比較高,但是在不同類中,對(duì)象之間存在較大差異,其相似度主要是按照對(duì)象屬性描述值進(jìn)行計(jì)算,現(xiàn)階段常用度量方式主要是距離。通過對(duì)聚類進(jìn)行分析可以加強(qiáng)對(duì)于客觀知識(shí)的了解,同時(shí)成立宏觀的概念。
1.4異常的檢測(cè)
在數(shù)據(jù)庫中,相關(guān)數(shù)據(jù)有諸多異常的情況,對(duì)數(shù)據(jù)進(jìn)行分析時(shí)容易發(fā)現(xiàn),該異常情況容易影響到數(shù)據(jù)挖掘的準(zhǔn)確性,需要引起人們的重視。而異常包含很多較為有用的知識(shí),例如分類中異常的反例。異常的檢測(cè)目的主要是為了尋找結(jié)果和參照間存在的差異,了解觀察域值情況[2]。
目前,嵌入式數(shù)據(jù)的挖掘模型一般是使用各類數(shù)據(jù)庫的訪問技術(shù),在數(shù)據(jù)的挖掘系統(tǒng)之中嵌入算法。這個(gè)模型支持根據(jù)相關(guān)標(biāo)準(zhǔn)規(guī)范開發(fā)挖掘的算法,同時(shí)將算法發(fā)布,并嵌入到各種數(shù)據(jù)的倉庫以及數(shù)據(jù)庫中,把數(shù)據(jù)庫的功能轉(zhuǎn)化為眾所周知的、可以進(jìn)行二次開發(fā),便于發(fā)揮靈活的、通用的數(shù)據(jù)庫功能。該系統(tǒng)一般包含用戶層、數(shù)據(jù)挖掘?qū)右约八惴ㄇ度雽拥?,這個(gè)系統(tǒng)模型從圖1中可以看出。
圖1 嵌入式的數(shù)據(jù)挖掘模型
2.1用戶層與數(shù)據(jù)層
數(shù)據(jù)層一般包含數(shù)據(jù)倉庫或者是數(shù)據(jù)庫中元數(shù)據(jù)以及大量的業(yè)務(wù)數(shù)據(jù),其是數(shù)據(jù)挖掘中的一個(gè)重要部分。在此模型中,用戶層主要包含數(shù)據(jù)的管理人員、算法的發(fā)布人員以及數(shù)據(jù)的分析人員,可以讓數(shù)據(jù)挖掘涉及更多用戶[3]。
2.2數(shù)據(jù)的挖掘?qū)?/p>
2.2.1預(yù)處理的模塊
數(shù)據(jù)的預(yù)處理主要在數(shù)據(jù)的倉庫中進(jìn)行,其實(shí)現(xiàn)途徑包含兩條,其一,直接應(yīng)用數(shù)據(jù)庫管理體系SQL加工處理數(shù)據(jù)庫中的各種數(shù)據(jù),然后對(duì)數(shù)據(jù)表實(shí)施加工與處理;其二,與挖掘算法抑制,通過高級(jí)語言來實(shí)現(xiàn),再將其嵌入數(shù)據(jù)庫中,使得用戶可像一般儲(chǔ)存過程那樣,可以對(duì)預(yù)處理的手段進(jìn)行調(diào)用,再對(duì)數(shù)據(jù)實(shí)行預(yù)處理。
2.2.2關(guān)于結(jié)果處理的模塊
相關(guān)結(jié)果的處理流程跟算法的調(diào)用一般都是保持同步,而在EXE的應(yīng)用DLL的計(jì)算方式,其產(chǎn)生結(jié)果經(jīng)常會(huì)返回EXE的文件之中。這時(shí),該文本的結(jié)果在經(jīng)過處理以后,可以寫回到數(shù)據(jù)的倉庫中,以便展示給相關(guān)用戶。
2.3算法的嵌入層
算法發(fā)布的過程主要將算法發(fā)布至特定數(shù)據(jù)倉庫的系統(tǒng)中,給數(shù)據(jù)倉庫的系統(tǒng)中數(shù)據(jù)挖掘體系執(zhí)行打下基礎(chǔ);而算法的調(diào)用過程一般是數(shù)據(jù)的倉庫系統(tǒng)中執(zhí)行,通常是通過數(shù)據(jù)庫中儲(chǔ)存使用戶及時(shí)了解銀行卡參數(shù),再調(diào)出上一步的發(fā)布計(jì)算方式,對(duì)銀行卡用戶所指定數(shù)據(jù)進(jìn)行挖掘。
2.3.1計(jì)算方式發(fā)布
首先,算法發(fā)布的過程一般需要將算法封裝為DLL類型的文件,再將調(diào)用計(jì)算方式接口編譯為EXE的文件,將算法DLL的文件以及相關(guān)EXE的文件發(fā)布至相關(guān)數(shù)據(jù)庫中,而在相關(guān)數(shù)據(jù)庫之中,儲(chǔ)存創(chuàng)建的過程,可以稱之為SP,其流程從圖2中可以看出。
圖2 算法發(fā)布的過程
2.3.2算法的調(diào)用
在實(shí)際調(diào)用的過程中,因?yàn)楦鞣N數(shù)據(jù)倉庫的系統(tǒng)儲(chǔ)存過程功能與大小存在差異,各種數(shù)據(jù)倉庫的系統(tǒng)對(duì)于EXE的文件以及DLL的文件調(diào)用方式存在巨大的差別,因此,在不同的數(shù)據(jù)庫系統(tǒng)下具體實(shí)現(xiàn)細(xì)節(jié)同樣存在巨大的區(qū)別。在這個(gè)模型之中,數(shù)據(jù)庫終端的調(diào)用儲(chǔ)存過程,即SP,主要是指將用戶參數(shù)與算法參數(shù)傳入系統(tǒng)進(jìn)行儲(chǔ)存的過程中,再讓儲(chǔ)存系統(tǒng)對(duì)EXE的文件進(jìn)行調(diào)用,通常EXE文件是用來處理儲(chǔ)存的過程中所傳入?yún)?shù),以便對(duì)DLL算法獲得挖掘結(jié)果進(jìn)行調(diào)用[4]。
3.1在銀行卡的業(yè)務(wù)中對(duì)于嵌入式的挖掘數(shù)據(jù)應(yīng)用
現(xiàn)階段,在銀行卡的業(yè)務(wù)上對(duì)于數(shù)據(jù)挖掘的技術(shù)應(yīng)用,尚存在以下三方面局限。第一,效率比較低。尤其在進(jìn)行海量數(shù)據(jù)的挖掘時(shí),經(jīng)常達(dá)不到預(yù)期的效果;第二,專業(yè)化的程度比較低,無法針對(duì)相關(guān)銀行卡的業(yè)務(wù)實(shí)施挖掘。而嵌入式數(shù)據(jù)能夠?qū)鹘y(tǒng)管理轉(zhuǎn)變?yōu)樗惴ńM件化的管理,換句話說,主要是針對(duì)各種銀行卡開發(fā)情況選用相關(guān)組件的計(jì)算對(duì)策,而且,進(jìn)行銀行卡數(shù)據(jù)挖掘,能夠準(zhǔn)確地對(duì)客戶進(jìn)行歸類,可以及時(shí)發(fā)現(xiàn)一些較優(yōu)質(zhì)的客戶,同時(shí)嵌入式的數(shù)據(jù)挖掘能開發(fā)出單獨(dú)計(jì)算方式,其目的是為了滿足客戶的分類需要。此外,嵌入式的數(shù)據(jù)挖掘體系屬于靈活性比較高的一種數(shù)據(jù)挖掘體系,并且客戶可在系統(tǒng)中改進(jìn)算法以及添加新算法,便于實(shí)施二次開發(fā),大幅度節(jié)省大型系統(tǒng)二次開發(fā)成本[5]。
3.2實(shí)例應(yīng)用研究
為對(duì)嵌入式的數(shù)據(jù)挖掘中相關(guān)模型自身有效性進(jìn)行驗(yàn)證,和央行的某分行進(jìn)行合作,通過信用卡的業(yè)務(wù)數(shù)據(jù),對(duì)比分析了非嵌入式以及嵌入式的挖掘系統(tǒng)運(yùn)行情況,主要在PC機(jī),即在HY DDR512M RAM與P42.5GCPU上進(jìn)行測(cè)試,選擇Apriori以及CMP兩種數(shù)據(jù)的挖掘計(jì)算方式。所選嵌入數(shù)據(jù)庫是SQLServer 2005的實(shí)驗(yàn)數(shù)據(jù),由10000條如實(shí)記錄至160000條的記錄,對(duì)以上兩種計(jì)算方式進(jìn)行測(cè)試,可充分了解不同計(jì)算方式在銀行卡數(shù)據(jù)集上,使用非嵌入式以及嵌入式的數(shù)據(jù)挖掘時(shí),其潛在性能方面的差異,其中,在銀行卡的業(yè)務(wù)中對(duì)嵌入式的數(shù)據(jù)挖掘應(yīng)用一般包含分類挖掘與關(guān)聯(lián)規(guī)則的挖掘。
3.2.1分類挖掘
分類挖掘需要按照持卡人交易方式以及使用情況,將持卡人群分成各種類別,一般分成流失的客戶、優(yōu)質(zhì)的客戶、潛在流失的客戶以及潛在的優(yōu)質(zhì)客戶等,這種分類方式是現(xiàn)階段較為常用的一種分類方式。在整個(gè)分類挖掘的過程中,通過關(guān)聯(lián)規(guī)則之中Apriori的算法,可以有效挖掘?qū)嵗写嬖诘臄?shù)據(jù),其算法時(shí)間從表一中可以看出,從表1中的數(shù)據(jù)對(duì)比中能夠看出,在銀行卡具體業(yè)務(wù)數(shù)據(jù)的挖掘中采取嵌入式的數(shù)據(jù)挖掘,兩種不同算法的計(jì)算效率都有明顯提高。無論是Apriori亦或是CMP,計(jì)算效率均提高了兩三倍,從實(shí)際應(yīng)用情況來看,伴隨銀行卡業(yè)務(wù)數(shù)據(jù)量的增加,使用嵌入式的數(shù)據(jù)挖掘方式可以大幅度節(jié)約時(shí)間。換句話說,嵌入式的數(shù)據(jù)挖掘系統(tǒng)效果比較好,將其應(yīng)用在銀行卡的業(yè)務(wù)數(shù)據(jù)挖掘中切實(shí)可行[6]。
表1 Apriori算法
算法數(shù)據(jù)量(條)嵌入式(s)非嵌入式(s)Apriori10000403970492000832114664000020133304768000043086454016000092162145476
3.2.2關(guān)聯(lián)規(guī)則的挖掘
經(jīng)過對(duì)持卡人基本情況與用卡行為進(jìn)行綜合分析,可以導(dǎo)出具可信度、支持度比較高的用卡習(xí)慣人群,構(gòu)成關(guān)聯(lián)的規(guī)則。此外,在選用計(jì)算方式過程中,主要選取wangH等人所提出的:高效新型決策的數(shù)算法,也就是CMP的計(jì)算方式。將這種計(jì)算方式應(yīng)用在實(shí)例中,效果比較好,如果實(shí)例中數(shù)據(jù)呈現(xiàn)出倍數(shù)增長(zhǎng),數(shù)據(jù)的挖掘需要時(shí)間從表2中可以看出。
表2 CMP計(jì)算情況
算法數(shù)據(jù)量(條)嵌入式(s)非嵌入式(s)100005025785320001052616136CMP4000021556330198000042884671321600008711013606
總而言之,應(yīng)用嵌入式的數(shù)據(jù)挖掘系統(tǒng)模型,可以使挖掘計(jì)算方式變得更加方便與簡(jiǎn)單,此模型即將向著第四代數(shù)據(jù)挖掘模型系統(tǒng)發(fā)展,同時(shí)是商業(yè)智能化平臺(tái)以及數(shù)據(jù)倉庫體系的關(guān)鍵性發(fā)展方向之一。將新嵌入式的數(shù)據(jù)挖掘模型應(yīng)在銀行卡的業(yè)務(wù)之中,不僅能夠?qū)η度胧降臄?shù)據(jù)挖掘模型優(yōu)越性進(jìn)行驗(yàn)證,而且能夠給商務(wù)智能化應(yīng)用技術(shù)軟件的升級(jí)提供參考。
[1]仲蓁蓁.嵌入式移動(dòng)信息終端在銀行自助設(shè)備配送管理中的應(yīng)用研究[J].機(jī)械設(shè)計(jì)與制造工程,2013(12):23-25.
[2]趙竹明.數(shù)據(jù)挖掘技術(shù)對(duì)村鎮(zhèn)銀行信用風(fēng)險(xiǎn)預(yù)測(cè)系統(tǒng)的嵌入研究[J].青島職業(yè)技術(shù)學(xué)院學(xué)報(bào),2015(3):123-125.
[3]呂志剛.大數(shù)據(jù)驅(qū)動(dòng)下的銀行應(yīng)用分析平臺(tái)整合模式——廣發(fā)銀行統(tǒng)一數(shù)據(jù)挖掘分析平臺(tái)實(shí)踐[J].中國金融電腦,2015(8):
[4]郭佳.數(shù)據(jù)挖掘技術(shù)在村鎮(zhèn)銀行信用風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用研究[J].科技經(jīng)濟(jì)市場(chǎng),2014(6):67-68.
[5]黃昶君,王林.大數(shù)據(jù)助推銀行零售業(yè)務(wù)量化經(jīng)營——大數(shù)據(jù)時(shí)代的零售數(shù)據(jù)挖掘和利用探索[J].海南金融,2014(1):34-36.
[6]卓麗娟.數(shù)據(jù)挖掘在企業(yè)財(cái)務(wù)核算中的運(yùn)用——來自第三方支付公司的例子[J].城市建設(shè)理論研究:電子版,2015(10):12-14.
(責(zé)任編輯:高 堅(jiān))
2016-03-18
晉中學(xué)院教學(xué)改革創(chuàng)新項(xiàng)目(ZL2016jg06)
TP368.1
A
167-8535(2016)03-0014-04
張鴻雁(1979-),女,山西壽陽人,晉中學(xué)院信息技術(shù)與工程學(xué)院教師,碩士,研究方向:計(jì)算機(jī)應(yīng)用、數(shù)據(jù)挖掘。