陳廣開 陳觀娣
摘要:CRISP-DM模型為一個(gè)KDD工程提供了一個(gè)完整的過程描述。該模型將一個(gè)KDD工程分為6個(gè)不同的,但順序并非完全不變的階段。本文根據(jù)CRISP-DM模型,構(gòu)建了一種標(biāo)準(zhǔn)化流程的數(shù)據(jù)分析系統(tǒng),實(shí)現(xiàn)了數(shù)據(jù)分析從業(yè)務(wù)理解向數(shù)據(jù)理解的無縫銜接,目前,這套系統(tǒng)已應(yīng)用在電力營(yíng)銷稽查業(yè)務(wù)上,實(shí)現(xiàn)了數(shù)據(jù)統(tǒng)計(jì)與分析自助式操作,極大提高了數(shù)據(jù)價(jià)值利用度,效果較好。
關(guān)鍵詞:數(shù)據(jù)分析;標(biāo)準(zhǔn)流程;業(yè)務(wù)理解;數(shù)據(jù)理解
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2018)09-0085-03
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,人類活動(dòng)產(chǎn)生的信息交織為密集的網(wǎng)絡(luò),企業(yè)內(nèi)也建立了越來越多的信息應(yīng)用,這些應(yīng)用記錄著企業(yè)運(yùn)行數(shù)據(jù)。隨著業(yè)務(wù)的發(fā)展和時(shí)間的積累,數(shù)據(jù)變得海量、多源和異構(gòu),這些海量數(shù)據(jù)蘊(yùn)含豐富的知識(shí)和有用信息,但也給企業(yè)使用帶來困難。
因此,提高數(shù)據(jù)利用率,挖掘數(shù)據(jù)潛在價(jià)值,就顯得很重要。當(dāng)前在數(shù)據(jù)統(tǒng)計(jì)、分析和挖掘方面,很多系統(tǒng)都采用CRISP-DM模型進(jìn)行實(shí)現(xiàn),本文基于CRISP-DM模型,構(gòu)建了一種標(biāo)準(zhǔn)化流程的數(shù)據(jù)分析系統(tǒng),實(shí)現(xiàn)了數(shù)據(jù)分析從業(yè)務(wù)理解向數(shù)據(jù)理解的無縫銜接和自主定制。
1 問題提出
1.1 CRISP-DM模型簡(jiǎn)介
CRISP-DM (cross-industry standard process for data mining),即為“跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程”。此模型于1999年歐盟機(jī)構(gòu)聯(lián)合起草?,F(xiàn)CRISP-DM模型在各種KDD過程模型中占據(jù)領(lǐng)先位置,2014年統(tǒng)計(jì)表明,采用量達(dá)到43%。CRISP-DM模型為一個(gè)KDD工程提供了一個(gè)完整的過程描述。該模型將一個(gè)KDD工程分為6個(gè)不同的,但順序并非完全不變的階段,6個(gè)階段分別是:商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、評(píng)估、部署。各階段關(guān)系如圖1所示。
1.2 現(xiàn)狀及存在問題
就方法學(xué)而言,CRISP-DM本質(zhì)來看就是在分析應(yīng)用中提出問題、分析問題和解決問題的過程,非常適合工程管理,適合大規(guī)模定制,以至CRISP-DM如今已經(jīng)成為事實(shí)上的行業(yè)標(biāo)準(zhǔn)?!罢{(diào)查顯示,50%以上的數(shù)據(jù)挖掘工具采用的都是CRISP-DM的數(shù)據(jù)挖掘流程”。
而實(shí)際數(shù)據(jù)挖掘過程中,通常是業(yè)務(wù)人員與數(shù)據(jù)分析人員通過語言或文字溝通后,由數(shù)據(jù)分析人員構(gòu)建業(yè)務(wù)理解到數(shù)據(jù)理解的過程。因數(shù)據(jù)分析人員對(duì)業(yè)務(wù)理解不精,致使建立的數(shù)據(jù)模型與實(shí)際業(yè)務(wù)存在偏差,導(dǎo)致最終數(shù)據(jù)分析結(jié)果與真實(shí)情況存在差距。
再者,一般的數(shù)據(jù)挖掘工具,對(duì)數(shù)據(jù)準(zhǔn)備到建模的過程處理比較好,提供了豐富的工具,但在獲得業(yè)務(wù)數(shù)據(jù)方面則有缺失或考慮不周,需業(yè)務(wù)人員先提供業(yè)務(wù)數(shù)據(jù),業(yè)務(wù)人員再找信息化部門或運(yùn)維商獲得數(shù)據(jù),這二次數(shù)據(jù)交接過程時(shí)常也導(dǎo)致業(yè)務(wù)數(shù)據(jù)發(fā)生了變化。
本文根據(jù)CRISP-DM模型,構(gòu)建了一種標(biāo)準(zhǔn)化流程的數(shù)據(jù)分析系統(tǒng),實(shí)現(xiàn)了數(shù)據(jù)分析從業(yè)務(wù)理解向數(shù)據(jù)理解的無縫銜接,讓業(yè)務(wù)人員不需要太多的數(shù)據(jù)分析的專業(yè)知識(shí),通過拖拉和選擇即可實(shí)現(xiàn)自助式的數(shù)據(jù)分析需求。
2 數(shù)據(jù)分析標(biāo)準(zhǔn)流程實(shí)現(xiàn)
2.1 數(shù)據(jù)流程實(shí)現(xiàn)設(shè)計(jì)
為降低業(yè)務(wù)人員對(duì)數(shù)據(jù)分析類軟件的使用難度,結(jié)合業(yè)務(wù)人員對(duì)業(yè)務(wù)流程的易理解和關(guān)注特性,對(duì)CRISP-DM模型的實(shí)現(xiàn)過程做流程化操作分解,讓用戶在一步步指引過程中完成數(shù)據(jù)分析過程。
2.1.1 數(shù)據(jù)注冊(cè)
數(shù)據(jù)分析,首先要關(guān)注的是數(shù)據(jù)分析范圍。這個(gè)范圍一定是可靈活伸縮和擴(kuò)展。一般企業(yè)數(shù)據(jù)環(huán)境中,會(huì)存在一個(gè)或多個(gè)信息化系統(tǒng),數(shù)據(jù)普遍以結(jié)構(gòu)化數(shù)據(jù)為主,非結(jié)構(gòu)化數(shù)據(jù)為輔。同時(shí),日常數(shù)據(jù)分析既有常規(guī)性,也有即時(shí)性。例如:對(duì)一些突發(fā)事件,立即調(diào)用數(shù)據(jù),執(zhí)行分析,得出結(jié)果,因此,需提供一個(gè)數(shù)據(jù)注冊(cè)功能,將常用數(shù)據(jù)進(jìn)行注冊(cè),形成數(shù)據(jù)項(xiàng)清單,以備需時(shí)使用。
以結(jié)構(gòu)化數(shù)據(jù)為例,設(shè)計(jì)“數(shù)據(jù)接入管理”和“數(shù)據(jù)注冊(cè)管理”兩個(gè)過程。
(1)數(shù)據(jù)接入管理:管理數(shù)據(jù)源、數(shù)據(jù)庫表、數(shù)據(jù)列字段以及接入狀態(tài)等內(nèi)容。
(2)數(shù)據(jù)注冊(cè)管理:對(duì)接入數(shù)據(jù)進(jìn)行管控,選擇需要的表及列注冊(cè),注冊(cè)后方可使用。
其關(guān)系如圖2所示。
2.1.2 業(yè)務(wù)理解與數(shù)據(jù)理解銜接
業(yè)務(wù)人員在日常工作中,比較習(xí)慣使用流程類軟件,例如ERP系統(tǒng)、OA系統(tǒng)等,這些系統(tǒng)特征就是嵌入了流程化操作,基于這個(gè)操作特性,在數(shù)據(jù)分析操作過程中,引入數(shù)據(jù)規(guī)則、數(shù)據(jù)專題和數(shù)據(jù)標(biāo)準(zhǔn)化流程的概念。
(1)數(shù)據(jù)規(guī)則:為數(shù)據(jù)分析的最小操作單元,實(shí)現(xiàn)日常數(shù)據(jù)分析集的歸類和復(fù)用。提高數(shù)據(jù)分析操作過程效率。
(2)數(shù)據(jù)專題:為數(shù)據(jù)分析應(yīng)用的最終載體。一個(gè)數(shù)據(jù)專題可通過一個(gè)或多個(gè)數(shù)據(jù)規(guī)則的組合,形成更加豐富的數(shù)據(jù)分析能力,解決復(fù)雜業(yè)務(wù)數(shù)據(jù)分析的需要。
(3)數(shù)據(jù)標(biāo)準(zhǔn)化流程:以描述、分析、設(shè)計(jì)、開發(fā)、測(cè)試、評(píng)估、發(fā)布組成7個(gè)操作流程對(duì)應(yīng)CRISP-DM模型。其對(duì)應(yīng)關(guān)系如圖3。
2.2 數(shù)據(jù)分析過程處理
通過上述流程化設(shè)計(jì),數(shù)據(jù)分析過程處理操作將變得極為簡(jiǎn)單,具體過程如下:
(1)業(yè)務(wù)描述:結(jié)合業(yè)務(wù),編寫業(yè)務(wù)統(tǒng)計(jì)需求。
(2)業(yè)務(wù)分析:對(duì)業(yè)務(wù)統(tǒng)計(jì)需求,填寫業(yè)務(wù)分解分析。
(3)數(shù)據(jù)設(shè)計(jì):對(duì)一個(gè)或多個(gè)分析,選擇需用到的數(shù)據(jù)項(xiàng),在設(shè)計(jì)過程中,可通過數(shù)據(jù)注冊(cè)功能進(jìn)行查找和選擇。
(4)應(yīng)用開發(fā):對(duì)一個(gè)或多個(gè)設(shè)計(jì),選擇注冊(cè)表和列,由系統(tǒng)生成對(duì)應(yīng)的SQL語句,以JSON結(jié)構(gòu)體存儲(chǔ)。
(5)應(yīng)用測(cè)試:對(duì)開發(fā)的應(yīng)用,進(jìn)行數(shù)據(jù)測(cè)試,形成數(shù)據(jù)結(jié)果。
(6)應(yīng)用評(píng)估:對(duì)形成的數(shù)據(jù)結(jié)果,進(jìn)行效果評(píng)估。
(7)應(yīng)用發(fā)布:對(duì)評(píng)估合格的應(yīng)用,發(fā)布平臺(tái),固化為統(tǒng)計(jì)或分析應(yīng)用。
以上流程化處理,實(shí)現(xiàn)了CRISP-DM模型的7個(gè)階段。
3 數(shù)據(jù)分析標(biāo)準(zhǔn)流程應(yīng)用
3.1 應(yīng)用體系結(jié)構(gòu)設(shè)計(jì)
為驗(yàn)證基于CRISP-DM模型實(shí)現(xiàn)流程化數(shù)據(jù)分析效果,基于電力營(yíng)銷稽查業(yè)務(wù)場(chǎng)景,設(shè)計(jì)開發(fā)了電力稽查專題分析應(yīng)用系統(tǒng),其應(yīng)用框圖如圖4所示。
圖4框圖中,縱向分為外部數(shù)據(jù)采集接口和內(nèi)部數(shù)據(jù)標(biāo)準(zhǔn)化分析應(yīng)用兩部分,橫向由下而上分為存儲(chǔ)層、計(jì)算層和展現(xiàn)層。
系統(tǒng)基于MVC設(shè)計(jì)模式,SSH框架,采用JAVA語言設(shè)計(jì),中間件采用weblogic,數(shù)據(jù)模型采用JSON結(jié)構(gòu)存儲(chǔ)。
3.2 主要應(yīng)用功能
系統(tǒng)提供庫表接入、庫表注冊(cè)、數(shù)據(jù)規(guī)則、數(shù)據(jù)專題、數(shù)據(jù)模型、分析與統(tǒng)計(jì)應(yīng)用、系統(tǒng)支撐等管理功能。
其中庫表接入、庫表注冊(cè)、數(shù)據(jù)規(guī)則和數(shù)據(jù)專題四個(gè)核心功能通過服務(wù)接口調(diào)用方式協(xié)調(diào)工作,執(zhí)行效率和穩(wěn)定性較好。
在數(shù)據(jù)規(guī)則、數(shù)據(jù)專題功能中,提供業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、分析建模、驗(yàn)證與評(píng)估、實(shí)施與運(yùn)營(yíng)組成的7個(gè)標(biāo)準(zhǔn)化、流程化操作環(huán)節(jié),如圖5所示。
3.3 應(yīng)用層次及效果
以電力營(yíng)銷稽查業(yè)務(wù)為例,稽查人員結(jié)合風(fēng)險(xiǎn)分析,利用電力稽查專題分析應(yīng)用系統(tǒng),通過自主創(chuàng)建數(shù)據(jù)分析專題,實(shí)現(xiàn)縮小稽查范圍,精準(zhǔn)定位問題的能力,特別針對(duì)時(shí)間跨度長(zhǎng)的高風(fēng)險(xiǎn)問題,比如電費(fèi)核查及追討,可輕松整合歷史數(shù)據(jù)進(jìn)行挖掘分析,促進(jìn)了稽查班員從傳統(tǒng)操作型向數(shù)字智慧型轉(zhuǎn)變。
4 結(jié)語
基于CRISP-DM模型,構(gòu)建了一種標(biāo)準(zhǔn)化流程的數(shù)據(jù)分析系統(tǒng),實(shí)現(xiàn)了數(shù)據(jù)分析從業(yè)務(wù)理解向數(shù)據(jù)理解的無縫銜接,通過提供數(shù)據(jù)統(tǒng)計(jì)與分析自助式操作,支持自主定制數(shù)據(jù)分析規(guī)則、專題,實(shí)現(xiàn)營(yíng)銷稽查數(shù)據(jù)挖掘分析及應(yīng)用。從實(shí)際應(yīng)用情況來看,提高了企業(yè)對(duì)數(shù)據(jù)的使用水平,挖掘出了很多往常無法發(fā)現(xiàn)的數(shù)據(jù)價(jià)值,實(shí)現(xiàn)了數(shù)據(jù)賦能,有較好推廣價(jià)值。系統(tǒng)后續(xù)還可強(qiáng)化數(shù)據(jù)計(jì)算能力,如引入大數(shù)據(jù)、分布式等技術(shù),提高海量數(shù)據(jù)運(yùn)算效率,進(jìn)一步縮短數(shù)據(jù)統(tǒng)計(jì)及分析的等待時(shí)間。
參考文獻(xiàn)
[1]J Hyldegrd.Collaborative information behaviour--exploring Kuhlthau's Information Search Process model in a group-based educational setting[J].Information Processing & Management,2006,42(1):276-298.
[2]Levy A Y,RajaramanA,Ordille J J.Querying heterogeneous information sources using source descriptions [C].In 22nd Intl.Conf.on Very Large DataBases(VLDB),Bombay,India,1996:251-262.
[3]白魚秀,鄭歡歡.基于CRISP-DM模型的移動(dòng)GPRS業(yè)務(wù)關(guān)聯(lián)規(guī)則應(yīng)用研究[J].物聯(lián)網(wǎng)技術(shù),2017,7(3):98-100.
[4]梁霄波.電信客戶細(xì)分中基于聚類算法的數(shù)據(jù)挖掘技術(shù)研究[J].現(xiàn)代電子技術(shù),2016,39(15):95-98.
[5]盧文祥.基于logistic回歸模型的保險(xiǎn)單續(xù)款預(yù)測(cè)研究[D].哈爾濱:哈爾濱工程大學(xué),2017.
[6]Eric Newcomer,Greg Lomow.Understanding SOA with webser-vices[M].北京:電子工業(yè)出版社,2006.
[7]李立博.面向服務(wù)的多源異構(gòu)數(shù)據(jù)整合平臺(tái)的設(shè)計(jì)[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(1):141-144.
[8]范春梅.基于CRM的移動(dòng)通信流失預(yù)警建模[J].中國(guó)培訓(xùn),2017,(6):283-284.