□文/霍 亮 楊 柳 霍 烽
(1.河北金融學院;2.河北大學經(jīng)濟管理實驗教學中心;3.保定市科學技術協(xié)會 河北·保定)
(一)數(shù)據(jù)挖掘簡介。從技術角度看,數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際數(shù)據(jù)中提取隱含在其中的、人們所不知道的但又是潛在有用的信息和知識的過程。簡言之,數(shù)據(jù)挖掘實際上是一種深層次的數(shù)據(jù)分析方法。
(二)數(shù)據(jù)挖掘的主要步驟
1、問題定義。數(shù)據(jù)挖掘是指在大量數(shù)據(jù)中發(fā)現(xiàn)有用的令人感興趣的信息,因此哪種信息是我們感興趣的,就成了數(shù)據(jù)挖掘的首要問題。
2、數(shù)據(jù)準備。數(shù)據(jù)準備又可分為三個步驟,即數(shù)據(jù)選取、數(shù)據(jù)預處理和數(shù)據(jù)變換。數(shù)據(jù)選取的目的是根據(jù)用戶的需要從原始數(shù)據(jù)庫中抽取一組數(shù)據(jù)。數(shù)據(jù)預處理一般包括消除噪聲、消除重復記錄、完成數(shù)據(jù)類型的轉換等。數(shù)據(jù)變換的目的是消減數(shù)據(jù)的維數(shù),即從初始特征中找出真正有用的特征。
3、數(shù)據(jù)挖掘。根據(jù)對問題的定義明確挖掘的任務或目的,如分類、聚類、關聯(lián)規(guī)則發(fā)現(xiàn)或序列模式發(fā)現(xiàn)等。
4、結果解釋和評估。數(shù)據(jù)挖掘的結果有些是有實際意義的,而有些是沒有意義的,或是與實際情況相違背的,這就需要對結果進行評估。
5、分析決策。數(shù)據(jù)挖掘的最終目的是輔助決策。決策者可以根據(jù)數(shù)據(jù)挖掘的結果,結合實際情況,調(diào)整競爭策略等。
總之,以上步驟不是一次完成的,可能其中某些步驟或者全部要反復進行,才有可能達到預期的效果。
數(shù)據(jù)挖掘通過預測未來趨勢及行為,做出前瞻的、基于知識的決策。數(shù)據(jù)挖掘的目標是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,主要有以下五類功能:
1、自動預測。數(shù)據(jù)挖掘技術能夠自動在大型數(shù)據(jù)倉庫中尋找到預測性信息。過去需要進行大量手工分析的問題,如今可以迅速直接地由數(shù)據(jù)本身得出結論。例如,數(shù)據(jù)挖掘技術能夠使用過去有關信用卡促銷的數(shù)據(jù)來尋找未來信用卡消費中能使銀行獲取最大盈利的客戶。
2、分析關聯(lián)。數(shù)據(jù)關聯(lián)是指數(shù)據(jù)倉庫中存在著某類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯(lián)。關聯(lián)可分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)。分析是否關聯(lián)的目的是找出數(shù)據(jù)倉庫中隱藏的關聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)倉庫中數(shù)據(jù)的關聯(lián)函數(shù),即使知道也是不確定的,因此由分析數(shù)據(jù)關聯(lián)度而生成的規(guī)則是具有可信度的,是有價值的知識。
3、劃分聚類。數(shù)據(jù)倉庫中的記錄可被劃分為一系列有意義的子集,即聚類。應用聚類技術可以增強人們對客觀現(xiàn)實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統(tǒng)的模式識別方法和數(shù)學分類學。聚類技術的核心是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術的某些片面性。
4、概念描述。概念描述就是對某類對象的內(nèi)涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。
5、偏差檢測。數(shù)據(jù)倉庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)倉庫中檢測這些偏差很有意義。偏差往往包含很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。
(一)風險管理。數(shù)據(jù)挖掘在銀行業(yè)的重要應用之一是風險管理,如信用風險評估??赏ㄟ^構建信用評級模型,評估貸款申請人或信用卡申請人的風險。對于銀行賬戶的信用評估,可采用直觀量化的評分技術。以信用評分為例,通過由數(shù)據(jù)挖掘模型確定的權重,給每項申請的各指標打分,加總得到該申請人的信用評分情況。銀行根據(jù)信用評分決定是否接受申請,確定信用額度。通過數(shù)據(jù)挖掘,還可以偵查異常的信用卡使用情況,確定極端客戶的消費行為。通過建立信用欺詐模型,幫助銀行發(fā)現(xiàn)具有潛在欺詐性的事件,開展欺詐偵查分析,預防和控制資金非法流失。
(二)客戶管理。在銀行客戶管理生命周期的各個階段都會用到數(shù)據(jù)挖掘技術。
1、獲取客戶。發(fā)現(xiàn)和開拓新客戶對任何一家銀行來說都至關重要。通過探索性的數(shù)據(jù)挖掘方法,如自動探測聚類和購物籃分析,可以用來找出客戶數(shù)據(jù)庫中的特征,預測對于銀行營銷活動的響應率??梢园芽蛻暨M行聚類分析,讓其自然分群,通過對客戶的服務收入、風險、成本等相關因素的分析、預測和優(yōu)化,找到新的可贏利目標客戶。
2、保留客戶。通過數(shù)據(jù)挖掘,發(fā)現(xiàn)流失客戶的特征后,銀行可以在具有相似特征的客戶未流失之前,采取額外增值服務、特殊待遇和激勵忠誠度等措施保留客戶。通過數(shù)據(jù)挖掘技術,可以預測哪些客戶將停止使用銀行的信用卡,而轉用競爭對手的卡。銀行可以采取措施來保持這些客戶的信任。
數(shù)據(jù)挖掘技術可以識別導致客戶轉移的關聯(lián)因子,用模式找出當前客戶中相似的可能轉移者,通過孤立點分析法可以發(fā)現(xiàn)客戶的異常行為,從而使銀行避免不必要的客戶流失。數(shù)據(jù)挖掘工具,還可以對大量的客戶資料進行分析,建立數(shù)據(jù)模型,確定客戶的交易習慣、交易額度和交易頻率,分析客戶對某個產(chǎn)品的忠誠程度、持久性等,從而為他們提供個性化定制服務,以提高客戶忠誠度。
3、優(yōu)化客戶服務。銀行業(yè)競爭日益激烈,客戶服務的質量是關系到銀行發(fā)展的重要因素。為客戶提供優(yōu)質和個性化的服務,是取得客戶信任的重要手段。如,通過分析客戶對產(chǎn)品的應用頻率、持續(xù)性等指標來判別客戶的忠誠度,通過交易數(shù)據(jù)的詳細分析來鑒別哪些是銀行希望保持的客戶。找到重點客戶后,銀行就能為客戶提供有針對性的服務。
[1]Jiawei Han,Mi chel i ne Kamber. 范明,孟小峰譯.數(shù)據(jù)挖掘:概念與技術[M].北京:機械工業(yè)出版社,2007.3.
[2]方蕾,王金桃.數(shù)據(jù)挖掘在客戶生命周期中的應用研究[J].武漢理工大學學報(信息與管理工程版),2008.4.
[3]王實等.銀行業(yè)CRM理論與實務[M].北京:電子工業(yè)出版社,2005.