吳素云
摘要:本文根據(jù)行政企事業(yè)單位工作人員辦公的特點,借鑒相關(guān)銀行系統(tǒng)理論與實踐,對聚類方法中的經(jīng)典K-means算法進行了改進,并應用到公務卡用戶分類模式中,實現(xiàn)對公務卡用戶的價值及行為特征的分類。對KII算法進行了仿真,實驗結(jié)果表明該算法的準確率等方面較經(jīng)典K-means算法有所提升。本文闡述了公務卡用戶分類時如何選擇分類變量、如何進行數(shù)據(jù)的預處理的全過程,也為銀行進行公務卡用戶分類提供了方法上的指導。
關(guān)鍵詞:KII算法 公務卡 用戶分類
借鑒國內(nèi)外相關(guān)的理論研究,基于數(shù)據(jù)挖掘技術(shù)的公務卡用戶分類研究很多都是基于經(jīng)典K-means算法進行的,這主要是因為相對大部分聚類算法而言,K-means算法的時空復雜度相對較小,性能相對較好,同時很多挖掘工具都提供了內(nèi)置的K-means聚類模型,如SPSS Clementine,DB Miner等,可直接使用,非常方便。但由于經(jīng)典K-means算法本身存在的一些固有缺陷(如參數(shù)人為指定,初始聚類中心隨機生成等),會影響公務卡用戶分類結(jié)果的可靠性。因此本文將克服了K-means四大缺陷的算法——啟發(fā)式初始化的改進K-means算法(KII算法)應用到公務卡用戶分類研究中,建立基于KII算法的公務卡用戶分類模式。
一、公務卡用戶分類的維度分析
(一)維度分析的依據(jù)
維度是人們觀察事物的角度,是有關(guān)于目標問題的屬性的集合。在不同的應用背景和應用目的下,維度的選擇和構(gòu)成也不同。在公務卡用戶分類問題中,銀行分類的主要目的是識別用戶的行為特征,尤其是用戶中高價值用戶的特征,以便對具有相似行為特征的高價值用戶群開展集中的針對性營銷和服務,因此用戶的價值特征以及行為特征對銀行而言都是非常感興趣的模式,都可以作為公務卡用戶分類的維度。對于用戶的基本特征以及賬戶特征,由于它們能夠?qū)珓湛ㄓ脩舻膬r值及行為特征產(chǎn)生影響,因而銀行對這類特征也很關(guān)心,所以它們也應該列為公務卡用戶分類的維度。因此下文將從個人基本特征、用戶持卡行為、用戶價值、用戶賬戶特征四個維度進行綜合分析,建立一個完整的用戶分類指標體系,以提供用戶分類變量的選取范圍。當分類指標體系確定后,可根據(jù)挖掘目標的需要,選取合適的分類變量。
(二)公務卡用戶分類指標體系構(gòu)建
1.個人基本特征指標
公務卡用戶個人基本特征會對行為和價值產(chǎn)生影響,在對用戶進行分類時應該加入這類信息。本文從人口統(tǒng)計特征和社會特征兩個方面提取指標,其中包括用戶的性別、年齡、學歷、職業(yè)、職位、所在地都市化程度、婚姻狀況、住房狀況、自有車狀況、個人月收入、供養(yǎng)人口數(shù)、家庭月收入等指標。如圖1所示。
2.用戶用卡行為特征指標
用戶用卡行為主要由購買、還款、取現(xiàn)等行為組成,可以從消費特征、交易特征兩個角度分析提取指標。消費特征反映用戶對特定商品類型的偏愛,包含的指標有受卡方類型、受卡方消費金額、受卡方對應消費次數(shù),交易特征包括交易類型、交易金額、交易次數(shù)等指標。如圖2所示。
部分指標說明為,第一,受卡方類型:銀行分配給特別商戶的代碼一般進行分類,本文為了方便在宏觀上發(fā)現(xiàn)用戶的消費特征,將受卡方按消費類別分為五類,分別為①商場、超市等零售業(yè),②餐飲酒店類,③住宿類,④交通類,⑤網(wǎng)上消費。第二,交易類型:指消費、取現(xiàn)、透支、還款等交易代碼。
3.公務卡用戶價值特征指標
針對公務卡用戶的價值,有很多不同的定義和評價方法。其中比較有影響力的價值分類方法是將用戶的價值分為當前價值和潛在價值。這雖然在理論上很完善,但實際操作卻很難實現(xiàn)。因為用戶的潛在價值量化非常困難,去銀行搜集與之相關(guān)的數(shù)據(jù)也不容易得到,所以本文僅考慮用戶的當前價值。當前價值是公務卡用戶的行為所產(chǎn)生的,所以也可理解為行為價值。可以選取商戶回傭、透支利息、滯納金收益、年費收入、存貸款利差、其他收入等指標作為用戶價值的主要指標。
從圖3可以看到,商戶回傭?qū)氖枪珓湛ㄓ脩舻馁徺I行為,是用戶購買活動所帶來的價值,而滯納金分別對應著逾期產(chǎn)生的罰金,透支利息是免息期外產(chǎn)生的費用,受透支時間和金額影響,存貸款利差是公務卡賬面金額帶來的收益。
4.公務卡用戶賬戶特征指標
公務卡賬戶特征包括卡賬戶的基本特征和信用特征,卡賬戶基本特征包括持卡類型、開卡時間、賬面余額、透支金額等指標,信用特征包括信用額度、信用等級、逾期等級、違約情況等指標。如圖4所示。
5.用戶分類指標體系構(gòu)成
公務卡個人信息:性別、年齡、學歷、婚姻狀況、住房狀況、職業(yè)、職位、個人月收入、供養(yǎng)人口數(shù)、家庭月收入。用卡特征:受卡方、受卡方對應消費金額、受卡方對應消費次數(shù)、月均刷卡次數(shù)、月均消費金額、月均取現(xiàn)次數(shù)、月均還款次數(shù)、月均取現(xiàn)額、月均還款額。價值特征:商戶回傭、透支利息、滯納金收益、存貸款利差、其他收入。賬戶特征:持卡類型、開卡時間、賬面余額、信用額度、透支額度、信用等級、逾期等級、違約等級。
二、公務卡用戶分類變量的選取
分類變量的選取范圍是上節(jié)中介紹的用戶分類指標體系,但具體選取時,主要是根據(jù)公務卡用戶的分類目標來進行。以基于用戶消費特征的用戶分類為例,可選擇分類變量表。詳見表1。
由于人工或技術(shù)的問題,抽取出來的數(shù)據(jù)不可避免地存在著數(shù)據(jù)缺失、冗余、噪聲以及不一致等問題,這些數(shù)據(jù)直接用于數(shù)據(jù)挖掘,可能導致挖掘過程十分低效,甚至結(jié)果有誤。因此在進行數(shù)據(jù)挖掘前需要先進行數(shù)據(jù)預處理,以提高數(shù)據(jù)挖掘的精度和性能。數(shù)據(jù)預處理過程主要有以下幾個步驟。
(一)缺失值處理
對于缺失問題,一般的處理方法有:忽略記錄,人工填寫缺失值,用屬性的均值填補缺失值,用給定記錄所屬類的樣本增值填補缺失值,用默認值填補缺失值,用最大可能性的值填補缺失值。具體可以采用以下方法進行處理:首先將缺失值在60%以上的指標刪除,對于離散性指標用眾數(shù)對數(shù)據(jù)項進行填充,連續(xù)型指標用均值對缺失項進行填充,然后采用標準差檢驗法甄別異常數(shù)據(jù),并對異常數(shù)據(jù)進行剔除。
(二)噪聲消除
數(shù)據(jù)錄入過程中,人為的錯誤或是設(shè)備的故障等原因都會導致產(chǎn)生噪聲數(shù)據(jù)。平滑噪聲的方法很多,一般可采用分箱、聚類、回歸或者是計算機與人工檢查相結(jié)合等技術(shù)。
(三)數(shù)據(jù)不一致處理
來自數(shù)據(jù)倉庫或數(shù)據(jù)集市的數(shù)據(jù)也可能會存在數(shù)據(jù)結(jié)構(gòu)的不一致、標簽的不一致、數(shù)據(jù)值的不一致等問題,需要進行糾正,使數(shù)據(jù)一致化,方便進行挖掘。
(四)屬性轉(zhuǎn)換
當指標中存在分類數(shù)據(jù)需要進行量化,將其轉(zhuǎn)換成數(shù)值形式,方便進行統(tǒng)計和計算。
三、基于KII算法的用戶分類
綜上所述,用KII算法進行公務卡用戶分類的處理過程見圖5。
首先進行數(shù)據(jù)的導入。數(shù)據(jù)導入主要指從數(shù)據(jù)倉庫中或是原始數(shù)據(jù)庫中獲得的公務卡用戶的相關(guān)數(shù)據(jù),然后根據(jù)分類目標的需要,選擇能夠反映公務卡用戶特征的分類變量,并抽取相應的數(shù)據(jù),對它們進行數(shù)據(jù)預處理。將處理后的數(shù)據(jù)進行組合,得到一張寬表,該表中的記錄就是聚類算法處理的數(shù)據(jù)對象。將預處理后的數(shù)據(jù)集分成兩部分,一部分作為訓練集,一部分作為測試集。將訓練集作為參數(shù),運用KII算法進行聚類分析,并對聚類的結(jié)果用Huberts 進行驗證結(jié)果是否滿足預先設(shè)定的閾值,如果不是,則調(diào)整分類變量,直到Huberts 結(jié)果滿足要求為止。將獲得的聚類中心用于對測試集進行劃分,并輸出聚類的結(jié)果。本文構(gòu)建了一個公務卡用戶的分類模式,詳細介紹了用戶分類指標的提取,數(shù)據(jù)的預處理,以及如何運用KII聚類方法進行用戶分類的過程。
四、總結(jié)與展望
本文以國內(nèi)某家商業(yè)銀行公務卡業(yè)務的實際需求為研究背景,在研究數(shù)據(jù)挖掘發(fā)展相關(guān)理論和技術(shù)的基礎(chǔ)上,提出一種基于數(shù)據(jù)挖掘技術(shù)的公務卡用戶分類模式。本文在比較了數(shù)據(jù)挖掘中各種聚類算法后,最終決定采用K-means聚類方法作為模型的關(guān)鍵方法。由于K-means算法本身存在諸多缺陷,直接應用到模型中,會降低模型的準確性和有效性。因此,本文針對這些不足進行了改進,提出了一種啟發(fā)式初始化的改進K-means算法,并將它應用到公務卡用戶分類模式中,實現(xiàn)對用戶的價值及行為特征的分類。本文對聚類方法中的經(jīng)典K-means算法進行了改進。針對K-means算法對初始聚類中心的依賴性,提出一種具有啟發(fā)式的選取初始化聚類中心的方法,在進行K-means前找到合適的初始中心,避免由于初始中心選取不當而導致K-means聚類錯誤的問題。對KII算法進行了仿真,實驗結(jié)果表明該算法的準確率、魯棒性等方面較經(jīng)典K-means算法有所提升。提出一種基于KII算法的有關(guān)公務卡用戶分類的應用模式,該模式說明了進行公務卡用戶分類時如何選擇分類變量、如何進行數(shù)據(jù)的預處理以及如何應用KII聚類算法的全過程,為銀行進行公務卡用戶分類提供了方法上的指導。
參考文獻:
[1]婁洪.著力推進公務卡改革的深化與發(fā)展[J].中國金融,2009(20).
[2]陳建寧.預算單位推行公務卡結(jié)算制度的探析[J].會計之友(上旬刊),2009(9).
[3]譚明,申鳳云.湖南省公務卡發(fā)展現(xiàn)狀調(diào)查與對策建議[J].金融會計,2009(5).
[4]周靜莉.關(guān)于預算單位推行公務卡結(jié)算的若干思考[J].當代經(jīng)濟,2009(8).
[5]陳建華.南京市公務卡應用情況調(diào)查與建議[J].金融電子化,2008(12).
[6]李項南.公務卡在財政國庫管理制度改革中的應用[J].中外企業(yè)家,2008(11).
[7]朱久霞.積極推進公務卡的使用提高預算資金的使用效率[J].會計之友(下旬刊),2008(5).
[8]顧海英.推廣公務卡制度引入國庫集中支付的探討[J].財會研究,2008(5).
[9]孫興全,苗慧凱,趙興羅.從公務卡制度看公務支出的監(jiān)督[J].財政監(jiān)督,2007(19).
[10]舒泰峰,徐艷.公務卡能否卡住腐敗[J].浙江人大,2007(9).
(作者單位:廣州市殘疾人安養(yǎng)院)