□ 文/郭陽秦
作者單位:昆侖銀行運(yùn)營服務(wù)中心
傳統(tǒng)以“產(chǎn)品為中心”的時(shí)代已經(jīng)結(jié)束,以“客戶為中心”的時(shí)代已經(jīng)到來。石油企業(yè)客戶每天辦理各項(xiàng)銀行業(yè)務(wù),同時(shí)產(chǎn)生了海量信息?;阢y行客戶行為數(shù)據(jù)進(jìn)行存儲(chǔ)、分析,挖掘客戶行為數(shù)據(jù)背后隱藏的有效信息,具有很大的商業(yè)價(jià)值和社會(huì)價(jià)值。這已成為當(dāng)前數(shù)據(jù)挖掘技術(shù)一個(gè)新的研究熱點(diǎn)和應(yīng)用領(lǐng)域。本文通過大數(shù)據(jù)平臺(tái)提取客戶訪問銀行網(wǎng)站屬性數(shù)據(jù),開展對客戶訪問行為的分析。通過對客戶行為分析,挖掘訪問行為的關(guān)鍵因素,制定針對性服務(wù)的策略。
基于大數(shù)據(jù)因子分析的客戶訪問行為分析的總體流程如圖1。
圖1 因子分析流程圖
主要流程包括以下步驟:1)從門戶網(wǎng)站提取客戶訪問門戶的行為數(shù)據(jù);2)對1)中提取的數(shù)據(jù)進(jìn)行預(yù)處理;3)對2)中處理完成的建模數(shù)據(jù)進(jìn)行因子分析;4)對因子分析結(jié)果進(jìn)行分析和應(yīng)用。
1.數(shù)據(jù)提取。門戶網(wǎng)站訪客數(shù)據(jù)量每日近10萬條。為理論研究,隨機(jī)抽取了2017年11月1日至2020年12月31日的數(shù)據(jù)進(jìn)行挖掘,部分?jǐn)?shù)據(jù)截圖見圖2。
圖2 分析數(shù)據(jù)截圖
2.數(shù)據(jù)探索分析。對原始數(shù)據(jù)表進(jìn)行分析,客戶每條訪問記錄都會(huì)存在多條記錄,存儲(chǔ)不同信息,根據(jù)對數(shù)據(jù)的初步分析,可以提取訪問間隔時(shí)間、訪問時(shí)長、訪問次數(shù)、網(wǎng)絡(luò)接入商、操作系統(tǒng)、瀏覽器等屬性數(shù)據(jù),涉及客戶、訪問次數(shù)、省市、接入商、操作系統(tǒng)、瀏覽器等不同維度。
3.數(shù)據(jù)預(yù)處理。
1)數(shù)據(jù)清洗。通過數(shù)據(jù)探索分析,發(fā)現(xiàn)數(shù)據(jù)存在空值,無效記錄,時(shí)間格式數(shù)據(jù)需要進(jìn)行加工和變換,清洗滿足條件的所有數(shù)據(jù),保證數(shù)據(jù)的有效性。數(shù)據(jù)清理情況見圖3。
圖3 門戶網(wǎng)站客戶訪問數(shù)據(jù)清理
2)屬性規(guī)約。通過原數(shù)數(shù)據(jù)表分析,部分屬性無價(jià)值,對數(shù)據(jù)表中不需要的屬性進(jìn)行剔除,如訪問深度、分辨率等,保留需要的數(shù)據(jù)。
3)數(shù)據(jù)變換。因子分析需要數(shù)值數(shù)據(jù),因此需要對部分?jǐn)?shù)據(jù)進(jìn)行變換處理為建模數(shù)據(jù),根據(jù)客戶的瀏覽器、操作系統(tǒng)、網(wǎng)絡(luò)接入商賦予對應(yīng)值,見表1。
表1 屬性變換規(guī)則表
經(jīng)過數(shù)據(jù)預(yù)處理后的建模數(shù)據(jù),部分?jǐn)?shù)據(jù)見表2。
表2 建模數(shù)據(jù)
4.數(shù)據(jù)建模與因子分析。一是通過SPSS軟件使用因子分析算法,對客戶訪問行為屬性進(jìn)行挖掘。二是對挖掘結(jié)果可行性檢驗(yàn)。通過使用KMO和Bartlett算法對結(jié)果進(jìn)行檢驗(yàn)。根據(jù)KMO統(tǒng)計(jì)量大于0.7和Bartlett的sig顯著值小于0.05,確定本案例可以采用因子分析提取公因子。三是對提取因子解釋度分析。根據(jù)解釋的總方差表和碎石圖,提取出的特征值大于1的3個(gè)因子,方差解釋的合計(jì)解釋度為83.219%(解釋度大于80%),表明提取的因子可以很好解釋原來變量中的信息。四是對提取因子結(jié)果進(jìn)行解釋分析。五是綜合各項(xiàng)因素對訪問行為因子綜合計(jì)算,得到關(guān)注銀行門戶網(wǎng)站客戶分布情況。
在挖掘客戶訪問銀行門戶網(wǎng)站屬性數(shù)據(jù)過程中,通過因子分析“降維”,聚焦在了客戶訪問的間隔時(shí)間、訪問時(shí)長、訪問次數(shù)、網(wǎng)絡(luò)接入商等6個(gè)訪問維度。綜合各項(xiàng)因素權(quán)重后得到影響客戶訪問的3個(gè)“標(biāo)簽”分別為終端、網(wǎng)絡(luò)和關(guān)注度。這3個(gè)標(biāo)簽成為了訪問門戶網(wǎng)站用戶的重要關(guān)注因素。再對3個(gè)“標(biāo)簽”進(jìn)行細(xì)分。經(jīng)過對成分矩陣挖掘分析,“終端”標(biāo)簽中最重要的是操作系統(tǒng)和瀏覽器,“網(wǎng)絡(luò)”標(biāo)簽中最重要的是接入商和間隔時(shí)長,“關(guān)注度”標(biāo)簽中最重要的是單次訪問時(shí)長。為提高客戶的滿意度和黏性,銀行應(yīng)重點(diǎn)做好以上關(guān)注因素的軟件兼容性、功能的易用性和界面的友好性。
根據(jù)客戶訪問行為綜合數(shù)據(jù),可對重點(diǎn)關(guān)注客戶的地域分布進(jìn)行“畫像”統(tǒng)計(jì)(取綜合因子大于0.5的客戶),并制作重點(diǎn)關(guān)注客戶地域分布圖。
從圖4可以看出,銀行訪問門戶網(wǎng)站的重點(diǎn)石油客戶群集中在新疆、陜西、黑龍江和北京等地,銀行可以投入更多資源和營銷力度開發(fā)相關(guān)地域客戶。
圖4 重點(diǎn)關(guān)注客戶地域分布圖
本研究方法可以廣泛應(yīng)用于石油客戶營銷分析(如客戶喜好分析、客戶滿意度調(diào)查等)、經(jīng)營決策(如營銷活動(dòng)策劃、差異化服務(wù)策略等)等領(lǐng)域中。本模型特別適用于尋找關(guān)鍵影響因素的場景,如:盈利增長主要貢獻(xiàn)因素、影響業(yè)務(wù)效率的主要因素等等,這為銀行海量信息挖掘提供了借鑒意義。