【摘 要】結(jié)構(gòu)方程模型(SEM)是一種驗證性多元統(tǒng)計分析技術(shù),在心理學(xué)、社會學(xué)和管理學(xué)等領(lǐng)域的應(yīng)用日益廣泛。本文在闡述結(jié)構(gòu)方程模型基本概念和原理的基礎(chǔ)上,介紹了結(jié)構(gòu)方程模型在電信高端用戶行為研究方面的應(yīng)用。
【關(guān)鍵詞】數(shù)據(jù)挖掘;結(jié)構(gòu)方程模型;電信高端用戶
1.引言
數(shù)據(jù)挖掘(Data Mining,DM)又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discover in Database,KDD),是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)、數(shù)據(jù)庫、可視化技術(shù)等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風(fēng)險,做出正確的決策。
結(jié)構(gòu)方程模型(Structural Equation Modeling,SEM)是測試和評估相結(jié)合的統(tǒng)計數(shù)據(jù)和定性因果關(guān)系假設(shè)的方法,在20世紀(jì)80年代就已成熟,應(yīng)用于社會科學(xué)以及經(jīng)濟、市場、管理等研究領(lǐng)域,可以處理多個原因、多個結(jié)果的關(guān)系,以及不可直接觀測的變量(即潛變量)。結(jié)構(gòu)方程模型是數(shù)據(jù)挖掘的挖掘過程,可以確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計方法,分析數(shù)據(jù)內(nèi)在規(guī)律,并可用于預(yù)報,控制等問題。
電信高端用戶行為研究就是分析電信高端用戶的構(gòu)成、特點及其行為活動上所表現(xiàn)出來的規(guī)律。就不同的研究目的和對象規(guī)模,用戶行為可分為個體用戶行為和群體用戶行為。用戶行為分析就是運用多學(xué)科知識研究和分析用戶的構(gòu)成、特點及其在通信過程中行為活動上所表現(xiàn)出來的規(guī)律。
2.結(jié)構(gòu)方程模型介紹
2.1 變量分類
顯在變量(manifest variable)是指可直接觀測和度量的變量,如年齡、溫度、氣壓、職業(yè)、身高等。潛在變量(latent variable)指的是不能被直接觀測的因素或特質(zhì),潛在變量可能是某種理論構(gòu)思、研究假設(shè),或者是尚不能用現(xiàn)有的方法精準(zhǔn)并直接測量的客觀存在,但它可通過顯在變量度量,又稱其為隱變量,相當(dāng)于因子分析中的公因子。
2.2 通徑圖的表示
用通徑圖(path diagram)可以直觀地表現(xiàn)SEM變量間的相互關(guān)系,通徑圖中各個變量的名稱:為外生顯在變量,為內(nèi)生顯在變量,繪制在方框中。為外生潛在變量,為內(nèi)生潛在變量,繪制在橢圓中。、分別表示變量和變量的測量誤差,表示用預(yù)測時的剩余誤差。
兩個變量間的單向箭頭表示一個變量(起點)對另一個變量(終點)的直接影響;兩個變量間的雙向箭頭(曲線)表示這兩個變量間可能互為影響,或兩個變量可能是相關(guān)的;箭頭上的數(shù)字表示效應(yīng)大小。
2.3 模型的表達(dá)方式
SEM包括兩種基本形式,一是藐視現(xiàn)在變量與潛在變量之間的度量關(guān)系,稱為度量模型(measurement model);另一種是描述潛在變量之間的結(jié)構(gòu)關(guān)系,稱為結(jié)構(gòu)模型(structure model)。
(1)度量模型:
(2)結(jié)構(gòu)模型:
2.4 模型評價
對整個模型的評價依賴于:統(tǒng)計量,擬合優(yōu)度指數(shù)(GFI)和修正擬合優(yōu)度指數(shù)(AGFI),均方殘差的平方根(RMR),近似誤差均方根(RMSEA),bentler的比較擬合指數(shù)(CFI),Akaike的信息準(zhǔn)則(AIC)和一致的Akaike信息準(zhǔn)則(CAIC),Schwarz的貝葉斯準(zhǔn)則(SBD),正規(guī)化擬合指數(shù)(NFI)和非正規(guī)化擬合指數(shù)(NNFI),節(jié)儉正規(guī)化擬合指數(shù)(PNFI),臨界指數(shù)(CN)等,實際研究中很難確定哪個準(zhǔn)則全面地反映了擬合優(yōu)度的好壞,而需要對各種準(zhǔn)則綜合考慮后才能對模型作出評價。
3.基于電信高端用戶行為的結(jié)構(gòu)方程模型設(shè)計
在設(shè)計模型時,數(shù)據(jù)準(zhǔn)備使用IBM SPSS Statistics 19、clementine 12.0以及C語言程序,挖掘過程使用AMOS 17.0,這些基于windows 7 SP1操作系統(tǒng)。用來研究電信高端用戶行為的數(shù)據(jù)選自中國安徽合肥某運營商2012年2月的用戶資料、通話清單、短信清單。
3.1 數(shù)據(jù)轉(zhuǎn)換
針對通話清單表和短信清單表對數(shù)據(jù)進(jìn)行轉(zhuǎn)換,確定變量。并提取清單中的電話號碼,對每個電話號碼的數(shù)據(jù)進(jìn)行計數(shù)。
3.2 數(shù)據(jù)標(biāo)準(zhǔn)化
SEM模型對輸入數(shù)據(jù)要求嚴(yán)格,必須進(jìn)行標(biāo)準(zhǔn)化,其輸入變量必須經(jīng)過標(biāo)準(zhǔn)化才可以擬合模型。對于電信用戶數(shù)據(jù),首先繪制變量頻率分布圖和P-P圖。發(fā)現(xiàn)其分布與標(biāo)準(zhǔn)正態(tài)分布差別很大,不利于SEM模型的驗證性分析,遂對數(shù)據(jù)進(jìn)行變量變換,根據(jù)數(shù)據(jù)特征采用兩次平方根變換。其變換過程使用SPSS statistics軟件實現(xiàn),變換后數(shù)據(jù)的P-P圖顯示變量正態(tài)性得到了較好的修正。
3.3 分箱處理
變換后的數(shù)據(jù)依然需要再次處理,對數(shù)據(jù)進(jìn)行分級(分箱),分級根據(jù)電信經(jīng)營專業(yè)知識,采用spss clementine,將數(shù)據(jù)分為1~10,10個等級,便于SEM計算和解釋。
3.4 信度檢驗
數(shù)據(jù)只有符合信度檢驗標(biāo)準(zhǔn)之后才被認(rèn)為是相關(guān)的,可以進(jìn)行SEM模型擬合。目前對信度的估計以Cronbach 系數(shù)為主,我們使用SPSS statistics軟件輔助實現(xiàn)。將生成同一個潛變量的幾個顯變量進(jìn)行信度估計。
3.5 繪制通徑圖
SEM模型擬合計算采用SPSS amos軟件輔助實現(xiàn),參數(shù)估計方法為極大似然法(maximum likelihood)。
3.6 模型修正再評價
對SEM模型通徑圖進(jìn)行修正,在大體拓?fù)浣Y(jié)構(gòu)確定的情況下,刪減和增變量加影響路徑,使模型得到更好擬合。
3.7 模型解釋
根據(jù)標(biāo)準(zhǔn)化樣本相關(guān)矩陣可以明顯看出連接同一隱變量的幾個顯變量均顯示較好相關(guān)性。而特別值得關(guān)注的幾點:第一,蜂窩轉(zhuǎn)變數(shù)、城市移動數(shù)、通話對象轉(zhuǎn)變數(shù)分別與接聽次數(shù)、接聽時長、接聽漫游數(shù)反映出很高的負(fù)相關(guān)指數(shù),這意味著用戶在出差頻繁、聯(lián)絡(luò)頻繁、移動頻繁的時候接聽電話明顯減少;第二,撥打電話數(shù)也與接聽次數(shù)、接聽時長、接聽漫游數(shù)反映出很高的負(fù)相關(guān)指數(shù),這表明用戶在主動呼叫頻繁時接聽變少(甚至撥打時長也與接聽次數(shù)、接聽時長、接聽漫游數(shù)反應(yīng)出較高負(fù)相關(guān));第三,短信、長途漫游撥打、上網(wǎng)時長流量分別與短信費、漫游費、流量費有較高相關(guān)性,這說明很大部分用戶會超額使用套餐,他們對套餐設(shè)置并不滿足;第四,出賬金額與短信收發(fā)和網(wǎng)絡(luò)流量時長有較高相關(guān)性,這說明用戶對套餐設(shè)置中的短信和流量超額會產(chǎn)生很高的費用從而導(dǎo)致出賬費用很高,而用戶不滿足目前套餐設(shè)置和不明確計費規(guī)則也是原因之一;第五,套餐檔次和漫游撥打數(shù)有很高負(fù)相關(guān),這很說明有一部分用戶用很高的套餐撥打很少的漫游電話,或使用很便宜的套餐撥打很多漫游電話(顯然前者更有說服力),這也就意味著高端用戶并不會總在外地使用業(yè)務(wù),而是在本地居多,更能體現(xiàn)出高端用戶更愿意購買更高端的套餐而不會在意其他金額,這也就意味著電信公司應(yīng)該提供更符合使用方式的套餐以及更好的網(wǎng)絡(luò)服務(wù),更具體的回訪制度,才可以真正服務(wù)于高端用戶。
參考文獻(xiàn):
[1]侯杰泰,溫忠麟,程子娟,著.結(jié)構(gòu)方程模型及其應(yīng)用[M].教育科學(xué)出版社,2004,7.
[2]方平,熊端琴,曹雪梅.結(jié)構(gòu)方程模式的發(fā)展與應(yīng)用[J].心理科學(xué)進(jìn)展,2002(3).
作者簡介:
鄭浩(1980—),男,碩士研究生,主要研究方向:數(shù)據(jù)挖掘。
任淑霞,女,副教授,主要研究方向:數(shù)據(jù)挖掘、特種數(shù)據(jù)庫(時態(tài)數(shù)據(jù)庫)、計算機應(yīng)用算法研究。