李海軍,李引珍,周 鵬,朱昌鋒,馬昌喜
(蘭州交通大學(xué)交通運輸學(xué)院,蘭州730070)
細分鐵路通道客運市場有助于鐵路運輸企業(yè)快速高效地確定目標市場,對旅客出行選擇研究、設(shè)計客運產(chǎn)品、客流分配研究等具有積極意義.
針對鐵路客運市場的細分問題,大部分文獻是按照旅客不同的人口統(tǒng)計特征和出行屬性來細分市場[1-2].這樣人為劃分標準,不能很好地反映客觀情況,文獻通過因子分析法[3]、經(jīng)典K-means聚類算法[4]、混合回歸模型[5]等聚類算法得到比較客觀的客運市場細分結(jié)果.此外,文獻[6]引入潛在類別分析理論對客票數(shù)據(jù)進行研究,尋找潛在的旅客細分市場;文獻[7]通過凝聚法合并鐵路旅客出行屬性變量,利用近鄰傳播算法對旅客進行樣本聚類.但鐵路旅客自身屬性和出行特征屬性是高維的,包含大量的信息,并且有些屬性是冗余的,這就要求首先對數(shù)據(jù)進行簡化降維,在此基礎(chǔ)上,通過高效的聚類算法客觀地細分鐵路旅客市場.
粗糙集理論無須提供所處理數(shù)據(jù)之外的任何先驗信息的特點,為研究鐵路通道客運市場細分問題提供了新的思路.本文將鐵路旅客出行方式選擇影響因素作為個體描述的變量,采用粗糙集理論的屬性約簡算法對變量進行降維,然后通過改進的粗糙集屬性權(quán)重的K-means聚類算法對旅客樣本進行細分,從而為旅客出行選擇研究等奠定理論基礎(chǔ).
基于粗糙集聚類算法的鐵路通道客運市場細分流程,如圖1所示.
圖1 鐵路通道旅客出行知識獲取流程圖Fig.1 Knowledge acquisition flow chart of passenger travel in railway corridor
鐵路通道旅客出行主要受旅客自身屬性、出行特征和運輸方式特征的影響,其類別的細分應(yīng)包含以下變量:旅客的性別、年齡、職業(yè)、月收入、出行目的、旅費來源等基本信息,以及旅客選擇不同出行方式的滿意度(包括票價、旅行時間、便捷程度、準時性、舒適度、安全性6個維度).
本文以行為調(diào)查(RP)和意向性調(diào)查(SP)相結(jié)合的方式進行問卷調(diào)查,在寶雞—蘭州鐵路通道,采用跟車問卷調(diào)查與定點調(diào)查相結(jié)合的方法進行抽樣調(diào)查.共發(fā)放1 500份問卷,回收1 363份有效問卷,回收率為90.8%.樣本數(shù)據(jù)具體描述如表1所示.
表1 鐵路通道旅客出行選擇決策Table 1 Decision table of passenger travel choice in railway corridor
表1中各變量的取值方法如下.
性別:0=男,1=女.
旅費:0=公費,1=自費.
年齡:0=(0,18)歲,1=[18,30)歲,2=[30,40)歲,3=[40,50)歲,4=[50,60)歲,5=60歲及以上.
職業(yè):0=國企及事業(yè)單位人員,1=公務(wù)員,2=個體經(jīng)營者,3=離退休人員,4=公司職員,5=工人,6=農(nóng)民,7=學(xué)生,8=軍人,9=其他.
收入:0=(0,1 500]元,1=(1 500,4 000]元,2=(4 000,6 000]元,3=(6 000,8 000]元,4=(8 000,10 000]元,5=10 000元以上.
出行目的:0=公務(wù)出差,1=旅游,2=探親訪友,3=購物,4=務(wù)工,5=上學(xué),6=其他.
教育程度:0=初中以下,1=高中,2=本科,3=研究生.
票價、旅行時間、便捷程度、準時性、舒適性、安全性:0=很不滿意,1=比較不滿意,2=一般滿意,3=比較滿意,4=很滿意.
出行選擇:0=高速鐵路,1=普通鐵路.
定義1知識的約簡.給定一個知識庫K=(U,S)和知識庫上的一族等價關(guān)系P?S,對任意的G?P,若G是獨立的,且IND(G)=IND(P),則稱G是P的一個約簡,記為G∈RED(P),其中,RED(P)表示P的全體約簡集合.
定義2決策表.稱四元組DT=(U,C∪D,V,f)是1個決策表,其中,U為對象的非空有限集合,稱為論域,U={x1,x2,…,xn};C∪D中,C為條件屬性集,C={a|a∈C},D為決策屬性集,D={d|d∈D},且C?D=?,C≠?,D≠?;V表示信息函數(shù)f的值域,V=?Vα(?α∈C?D);f表示決策表的信息函數(shù),f={fα|fα:U → Vα,?α ∈ C ? D}.
定義3令C、D?A,定義兩個屬性集C與D之間的依賴程度γc(C,D)為
式中:POSC(D)為D的C正域,即U中所有根據(jù)分類U/C的信息可以準確劃分到關(guān)系D的等價類中去的對象集合;card[]表示集合的基數(shù),即集合中元素的個數(shù).
定義4四元組DT=(U,C∪D,V,f)是1個決策表,根據(jù)屬性依賴度的定義,任意屬性c(c∈C)在C中對D的重要性定義為
其值越大,說明屬性c關(guān)于屬性集C就越重要.
定義5根據(jù)式(2)歸一化所有條件屬性的重要度,可得條件屬性ci的權(quán)重公式為
由定義2可知,可將寶蘭鐵路通道旅客出行方式選擇調(diào)查表定義為決策表DT=(U,C∪D,V,f),其中:U為出行選擇的所有旅客樣本;C為條件屬性的非空有限集合,即出行選擇中所有影響旅客出行選擇的因素;D為決策屬性,表示旅客選擇的鐵路出行方式,高鐵或普鐵;V為信息函數(shù)f的值域,每個屬性的取值不同,該模型中,所有的值域均為離散型.
對上述決策表,通過Mean Completer算法進行數(shù)據(jù)表補齊的預(yù)處理,采用遺傳算法進行屬性約簡,結(jié)果為:{性別,年齡,職業(yè),收入,出行目的,教育程度,票價,旅行時間,便捷程度,準時性,舒適度,安全性}.
可見,只有“旅費來源”這一個屬性是冗余屬性,根據(jù)屬性重要度計算公式,分別對這12個影響因素根據(jù)式(2)計算重要度為{0.012,0.015,0.025,0.009,0.025,0.011,0.012,0.011,0.007,0.005,0.004,0.004};根據(jù)式(3)計算各關(guān)鍵屬性的權(quán)重為{0.085 714,0.107 143,0.178 571,0.064 286,0.178 571,0.078571,0.085714,0.078571,0.050000,0.035 714,0.028 571,0.028 571}.
經(jīng)典的K-means聚類算法,將距離準則函數(shù)中的每個屬性同等對待,這會造成不相關(guān)屬性的誤導(dǎo),即出現(xiàn)“維數(shù)陷阱”.通過粗糙集確定屬性權(quán)重,使得不同的屬性在聚類中起不同的作用,能客觀解決這個問題.
3.1.1 基本定義
定義6 加權(quán)歐式距離.通過粗糙集屬性重要度賦予不同屬性權(quán)值,得到xi與cj之間的歐式距離為
式中:wl表示屬性的權(quán)重.
定義7 聚類對象的密度.已知樣本的數(shù)據(jù)集U={xi,i=1,2,…,n},樣本的屬性權(quán)重集為W={wl,l=1,2,…,m},其中對象xi處的密度函數(shù)為
定義8聚類對象的鄰域半徑.
3.1.2 算法描述
基本思想:首先,根據(jù)粗糙集屬性約簡和屬性重要度定義,得到約簡后不同屬性的權(quán)重,避免“維數(shù)陷阱”;然后,在樣本的數(shù)據(jù)集U中選擇密度最大的點作為第1個初始中心,同時U中刪去該點及鄰域內(nèi)的所有對象,同樣方法確定第2個中心點,循環(huán)執(zhí)行.
算法1
Step 1由定義7計算所有對象密度,得到密度點集合D,初始化中心集為空,M={?}.
Step 2選擇密度最大的樣本對象.xmax=max{xi|xi∈D,i=1,2,…,N },作為第1個初始中心點,加到中心點集M中,M=?{xmax}.并根據(jù)定義8,從樣本集中刪去xmax及鄰域?qū)ο?
Step 3重復(fù)執(zhí)行Step2.直到選取了K個初始中心點.
Step 4輸出K初始中心點集,結(jié)束.
3.2.1 基本定義
對數(shù)據(jù)進行聚類分析之后,聚類結(jié)果的優(yōu)劣還需通過內(nèi)、外部度量的準則函數(shù)加以分析.
定義9類內(nèi)距離.類內(nèi)每一個樣本數(shù)據(jù)到它們所屬中心的距離
定義10類間距離.不同聚類中心間的距離.
顯然,要使聚類結(jié)果中同一類內(nèi)的數(shù)據(jù)盡可能相似,而不同類之間的數(shù)據(jù)盡可能差異顯著,即類內(nèi)距離應(yīng)該越小,類間距離應(yīng)該越大.汪中等[9]提出了類內(nèi)差異和類間差異平方和的二次方根作為評價函數(shù),以最小的評價函數(shù)對應(yīng)的K值作為最優(yōu)聚類數(shù),雖然此方法能找到最優(yōu)的聚類數(shù),但當數(shù)據(jù)量較大時,得到的聚類數(shù)比較多,這與實際應(yīng)用不符合.因此本文提出了用類內(nèi)距離和類間距離的比值作為評價函數(shù)來評價聚類效果.
定義11評價函數(shù).類內(nèi)距離同類間距離的比值為
當J(c,k)值收斂時,得到最優(yōu)聚類.
結(jié)合文獻[9-10]的思想,基于本文算法1進一步提出基于粗糙屬性加權(quán)距離的K-means聚類算法.文獻[11]已證明,整數(shù)K的取值范圍為[1,n],n為數(shù)據(jù)對象數(shù).算法2從[1,n]循環(huán)執(zhí)行,并記錄均衡評價函數(shù)值及其對應(yīng)的K值.評價函數(shù)值最小的K值,即為最優(yōu)聚類數(shù)目.
算法2
輸入:包括n個樣本數(shù)據(jù)的數(shù)據(jù)集,樣本數(shù)據(jù)各屬性的粗糙重要度wl.
輸出:最優(yōu)K值和對應(yīng)的聚類結(jié)果.
Step 1
Step 1.1調(diào)用算法1確定K個初始聚類中心;
Step 1.2計算聚類中心的平均值,將每個數(shù)據(jù)對象賦給距離最近的聚類中心,根據(jù)定義6確定數(shù)據(jù)對象到聚類中心的距離;
Step 1.3更新簇的平均值;
Step 1.4根據(jù)式(9)計算評價函數(shù)J(c,k),直到其收斂為止,否則轉(zhuǎn)入Step1.2.
Step 2根據(jù)記錄的J值,找出J值收斂時對應(yīng)的K值,即為最優(yōu)聚類數(shù)目.
由3.1節(jié)和3.2節(jié)可知,本文提出的基于粗糙屬性重要度的K-means聚類算法,首先通過粗糙集約簡算法對數(shù)據(jù)集進行屬性約簡和屬性重要度計算,然后由算法1和算法2得到聚類結(jié)果,具體步驟如下:
輸入:包含n個對象的d維數(shù)據(jù)集.
輸出:K個聚類.
Step 1由本文的約簡算法對d維數(shù)據(jù)集進行屬性約簡.
Step 2生成包含n個對象的屬性為K(K<d)個的數(shù)據(jù)集.
Step 3計算K個屬性對應(yīng)的重要度wi(i=1,2,…,k).
Step 4調(diào)用算法2,得到最優(yōu)聚類數(shù)目和聚類結(jié)果.
為了驗證算法的有效性和正確性,本文采用UCI數(shù)據(jù)庫中的Iris、Wine和Soybean這3個數(shù)據(jù)集,分別運行傳統(tǒng)K-means算法、粗糙K-均值算法[12]、文獻[13]的基于密度加權(quán)的粗糙K-均值聚類改進算法,以及本文提出的基于粗糙屬性重要度的K-means算法進行仿真實驗,結(jié)果匯總?cè)绫?所示.
表2 Iris、Wine、Soybean數(shù)據(jù)集的實驗結(jié)果Table 2 Experimental result for Iris、Wine&Soybean
從聚類實驗結(jié)果可以看出,本文改進算法的準確率較高且穩(wěn)定,對實際數(shù)據(jù)的聚類效果更好,可以用于鐵路客運市場細分研究.
根據(jù)2.2節(jié)得到的屬性權(quán)重,執(zhí)行本文基于粗糙屬性重要度的K-means聚類算法,得到聚類數(shù)K與評價函數(shù)J(c,k)的收斂趨勢圖,如圖2所示.
可見,當K=6時,評價函數(shù)J(c,k)趨于收斂,寶蘭鐵路通道客運市場可以細分為6類.
經(jīng)過對各細分子市場中旅客的個人屬性、出行影響因素重視度及主要席別選擇的統(tǒng)計分析,可以總結(jié)出不同子市場的主要特征,如表3所示.
圖2 寶蘭鐵路通道旅客市場細分聚類算法評價函數(shù)收斂圖Fig.2 Cluster algorithm convergency diagram for passenger transport market segmentation
表3 各細分市場的主要差異Table 3 Difference table of passenger transport segmentation market
通過對各子市場的旅客調(diào)查分析發(fā)現(xiàn),安全性是每個子市場最為重視的因素,除安全性以外,子市場1的旅客最重視的是票價高低,而且大部分旅客的出行目的是務(wù)工;子市場2最重視舒適度,旅游探親占了大部分;子市場3以青年學(xué)生為主力,大部分的收入低,以上學(xué)為主;子市場4主要是公務(wù)員和國企員工,出行目的主要是出差;子市場5最看重票價,以工人、農(nóng)民、學(xué)生為主,主要出行目的是探親;子市場6最重視時刻表,以個體經(jīng)營者為主.綜上所述,將上述6個子市場根據(jù)旅客出行特征分別命名為:經(jīng)濟務(wù)工型、休閑舒適型、低端年輕型、高端公務(wù)型、經(jīng)濟探親型、商務(wù)時間型.市場細分的結(jié)果可為鐵路部門設(shè)計個性化的客運產(chǎn)品提供依據(jù).
本文通過分析寶蘭鐵路通道旅客出行方式選擇調(diào)查數(shù)據(jù)的特征,提出了基于粗糙屬性重要度的K-means聚類算法,將鐵路通道客運市場細分為6類子市場:經(jīng)濟務(wù)工型、休閑舒適型、低端年輕型、高端公務(wù)型、經(jīng)濟探親型、商務(wù)時間型.今后將對鐵路通道客運細分子市場的客流分擔,以及針對不同客運細分子市場的差異化的高鐵和普鐵客運產(chǎn)品設(shè)計,做進一步研究.
[1]馮運卿,李雪梅,李學(xué)偉.基于粗糙集的復(fù)合屬性鐵路旅客出行決策影響因素分析與權(quán)重計算[J].鐵道學(xué)報,2014(9):1-9.[FENG Y Q,LI X M,LI X W.Analysis of influence factors an weighting based on rough sets and the railway passenger travel decisionmaking[J].Journal of the China Railway Society,2014(9):1-9.]
[2]吳文嫻.鐵路通道內(nèi)客流分擔率及客運組織策略研究[J].中國鐵道科學(xué),2011,32(2):126-130.[WU W X.The organization strategy research of passenger flow and the share rate of passenger transport railway channels[J].Journal of China Railway Science,2011,32(2):126-130.]
[3]蔣學(xué)斌.高速鐵路客運市場細分與差異化營銷策略 [J].中 國 鐵 路,2014(2):6-8.[JIANG X B.Segmentation of high-speed railway passenger transport market and differentiated marketing strategy[J].China Railway,2014(2):6-8.]
[4]杜巍,趙春榮,黃偉建.改進的K-means聚類算法在客戶細分中的應(yīng)用研究[J].河北經(jīng)貿(mào)大學(xué)學(xué)報,2014,35(1):118-121.[DU W,ZHAO C R,HUANG W J.Research on application of improved K-means clustering algorithm in customer segmentation[J].Journal of Hebei University of Economics and Business,2014,35(1):118-121.]
[5]錢丙益,帥斌,陳崇雙,等.基于混合回歸模型的客運專線旅客市場細分研究[J].鐵道運輸與經(jīng)濟,2014,36(1):60-65.[QIAN B Y,SHUAI B,CHEN C S,et al.Study on subdivision of DPL passenger market based on mixed regression model[J].RailwayTransportand Economy,2014,36(1):60-65.]
[6]張永超.基于RoughSet高速鐵路市場細分研究[D].成都:西南交通大學(xué),2014.[ZHANG Y C.Research on high-speed railway passenger-marketsegmentation based on rough set[D].Chengdu:Southwest Jiaotong University,2014.]
[7]呂紅霞,王文憲,蒲松,等.基于聚類分析的鐵路出行旅客類別劃分[J].交通運輸系統(tǒng)工程與信息,2016,16(1):129-134.[LV H X,WANG W X,PU S,et al.Classification of railway passengers based on cluster analysis[J]. Journal of Transportation Systems Engineering and Information,2016,16(1):129-134.]
[8]苗奪謙,李道國.粗糙集理論、算法與應(yīng)用[M].北京:清華大學(xué)出版社,2008.[MIAO D Q,LI D G.Rough set theory,algorithm and application[M].Beijing:Tsinghua University Press,2008.]
[9]汪中,劉貴全,陳恩紅.一種優(yōu)化初始中心點的K-means算法[J].模式識別與人工智能,2009,22(2):299-304.[WANG Z,LIU G Q,CHEN E H.A K-means algorithm based on optimized initial center points[J]. Pattern Recognition and Artificial Intelligence,2009,22(2):299-304.]
[10]姚躍華,史秀嶺.一種優(yōu)化初始中心的K-means粗糙聚類算法[J].計算機工程與應(yīng)用,2010,46(34):126-128.[YAO Y H,SHI X L.K-means rough clustering algorithm based on optimized initial center[J].Computer Engineering and Applications,2010,46(34):126-128.]
[11]楊善林,李永森,胡笑旋,等.K-means算法中的K值優(yōu)化問題研究[J].系統(tǒng)工程理論與實踐,2006,26(2):97-101.[YANG S L,LI Y S,HU X X,et al.Optimization study on K value of K-means algorithm[J].System Engineering Theory and Practice,2006,26(2):97-101.]
[12]聶映,陳福集.一種基于粗糙集的K-means聚類算法[J].武漢大學(xué)學(xué)報(工學(xué)版),2011,44(2):257-260.[NIE Y,CHEN F J.Research of K-means clustering algorithm based on rough set[J].Journal of Wuhan University(Engineering Science),2011,44(2):257-260.]
[13]鄭超,苗奪謙,王睿智.基于密度加權(quán)的粗糙K-均值聚類改進算法[J].計算機科學(xué),2009,36(3):220-222.[ZHENG C,MIAO D Q,WANG R Z.Improved rough K-means clustering algorithm with weight based on density[J].Computer Science,2009,36(3):220-222.]