亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于粗糙集聚類算法的鐵路通道客運市場細分

2018-06-29 01:21:02李海軍李引珍朱昌鋒馬昌喜

交通運輸系統(tǒng)工程與信息 2018年3期

關(guān)鍵詞：定義鐵路

李海軍，李引珍，周鵬，朱昌鋒，馬昌喜

(蘭州交通大學(xué)交通運輸學(xué)院，蘭州730070)

0 引言

細分鐵路通道客運市場有助于鐵路運輸企業(yè)快速高效地確定目標市場，對旅客出行選擇研究、設(shè)計客運產(chǎn)品、客流分配研究等具有積極意義.

針對鐵路客運市場的細分問題，大部分文獻是按照旅客不同的人口統(tǒng)計特征和出行屬性來細分市場[1-2].這樣人為劃分標準，不能很好地反映客觀情況，文獻通過因子分析法[3]、經(jīng)典K-means聚類算法[4]、混合回歸模型[5]等聚類算法得到比較客觀的客運市場細分結(jié)果.此外，文獻[6]引入潛在類別分析理論對客票數(shù)據(jù)進行研究，尋找潛在的旅客細分市場；文獻[7]通過凝聚法合并鐵路旅客出行屬性變量，利用近鄰傳播算法對旅客進行樣本聚類.但鐵路旅客自身屬性和出行特征屬性是高維的，包含大量的信息，并且有些屬性是冗余的，這就要求首先對數(shù)據(jù)進行簡化降維，在此基礎(chǔ)上，通過高效的聚類算法客觀地細分鐵路旅客市場.

粗糙集理論無須提供所處理數(shù)據(jù)之外的任何先驗信息的特點，為研究鐵路通道客運市場細分問題提供了新的思路.本文將鐵路旅客出行方式選擇影響因素作為個體描述的變量，采用粗糙集理論的屬性約簡算法對變量進行降維，然后通過改進的粗糙集屬性權(quán)重的K-means聚類算法對旅客樣本進行細分，從而為旅客出行選擇研究等奠定理論基礎(chǔ).

基于粗糙集聚類算法的鐵路通道客運市場細分流程，如圖1所示.

圖1 鐵路通道旅客出行知識獲取流程圖Fig.1 Knowledge acquisition flow chart of passenger travel in railway corridor

1 調(diào)查設(shè)計與數(shù)據(jù)采集

鐵路通道旅客出行主要受旅客自身屬性、出行特征和運輸方式特征的影響，其類別的細分應(yīng)包含以下變量：旅客的性別、年齡、職業(yè)、月收入、出行目的、旅費來源等基本信息，以及旅客選擇不同出行方式的滿意度(包括票價、旅行時間、便捷程度、準時性、舒適度、安全性6個維度).

本文以行為調(diào)查(RP)和意向性調(diào)查(SP)相結(jié)合的方式進行問卷調(diào)查，在寶雞—蘭州鐵路通道，采用跟車問卷調(diào)查與定點調(diào)查相結(jié)合的方法進行抽樣調(diào)查.共發(fā)放1 500份問卷，回收1 363份有效問卷，回收率為90.8%.樣本數(shù)據(jù)具體描述如表1所示.

表1 鐵路通道旅客出行選擇決策Table 1 Decision table of passenger travel choice in railway corridor

表1中各變量的取值方法如下.

性別：0=男，1=女.

旅費：0=公費，1=自費.

年齡：0=(0,18)歲，1=[18,30)歲，2=[30,40)歲，3=[40,50)歲，4=[50,60)歲，5=60歲及以上.

職業(yè)：0=國企及事業(yè)單位人員，1=公務(wù)員，2=個體經(jīng)營者，3=離退休人員，4=公司職員，5=工人，6=農(nóng)民，7=學(xué)生，8=軍人，9=其他.

收入：0=(0,1 500]元，1=(1 500,4 000]元，2=(4 000,6 000]元，3=(6 000,8 000]元，4=(8 000,10 000]元，5=10 000元以上.

出行目的：0=公務(wù)出差，1=旅游，2=探親訪友，3=購物，4=務(wù)工，5=上學(xué)，6=其他.

教育程度：0=初中以下，1=高中，2=本科，3=研究生.

票價、旅行時間、便捷程度、準時性、舒適性、安全性：0=很不滿意，1=比較不滿意，2=一般滿意，3=比較滿意，4=很滿意.

出行選擇：0=高速鐵路，1=普通鐵路.

2 基于粗糙集的鐵路通道旅客出行屬性約簡及權(quán)重計算

2.1 粗糙集理論概述[8]

定義1知識的約簡.給定一個知識庫K=(U,S)和知識庫上的一族等價關(guān)系P?S，對任意的G?P，若G是獨立的，且IND(G)=IND(P)，則稱G是P的一個約簡，記為G∈RED(P)，其中，RED(P)表示P的全體約簡集合.

定義2決策表.稱四元組DT=(U,C∪D,V,f)是1個決策表，其中，U為對象的非空有限集合，稱為論域，U={x1,x2,…,xn}；C∪D中，C為條件屬性集，C={a|a∈C}，D為決策屬性集，D={d|d∈D}，且C?D=?，C≠?，D≠?；V表示信息函數(shù)f的值域，V=?Vα(?α∈C?D)；f表示決策表的信息函數(shù)，f={fα|fα：U → Vα,?α ∈ C ? D}.

定義3令C、D?A，定義兩個屬性集C與D之間的依賴程度γc(C,D)為

式中：POSC(D)為D的C正域，即U中所有根據(jù)分類U/C的信息可以準確劃分到關(guān)系D的等價類中去的對象集合；card[]表示集合的基數(shù)，即集合中元素的個數(shù).

定義4四元組DT=(U,C∪D,V,f)是1個決策表，根據(jù)屬性依賴度的定義，任意屬性c(c∈C)在C中對D的重要性定義為

其值越大，說明屬性c關(guān)于屬性集C就越重要.

定義5根據(jù)式(2)歸一化所有條件屬性的重要度，可得條件屬性ci的權(quán)重公式為

2.2 粗糙集屬性約簡及權(quán)重

由定義2可知，可將寶蘭鐵路通道旅客出行方式選擇調(diào)查表定義為決策表DT=(U,C∪D,V,f)，其中：U為出行選擇的所有旅客樣本；C為條件屬性的非空有限集合，即出行選擇中所有影響旅客出行選擇的因素；D為決策屬性，表示旅客選擇的鐵路出行方式，高鐵或普鐵；V為信息函數(shù)f的值域，每個屬性的取值不同，該模型中，所有的值域均為離散型.

對上述決策表，通過Mean Completer算法進行數(shù)據(jù)表補齊的預(yù)處理，采用遺傳算法進行屬性約簡，結(jié)果為：{性別,年齡,職業(yè),收入,出行目的,教育程度,票價,旅行時間,便捷程度,準時性,舒適度,安全性}.

可見，只有“旅費來源”這一個屬性是冗余屬性，根據(jù)屬性重要度計算公式，分別對這12個影響因素根據(jù)式(2)計算重要度為{0.012,0.015,0.025,0.009,0.025,0.011,0.012,0.011,0.007,0.005,0.004,0.004}；根據(jù)式(3)計算各關(guān)鍵屬性的權(quán)重為{0.085 714,0.107 143,0.178 571,0.064 286,0.178 571,0.078571,0.085714,0.078571,0.050000,0.035 714,0.028 571,0.028 571}.

3 基于粗糙屬性重要度的改進K-means聚類算法

經(jīng)典的K-means聚類算法，將距離準則函數(shù)中的每個屬性同等對待，這會造成不相關(guān)屬性的誤導(dǎo)，即出現(xiàn)“維數(shù)陷阱”.通過粗糙集確定屬性權(quán)重，使得不同的屬性在聚類中起不同的作用，能客觀解決這個問題.

3.1 基于屬性加權(quán)距離、密度的初始化中心點算法

3.1.1 基本定義

定義6 加權(quán)歐式距離.通過粗糙集屬性重要度賦予不同屬性權(quán)值，得到xi與cj之間的歐式距離為

式中：wl表示屬性的權(quán)重.

定義7 聚類對象的密度.已知樣本的數(shù)據(jù)集U={xi,i=1,2,…,n}，樣本的屬性權(quán)重集為W={wl,l=1,2,…,m}，其中對象xi處的密度函數(shù)為

定義8聚類對象的鄰域半徑.

3.1.2 算法描述

基本思想：首先，根據(jù)粗糙集屬性約簡和屬性重要度定義，得到約簡后不同屬性的權(quán)重，避免“維數(shù)陷阱”；然后，在樣本的數(shù)據(jù)集U中選擇密度最大的點作為第1個初始中心，同時U中刪去該點及鄰域內(nèi)的所有對象，同樣方法確定第2個中心點，循環(huán)執(zhí)行.

算法1

Step 1由定義7計算所有對象密度，得到密度點集合D，初始化中心集為空，M={?}.

Step 2選擇密度最大的樣本對象.xmax=max{xi|xi∈D,i=1,2,…,N }，作為第1個初始中心點，加到中心點集M中，M=?{xmax}.并根據(jù)定義8，從樣本集中刪去xmax及鄰域?qū)ο?

Step 3重復(fù)執(zhí)行Step2.直到選取了K個初始中心點.

Step 4輸出K初始中心點集，結(jié)束.

3.2 基于屬性加權(quán)距離的K-means聚類算法

3.2.1 基本定義

對數(shù)據(jù)進行聚類分析之后，聚類結(jié)果的優(yōu)劣還需通過內(nèi)、外部度量的準則函數(shù)加以分析.

定義9類內(nèi)距離.類內(nèi)每一個樣本數(shù)據(jù)到它們所屬中心的距離

定義10類間距離.不同聚類中心間的距離.

顯然，要使聚類結(jié)果中同一類內(nèi)的數(shù)據(jù)盡可能相似，而不同類之間的數(shù)據(jù)盡可能差異顯著，即類內(nèi)距離應(yīng)該越小，類間距離應(yīng)該越大.汪中等[9]提出了類內(nèi)差異和類間差異平方和的二次方根作為評價函數(shù)，以最小的評價函數(shù)對應(yīng)的K值作為最優(yōu)聚類數(shù)，雖然此方法能找到最優(yōu)的聚類數(shù)，但當數(shù)據(jù)量較大時，得到的聚類數(shù)比較多，這與實際應(yīng)用不符合.因此本文提出了用類內(nèi)距離和類間距離的比值作為評價函數(shù)來評價聚類效果.

定義11評價函數(shù).類內(nèi)距離同類間距離的比值為

當J(c,k)值收斂時，得到最優(yōu)聚類.

3.2 .2算法描述

結(jié)合文獻[9-10]的思想，基于本文算法1進一步提出基于粗糙屬性加權(quán)距離的K-means聚類算法.文獻[11]已證明，整數(shù)K的取值范圍為[1,n]，n為數(shù)據(jù)對象數(shù).算法2從[1,n]循環(huán)執(zhí)行，并記錄均衡評價函數(shù)值及其對應(yīng)的K值.評價函數(shù)值最小的K值，即為最優(yōu)聚類數(shù)目.

算法2

輸入：包括n個樣本數(shù)據(jù)的數(shù)據(jù)集，樣本數(shù)據(jù)各屬性的粗糙重要度wl.

輸出：最優(yōu)K值和對應(yīng)的聚類結(jié)果.

Step 1

Step 1.1調(diào)用算法1確定K個初始聚類中心；

Step 1.2計算聚類中心的平均值，將每個數(shù)據(jù)對象賦給距離最近的聚類中心，根據(jù)定義6確定數(shù)據(jù)對象到聚類中心的距離；

Step 1.3更新簇的平均值；

Step 1.4根據(jù)式(9)計算評價函數(shù)J(c,k)，直到其收斂為止，否則轉(zhuǎn)入Step1.2.

Step 2根據(jù)記錄的J值，找出J值收斂時對應(yīng)的K值，即為最優(yōu)聚類數(shù)目.

3.3 基于粗糙屬性重要度的K-means聚類算法

由3.1節(jié)和3.2節(jié)可知，本文提出的基于粗糙屬性重要度的K-means聚類算法，首先通過粗糙集約簡算法對數(shù)據(jù)集進行屬性約簡和屬性重要度計算，然后由算法1和算法2得到聚類結(jié)果，具體步驟如下：

輸入：包含n個對象的d維數(shù)據(jù)集.

輸出：K個聚類.

Step 1由本文的約簡算法對d維數(shù)據(jù)集進行屬性約簡.

Step 2生成包含n個對象的屬性為K(K＜d)個的數(shù)據(jù)集.

Step 3計算K個屬性對應(yīng)的重要度wi(i=1,2,…,k).

Step 4調(diào)用算法2，得到最優(yōu)聚類數(shù)目和聚類結(jié)果.

3.4 算法的仿真實驗

為了驗證算法的有效性和正確性，本文采用UCI數(shù)據(jù)庫中的Iris、Wine和Soybean這3個數(shù)據(jù)集，分別運行傳統(tǒng)K-means算法、粗糙K-均值算法[12]、文獻[13]的基于密度加權(quán)的粗糙K-均值聚類改進算法，以及本文提出的基于粗糙屬性重要度的K-means算法進行仿真實驗，結(jié)果匯總?cè)绫?所示.

表2 Iris、Wine、Soybean數(shù)據(jù)集的實驗結(jié)果Table 2 Experimental result for Iris、Wine&Soybean

從聚類實驗結(jié)果可以看出，本文改進算法的準確率較高且穩(wěn)定，對實際數(shù)據(jù)的聚類效果更好，可以用于鐵路客運市場細分研究.

4 寶蘭鐵路通道客運市場細分

根據(jù)2.2節(jié)得到的屬性權(quán)重，執(zhí)行本文基于粗糙屬性重要度的K-means聚類算法，得到聚類數(shù)K與評價函數(shù)J(c,k)的收斂趨勢圖，如圖2所示.

可見，當K=6時，評價函數(shù)J(c,k)趨于收斂，寶蘭鐵路通道客運市場可以細分為6類.

經(jīng)過對各細分子市場中旅客的個人屬性、出行影響因素重視度及主要席別選擇的統(tǒng)計分析，可以總結(jié)出不同子市場的主要特征，如表3所示.

圖2 寶蘭鐵路通道旅客市場細分聚類算法評價函數(shù)收斂圖Fig.2 Cluster algorithm convergency diagram for passenger transport market segmentation

表3 各細分市場的主要差異Table 3 Difference table of passenger transport segmentation market

通過對各子市場的旅客調(diào)查分析發(fā)現(xiàn)，安全性是每個子市場最為重視的因素，除安全性以外，子市場1的旅客最重視的是票價高低，而且大部分旅客的出行目的是務(wù)工；子市場2最重視舒適度，旅游探親占了大部分；子市場3以青年學(xué)生為主力，大部分的收入低，以上學(xué)為主；子市場4主要是公務(wù)員和國企員工，出行目的主要是出差；子市場5最看重票價，以工人、農(nóng)民、學(xué)生為主，主要出行目的是探親；子市場6最重視時刻表，以個體經(jīng)營者為主.綜上所述，將上述6個子市場根據(jù)旅客出行特征分別命名為：經(jīng)濟務(wù)工型、休閑舒適型、低端年輕型、高端公務(wù)型、經(jīng)濟探親型、商務(wù)時間型.市場細分的結(jié)果可為鐵路部門設(shè)計個性化的客運產(chǎn)品提供依據(jù).

5 結(jié)論

本文通過分析寶蘭鐵路通道旅客出行方式選擇調(diào)查數(shù)據(jù)的特征，提出了基于粗糙屬性重要度的K-means聚類算法，將鐵路通道客運市場細分為6類子市場：經(jīng)濟務(wù)工型、休閑舒適型、低端年輕型、高端公務(wù)型、經(jīng)濟探親型、商務(wù)時間型.今后將對鐵路通道客運細分子市場的客流分擔，以及針對不同客運細分子市場的差異化的高鐵和普鐵客運產(chǎn)品設(shè)計，做進一步研究.

[1]馮運卿,李雪梅,李學(xué)偉.基于粗糙集的復(fù)合屬性鐵路旅客出行決策影響因素分析與權(quán)重計算[J].鐵道學(xué)報,2014(9)：1-9.[FENG Y Q,LI X M,LI X W.Analysis of influence factors an weighting based on rough sets and the railway passenger travel decisionmaking[J].Journal of the China Railway Society,2014(9)：1-9.]

[2]吳文嫻.鐵路通道內(nèi)客流分擔率及客運組織策略研究[J].中國鐵道科學(xué),2011,32(2)：126-130.[WU W X.The organization strategy research of passenger flow and the share rate of passenger transport railway channels[J].Journal of China Railway Science,2011,32(2)：126-130.]

[3]蔣學(xué)斌.高速鐵路客運市場細分與差異化營銷策略 [J].中國鐵路,2014(2)：6-8.[JIANG X B.Segmentation of high-speed railway passenger transport market and differentiated marketing strategy[J].China Railway,2014(2)：6-8.]

[4]杜巍,趙春榮,黃偉建.改進的K-means聚類算法在客戶細分中的應(yīng)用研究[J].河北經(jīng)貿(mào)大學(xué)學(xué)報,2014,35(1)：118-121.[DU W,ZHAO C R,HUANG W J.Research on application of improved K-means clustering algorithm in customer segmentation[J].Journal of Hebei University of Economics and Business,2014,35(1)：118-121.]

[5]錢丙益,帥斌,陳崇雙,等.基于混合回歸模型的客運專線旅客市場細分研究[J].鐵道運輸與經(jīng)濟,2014,36(1)：60-65.[QIAN B Y,SHUAI B,CHEN C S,et al.Study on subdivision of DPL passenger market based on mixed regression model[J].RailwayTransportand Economy,2014,36(1)：60-65.]

[6]張永超.基于RoughSet高速鐵路市場細分研究[D].成都：西南交通大學(xué),2014.[ZHANG Y C.Research on high-speed railway passenger-marketsegmentation based on rough set[D].Chengdu：Southwest Jiaotong University,2014.]

[7]呂紅霞,王文憲,蒲松,等.基于聚類分析的鐵路出行旅客類別劃分[J].交通運輸系統(tǒng)工程與信息,2016,16(1)：129-134.[LV H X,WANG W X,PU S,et al.Classification of railway passengers based on cluster analysis[J]. Journal of Transportation Systems Engineering and Information,2016,16(1)：129-134.]

[8]苗奪謙,李道國.粗糙集理論、算法與應(yīng)用[M].北京：清華大學(xué)出版社,2008.[MIAO D Q,LI D G.Rough set theory,algorithm and application[M].Beijing：Tsinghua University Press,2008.]

[9]汪中,劉貴全,陳恩紅.一種優(yōu)化初始中心點的K-means算法[J].模式識別與人工智能,2009,22(2)：299-304.[WANG Z,LIU G Q,CHEN E H.A K-means algorithm based on optimized initial center points[J]. Pattern Recognition and Artificial Intelligence,2009,22(2)：299-304.]

[10]姚躍華,史秀嶺.一種優(yōu)化初始中心的K-means粗糙聚類算法[J].計算機工程與應(yīng)用,2010,46(34)：126-128.[YAO Y H,SHI X L.K-means rough clustering algorithm based on optimized initial center[J].Computer Engineering and Applications,2010,46(34)：126-128.]

[11]楊善林,李永森,胡笑旋,等.K-means算法中的K值優(yōu)化問題研究[J].系統(tǒng)工程理論與實踐,2006,26(2)：97-101.[YANG S L,LI Y S,HU X X,et al.Optimization study on K value of K-means algorithm[J].System Engineering Theory and Practice,2006,26(2)：97-101.]

[12]聶映,陳福集.一種基于粗糙集的K-means聚類算法[J].武漢大學(xué)學(xué)報(工學(xué)版),2011,44(2)：257-260.[NIE Y,CHEN F J.Research of K-means clustering algorithm based on rough set[J].Journal of Wuhan University(Engineering Science),2011,44(2)：257-260.]

[13]鄭超,苗奪謙,王睿智.基于密度加權(quán)的粗糙K-均值聚類改進算法[J].計算機科學(xué),2009,36(3)：220-222.[ZHENG C,MIAO D Q,WANG R Z.Improved rough K-means clustering algorithm with weight based on density[J].Computer Science,2009,36(3)：220-222.]