亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于粗糙集聚類算法的鐵路通道客運市場細分

        2018-06-29 01:21:02李海軍李引珍朱昌鋒馬昌喜
        關(guān)鍵詞:定義鐵路

        李海軍,李引珍,周 鵬,朱昌鋒,馬昌喜

        (蘭州交通大學(xué)交通運輸學(xué)院,蘭州730070)

        0 引 言

        細分鐵路通道客運市場有助于鐵路運輸企業(yè)快速高效地確定目標市場,對旅客出行選擇研究、設(shè)計客運產(chǎn)品、客流分配研究等具有積極意義.

        針對鐵路客運市場的細分問題,大部分文獻是按照旅客不同的人口統(tǒng)計特征和出行屬性來細分市場[1-2].這樣人為劃分標準,不能很好地反映客觀情況,文獻通過因子分析法[3]、經(jīng)典K-means聚類算法[4]、混合回歸模型[5]等聚類算法得到比較客觀的客運市場細分結(jié)果.此外,文獻[6]引入潛在類別分析理論對客票數(shù)據(jù)進行研究,尋找潛在的旅客細分市場;文獻[7]通過凝聚法合并鐵路旅客出行屬性變量,利用近鄰傳播算法對旅客進行樣本聚類.但鐵路旅客自身屬性和出行特征屬性是高維的,包含大量的信息,并且有些屬性是冗余的,這就要求首先對數(shù)據(jù)進行簡化降維,在此基礎(chǔ)上,通過高效的聚類算法客觀地細分鐵路旅客市場.

        粗糙集理論無須提供所處理數(shù)據(jù)之外的任何先驗信息的特點,為研究鐵路通道客運市場細分問題提供了新的思路.本文將鐵路旅客出行方式選擇影響因素作為個體描述的變量,采用粗糙集理論的屬性約簡算法對變量進行降維,然后通過改進的粗糙集屬性權(quán)重的K-means聚類算法對旅客樣本進行細分,從而為旅客出行選擇研究等奠定理論基礎(chǔ).

        基于粗糙集聚類算法的鐵路通道客運市場細分流程,如圖1所示.

        圖1 鐵路通道旅客出行知識獲取流程圖Fig.1 Knowledge acquisition flow chart of passenger travel in railway corridor

        1 調(diào)查設(shè)計與數(shù)據(jù)采集

        鐵路通道旅客出行主要受旅客自身屬性、出行特征和運輸方式特征的影響,其類別的細分應(yīng)包含以下變量:旅客的性別、年齡、職業(yè)、月收入、出行目的、旅費來源等基本信息,以及旅客選擇不同出行方式的滿意度(包括票價、旅行時間、便捷程度、準時性、舒適度、安全性6個維度).

        本文以行為調(diào)查(RP)和意向性調(diào)查(SP)相結(jié)合的方式進行問卷調(diào)查,在寶雞—蘭州鐵路通道,采用跟車問卷調(diào)查與定點調(diào)查相結(jié)合的方法進行抽樣調(diào)查.共發(fā)放1 500份問卷,回收1 363份有效問卷,回收率為90.8%.樣本數(shù)據(jù)具體描述如表1所示.

        表1 鐵路通道旅客出行選擇決策Table 1 Decision table of passenger travel choice in railway corridor

        表1中各變量的取值方法如下.

        性別:0=男,1=女.

        旅費:0=公費,1=自費.

        年齡:0=(0,18)歲,1=[18,30)歲,2=[30,40)歲,3=[40,50)歲,4=[50,60)歲,5=60歲及以上.

        職業(yè):0=國企及事業(yè)單位人員,1=公務(wù)員,2=個體經(jīng)營者,3=離退休人員,4=公司職員,5=工人,6=農(nóng)民,7=學(xué)生,8=軍人,9=其他.

        收入:0=(0,1 500]元,1=(1 500,4 000]元,2=(4 000,6 000]元,3=(6 000,8 000]元,4=(8 000,10 000]元,5=10 000元以上.

        出行目的:0=公務(wù)出差,1=旅游,2=探親訪友,3=購物,4=務(wù)工,5=上學(xué),6=其他.

        教育程度:0=初中以下,1=高中,2=本科,3=研究生.

        票價、旅行時間、便捷程度、準時性、舒適性、安全性:0=很不滿意,1=比較不滿意,2=一般滿意,3=比較滿意,4=很滿意.

        出行選擇:0=高速鐵路,1=普通鐵路.

        2 基于粗糙集的鐵路通道旅客出行屬性約簡及權(quán)重計算

        2.1 粗糙集理論概述[8]

        定義1知識的約簡.給定一個知識庫K=(U,S)和知識庫上的一族等價關(guān)系P?S,對任意的G?P,若G是獨立的,且IND(G)=IND(P),則稱G是P的一個約簡,記為G∈RED(P),其中,RED(P)表示P的全體約簡集合.

        定義2決策表.稱四元組DT=(U,C∪D,V,f)是1個決策表,其中,U為對象的非空有限集合,稱為論域,U={x1,x2,…,xn};C∪D中,C為條件屬性集,C={a|a∈C},D為決策屬性集,D={d|d∈D},且C?D=?,C≠?,D≠?;V表示信息函數(shù)f的值域,V=?Vα(?α∈C?D);f表示決策表的信息函數(shù),f={fα|fα:U → Vα,?α ∈ C ? D}.

        定義3令C、D?A,定義兩個屬性集C與D之間的依賴程度γc(C,D)為

        式中:POSC(D)為D的C正域,即U中所有根據(jù)分類U/C的信息可以準確劃分到關(guān)系D的等價類中去的對象集合;card[]表示集合的基數(shù),即集合中元素的個數(shù).

        定義4四元組DT=(U,C∪D,V,f)是1個決策表,根據(jù)屬性依賴度的定義,任意屬性c(c∈C)在C中對D的重要性定義為

        其值越大,說明屬性c關(guān)于屬性集C就越重要.

        定義5根據(jù)式(2)歸一化所有條件屬性的重要度,可得條件屬性ci的權(quán)重公式為

        2.2 粗糙集屬性約簡及權(quán)重

        由定義2可知,可將寶蘭鐵路通道旅客出行方式選擇調(diào)查表定義為決策表DT=(U,C∪D,V,f),其中:U為出行選擇的所有旅客樣本;C為條件屬性的非空有限集合,即出行選擇中所有影響旅客出行選擇的因素;D為決策屬性,表示旅客選擇的鐵路出行方式,高鐵或普鐵;V為信息函數(shù)f的值域,每個屬性的取值不同,該模型中,所有的值域均為離散型.

        對上述決策表,通過Mean Completer算法進行數(shù)據(jù)表補齊的預(yù)處理,采用遺傳算法進行屬性約簡,結(jié)果為:{性別,年齡,職業(yè),收入,出行目的,教育程度,票價,旅行時間,便捷程度,準時性,舒適度,安全性}.

        可見,只有“旅費來源”這一個屬性是冗余屬性,根據(jù)屬性重要度計算公式,分別對這12個影響因素根據(jù)式(2)計算重要度為{0.012,0.015,0.025,0.009,0.025,0.011,0.012,0.011,0.007,0.005,0.004,0.004};根據(jù)式(3)計算各關(guān)鍵屬性的權(quán)重為{0.085 714,0.107 143,0.178 571,0.064 286,0.178 571,0.078571,0.085714,0.078571,0.050000,0.035 714,0.028 571,0.028 571}.

        3 基于粗糙屬性重要度的改進K-means聚類算法

        經(jīng)典的K-means聚類算法,將距離準則函數(shù)中的每個屬性同等對待,這會造成不相關(guān)屬性的誤導(dǎo),即出現(xiàn)“維數(shù)陷阱”.通過粗糙集確定屬性權(quán)重,使得不同的屬性在聚類中起不同的作用,能客觀解決這個問題.

        3.1 基于屬性加權(quán)距離、密度的初始化中心點算法

        3.1.1 基本定義

        定義6 加權(quán)歐式距離.通過粗糙集屬性重要度賦予不同屬性權(quán)值,得到xi與cj之間的歐式距離為

        式中:wl表示屬性的權(quán)重.

        定義7 聚類對象的密度.已知樣本的數(shù)據(jù)集U={xi,i=1,2,…,n},樣本的屬性權(quán)重集為W={wl,l=1,2,…,m},其中對象xi處的密度函數(shù)為

        定義8聚類對象的鄰域半徑.

        3.1.2 算法描述

        基本思想:首先,根據(jù)粗糙集屬性約簡和屬性重要度定義,得到約簡后不同屬性的權(quán)重,避免“維數(shù)陷阱”;然后,在樣本的數(shù)據(jù)集U中選擇密度最大的點作為第1個初始中心,同時U中刪去該點及鄰域內(nèi)的所有對象,同樣方法確定第2個中心點,循環(huán)執(zhí)行.

        算法1

        Step 1由定義7計算所有對象密度,得到密度點集合D,初始化中心集為空,M={?}.

        Step 2選擇密度最大的樣本對象.xmax=max{xi|xi∈D,i=1,2,…,N },作為第1個初始中心點,加到中心點集M中,M=?{xmax}.并根據(jù)定義8,從樣本集中刪去xmax及鄰域?qū)ο?

        Step 3重復(fù)執(zhí)行Step2.直到選取了K個初始中心點.

        Step 4輸出K初始中心點集,結(jié)束.

        3.2 基于屬性加權(quán)距離的K-means聚類算法

        3.2.1 基本定義

        對數(shù)據(jù)進行聚類分析之后,聚類結(jié)果的優(yōu)劣還需通過內(nèi)、外部度量的準則函數(shù)加以分析.

        定義9類內(nèi)距離.類內(nèi)每一個樣本數(shù)據(jù)到它們所屬中心的距離

        定義10類間距離.不同聚類中心間的距離.

        顯然,要使聚類結(jié)果中同一類內(nèi)的數(shù)據(jù)盡可能相似,而不同類之間的數(shù)據(jù)盡可能差異顯著,即類內(nèi)距離應(yīng)該越小,類間距離應(yīng)該越大.汪中等[9]提出了類內(nèi)差異和類間差異平方和的二次方根作為評價函數(shù),以最小的評價函數(shù)對應(yīng)的K值作為最優(yōu)聚類數(shù),雖然此方法能找到最優(yōu)的聚類數(shù),但當數(shù)據(jù)量較大時,得到的聚類數(shù)比較多,這與實際應(yīng)用不符合.因此本文提出了用類內(nèi)距離和類間距離的比值作為評價函數(shù)來評價聚類效果.

        定義11評價函數(shù).類內(nèi)距離同類間距離的比值為

        當J(c,k)值收斂時,得到最優(yōu)聚類.

        3.2 .2算法描述

        結(jié)合文獻[9-10]的思想,基于本文算法1進一步提出基于粗糙屬性加權(quán)距離的K-means聚類算法.文獻[11]已證明,整數(shù)K的取值范圍為[1,n],n為數(shù)據(jù)對象數(shù).算法2從[1,n]循環(huán)執(zhí)行,并記錄均衡評價函數(shù)值及其對應(yīng)的K值.評價函數(shù)值最小的K值,即為最優(yōu)聚類數(shù)目.

        算法2

        輸入:包括n個樣本數(shù)據(jù)的數(shù)據(jù)集,樣本數(shù)據(jù)各屬性的粗糙重要度wl.

        輸出:最優(yōu)K值和對應(yīng)的聚類結(jié)果.

        Step 1

        Step 1.1調(diào)用算法1確定K個初始聚類中心;

        Step 1.2計算聚類中心的平均值,將每個數(shù)據(jù)對象賦給距離最近的聚類中心,根據(jù)定義6確定數(shù)據(jù)對象到聚類中心的距離;

        Step 1.3更新簇的平均值;

        Step 1.4根據(jù)式(9)計算評價函數(shù)J(c,k),直到其收斂為止,否則轉(zhuǎn)入Step1.2.

        Step 2根據(jù)記錄的J值,找出J值收斂時對應(yīng)的K值,即為最優(yōu)聚類數(shù)目.

        3.3 基于粗糙屬性重要度的K-means聚類算法

        由3.1節(jié)和3.2節(jié)可知,本文提出的基于粗糙屬性重要度的K-means聚類算法,首先通過粗糙集約簡算法對數(shù)據(jù)集進行屬性約簡和屬性重要度計算,然后由算法1和算法2得到聚類結(jié)果,具體步驟如下:

        輸入:包含n個對象的d維數(shù)據(jù)集.

        輸出:K個聚類.

        Step 1由本文的約簡算法對d維數(shù)據(jù)集進行屬性約簡.

        Step 2生成包含n個對象的屬性為K(K<d)個的數(shù)據(jù)集.

        Step 3計算K個屬性對應(yīng)的重要度wi(i=1,2,…,k).

        Step 4調(diào)用算法2,得到最優(yōu)聚類數(shù)目和聚類結(jié)果.

        3.4 算法的仿真實驗

        為了驗證算法的有效性和正確性,本文采用UCI數(shù)據(jù)庫中的Iris、Wine和Soybean這3個數(shù)據(jù)集,分別運行傳統(tǒng)K-means算法、粗糙K-均值算法[12]、文獻[13]的基于密度加權(quán)的粗糙K-均值聚類改進算法,以及本文提出的基于粗糙屬性重要度的K-means算法進行仿真實驗,結(jié)果匯總?cè)绫?所示.

        表2 Iris、Wine、Soybean數(shù)據(jù)集的實驗結(jié)果Table 2 Experimental result for Iris、Wine&Soybean

        從聚類實驗結(jié)果可以看出,本文改進算法的準確率較高且穩(wěn)定,對實際數(shù)據(jù)的聚類效果更好,可以用于鐵路客運市場細分研究.

        4 寶蘭鐵路通道客運市場細分

        根據(jù)2.2節(jié)得到的屬性權(quán)重,執(zhí)行本文基于粗糙屬性重要度的K-means聚類算法,得到聚類數(shù)K與評價函數(shù)J(c,k)的收斂趨勢圖,如圖2所示.

        可見,當K=6時,評價函數(shù)J(c,k)趨于收斂,寶蘭鐵路通道客運市場可以細分為6類.

        經(jīng)過對各細分子市場中旅客的個人屬性、出行影響因素重視度及主要席別選擇的統(tǒng)計分析,可以總結(jié)出不同子市場的主要特征,如表3所示.

        圖2 寶蘭鐵路通道旅客市場細分聚類算法評價函數(shù)收斂圖Fig.2 Cluster algorithm convergency diagram for passenger transport market segmentation

        表3 各細分市場的主要差異Table 3 Difference table of passenger transport segmentation market

        通過對各子市場的旅客調(diào)查分析發(fā)現(xiàn),安全性是每個子市場最為重視的因素,除安全性以外,子市場1的旅客最重視的是票價高低,而且大部分旅客的出行目的是務(wù)工;子市場2最重視舒適度,旅游探親占了大部分;子市場3以青年學(xué)生為主力,大部分的收入低,以上學(xué)為主;子市場4主要是公務(wù)員和國企員工,出行目的主要是出差;子市場5最看重票價,以工人、農(nóng)民、學(xué)生為主,主要出行目的是探親;子市場6最重視時刻表,以個體經(jīng)營者為主.綜上所述,將上述6個子市場根據(jù)旅客出行特征分別命名為:經(jīng)濟務(wù)工型、休閑舒適型、低端年輕型、高端公務(wù)型、經(jīng)濟探親型、商務(wù)時間型.市場細分的結(jié)果可為鐵路部門設(shè)計個性化的客運產(chǎn)品提供依據(jù).

        5 結(jié)論

        本文通過分析寶蘭鐵路通道旅客出行方式選擇調(diào)查數(shù)據(jù)的特征,提出了基于粗糙屬性重要度的K-means聚類算法,將鐵路通道客運市場細分為6類子市場:經(jīng)濟務(wù)工型、休閑舒適型、低端年輕型、高端公務(wù)型、經(jīng)濟探親型、商務(wù)時間型.今后將對鐵路通道客運細分子市場的客流分擔,以及針對不同客運細分子市場的差異化的高鐵和普鐵客運產(chǎn)品設(shè)計,做進一步研究.

        [1]馮運卿,李雪梅,李學(xué)偉.基于粗糙集的復(fù)合屬性鐵路旅客出行決策影響因素分析與權(quán)重計算[J].鐵道學(xué)報,2014(9):1-9.[FENG Y Q,LI X M,LI X W.Analysis of influence factors an weighting based on rough sets and the railway passenger travel decisionmaking[J].Journal of the China Railway Society,2014(9):1-9.]

        [2]吳文嫻.鐵路通道內(nèi)客流分擔率及客運組織策略研究[J].中國鐵道科學(xué),2011,32(2):126-130.[WU W X.The organization strategy research of passenger flow and the share rate of passenger transport railway channels[J].Journal of China Railway Science,2011,32(2):126-130.]

        [3]蔣學(xué)斌.高速鐵路客運市場細分與差異化營銷策略 [J].中 國 鐵 路,2014(2):6-8.[JIANG X B.Segmentation of high-speed railway passenger transport market and differentiated marketing strategy[J].China Railway,2014(2):6-8.]

        [4]杜巍,趙春榮,黃偉建.改進的K-means聚類算法在客戶細分中的應(yīng)用研究[J].河北經(jīng)貿(mào)大學(xué)學(xué)報,2014,35(1):118-121.[DU W,ZHAO C R,HUANG W J.Research on application of improved K-means clustering algorithm in customer segmentation[J].Journal of Hebei University of Economics and Business,2014,35(1):118-121.]

        [5]錢丙益,帥斌,陳崇雙,等.基于混合回歸模型的客運專線旅客市場細分研究[J].鐵道運輸與經(jīng)濟,2014,36(1):60-65.[QIAN B Y,SHUAI B,CHEN C S,et al.Study on subdivision of DPL passenger market based on mixed regression model[J].RailwayTransportand Economy,2014,36(1):60-65.]

        [6]張永超.基于RoughSet高速鐵路市場細分研究[D].成都:西南交通大學(xué),2014.[ZHANG Y C.Research on high-speed railway passenger-marketsegmentation based on rough set[D].Chengdu:Southwest Jiaotong University,2014.]

        [7]呂紅霞,王文憲,蒲松,等.基于聚類分析的鐵路出行旅客類別劃分[J].交通運輸系統(tǒng)工程與信息,2016,16(1):129-134.[LV H X,WANG W X,PU S,et al.Classification of railway passengers based on cluster analysis[J]. Journal of Transportation Systems Engineering and Information,2016,16(1):129-134.]

        [8]苗奪謙,李道國.粗糙集理論、算法與應(yīng)用[M].北京:清華大學(xué)出版社,2008.[MIAO D Q,LI D G.Rough set theory,algorithm and application[M].Beijing:Tsinghua University Press,2008.]

        [9]汪中,劉貴全,陳恩紅.一種優(yōu)化初始中心點的K-means算法[J].模式識別與人工智能,2009,22(2):299-304.[WANG Z,LIU G Q,CHEN E H.A K-means algorithm based on optimized initial center points[J]. Pattern Recognition and Artificial Intelligence,2009,22(2):299-304.]

        [10]姚躍華,史秀嶺.一種優(yōu)化初始中心的K-means粗糙聚類算法[J].計算機工程與應(yīng)用,2010,46(34):126-128.[YAO Y H,SHI X L.K-means rough clustering algorithm based on optimized initial center[J].Computer Engineering and Applications,2010,46(34):126-128.]

        [11]楊善林,李永森,胡笑旋,等.K-means算法中的K值優(yōu)化問題研究[J].系統(tǒng)工程理論與實踐,2006,26(2):97-101.[YANG S L,LI Y S,HU X X,et al.Optimization study on K value of K-means algorithm[J].System Engineering Theory and Practice,2006,26(2):97-101.]

        [12]聶映,陳福集.一種基于粗糙集的K-means聚類算法[J].武漢大學(xué)學(xué)報(工學(xué)版),2011,44(2):257-260.[NIE Y,CHEN F J.Research of K-means clustering algorithm based on rough set[J].Journal of Wuhan University(Engineering Science),2011,44(2):257-260.]

        [13]鄭超,苗奪謙,王睿智.基于密度加權(quán)的粗糙K-均值聚類改進算法[J].計算機科學(xué),2009,36(3):220-222.[ZHENG C,MIAO D Q,WANG R Z.Improved rough K-means clustering algorithm with weight based on density[J].Computer Science,2009,36(3):220-222.]

        猜你喜歡
        定義鐵路
        鐵路是怎么發(fā)明的
        沿著中老鐵路一路向南
        云南畫報(2021年12期)2021-03-08 00:50:54
        永遠不要用“起點”定義自己
        海峽姐妹(2020年9期)2021-01-04 01:35:44
        定義“風格”
        鐵路通信線路維護體制改革探索與實踐
        無人機在鐵路工程建設(shè)中的應(yīng)用與思考
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        GSM-R在鐵路通信中的應(yīng)用
        夢想在鐵路人心中流淌
        中國火炬(2015年7期)2015-07-31 17:40:05
        修辭學(xué)的重大定義
        视频在线国产一区二区| 无码一区二区三区在线在看| 无码三级国产三级在线电影| 久久久亚洲成年中文字幕| 手机在线看片| 免费精品一区二区三区第35| 亚洲中文字幕久久精品蜜桃| 日本精品熟妇一区二区三区| 国产一区二区视频免费在线观看| 一本一本久久aa综合精品| 国产精品欧美日韩在线一区| 成人女同av免费观看| 大香焦av一区二区三区| 日本久久高清一区二区三区毛片| 四虎欧美国产精品| 日本在线免费一区二区三区| 日韩精品人妻久久久一二三| 亚洲精品无码不卡在线播放he| jlzzjlzz全部女高潮| 自拍av免费在线观看| 人与人性恔配视频免费| 熟妇人妻av无码一区二区三区| 久久久国产不卡一区二区| 狼人精品剧情av在线观看| 亚洲av无码成人精品区狼人影院| 亚洲av日韩av无码av| 美女黄频视频免费国产大全 | 国产一区二区三区在线电影| 久久婷婷色综合一区二区| 久久精品国产亚洲av麻豆四虎| 狼人伊人影院在线观看国产| 美女把尿囗扒开让男人添| 一级呦女专区毛片| 日本一二三区在线视频观看| 亚洲成a∨人片在线观看无码| 人人玩人人添人人澡| 亚洲成A人A∨久在线观看| 中文字幕影片免费人妻少妇| 无人视频在线观看免费播放影院| 欧美日韩精品一区二区三区高清视频 | 香港三级欧美国产精品|