亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于旅客出行意圖的航線潛在價(jià)值計(jì)算模型

        2018-10-29 05:05:50徐召朋
        關(guān)鍵詞:價(jià)值模型

        徐 濤,徐召朋,盧 敏

        (1.中國民航大學(xué)a.信息技術(shù)科研基地,b.計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津300300;2.中山大學(xué)機(jī)器智能與先進(jìn)計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室,廣州510275)

        0 引 言

        面對日益激烈的市場競爭,航空公司通過開辟新航線或加大熱門航線的運(yùn)力爭相發(fā)展和擴(kuò)大航線網(wǎng)絡(luò)以提升市場競爭力.開辟新航線或加大熱門航線的運(yùn)力首要解決航線價(jià)值或航線收益的計(jì)算問題.現(xiàn)階段,航線價(jià)值通常是以航線客流量的統(tǒng)計(jì)為基礎(chǔ),并結(jié)合票價(jià)信息來計(jì)算.但是,僅利用航線的客流量和票價(jià)信息難以評估旅客帶給航線的潛在價(jià)值.發(fā)現(xiàn)具有高潛在價(jià)值的航線能夠幫助航空公司解決后期因客源不足引起的營運(yùn)效益降低問題.因此,航線價(jià)值計(jì)算問題的解決,對航空公司的發(fā)展具有重要的意義.

        為了能夠發(fā)現(xiàn)具有高潛在價(jià)值的航線,本文提出了一種基于旅客出行意圖的航線潛在價(jià)值計(jì)算模型來計(jì)算航線的潛在價(jià)值.提出了航線潛在價(jià)值的概念,將難以直觀描述的旅客出行行為及旅客偏好融入到航線價(jià)值計(jì)算中,達(dá)到航線潛在價(jià)值計(jì)算的目的;提出出行意圖的概念,將旅客的出行行為按照出行意圖進(jìn)行劃分并量化,在計(jì)算航線潛在價(jià)值的同時(shí)將航線按照出行意圖進(jìn)行了分類.

        1 基于旅客出行意圖的航線潛在價(jià)值計(jì)算模型

        本文主要通過中國民航旅客訂票數(shù)據(jù)集來研究航線的價(jià)值,而該數(shù)據(jù)集中并不包含有關(guān)航線價(jià)值的信息.但可以通過統(tǒng)計(jì)航線上的客流量來定義航線的價(jià)值,將其定義為

        在基于旅客出行意圖的航線潛在價(jià)值計(jì)算模型中引入出行意圖的概念,將旅客的出行行為進(jìn)行細(xì)分.出行意圖由主題模型[1-4]中文本主題的概念引申而來.文本主題表示一種隱含的概念,具體表示為一系列相關(guān)的單詞,以及它們在該概念下出現(xiàn)的概率.因此,出行意圖可以表示為一系列相關(guān)的航線,以及航線出現(xiàn)在該出行意圖下的概率.

        借鑒主題模型中文本的生成過程來模擬旅客出行記錄的生成.旅客出行時(shí)先確定出行意圖,然后在該意圖下選擇航線.因此,在獲得旅客隱含的出行意圖分布及每個(gè)意圖中航線的分布后,結(jié)合旅客對艙位的偏好來計(jì)算出的航線價(jià)值便是航線的潛在價(jià)值.

        記U為旅客組成的集合,U中所有旅客出行時(shí)乘坐的航線組成航線集合R.借助貝葉斯公式將基于旅客出行意圖的航線潛在價(jià)值計(jì)算模型定義為

        式中:P(r)表示航線r的價(jià)值,r∈R;P(u)表示旅客u對艙位偏好所產(chǎn)生的價(jià)值,u∈U;P(zu|u)表示旅客u擁有出行意圖zu的概率;P(r|zu)表示確定出行意圖zu后選擇航線r的概率.

        1.1 旅客出行意圖分布及出行意圖下航線分布的定義及求解

        (1)旅客出行意圖分布及出行意圖下航線分布的定義.

        記每位旅客u包含自身出行意圖的向量為θu,θu中的元素是旅客u選擇不同意圖的概率值,則所有旅客的出行意圖構(gòu)成“旅客—意圖”矩陣Θ.此外,假設(shè)共有K種出行意圖,每種出行意圖z由不同航線在該出行意圖中出現(xiàn)的概率組成,記為向量φz,針對所有出行意圖形成“意圖—航線”矩陣Φ.為方便起見,將每條航線r進(jìn)行編號.旅客u在出行中選擇航線r的概率可表述為

        式中:z表示某次出行旅客的意圖.

        由于旅客u選擇航線r的過程中加入了旅客出行意圖的潛在信息,因此,式(3)表示旅客u在出行中選擇航線r的概率值也代表著該旅客u所賦予航線r的價(jià)值.最終,我們可以將旅客出行記錄的生成用圖1所示的流程來表示.其中α與β都表示Dirichlet分布的參數(shù)先驗(yàn)參數(shù).

        圖1 旅客出行記錄生成圖Fig.1 The generation chart of passenger travel records

        (2)旅客出行意圖分布及出行意圖下航線分布的求解.

        由于向量θ是旅客選擇出行意圖的分布,假設(shè)共有K種出行意圖,則θ符合K維多項(xiàng)式分布.同理,向量φ符合|R|維多項(xiàng)式分布.由統(tǒng)計(jì)學(xué)知識可知,θ和φ會具有先驗(yàn)分布,此處選擇Dirichlet分布作為θ和φ的先驗(yàn)分布形成共軛結(jié)構(gòu)以提高參數(shù)估計(jì)的精度[7],并簡化估計(jì)的過程.

        所有旅客的出行意圖分布P(z|U)加入先驗(yàn)分布可表示為

        同理,各出行意圖下航線的分布P(r|z)可表示為

        綜合式(4)和式(5),可得所有旅客出行意圖及出行時(shí)所乘航線的聯(lián)合分布為

        利用Gibbs Sampling方法對式(6)進(jìn)行采樣.由于航線r是觀測到的已知數(shù)據(jù),出行意圖是隱含變量,所以真正需要采樣的分布是P(z|r).其公式推導(dǎo)為

        式中:zi表示第i條航線對應(yīng)的出行意圖變量;下標(biāo)?i表示變量不包含第i條航線的情況.

        式(7)最后一步的推導(dǎo)應(yīng)用了Dirichlet分布的期望公式,因此,只要獲得每條航線r的意圖z的標(biāo)號,便可通過簡單的計(jì)數(shù)方式獲得“旅客—意圖”矩陣Θ和“意圖—航線”矩陣Φ.主要過程是遍歷旅客出行時(shí)的航線集合,按照式(9)進(jìn)行不斷的迭代,從而更改不同航線分配到不同的出行意圖下的概率.

        式中:θuz表示旅客u選擇出行意圖z產(chǎn)生的價(jià)值;φzr表示出行意圖z下確定航線r產(chǎn)生的價(jià)值.

        1.2 旅客艙位偏好的計(jì)算

        旅客對艙位偏好所產(chǎn)生的價(jià)值由其歷次出行累積得來.設(shè)旅客的每次出行及旅客間的出行相互獨(dú)立,且對不同的艙位賦予不同的艙位系數(shù),則所有旅客組成的集合U因艙位偏好所具有的價(jià)值為

        對式(10)使用最大似然估計(jì)法,可得

        通常,航空公司通過里程累積計(jì)劃吸引和獎(jiǎng)勵(lì)旅客,在里程累積計(jì)劃中,旅客出行時(shí)不同的艙位選擇會被賦予不同的里程累積系數(shù),不同艙位的里程累積系數(shù)事實(shí)上反映了不同艙位在航空公司收益中的重要性,因此,式(11)中艙位系數(shù)γc的選擇用航空公司對不同艙位的里程累積系數(shù)替代.式(11)中得到旅客u出行時(shí)的概率可用來評估旅客因其對艙位偏好所產(chǎn)生的價(jià)值.

        截止調(diào)查前,安徽省普通高等學(xué)校大學(xué)生總?cè)藬?shù)約為萬.為了保證問卷的可靠性,取問卷調(diào)查置信水平為95%(相應(yīng)的),誤差值,概率值,此時(shí)樣本方差最大.計(jì)算得到.考慮到信息覆蓋度不足,假設(shè)問卷有效回收率為,因此,此時(shí)的樣本量為.最終發(fā)放600份問卷,實(shí)際回收有效樣本509份,回收率,其中,訂購過外賣的樣本有480份.

        最終可得基于旅客出行意圖的航線潛在價(jià)值計(jì)算模型為

        2 實(shí)驗(yàn)與分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)及預(yù)處理

        實(shí)驗(yàn)數(shù)據(jù)集選取中國民航旅客訂座系統(tǒng)中2010年1月1日~2011年12月31日2年的旅客訂票數(shù)據(jù),其數(shù)據(jù)量是48.9 G.包含訂票記錄數(shù)102 305 312條,旅客96 298 451人,航線1 634條.數(shù)據(jù)內(nèi)容包含身份證號,性別,所選航空公司,航班號,艙位,起飛機(jī)場,到達(dá)機(jī)場等17個(gè)屬性.

        旅客的偏好需要通過出行次數(shù)的累積來體現(xiàn).旅客出行次數(shù)偏少,則其對艙位的偏好模糊,出行意圖也會過于單一,不僅不會提高計(jì)算的準(zhǔn)確性,還會導(dǎo)致出行意圖中航線分布不均勻.為更好地獲得旅客偏好及出行意圖,選擇年出行次數(shù)5次及以上的旅客作為基準(zhǔn)實(shí)驗(yàn)數(shù)據(jù),篩選后的數(shù)據(jù)如表1所示.

        實(shí)驗(yàn)中,對缺失艙位信息的旅客訂票數(shù)據(jù)以經(jīng)濟(jì)艙信息補(bǔ)全.航線信息則利用訂票數(shù)據(jù)中“起飛機(jī)場”“到達(dá)機(jī)場”兩個(gè)屬性來唯一標(biāo)識,這兩個(gè)屬性在旅客訂票數(shù)據(jù)中都由國際航空運(yùn)輸協(xié)會(International Air Transport Association,IATA)規(guī)定的機(jī)場“三字碼”來表示,于是,將旅客訂票數(shù)據(jù)所表示的出行記錄預(yù)處理為如圖1所示的短文本格式作為基于旅客偏好的航線潛在價(jià)值計(jì)算模型的輸入.該文本數(shù)據(jù)以行為單位,每行代表1名旅客的出行記錄.各行的第1列表示加密后的旅客身份證信息,具有唯一性,其余各列由旅客出行時(shí)選擇的起飛機(jī)場和到達(dá)機(jī)場的兩個(gè)“三字碼”拼接而成的航線組成.

        表1 年出行次數(shù)5次及以上的數(shù)據(jù)集Table 15 times and above data sets for annual trips

        圖2 基于旅客偏好的航線潛在價(jià)值計(jì)算模型的輸入樣例Fig.2 Input sample of route potential value calculation model based on passenger preference

        由于旅客訂票數(shù)據(jù)量龐大,使用傳統(tǒng)數(shù)據(jù)庫進(jìn)行操作經(jīng)常會出現(xiàn)內(nèi)存溢出的情況,且航線價(jià)值的計(jì)算也涉及大矩陣運(yùn)算.為加快對旅客訂票數(shù)據(jù)的處理采用Hadoop并行平臺中的MapReduce技術(shù)[5-7]及Fast LDA[8]技術(shù)進(jìn)行數(shù)據(jù)的預(yù)處理及大矩陣的運(yùn)算.

        2.2 模型的評估方法

        雖然航線潛在價(jià)值的計(jì)算屬于回歸預(yù)測的范疇,但由于對航線價(jià)值定義并沒有一種統(tǒng)一的標(biāo)準(zhǔn),所以不能單純的用均方誤差來評估模型的性能.因此,通過衡量航線價(jià)值排名的相似性來驗(yàn)證基于旅客出行意圖的航線價(jià)值計(jì)算方法的有效性.而肯德爾相關(guān)系數(shù)(Kendall Rank Correlation Coefficient,KRCC)[9-10]與斯皮爾曼相關(guān)系數(shù)(Spermans Rank Correlation Coefficient,SRCC)[11-12]常用于評價(jià)兩個(gè)有序序列的相似性,所以將這兩個(gè)系數(shù)作為模型的評價(jià)指標(biāo).實(shí)驗(yàn)的具體過程如下:

        (1)利用2010年與2011年的數(shù)據(jù)分別計(jì)算出不同出行意圖數(shù)目下的PL2010(r)與PL2011(r)并對其降序排列.

        (2)利用2010年與2011年的數(shù)據(jù)分別計(jì)算出P2010(r)與P2011(r)并對其降序排列.

        (3)計(jì)算步驟(1)與步驟(2)中各自前N項(xiàng)(Top-N)的肯德爾相關(guān)系數(shù)與斯皮爾曼相關(guān)系數(shù).

        2.3 實(shí)驗(yàn)結(jié)果分析

        模型中設(shè)置出行意圖的先驗(yàn)分布參數(shù)α值為50/K,出行意圖中航線先驗(yàn)分布參數(shù)β值為0.01,出行意圖的數(shù)目分別設(shè)置為10,30,50和100.

        航線潛在價(jià)值的計(jì)算引入了出行意圖的概念,即假設(shè)旅客出行時(shí)會先確定出行意圖,并在確定出行意圖后選擇航線.因此,在某種層面來講也假設(shè)了不同航線會屬于不同的出行意圖.圖2給出了某些出行意圖下排名前10的航線序列(以2010年數(shù)據(jù)所得).

        圖2由“意圖—航線”矩陣Φ轉(zhuǎn)置并濾除掉概率值后生成,并已按概率值的大小進(jìn)行了排序.以列為單位,每列表示某種出行意圖下包含的航線.從聚類角度來看,如果不考慮各航線出現(xiàn)在意圖中的概率,基于旅客偏好的航線潛在價(jià)值計(jì)算模型中用Gibbs Sampling方法獲得的“意圖—航線”矩陣Φ將航線按照出行意圖進(jìn)行了聚類.

        圖3 某些出行意圖下前10的航線Fig.3 The first ten air-routes of some travel intentions

        表2給出了P2010(r)與P2011(r)在不同Top-N中的相關(guān)系數(shù)τ與rs.表3則給出了不同出行意圖數(shù)目下PL2010(r)與PL2011(r)在不同Top-N中的相關(guān)系數(shù)τ與rs.

        表2 P2010(r)與P2011(r)在不同Top-N中的相關(guān)系數(shù)τ與rsTable 2 Correlation coefficientτandrsofP2010(r)andP2011(r)in different Top-N

        表3 不同出行意圖數(shù)目PL2010(r)與PL2011(r)在不同Top-N中相關(guān)系數(shù)τ與rsTable 3 The correlation coefficients of different travel intention numbersPL2010(r)andPL2011(r)in differentTop-Nareτandrs

        從表2與表3的對比中可以看出,當(dāng)出行意圖數(shù)目一定時(shí),基于旅客偏好的航線潛在價(jià)值計(jì)算模型得到的PL2010(r)與PL2011(r)的相關(guān)系數(shù)τ和rs大多高于P2010(r)與P2011(r)之間的相關(guān)系數(shù).其原因在于計(jì)算P(r)時(shí)僅僅考慮旅客的出行次數(shù),而基于旅客偏好的航線潛在價(jià)值計(jì)算模型將旅客對艙位的偏好及旅客的出行行為進(jìn)行了量化,并融入到航線的價(jià)值計(jì)算中,不僅考慮了出行次數(shù),還考慮了每名旅客的出行特征.所以基于旅客偏好的航線潛在價(jià)值計(jì)算模型具有比基準(zhǔn)方法更好的性能.

        從表3中可見,當(dāng)出行意圖數(shù)目分別選取10,30,50時(shí),PL2010(r)與PL2011(r)在Top-5中的相關(guān)系數(shù)τ及rs均為1.000,即基于旅客出行意圖的航線潛在價(jià)值計(jì)算方法在選取出行意圖數(shù)目分別為10,30,50時(shí)對排名前5的航線價(jià)值的挖掘準(zhǔn)確率達(dá)到100%.其原因是基于旅客偏好的航線潛在價(jià)值計(jì)算模型將航線按照旅客的出行意圖進(jìn)行了分類,而同一航線可能被賦予不同的出行意圖,在計(jì)算中被多次帶入公式運(yùn)算,使得擁有多種出行意圖的航線具有較高的價(jià)值,從而驗(yàn)證了該模型在挖掘高價(jià)值航線方面具有很大的優(yōu)勢.此外,當(dāng)Top-N中N≥35時(shí),相關(guān)系數(shù)τ和rs分別在0.700與0.850上下波動,這是因?yàn)镹值的變動,會使2010年與2011年2年的航線價(jià)值序列中排序不一致的對數(shù)所占的比例有所變化,但會穩(wěn)定在一定范圍內(nèi),說明了本文方法性能的穩(wěn)定性.

        從表3中還可見,當(dāng)Top-N一定時(shí),PL2010(r)與PL2011(r)的相關(guān)系數(shù)τ和rs在出行意圖數(shù)目為30時(shí)均取值最大,之后隨著出行意圖數(shù)目的增加會隨之下降,并趨于平穩(wěn).這是因?yàn)楫?dāng)出行意圖數(shù)目過大時(shí),旅客對某些出行意圖的選擇會變成小概率事件,在該意圖下選擇航線時(shí)會出現(xiàn)概率趨近于0的情況,從而弱化了旅客能夠賦予航線的價(jià)值,從而表明旅客出行意圖數(shù)目的確定并不是越大越好.

        3 結(jié)論

        針對民航航線網(wǎng)絡(luò)中航線價(jià)值計(jì)算問題提出了基于旅客出行偏好的航線潛在價(jià)值計(jì)算模型.該模型引入出行意圖的概念,將旅客的出行行為劃分為出行意圖的確定及意圖下航線的確定兩個(gè)階段,并結(jié)合旅客對艙位的偏好,從而達(dá)到計(jì)算航線潛在價(jià)值的目的.此外,出行意圖的引入,在計(jì)算航線潛在價(jià)值的同時(shí),還可以將航線按照出行意圖進(jìn)行聚類.

        然而,基于旅客偏好的航線潛在價(jià)值計(jì)算模型在考慮旅客出行時(shí),將其看作是相互獨(dú)立的,未考慮不同出行之間的相互聯(lián)系和依賴關(guān)系.然而旅客的實(shí)際出行中存在如購買往返機(jī)票或因無直達(dá)航線而需要轉(zhuǎn)機(jī)等多種相互關(guān)聯(lián)或依賴情形,這些情形中航線的關(guān)聯(lián)及依賴關(guān)系對旅客意圖的分布和意圖下航線的分布都會產(chǎn)生影響,從而影響到航線潛在價(jià)值的計(jì)算.今后的工作將會考慮對旅客出行時(shí)所選航線的關(guān)聯(lián)及依賴關(guān)系進(jìn)行建模來計(jì)算航線的潛在價(jià)值,使航線潛在價(jià)值的計(jì)算更符合旅客的出行行為.

        猜你喜歡
        價(jià)值模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        踐行初心使命的價(jià)值取向
        價(jià)值3.6億元的隱私
        一粒米的價(jià)值
        “給”的價(jià)值
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        一個(gè)相似模型的應(yīng)用
        玩弄少妇高潮ⅹxxxyw| 久久久精品人妻一区二区三区游戏| 久久亚洲中文字幕精品一区| 多毛小伙内射老太婆| 中文字幕+乱码+中文字幕一区| 五月天综合网站| 岛国av一区二区三区| 国产免费一区二区三区在线视频| 五月激情综合婷婷六月久久| 国产免费av片在线播放 | 亚洲精品综合一区二区| 免费人成黄页网站在线一区二区| 国产剧情一区二区三区在线| 97在线观看视频| 男女野外做爰电影免费| 欧美国产亚洲日韩在线二区| 日韩少妇人妻一区二区| 99精品国产一区二区三区| 熟女性饥渴一区二区三区| www插插插无码视频网站| 精品日本免费观看一区二区三区| 亚洲成av人片在www鸭子| 久久99精品久久水蜜桃| 在线精品免费观看| 偷拍av一区二区三区| 丝袜美腿一区二区国产| 无码精品人妻一区二区三区人妻斩| 91av手机在线观看| 国产成人夜色在线视频观看| 日本av一区二区三区在线| 久久天天躁狠狠躁夜夜躁2014| 久久精品国产日本波多麻结衣| 久久精品国产热久久精品国产亚洲 | 亚洲AV秘 片一区二区三| 日本一区人妻蜜桃臀中文字幕| 加勒比hezyo黑人专区| 一二三四在线视频社区3| 日韩久久免费精品视频| 东京热加勒比视频一区| 亚洲精品无码久久久| 亚洲不卡av不卡一区二区|