亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于貝葉斯推斷的EM 算法對(duì)寧波地鐵站點(diǎn)價(jià)值分級(jí)的研究

2020-03-17 00:49:48周健勇上海理工大學(xué)管理學(xué)院上海200093

物流科技 2020年2期

丁悅，周健勇（上海理工大學(xué) 管理學(xué)院，上海200093）

1 研究背景及目的

1.1 研究背景

近年來城市軌道交通處于一個(gè)持續(xù)發(fā)展的階段，它給人們的出行帶來了極大的便利。全國各地陸陸續(xù)續(xù)規(guī)劃了大量的交通線路，而地鐵線路的站點(diǎn)則是城市軌道交通線網(wǎng)中的一個(gè)關(guān)鍵節(jié)點(diǎn)，各地鐵站點(diǎn)成為了城市社會(huì)經(jīng)濟(jì)活動(dòng)中的熱點(diǎn)區(qū)域，而又因?yàn)楦鞣N類型的站點(diǎn)在城市中的區(qū)域條件、交通功能、土地利用等存在一定的差異，所以對(duì)各個(gè)站點(diǎn)進(jìn)行科學(xué)的分類，對(duì)城市功能的分區(qū)和評(píng)估城市軌道交通的建設(shè)有著重大意義。

本文對(duì)浙江省寧波市軌道交通的地鐵站點(diǎn)進(jìn)行抽樣分級(jí)研究。寧波是中國大陸第21 個(gè)開通軌道交通的城市，截止到2019年7 月份，共有線路3 條，總長91 千米，第一條線路于2014 年5 月30 日開通運(yùn)營，未來運(yùn)營的路段將會(huì)接二連三開通。但是為了使地鐵站點(diǎn)的利用價(jià)值更高，根據(jù)站點(diǎn)屬性和周邊情況，解決站點(diǎn)與客流不相匹配的問題，需要對(duì)站點(diǎn)的分級(jí)進(jìn)行合理的優(yōu)化，使得軌道交通的建設(shè)有更充分的意義。

縱觀我國國內(nèi)的站點(diǎn)分級(jí)現(xiàn)狀，分級(jí)體系由來已久，也各有千秋。分級(jí)大體上可以總結(jié)為3 類，第一，以分時(shí)段客流量為指標(biāo)；第二，以客流屬性和周邊環(huán)境服務(wù)為指標(biāo)；第三，以它的地理位置和交通組織為指標(biāo)?；谶@些指標(biāo)，國內(nèi)研究者大多數(shù)是通過實(shí)地調(diào)研數(shù)據(jù)的方法進(jìn)行分級(jí)，而隨著數(shù)據(jù)挖掘的日趨成熟，可以通過更多的方式獲取數(shù)據(jù)，使其更多的應(yīng)用于城市空間中。而且國內(nèi)對(duì)于站點(diǎn)分級(jí)的標(biāo)準(zhǔn)至今也未達(dá)成統(tǒng)一的共識(shí)，有的是將站點(diǎn)劃分成4 個(gè)等級(jí)；有的是將站點(diǎn)劃分成區(qū)域?qū)蛐?；有的是劃分成區(qū)域；有的是按照職能劃分等。

從國外對(duì)于地鐵站點(diǎn)分級(jí)的研究現(xiàn)狀來看，他們大都是以城市站點(diǎn)為研究對(duì)象，郊區(qū)只作為其中的子類，一般是根據(jù)車站形式、客流量、服務(wù)區(qū)域等開放的空間場所特性為指標(biāo)去給站點(diǎn)分級(jí)，比如韓國的首爾是從客流量去分析站點(diǎn)尺度；日本的東京將地鐵站分為市區(qū)和郊區(qū)，再根據(jù)不同指標(biāo)給站點(diǎn)進(jìn)行分類等。在這些研究中，很多因素以及差異性受到了忽略，缺乏很多定量的標(biāo)準(zhǔn)。

1.2 研究目的

本文基于前輩研究的基礎(chǔ)上，將浙江省寧波市地鐵的64 個(gè)站點(diǎn)，根據(jù)站點(diǎn)基礎(chǔ)、實(shí)際客流、周邊情況等因素提取8 個(gè)主要指標(biāo)，采用貝葉斯推斷的EM 算法對(duì)主要指標(biāo)進(jìn)行聚類分析，并將站點(diǎn)科學(xué)地分為居住導(dǎo)向型、商業(yè)導(dǎo)向型、就業(yè)導(dǎo)向型3種類型，將每個(gè)站點(diǎn)賦予各個(gè)類型百分比。解決了之前單一的分級(jí)方法，這樣可以獲得更合理的結(jié)果，也能更好地對(duì)站點(diǎn)進(jìn)行價(jià)值評(píng)級(jí)，促進(jìn)城市軌道交通更好的發(fā)展；也為寧波市廣告、通信、商業(yè)、TOD 的長遠(yuǎn)發(fā)展奠定了理論依據(jù)和參考價(jià)值。

2 算法介紹

2.1 EM 算法概述

EM 算法最早是Dempster、Laird 和Rubin 在1977 年提出的，通常是在數(shù)據(jù)不完備的靜態(tài)數(shù)據(jù)模型中的期望最大化算法，簡稱EM 算法，是計(jì)算模型參數(shù)的最大似然估計(jì)值。EM 算法本質(zhì)上是一種迭代算法，是根據(jù)上一步估計(jì)出的參數(shù)值來猜測隱變量最可能的值，再用猜測的值作為隱變量的值，重新估計(jì)參數(shù)的值，反復(fù)迭代計(jì)算，直至收斂，也就是似然函數(shù)值達(dá)到最大。每一次迭代都能保證似然函數(shù)值增加，并且收斂到一個(gè)極大值。它的每一次迭代包括兩步：第一步求期望，稱為E 步；第二步求極大值，稱為M 步。EM 算法以及它的改進(jìn)版本常常被用于機(jī)器學(xué)習(xí)算法的參數(shù)求解，包括高斯混合模型、概率主成分分析、隱馬爾可夫模型等，用于解決數(shù)據(jù)缺失的問題。比如營銷流程的管理、客流人群的篩選、圖像分割、醫(yī)學(xué)中的動(dòng)物意外死亡、記錄儀器發(fā)生故障、被調(diào)查者拒絕回答相關(guān)調(diào)查項(xiàng)目等。

2.2 符號(hào)的定義

本文對(duì)算法中的符號(hào)定義如表1 所示：

表1

2.3 構(gòu)造似然函數(shù)

EM 算法給定相互獨(dú)立的數(shù)據(jù)X=｛X1，…，Xn｝和含有隱變量Z和參數(shù)θ 的概率模型f（X，Z，θ ），根據(jù)極大似然估計(jì)理論，θ 的最優(yōu)估計(jì)在似然取極大值時(shí)得出θ如果考慮表示缺失數(shù)據(jù)的隱變量，則：

以離散為例，用極大似然估計(jì)的方法對(duì)上式取自然對(duì)數(shù)：

引入隱分布q（Z），將對(duì)數(shù)似然：

當(dāng)右側(cè)取全局極大值時(shí)，θ 至少使左側(cè)取局部極大值，右側(cè)表示為L（θ，q）后，則求解目標(biāo)為其中L（θ，q）是似然優(yōu)化估計(jì)的下限，EM 算法它的下限逼近對(duì)數(shù)似然的極大值。

2.4 傳統(tǒng)的EM 算法

傳統(tǒng)的EM 算法是一種迭代求精算法，它主要是由期望步和最大化步構(gòu)成，最基本的思想是先估計(jì)出缺失數(shù)據(jù)的初值，再計(jì)算模型參數(shù)的值，然后再不斷迭代E 步和M 步，不斷更新，直至收斂。它的具體步驟如下：隨機(jī)選擇K個(gè)對(duì)象代表簇的中心，以此猜測其他數(shù)據(jù)；不斷執(zhí)行E 步和M 步直至收斂。

（1） E 步

（2） M 步

2.5 貝葉斯推斷的EM 算法

在極大似然估計(jì)理論下，EM 算法隨機(jī)選擇對(duì)象作為簇的中心，只能給出參數(shù)θ 的單點(diǎn)估計(jì)，導(dǎo)致聚類的不穩(wěn)定，以及邊緣數(shù)據(jù)對(duì)算法影響過大，使得結(jié)果輸出的正確率偏低。當(dāng)引入貝葉斯推斷的方法后，能夠解決分布過度擬合的問題，首先對(duì)數(shù)據(jù)源進(jìn)行分類，將分類結(jié)果作為使用范圍，在每個(gè)類中反復(fù)執(zhí)行E 步和M 步，直到收斂為止，充分利用EM 算法容易到達(dá)局部最優(yōu)的點(diǎn)，使其更好的聚類，更快的收斂，得到更準(zhǔn)確的數(shù)據(jù)填充值，在此基礎(chǔ)上，引入P（θ|m），此時(shí)離散形式表示為：

考慮隱分布q Z，（）

θ 后，可得隱變量的自由能：

第二步：把結(jié)果作為新的數(shù)據(jù)集，在這些數(shù)據(jù)集中分別使用EM 算法計(jì)算期望最大值。E 步是用P（XLi∈CLiK）分別將Li中的XLi派到CLiK中。M 步是用之前得到的概率重新計(jì)算模型參數(shù)當(dāng)算法收斂之后，用mLiK作為Li中k的最大化值，并用這個(gè)值填充缺失數(shù)字。

2.6 算法的實(shí)例

為了更好地說明此算法的應(yīng)用，下面舉一個(gè)二維指標(biāo)的實(shí)例進(jìn)行詳細(xì)說明。首先構(gòu)造1 000 個(gè)二維隨機(jī)變量x1，x2，…，x1000，其中Xi=（ui，vi），i=1，2，…，1 000，且是由3 個(gè)高斯分布混合而成的。選取2 個(gè)指標(biāo)分別于x軸、y軸，結(jié)果導(dǎo)向類型為3 種。

原始分布如圖1（所有二維隨機(jī)變量處于一個(gè)離散狀態(tài)且有向3 個(gè)方向聚類的趨勢(shì)）：

經(jīng)過EM 算法運(yùn)行后分布如圖2 至圖4 所示：

圖1

圖2 初始圖

圖3 中間圖

圖4 結(jié)果圖

經(jīng)過EM 算法不斷運(yùn)行迭代，分布圖逐漸會(huì)趨于一個(gè)收斂的狀態(tài)，此時(shí)將其結(jié)果輸出。在這個(gè)例子中，3 個(gè)樣本的3 次結(jié)果導(dǎo)向類型的百分比數(shù)據(jù)見表2，可見這3 個(gè)樣本逐漸走向同一個(gè)趨勢(shì)，因?yàn)楦髯越Y(jié)果百分比也是逐漸收斂，此時(shí)將每個(gè)樣本的結(jié)果數(shù)據(jù)輸出，得到各個(gè)類型百分比。然后根據(jù)的百分比結(jié)果，結(jié)合具體應(yīng)用再分析。

表2 其中3 個(gè)同類別樣本輸出的數(shù)據(jù)

3 實(shí)驗(yàn)過程及結(jié)果分析

3.1 主要指標(biāo)數(shù)據(jù)

基于寧波軌道交通地鐵站點(diǎn)的現(xiàn)狀，本文對(duì)寧波地鐵64 個(gè)站點(diǎn)進(jìn)行深入的分級(jí)研究。綜合軌道交通站點(diǎn)的現(xiàn)狀和一些文獻(xiàn)研究的基礎(chǔ)上，本文從站點(diǎn)基礎(chǔ)、實(shí)際客流、周邊情況等方面提取了8 個(gè)主要指標(biāo)進(jìn)行評(píng)級(jí)研究，分別是早高峰真實(shí)客流進(jìn)出比、客流偏度、客流高峰小時(shí)系數(shù)、客流時(shí)段分布均衡系數(shù)、周邊居民區(qū)數(shù)量、周邊公交數(shù)量、周邊商場人流量、周邊寫字樓數(shù)量。表3 為其中12 個(gè)站點(diǎn)的指標(biāo)數(shù)據(jù)。

表3 某中一些站點(diǎn)的指標(biāo)數(shù)據(jù)

客流偏度是數(shù)據(jù)分布形態(tài)的量，表示總體取值分布的對(duì)稱性，其需與正態(tài)分布作比較，當(dāng)客流偏度為0 時(shí)，數(shù)據(jù)分布形態(tài)和正態(tài)分布的偏斜程度相同；當(dāng)客流偏度大于0 時(shí)，右偏；當(dāng)客流偏度小于0 時(shí)，左偏。

客流高峰小時(shí)系統(tǒng)數(shù)P的定義為：P=Qi/Qd。其中，Qi表示第i小時(shí)的客流量；Qd表示全天的客流量；P的最大值即為客流高峰小時(shí)系數(shù)。

客流時(shí)段分布均衡系數(shù)U的定義為：U=G/H。其中，G表示高峰時(shí)間段的小時(shí)平均客運(yùn)量；H表示平峰時(shí)間段的小時(shí)平均客運(yùn)量；當(dāng)U＞2 時(shí)，表示很不均衡；當(dāng)1.6≤U≤2 時(shí)，不均衡；當(dāng)U＜1.6 時(shí)，較均衡。

3.2 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理就是對(duì)數(shù)據(jù)進(jìn)行規(guī)范化的處理，以便于接下來進(jìn)行數(shù)據(jù)挖掘的工作。當(dāng)從不同維度去評(píng)價(jià)指標(biāo)時(shí)，往往呈現(xiàn)的結(jié)果在數(shù)據(jù)值上的差異性非常大，如果沒有數(shù)據(jù)預(yù)處理的過程，則會(huì)對(duì)后續(xù)的數(shù)據(jù)分析有一定的影響。一般的預(yù)處理就是將數(shù)據(jù)按照一定的比例放縮，使其維持在一個(gè)特定的數(shù)值區(qū)間內(nèi)。在某些指標(biāo)處理中經(jīng)常會(huì)用到，去除數(shù)據(jù)的單位限制，將其轉(zhuǎn)化為無量綱的純數(shù)值，便于不同單位或量級(jí)的指標(biāo)能夠進(jìn)行比較和加權(quán)。

z-score標(biāo)準(zhǔn)化：

標(biāo)準(zhǔn)分?jǐn)?shù)也叫z分?jǐn)?shù)，它是一個(gè)分?jǐn)?shù)與平均數(shù)的差再除以標(biāo)準(zhǔn)差的過程。用公式表示為：z= x-（）

μ /σ。其中：x為某一具體分?jǐn)?shù)，μ 為平均數(shù)，σ 為標(biāo)準(zhǔn)差。z值的量代表著原始分?jǐn)?shù)和母體平均值之間的距離，是以標(biāo)準(zhǔn)差為單位計(jì)算。在原始分?jǐn)?shù)低于平均值時(shí)z為負(fù)數(shù)，反之則為正數(shù)。

標(biāo)準(zhǔn)差計(jì)算公式：

假設(shè)有一組數(shù)值X1，X2，X3，…，Xn（實(shí)數(shù)），其平均值為μ，標(biāo)準(zhǔn)差公式為：它是一組數(shù)據(jù)平均值分散程度的度量，一個(gè)大的標(biāo)準(zhǔn)差，代表大部分?jǐn)?shù)值和平均值間差異大；一個(gè)小的標(biāo)準(zhǔn)差，代表這些數(shù)值較接近平均值。

表4 為其中12 個(gè)站點(diǎn)的指標(biāo)數(shù)據(jù)預(yù)處理結(jié)果。

表4 數(shù)據(jù)預(yù)處理的結(jié)果

3.3 聚類過程

聚類分析是應(yīng)用最廣泛的一種分類技術(shù)，它把性質(zhì)相近的個(gè)體歸為一類，使得同一類中的個(gè)體具有高度的同質(zhì)性，不同類之間的個(gè)體具有高度的異質(zhì)性。聚類分析的職能是建立一種分類方法，它是將一批樣品或變量，按照它們?cè)谛再|(zhì)上的相似程度進(jìn)行分類。

本文采用貝葉斯推斷的EM 算法對(duì)站點(diǎn)進(jìn)行評(píng)級(jí)分析，將8 個(gè)指標(biāo)聚合成兩類，分別為客流情況和周邊情況，去除掉一個(gè)影響小的指標(biāo)，由此每個(gè)類別中算出3 個(gè)重要指標(biāo)，進(jìn)而采用EM 算法分別對(duì)兩類指標(biāo)進(jìn)行聚類分析，不斷迭代，當(dāng)數(shù)據(jù)趨于收斂時(shí)，將所有站點(diǎn)的結(jié)果類型各個(gè)百分比輸出。

下面分別是根據(jù)第一類、第二類指標(biāo)聚類的12 個(gè)站點(diǎn)樣本的數(shù)據(jù)展示，如表5、表6 所示。

表5 第一類指標(biāo)的數(shù)據(jù)輸出

3.4 實(shí)驗(yàn)結(jié)果

圖5、圖6 分別是根據(jù)第一類、第二類指標(biāo)聚類的所有站點(diǎn)的三維聚類效果圖。

本次實(shí)驗(yàn)對(duì)寧波的64 個(gè)站點(diǎn)進(jìn)行了研究，由于站點(diǎn)數(shù)量有限，聚類的結(jié)果不是特別明顯，但是根據(jù)兩類指標(biāo)的聚類結(jié)果，得出了每個(gè)站點(diǎn)在3 種結(jié)果導(dǎo)向型中各自的百分比，2 種結(jié)果雖然百分比的數(shù)字不同，但是都是有著各自的指向型。根據(jù)結(jié)果將所有站點(diǎn)聚成6 類，第一類商業(yè)導(dǎo)向型，如東門口、外灘大橋、城隍廟、寧波火車站等；第二類居住導(dǎo)向型，如澤民、五鄉(xiāng)、云霞路等；第三類就業(yè)導(dǎo)向型，如海晏北路、南部商務(wù)區(qū)、世紀(jì)大道等；第四類商業(yè)、居住導(dǎo)向型，如櫻花公園、舟孟北路等；第五類商業(yè)、就業(yè)導(dǎo)向型，如福明路、江廈橋東等；第六類就業(yè)、居住導(dǎo)向型，如藕池、寧波大學(xué)、孔浦等。

表6 第二類指標(biāo)的數(shù)據(jù)輸出

圖5 所有站點(diǎn)聚類的三維圖

圖6 所有站點(diǎn)聚類的三維圖

4 結(jié) 論

城市軌道交通的發(fā)展為寧波市的長遠(yuǎn)規(guī)劃打下了基礎(chǔ)，使得城市框架更加平衡，將全市6 個(gè)區(qū)緊密聯(lián)系起來，解決了交通污染的問題，方便了人們的日常出行，也避免采用限牌的策略。本文采用了貝葉斯推斷的EM 算法對(duì)寧波市64 個(gè)地鐵站點(diǎn)進(jìn)行分級(jí)。研究表明：（1） EM 算法具有一定的局限性，當(dāng)指標(biāo)過多，或者是數(shù)據(jù)缺失的時(shí)候，不能很好地進(jìn)行數(shù)據(jù)處理，當(dāng)我們采用貝葉斯推斷后，可以先將指標(biāo)進(jìn)行分類，根據(jù)不同類別，輸出結(jié)果，再進(jìn)行分析。（2）根據(jù)聚類分析輸出的結(jié)果數(shù)據(jù)可知，本文可以將寧波所有地鐵站點(diǎn)分為6 大類：居住導(dǎo)向型；就業(yè)導(dǎo)向型；商業(yè)導(dǎo)向型；商業(yè)、居住導(dǎo)向型；商業(yè)、就業(yè)導(dǎo)向型；就業(yè)、居住導(dǎo)向型，也證實(shí)了貝葉斯推斷的EM 算法在處理此類交通指標(biāo)數(shù)據(jù)問題方面的有效性。（3）對(duì)于地鐵站點(diǎn)的價(jià)值研究也是一個(gè)不斷探索的過程，隨著指標(biāo)的增多、城市的發(fā)展、地鐵線路的增加以及數(shù)據(jù)處理技術(shù)的革新，對(duì)站點(diǎn)的研究也會(huì)處于一個(gè)不斷優(yōu)化的過程中。而本文研究主要是為了對(duì)目前的站點(diǎn)進(jìn)行更加科學(xué)地分級(jí)，為城市軌道交通的下一步研究奠定了理論依據(jù)；促進(jìn)了廣告、通信、商業(yè)和新經(jīng)濟(jì)的發(fā)展；有助于進(jìn)一步了解城市空間格局和社會(huì)特征。

物流科技2020年2期

物流科技的其它文章: 《汽車維護(hù)與保養(yǎng)》微課設(shè)計(jì)與開發(fā)探討; 理念導(dǎo)向的教學(xué)模式探索與實(shí)踐
——以交通運(yùn)輸類《智能交通系; 國內(nèi)外物聯(lián)網(wǎng)技術(shù)在供應(yīng)鏈中的應(yīng)用與展望; 5G 賦能車聯(lián)網(wǎng)供應(yīng)鏈的研究; 杭州都市圈背景下黃山市現(xiàn)代物流業(yè)發(fā)展對(duì)策研究; 物流專業(yè)研究生學(xué)習(xí)投入、自我效能感與學(xué)習(xí)績效的關(guān)系研究