亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        EM方法對(duì)缺失數(shù)據(jù)的處理及對(duì)MNL模型的影響

        2017-06-01 11:29:32李綱周海軍郭姝娟左忠義
        關(guān)鍵詞:原始數(shù)據(jù)偏差交通

        李綱, 周海軍, 郭姝娟,左忠義

        (1.大連交通大學(xué) 交通運(yùn)輸工程學(xué)院,遼寧 大連 116028; 2.大連海事大學(xué) 交通運(yùn)輸管理學(xué)院,遼寧 大連 116026)*

        EM方法對(duì)缺失數(shù)據(jù)的處理及對(duì)MNL模型的影響

        李綱1,2, 周海軍1, 郭姝娟2,左忠義1

        (1.大連交通大學(xué) 交通運(yùn)輸工程學(xué)院,遼寧 大連 116028; 2.大連海事大學(xué) 交通運(yùn)輸管理學(xué)院,遼寧 大連 116026)*

        以印度尼西亞首都雅加達(dá)都市圈居民個(gè)人出行調(diào)查數(shù)據(jù)為例,研究EM數(shù)據(jù)修補(bǔ)方法對(duì)數(shù)據(jù)以及MNL模型的影響.首先,以原始數(shù)據(jù)為基礎(chǔ),通過(guò)人為刪除和EM修補(bǔ)分別獲得缺失數(shù)據(jù)和修補(bǔ)數(shù)據(jù).其次,通過(guò)Z檢驗(yàn),驗(yàn)證EM修補(bǔ)后的數(shù)據(jù)更貼近原始數(shù)據(jù)特征.最后,以三組數(shù)據(jù)分別建立三組MNL模型,通過(guò)Z檢驗(yàn)等對(duì)比分析,表明EM數(shù)據(jù)修補(bǔ)方法能很好地修正數(shù)據(jù)缺失對(duì)構(gòu)建模型造成的偏差,為交通政策的制定提供良好的數(shù)據(jù)基礎(chǔ).

        數(shù)據(jù)修補(bǔ)方法;期望最大化(EM)算法;MNL模型;交通方式劃分;雅加達(dá)都市圈

        0 引言

        居民個(gè)人出行數(shù)據(jù)是城市交通規(guī)劃、設(shè)計(jì)、控制和研究工作的重要基礎(chǔ),但由于調(diào)查中的各種原因,獲得的個(gè)人出行數(shù)據(jù)通常是不完整的,這可能會(huì)給數(shù)據(jù)分析和研究結(jié)果帶來(lái)不利的影響,所以利用數(shù)據(jù)修補(bǔ)方法對(duì)其進(jìn)行矯正變得非常重要.韓衛(wèi)國(guó)[1]等人敘述了數(shù)據(jù)的缺失方式和常用的修補(bǔ)方法,根據(jù)交通流量數(shù)據(jù)時(shí)間上的周期性和空間上的相關(guān)性,采用平均值方法、最大期望法和數(shù)據(jù)增量法等確定性和隨機(jī)性方法修補(bǔ)缺失數(shù)據(jù),分析了這些方法的優(yōu)缺點(diǎn),并對(duì)修補(bǔ)結(jié)果進(jìn)行比較.鄒曉芳[2]對(duì)交通流的故障數(shù)據(jù)進(jìn)行有效識(shí)別及分析的基礎(chǔ)上,利用自適應(yīng)權(quán)重的兩階段故障數(shù)據(jù)修復(fù)組合模型,研究對(duì)故障數(shù)據(jù)進(jìn)行修復(fù)的方法.Henrickson等[3]基于鏈?zhǔn)椒匠痰亩嘀夭逖a(bǔ)對(duì)美國(guó)華盛頓州際公路車(chē)檢器缺失數(shù)據(jù)進(jìn)行處理,結(jié)果表明該方法對(duì)隨機(jī)缺失、日缺失和月缺失數(shù)據(jù)的修補(bǔ)效果均優(yōu)于傳統(tǒng)線性回歸法.目前對(duì)缺失數(shù)據(jù)修補(bǔ)方法的研究主要針對(duì)交通流檢測(cè)缺失數(shù)據(jù)展開(kāi)[4],但針對(duì)居民出行數(shù)據(jù)的修補(bǔ)仍極為有限.

        1 數(shù)據(jù)修補(bǔ)理論

        1.1 數(shù)據(jù)缺失原因

        調(diào)查中數(shù)據(jù)缺失產(chǎn)生的原因主要由兩個(gè)方面,其一是調(diào)查中由于各種因素形成的無(wú)回答,另外是在調(diào)查中得到不可使用的信息[5].

        1.2 數(shù)據(jù)缺失機(jī)制

        數(shù)據(jù)缺失機(jī)制描述的是獲取到的數(shù)據(jù)集中變量值和缺失數(shù)據(jù)之間的關(guān)系,是將缺失數(shù)據(jù)視為一個(gè)隨機(jī)變量并且有指定分布.其主要分為隨機(jī)缺失,完全隨機(jī)缺失和非隨機(jī)缺失三種形式.本文假定數(shù)據(jù)為隨機(jī)缺失[6].

        1.3 數(shù)據(jù)缺失模式

        數(shù)據(jù)缺失模式研究的主要內(nèi)容是缺失數(shù)據(jù) R 的分布.主要有單變量缺失、多變量缺失、單調(diào)缺失、任意缺失、文件匹配和因素分析六種模式[6].

        1.4 EM修補(bǔ)方法

        在統(tǒng)計(jì)上對(duì)數(shù)據(jù)缺失值的處理方法有三種:刪除法,填補(bǔ)法和不處理.刪除法對(duì)于缺失數(shù)據(jù)占較大比例時(shí)會(huì)導(dǎo)致錯(cuò)誤的結(jié)論[7];而不處理的方法對(duì)一個(gè)沒(méi)有任何認(rèn)知的總體情況下是不實(shí)用的,于是如何填補(bǔ)缺失的數(shù)據(jù)成為大量研究的對(duì)象.

        EM(expectation maximization)數(shù)據(jù)修補(bǔ)方法是以觀測(cè)數(shù)據(jù)為基礎(chǔ),利用缺失數(shù)據(jù)與未缺失數(shù)據(jù)的內(nèi)在聯(lián)系等輔助信息以及缺失值的性質(zhì),給數(shù)據(jù)集中的缺失值提供一種預(yù)測(cè)分布的方法[8].一般分為E步和M步兩個(gè)步驟:

        p(θ/Y) 表示參數(shù)θ基于觀測(cè)數(shù)據(jù)的觀測(cè)后驗(yàn)分布;p(θ/Y,Z)表示添加數(shù)據(jù)Z后的關(guān)于θ的添加后驗(yàn)分布;p(Z/θ,Y)表示在參數(shù)θ和觀測(cè)數(shù)據(jù)Y一定時(shí),數(shù)據(jù)Z的條件分布.

        假設(shè)θ(t)是經(jīng)過(guò)t次迭代之后第(t+1)步開(kāi)始時(shí)后驗(yàn)分布參數(shù)θ的估計(jì)值,則第(t+1)次的迭代為

        E步:對(duì)p(θ/Y,Z)或者logp(θ/Y,Z) 關(guān)于Z的條件分布求期望值,目的是把Z積分掉:

        (1)

        M步:將E步中積分得到的Q(θ/θ(t),Y) 極大化,即求最大值,也即尋找一個(gè)值θ(t+1),使得:

        (2)

        經(jīng)過(guò)以上的E步和M步就會(huì)形成一次迭代θ(t)→θ(t+1),θ(t+1)∈M(θ(t)),M(θ(t))是在整個(gè)參數(shù)空間內(nèi)使得Q(θ/θ(t) ,Y)取得最大值的θ的每次迭代值所組成的集合.將E步和M步一直循環(huán),直至│θ(t-1)-θ(t)│或者│Q(θ((t+1)/θ(t),Y)-Q(θ(t)/θ(t),Y)│充分小而停止循環(huán)[9].相對(duì)于多重修補(bǔ)法,EM修補(bǔ)在實(shí)際中更加容易操作[10].

        2 個(gè)人出行數(shù)據(jù)修補(bǔ)

        本次研究選擇由JICA提供的印度尼西亞首都雅加達(dá)都市圈的居民個(gè)人出行調(diào)查數(shù)據(jù)作為研究基礎(chǔ)數(shù)據(jù),對(duì)其先分別隨機(jī)刪除實(shí)際中容易出現(xiàn)缺失值的4個(gè)變量,形成缺失數(shù)據(jù),再運(yùn)用EM方法修補(bǔ)得到修補(bǔ)數(shù)據(jù),最后對(duì)三組數(shù)據(jù)進(jìn)行對(duì)比分析.

        2.1 完整數(shù)據(jù)

        原始數(shù)據(jù)包括出行者特征和出行特征共37個(gè)變量,21 157條數(shù)據(jù).

        2.2 缺失數(shù)據(jù)

        利用SPSS隨機(jī)生成功能產(chǎn)生含有缺失值的數(shù)據(jù)集,即對(duì)原始數(shù)據(jù)中的年齡、性別、私家車(chē)的出行費(fèi)用和出行時(shí)間分別隨機(jī)選擇10%,將其刪除,形成缺失數(shù)據(jù)集.缺失數(shù)據(jù)集的樣本數(shù)為13 943個(gè),缺失率為34.1%.

        2.3 修補(bǔ)數(shù)據(jù)

        根據(jù)缺失數(shù)據(jù)的特性將其分為兩部分分別進(jìn)行修補(bǔ),對(duì)出行者特性中的缺失數(shù)據(jù),即家庭收入和出行者年齡,運(yùn)用家庭類(lèi)別、家庭成員數(shù)、每月支出、交通費(fèi)用占支出比、職業(yè)、性別、個(gè)人收入變量進(jìn)行修補(bǔ).對(duì)出行特性中的缺失數(shù)據(jù),即小汽車(chē)的出行時(shí)間和費(fèi)用,利用過(guò)路費(fèi)和停車(chē)費(fèi)以及各種交通方式的出行費(fèi)用和時(shí)間進(jìn)行修補(bǔ).

        2.4 修補(bǔ)前后數(shù)據(jù)對(duì)比分析

        將完整數(shù)據(jù)、缺失數(shù)據(jù)和修補(bǔ)數(shù)據(jù)進(jìn)行比較,如表1所示:

        表1 修補(bǔ)前后數(shù)據(jù)對(duì)比分析

        從期望值可以看出修補(bǔ)數(shù)據(jù)要比缺失數(shù)據(jù)更貼近原始數(shù)據(jù),標(biāo)準(zhǔn)差也是如此,說(shuō)明修補(bǔ)數(shù)據(jù)離散度等統(tǒng)計(jì)特性比缺失數(shù)據(jù)更接近原始數(shù)據(jù).

        為更為準(zhǔn)確的驗(yàn)證數(shù)據(jù)修補(bǔ)前后的整體差異,本文采用獨(dú)立大樣本情況下的兩個(gè)總體均值之差的檢驗(yàn)方法,即Z檢驗(yàn)法對(duì)數(shù)據(jù)整體特征進(jìn)行檢驗(yàn).

        假設(shè)他們兩兩之間期望值無(wú)顯著差異, 當(dāng)兩個(gè)方差未知,分別用樣本方差替代,此時(shí)的檢驗(yàn)統(tǒng)計(jì)量為:

        (3)

        表2 修補(bǔ)前后均值Z檢驗(yàn)

        完整數(shù)據(jù)和缺失數(shù)據(jù)在變量小汽車(chē)出行費(fèi)用上Z值顯著(Z>1.96),說(shuō)明缺失對(duì)數(shù)據(jù)估計(jì)帶來(lái)的明顯偏差.缺失數(shù)據(jù)和修補(bǔ)數(shù)據(jù)在出行費(fèi)用上差異同樣顯著,但完整數(shù)據(jù)和修補(bǔ)數(shù)據(jù)均無(wú)顯著差異,這說(shuō)明EM修補(bǔ)數(shù)據(jù)對(duì)缺失數(shù)據(jù)有很好地矯正作用,相比直接刪除缺失數(shù)據(jù),能更好地反映總體特征.

        3 EM修補(bǔ)方法對(duì)MNL模型的影響

        本次研究采用出行方式劃分中的非集計(jì)多項(xiàng)Logit模型(MNL)為研究對(duì)象.MNL模型采用隨機(jī)效用理論,即假設(shè)每個(gè)出行者都會(huì)選擇效用最高的選擇肢,其效用函數(shù)由兩部分組成:

        (4)

        Unj為個(gè)人n關(guān)于選擇枝j的效用;Vnj為能夠觀測(cè)到的因素構(gòu)成的效用確定項(xiàng);εnj為不能觀測(cè)到的因素構(gòu)成的效用隨機(jī)項(xiàng).假設(shè)每一個(gè)隨機(jī)εnj項(xiàng)彼此獨(dú)立且服從Gumbel分布,則第i個(gè)選擇肢被選中的概率為:

        (5)

        Xik為交通方式i的第k個(gè)說(shuō)明要素(所需時(shí)間、費(fèi)用等);ak為待定參數(shù);j為交通方式個(gè)數(shù);Ui為交通方式i的效用函數(shù);Pi為分擔(dān)率[11].

        3.1 MNL模型的對(duì)比分析

        以原始完整數(shù)據(jù)、缺失數(shù)據(jù)和修補(bǔ)數(shù)據(jù)為基礎(chǔ),分別建立三個(gè)MNL模型,進(jìn)行參數(shù)標(biāo)定,結(jié)果如表3所示.

        表3 三組數(shù)據(jù)模型參數(shù)對(duì)比

        三個(gè)模型整體上標(biāo)定效果都很好,且整體特征大體一致.以摩托車(chē)為參照,對(duì)于公交車(chē)、小汽車(chē)和出租車(chē),這三種交通方式的常數(shù)項(xiàng)均99%顯著.相對(duì)于摩托車(chē),年齡越小的人越喜歡乘坐公交車(chē),而年齡大的人更喜歡乘坐小汽車(chē).家庭收入可以顯示出收入高的人群更愿意乘坐小汽車(chē)和出租車(chē),其次是摩托車(chē),最后是公交車(chē).

        與缺失數(shù)據(jù)模型相比,部分修補(bǔ)數(shù)據(jù)模型參數(shù)的期望值更接近原始數(shù)據(jù)模型.從標(biāo)準(zhǔn)差看,完整模型到缺失模型變量參數(shù)離散程度變大了,缺失數(shù)據(jù)修補(bǔ)后,變量參數(shù)離散程度明顯更接近原始數(shù)據(jù),反映出EM方法對(duì)模型較好的修補(bǔ)性.

        3.2 修補(bǔ)前后MNL模型參數(shù)差異性檢驗(yàn)

        從統(tǒng)計(jì)意義上對(duì)其兩兩分別進(jìn)行模型參數(shù)估計(jì)值的差異的顯著性檢驗(yàn),即Z檢驗(yàn),如表4所示.

        以完整數(shù)據(jù)建立的模型和缺失數(shù)據(jù)建立的模型參數(shù)差異皆顯著,說(shuō)明數(shù)據(jù)缺失對(duì)模型標(biāo)定已產(chǎn)生顯著性地影響,產(chǎn)生了不可忽視的偏差.修補(bǔ)數(shù)據(jù)模型和缺失數(shù)據(jù)模型在各個(gè)變量上的參數(shù)都具有顯著性差異,說(shuō)明數(shù)據(jù)修補(bǔ)對(duì)構(gòu)建MNL模型產(chǎn)生了積極的影響.修補(bǔ)模型與完整模型也存在差異,這可能是因?yàn)镋M修補(bǔ)法作為單一修補(bǔ)方式未考慮修補(bǔ)方法本身帶來(lái)的誤差.修補(bǔ)數(shù)據(jù)和原始數(shù)據(jù)的參數(shù)估計(jì)差異與缺失數(shù)據(jù)和原始數(shù)據(jù)的參數(shù)估計(jì)差異大部分方向相反,說(shuō)明EM修補(bǔ)有效地修正了缺失數(shù)據(jù)對(duì)模型估計(jì)值產(chǎn)生的偏差,修補(bǔ)趨勢(shì)是趨于接近原始數(shù)據(jù)模型的,修補(bǔ)后的參數(shù)估計(jì)的標(biāo)準(zhǔn)差也證明了這一點(diǎn).未來(lái)研究中,可以采用多重修補(bǔ)方法考慮數(shù)據(jù)修補(bǔ)所帶來(lái)的偏差.

        4 結(jié)論

        經(jīng)過(guò)對(duì)原始數(shù)據(jù)、缺失數(shù)據(jù)和修補(bǔ)數(shù)據(jù)的總體特征及以其分別建立的三個(gè)MNL模型參數(shù)的對(duì)比分析可知,在數(shù)據(jù)特征方面,EM修補(bǔ)方法對(duì)缺失數(shù)據(jù)所引起的偏差有較好的修正作用,可以在一定程度上還原原始數(shù)據(jù)的特征.比如在本文分析中,由于小汽車(chē)出行費(fèi)用值的部分缺失,導(dǎo)致了整體出行費(fèi)用均值顯著偏低,EM修補(bǔ)方法很好地對(duì)其進(jìn)行修正.數(shù)據(jù)缺失對(duì)數(shù)據(jù)的整體特征的估計(jì)產(chǎn)生顯著性的影響,EM修補(bǔ)方法對(duì)其有明顯的修正作用.

        在模型構(gòu)建方面,以缺失數(shù)據(jù)和修補(bǔ)數(shù)據(jù)所建的MNL模型的參數(shù)均與完整數(shù)據(jù)所建立的MNL模型參數(shù)有顯著性的差異,但從參數(shù)差異顯著性檢驗(yàn)統(tǒng)計(jì)量Z值來(lái)看,修補(bǔ)數(shù)據(jù)和原始數(shù)據(jù)的差異與缺失數(shù)據(jù)和原始數(shù)據(jù)的差異方向相反,說(shuō)明EM修補(bǔ)出有效地修正了缺失數(shù)據(jù)對(duì)模型估計(jì)值產(chǎn)生的偏差,修補(bǔ)趨勢(shì)是趨于貼近原始數(shù)據(jù)模型的,由此可知,數(shù)據(jù)缺失對(duì)MNL模型的參數(shù)估計(jì)產(chǎn)生顯著地偏差,而EM修補(bǔ)可以有效地緩解這一偏差.

        無(wú)論從實(shí)踐還是原理方面,相對(duì)于簡(jiǎn)單地刪除缺失數(shù)據(jù)的處理方法,EM修補(bǔ)方法可以挽救大量有價(jià)值的信息,為交通政策的制定提供良好的數(shù)據(jù)基礎(chǔ).

        [1]韓衛(wèi)國(guó),王勁峰,胡建軍.交通流量數(shù)據(jù)缺失值的插補(bǔ)方法[J].交通信息與安全,2005(1):39- 42.

        [2]鄒曉芳.城市快速路交通流故障數(shù)據(jù)修復(fù)方法研究[D].北京:北京交通大學(xué),2014.

        [3]HENRICKSONK,ZOUY,WANGY.FlexibleandRobustMethodforMissingLoopDetectorDataImputation[J].JournaloftheTransportationResearchRecord,2015(2527):29- 36.

        [4]錢(qián)超,陳建勛,羅彥斌,等.基于隨機(jī)森林的公路隧道運(yùn)營(yíng)缺失數(shù)據(jù)插補(bǔ)方法[J].交通運(yùn)輸系統(tǒng)工程與信息,2016(3):81- 87.

        [5]馮麗紅.調(diào)查數(shù)據(jù)缺失值常用修補(bǔ)方法比較的實(shí)證分析[D].石家莊:河北經(jīng)貿(mào)大學(xué),2014.

        [6]LITTLE,RUBIN.StatisticalAnalysiswithMissingData[M].NewYork:JohnWiley&Sons,Inc.,2002.

        [7]KALTONGRAHAM.CompensatingforMissingSurveyData[M].AnnArbor:SurveyResearchCenter,1983.

        [8]LIYB,LIZH,LIL.Missingtrafficdata:comparisonofimputationmethods[J].IETIntell.Transp.Syst.,2014(8)1:51- 57.

        [9]龐新生.缺失數(shù)據(jù)插補(bǔ)處理方法的比較研究[J].統(tǒng)計(jì)與決策,2012(24):18- 22.

        [10]李昌利,沈玉利.期望最大算法及其應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2008(29):61- 64.

        [11]DUSˇANTEODOROVICANDMILANJANIC.TransportationEngineering-Theory,Practice,andModeling[M].London:Butterworth-Heinemann,2016.

        EM Imputation to Missing Data and Its Effect on the MNL Model

        LI Gang1,2,ZHOU Haijun1,GUO Shujuan2,ZUO Zhongyi1

        (1.School of Traffic and Transportation Engineering,Dalian Jiaotong University,Dalian 116028,China; 2.College of Transportation Management,Dalian Maritime University,Dalian 116026,China)

        This paper explores the influences of EM imputation on data and MNL models based on personal trip data collected in Jabodetabek metropolitan area, Indonesia. First, missing dataset and imputed dataset are obtained by manually deleting the cases of complete original data and EM imputation, respectively. Secondly, dataset by EM imputation is verified to be more close to the original dataset by statisticsZtest.Finally,theanalysissuchasZtestisconductedtocomparethreeMNLmodelsbuiltonoriginaldataset,missingdatasetandimputeddataset.TheresultrevealsthatEMimputationcaneffectivelycorrectthebiascausedbymissingdatainmodelingbuilding,whichcouldofferagooddatabaseforpolicymaking.

        data imputation;expectation maximization (EM) algorithm;multinomial logit model;modal split;Jabodetabek metropolitan area

        1673- 9590(2017)03- 0007- 05

        2016- 10- 18

        中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(3132016213)

        李綱(1982-),男,高級(jí)工程師,博士,主要從事交通規(guī)劃和出行行為方面的研究E-mail:LIGangPE2012@hotmail.com.

        A

        猜你喜歡
        原始數(shù)據(jù)偏差交通
        GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
        受特定變化趨勢(shì)限制的傳感器數(shù)據(jù)處理方法研究
        繁忙的交通
        童話世界(2020年32期)2020-12-25 02:59:14
        如何走出文章立意偏差的誤區(qū)
        兩矩形上的全偏差
        小小交通勸導(dǎo)員
        全新Mentor DRS360 平臺(tái)借助集中式原始數(shù)據(jù)融合及直接實(shí)時(shí)傳感技術(shù)實(shí)現(xiàn)5 級(jí)自動(dòng)駕駛
        關(guān)于均數(shù)與偏差
        世界經(jīng)濟(jì)趨勢(shì)
        自適應(yīng)兩級(jí)UKF算法及其在時(shí)變偏差估計(jì)中的應(yīng)用
        热re99久久精品国产99热| 国产日产亚洲系列首页| 国产精品国三级国产a| 亚洲av永久无码精品一福利| 久久久久久国产精品免费免费| 色一情一乱一伦一区二区三区| 国产av一区二区三区区别| 综合久久青青草免费观看视频| 高清国产国产精品三级国产av| 国产精品美女久久久免费| 欧美亚洲色综久久精品国产| 欧美老妇与禽交| 麻豆久久久国内精品| 国产美女在线精品免费观看网址 | 精品91精品91精品国产片| 亚洲一区二区三区久久蜜桃| 国产精品欧美亚洲韩国日本| 亚洲av国产精品色a变脸| 久久精品日本不卡91| 女人脱了内裤趴开腿让男躁| 国产男女无遮挡猛进猛出| 人人妻人人澡人人爽欧美精品| 欧美老妇人与禽交| 国产人妖一区二区在线| 伊人狼人影院在线视频| 亚洲白嫩少妇在线喷水 | 国产妇女乱一性一交| а的天堂网最新版在线| 国产女主播福利一区二区| 亚洲国产精品18久久久久久| 久久久国产精品黄毛片| 人妻无码中文专区久久综合| 日产精品一区二区在线| 青青草高中生在线视频| 玩弄丰满奶水的女邻居 | 亚洲天堂精品成人影院| 亚欧色一区w666天堂| 日韩一欧美内射在线观看| 亚洲国产精品国自产拍av在线| 国产丝袜长腿美臀在线观看| 精品亚洲国产成人av色哟哟|