錢劍培,邵春福*,李 軍,2,蔡 楠,黃士琛
(1.北京交通大學(xué)綜合交通運(yùn)輸大數(shù)據(jù)應(yīng)用技術(shù)交通運(yùn)輸行業(yè)重點(diǎn)實(shí)驗(yàn)室,北京100044;2.中國交通通信信息中心交通運(yùn)輸信息化標(biāo)準(zhǔn)研究所,北京100011;3.南通市規(guī)劃設(shè)計(jì)院有限公司,江蘇南通226004)
Gong[4]指出現(xiàn)有工作可分為基于規(guī)則的方法、概率方法和機(jī)器學(xué)習(xí)3 類,其中,機(jī)器學(xué)習(xí)日益成為主流.一般研究多從個(gè)體單次出行視角出發(fā),基于單日數(shù)據(jù)挖掘個(gè)體人口統(tǒng)計(jì)[5]、出行時(shí)間[6]、目的地[7]等特征與出行目的潛在關(guān)系.Allahviranloo[8]從個(gè)體出行序列視角出發(fā),考慮前后活動(dòng)類型的次序信息.上述方法同屬于有監(jiān)督分類,參數(shù)標(biāo)定需要輔以回訪調(diào)查,以提供真實(shí)出行目的.為在標(biāo)簽缺失場景下實(shí)現(xiàn)出行目的推斷,Han[9]考慮其在出行鏈中的轉(zhuǎn)換模式,將隱含狀態(tài)解釋為出行目的,得到的結(jié)果與經(jīng)驗(yàn)相符.Wang[10]引入隱含狄利克雷分配(Latent Dirichlet Allocation,LDA),對(duì)起訖點(diǎn)周邊興趣點(diǎn)聚類,得到若干主題,并將主題隱含語義與出行目的建立聯(lián)系.LDA 主題模型已在諸多交通問題中得到應(yīng)用,作為無監(jiān)督方法,可以充分發(fā)揮海量數(shù)據(jù)對(duì)復(fù)雜行為模式的發(fā)現(xiàn)作用,突破將出行活動(dòng)人為預(yù)設(shè)為幾種規(guī)律性較強(qiáng)目的之局限.
上述研究面向的是市內(nèi)居民日常出行,對(duì)于復(fù)雜的城際旅客出行,由于獲取的票務(wù)數(shù)據(jù)等只能追蹤上下車站點(diǎn),無法沿用目的地空間信息和活動(dòng)持續(xù)時(shí)間等特征.Janzen[11]提取頻率和工作日占比等歷史經(jīng)驗(yàn)特征識(shí)別出4類目的;基于城際出行常見的結(jié)伴現(xiàn)象,Lu[12]引入成員人數(shù)、兒童及成年人比例等團(tuán)體特征;Lin[13]考慮到成員信息中隱含社會(huì)網(wǎng)絡(luò)關(guān)系,提出“同行網(wǎng)絡(luò)”的概念,并引入復(fù)雜網(wǎng)絡(luò)指標(biāo)區(qū)分商務(wù)及旅游團(tuán).
本文面向城際團(tuán)體旅客,考慮歷史經(jīng)驗(yàn)和結(jié)伴現(xiàn)象等特征,基于LDA 框架推斷出行目的.首先,在LDA中嵌入出發(fā)時(shí)間生成模塊,為推斷提供額外信息并間接驗(yàn)證模型有效性;其次,提出團(tuán)體旅客重建和語義化特征設(shè)計(jì)方法,通過計(jì)算特征共現(xiàn)得到主題聚類;再次,結(jié)合主題特征分布和出發(fā)時(shí)間分布標(biāo)注出行目的;最后,利用票務(wù)數(shù)據(jù)對(duì)不同區(qū)域道路客運(yùn)團(tuán)體旅客出行目的構(gòu)成及出行量演化影響因素開展案例研究.
采用LDA框架推斷出行目的關(guān)鍵在于將團(tuán)體旅客出行決策過程與文本主題生成過程類比.LDA本質(zhì)是包含文檔—主題生成過程和主題—詞生成過程的概率圖模型.有別于監(jiān)督學(xué)習(xí)或聚類模型根據(jù)詞計(jì)算損失或距離函數(shù),LDA 通過直接計(jì)算不同主題下詞共現(xiàn)規(guī)律,即主題—詞分布實(shí)現(xiàn)主題聚類,同時(shí)得到每個(gè)文檔主題分布.
受“同行網(wǎng)絡(luò)”[13]啟發(fā),由于出行目的影響出行決策,不同出行目的將導(dǎo)致同行網(wǎng)絡(luò)中產(chǎn)生不同成員組合.基于該視角,將文檔、主題和詞延伸為團(tuán)體旅客(簡稱:團(tuán)體),出行目的(標(biāo)注前仍稱主題)和個(gè)體特征(簡稱:特征).由于特征可直接觀察,只要能夠識(shí)別同屬一個(gè)團(tuán)體的成員,即可以通過特征共現(xiàn)規(guī)律反推出行決策中對(duì)成員的選擇是基于何種出行目的.
LDA 中主題標(biāo)注依賴于主題—詞分布.考慮到成員特征各異,團(tuán)體具有統(tǒng)一出發(fā)時(shí)間,而兩者均與出行目的相關(guān),因此,在LDA框架內(nèi)嵌入出發(fā)時(shí)間生成模塊,將主題—詞分布的外延擴(kuò)展為主題—特征分布及主題—出發(fā)時(shí)間分布,共同為出行目的標(biāo)注提供信息.使用“盤子表示法”描述主題、特征及出發(fā)時(shí)間生成過程,如圖1所示.
圖1 嵌入出發(fā)時(shí)間的主題模型生成過程Fig.1 Generation process of topic model with start time embedded
假設(shè)主題數(shù)為K,團(tuán)體數(shù)為M,團(tuán)體m中第n個(gè)特征為wm,n,共Nm個(gè),出發(fā)時(shí)間為tm.圖1中,兩個(gè)觀察變量wm,n和tm均由隱變量主題k決定.首先對(duì)主題采樣,特征wm,n對(duì)應(yīng)主題記作k=zm,n,出發(fā)時(shí)間tm對(duì)應(yīng)主題,兩者服從同一個(gè)多項(xiàng)式分布,記為Multi(θm),假設(shè)分布參數(shù)θm服從先驗(yàn)參數(shù)為α的狄利克雷分布Diri(α).得到各自主題后對(duì)wm,n和tm采樣,wm,n有V個(gè)取值,任意v服從Multi(φk),假設(shè)分布參數(shù)φk服從先驗(yàn)參數(shù)為β的分布Diri(β);tm有L個(gè)取值,任意l服從Multi(ψk),假設(shè)分布參數(shù)ψk服從先驗(yàn)參數(shù)為γ的分布Diri(γ).將wm,n和tm對(duì)應(yīng)的觀察變量樣本集合記為W和T,對(duì)應(yīng)的隱變量樣本集合記為Z和Z′.
但是,在教學(xué)過程中,學(xué)生對(duì)中藥標(biāo)本利用率不高,存在以下問題:(1)不能較好地保管中藥實(shí)物,因?yàn)橹兴幑逃械淖匀粚傩?,學(xué)生不知道怎么保存,常有學(xué)生課上用完、課后就扔;(2)有的學(xué)生雖然將實(shí)物保存起來,但因保存方法不對(duì),很快就會(huì)變質(zhì),加之學(xué)生嫌臟怕麻煩,課余時(shí)間也很少拿出來用;(3)在課后復(fù)習(xí)時(shí)學(xué)生也常拿出實(shí)物使用,但由于缺乏好的學(xué)習(xí)方法,常??催^即忘,學(xué)習(xí)效果不佳。
鑒于存在隱變量,采用馬爾可夫蒙特卡洛模擬中的吉布斯采樣算法(Gibbs Sampling)進(jìn)行參數(shù)估計(jì).算法核心是根據(jù)觀察變量和隱變量的聯(lián)合分布構(gòu)造完全條件概率,進(jìn)行J輪隨機(jī)采樣,在滿足馬爾科夫鏈?zhǔn)諗慷ɡ淼那疤嵯履M真實(shí)分布.根據(jù)貝葉斯定理,zm,n和的完全條件概率分別為
式中:下標(biāo)i=(m,n);?i(或?m)為當(dāng)前采樣維度i(或m)以外的維度,不同維度間采樣過程相互獨(dú)立;和為當(dāng)前主題k中特征和出發(fā)時(shí)間的計(jì)數(shù)值;和為當(dāng)前團(tuán)體m中特征和出發(fā)時(shí)間對(duì)應(yīng)主題k的計(jì)數(shù)值.
由于多項(xiàng)式分布Multi(θm)、Multi(φk)、Multi(ψk)均與其先驗(yàn)狄利克雷分布Diri(α)、Diri(β)、Diri(γ)構(gòu)成共軛分布,因此,參數(shù)θm、φk和ψk對(duì)應(yīng)的后驗(yàn)分布服從狄利克雷分布,其中,上標(biāo)為k、v、l的參數(shù)采用極大似然法估計(jì),即
基于式(5),給定新的團(tuán)體,假設(shè)特征為,則出發(fā)時(shí)間的后驗(yàn)概率可以在主題分布預(yù)測結(jié)果基礎(chǔ)上計(jì)算,即
算法流程如圖2所示.
圖2 Gibbs 采樣算法流程Fig.2 Flowchart of parameter estimation by Gibbs sampling
采用經(jīng)脫敏的北京市省際道路客運(yùn)實(shí)名制聯(lián)網(wǎng)售票數(shù)據(jù)(簡稱:票務(wù)數(shù)據(jù)),包含2014—2018年3月出京購票記錄.其中:實(shí)名制信息僅保留旅客辨識(shí)碼、年齡和性別;其余所用字段包括檢票日期、班次號(hào)、下單時(shí)間及目的地編號(hào),旅客發(fā)送量年平均降低13.6%.選取目的地為山西省的樣本進(jìn)行案例研究,包含1 047 520 名旅客,共1 944 241條出行記錄.
結(jié)伴出行通常由1人購買所有車票,故將具有一致毫秒級(jí)下單時(shí)間和班次號(hào)的2 名及以上旅客判定為團(tuán)體旅客.利用上述算法共識(shí)別出320 474個(gè)團(tuán)體,占所有記錄的38.4%.主題模型采用詞袋式特征,利用前述7 個(gè)字段提取3 類信息,計(jì)算成員特征后作離散化處理,使每個(gè)取值具有獨(dú)立語義,結(jié)果如表1所示(刪除少量相對(duì)特定出行目的傾向性不強(qiáng)的取值).其中,“年齡—性別二元組合”表示旅客社會(huì)關(guān)系,“上下文”衡量旅客關(guān)于某個(gè)目的地的歷史經(jīng)驗(yàn),“潛在同伴數(shù)”借鑒復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)度的概念,表征同行網(wǎng)絡(luò)規(guī)模.將出發(fā)時(shí)間分為6種:春運(yùn)、節(jié)假日、周末、工作日、暑運(yùn)周末及暑運(yùn)工作日.
表1 特征設(shè)計(jì)及描述Table 1 Feature design and description
為驗(yàn)證主題模型相較于既有方法在出行目的推斷中的優(yōu)勢,于2020年1月依托某互聯(lián)網(wǎng)平臺(tái)實(shí)施面向道路客運(yùn)團(tuán)體旅客的出行調(diào)查.其中,出行目的劃分為公務(wù)商務(wù)、放假返鄉(xiāng)、旅游休閑及一般私務(wù);其余問項(xiàng)參照票務(wù)數(shù)據(jù)所含信息進(jìn)行設(shè)計(jì).調(diào)查共獲得540 份有效數(shù)據(jù)(簡稱:調(diào)查數(shù)據(jù)),上述4 類出行目的分別占12.2%、34.4%、39.3%及14.1%.
按70%和30%將調(diào)查數(shù)據(jù)劃分為訓(xùn)練集和測試集,選取神經(jīng)網(wǎng)絡(luò)(ANN)和梯度提升決策樹(GBDT)作為基準(zhǔn)模型.為反映樣本分布不平衡條件下分類性能,采用受試者特征曲線下方面積(AUC)評(píng)價(jià),如表2所示.
表2 基于AUC 值的模型對(duì)比Table 2 Model comparison using AUC values
ANN和GBDT等監(jiān)督學(xué)習(xí)方法雖然能較好識(shí)別公務(wù)商務(wù)等目的,但對(duì)出行特征典型性較差的一般私務(wù)近似隨機(jī)猜測(AUC為0.500);相比而言,嵌入出發(fā)時(shí)間的主題模型分類效果更均衡,且除放假返鄉(xiāng)外均優(yōu)于基準(zhǔn)模型.
超參數(shù)K決定聚類精細(xì)程度.主題模型多以困惑度衡量最優(yōu)K值:困惑度越小,對(duì)下一特征預(yù)測不確定程度越低,聚類效果越好.由于模型具備對(duì)出發(fā)時(shí)間預(yù)測能力,而這一能力強(qiáng)弱取決于聚類效果,故綜合困惑度及預(yù)測精度確定K值,并間接驗(yàn)證聚類效果.由式(6),以概率最高1 項(xiàng)和前2項(xiàng)出發(fā)時(shí)間作為輸出,對(duì)應(yīng)精度記為p1和p2.如圖3所示.
當(dāng)K=50 時(shí),p1和p2同時(shí)取最大值,即0.638和0.909;困惑度隨K增加而降低,在K<35 時(shí),下降較快,此后趨于平緩.為避免K過大時(shí)泛化能力不足,取K=50.
為縮短訓(xùn)練時(shí)間,取20%的票務(wù)數(shù)據(jù)訓(xùn)練模型.Gibbs 算法經(jīng)歷J輪采樣完成老化過程后,按式(4)和式(5)計(jì)算,得到每個(gè)主題特征分布和出發(fā)時(shí)間分布,綜合兩者完成主題標(biāo)注.過程及結(jié)果如圖4所示.
圖4中,左側(cè)樹狀圖將50 個(gè)主題分層聚類并標(biāo)注為5種主要、9種次要類型出行目的,下方括號(hào)內(nèi)數(shù)字為基于剩余80%數(shù)據(jù)得到的對(duì)應(yīng)團(tuán)體比例,任意團(tuán)體m賦予唯一主題k=arg max;中間柱狀圖為每個(gè)主題特征分布;簡化起見,右側(cè)條形圖僅列舉主要類型中1 個(gè)典型主題的出發(fā)時(shí)間分布和最主要8項(xiàng)特征的取值概率.
圖3 不同主題數(shù)取值情況下模型困惑度及出發(fā)時(shí)間預(yù)測精度Fig.3 Perplexity and precision of start time prediction in case of different values of K
圖4 出行目的推斷結(jié)果Fig.4 Result of trip purpose inference
如圖4所示,將青壯年為主且出行頻率較高或出行間隔較短,出發(fā)時(shí)間多為工作日的主題標(biāo)注為公務(wù)商務(wù);具有初次出行時(shí)間較早、多次等特征,且以春運(yùn)和節(jié)假日為主的出行標(biāo)注為放假返鄉(xiāng);此前從未去過概率較高,且以節(jié)假日或暑運(yùn)為主的出行標(biāo)注為旺季旅游.不滿足以上3類典型特征的出行標(biāo)注為一般私務(wù).有2 種例外情況,其一以老年夫婦結(jié)伴1年以上為特征,標(biāo)注為探親訪友;其余被識(shí)別為非常規(guī)模式.主題17 和31 反映多人持續(xù)1年以上僅在暑運(yùn)的頻繁出行,主題30和42 反映最短間隔為1 個(gè)月且持續(xù)1年以上僅在節(jié)假日的頻繁出行.因此,放假返鄉(xiāng)和旅游休閑是北京—山西道路客運(yùn)團(tuán)體主要出行需求,占比大約為30%;一般私務(wù)和公務(wù)商務(wù)占比較低,非常規(guī)模式為7.3%.
計(jì)算詹森-香農(nóng)散度(JS)比較訓(xùn)練集與測試集的主題分布得知,JS 為0.000 15,表明訓(xùn)練結(jié)果具有極強(qiáng)的可靠性.
2012年底,北京—太原高鐵通車;2014年7月,太原—西安高鐵通車.考慮高鐵開通時(shí)序,將目的地區(qū)、縣分為3類,即先開通區(qū)域(太原),后開通區(qū)域(晉西南)和未開通區(qū)域.對(duì)比各區(qū)域出行目的構(gòu)成情況,如圖5所示.
圖5 3 類區(qū)域出行目的構(gòu)成對(duì)比Fig.5 Comparison of trip purpose configuration in three areas
先開通及后開通區(qū)域出行目的構(gòu)成相似,表現(xiàn)出失衡態(tài)勢,僅有例外返鄉(xiāng)和旺季、淡季旅游這類非強(qiáng)制出行;而未開通區(qū)域仍保留多元化出行目的構(gòu)成,不存在明顯占主導(dǎo)的出行目的.
以后開通區(qū)域5 個(gè)區(qū)、縣為對(duì)象,采用固定效應(yīng)面板回歸模型,研究在高鐵開通前(2014年),高鐵開通后(2015—2017年)各目的出行量演化影響因素.列出通過F檢驗(yàn)的6 類出行目的分析結(jié)果,如表3所示.
表3 固定效應(yīng)面板回歸模型結(jié)果Table 3 Result of fixed effects panel regression model
由表3可知,各目的出行量均呈萎縮趨勢,但受各因素影響程度不一.其中,例外返鄉(xiāng)受高鐵開通和轎車保有量增加的抑制作用最為顯著,旺季、淡季旅游和私人事務(wù)次之,典型返鄉(xiāng)和學(xué)生放假抑制作用較??;城鎮(zhèn)化率的增加有助于提升道路客運(yùn)團(tuán)體旅客出行量;國內(nèi)生產(chǎn)總值(GDP)的影響均不顯著.
本文構(gòu)建嵌入出發(fā)時(shí)間的主題模型可以在不依賴回訪調(diào)查前提下推斷團(tuán)體旅客出行目的.模型對(duì)于主題標(biāo)注具有同時(shí)考慮特征分布和出發(fā)時(shí)間分布的優(yōu)勢,對(duì)出發(fā)時(shí)間預(yù)測精度為90.9%,證明了模型的有效性;與監(jiān)督學(xué)習(xí)方法相比,可以更好地識(shí)別私務(wù)出行.基于票務(wù)數(shù)據(jù),模型將50個(gè)主題標(biāo)注為4種常規(guī)出行目的,以及無法用既有模型發(fā)現(xiàn)和概括,但卻不容忽視的非常規(guī)類型.案例分析發(fā)現(xiàn),道路客運(yùn)出行目的構(gòu)成呈現(xiàn)顯著地區(qū)差異;面板模型分析表明,高鐵開通情況和轎車保有量對(duì)6類目的出行量存在負(fù)向影響,城鎮(zhèn)化率則具有正向影響.