徐 濤,邢澤文,盧 敏,李忠虎
(1.中國(guó)民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300;2.中國(guó)民航大學(xué) 中國(guó)民航信息技術(shù)科研基地,天津 300300;3.中國(guó)民航信息網(wǎng)絡(luò)股份有限公司 民航旅客服務(wù)智能化應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 101318)
民航旅客同行關(guān)系描述兩名旅客是否發(fā)生共同訂票并乘坐相同航班的行為,是民航領(lǐng)域重要的社交關(guān)系,具有廣泛的應(yīng)用,其中包括:①航空公司通過(guò)旅客同行關(guān)系可針對(duì)旅客共同出行需求進(jìn)行精準(zhǔn)的旅客出行偏好服務(wù)推薦和個(gè)性化定向服務(wù);②機(jī)場(chǎng)通過(guò)同行旅客特征的提取,可獲得黑白名單中隨同出行的旅客名單,進(jìn)而針對(duì)上述旅客開(kāi)展有針對(duì)性的黑白名單分級(jí)安檢,提升安保服務(wù)效率。
為了更準(zhǔn)確挖掘民航旅客同行關(guān)系,本文開(kāi)展民航旅客同行特征抽取研究,旨在從旅客的訂票數(shù)據(jù)中抽取能夠刻畫兩名旅客共同出行的特征集合。其主要思想是:首先從大規(guī)模的民航旅客訂票記錄進(jìn)行特征屬性分類并構(gòu)建特征群,然后對(duì)同行旅客對(duì)之間各特征計(jì)算信息熵并進(jìn)行相關(guān)性分析,提取旅客同行表現(xiàn)出強(qiáng)相關(guān)性的特征,最后細(xì)化設(shè)計(jì)同行旅客對(duì)的特征集合。實(shí)驗(yàn)結(jié)果表明,本文所抽取的特征反映了不同強(qiáng)度的旅客同行關(guān)系,且利用特征向量對(duì)基礎(chǔ)分類器模型進(jìn)行訓(xùn)練預(yù)測(cè),平均準(zhǔn)確率高達(dá)0.91,驗(yàn)證了該特征提取方法具有極高的適用性。
本文的主要貢獻(xiàn)是:①克服了因各同行旅客社區(qū)內(nèi)的平均節(jié)點(diǎn)度為0.12,具有極強(qiáng)的稀疏性,使得傳統(tǒng)特征提取方法不適用的難題。在有限的數(shù)據(jù)字段中提取并特征,對(duì)后續(xù)的民航旅客同行網(wǎng)絡(luò)鏈接預(yù)測(cè)具有借鑒意義[1,2];②利用基礎(chǔ)分類器對(duì)各特征及特征集合進(jìn)行訓(xùn)練預(yù)測(cè)實(shí)驗(yàn),并得到較高的準(zhǔn)確率,驗(yàn)證了特征提取具有一定的適用價(jià)值。
理論上,目前仍缺乏直接對(duì)民航同行旅客特征提取的研究文獻(xiàn)。針對(duì)特征提取的研究方向集中在文本特征[3,4]、圖像特征[5,6]、社交網(wǎng)站數(shù)據(jù)特征[7,8]等領(lǐng)域。在相關(guān)研究文獻(xiàn)中,通常將文本特征提取的分為Filter過(guò)濾式和Wrapper封裝式兩大類[9]。其原理是將高維度高冗余性的文本信息進(jìn)行特征降維并分類,并選擇一個(gè)最優(yōu)特征子集。在圖像特征提取研究中,主要以圖像構(gòu)成元素進(jìn)行分類特征抽取,如顏色、形狀、紋理等。對(duì)于社交網(wǎng)站數(shù)據(jù)來(lái)說(shuō),不僅可以利用文本特征提取方法對(duì)網(wǎng)站數(shù)據(jù)熱度進(jìn)行提取,在構(gòu)建社交網(wǎng)絡(luò)用戶社區(qū)的基礎(chǔ)上,可針對(duì)其節(jié)點(diǎn)關(guān)系強(qiáng)度及節(jié)點(diǎn)相似度等網(wǎng)絡(luò)結(jié)構(gòu)特征進(jìn)行提取分析。然而這些方法難以應(yīng)用于民航同行旅客特征提取工作中,原因是其相比文本和圖像來(lái)說(shuō),數(shù)據(jù)集呈散列性且字段較少,其特征提取方法在該問(wèn)題下適用性極低;且民航同行旅客數(shù)據(jù)相比社交網(wǎng)站用戶數(shù)據(jù),動(dòng)態(tài)性較差,稀疏性極強(qiáng),不適合使用相似度算法來(lái)對(duì)旅客之間的關(guān)系強(qiáng)度進(jìn)行特征提取分析。
李志宇等提出一種大規(guī)模網(wǎng)絡(luò)中基于節(jié)點(diǎn)結(jié)構(gòu)特征映射的鏈接預(yù)測(cè)方法[10],其利用網(wǎng)絡(luò)數(shù)據(jù)集序列化方法,將網(wǎng)絡(luò)節(jié)點(diǎn)的結(jié)構(gòu)特征信息映射到一個(gè)連續(xù)的固定維度的實(shí)數(shù)向量并學(xué)習(xí),計(jì)算節(jié)點(diǎn)相似度來(lái)進(jìn)行網(wǎng)絡(luò)中的鏈接預(yù)測(cè)。Wan等提出了一個(gè)社會(huì)化網(wǎng)絡(luò)用戶關(guān)系強(qiáng)度計(jì)算模型,該研究使用了某社交網(wǎng)絡(luò)用戶數(shù)據(jù),分別建立計(jì)算直接關(guān)系和間接關(guān)系的關(guān)系強(qiáng)度模型,預(yù)測(cè)用戶之間的社交關(guān)系。該兩種方法使用數(shù)據(jù)動(dòng)態(tài)性極強(qiáng),社交網(wǎng)站數(shù)據(jù)量大且容易獲取,成本小,噪聲數(shù)據(jù)容易處理,但關(guān)系可靠性差,與民航旅客數(shù)據(jù)相比差異較大,適用性較弱。
本文對(duì)近某年民航旅客訂票記錄(passenger name records,PNR)進(jìn)行旅客同行關(guān)系統(tǒng)計(jì)。在原始的民航旅客訂票數(shù)據(jù)集中,每一條PNR擁有包括訂票號(hào)(PNRNBR)在內(nèi)共17個(gè)屬性字段(表1)。將每條PNR的屬性字段進(jìn)行篩選并分類為每對(duì)節(jié)點(diǎn)的3種信息特征群,即旅客個(gè)人信息特征群、航班信息特征群和旅客行為信息特征群。3種信息特征群包括的所有屬性字段定義見(jiàn)表2。
表1 民航旅客訂票記錄(PNR)字段描述及示例
表2 特征群分類及描述
其中,利用訂票號(hào)這一特征作為唯一標(biāo)識(shí)與航班信息特征群將PNR分為具有同行關(guān)系旅客和非同行旅客。其中同一航班下同一訂單內(nèi)的旅客之間為同行旅客,同一航班下不同訂單間的旅客為非同行旅客。需要說(shuō)明的是,在同一趟航班下的所有旅客擁有相同的飛行旅程,而同一航班下不同訂單間的旅客可能存在未一起購(gòu)票卻是同行的關(guān)系,也就是所謂的潛在同行關(guān)系。但對(duì)于所有非同一訂單間的旅客對(duì)集合下這種情況十分稀少。
本文對(duì)同行旅客間的旅客個(gè)人信息特征群及旅客行為信息特征群的各特征數(shù)據(jù)標(biāo)準(zhǔn)化,對(duì)各特征分類占比進(jìn)行統(tǒng)計(jì)并計(jì)算其信息增益(表3)。由于身份證號(hào)字段本身屬于加密后數(shù)據(jù),對(duì)其進(jìn)行相關(guān)分析失去意義,故不對(duì)其進(jìn)行分析
(1)
IG(T)=H(C)-H(C|T)
(2)
其中,利用式(1)計(jì)算信息熵H,式(2)計(jì)算信息增益;T表示各特征,本文中指旅客個(gè)人信息特征群及旅客行為信息特征群中的每一特征;C表示總聚類,在本文中指樣本空間中同行與非同行旅客對(duì)集合。
表3 同行旅客對(duì)各特征分類占比及信息增益(總信息熵:0.998)
根據(jù)表3結(jié)果直觀顯示,旅客個(gè)人信息特征群中各特征均有一定程度的信息增益,但性別特征的信息增益僅為0.003;而旅客行為信息特征群中各特征相對(duì)產(chǎn)生較大的信息增益,其中折扣率及艙位特征表現(xiàn)較為顯著。然而這種做法只是從統(tǒng)計(jì)學(xué)意義出發(fā)對(duì)特征進(jìn)行選擇,由于民航旅客數(shù)據(jù)局限性勢(shì)必會(huì)降低某些具有真實(shí)意義的特征判斷,為此本文提出針對(duì)民航旅客同行特征進(jìn)行提取設(shè)計(jì)及向量化,并建立基于民航旅客同行特征的關(guān)系預(yù)測(cè)分類器模型。
在第2節(jié)中,本文提出將PNR原始數(shù)據(jù)進(jìn)行同行旅客對(duì)篩選,在旅客兩兩同行數(shù)據(jù)的基礎(chǔ)上將其整合并數(shù)據(jù)標(biāo)準(zhǔn)化為旅客對(duì)原始特征提取并分類,計(jì)算信息熵和信息增量等參數(shù)來(lái)判斷原始特征提取的可靠程度及適用性強(qiáng)弱。由數(shù)據(jù)結(jié)果可知,旅客個(gè)人信息特征群中的性別特征及旅客行為信息特征群中的團(tuán)隊(duì)名特征,其信息增益僅為0.003和0.004,可信度極低。不難證明,在乘機(jī)過(guò)程中,同行關(guān)系作為依附于社會(huì)關(guān)系的一種旅客所特有的關(guān)系,在性別異同中同樣類似于社會(huì)關(guān)系中性別的選擇且相比社會(huì)關(guān)系中的性別差異更為簡(jiǎn)單,故在旅客同行特征細(xì)化中不再將性別特征加入細(xì)化分析。
而將團(tuán)隊(duì)名作為原始特征進(jìn)行分析時(shí)發(fā)現(xiàn),大量的旅客PNR中缺少對(duì)團(tuán)隊(duì)名的標(biāo)記或記錄,使得在計(jì)算信息熵時(shí)不得不將缺失字段作為第三類特征表現(xiàn)加入計(jì)算且結(jié)果表現(xiàn)不佳。團(tuán)隊(duì)名作為缺失數(shù)據(jù)較多的字段對(duì)特征細(xì)化產(chǎn)生極大的影響,且缺少實(shí)際應(yīng)用價(jià)值,故本文同樣不將該原始特征加入細(xì)化分析。
將旅客同行特征兩兩整合,提取中強(qiáng)相關(guān)及強(qiáng)相關(guān)特征,細(xì)化并設(shè)計(jì)針對(duì)同行旅客之間的特征屬性見(jiàn)表4。
表4 特征屬性描述及釋義
(1)年齡差特征
利用出生年份特征可計(jì)算同行旅客間的年齡差,并對(duì)該結(jié)果進(jìn)行劃分如圖1所示,民航同行旅客間年齡差由小到大呈對(duì)數(shù)分布。故將年齡差特征設(shè)置為0歲-5歲、5歲-15歲、15歲-30歲、大于30歲這4個(gè)區(qū)間定義為year_feat進(jìn)行特征分類,可使特征數(shù)據(jù)均勻且符合實(shí)際意義。
圖1 年齡差百分比分布
(2)地址特征
居民身份證前4位代表地址碼(省市),反映了該旅客的出生戶籍,將該特征數(shù)據(jù)提取并細(xì)化為旅客對(duì)信息特征屬性,由數(shù)據(jù)統(tǒng)計(jì)顯示,旅客同行網(wǎng)絡(luò)中地址碼相同的旅客對(duì)占旅客對(duì)集合的72%,驗(yàn)證該特征在一定程度上可以根據(jù)實(shí)際情況判斷旅客對(duì)間同行關(guān)系中潛在社交關(guān)系的可能性,若旅客本身具有一定的潛在社交關(guān)系,故可以將native_feat作為一個(gè)必要不充分條件來(lái)判斷他們有是否有同行關(guān)系。
(3)艙位特征
飛機(jī)在安排座位時(shí)會(huì)利用艙位將座位分成不同的等級(jí),不同的艙位對(duì)應(yīng)的機(jī)票折扣不同,價(jià)格不同所得到的服務(wù)也不一樣。在一趟航班中最多可達(dá)24種不同的艙位[11]。艙位具有將旅客客票劃分為不同等級(jí)的作用,故利用cabin_feat作為特征屬性進(jìn)行提取,可以反映旅客之間的相似度,進(jìn)而確定他們是否構(gòu)成同行關(guān)系。
(4)折扣率特征
各航空公司為促進(jìn)營(yíng)銷通常會(huì)在不同時(shí)段銷售不同折扣的機(jī)票,不同折扣的機(jī)票往往在旅客退票、簽轉(zhuǎn)、行李額等權(quán)限方面進(jìn)行區(qū)別劃分。selloff_feat表示在購(gòu)票時(shí)對(duì)于價(jià)格的選擇作為特征屬性進(jìn)行提取。該特征從側(cè)面反映了旅客之間是否在相同或相近的時(shí)段內(nèi)進(jìn)行了購(gòu)票行為,進(jìn)而確定他們是否構(gòu)成同行關(guān)系。
(5)座位關(guān)系特征
座位行號(hào)與座位號(hào)屬性是旅客在該航班中座位的確定標(biāo)識(shí)。在一般情況下同行的旅客會(huì)選擇靠近的位置就坐。將旅客座位行號(hào)差值seat_row_dif單獨(dú)定義一類特征,而座位號(hào)通常是由A到K之間的字母表示,故不適合單獨(dú)作為特征。所以本文將旅客對(duì)座位號(hào)屬轉(zhuǎn)化為ASCII值并求差值與座位行號(hào)差值相加定義seat_sum特征。
(6)登機(jī)序號(hào)特征
在民航客票信息中,登機(jī)序號(hào)指旅客在值機(jī)時(shí)生成的序號(hào),將旅客對(duì)登機(jī)序號(hào)差值boarding_dif定義為登機(jī)序號(hào)特征,與座位關(guān)系特征有著類似的作用。通常同行的旅客會(huì)在值機(jī)方面存在伴隨的行為特征,故可以從登機(jī)序號(hào)的關(guān)系特征一定程度反映出旅客之間是否存在同行關(guān)系。
同行旅客特征提取后數(shù)據(jù)種類與判斷方式不同,3.1中定義的年齡差特征、地址特征、艙位特征及折扣率特征均屬于類別型特征。其中,年齡差特征以區(qū)間分為4類,其它3種特征分為相同或不同兩類。由于類別性特征無(wú)法直接數(shù)字化表示,因此要借助原特征的分類特點(diǎn),組合產(chǎn)生新特征并將其文本化用于提取儲(chǔ)存和任務(wù)計(jì)算,并采用0/1二值方式進(jìn)行量化。
圖2代表了年齡差特征定義四維向量分別儲(chǔ)存將其分為的4個(gè)特征;地址特征、艙位特征及折扣率特征均定義二維向量?jī)?chǔ)存,其中[1 0]代表特征相同,[0 1]代表特征不同。而座位關(guān)系特征及登機(jī)序號(hào)特征作為數(shù)值型特征的轉(zhuǎn)換相對(duì)簡(jiǎn)單,將其維持原始特征值進(jìn)行儲(chǔ)存即可。圖3為將旅客對(duì)提取所有特征組成的特征矩陣集示意。
圖2 特征向量化表示
圖3 提取旅客對(duì)所有特征組成特征矩陣集示例
(1)原始數(shù)據(jù)
將近某兩年民航旅客訂票記錄PNR作為實(shí)驗(yàn)數(shù)據(jù),其中包含旅客個(gè)人信息、航班信息、旅客行為信息等共17個(gè)字段,總訂單數(shù)量為74 461 114單。其中,旅客節(jié)點(diǎn)總數(shù)為180 451 121,而邊總數(shù)只有24 503 142,平均節(jié)點(diǎn)度為0.12,稀疏性極強(qiáng);圖4顯示了同樣兩年間同行旅客訂單數(shù)統(tǒng)計(jì),其中單人行程訂單數(shù)占總訂單數(shù)的82.79%,不僅進(jìn)一步驗(yàn)證旅客同行網(wǎng)絡(luò)的極強(qiáng)稀疏性,更說(shuō)明了在訂單數(shù)據(jù)中表現(xiàn)出的同行關(guān)系十分稀少,可用于研究的同行旅客數(shù)據(jù)只占總數(shù)據(jù)的不到18%。
圖4 中航信近某兩年P(guān)NR數(shù)據(jù)同行旅客訂單數(shù)統(tǒng)計(jì)(總訂單數(shù):74 461 114)
(2)數(shù)據(jù)預(yù)處理
由于原始數(shù)據(jù)量極為龐大,且存在大量缺失字段,故首先判斷各字段數(shù)據(jù)是否為空,刪除有空字段的PNR,并刪除出行次數(shù)小于5次的旅客訂票記錄以便數(shù)據(jù)分析;利用order_id將每條訂單數(shù)據(jù)按相同訂單號(hào)進(jìn)行儲(chǔ)存,并利用航班信息屬性集合進(jìn)行分類,即將乘坐同一航班的旅客信息進(jìn)行分類并儲(chǔ)存。
(3)實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
本文采用支持向量機(jī)(support vector machine,SVM)分類器對(duì)數(shù)據(jù)進(jìn)行二元分類預(yù)測(cè),將每一種特征對(duì)模型進(jìn)行分類預(yù)測(cè),采用均方誤差作為評(píng)價(jià)指標(biāo)(mean square error,MSE)表示特征間的差異。并將所有特征加入訓(xùn)練,使用準(zhǔn)確率(Accuracy)、召回率(Recall)、F1值(F-Mea-sure)作為評(píng)價(jià)指標(biāo)來(lái)評(píng)價(jià)本文特征提取方法。
(4)K-折交叉驗(yàn)證
由于處理后的實(shí)驗(yàn)數(shù)據(jù)經(jīng)過(guò)正負(fù)例分別為20 067例和2 931 44例,比例不均衡,故加入損失函數(shù),并按照正負(fù)例相應(yīng)的比例定義懲罰值,使用K-折交叉驗(yàn)證。即將實(shí)驗(yàn)數(shù)據(jù)平均隨機(jī)分為K份,每次將其中的K-1份作為訓(xùn)練數(shù)據(jù),另一份作為預(yù)測(cè)數(shù)據(jù),共進(jìn)行K輪實(shí)驗(yàn),并將K份測(cè)試數(shù)據(jù)評(píng)價(jià)結(jié)果的平均值作為最終的算法性能。
本文使用map-reduce平臺(tái)進(jìn)行對(duì)PNR數(shù)據(jù)的加密處理,算法使用Python語(yǔ)言進(jìn)行編寫。樣本數(shù)據(jù)處理及參數(shù)計(jì)算運(yùn)行硬件環(huán)境為MacBook Pro 2.4 GHz主頻,Intel Core i5處理器,8 G內(nèi)存的計(jì)算機(jī);原始數(shù)據(jù)預(yù)處理及模型訓(xùn)練預(yù)測(cè)運(yùn)行硬件環(huán)境為DELL 3.40 GHz主頻,Intel(R)Core(TM)i7-6800K處理器,64 G內(nèi)存的計(jì)算機(jī)并行NVIDIA TITAN Xp COLLECTORS EDITION的GPU。
4.3.1 單一特征模型預(yù)測(cè)分析
將處理后的所有正負(fù)例實(shí)驗(yàn)數(shù)據(jù)隨機(jī)排列,分別提取各特征組成特征矩陣并平均分成10份,進(jìn)行10-折交叉驗(yàn)證,輸出得到各特征訓(xùn)練預(yù)測(cè)的均方誤差如圖5所示。圖5可以看出,年齡差特征和艙位特征的平均誤差率分別在0.46和0.41,單一影響強(qiáng)度最低;折扣率特征和艙位特征的平均誤差率分別在0.33和0.24,說(shuō)明對(duì)關(guān)系預(yù)測(cè)效果有一定的單一影響強(qiáng)度;而座位關(guān)系特征和登機(jī)序號(hào)特征的平均誤差率分別達(dá)到了0.20和0.17,驗(yàn)證二者在各個(gè)特征中表現(xiàn)出的關(guān)系預(yù)測(cè)效果最佳。
圖5 各單一特征模型預(yù)測(cè)均方誤差
4.3.2 特征集合模型預(yù)測(cè)分析
將實(shí)驗(yàn)數(shù)據(jù)中所有特征提取并組合成具有13維的特征矩陣輸入SVM模型進(jìn)行特征訓(xùn)練,分別使用5-折交叉驗(yàn)證和10-折交叉驗(yàn)證進(jìn)行對(duì)比,來(lái)驗(yàn)證將本文提取到的特征組合后的關(guān)系預(yù)測(cè)效果(表5)。
表5 組合特征模型預(yù)測(cè)實(shí)驗(yàn)結(jié)果
其中,在10-折交叉驗(yàn)證下組合特征模型預(yù)測(cè)結(jié)果平均準(zhǔn)確率可達(dá)0.916,召回率也在表現(xiàn)良好,驗(yàn)證了本文提出的針對(duì)民航旅客同行特征提取方法在旅客同行網(wǎng)絡(luò)研究領(lǐng)域具有極大的適用價(jià)值。
民航旅客同行關(guān)系特征的提取作為旅客同行網(wǎng)絡(luò)鏈接預(yù)測(cè)的基礎(chǔ)研究,不僅可以對(duì)旅客同行網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)補(bǔ)全,還可以應(yīng)用于航司的航班推薦,也為機(jī)場(chǎng)對(duì)旅客的分級(jí)安檢提供了方便。為了精準(zhǔn)提取影響強(qiáng)度大的特征,本文在民航旅客訂票記錄上進(jìn)行數(shù)據(jù)分析,分類提取了針對(duì)民航同行旅客間的特征對(duì),并將各特征向量化,組成特征矩陣,利用分類器模型SVM對(duì)其進(jìn)行訓(xùn)練預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,各特征對(duì)分類預(yù)測(cè)結(jié)果均具有一定程度的影響強(qiáng)度,且在5-折及10-折交叉驗(yàn)證組合特征模型中的預(yù)測(cè)準(zhǔn)確率分別達(dá)到0.84和0.91以上。