呂勤 于衛(wèi)國
摘要:本文從應(yīng)對國家及各地旅游局分析消費發(fā)展趨勢的需求出發(fā),針對復(fù)雜客流情況無法分析的難點,從消費大數(shù)據(jù)出發(fā),剖析消費數(shù)據(jù)中隱含的消費者歸屬地規(guī)律,概述了歸屬地模型行成旅游消費偏好、熱門旅游消費區(qū)域、客源分析等旅游數(shù)據(jù)模型的建立過程,闡述了旅游大數(shù)據(jù)對市場經(jīng)濟的推動作用。
關(guān)鍵詞:旅游大數(shù)據(jù);旅游消費;歸屬地;旅游數(shù)據(jù);節(jié)假日消費
中圖分類號:TN-9 文獻標識碼:A 文章編號:1007-9416(2019)05-0087-03
隨著我國旅游市場不斷發(fā)展,近年來出游人群呈井噴式增長。為響應(yīng)國家旅游局提升國家旅游發(fā)展質(zhì)量的要求,我司依托海量消費數(shù)據(jù),通過大數(shù)據(jù)技術(shù)挖掘旅游消費數(shù)據(jù),分析旅游發(fā)展的變化。通過項目研發(fā)、制作,形成旅游大數(shù)據(jù)分析能力,定期發(fā)布包括年度、半年度、節(jié)假日(五一、國慶中秋、春節(jié)、雙十一)等報告以及各細分行業(yè)旅游分析課題、報告等。旅游大數(shù)據(jù)分析展示如圖1所示。
1 需求分析
應(yīng)國家旅游局要求,同時為了滿足各地旅游局的個性化旅游消費大數(shù)據(jù)分析需求,我司需從宏觀分析入手,制作發(fā)布中國旅游消費大數(shù)據(jù)報告及各地旅游消費大數(shù)據(jù)報告。制作這些分析報告,需要提供各地的旅游人數(shù)、旅行者去過的地方、旅行者購買過的商品與服務(wù)等數(shù)據(jù)。如何獲得這些數(shù)據(jù),是完成消費旅游大數(shù)據(jù)報告的關(guān)鍵。銀聯(lián)商務(wù)作為全國最大的第三方支付機構(gòu),具有基礎(chǔ)的消費數(shù)據(jù),為了保護客戶隱私,滿足數(shù)據(jù)保護的要求,數(shù)據(jù)的處理分析結(jié)果均不針對個體,而是以消費者群體為對象,從宏觀上分析獲取有關(guān)消費地點、消費業(yè)態(tài)和消費能力等維度的數(shù)據(jù)。但困難的是消費者歸屬地以及消費喜好無法從原始數(shù)據(jù)中直接獲取,需要利用大數(shù)據(jù)技術(shù),通過模型計算,挖掘出有關(guān)信息。
2 旅游大數(shù)據(jù)的分析模型
2.1 歸屬地分析模型
消費者歸屬地模型是旅游大數(shù)據(jù)分析的重中之重,只有知道了消費者的“原籍”,再結(jié)合消費軌跡,才能知曉消費者是不是存在旅游行為。那么如何判斷持卡人的原籍呢?原始的交易信息中并不包含交易者的個人信息,僅有卡號信息,可以通過一個卡號標識一個自然人。那么卡號又如何與自然人的歸屬地關(guān)聯(lián)呢?眾所周知,各銀行發(fā)行的銀行卡卡號長度不一樣,除了卡bin①標識以外,編碼規(guī)則完全不同,所以銀行卡卡號是沒有統(tǒng)一的規(guī)范的。經(jīng)過進一步的分析,發(fā)現(xiàn)發(fā)卡行②為了便于發(fā)行卡片,往往是分批次給各地區(qū)分行發(fā)行新卡的,也就是說同一地區(qū)在某個時間段發(fā)行的卡片,序號應(yīng)該是連續(xù)的。因此能否通過此假設(shè)推算出發(fā)卡地區(qū)規(guī)則呢。就此我們嘗試使用分類算法,將卡號的9位~16位編碼作為特征碼,按不同的長度分別統(tǒng)計召回率③和準確率⑤,當置信度高于閥值時,即將該編碼作為歸屬地特征編碼記入特征庫中。通過對百億數(shù)量級別的已知消費區(qū)域的消費記錄的計算,總共推演出數(shù)萬個卡片規(guī)則特征,覆蓋幾乎所有發(fā)卡行的卡bin,模型建立成功。
2.2 旅游消費偏好分析模型
通過行為學(xué)分析,持卡人消費地點不在歸屬地原籍的交易即可認為是旅行交易。從橫向上來說,通過對某一地區(qū)消費行業(yè)進行聚類,即可得出該地區(qū)熱門的消費行業(yè)和業(yè)態(tài)。從縱向上來說,比對持卡人歷來的旅行消費軌跡亦可得出其旅游消費偏好。通過分析旅游消費偏好可以幫助相關(guān)部門更合理的規(guī)劃各種旅游服務(wù)項目。
2.3 熱門旅游消費區(qū)域分析模型
通過分析持卡人異地消費行為,利用聚類算法k-means⑤進行消費地坐標聚類,可以獲得旅游消費者在旅游城市的消費聚集地區(qū)。通過進一步的模型計算,可以判斷指定城市熱門的旅游消費商圈,通過統(tǒng)計可以得出旅游對推動當?shù)叵M規(guī)模的貢獻度,為旅游消費大數(shù)據(jù)報告提供依據(jù)。
2.4 客源分析模型
客源模型也是各地旅游局比較關(guān)心的課題。通過歸屬地分析模型即可得到景點周邊商戶的客源分布情況,利用大數(shù)據(jù)技術(shù),通過海量數(shù)據(jù)計算可以進一步得出每個景區(qū)對應(yīng)的客源分布情況。游客來源分析展示如圖2所示。
3 模型構(gòu)建
根據(jù)旅游大數(shù)據(jù)的業(yè)務(wù)需求,獲取持卡人的歸屬地信息是重中之重,歸屬地模型是其他幾個業(yè)務(wù)分析模型的基礎(chǔ)。歸屬地模型的特征相對明確,可以根據(jù)卡號來識別,但無法確定具體是卡號中的哪幾位。我們利用大數(shù)據(jù)技術(shù)的海量計算能力,通過迭代的方式進行特征推演(從卡號前9位開始迭代,直到16位為止),利用百億級別的交易數(shù)據(jù),通過二分類算法拆分出多組訓(xùn)練集和測試集,分別進行模型的計算和驗證。找到所有卡號段滿足置信度(同一地區(qū)聚集度超過閥值)的號段,并以這些號段作為號根來判斷新的卡號歸屬地??ㄌ枤w屬地計算模型示意圖如圖3所示。
4 旅游大數(shù)據(jù)的系統(tǒng)架構(gòu)
旅游大數(shù)據(jù)主要由后臺算法服務(wù)群和前端應(yīng)用展示服務(wù)群組成。后臺算法服務(wù)群主要是基于hadoop的Hive和SparkMLlib組成,用于從數(shù)據(jù)倉庫及外部系統(tǒng)獲取海量交易數(shù)據(jù)用于模型訓(xùn)練。Hive主要用于前期的數(shù)據(jù)清洗和特征矩陣生成,MLlib主要負責執(zhí)行聚類、分類等機器學(xué)習(xí)算法。經(jīng)過預(yù)設(shè)模型計算完畢的數(shù)萬歸屬地號根,通過大數(shù)據(jù)平臺同步到數(shù)據(jù)倉庫中。數(shù)據(jù)倉庫利用號根可以將節(jié)假日消費數(shù)據(jù)中卡號的歸屬地通過歸屬地匹配模型計算出來,用于后續(xù)其他旅游數(shù)據(jù)計算。數(shù)據(jù)倉庫完成旅游數(shù)據(jù)計算后,同步到應(yīng)用服務(wù)器上,由應(yīng)用服務(wù)器進行展示和報告生成。系統(tǒng)架構(gòu)圖如圖4所示。
5 旅游大數(shù)據(jù)的價值
我國經(jīng)濟的不斷進步,宏觀層面上需要拉動內(nèi)需,從百姓生活出發(fā)也有旅游的強烈訴求。大數(shù)據(jù)應(yīng)用到旅游數(shù)據(jù)分析中,使原先無序的消費數(shù)據(jù)變得有跡可循、原先無法計算的消費數(shù)據(jù)變得可見。旅游大數(shù)據(jù)的發(fā)布有利于協(xié)調(diào)區(qū)域經(jīng)濟,合理化旅游產(chǎn)業(yè)布局,優(yōu)化旅游服務(wù)業(yè)以及關(guān)聯(lián)產(chǎn)業(yè)。通過了解游客的行為特點,便于景區(qū)配套迎合游客需求的產(chǎn)業(yè)布局,通過分析客源,為各地旅游局及旅游企業(yè)提供了明確的營銷對象,直接提升了城市的旅游宣傳效能。分析旅游經(jīng)濟,給國家發(fā)展旅游產(chǎn)業(yè)提供宏觀數(shù)據(jù),提振發(fā)展旅游的信心和動力。
注釋
① 卡bin:Bank Identification Number發(fā)卡行識別碼,中國境內(nèi),銀聯(lián)一般是以62開頭,visa一般以4開頭,master一般以5開頭,長度一般是六位,也可能是其他長度.
② 發(fā)卡行:發(fā)行銀行卡的機構(gòu),簡稱發(fā)卡行,一般以銀行居多.發(fā)卡機構(gòu)的主要職能是向持卡人發(fā)行各種銀行卡,并通過提供各類相關(guān)的銀行卡服務(wù)收取一定費用.
③ 召回率:召回率(Recall Rate,也叫查全率)是檢索出的相關(guān)文檔數(shù)與文檔庫中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率.
④ 準確率:準確率又稱精度(Prec- ise)是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)的查準率.召回率(Recall)和精度(Precise)是廣泛用于信息檢索和統(tǒng)計學(xué)分類領(lǐng)域的兩個度量值,用來評價結(jié)果的質(zhì)量。參考資料:周志華.機器學(xué)習(xí):= Machine learning[M].清華大學(xué)出版社,2016.
⑤ K-Means:k均值聚類算法(k-means clustering algorithm)是一種迭代求解的聚類分析算法,其步驟是隨機選取K個對象作為初始的聚類中心,然后計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心.聚類中心以及分配給它們的對象就代表一個聚類.每分配一個樣本,聚類的聚類中心會根據(jù)聚類中現(xiàn)有的對象被重新計算.這個過程將不斷重復(fù)直到滿足某個終止條件.終止條件可以是沒有(或最小數(shù)目)對象被重新分配給不同的聚類,沒有(或最小數(shù)目)聚類中心再發(fā)生變化,誤差平方和局部最小.