鄧炳光,張林霞,張治中,程 方
(重慶郵電大學(xué) 通信網(wǎng)測試工程研究中心,重慶 400065)
基于數(shù)據(jù)倉庫的旅游服務(wù)平臺的設(shè)計(jì)與實(shí)現(xiàn)
鄧炳光,張林霞,張治中,程 方
(重慶郵電大學(xué) 通信網(wǎng)測試工程研究中心,重慶 400065)
針對旅游服務(wù)中對大數(shù)據(jù)統(tǒng)計(jì)的需求分析,提出了一套基于數(shù)據(jù)倉庫的旅游服務(wù)平臺解決方案,并進(jìn)一步闡述了該方案在實(shí)現(xiàn)過程中涉及到的關(guān)鍵技術(shù),包括ETL(Extraction Transformation Loading)、數(shù)據(jù)倉庫建模以及報(bào)表分析等,為大數(shù)據(jù)下搭建旅游服務(wù)平臺,提供了重要的理論支撐和實(shí)踐基礎(chǔ)。
數(shù)據(jù)倉庫;ETL;旅游服務(wù);報(bào)表分析
隨著信息化的飛速發(fā)展,信息量的快速上升,傳統(tǒng)數(shù)據(jù)庫已遠(yuǎn)遠(yuǎn)不能滿足現(xiàn)實(shí)的需要[1],傳統(tǒng)數(shù)據(jù)庫存在以下缺點(diǎn):
1)效率不夠高。例如,用戶要求分別按照日、周、年等不同的時(shí)間粒度統(tǒng)計(jì)數(shù)據(jù)變化情況。這時(shí)如果按照傳統(tǒng)數(shù)據(jù)庫來設(shè)計(jì)將極大的降低工作效率。
2)可讀性不高。傳統(tǒng)數(shù)據(jù)庫有大量的基礎(chǔ)數(shù)據(jù),多為專業(yè)及操作人員所熟識,這些數(shù)據(jù)對管理人員和決策者都不直觀,都無法為他們做決定提供很好的技術(shù)支持。
3)數(shù)據(jù)時(shí)間性不足。傳統(tǒng)數(shù)據(jù)庫用于存儲實(shí)時(shí)數(shù)據(jù),當(dāng)有大量的歷史數(shù)據(jù)分析需求時(shí),將不能滿足業(yè)務(wù)需要。
同時(shí),我國人口基數(shù)大同時(shí)又是旅游大國,每逢節(jié)假日就有上億的用戶選擇旅游。海量的旅游基礎(chǔ)數(shù)據(jù)隱含了大量的商業(yè)信息,挖掘并利用這些信息為高級決策支持服務(wù),不僅可以提高商業(yè)利潤甚至可以提高社會安全。
2014年12月31日23時(shí)35分許,正值跨年夜活動,因很多游客市民聚集在上海外灘迎接新年,黃浦區(qū)外灘陳毅廣場進(jìn)入和退出的人流對沖,致使有人摔倒,發(fā)生踩踏事故,36人死亡49人受傷。該監(jiān)控區(qū)域內(nèi),人非常多,如果旅游服務(wù)部門對用戶行為實(shí)時(shí)跟蹤并對人流量分析即使控制該區(qū)域的人口進(jìn)出,可以減少甚至避免此類事件再次發(fā)生。
大數(shù)據(jù)不僅在旅游行業(yè)的應(yīng)用前景非常廣闊,而且有很高的利用價(jià)值,但是目前整個(gè)旅游行業(yè)對于大數(shù)據(jù)的應(yīng)用仍存在很大的障礙。這些障礙主要來自于數(shù)據(jù)分析和挖掘方法不當(dāng),本課題積極響應(yīng)“智慧旅游”號召,并結(jié)合大數(shù)據(jù),提出了一套合理的數(shù)據(jù)分析和挖掘方案。
當(dāng)前,旅游服務(wù)部門存儲了游客多方面信息,包括移動通信信令數(shù)據(jù)、便攜式智能移動終端信息等。這些數(shù)據(jù)都是簡單的存儲在傳統(tǒng)數(shù)據(jù)庫中。數(shù)據(jù)庫包含了大量真實(shí)反映游客當(dāng)前位置、出行等信息的數(shù)據(jù)。這些數(shù)據(jù)只是簡單呈現(xiàn)給用戶,但數(shù)據(jù)隱含的價(jià)值沒有得到利用,相關(guān)部門意識到這正是旅游服務(wù)部門正常、高效運(yùn)轉(zhuǎn)的核心資源,決定從時(shí)間、客源等多維度定量展示有關(guān)游客分析的數(shù)據(jù)。在這樣的背景下,基于數(shù)據(jù)倉庫的旅游服務(wù)便應(yīng)運(yùn)而生。本文提出了一套基于數(shù)據(jù)倉庫構(gòu)建旅游服務(wù)平臺的解決方案。
2.1 需求分析
通過對旅游服務(wù)的深入研究發(fā)現(xiàn),該平臺需求主要分為兩類:一類是時(shí)間粒度非常細(xì)的實(shí)時(shí)人流量分析,這類需求只
需對事實(shí)數(shù)據(jù)進(jìn)行簡單抽取與清洗即可呈現(xiàn)給用戶。另一類是時(shí)間粒度相對較大的時(shí)段新增等分析,要求對指定景區(qū)下,相比前一個(gè)整點(diǎn)時(shí)刻的游客新增人流量、游客來源地等分析,類似的還有用戶駐留分析、用戶屬性分析。以上兩類分析,均是以時(shí)間為維度對事實(shí)表中數(shù)據(jù)分析。實(shí)際上不僅要對游客流量從時(shí)間維度分析,還要以景區(qū)為對象,對游客從地區(qū)維度分析,例如,在時(shí)段新增中不僅要清楚前一整點(diǎn)時(shí)間段內(nèi)游客流量總數(shù),還要明確該時(shí)間段內(nèi)游客來源地分布比例。
基于數(shù)據(jù)倉庫的旅游服務(wù)平臺統(tǒng)計(jì)需求分析,如圖1所示。
圖1 基于數(shù)據(jù)倉庫的旅游服務(wù)平臺統(tǒng)計(jì)需求分析
2.2 總體架構(gòu)
采用數(shù)據(jù)倉庫技術(shù)更能滿足課題需求。
數(shù)據(jù)倉庫并不是摒棄傳統(tǒng)數(shù)據(jù)倉庫,而是將其結(jié)合其他軟件、工具更智能的利用,數(shù)據(jù)倉庫是一個(gè)體系、概念系,并不是單一的某個(gè)軟件或工具。
數(shù)據(jù)倉庫(Data Warehouse,DW)是決策支持系統(tǒng)(DSS)和聯(lián)機(jī)分析應(yīng)用(OLAP)數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫的特征在于面向主題、集成性、穩(wěn)定性和時(shí)變性。倉庫是面向主題的,而操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是指決策者所關(guān)心的重點(diǎn)方面。數(shù)據(jù)倉庫的數(shù)據(jù)來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出。數(shù)據(jù)倉庫的核心工具進(jìn)行加工與集成,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉庫。數(shù)據(jù)倉庫系統(tǒng)中的數(shù)據(jù)也具有自身的生命周期,數(shù)據(jù)倉庫系統(tǒng)并不是總裝載數(shù)據(jù)而不清除數(shù)據(jù)的系統(tǒng),數(shù)據(jù)倉庫系統(tǒng)是從細(xì)化級別的數(shù)據(jù)逐漸上升為高度綜合級的數(shù)據(jù),直到數(shù)據(jù)已經(jīng)不再具備任何意義時(shí)被清除的過程[2]。
本次旅游服務(wù)平臺由源系統(tǒng)、數(shù)據(jù)倉庫和統(tǒng)計(jì)平臺三部分組成[3]。
旅游服務(wù)平臺的源系統(tǒng)是傳統(tǒng)的數(shù)據(jù)庫系統(tǒng),里面涉及的業(yè)務(wù)數(shù)據(jù)源較廣泛,主要由游客事實(shí)表、用戶手機(jī)信息、景區(qū)信息等信息組成。數(shù)據(jù)倉庫接收來自傳統(tǒng)數(shù)據(jù)庫中的事實(shí)表等信息數(shù)據(jù),然后需要通過相關(guān)算法處理最終得到?jīng)Q策者想要的報(bào)表統(tǒng)計(jì)。
統(tǒng)計(jì)平臺:旅游服務(wù)平臺采用B/S架構(gòu),實(shí)現(xiàn)對統(tǒng)計(jì)報(bào)表中的數(shù)據(jù)更直觀的展示。
旅游服務(wù)平臺總體框架如圖2所示。
圖2 旅游服務(wù)平臺總體框架
2.3 數(shù)據(jù)倉庫建模
數(shù)據(jù)倉庫技術(shù)有很多種建模方法,目前較為流行的有范式建模法和Kimball所提倡的維度建模法[4],其中最典型的是維度建模法。
維度建模法是按照事實(shí)表、維度表來構(gòu)建數(shù)據(jù)倉庫。事實(shí)表是含有不同維度數(shù)據(jù)的表,表中含有大量的業(yè)務(wù)數(shù)據(jù)。維度建模的優(yōu)點(diǎn)是:針對各個(gè)維作了大量的預(yù)處理,提升了數(shù)據(jù)倉庫的處理能力;以業(yè)務(wù)為中心,無需復(fù)雜的抽象處理即可直觀反應(yīng)業(yè)務(wù)模型中的業(yè)務(wù)問題,范式建模法相對復(fù)雜。維度建模法中最常用的是星型結(jié)構(gòu)模式。
星型結(jié)構(gòu)模式是一種多維的數(shù)據(jù)關(guān)系,由一個(gè)事實(shí)表 (Fact Table)和一組維表(Dimension Table)組成,每個(gè)維表都有一個(gè)維作為主鍵,所有這些維組合成事實(shí)表的主鍵,事實(shí)表的非主屬性稱為事實(shí)(Fact),它們一般都是數(shù)值或其他可以進(jìn)行計(jì)算的數(shù)據(jù),而維大都是文字、時(shí)間等類型的數(shù)據(jù)[2]。星型模式是指一個(gè)事實(shí)表參照多個(gè)維表的模式,通常一個(gè)主題對應(yīng)一個(gè)事實(shí)表,邏輯結(jié)構(gòu)比較簡單,連接相對較少。在一般的設(shè)計(jì)中,由于星型式更易于管理,結(jié)構(gòu)簡單,在維度較少的情況下,多采用星型模式創(chuàng)建數(shù)據(jù)倉庫模型。
星型結(jié)構(gòu)如圖3所示。
圖3 星型結(jié)構(gòu)
2.4 旅游服務(wù)平臺星型建模
本系統(tǒng)采用星型結(jié)構(gòu)來創(chuàng)建數(shù)據(jù)倉庫模型。
在設(shè)計(jì)星型模型時(shí),首先要確定主題,平臺主要研究某景區(qū)的實(shí)時(shí)人流量和該景區(qū)下用戶駐留行為分析的主題。確定主題后,選定事實(shí)表,并確定統(tǒng)計(jì)的時(shí)間粒度。
本次旅游服務(wù)平臺系統(tǒng)只有一張基于用戶行為的事實(shí)表。該事實(shí)表是從移動通信網(wǎng)中采集而來,主要包含移動用戶的位置信息。由于智能移動終端位置發(fā)生改變時(shí)(即發(fā)生位置切換)便向基站發(fā)送定位信息,所以該表每一定時(shí)間更新一次,該事實(shí)表非常符合傳統(tǒng)數(shù)據(jù)庫中典型的數(shù)據(jù)特性——數(shù)據(jù)實(shí)時(shí)性。
該事實(shí)表即海量移動用戶攜帶智能終端發(fā)送的定位信息表,包括終端發(fā)送信息的時(shí)間、終端用戶的IMSI、IMEI、TMSI以及連接基站等基本行為統(tǒng)計(jì)信息。采集到的事實(shí)表數(shù)據(jù)結(jié)構(gòu)和部分?jǐn)?shù)據(jù)分別如圖4、圖5所示。
圖4 智能終端定位信息事實(shí)表數(shù)據(jù)結(jié)構(gòu)(截圖)
圖5 智能終端定位信息事實(shí)表部分?jǐn)?shù)據(jù)(截圖)
其中,DIMTIME為采集到的終端信息時(shí)間,即終端發(fā)送定位信息時(shí)間;IMSI,MSISDN,IMEI,TMSI為用戶手機(jī)信息;CELLID為基站號;COMEFROM為用戶來源地區(qū)號;事實(shí)表通過CELLID字段可以連接到小區(qū)信息表,利用景區(qū)和基站的對應(yīng)關(guān)系可以得出移動用戶的位置信息。通過COMEFROM字段可以連接到號碼歸屬地信息表,獲取更詳細(xì)的用戶信息。創(chuàng)建的數(shù)據(jù)倉庫關(guān)系模型如圖6所示。
圖6 旅游服務(wù)平臺數(shù)據(jù)倉庫關(guān)系模型
2.5 時(shí)段新增ETL流程
本旅游服務(wù)平臺利用采集到的事實(shí)表與多個(gè)維度表數(shù)據(jù)綜合分析,對事實(shí)表中的源數(shù)據(jù)通過ETL(Extraction Transformation Loading)等關(guān)鍵技術(shù)的處理和分析,將源數(shù)據(jù)中包含的價(jià)值展示出來。
前面講到數(shù)據(jù)倉庫是一個(gè)體系和概念,而高效的實(shí)時(shí)數(shù)據(jù)倉庫技術(shù)則離不開ETL。ETL負(fù)責(zé)將分散的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中。 有效的數(shù)據(jù)抽取是成功實(shí)時(shí)數(shù)據(jù)倉庫的關(guān)鍵,需要特別關(guān)注這個(gè)部分[5-7]。
本平臺主要按照某景區(qū)內(nèi)游客的實(shí)時(shí)人流量、時(shí)段新增、熱點(diǎn)來源、用戶駐留的4個(gè)主題分析。
由于源旅游服務(wù)平臺系統(tǒng)中包含有海量的用戶行為信息數(shù)據(jù),在源系統(tǒng)中只是對這些數(shù)據(jù)簡單的呈現(xiàn),這些信息包含的商業(yè)價(jià)值還無法得以利用,為了充分挖掘這些信息中包含的價(jià)值,本平臺開發(fā)了一套合理的數(shù)據(jù)處理的算法,分析出指定景區(qū)內(nèi)游客的實(shí)時(shí)人流量、時(shí)段新增流量、游客熱點(diǎn)來源以及用戶駐留的報(bào)表分析。
以時(shí)段新增為例,介紹基于數(shù)據(jù)倉庫游服務(wù)平臺中時(shí)段新增的ETL處理流程,如圖7所示,其中區(qū)域快照表是用戶駐留時(shí)間表,出行鏈表是用戶離開景區(qū)的統(tǒng)計(jì)表。
圖7 旅游服務(wù)平臺時(shí)段新增ETL流程圖
時(shí)段新增分析的ETL工作流程如下:
1)在入庫服務(wù)器將采集到的數(shù)據(jù)錄入到事實(shí)表,用于記錄海量移動用戶向基站發(fā)送的定位信息,當(dāng)用戶定位信息發(fā)送改變即位置切換時(shí),移動終端立即向基站發(fā)送定位信息,但是由于數(shù)據(jù)量太大,所以在本次平臺以1 min為時(shí)間間隔采集發(fā)生位置切換用戶的定位信息。但是,如果移動終端的位置沒有改變即仍在某個(gè)基站覆蓋范圍內(nèi),那么它本來不會發(fā)送信息但是當(dāng)時(shí)間間隔超過運(yùn)營商設(shè)定的時(shí)間段(本次設(shè)定1小時(shí)50分鐘)時(shí),移動終端仍然會發(fā)送定位信息,發(fā)送的信息內(nèi)容如圖4所示共16個(gè)字段。
2)由于事實(shí)表包含最近歷史數(shù)據(jù)并且按照常理推算 5 min 為一個(gè)用戶從一個(gè)景區(qū)到另一個(gè)景區(qū)的不可能時(shí)間,同時(shí)為了確保數(shù)據(jù)的實(shí)時(shí)、有效性,故抽取事實(shí)表中最新 5 min 數(shù)據(jù),并篩選出有多個(gè)記錄的用戶的最后一條記錄,插入到 5 min 最新時(shí)間表,作為進(jìn)一步ETL處理的基礎(chǔ)表。
3)由第2)步得到的表數(shù)據(jù)作為系統(tǒng)的最新5 min事件表,與系統(tǒng)的上次5 min最新事件表做對比:2個(gè)表中同時(shí)有的數(shù)據(jù),確定該游客為原駐留游客,并可在駐留信息表中對應(yīng)記錄時(shí)間上增加駐留時(shí)間;本次5 min最新事件表中有而系統(tǒng)的上次5 min最新事件表中沒有,確定該游客為新來景區(qū)游客,為出行鏈表中新出現(xiàn)用戶;最新事件表中沒有而上次 5 min 最新事件表中有,則確定該游客離開該景區(qū),此時(shí)停止增加游客駐留時(shí)間,并更新出行鏈表。
4)當(dāng)系統(tǒng)積累時(shí)間間隔達(dá)到1 h時(shí),對比區(qū)域快照表減去出行鏈表中的數(shù)據(jù)在減去原駐留用戶數(shù)據(jù)即為時(shí)段新增表分析數(shù)據(jù)。
按照以上方法,得到的時(shí)段新增統(tǒng)計(jì)分析表如圖8所示。
圖8 時(shí)段新增流量分析表(截圖)
2.6 結(jié)果展示
上節(jié)中分析后的結(jié)果是以表格形式呈現(xiàn),決策人員無法直觀地體現(xiàn)規(guī)律。該模塊是經(jīng)過ETL處理后的數(shù)據(jù),按照不同的主題進(jìn)行統(tǒng)計(jì)的結(jié)果以圖表的形式展示,便于直接、形象地了解當(dāng)前景區(qū)的流量流動規(guī)律。
圖9為某景區(qū)下時(shí)段新增流量統(tǒng)計(jì)分析結(jié)果展示圖。從圖中可以看出該主題以時(shí)間維度,以1 h為粒度,對該景區(qū)下的游客新增數(shù)量做統(tǒng)計(jì)。通過分析不僅可以得出當(dāng)前時(shí)刻該景區(qū)下前一個(gè)時(shí)刻該景區(qū)新增人流量,還可以根據(jù)規(guī)律粗略推算下個(gè)時(shí)刻該景區(qū)新增流量,利用得到的數(shù)據(jù)和掌握的規(guī)律為高層人員做出決策提供堅(jiān)固的理論和實(shí)踐支持,例如,交通局可以根據(jù)當(dāng)前總流量結(jié)合圖中規(guī)律得出的下個(gè)小時(shí)新增流量預(yù)測是否會超出當(dāng)前景區(qū)的人口閾值,防止該景區(qū)發(fā)生踩踏等事件,提高公共社區(qū)的安全性。
圖9 某景區(qū)時(shí)段新增流量分析統(tǒng)計(jì)結(jié)果展示
本文提出了一套基于數(shù)據(jù)倉庫的旅游服務(wù)平臺實(shí)現(xiàn)方案,該方案通過合理的架構(gòu)設(shè)計(jì)對海量游客行為信息數(shù)據(jù)集中處理、加工,實(shí)現(xiàn)對控制景區(qū)內(nèi)游客的時(shí)段新增流量加以分析,并以直觀形象的方式呈現(xiàn)統(tǒng)計(jì)結(jié)果。該平臺能有效滿足大數(shù)據(jù)下旅游業(yè)務(wù)的發(fā)展需要,同時(shí)對促進(jìn)旅游業(yè)的發(fā)展也提供了理論和實(shí)踐支持[8-10]。
[1] 張俊,張忠能.實(shí)時(shí)數(shù)據(jù)倉庫體系架構(gòu)的研究[J].計(jì)算機(jī)工程,2004(30):1-2.
[2] 楊曉文.數(shù)據(jù)倉庫技術(shù)在學(xué)生成績分析系統(tǒng)中的應(yīng)用[D].太原:中北大學(xué),2005.
[3] 龍新征,李麗,彭一明.基于數(shù)據(jù)倉庫的高校數(shù)據(jù)統(tǒng)計(jì)服務(wù)平臺研究[J].通信學(xué)報(bào),2013,34(2):3-4.
[4] KIMBALL R,ROSS M. The data warehouse toolkit: the complete guide to dimensional modeling[M]. New York: John Wiley and Sons, 2002.
[5] 龍曉泉.基于Oracle的實(shí)時(shí)數(shù)據(jù)倉庫技術(shù)研究與應(yīng)用[D].長沙:湖南大學(xué),2010.
[6] 馮健文,林璇.基于ODS的數(shù)據(jù)倉庫模型研究[J].微計(jì)算機(jī)應(yīng)用,2006, 27(4):468-470.
[7] THALHAMMER T, SEHREFL M. Mohania active data warehouses complementing OLAP with analysis rules[J]. Data & Knowledge Engineering,2001,39(3):12-19.
[8] 周晶晶,樂嘉錦,林穎瑩.基于實(shí)時(shí)數(shù)據(jù)倉庫的企業(yè)架構(gòu)的研究[J].計(jì)算機(jī)科學(xué),2006,33(9):140-142.
[9] 尤玉林,張憲民.一種可靠的數(shù)據(jù)倉庫中ETL策略與架構(gòu)設(shè)計(jì)[J].計(jì)算機(jī)工程與應(yīng)用,2005,41(10):173-174.
[10] 杜遠(yuǎn)宗,張金剛,孫海善.ETL工具在建設(shè)數(shù)據(jù)倉庫中的應(yīng)用[J].中國科技信息,2005(8):2-4.
張林霞(1989— ),女,碩士生,主研5G移動通信系統(tǒng)總體技術(shù)、通信網(wǎng)測試技術(shù);
張治中(1972— ),博士生導(dǎo)師,主要研究方向?yàn)榈谌苿油ㄐ艤y試技術(shù)、寬帶信息網(wǎng)絡(luò)、NGN網(wǎng)絡(luò)等。
責(zé)任編輯:時(shí) 雯
Research and Implementation of Travel Services Platform Based on Data Warehouse
DENG Bingguang,ZHANG Linxia,ZHANG Zhizhong,CHENG Fang
(Chongqing University of Post and Telecommunications,Communication Networks Testing Technology Engineering Research Center,Chongqing 400065, China)
With analyzing the demand of statistic analysis in tourism projects, a scheme of tourist service platform based on the data warehouse is proposed. Moreover, the potential key technologies are illustrated in detail, including ETL (extraction transformation loading), data warehouse modeling, and the forms for reporting statistics. These provide an important theoretical support and practical basis for tourism services platform with the development of large data
data warehouse; ETL; tourism projects; forms for reporting statistics
國家“863”計(jì)劃項(xiàng)目(2014AA01A706);國家科技重大專項(xiàng)(2014ZX03001027;2012ZX03001021);重慶高校創(chuàng)新團(tuán)隊(duì)項(xiàng)目(KJTD201312);重慶市教委成果轉(zhuǎn)化重大項(xiàng)目(KJZH14103)
TN929.5;TP391
A
10.16280/j.videoe.2015.20.007
鄧炳光(1978— ),講師,主要研究方向?yàn)橥ㄐ啪W(wǎng)與測試技術(shù),
2015-05-21
【本文獻(xiàn)信息】鄧炳光,張林霞,張治中,等.基于數(shù)據(jù)倉庫的旅游服務(wù)平臺的設(shè)計(jì)與實(shí)現(xiàn)[J].電視技術(shù),2015,39(20).