亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)與機器學(xué)習(xí)的安檢通道開放數(shù)預(yù)測

        2020-12-23 05:47:19夏侯康王麗娟林勖江敏婷羅浩賢
        軟件 2020年10期
        關(guān)鍵詞:機器學(xué)習(xí)大數(shù)據(jù)

        夏侯康 王麗娟 林勖 江敏婷 羅浩賢

        摘? 要: 有效地預(yù)測安檢通道開放數(shù),對合理制定機場安檢排班有重要的指導(dǎo)意義,能夠提升機場安全保障和旅客體驗。隨著大數(shù)據(jù)的浪潮,大數(shù)據(jù)機器學(xué)習(xí)在各領(lǐng)域已有廣泛的應(yīng)用,本文將其應(yīng)用到了機場安檢通道開放數(shù)的預(yù)測上。結(jié)合安檢人數(shù)歷史數(shù)據(jù)和航班信息數(shù)據(jù),實現(xiàn)對安檢人數(shù)的預(yù)測,進而實現(xiàn)安檢通道口的預(yù)測,并對比多種算法預(yù)測效果。

        關(guān)鍵詞: 安檢通道數(shù);大數(shù)據(jù);機器學(xué)習(xí);XGBoost

        中圖分類號: TP181? ? 文獻標(biāo)識碼: A? ? DOI:10.3969/j.issn.1003-6970.2020.10.034

        本文著錄格式:夏侯康,王麗娟,林勖,等. 基于大數(shù)據(jù)與機器學(xué)習(xí)的安檢通道開放數(shù)預(yù)測[J]. 軟件,2020,41(10):137140

        【Abstract】: Effectively predicting the opening number of security inspection channels has important guiding significance for the reasonable formulation of airport security inspection schedules, and can improve airport security and passenger experience. With the wave of big data, big data machine learning has been widely used in various fields. This article applies it to the prediction of the opening number of airport security channels. Combining the historical data of security inspection number and flight information data, it can realize the prediction of security inspection number, and then realize the prediction of security inspection channel, and compare the prediction effects of various algorithms.

        【Key words】: Number of security check channels; Big data; Machine learning; XGBoost

        0? 引言

        隨著中國經(jīng)濟的快速發(fā)展,民航業(yè)數(shù)據(jù)呈現(xiàn)出了爆發(fā)式的增長。一個機場在生產(chǎn)運營的各個階段,都會源源不斷地產(chǎn)生數(shù)據(jù),同時系統(tǒng)和數(shù)據(jù)庫會把數(shù)據(jù)存儲下來,機場積累了大量各種各樣的數(shù)據(jù)。如何在旅客吞吐量高速增長的情況下,使用機場內(nèi)有限的保障資源,仍然保持良好的服務(wù)質(zhì)量,這是一個值得研究的問題。目前,大多數(shù)國內(nèi)機場仍然通過人工調(diào)配設(shè)備和加大人力資源來盡可能地滿足旅客安全需要與服務(wù)體驗。這種方式,存在相當(dāng)多弊端。為了更科學(xué)的提升機場的管理效能,使旅客的出行體驗更加便捷、高效和個性化,需要新的技術(shù)體系去實現(xiàn)[1-2]。

        1? 大數(shù)據(jù)與機器學(xué)習(xí)平臺搭建

        對于樞紐機場來說,每天安檢人數(shù)龐大,安檢過程中產(chǎn)生的數(shù)據(jù)量通常會達到千萬條,甚至上億條。Hadoop是Apache Foundation開發(fā)的分布式系統(tǒng)基礎(chǔ)設(shè)施,其軟件框架能夠處理大量數(shù)據(jù)[3]。HDFS(Hadoop Distribu-tedFileSystem)分布式文件系統(tǒng)為海量數(shù)據(jù)提供了存儲空間,MapReduce有效提高了大數(shù)據(jù)的處理速度[4-6]。

        大數(shù)據(jù)技術(shù)下的機器學(xué)習(xí)平臺支持海量數(shù)據(jù)處理,利用并行計算,構(gòu)建模型流程,支持常見的機器學(xué)習(xí)算法,支持常用的特征工程組件。本文選擇了 mllib,mllib是spark中的機器學(xué)習(xí)庫,包括了大量的機器學(xué)習(xí)算法。通過簡單的配置可以進行模型訓(xùn)練和評估,支持決策樹和神經(jīng)網(wǎng)絡(luò)等多種模型訓(xùn)練。大數(shù)據(jù)技術(shù)下的機器學(xué)習(xí)平臺如圖1所示。

        2? 算法綜述

        GBDT(Grdient Boosted Regression Tree)是一種迭代決策樹算法,通過構(gòu)造一組弱的學(xué)習(xí)器(樹),并把多棵決策樹的結(jié)果累加起來作為最終的預(yù)測進行輸出[7]。XGBoost是基于GBDT梯度提升框架提出的一種可擴展的Boosting算法,是大型分布式通用GBDT庫,實現(xiàn)GBDT和一些在梯度廣義線性機器學(xué)習(xí)的集成算法框架,能利用 CPU 多線程并行加速樹的構(gòu)建,支持 YARN、MPI等多個平臺,實現(xiàn)分布式運算[8]。

        模型的參數(shù)用來讓數(shù)據(jù)更好的擬合預(yù)測結(jié)果,改變參數(shù)就是改變了已有模型。目標(biāo)函數(shù)在保證模型泛化能力同時將代價降至最小。XGBoost算法在梯度提升樹的基礎(chǔ)上采用前向分布算法,初始提升樹

        XGBoost算法的優(yōu)勢在于設(shè)計和構(gòu)建高度可擴展的端到端提升樹,提出了一個合理加權(quán)分位數(shù)略圖(weighted quantile sketch)來計算候選集,它引入了一種新穎的稀疏感知算法用于并行樹學(xué)習(xí)。它提出了一個有效的用于核外樹形學(xué)習(xí)的緩存感知塊結(jié)構(gòu),并用緩存加速尋找排序后被打亂的索引的列數(shù)據(jù)。

        3? 基于大數(shù)據(jù)與機器學(xué)習(xí)的安檢通道數(shù)預(yù)測

        3.1? 數(shù)據(jù)處理及模型構(gòu)建

        3.1.1? 數(shù)據(jù)獲取

        利用大數(shù)據(jù)hadoop平臺對國內(nèi)某樞紐機場的海量數(shù)據(jù)進行處理,獲取所需要的原始數(shù)據(jù),選取2018年9月至2019年9月安檢和航班信息相關(guān)數(shù)據(jù),并進行探索分析。

        3.1.2? 數(shù)據(jù)清洗

        為了避免數(shù)據(jù)不穩(wěn)定對預(yù)測效果造成影響,結(jié)合業(yè)務(wù)知識和分析結(jié)果,對原始數(shù)據(jù)進行了預(yù)處理,如圖2所示。

        3.1.3? 特征工程

        分析歷史安檢旅客數(shù)據(jù)發(fā)現(xiàn):(1)每個區(qū)域每天的安檢數(shù)據(jù)呈現(xiàn)規(guī)律性,所以將安檢人數(shù)統(tǒng)計值作為了特征;(2)安檢人數(shù)受時間、節(jié)假日、航季等因素影響,因此,分區(qū)域選取了時間相關(guān)、節(jié)假日、航季等數(shù)據(jù)作為了基礎(chǔ)特征。航班架次與旅客人數(shù)有著直接的關(guān)系,結(jié)合國內(nèi)樞紐機場推薦的值機時間及對歷史數(shù)據(jù)的統(tǒng)計分析,將航班計劃起飛前2小時的航班都記為正在安檢的航班,計算得到的航班架次數(shù)據(jù)作為了特征。

        統(tǒng)計分析航班歷史運載旅客數(shù)據(jù),獲得該航班在每個時間片人數(shù)的分布,累計每個航班的分布情況,并結(jié)合當(dāng)日安檢人數(shù)總數(shù),得到了旅客分布。

        3.1.4? 模型構(gòu)建

        在開始訓(xùn)練之前,首先劃分訓(xùn)練集、測試集和預(yù)測集,對數(shù)據(jù)進行歸一化處理。對于具有相同規(guī)律的數(shù)據(jù)集以外的數(shù)據(jù)(數(shù)據(jù)集中沒有出現(xiàn)的數(shù)據(jù)),訓(xùn)練后的模型可以給出適當(dāng)?shù)妮敵?。本文對模型通過Hyperopt 進行參數(shù)自動調(diào)優(yōu),對模型不斷進行凸優(yōu)化,在多次快速迭代中選出最優(yōu)超參數(shù)組合。

        3.2? 預(yù)測結(jié)果與分析

        本文對國內(nèi)某樞紐機場的兩個安檢區(qū)域,以10 min為粒度,進行人數(shù)預(yù)測。利用訓(xùn)練集和內(nèi)部測試集(2018年9月1日-2019年9月22日),通過調(diào)參,得到每個區(qū)域的最優(yōu)參數(shù)及模型,預(yù)測(2019年9月23日-2019年9月29日)。通過均方根誤差(RMSE)評估預(yù)測精度及預(yù)測方法表現(xiàn)力。

        (1)真實數(shù)據(jù)形態(tài)及趨勢

        (2)人數(shù)預(yù)測結(jié)果分析

        利用XGBoost算法對兩個區(qū)域安檢人數(shù)進行預(yù)測,預(yù)測結(jié)果與真實值對比圖如圖4所示??梢钥闯?,XGBoost算法能夠很好的擬合出數(shù)據(jù)趨勢和周期,這說明該模型具有較好的普適性和泛化能力。

        有較好的表現(xiàn),平均誤差雖有波動,但總體均低于5%。

        3.3? 通道數(shù)轉(zhuǎn)換及分析

        選取4.2節(jié)中安檢人數(shù)預(yù)測結(jié)果,結(jié)合樞紐機場安檢業(yè)務(wù)規(guī)則,分區(qū)域進行通道數(shù)的換算。轉(zhuǎn)換公式如下:

        通道口的開關(guān)取決于安檢人數(shù)的多少,通過預(yù)測的人數(shù)轉(zhuǎn)換得到的通道數(shù),更加合理科學(xué)?;诖髷?shù)據(jù)和機器學(xué)習(xí)技術(shù)的安檢通道數(shù)預(yù)測,能夠解決旅客在安檢區(qū)域長時間滯留的問題,亦能為安檢工作人員調(diào)配和工作分配提供科學(xué)性導(dǎo)和數(shù)據(jù)支持。

        4? 結(jié)論

        通過大數(shù)據(jù)機器學(xué)習(xí)技術(shù),挖掘安檢區(qū)域歷史人數(shù)信息和航班動態(tài)數(shù)據(jù)中潛在的規(guī)律,以預(yù)測未來一段時間該區(qū)域的旅客人數(shù)變化,進而預(yù)測安檢通道數(shù),合理的調(diào)配人力和物力資源,提升旅客在機場的體驗度,也能夠及時避免因旅客長時間滯留而引發(fā)的安全性事件。

        參考文獻

        [1]李向明. 大數(shù)據(jù)在機場運營管理中的運用研究[J]. 空運商務(wù), 2017(3): 20-22.

        [2]?;? 大數(shù)據(jù)時代下的機場旅客數(shù)據(jù)價值挖掘[J]. 綜合運輸, 2015, 37(11): 92-95+135.

        [3]彭仁通. Hadoop的核心技術(shù)研究或概述[J]. 科技廣場, 2012(5): 41-43.

        [4]Condie T, Mineiro P, Polyzotis N, et al. Machine learning for big data[C]//2013.

        [5]陳康, 向勇, 喻超. 大數(shù)據(jù)時代機器學(xué)習(xí)的新趨勢[J]. 電信科學(xué), 2012, 28(12): 88-95.

        [6]李尚晉. 大數(shù)據(jù)環(huán)境下的機器學(xué)習(xí)研究[J]. 電子世界, 2018(1): 62-63.

        [7]Friedman J H . Greedy Function Approximation: A Gradient Boosting Machine[J]. The Annals of Statistics, 2001, 29(5): 1189-1232.

        [8]Tianqi Chen, Carlos Guestrin. XGBoost: A Scalable Tree Boosting System. knowledge discovery and data mining, 2016.

        猜你喜歡
        機器學(xué)習(xí)大數(shù)據(jù)
        基于詞典與機器學(xué)習(xí)的中文微博情感分析
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        基于支持向量機的金融數(shù)據(jù)分析研究
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        午夜亚洲国产精品福利| 国精产品一区一区三区有限公司杨| 日本做受高潮好舒服视频 | 亚洲丁香五月激情综合| 国产精品亚洲在钱视频| 中国亚洲一区二区视频| 免费国产黄网站在线观看可以下载| 亚洲V日韩V精品v无码专区小说 | 亚洲亚洲亚洲亚洲亚洲天堂| 少妇又紧又爽丰满在线视频| 国产放荡对白视频在线观看| 国产成人www免费人成看片| 精品三级久久久久久久| 国产高潮迭起久久av| 人妻少妇久久久久久97人妻| 欧美喷潮久久久xxxxx| 国产毛片A啊久久久久| 精品一区二区av在线| 国产精品久久久久9999吃药| 亚洲精品老司机在线观看| 蜜桃一区二区免费视频观看 | 97超级碰碰碰久久久观看| 国产蜜桃传媒在线观看| 欧美综合天天夜夜久久| 人人做人人妻人人精| 日本女同伦理片在线观看| 99久久99久久久精品蜜桃| 首页 综合国产 亚洲 丝袜 | 男女下面进入的视频| 亚洲欧美在线视频| 午夜少妇高潮在线观看视频| 内射人妻视频国内| 久久久精品国产亚洲成人满18免费网站| 丝袜美腿久久亚洲一区| 日韩精品成人区中文字幕| 海角国精产品一区一区三区糖心 | 一本大道东京热无码| 中文字幕乱码中文乱码毛片| 亚洲av毛片在线免费观看| 免费看黄色电影| 日本一区二区三区中文字幕最新|