亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)與機器學(xué)習(xí)的安檢通道開放數(shù)預(yù)測

        2020-12-23 05:47:19夏侯康王麗娟林勖江敏婷羅浩賢
        軟件 2020年10期
        關(guān)鍵詞:機器學(xué)習(xí)大數(shù)據(jù)

        夏侯康 王麗娟 林勖 江敏婷 羅浩賢

        摘? 要: 有效地預(yù)測安檢通道開放數(shù),對合理制定機場安檢排班有重要的指導(dǎo)意義,能夠提升機場安全保障和旅客體驗。隨著大數(shù)據(jù)的浪潮,大數(shù)據(jù)機器學(xué)習(xí)在各領(lǐng)域已有廣泛的應(yīng)用,本文將其應(yīng)用到了機場安檢通道開放數(shù)的預(yù)測上。結(jié)合安檢人數(shù)歷史數(shù)據(jù)和航班信息數(shù)據(jù),實現(xiàn)對安檢人數(shù)的預(yù)測,進而實現(xiàn)安檢通道口的預(yù)測,并對比多種算法預(yù)測效果。

        關(guān)鍵詞: 安檢通道數(shù);大數(shù)據(jù);機器學(xué)習(xí);XGBoost

        中圖分類號: TP181? ? 文獻標(biāo)識碼: A? ? DOI:10.3969/j.issn.1003-6970.2020.10.034

        本文著錄格式:夏侯康,王麗娟,林勖,等. 基于大數(shù)據(jù)與機器學(xué)習(xí)的安檢通道開放數(shù)預(yù)測[J]. 軟件,2020,41(10):137140

        【Abstract】: Effectively predicting the opening number of security inspection channels has important guiding significance for the reasonable formulation of airport security inspection schedules, and can improve airport security and passenger experience. With the wave of big data, big data machine learning has been widely used in various fields. This article applies it to the prediction of the opening number of airport security channels. Combining the historical data of security inspection number and flight information data, it can realize the prediction of security inspection number, and then realize the prediction of security inspection channel, and compare the prediction effects of various algorithms.

        【Key words】: Number of security check channels; Big data; Machine learning; XGBoost

        0? 引言

        隨著中國經(jīng)濟的快速發(fā)展,民航業(yè)數(shù)據(jù)呈現(xiàn)出了爆發(fā)式的增長。一個機場在生產(chǎn)運營的各個階段,都會源源不斷地產(chǎn)生數(shù)據(jù),同時系統(tǒng)和數(shù)據(jù)庫會把數(shù)據(jù)存儲下來,機場積累了大量各種各樣的數(shù)據(jù)。如何在旅客吞吐量高速增長的情況下,使用機場內(nèi)有限的保障資源,仍然保持良好的服務(wù)質(zhì)量,這是一個值得研究的問題。目前,大多數(shù)國內(nèi)機場仍然通過人工調(diào)配設(shè)備和加大人力資源來盡可能地滿足旅客安全需要與服務(wù)體驗。這種方式,存在相當(dāng)多弊端。為了更科學(xué)的提升機場的管理效能,使旅客的出行體驗更加便捷、高效和個性化,需要新的技術(shù)體系去實現(xiàn)[1-2]。

        1? 大數(shù)據(jù)與機器學(xué)習(xí)平臺搭建

        對于樞紐機場來說,每天安檢人數(shù)龐大,安檢過程中產(chǎn)生的數(shù)據(jù)量通常會達到千萬條,甚至上億條。Hadoop是Apache Foundation開發(fā)的分布式系統(tǒng)基礎(chǔ)設(shè)施,其軟件框架能夠處理大量數(shù)據(jù)[3]。HDFS(Hadoop Distribu-tedFileSystem)分布式文件系統(tǒng)為海量數(shù)據(jù)提供了存儲空間,MapReduce有效提高了大數(shù)據(jù)的處理速度[4-6]。

        大數(shù)據(jù)技術(shù)下的機器學(xué)習(xí)平臺支持海量數(shù)據(jù)處理,利用并行計算,構(gòu)建模型流程,支持常見的機器學(xué)習(xí)算法,支持常用的特征工程組件。本文選擇了 mllib,mllib是spark中的機器學(xué)習(xí)庫,包括了大量的機器學(xué)習(xí)算法。通過簡單的配置可以進行模型訓(xùn)練和評估,支持決策樹和神經(jīng)網(wǎng)絡(luò)等多種模型訓(xùn)練。大數(shù)據(jù)技術(shù)下的機器學(xué)習(xí)平臺如圖1所示。

        2? 算法綜述

        GBDT(Grdient Boosted Regression Tree)是一種迭代決策樹算法,通過構(gòu)造一組弱的學(xué)習(xí)器(樹),并把多棵決策樹的結(jié)果累加起來作為最終的預(yù)測進行輸出[7]。XGBoost是基于GBDT梯度提升框架提出的一種可擴展的Boosting算法,是大型分布式通用GBDT庫,實現(xiàn)GBDT和一些在梯度廣義線性機器學(xué)習(xí)的集成算法框架,能利用 CPU 多線程并行加速樹的構(gòu)建,支持 YARN、MPI等多個平臺,實現(xiàn)分布式運算[8]。

        模型的參數(shù)用來讓數(shù)據(jù)更好的擬合預(yù)測結(jié)果,改變參數(shù)就是改變了已有模型。目標(biāo)函數(shù)在保證模型泛化能力同時將代價降至最小。XGBoost算法在梯度提升樹的基礎(chǔ)上采用前向分布算法,初始提升樹

        XGBoost算法的優(yōu)勢在于設(shè)計和構(gòu)建高度可擴展的端到端提升樹,提出了一個合理加權(quán)分位數(shù)略圖(weighted quantile sketch)來計算候選集,它引入了一種新穎的稀疏感知算法用于并行樹學(xué)習(xí)。它提出了一個有效的用于核外樹形學(xué)習(xí)的緩存感知塊結(jié)構(gòu),并用緩存加速尋找排序后被打亂的索引的列數(shù)據(jù)。

        3? 基于大數(shù)據(jù)與機器學(xué)習(xí)的安檢通道數(shù)預(yù)測

        3.1? 數(shù)據(jù)處理及模型構(gòu)建

        3.1.1? 數(shù)據(jù)獲取

        利用大數(shù)據(jù)hadoop平臺對國內(nèi)某樞紐機場的海量數(shù)據(jù)進行處理,獲取所需要的原始數(shù)據(jù),選取2018年9月至2019年9月安檢和航班信息相關(guān)數(shù)據(jù),并進行探索分析。

        3.1.2? 數(shù)據(jù)清洗

        為了避免數(shù)據(jù)不穩(wěn)定對預(yù)測效果造成影響,結(jié)合業(yè)務(wù)知識和分析結(jié)果,對原始數(shù)據(jù)進行了預(yù)處理,如圖2所示。

        3.1.3? 特征工程

        分析歷史安檢旅客數(shù)據(jù)發(fā)現(xiàn):(1)每個區(qū)域每天的安檢數(shù)據(jù)呈現(xiàn)規(guī)律性,所以將安檢人數(shù)統(tǒng)計值作為了特征;(2)安檢人數(shù)受時間、節(jié)假日、航季等因素影響,因此,分區(qū)域選取了時間相關(guān)、節(jié)假日、航季等數(shù)據(jù)作為了基礎(chǔ)特征。航班架次與旅客人數(shù)有著直接的關(guān)系,結(jié)合國內(nèi)樞紐機場推薦的值機時間及對歷史數(shù)據(jù)的統(tǒng)計分析,將航班計劃起飛前2小時的航班都記為正在安檢的航班,計算得到的航班架次數(shù)據(jù)作為了特征。

        統(tǒng)計分析航班歷史運載旅客數(shù)據(jù),獲得該航班在每個時間片人數(shù)的分布,累計每個航班的分布情況,并結(jié)合當(dāng)日安檢人數(shù)總數(shù),得到了旅客分布。

        3.1.4? 模型構(gòu)建

        在開始訓(xùn)練之前,首先劃分訓(xùn)練集、測試集和預(yù)測集,對數(shù)據(jù)進行歸一化處理。對于具有相同規(guī)律的數(shù)據(jù)集以外的數(shù)據(jù)(數(shù)據(jù)集中沒有出現(xiàn)的數(shù)據(jù)),訓(xùn)練后的模型可以給出適當(dāng)?shù)妮敵?。本文對模型通過Hyperopt 進行參數(shù)自動調(diào)優(yōu),對模型不斷進行凸優(yōu)化,在多次快速迭代中選出最優(yōu)超參數(shù)組合。

        3.2? 預(yù)測結(jié)果與分析

        本文對國內(nèi)某樞紐機場的兩個安檢區(qū)域,以10 min為粒度,進行人數(shù)預(yù)測。利用訓(xùn)練集和內(nèi)部測試集(2018年9月1日-2019年9月22日),通過調(diào)參,得到每個區(qū)域的最優(yōu)參數(shù)及模型,預(yù)測(2019年9月23日-2019年9月29日)。通過均方根誤差(RMSE)評估預(yù)測精度及預(yù)測方法表現(xiàn)力。

        (1)真實數(shù)據(jù)形態(tài)及趨勢

        (2)人數(shù)預(yù)測結(jié)果分析

        利用XGBoost算法對兩個區(qū)域安檢人數(shù)進行預(yù)測,預(yù)測結(jié)果與真實值對比圖如圖4所示??梢钥闯?,XGBoost算法能夠很好的擬合出數(shù)據(jù)趨勢和周期,這說明該模型具有較好的普適性和泛化能力。

        有較好的表現(xiàn),平均誤差雖有波動,但總體均低于5%。

        3.3? 通道數(shù)轉(zhuǎn)換及分析

        選取4.2節(jié)中安檢人數(shù)預(yù)測結(jié)果,結(jié)合樞紐機場安檢業(yè)務(wù)規(guī)則,分區(qū)域進行通道數(shù)的換算。轉(zhuǎn)換公式如下:

        通道口的開關(guān)取決于安檢人數(shù)的多少,通過預(yù)測的人數(shù)轉(zhuǎn)換得到的通道數(shù),更加合理科學(xué)?;诖髷?shù)據(jù)和機器學(xué)習(xí)技術(shù)的安檢通道數(shù)預(yù)測,能夠解決旅客在安檢區(qū)域長時間滯留的問題,亦能為安檢工作人員調(diào)配和工作分配提供科學(xué)性導(dǎo)和數(shù)據(jù)支持。

        4? 結(jié)論

        通過大數(shù)據(jù)機器學(xué)習(xí)技術(shù),挖掘安檢區(qū)域歷史人數(shù)信息和航班動態(tài)數(shù)據(jù)中潛在的規(guī)律,以預(yù)測未來一段時間該區(qū)域的旅客人數(shù)變化,進而預(yù)測安檢通道數(shù),合理的調(diào)配人力和物力資源,提升旅客在機場的體驗度,也能夠及時避免因旅客長時間滯留而引發(fā)的安全性事件。

        參考文獻

        [1]李向明. 大數(shù)據(jù)在機場運營管理中的運用研究[J]. 空運商務(wù), 2017(3): 20-22.

        [2]?;? 大數(shù)據(jù)時代下的機場旅客數(shù)據(jù)價值挖掘[J]. 綜合運輸, 2015, 37(11): 92-95+135.

        [3]彭仁通. Hadoop的核心技術(shù)研究或概述[J]. 科技廣場, 2012(5): 41-43.

        [4]Condie T, Mineiro P, Polyzotis N, et al. Machine learning for big data[C]//2013.

        [5]陳康, 向勇, 喻超. 大數(shù)據(jù)時代機器學(xué)習(xí)的新趨勢[J]. 電信科學(xué), 2012, 28(12): 88-95.

        [6]李尚晉. 大數(shù)據(jù)環(huán)境下的機器學(xué)習(xí)研究[J]. 電子世界, 2018(1): 62-63.

        [7]Friedman J H . Greedy Function Approximation: A Gradient Boosting Machine[J]. The Annals of Statistics, 2001, 29(5): 1189-1232.

        [8]Tianqi Chen, Carlos Guestrin. XGBoost: A Scalable Tree Boosting System. knowledge discovery and data mining, 2016.

        猜你喜歡
        機器學(xué)習(xí)大數(shù)據(jù)
        基于詞典與機器學(xué)習(xí)的中文微博情感分析
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        基于支持向量機的金融數(shù)據(jù)分析研究
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        永久免费毛片在线播放| 亚洲国产一区二区中文字幕| 少妇性l交大片免费1一少 | 欧美日韩激情在线一区二区| 中文字幕色视频在线播放| 国产三级在线观看高清| 中文字幕视频一区懂色| 欧美激情视频一区二区三区免费| 97久久精品无码一区二区天美 | 放荡人妻一区二区三区| 国产一级二级三级在线观看视频| 丰满熟妇乱又伦精品| 国产成人亚洲精品无码av大片| 欧美日韩久久久精品a片| 免费a级毛片无码a∨免费| 加勒比久草免费在线观看| 手机看片自拍偷拍福利| 久久婷婷五月国产色综合| 国产第一页屁屁影院| 国产啪精品视频网站免| 青青久在线视频免费视频| 亚洲国产精品18久久久久久| 国产成人久久精品激情| 亚洲精品理论电影在线观看| 日本97色视频日本熟妇视频 | 欧美大屁股xxxxhd黑色| 日本女优中文字幕看片 | 中文字幕人妻av四季| 亚洲熟女综合色一区二区三区| 国产99久久亚洲综合精品| 98在线视频噜噜噜国产| 果冻国产一区二区三区| 中文字字幕在线中文乱码解| 99视频30精品视频在线观看| 男女肉粗暴进来120秒动态图| 麻豆人妻无码性色AV专区| 一区二区三区视频亚洲| 欧洲美女熟乱av| 丰满少妇愉情中文字幕18禁片| 国产乱子伦精品免费女| 人妻体体内射精一区中文字幕|