亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的機(jī)票價(jià)格預(yù)測研究

        2020-09-18 09:13:32單文煜吳垠陳鵬
        現(xiàn)代計(jì)算機(jī) 2020年22期
        關(guān)鍵詞:融合模型

        單文煜,吳垠,陳鵬

        (1.成都移花互動(dòng)科技有限公司,成都 610041;2.成都市委辦公廳,成都 610041;3.西華大學(xué)計(jì)算機(jī)與軟件工程學(xué)院,成都 610039)

        0 引言

        因?yàn)槊窈绞袌龅某浞指偁幰约昂娇展鞠鄬?duì)先進(jìn)的收益管理方法,機(jī)票價(jià)格時(shí)常會(huì)隨時(shí)間大幅波動(dòng)。面對(duì)這種不確定性,部分消費(fèi)者尤其是個(gè)旅消費(fèi)者,在做購買決策時(shí)會(huì)猶豫怕買貴,而OTA(Online Travel Agency)在銷售過程中,如果能夠適當(dāng)提供一些確定性,就可以打消用戶疑慮,提高購買轉(zhuǎn)化。出于這個(gè)目的,我們開始了機(jī)票價(jià)格預(yù)測的研究,并最終變成我們產(chǎn)品中的功能,更好地服務(wù)了用戶,為部分價(jià)格敏感型用戶提供更多選擇,也讓用戶放心下單。

        價(jià)格預(yù)測本質(zhì)是一個(gè)回歸問題,現(xiàn)在機(jī)器學(xué)習(xí)領(lǐng)域已經(jīng)有了很多成熟方法來應(yīng)對(duì)各種回歸問題,諸如線性回歸、決策樹回歸、支持向量機(jī)回歸、梯度提升回歸、隨機(jī)森林回歸、XGBoost 回歸等。

        而要在實(shí)際應(yīng)用中取得良好效果,主要取決與兩點(diǎn):

        (1)擁有足夠多高質(zhì)量數(shù)據(jù)。正所謂garbage in,garbage out,一些遠(yuǎn)離業(yè)界的研究因?yàn)榭陀^條件受限,往往只能得到短時(shí)間的小范圍的數(shù)據(jù)。在這樣的數(shù)據(jù)上得出的模型,很難實(shí)際應(yīng)用。

        (2)對(duì)所研究問題的業(yè)務(wù)有足夠深刻的理解。機(jī)器學(xué)習(xí)本身就是一項(xiàng)與經(jīng)驗(yàn)關(guān)聯(lián)十分密切的技術(shù),我們?cè)谶x擇機(jī)器學(xué)習(xí)算法時(shí)所做出的一些決定是否恰當(dāng),與算法的優(yōu)化或技術(shù)層面關(guān)系并不大,有時(shí)對(duì)業(yè)務(wù)細(xì)節(jié)的掌握,才是踩準(zhǔn)方法選擇與參數(shù)優(yōu)化方向的關(guān)鍵。

        之前已有不少學(xué)者進(jìn)行過這方面的研究,有的采用時(shí)間序列分析[1],有的采用貝葉斯算法[2],有的使用CNN[3],都取得了不錯(cuò)的效果。但他們都有上述兩方面的不足。

        我們作為中國移動(dòng)互聯(lián)網(wǎng)的早期參與者,在線旅行行業(yè)的創(chuàng)新型企業(yè),自2012 年開始積累了大量的票價(jià)數(shù)據(jù),也有能力從互聯(lián)網(wǎng)上獲取更多的數(shù)據(jù)。同時(shí),我們作為旅行行業(yè)一線工作者,對(duì)整個(gè)行業(yè),包括供應(yīng)方、分銷體系、消費(fèi)者和監(jiān)管機(jī)構(gòu)都十分了解,是最能理解機(jī)票價(jià)格是如何構(gòu)成,如何變化的那群人。這些積累對(duì)我們進(jìn)行這項(xiàng)研究起了非常積極的作用。

        1 數(shù)據(jù)準(zhǔn)備

        1.1 數(shù)據(jù)獲取

        數(shù)據(jù)全都取自歷史業(yè)務(wù)數(shù)據(jù)。數(shù)據(jù)來源有兩方面,一是機(jī)票銷售的業(yè)務(wù)數(shù)據(jù),這部分通過中國航信的API 接口查詢獲得,這種方式數(shù)據(jù)準(zhǔn)確,但價(jià)格高;二是競爭對(duì)手的價(jià)格監(jiān)控?cái)?shù)據(jù),這部分通過爬蟲從各大OTA 網(wǎng)站頁面上獲得,這種方式數(shù)據(jù)不完全可靠,但價(jià)格相對(duì)低。

        中國現(xiàn)在共有超過4000 個(gè)國內(nèi)定期航班,數(shù)據(jù)量十分龐大,選取其中最有代表性的一部分進(jìn)行研究已經(jīng)足夠。我們選取年旅客吞吐量超過100 萬人的主要機(jī)場92 個(gè),將各主要機(jī)場之間的航班納入分析范圍,提取了2019 年全年每天每個(gè)航班未來60 天的經(jīng)濟(jì)艙價(jià)格數(shù)據(jù)。

        1.2 爬蟲關(guān)鍵技術(shù)

        利用網(wǎng)絡(luò)爬蟲獲取如此大量的數(shù)據(jù),會(huì)碰到諸多障礙:

        (1)IP 限制。單IP 大量查詢很容易觸發(fā)反爬蟲機(jī)制,比較好的解決方案是使用分布式爬蟲,部署在撥號(hào)VPS 上

        (2)動(dòng)態(tài)頁面?,F(xiàn)代互聯(lián)網(wǎng)網(wǎng)站大量使用前后端分離,瀏覽器頁面渲染技術(shù),這使得純后端爬蟲得不到需要的數(shù)據(jù),應(yīng)對(duì)方案是使用Headless Browser 或?yàn)g覽器插件

        (3)驗(yàn)證碼。就算繞過諸多反制,業(yè)務(wù)請(qǐng)求過多還是會(huì)觸發(fā)機(jī)器人檢測(驗(yàn)證碼識(shí)別),為這種任務(wù)做自動(dòng)圖像識(shí)別其實(shí)得不償失,人工打碼是更簡單有效的方法。

        1.3 數(shù)據(jù)聚合

        所有這些數(shù)據(jù)在公司日常業(yè)務(wù)進(jìn)行的過程中,就已存入了業(yè)務(wù)數(shù)據(jù)庫,只是散落在多個(gè)數(shù)據(jù)庫與表中。在開始研究之前需要寫腳本歸集這些數(shù)據(jù)到一個(gè)表中,方便后面的使用。在這個(gè)過程中,數(shù)據(jù)格式統(tǒng)一、缺失數(shù)據(jù)清理就已經(jīng)完成,關(guān)鍵特征缺失的數(shù)據(jù)已經(jīng)被排除在外。

        2 特征工程

        2.1 選取數(shù)據(jù)特征

        作為機(jī)票銷售的一線從業(yè)者,這部分更多是從業(yè)務(wù)理解出發(fā),而不是從數(shù)據(jù)分析出發(fā),開始就已經(jīng)把想要的特征考慮好,然后去獲取的這些數(shù)據(jù)。

        民用航空領(lǐng)域的市場化程度非常高,機(jī)票價(jià)格最終是供求關(guān)系決定的。供應(yīng)端的決定因素主要有航線航司分布、航司與代理的博弈、代理之間的競爭以及主管部門的政策影響,這部分因素相對(duì)穩(wěn)定,短期內(nèi)不會(huì)有大的變化。所以需求端的影響更加重要,需求端的變化也更大,有熱門冷門線路的因素、有消費(fèi)偏好的因素、有臨時(shí)性計(jì)劃性的因素、還有重大節(jié)假的影響因素,歸納如表1。

        表1

        2.2 數(shù)據(jù)預(yù)處理

        按照上表將特征數(shù)據(jù)數(shù)值化,處理過后都是干凈的數(shù)據(jù)。還需要額外做的處理是:

        (1)通過均值分析,daysToFlight 大于 45 以后對(duì)價(jià)格影響很小,故刪除daysToFlight>45 的數(shù)據(jù)。

        (2)還需要額外處理的是價(jià)格。首先是異常值處理,通過查看頻數(shù)確定正常邊界,用邊界值填充異常價(jià)格。其次價(jià)格不服從正態(tài)分布,所以在進(jìn)行回歸之前,必須進(jìn)行轉(zhuǎn)換。嘗試用對(duì)數(shù)變換和無界約翰遜分布擬合,無界約翰遜分布擬合得更好。

        3 模型訓(xùn)練

        3.1 模型選擇

        我們選用了集成算法來訓(xùn)練模型。集成算法可以分為bagging 和boosting 兩種集成方式。

        Bagging 獨(dú)立訓(xùn)練(可并行)多個(gè)基分類器,基分類器相互之間獨(dú)立,然后用方法(投票法、平均法、stack?ing)把基分類器集成起來。代表算法為隨機(jī)森林,森林的每棵樹都是隨機(jī)的。預(yù)測最終結(jié)果取N 棵樹的平均,保證不會(huì)對(duì)某些特征的依賴。

        Boosting 串行訓(xùn)練基分類器,基分類器之間相互依賴,每次訓(xùn)練完一個(gè)分類器后調(diào)整權(quán)重,再訓(xùn)練下一個(gè)分類器。代表算法XGBoost,XGBoost 更加有效應(yīng)用了數(shù)值優(yōu)化,Kaggle 競賽平臺(tái)上的TOP 算法一半以上使用了XGBoost 算法。

        3.2 模型評(píng)價(jià)

        評(píng)價(jià)標(biāo)準(zhǔn)為MAE(Mean Absolute Error),使用經(jīng)典的五折交叉驗(yàn)劃分訓(xùn)練集和測試集,多輪驗(yàn)證來減小過擬合。訓(xùn)練代碼如下:

        測試結(jié)果如表2。

        表2

        相對(duì)于全部樣本712 的均價(jià)來說,這個(gè)預(yù)測精度表現(xiàn)比較好。

        4 模型融合

        模型融合是一種能在各種的機(jī)器學(xué)習(xí)任務(wù)上提高準(zhǔn)確率的強(qiáng)有力技術(shù),Kaggle 比賽中最常用的就是Stacking 融合,基于初級(jí)學(xué)習(xí)器的概率輸出,來訓(xùn)練次級(jí)學(xué)習(xí)器。一個(gè)Stacking 模型通過使用第一階段的預(yù)測作為特征,比相互獨(dú)立的訓(xùn)練模型能夠得到更多的信息。Stacking 訓(xùn)練過程:

        (1)拆解訓(xùn)練集。將訓(xùn)練數(shù)據(jù)隨機(jī)且大致均勻的拆為m 份

        (2)在拆解后的訓(xùn)練集上訓(xùn)練模型,同時(shí)在測試集上預(yù)測。利用m-1 份訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,預(yù)測剩余一份;在此過程進(jìn)行的同時(shí),利用相同的m-1 份數(shù)據(jù)訓(xùn)練,在真正的測試集上預(yù)測;如此重復(fù)m 次,將訓(xùn)練集上m 次結(jié)果疊加為1 列,將測試集上m 次結(jié)果取均值融合為1 列

        (3)使用k 個(gè)分類器重復(fù)2 過程。將分別得到k列訓(xùn)練集的預(yù)測結(jié)果,k 列測試集預(yù)測結(jié)果

        (4)訓(xùn)練過程3 得到的數(shù)據(jù)。將k 列訓(xùn)練集預(yù)測結(jié)果和訓(xùn)練集真實(shí)label 進(jìn)行訓(xùn)練,將k 列測試集預(yù)測結(jié)果作為測試集

        具體地,我們使用Stacking 融合隨機(jī)森林和XG?Boost 構(gòu)建一個(gè)新模型的過程如圖1 所示。

        圖1

        融合后得到的結(jié)果

        相較于融合之前又有了提高。對(duì)比融合前后價(jià)格預(yù)測實(shí)驗(yàn)結(jié)果,也可以觀察到明顯改進(jìn),以成都-廣州的某航班為例,預(yù)測1 月到9 月的起飛前7 天的價(jià)格,融合前后的預(yù)測效果對(duì)比如圖2。

        圖2

        5 結(jié)語

        本文基于大量的實(shí)際數(shù)據(jù)和行業(yè)知識(shí)構(gòu)建了預(yù)測模型,并在經(jīng)典模型上做了一定改進(jìn),在測試集上取得了良好的預(yù)測效果。該模型最終應(yīng)用到實(shí)際場景后,預(yù)測效果雖不及在測試集上的表現(xiàn),但MAE 仍然可以控制在50 以內(nèi),對(duì)買沒買貴的二元預(yù)測仍然有很高的準(zhǔn)確率,達(dá)到了改進(jìn)產(chǎn)品體驗(yàn),提高銷售轉(zhuǎn)化的目的。

        猜你喜歡
        融合模型
        一半模型
        一次函數(shù)“四融合”
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        重要模型『一線三等角』
        寬窄融合便攜箱IPFS500
        《融合》
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        国产一区二区三区免费在线视频| 国产亚洲日韩在线一区二区三区 | 久久精品国产自清天天线| 被欺辱的高贵人妻被中出| 国产一区精品二区三区四区| 国精产品一区一区二区三区mba | 国产 高潮 抽搐 正在播放 | 高清亚洲精品一区二区三区| 美女很黄很色国产av| 日韩精品无码中文字幕电影| 福利一区二区三区视频午夜观看| 男男互吃大丁视频网站| 亚洲乱码av乱码国产精品| 国产精品久久久国产盗摄| 日韩中文字幕中文有码| 日本久久一区二区三区高清| 在线a亚洲视频播放在线播放| 性欧美videofree高清精品| 欧美a级在线现免费观看| 精品国产夫妻自拍av| 亚洲一区二区三区内裤视| 亚洲综合区图片小说区| 亚洲成在人网av天堂| 日本av一区二区在线| 2019最新中文字幕在线观看| 精品国产三级a在线观看| 男女上床视频在线观看| 日本区一区二区三视频| 人人妻人人妻人人片av| 午夜视频网址| 成人国产av精品麻豆网址| 久久精品国产亚洲av麻豆图片| 精品国产成人亚洲午夜福利| 日韩精品一区二区三区四区视频| 人妻少妇满足中文字幕| 亚洲性啪啪无码av天堂| 亚洲成在人网av天堂| 老女人下面毛茸茸的视频| 亚欧美日韩香蕉在线播放视频| 制服丝袜视频国产一区| 久久青青草原一区网站|