亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于深度強化學習的酒店收益管理模型與方法

        2022-03-29 23:07:48劉顯峰于忠清
        關(guān)鍵詞:深度學習

        劉顯峰 于忠清

        文章編號:10069798(2022)02004708;DOI:10.13306/j.10069798.2022.02.008

        摘要:針對深度強化學習方法在酒店收益管理上的應用問題,本文基于深度強化學習,構(gòu)建了收益管理決策過程的模型與方法,通過對收益管理問題的馬爾可夫性質(zhì)進行了界定,描述了其模型和參數(shù)的統(tǒng)計學性質(zhì)。同時,編寫程序,實現(xiàn)基于深度強化學習的收益管理方法,并通過實驗,將本文方法與某供應商采用的傳統(tǒng)方法進行對比分析。分析結(jié)果表明,強化學習方法與人工收益管理方法相比,總收益提升了約15%,與傳統(tǒng)收益管理系統(tǒng)相比,總收益提升了約5%,說明傳統(tǒng)的收益管理方法成本較高,監(jiān)督學習模型過于強調(diào)全局泛化性,而增大了對最優(yōu)結(jié)果的估計方差,且計算量過大,而本文提出的方法能夠更快地梯度下降到最優(yōu)位置。該研究為企業(yè)在數(shù)據(jù)驅(qū)動下的精準定價和營銷決策提供了理論基礎(chǔ)。

        關(guān)鍵詞:深度學習;強化學習;酒店管理;收益管理

        中圖分類號:TP181;F719.2文獻標識碼:A

        收益管理(revenuemanagement,RM)是一種在微觀市場中預測顧客行為,并調(diào)整產(chǎn)品供應和價格以最大化收益增長的技術(shù)[1]。收益管理首先發(fā)源自機票預訂業(yè)務的需求,并已在酒店管理等多個領(lǐng)域得到應用[2]。收益管理的目標是找到每天、每周、每月、每季度和每年等銷售量、銷售價格和成本費用之間的最佳平衡,以獲得最大化的利潤[3]。20世紀90年代初,酒店業(yè)開始借鑒航空業(yè)的經(jīng)驗,研究收益管理在酒店管理中的應用,逐步發(fā)展出相關(guān)的理論,并設(shè)計出適合酒店行業(yè)的收益管理系統(tǒng)[4]。酒店收益管理的核心是浮動定價,需深入理解產(chǎn)品對于每一類細分市場客戶的價值,并進行差異化管理和優(yōu)化組合。通過對市場和客戶的細分,對不同目的的顧客在不同時刻的需求進行定量預測,通過優(yōu)化方法確定動態(tài)的控制,最終使酒店總收益最大化,確保酒店利潤的持續(xù)增長[5]?,F(xiàn)有收益管理方法有移動平均法、線性回歸法等[67]。收益管理系統(tǒng)是用于輔助收益管理過程的一系列計算機軟件。如何從酒店管理信息系統(tǒng)中獲取數(shù)據(jù),根據(jù)這些數(shù)據(jù)建立模型,并進行運算、分析和輔助決策,以便動態(tài)調(diào)整客房定價、細分市場和銷售渠道是值得研究的熱點問題[89]。強化學習是一種用于求解馬爾可夫鏈決定過程的機器學習算法[10]。通俗地說,強化學習算法訓練一個智能體,使它在一個環(huán)境中能夠做出最優(yōu)化的動作,以獲得最大收益[11]。強化學習通過給定環(huán)境、策略、收益進行訓練,使智能體學習到最大化收益的模型或價值函數(shù)。深度強化學習是將深度學習算法應用在強化學習問題上的方法[12]。深度學習的強大的函數(shù)逼近能力,大大增強了模型向最優(yōu)策略逼近的能力。對于定價問題,LIMJ等人[13]提出了電價的強化學習定價策略;JINJH等人[14]提出了道路定價策略;SHIB等人[15]提出了互聯(lián)網(wǎng)資源定價策略。目前,強化學習在收益管理領(lǐng)域的研究較少,A.GOSAVII等人[16]研究了一種在單航線機票收益管理上應用強化學習的方法;R.J.LAWHEAD等人[17]提出了航空收益管理問題上的一種新的策略梯度方法,但對深度強化學習方法在收益管理問題上的應用及在酒店收益管理中的應用研究卻沒有[18]。酒店行業(yè)對于一種便捷有效的收益管理方法有著迫切需求[19]。因此,本文基于深度強化學習,建立酒店收益管理模型,對酒店收益管理系統(tǒng)中的數(shù)據(jù)進行建模和分析,以期優(yōu)化收益管理。該研究有一定的理論和應用價值。

        1問題描述

        收益管理系統(tǒng)的主要功能包括數(shù)據(jù)收集、分析、預測和優(yōu)化。預測算法中包括平均、回歸等統(tǒng)計學算法,根據(jù)歷年銷售情況,統(tǒng)計預測未來市場狀況,而優(yōu)化系統(tǒng)根據(jù)未來市場狀況,提出合理的價格。收益管理系統(tǒng)優(yōu)化時,常參考4個重要參數(shù):即距離入住日期的天數(shù)、市場需求的等級、競爭對手的價格和剩余房間的數(shù)量,通過這些數(shù)據(jù)的收集和算法運算,收益管理系統(tǒng)提出最優(yōu)收益增長建議[20]。通過收益管理和強化學習問題之間要素的對應,可將收益管理問題表述為強化學習問題模型。收益管理的目標是最大化營業(yè)額和利潤,這兩個指標可以作為強化學習算法的優(yōu)化目標。模型契合的核心在于優(yōu)化目標的一致性,本文選擇營業(yè)額作為優(yōu)化目標。狀態(tài)對應預測參數(shù)和優(yōu)化參數(shù),預測參數(shù)包含時間和日期,優(yōu)化參數(shù)包含距離入住日期的天數(shù)、市場需求的等級、競爭對手的價格和剩余房間的數(shù)量等。在傳統(tǒng)收益管理系統(tǒng)運行過程中,對于應用強化學習算法的收益管理系統(tǒng),要盡可能多的采用這些參數(shù)做出預測和優(yōu)化,以做出更加準確的預測。由于這些因素客觀存在,無法直接控制,因此它們對應強化學習問題中的狀態(tài)。動作對應銷售價格和市場建議,銷售價格是酒店可以隨意改動的參數(shù),酒店通過主動控制該參數(shù),求得收益最大化,因此可把它當作動作。值得注意的是,無論環(huán)境如何,動作集合都不會改變,即定價的取值范圍不會改變,智能體對應的是進行預測和優(yōu)化收益管理系統(tǒng)。傳統(tǒng)收益管理系統(tǒng)的算法,按照狀態(tài)動作收益的模型運作,該模型預先定義好,而強化學習算法是從歷史經(jīng)驗中學習。

        強化學習算法有較大的靈活性,即使修改模型約束條件,強化學習算法仍能正確運行,并在新的約束條件下盡可能求得最優(yōu)解。目前,對各個參數(shù)的選擇是模仿收益管理問題的傳統(tǒng)模型,建立該模型要盡可能合理地選擇輸入輸出參數(shù),相同的參數(shù)選擇可以方便對結(jié)果進行比較。某些條件是否人為可控等酒店管理學較深專業(yè)內(nèi)容,是該領(lǐng)域一個開放性問題。

        2基于深度強化學習的酒店收益管理模型

        2.1MDP模型

        馬爾可夫決策過程(markovdecisionprocess,MDP)是序貫決策(sequentialdecision,SD)的數(shù)學模型,用于在系統(tǒng)狀態(tài)具有馬爾可夫性質(zhì)的環(huán)境中,模擬智能體可實現(xiàn)的隨機性策略與回報。在隨機過程中,馬爾可夫過程定義為

        式中,P{|}表示條件概率;Xtn表示tn時刻x的分布;x表示入住率。

        令顧客在t日預訂a日房間的入住率為X(t,a),考慮以下統(tǒng)計獨立性假設(shè)是否成立,即

        根據(jù)以上假設(shè)是否成立,將問題場景分為3種情況。若式(3)不成立,則過去的預訂情況會影響將來的預訂情況,依據(jù)預訂日或入住日均無法建立馬爾可夫過程,只能建立博弈論模型。若式(3)成立但式(2)不成立,則同一預訂日的不同入住日Xt,a和Xt,b彼此相關(guān),可依據(jù)預訂日Xt建立馬爾可夫過程模型,每個預訂日對應一個狀態(tài)Xt,SymboleB@

        若式(2)和式(3)均成立,則可依據(jù)入住日建立馬爾可夫過程模型,每個預訂日入住日組合Xt,a對應一個狀態(tài),因此可獨立描述Xt,a的MDP性質(zhì),即

        根據(jù)酒店運行的一般經(jīng)驗,顧客不會因為某日酒店訂滿而改變行程,也不會提前猜測酒店的打折行為,因此Xt,a具備統(tǒng)計獨立性,以上所述假設(shè)基本成立。

        在現(xiàn)實問題中界定收益管理系統(tǒng),做出決策時間點。在航空收益管理中,通常每賣出一張票,進行一次運算,并輸出新的動作,決定新的票價,然而酒店管理無法頻繁地更改房價,酒店根據(jù)銷售狀況,每天更改1次房價,本文采用這一常用定價方法。能否利用機器學習方法更頻繁地更改房價,屬于開放性問題。假如酒店在固定天數(shù)以前開始房間預訂,并以固定的時間間隔更改房價,那么總決策次數(shù)固定,該馬爾可夫鏈將是一個具有固定長度的分幕式任務,簡化了MDP的統(tǒng)計學性質(zhì)。

        定義狀態(tài)為s,則s是多個不同變量的連接,其包含以下部分:

        1)入住日的日期為te,該參數(shù)在整個幕中都不變。

        2)預訂日距離入住日期的天數(shù)為ts,該參數(shù)在每個幕中都以固定次序遞減。

        3)在特定日期出現(xiàn)的客觀狀態(tài),如市場需求的等級,競爭對手的價格等統(tǒng)稱為sr。這些客觀狀態(tài)可以看作環(huán)境根據(jù)t參數(shù)從一個分布中隨機取值,不受策略動作影響,也就是說,sr的分布只由te和ts直接表示,而與MDP性質(zhì)無關(guān),即

        4)受策略動作影響的狀態(tài)sm,即剩余房間的數(shù)量,剩余房間的數(shù)量是s中受馬爾可夫性質(zhì)影響的部分,它會因為做出決策的不同而變化,這些變量的值域不會互相影響,因此總的狀態(tài)集合S是它們分別的狀態(tài)集合的外積,即

        式中,T表示所有日期的集合。盡管sm已經(jīng)表現(xiàn)出馬爾可夫性質(zhì),加上統(tǒng)計獨立的參數(shù)te、ts和sr,相當于正交擴展了MDP狀態(tài)空間,其MDP性質(zhì)仍不變,且具有更好的方差。

        定義動作為a,a包含各個房型的價格和可超售的數(shù)量,即

        a={a1,a2,a3…}

        在每次銷售后,即更新的模型中,可以在賣出最大數(shù)量后,通過將價格定為非常大來阻止更多的超售,但在每天更新的模型中,無法采取這樣的策略,因此必須預先設(shè)定好最大允許的超售數(shù)量。由此可見,定時更新的模型更加粗粒化,需要對一段時間內(nèi)的均值作出統(tǒng)計學估計。

        定義收益為r,在收益管理問題中,收益就是總營業(yè)額,即所有動作的和。但值得注意的是,實際營業(yè)額還需要去除去訂了房而沒來入住的訂房數(shù),并考慮因超額訂房而安排到別的酒店入住的客人,因為這部分客人需要反過來墊付房費,所以從強化學習的性質(zhì)而言,應當加上一個較大的懲罰,以避免出現(xiàn)這種情況。

        既然sr是te,ts的隨機函數(shù),那么不考慮MDP性質(zhì)sm,可定義某預訂日對某入住日的收益先驗預測值r(te,ts),這個值互相之間不相關(guān),該先驗預測函數(shù),不考慮強化學習過程的傳統(tǒng)預測方法所逼近的函數(shù),應與此類傳統(tǒng)方法進行比較。

        在正確定義s、a和r之后,可得到強化學習模型的完整基礎(chǔ),并可推得狀態(tài)空間S和A的定義及價值函數(shù)V和Q的定義,即

        根據(jù)原問題的性質(zhì),推論s、a、r的恰當取值方式,并選擇合適的擬合函數(shù)。

        2.2數(shù)據(jù)模型

        根據(jù)具體業(yè)務,確定具體的狀態(tài)空間S和A,S構(gòu)成如前所述,是多個部分的外積。其中,所有數(shù)值,即日期、天數(shù)、市場等級、空房數(shù)都是有限取值的離散參數(shù)。因此,可以方便推論出S是一個有限集合。

        為了深度學習模型的穩(wěn)定性,可將其當作多個正則化的連續(xù)值構(gòu)成的狀態(tài)空間。在定義了正交隨機過程te和ts后,原連續(xù)可達的MDP過程sm被擴大和分割成多個不可達的狀態(tài)空間,每個te規(guī)定了一個起始點、一個結(jié)束點和其間的一組狀態(tài),不同組之間不可達;ts則指導對不同狀態(tài)下狀態(tài)轉(zhuǎn)移概率p做出更精確計算。對于表格方法,不同組之間不可達,要求必須遍歷所有組的方法,參數(shù)方法盡管可以泛化到其他組,但為了泛化性仍需要盡量多達到一些組。

        定義A。房價應該是從0到無窮大的一個連續(xù)取值,然而價值函數(shù)方法無法處理連續(xù)策略,因此必須提出一個離散策略方法。從酒店管理的角度考慮,可以定義一些離散的房價值,大概5~50個整值,而不是在連續(xù)分布中取極值。這不僅滿足了價值函數(shù)方法的需要,而且方便了酒店管理系統(tǒng)的設(shè)計,可考慮在策略梯度方法中使用連續(xù)策略空間。

        更大的問題是按渠道定價。收益管理學指出,酒店具有前臺、協(xié)議客戶、旅行社、在線旅行代理(onlinetravelagency,OTA)等多種銷售渠道。對每個銷售渠道制定不同價格是收益管理的重要部分,而且這些渠道價格并非互不相干,而是具備各種沒有規(guī)律的關(guān)聯(lián),例如協(xié)議客戶會要求在門市價格上的固定折扣,OTA會要求全網(wǎng)最低價等。

        另外,商務酒店經(jīng)常具有過多的房型,還經(jīng)常更改房型。以本文所采用的數(shù)據(jù)為例,當前該酒店具有26種房型,歷史上曾經(jīng)使用過的房型高達100多種,有時兩種房型其實是一種(大床房和雙人房可以互相切換),一種房型是兩種(通過早餐、服務的區(qū)別將同一房間以兩個價格出售),這些具體業(yè)務上的復雜性,使得為其確立一個平凡、可靠的狀態(tài)空間變得非常困難。

        為解決上述問題,本文對定價數(shù)據(jù)進行預處理,通過固定的數(shù)學公式,得到一個較為穩(wěn)定的狀態(tài)空間,或者定價體系。首先建立數(shù)個價格標準,每個標準價代表一類房型。標準價是強化學習模型中使用的a,同時,標準價也定義了區(qū)間和步長(如果需要離散策略)。將A收縮到有限狀態(tài)空間,對于標準價定義的每個房型,用標準價乘上一個固定百分比,得到每個房型的價格,然后再對每個協(xié)議和OTA等渠道乘上一個固定的折上折,最終得到實際需要的房價a*及其狀態(tài)空間A*。

        令C為計算實際房價的方法,則Ca=a*,可以將其更廣泛地表示為一個線性變換C:aC=a*,na*>n(a)

        如果該變換選取不當,會嚴重影響a*的方差,從而降低回報的期望,由于酒店收益管理人員能準確擬定定價體系,降低不同部分間的方差,并記錄和使用a,不能誤將真實價格a*輸入強化學習算法中,但回報r需要使用a*求得,在預處理下,這對正確獲得現(xiàn)實中的最大營業(yè)額至關(guān)重要。

        2.3函數(shù)模型

        選取合適的參數(shù)近似方法,逼近尚未定義的、真正想要學習的、具體定價策略π。首先決定是采用同軌策略還是離軌策略,對于軟件的可用性,同一個模型最好同時用兩種方法學習。當一套收益管理系統(tǒng)應用于同一家酒店時,運用其歷史數(shù)據(jù),學習出一套能夠初步應用的模型,在該模型運行過程中,再不斷根據(jù)環(huán)境變化修正模型持續(xù)學習。因此,盡量排除不能同時應用于兩種方法的模型。

        在價值函數(shù)方法和策略空間方法中進行選擇,對于價值函數(shù)方法,應考慮簡單的能夠進行離軌策略學習的方法,如Q學習及它的深度學習版本深度Q網(wǎng)絡(luò)(deepQnetwork,DQN)。

        值得注意的是,DQN網(wǎng)絡(luò)對每個可能取的動作都會有一個輸出,這對動作空間A非常大的模型不利。假設(shè)有4個標準價,每個標準價有20個取值,則a有160000種取值,不利于神經(jīng)網(wǎng)絡(luò)計算。另外,也可選擇為每個標準價的每種取值得到一個輸出,這樣DQN就有80個輸出,再從每一組20個中取最大值作為每個標準價的取值,這等同于將80個取值的向量空間,線性映射到160000個取值的實際動作空間中,但該映射不正確,由于多個標準價之間是非線性關(guān)系,所以該映射也是非線性關(guān)系,這種有少數(shù)輸出的價值網(wǎng)絡(luò)是真正價值網(wǎng)絡(luò)的線性近似。由于線性映射對特定非線性函數(shù)在某一點上的估計有偏差,對極值估計也有偏差,所以對能取得r極值的a的估計也有偏差。

        假如使用同軌策略方法,可期待讓樣本集中于所需要的極值點的鄰域,可使該線性近似在該點上的估計變?yōu)闊o偏差,從而正確估計極值點。此外,還需要離軌策略,而且離軌策略b與目標策略π無關(guān),而是取決于酒店在應用本文前所任意選擇的收益管理策略,很難期待該價值函數(shù)的映射在π的特定點上無偏差,因此應避免使用此方法。

        既然b同π完全無關(guān),那穩(wěn)定性問題就必須考慮,這種情況下參數(shù)會發(fā)散,其解決方案是采取完整的蒙特卡洛方法避免發(fā)散。鑒于MDP的鏈長完全確定,該問題的分幕式數(shù)學性質(zhì)和計算性能都可以得到保證。因此,排除所有時序差分方法,或者將權(quán)值λ定為1,確保蒙特卡洛性質(zhì)。

        若在價值函數(shù)方法上遇到困難,應考慮策略梯度方法。策略梯度方法看起來能給出更優(yōu)秀的性質(zhì),例如當直接用神經(jīng)網(wǎng)絡(luò)替代從價值函數(shù)中取極值的映射,就可正確表示其中的非線性性質(zhì),從而避免線性方法的偏差。因此,可直接采取簡單直觀的蒙特卡洛策略梯度方法REINFORCE,即

        該方法可高效處理所面臨的策略向量,用策略梯度向量加速結(jié)果的收斂,并且提供收斂性保證,而所具有的分幕數(shù)據(jù)確保了該方法的高效運行,也可采用改進的策略梯度方法,如ActorCritic方法,此方法在REINFORCE中加入狀態(tài)價值函數(shù),作為基線來改進收斂效率。-

        3基于強化學習的收益管理系統(tǒng)實現(xiàn)

        由于收益管理每一幕要在現(xiàn)實中經(jīng)歷數(shù)月,因此有必要將中間數(shù)據(jù)保存在數(shù)據(jù)庫中。根據(jù)已定義的s、a、r內(nèi)容,也可定義所需的表結(jié)構(gòu),表示數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)庫關(guān)系圖如圖1所示。-實際上,幾乎所有的強化學習方法都可被描述為廣義策略迭代(generalizedpolicyiteration,GPI),指代讓策略評估和策略改進相互作用的一般思路。策略總是基于特定的價值函數(shù)進行改進,價值函數(shù)也始終會向?qū)囟ú呗缘恼鎸崈r值函數(shù)收斂,而s,a,r,θ等參數(shù),則在評估和改進流程之間互相傳遞。鑒于所有參數(shù)都存儲在硬盤上,該流程可分割為兩個獨立的程序。

        定義所使用的π和V的數(shù)據(jù)結(jié)構(gòu)后,可以據(jù)此分割評估和改進流程,整個訓練循環(huán)流程包含兩個獨立

        運行的程序,整個訓練循環(huán)流程圖如圖2所示。

        評估流程將讀取預訂日ts為今日tn的所有入住率數(shù)據(jù)sm,并向數(shù)據(jù)庫寫入對應的a,即

        而改進流程將讀取入住日te為今日tn的所有數(shù)據(jù)s,a,r,并向模型添加相應的梯度,即

        由于該流程真實持久地記錄了所有的a,所以可采取蒙特卡洛方法進行學習。

        rte,ts是某酒店某日真實的營業(yè)額,所以必須在真實的te時刻,外部程序才會將真實的r寫入數(shù)據(jù)庫。同樣,smte,ts是某酒店某日真實的空置率,所以必須在真實的ts時刻,外部程序才會將真實的sm寫入數(shù)據(jù)庫?,F(xiàn)實中的強化學習,其流程被真實業(yè)務鎖死,必須在動作真實完成后,才能進行學習,但可以通過歷史記錄進行學習。進行離軌策略學習,只需代替評估流程,將用其他方法決定的房價a寫入數(shù)據(jù)庫,就可以在改進流程中讀取sm,a,r數(shù)據(jù),并進行訓練。-

        4實驗結(jié)果與分析

        傳統(tǒng)酒店收益管理系統(tǒng)的方法有移動平均法和線性回歸法等基于統(tǒng)計學的方法,根據(jù)同比等數(shù)據(jù),對未來營銷結(jié)果進行預測,將本文方法與某供應商采用的傳統(tǒng)預測收益管理系統(tǒng)方法進行對比[2]。

        由于策略梯度方法無法給出對離軌策略狀態(tài)價值的直接預測,即無法將計算結(jié)果同歷史數(shù)據(jù)進行對比,這在模擬環(huán)境中不是問題,直接對比每幕收益的最終收斂結(jié)果即可,但現(xiàn)實環(huán)境不允許方法在試探中進行收斂。因此,只有在方法完全收斂之后,再與傳統(tǒng)方法進行對比,本文記錄預訓練收斂過程以作參考。

        REINFORCE方法在預訓練中損失函數(shù)變化如圖3所示。由圖3可以看出,約在50000次下降后,預訓練模型已基本收斂。

        在監(jiān)督條件下,將本文算法在某酒店中試運行一段時間(2021年),并將本文算法與未使用收益管理、或者僅使用少量人工收益管理(2018年)和使用某公司收益管理系統(tǒng)的狀態(tài)(2019年)進行對比分析,其統(tǒng)計區(qū)間是每年前120d的每日收入,不同收益管理方法的每日收入對比如圖4所示。圖3REINFORCE方法在預訓練中損失函數(shù)變化圖4不同收益管理方法的每日收入對比-由圖4可以看出,3列數(shù)據(jù)的中位數(shù)相近,但強化學習收益管理方法的最大值顯著高于傳統(tǒng)方法,傳統(tǒng)方法又高于不采用收益管理方法。傳統(tǒng)方法所采用的移動平均法和線性回歸法,能較好地預測當前預期房價,但對無規(guī)律、不可預期的突發(fā)事件難以進行快速反應,因其預測采用歷史數(shù)據(jù),近期數(shù)據(jù)權(quán)重相對較小。強化學習算法則主要根據(jù)近期數(shù)據(jù)進行預測,因而能抓住機會獲取大量收益。值得注意的是,若不采用強化學習方法,則難以獲得足夠訓練數(shù)據(jù)對近期數(shù)據(jù)預測模型進行訓練。

        另外,傳統(tǒng)收益管理方法成本較高,人工方法需要聘請收益管理經(jīng)理配合數(shù)名員工,專職進行收益管理操作,供應商的收益管理系統(tǒng)則定價高,達到數(shù)萬甚至數(shù)十萬,而數(shù)據(jù)驅(qū)動的強化學習收益管理方法則成本低廉,只要配合酒店管理系統(tǒng)導出酒店數(shù)據(jù),就能訓練出可用的收益管理策略。

        不同收益管理方法總收益如表1所示。由表1可以看出,強化學習方法與人工收益管理方法相比,總收益約提升了15%,與傳統(tǒng)收益管理系統(tǒng)相比,總收益約提升了5%。這是收益管理一個非常顯著的提升,充分顯示了深度強化學習收益管理方法的優(yōu)秀。-

        5結(jié)束語

        本文主要對一種基于深度強化學習的酒店收益管理模型與方法進行研究。理論分析和實驗表明,強化學習模型能夠有效地應用于酒店收益管理問題,通過對酒店收益管理問題的數(shù)學模型進行建模,驗證了強化學習數(shù)學模型在收益管理問題中的理論有效性。本文方法已在實驗中表現(xiàn)出顯著的收益,而提出的數(shù)學模型可啟發(fā)更多類似的后續(xù)研究。但由于相關(guān)領(lǐng)域的深入研究較少,難以對實驗數(shù)據(jù)進行更深入的研究。進一步研究可在本文的框架下更換數(shù)據(jù)來源和訓練方法,附加更多的監(jiān)督學習方法,并可期待對本文的實驗結(jié)果進一步改進。

        參考文獻:

        [1]CROSSRG.Launchingtherevenuerocket:howrevenuemanagementcanworkforyourbusiness[J].TheCornellHotelandRestaurantAdministrationQuarterly,1997,38(2):3243.

        [2]GALLEGOG,TOPALOGLUH.Revenuemanagementandpricinganalytics[M].NewYork:Springer,2019.

        [3]MCGILLJI,VANRYZINGJ.Revenuemanagement:researchoverviewandprospects[J].TransportationScience,1999,33(2):233256.

        [4]ERDEMM,JIANGL.Anoverviewofhotelrevenuemanagementresearchandemergingkeypatternsinthethirdmillennium[J].JournalofHospitalityandTourismTechnology,2016,7(3):300312.

        [5]SANCHEZ-MEDINAAJ,C-SANCHEZE.Usingmachinelearningandbigdataforefficientforecastingofhotelbookingcancellations[J].InternationalJournalofHospitalityManagement,2020,89:102546102554.

        [6]WEATHERFORDLR,KIMESSE.Acomparisonofforecastingmethodsforhotelrevenuemanagement[J].Internationaljournalofforecasting,2003,19(3):401415.

        [7]WEBBT,SCHWARTZZ,XIANGZ,etal.Revenuemanagementforecasting:theresiliencyofadvancedbookingmethodsgivendynamicbookingwindows[J].InternationalJournalofHospitalityManagement,2020,89:102590102598.

        [8]ZHANGQ,QIULY,WUHW,etal.Deeplearningbaseddynamicpricingmodelforhotelrevenuemanagement[C]∥2019InternationalConferenceonDataMiningWorkshops.Beijing:IEEE,2019:370375.

        [9]FAROUKELGAYARN,SALEHM,ATIYAA,etal.Anintegratedframeworkforadvancedhotelrevenuemanagement[J].InternationalJournalofContemporaryHospitalityManagement,2011,23(1):8498.

        [10]HANW,LIUL,ZHENGH.Dynamicpricingbymultiagentreinforcementlearning[C]∥2008InternationalSymposiumonElectronicCommerceandSecurity.Guangzhou:IEEE,2008:226229.

        [11]SUTTONRS,BARTOAG.Reinforcementlearning:Anintroduction[M].Cambridge:MITpress,2018.

        [12]HENDERSONP,ISLAMR,BACHMANP,etal.Deepreinforcementlearningthatmatters[C]∥TheThirthy-SecondAAAIConferenceOnArtificialIntelligence.NewOrleans,Lousiana,USA:AAAI,2018.

        [13]LIMJ,LIUH,LUOT,etal.Deepreinforcementlearningbasedreliabilitypricingstrategyinelectricityspotmarket[C]∥2020InternationalConferencesonInternetofThings(iThings)andIEEEGreenComputingandCommunications(GreenCom)andIEEECyber,PhysicalandSocialComputing(CPSCom)andIEEESmartData(SmartData)andIEEECongressonCybermatics(Cybermatics).Rhodes,Greece:IEEE,2020:901909.

        [14]JINJH,ZHUXX,WUBW,etal.Adynamicanddeadline-orientedroadpricingmechanismforurbantrafficmanagement[J].TsinghuaScienceandTechnology,2021,27(1):91102.

        [15]SHIB,YUANH,SHIR.Pricingcloudresourcebasedonmulti-agentreinforcementlearninginthecompetingenvironment[C]∥2018IEEEInternationalConferencesonParallelandDistributedProcessingwithApplications,UbiquitousComputingandCommunications,BigDataandCloudComputing,SocialComputingandNetworking,SustainableComputingandCommunications(ISPA/IUCC/BDCloud/SocialCom/SustainCom).Melbourne(AV):IEEE,2018:462468.

        [16]GOSAVIIA,BANDLAN,DASTK.Areinforcementlearningapproachtoasinglelegairlinerevenuemanagementproblemwithmultiplefareclassesandoverbooking[J].IIEtransactions,2002,34(9):729742.

        [17]LAWHEADRJ,GOSAVIA.Aboundedactor-criticreinforcementlearningalgorithmappliedtoairlinerevenuemanagement[J].EngineeringApplicationsofArtificialIntelligence,2019,82:252262.

        [18]GOSAVIIA,BANDLAN,DASTK.Areinforcementlearningapproachtoasinglelegairlinerevenuemanagementproblemwithmultiplefareclassesandoverbooking[J].IIEtransactions,2002,34(9):729742.

        [19]KIMESSE.Thefutureofhotelrevenuemanagement[J].JournalofRevenueandPricingManagement,2011,10(1):6272.

        [20]ISNAENIDR,CHOUSY,PHANKP,etal.Developingacceptancepoliciesforastochasticsingle-resourcerevenuemanagementproblem[C]∥2015IEEE39thAnnualComputerSoftwareandApplicationsConference.Taichung:IEEE,2015:8488.--科技論文中引言的寫作內(nèi)容

        引言(也稱前言、序言或概述)經(jīng)常作為科技論文的開端,提出文中要研究的問題,引導讀者閱讀和理解全文。

        引言作為論文的開場白,應介紹論文的寫作背景和目的,以及相關(guān)領(lǐng)域內(nèi)前人所作的工作和研究的概況,說明本研究與前人工作的關(guān)系,目前研究的熱點、存在的問題及作者工作的意義,引出本文的主題給讀者以引導。

        引言也可以點明本文的理論依據(jù)、實驗基礎(chǔ)和研究方法,簡單闡述其研究內(nèi)容,三言兩語預示本研究的結(jié)果意義和前景,但不必展開討論。

        HotelRevenueManagementMethodBasedonDeepReinforcementLearning

        LIUXianfeng,YUZhongqing

        (CollegeofComputerScience&Technology,QingdaoUniversity,Qingdao266101,China)

        Abstract:Aimingattheapplicationofdeepreinforcementlearninginhotelrevenuemanagement,thispaperbuildsamodelandmethodofrevenuemanagementdecision-makingprocessbasedondeepreinforcementlearning.BydefiningtheMarkovnatureoftherevenuemanagementproblem,thestatisticalnatureofitsmodelandparametersisdescribed.Atthesametime,aprogramiswrittentorealizearevenuemanagementmethodbasedondeepreinforcementlearning,andthroughexperiments,themethodinthisarticleiscomparedwiththetraditionalmethodadoptedbyacertainsupplier.Theanalysisresultsshowthatthetotalrevenueofthereinforcementlearningmethodisincreasedbyabout15%comparedwiththemanualrevenuemanagementmethod,andthetotalrevenueisincreasedbyabout5%comparedwiththetraditionalrevenuemanagementsystem.Thesupervisedlearningmodelputstoomuchemphasisonglobalgeneralization,whichincreasesthevarianceoftheestimationoftheoptimalresult,andtheamountofcalculationistoolarge.Themethodproposedinthispapercandescendtotheoptimalpositionfaster.Thisresearchprovidesatheoreticalbasisforcompaniestoprovideaccuratepricingandmarketingdecisionsdrivenbydata.

        Keywords:deeplearning;reinforcementlearning;hotelmanagement;revenuemanagement

        收稿日期:20211026;修回日期:20211214

        基金項目:山東省重點研發(fā)計劃項目(2019JZZY020101)

        作者簡介:劉顯峰(1994),男,碩士研究生,主要研究方向為機器學習的工業(yè)應用。

        通信作者:于忠清(1962),男,博士,研究員,博士生導師,主要研究方向為數(shù)據(jù)挖掘和智能制造。Email:yuzq@qdu.edu.cn-

        猜你喜歡
        深度學習
        從合坐走向合學:淺議新學習模式的構(gòu)建
        面向大數(shù)據(jù)遠程開放實驗平臺構(gòu)建研究
        基于自動智能分類器的圖書館亂架圖書檢測
        搭建深度學習的三級階梯
        有體驗的學習才是有意義的學習
        電子商務中基于深度學習的虛假交易識別研究
        利用網(wǎng)絡(luò)技術(shù)促進學生深度學習的幾大策略
        考試周刊(2016年94期)2016-12-12 12:15:04
        MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應用展望
        深度學習算法應用于巖石圖像處理的可行性研究
        軟件導刊(2016年9期)2016-11-07 22:20:49
        久久综合九色综合久久久| 亚洲精品夜夜夜| 亚洲精品中文字幕不卡在线| 91国语对白在线观看| 日韩乱码中文字幕在线| 久久www免费人成—看片| 在线成人福利| 性视频毛茸茸女性一区二区| 最新国产熟女资源自拍 | 国产艳妇av在线出轨| 亚洲国产精品成人一区二区三区| 色翁荡熄又大又硬又粗又动态图| 婷婷亚洲久悠悠色悠在线播放| 亚洲AV秘 无码一区二p区三区 | 东京热无码av一区二区| 国产亚洲精品aaaa片app| 精品人妻一区二区三区蜜桃| 成人影院在线观看视频免费| 五十路在线中文字幕在线中文字幕| 精品一二三四区中文字幕| 99久久人妻精品免费二区| 天天狠天天透天干天天| 久久精品国产亚洲av夜夜| 小妖精又紧又湿高潮h视频69| 无套内谢的新婚少妇国语播放| 无码超乳爆乳中文字幕| 精品久久人妻av中文字幕| 中文字幕日本人妻久久久免费| 国产AV无码专区亚洲AⅤ| 少妇被日到高潮的视频| av网站在线观看入口| 亚洲男人的天堂在线播放| 无码国产精品色午夜| 久久精品熟女亚洲av麻豆永永| 免费看黑人男阳茎进女阳道视频 | 亚洲AV无码成人网站久久精品 | 日本视频在线观看二区| 性色av闺蜜一区二区三区| 国产成人一区二区三区免费观看| 国产亚洲精品在线播放| 亚洲av无码久久精品色欲|