亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的動態(tài)定價策略研究綜述

        2019-12-12 07:27:58
        計算機(jī)應(yīng)用與軟件 2019年12期
        關(guān)鍵詞:定價供應(yīng)商動態(tài)

        王 欣 王 芳

        (上海外國語大學(xué)國際工商管理學(xué)院 上海 200083)

        0 引 言

        隨著互聯(lián)網(wǎng)的發(fā)展及電子商務(wù)的普及,人們獲取商品和服務(wù)信息變得越來越容易而且全面。商品或服務(wù)價格的變動也會在最短時間內(nèi)對消費(fèi)者的購物行為產(chǎn)生影響,從而直接影響企業(yè)效益。為了最大化效益,企業(yè)經(jīng)常會基于某些因素定期或不定期調(diào)整商品或服務(wù)價格,這也與人工智能領(lǐng)域強(qiáng)化學(xué)習(xí)的目標(biāo)一致。強(qiáng)化學(xué)習(xí)的目標(biāo)是最大化長期收益,因此,通過強(qiáng)化學(xué)習(xí)的技術(shù)手段可以實(shí)現(xiàn)商品或服務(wù)的智能定價。

        動態(tài)定價是企業(yè)根據(jù)顧客需求和自身供應(yīng)能力等信息動態(tài)調(diào)整商品價格,以實(shí)現(xiàn)收益最大化的策略[1],有些學(xué)者也將其稱為個性化定價[2]。隨著人工智能技術(shù)的不斷發(fā)展,越來越多的學(xué)者嘗試采用智能方法來解決動態(tài)定價問題,強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)便是最廣泛使用的技術(shù)之一。它受到自然界人和動物能夠有效適應(yīng)環(huán)境的啟發(fā),通過不斷試錯的方式從環(huán)境中進(jìn)行學(xué)習(xí),是機(jī)器學(xué)習(xí)的一個重要分支。它在人工智能問題求解、多智能體控制、機(jī)器人控制與運(yùn)動規(guī)劃、決策控制等領(lǐng)域有著十分廣泛的應(yīng)用[3-5],是智能系統(tǒng)設(shè)計與決策的核心技術(shù)之一,也是進(jìn)行智能動態(tài)定價策略研究的關(guān)鍵問題。

        因此,深入研究強(qiáng)化學(xué)習(xí)方法在動態(tài)定價領(lǐng)域的應(yīng)用,對于推動人工智能、強(qiáng)化學(xué)習(xí)方法的發(fā)展及其在動態(tài)定價等領(lǐng)域的應(yīng)用都有非常重要的意義。本文將從強(qiáng)化學(xué)習(xí)的技術(shù)和其在動態(tài)定價領(lǐng)域的具體應(yīng)用兩方面展開綜述。首先,基于現(xiàn)有動態(tài)定價用到相關(guān)強(qiáng)化學(xué)習(xí)關(guān)鍵技術(shù)進(jìn)行介紹;然后分別從不同角度綜述強(qiáng)化學(xué)習(xí)在動態(tài)定價中的應(yīng)用,分析其優(yōu)缺點(diǎn);最后分析強(qiáng)化學(xué)習(xí)在動態(tài)定價領(lǐng)域的應(yīng)用前景。

        1 強(qiáng)化學(xué)習(xí)

        根據(jù)反饋的差異,機(jī)器學(xué)習(xí)技術(shù)可以分為監(jiān)督學(xué)習(xí)(Supervised Learning,SL)、無監(jiān)督學(xué)習(xí)(Unsupervised Learning,UL)和強(qiáng)化學(xué)習(xí)三大類,其中:監(jiān)督學(xué)習(xí)完成的是與環(huán)境沒有交互的記憶和知識重組,要求給出學(xué)習(xí)系統(tǒng)在各種輸入信號下的期望輸出;無監(jiān)督學(xué)習(xí)主要是聚類等自組織學(xué)習(xí)方式;強(qiáng)化學(xué)習(xí)是通過“試錯”的方式與環(huán)境進(jìn)行交互,通過最大化累積獎賞的方式來學(xué)習(xí)到最優(yōu)策略[6-7],它通過與環(huán)境的交互,并根據(jù)交互過程中所獲得的立即獎賞信號進(jìn)行學(xué)習(xí),以求極大化期望累積獎賞,是機(jī)器學(xué)習(xí)的一個重要分支。

        強(qiáng)化學(xué)習(xí)的工作原理和人類的學(xué)習(xí)模式類似。如果Agent的某個動作得到了環(huán)境的正獎賞,那么Agent以后的動作就會增強(qiáng);如果得到了負(fù)獎賞,那么以后的動作就會減弱[8]。強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)到一個動作策略,使得系統(tǒng)獲得最大的累積獎賞。在強(qiáng)化學(xué)習(xí)中,Agent在環(huán)境s下選擇并執(zhí)行一個動作a,環(huán)境接受動作后變?yōu)閟′,并把一個獎賞信號r反饋給Agent,Agent根據(jù)獎賞信號選擇后續(xù)動作[9]。在動態(tài)定價相關(guān)研究中,強(qiáng)化學(xué)習(xí)系統(tǒng)的目標(biāo)是使廠商能夠最大化總體收益,而忽略單筆交易的短期利益。強(qiáng)化學(xué)習(xí)架構(gòu)一般包括四個要素:策略(Policy)、獎懲反饋(Reward)、值函數(shù)(Value Function)、環(huán)境模型(Environment)。動態(tài)定價的環(huán)境相關(guān)因素繁多且復(fù)雜,以往強(qiáng)化學(xué)習(xí)的動態(tài)定價研究主要基于以下幾種環(huán)境框架。

        1.1 馬爾可夫決策過程(MDP)

        馬爾可夫決策過程一般用來解決順序型強(qiáng)化學(xué)習(xí)問題。它是一個五元組:(S,A,P,R,γ),其中:

        (1)S是一組有限的狀態(tài)s∈S。

        (2)A是一組有限的行為(S,A,P,R,γ)。

        (5)γ∈[0,1]是折現(xiàn)系數(shù),代表未來獎勵與現(xiàn)在獎勵之間的重要差異[7,10]。馬爾可夫決策過程的本質(zhì)是:當(dāng)前狀態(tài)向下一狀態(tài)轉(zhuǎn)移的概率和獎賞值只取決于當(dāng)前狀態(tài)和選擇的動作,而與歷史狀態(tài)和歷史動作無關(guān)。在馬爾可夫動態(tài)模型在策略π下的值函數(shù)由貝爾曼方程(Bellman equation)定義[7]。強(qiáng)化學(xué)習(xí)方法是通過最大化值函數(shù)來改進(jìn)策略,并最終得到最優(yōu)策略π*。Vπ(s)表示從狀態(tài)s開始,執(zhí)行當(dāng)前策略所得到的狀態(tài)值函數(shù)。狀態(tài)值函數(shù)的貝爾曼最優(yōu)方程表示為[7,11-12]:

        (1)

        狀態(tài)動作值函數(shù)Q*(s,a)定義為從狀態(tài)s開始,執(zhí)行動作a所得到的期望回報值。因此,在最優(yōu)策略π*下狀態(tài)動作值函數(shù)Q*(s,a)的貝爾曼最優(yōu)方程表示為:

        (2)

        1.2 半馬爾可夫決策過程(SMDP)

        針對從狀態(tài)st開始、在st+1結(jié)束的動作a,期間執(zhí)行的步長為τ,它的狀態(tài)轉(zhuǎn)移概率為:P(τ,st+τ=s|st=s,at=a)[13]。τ可以是連續(xù)時間離散系統(tǒng)的實(shí)數(shù),也可以是離散系統(tǒng)的整數(shù)。SMDPs的狀態(tài)值函數(shù)貝爾曼最優(yōu)方程表示為[13]:

        a)V*(s′)}

        (3)

        SMDP最優(yōu)狀態(tài)動作值函數(shù)Q*(s,a)表示為:

        (4)

        1.3 部分可觀測馬爾可夫決策過程(POMDP)

        POMDP是一種通用化的馬爾可夫決策過程。POMDP模擬代理人決策程序是假設(shè)系統(tǒng)動態(tài)由MDP決定,但是代理人無法直接觀察目前的狀態(tài)。相反地,它必須要根據(jù)模型的全域與部分區(qū)域觀察結(jié)果來推斷狀態(tài)的分布[14-19]。與MDP不同的是,POMDP模型中不再直接觀察狀態(tài)s′,而是去感知一個觀測(或采樣)o∈Ω。離散觀察集合Ω={o1,o2,…,oM}代表所有可能的Agent能夠接收到的感知器讀數(shù)。Agent接收到的觀測值取決于下一個環(huán)境狀態(tài)s′以及在一定條件下可能也取決于Agent采取的動作a[20]。

        正如完全可觀察MDP問題一樣,Agent的目標(biāo)是選擇動作使得任務(wù)盡可能完美的完成,即讓Agent學(xué)習(xí)一個最優(yōu)策略。在POMDP問題中,一個最優(yōu)策略π*(b)將信度映射到動作上。但是和MDP問題相反,

        策略π描述成一個價值函數(shù)V:Δ(S)→R,定義為Agent在遵循策略π的條件下從信度分布b開始收集到的期望未來減量回報V(b),具體表示為:

        V(b)=E{∑γtR(bt,π(bt))|b0=b}

        (5)

        式中:R(bt,π(bt))=∑R(s,π(bt))bt(s)。最大化V的策略π稱為最優(yōu)策略π*,它為每個信度b在當(dāng)前步長內(nèi)執(zhí)行一個最優(yōu)行為a,并假設(shè)Agent會在后續(xù)時間步長內(nèi)執(zhí)行最優(yōu)行為a。最優(yōu)策略π*的值是通過最優(yōu)價值函數(shù)V*定義的。該價值函數(shù)滿足貝爾曼最優(yōu)方程,表示為:

        V*=HPOMDPV*

        (6)

        (7)

        式中:HPOMDP是POMDP的貝爾曼備份算子[21-29]。

        2 強(qiáng)化學(xué)習(xí)算法

        強(qiáng)化學(xué)習(xí)可以分為基于值函數(shù)的強(qiáng)化學(xué)習(xí)和基于策略的強(qiáng)化學(xué)習(xí)。在基于值函數(shù)的強(qiáng)化學(xué)習(xí)中,常用的學(xué)習(xí)算法包括Q-Learning算法、SARSA算法和蒙特卡羅算法。在基于強(qiáng)化學(xué)習(xí)的動態(tài)定價研究中,這三種算法也是經(jīng)常采用的算法。

        2.1 Q-Learning算法

        Q-Learning算法是無模型算法,其迭代公式表示為[30-36]:

        (8)

        式中:Q(st,at)為t時刻的狀態(tài)動作值;r為獎賞值;γ為折扣因子;αt是學(xué)習(xí)率;δt表示時間差分(temporal difference,TD)誤差;a′是狀態(tài)st+1能夠執(zhí)行的動作。

        2.2 SARSA算法

        作為SARSA算法的名字本身而言,它實(shí)際上是由S、A、R、S、A幾個字母組成的。而S、A、R分別代表狀態(tài)(State)、動作(Action)和獎勵(Reward)。SARSA是一種策略算法,能夠在獎賞函數(shù)和狀態(tài)轉(zhuǎn)移概率未知的情況下,通過狀態(tài)動作值函數(shù)迭代找到最優(yōu)策略。當(dāng)狀態(tài)動作對被無限次訪問時,該算法會以概率1收斂到最優(yōu)策略及狀態(tài)動作值函數(shù)。SARSA算法在學(xué)習(xí)中采用相對安全的動作,因此該算法的收斂速度較慢。迭代公式表示為[6,37-41]:

        Q(s,a)=Q(s,a)+α{r+γQ(s′,a′)-Q(s,a)}

        (9)

        2.3 蒙特卡羅算法

        蒙特卡羅算法不需要對環(huán)境的完整知識,僅僅需要經(jīng)驗(yàn)就可以求解最優(yōu)策略,這些經(jīng)驗(yàn)可以在線獲得或者根據(jù)某種模擬機(jī)制獲得。蒙特卡羅方法保持對狀態(tài)動作和未來獎賞的頻率計數(shù),并根據(jù)估計建立它們的值。蒙特卡羅技術(shù)基于樣本來估計平均樣本的回報。對于每個狀態(tài)s∈S,保留所有從s獲得的狀態(tài),一個狀態(tài)s∈S的值是它們的平均值。特別對于周期性任務(wù),蒙特卡羅技術(shù)是非常有用的。由于采樣依賴于當(dāng)前策略π,策略π只評估建議動作的回報[42-46]。值函數(shù)更新規(guī)則表示為:

        V(st)→V(st+1)+α(rt-V(st))

        (10)

        式中:rt為t時刻的獎賞值;α為步長參數(shù)。

        3 基于強(qiáng)化學(xué)習(xí)的動態(tài)定價策略

        強(qiáng)化學(xué)習(xí)方法用于解決動態(tài)定價問題時,主要從供應(yīng)商數(shù)目(單供應(yīng)商、多供應(yīng)商)、所處環(huán)境模型(MDP、POMDP、Semi-MDP)、選用算法(Q-Learning,SARSA,Monte-Carlo)等方面進(jìn)行假設(shè)和研究。

        無論是傳統(tǒng)還是基于強(qiáng)化學(xué)習(xí)的多供應(yīng)商動態(tài)定價研究通常對市場中供應(yīng)商數(shù)量進(jìn)行假設(shè),一般分為單供應(yīng)商和多供應(yīng)商。而對于多供應(yīng)商的研究,大多假設(shè)市場存在兩個供應(yīng)商,且兩個供應(yīng)商之間存在某種競爭關(guān)系。在基于強(qiáng)化學(xué)習(xí)的研究中表示為兩個Agent,且在它們之間存在相互影響和競爭。文獻(xiàn)[4]研究了網(wǎng)格服務(wù)供應(yīng)商(Grid Service Provider)在市場上存在兩家供應(yīng)商時如何進(jìn)行動態(tài)定價。文獻(xiàn)[48-49]對于航空公司定價策略的研究中,將市場上存在的航空公司數(shù)量假定為兩家。文獻(xiàn)[50]研究了電子商務(wù)市場多家供應(yīng)商競爭的情況,但在供應(yīng)商的數(shù)量上依然延續(xù)了兩家供應(yīng)商的假設(shè)。文獻(xiàn)[51]在研究中,假設(shè)市場由一個供應(yīng)商分別供貨給兩個零售商,從而研究如何定價能使零售商的利益最大化,因此也是將研究對象定位在了兩個零售商上。文獻(xiàn)[52]針對兩銷售商間沒有信息交互的異步動態(tài)定價問題進(jìn)行了研究。文獻(xiàn)[53]基于多Agent強(qiáng)化學(xué)習(xí)算法對季節(jié)性商品動態(tài)定價策略進(jìn)行研究,并在研究中將Agent數(shù)目確定為兩個。與此同時,也有文獻(xiàn)對壟斷供應(yīng)商動態(tài)定價策略進(jìn)行了相關(guān)研究。文獻(xiàn)[54]研究了處于壟斷地位的公司如何進(jìn)行動態(tài)定價以實(shí)現(xiàn)利潤最大化。文獻(xiàn)[55]研究了只有一家供應(yīng)商的情況下,基于強(qiáng)化學(xué)習(xí)的動態(tài)定價專家系統(tǒng)的設(shè)計方法。文獻(xiàn)[56]研究了動態(tài)環(huán)境中,航空、酒店和時尚等行業(yè)只有一家供應(yīng)商的情況下,如何進(jìn)行動態(tài)定價,以實(shí)現(xiàn)最佳的收益管理(revenue management)。文獻(xiàn)[57]研究了在壟斷能源行業(yè)如何通過強(qiáng)化學(xué)習(xí)技術(shù)實(shí)現(xiàn)動態(tài)定價和收益最大化。

        在環(huán)境模型的選擇方面,之前的研究也根據(jù)不同情況做了界定。文獻(xiàn)[48-49]對于航空企業(yè)票價動態(tài)定價的研究全部基于MDP模型。文獻(xiàn)[50]在環(huán)境模型為MDP的前提下對兩個Agent的系統(tǒng)進(jìn)行了研究,從而提出了一種競爭定價策略。文獻(xiàn)[51]通過使用SARSA算法提出了一種解決動態(tài)定價問題的方法,該研究的前提也是決策過程符合MDP。文獻(xiàn)[52]在MDP環(huán)境模型下對于異步動態(tài)定價進(jìn)行了相關(guān)研究。文獻(xiàn)[53]結(jié)合強(qiáng)化學(xué)習(xí)和性能勢,在MDP環(huán)境下,對動態(tài)定價進(jìn)行了研究。文獻(xiàn)[54]在MDP下對有交互作用的商品的動態(tài)定價進(jìn)行研究。文獻(xiàn)[56]根據(jù)不同客戶類型劃分,研究了電子商務(wù)市場的動態(tài)定價策略。文獻(xiàn)[57]研究了壟斷能源行業(yè)如何在MDP環(huán)境下建立智能動態(tài)定價策略。文獻(xiàn)[58]在MDP下研究了動態(tài)環(huán)境下實(shí)時動態(tài)定價策略。文獻(xiàn)[59]基于Q-learning算法對能源行業(yè)白天零售市場的定價策略研究。文獻(xiàn)[47]將基于POMDP梯度的函數(shù)逼近應(yīng)用于產(chǎn)品或服務(wù)定價。文獻(xiàn)[60]基于POMDP,研究了電子商務(wù)市場的動態(tài)定價策略。文獻(xiàn)[61]基于SMDP研究了動態(tài)定價的最優(yōu)策略。此外,文獻(xiàn)[62]基于SMDP研究了壟斷企業(yè)的動態(tài)定價策略。

        在算法方面,國內(nèi)外學(xué)者也根據(jù)研究內(nèi)容的差異進(jìn)行了差別選擇。在動態(tài)定價方相關(guān)研究中,應(yīng)用最廣泛的是Q-learning及其改進(jìn)算法。在網(wǎng)格計算市場上,文獻(xiàn)[47]基于Q-learning算法提出了在部分可觀測環(huán)境中的動態(tài)決策模型,并通過調(diào)節(jié)參數(shù)來調(diào)節(jié)梯度方向,從而使算法收斂到最優(yōu)值函數(shù)。在航空業(yè)動態(tài)定價的中,文獻(xiàn)[48]在2012年對Q-learning、SARSA和蒙特卡羅算法進(jìn)行了對比研究。在電子商務(wù)領(lǐng)域,文獻(xiàn)[50]基于Q-learning算法,對多Agent的環(huán)境定價策略進(jìn)行了研究。文獻(xiàn)[52]對于兩銷售商間沒有信息交互的異步動態(tài)定價問題的研究也是基于Q-learning和WoLF-PHC算法。文獻(xiàn)[55]基于帶資格跡(eligibility traces)的Q-learning算法研究了相互影響的商品和服務(wù)應(yīng)該如何動態(tài)定價。文獻(xiàn)[56]通過Q-learning對電子商務(wù)市場的動態(tài)定價策略進(jìn)行了研究。文獻(xiàn)[59]使用Q-learning實(shí)現(xiàn)了多Agent系統(tǒng),完成零售市場的動態(tài)定價。文獻(xiàn)[60]利用改進(jìn)Q-Learning對電子商務(wù)中不同產(chǎn)品線的動態(tài)定價策略。

        同時,也有很多研究采用了SARSA和蒙特卡羅算法。文獻(xiàn)[49]在不同客戶模型下,通過SARSA算法實(shí)現(xiàn)了對航空業(yè)的動態(tài)定價。在競爭性訂單的動態(tài)定價策略中,文獻(xiàn)[51]也使用了SARSA算法。在競爭背景下壟斷企業(yè)的動態(tài)定價策略采用了蒙特卡羅算法[54]。文獻(xiàn)[58]也采用無模型的蒙特卡羅算法實(shí)現(xiàn)了非靜態(tài)環(huán)境的動態(tài)定價。文獻(xiàn)整體情況如表1所示。

        表1 文獻(xiàn)總結(jié)表

        4 結(jié) 語

        在前人關(guān)于動態(tài)定價的研究中,學(xué)者們分別基于單Agent和多Agent進(jìn)行了相關(guān)研究。在解決現(xiàn)實(shí)問題中,對于模型的選擇要根據(jù)實(shí)際需求,以最簡單有效的方式解決問題為原則。在今后的研究中,需要結(jié)合不同實(shí)際應(yīng)用場景和領(lǐng)域?qū)gent的數(shù)量進(jìn)行界定。從目前強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展來看,對于單Agent和雙Agent的研究比較系統(tǒng)和完善,因此對于Agent的不同數(shù)量及Agent之間的相互作用需要進(jìn)一步加強(qiáng)和完善。多Agent之間的信息交換是應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù)解決動態(tài)定價問題時需要進(jìn)一步考慮的因素。

        決策過程框架是強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的前提,不同的問題需要在不同環(huán)境框架下解決。從以往的研究來看,學(xué)者們的研究多基于馬爾可夫決策過程(MDP),MDP是強(qiáng)化學(xué)習(xí)中最簡單的一類過程,半馬爾可夫決策過程(SMDP)和POMDP因?yàn)榭紤]了學(xué)習(xí)過程中其他的因素,是更復(fù)雜的決策過程。近幾年,基于SMDP和POMDP的動態(tài)定價研究也逐漸展開。由于SMDP可以在隨機(jī)個時間步上完成,因此動態(tài)定價可以應(yīng)用于連續(xù)系統(tǒng),更接近真實(shí)的定價環(huán)境。POMDP是一種更通用化的馬爾可夫決策過程,對于Agent來說,因?yàn)椴糠譅顟B(tài)不可知,所以也更符合動態(tài)定價的實(shí)際情況。

        目前對于動態(tài)定價研究的算法主要基于Q-learning、SARSA和蒙特卡羅及其改進(jìn)算法,尤其是Q-learning算法應(yīng)用最為廣泛。但Q-learning算法屬于表格型算法,對于小規(guī)模和離散系統(tǒng)有比較好的學(xué)習(xí)效果,但對于連續(xù)的大規(guī)模系統(tǒng),則會有收斂速度慢或無法收斂的情況。而深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)正能彌補(bǔ)這一不足。它將深度學(xué)習(xí)的感知能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,并因?yàn)锳lphaGo的成功而成為人工智能發(fā)展的一個里程碑。它是一種通用性很強(qiáng)的端到端的感知和控制系統(tǒng)。目前,其在機(jī)器人控制、機(jī)器視覺、自然語言處理、智能醫(yī)療等領(lǐng)域獲得了廣泛的推廣。雖然目前鮮有基于深度強(qiáng)化學(xué)習(xí)進(jìn)行動態(tài)定價研究,但這是一個值得學(xué)者們努力實(shí)踐的方向。

        猜你喜歡
        定價供應(yīng)商動態(tài)
        國內(nèi)動態(tài)
        國內(nèi)動態(tài)
        國內(nèi)動態(tài)
        本刊2020年36卷第12期版權(quán)頁定價勘誤
        動態(tài)
        基于分層Copula的CDS定價研究
        幫爸爸定價
        讀寫算(下)(2015年11期)2015-11-07 07:21:02
        供應(yīng)商匯總
        供應(yīng)商匯總
        供應(yīng)商匯總
        av中文字幕性女高清在线| 日产乱码一区二区国产内射| 亚洲精品国偷拍自产在线麻豆| 91国产精品自拍在线观看| 国产真实二区一区在线亚洲| 亚洲综合自拍| 欧美人与物videos另类| 亚洲午夜精品一区二区| 国产精品夜色视频久久| 国产偷闻隔壁人妻内裤av| 国产精品美女AV免费观看| 99精品欧美一区二区三区| 日日噜噜夜夜狠狠视频| 日本在线一区二区三区视频| 日韩亚洲中文图片小说| 狠狠躁夜夜躁无码中文字幕| 亚洲人成人网站在线观看| 国产精品久久久久久久久绿色| 久久麻传媒亚洲av国产| 国产精品欧美福利久久| 久久精品国产亚洲av精东| 少妇特殊按摩高潮惨叫无码| 国内精品一区二区三区| 亚洲情综合五月天| 成人国产精品三上悠亚久久| 久久本道久久综合一人| 国产精品久久久久影视不卡| 无码国产激情在线观看| 夜鲁很鲁在线视频| 92午夜少妇极品福利无码电影| 色婷婷精品午夜在线播放| 亚洲区一区二区三区四| 国产91一区二这在线播放| 国产成人综合久久精品推| 国产成人无码一区二区三区在线| 亚洲综合网站久久久| 蜜桃传媒免费在线播放| 国产护士一区二区三区| 高清亚洲精品一区二区三区 | 国产太嫩了在线观看| 精品国产夫妻自拍av|