亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的特征選擇方法及材料學(xué)應(yīng)用

        2022-11-12 09:03:12張鵬張瑞
        關(guān)鍵詞:符號(hào)特征智能

        張鵬張瑞

        (1.上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院,上海200444;2.上海大學(xué)材料基因組工程研究院材料信息與數(shù)據(jù)科學(xué)中心,上海200444;3.之江實(shí)驗(yàn)室,浙江杭州311100)

        新材料的開發(fā)和應(yīng)用幾乎伴隨著每一項(xiàng)人類歷史上重大的科技進(jìn)步,從銅和鋅混合制成青銅,到作為數(shù)字技術(shù)的核心部件——高質(zhì)量硅芯片.然而,傳統(tǒng)的新材料研發(fā)方法[1],如經(jīng)驗(yàn)試錯(cuò)法,因具有開發(fā)周期長(zhǎng)、效率低、成本高等一系列缺點(diǎn),很難滿足當(dāng)今社會(huì)發(fā)展的需求.目前,采用人工智能、機(jī)器學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)方法[2],因計(jì)算成本低、能有效縮短開發(fā)周期,已被應(yīng)用于材料制備、材料分析和材料設(shè)計(jì)等諸多領(lǐng)域[3],包括預(yù)測(cè)鋼材的疲勞強(qiáng)度、合金材料的物理和機(jī)械性質(zhì)[4]等.

        特征選擇通過(guò)從原始特征集中選擇出最佳的特征子集,來(lái)提高機(jī)器學(xué)習(xí)算法的泛化性能.對(duì)材料數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的過(guò)程中,需要對(duì)含有大量數(shù)據(jù)的特征集進(jìn)行預(yù)處理.通過(guò)對(duì)特征數(shù)據(jù)的降維操作,不僅能夠減少冗余特征,避免模型過(guò)擬合,還能提高模型的可解釋性.同時(shí),特征子集的選擇是一個(gè)全局搜索的過(guò)程,采用遺傳算法、粒子群算法等啟發(fā)式算法來(lái)搜索最優(yōu)子集很有必要.基于此,本工作提出一種基于強(qiáng)化學(xué)習(xí)的封裝式特征選擇方法,首先利用強(qiáng)化學(xué)習(xí)中的智能體探索可能的特征子集空間,然后根據(jù)封裝式特征選擇的評(píng)價(jià)標(biāo)準(zhǔn)——機(jī)器學(xué)習(xí)算法的性能優(yōu)劣給強(qiáng)化學(xué)習(xí)分配不同的獎(jiǎng)勵(lì),最終將獲得最大獎(jiǎng)勵(lì)的決策序列作為最優(yōu)策略,從而得到最優(yōu)特征子集.與此同時(shí),本工作在非晶合金的分類問(wèn)題上進(jìn)行驗(yàn)證.此外,為了提高模型的預(yù)測(cè)性能,本工作通過(guò)符號(hào)變換的特征構(gòu)造方法,將低維特征映射到高維特征,最后利用強(qiáng)化學(xué)習(xí)從高維特征中選出最優(yōu)的特征子集,并在鋁基復(fù)合材料的力學(xué)性能預(yù)測(cè)上進(jìn)行驗(yàn)證.

        1 相關(guān)工作

        1.1 特征選擇相關(guān)工作

        特征選擇的研究最早可以追溯到20世紀(jì)60年代,涉及機(jī)器學(xué)習(xí)、模式識(shí)別等多個(gè)領(lǐng)域.隨著特征維度的上升,為了保證學(xué)習(xí)算法的預(yù)測(cè)精度,需要訓(xùn)練的樣本數(shù)量大幅增加.因此,特征選擇作為一種最直接的降維手段,得到眾多學(xué)者的關(guān)注和研究.根據(jù)特征選擇過(guò)程中使用的評(píng)價(jià)標(biāo)準(zhǔn)不同,特征選擇方法大致可以分為3種:過(guò)濾式方法(filter)、封裝式方法(wrapper)和嵌入式方法(embedded)[5].

        過(guò)濾式方法獨(dú)立于后續(xù)的機(jī)器學(xué)習(xí)算法,基于數(shù)據(jù)之間的內(nèi)在特性篩選特征,其中針對(duì)內(nèi)在特征的評(píng)價(jià)衍生出很多相關(guān)研究.Relief、ReliefF算法使用歐氏距離衡量特征和目標(biāo)量之間的關(guān)系[6].該類算法考慮了特征和目標(biāo)量之間的相關(guān)性,但是沒(méi)有考慮特征之間可能存在冗余.Fisher方法來(lái)源于fisher準(zhǔn)則——類內(nèi)距離盡可能小、類間距離盡可能大,能夠選出具有明顯影響的特征[7].其他度量手段,如互信息、信息增益、加入冗余懲罰的互信息、條件互信息、歸一化互信息等[8],都可歸結(jié)為度量特征間、特征與類別間非線性關(guān)系的手段.

        封裝式方法將特征選擇過(guò)程與后續(xù)的機(jī)器學(xué)習(xí)算法緊密結(jié)合,將模型指標(biāo)作為篩選特征的標(biāo)準(zhǔn).Guyon等[9]在2002年提出高效的封裝式特征選擇算法——支持向量機(jī)-遞歸特征消除(support vector machine-recursive feature elimination,SVM-RFE),該算法將SVM的分類準(zhǔn)確率作為選擇特征的標(biāo)準(zhǔn),通過(guò)前向搜索尋找最優(yōu)的特征子集,因其高效性目前仍被廣泛使用.2014年,姚登舉等[10]提出一種基于隨機(jī)森林的封裝式特征選擇方法,通過(guò)隨機(jī)森林對(duì)特征的重要性排序,用后向搜索的方法依次刪去子集中重要性最低的特征,并重新訓(xùn)練模型,最后選擇分類準(zhǔn)確率最高的特征子集作為特征選擇結(jié)果.封裝式方法結(jié)合了具體的機(jī)器學(xué)習(xí)算法,每次評(píng)價(jià)都需要訓(xùn)練一次模型,因此運(yùn)行時(shí)間較長(zhǎng),但該類算法通常能夠選出具有良好解釋性的、小規(guī)模的特征子集.隨著計(jì)算能力的提高以及智能優(yōu)化算法的發(fā)展,封裝式方法也得到了廣泛的應(yīng)用.

        嵌入式方法是將特征選擇方法嵌入機(jī)器學(xué)習(xí)算法中,整個(gè)模型訓(xùn)練的過(guò)程也是特征選擇的過(guò)程,模型訓(xùn)練結(jié)束就可以得到特征子集.決策樹是典型的嵌入式特征選擇方法,其特征選擇的標(biāo)準(zhǔn)有信息增益、信息增益率和基尼系數(shù)等[11].另一類是基于L1正則化方法,通過(guò)將回歸系數(shù)中0的特征刪掉,最后留下來(lái)的特征就是選出的特征子集[12].

        1.2 強(qiáng)化學(xué)習(xí)相關(guān)工作

        1953年,Bellman提出了動(dòng)態(tài)規(guī)劃數(shù)學(xué)理論和方法,其中的貝爾曼方程是強(qiáng)化學(xué)習(xí)的基礎(chǔ)之一.1957年,Bellman等[13]又提出了馬爾可夫決策過(guò)程,為強(qiáng)化學(xué)習(xí)的發(fā)展作出重要貢獻(xiàn).20世紀(jì)60年代,Andreae等[14]開發(fā)了通過(guò)與環(huán)境交互進(jìn)行試錯(cuò)學(xué)習(xí)的系統(tǒng)——STeLLA系統(tǒng).1988年,Sutton等[15]首次使用時(shí)間差分(time difference,TD)學(xué)習(xí)算法.1989年,Watkins[16]首次提出了Q-learning強(qiáng)化學(xué)習(xí)算法,利用TD算法更新維護(hù)Q表,最終可以收斂到最優(yōu)Q值.2013年,DeepMind團(tuán)隊(duì)利用智能體通過(guò)深度學(xué)習(xí)網(wǎng)絡(luò)直接從高維度的感應(yīng)器輸入中提取有效特征,然后利用Q-learning的思想尋找最優(yōu)策略,這種與深度學(xué)習(xí)結(jié)合的Q-learning強(qiáng)化學(xué)習(xí)也被稱為深度Q-learning網(wǎng)絡(luò)(deepQ-learning network,DQN)[17].2014年,Silver等[18]提出確定性策略梯度強(qiáng)化學(xué)習(xí)算法,相較于DQN,該算法可以選擇連續(xù)的動(dòng)作行為.2015年,Van Hasselt等[19]提出雙Q-learning的深度強(qiáng)化學(xué)習(xí),加速?gòu)?qiáng)化學(xué)習(xí)的收斂.2017年,DeepMind發(fā)布AlphaGo Zero,該智能體不需要人類專業(yè)棋譜,通過(guò)自我對(duì)弈,就超過(guò)了之前的AlphaGo版本[20].

        2 強(qiáng)化學(xué)習(xí)基本理論

        強(qiáng)化學(xué)習(xí)是一種學(xué)習(xí)環(huán)境狀態(tài)到智能體行為映射的機(jī)器學(xué)習(xí)方法.強(qiáng)化學(xué)習(xí)的主體——智能體,通過(guò)接收當(dāng)前環(huán)境特征,對(duì)當(dāng)前環(huán)境特征進(jìn)行判斷,做出相應(yīng)的行為,使得自身在執(zhí)行一系列行為后所得的累計(jì)獎(jiǎng)勵(lì)值最大.強(qiáng)化學(xué)習(xí)方法不需要類似監(jiān)督學(xué)習(xí)那樣被告知采取何種行為,而是通過(guò)獎(jiǎng)勵(lì)來(lái)“告訴”智能體當(dāng)前所作行為的“好壞”,智能體通過(guò)不斷嘗試選擇最優(yōu)的策略即可.因此,整個(gè)學(xué)習(xí)過(guò)程中設(shè)計(jì)者只需要給出對(duì)應(yīng)的獎(jiǎng)懲大小.

        2.1 強(qiáng)化學(xué)習(xí)原理

        標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)框架如圖1所示.智能體接收環(huán)境的狀態(tài)編碼,將其作為智能體輸入,即感知當(dāng)前環(huán)境狀態(tài)s,然后通過(guò)自身決策策略選擇動(dòng)作a,將其作為智能體的輸出.智能體執(zhí)行動(dòng)作a后,將導(dǎo)致環(huán)境發(fā)生變化,進(jìn)入環(huán)境狀態(tài)s′,與此同時(shí),環(huán)境會(huì)給予智能體對(duì)應(yīng)的獎(jiǎng)懲信號(hào)r.智能體的目標(biāo)是每次選擇動(dòng)作后,使得環(huán)境給予智能體的獎(jiǎng)勵(lì)盡可能大.為了完成目標(biāo),智能體會(huì)執(zhí)行一系列動(dòng)作,這些動(dòng)作被統(tǒng)稱為行動(dòng)策略Π,Π={a1,a2,···,an}.當(dāng)某個(gè)行動(dòng)策略獲得的獎(jiǎng)懲信號(hào)r>0,強(qiáng)化學(xué)習(xí)過(guò)程會(huì)加強(qiáng)選擇該類行為的趨勢(shì);對(duì)應(yīng)地,當(dāng)某個(gè)行動(dòng)策略獲得的獎(jiǎng)懲信號(hào)r<0,則會(huì)減弱選擇該類行為的趨勢(shì).而獎(jiǎng)懲信號(hào)r的絕對(duì)值大小代表了增強(qiáng)或減弱趨勢(shì)的幅度.

        圖1 標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)框架Fig.1 Standard reinforcement learning framework

        強(qiáng)化學(xué)習(xí)過(guò)程中智能體探索環(huán)境和訓(xùn)練過(guò)程基于馬爾可夫決策過(guò)程,該過(guò)程可由一個(gè)五元組表示:M=(S,A,P,R,γ),式中:S表示一組環(huán)境狀態(tài)集合,st表示智能體在t時(shí)刻所處的狀態(tài),st∈S;A表示一組動(dòng)作集合,at表示智能體在a時(shí)刻執(zhí)行的動(dòng)作,at∈A;P表示狀態(tài)轉(zhuǎn)移概率分布函數(shù),P(st,at)表示在st狀態(tài)下執(zhí)行了動(dòng)作at后,轉(zhuǎn)移到其他環(huán)境狀態(tài)的概率分布;R表示獎(jiǎng)勵(lì)函數(shù),R(st,at)表示在st狀態(tài)下執(zhí)行了動(dòng)作at后獲得的獎(jiǎng)勵(lì);γ表示折扣率或折扣因子,其值為[0,1].

        智能體在狀態(tài)st下執(zhí)行了行為at,此后每個(gè)時(shí)刻所獲得的收益都需要乘以γ.引入折扣率主要是出于兩方面的考慮:其一是由于某些任務(wù)具有時(shí)限性,引入折扣率可以使得相同的獎(jiǎng)勵(lì)越早獲得,總收益就會(huì)越大,則整個(gè)決策行為朝著越快獲得更大獎(jiǎng)勵(lì)的方向執(zhí)行;其二是由于距離當(dāng)前環(huán)境狀態(tài)越遠(yuǎn),獲得收益的不確定性就會(huì)越大,通過(guò)衰減因子來(lái)縮小未來(lái)的收益變化能夠縮小誤差.

        強(qiáng)化學(xué)習(xí)的整個(gè)過(guò)程就是在尋求最優(yōu)策略Π*,以使獲得的折扣獎(jiǎng)勵(lì)和的期望v(s,Π)最大,這是由于狀態(tài)轉(zhuǎn)移函數(shù)是個(gè)概率函數(shù),所以要求期望最大.v(s,Π)的定義為

        式中:s0表示初始狀態(tài);rt表示t時(shí)刻獲得的獎(jiǎng)勵(lì).式(1)又可以被改寫成

        式(2)體現(xiàn)了執(zhí)行策略Π所獲得獎(jiǎng)勵(lì)總和等于當(dāng)前狀態(tài)下執(zhí)行策略Π中的行為aΠ獲得的獎(jiǎng)勵(lì)以及轉(zhuǎn)移到下一個(gè)狀態(tài)s′后執(zhí)行后續(xù)Π策略行為所獲得的累積獎(jiǎng)勵(lì)和.智能體通過(guò)學(xué)習(xí)狀態(tài)轉(zhuǎn)移函數(shù)和獎(jiǎng)勵(lì)函數(shù),就可以通過(guò)迭代搜索得到最優(yōu)策略Π*.

        基于馬爾可夫決策過(guò)程,研究者提出了多種不同的強(qiáng)化學(xué)習(xí)算法.本工作主要研究將強(qiáng)化學(xué)習(xí)應(yīng)用于特征選擇,根據(jù)強(qiáng)化學(xué)習(xí)的訓(xùn)練探索過(guò)程,抽象出基于強(qiáng)化學(xué)習(xí)的封裝式特征選擇模型,得到如下抽象關(guān)系:①狀態(tài)集S,特征的不同組合方式組成的子集;②動(dòng)作集A,添加某個(gè)特征或結(jié)束;③收益R,將特征子集在模型上的預(yù)測(cè)準(zhǔn)確率作為收益.

        以上關(guān)系可通過(guò)DQN求解最優(yōu)策略,即通過(guò)DQN方法運(yùn)行特征選擇.

        2.2 深度Q-learning網(wǎng)絡(luò)

        DQN是在Q-learning強(qiáng)化學(xué)習(xí)的基礎(chǔ)上演進(jìn)而來(lái)的,二者具有相同思想.Q-learning是一種基于價(jià)值的強(qiáng)化學(xué)習(xí)算法[21],其中的Q代表動(dòng)作-價(jià)值函數(shù)Q(st,at),表示在某個(gè)時(shí)刻t的st狀態(tài)下,采用動(dòng)作at所得到的最大累計(jì)收益.Q值是由智能體選擇行為后獲得的即刻收益以及執(zhí)行最優(yōu)策略后得到的值,因此可表示為

        Q-learning的主要思想是利用狀態(tài)s和動(dòng)作a構(gòu)建出一張二維的Q表,表中的每一個(gè)值表示在當(dāng)前狀態(tài)下選擇對(duì)應(yīng)行為預(yù)期獲得的獎(jiǎng)勵(lì).基于Q表,當(dāng)智能體處于對(duì)應(yīng)環(huán)境狀態(tài)時(shí),不斷選擇預(yù)期獎(jiǎng)勵(lì)值最大的行為,直到流程結(jié)束,這個(gè)過(guò)程中選擇的行為集合就是所需要的最優(yōu)策略Π*.顯然,Q-learning的訓(xùn)練過(guò)程就是訓(xùn)練出一張Q表,從而準(zhǔn)確計(jì)算每個(gè)狀態(tài)-動(dòng)作對(duì)應(yīng)的預(yù)期獎(jiǎng)勵(lì).根據(jù)式(3),Q(st+1,at+1)和Q(st,at)是Q表中對(duì)應(yīng)的兩個(gè)值,R(st,at)是環(huán)境反饋的值.由于等式兩部分初始化后存在誤差,可以用式(3)迭代優(yōu)化Q表,具體為

        可以看到,優(yōu)化只需要當(dāng)前狀態(tài)和下一狀態(tài)的值,而不需要整個(gè)策略,因此有單步更新速度快的優(yōu)點(diǎn).整個(gè)Q-learning的訓(xùn)練流程如算法1所示.

        算法1:Q-learning訓(xùn)練過(guò)程1.初始化Q表中的值,折扣因子γ,迭代次數(shù)i=0;2.while i≤最大迭代次數(shù)do 3.while所處的狀態(tài)st不是終止?fàn)顟B(tài)do 4.根據(jù)當(dāng)前所處的狀態(tài)st,選擇Q表中對(duì)應(yīng)的預(yù)期獎(jiǎng)勵(lì)最大的動(dòng)作at;5.執(zhí)行動(dòng)作at,進(jìn)入下一個(gè)狀態(tài)st+1,并獲得獎(jiǎng)勵(lì)rt;6.根據(jù)獎(jiǎng)勵(lì)rt更新Q表對(duì)應(yīng)的部分;7.end 8.i=i+1;9.end

        Q-learning在機(jī)械控制、游戲智能等領(lǐng)域有著廣泛的應(yīng)用[22].然而,現(xiàn)實(shí)情況中的問(wèn)題會(huì)很復(fù)雜,狀態(tài)多到難以統(tǒng)計(jì),使用二維表的方式去記錄所有可能的狀態(tài)和行為是不現(xiàn)實(shí)的.不過(guò),在機(jī)器學(xué)習(xí)中,神經(jīng)網(wǎng)絡(luò)可以很好地解決此問(wèn)題.DQN可以看作是Q-learning和神經(jīng)網(wǎng)絡(luò)的結(jié)合[17].DQN將環(huán)境狀態(tài)作為神經(jīng)網(wǎng)絡(luò)的輸入,經(jīng)神經(jīng)網(wǎng)絡(luò)計(jì)算后得到每個(gè)動(dòng)作的Q值.神經(jīng)網(wǎng)絡(luò)接受環(huán)境狀態(tài)的信息,類似人類通過(guò)眼睛、鼻子和耳朵接受外界信息,通過(guò)大腦——神經(jīng)網(wǎng)絡(luò),分析出每個(gè)行為未來(lái)可能帶來(lái)的預(yù)期收益,然后選擇收益最大的行為執(zhí)行.整個(gè)過(guò)程是將當(dāng)前智能體所處的環(huán)境狀態(tài)編碼,并將該編碼輸入神經(jīng)網(wǎng)絡(luò),然后神經(jīng)網(wǎng)絡(luò)通過(guò)對(duì)當(dāng)前狀態(tài)的計(jì)算,輸出其執(zhí)行每個(gè)行為后能獲得的預(yù)期獎(jiǎng)勵(lì),選擇預(yù)期獎(jiǎng)勵(lì)最大的行為作為接下來(lái)要執(zhí)行的行為.選擇行為過(guò)程如圖2所示.

        圖2 DQN選擇行為過(guò)程Fig.2 Process of DQN selection behavior

        同時(shí),DQN為了加快神經(jīng)網(wǎng)絡(luò)的收斂,還使用了經(jīng)驗(yàn)回放機(jī)制和“凍結(jié)”Q-網(wǎng)絡(luò)機(jī)制[19].根據(jù)Q-learning的更新方式,每執(zhí)行一次動(dòng)作轉(zhuǎn)換到新?tīng)顟B(tài)就進(jìn)行一次神經(jīng)網(wǎng)絡(luò)的更新,這導(dǎo)致神經(jīng)網(wǎng)絡(luò)頻繁抖動(dòng)而難以收斂.不同于Q-learning,經(jīng)驗(yàn)回放機(jī)制是指訓(xùn)練過(guò)程中DQN會(huì)維護(hù)一個(gè)“記憶庫(kù)”來(lái)存儲(chǔ)四元組(s,a,r,s′),即從狀態(tài)s執(zhí)行動(dòng)作a轉(zhuǎn)移到狀態(tài)s′,獲得的獎(jiǎng)勵(lì)為r.DQN每次更新時(shí)都會(huì)隨機(jī)抽取“記憶庫(kù)”中的部分四元組進(jìn)行學(xué)習(xí)優(yōu)化,這種隨機(jī)抽取部分內(nèi)容的方式打亂了學(xué)習(xí)經(jīng)歷之間的相關(guān)性,使神經(jīng)網(wǎng)絡(luò)更新更有效率.同時(shí),由于神經(jīng)網(wǎng)絡(luò)更新的數(shù)據(jù)來(lái)源于數(shù)據(jù)庫(kù),因此也不需要智能體真實(shí)地與環(huán)境進(jìn)行交互,而是可以使用“別人的經(jīng)歷”.類似于人類學(xué)習(xí),既可以從自己的“經(jīng)歷”中學(xué)習(xí),也可以從他人告知的“經(jīng)歷”中學(xué)習(xí).“凍結(jié)”Q-網(wǎng)絡(luò)機(jī)制也是一套打亂相關(guān)性的方法,在DQN中,常使用兩個(gè)結(jié)構(gòu)相同但參數(shù)不同的神經(jīng)網(wǎng)絡(luò),其中用來(lái)預(yù)測(cè)Q(st,at)的神經(jīng)網(wǎng)絡(luò)稱作Q-估計(jì)網(wǎng)絡(luò),而用來(lái)計(jì)算R(st,at)+γQ(st+1,at+1)的神經(jīng)網(wǎng)絡(luò)稱作Q-現(xiàn)實(shí)網(wǎng)絡(luò).每次更新DQN時(shí)僅更新Q-估計(jì)網(wǎng)絡(luò),而Q-現(xiàn)實(shí)網(wǎng)絡(luò)使用之前的參數(shù),經(jīng)過(guò)一段時(shí)間后,才會(huì)使用最新的網(wǎng)絡(luò)參數(shù),即一段時(shí)間內(nèi)“凍結(jié)”Q-現(xiàn)實(shí)網(wǎng)絡(luò)的參數(shù).通過(guò)這種方式計(jì)算出來(lái)的Q(st,at)和Q(st+1,at+1)降低了相關(guān)性,使得更新更有效率.綜上,整個(gè)DQN的訓(xùn)練流程如算法2所示.

        算法2:DQN訓(xùn)練過(guò)程輸入:最大迭代次數(shù)T;兩個(gè)完全相同的神經(jīng)網(wǎng)絡(luò)模型;訓(xùn)練步長(zhǎng)step;訓(xùn)練樣本數(shù)k;同步網(wǎng)絡(luò)步長(zhǎng)syn step;記憶庫(kù)容量M;折扣因子γ.輸出:預(yù)測(cè)Q值的神經(jīng)網(wǎng)絡(luò).1.初始化迭代次數(shù)i=0;2.while i≤最大迭代次數(shù)do 3.while所處的狀態(tài)st不是終止?fàn)顟B(tài)do 4.根據(jù)當(dāng)前所處的狀態(tài)st,選擇Q表中對(duì)應(yīng)的預(yù)期獎(jiǎng)勵(lì)最大的動(dòng)作at;5.執(zhí)行動(dòng)作at,進(jìn)入下一個(gè)狀態(tài)st+1,并獲得獎(jiǎng)勵(lì)rt;6.if記憶庫(kù)當(dāng)前大小m<M then 7.將四元組{st,at,rt,st+1}存入記憶庫(kù);8.end 9.else 10.刪除記憶庫(kù)的第一條記錄;11.將四元組{st,at,rt,st+1}存入記憶庫(kù);12.if i % step=0 then 13.從記憶庫(kù)中隨機(jī)選擇k個(gè)樣本;14.根據(jù)樣本用兩個(gè)神經(jīng)網(wǎng)絡(luò)計(jì)算對(duì)應(yīng)狀態(tài)下的Q值;15.將(R(st,at)+γQ(st+1,at+1)-Q(st,at))2作為損失函數(shù)更新神經(jīng)網(wǎng)絡(luò)參數(shù);16.if i % syn step=0 then 17.將Q-估計(jì)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)參數(shù)同步到Q-現(xiàn)實(shí)網(wǎng)絡(luò);18.end 19.end 20.end 21.i=i+1;22.end

        2.3 基于符號(hào)變換的特征構(gòu)造方法

        在通常情況下,數(shù)據(jù)中的很多特征信息都是通過(guò)觀察、測(cè)量等手段獲得的,這類信息往往含有干擾維度,且往往與要進(jìn)行預(yù)測(cè)的目標(biāo)相關(guān)性較低.盡管有很多類似核函數(shù)的升維方法,但升維選擇的核函數(shù)較為單一,使得模型預(yù)測(cè)精度不能達(dá)到應(yīng)用要求.基于上述問(wèn)題,本工作提出了一種基于符號(hào)變換的特征構(gòu)造方法,用來(lái)生成新的特征,以提高模型的預(yù)測(cè)精度.

        符號(hào)變換的思想來(lái)源于符號(hào)回歸[23],主要是將各維度的數(shù)據(jù)通過(guò)符號(hào),即數(shù)學(xué)操作符、常量等,組成各種各樣的數(shù)學(xué)表達(dá)式,而新組成的數(shù)學(xué)表達(dá)式空間可看作是構(gòu)造的新的特征空間.符號(hào)變換的方法不需要假設(shè)特征和目標(biāo)之間的相互關(guān)系,新組成的數(shù)學(xué)表達(dá)式由特征和符號(hào)組成,其中數(shù)學(xué)操作符包括“+”“-”“*”“/”和“l(fā)g”等.符號(hào)變換生成數(shù)學(xué)表達(dá)式的過(guò)程可以看作是特征從低維空間映射到高維空間的過(guò)程,通過(guò)取對(duì)數(shù)、冪函數(shù)等非線性方式,將原始特征互相組合,并進(jìn)行非線性變換,使得生成的數(shù)學(xué)表達(dá)式特征相比于原始特征能夠更好地描述目標(biāo)變量.可以選擇的符號(hào)算子如下:①布爾型特征:析取、合取、否定等;②數(shù)值類特征:最小值、最大值、加法、減法、乘法、除法、三角函數(shù)變換、對(duì)數(shù)、冪函數(shù)等.

        通過(guò)一次符號(hào)變換所組成的特征不一定能很好地描述預(yù)測(cè)目標(biāo),因此可以重復(fù)迭代多次,將新組成的數(shù)學(xué)表達(dá)式空間看作是在一個(gè)原始特征空間上繼續(xù)進(jìn)行符號(hào)變換,最后將多次符號(hào)變換的結(jié)果作為最終構(gòu)造的特征空間.然而,通過(guò)上述方式組成的數(shù)學(xué)表達(dá)式空間中存在大量的冗余和干擾特征,需要進(jìn)行特征選擇,使預(yù)測(cè)目標(biāo)變量能夠更加準(zhǔn)確.本工作提出一種基于符號(hào)變換的特征構(gòu)造過(guò)程和基于強(qiáng)化學(xué)習(xí)的特征選擇過(guò)程,使得篩選出來(lái)的數(shù)學(xué)表達(dá)式特征能夠更好地描述目標(biāo)變量,整個(gè)框架如圖3所示.

        圖3 結(jié)合符號(hào)變換的特征構(gòu)造和基于強(qiáng)化學(xué)習(xí)的特征選擇整體框架Fig.3 Overall framework of feature construction based on symbolic transformation and feature selection based on reinforcement learning

        整個(gè)特征選擇的過(guò)程首先是對(duì)數(shù)據(jù)源進(jìn)行數(shù)據(jù)清洗、歸一化等預(yù)處理操作;然后再用符號(hào)對(duì)每個(gè)特征進(jìn)行變換,形成新的特征集合,整個(gè)過(guò)程不斷迭代,直至滿足條件產(chǎn)生新的更大的特征空間.特征構(gòu)造過(guò)程可表示為如圖4所示的樹形結(jié)構(gòu),其中F1,F2,···,F8是原始數(shù)據(jù)特征,O1,O2,···,O7是符號(hào)變換.通過(guò)符號(hào)變換,將F1、F2等原始數(shù)據(jù)特征轉(zhuǎn)化成新的特征,組成新的特征空間space1,之后再對(duì)新的特征空間繼續(xù)進(jìn)行符號(hào)變換,得到特征空間space2、space3.特征空間中新構(gòu)造的每一個(gè)特征融合了多維原始特征,因此每一個(gè)新特征能夠表現(xiàn)出多維原始特征的某些特性,具有更好的表達(dá)能力.在產(chǎn)生的新的特征空間中使用強(qiáng)化學(xué)習(xí)進(jìn)行特征選擇來(lái)降維,可去除大量冗余特征,進(jìn)一步提升預(yù)測(cè)精度,得到最終選擇出的特征子集以及模型.

        圖4 基于符號(hào)變換的特征構(gòu)造過(guò)程舉例Fig.4 An example of the process of feature construction based on symbolic transformation

        2.4 基于強(qiáng)化學(xué)習(xí)的特征選擇算法設(shè)計(jì)

        結(jié)合封裝式特征選擇的特點(diǎn)以及強(qiáng)化學(xué)習(xí)中的DQN方法,本工作提出一種基于強(qiáng)化學(xué)習(xí)的特征選擇(feature selection based on reinforcement learning,FSRL)算法.FSRL算法利用智能體的決策能力選擇特征子集,通過(guò)訓(xùn)練一個(gè)收斂的價(jià)值網(wǎng)絡(luò)得到最優(yōu)特征子集.

        FSRL算法流程如圖5所示.環(huán)境狀態(tài)編碼是一個(gè)僅由0和1組成的n維向量,n是全部特征個(gè)數(shù).若向量中第i個(gè)元素為1,則表示第i個(gè)特征已經(jīng)被加入當(dāng)前特征子集;若向量中第i個(gè)元素為0,則表示沒(méi)有被加入.每次選擇一個(gè)新的特征加入特征子集后,環(huán)境狀態(tài)編碼對(duì)應(yīng)位置的數(shù)字由0變?yōu)?.流程開始時(shí)先對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)歸一化、刪除異常點(diǎn)以及過(guò)濾式特征選擇等;然后初始化特征子集為空集,智能體可執(zhí)行的行為有n種(n表示可選特征的個(gè)數(shù)),每次選擇某個(gè)特征加入特征子集.同時(shí),設(shè)定一個(gè)超參數(shù)表示最后選擇的特征子集大小.若當(dāng)前特征子集等于設(shè)定的特征子集時(shí),將選擇的特征子集輸入分類器,測(cè)試當(dāng)前所選特征子集的準(zhǔn)確率,并將其作為環(huán)境反饋獎(jiǎng)勵(lì)大小的依據(jù).但是,單純使用準(zhǔn)確率作為獎(jiǎng)勵(lì)函數(shù),會(huì)使得整個(gè)訓(xùn)練過(guò)程中都是正獎(jiǎng)勵(lì),即全都是增加選擇該特征的趨勢(shì),不易收斂且很容易陷入局部最優(yōu)解.因此,可以設(shè)置一個(gè)基準(zhǔn)目標(biāo)target,當(dāng)分類準(zhǔn)確率大于target,反饋正獎(jiǎng)勵(lì);低于target,反饋負(fù)獎(jiǎng)勵(lì),即對(duì)于特征選擇后模型能達(dá)到的分類準(zhǔn)確率有一個(gè)目標(biāo).具體的獎(jiǎng)勵(lì)score設(shè)置為

        圖5 基于強(qiáng)化學(xué)習(xí)的特征選擇算法流程Fig.5 Flowchart of feature selection algorithm based on reinforcement learning

        式中:α是比例因子,用于放大準(zhǔn)確率accuracy和目標(biāo)target間的差值.由于accuracy和target都是[0,1]的小數(shù),僅僅以二者的差作為獎(jiǎng)勵(lì)會(huì)使得獎(jiǎng)勵(lì)都很小,整個(gè)訓(xùn)練過(guò)程的變化很慢,不容易收斂,因此需要引入比例因子進(jìn)行適當(dāng)放大.

        同時(shí),為了避免探索過(guò)程中持續(xù)選擇同一個(gè)策略,即陷入局部最優(yōu)解,可使用ε-貪心策略,即智能體有ε的幾率按照最大預(yù)期獎(jiǎng)勵(lì)的方式選擇對(duì)應(yīng)的特征子集,同時(shí)也有1-ε的幾率隨機(jī)選擇行為.通過(guò)該策略可以有效跳出局部最優(yōu)解,從而盡量獲得全局最優(yōu)[24].此外,按照設(shè)定的方法選擇特征,有可能出現(xiàn)當(dāng)前特征已經(jīng)被選進(jìn)特征子集中,但是后續(xù)預(yù)測(cè)過(guò)程中選擇該特征的行為的預(yù)期獎(jiǎng)勵(lì)最大,即依舊選擇該特征,此時(shí)智能體會(huì)選擇預(yù)期獎(jiǎng)勵(lì)第二大的特征.

        3 實(shí)驗(yàn)設(shè)計(jì)

        為了驗(yàn)證算法的有效性,本工作將FSRL算法分別應(yīng)用于兩個(gè)材料數(shù)據(jù)集——非晶合金材料和鋁基復(fù)合材料,兩個(gè)數(shù)據(jù)集對(duì)應(yīng)兩個(gè)不同的預(yù)測(cè)任務(wù):分類和回歸.

        3.1 非晶合金材料分類

        非晶合金,又稱為“金屬玻璃”,是一類新型的多組元合金,因其具有高強(qiáng)度、高硬度、耐腐蝕、超塑性、軟磁性等優(yōu)異性能,被廣泛應(yīng)用于新能源、高端制造業(yè)等高技術(shù)領(lǐng)域[25].非晶合金的研發(fā)不同于傳統(tǒng)材料,因此快速研判給定材料是否屬于非晶合金在實(shí)際應(yīng)用中具有重要價(jià)值.基于已有研究收集的非晶合金數(shù)據(jù)集,通過(guò)強(qiáng)化學(xué)習(xí)特征選擇,從全部數(shù)據(jù)集的94維特征中選出固定的10維特征來(lái)預(yù)測(cè)非晶合金類型.BMG(bulk metallic glass)為大塊金屬玻璃,RMG(ribbon metallic glass)為帶狀金屬玻璃,CRA(crystalline alloy)為結(jié)晶合金.數(shù)據(jù)集共包含5 935條數(shù)據(jù),其中BMG類別有675條,RMG類別有3 708條,CRA類別有1 552條.對(duì)于分類問(wèn)題而言,這是一個(gè)類別不平衡的數(shù)據(jù)集,若以常規(guī)的隨機(jī)采樣方式分割訓(xùn)練集和測(cè)試集,會(huì)使得分類器偏向于大類別,使準(zhǔn)確率指標(biāo)的參考性大幅降低.因此,本工作使用分層抽樣的方法,即根據(jù)數(shù)據(jù)中3種不同的類別,將總體數(shù)據(jù)集分成3個(gè)不同的子總體(稱為層),在每層中按照3類對(duì)應(yīng)數(shù)據(jù)的比例隨機(jī)抽取樣本分成訓(xùn)練集和測(cè)試集.通過(guò)分層抽樣方法使得測(cè)試集中含有的3個(gè)類別數(shù)據(jù)的比例和訓(xùn)練集大致相同,也使得各評(píng)價(jià)指標(biāo)能夠有效說(shuō)明分類的結(jié)果.

        在數(shù)據(jù)預(yù)處理階段,通過(guò)計(jì)算特征之間的Pearson相關(guān)系數(shù)過(guò)濾掉一部分冗余特征.假設(shè)X、Y為兩個(gè)隨機(jī)變量,有N條記錄,則X和Y的Pearson相關(guān)系數(shù)為

        Pearson相關(guān)系數(shù)反映了兩個(gè)變量之間的線性相關(guān)程度,因此式(6)可以看作是兩個(gè)隨機(jī)向量中得到的樣本集向量之間夾角的余弦值.在實(shí)驗(yàn)過(guò)程中,對(duì)于Pearson相關(guān)系數(shù)大于0.85的兩個(gè)特征,僅保留其中一個(gè),即其中一個(gè)特征能夠被另一個(gè)特征線性表示,則該特征是冗余的.通過(guò)數(shù)據(jù)預(yù)處理,僅保留50維特征.由于數(shù)據(jù)本身維度較高,并且分類任務(wù)相較于回歸比較簡(jiǎn)單,因此在得到的數(shù)據(jù)集上沒(méi)有使用基于符號(hào)變換的特征構(gòu)造方法,僅在保留的50維特征上使用FSRL算法.同時(shí),選擇多個(gè)分類器來(lái)驗(yàn)證FSRL算法的有效性.

        從表1可以看出,經(jīng)過(guò)降維后,4種模型算法在準(zhǔn)確率方面都有了不同程度的提升,其中決策樹算法的提升最大.這是由于決策樹本身是通過(guò)類似多叉樹的方式進(jìn)行分類,盡管有一定的剪枝策略,但決策樹的優(yōu)化常需要調(diào)參,并且這種通過(guò)人為調(diào)參避免過(guò)擬合的方式不容易找到一個(gè)合適的參數(shù).通過(guò)特征選擇的方式減少特征維度,使得決策樹的選擇范圍變小,有效減小樹的深度,避免了過(guò)擬合現(xiàn)象.

        表1 使用全部特征和特征選擇后的準(zhǔn)確率結(jié)果Table 1 Accuracy results using all features and feature selection

        為了從多個(gè)角度評(píng)價(jià)分類效率,表2對(duì)比了FSRL算法使用與否情況下4種機(jī)器學(xué)習(xí)模型在每個(gè)類別的精確率和召回率.從表2可以看出,通過(guò)FSRL算法進(jìn)行特征選擇后,大部分非晶合金類別的精確率和召回率都有明顯的提升,且3個(gè)類別在召回率上的表現(xiàn)均是FSRL算法處理后的結(jié)果最優(yōu).在精確率上,只有RMG分類上的FSRL結(jié)果較全部特征差0.002.FSRL算法在總體表現(xiàn)上更加優(yōu)異,能夠很好地區(qū)分3類非晶合金材料,驗(yàn)證了在分類任務(wù)中通過(guò)FSRL算法進(jìn)行特征選擇能夠有效減少特征數(shù)量,提升分類效果.

        表2 使用全部特征和特征選擇后的精確率和召回率結(jié)果Table 2 Precision and recall results using all features and feature selection

        3.2 鋁基復(fù)合材料性能預(yù)測(cè)

        復(fù)合材料是指通過(guò)將兩種及兩種以上性質(zhì)不同的物質(zhì),使用不同的成分配比混合制成的新型材料.復(fù)合材料克服了單一材料某些性能不足的問(wèn)題,從20世紀(jì)中期開始,就受到材料領(lǐng)域的廣泛關(guān)注和重視.根據(jù)復(fù)合材料中使用的基體種類不同,可以大致分成3類:樹脂基復(fù)合材料、金屬基復(fù)合材料以及陶瓷基復(fù)合材料.金屬基復(fù)合材料由于具有更好的綜合性能、更高的性價(jià)比和良好的發(fā)展前景,而受到研究人員的青睞.金屬基復(fù)合材料中,由于鋁具有成本低、抗老化性能好、可加工性好等優(yōu)點(diǎn),被更多地應(yīng)用于復(fù)合材料的基體.目前,鋁基復(fù)合材料已被應(yīng)用于航空航天、電子和光學(xué)儀器等領(lǐng)域[26].力學(xué)性能是鋁基復(fù)合材料的關(guān)鍵性能,其中抗拉強(qiáng)度和延伸率尤為重要.

        本實(shí)驗(yàn)數(shù)據(jù)集由32條鋁基復(fù)合材料的實(shí)驗(yàn)數(shù)據(jù)構(gòu)成,其中特征10維主要包括成分特征(基體、增強(qiáng)體各2維)和工藝參數(shù)(熱壓溫度、熱壓壓力、固溶溫度、固溶時(shí)間、時(shí)效溫度和時(shí)效時(shí)間).預(yù)測(cè)的目標(biāo)變量為抗拉強(qiáng)度和延伸率.

        在應(yīng)用基于符號(hào)變換的特征構(gòu)造方法時(shí),在原始特征基礎(chǔ)上使用16種運(yùn)算符組合生成第一輪特征空間space1,然后在space1上重復(fù)使用上述運(yùn)算符,生成第二輪特征空間space2,重復(fù)上述過(guò)程3次,得到3個(gè)特征空間.這3個(gè)特征空間大約包含了109數(shù)量級(jí)的組合特征.最后,使用Pearson相關(guān)系數(shù)篩選相關(guān)性最大的前100維特征,對(duì)這100維特征使用FSRL算法進(jìn)行特征選擇.

        在使用FSRL算法進(jìn)行特征選擇時(shí),相比分類問(wèn)題中的FSRL算法進(jìn)行了優(yōu)化.主要優(yōu)化體現(xiàn)在,設(shè)定選擇的最大特征數(shù)為20,同時(shí)設(shè)置可選行為有(n+n/2)種,這里n代表特征升維過(guò)程結(jié)束后得到的新的特征維度,其中前n個(gè)行為表示選擇對(duì)應(yīng)的第n維特征加入特征子集,之后的n/2個(gè)行為表示終止選擇過(guò)程.對(duì)當(dāng)前的特征子集進(jìn)行評(píng)估,要盡可能降低選出空集的趨勢(shì),如果當(dāng)前子集為空時(shí),選擇了第n到第(n+n/2)行為,則給一個(gè)負(fù)獎(jiǎng)勵(lì).由于智能體探索到終止選擇過(guò)程的概率比較低,所以需要增加n/2個(gè)行為終止選擇,使得最后的特征選擇的最優(yōu)特征子集盡可能小(特征子集越小,越能避免過(guò)擬合).通過(guò)上述方法可以使得FSRL算法具有動(dòng)態(tài)選擇最優(yōu)特征子集大小的能力,而不需要人為指定選擇多少個(gè)特征后再停止.

        實(shí)驗(yàn)結(jié)果為10折交叉驗(yàn)證結(jié)果,這里使用“1-平均絕對(duì)百分比誤差”(mean absolute percentage error,MAPE)作為衡量指標(biāo):

        式中:ytrue為實(shí)際值;ypre為預(yù)測(cè)值.

        表3和4顯示了鋁基復(fù)合材料使用構(gòu)造新特征中的100維數(shù)據(jù)以及FSRL兩種特征選擇方法的結(jié)果,同時(shí)也比較了動(dòng)態(tài)選擇特征和固定特征子集個(gè)數(shù)兩種方式的結(jié)果,其中5種常見(jiàn)的回歸預(yù)測(cè)模型作為基礎(chǔ)模型,SVR(support vector regression)代表支持向量回歸.

        表3 鋁基復(fù)合材料延伸率預(yù)測(cè)結(jié)果Table 3 Elongation prediction results of aluminum matrix composite

        表4 鋁基復(fù)合材料抗拉強(qiáng)度結(jié)果Table 4 Tensile strength results of aluminum matrix composite

        從表3和4延伸率和抗拉強(qiáng)度的預(yù)測(cè)結(jié)果可以看出,基于符號(hào)變換的特征構(gòu)造方法能明顯提升多個(gè)基礎(chǔ)模型的預(yù)測(cè)能力.同時(shí),經(jīng)過(guò)FSRL算法降維,減少了大量的冗余和噪聲維度,能夠進(jìn)一步提升模型的預(yù)測(cè)精度.兩組實(shí)驗(yàn)的預(yù)測(cè)結(jié)果顯示,在大多數(shù)基礎(chǔ)模型中,使用動(dòng)態(tài)選擇特征維度的方法比固定數(shù)據(jù)維度的結(jié)果要好(僅在抗拉強(qiáng)度的SVR模型預(yù)測(cè)中略低0.1%).這是由于動(dòng)態(tài)選擇特征維度后,搜索空間變大,在迭代次數(shù)足夠多的情況下能夠探索到更多可能的特征組合,而動(dòng)態(tài)選擇的數(shù)據(jù)維度不是5維的預(yù)測(cè)結(jié)果也從側(cè)面印證了這一結(jié)論.

        4 總結(jié)與展望

        本工作提出了一種基于強(qiáng)化學(xué)習(xí)的特征選擇方法,并將其應(yīng)用到材料數(shù)據(jù)的特征選擇過(guò)程中,可有效降低特征維度,去除冗余信息,提高模型的泛化能力.

        首先,在非晶合金材料的分類任務(wù)中應(yīng)用固定維度的FSRL算法.結(jié)果表明,通過(guò)特征選擇使得4種基礎(chǔ)模型的分類準(zhǔn)確率得到了提升,最高提升了2.8%.同時(shí),對(duì)于每個(gè)類別的精確率和召回率,只有在非晶RMG的分類上,FSRL算法的精確率結(jié)果較全部特征差0.002,其余均是FSRL算法最優(yōu),從而驗(yàn)證了FSRL算法在分類任務(wù)上的有效性.

        其次,在鋁基復(fù)合材料的回歸任務(wù)中,先是通過(guò)基于符號(hào)變換的特征構(gòu)造方法構(gòu)造出新的特征,然后再用FSRL算法在新構(gòu)造的特征集中進(jìn)行特征選擇.同時(shí),由于回歸任務(wù)較分類任務(wù)更為復(fù)雜,通過(guò)動(dòng)態(tài)確定特征維度的方法擴(kuò)大了搜索空間范圍.結(jié)果表明,基于符號(hào)變換的特征構(gòu)造方法能夠?qū)⒁恍┫嚓P(guān)性較低的特征組合成相關(guān)性高的新特征,從而提高數(shù)據(jù)的表達(dá)能力.并且,動(dòng)態(tài)確定特征選擇維度相較于固定特征維度也更為有效.

        未來(lái)的研究可以通過(guò)剪枝操作避開一些明顯會(huì)對(duì)模型造成劣化的特征,縮小搜索范圍,加快強(qiáng)化學(xué)習(xí)收斂速度.同時(shí),DQN算法的穩(wěn)定性和收斂性問(wèn)題也是一個(gè)值得繼續(xù)探索和改進(jìn)的方向.

        猜你喜歡
        符號(hào)特征智能
        學(xué)符號(hào),比多少
        幼兒園(2021年6期)2021-07-28 07:42:14
        如何表達(dá)“特征”
        “+”“-”符號(hào)的由來(lái)
        不忠誠(chéng)的四個(gè)特征
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        抓住特征巧觀察
        變符號(hào)
        性生大片免费观看性少妇| 亚洲综合伊人制服丝袜美腿| 国产日韩精品一区二区在线观看播放| 久久精品国产亚洲av调教| 亚洲一区二区三区偷拍女| 亚洲av日韩av天堂久久| 97一区二区国产好的精华液| 乱色视频中文字幕在线看| 街拍丝袜美腿美女一区| 国产av熟女一区二区三区| 久久久噜噜噜www成人网| 亚洲h电影| 日韩女优一区二区在线观看| 精品无码av一区二区三区不卡| 日本亚洲色大成网站www久久| 国产一级免费黄片无码AV| 极品新娘高清在线观看| 红桃av一区二区三区在线无码av| 国语自产偷拍精品视频偷| 亚洲a级片在线观看| 国产亚洲欧美日韩综合一区在线观看| 国产熟女av一区二区三区四季| 与最丰满美女老师爱爱视频| 天天碰免费上传视频| 亚欧国产女人天堂Av在线播放| 日韩精品中文字幕人妻系列| 神马影院日本一区二区| 亚洲精品熟女国产| 狠狠躁夜夜躁人人爽天天| 日韩中文字幕一区二十| 影音先锋久久久久av综合网成人| 精品人妻人人做人人爽夜夜爽| 亚洲国产剧情在线精品视| 中文字幕中文字幕777| 中文字幕乱码无码人妻系列蜜桃| 黄色资源在线观看| 冲田杏梨av天堂一区二区三区| 久久综合99re88久久爱| 国产suv精品一区二人妻| 欧美久久中文字幕| 蜜桃视频第一区免费观看|