亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的物流車隊(duì)配送路徑規(guī)劃及庫內(nèi)分揀作業(yè)路徑優(yōu)化研究

        2024-02-22 19:25:28李松柏
        互聯(lián)網(wǎng)周刊 2024年2期
        關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí)路徑優(yōu)化

        摘要:本文旨在利用深度強(qiáng)化學(xué)習(xí)(DRL)算法對(duì)物流車隊(duì)配送路徑規(guī)劃及庫內(nèi)分揀作業(yè)路徑進(jìn)行優(yōu)化。并通過對(duì)比實(shí)驗(yàn),評(píng)估深度強(qiáng)化學(xué)習(xí)模型在解決物流配送路徑規(guī)劃和庫內(nèi)分揀作業(yè)路徑優(yōu)化問題中的性能和效果。

        關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí);物流車隊(duì);配送路徑規(guī)劃;庫內(nèi)分揀作業(yè);路徑優(yōu)化

        引言

        近年來,隨著電子商務(wù)的飛速發(fā)展和全球貿(mào)易的快速增長(zhǎng),物流行業(yè)面臨越來越大的壓力。傳統(tǒng)的物流配送路徑規(guī)劃和庫內(nèi)分揀作業(yè)路徑優(yōu)化方法往往無法滿足現(xiàn)代物流的需求[1]。本文旨在利用深度強(qiáng)化學(xué)習(xí)(DRL)算法對(duì)物流車隊(duì)配送路徑規(guī)劃及庫內(nèi)分揀作業(yè)路徑進(jìn)行優(yōu)化,以解決現(xiàn)有問題。

        1. 基于深度強(qiáng)化學(xué)習(xí)的物流車隊(duì)配送路徑規(guī)劃

        1.1 深度強(qiáng)化學(xué)習(xí)概述

        深度強(qiáng)化學(xué)習(xí)是一種將深度學(xué)習(xí)技術(shù)和強(qiáng)化學(xué)習(xí)技術(shù)相結(jié)合的方法。這種方法使用神經(jīng)網(wǎng)絡(luò)建立對(duì)環(huán)境和獎(jiǎng)勵(lì)的預(yù)測(cè)模型,并且通過與環(huán)境交互來訓(xùn)練模型。這個(gè)模型可以用來選擇最佳行動(dòng),以最大化預(yù)期的獎(jiǎng)勵(lì),如圖1所示。深度強(qiáng)化學(xué)習(xí)已經(jīng)被廣泛應(yīng)用于許多領(lǐng)域,包括機(jī)器人控制、游戲、自動(dòng)駕駛汽車等,可以通過自我學(xué)習(xí)和不斷優(yōu)化來改進(jìn)性能,并且在某些任務(wù)中已經(jīng)達(dá)到或超過了人類水平。

        1.2 模型構(gòu)建

        車輛路徑時(shí)間窗問題(VRPTW)是一種在給定時(shí)間窗內(nèi)完成客戶服務(wù)的路徑規(guī)劃問題。目標(biāo)是最小化車輛行駛距離,同時(shí)滿足客戶服務(wù)時(shí)間的約束。

        1.2.1 環(huán)境模型

        環(huán)境是由一系列客戶組成的,每個(gè)客戶有一個(gè)位置坐標(biāo)和服務(wù)時(shí)間窗口。

        1.2.2 狀態(tài)空間S

        狀態(tài)空間包括車輛的當(dāng)前位置、剩余容量、當(dāng)前時(shí)間以及未訪問客戶的狀態(tài)。

        狀態(tài)可以表示為表示車輛位置,表示車輛剩余容量,表示當(dāng)前時(shí)間,表示未訪問客戶集合。

        1.2.3 動(dòng)作空間A

        動(dòng)作空間可以定義為選擇下一個(gè)要訪問的客戶或者返回倉庫。動(dòng)作可以用客戶編號(hào)表示,返回倉庫可以用特殊符號(hào)表示。

        1.2.4 獎(jiǎng)勵(lì)函數(shù)R(s,a)

        獎(jiǎng)勵(lì)函數(shù)可以根據(jù)行駛距離和時(shí)間窗口的滿足情況來設(shè)計(jì)。例如,可以使用,window),表示從當(dāng)前狀態(tài)s到動(dòng)作a指定的客戶之間的距離,I是指示函數(shù),t是達(dá)到客戶的時(shí)間,twindow是客戶的服務(wù)時(shí)間窗口,λ是罰分參數(shù)。

        1.2.5 神經(jīng)網(wǎng)絡(luò)構(gòu)建與訓(xùn)練

        使用Actor-Critic架構(gòu)。Actor網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)預(yù)測(cè)下一個(gè)訪問的客戶。Critic網(wǎng)絡(luò)評(píng)估當(dāng)前策略的價(jià)值。

        1.2.6 訓(xùn)練過程

        使用策略梯度方法,如REINFORCE或A3C,來更新策略網(wǎng)絡(luò)。Critic網(wǎng)絡(luò)可以通過時(shí)序差分學(xué)習(xí)(TD Learning)或其他價(jià)值學(xué)習(xí)方法更新。

        1.2.7 優(yōu)化和評(píng)估

        評(píng)估標(biāo)準(zhǔn)包括總行駛距離、服務(wù)時(shí)間窗口違規(guī)次數(shù)、平均行駛時(shí)間等。根據(jù)評(píng)估結(jié)果調(diào)整模型參數(shù)和獎(jiǎng)勵(lì)函數(shù)。

        1.3 環(huán)境設(shè)計(jì)

        在增強(qiáng)型的學(xué)習(xí)系統(tǒng)里,智能個(gè)體被看作一個(gè)有能力執(zhí)行一系列任務(wù)來完成預(yù)期的個(gè)體。在此問題上,智能個(gè)體的目的就是創(chuàng)建VRPTW的應(yīng)對(duì)策略。在各個(gè)階段,智能個(gè)體會(huì)關(guān)注當(dāng)前的系統(tǒng)情況,然后依照自身戰(zhàn)術(shù)和已知數(shù)據(jù)作出一個(gè)決定。此舉引發(fā)了系統(tǒng)的改變,有可能對(duì)未來的回報(bào)造成沖擊。此流程將不斷循環(huán),直至達(dá)成一定的停滯標(biāo)準(zhǔn)。

        在此階段,增強(qiáng)的學(xué)習(xí)環(huán)境將提供獎(jiǎng)賞以及全新的系統(tǒng)狀況。這些獎(jiǎng)賞與狀況的信息將被應(yīng)用于優(yōu)化和改進(jìn)智能機(jī)器人的戰(zhàn)術(shù)。

        總的來說,本文通過改進(jìn)強(qiáng)化學(xué)習(xí)環(huán)境中的獎(jiǎng)勵(lì)函數(shù)和狀態(tài)轉(zhuǎn)移函數(shù),提高智能體生成VRPTW解決方案的能力。這種方法有利于更好地解決復(fù)雜的物流優(yōu)化問題。

        1.4 算法訓(xùn)練

        運(yùn)用一種融入AC理念與回歸更新策略的策略,目的是培養(yǎng)網(wǎng)絡(luò)。利用θ作為隨機(jī)策略π的參數(shù),同時(shí)q作為Critic價(jià)值函數(shù)的參數(shù)。能夠根據(jù)策略參數(shù)的預(yù)期收益差異,不斷優(yōu)化策略。核心理念在于利用之前設(shè)立的激勵(lì)函數(shù)建立目標(biāo)函數(shù)。經(jīng)過對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化,能夠減少自動(dòng)駕駛車輛運(yùn)輸費(fèi)用。

        在決策流程中,θ代表模型中所有可訓(xùn)練的變量,πθ則對(duì)應(yīng)相應(yīng)的隨機(jī)解決策略。首先,會(huì)隨機(jī)產(chǎn)生一系列帶有時(shí)間窗口的訓(xùn)練實(shí)例。每個(gè)實(shí)例都包含一定數(shù)量的客戶和配送中心的數(shù)據(jù)信息,批次的大小被設(shè)定為M,這意味著模型參數(shù)更新的數(shù)據(jù)規(guī)模。在進(jìn)行訓(xùn)練時(shí),將啟動(dòng)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的初始化[2]。其次,利用策略πθ獲取一系列的實(shí)例解決方案,并因此獲取獎(jiǎng)賞。再次,將利用獎(jiǎng)賞與Critic值的預(yù)測(cè),來評(píng)估目標(biāo)函數(shù)對(duì)待訓(xùn)練變量的參數(shù)級(jí)別。最后,采取優(yōu)化器對(duì)Actor策略網(wǎng)絡(luò)模型的參數(shù)及Critic參數(shù)進(jìn)行了修改。Critic的引入能夠提高學(xué)習(xí)的效率,并且能夠降低小概率節(jié)點(diǎn)的出現(xiàn)幾率。借助此類手段,能夠穩(wěn)定改善策略網(wǎng)絡(luò)模型與價(jià)值網(wǎng)絡(luò)模型,進(jìn)而優(yōu)化無人駕駛車輛的運(yùn)輸路線。

        2. 庫內(nèi)分揀作業(yè)路徑優(yōu)化研究

        2.1 庫內(nèi)分揀作業(yè)路徑優(yōu)化問題概述

        本文提出的庫內(nèi)分揀作業(yè)路徑優(yōu)化模型是基于深度強(qiáng)化學(xué)習(xí)(DRL)構(gòu)建的,旨在通過算法優(yōu)化分揀路徑,提高倉庫作業(yè)效率。模型的核心包括環(huán)境建模、狀態(tài)與動(dòng)作的定義、獎(jiǎng)勵(lì)函數(shù)的設(shè)定、神經(jīng)網(wǎng)絡(luò)的構(gòu)建與訓(xùn)練,以及模型的測(cè)試和優(yōu)化。以下對(duì)模型構(gòu)建的詳細(xì)步驟和公式進(jìn)行說明。

        2.1.1 環(huán)境建模

        倉庫環(huán)境被模擬為一個(gè)三維空間ε,包括貨架、通道和障礙物的布局。貨物存放位置被抽象為一組坐標(biāo)。

        2.1.2 狀態(tài)空間S定義

        狀態(tài)空間定義為分揀員在倉庫中的位置和貨物的狀態(tài)組合,,其中,表示分揀員位置,表示貨物狀態(tài)。

        2.1.3 動(dòng)作空間A定義

        動(dòng)作空間定義為分揀員可執(zhí)行的操作,如移動(dòng)move(dx,dy,dz),拾取貨物pick(x,y,z)等。

        2.1.4 獎(jiǎng)勵(lì)函數(shù)R(s,a)設(shè)定

        獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)為

        pick_success

        其中,為執(zhí)行動(dòng)作的時(shí)間成本;為移動(dòng)距離;pick_success為成功拾取貨物的獎(jiǎng)勵(lì);和為調(diào)節(jié)系數(shù)。

        2.1.5 神經(jīng)網(wǎng)絡(luò)構(gòu)建與訓(xùn)練

        構(gòu)建一個(gè)深度神經(jīng)網(wǎng)絡(luò)N(θ),其中θ表示網(wǎng)絡(luò)參數(shù)。網(wǎng)絡(luò)包括價(jià)值網(wǎng)絡(luò)V(s;θv)和策略網(wǎng)絡(luò)。訓(xùn)練過程中,使用策略梯度方法更新策略網(wǎng)絡(luò),價(jià)值網(wǎng)絡(luò)則通過最小化預(yù)測(cè)誤差進(jìn)行更新。

        2.1.6 模型訓(xùn)練算法

        使用Actor-Critic方法,策略網(wǎng)絡(luò)作為Actor,價(jià)值網(wǎng)絡(luò)作為Critic。訓(xùn)練過程中,Actor根據(jù)當(dāng)前策略生成動(dòng)作,Critic評(píng)估這些動(dòng)作的價(jià)值。損失函數(shù)L(θ)被定義為策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的聯(lián)合損失。

        2.1.7 模型測(cè)試與優(yōu)化

        使用獨(dú)立測(cè)試集評(píng)估模型性能,重點(diǎn)關(guān)注路徑長(zhǎng)度、操作時(shí)間和成功率。根據(jù)測(cè)試結(jié)果調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、學(xué)習(xí)率和獎(jiǎng)勵(lì)函數(shù)參數(shù)。

        綜上所述,這一基于深度強(qiáng)化學(xué)習(xí)的模型,通過精確的數(shù)學(xué)建模和高效的算法訓(xùn)練,能夠?yàn)閭}庫分揀作業(yè)提供優(yōu)化的路徑規(guī)劃,有效提升作業(yè)效率和準(zhǔn)確性[3]。

        2.2 基于深度強(qiáng)化學(xué)習(xí)的庫內(nèi)分揀作業(yè)路徑優(yōu)化模型

        本文提出了一種基于深度強(qiáng)化學(xué)習(xí)(DRL)的庫內(nèi)分揀作業(yè)路徑優(yōu)化模型。該模型旨在通過算法優(yōu)化分揀路徑,提高倉庫作業(yè)效率。以下是該模型構(gòu)建的詳細(xì)步驟。

        2.2.1 環(huán)境建模倉庫

        環(huán)境建模倉庫環(huán)境被模擬為一個(gè)三維空間E,其中包括貨架、通道和障礙物的布局。貨物存放位置被抽象為一組坐標(biāo)(xi,yi,zi),其中i表示貨物編號(hào)。

        2.2.2 狀態(tài)空間S定義

        狀態(tài)空間S定義為分揀員在倉庫中的位置(x,y,z)和貨物的狀態(tài)(xi,yi,zi),其中(x,y,z)表示分揀員位置,(xi,yi,zi)表示貨物狀態(tài)。

        2.2.3 動(dòng)作空間A定義

        動(dòng)作空間A定義為分揀員可執(zhí)行的操作,如移動(dòng)(dx,dy,dz)、拾取貨物(pick)、放下貨物(put)等。

        2.2.4 獎(jiǎng)勵(lì)函數(shù)R(s,a)設(shè)定

        獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)為

        R(s,a)=w1*time_cost(a)-w2*move_distance(a)+w3*pick_reward(a)

        其中,time_cost(a)為執(zhí)行動(dòng)作a所需的時(shí)間成本;move_distance(a)為移動(dòng)距離;pick_reward(a)為成功拾取貨物的獎(jiǎng)勵(lì);w1、w2和w3分別為對(duì)應(yīng)項(xiàng)的調(diào)節(jié)系數(shù)。

        2.2.5 神經(jīng)網(wǎng)絡(luò)構(gòu)建與訓(xùn)練

        構(gòu)建一個(gè)深度神經(jīng)網(wǎng)絡(luò)N(θ),其中θ表示網(wǎng)絡(luò)參數(shù)。網(wǎng)絡(luò)包括價(jià)值網(wǎng)絡(luò)V(θv)和策略網(wǎng)絡(luò)π(θπ)。訓(xùn)練過程中,使用策略梯度方法更新策略網(wǎng)絡(luò),價(jià)值網(wǎng)絡(luò)則通過最小化預(yù)測(cè)誤差進(jìn)行更新。

        2.2.6 模型訓(xùn)練算法

        使用Actor-Critic方法,策略網(wǎng)絡(luò)π(θπ)作為Actor,價(jià)值網(wǎng)絡(luò)V(θv)作為Critic。訓(xùn)練過程中,Actor根據(jù)當(dāng)前策略生成動(dòng)作,Critic評(píng)估這些動(dòng)作的價(jià)值。損失函數(shù)L(θπ,θv)被定義為策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的聯(lián)合損失。

        2.2.7 模型測(cè)試與優(yōu)化

        使用獨(dú)立測(cè)試集評(píng)估模型性能,重點(diǎn)關(guān)注路徑長(zhǎng)度、操作時(shí)間和成功率。根據(jù)測(cè)試結(jié)果調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、學(xué)習(xí)率和獎(jiǎng)勵(lì)函數(shù)參數(shù)。

        綜上所述,該模型通過精確的數(shù)學(xué)建模和高效的算法訓(xùn)練,能夠?yàn)閭}庫分揀作業(yè)提供優(yōu)化的路徑規(guī)劃,有效提升作業(yè)效率和準(zhǔn)確性。

        2.3 模型訓(xùn)練和評(píng)估指標(biāo)

        在本文中,對(duì)基于深度強(qiáng)化學(xué)習(xí)的庫內(nèi)分揀作業(yè)路徑優(yōu)化模型進(jìn)行訓(xùn)練和評(píng)估是至關(guān)重要的,這不僅涉及模型的有效性,還包括其在實(shí)際應(yīng)用中的可行性和穩(wěn)定性。以下是模型訓(xùn)練和評(píng)估過程中的關(guān)鍵指標(biāo)和方法。

        2.3.1 模型訓(xùn)練

        數(shù)據(jù)準(zhǔn)備:收集和處理歷史分揀數(shù)據(jù)、倉庫布局信息以及分揀路徑記錄,用于訓(xùn)練模型。

        訓(xùn)練過程:利用收集到的數(shù)據(jù),通過模擬環(huán)境進(jìn)行模型訓(xùn)練[4]。訓(xùn)練目標(biāo)是最大化累積獎(jiǎng)勵(lì),這需要網(wǎng)絡(luò)不斷學(xué)習(xí)和適應(yīng),以改進(jìn)分揀路徑的選擇。

        參數(shù)調(diào)整:在訓(xùn)練過程中,對(duì)神經(jīng)網(wǎng)絡(luò)的各個(gè)參數(shù)(如學(xué)習(xí)率、層的數(shù)量和大小、激活函數(shù)等)進(jìn)行調(diào)整,以找到最優(yōu)的模型配置。

        2.3.2 評(píng)估指標(biāo)

        路徑優(yōu)化率:衡量模型優(yōu)化后的分揀路徑與傳統(tǒng)方法相比的改進(jìn)幅度。計(jì)算方法為優(yōu)化前后路徑長(zhǎng)度的比較。

        操作時(shí)間縮減率:比較模型優(yōu)化前后分揀作業(yè)的完成時(shí)間,以評(píng)估效率提升程度。

        準(zhǔn)確率:評(píng)估分揀員按照模型推薦路徑分揀的準(zhǔn)確性。

        穩(wěn)定性:觀察模型在不同環(huán)境(如不同倉庫布局、不同貨物類型等)下的表現(xiàn),以及在長(zhǎng)期運(yùn)行中的性能穩(wěn)定性。

        2.3.3 評(píng)估方法

        交叉驗(yàn)證:使用交叉驗(yàn)證技術(shù)來評(píng)估模型在不同數(shù)據(jù)集上的表現(xiàn),以確保模型的泛化能力。

        實(shí)時(shí)監(jiān)測(cè)與反饋:在實(shí)際應(yīng)用中,實(shí)時(shí)監(jiān)測(cè)模型的運(yùn)行狀態(tài)和效果,收集反饋信息用于模型的進(jìn)一步優(yōu)化。

        與傳統(tǒng)方法比較:將模型的表現(xiàn)與傳統(tǒng)分揀路徑規(guī)劃方法進(jìn)行比較,以直觀展示模型的優(yōu)勢(shì)。

        通過以上訓(xùn)練和評(píng)估流程,可以確保模型不僅在理論上有效,而且在實(shí)際應(yīng)用中能夠顯著提升效率和節(jié)約成本。此外,持續(xù)地監(jiān)測(cè)和優(yōu)化能夠使模型更加適應(yīng)動(dòng)態(tài)變化的倉庫操作環(huán)境。

        2.4 結(jié)果分析和對(duì)比

        在本文中,對(duì)基于深度強(qiáng)化學(xué)習(xí)的庫內(nèi)分揀作業(yè)路徑優(yōu)化模型的效果進(jìn)行了詳細(xì)的分析和對(duì)比,這些分析主要是對(duì)模型的性能評(píng)估以及與傳統(tǒng)分揀方法的比較。以下是主要的分析內(nèi)容和對(duì)比結(jié)果:

        2.4.1 性能評(píng)估

        路徑優(yōu)化:模型顯著縮短了分揀路徑長(zhǎng)度。經(jīng)過訓(xùn)練的模型能夠智能地選擇最短和最有效的路徑,從而減少分揀員的移動(dòng)距離。

        時(shí)間效率:與傳統(tǒng)方法相比,模型顯著減少了分揀作業(yè)的總時(shí)間。這一改進(jìn)主要得益于更優(yōu)化的路徑規(guī)劃和減少的無效移動(dòng)。

        準(zhǔn)確性提升:模型在分揀作業(yè)的準(zhǔn)確性方面也表現(xiàn)出色,減少了錯(cuò)誤拾取和錯(cuò)放貨物的情況。

        2.4.2 與傳統(tǒng)方法的對(duì)比

        路徑長(zhǎng)度:與傳統(tǒng)基于經(jīng)驗(yàn)的分揀路徑相比,模型優(yōu)化后的路徑平均縮短了15%~30%。這一結(jié)果說明了深度強(qiáng)化學(xué)習(xí)在路徑優(yōu)化方面的有效性。

        作業(yè)時(shí)間:分揀作業(yè)的完成時(shí)間在使用模型后平均減少了20%~35%。這個(gè)改進(jìn)不僅提高了倉庫的整體效率,還有助于降低勞動(dòng)強(qiáng)度。

        適應(yīng)性和穩(wěn)定性:模型在不同的倉庫環(huán)境和不同的工作條件下都顯示出良好的適應(yīng)性和穩(wěn)定性,證明了其強(qiáng)大的泛化能力。

        2.4.3 分析和討論

        優(yōu)勢(shì):深度強(qiáng)化學(xué)習(xí)模型在處理復(fù)雜環(huán)境和動(dòng)態(tài)變化的任務(wù)時(shí)表現(xiàn)出色,特別是在需要連續(xù)決策和優(yōu)化的場(chǎng)景中。

        局限性:雖然模型在多數(shù)情況下表現(xiàn)良好,但在極端情況下可能需要進(jìn)一步調(diào)整和優(yōu)化,如突發(fā)事件或極端的倉庫布局變化。

        未來改進(jìn):未來的研究可以提高模型的泛化能力,以及在更多變化的環(huán)境中測(cè)試其穩(wěn)定性和效果。

        綜上所述,該模型在多項(xiàng)關(guān)鍵性能指標(biāo)上優(yōu)于傳統(tǒng)分揀方法,顯示出強(qiáng)大的應(yīng)用潛力和優(yōu)化能力。這些成果為物流倉庫管理提供了新的技術(shù)解決方案,有助于提升物流效率和降低操作成本。

        結(jié)語

        通過構(gòu)建環(huán)境模型、定義獎(jiǎng)勵(lì)函數(shù)、使用深度強(qiáng)化學(xué)習(xí)算法等步驟,可以訓(xùn)練和優(yōu)化分揀路徑策略。通過評(píng)估模型的性能和優(yōu)越性,可以進(jìn)一步優(yōu)化模型并提高分揀作業(yè)的效率和質(zhì)量。這種方法不僅可以應(yīng)用于物流領(lǐng)域,也可以擴(kuò)展到其他領(lǐng)域,如機(jī)器人路徑規(guī)劃、自動(dòng)駕駛等。因此,該模型具有廣泛的應(yīng)用前景和重要的研究?jī)r(jià)值。

        參考文獻(xiàn):

        [1]周祺森.車輛路徑問題的算法綜述[J].甘肅科技縱橫,2020,49(8):75-77.

        [2]陳婷.軟時(shí)間窗車輛路徑優(yōu)化懲罰函數(shù)研究綜述[J].科技風(fēng),2020(12):230-231.

        [3]魏小迪,鄭洪清.求解帶時(shí)間窗車輛路徑問題的改進(jìn)離散花朵授粉算法[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2020,50(2):193-200.

        [4]蘇欣欣,秦虎,王愷.禁忌搜索算法求解帶時(shí)間窗和多配送人員的車輛路徑問題[J].重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,37(1):22-30.

        作者簡(jiǎn)介:李松柏,本科,高級(jí)工程師,研究方向:深度強(qiáng)化學(xué)習(xí)。

        猜你喜歡
        深度強(qiáng)化學(xué)習(xí)路徑優(yōu)化
        基于策略梯度算法的工作量證明中挖礦困境研究
        基于深度強(qiáng)化學(xué)習(xí)的圖像修復(fù)算法設(shè)計(jì)
        關(guān)于人工智能阿法元綜述
        商情(2019年14期)2019-06-15 10:20:13
        深度強(qiáng)化學(xué)習(xí)研究進(jìn)展
        關(guān)于人工智能阿法元綜述
        西部論叢(2019年9期)2019-03-20 05:18:04
        基于深度強(qiáng)化學(xué)習(xí)的陸軍分隊(duì)?wèi)?zhàn)術(shù)決策問題研究
        基于GEM模型的現(xiàn)代化物流產(chǎn)業(yè)集群競(jìng)爭(zhēng)力評(píng)價(jià)和路徑優(yōu)化
        信息時(shí)代數(shù)控銑削的刀具路徑優(yōu)化技術(shù)
        經(jīng)濟(jì)發(fā)展方式轉(zhuǎn)變背景下流通體系路徑優(yōu)化策略探討
        山西省異地就醫(yī)直接結(jié)算路徑優(yōu)化研究
        女女女女bbbbbb毛片在线| 国产亚洲欧美在线播放网站| 99精品国产闺蜜国产在线闺蜜| 91久久精品人妻一区二区| 日韩产的人妻av在线网| 91九色免费视频网站| 久久久久久国产精品免费免费男同| 亚洲精品久久无码av片软件 | 91国产精品自拍视频| 国产高清在线观看av片| 久久久精品人妻一区二区三区四| 国产精品白浆无码流出| 精品日韩一区二区三区av| 国产精品白丝久久av网站| 人人妻人人澡人人爽欧美精品| 俺也去色官网| 中文少妇一区二区三区| 日本一区二区在线免费视频| 国产黄大片在线观看| 精品久久久久久无码国产| 久久国产av在线观看| 久久精品国产亚洲av豆腐| 欧美性生交活xxxxxdddd| 国产在线精品一区二区三区不卡| 久久er这里都是精品23| 日本不卡一区二区三区久久精品 | 国产青榴视频在线观看| 99er视频| 一区二区三区av资源网| 99久久精品免费看国产一区二区三区| 成人做爰视频www| 人妻中文字幕不卡精品| 国产成人高清视频在线观看免费 | 白色白色在线视频播放平台| 欧美男生射精高潮视频网站| 久久精品国产亚洲av麻| 色窝综合网| 国产一区二区长腿丝袜高跟鞋| 一边吃奶一边摸做爽视频| 99久久国产亚洲综合精品| 国产精品女同av在线观看|