亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多智能體的生鮮農(nóng)產(chǎn)品多級(jí)庫(kù)存成本控制模型

        2023-09-25 19:32:16李姣姣何利力鄭軍紅
        計(jì)算機(jī)時(shí)代 2023年9期
        關(guān)鍵詞:強(qiáng)化學(xué)習(xí)生鮮農(nóng)產(chǎn)品供應(yīng)鏈

        李姣姣 何利力 鄭軍紅

        摘? 要: 針對(duì)生鮮農(nóng)產(chǎn)品多級(jí)庫(kù)存成本控制問(wèn)題,運(yùn)用多智能強(qiáng)化學(xué)習(xí)思想,從供應(yīng)鏈視角抽象出批發(fā)商與零售商智能體,引入三參數(shù)Weibull函數(shù)描述生鮮農(nóng)產(chǎn)品的損腐特征,使用深度雙Q網(wǎng)絡(luò)算法構(gòu)建基于多智能體的生鮮農(nóng)產(chǎn)品多級(jí)庫(kù)存成本控制模型。該模型基于智能體間相互合作,優(yōu)化訂貨并控制多級(jí)庫(kù)存成本。實(shí)驗(yàn)結(jié)果表明,基于多智能體的庫(kù)存成本控制模型能夠在一定程度上減輕供應(yīng)鏈多級(jí)庫(kù)存中的牛鞭效應(yīng),有效降低各級(jí)庫(kù)存成本,減少生鮮損腐。

        關(guān)鍵詞: 生鮮農(nóng)產(chǎn)品; 多智能體; 強(qiáng)化學(xué)習(xí); 多級(jí)庫(kù)存成本控制; 供應(yīng)鏈

        中圖分類號(hào):TP181;F253? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2023)09-81-06

        Multi-level inventory cost control model of fresh agricultural

        products based on multi-agent

        Li Jiaojiao, He Lili, Zheng Junhong

        (College of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou, Zhejiang 310018, China)

        Abstract: Aiming at the problem of multi-level inventory cost control of fresh agricultural products, the idea of multi-agent reinforcement learning is used to abstract the agents of wholesaler and retailer from the perspective of supply chain. The three-parameter Weibull function is introduced to describe the spoilage characteristics of fresh agricultural products, and the Double Deep Q Network algorithm is applied to construct a multi-agent-based multi-level inventory cost control model of fresh agricultural products. The model is based on mutual cooperation among agents to optimize ordering and control multi-level inventory cost. The experimental results show that the proposed model can mitigate the bullwhip effect of multi-level inventory in the supply chain to a certain extent, effectively reduce inventory costs at all levels, and minimize spoilage losses.

        Key words: fresh agricultural products; multi-agent; reinforcement learning; multi-level inventory cost control; supply chain

        0 引言

        供應(yīng)鏈包括從原材料采購(gòu)開(kāi)始到中間商制造半成品和最終產(chǎn)品,最后由銷售企業(yè)將產(chǎn)品和服務(wù)送達(dá)末端消費(fèi)者的活動(dòng)所構(gòu)成的全部網(wǎng)絡(luò)系統(tǒng),具有動(dòng)態(tài)性、層次性和交叉性等特點(diǎn)。牛鞭效應(yīng)在供應(yīng)鏈中普遍存在,其典型表現(xiàn)為當(dāng)供應(yīng)鏈的各節(jié)點(diǎn)企業(yè)僅根據(jù)其相鄰的下級(jí)企業(yè)需求信息進(jìn)行生產(chǎn)或供應(yīng)決策時(shí),需求信息的真實(shí)性會(huì)沿著供應(yīng)鏈從下游到上游逐級(jí)放大,當(dāng)信息傳遞到最上游供應(yīng)商時(shí),其獲得的需求信息和實(shí)際消費(fèi)市場(chǎng)中顧客需求信息有較大偏差,需求變異系數(shù)遠(yuǎn)大于分銷商和零售商。由于這種需求放大效應(yīng)的影響,上游供應(yīng)商往往比下游供應(yīng)商維持更高的庫(kù)存水平[1]。

        生鮮農(nóng)產(chǎn)品包括果蔬、肉類、水產(chǎn)品等初級(jí)產(chǎn)品,具有保質(zhì)期短、易損腐、儲(chǔ)存困難等特性,我國(guó)果蔬、肉類、水產(chǎn)品腐損率分別高達(dá)15%、8%、10%,商家難以合理安排訂貨/出貨,造成庫(kù)存管理難度大、庫(kù)存成本高和客戶滿意度低等問(wèn)題。供應(yīng)鏈環(huán)境下制定生鮮農(nóng)產(chǎn)品多級(jí)庫(kù)存控制策略更加復(fù)雜和困難,因此有必要對(duì)其進(jìn)行研究[2]。

        傳統(tǒng)的庫(kù)存管理模型能夠降低庫(kù)存成本,但在實(shí)際運(yùn)用中存在較大局限性。ABC庫(kù)存管理法和CVA(Critical Value Analysis)庫(kù)存管理法[3]無(wú)法給出科學(xué)定量的庫(kù)存控制方案,經(jīng)濟(jì)訂貨批量模型的前提條件較為苛刻,供應(yīng)商管理庫(kù)存模型、協(xié)同式庫(kù)存管理模型和聯(lián)合庫(kù)存管理模型[4]管理成本高、操作難度大。

        強(qiáng)化學(xué)習(xí)方法可用于研究序貫決策和最優(yōu)控制問(wèn)題,近年來(lái),有學(xué)者研究強(qiáng)化學(xué)習(xí)多級(jí)庫(kù)存的控制問(wèn)題。湯大為等[5]針對(duì)兩級(jí)庫(kù)存系統(tǒng)使用Q-learning研究訂貨策略。Jiang和Sheng[6]提出一種基于案例的強(qiáng)化學(xué)習(xí)算法,用于多智能體供應(yīng)鏈系統(tǒng)的動(dòng)態(tài)庫(kù)存控制。Yu等[7]基于多智能體深度強(qiáng)化學(xué)習(xí)方法求解考慮固定時(shí)間窗和橫向轉(zhuǎn)運(yùn)的兩級(jí)備件庫(kù)存控制問(wèn)題。目前針對(duì)生鮮農(nóng)產(chǎn)品的多級(jí)庫(kù)存研究較少。

        本文針對(duì)生鮮農(nóng)產(chǎn)品多層次、多節(jié)點(diǎn)的供應(yīng)鏈結(jié)構(gòu),運(yùn)用多智能強(qiáng)化學(xué)習(xí)思想,從供應(yīng)鏈視角抽象出批發(fā)商、零售商智能體,并引入三參數(shù)Weibull函數(shù)描述生鮮農(nóng)產(chǎn)品的損腐特征,使用DDQN(Double Deep Q Network,DDQN)算法構(gòu)建基于多智能體的生鮮農(nóng)產(chǎn)品多級(jí)庫(kù)存成本控制模型。通過(guò)供應(yīng)鏈上各個(gè)層次各個(gè)節(jié)點(diǎn)的相互合作,優(yōu)化訂貨并控制庫(kù)存成本。

        1 算法理論與方法

        1.1 多智能體強(qiáng)化學(xué)習(xí)

        馬爾可夫性質(zhì)是指下一狀態(tài)僅取決于當(dāng)前狀態(tài),而不考慮歷史狀態(tài)。滿足馬爾可夫性質(zhì)的強(qiáng)化學(xué)習(xí)任務(wù)稱為馬爾可夫決策過(guò)程(Markov Decision Process,MDP)[8]。MDP狀態(tài)轉(zhuǎn)移函數(shù)為

        [p(s'|s,a)=P(St+1=s'|St=s, At=a)]? ⑴

        強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)是MDP。如圖1所示,在強(qiáng)化學(xué)習(xí)過(guò)程中,智能體和環(huán)境一直交互。智能體感知當(dāng)前所處環(huán)境的狀態(tài),經(jīng)過(guò)計(jì)算給出動(dòng)作。環(huán)境根據(jù)智能體的動(dòng)作,生成相應(yīng)的即時(shí)獎(jiǎng)勵(lì)以及下一狀態(tài)。智能體目的是最大化多輪交互過(guò)程中獲得的累計(jì)獎(jiǎng)勵(lì)的期望[9]。

        多智能體強(qiáng)化學(xué)習(xí)(Multi-agent Reinforcement Learning,MARL)是由強(qiáng)化學(xué)習(xí)和多智能體系統(tǒng)結(jié)合而成的新領(lǐng)域。多智能體的情形相比單智能體更加復(fù)雜,因?yàn)槊總€(gè)智能體在和環(huán)境交互的同時(shí)也在和其他智能體進(jìn)行直接或者間接的交互。因此,多智能體強(qiáng)化學(xué)習(xí)比單智能體更困難。

        1.2 深度雙Q網(wǎng)絡(luò)

        Watkins和Dayan[10]提出的Q-learning方法,是一種基于價(jià)值迭代的強(qiáng)化學(xué)習(xí)算法。Q-learning算法通過(guò)構(gòu)建Q值表存儲(chǔ)狀態(tài)-行動(dòng)對(duì)的值,并根據(jù)Q值選擇最優(yōu)動(dòng)作。Q-learning中通過(guò)求解貝爾曼最優(yōu)方程確定最優(yōu)價(jià)值函數(shù)和最優(yōu)策略。貝爾曼最優(yōu)方程為

        [Q*s,a=Es'~p(.|s,a)[Rs,a+γmaxa'Q*s',a'|s,a]]? ⑵

        Q-learning算法的動(dòng)作值函數(shù)更新迭代式為:

        [Q(s,a)←Q(s,a)+α(r+γmaxa'Q(s',a')-Q(s,a))] ⑶

        Q-learning存在非均勻高估問(wèn)題,另外Q-learning在處理大數(shù)據(jù)問(wèn)題時(shí)存在維度災(zāi)難問(wèn)題。因此,Q-learning在現(xiàn)實(shí)中表現(xiàn)不佳。

        Mnih等將神經(jīng)網(wǎng)絡(luò)和Q-learning相結(jié)合提出深度Q網(wǎng)絡(luò)(Deep Q Networks,DQN)。其中目標(biāo)網(wǎng)絡(luò)緩解了Q-learning自舉造成的高估,經(jīng)驗(yàn)回放打破了序列的相關(guān)性。DQN預(yù)測(cè)網(wǎng)絡(luò)的優(yōu)化目標(biāo):

        [y=r+γQ(s',argmaxa'Q(s',a';θ');θ')] ⑷

        在DQN基礎(chǔ)上,Van Hasselt等[11]將行為選擇和行為評(píng)估分離,提出DDQN,進(jìn)一步降低Q-learning最大化導(dǎo)致的高估。DDQN中使用目標(biāo)網(wǎng)絡(luò)做最優(yōu)動(dòng)作選擇,再用預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行動(dòng)作評(píng)估。DDQN預(yù)測(cè)網(wǎng)絡(luò)優(yōu)化目標(biāo):

        [y=r+γQs',argmaxa'Qs',a';θ;θ'] ⑸

        1.3 三參數(shù)Weibull函數(shù)描述易損腐物品

        三參數(shù)Weibull分布是概率論中一種連續(xù)型分布,是壽命檢驗(yàn)和可靠性分析的理論基礎(chǔ)。三參數(shù)Weibull分布應(yīng)用十分廣泛,如擬合度的模擬、電子元器件的失效情況和物品的變質(zhì)等諸多方面[12]。本文引入三參數(shù)Weibull分布描述生鮮農(nóng)產(chǎn)品的損腐特性。

        三參數(shù)Weibull分布函數(shù)和它的密度函數(shù)分別為:

        [Ft=1-e-αt-γβ] ⑹

        [ft=αβt-γβ-1e-αt-γβ] ⑺

        其中,α、β、γ分別是三參數(shù)Weibull函數(shù)的尺度因子、形狀因子和位置因子,t為時(shí)間。

        2 研究?jī)?nèi)容

        2.1 業(yè)務(wù)模型

        如圖2所示完整的供應(yīng)鏈模型由供應(yīng)商、制造商、批發(fā)商、零售商和顧客組成,本文研究的問(wèn)題是針對(duì)制造商、批發(fā)商、零售商、顧客的多級(jí)庫(kù)存系統(tǒng)。

        圖3給出本文研究的供應(yīng)鏈結(jié)構(gòu)示意圖,該模型是一個(gè)多層次、多節(jié)點(diǎn)的供應(yīng)鏈結(jié)構(gòu)。第二層批發(fā)商負(fù)責(zé)向第三層中有向線段連接的零售商供貨,零售商直接承接顧客需求,同層次節(jié)點(diǎn)間沒(méi)有業(yè)務(wù)往來(lái),業(yè)務(wù)關(guān)系僅發(fā)生在上下層之間。

        零售商每天向批發(fā)商提交訂貨訂單,為滿足顧客需求,零售商每天更新一次庫(kù)存。批發(fā)商每天向制造商提交訂貨訂單,向零售商提供貨物。當(dāng)產(chǎn)生多個(gè)零售商訂單而批發(fā)商的貨物不足以滿足所有訂單時(shí),則先滿足先到達(dá)的訂單。其中,制造商的商品數(shù)量無(wú)限。商品生命周期用l表示,商品被批發(fā)商接收后,就進(jìn)入生命周期,生存期也開(kāi)始增加。

        銷售產(chǎn)品使用先進(jìn)先出策略,即先賣生存期大的產(chǎn)品以滿足下游節(jié)點(diǎn)需求。若商品生存期大于生命周期[l],就產(chǎn)生過(guò)期成本;若商品生存期在損腐期內(nèi)就產(chǎn)生損腐成本;若商品無(wú)法滿足下游節(jié)點(diǎn)需求,缺貨數(shù)量的訂單就會(huì)被取消,并產(chǎn)生缺貨成本。

        具體業(yè)務(wù)流程如下:

        ⑴ 零售商和批發(fā)商將上一日訂購(gòu)的商品入庫(kù),并更新庫(kù)存。

        ⑵ 零售商接收顧客需求,批發(fā)商接收零售商需求,如果能滿足需求則計(jì)算是否產(chǎn)生過(guò)期量和損腐量;如果不能滿足需求則產(chǎn)生缺貨量。

        ⑶ 計(jì)算各個(gè)節(jié)點(diǎn)今日剩余庫(kù)存量和庫(kù)存成本,并更新庫(kù)存。

        ⑷ 每個(gè)節(jié)點(diǎn)根據(jù)多智能體庫(kù)存成本控制模型制定的訂貨策略,向上游節(jié)點(diǎn)發(fā)送次日訂貨量

        生鮮農(nóng)產(chǎn)品是易損腐類產(chǎn)品,損腐率使用非線性函數(shù)μ(t),損腐率公式如下:

        [μt=ft1-Ft=αβt-γβ-1] ⑻

        當(dāng)損腐率參數(shù)滿足γ > 0且1<β < 2時(shí),物品剛進(jìn)入庫(kù)存系統(tǒng)時(shí)損腐率為零,經(jīng)過(guò)一段時(shí)間后物品才會(huì)損腐,這類模型就是具有時(shí)滯性質(zhì)的或者保質(zhì)期的易損腐產(chǎn)品庫(kù)存模型。損腐率變化情況如圖4所示。

        2.2 多智能體DDQN算法模型

        表1? 符號(hào)定義表

        [數(shù)學(xué)符號(hào) 含義 [si] 生存期為i的產(chǎn)品數(shù)量 [p] 單位售價(jià) [k] 單位進(jìn)價(jià) [c1] 單位過(guò)期費(fèi) [c2] 單位缺貨費(fèi) [c3] 一次訂貨固定訂貨費(fèi) [c4] 單位持有費(fèi) [c5] 單位損腐費(fèi) [n1] 過(guò)期數(shù)量 [n2] 缺貨數(shù)量 [d] 顧客需求數(shù)量 [xi] 生存期為i的損腐數(shù)量 [q'] 上級(jí)節(jié)點(diǎn)提供的產(chǎn)品數(shù)量 ]

        本文將零售商和批發(fā)商的概念集成到多智能體系統(tǒng)當(dāng)中,使每個(gè)節(jié)點(diǎn)代表虛擬世界中的一個(gè)智能體,并將其多參數(shù)多目標(biāo)集寫入多智能體系統(tǒng)的算法程序中,運(yùn)用DDQN方法解決生鮮農(nóng)產(chǎn)品多級(jí)庫(kù)存的成本控制問(wèn)題,下面分別給出各個(gè)智能體相關(guān)要素的定義。其中符號(hào)定義如表1所示。

        2.2.1 狀態(tài)空間

        在MDP問(wèn)題中,狀態(tài)是智能體感知到的環(huán)境描述及其動(dòng)態(tài)變化。如果產(chǎn)品當(dāng)前處于生命周期內(nèi),但產(chǎn)品數(shù)量不足,則認(rèn)為是缺貨。產(chǎn)品生存期在損腐時(shí)期內(nèi)就以一定比例進(jìn)行損腐。如果產(chǎn)品有庫(kù)存但不在生命周期內(nèi),則視為過(guò)期。滿足庫(kù)存充足和生命周期要求的產(chǎn)品,視為可供銷售。[l]為產(chǎn)品生命周期,狀態(tài)變量為l維向量。狀態(tài)空間可表示為:

        [s=s0,…,si,…,sl-1]? ⑼

        2.2.2 動(dòng)作空間

        動(dòng)作是智能體發(fā)出的行為和動(dòng)作,以及智能體與環(huán)境之間的動(dòng)作交互。節(jié)點(diǎn)i所管轄范圍內(nèi)的最底層顧客j需求[Dj~N(μj,σ2j)],需求數(shù)據(jù)分布在[(μj-3σj,]

        [μj+3σj)]的概率是99.73%,本文實(shí)驗(yàn)滿足[μj-3σj>0],因此設(shè)[q]為訂貨數(shù)量,[q∈[0,j=1mμj+3σj]]取整數(shù)。節(jié)點(diǎn)動(dòng)作空間可表示為:

        [a=q] ⑽

        2.2.3 獎(jiǎng)勵(lì)函數(shù)

        獎(jiǎng)勵(lì)是由環(huán)境給的一種標(biāo)量的反饋信號(hào),這種信號(hào)可顯示智能體在某一步采取某個(gè)策略的表現(xiàn)如何。強(qiáng)化學(xué)習(xí)的目的就是最大化智能體可以獲得的獎(jiǎng)勵(lì),智能體在環(huán)境中存在的目的就是最大化它的期望的累積獎(jiǎng)勵(lì)。節(jié)點(diǎn)的庫(kù)存成本由過(guò)期、損腐、缺貨、訂貨和持有成本組成。節(jié)點(diǎn)滿足完需求后剩余庫(kù)存量為:

        [n3=i=0l-1si-n1-d-i=γl-1xi] ? ⑾

        節(jié)點(diǎn)庫(kù)存成本可表示為:

        [c=c1n1+c2n2+c3+kq'+c4n3+c5i=γl-1xi]? ⑿

        零售商獎(jiǎng)勵(lì)等于自己的庫(kù)存成本。批發(fā)商獎(jiǎng)勵(lì)等于自己及管轄的所有零售商庫(kù)存成本之和。

        3 實(shí)驗(yàn)與評(píng)測(cè)

        3.1 實(shí)驗(yàn)設(shè)計(jì)

        本文以生鮮農(nóng)產(chǎn)品多級(jí)庫(kù)存成本最小化為目標(biāo),建立包括一個(gè)制造商、一個(gè)批發(fā)商和三個(gè)零售商的多級(jí)供應(yīng)鏈庫(kù)存成本控制模型。

        根據(jù)上述業(yè)務(wù)與算法模型分析,首先設(shè)置智能體的神經(jīng)網(wǎng)絡(luò),每個(gè)智能體有兩個(gè)結(jié)構(gòu)相同參數(shù)不同的神經(jīng)網(wǎng)絡(luò):預(yù)測(cè)網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)。預(yù)測(cè)網(wǎng)絡(luò)在訓(xùn)練中的每一步都會(huì)更新,而目標(biāo)網(wǎng)絡(luò)每隔一個(gè)周期才更新一次。設(shè)經(jīng)驗(yàn)池容量為1000000,每回合隨機(jī)采樣,折扣率設(shè)為0.95。使用ε-greedy探索策略來(lái)選擇動(dòng)作,初始時(shí)以ε=0.9隨機(jī)選擇動(dòng)作,此時(shí)探索力度最大。在訓(xùn)練的過(guò)程中,ε逐漸衰減直至最終ε=0。

        在這個(gè)過(guò)程中多智能體庫(kù)存成本控制模型訓(xùn)練逐漸從“強(qiáng)探索弱利用”過(guò)渡到“弱探索強(qiáng)利用”。結(jié)合固定訂貨量庫(kù)存成本控制模型,對(duì)比多智能體庫(kù)存成本控制模型能否有效降低生鮮農(nóng)產(chǎn)品庫(kù)存成本。

        實(shí)驗(yàn)以白菜為例,跟據(jù)2022年國(guó)家統(tǒng)計(jì)局?jǐn)?shù)據(jù)得白菜供應(yīng)鏈零售商和批發(fā)商參數(shù)值如表2所示。以1000天為一個(gè)周期,每個(gè)節(jié)點(diǎn)每天只進(jìn)行一次發(fā)送訂單和入庫(kù)操作,庫(kù)存成本為1000c。零售商損腐率:μ(t)= 0.3(t-1)0.5,批發(fā)商損腐率:μ(t)=0.14(t-2)0.4。

        表2? 實(shí)驗(yàn)參數(shù)

        [參數(shù) 零售商 批發(fā)商 進(jìn)價(jià)/(元/500g) 0.65 0.45 售價(jià)/(元/500g) 1.4 0.65 過(guò)期費(fèi)/(元/500g) 0.65 0.45 缺貨費(fèi)/(元/500g) 1.4 0.65 持有費(fèi)/(元/500g) 0.2 0.05 損腐費(fèi)/(元/500g) 0.65 0.45 固定訂貨費(fèi)/(元/次) 1 30 ]

        固定訂貨量庫(kù)存成本控制模型的批發(fā)商采用定期定量訂貨法,零售商的訂貨服從正態(tài)分布,其訂貨的分布函數(shù)與需求的分布函數(shù)一致;多智能體庫(kù)存成本控制模型采用DDQN方法。兩種模型參數(shù)如損腐率、安全庫(kù)存、訂貨周期、訂貨提前期和產(chǎn)品生命周期等均一致。本文假設(shè)顧客需求都服從正態(tài)分布,以1000天為一個(gè)周期,每天只進(jìn)行一次發(fā)送訂單和入庫(kù)操作。將成本匯總得出結(jié)論。

        3.2 結(jié)果分析

        圖5和圖6分別為實(shí)驗(yàn)中三個(gè)零售商需求函數(shù)服從正態(tài)分布N(100,102)和N(1000,1002)時(shí),固定訂貨量庫(kù)存成本控制模型和多智能體庫(kù)存成本控制模型在相同條件下的庫(kù)存成本變化曲線。

        如圖5所示,在訓(xùn)練初始階段,由于動(dòng)作網(wǎng)絡(luò)均處于動(dòng)作探索階段,因此多智能體庫(kù)存成本控制模型庫(kù)存的各個(gè)節(jié)點(diǎn)庫(kù)存成本較高,且存在較大波動(dòng)。隨著智能體開(kāi)始從經(jīng)驗(yàn)池中提取歷史數(shù)據(jù)進(jìn)行學(xué)習(xí),成本逐漸呈現(xiàn)明顯下降趨勢(shì)。到250周期時(shí),多智能體庫(kù)存成本控制模型中三個(gè)零售商收斂于7萬(wàn)元左右;批發(fā)商收斂于16.65萬(wàn)元附近;批發(fā)商和所有零售商的成本之和收斂于37.68萬(wàn)元附近。在圖6中,訓(xùn)練到950周期時(shí),多智能體庫(kù)存成本控制模型的批發(fā)商和所有零售商的成本之和收斂于345.08萬(wàn)元附近,庫(kù)存成本低于固定訂貨量庫(kù)存成本控制模型。

        如表3所示,當(dāng)所有零售商需求都服從正態(tài)分布N(100,102)時(shí),多智能體庫(kù)存成本控制模型的三個(gè)零售商和批發(fā)商的庫(kù)存成本相對(duì)于固定訂貨量100庫(kù)存成本控制模型分別降低9.30%、9.01%、9.72%和11.51%,多智能體庫(kù)存成本控制模型的批發(fā)商和所有零售商的庫(kù)存成本之和比固定訂貨量100庫(kù)存成本控制模型降低10.31%。當(dāng)所有零售商需求都服從正態(tài)分布N(1000,1002)時(shí),多智能體庫(kù)存成本控制模型的三個(gè)零售商和批發(fā)商的庫(kù)存成本相對(duì)于固定訂貨量1000庫(kù)存成本控制模型分別降低9.67%、10.19%、10.09%和10.20%,多智能體庫(kù)存成本控制模型的批發(fā)商和所有零售商的庫(kù)存成本之和比固定訂貨量1000庫(kù)存成本控制模型降低10.07%。同時(shí),多智能體庫(kù)存成本控制模型的損腐量比固定訂貨量庫(kù)存成本控制模型的損腐量更少??梢钥闯?,多智能體庫(kù)存成本控制模型優(yōu)于固定訂貨量庫(kù)存成本控制模型。

        4 結(jié)束語(yǔ)

        本文運(yùn)用多智能體強(qiáng)化學(xué)習(xí)思想,從供應(yīng)鏈角度抽象出供應(yīng)商、零售商智能體,使用深度強(qiáng)化學(xué)習(xí)中的DDQN算法對(duì)生鮮農(nóng)產(chǎn)品多級(jí)庫(kù)存管理進(jìn)行模擬建模,體現(xiàn)供應(yīng)鏈中各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)結(jié)構(gòu)關(guān)系,通過(guò)智能體間的相互合作,優(yōu)化訂貨并控制多級(jí)庫(kù)存成本。實(shí)驗(yàn)表明基于多智能體的生鮮農(nóng)產(chǎn)品多級(jí)庫(kù)存成本控制模型能夠有效地提高供應(yīng)鏈庫(kù)存管理水平、降低庫(kù)存費(fèi)用和提高供應(yīng)鏈上各商家的經(jīng)濟(jì)效益,解決庫(kù)存量居高不下、損腐量高和庫(kù)存成本高等問(wèn)題,實(shí)現(xiàn)多級(jí)庫(kù)存的智能控制。

        參考文獻(xiàn)(References):

        [1] 梁學(xué)棟,劉大成,李智,等.供應(yīng)鏈管理[M].北京:經(jīng)濟(jì)管理出版社,2020:145-149.

        [2] 馮繼豪.基于Flexsim的生鮮農(nóng)產(chǎn)品多級(jí)庫(kù)存控制策略仿真優(yōu)化[D].河南:河南農(nóng)業(yè)大學(xué),2017.

        [3] 樂(lè)美龍.供應(yīng)鏈管理[M].上海:上海交通大學(xué)出版社,2021:19-20.

        [4] 劉鵬飛,謝如鶴.基于供應(yīng)鏈的現(xiàn)代庫(kù)存管理方法之比較研究[J].商業(yè)研究,2006(2):170-174.

        [5] 湯大為,王紅衛(wèi).強(qiáng)化學(xué)習(xí)算法在供應(yīng)鏈環(huán)境下的庫(kù)存控制中的應(yīng)用[J].管理學(xué)報(bào),2005(3):358-361.

        [6] Jiang C, Sheng Z. Case-based reinforcement learning fordynamic inventory control in a multi-agent supply-chain system[J]. Expert Systems with Applications,2009,36(3):6520-6526.

        [7] Yu C, Zhou Y, Zhang Z. Multi-Agent ReinforcementLearning for Dynamic Spare Parts Inventory Control[A].2020 Global Reliability and Prognostics and Health Management (PHM-Shanghai)[C].Piscataway, NJ: IEEE,2020:1-6.

        [8] 王樹(shù)森,黎彧君,張志華.深度強(qiáng)化學(xué)習(xí)[M].北京:人民郵電出版社,2022:31-32.

        [9] Sutton R S, Barto A G. Reinforcement learning: Anintroduction[M]. MIT press,2018:1-7.

        [10] Watkins C J C H, Dayan P. Q-learning[J]. Machinelearning,1992,8:279-292.

        [11] Van Hasselt H, Guez A, Silver D. Deep reinforcement?learning with double q-learning[A].Proceedings of the AAAI conference on artificial intelligence[C].Palo Alto, California USA:AAAI,2016,2094-2100.

        [12] 王道平,于俊娣.變質(zhì)率呈Weibull分布的易變質(zhì)物品的庫(kù)存模型研究[A].第十二屆中國(guó)管理科學(xué)學(xué)術(shù)年會(huì)論文集[C],2010:442-446.

        猜你喜歡
        強(qiáng)化學(xué)習(xí)生鮮農(nóng)產(chǎn)品供應(yīng)鏈
        海外并購(gòu)績(jī)效及供應(yīng)鏈整合案例研究
        為什么美中供應(yīng)鏈脫鉤雷聲大雨點(diǎn)小
        益邦供應(yīng)鏈酣戰(zhàn)“雙11”
        益邦供應(yīng)鏈 深耕大健康
        基于強(qiáng)化學(xué)習(xí)的在線訂單配送時(shí)隙運(yùn)能分配
        論“以讀促寫”在初中英語(yǔ)寫作教學(xué)中的應(yīng)用
        智能交通車流自動(dòng)導(dǎo)引系統(tǒng)
        電子商務(wù)背景下的生鮮農(nóng)產(chǎn)品物流配送模式研究
        分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
        共同物流視角下提高生鮮農(nóng)產(chǎn)品物流效率的對(duì)策探討
        国产一区二区三区爆白浆| 让少妇高潮无乱码高清在线观看 | 白色白色在线视频播放平台| 亚洲一区二区日韩在线| 亚洲av无吗国产精品| 国产精品一二三区亚洲 | 国产亚洲超级97免费视频| 国产成人精品免费视频大全软件| 免费av一区二区三区无码| 妇女bbbb插插插视频| 美女视频黄的全免费视频网站| 亚洲精品人成无码中文毛片| 国产精品成人嫩妇| 天堂av一区二区在线观看| 亚洲一区二区三在线播放| 亚洲不卡毛片在线观看| 日本不卡的一区二区三区中文字幕| 亚洲一区在线观看中文字幕| 国产综合色在线精品| 少妇下面好紧好多水真爽播放| 欧美黑人又粗又硬xxxxx喷水| 色妺妺在线视频| 久久成人永久免费播放| 亚洲一区二区三区精品网| 精品日韩av专区一区二区 | 成人试看120秒体验区| 99精品免费久久久久久久久日本| 最新亚洲人成无码网www电影| 亚洲色偷拍一区二区三区| 亚洲一区二区三区美女av| 日本不卡视频一区二区三区| 女女同恋一区二区在线观看| 亚洲va韩国va欧美va| 日韩a无v码在线播放| 麻豆国产乱人伦精品一区二区| 第九色区Aⅴ天堂| 伊人狼人影院在线视频| 懂色av一区二区三区尤物| 熟女无套内射线观56| √天堂中文官网8在线| 一个人免费观看在线视频播放|