亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的自適應(yīng)中間件在線更新機(jī)制研究*

        2014-09-13 12:35:07王建軍劉玉林
        關(guān)鍵詞:出納員中間件決策

        王建軍,劉玉林

        (河北經(jīng)貿(mào)大學(xué)現(xiàn)代教育技術(shù)中心,河北 石家莊 050061)

        基于強(qiáng)化學(xué)習(xí)的自適應(yīng)中間件在線更新機(jī)制研究*

        王建軍,劉玉林

        (河北經(jīng)貿(mào)大學(xué)現(xiàn)代教育技術(shù)中心,河北 石家莊 050061)

        自適應(yīng)中間件框架一般根據(jù)預(yù)先定義的策略、按照監(jiān)控、分析、決策、執(zhí)行的流程實(shí)現(xiàn)對開放可變系統(tǒng)的閉環(huán)控制。但是,傳統(tǒng)的自適應(yīng)框架基于離線的閉環(huán)控制,即在提供自適應(yīng)服務(wù)的同時,自身的決策模型不能隨實(shí)時的環(huán)境變化而更新。針對該問題提出一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)中間件的在線更新方案,解決自適應(yīng)策略的沖突消解、系統(tǒng)實(shí)時效用評估問題,并設(shè)計(jì)一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)策略在線學(xué)習(xí)更新方法,增強(qiáng)了自適應(yīng)中間件的智能性、靈活性和應(yīng)變能力。最后實(shí)現(xiàn)了相應(yīng)的支撐系統(tǒng)OUSAM并在其上驗(yàn)證了該機(jī)制的有效性和可行性。

        自適應(yīng)中間件;在線更新;智能決策;強(qiáng)化學(xué)習(xí)

        1 引言

        軟件中間件通過屏蔽底層差異,為軟件開發(fā)者和普通用戶提供穩(wěn)定貼切的服務(wù)。然而,隨著軟件系統(tǒng)的日益復(fù)雜、計(jì)算平臺的多樣化以及用戶需求的不斷變化,軟件中間件也由傳統(tǒng)的靜態(tài)、封閉逐步走向開放、動態(tài)、分布。這就要求中間件能根據(jù)內(nèi)外環(huán)境變化以及用戶的需求對所支撐的業(yè)務(wù)系統(tǒng)進(jìn)行實(shí)時調(diào)整演化,以達(dá)到用戶目標(biāo)和較好的性能指標(biāo)。自適應(yīng)中間件技術(shù)應(yīng)運(yùn)而生,有關(guān)自適應(yīng)中間件的理論也正受到研究者的重視。自適應(yīng)中間件是一種在動態(tài)、開放的環(huán)境中對業(yè)務(wù)軟件上下文自動進(jìn)行感知,決策以對系統(tǒng)進(jìn)行演化,提升性能的中間件系統(tǒng)。例如,分布式系統(tǒng)底層自動管理資源分配的中間件系統(tǒng)對分布式系統(tǒng)的資源狀況進(jìn)行監(jiān)控并根據(jù)自適應(yīng)策略和資源需求對節(jié)點(diǎn)等資源進(jìn)行合理分配。

        IBM最早提出了一種基于自治計(jì)算的自適應(yīng)模型MAPE[1],展示一種對軟件系統(tǒng)從監(jiān)控、分析到?jīng)Q策、執(zhí)行的反饋閉環(huán)控制結(jié)構(gòu)(如圖1所示)。該結(jié)構(gòu)開創(chuàng)性地利用外部控制的手段對可變、開放的軟件系統(tǒng)進(jìn)行在線的自適應(yīng)調(diào)整,使系統(tǒng)具有獨(dú)立性、擴(kuò)展性、可復(fù)用性等。Garlan D等人[2]在此基礎(chǔ)上提出了一種基于軟件體系結(jié)構(gòu)風(fēng)格的方法來開發(fā)可復(fù)用的自適應(yīng)系統(tǒng),并開發(fā)了相應(yīng)的自適應(yīng)系統(tǒng)Rainbow,該系統(tǒng)對運(yùn)行的系統(tǒng)進(jìn)行體系結(jié)構(gòu)建模,在目標(biāo)系統(tǒng)運(yùn)行過程中進(jìn)行監(jiān)控,找到目標(biāo)系統(tǒng)的運(yùn)行沖突,并將相應(yīng)的自適應(yīng)策略作用于此沖突,形成對系統(tǒng)的閉環(huán)控制。但是,該系統(tǒng)采用的效用函數(shù)機(jī)制基于用戶定義的預(yù)期效用值,而不是隨環(huán)境改變而學(xué)習(xí)的效用,因此對效用的評估缺少一定的靈活性。

        Figure 1 IBM MAPE self-adaptive model圖1 IBM的自適應(yīng)模型MAPE示意圖

        盡管Rainbow在體系結(jié)構(gòu)的自適應(yīng)上做得很出色,但Garlan D等人[3]也指出了此類自適應(yīng)系統(tǒng)存在的問題:從抽象層次看,所采用的自適應(yīng)模型是一種設(shè)計(jì)人員預(yù)先設(shè)定好的靜態(tài)模型,針對目標(biāo)系統(tǒng)的狀態(tài)給予固定的自適應(yīng)決策,屬于一種離線自適應(yīng)方式。然而在更多的場景下,自適應(yīng)系統(tǒng)本身會面臨環(huán)境變化或異常所帶來的不靈活性。例如,采用對目標(biāo)系統(tǒng)建模的方法進(jìn)行自適應(yīng),但建立的模型要隨著環(huán)境變化而實(shí)時改變;再如基于策略的自適應(yīng)系統(tǒng),用戶的離線策略并不能預(yù)先得知所有動態(tài)的環(huán)境變化和異常。因此,這就要求自適應(yīng)模型能應(yīng)對實(shí)時的環(huán)境變化進(jìn)行自身的學(xué)習(xí)更新,以達(dá)到對自適應(yīng)系統(tǒng)的實(shí)時優(yōu)化。我們稱之為在線自適應(yīng)。

        本文正是圍繞這種問題對自適應(yīng)中間件的在線優(yōu)化機(jī)制進(jìn)行若干研究,相對Rainbow系統(tǒng),對策略選擇、效用函數(shù)定義進(jìn)行了若干改進(jìn),并基于強(qiáng)化學(xué)習(xí)技術(shù)提出自適應(yīng)中間件的策略在線更新算法對運(yùn)行中的自適應(yīng)中間件進(jìn)行自優(yōu)化。與本文研究較為接近的還有Ahmed[4]等人對自適應(yīng)系統(tǒng)自身優(yōu)化的研究以及Kim D、Tesauro G等人[5,6]用強(qiáng)化學(xué)習(xí)技術(shù)對系統(tǒng)進(jìn)行自管理。本文采用了帶學(xué)習(xí)功能的雙閉環(huán)(自適應(yīng)閉環(huán)和自優(yōu)化閉環(huán))控制結(jié)構(gòu)[4],該結(jié)構(gòu)既可以對目標(biāo)系統(tǒng)進(jìn)行在線決策演化(即進(jìn)行自適應(yīng)),又能對自適應(yīng)系統(tǒng)本身進(jìn)行實(shí)時優(yōu)化(即對自適應(yīng)策略的實(shí)時更新)。與文獻(xiàn)[4,5]不同的是,本文主要關(guān)注基于策略的自適應(yīng)系統(tǒng),目標(biāo)是策略的優(yōu)化和沖突消解。

        本文安排如下:第2節(jié)介紹自適應(yīng)中間件的相關(guān)背景,第3節(jié)詳細(xì)介紹自適應(yīng)中間件的系統(tǒng)建模和自優(yōu)化實(shí)現(xiàn),第4節(jié)介紹一個應(yīng)用示例并進(jìn)行實(shí)驗(yàn)評估,第5節(jié)給出總結(jié)和研究展望。

        2 自適應(yīng)中間件框架建模與分析

        為了方便討論,本文首先介紹最典型的外部反饋型自適應(yīng)系統(tǒng)模型,該系統(tǒng)能感知上下文環(huán)境的變化,并自動地調(diào)整組織結(jié)構(gòu)或調(diào)整構(gòu)件提供的功能行為來滿足變化的要求。

        從靜態(tài)結(jié)構(gòu)角度看,該系統(tǒng)包括:

        (1)知識庫(Model Manager):管理系統(tǒng)模型以及自適應(yīng)策略;

        (2)監(jiān)控器(Probes、Gauge):監(jiān)控系統(tǒng)運(yùn)行狀態(tài)并得出運(yùn)行信息;

        (3)分析器(Adaptation Manager):分析潛在的自適應(yīng)條件,給出相應(yīng)自適應(yīng)策略;

        (4)決策機(jī)制(Adaptation Manager):通過推理機(jī)制給出自適應(yīng)決策結(jié)果;

        (5)執(zhí)行機(jī)制(Strategy Executer、Effectors):在目標(biāo)系統(tǒng)執(zhí)行自適應(yīng)結(jié)果;

        (6)評估機(jī)制(Architecture Evaluator):對系統(tǒng)運(yùn)行狀態(tài)進(jìn)行量化評估。

        從動態(tài)運(yùn)行角度,該系統(tǒng)的運(yùn)行過程為:

        自適應(yīng)系統(tǒng)監(jiān)控目標(biāo)系統(tǒng),根據(jù)預(yù)先定義的策略分析可能的自適應(yīng)條件,選出相應(yīng)的自適應(yīng)策略并根據(jù)策略進(jìn)行決策,得到相應(yīng)自適應(yīng)動作作用于自適應(yīng)系統(tǒng)。設(shè)目標(biāo)系統(tǒng)為Ot,系統(tǒng)的t時刻狀態(tài)為St,知識集合為Kt,策略集合為Pt,動作為At,監(jiān)控為M,分析為An,決策為D,執(zhí)行為Ex,則系統(tǒng)的運(yùn)行過程形式化描述如下:

        M(Ot)→St

        (1)

        An(Kt,St)→Pt

        (2)

        D(Pt,St)→At ,St+1

        (3)

        Ex(At,Ot)→Ot+1

        (4)

        由上述定義可見,當(dāng)目標(biāo)系統(tǒng)與外界環(huán)境可見時,我們研究的問題在于:知識集合(Kt)的可變性、An過程中策略Pt的選擇。

        3 自適應(yīng)中間件在線更新機(jī)制

        針對上文介紹的相關(guān)背景和問題,本文對傳統(tǒng)自適應(yīng)中間件進(jìn)行若干改進(jìn),以增強(qiáng)運(yùn)行時自優(yōu)化的功能。

        3.1 自適應(yīng)建模

        為了對自適應(yīng)系統(tǒng)的決策進(jìn)行優(yōu)化,我們首先需要對自適應(yīng)過程有一個抽象層面的模型描述。本文采用馬爾科夫決策過程MDP(Markov Decision Process)[7]為自適應(yīng)中間件的決策過程進(jìn)行建模。

        定義1馬爾科夫決策過程 馬爾科夫決策過程(MDP)定義為一個四元組〈S,A,R,P〉,包含一個環(huán)境狀態(tài)集S,系統(tǒng)行為集合A,獎賞函數(shù)R:S×A→S和狀態(tài)轉(zhuǎn)移函數(shù)P:S×A→S。記R(s,a,s′)為系統(tǒng)在狀態(tài)s采用a動作使環(huán)境狀態(tài)轉(zhuǎn)移到s′獲得的即時獎賞值;記P(s,a,s′)為系統(tǒng)在狀態(tài)s采用動作a使環(huán)境轉(zhuǎn)移到s′的概率。MDP的本質(zhì)是:當(dāng)前狀態(tài)向下一狀態(tài)轉(zhuǎn)移的概率和獎賞值只取決于當(dāng)前狀態(tài)和選擇的動作,而與歷史狀態(tài)和動作無關(guān)。

        MDP模型是一種在控制論、機(jī)器學(xué)習(xí)等領(lǐng)域廣泛使用的處理決策過程的模型。由于它的歷史無關(guān)假設(shè)使得很多決策問題的處理變得簡單,本文中的自適應(yīng)決策過程是一種典型的狀態(tài)決策模型,同時我們也假設(shè)中間件的決策過程只與當(dāng)前狀態(tài)有關(guān),即在對目標(biāo)系統(tǒng)進(jìn)行決策時我們只根據(jù)當(dāng)前系統(tǒng)的狀態(tài)進(jìn)行決策。因此,選擇MDP模型可以為中間件的智能決策提供方便可行的解決方案。

        將MDP模型具體運(yùn)用到中間件的決策過程,如圖2所示,MDP中的狀態(tài)s在自適應(yīng)系統(tǒng)中對應(yīng)系統(tǒng)所處的不同狀態(tài)(conditions)。MDP中的動作a對應(yīng)自適應(yīng)系統(tǒng)的不同策略(strategies)。狀態(tài)轉(zhuǎn)移函數(shù)P在自適應(yīng)系統(tǒng)中為系統(tǒng)采取自適應(yīng)策略后的狀態(tài)轉(zhuǎn)移,比如從狀態(tài)condition0經(jīng)策略strategy1轉(zhuǎn)移至狀態(tài)condition1。環(huán)境即時獎賞R對應(yīng)采取自適應(yīng)策略后獲得的系統(tǒng)優(yōu)化程度。

        Figure 2 The MDP model for self-adaptive decision process圖2 自適應(yīng)決策過程的MDP模型

        3.2 策略選擇與沖突消解機(jī)制

        系統(tǒng)在某種條件下會出現(xiàn)有多種策略可以用來決策的情形,此時必須要讓自適應(yīng)引擎在其中做出最佳的選擇。這里的“最佳”是指所選策略能夠給系統(tǒng)長遠(yuǎn)來看的最佳效用。下文將用MDP模型和強(qiáng)化學(xué)習(xí)方法獲得這種理論上的最佳效用并用實(shí)驗(yàn)進(jìn)行驗(yàn)證。

        系統(tǒng)應(yīng)當(dāng)給每個策略s一種偏好值P(s),當(dāng)出現(xiàn)策略沖突時,具有較高偏好值的策略具有較大的概率被選擇。這使得系統(tǒng)既能較大程度地信任更合適的策略,同時又使系統(tǒng)能面對環(huán)境的不確定性。系統(tǒng)在狀態(tài)s下選擇動作a的概率可以表示為:

        其中,πt(s,a)表示s狀態(tài)下采取a動作的概率,st表示t時刻系統(tǒng)的狀態(tài),at表示t時刻的動作,p(s,a)表示s狀態(tài)下a動作的權(quán)重。

        3.3 成本效益度量

        3.4自適應(yīng)中間件在線自優(yōu)化機(jī)制

        中間件的自優(yōu)化要求在環(huán)境發(fā)生意料之外的改變后,中間件自身的策略能夠得到相應(yīng)的改變。在3.1節(jié)我們對自適應(yīng)過程進(jìn)行MDP建模后,強(qiáng)化學(xué)習(xí)是解決MDP模型優(yōu)化的較好方法。因此,我們基于該模型,利用Actor-critic強(qiáng)化學(xué)習(xí)算法[8]對一般中間件模型進(jìn)行了學(xué)習(xí)功能的擴(kuò)展。

        Actor-critic算法是建立在MDP模型上的一種強(qiáng)化學(xué)習(xí)算法。它假設(shè)學(xué)習(xí)Agent有若干策略用于決策動作而同時又有不同狀態(tài)下的值函數(shù)用于狀態(tài)轉(zhuǎn)換。在狀態(tài)S下采取一個策略作用于環(huán)境(表演)。在執(zhí)行動作后根據(jù)環(huán)境的即時獎賞更新值函數(shù)(評論)。如圖3所示。

        Figure 3 Improved Actor-critic reinforcement learning algorithm[7]圖3 改進(jìn)的Actor-critic強(qiáng)化學(xué)習(xí)算法[7]示意圖

        該算法中的相關(guān)元素對應(yīng)到自適應(yīng)中間件優(yōu)化的過程中,可以得到自適應(yīng)中間件的策略優(yōu)化算法(如算法1所示)。與原始Actor-critic算法不同的是,這里將環(huán)境的即時獎賞由決策前后的系統(tǒng)效用差值決定。

        算法1自適應(yīng)中間件策略優(yōu)化算法

        1 初始化所有strategy的偏好值P為用戶自定義;

        2 按照系統(tǒng)狀態(tài)任意選取一個strategy0;

        3 重復(fù):

        3.1 執(zhí)行strategy0,觀察執(zhí)行效果得到獎賞值Rt=Ut-Ut-1;

        3.2 按照系統(tǒng)狀態(tài)c進(jìn)行自適應(yīng)分析,得到可用于當(dāng)前自適應(yīng)決策的子strategy集S;

        3.3 根據(jù)子strategy的偏好值更新當(dāng)前strategy0的偏好值:

        P(strategy0)←P(strategy0)+α δt

        3.4 從子strategy集S中按照當(dāng)前狀態(tài)c下各策略的偏好值p(c,s)計(jì)算策略選擇概率,并按照該概率選取下一個strategy:

        4 應(yīng)用示例

        為支持上述自適應(yīng)中間件自優(yōu)化方案,并進(jìn)行智能性效果的評估,我們仿照Rainbow開發(fā)了一個自適應(yīng)中間件支撐系統(tǒng)OUSAM(Online Updating Self-Adaptive Middleware),并在此基礎(chǔ)上增加上文討論的自優(yōu)化機(jī)制,對性能效果進(jìn)行了測試和比較,以驗(yàn)證傳統(tǒng)自適應(yīng)系統(tǒng)在增加我們設(shè)計(jì)的自優(yōu)化機(jī)制后的智能性和靈活性。

        4.1 OUSAM功能簡述

        OUSAM是模仿Rainbow系統(tǒng)實(shí)現(xiàn)的一種自適應(yīng)中間件,它包括自適應(yīng)描述語言、系統(tǒng)監(jiān)控器、分析器、推理器。在對系統(tǒng)進(jìn)行模型層面的描述(包括模型、自適應(yīng)策略)后,OUSAM對系統(tǒng)運(yùn)行中的變量進(jìn)行監(jiān)控,并計(jì)算待評估的系統(tǒng)狀態(tài),當(dāng)分析到系統(tǒng)達(dá)到需要自適應(yīng)的狀態(tài)時根據(jù)相應(yīng)策略對目標(biāo)系統(tǒng)進(jìn)行自適應(yīng)調(diào)整。此外,在其中增加上文所述的自優(yōu)化機(jī)制,在進(jìn)行系統(tǒng)模型描述時增加系統(tǒng)效用的描述,由用戶定義效用函數(shù)類型和參數(shù),在運(yùn)行時,OUSAM實(shí)時監(jiān)控系統(tǒng)參數(shù),計(jì)算系統(tǒng)效用,并在每次自適應(yīng)過程后根據(jù)系統(tǒng)效用變化得到對決策的“回報(bào)”,根據(jù)智能學(xué)習(xí)機(jī)制對歷史決策的偏好度作相應(yīng)調(diào)整。

        4.2 OUSAM實(shí)現(xiàn)要點(diǎn)

        限于篇幅,此處對OUSAM的各個具體細(xì)節(jié)不做展示,僅討論與第3節(jié)的自優(yōu)化相關(guān)的若干關(guān)鍵實(shí)現(xiàn)技術(shù)。

        OUSAM的系統(tǒng)框架如圖4所示,與Rainbow的Stitch語言類似,OUSAM定義了一種自適應(yīng)需求描述語言AL,用于對系統(tǒng)進(jìn)行體系結(jié)構(gòu)建模,并對用戶策略進(jìn)行表達(dá)。圖5是AL語言的簡要描述。表1反映了OUSAM與Rainbow的聯(lián)系和區(qū)別。

        Figure 4 Framework of OUSAM圖4 OUSAM框架示意圖

        Figure 5 AL language grammar highlights 圖5 AL自適應(yīng)描述語言簡要語法描述Table 1 Relations and comparisonsbetween OUSAM and Rainbow表1 OUSAM與Rainbow的聯(lián)系與比較

        4.3 應(yīng)用場景

        考慮一個銀行出納調(diào)度系統(tǒng)的應(yīng)用,該系統(tǒng)包含顧客、出納員。該銀行共有20名出納員Ei(i=1,2,…,20),他們?yōu)槊课活櫩偷姆?wù)時間為Ti±3min,其波動值服從正態(tài)分布。顧客相繼到達(dá)銀行的間隔服從均值為μ=8 min, 10 min, 12 min的指數(shù)分布。顧客到達(dá)后,如果發(fā)現(xiàn)已有6人以上在排隊(duì)等待,30%的顧客便離去,其余人繼續(xù)排隊(duì)等待。為了提高服務(wù)質(zhì)量,該調(diào)度系統(tǒng)在隊(duì)列很長時需要對出納員的配置進(jìn)行調(diào)整。如增加出納員,或者選擇更為熟練的出納員。

        為了對上述銀行調(diào)度系統(tǒng)進(jìn)行自適應(yīng),將OUSAM系統(tǒng)應(yīng)用在該調(diào)度系統(tǒng)上。OUSAM查詢銀行調(diào)度系統(tǒng)提供的隊(duì)伍長度,當(dāng)分析到超過一定閾值時采取自適應(yīng)策略進(jìn)行自適應(yīng)調(diào)整。

        為了分析方便,我們采用了兩個策略:

        策略1隊(duì)列長度大于6則增加出納員;

        策略2隊(duì)列長度大于6則換一個更熟練的出納員(服務(wù)時間更短)。

        其中應(yīng)用該自適應(yīng)中間件的專家(使用者)根據(jù)經(jīng)驗(yàn)相信增加出納員比更換出納員更好,因此在制定策略時將策略1設(shè)了更高的權(quán)重。但是,在實(shí)際使用中,出現(xiàn)了專家沒有預(yù)料的情形:出納員大批放假。這個時候的策略1并不能起任何作用,而策略2會是更好的策略,如果沒有對策略的學(xué)習(xí)優(yōu)化機(jī)制,則該自適應(yīng)系統(tǒng)依然選擇策略1。但是,在采用我們提出的策略學(xué)習(xí)優(yōu)化機(jī)制后,中間件經(jīng)過自學(xué)習(xí)會根據(jù)決策結(jié)果進(jìn)行評估,進(jìn)而及時修改策略權(quán)重,將策略2作為首選策略。

        4.4 實(shí)驗(yàn)環(huán)境搭建

        實(shí)驗(yàn)所使用的計(jì)算機(jī)配置為Intel Core E7500雙核CPU,主頻2.93 GHz,內(nèi)存為1 GB×2 DDR2,操作系統(tǒng)為Microsoft Windows XP Professional 5.1,版本2600.OUSAM的實(shí)現(xiàn)平臺為Eclipse。仿真的目標(biāo)系統(tǒng)實(shí)現(xiàn)平臺為Visual Studio 6.0。對目標(biāo)系統(tǒng)的描述采用XML語言。

        為了描述上述決策過程,我們對目標(biāo)系統(tǒng)——銀行調(diào)度作了仿真,用Visual Studio 6.0開發(fā)了一個排隊(duì)系統(tǒng)。同時,用OUSAM描述目標(biāo)系統(tǒng)的若干方面,如隊(duì)長、自適應(yīng)調(diào)整策略、自適應(yīng)調(diào)整動作。仿真排隊(duì)系統(tǒng)將實(shí)時信息寫入文件,OUSAM通過讀寫文件獲得排隊(duì)系統(tǒng)的信息并作出自適應(yīng)調(diào)整指示。

        實(shí)驗(yàn)分別在對目標(biāo)系統(tǒng)不添加自適應(yīng)、添加自適應(yīng)不進(jìn)行策略更新優(yōu)化以及既有自適應(yīng)又有自優(yōu)化三種情況進(jìn)行實(shí)驗(yàn)驗(yàn)證。表2是相關(guān)的仿真參數(shù)。

        Table 2 Simulation parameters表2 仿真參數(shù)

        4.5 評估標(biāo)準(zhǔn)

        為了評估本文提出的自適應(yīng)中間件在線優(yōu)化的方法,我們提出以下評估指標(biāo):

        (1)自適應(yīng)效果:指自適應(yīng)中間件在目標(biāo)系統(tǒng)受到意外改變的情況下能否進(jìn)行正確決策使目標(biāo)系統(tǒng)性能提升。在本實(shí)驗(yàn)中,我們將OUSAM應(yīng)用到仿真系統(tǒng)中,比較未采用OUSAM進(jìn)行自適應(yīng)和采用OUSAM進(jìn)行自適應(yīng)的情況下仿真系統(tǒng)的隊(duì)列長度。判斷OUSAM系統(tǒng)是否在仿真系統(tǒng)受到異常改變時作出決策并使隊(duì)列長度降低。

        (2)智能性:指系統(tǒng)在遇到未預(yù)料的環(huán)境變化或異常時能對預(yù)先的策略偏好度進(jìn)行重新評估,并作出更好的決策。本實(shí)驗(yàn)中是指OUSAM在遇到異常的情況(采用的策略不能使系統(tǒng)性能進(jìn)行提升)下能自動調(diào)整策略權(quán)重,并運(yùn)用新的策略使得總體運(yùn)行效果更好。

        4.6 實(shí)驗(yàn)結(jié)果與評估

        比較未運(yùn)用自適應(yīng)中間件和運(yùn)用中間件后的效果,得到的對比結(jié)果如圖6所示??梢钥吹剑\(yùn)用自適應(yīng)中間件之前由于不斷有顧客進(jìn)入,系統(tǒng)沒有應(yīng)對策略,從而效果逐漸變差;在運(yùn)用自適應(yīng)中間件后系統(tǒng)能有一個明顯的性能提升。

        Figure 6 Comparison of self-adaptative effects between self-adaptive middleware and non-self-adaptive software圖6 自適應(yīng)中間件效果與非自適應(yīng)效果比較

        另一組實(shí)驗(yàn)驗(yàn)證OUSAM的策略更新效果,在時間達(dá)到200 min后突然減少出納員數(shù)量,考驗(yàn)中間件此時的應(yīng)對能力,如圖7所示。可以看到在沒有策略自適應(yīng)機(jī)制時(如圖7a所示)策略1的偏好值始終大于策略2的偏好值,從而中間件系統(tǒng)始終選擇策略1,使隊(duì)列長度逐漸增長。而在使用策略自適應(yīng)機(jī)制后(如圖7b所示),在205 min后策略1的權(quán)重開始減少,系統(tǒng)選擇策略2,隊(duì)列長度在一段時間的增高后又恢復(fù)到較低值??梢娫诰€更新機(jī)制使得自適應(yīng)中間件依然能保持最佳的決策能力。

        Figure 7 Self-optimization effect of the self-adaptive middleware圖7 自適應(yīng)中間件自優(yōu)化效果評估

        5 結(jié)束語

        自適應(yīng)中間件系統(tǒng)通過對應(yīng)用系統(tǒng)的監(jiān)控、分析、決策、執(zhí)行等,在可變的環(huán)境中為用戶提供了可靠穩(wěn)定的服務(wù)。然而,傳統(tǒng)的自適應(yīng)中間件由于其自適應(yīng)策略是在設(shè)計(jì)階段靜態(tài)指定,因此不能靈活處理運(yùn)行過程中環(huán)境的突變或系統(tǒng)異常。

        本文針對這種離線自適應(yīng)問題提出一種基于強(qiáng)化學(xué)習(xí)的在線優(yōu)化方法,相對于Rainbow這種典型的自適應(yīng)中間件解決了策略選擇、沖突消解、成本效益度量以及策略在線優(yōu)化等問題。開發(fā)了相應(yīng)的系統(tǒng)OUSAM,在其上實(shí)現(xiàn)了一種典型應(yīng)用場景,驗(yàn)證了我們方法的可行性和有效性。最后,將我們的系統(tǒng)與幾種典型的自適應(yīng)系統(tǒng)進(jìn)行比較,顯示了我們系統(tǒng)在在線優(yōu)化方面的優(yōu)勢。

        [1] Kephart J O, Chess D M. The vision of autonomic computing[J]. Computer, 2003,36(1):41-50.

        [2] Cheng S.Rainbow:Cost-effective software architecture-based self-adaptation[D]. Pittsburgh:Carnegie Mellon University, 2008.

        [3] Rahul R, Cheng S, David G, et al. Improving architecture-based self-adaptation using preemption[C]∥Proc of the Workshop on Self-Organizing Architectures, 2010:21-37.

        [4] Ahmed E,Naeem E,Sam M.FUSION:A framework for engineering self-tuning self-adaptive software systems[C]∥Proc of the 18th ACM SIGSOFT International Symposium on Foundations of Software Engineering, 2010:7-16.

        [5] Kim D, Park S. Reinforcement learning-based dynamic adaptation planning method for architecture-based self-managed software[C]∥Proc of Workshop on Software for Adaptive and Self-Managing Systems, 2009:76-85.

        [6] Tesauro G, Jong N K, Das R,et al. A hybrid reinforcement learning approach to autonomic resource allocation[C]∥Proc of the International Conference on Autonomic Computing, 2006:65-73.

        [7] Gao Yang, Chen Shi-fu, Lu Xin. Survey of reinforcement learning[J].Chinese Journal of Automation,2004,30(1):86-100.(in Chinese)

        [8] Konda V. Actor-critic algorithms[D]. Cambridge:Department of Electrical Engineering and Computer Science, Massachusetts Institute of Technology, 2002.

        [9] Gu X.IDES:Self-adaptive software with online policy evolution extended from Rainbow[M]∥Computer and Information Science, 2012:181-195.

        [10] Garlan D, Schmerl B, Cheng S.Software architecture-based self-adaptation[M]∥Autonomic Computing and Networking,2009:31-56.

        [11] Alia M,Eide V S W,Paspallis N,et al.A utility-based adaptivitymodel for mobile applications[C]∥Proc of the IEEE International Symposium on Ubisafe Computing, 2007:107-114.

        [12] Kakousis K,Paspallis N,Papadopoulos G A.Optimizing the utility function-based self-adaptive behavior of context-aware systems using user feedback[C]∥Proc of OTM,2008:34-40.

        [13] Tesauro G, Das R, Jong N, et al. A hybrid reinforcement learning approach to autonomic resource allocation[C]∥Proc of the 3rd IEEE International Conference on Autonomic Computing,2006:65-73.

        [14] Hu Hai-yang,Ma Xiao-xing,Tao Xian-ping,et al.Research and advance of reflective middleware[J].ChineseJournal of Computer,2005, 28(9):1407-1420.(in Chinese)

        [15] Benjamin B,Mathias P,Uwe B.Development and evaluation of a self-adaptive organic middleware for highly dependable system-on-chips[C]∥Proc of the IARIA ’12, 2012:112-117.

        附中文參考文獻(xiàn):

        [8] 高陽,陳世福,陸鑫.強(qiáng)化學(xué)習(xí)研究綜述[J].自動化學(xué)報(bào),

        2004,30(1):86-100.

        [14] 胡海洋,馬曉星,陶先平,等. 反射中間件的研究與進(jìn)展[J].計(jì)算機(jī)學(xué)報(bào),2005,28(9):1407-1420.

        WANGJian-jun,born in 1965,MS,associate professor,his research interests include software engineering, and network security.

        劉玉林(1963-),男,河北元氏人,碩士,副教授,研究方向?yàn)橛?jì)算機(jī)軟件與理論。E-mail:617922062@qq.com

        LIUYu-lin,born in 1963,MS,associate professor,his research interest includes computer software and theory.

        Onlineupdatingofself-adaptivemiddlewarebasedonreinforcementlearning

        WANG Jian-jun,LIU Yu-lin

        (Center of Modern Education Technology,Hebei University of Economics and Business,Shijiazhuang 050061,China)

        One common approach of self-adaptive middleware is to incorporate a control loop that monitors, analyzes, decides and executes over a target system with predefined strategies. Such approach is an offline adaptation where strategies or adaptive models are statically determined so as not to change with environment. Aiming at the problem, an online updating mechanism of self-adaptive middleware based on reinforcement learning is proposed to solve the problems of conflict resolution and real-time system effectiveness evaluation, and an online updating method of self-adaptive policy based on reinforcement learning is designed, thus enhancing intelligence, flexibility and reaction capability. Finally, the corresponding system OUSAM is implemented and the effectiveness and feasibility of the mechanism is validated on OUSAM.

        self-adaptive middleware;online updating;intelligent decision;reinforcement learning

        1007-130X(2014)08-1462-07

        2012-12-10;

        :2013-03-07

        TP311

        :A

        10.3969/j.issn.1007-130X.2014.08.007

        王建軍(1965-),男,河北興隆人,碩士,副教授,研究方向?yàn)檐浖こ毯途W(wǎng)絡(luò)安全。E-mail:188098077@qq.com

        通信地址:050061 河北省石家莊市學(xué)府路47號河北經(jīng)貿(mào)大學(xué)現(xiàn)代教育技術(shù)中心

        Address:Center of Modern Education Technology,Hebei University of Economics and Businesse,47 Xuefu Rd,Shijiazhuang 050061,Hebei,P.R.China

        猜你喜歡
        出納員中間件決策
        為可持續(xù)決策提供依據(jù)
        地理還是歷史
        決策為什么失誤了
        我本人
        RFID中間件技術(shù)及其應(yīng)用研究
        電子制作(2018年14期)2018-08-21 01:38:10
        基于VanConnect中間件的設(shè)計(jì)與開發(fā)
        電子測試(2018年10期)2018-06-26 05:54:02
        He’s just been to the zoo.
        我想重用她
        金山(2016年3期)2016-11-26 20:55:41
        中間件在高速公路領(lǐng)域的應(yīng)用
        一種支持智能環(huán)境構(gòu)建的中間件
        少妇人妻偷人精品一区二区| 国产夫妻自拍视频在线播放| 日本免费影片一区二区| 九七青青草视频在线观看| 精品国内日本一区二区| 免费午夜爽爽爽www视频十八禁| 真实国产乱子伦精品视频| 亚洲av无码专区在线播放| 玩弄放荡人妻一区二区三区| 国产成人美女AV| 热re99久久精品国产66热6| 极品少妇一区二区三区四区| 一道本加勒比在线观看| 亚洲国产精品久久婷婷| 日本熟妇人妻xxxx| 亚洲avav天堂av在线网毛片| 爱a久久片| 亚洲aⅴ久久久噜噜噜噜| 日韩精品国产一区二区| 久久精品国产亚洲av四叶草| 美女网站免费观看视频| 99久久久无码国产精品试看| 色诱久久av| 狠狠色欧美亚洲综合色黑a| 国产免费成人自拍视频| 91精品亚洲成人一区二区三区| 日本最新免费二区三区| 亚洲精品无码久久久久久| 国产成人午夜福利在线小电影| 男人天堂亚洲一区二区| 欧美成人精品第一区| 亚洲国产精品毛片av不卡在线 | 五月天国产精品| 超碰性爱| 成人免费av色资源日日| 国产色系视频在线观看| 蜜臀av一区二区| 人成视频在线观看免费播放| 一区二区高清视频免费在线观看| 少妇粉嫩小泬喷水视频| 伊人婷婷在线|