亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于強化學習的自適應中間件在線更新機制研究*

2014-09-13 12:35:07王建軍劉玉林

計算機工程與科學 2014年8期

關(guān)鍵詞：機制優(yōu)化環(huán)境

王建軍,劉玉林

(河北經(jīng)貿(mào)大學現(xiàn)代教育技術(shù)中心，河北石家莊 050061)

基于強化學習的自適應中間件在線更新機制研究*

王建軍,劉玉林

(河北經(jīng)貿(mào)大學現(xiàn)代教育技術(shù)中心，河北石家莊 050061)

自適應中間件框架一般根據(jù)預先定義的策略、按照監(jiān)控、分析、決策、執(zhí)行的流程實現(xiàn)對開放可變系統(tǒng)的閉環(huán)控制。但是，傳統(tǒng)的自適應框架基于離線的閉環(huán)控制，即在提供自適應服務的同時，自身的決策模型不能隨實時的環(huán)境變化而更新。針對該問題提出一種基于強化學習的自適應中間件的在線更新方案，解決自適應策略的沖突消解、系統(tǒng)實時效用評估問題，并設計一種基于強化學習的自適應策略在線學習更新方法，增強了自適應中間件的智能性、靈活性和應變能力。最后實現(xiàn)了相應的支撐系統(tǒng)OUSAM并在其上驗證了該機制的有效性和可行性。

自適應中間件；在線更新；智能決策；強化學習

1 引言

軟件中間件通過屏蔽底層差異，為軟件開發(fā)者和普通用戶提供穩(wěn)定貼切的服務。然而，隨著軟件系統(tǒng)的日益復雜、計算平臺的多樣化以及用戶需求的不斷變化，軟件中間件也由傳統(tǒng)的靜態(tài)、封閉逐步走向開放、動態(tài)、分布。這就要求中間件能根據(jù)內(nèi)外環(huán)境變化以及用戶的需求對所支撐的業(yè)務系統(tǒng)進行實時調(diào)整演化，以達到用戶目標和較好的性能指標。自適應中間件技術(shù)應運而生，有關(guān)自適應中間件的理論也正受到研究者的重視。自適應中間件是一種在動態(tài)、開放的環(huán)境中對業(yè)務軟件上下文自動進行感知，決策以對系統(tǒng)進行演化，提升性能的中間件系統(tǒng)。例如，分布式系統(tǒng)底層自動管理資源分配的中間件系統(tǒng)對分布式系統(tǒng)的資源狀況進行監(jiān)控并根據(jù)自適應策略和資源需求對節(jié)點等資源進行合理分配。

IBM最早提出了一種基于自治計算的自適應模型MAPE[1]，展示一種對軟件系統(tǒng)從監(jiān)控、分析到?jīng)Q策、執(zhí)行的反饋閉環(huán)控制結(jié)構(gòu)(如圖1所示)。該結(jié)構(gòu)開創(chuàng)性地利用外部控制的手段對可變、開放的軟件系統(tǒng)進行在線的自適應調(diào)整，使系統(tǒng)具有獨立性、擴展性、可復用性等。Garlan D等人[2]在此基礎上提出了一種基于軟件體系結(jié)構(gòu)風格的方法來開發(fā)可復用的自適應系統(tǒng)，并開發(fā)了相應的自適應系統(tǒng)Rainbow，該系統(tǒng)對運行的系統(tǒng)進行體系結(jié)構(gòu)建模，在目標系統(tǒng)運行過程中進行監(jiān)控，找到目標系統(tǒng)的運行沖突，并將相應的自適應策略作用于此沖突，形成對系統(tǒng)的閉環(huán)控制。但是，該系統(tǒng)采用的效用函數(shù)機制基于用戶定義的預期效用值，而不是隨環(huán)境改變而學習的效用，因此對效用的評估缺少一定的靈活性。

Figure 1 IBM MAPE self-adaptive model圖1 IBM的自適應模型MAPE示意圖

盡管Rainbow在體系結(jié)構(gòu)的自適應上做得很出色，但Garlan D等人[3]也指出了此類自適應系統(tǒng)存在的問題：從抽象層次看，所采用的自適應模型是一種設計人員預先設定好的靜態(tài)模型，針對目標系統(tǒng)的狀態(tài)給予固定的自適應決策，屬于一種離線自適應方式。然而在更多的場景下，自適應系統(tǒng)本身會面臨環(huán)境變化或異常所帶來的不靈活性。例如，采用對目標系統(tǒng)建模的方法進行自適應，但建立的模型要隨著環(huán)境變化而實時改變；再如基于策略的自適應系統(tǒng)，用戶的離線策略并不能預先得知所有動態(tài)的環(huán)境變化和異常。因此，這就要求自適應模型能應對實時的環(huán)境變化進行自身的學習更新，以達到對自適應系統(tǒng)的實時優(yōu)化。我們稱之為在線自適應。

本文正是圍繞這種問題對自適應中間件的在線優(yōu)化機制進行若干研究，相對Rainbow系統(tǒng)，對策略選擇、效用函數(shù)定義進行了若干改進，并基于強化學習技術(shù)提出自適應中間件的策略在線更新算法對運行中的自適應中間件進行自優(yōu)化。與本文研究較為接近的還有Ahmed[4]等人對自適應系統(tǒng)自身優(yōu)化的研究以及Kim D、Tesauro G等人[5,6]用強化學習技術(shù)對系統(tǒng)進行自管理。本文采用了帶學習功能的雙閉環(huán)(自適應閉環(huán)和自優(yōu)化閉環(huán))控制結(jié)構(gòu)[4]，該結(jié)構(gòu)既可以對目標系統(tǒng)進行在線決策演化(即進行自適應)，又能對自適應系統(tǒng)本身進行實時優(yōu)化(即對自適應策略的實時更新)。與文獻[4,5]不同的是，本文主要關(guān)注基于策略的自適應系統(tǒng)，目標是策略的優(yōu)化和沖突消解。

本文安排如下：第2節(jié)介紹自適應中間件的相關(guān)背景，第3節(jié)詳細介紹自適應中間件的系統(tǒng)建模和自優(yōu)化實現(xiàn)，第4節(jié)介紹一個應用示例并進行實驗評估，第5節(jié)給出總結(jié)和研究展望。

2 自適應中間件框架建模與分析

為了方便討論，本文首先介紹最典型的外部反饋型自適應系統(tǒng)模型，該系統(tǒng)能感知上下文環(huán)境的變化，并自動地調(diào)整組織結(jié)構(gòu)或調(diào)整構(gòu)件提供的功能行為來滿足變化的要求。

從靜態(tài)結(jié)構(gòu)角度看，該系統(tǒng)包括：

(1)知識庫(Model Manager):管理系統(tǒng)模型以及自適應策略;

(2)監(jiān)控器(Probes、Gauge):監(jiān)控系統(tǒng)運行狀態(tài)并得出運行信息;

(3)分析器(Adaptation Manager):分析潛在的自適應條件，給出相應自適應策略;

(4)決策機制(Adaptation Manager):通過推理機制給出自適應決策結(jié)果;

(5)執(zhí)行機制(Strategy Executer、Effectors):在目標系統(tǒng)執(zhí)行自適應結(jié)果;

(6)評估機制(Architecture Evaluator):對系統(tǒng)運行狀態(tài)進行量化評估。

從動態(tài)運行角度，該系統(tǒng)的運行過程為：

自適應系統(tǒng)監(jiān)控目標系統(tǒng)，根據(jù)預先定義的策略分析可能的自適應條件，選出相應的自適應策略并根據(jù)策略進行決策，得到相應自適應動作作用于自適應系統(tǒng)。設目標系統(tǒng)為Ot,系統(tǒng)的t時刻狀態(tài)為St,知識集合為Kt,策略集合為Pt,動作為At,監(jiān)控為M,分析為An,決策為D,執(zhí)行為Ex，則系統(tǒng)的運行過程形式化描述如下：

M(Ot)→St

(1)

An(Kt,St)→Pt

(2)

D(Pt,St)→At ,St+1

(3)

Ex(At,Ot)→Ot+1

(4)

由上述定義可見，當目標系統(tǒng)與外界環(huán)境可見時，我們研究的問題在于：知識集合(Kt)的可變性、An過程中策略Pt的選擇。

3 自適應中間件在線更新機制

針對上文介紹的相關(guān)背景和問題，本文對傳統(tǒng)自適應中間件進行若干改進，以增強運行時自優(yōu)化的功能。

3.1 自適應建模

為了對自適應系統(tǒng)的決策進行優(yōu)化，我們首先需要對自適應過程有一個抽象層面的模型描述。本文采用馬爾科夫決策過程MDP(Markov Decision Process)[7]為自適應中間件的決策過程進行建模。

定義1馬爾科夫決策過程馬爾科夫決策過程(MDP)定義為一個四元組〈S,A,R,P〉，包含一個環(huán)境狀態(tài)集S，系統(tǒng)行為集合A，獎賞函數(shù)R：S×A→S和狀態(tài)轉(zhuǎn)移函數(shù)P：S×A→S。記R(s,a,s′)為系統(tǒng)在狀態(tài)s采用a動作使環(huán)境狀態(tài)轉(zhuǎn)移到s′獲得的即時獎賞值；記P(s,a,s′)為系統(tǒng)在狀態(tài)s采用動作a使環(huán)境轉(zhuǎn)移到s′的概率。MDP的本質(zhì)是：當前狀態(tài)向下一狀態(tài)轉(zhuǎn)移的概率和獎賞值只取決于當前狀態(tài)和選擇的動作，而與歷史狀態(tài)和動作無關(guān)。

MDP模型是一種在控制論、機器學習等領(lǐng)域廣泛使用的處理決策過程的模型。由于它的歷史無關(guān)假設使得很多決策問題的處理變得簡單，本文中的自適應決策過程是一種典型的狀態(tài)決策模型，同時我們也假設中間件的決策過程只與當前狀態(tài)有關(guān)，即在對目標系統(tǒng)進行決策時我們只根據(jù)當前系統(tǒng)的狀態(tài)進行決策。因此，選擇MDP模型可以為中間件的智能決策提供方便可行的解決方案。

將MDP模型具體運用到中間件的決策過程，如圖2所示，MDP中的狀態(tài)s在自適應系統(tǒng)中對應系統(tǒng)所處的不同狀態(tài)(conditions)。MDP中的動作a對應自適應系統(tǒng)的不同策略(strategies)。狀態(tài)轉(zhuǎn)移函數(shù)P在自適應系統(tǒng)中為系統(tǒng)采取自適應策略后的狀態(tài)轉(zhuǎn)移,比如從狀態(tài)condition0經(jīng)策略strategy1轉(zhuǎn)移至狀態(tài)condition1。環(huán)境即時獎賞R對應采取自適應策略后獲得的系統(tǒng)優(yōu)化程度。

Figure 2 The MDP model for self-adaptive decision process圖2 自適應決策過程的MDP模型

3.2 策略選擇與沖突消解機制

系統(tǒng)在某種條件下會出現(xiàn)有多種策略可以用來決策的情形，此時必須要讓自適應引擎在其中做出最佳的選擇。這里的“最佳”是指所選策略能夠給系統(tǒng)長遠來看的最佳效用。下文將用MDP模型和強化學習方法獲得這種理論上的最佳效用并用實驗進行驗證。

系統(tǒng)應當給每個策略s一種偏好值P(s)，當出現(xiàn)策略沖突時，具有較高偏好值的策略具有較大的概率被選擇。這使得系統(tǒng)既能較大程度地信任更合適的策略，同時又使系統(tǒng)能面對環(huán)境的不確定性。系統(tǒng)在狀態(tài)s下選擇動作a的概率可以表示為:

其中，πt(s,a)表示s狀態(tài)下采取a動作的概率，st表示t時刻系統(tǒng)的狀態(tài)，at表示t時刻的動作，p(s,a)表示s狀態(tài)下a動作的權(quán)重。

3.3 成本效益度量

3.4自適應中間件在線自優(yōu)化機制

中間件的自優(yōu)化要求在環(huán)境發(fā)生意料之外的改變后，中間件自身的策略能夠得到相應的改變。在3.1節(jié)我們對自適應過程進行MDP建模后，強化學習是解決MDP模型優(yōu)化的較好方法。因此，我們基于該模型，利用Actor-critic強化學習算法[8]對一般中間件模型進行了學習功能的擴展。

Actor-critic算法是建立在MDP模型上的一種強化學習算法。它假設學習Agent有若干策略用于決策動作而同時又有不同狀態(tài)下的值函數(shù)用于狀態(tài)轉(zhuǎn)換。在狀態(tài)S下采取一個策略作用于環(huán)境(表演)。在執(zhí)行動作后根據(jù)環(huán)境的即時獎賞更新值函數(shù)(評論)。如圖3所示。

Figure 3 Improved Actor-critic reinforcement learning algorithm[7]圖3 改進的Actor-critic強化學習算法[7]示意圖

該算法中的相關(guān)元素對應到自適應中間件優(yōu)化的過程中，可以得到自適應中間件的策略優(yōu)化算法(如算法1所示)。與原始Actor-critic算法不同的是，這里將環(huán)境的即時獎賞由決策前后的系統(tǒng)效用差值決定。

算法1自適應中間件策略優(yōu)化算法

1 初始化所有strategy的偏好值P為用戶自定義;

2 按照系統(tǒng)狀態(tài)任意選取一個strategy0;

3 重復：

3.1 執(zhí)行strategy0，觀察執(zhí)行效果得到獎賞值Rt=Ut-Ut-1;

3.2 按照系統(tǒng)狀態(tài)c進行自適應分析，得到可用于當前自適應決策的子strategy集S;

3.3 根據(jù)子strategy的偏好值更新當前strategy0的偏好值：

P(strategy0)←P(strategy0)+α δt

3.4 從子strategy集S中按照當前狀態(tài)c下各策略的偏好值p(c,s)計算策略選擇概率，并按照該概率選取下一個strategy：

4 應用示例

為支持上述自適應中間件自優(yōu)化方案，并進行智能性效果的評估，我們仿照Rainbow開發(fā)了一個自適應中間件支撐系統(tǒng)OUSAM(Online Updating Self-Adaptive Middleware)，并在此基礎上增加上文討論的自優(yōu)化機制，對性能效果進行了測試和比較，以驗證傳統(tǒng)自適應系統(tǒng)在增加我們設計的自優(yōu)化機制后的智能性和靈活性。

4.1 OUSAM功能簡述

OUSAM是模仿Rainbow系統(tǒng)實現(xiàn)的一種自適應中間件，它包括自適應描述語言、系統(tǒng)監(jiān)控器、分析器、推理器。在對系統(tǒng)進行模型層面的描述(包括模型、自適應策略)后，OUSAM對系統(tǒng)運行中的變量進行監(jiān)控，并計算待評估的系統(tǒng)狀態(tài)，當分析到系統(tǒng)達到需要自適應的狀態(tài)時根據(jù)相應策略對目標系統(tǒng)進行自適應調(diào)整。此外，在其中增加上文所述的自優(yōu)化機制，在進行系統(tǒng)模型描述時增加系統(tǒng)效用的描述，由用戶定義效用函數(shù)類型和參數(shù)，在運行時，OUSAM實時監(jiān)控系統(tǒng)參數(shù)，計算系統(tǒng)效用，并在每次自適應過程后根據(jù)系統(tǒng)效用變化得到對決策的“回報”，根據(jù)智能學習機制對歷史決策的偏好度作相應調(diào)整。

4.2 OUSAM實現(xiàn)要點

限于篇幅，此處對OUSAM的各個具體細節(jié)不做展示，僅討論與第3節(jié)的自優(yōu)化相關(guān)的若干關(guān)鍵實現(xiàn)技術(shù)。

OUSAM的系統(tǒng)框架如圖4所示，與Rainbow的Stitch語言類似，OUSAM定義了一種自適應需求描述語言AL，用于對系統(tǒng)進行體系結(jié)構(gòu)建模，并對用戶策略進行表達。圖5是AL語言的簡要描述。表1反映了OUSAM與Rainbow的聯(lián)系和區(qū)別。

Figure 4 Framework of OUSAM圖4 OUSAM框架示意圖

Figure 5 AL language grammar highlights 圖5 AL自適應描述語言簡要語法描述Table 1 Relations and comparisonsbetween OUSAM and Rainbow表1 OUSAM與Rainbow的聯(lián)系與比較

4.3 應用場景

考慮一個銀行出納調(diào)度系統(tǒng)的應用，該系統(tǒng)包含顧客、出納員。該銀行共有20名出納員Ei(i=1,2,…,20)，他們?yōu)槊课活櫩偷姆諘r間為Ti±3min，其波動值服從正態(tài)分布。顧客相繼到達銀行的間隔服從均值為μ=8 min, 10 min, 12 min的指數(shù)分布。顧客到達后，如果發(fā)現(xiàn)已有6人以上在排隊等待，30%的顧客便離去，其余人繼續(xù)排隊等待。為了提高服務質(zhì)量，該調(diào)度系統(tǒng)在隊列很長時需要對出納員的配置進行調(diào)整。如增加出納員，或者選擇更為熟練的出納員。

為了對上述銀行調(diào)度系統(tǒng)進行自適應，將OUSAM系統(tǒng)應用在該調(diào)度系統(tǒng)上。OUSAM查詢銀行調(diào)度系統(tǒng)提供的隊伍長度，當分析到超過一定閾值時采取自適應策略進行自適應調(diào)整。

為了分析方便，我們采用了兩個策略：

策略1隊列長度大于6則增加出納員；

策略2隊列長度大于6則換一個更熟練的出納員(服務時間更短)。

其中應用該自適應中間件的專家(使用者)根據(jù)經(jīng)驗相信增加出納員比更換出納員更好，因此在制定策略時將策略1設了更高的權(quán)重。但是，在實際使用中，出現(xiàn)了專家沒有預料的情形：出納員大批放假。這個時候的策略1并不能起任何作用，而策略2會是更好的策略，如果沒有對策略的學習優(yōu)化機制，則該自適應系統(tǒng)依然選擇策略1。但是，在采用我們提出的策略學習優(yōu)化機制后，中間件經(jīng)過自學習會根據(jù)決策結(jié)果進行評估，進而及時修改策略權(quán)重，將策略2作為首選策略。

4.4 實驗環(huán)境搭建

實驗所使用的計算機配置為Intel Core E7500雙核CPU，主頻2.93 GHz，內(nèi)存為1 GB×2 DDR2，操作系統(tǒng)為Microsoft Windows XP Professional 5.1，版本2600．OUSAM的實現(xiàn)平臺為Eclipse。仿真的目標系統(tǒng)實現(xiàn)平臺為Visual Studio 6.0。對目標系統(tǒng)的描述采用XML語言。

為了描述上述決策過程，我們對目標系統(tǒng)——銀行調(diào)度作了仿真，用Visual Studio 6.0開發(fā)了一個排隊系統(tǒng)。同時，用OUSAM描述目標系統(tǒng)的若干方面，如隊長、自適應調(diào)整策略、自適應調(diào)整動作。仿真排隊系統(tǒng)將實時信息寫入文件，OUSAM通過讀寫文件獲得排隊系統(tǒng)的信息并作出自適應調(diào)整指示。

實驗分別在對目標系統(tǒng)不添加自適應、添加自適應不進行策略更新優(yōu)化以及既有自適應又有自優(yōu)化三種情況進行實驗驗證。表2是相關(guān)的仿真參數(shù)。

Table 2 Simulation parameters表2 仿真參數(shù)

4.5 評估標準

為了評估本文提出的自適應中間件在線優(yōu)化的方法，我們提出以下評估指標：

(1)自適應效果：指自適應中間件在目標系統(tǒng)受到意外改變的情況下能否進行正確決策使目標系統(tǒng)性能提升。在本實驗中，我們將OUSAM應用到仿真系統(tǒng)中，比較未采用OUSAM進行自適應和采用OUSAM進行自適應的情況下仿真系統(tǒng)的隊列長度。判斷OUSAM系統(tǒng)是否在仿真系統(tǒng)受到異常改變時作出決策并使隊列長度降低。

(2)智能性：指系統(tǒng)在遇到未預料的環(huán)境變化或異常時能對預先的策略偏好度進行重新評估，并作出更好的決策。本實驗中是指OUSAM在遇到異常的情況(采用的策略不能使系統(tǒng)性能進行提升)下能自動調(diào)整策略權(quán)重，并運用新的策略使得總體運行效果更好。

4.6 實驗結(jié)果與評估

比較未運用自適應中間件和運用中間件后的效果，得到的對比結(jié)果如圖6所示?？梢钥吹剑\用自適應中間件之前由于不斷有顧客進入，系統(tǒng)沒有應對策略，從而效果逐漸變差；在運用自適應中間件后系統(tǒng)能有一個明顯的性能提升。

Figure 6 Comparison of self-adaptative effects between self-adaptive middleware and non-self-adaptive software圖6 自適應中間件效果與非自適應效果比較

另一組實驗驗證OUSAM的策略更新效果，在時間達到200 min后突然減少出納員數(shù)量，考驗中間件此時的應對能力，如圖7所示。可以看到在沒有策略自適應機制時(如圖7a所示)策略1的偏好值始終大于策略2的偏好值，從而中間件系統(tǒng)始終選擇策略1，使隊列長度逐漸增長。而在使用策略自適應機制后(如圖7b所示)，在205 min后策略1的權(quán)重開始減少，系統(tǒng)選擇策略2，隊列長度在一段時間的增高后又恢復到較低值?？梢娫诰€更新機制使得自適應中間件依然能保持最佳的決策能力。

Figure 7 Self-optimization effect of the self-adaptive middleware圖7 自適應中間件自優(yōu)化效果評估

5 結(jié)束語

自適應中間件系統(tǒng)通過對應用系統(tǒng)的監(jiān)控、分析、決策、執(zhí)行等，在可變的環(huán)境中為用戶提供了可靠穩(wěn)定的服務。然而，傳統(tǒng)的自適應中間件由于其自適應策略是在設計階段靜態(tài)指定，因此不能靈活處理運行過程中環(huán)境的突變或系統(tǒng)異常。

本文針對這種離線自適應問題提出一種基于強化學習的在線優(yōu)化方法，相對于Rainbow這種典型的自適應中間件解決了策略選擇、沖突消解、成本效益度量以及策略在線優(yōu)化等問題。開發(fā)了相應的系統(tǒng)OUSAM，在其上實現(xiàn)了一種典型應用場景，驗證了我們方法的可行性和有效性。最后，將我們的系統(tǒng)與幾種典型的自適應系統(tǒng)進行比較，顯示了我們系統(tǒng)在在線優(yōu)化方面的優(yōu)勢。

[1] Kephart J O, Chess D M. The vision of autonomic computing[J]. Computer, 2003,36(1):41-50.

[2] Cheng S.Rainbow:Cost-effective software architecture-based self-adaptation[D]. Pittsburgh:Carnegie Mellon University, 2008.

[3] Rahul R, Cheng S, David G, et al. Improving architecture-based self-adaptation using preemption[C]∥Proc of the Workshop on Self-Organizing Architectures, 2010:21-37.

[4] Ahmed E,Naeem E,Sam M.FUSION:A framework for engineering self-tuning self-adaptive software systems[C]∥Proc of the 18th ACM SIGSOFT International Symposium on Foundations of Software Engineering, 2010:7-16.

[5] Kim D, Park S. Reinforcement learning-based dynamic adaptation planning method for architecture-based self-managed software[C]∥Proc of Workshop on Software for Adaptive and Self-Managing Systems, 2009:76-85.

[6] Tesauro G, Jong N K, Das R,et al. A hybrid reinforcement learning approach to autonomic resource allocation[C]∥Proc of the International Conference on Autonomic Computing, 2006:65-73.

[7] Gao Yang, Chen Shi-fu, Lu Xin. Survey of reinforcement learning[J].Chinese Journal of Automation,2004,30(1):86-100.(in Chinese)

[8] Konda V. Actor-critic algorithms[D]. Cambridge:Department of Electrical Engineering and Computer Science, Massachusetts Institute of Technology, 2002.

[9] Gu X.IDES:Self-adaptive software with online policy evolution extended from Rainbow[M]∥Computer and Information Science, 2012:181-195.

[10] Garlan D, Schmerl B, Cheng S.Software architecture-based self-adaptation[M]∥Autonomic Computing and Networking,2009:31-56.

[11] Alia M,Eide V S W,Paspallis N,et al.A utility-based adaptivitymodel for mobile applications[C]∥Proc of the IEEE International Symposium on Ubisafe Computing, 2007:107-114.

[12] Kakousis K,Paspallis N,Papadopoulos G A.Optimizing the utility function-based self-adaptive behavior of context-aware systems using user feedback[C]∥Proc of OTM,2008:34-40.

[13] Tesauro G, Das R, Jong N, et al. A hybrid reinforcement learning approach to autonomic resource allocation[C]∥Proc of the 3rd IEEE International Conference on Autonomic Computing,2006:65-73.

[14] Hu Hai-yang,Ma Xiao-xing,Tao Xian-ping,et al.Research and advance of reflective middleware[J].ChineseJournal of Computer,2005, 28(9):1407-1420.(in Chinese)

[15] Benjamin B,Mathias P,Uwe B.Development and evaluation of a self-adaptive organic middleware for highly dependable system-on-chips[C]∥Proc of the IARIA ’12, 2012:112-117.

附中文參考文獻：

[8] 高陽,陳世福,陸鑫.強化學習研究綜述[J].自動化學報,

2004,30(1):86-100.

[14] 胡海洋,馬曉星,陶先平,等. 反射中間件的研究與進展[J].計算機學報,2005,28(9):1407-1420.

WANGJian-jun,born in 1965,MS,associate professor,his research interests include software engineering, and network security.

劉玉林(1963-),男,河北元氏人，碩士，副教授，研究方向為計算機軟件與理論。E-mail:617922062@qq.com

LIUYu-lin,born in 1963,MS,associate professor,his research interest includes computer software and theory.

Onlineupdatingofself-adaptivemiddlewarebasedonreinforcementlearning

WANG Jian-jun，LIU Yu-lin

(Center of Modern Education Technology,Hebei University of Economics and Business,Shijiazhuang 050061,China)

One common approach of self-adaptive middleware is to incorporate a control loop that monitors, analyzes, decides and executes over a target system with predefined strategies. Such approach is an offline adaptation where strategies or adaptive models are statically determined so as not to change with environment. Aiming at the problem, an online updating mechanism of self-adaptive middleware based on reinforcement learning is proposed to solve the problems of conflict resolution and real-time system effectiveness evaluation, and an online updating method of self-adaptive policy based on reinforcement learning is designed, thus enhancing intelligence, flexibility and reaction capability. Finally, the corresponding system OUSAM is implemented and the effectiveness and feasibility of the mechanism is validated on OUSAM.

self-adaptive middleware;online updating;intelligent decision;reinforcement learning

1007-130X(2014)08-1462-07

2012-12-10;

：2013-03-07

TP311

：A

10.3969/j.issn.1007-130X.2014.08.007

王建軍(1965-),男,河北興隆人，碩士，副教授，研究方向為軟件工程和網(wǎng)絡安全。E-mail:188098077@qq.com

通信地址：050061 河北省石家莊市學府路47號河北經(jīng)貿(mào)大學現(xiàn)代教育技術(shù)中心

Address:Center of Modern Education Technology,Hebei University of Economics and Businesse,47 Xuefu Rd,Shijiazhuang 050061,Hebei,P.R.China