亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

有限次實(shí)施中作戰(zhàn)方案選擇策略比較研究

2015-12-25 02:34:32萬貽平張東戈

軍事運(yùn)籌與系統(tǒng)工程 2015年3期

萬貽平張東戈

(解放軍理工大學(xué) 指揮信息系統(tǒng)學(xué)院，江蘇南京210007)

1 引言

作戰(zhàn)方案選擇是軍事決策的重要內(nèi)容?！霸u(píng)估—預(yù)案”范式，即根據(jù)備選方案的戰(zhàn)前評(píng)估結(jié)果制定預(yù)案的模式，是方案選擇的常用方法，但其有效性依賴于備選方案評(píng)估結(jié)果的準(zhǔn)確性。而通常評(píng)估過程的復(fù)雜性、評(píng)估主體偏好的不確定性、評(píng)估方法的多樣性以及適用局限性等因素，都可能導(dǎo)致作戰(zhàn)方案的評(píng)估結(jié)果不夠準(zhǔn)確［1］。軍事復(fù)雜系統(tǒng)本身具有的動(dòng)態(tài)性和不確定性，使得準(zhǔn)確分析和預(yù)測軍事系統(tǒng)的行為非常困難［2］。此外戰(zhàn)場信息具有的不完整性和不確定性，也會(huì)使得戰(zhàn)場實(shí)際應(yīng)用環(huán)境與方案評(píng)估時(shí)的環(huán)境差異過大，從而導(dǎo)致先前的評(píng)估經(jīng)驗(yàn)結(jié)果難以后繼使用。陳亞洲等曾研究提出，我軍目前作戰(zhàn)模型和數(shù)據(jù)的準(zhǔn)確性不高，結(jié)果難以得到指揮人員認(rèn)同［3］。對于作戰(zhàn)方案選擇問題，傳統(tǒng)的“戰(zhàn)前評(píng)估，戰(zhàn)時(shí)選擇”模式并不能有效解決“預(yù)案”不可用所帶來的困難。如何在缺乏有效方案評(píng)估結(jié)果的情況下合理選擇作戰(zhàn)方案，以期達(dá)到最優(yōu)的戰(zhàn)場效果，就成為軍事決策者面臨的一個(gè)重大難題。

從公開文獻(xiàn)看，目前對這一問題的研究還較少。對于其中一類包含多次“行動(dòng)實(shí)施”的方案選擇問題，可以在實(shí)施過程中收集戰(zhàn)場實(shí)際效果(Effects of Battlefield)信息，利用它動(dòng)態(tài)地指導(dǎo)和調(diào)整后面幾次作戰(zhàn)方案的選擇。曾松林等人從動(dòng)態(tài)博弈的角度，研究了空襲作戰(zhàn)中，攻擊飛機(jī)以小架次、多波次的方式進(jìn)行突擊情況下，防空火力單元與攻擊飛機(jī)多次對抗過程中的目標(biāo)分配問題［4］。童幼堂將協(xié)同作戰(zhàn)模式下，艦空導(dǎo)彈多次射擊的方案序列優(yōu)選問題等效為多目標(biāo)多階段的優(yōu)化問題進(jìn)行了研究［5］。上述研究從特定軍事問題出發(fā)有針對性地進(jìn)行了方案選擇分析，然而這些分析對有限次實(shí)施中作戰(zhàn)方案選擇的一般性方法策略關(guān)注還不夠，還需要有進(jìn)一步的研究。

本文在借鑒Multi - armed Bandit［6］算法思想的基礎(chǔ)上，權(quán)衡了“有限次實(shí)施機(jī)會(huì)”和“稀缺資源”之間的累計(jì)實(shí)施效果關(guān)系，將有限次實(shí)施中作戰(zhàn)方案選擇問題，建模為稀缺資源最優(yōu)分配問題。通過對4 種策略的比較研究，探索了不同選擇策略各自的特點(diǎn)，由此可以為軍事決策提供一般性的方法參考。

2 有限次實(shí)施中作戰(zhàn)方案選擇問題

現(xiàn)代作戰(zhàn)可以看成是一種由持續(xù)離散型事件組成的任務(wù)，在信息系統(tǒng)的支持下，每次事件實(shí)施效果可以得到實(shí)時(shí)評(píng)估，由此對于作戰(zhàn)人員而言，戰(zhàn)術(shù)方案可以根據(jù)實(shí)施效果反饋信息進(jìn)行適應(yīng)性地動(dòng)態(tài)調(diào)整。而動(dòng)態(tài)調(diào)整的策略不同，則會(huì)有最終不同的累計(jì)實(shí)施效果。例如，網(wǎng)絡(luò)涉軍輿情引導(dǎo)作戰(zhàn)中，需要程式化甚至自動(dòng)化地選擇使用網(wǎng)絡(luò)輿情引導(dǎo)技術(shù)方案，以達(dá)到最好的輿情引導(dǎo)效果。在某些場合下，宣傳引導(dǎo)網(wǎng)頁的累計(jì)點(diǎn)擊量越大、引導(dǎo)信息的覆蓋面越廣，可以被視為輿情引導(dǎo)效果越好。而備選輿情引導(dǎo)方案實(shí)施前，難以提前獲知網(wǎng)民對各備選方案的感興趣程度，所以必須通過實(shí)際的實(shí)施來評(píng)估方案的效果。如何在有限的時(shí)間內(nèi)，通過動(dòng)態(tài)選擇實(shí)施備選方案，來達(dá)到累計(jì)點(diǎn)擊量的最大化，是輿論引導(dǎo)人員面臨的重要問題。

據(jù)此可以進(jìn)行模型背景想定設(shè)定:某項(xiàng)軍事任務(wù)需將作戰(zhàn)行動(dòng)重復(fù)實(shí)施有限多次，每次行動(dòng)實(shí)施之前均需從備選方案集合中選擇作戰(zhàn)方案，行動(dòng)實(shí)施后產(chǎn)生的戰(zhàn)場效果無法提前預(yù)知，且結(jié)果具有一定的隨機(jī)性。如何為每次作戰(zhàn)行動(dòng)選擇方案，使得累積的戰(zhàn)場效果達(dá)到最大，就是本文研究的有限次實(shí)施中作戰(zhàn)方案選擇問題。

本文研究的“方案選擇策略”所指的，不是具體的作戰(zhàn)策略本身，而是策略的策略。我們所關(guān)注的，不是如何戰(zhàn)爭，也不是如何對抗。我們關(guān)注的要點(diǎn)是:“如何從戰(zhàn)爭中學(xué)習(xí)戰(zhàn)爭”“如何從對抗中學(xué)習(xí)對抗”，采用何種策略，才能夠讓學(xué)習(xí)的成本盡可能地小。

2.1 基本想定假設(shè)

在實(shí)際作戰(zhàn)中，具體的作戰(zhàn)行動(dòng)所面臨的戰(zhàn)場條件常常千差萬別，所遵循的作戰(zhàn)準(zhǔn)則也可能各有不同。然而，只要作戰(zhàn)行動(dòng)滿足某些特定的條件，那么，就可以將這些作戰(zhàn)行動(dòng)劃歸為同一類，將作戰(zhàn)行動(dòng)實(shí)施中面臨的“有限次實(shí)施中作戰(zhàn)方案選擇”問題，界定為本文所要研究的問題。

為便于研究，本文對“有限次實(shí)施中作戰(zhàn)方案選擇策略”中作戰(zhàn)行動(dòng)所需滿足的條件做如下的想定假設(shè):

假設(shè)1:每次行動(dòng)實(shí)施產(chǎn)生的作戰(zhàn)效果不受前期行動(dòng)的影響。

假設(shè)2:作戰(zhàn)效果可量化為數(shù)值參數(shù)，且同一個(gè)作戰(zhàn)方案在各次不同的實(shí)施下，所產(chǎn)生的作戰(zhàn)效果統(tǒng)計(jì)上服從正態(tài)分布。

假設(shè)3:行動(dòng)實(shí)施后的作戰(zhàn)效果能夠被迅速觀察或者是測量獲得。

2.2 問題描述

2.2.1 有限次實(shí)施

假設(shè)某項(xiàng)軍事任務(wù)由重復(fù)實(shí)施N次的“特定作戰(zhàn)行動(dòng)”組成，將其中的每一次行動(dòng)都認(rèn)定為一個(gè)過程，每個(gè)過程都包含“方案的選擇”和“方案的實(shí)施”兩個(gè)階段。包含有限次行動(dòng)實(shí)施的軍事任務(wù)共被分解為N個(gè)過程，名稱分別記為P1，P2，…，PN。根據(jù)假設(shè)1，P1，P2，…，PN各過程行動(dòng)通過實(shí)施所產(chǎn)生的作戰(zhàn)效果僅和所選擇的方案有關(guān)，與實(shí)施的次序無關(guān)。

2.2.2 作戰(zhàn)方案選擇

在“特定作戰(zhàn)行動(dòng)”進(jìn)入某一具體過程后，首先需要從備選方案集合中選擇一個(gè)方案，然后實(shí)施該方案。設(shè)備選方案集合為D ={C1，C2，…，Ck}，其中C1，C2，…，Ck分別表示k個(gè)備選方案。P1，P2，…，PN各個(gè)過程的備選方案集合相同，均為D。需要強(qiáng)調(diào)的是，本文將備選方案設(shè)定為固定的有限集合，備選方案本身在“有限次”實(shí)施中并不發(fā)生改進(jìn)，備選方案的數(shù)量也不發(fā)生增加，是基于以下兩點(diǎn)考慮:一是戰(zhàn)爭資源的有限性，決定了備選方案是固定的有限集合，裝備以及人員的物理屬性和自然屬性決定了作戰(zhàn)雙方難以在作戰(zhàn)過程中臨機(jī)地改進(jìn)和創(chuàng)新出新的作戰(zhàn)方案;二是現(xiàn)代戰(zhàn)場往往不存在改進(jìn)作戰(zhàn)方案的時(shí)間。未來現(xiàn)代戰(zhàn)場會(huì)有很多程式化的執(zhí)行，即按一個(gè)既定的策略方案連續(xù)不斷地在動(dòng)態(tài)調(diào)整中加以實(shí)施，而不能在作戰(zhàn)實(shí)施過程中停下來調(diào)整，因?yàn)檠b備的實(shí)施特征決定了不存在這樣一個(gè)反應(yīng)時(shí)間。

2.2.3 累積戰(zhàn)場效果

方案i(i =1，2，…，k)實(shí)施后所產(chǎn)生的戰(zhàn)場效果，用連續(xù)型的數(shù)值表示，記為Ei。根據(jù)假設(shè)2，Ei是一個(gè)服從正態(tài)分布的隨機(jī)變量。方案i已實(shí)施的次數(shù)記為Mi，方案i實(shí)施后產(chǎn)生的戰(zhàn)場效果統(tǒng)計(jì)均值記為ˉEi。累積戰(zhàn)場效果E定義為N次行動(dòng)中k種方案戰(zhàn)場效果之和。即當(dāng)時(shí)，有:

3 有限次實(shí)施中作戰(zhàn)方案選擇策略

有限次實(shí)施中，作戰(zhàn)方案選擇問題的特點(diǎn)在于，每個(gè)備選方案i被實(shí)施后產(chǎn)生的戰(zhàn)場效果Ei是一個(gè)隨機(jī)變量，可以通過多次實(shí)施來觀測和評(píng)估。某個(gè)備選方案被實(shí)施的次數(shù)越多，通過統(tǒng)計(jì)戰(zhàn)場效果而得出的戰(zhàn)場效果預(yù)估值對Ei的描述就越可信。然而，如果每個(gè)備選方案都被實(shí)施較多的次數(shù)，就會(huì)將有限的實(shí)施機(jī)會(huì)“浪費(fèi)”在方案的選擇上，如果選中了較差的方案，就會(huì)極大地降低全部方案實(shí)施后所累積出來的戰(zhàn)場效果值。

一個(gè)好的策略，需要在“探索最優(yōu)方案”和“避免浪費(fèi)實(shí)施機(jī)會(huì)”兩者之間做出權(quán)衡，更優(yōu)的選擇策略會(huì)使得整個(gè)軍事任務(wù)完成后累積出的戰(zhàn)場效果的預(yù)期值更大。作戰(zhàn)方案選擇策略，就是用于P1，P2，…，PN各個(gè)過程方案選擇的規(guī)則。

3.1 隨機(jī)策略

隨機(jī)策略(Random Strategy)是第一種策略，它是一種隨機(jī)選擇作戰(zhàn)方案的策略。隨機(jī)策略下，每一個(gè)過程Pi中的“方案選擇”階段均隨機(jī)地從備選方案集合D中隨機(jī)選擇一個(gè)方案，然后實(shí)施該方案。隨機(jī)策略是一種通常的策略，本文將隨機(jī)策略定為不同策略比較的基礎(chǔ)，其他策略的特點(diǎn)優(yōu)劣都通過與隨機(jī)策略的比較來完成。

3.2 直覺策略

直覺策略(Naive Strategy)是第二種策略，它是首先給每個(gè)備選方案分配m次實(shí)施的機(jī)會(huì)，然后將實(shí)施完成后各方案戰(zhàn)場效果的平均值，作為其戰(zhàn)場效果的預(yù)估值。該策略將預(yù)估值最大的方案作為一個(gè)最終的“最佳方案”。以后的N － mk次過程，均選擇和實(shí)施這個(gè)最終的“最佳方案”。該策略簡單直觀，符合人們的直覺，所以叫作直覺策略。它有以下特點(diǎn):

(1)策略分為兩個(gè)明顯不同的階段。前mk次實(shí)施為第一階段，目的是探索最終的“最佳方案”;后N－mk次實(shí)施為第二階段，利用探索階段所得到的“最佳方案”來實(shí)施，以產(chǎn)生最大的戰(zhàn)場效果。

(2)m值的選取影響策略的效果。m值如果選得過小，難以保證“最佳方案”可信;m值如果選得過大，則過多的行動(dòng)機(jī)會(huì)可能會(huì)被分配給較差的方案，甚至是給了明顯較差的方案，這會(huì)造成實(shí)施機(jī)會(huì)的“浪費(fèi)”。

3.3 貪心策略

對于有限次實(shí)施中作戰(zhàn)方案選擇問題，可以將有限的N次行動(dòng)機(jī)會(huì)等價(jià)為稀缺資源，k個(gè)備選方案作為資源分配的k個(gè)選項(xiàng)，累積戰(zhàn)場效果E作為N次分配的總收益。經(jīng)過這樣的考慮，可以將有限次實(shí)施中作戰(zhàn)方案選擇問題等價(jià)為稀缺資源最優(yōu)分配問題。Multi - armed Bandits 作為解決稀缺資源分配問題的算法，被廣泛運(yùn)用于運(yùn)籌學(xué)中的隨機(jī)調(diào)度［7］、臨床試驗(yàn)［8］、最優(yōu)投資及最優(yōu)分配等相關(guān)領(lǐng)域［9，10］。Multi - armed Bandits 算法根據(jù)每次收集到的收益信息，在每個(gè)決策時(shí)點(diǎn)上，動(dòng)態(tài)地調(diào)整規(guī)則，從而使總收益的預(yù)期最大化。該算法由一組可控的隨機(jī)過程組成，每個(gè)隨機(jī)過程有兩種選擇:“繼續(xù)探索”和“堅(jiān)持以往”［6］。其優(yōu)勢在于，探索階段將資源更多地分配給先前較優(yōu)的方案，對先前較差方案，則不做過度探索。

基于Multi - armed Bandits 算法改進(jìn)出的ε貪心策略(ε－Greedy Strategy)，借鑒了Multi-armed Bandits 算法的思想，每個(gè)過程均動(dòng)態(tài)選擇備選方案。在P1，P2，…，PN各個(gè)過程進(jìn)行方案選擇時(shí)，以某一較小概率ε隨機(jī)地選擇行動(dòng)方案，以概率1－ε堅(jiān)持“當(dāng)前最佳方案”。該策略用已實(shí)施各方案的戰(zhàn)場效果的平均值，作為該方案戰(zhàn)場效果的預(yù)估值，將預(yù)估值最大的方案判定為臨時(shí)的“當(dāng)前最佳方案”。臨時(shí)的“當(dāng)前最佳方案”有可能隨探索的進(jìn)行而繼續(xù)發(fā)生變化。相比較于直覺策略，該策略有以下特點(diǎn):

(1)保證大部分實(shí)施機(jī)會(huì)(大于1－ε的概率)分配給了“當(dāng)前最佳方案”，從而避免為較差的方案分配過多的實(shí)施機(jī)會(huì)。

(2)考慮到“當(dāng)前最佳方案”不一定是最佳方案，該策略以概率ε來“繼續(xù)探索”最佳方案，從而避免將實(shí)施機(jī)會(huì)永久分配給局部最佳方案。

3.4 置信上限策略

在數(shù)理統(tǒng)計(jì)理論里的未知量估計(jì)問題中，置信區(qū)間和置信水平是用來描述估計(jì)值可信程度的重要指標(biāo)?；贛ulti - armed Bandits 算法的置信上限策略(Upper Confidence Bound Strategy)，用置信上限代替均值作為預(yù)估值。對于已實(shí)施方案i的戰(zhàn)場效果Ei，設(shè)其置信水平為1－ α?xí)r的置信上限為Ui。該策略在各個(gè)過程P1，P2，…，PN進(jìn)行方案選擇時(shí)，均先計(jì)算已實(shí)施各方案戰(zhàn)場效果的置信上限Ui，將其作為各方案戰(zhàn)場效果的預(yù)估值，然后判定預(yù)估值最大的方案為臨時(shí)的“當(dāng)前最佳方案”，并在本次過程中將實(shí)施機(jī)會(huì)分配給“當(dāng)前最佳方案”。

根據(jù)假設(shè)2，各方案產(chǎn)生的作戰(zhàn)效果服從正態(tài)分布，則設(shè)方案i實(shí)施后所產(chǎn)生的戰(zhàn)場效果Ei ～N(μ，σ2)，則是μ的無偏估計(jì)，且有:

式(2)中，μ為戰(zhàn)場效果的期望，σ為戰(zhàn)場效果的標(biāo)準(zhǔn)差。

按標(biāo)準(zhǔn)正態(tài)分布的上α分位點(diǎn)的定義［11］，根據(jù)式(2)有:

式(3)中，ni為方案i實(shí)施次數(shù)為標(biāo)準(zhǔn)正態(tài)分布的分位點(diǎn)。則:

即已實(shí)施方案i的戰(zhàn)場效果置信水平為1－ α的置信上限Ui為:

式(5)中，σ與均為常數(shù)，且方案i的戰(zhàn)場效果均值ˉEi相對穩(wěn)定，則隨著方案i實(shí)施次數(shù)ni的增大，其預(yù)估值ui將變小，這樣已實(shí)施次數(shù)較少的方案就有可能成為新的“當(dāng)前最佳方案”。相比于貪心策略，該策略將預(yù)估值Ui與實(shí)施次數(shù)ni在公式(5)中結(jié)合起來，利用“當(dāng)前最佳方案”的同時(shí)也在探索最優(yōu)方案，避免了貪心策略中以概率ε“隨機(jī)探索”的資源浪費(fèi)。

4 選擇策略的仿真計(jì)算研究

為了能夠更為直觀地了解各種選擇策略的效果，我們可以通過計(jì)算機(jī)仿真計(jì)算實(shí)驗(yàn)對4 種選擇策略的特點(diǎn)做定量化的描述。仿真實(shí)驗(yàn)采用Monte Carlo 方法，用隨機(jī)數(shù)模擬方案實(shí)施后產(chǎn)生的戰(zhàn)場效果。為降低隨機(jī)性的影響，實(shí)驗(yàn)重復(fù)了1000 次。

4.1 仿真計(jì)算參數(shù)設(shè)定

仿真中涉及的參數(shù)設(shè)定如下:

(1)作戰(zhàn)行動(dòng)重復(fù)實(shí)施次數(shù)N =3000;備選方案數(shù)k =4。

(2)設(shè)定4 個(gè)備選方案的戰(zhàn)場效果期望分別為5、9、6、15，標(biāo)準(zhǔn)差均為2。

(3)直覺策略先給4 個(gè)備選方案各分配m =10 次實(shí)施機(jī)會(huì);之后的N－mk =160 次實(shí)施機(jī)會(huì)均分配給“最佳方案”。

(4)貪心策略中ε的值設(shè)定為0.2。

(5)置信上限策略使用σ =1，1－ α的正態(tài)分布的置信上限作為方案戰(zhàn)場效果的預(yù)估值。

4.2 仿真計(jì)算結(jié)果及分析

通過仿真計(jì)算，可以得到如下結(jié)果，見圖1、圖2 和表1。

圖1 四種策略選擇最佳方案的概率

圖2 四種策略的累積作戰(zhàn)效果

表1 直覺策略和置信上限策略對比

從圖1 可以看出，隨機(jī)策略從4 種備選方案中選擇到最佳方案的概率在0.25 附近波動(dòng);直覺策略在20－30 次實(shí)施時(shí)選中最佳方案，40 次實(shí)驗(yàn)之后選到最佳方案的概率為1，說明該策略在40 次實(shí)驗(yàn)之后成功找到最佳方案;貪心策略選到最佳方案的概率在前幾次實(shí)驗(yàn)中迅速提高，并維持在0.8 左右的水平，這是由于ε =0.2;95%置信上限策略選到最佳方案的概率在前幾次實(shí)施中有所波動(dòng)，并迅速穩(wěn)定在接近1 的水平。

從圖2 可以看出，作戰(zhàn)行動(dòng)重復(fù)實(shí)施次數(shù)N不大于100 的情況下，95%置信上限策略始終保持最大的累積戰(zhàn)場效果;直覺策略重復(fù)實(shí)施次數(shù)N超過40 后，累計(jì)戰(zhàn)場效果保持高增長率。

從表1 可以看出，重復(fù)實(shí)施次數(shù)N超過182 時(shí)，直覺策略的累積戰(zhàn)場效果超過貪心策略;重復(fù)實(shí)施次數(shù)N超過2350 時(shí)，直覺策略的累積戰(zhàn)場效果超過95%置信上限策略;重復(fù)實(shí)施次數(shù)N為3000 時(shí)，直覺策略的累積戰(zhàn)場效果為44746，超過但未顯著超過置信上限策略的累積戰(zhàn)場效果44736。

通過以上仿真計(jì)算，可以得到如下結(jié)論:

(1)隨機(jī)策略是一種較差的策略。

(2)置信上限策略選擇最佳方案的概率一直穩(wěn)定在接近1 的高水平，是一種較為理想的策略。尤其是當(dāng)有限次實(shí)施的重復(fù)次數(shù)不大時(shí)，置信上限策略產(chǎn)生的預(yù)期累積戰(zhàn)場效果大于其他3 種策略。

(3)當(dāng)有限次實(shí)施的重復(fù)次數(shù)特別大時(shí)，直覺策略可能優(yōu)于置信上限策略，但優(yōu)勢不明顯。

5 結(jié)束語

有限次實(shí)施中作戰(zhàn)方案選擇問題是現(xiàn)代戰(zhàn)爭面臨的一個(gè)重要問題，性能良好的“方案選擇策略”能夠指導(dǎo)和幫助作戰(zhàn)指揮人員、戰(zhàn)場設(shè)計(jì)人員、武器系統(tǒng)研究人員和裝備作戰(zhàn)使用研究人員，研究和設(shè)計(jì)在信息系統(tǒng)的支持下的備選方案動(dòng)態(tài)選擇。本文提出并模型化了有限次實(shí)施中作戰(zhàn)方案選擇問題，并比較研究了幾種選擇策略的特點(diǎn)，為作戰(zhàn)方案選擇問題提供了方法參考。然而，作戰(zhàn)雙方或多方的動(dòng)態(tài)應(yīng)對、方案作戰(zhàn)效果的統(tǒng)計(jì)學(xué)特征和實(shí)施次數(shù)等因素影響著選擇策略的有效性，本文對此未做深入探討分析。在下一步的研究中，我們將研究不同因素對較優(yōu)的方案選擇策略的影響。

［1］許誠，杜茂華，孫有田，等. 反艦導(dǎo)彈武器系統(tǒng)作戰(zhàn)效能評(píng)估風(fēng)險(xiǎn)初探［J］.軍事運(yùn)籌與系統(tǒng)工程，2010，24(2):30 -33.

［2］黃柯棣，趙鑫業(yè)，楊山亮，等. 軍事分析仿真評(píng)估系統(tǒng)關(guān)鍵技術(shù)綜述［J］.系統(tǒng)仿真學(xué)報(bào)，2012，24(12):2439 -2447.

［3］陳亞洲，劉建平.作戰(zhàn)模擬在指揮決策領(lǐng)域推廣應(yīng)用面臨的問題與對策［J］.軍事運(yùn)籌與系統(tǒng)工程，2012，26(4):27 -38.［4］曾松林，王文惲，丁大春，等. 基于動(dòng)態(tài)博弈的目標(biāo)分配方法研究［J］.電光與控制，2011，18(2):26 -72.

［5］童幼堂.艦空導(dǎo)彈指揮決策模型及應(yīng)用研究［D］. 大連:大連理工大學(xué)，2005.

［6］ WHITE J. Bandit algorithms for website optimization［M］. O'Reilly Media，Inc.，2012.

［7］ CAI X，WU X，ZHOU X. Optimal Stochastic Scheduling［M］.Springer，2014.

［8］ LAI T L. Sequential analysis:some classical problems and new challenges［J］. Statistica Sinica，2001，11:303 -408.

［9］ MCLENNAN A. Price dispersion and incomplete learning in the long run［J］. Journal of Economic dynamics and control，1984，7(3):331 -347.

［10］ KELLER G，RADY S. Optimal experimentation in a changing environment［J］. The review of economic studies，1999，66(3):475 -507.

［11］盛驟，謝式千，潘承毅. 概率論與數(shù)理統(tǒng)計(jì)［M］. 北京:高等教育出版社，2008.