羅 浩,張劍鋒,郭 喻,韓恩權(quán)
(海軍研究院,北京 100161)
人工智能涵蓋了計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、腦神經(jīng)學(xué)、社會(huì)科學(xué)等諸多領(lǐng)域,是一門(mén)處于快速變化中的交叉學(xué)科[1-3]。人工智能是讓人覺(jué)得不可思議的計(jì)算機(jī)程序,是與人類(lèi)思考方式、人類(lèi)行為相似的計(jì)算機(jī)程序,是會(huì)學(xué)習(xí)的計(jì)算機(jī)程序;是根據(jù)對(duì)環(huán)境的感知,做出合理的行動(dòng),并獲得最大收益的計(jì)算機(jī)程序[1]。人們希望通過(guò)研究,將其用于模擬和擴(kuò)展人的智能,輔助甚至代替人們實(shí)現(xiàn)多種功能,包括識(shí)別、認(rèn)知、分析、決策等。2016年以AlphaGo為標(biāo)志的第3次人工智能浪潮的到來(lái),是更強(qiáng)大的計(jì)算能力、更先進(jìn)的算法、大數(shù)據(jù)、物聯(lián)網(wǎng)等諸多因素共同作用的結(jié)果。人工智能算法大致的發(fā)展歷程如下[2-3]。
1956年夏天,在達(dá)特茅斯夏季人工智能研究會(huì)議上,約翰·麥卡錫、馬文·明斯基等科學(xué)家,共同討論當(dāng)時(shí)計(jì)算機(jī)科學(xué)領(lǐng)域尚未解決的問(wèn)題,第一次提出了人工智能的概念。
神經(jīng)網(wǎng)絡(luò)算法是機(jī)器學(xué)習(xí)算法中的一個(gè)重要分支。20世紀(jì)40年代起,就有學(xué)者開(kāi)始從事神經(jīng)網(wǎng)絡(luò)的研究。第一個(gè)大突破出現(xiàn)于1958年,Rosenblatt在計(jì)算機(jī)上模擬實(shí)現(xiàn)了感知機(jī)(Perceptron)模型,可以完成一些簡(jiǎn)單視覺(jué)處理任務(wù)。1969年,Minsky等人論證了感知機(jī)在解決異或等基本邏輯問(wèn)題時(shí)能力有限,這一缺陷直接導(dǎo)致了此后長(zhǎng)達(dá)10年的冷靜時(shí)期。直到80年代,神經(jīng)網(wǎng)絡(luò)迎來(lái)復(fù)興,物理學(xué)家Hopfield在1982年和1984年發(fā)表了2篇關(guān)于人工神經(jīng)網(wǎng)絡(luò)研究的論文,提出了一種新的神經(jīng)網(wǎng)絡(luò),可以解決一大類(lèi)模式識(shí)別問(wèn)題。1995年,Rumelhart、Hinton等許多神經(jīng)網(wǎng)絡(luò)學(xué)者成功實(shí)現(xiàn)了使用后向傳播 BP算法來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。Yann LeCun等人受生物視覺(jué)模型的啟發(fā),改進(jìn)了卷積神經(jīng)網(wǎng)絡(luò),在手寫(xiě)識(shí)別等小規(guī)模問(wèn)題上取得了當(dāng)時(shí)的最好結(jié)果。2001年,Hochreiter等發(fā)現(xiàn)使用BP算法時(shí),模型訓(xùn)練超過(guò)一定迭代次數(shù)后容易產(chǎn)生過(guò)擬合,神經(jīng)網(wǎng)絡(luò)又一次進(jìn)入低谷。2006年,Hinton和他的學(xué)生在 Science雜志上發(fā)表了一篇文章[4],從此掀起了深度學(xué)習(xí)的浪潮。深度學(xué)習(xí)能發(fā)現(xiàn)大數(shù)據(jù)中的復(fù)雜結(jié)構(gòu),大幅提升了應(yīng)用效果,在語(yǔ)音識(shí)別、圖像數(shù)據(jù)庫(kù)分類(lèi)等問(wèn)題研究上,取得了驚人成果。2014年,Ian Goodfellow等學(xué)者發(fā)表論文提出生成對(duì)抗網(wǎng)絡(luò),為創(chuàng)建無(wú)監(jiān)督學(xué)習(xí)模型提供了強(qiáng)有力的算法框架。
即使神經(jīng)網(wǎng)絡(luò)的發(fā)展如日中天,淺層學(xué)習(xí)算法也在持續(xù)發(fā)展,在一些任務(wù)中占有一席之地。1984年,Breiman和 Friedman提出決策樹(shù)算法;1995年,Vapnik和Cortes提出支持向量機(jī)(SVM),用一個(gè)分類(lèi)超平面將樣本分開(kāi)達(dá)到分類(lèi)效果。
強(qiáng)化學(xué)習(xí)從60年代誕生以來(lái)一直發(fā)展著,直到在 AlphaGo中與深度學(xué)習(xí)的創(chuàng)造性結(jié)合讓它重獲新生[5-6]。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子類(lèi),它從原始特征出發(fā),自動(dòng)學(xué)習(xí)高級(jí)特征組合。強(qiáng)化學(xué)習(xí)問(wèn)題是給定數(shù)據(jù),選擇動(dòng)作以最大化長(zhǎng)期獎(jiǎng)勵(lì);它的輸入是歷史的狀態(tài)、動(dòng)作和對(duì)應(yīng)獎(jiǎng)勵(lì),要求輸出的是當(dāng)前狀態(tài)下的最佳動(dòng)作。許多控制決策類(lèi)問(wèn)題都是強(qiáng)化學(xué)習(xí)問(wèn)題,比如讓機(jī)器通過(guò)各種參數(shù)調(diào)整控制無(wú)人機(jī)實(shí)現(xiàn)穩(wěn)定飛行,通過(guò)各種按鍵操作在電腦游戲中贏得分?jǐn)?shù)等。2016年由谷歌旗下DeepMind公司的David Silver創(chuàng)新性地將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合,打造出圍棋軟件AlphaGo,接連戰(zhàn)勝李世石、柯潔等世界圍棋冠軍,展現(xiàn)了強(qiáng)化學(xué)習(xí)的巨大威力。2017年,升級(jí)版的AlphaGo以Master的網(wǎng)名,在對(duì)奕平臺(tái)上,與中日韓最高水平棋手在內(nèi)的數(shù)十位人類(lèi)頂尖棋手過(guò)招,奕出了60∶0的絕對(duì)優(yōu)勢(shì)戰(zhàn)績(jī)。
目前,在人工智能的主要技術(shù)方向上有機(jī)器視覺(jué)、語(yǔ)音識(shí)別、機(jī)器翻譯、規(guī)劃決策系統(tǒng)、自動(dòng)駕駛等[2]。
水下攻防作戰(zhàn)主要是指為爭(zhēng)奪制水下權(quán),敵我雙方兵力開(kāi)展的攻擊和防御作戰(zhàn),其參與的主要兵力有水下的潛艇、UUV等,以及為爭(zhēng)奪對(duì)水下空間控制權(quán)而投入的反潛飛機(jī)、反潛水面艦艇等非水下兵力。在水下攻防作戰(zhàn)中的許多領(lǐng)域都存在重難點(diǎn)問(wèn)題,人工智能方法,尤其是深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等方法的出現(xiàn),為這些重難點(diǎn)問(wèn)題的解決提供了新的思路,有望取得很好的應(yīng)用效果??紤]到潛艇、水下無(wú)人集群等將成為未來(lái)水下戰(zhàn)的主要兵力[7],本文重點(diǎn)針對(duì)潛艇和UUV群裝備的人工智能應(yīng)用開(kāi)展構(gòu)想。
潛艇是水下作戰(zhàn)的傳統(tǒng)兵力,隨著人工智能技術(shù)的應(yīng)用,有望進(jìn)一步提升潛艇作戰(zhàn)能力。想象一下,在潛艇指揮艙室,指揮人員分配給機(jī)器大致的任務(wù)或要求,如搜索 A海區(qū)潛艇。機(jī)器理解任務(wù)或要求后,或通過(guò)詢問(wèn)指揮員方式進(jìn)一步明確有關(guān)輸入,進(jìn)行任務(wù)規(guī)劃,形成最優(yōu)執(zhí)行方案并執(zhí)行。執(zhí)行過(guò)程中,機(jī)器會(huì)根據(jù)外部戰(zhàn)術(shù)環(huán)境變化及需要,對(duì)方案進(jìn)行動(dòng)態(tài)調(diào)整并與指揮員進(jìn)行協(xié)商確認(rèn),在這種指揮方式下,系統(tǒng)反應(yīng)可能更快速。由于指揮目標(biāo)的多樣性,可以通過(guò)鍵盤(pán)鼠標(biāo)、語(yǔ)音等方式傳達(dá)指揮員意圖,從而指揮機(jī)器完成有關(guān)任務(wù)。為便于實(shí)現(xiàn),可適當(dāng)限定機(jī)器可接受的任務(wù)命令范圍。語(yǔ)音包含的含義較豐富(智能語(yǔ)音識(shí)別技術(shù)可提供支撐,為防止誤識(shí)別、誤觸發(fā),可進(jìn)一步優(yōu)化改進(jìn)),通過(guò)鍵盤(pán)鼠標(biāo)輸入和選擇表達(dá)的含義比較精確,便于描述精確性數(shù)字、約束等內(nèi)容。在指揮過(guò)程中,隨著時(shí)間變化,在機(jī)器認(rèn)為有必要讓指揮員做出選擇決策時(shí),也可以采用協(xié)商的方式與指揮員協(xié)商確認(rèn),這種協(xié)商技術(shù)依賴(lài)于人機(jī)溝通的深度融合。智能指揮的程度可以根據(jù)應(yīng)用需要向人機(jī)結(jié)合半自動(dòng)化、并逐步向機(jī)器自主全自動(dòng)化方向發(fā)展。
圖1 潛艇智能指揮控制示意圖Fig.1 Schematic diagram of submarine intelligent command and control
在目標(biāo)探測(cè)方面,重點(diǎn)是通過(guò)傳感器對(duì)水下水聲、電場(chǎng)、磁場(chǎng)、激光等感知,檢測(cè)目標(biāo)是否存在。水下環(huán)境條件下,傳統(tǒng)上是通過(guò)信號(hào)處理方法對(duì)目標(biāo)進(jìn)行檢測(cè),如智能探測(cè)潛艇、探測(cè)水雷等。隨著人工智能技術(shù)的發(fā)展,有可能通過(guò)對(duì)信號(hào)處理圖像或原始信號(hào)進(jìn)行智能識(shí)別處理(深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)技術(shù)可提供支撐),快速提取目標(biāo)特征,提高目標(biāo)檢測(cè)的速度,實(shí)現(xiàn)機(jī)器自動(dòng)快速檢測(cè)目標(biāo),并使得傳感器感知范圍得到增強(qiáng)。艇上具有較強(qiáng)的計(jì)算處理能力,具備進(jìn)行復(fù)雜計(jì)算的基礎(chǔ)。
在目標(biāo)運(yùn)動(dòng)要素解算方面,以往在假設(shè)目標(biāo)勻速直線運(yùn)動(dòng)的狀態(tài)下,本艇對(duì)目標(biāo)作純方位觀測(cè),本艇需進(jìn)行機(jī)動(dòng),方能解算出目標(biāo)運(yùn)動(dòng)要素。該問(wèn)題是一個(gè)非線性問(wèn)題,能否解算出可用的結(jié)果與目標(biāo)是否機(jī)動(dòng)有關(guān)。一旦目標(biāo)機(jī)動(dòng),不滿足假設(shè),需要在目標(biāo)機(jī)動(dòng)后重新進(jìn)行解算。目前基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)技術(shù)可以解決一些非線性問(wèn)題,因此可以嘗試進(jìn)行一些探索性試驗(yàn):一是可以通過(guò)大量的仿真數(shù)據(jù)及實(shí)際測(cè)試數(shù)據(jù),研究是否可訓(xùn)練出用于識(shí)別目標(biāo)機(jī)動(dòng)行為的模型;二是可以研究目標(biāo)勻速直線運(yùn)動(dòng)假設(shè)下是否可以基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練出目標(biāo)距離、目標(biāo)速度或目標(biāo)航向等要素,為解算目標(biāo)運(yùn)動(dòng)要素提供新方法;三是可以研究機(jī)動(dòng)目標(biāo)的解算方法和本艇機(jī)動(dòng)方法;四是可以通過(guò)仿真分析,甚至可以探索研究基于目標(biāo)方位跟蹤信號(hào)的目標(biāo)運(yùn)動(dòng)要素估計(jì)方法。
在目標(biāo)識(shí)別方面,主要是識(shí)別目標(biāo)種類(lèi)(潛艇、UUV、大型水面艦艇、商船、漁船、水雷、魚(yú)雷、魚(yú)、魚(yú)群等)、屬性(敵、我等)。水下攻防作戰(zhàn)重點(diǎn)是水聲識(shí)別??捎嗅槍?duì)性地通過(guò)聲吶等傳感器采集大量數(shù)據(jù)作為訓(xùn)練樣本,利用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、支持向量機(jī)、知識(shí)圖譜等技術(shù),通過(guò)大量訓(xùn)練,形成識(shí)別率較高的算法,為目標(biāo)識(shí)別提供支持。
在威脅估計(jì)方面,傳統(tǒng)的威脅估計(jì)主要是針對(duì)態(tài)勢(shì)中的目標(biāo)信息。根據(jù)目標(biāo)的作戰(zhàn)能力、與我方兵力位置的相對(duì)幾何態(tài)勢(shì)信息,通過(guò)特定方法分析計(jì)算得到目標(biāo)的威脅程度并排序。隨著人工智能技術(shù)的發(fā)展,可以考慮規(guī)范威脅判斷的輸入信息,通過(guò)軍事專(zhuān)家研討分析的方法,研究各種場(chǎng)景下目標(biāo)的威脅程度,獲取大量寶貴訓(xùn)練數(shù)據(jù),通過(guò)訓(xùn)練得到基于神經(jīng)網(wǎng)絡(luò)、決策樹(shù)或支持向量機(jī)的威脅估計(jì)方法。所獲得方法的威脅估計(jì)結(jié)果可以與現(xiàn)有方法進(jìn)行分析比對(duì),判別新方法的有效性。
在攻防決策方面,結(jié)合目標(biāo)運(yùn)動(dòng)狀態(tài)信息,當(dāng)確認(rèn)待打擊目標(biāo)或面臨的威脅目標(biāo)后,為了達(dá)到最好的打擊或防御效果,需決策武器的選擇、武器的使用時(shí)機(jī)、使用方式。如果能夠?qū)Q策問(wèn)題的邊界和規(guī)則明確,一方面可以采用類(lèi)似AlphaGo的自身博弈的方式(深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù)可提供支撐),不斷調(diào)整優(yōu)化自身決策模型,以得到最好攻防效果;另一方面可以考慮充分利用軍事專(zhuān)家的經(jīng)驗(yàn),考慮基于規(guī)則的專(zhuān)家系統(tǒng)解決有關(guān)決策問(wèn)題。
武器控制方面:在武器發(fā)射前,提高發(fā)射控制流程的自動(dòng)化水平,進(jìn)一步縮短反應(yīng)時(shí)間,可考慮應(yīng)用發(fā)控動(dòng)作自動(dòng)監(jiān)控識(shí)別確認(rèn)、多智能體并行控制等技術(shù)減少人工干預(yù)環(huán)節(jié),提高發(fā)控流程的連貫性、并發(fā)程度;在武器發(fā)射后,可智能預(yù)估打擊效果并據(jù)此動(dòng)態(tài)調(diào)整打擊目標(biāo)。
未來(lái)水下攻防作戰(zhàn)中采用多個(gè)UUV形成群(如圖2)協(xié)同執(zhí)行完成任務(wù)將是重要發(fā)展方向。如美深海SHARK系統(tǒng)中的多個(gè)UUV能夠在部署后自主組網(wǎng)成集群,進(jìn)行區(qū)域監(jiān)控,并對(duì)進(jìn)入監(jiān)控區(qū)的目標(biāo)進(jìn)行接力跟蹤,并實(shí)施打擊。當(dāng)UUV群在領(lǐng)受任務(wù),并被部署后,如何動(dòng)態(tài)地組織,進(jìn)行任務(wù)分配,在保持群的隊(duì)形的同時(shí),完成協(xié)同探測(cè)、跟蹤、決策、打擊、評(píng)估、情報(bào)上報(bào)等任務(wù),是亟待解決的問(wèn)題。在UUV群的應(yīng)用上,可以有2種思路:一種是將UUV群當(dāng)作一個(gè)整體,規(guī)定好UUV個(gè)體基本的機(jī)動(dòng)、探測(cè)、識(shí)別、決策、打擊、通信、能量管理的控制命令及響應(yīng)流程,采用強(qiáng)化學(xué)習(xí)、智能生物群(如魚(yú)群)等方法統(tǒng)籌研究,實(shí)現(xiàn)對(duì)其機(jī)動(dòng)、探測(cè)、識(shí)別、決策、打擊、通信、能量管理等行為的統(tǒng)一決策和控制,綜合得出 UUV群的最佳行動(dòng)控制策略;另一種是針對(duì)具體的研究難點(diǎn),在潛艇指揮控制有關(guān)技術(shù)研究基礎(chǔ)上,進(jìn)一步針對(duì) UUV群應(yīng)用特點(diǎn)研究解決。
圖2 UUV群分布式行為控制示意圖Fig.2 Schematic diagram of UUV group distributed behavior control
1)在水下通信自組網(wǎng)方面,考慮到水聲通信延遲大、帶寬窄,并存在不確定性,多個(gè)UUV的水聲組網(wǎng)通信需適應(yīng)水下特點(diǎn)、考慮隱蔽需求。相比無(wú)線網(wǎng)絡(luò),應(yīng)以盡可能少的信息交互實(shí)現(xiàn)組網(wǎng)。為保證網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的相對(duì)穩(wěn)定,還需要對(duì) UUV群的隊(duì)形進(jìn)行適當(dāng)?shù)目刂啤?/p>
2)在水下協(xié)同探測(cè)方面,實(shí)現(xiàn)對(duì)目標(biāo)的定位和跟蹤是必須要解決的問(wèn)題,具體在實(shí)現(xiàn)上涉及到協(xié)同探測(cè)的任務(wù)規(guī)劃、協(xié)同探測(cè)數(shù)據(jù)處理等,考慮到UUV上計(jì)算處理能力較為有限,應(yīng)盡可能采用簡(jiǎn)便易行的方法。
3)在目標(biāo)識(shí)別方面,UUV群需基于聲、光、電、磁等各種探測(cè)信息,尤其是水聲信息,自主識(shí)別目標(biāo)種類(lèi)、屬性,以完成自主執(zhí)行的任務(wù)。相比于潛艇對(duì)目標(biāo)的識(shí)別,UUV群的任務(wù)可能較為單一,在目標(biāo)識(shí)別上可進(jìn)一步聚焦其所針對(duì)的目標(biāo)。
4)在自主交戰(zhàn)決策方面,UUV群在發(fā)現(xiàn)并跟蹤目標(biāo)、判別目標(biāo)身份后,需決策是否進(jìn)行交戰(zhàn)以及交戰(zhàn)的時(shí)機(jī),需決策對(duì)群內(nèi)節(jié)點(diǎn)的武器目標(biāo)分配。武器發(fā)射后,需對(duì)打擊效果進(jìn)行評(píng)估,并決策是否繼續(xù)交戰(zhàn)。
5)在機(jī)動(dòng)控制方面,每個(gè) UUV需要能夠主動(dòng)規(guī)避航行中的威脅或障礙物,確保UUV的航行安全。
6)在能量管理方面,每個(gè) UUV自身能源有限,需做好UUV群的能源均衡管理統(tǒng)籌,使UUV群執(zhí)行任務(wù)的時(shí)間盡可能長(zhǎng)。
美國(guó)海軍在2018年對(duì)水下航行器(UUV)投入了巨大熱情,其John Richardson上將的《維護(hù)海上優(yōu)勢(shì) 2.0設(shè)計(jì)》列出了不遲于2025年的多個(gè)UUV的打包合同:ORCA、Snakehead、Razorback和Knife fish[8]。在美國(guó)防部2020財(cái)年海上領(lǐng)域預(yù)算重點(diǎn)中,無(wú)人和自主領(lǐng)域投資37億美元,開(kāi)發(fā)進(jìn)攻性無(wú)人水面艦艇、無(wú)人潛航器和自主后勤平臺(tái)等裝備,加強(qiáng)競(jìng)爭(zhēng)環(huán)境下的機(jī)動(dòng)和殺傷能力;人工智能領(lǐng)域投資 9.27億美元,通過(guò)聯(lián)合人工智能中心和先進(jìn)圖像識(shí)別項(xiàng)目擴(kuò)大軍事優(yōu)勢(shì);投資22億美元用于增強(qiáng)哥倫比亞級(jí)戰(zhàn)略核潛艇的戰(zhàn)略威懾能力[9]。因此,在水下攻防領(lǐng)域,結(jié)合水下 UUV和潛艇的發(fā)展,積極應(yīng)用人工智能技術(shù),是值得關(guān)注的重要研究方向。除結(jié)合單一的具體問(wèn)題研究應(yīng)用人工智能技術(shù)外,也可將UUV群作戰(zhàn)作為一個(gè)整體決策控制問(wèn)題結(jié)合人工智能技術(shù)進(jìn)行研究。本文重點(diǎn)針對(duì)水下攻防領(lǐng)域無(wú)人潛航器集群和潛艇作戰(zhàn),對(duì)人工智能技術(shù)的應(yīng)用指出了一些研究問(wèn)題或研究方向,具體問(wèn)題的解決和實(shí)現(xiàn)還依賴(lài)于工程應(yīng)用的不斷探索和實(shí)踐。