徐祥偉, 魏振春, 馮 琳, 張 巖
(合肥工業(yè)大學 計算機與信息學院,安徽 合肥 230009)
基于Q學習和TD誤差的傳感器節(jié)點任務調(diào)度算法
徐祥偉, 魏振春, 馮 琳, 張 巖
(合肥工業(yè)大學 計算機與信息學院,安徽 合肥 230009)
針對現(xiàn)有合作學習算法存在頻繁通信、能量消耗過大等問題,應用目標跟蹤建立任務模型,文章提出一種基于Q學習和TD誤差(Q-learning and TD error,QT)的傳感器節(jié)點任務調(diào)度算法。具體包括將傳感器節(jié)點任務調(diào)度問題映射成Q學習可解決的學習問題,建立鄰居節(jié)點間的協(xié)作機制以及定義延遲回報、狀態(tài)空間等基本學習元素。在協(xié)作機制中,QT使得傳感器節(jié)點利用個體和群體的TD誤差,通過動態(tài)改變自身的學習速度來平衡自身利益和群體利益。此外,QT根據(jù)Metropolis準則提高節(jié)點學習前期的探索概率,優(yōu)化任務選擇。實驗結(jié)果表明:QT具備根據(jù)當前環(huán)境進行動態(tài)調(diào)度任務的能力;相比其他任務調(diào)度算法,QT消耗合理的能量使得單位性能提高了17.26%。
無線傳感器網(wǎng)絡(WSNs);傳感器節(jié)點;任務調(diào)度;Q學習;TD誤差;協(xié)作機制
目前,無線傳感器網(wǎng)絡(wireless sensor networks, WSNs)廣泛應用于軍事、環(huán)境監(jiān)測、醫(yī)療等領(lǐng)域[1]。合理使用傳感器節(jié)點受限資源并獲得較高應用性能是WSNs研究的關(guān)鍵問題[2]。有效的任務調(diào)度機制是解決上述問題的合理途徑[3-5]。在目標跟蹤應用中,傳感器節(jié)點根據(jù)當前狀態(tài)和鄰居信息動態(tài)調(diào)度探測、接收、發(fā)送、睡眠等任務[4,6],合理使用受限資源,提高應用性能。
傳感器節(jié)點通常處于動態(tài)變化的WSNs中,節(jié)點應該根據(jù)當前變化環(huán)境進行動態(tài)任務調(diào)度[3-5]。目前,強化學習方法已經(jīng)被用于研究傳感器節(jié)點的動態(tài)任務調(diào)度問題。文獻[3]提出了基于獨立Q學習(independent Q-learning, IQ)的任務調(diào)度框架,將節(jié)點映射成Agent,定義狀態(tài)空間、延遲回報等學習元素,根據(jù)ε-greedy方法進行任務選擇。文獻[4]提出了基于合作Q學習(cooperative Q-learning, CQ)的任務調(diào)度算法,使得節(jié)點在評估Q值時加權(quán)考慮鄰居節(jié)點的狀態(tài)值函數(shù)進行合作學習,以目標跟蹤應用驗證CQ比IQ獲得更高應用性能。此外,文獻[5]研究了目標跟蹤應用的任務調(diào)度問題,定義基本學習元素,提出基于獨立SARSA(λ)學習(independent SARSA(λ)-learning, IS)的任務調(diào)度算法,合理使用受限資源。
在多Agent強化學習中,聯(lián)合動作學習機制存在動作維數(shù)災難、頻繁通信等問題[7],不適合大規(guī)模部署的WSNs。IQ、CQ和IS均為獨立動作學習機制[7],只考慮自身狀態(tài)空間和動作空間。IQ和IS只注重個體利益,不考慮群體利益。CQ使得節(jié)點考慮鄰居節(jié)點集合的狀態(tài)值函數(shù)進行合作學習,注重個體和群體利益的平衡,但是節(jié)點每次調(diào)度任務后都發(fā)送狀態(tài)值函數(shù)至鄰居節(jié)點集合,節(jié)點間頻繁的通信容易導致節(jié)點不能正常完成應用的功能性工作、通信負載壓力較大、能量消耗較大等問題。
針對CQ合作學習時存在通信頻繁的問題,本文提出一種基于Q學習和TD誤差(Q-learning and TD error, QT)的傳感器節(jié)點任務調(diào)度算法。在協(xié)作機制中,QT結(jié)合群體TD誤差和WSNs特性,使得節(jié)點可以通過降低學習速度來參與群體的協(xié)作學習。在探索和利用策略中,QT根據(jù)Metropolis準則提高節(jié)點學習前期的探索概率,優(yōu)化任務選擇。實驗結(jié)果表明:QT具備根據(jù)當前環(huán)境進行動態(tài)調(diào)度任務的能力;QT消耗合理的能量獲得較好的單位性能,可以提高節(jié)點的能源利用率。
1.1 任務模型
本文以目標跟蹤為應用建立任務模型。定義WSNs是由n個同質(zhì)傳感器節(jié)點i(i1,i2,…,in)構(gòu)成的。每個節(jié)點ij(1≤j≤n)包括位置坐標p(xj,yj)、睡眠時間tsleep、探測半徑rj、鄰居半徑cj及cj內(nèi)的鄰居節(jié)點集合neigh(ij)等屬性。假設各個任務不可搶占,且均為原子任務,具體定義如下:
(1) 睡眠。將探測模塊、通信模塊、計算模塊等置于睡眠模式,節(jié)省節(jié)點能量消耗。
(2) 跟蹤目標。持續(xù)跟蹤探測半徑rj內(nèi)的移動目標m,獲得探測包,添加至發(fā)送隊列。探測包包括的屬性為標識、坐標{x,y}、起始時間t和方向dir。假設各移動目標擁有唯一的標識ID。
(3) 發(fā)送信息。將發(fā)送隊列中的探測包發(fā)送至該m移動方向最一致的鄰居節(jié)點,若無該鄰居節(jié)點,則將探測包發(fā)送至下一跳。相比直接發(fā)送原始數(shù)據(jù)至數(shù)據(jù)中心處理,網(wǎng)內(nèi)數(shù)據(jù)處理更加節(jié)省整體能量消耗[8]。節(jié)點ij根據(jù)m的移動方向來預測下一個探測m的鄰居節(jié)點ik。預測的ik滿足如下約束:
|θk-θm|<Δθ,
minimize(|θk-θm|)
(1)
其中,Δθ為偏離閾值,θk為ik的位置方向;θm為m的移動方向。
(1)式中,|θk-θm|<Δθ表示ik偏離m的方向應小于Δθ;minimize(|θk-θm|)表示最接近m移動方向的ik。
(4) 接收信息。接收鄰居節(jié)點或上一跳的包,按照包類型分別添加至接收隊列或協(xié)作信息隊列。協(xié)作信息隊列存放節(jié)點對應鄰居節(jié)點集合的TD誤差信息。
(5) 處理信息。將接收隊列和發(fā)送隊列中相同ID的探測包,分析處理成新的探測包,重新添加至發(fā)送隊列。分析處理機制由具體需求決定[3],本文將多條處于間隔ΔT內(nèi)的相同ID的探測包均值成單條探測包。
1.2 學習模型
強化學習系統(tǒng)如圖1所示,圖1中,在不確定的外部環(huán)境中,Agent確定當前環(huán)境狀態(tài)s,根據(jù)學習策略從動作空間中選擇動作a執(zhí)行;在動作a的作用下,環(huán)境狀態(tài)s遷移到新狀態(tài)s′,同時產(chǎn)生該動作的延遲回報r至Agent,Agent更新學習策略,選擇下一動作繼續(xù)執(zhí)行。
在任務調(diào)度問題中,傳感器節(jié)點和WSNs環(huán)境分別映射成強化學習系統(tǒng)中的Agent和環(huán)境。WSNs應用的任務集合和節(jié)點的工作狀態(tài)集合分別映射成Agent的動作空間A和狀態(tài)空間S。任務執(zhí)行成功與否的獎懲值映射成延遲回報R。任務調(diào)度策略映射成學習策略P,即探索和利用策略。
圖1 強化學習系統(tǒng)
傳感器節(jié)點通過與WSNs環(huán)境的不斷試錯學習,最大化狀態(tài)值函數(shù)Vπ(s),最終目的是找到每個狀態(tài)下的最優(yōu)策略π*(s)。根據(jù)Bellman最優(yōu)方程[9],最優(yōu)策略的值函數(shù)V*(s)定義如下:
(2)
其中,折扣因子γ∈[0,1]用來確定當前回報和長期回報的重要程度;R(s,a)為在狀態(tài)s下執(zhí)行任務a的期望回報;P(s,a,s′)∈[0,1]表示傳感器節(jié)點執(zhí)行任務a后從狀態(tài)s轉(zhuǎn)移到下一狀態(tài)s′的概率。最優(yōu)策略π*(s)可表示如下:
π*(s)=argV*(s)
(3)
在R(s,a)和P(s,a,s′)未知的情況下,Q學習利用Q值迭代找到每個狀態(tài)s下的最優(yōu)策略π*(s)。在時刻t,節(jié)點i的Q值函數(shù)[9]定義如下:
(4)
(5)
(6)
2.1 協(xié)作機制
在CQ中,協(xié)作機制主要為傳感器節(jié)點在評估自身Q值時,需加權(quán)考慮鄰居節(jié)點集合的狀態(tài)值函數(shù),以此來平衡個體利益和群體利益。節(jié)點在每次調(diào)度任務后都會主動發(fā)送狀態(tài)值函數(shù)至鄰居節(jié)點集合,從而容易造成節(jié)點能量消耗過大、通信負載壓力過大等問題,不適合大規(guī)模部署的WSNs。
在多Agent強化學習中,協(xié)作學習可以通過TD誤差的比較,選擇合適的學習速度來實現(xiàn)[7]。(4)式中學習速度因子β可改寫為:
(7)
其中,0≤α1<α2≤1;coll(ij)為節(jié)點ij的協(xié)作節(jié)點集合;ecoll(ij)為coll(ij)中TD誤差大于節(jié)點ij的TD誤差δ的節(jié)點集合;Ncoll(ij)和Necoll(ij)均為集合數(shù)目。當Necoll(ij)≥Ncoll(ij)/2時,表示有半數(shù)以上的協(xié)作節(jié)點需要ij參與協(xié)作學習,ij選擇較小的α1來學習,否則ij選擇較大的α2來學習。
當節(jié)點ij的δ滿足Necoll(ij) (8) 其中,A′為除睡眠任務以外的任務集合;ra為任務a的正反饋;m為任務集合A′的數(shù)目。 Tnow-Trs>Texpired (9) 其中,Texpired為過期間隔。 當ij需要發(fā)送δ的當前時間Tnow和前一次發(fā)送δ的時間Trs滿足約束(9)式時,該δ可發(fā)送至ij的鄰居節(jié)點集合。此外,為進一步減小通信負載壓力,ij并不主動向鄰居節(jié)點ik發(fā)送協(xié)作取消通知,而是通過鄰居節(jié)點ik約束δ的有效期來取消協(xié)作學習。當ik接收ij的δ時間Trs與ik的當前時間Tnow滿足過期約束(9)式時,ij的δ過期,ik將不考慮ij的δ進行協(xié)作學習。 2.2 延遲回報 延遲回報表示任務執(zhí)行后的反饋,是任務執(zhí)行效果的獎懲值。節(jié)點i在時刻t執(zhí)行任務后,t+1時刻獲得的延遲回報定義如下: (10) 本文采用適應性判定[3]對任務執(zhí)行的條件進行控制,如處理信息任務的適應性判定為接收隊列不為空。本文結(jié)合文獻[3],定義性能回報和適應性判定,具體見表1所列。 表1 性能回報和適應性判定 定義探測成功率為跟蹤目標任務執(zhí)行成功數(shù)目占跟蹤目標任務總數(shù)目的比例,接收成功率為接收信息任務執(zhí)行成功數(shù)目占接收信息任務總數(shù)目的比例。定義性能為探測成功率和接收成功率之和,單位性能為單位能量消耗下獲得的性能。定義平均回報為過去時刻節(jié)點獲得的延遲回報均值。 2.3 狀態(tài)空間 (11) 2.4 探索和利用策略 學習型調(diào)度算法[3,5]使用ε-greedy方法建立探索和利用策略,始終以探索概率ε選擇隨機任務,以利用概率1-ε選擇最優(yōu)任務。然而在學習前期,調(diào)度算法以利用概率1-ε調(diào)度最優(yōu)任務,使得節(jié)點仍有較大概率不能充分調(diào)度隨機任務。本文結(jié)合ε-greedy方法和Metropolis準則確定節(jié)點的探索概率[10],具體定義如下: (12) 其中,εp為根據(jù)Metropolis準則確定的探索概率;ar為選擇的隨機任務;ap為對應Q值最大的最優(yōu)任務;T為溫度控制參數(shù);εg為根據(jù)ε-greedy方法確定的探索概率;μ∈[0,1]是常量;ns,max為狀態(tài)集合的數(shù)目;ns,t為在時刻t已觀察的狀態(tài)數(shù)目;εmin表示探索概率下限,可使調(diào)度算法保持較小概率繼續(xù)探索,突破經(jīng)驗的束縛;εt取εp和εg的較大值作為最終的探索概率。 在學習前期,T較大,而[Q(s,ar)-Q(s,ap)]始終為非正數(shù),使得εp接近于1,εt取εp;在學習后期,T趨近于0使得εp趨近于0,ns,t逐漸增大使得εg逐漸變?yōu)棣舖in,故εt取εg。通過εt取εp和εg的較大值,可保證調(diào)度算法在學習前期以接近1的概率εp接受隨機任務來充分探索,學習后期以較小的概率εg接受隨機任務來保持探索。退火策略采用等比下降策略[10],計算公式如下: T(t)=λtT0 (13) 其中,λ∈(0,1)為系數(shù);T0為初始溫度控制參數(shù)。為使得調(diào)度算法在學習前期可以進行足夠多的探索,系數(shù)λ取較大值。 2.5 算法描述 根據(jù)以上分析,本文建立了動態(tài)任務調(diào)度算法,具體步驟如下: (1) 初始化Q(s,a),T0等。 (2) 初始化節(jié)點i與鄰居節(jié)點集合的方向。 在步驟(3)~步驟(9)中,步驟(4)、步驟(8)的時間復雜度為O(m),m為動作集合的數(shù)目。步驟(7)、步驟(9)的最壞時間復雜度為O(n),n為鄰居節(jié)點集合的數(shù)目。由于m、n可在初始化時確定,因此QT算法每次任務調(diào)度的時間復雜度為O(1)。 本文在NS3網(wǎng)絡模擬器中編寫C++仿真程序進行2組實驗。第1組實驗詳細分析2個節(jié)點在QT下的任務調(diào)度情況,第2組實驗將QT與隨機算法[3]、靜態(tài)算法[3]、IQ[3]、CQ[4]、IS[5]進行分析比較,其中隨機算法和靜態(tài)算法為傳統(tǒng)調(diào)度算法, IS為SARSA學習型調(diào)度算法,QT、IQ和 CQ為Q學習型調(diào)度算法。節(jié)點發(fā)送lbit數(shù)據(jù)的能量消耗[11]為: ETx(l,d)=lEelec+lξampd2 (14) 其中,l為數(shù)據(jù)包大小;d為發(fā)送距離;Eelec和ξamp由能量消耗模型決定。一般Eelec為50 nJ/bit,ξamp為10 pJ/(bit·m2)。節(jié)點接收lbit數(shù)據(jù)的能量消耗[11]為: ERx(l)=lEelec (15) WSNs參數(shù)設置如下:tsleep為0.5 s,r為5 m,c為15 m,協(xié)作信息大小為5 Byte,探測包為24 Byte,計算模塊每次執(zhí)行任務的能量消耗為0.5 μJ,探測模塊每次跟蹤目標的能量消耗為1 μJ。 結(jié)合文獻[3],算法參數(shù)設置如下:rsleep=0.001,rtrack=0.05,rsend=0.1,rreceive=0.2,rprocess=0.05,γ=0.5,α1=0.05,α2=0.2,w1=-0.1,w2=1,εmin=0.1,μ=0.2,T0=500,λ=0.9,Δθ=20°,ΔT=2 s,Texpired=2 s。在其他學習型調(diào)度算法中,β取α2。 第1組實驗網(wǎng)絡示意圖如圖2所示。設置節(jié)點A坐標為(6,5),B坐標為(17,5),A的下一跳為B,B的下一跳為基站。A和B在探測半徑r內(nèi)跟蹤移動目標M。M初始坐標為(0,7),以1 m/s速度水平向右移動,25 s后回初始位置再次水平向右移動。仿真時間設置為50 s。 圖2 網(wǎng)絡示意圖 第1組實驗下節(jié)點A和B的任務執(zhí)行數(shù)曲線如圖3所示。 圖3 不同節(jié)點任務執(zhí)行數(shù)曲線 分析圖3可知,除睡眠任務外,執(zhí)行其他任務成功時,由于正反饋較大,這些任務的調(diào)度容易從較小概率的探索轉(zhuǎn)變?yōu)橐暂^大概率的利用,對應任務執(zhí)行數(shù)會明顯上升。M在2~11 s進入A的監(jiān)測區(qū)域時,A處于學習前期,以較大概率探索隨機任務,任務執(zhí)行數(shù)上升不明顯;而在27~36 s,A以較小概率探索跟蹤目標任務獲得正反饋后轉(zhuǎn)變?yōu)橐暂^大概率利用,其任務執(zhí)行數(shù)上升較快;M的移動方向與A的鄰居節(jié)點B方向最一致,A的探測包發(fā)送至B處理,故A的發(fā)送信息任務執(zhí)行數(shù)上升較快;A始終不接收節(jié)點B的探測包,使其處理信息任務的適應性判定始終為假。在13~22 s和38~47 s,M進入B的監(jiān)測區(qū)域,任務執(zhí)行數(shù)趨勢同27~36 s的A。在33~36 s,B接收和處理A發(fā)送的探測包,并發(fā)送至基站,故B的接收、處理、發(fā)送信息任務執(zhí)行數(shù)都上升較快。綜上可知,QT具備根據(jù)當前環(huán)境進行動態(tài)調(diào)度任務的能力。 第2組實驗先將50個節(jié)點隨機地部署在120 m×120 m的地域上,基站固定在(0,0)上。以基站為初始位置,采用Prim算法確定各節(jié)點的下一跳,2個移動目標以1 m/s速度在該地域隨機游走,仿真時間設為300 s。實驗結(jié)果為所有節(jié)點的實驗結(jié)果平均值。第2組實驗仿真結(jié)束后所有節(jié)點的任務比例平均值和各指標結(jié)果平均值分別見表2各指標、表3所列。 Q學習型調(diào)度算法下節(jié)點的睡眠任務比例、探測成功率和接收成功率較高,具備何時睡眠和工作的學習能力,而非Q學習型調(diào)度算法下節(jié)點不具備動態(tài)調(diào)度任務能力。CQ的接收成功率高達88%,是因為每次調(diào)度任務后鄰居節(jié)點集合都會向節(jié)點發(fā)送狀態(tài)值函數(shù),使得接收任務調(diào)度的頻度和成功率都很高。相比CQ,QT的探測成功率、接收成功率和性能雖不是最優(yōu),但是消耗較小的能量獲得較好的單位性能,使協(xié)作學習消耗的能量在可接受范圍內(nèi)。相比IQ和IS、QT的性能較高表明QT下節(jié)點獲得更好的智能表現(xiàn)。QT的平均回報較高表明QT的任務執(zhí)行成功趨勢較高,學習效果較好。 表2 任務比例平均值 表3 各指標結(jié)果平均值 第2組實驗下所有節(jié)點的平均能量消耗曲線如圖4所示。 圖4 平均能量消耗曲線 CQ由于使得節(jié)點每次調(diào)度任務后均向鄰居節(jié)點集合發(fā)送值函數(shù),其能量消耗最大,上升較快,不適合大規(guī)模部署的WSNs。QT由于使得節(jié)點協(xié)作學習,其能量消耗的上升趨勢略高于IQ,但是相比CQ,QT的能量消耗在可接受范圍內(nèi)。 第2組實驗中Q學習型調(diào)度算法下所有節(jié)點的平均回報曲線如圖5所示。 圖5 Q學習型調(diào)度算法的平均回報曲線 由表3可知,非Q學習型調(diào)度算法平均回報小于-0.024,而Q學習型調(diào)度算法的平均回報變化較一致,呈上升趨勢。在學習后期,QT的平均回報高于IQ和CQ,表明QT在概率意義上使有利于節(jié)點學習的任務被調(diào)度的趨勢加強,使不利于節(jié)點學習的任務被調(diào)度的趨勢減小。 針對CQ合作學習時存在頻繁通信的問題,本文提出一種基于Q學習和TD誤差(QT)的傳感器節(jié)點任務調(diào)度算法。具體包括建立目標跟蹤應用的任務模型,建立鄰居節(jié)點間的協(xié)作機制,定義延遲回報、狀態(tài)空間等基本學習元素。實驗結(jié)果表明:QT具備根據(jù)當前環(huán)境進行動態(tài)調(diào)度任務的能力;相比其他任務調(diào)度算法,QT的能量消耗適中、應用性能良好,可以提高節(jié)點的能源利用率。 [1] 王文光,劉士興,謝武軍.無線傳感器網(wǎng)絡概述[J].合肥工業(yè)大學學報(自然科學版),2010,33(9):1416-1419. [2] KO J G,KLUES K,RICHTER C,et al.Low power or high performance? a tradeoff whose time has come (and nearly gone)[M]//Wireless Sensor Networks.Berlin Heidelberg: Springer-Verlag,2012:98-114. [3] SHAH K,KUMAR M.Distributed independent reinforcement learning (DIRL) approach to resource management in wireless sensor networks[C]//IEEE Internatonal Conference on Mobile Adhoc and Sensor Systems.[S.l.:s.n.],2007:1-9. [4] KHAN M I,RINNER B.Resource coordination in wireless sensor networks by cooperative reinforcement learning[C]//IEEE International Conference on Pervasive Computing and Communications Workshops.[S.l.:s.n.],2012:895-900. [5] KHAN M I,RINNER B.Performance analysis of resource-aware task scheduling methods in Wireless Sensor Networks[J].International Journal of Distributed Sensor Networks,2014,2014:765182-1-765182-11. [6] 魏振春,徐祥偉,馮琳,等.基于Q學習和規(guī)劃的傳感器節(jié)點任務調(diào)度算法[J].模式識別與人工智能,2016,29(11):1028-1036. [7] MATIGNON L,LAURENT G J,FORT-PIAT N L.Hysteretic Q-learning: an algorithm for decentralized reinforcement learning in cooperative multi-agent teams[C]//IEEE International Conference on Intelligent Robots and Systems.[S.l.:s.n.],2007:64-69. [8] FASOLO E,ROSSI M,WIDMER J,et al.In-network aggregation techniques for wireless sensor networks: a survey[J].Wireless Communications IEEE,2007,14(2):70-87. [9] 王雪松,朱美強,程玉虎.強化學習原理及其應用[M].北京:科學出版社,2014:41-59. [10] GUO Maozu,LIU Yang,MALEC J.A new Q-learning algorithm based on the Metropolis Criterion[J].IEEE Transactions on Systems Man & Cybernetics,2004,34(5):2140-2143. [11] DENG J,HAN Y S,HEINZELMAN W B,et al.Scheduling sleeping nodes in high density cluster-based sensor networks[J].Mobile Networks & Applications,2005,10(6):825-835. (責任編輯 閆杏麗) A Q-learning and TD error based task scheduling algorithm for sensor nodes XU Xiangwei, WEI Zhenchun, FENG Lin, ZHANG Yan (School of Computer and Information, Hefei University of Technology, Hefei 230009, China) In order to solve the problems like frequent communication and large energy consumption in existing cooperative learning algorithms, a Q-learning and TD error(QT) based task scheduling algorithm for sensor nodes is proposed with the task model of target tracking applications. Specifically, the task scheduling problem for sensor nodes is mapped to the learning problem solved by the Q-learning, and the collaboration mechanism between neighbour nodes is established. QT also defines some basic learning elements such as delayed reward and state space. The collaboration mechanism based on individual and group TD errors can allow each sensor node to balance its own interests and the group interests by changing learning speed dynamically. Moreover, QT increases the exploration probability of early learning stage based on Metropolis criterion to optimize the task selecting process. The experimental results show that QT has the ability to schedule its tasks dynamically according to current environments, and compared with other task scheduling algorithms, QT improves the unit performance by 17.26% with reasonable energy consumption. wireless sensor networks(WSNs); sensor node; task scheduling; Q-learning; TD error; collaboration mechanism 2016-01-21; 2016-03-29 國家自然科學基金資助項目(61370088;61502142);國家國際科技合作專項資助項目(2014DFB10060) 徐祥偉(1990-),男,江蘇鹽都人,合肥工業(yè)大學碩士生; 魏振春(1978-),男,寧夏青銅峽人,博士,合肥工業(yè)大學副教授,碩士生導師. 10.3969/j.issn.1003-5060.2017.04.008 TP393 A 1003-5060(2017)04-0470-073 仿真分析
4 結(jié) 論