顧文靜 李 娟 張新諾
(國家氣象信息中心高性能計(jì)算室 北京 100081)
隨著氣象業(yè)務(wù)的快速發(fā)展,中國氣象局業(yè)務(wù)模式已經(jīng)蘊(yùn)含了天氣、氣候、人工影響天氣和公共服務(wù)模式等四個(gè)主要部分。其中天氣模式包含GRAPES集合預(yù)報(bào)、GRAPES全球預(yù)報(bào)、臺(tái)風(fēng)和海浪預(yù)報(bào),以及核應(yīng)急模式和睿圖-STv2.0系統(tǒng)等;氣候模式包含月動(dòng)力延伸預(yù)測、季節(jié)氣候預(yù)測、大氣污染潛勢氣候預(yù)測、東亞重要環(huán)流型預(yù)測和厄爾尼諾/拉尼娜監(jiān)測診斷預(yù)測等;人工影響天氣模式包含CPEFS和GRAPES_CAMS;公共服務(wù)模式包含全國風(fēng)能太陽能預(yù)報(bào)、近海海上預(yù)報(bào)和RMAPS_Wind系統(tǒng)等。
2018年4月,中國氣象局派-曙光高性能計(jì)算機(jī)系統(tǒng)正式提供給用戶使用,派-曙光高性能高性能計(jì)算機(jī)系統(tǒng)分為兩個(gè)子系統(tǒng)(業(yè)務(wù)和科研),每個(gè)子系統(tǒng)計(jì)算性能4 004.25 TFLOPS,存儲(chǔ)物理容量23 088 TB。2019年8月,氣象業(yè)務(wù)模式基本完成移植工作,派-曙光系統(tǒng)資源使用量隨之增長,業(yè)務(wù)子系統(tǒng)CPU使用率超過60%,科研子系統(tǒng)CPU使用率高達(dá)80%,存儲(chǔ)資源使用率近70%。如此規(guī)模的高性能計(jì)算機(jī)系統(tǒng)上線僅一年,資源使用量約三分之二,業(yè)務(wù)應(yīng)用的運(yùn)行特征分析變得至關(guān)重要。建立應(yīng)用軟件的運(yùn)行特征是對業(yè)務(wù)模式分析的最有效手段。
GRAPES_GFS系統(tǒng)的核心部分是模式動(dòng)力框架和物理過程,是一類非常具有典型性的科學(xué)計(jì)算類應(yīng)用;整個(gè)過程不僅涉及密集的計(jì)算,同時(shí)伴隨大量的網(wǎng)絡(luò)操作,應(yīng)用運(yùn)行特征復(fù)雜。GRAPES_GFS是目前發(fā)展較為完善的業(yè)務(wù)模式,本文將以該模式作為分析對象,從資源使用情況和運(yùn)行特征進(jìn)行分析并提出優(yōu)化建議。
隨著時(shí)間的變化,在特定的負(fù)載環(huán)境和特定的測試方法下,對業(yè)務(wù)模式運(yùn)行時(shí)硬件各類資源的消耗情況即為該應(yīng)用運(yùn)行特征。采用一種應(yīng)用運(yùn)行特征的快速分析架構(gòu),從系統(tǒng)級、應(yīng)用級和微架構(gòu)級綜合出發(fā),應(yīng)用Paramon和Paratune軟件采集真實(shí)、準(zhǔn)確的性能指標(biāo)數(shù)據(jù),憑借這些指標(biāo)數(shù)據(jù)完整呈現(xiàn)應(yīng)用程序的基本運(yùn)行特征[1]。
系統(tǒng)級的指標(biāo)考慮CPU、內(nèi)存和磁盤網(wǎng)絡(luò)共計(jì)9種特征指標(biāo)。其中:CPU%為CPU總利用率,衡量CPU資源的使用情況,CPU SYS %為CPU系統(tǒng)開銷利用率,衡量CPU資源中系統(tǒng)開銷的比例,二者反映出當(dāng)前應(yīng)用在CPU資源上的運(yùn)行特征,Memory%為內(nèi)存利用率,對應(yīng)用程序的性能影響很大,MemBW(GB/s)為內(nèi)存帶寬,連接CPU與內(nèi)存之間的橋梁,決定了內(nèi)存數(shù)據(jù)訪問的速度,SWAP%為交換分區(qū)利用率,在物理內(nèi)存用盡后,將磁盤空間虛擬成內(nèi)存來使用,應(yīng)用程序在用盡內(nèi)存后,使用SWAP分區(qū)后,應(yīng)用程序的性能一定會(huì)降低,三者可以反映出當(dāng)前應(yīng)用在內(nèi)存資源上的運(yùn)行特征,Disk Read(MB/s)為磁盤讀速率(磁盤讀帶寬),Disk Write (MB/s)為磁盤寫速率(磁盤寫帶寬),IB Send (MB/s)為IB網(wǎng)發(fā)送速率,IB Recv (MB/s)為IB網(wǎng)接收速率,派-曙光系統(tǒng)InfiniBand網(wǎng)絡(luò)雙向100 GB/s,四者衡量應(yīng)用在磁盤和網(wǎng)絡(luò)上的運(yùn)行特征標(biāo)準(zhǔn)為速率,即磁盤讀寫速率以及網(wǎng)絡(luò)收發(fā)速率[1]。
微架構(gòu)級指標(biāo)考慮浮點(diǎn)計(jì)算、向量化比例、指令執(zhí)行效率等5類特征指數(shù)。其中GFLOPS的峰值與節(jié)點(diǎn)CPU主頻和核數(shù)有關(guān),派-曙光系統(tǒng)每個(gè)計(jì)算節(jié)點(diǎn)包含2個(gè)Intel Xeon Gold 6142處理器,每個(gè)處理器主頻2.6 GHz,浮點(diǎn)運(yùn)算2 662.4 GFLOPS。VEC%和AVX%為向量化比例,實(shí)現(xiàn)單指令流多數(shù)據(jù)流SIMD,向量化是CPU峰值計(jì)算的倍數(shù)因子,對應(yīng)用程序性能影響很大,向量化指令需要根據(jù)應(yīng)用的邏輯,取值范圍為0%~100%。CPI(Cycles Per Instruction)表示每條指令平均時(shí)鐘周期數(shù)。GIPS為單位時(shí)間內(nèi)的指令總數(shù),統(tǒng)計(jì)每秒鐘執(zhí)行的指令總數(shù)。CPI越小或GIPS越高,表示指令執(zhí)行效率越高。LLCM%為Cache Miss的百分比,在Cache 內(nèi)存和物理盤中Cache是CPU讀寫速度最快的,Cache miss表示CPU在Cache中找不到需要讀取的頁。Cache miss會(huì)導(dǎo)致CPU花費(fèi)更多的時(shí)間在查找和讀取以及內(nèi)存替換上,降低了CPU的性能[1]。
全球區(qū)域一體化同化預(yù)報(bào)系統(tǒng)GRAPES(Global/Regional Assimilation and Prediction System)是在科學(xué)技術(shù)部和中國氣象局支持下我國自主研發(fā)的數(shù)值預(yù)報(bào)系統(tǒng),該系統(tǒng)是氣象與氣候研究的基礎(chǔ)和核心。在“十一五”科技支撐計(jì)劃的支持下建立了GRAPES全球同化預(yù)報(bào)系統(tǒng)試驗(yàn)版,2007年面向業(yè)務(wù)應(yīng)用,開始系統(tǒng)的建設(shè)和優(yōu)化全球數(shù)值預(yù)報(bào)系統(tǒng)GRAPES_GFS(GEAPES Global Forecast System)[2]。
隨著多核計(jì)算技術(shù)的發(fā)展,基于多核處理器的集群系統(tǒng)逐漸成為主流架構(gòu),為了滿足GRAPES計(jì)算和時(shí)效需求,研發(fā)部門對GRAPES全球模式進(jìn)行MPI與OpenMP混合并行方案設(shè)計(jì)和優(yōu)化。2018年至2019年GRAPES_GFS由IBM系統(tǒng)遷移到派-曙光系統(tǒng)上,同化方面實(shí)現(xiàn)了從三維變分(3DVar)到四維變分(4DVar)的改進(jìn),四維變分(4DVar)實(shí)現(xiàn)了高低分辨率內(nèi)外循環(huán)、多重外循環(huán)和高低分辨率之間的插值精度,優(yōu)化線性化物理過程使之發(fā)揮作用,有效使用衛(wèi)星等多時(shí)次連續(xù)觀測資料,優(yōu)化計(jì)算效率,保障業(yè)務(wù)運(yùn)行的時(shí)效[2]。
目前,GRAPES_GFS_V2.4正式業(yè)務(wù)運(yùn)行,每天運(yùn)行四個(gè)時(shí)次,分別是世界標(biāo)準(zhǔn)時(shí)00時(shí)次(03:40UTC)、06時(shí)次(09:40UTC)、12時(shí)次(15:40UTC)和18時(shí)次(21:40UTC),業(yè)務(wù)系統(tǒng)包含數(shù)據(jù)檢索及處理、臺(tái)風(fēng)渦旋初始化、同化處理、模式積分、數(shù)據(jù)后處理和數(shù)據(jù)備份等模塊,其中同化內(nèi)外循環(huán)(4DVar)和模式積分(fcst)是GRAPES_GFS主要的并行應(yīng)用模塊,本文以此為研究對象進(jìn)行并行應(yīng)用特征分析。
(1) 算例描述和運(yùn)行環(huán)境。當(dāng)GRAPES_GFS模式在曙光高性能計(jì)算機(jī)系統(tǒng)上運(yùn)行時(shí),收集整個(gè)過程的應(yīng)用運(yùn)行數(shù)據(jù),然后對性能指標(biāo)數(shù)據(jù)進(jìn)行分析。
4DVar使用0.25°/1.0°(外循環(huán)/內(nèi)循環(huán))分辨率算例。模式積分(fcst)使用0.25°算例。00時(shí)次和12時(shí)次預(yù)報(bào)240小時(shí),06時(shí)次和18時(shí)次預(yù)報(bào)120小時(shí),前120小時(shí)3小時(shí)輸出一次模式面變量modvar,后120小時(shí)6小時(shí)輸出一次modvar。4DVar模塊使用1 024進(jìn)程,fcst模塊使用4 096進(jìn)程。
運(yùn)行環(huán)境是中國氣象局派-曙光高性能計(jì)算系統(tǒng)。操作系統(tǒng)是Red Hat Enterprise Linux Server release 7.4,配置2路32核Intel Xeon Gold處理器,浮點(diǎn)運(yùn)算能力為2 662.4 GFLOPS、12通路DDR4 2666的內(nèi)存(192 GB/384 GB)和雙向100 GB/s 的InfiniBand 網(wǎng)絡(luò)。
(2) 運(yùn)行特征指標(biāo)分析。對GRAPES_GFS同化內(nèi)外循環(huán)(4DVar)模塊和模式積分(fcst)的各類指標(biāo)情況匯總?cè)绫?和表2所示。
表1 GRAPES_GFS系統(tǒng)級性能指標(biāo)表
表2 GRAPES_GFS微架構(gòu)性能指標(biāo)表
CPU使用效率接近100%,系統(tǒng)開銷比例較小,因此CPU絕大部分時(shí)間在處理用戶程序,說明GRAPES_GFS是計(jì)算密集型的應(yīng)用程序;LLCM%在60%左右,一定程度上影響了CPU性能。
Gflops%和VEC%值偏低,說明浮點(diǎn)計(jì)算運(yùn)算效率偏低,沒有充分利用CPU浮點(diǎn)計(jì)算部件。AVX%峰值基本為0%,派-曙光系統(tǒng)支持AVX指令,可以通過向量化提高程序性能。CPI方面,4DVar優(yōu)于fcst模塊,但指令執(zhí)行效率仍有待提升。
整個(gè)計(jì)算過程持續(xù)有網(wǎng)絡(luò)數(shù)據(jù)的收發(fā),數(shù)據(jù)收發(fā)是通過派-曙光系統(tǒng)InfiniBand網(wǎng)絡(luò)完成的,通信傳輸率方面,二者均達(dá)到500 MB/s以上,但相較派-曙光系統(tǒng)100 GB/s網(wǎng)絡(luò)帶寬,仍有可優(yōu)化空間。
內(nèi)存使用量僅為峰值的1/3~1/2,說明當(dāng)前計(jì)算規(guī)模下,每個(gè)進(jìn)程的邏輯計(jì)算較少。4DVar模塊使用虛擬內(nèi)存(SWAP%),會(huì)影響應(yīng)用性能。
(3) F/M和F/C分析。除直接獲取的特征數(shù)據(jù)外,也可以通過計(jì)算獲得一些指標(biāo)數(shù)據(jù),如F/M、F/C等。F/M,即GFLOPS與Memory BandWidth的比值,每字節(jié)內(nèi)存讀寫操作對應(yīng)的浮點(diǎn)計(jì)算能力,可以精確定位應(yīng)用是否為內(nèi)存帶寬敏感型應(yīng)用;F/C,即GFLOPS與網(wǎng)絡(luò)通信的比值,每字節(jié)網(wǎng)絡(luò)操作對應(yīng)的浮點(diǎn)計(jì)算操作,可以精確定位應(yīng)用是否為網(wǎng)絡(luò)帶寬敏感型應(yīng)用。其他比值操作類似。
通過這些性能指標(biāo)提供的數(shù)據(jù),詳細(xì)了解應(yīng)用程序在運(yùn)行過程中對各類節(jié)點(diǎn)上處理器、內(nèi)存、網(wǎng)絡(luò)和存儲(chǔ)的依賴情況,快速地建立應(yīng)用的運(yùn)行特征[3-4]。
通過收集到的定量數(shù)據(jù)可知,4DVar和fcst模塊的F/M和F/C數(shù)值如表3所示,F(xiàn)/M、F/C的結(jié)果越小表示對CPU之外的系統(tǒng)資源的依賴越明顯。
表3 F/M和F/C數(shù)值表
(4) 運(yùn)行特征圖分析。GRAPES_GFS模式4DVar和fcst模塊運(yùn)行特征如圖1和圖2所示?;胤鸥鱾€(gè)指標(biāo)的任意歷史時(shí)段的瞬時(shí)信息,CPU、內(nèi)存利用率在運(yùn)行過程中平穩(wěn),各進(jìn)程間運(yùn)行特征相似,運(yùn)行過程階段性強(qiáng)。各進(jìn)程間運(yùn)行特征有細(xì)微差別,說明負(fù)載比較均衡。
圖1 4DVar運(yùn)行特征
圖2 fcst運(yùn)行特征
應(yīng)用Intel itac工具收集GRAPES_GFS運(yùn)行中邏輯處理函數(shù)和通信函數(shù)信息,并用Intel VTune分析各通信函數(shù)中計(jì)算執(zhí)行效率較低和CPU等待時(shí)間(Spin Time)較長的邏輯熱點(diǎn)。Spin Time是CPU busy的等待時(shí)間,當(dāng)同步API導(dǎo)致CPU輪詢,而軟件線程正在等待時(shí),通常會(huì)發(fā)生這種情況。由于實(shí)驗(yàn)資源有限,本文僅以GRAPES_GFS的fcst模塊為分析對象,計(jì)算規(guī)模選擇512進(jìn)程,函數(shù)各進(jìn)程數(shù)據(jù)分析如下。
(1) 通信函數(shù)分析。根據(jù) itac采集數(shù)據(jù),fcst模塊邏輯處理時(shí)間占比為58%,MPI通信時(shí)間占比42%。MPI通信中以MPI_Sendrecv、MPI_Allreduce操作居多(見圖3),涉及全局范圍的同步操作。
圖3 各熱點(diǎn)函數(shù)耗時(shí)比例
對通信函數(shù)各進(jìn)程耗時(shí)的統(tǒng)計(jì)結(jié)果如圖4所示。① MPI通信函數(shù)MPI_Sendrecv、MPI_Allreduce占比最高。② MPI_Sendrecv函數(shù)0-18進(jìn)程段的計(jì)算耗時(shí)明顯偏低,其他進(jìn)程段通信函數(shù)耗時(shí)呈現(xiàn)波浪狀周期性變化,波動(dòng)約15%,負(fù)載均衡需要微調(diào)。③ 其他通信函數(shù)各進(jìn)程周期性波動(dòng)較小。
圖4 fcst各進(jìn)程間通信函數(shù)耗時(shí)變化
(2) 邏輯熱點(diǎn)分析。根據(jù)VTune采集數(shù)據(jù),MPI_Sendrecv通信函數(shù)中Spin Time最長的邏輯熱點(diǎn)主要集中在module_model_parallel_mp_glob_Updatehalo,占比達(dá)24.6%。分析結(jié)果如圖5所示,其中多個(gè)數(shù)組元素更新操作,操作熱點(diǎn)分散,條件判斷操作居多,計(jì)算過程中基本為內(nèi)存訪問,訪存方式為連續(xù)和跨步訪存,導(dǎo)致Spin Time時(shí)間較多,對應(yīng)用程序性能和可伸縮性產(chǎn)生負(fù)面影響。
圖5 熱點(diǎn)函數(shù)分析
MPI_Allreduce函數(shù)的計(jì)算效率較低的程序邏輯熱點(diǎn)主要集中在module_gcr_mp_psolve_gcr_main,psolve_gcr_main調(diào)用的matrixpro函數(shù)源碼如下,該函數(shù)循環(huán)邏輯復(fù)雜,編譯器未能進(jìn)行向量化。
DO j=jbegin,jend
DO k=kts,kte
DO i=ibegin,iend
c(i,k,j) = &+
a(1,i,k,j)*b(i,k,j) &+
a(2,i,k,j)*b(i-1,k,j) &+
a(3,i,k,j)*b(i+1,k,j) &+
a(4,i,k,j)*b(i,k,j-1) &+
a(5,i,k,j)*b(i,k,j+1) &+
a(6,i,k,j)*b(i+1,k,j+1) &+
a(7,i,k,j)*b(i+1,k,j-1) &+
a(8,i,k,j)*b(i-1,k,j-1) &+
a(9,i,k,j)*b(i-1,k,j+1) &+
a(10,i,k,j)*b(i,k-1,j) &+
a(11,i,k,j)*b(i-1,k-1,j) &+
a(12,i,k,j)*b(i+1,k-1,j) &+
a(13,i,k,j)*b(i,k-1,j-1) &+
a(14,i,k,j)*b(i,k-1,j+1) &+
a(15,i,k,j)*b(i,k+1,j) &+
a(16,i,k,j)*b(i-1,k+1,j) &+
a(17,i,k,j)*b(i,k+1,j-1) &+
a(18,i,k,j)*b(i,k+1,j-1) &+
a(19,i,k,j)*b(i,k+1,j+1)+
END DO
END DO
END DO
不同進(jìn)程下運(yùn)行狀況比較可以測試應(yīng)用的可擴(kuò)展性,根據(jù)各項(xiàng)特征指標(biāo)變化趨勢選擇最適合計(jì)算的規(guī)模,提供模式業(yè)務(wù)化運(yùn)行。
(1) 4DVar模塊。同化分高低分辨率的內(nèi)外循環(huán),目前低分辨率的格點(diǎn)數(shù)少,分辨率使用0.1°算例,因此計(jì)算規(guī)模選擇512、1 024和2 048進(jìn)程測試。性能指標(biāo)如表4所示,隨著計(jì)算規(guī)模的增加,CPU和內(nèi)存利用率逐漸減少,在進(jìn)程規(guī)模較大時(shí),內(nèi)存使用率偏低,每個(gè)進(jìn)程的邏輯計(jì)算減少,說明在同等計(jì)算規(guī)模下,可以適當(dāng)?shù)丶哟笏憷?guī)模,進(jìn)行更大問題的計(jì)算;通信方面,計(jì)算期間無密集通信時(shí)間顯著增加(圖6),網(wǎng)絡(luò)通信速率(IB Send和IB Recv)在1 024進(jìn)程時(shí)達(dá)最大值。微架構(gòu)方面,各規(guī)模差異不大。各項(xiàng)指標(biāo)均衡考量,1 024進(jìn)程的規(guī)模比較適合4DVar模塊。
表4 不同進(jìn)程4DVar模塊性能指標(biāo)表
圖6 4DVar不同規(guī)模應(yīng)用運(yùn)行特征示例圖
(2) fcst模塊。fcst模塊使用0.25°算例,分辨率較高,故選擇1 024、2 048、4 096和8 192四種規(guī)模進(jìn)行比較測試,結(jié)果顯示fcst模塊相對4DVar模塊具有較好的可擴(kuò)展性。性能指標(biāo)如表5所示,隨著計(jì)算規(guī)模的增加,CPU和內(nèi)存利用率較為平穩(wěn);通信方面,運(yùn)行特征圖(圖7)顯示,隨著進(jìn)程數(shù)的增多,粒度變小,計(jì)算期間密集通信程度減弱,相較4DVar模塊,無密集通信網(wǎng)絡(luò)時(shí)間減少不明顯;通信速率(IB Send和IB Recv)隨進(jìn)程增加呈增長趨勢,到4 096進(jìn)程后銳減;內(nèi)存使用率均偏低,未飽和,且與計(jì)算規(guī)模關(guān)聯(lián)較??;微架構(gòu)級指標(biāo)方面,8 192規(guī)模浮點(diǎn)計(jì)算能力降低,向量化比例和代碼執(zhí)行效率增加,Cache miss對CPU性能影響降低。綜合各項(xiàng)指標(biāo),4 096進(jìn)程的規(guī)模優(yōu)勢明顯。
表5 不同進(jìn)程fcst模塊性能指標(biāo)表
圖7 fcst不同規(guī)模應(yīng)用運(yùn)行特征示例圖
通過對應(yīng)用特征和函數(shù)級分析,GRAPES_GFS模式CPU%比例較高,屬于計(jì)算密集性應(yīng)用。Cache miss比例高,一定程度上影響CPU性能。F/M、F/C值偏小,內(nèi)存帶寬和網(wǎng)絡(luò)通信依賴明顯。浮點(diǎn)計(jì)算運(yùn)算效率和向量化比例偏低,指令執(zhí)行效率不高。MPI通信負(fù)載比較均衡。MPI_Sendrecv、MPI_Allreduce等函數(shù)耗時(shí)較多。
代碼優(yōu)化是自上而下的,從系統(tǒng)到應(yīng)用再到處理器,可以通過串行和標(biāo)量、并行化、內(nèi)存訪問,以及向量化幾個(gè)方面優(yōu)化。
進(jìn)行向量化優(yōu)化。從應(yīng)用特征的向量化指標(biāo)值(VEC,AVX)可以看出應(yīng)用程序在該算例執(zhí)行過程中的向量化比率低,導(dǎo)致集群系統(tǒng)的浮點(diǎn)運(yùn)算效率低。因此需要通過對代碼的核心計(jì)算部分,深入分析數(shù)據(jù)操作的依賴關(guān)系,進(jìn)行向量化優(yōu)化,對于有規(guī)律的離散訪存,通過數(shù)組轉(zhuǎn)置方法將離散訪存轉(zhuǎn)換為連續(xù)訪存[5-7],以提高應(yīng)用程序整體的運(yùn)行性能。
降低Cache miss對性能的影響。在處理數(shù)據(jù)前,盡量使用連續(xù)數(shù)據(jù)。修改數(shù)據(jù)結(jié)構(gòu)或通過內(nèi)存拷貝,將非連續(xù)數(shù)據(jù)變成連續(xù)數(shù)據(jù)存儲(chǔ)。根據(jù)算法模型,調(diào)整數(shù)據(jù)結(jié)構(gòu),以降低Cache miss對性能的影響。
減少CPU等待時(shí)間。從VTune分析數(shù)據(jù)看出,MPI_Sendrecv通信函數(shù)中Spin Time最長的邏輯熱點(diǎn)的計(jì)算過程中基本為內(nèi)存訪問,訪存方式為連續(xù)和跨步訪存,導(dǎo)致Spin Time時(shí)間較多[8]??烧{(diào)整通信策略和拓?fù)浣Y(jié)構(gòu),降低通信時(shí)間。對于小的循環(huán),可以展開,或者使用臨時(shí)空間記錄重復(fù)使用的數(shù)據(jù)。
消除負(fù)載不均衡。從函數(shù)級分析可以看出,在整個(gè)運(yùn)行過程中,應(yīng)用代碼耗時(shí)在不同進(jìn)程間的占比有波動(dòng),說明GRAPES對該算例處理過程中有潛在的負(fù)載不均衡因素,需要結(jié)合代碼以及算例的處理邏輯,進(jìn)行深入的分析,通過負(fù)載均衡的改善,提高程序性能。
基于本文的應(yīng)用運(yùn)行特征分析方法,實(shí)現(xiàn)了對GRAPES_GFS模式主要并行模塊的快速分析,通過分析結(jié)果,精確定位了應(yīng)用的類型,完整地建立了應(yīng)用的運(yùn)行特征,定位應(yīng)用運(yùn)行瓶頸,找到應(yīng)用優(yōu)化的方向。本文方法不僅可以針對氣象類應(yīng)用,同樣適合其他行業(yè)的應(yīng)用運(yùn)行特征建立、應(yīng)用優(yōu)化,甚至機(jī)群方案設(shè)計(jì)。