王天一,姜金榮,遲學斌,張 賀,何卷雄,郝卉群
1(中國科學院 計算機網絡信息中心 高性能計算部,北京 100190)
2(中國科學院大學,北京 100049)
3(中國科學院 大氣物理研究所 國際氣候與環(huán)境科學中心,北京 100029)
隨著科技的進步,人類活動與地球環(huán)境的聯系越來越密切[1],逐步衍生出了全球氣候變化(global change science)這門新興學科[2].在早期的全球變化科學研究中,首先提出了氣候系統(tǒng)的概念.氣候系統(tǒng)主要以地球流體作為研究主體,主要研究大氣環(huán)流、海洋環(huán)流、陸地表層和海冰的物理過程,后來擴展到研究生態(tài)與環(huán)境系統(tǒng),形成了地球系統(tǒng)模式[3].世界上的各個國家和地區(qū)如中國、美國、英國、歐盟、日本等國家均已建立了各自的地球系統(tǒng)模式[4].
中科院地球系統(tǒng)模式CAS-ESM是中國科學院大氣物理研究所發(fā)展的、我國自主研發(fā)的地球系統(tǒng)模式,是進行地球科學研究的重要工具.CAS-ESM 2.0是中科院地球系統(tǒng)模式的最新版本,參加了第6 次國際耦合模式比較計劃(CMIP6)[5,6].
作為高性能計算應用軟件,地球系統(tǒng)模式的性能是制約其發(fā)展的重要因素之一.CAS-ESM 2.0 在CASESM 1.0 的基礎上在大氣分模式采用了新的自適應濾波與三維剖分并行計算算法,在高緯地區(qū)采用了跳點差分計算格式;在海洋分模式也采用了多種性能優(yōu)化手段,其可擴展性與計算效率比CAS-ESM 1.0 有了明顯的提升.因而有必要對CAS-ESM 2.0 進行性能評估和分析,發(fā)現其目前仍然存在的性能瓶頸,為后續(xù)的性能優(yōu)化工作提供理論支持和發(fā)展方向.
本文將CAS-ESM 2.0 分別部署在“元”和“地球系統(tǒng)數值模擬裝置”兩大高性能計算平臺上,分別開展耦合數值模擬試驗,避免性能測試結果受到平臺硬件與軟件環(huán)境的影響.然后對模擬結果進行評估,分析了CAS-ESM 2.0 的計算速度、可擴展性以及耦合數值模擬中各分模式的表現,找到了CAS-ESM 2.0 仍然存在的性能瓶頸.
CAS-ESM[7,8]是中國科學院大氣物理研究所(IAP)基于CESM 1.0[9]版本開發(fā)的.CAS-ESM是一個用于模擬地球氣候系統(tǒng)的耦合地球系統(tǒng)模式.圖1是地球系統(tǒng)模式CAS-ESM 2.0與各分模式的結構圖,CASESM 主要由7 個單獨的分模式組成,包括大氣、海洋、陸面、陸冰、海冰、大氣化學分模式和區(qū)域分模式.7 個單獨的分模式通過耦合器結合在一起[10,11].通過對編譯運行系統(tǒng)進行配置,建立和組裝可以模擬和運行的試驗.接下來將對CAS-ESM 2.0 所使用的耦合器與主要分模式進行簡要介紹.
圖1 CAS-ESM 2.0 及各分模式結構
耦合器是地球系統(tǒng)模式的關鍵組件之一.從圖1中可以看出,各分模式之間的數據交換主要通過耦合器來完成.由于各分模式模擬所需的數據類型、網格分辨率以及處理器劃分方式各不相同,因而在進行耦合數值模擬試驗時,需要通過耦合器來完成數據類型轉換、網格分辨率的映射以及處理器劃分的處理.
地球系統(tǒng)模式CAS-ESM 使用的耦合器是在CESM的CPL7 耦合器的基礎上發(fā)展起來的.美國NCAR 研發(fā)的CPL 耦合器主要應用于NCAR 提出的“共同氣候系統(tǒng)模式(Community Climate System Model,CCSM)”計劃中[12],隨著CCSM 系統(tǒng)的發(fā)展壯大,其成為了目前國際上應用最為廣泛的耦合器之一.在此基礎上,CASESM 對CPL7 進行了改進,自主研發(fā)了適用于大氣模式、區(qū)域模式與大氣化學模式的三維耦合算法[13].
耦合數值模擬試驗通過耦合器對各分模式進行統(tǒng)一調度和管理,根據各分模式的耦合頻次按時進行分模式之間的數據傳輸,從而可以模擬整個地球系統(tǒng)變化的復雜試驗.本文完成的耦合數值模擬試驗采用了目前應用最為廣泛的1850年工業(yè)革命前的初始場數據進行模擬,使用大氣模式AGCM、陸面模式CoLM、海洋模式LICOM和海冰模式CICE 進行耦合.本文將對這幾個分模式進行簡要介紹.
2.2.1 大氣模式IAP AGCM5
大氣模式IAP AGCM是中國科學院大氣物理研究所發(fā)展的大氣環(huán)流模式[14,15],CAS-ESM 2.0 使用的版本為IAP AGCM5.與IAP AGCM4 相比,IAP AGCM5對動力框架和并行計算進行了改進,采用了新的自適應濾波與三維剖分并行計算算法,在高緯地區(qū)采用了跳點差分計算格式;對物理過程參數化方案也做了大量工作,包括深對流參數化、淺對流參數化[16]、宏觀云物理過程參數化、微觀云物理過程參數化[17],重力波和湍流等.
2.2.2 海洋模式LICOM
海洋模式LICOM是中國科學院大氣物理研究所發(fā)展的海洋環(huán)流模式[18,19],CAS-ESM 2.0 使用的版本為LICOM2.0.在CAS-ESM 2.0 中,LICOM 在海氣通量交換物理過程上,提出了鹽度邊界條件[20].LICOM在國際上首次使用了實鹽通量,認為海鹽通量應是虛鹽通量和實鹽通量之和,且在虛鹽通量中考慮了淡水通量和海表鹽度的相關關系,替代了國際上常用的氣候態(tài)常數來表征海表鹽度.
2.2.3 陸面模式CoLM
陸面模式CoLM是北京師范大學發(fā)展的陸面模式[21].在CAS-ESM 2.0 中,CoLM 引入了多層土壤碳方案,可以更好地描述土壤碳的累積和分解效應.另外,基于風蝕物理過程,建立了新的起沙過程計算方案,更好地模擬了全球主要的沙塵分布帶.
2.2.4 海冰模式CICE
海冰模式CICE是美國國家大氣研究中心(NCAR)發(fā)展的海冰模式[22,23],CAS-ESM 2.0 使用的版本為CICE4.0.在CAS-ESM 2.0 中,對海冰表面反照率參數化方案及海冰模式輻射傳輸過程方案進行了完善,模擬結果顯示海冰在密度和厚度上都更接近觀測數據[24].
本文分別將CAS-ESM 部署在“元”高性能計算系統(tǒng)和“地球系統(tǒng)數值模擬裝置”原型系統(tǒng)兩個超級計算平臺進行數值模擬試驗.
中國科學院高性能計算系統(tǒng)“元”于2014年11月正式啟用,該計算系統(tǒng)目前已有 CPU 總共5400 核,共有270 臺曙光 CB60-G16 雙路刀片,整體峰值性能達120.96 Tflops,每臺刀片計算節(jié)點配置 2 顆 Intel E5-2680 V2 (Ivy Bridge|10C|2.8 GHz) 處理器,每顆處理器10 核,64/128 GB DDR3 ECC 1866 MHz 內存,擁有總容量 1.486 PB,可用容量為1.189 PB 的高性能工作區(qū)存儲系統(tǒng).其計算存儲網絡采用FDR InifiBand 全線速互聯,每顆處理器的網絡帶寬為56 GB.
“地球系統(tǒng)數值模擬裝置”是峰值計算能力位于國際前列的地球系統(tǒng)數值模擬的專用裝置,在體系結構、計算密度、存儲架構、能效比等各方面均處于目前國內領先水平.其原型系統(tǒng)目前擁有600 臺計算節(jié)點,整體峰值浮點性能達到1.8 Pflops,每臺計算節(jié)點配備2 顆我國自主研發(fā)的Hygon 處理器,每顆處理器32 核心,主頻2 GHz.每臺計算節(jié)點配備256 GB DDR4 2666 內存.其計算存儲網絡采用Intel OPA 專用計算網絡方案,每顆處理器的網絡帶寬為100 GB.
地球系統(tǒng)模式CAS-ESM是進行氣候數值模擬和預測的高性能計算軟件系統(tǒng).其模擬結果容易受到計算環(huán)境和平臺的影響,因而我們分別在高性能計算系統(tǒng)“元”和“地球系統(tǒng)數值模擬裝置”原型系統(tǒng)兩個高性能計算平臺進行數值模擬試驗,測試其計算速度、并行效率、可擴展性等性能指標,同時相同核數的模擬試驗測試5 次,取模擬時間的最小值,以消除計算環(huán)境和平臺的影響.
我們首先在高性能計算系統(tǒng)“元”上進行了地球系統(tǒng)模式CAS-ESM 的耦合數值模擬試驗,大氣模式使用AGCM4.2,陸面模式使用CoLM,海洋模式使用LICOM,海冰模式使用CICE,其中AGCM和CoLM 的網格分辨率為1.4 度,LICOM和CICE 的網格分辨率為1 度,模擬時間為1 模式月(31 模式天),分別使用16 核、32 核、64 核、128 核、256 核、512 核、1024開展模擬試驗.
然后我們將CAS-ESM 移植到“地球系統(tǒng)數值模擬裝置”原型系統(tǒng),進行跨平臺的耦合數值模擬試驗,其他試驗設置與“元”上的模擬試驗完全一致.
按照前文中所述的試驗設置,我們在高性能計算系統(tǒng)“元”上開展了CAS-ESM 的耦合數值模擬試驗.圖2為運行時間隨核數變化圖.從圖2中可以看出,隨著核數的增加,CAS-ESM 耦合數值模擬試驗的運行時間逐步減少,到1024 核為止具有比較好的可擴展性,需要進行更大規(guī)模的試驗進一步驗證.但目前受限于CAS-ESM 2.0 分模式的并行算法設計與本文試驗的計算規(guī)模,還無法使用2048 核進行耦合試驗.然后我們將運行時間換算為地球系統(tǒng)中常用的模擬速度,得到圖3的結果.從圖3中可以看出,隨著核數的增加,CAS-ESM 耦合數值模擬速度不斷加快,至1024 核能達到15.8 模式年/天,且模擬速度仍然呈加速趨勢.對于本文使用的模式分辨率以及耦合數值模擬試驗來說,15.8 模式年/天的模擬速度已經可以滿足這類試驗與研究問題的要求.
圖2 在“元”上的運行時間隨核數變化圖
圖3 CAS-ESM 在“元”上的模擬速度
為了探究CAS-ESM 在“元”上進行耦合數值模擬試驗的模擬性能變化趨勢,我們制作了如圖4所示的加速比圖.從圖4中可以看出,整體來說CAS-ESM 2.0在“元”上的加速比較好,在達到512 核時,加速比有一定程度的下降,但下降趨勢并不明顯,在達到1024 核時,加速比又有一定成的回升,說明在512 核時加速比的下降應該是受到了高性能計算平臺環(huán)境的影響,試驗結果存在一定程度的誤差.在達到1024 核時,加速比可以達到24.7,具有良好的加速效果.去除通信開銷影響,根據16 核–32 核的加速比變化情況,理想情況的1024 核加速比約為54.4,與試驗結果有一定的差距,說明通信開銷隨著核數的增加也在不斷增長,是影響CAS-ESM 2.0 計算效率、可擴展性的因素之一.
圖4 CAS-ESM 在“元”上的加速比變化圖
為了進一步探究CAS-ESM 耦合數值模擬試驗中,各分模式的模擬性能情況,我們統(tǒng)計了各分模式的運行時間.表1為各分模式的運行時間隨核數變化表,表中的運行時間單位均為秒,平均占比為該分模式運行時間占總運行時間百分比的平均值.從整體來看,大氣分模式AGCM 的平均運行時間所占比重較大,達到了78.21%,超過了其他分模式的運行時間之和.之后按照平均占比從大到小依次為海冰模式CICE、海洋模式LICOM、陸面模式CoLM.CPL 運行時間為耦合器運行時間,從表1中來看,除各分模式外,耦合器也是平均占比較大的模塊之一.陸面模式CoLM 最多僅支持使用128 核進行模擬,因而從表中可以看出,雖然其平均占比不大,但使用1024 核時,其運行時間占總運行時間的比重可以達到6.8% 左右,遠高于其平均占比2.9%,因而應該提高CoLM 模式的可擴展性.另外,海洋模式LICOM與海冰模式CICE 受限于其計算規(guī)模與并行算法,目前CAS-ESM 2.0 僅支持最多使用480 核進行模擬,因而在核數達到512 核之后,運行時間不再下降.大氣分模式隨著核數的增加,其運行時間不斷減少,具有較好的可擴展性.
表1 在“元”上各分模式運行時間隨核數變化(單位:s)
為了進一步探究AGCM 分模式運行時間占比較高的原因,我們使用1024 核耦合數值模擬試驗的結果,對IAP AGCM 主要函數進行了運行時間占比情況的統(tǒng)計,如圖5.圖例中的名稱均為大氣分模式AGCM 調用的函數名.從圖5中可以看出,IAP AGCM 主要函數中,stepon_run3 函數運行時間占比最多,達到了58.13%,其次是phys_run1 函數,達到了27.72%,phys_run2 函數也能達到5.38%.
圖5 AGCM 主要函數在“元”上運行時間占比情況圖
由于stepon_run3 函數在大氣模式AGCM 的運行時間占比最高,其運行速度直接影響到大氣模式的模擬速度,甚至影響到整個地球系統(tǒng)模式的模擬速度,因而有必要對stepon_run3 函數的模擬結果進行進一步的研究與分析,發(fā)現目前影響stepon_run3 函數運行速度的關鍵和原因.圖6是在“元”上stepon_run3 函數主要調用函數的運行時間占比情況,圖例中的名稱為調用的函數名,other 表示除圖例所示函數外的其他函數和計算過程.
圖6 在“元”上stepon_run3 主要調用函數運行時間占比情況
圖6中的tend_lin、tend_adv、sltb1、sltb2 函數均包含大量的聚合通信,而mass_engy_fix 函數和other部分也包含大量的點對點通信.另外sync_bndexch為聚合通信MPI_Barrier 函數的調用.因而stepon_run3函數的運行時間受通信時間、效率的影響較大.對于目前的CAS-ESM 2.0 來說,如果能對大氣分模式的stepon_run3 函數進行并行算法的優(yōu)化與重新設計,降低通信時間開銷,應該能大大提高CAS-ESM 的計算效率與模擬速度.
為了排除高性能計算系統(tǒng)硬件和軟件環(huán)境的影響,我們將CAS-ESM 移植到“地球系統(tǒng)數值模擬裝置”原型系統(tǒng)上,進行了同樣的模擬試驗.圖7為運行時間隨核數變化圖.從圖7中可以看出,隨著核數的增加,CASESM 耦合數值模擬試驗的運行時間逐步減少;當核數達到1024 核的時候,運行時間有的減少程度并不明顯,說明遇到了性能瓶頸.然后我們將運行時間換算為地球系統(tǒng)中常用的模擬速度,得到圖8的結果.
圖7 在“地球系統(tǒng)數值模擬裝置”上的運行時間隨核數變化圖
圖8 CAS-ESM 在“地球系統(tǒng)數值模擬裝置”上的模擬速度
從圖8中可以看出,隨著核數的增加,CAS-ESM耦合數值模擬速度不斷加快,當核數達到512 核時,模擬速度能達到8.2 模式年/天,當核數達到1024 核時,模擬速度能達到8.5 模式年/天,其加速效果已不明顯.與“元”上的耦合數值模擬試驗結果相比,CAS-ESM 2.0在“地球系統(tǒng)數值模擬裝置”上的最大模擬速度與平均模擬速度均低于在“元”上的模擬速度.從“地球系統(tǒng)數值模擬裝置”的硬件指標來看,盡管其整體峰值浮點性能高于“元”的整體峰值浮點性能,處理器在主頻、單核浮點性能上都低于“元”的處理器,這也應該是造成兩個平臺模擬速度差異的原因.
為了探究CAS-ESM 在“地球系統(tǒng)數值模擬裝置”上進行耦合數值模擬試驗的模擬性能變化趨勢,我們制作了如圖9所示的加速比圖.從圖9中可以看出,在達到32 核時,加速比的增長趨勢有一定程度的下降,但下降趨勢并不明顯;在達到128 核時,加速比的增長趨勢又有一定程度的上升,說明32 核時出現的變化情況應該是由于高性能計算環(huán)境造成的誤差;在達1024核之后,加速比有明顯的下降,同樣說明遇到了性能瓶頸.達到1024 核時的加速比約為14.0,與去除通信開銷,根據16–32 核計算的理想加速比相差較大,說明在“地球系統(tǒng)數值模擬裝置”上,通信開銷的影響比在“元”上更大,應該進一步的研究與分析.
圖9 CAS-ESM 在“地球系統(tǒng)數值模擬裝置”上的加速比變化圖
為了進一步探究CAS-ESM 在“地球系統(tǒng)數值模擬裝置”上耦合數值模擬試驗中,各分模式的模擬性能情況,我們統(tǒng)計了各分模式的運行時間.表2為各分模式的運行時間隨核數變化表.從整體來看,與在“元”上的模擬試驗結果一致,大氣分模式AGCM 的平均運行時間所占比重較大,達到了81.59%,之后按照平均占比從大到小仍然為海冰模式CICE、海洋模式LICOM、陸面模式CoLM.耦合器CPL 的運行時間占比情況仍然達到了3.19%.從各分模式運行時間隨核數的變化來看,隨著核數的增加,CoLM 模式受限于其可擴展性的問題,達到128 核之后運行時間無法進一步減少.海洋模式LICOM和海冰模式CICE 受限于其計算規(guī)模,最多僅能使用480和,因而在達到512 核之前,其加速效果較好,但達到1024 核時,其運行時間已無法繼續(xù)減少.耦合器和大氣模式可擴展性較好,但當核數達到1024 核時,其加速效果已出現比較明顯的下降,且大氣模式受影響程度較大.前文已經提到,由于大氣模式中存在較多的聚合通信與點對點通信,因而初步判斷加速效果的降低是由于通信造成的.
表2 在“地球系統(tǒng)數值模擬裝置”上各分模式運行時間隨核數變化(單位:s)
由于大氣模式運行占比最高,且其達到1024 核時加速效果下降明顯,為了進一步探究AGCM 分模式運行時間占比較高和加速效果下降的原因,我們使用“地球系統(tǒng)數值模擬裝置”上1024 核耦合數值模擬試驗的結果,對IAP AGCM 主要函數進行了運行時間占比情況的統(tǒng)計,如圖10.從圖10中可以看出,與在“元”上的試驗結果一致,IAP AGCM 主要函數中,仍然是stepon_run3 函數運行時間占比最多,達到了69.65%,其次仍然是phys_run1 函數,達到了15.31%,但與“元”上的模擬結果相比,phys_run1 函數的運行占比有所下降,而stepon_run3 函數的運行占比有所上升,其他函數的運行占比變化不大.因而很可能是由于stepon3 函數導致了“地球系統(tǒng)數值模擬裝置”與“元”上的大氣模式AGCM運行時間、加速比與可擴展性的差異.
圖10 AGCM 主要函數在“地球系統(tǒng)數值模擬裝置”上的運行時間占比情況圖
為了探究在“地球系統(tǒng)數值模擬裝置”上大氣模式AGCM 運行時間較長、可擴展性存在問題的原因.我們使用1024 核的模擬結果對stepon_run3 函數進一步統(tǒng)計和分析,圖11是stepon_run3 調用的其他函數運行時間占stepon_run3 運行時間的比重.與“元”相比,stepon_run3 函數的主要調用函數運行占比情況基本一致,因而應該是stepon_run3 調用的函數整體出現了計算時間的增加.影響stepon_run3 函數效率的主要因素仍然是通信,而影響通信的直接因素就是網絡帶寬.從兩個高性能計算平臺的網絡帶寬來看,在“元”上每顆處理器20 核,配備網絡帶寬為56 GB,其單核網絡帶寬為5.6 GB;在“地球系統(tǒng)數值模擬裝置”上,每顆處理器32 核,配備網絡帶寬100 GB,其單核網絡帶寬為3.1 GB.因此在兩個高性能計算平臺上,CAS-ESM 表現出的可擴展性差異很可能是由于網絡帶寬不同造成的.
圖11 Stepon_run3 主要調用函數運行時間占比情況圖
前文使用CAS-ESM 在中科院高性能計算系統(tǒng)“元”和“地球系統(tǒng)數值模擬裝置”原型系統(tǒng)上分別進行了數值模擬試驗并對實驗結果做了簡要分析.通過分析發(fā)現,CoLM 模式和LICOM 模式的可擴展性,大氣模式IAP AGCM 的stepon_run3 函數的通信開銷,是影響CAS-ESM 在兩個平臺上模擬性能的主要因素.其中通過提高CoLM 模式的可擴展性,根據表1和表2中的平均時間占比,在理想情況下可以使CAS-ESM在1024 核的模擬時間減少約3.9%;提高LICOM 模式的可擴展性,在理想情況下可以使CAS-ESM 在1024核的模擬時間減少約2.3%;IAP AGCM 的stepon_run3函數模擬時間占總模擬時間的比例達到約45%,如果采用各類算法優(yōu)化手段,減少stepon_run3 函數的通信開銷,在理想情況下應該能起到最明顯的加速效果.
根據以往高分辨率大氣模式與海洋模式的優(yōu)化經驗,對stepon_run3 函數的通信優(yōu)化,同樣可以使用高緯度的緯向跳點差分計算、三維剖分并行算法等優(yōu)化手段[25–28].本文使用的1.4 度分辨率的IAP AGCM 仍然使用了二維剖分并行算法,如果增加緯向(X 方向)的剖分,可以提升IAP AGCM 的并行度,減少各進程負責的數據大小[29],從而降低stepon_run3 函數的計算量與通信量.另外,由于stepon_run3 函數存在大量的垂直方向(Z 方向)通信,可以通過優(yōu)化三維剖分算法,盡可能使垂直方向數據位于同一處理器上,從而大大減少通信量,提高模擬效率.
CAS-ESM 地球系統(tǒng)模式是一個進行地球系統(tǒng)模擬的復雜的高性能應用軟件.為了對CAS-ESM 2.0 進行性能評估,我們分別在中科院高性能計算系統(tǒng)“元”和“地球系統(tǒng)數值模擬裝置”原型系統(tǒng)上開展了CASESM 的耦合數值模擬試驗.
結果顯示,在兩個高性能計算平臺上,CAS-ESM表現出了不同的可擴展性.CAS-ESM 在“元”上的模擬在相同核數的絕對速度與可擴展性上,都要優(yōu)于在“地球系統(tǒng)數值模擬裝置”的模擬結果.由于高性能計算平臺的硬件指標中,單核浮點性能、主頻以及單核網絡帶寬,“元”都要優(yōu)于“地球系統(tǒng)數值模擬裝置”,因而模擬結果也符合計算環(huán)境的實際情況.在后續(xù)的CASESM 發(fā)展、地球系統(tǒng)研究與氣候模擬工作中,應該選擇單核浮點性能、主頻較高,網絡通信帶寬更大的高性能計算平臺開展耦合試驗.在最新的2020 中國高性能計算機top10 榜單中,第2 名的“天河二號”超級計算機的單核浮點性能最高,達到了235 Gflops;第4 名的同方“青城之光”單核主頻最高,達到了3.1 GHz;第5 名的聯想深騰8800 系列的網絡通信帶寬最大,達到了單核1.25 GB.上述3 個平臺應該是今后較為適合CASESM 進行研究與試驗的高性能計算平臺.
另外綜合兩個平臺耦合數值模擬試驗的結果顯示,大氣模式的運行時間占總運行時間的比重都是最高的,且超過了其他模式的總和.因而我們對結果進行了深入分析,發(fā)現大氣模式主要函數中,stepon_run3 函數在兩個平臺的模擬結果中,都是運行占比最多的函數.因而我們在“地球系統(tǒng)數值模擬裝置”上繼續(xù)對stepon_run3 函數進行了深入挖掘和分析,發(fā)現其主要的性能瓶頸是由于通信造成的.因而在后續(xù)的CAS-ESM 研發(fā)工作中,需要對大氣模式尤其是stepon_run3 函數中的并行通信算法開展進一步的性能優(yōu)化工作.
在各分模式的可擴展性方面,目前陸面模式CoLM、海洋模式LICOM與海冰模式CICE 都存在一定的問題,為了滿足耦合模式的進一步性能優(yōu)化需要,提高這些分模式的可擴展性也是研究的重點之一.本文采用的大氣分模式垂直方向為30 層,無法進行2048 核及以上更大規(guī)模的耦合數值模擬試驗.而高分辨率的分模式,垂直方向35 層的大氣模式,模擬結果還存在一定的問題.為了進行更大規(guī)模的耦合數值模擬試驗,在后續(xù)工作中應該對分模式的并行算法進行優(yōu)化和重新設計,使其可以使用更多的處理器,進行更大規(guī)模的性能測試與分析.