【編者語】
2022年5—8月,由江蘇省科學技術協(xié)會、江蘇省氣象局作為指導單位,江蘇省氣象學會、江蘇省氣象臺和阿里云天池聯(lián)合組織了2022年江蘇氣象AI算法挑戰(zhàn)賽。此次挑戰(zhàn)賽以“AI助力強對流預報”為主題,旨在聚焦短臨強對流預報技術研發(fā)及應用,探索利用人工智能技術突破短臨預報關鍵性技術瓶頸,推進人工智能技術在氣象領域的學術合作、人才培養(yǎng)、技術交流以及多學科交叉融合應用。這種不限年齡、國籍、職業(yè)與專業(yè)的新型眾創(chuàng)機制,既可以為短臨強天氣預報技術提供新思路新方案,同時也為氣象青年人才創(chuàng)造了更多機遇與挑戰(zhàn)。中國氣象局氣象干部培訓學院組成的團隊,在這次競賽中,從1874支參賽代表隊中脫穎而出,取得了第25名的好成績。本刊委托來自中國氣象局氣象發(fā)展與規(guī)劃院的于丹和唐偉,對團隊進行采訪,共享這支朝氣蓬勃的青年教師隊伍通過競賽經(jīng)歷的鍛煉和感悟。干部學院AI教學團隊負責人鐘琦博士的點評也啟發(fā)我們?nèi)绾蚊鎸I引領的新創(chuàng)新時代。
采訪人:組建團隊參加本次氣象AI算法挑戰(zhàn)賽的動力及目的是什么?
趙陽:“氣象+AI”是當下發(fā)展非??斓臒衢T領域之一,近年來中國氣象局氣象干部培訓學院(以下簡稱“干部學院”)新創(chuàng)立了人工智能教學團隊,吸引了許多對“氣象+AI”感興趣的青年教師。本次氣象AI算法挑戰(zhàn)賽,瞄準的基于觀測數(shù)據(jù)預報強對流天氣,是當下“氣象+AI”的重點和難點領域,受到了團隊年輕老師的關注,大家躍躍欲試。相比于之前的文獻研究、參與項目等研究AI的方法,通過參加競賽,一是可以提高大家的編程能力,檢驗大家的學習成果,通過真正動手實踐,暴露出理論學習中發(fā)現(xiàn)不了的問題,避免了“紙上談AI”;二是通過參加比賽,能夠更好地磨合團隊,讓每位隊員都能在“氣象+AI”的大海中找到自己擅長或感興趣的領域;三是參與競爭,開拓視野,看看我們與強隊之間的差距,了解自身不足。
采訪現(xiàn)場合影(從左至右依次為于丹、王晴旭、趙陽、張悅含、唐偉)
張悅含:我們?nèi)硕际歉刹繉W院人工智能教學團隊的成員(鏈接1),想借此機會練練兵,在實踐中學習。同時,作為干部學院的一線教師,也希望積累一些授課的素材。
采訪人:團隊此次參賽,采用了哪種機器學習算法,預報結果如何,是否和傳統(tǒng)短臨預報方法——光流矢量計算方法的預報結果進行對比,有何優(yōu)勢?
王晴旭:強對流預報,即時空序列預測問題,我們采用了時空序列預測的經(jīng)典開源算法ConvLSTM(圖1)。ConvLSTM是2015年香港科技大學的施行健博士提出的,結合了卷積(Conv)可以提取空間特征的能力以及長短期記憶網(wǎng)絡(LSTM)可以處理序列的能力,特別適合時空序列預測任務。很多文獻研究表面,相比于光流法預測結果,ConvLSTM擁有更好的效果。另外我們團隊采用了本地配置的計算資源,相比于云端高性能計算資源,勝在配置簡單,能夠更快上手。
圖1 經(jīng)典時空序列預測算法——卷積長短期記憶網(wǎng)絡ConvLSTM
采訪人:剛才提到團隊三位隊員來自不同專業(yè),平均年齡僅30歲,那么在全球1784支參賽隊伍中能夠脫穎而出取得優(yōu)異成績,具有哪些優(yōu)勢條件?團隊在參賽過程中還面臨哪些挑戰(zhàn),是否遇到了瓶頸問題?
王晴旭:我們團隊充分利用了多學科交叉和合理的團隊分工。在我們剛獲悉題目的時候,一開始大家都沒什么比賽的經(jīng)驗,但是通過一兩天的集中討論,確定了每個人的方向,比如趙陽負責編程,悅含負責研究評分標準和數(shù)據(jù)處理,我負責算法調研和開發(fā),這樣每個人的優(yōu)勢都能發(fā)揮出來,進而階段性地整理每個人的成果并匯總形成方案。另一方面,雖然缺乏參賽經(jīng)驗,但是作為干部學院的教師,平時在教學培訓工作中也積累了一些其他的經(jīng)驗,例如調研、編程,以及細致嚴謹?shù)慕虒W經(jīng)驗,這使得我們在比賽中可以很快地實現(xiàn)初步方案。最后一點,干部學院的領導和團隊中其他指導老師或前輩也給予了我們很多幫助和支持,讓我們能夠在比賽中堅持不懈,始終保持信心和熱情。
趙陽:相對于成績更佳的隊伍,我們還有很多不足。例如在算法方面,通過這次挑戰(zhàn)賽,我發(fā)現(xiàn)了自身對于AI的很多底層邏輯理解還有欠缺。我們采用的是2015年開源的算法,對于近兩年來的新算法研究不足。另外在數(shù)據(jù)處理、訓練技巧、評分檢驗等方面,也都暴露出很多經(jīng)驗不足的問題。發(fā)現(xiàn)不足,補齊短板,這是我們這次比賽最滿意的“收獲”。
張悅含:和優(yōu)勝隊伍比,我們確實在技術實現(xiàn)上有很大差距,我想這主要是由于我們?nèi)齻€都不是科班出身,并且沒有整段的時間全身心投入比賽吧,畢竟業(yè)務工作還是比較繁忙的。
采訪人:構建優(yōu)良的數(shù)據(jù)集是AI研究的核心。本次氣象AI算法挑戰(zhàn)賽提供的數(shù)據(jù)集對您今后的業(yè)務工作是否有所借鑒?
趙陽:一個優(yōu)秀的數(shù)據(jù)集是發(fā)展AI最重要的基礎,比如眾所周知的ImageNet數(shù)據(jù)集在十多年前就成為了圖像識別領域飛速發(fā)展的奠基石(圖2)。本次挑戰(zhàn)賽的數(shù)據(jù)集也給我們的AI教學提供了參考,例如將多源數(shù)據(jù)進行時空匹配,算是一個很好的思路。對于氣象領域來說,我們不缺數(shù)據(jù),但是缺乏對數(shù)據(jù)集的整理,包括質量控制、重點天氣現(xiàn)象標注、數(shù)據(jù)匹配等工作,這算是一個很難但意義重大的工作,對于“氣象+AI”的長遠發(fā)展是必不可少的。
圖2 ImageNet圖像識別數(shù)據(jù)集
采訪人:團隊共參與了幾次氣象AI算法挑戰(zhàn)賽?具體到方法上來說,是否可以以不變應萬變,用一個算法就可以參加不同的氣象AI大賽?
趙陽:這是我們第一次參加類似的比賽。對于AI的研究者來說,我們最理想的情況當然是找到一個通用算法來滿足所有的任務,但是在現(xiàn)階段是不可能的。受限于AI的發(fā)展,計算資源的有限,業(yè)界每年都會有新的思路、新的算法出現(xiàn),AI也在向著(計算速度)更快、(評價分數(shù))更高、(實現(xiàn)效果)更強的方向不斷“內(nèi)卷”。這樣也更能激勵我們在AI領域不斷探索、繼續(xù)前進!
采訪人:通過此次實戰(zhàn),團隊對“氣象+AI”是否有了新的認識,人工智能在氣象領域融合應用的現(xiàn)狀如何,實現(xiàn)深度融合應用還面臨哪些困難與挑戰(zhàn)?
趙陽:自2016年起,先后有40余個國家和地區(qū)將推動人工智能發(fā)展上升到國家戰(zhàn)略高度。人工智能已成為科技創(chuàng)新的關鍵領域和數(shù)字經(jīng)濟時代的重要支柱。目前,人工智能在醫(yī)療、制造、自動駕駛等領域的應用已持續(xù)深入?!皻庀?AI”有很多可以結合的點,比如本次比賽所涉及的強對流天氣的短臨預報,還有氣候預測,衛(wèi)星云圖識別等。此外,AI領域最成熟的圖像處理技術,例如圖像識別或語義分割,還可以應用在氣象服務領域,例如農(nóng)業(yè)氣象中對農(nóng)作物狀態(tài)的智能識別,還有旅游氣象、交通氣象等領域。
我們都知道AI是運用了大量統(tǒng)計學的知識,可以通過訓練從過往數(shù)據(jù)中尋找特征,繼而運用到新的情況,這和老資歷的預報員通過經(jīng)驗分析是類似的,甚至說AI會越來越強、越來越穩(wěn)定,而不會依賴個人經(jīng)驗的差異。同時傳統(tǒng)預報方法還結合了很多大氣動力學的知識,如何把氣象學的先驗知識應用到AI中,是我們要深入研究的。
采訪人:如您所說AI會越來越強、越來越穩(wěn)定,那么隨著人工智能技術的發(fā)展與深度應用,對預報員來說,借助外腦作用是否是一種替代關系?
趙陽:當下AI是一個高速發(fā)展的領域,目前AI的門檻也是逐年降低,即使是非計算機專業(yè)的人員也能輕易上手。在不遠的未來,AI會更加接地氣,成為像互聯(lián)網(wǎng)一樣的“新基建”,一個很普通的工具。但同時也要看到,AI還存在很多問題,最大的問題就是常說的黑箱,即存在不穩(wěn)定性。例如數(shù)據(jù)集中的噪聲會對結果產(chǎn)生不可預見的不良影響,這對于預報業(yè)務來說是難以接受的。因此在短時間內(nèi),AI還難以承擔核心的預報業(yè)務工作,但可以作為一個輔助工具提供參考結果,或者參與到一些細分工作中。直到其準確率獲得認可,再應用到核心業(yè)務中。
采訪人:本次挑戰(zhàn)賽既是推動AI在氣象領域應用實踐的一次重要探索,同時也是形成解決預報瓶頸的一種新型眾創(chuàng)機制的具體嘗試。但此次競賽在氣象領域并不是首次探索。2022年6月11—12日,ECMWF舉辦了2022年黑客馬拉松:可視化氣象數(shù)據(jù)(#VisMetData,鏈接2),探索如何將天氣和氣候數(shù)據(jù)可視化。深圳市氣象局2017—2018年連續(xù)兩年通過與阿里巴巴公司、香港天文臺合作,共同組織了“全球AI氣象挑戰(zhàn)賽”,通過眾創(chuàng)機制促進智能臨近預報的發(fā)展。您認為采用競賽方式對于AI技術而言具有怎樣的特殊意義?
鏈接2:2022年黑客馬拉松:可視化氣象數(shù)據(jù)
黑客馬拉松(Hackathons),又稱編程馬拉松,是指將程序員或者軟件工程師等互聯(lián)網(wǎng)相關的從業(yè)者聚在一起,在特定時間內(nèi)自由完成比賽題目。通過為技術人員提供一個自我表達和展現(xiàn)創(chuàng)造力的平臺,使富有創(chuàng)新性的技術得到開發(fā)和應用,它是程序員和軟件開發(fā)人員向往的業(yè)內(nèi)頂級盛會,也成為業(yè)界進行開發(fā)創(chuàng)新和融資的契機。
2022年黑客馬拉松:可視化氣象數(shù)據(jù)由ECMWF在其總部英國雷丁舉辦,目的是探索如何將氣象數(shù)據(jù)、天氣和氣候可視化,以便對用戶和更廣泛的公眾更有用、更易于理解和更有影響力。此次活動注重吸引來自不同背景和多樣性的參與者,不僅包含編碼人員,還包含了設計師、數(shù)據(jù)管理員、氣象學家、講故事的人、記者等任何對氣象數(shù)據(jù)和可視化感興趣的人員,共有9支隊伍37人參加。
Hackathon 2022年提出了三個挑戰(zhàn):可視化數(shù)據(jù)(#VisData);用數(shù)據(jù)講故事(#StorytellingData);數(shù)據(jù)處理(#101MemberEnsemble)。除此之外還有一個公開挑戰(zhàn)(#OpenHack)。在每個挑戰(zhàn)中,ECMWF工作人員都會提出項目供參與者開展工作或幫助激發(fā)他們的項目。比賽時間為24小時,每個項目根據(jù)四個標準進行評估:原創(chuàng)性、影響力、令人印象深刻和數(shù)據(jù)的使用。除了目前可從ECMWF獲得的所有公開數(shù)據(jù)之外,參與者還可以獲得許多數(shù)據(jù)。
最終#isitnormal團隊成為獲勝者,他們的項目關注的問題是“今天的天氣與歷史正常相比如何?”通過使用來自ECMWF的ERA5再分析的溫度數(shù)據(jù),以氣候條紋為靈感,繪制了可點擊的歷史月度溫度時間序列和創(chuàng)新的小提琴圖,以展示當今溫度與世界各地不同城市的歷史值和平均值相比。該團隊還創(chuàng)建了一個地圖功能,以展示跨地區(qū)和局部的溫度變化。
趙陽:AI的優(yōu)勢就在于它是建模無關的,能夠高效地、大規(guī)模地提取數(shù)據(jù)中的特征。以我們團隊為例,大家都沒有觀測預報的相關工作經(jīng)驗,卻也能夠取得一定的成果。這證明了非專業(yè)的人員也有一席之地。“氣象+AI”并不是要完全替代傳統(tǒng)預報方法,而是借助AI的一些優(yōu)勢或數(shù)學思路,來解決預報的一些難點。例如圖像識別中所用到的卷積可以用來提取特征,例如無監(jiān)督學習可以讓機器自主學習到前所未知的特征,這些都是可以借鑒的思路。
張悅含:在短臨預報中,機器學習的效果確實不錯。而這種通過比賽集思廣益的形式也非常振奮人心。在我看來,是一種雙贏機制,對于業(yè)務單位來說,低成本地收獲了一些新的研究思路和算法;對于參賽選手來講,不僅開拓了思維,還獲取了一系列的“激勵”。
采訪人:作為干部學院的AI教學團隊,從干部學院作為國家級氣象管理干部和高層次專業(yè)技術人才培訓基地出發(fā),在氣象業(yè)務培訓中是否可以借鑒這種新型眾創(chuàng)機制,未來的業(yè)務培訓將呈現(xiàn)怎樣的趨勢?
王晴旭:將AI應用到預報中是一個熱門的研究方向。在過去兩年時間里,干部學院的AI教學團隊已經(jīng)開展了多期研究型天氣業(yè)務培訓班,邀請到了各單位或高校的“氣象+AI”領域的專家作為授課老師。全國的預報員或研究人員都踴躍報名參加,收到了非常好的反響。但AI畢竟是一個新興的、高速發(fā)展的學科,來自全國各地的學員其數(shù)學和編程水平也都不盡相同,使得當前的AI培訓更偏向前沿講座的性質。我們的團隊也在積極探索“氣象+AI”的培訓方式,爭取在未來的預報員培訓中看到更多、更先進、更實用的AI內(nèi)容。
采訪人:謝謝團隊接受采訪,愿團隊今后在AI領域取得更多的成果!
Advances in Meteorological Science and Technology2022年5期