于敏 曹學(xué)海 邱國鵬
摘 要:旨在將專業(yè)且繁雜的原始?xì)庀髷?shù)據(jù)轉(zhuǎn)化成通俗易懂的氣象預(yù)報(bào)文本,提高氣象服務(wù)的時(shí)效性、科技含量和豐富性,重點(diǎn)對原始?xì)庀髷?shù)據(jù)進(jìn)行空間計(jì)算,另外利用特征提取相關(guān)算法處理海量歷史氣象文本,構(gòu)建氣象預(yù)報(bào)文本的模板庫.在此基礎(chǔ)上實(shí)現(xiàn)了一套面向氣象大數(shù)據(jù)的氣象預(yù)報(bào)文本實(shí)時(shí)生成系統(tǒng).實(shí)驗(yàn)結(jié)果顯示,該系統(tǒng)生成的氣象文本準(zhǔn)確性達(dá)到71%,通順性達(dá)到85%,合格率可達(dá)84%.較為理想的實(shí)驗(yàn)結(jié)果也證明了該系統(tǒng)的可行性與準(zhǔn)確性,具有良好而廣闊的應(yīng)用前景.
關(guān)鍵詞:自然語言處理;特征提取;空間分析;文本自動(dòng)生成
中圖分類號(hào):P458? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):1673-260X(2019)10-0127-04
相關(guān)數(shù)據(jù)顯示,中國是受災(zāi)害影響最嚴(yán)重的國家之一,氣象災(zāi)害的有效防御還需要?dú)庀蠓?wù)能力的進(jìn)一步提高;人民生活方式的不斷轉(zhuǎn)變和生活質(zhì)量的不斷提高也需要更高層次的氣象服務(wù)相匹配.但是,現(xiàn)在我國氣象服務(wù)行業(yè)仍然存在著服務(wù)能力和經(jīng)濟(jì)社會(huì)發(fā)展要求不相適應(yīng),產(chǎn)品質(zhì)量不高,科技含量不足等問題.近年來,GIS(Geographic Information System地理信息系統(tǒng))技術(shù)在氣象的可視化、圖形化領(lǐng)域發(fā)揮了重要作用[1],但是在具體的文本輸出方面,多數(shù)氣象部門仍然采用人工的方式解讀大量實(shí)況數(shù)據(jù),并依靠人工進(jìn)行氣象的描述和文本輸出.很明顯,這種人工的方式已經(jīng)無法滿足現(xiàn)代社會(huì)所需要的時(shí)效性、精細(xì)化、更新快的氣象預(yù)報(bào)產(chǎn)品的要求.
國外于20世紀(jì)70年代初就開始了天氣預(yù)報(bào)文本的計(jì)算機(jī)自動(dòng)或半自動(dòng)生成技術(shù)的研究,代表性的有1991年的Scribe、1993年的ICWF和1999年的Siren系統(tǒng)[2].從國內(nèi)來看,中國氣象局于2014年研究的氣象落區(qū)文本自動(dòng)生成技術(shù)實(shí)現(xiàn)了從標(biāo)準(zhǔn)化的氣象數(shù)據(jù)到篇章級(jí)氣象預(yù)報(bào)文本的自動(dòng)生成[3].然而上述研究均存在一些不足:如只停留在原始?xì)庀髷?shù)據(jù)空間處理和氣象預(yù)報(bào)文本自動(dòng)生成分割處理的階段,缺乏時(shí)效性.
本文將建立面向氣象預(yù)報(bào)文本生成技術(shù)的文本特征提取、模式匹配、文本規(guī)劃組織的自然語言處理模型,并利用GIS相關(guān)工具對原始?xì)庀髷?shù)據(jù)進(jìn)行空間分析,獲取具體氣象信息并結(jié)合文本模型生成完整的氣象預(yù)報(bào)文本,從而建立基于空間分析的氣象預(yù)報(bào)文本實(shí)時(shí)生成系統(tǒng)模型與方法.
1 基于QGIS空間分析的氣象數(shù)據(jù)模型構(gòu)建
中國氣象局目前所有的原始?xì)庀髷?shù)據(jù)主要為14類Micaps數(shù)據(jù),包括降水、氣溫、臺(tái)風(fēng)、霧霾等各類氣象類型,分為點(diǎn)、線、面、柵格四種格式.Micaps數(shù)據(jù)中包含有地理方位、氣象代碼、距離、方向、等級(jí)等多個(gè)特征,需從這些特征中綜合提取出氣象空間特征[4].還需考慮不同氣象要素、不同表現(xiàn)形式(單站點(diǎn)數(shù)據(jù)如觀測點(diǎn)數(shù)據(jù)、格點(diǎn)數(shù)據(jù)如降水?dāng)?shù)值),對于特定類型的氣象數(shù)據(jù)在空間特征提取的方法上也存在差異(如觀測站點(diǎn)需要先進(jìn)行插值處理形成空間分布場然后再表達(dá))[4].
根據(jù)數(shù)據(jù)類型分別調(diào)用不同的GDAL庫接口從而創(chuàng)建不同格式的文件[5].具體的每種原始?xì)庀髷?shù)據(jù)處理流程如圖1所示.
以Micaps7數(shù)據(jù)為例,它是專門用于臺(tái)風(fēng)預(yù)警的站點(diǎn)數(shù)據(jù),處理后得到的shp文件如圖2所示,表1為添加數(shù)據(jù)之后生成的shp文件屬性表(部分),包含有臺(tái)風(fēng)的時(shí)間、位置、速度等屬性.
可以看到,每種天氣要素發(fā)生的地理位置在原始?xì)庀髷?shù)據(jù)中是以經(jīng)緯度形式出現(xiàn)的,無法直接得到具體地名,需利用QGIS模塊并結(jié)合空間疊加原理,將每個(gè)級(jí)別的氣象地理區(qū)劃的空間文件分別同預(yù)報(bào)的天氣要素地理位置文件進(jìn)行疊加,得到重合的部分,讀取該重合部分所屬的每級(jí)區(qū)劃(如疊加部分屬于江南地區(qū)、江南地區(qū)東部、江西省、江西省北部)、天氣信息(如天氣的類別、級(jí)別等)、重合部分面積以及此面積占整個(gè)所屬地理區(qū)劃面積的比例p.確定了如上信息就可以進(jìn)行空間推理分析[2],規(guī)則如表2所示.
2 氣象預(yù)報(bào)文本的特征提取與建模
2.1 氣象預(yù)報(bào)文本的特征提取
引入中國氣象局2015-2017年間各類型的歷史氣象文本資料共2000份,作為本模型的訓(xùn)練數(shù)據(jù),利用NLPIR-ICTCLAS對氣象文本數(shù)據(jù)進(jìn)行信息抽取[6].主要抽取以下兩部分信息:1.天氣(天氣類型和天氣預(yù)警)和地理區(qū)域變量描述詞組;2.描述天氣的短句模板.這兩部分信息結(jié)合就可以組成一句完整的天氣描述的句子.部分結(jié)果如表3所示.
詞頻統(tǒng)計(jì)[7]結(jié)果顯示,在2000份氣象預(yù)報(bào)文本中,一共出現(xiàn)了2468個(gè)詞語,有些詞全年只出現(xiàn)了1-2次,屬于分詞中生僻詞.對預(yù)報(bào)文本進(jìn)行詞頻統(tǒng)計(jì)信息抽取的目的是得到氣象文本編寫的通用規(guī)律,所以在研究過程中只需要關(guān)注重點(diǎn)詞匯就可以了,低頻率的詞匯可以忽略.
二元詞組鄰接分析[8]部分結(jié)果如表4所示,所有的二元詞對總數(shù)只有17314.這種文本分析對研究預(yù)報(bào)員的文本寫作習(xí)慣是非常有效的.
結(jié)合上述詞頻統(tǒng)計(jì)結(jié)果和二元詞組鄰接分析結(jié)果,歸納出氣象預(yù)報(bào)文本必須包含的信息:模板規(guī)則和變量詞匯,其中變量詞匯包括氣象變量和地理區(qū)域變量,兩類變量通常是同時(shí)出現(xiàn)的,氣象變量主要是指描述各類氣象要素的專業(yè)氣象詞匯,比如“霧霾”“雷暴”“強(qiáng)對流”等詞匯,地理變量信息是描述天氣所在位置的地理區(qū)域,可以將全國分為四個(gè)等級(jí)來逐步縮小天氣的描述范圍,如“華北地區(qū)”“華北東部”來使天氣范圍更為精準(zhǔn).這類變量名詞均是可數(shù)且有限,指代(天氣、地理區(qū)域)明確的.
2.2 句子模板庫的構(gòu)建
經(jīng)過上述對文本的變量詞匯和模板規(guī)則的提取,可以建立相應(yīng)的短句模板和氣象變量詞匯文本庫[9],描述天氣情況的句子主要是由這兩部分組成.
為每種氣象類型分別建立句子模板庫,其中中括號(hào)[]內(nèi)部的信息表示必填變量,如時(shí)間、地點(diǎn)、氣象等級(jí)等;大括號(hào){}內(nèi)部信息為選填項(xiàng),根據(jù)氣象等級(jí)的不同選擇是否出現(xiàn).以下為氣溫預(yù)報(bào)模板示例:
“[時(shí)間],[地點(diǎn)]氣溫將{上升/下降}{度數(shù)}℃,其中{地區(qū)}{局部地區(qū)}{上升/下降}溫度可達(dá){度數(shù)}℃”
QGIS模塊將處理后得到的氣象變量信息保存在一張附帶屬性表的shp文件中,通過空間分析技術(shù)確定每一氣象類型對應(yīng)的具體地理區(qū)域,最后系統(tǒng)會(huì)從不同類別的子庫中選擇合適的句子進(jìn)行描述.將合適的氣象信息填入句子模板的過程就是一個(gè)簡單的“填槽”過程[10].例如在預(yù)報(bào)氣溫時(shí),可以由上述模型獲得溫度變化較大的地區(qū)的地理名稱以及具體的溫差數(shù)據(jù),即“山東省北部、河北省大部、江南大部分地區(qū)、西北北部地區(qū)”,將其填入[地點(diǎn)]處地點(diǎn)對應(yīng)的位置可得:
“20日8時(shí),山東省北部、河北省大部、江南大部分地區(qū)、西北北部地區(qū)氣溫將上升4~8℃,其中,河北省大部、江南大部分地區(qū)局部地區(qū)上升溫度可達(dá)10~12℃”
2.3 算法過程
根據(jù)上述模型,對原始?xì)庀髷?shù)據(jù)進(jìn)行空間計(jì)算,并利用自然語言處理技術(shù)構(gòu)建氣象預(yù)報(bào)文本的模板庫,實(shí)現(xiàn)一套氣象預(yù)報(bào)文本實(shí)時(shí)生成系統(tǒng).系統(tǒng)框架如圖3所示.
3 實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)采用的氣象數(shù)據(jù)來自中國氣象局,包括氣溫、降雨、降雪等普通氣象類型以及霾預(yù)警、臺(tái)風(fēng)預(yù)警、暴雨預(yù)警等各種預(yù)警類型,類別范圍廣且具有代表性.實(shí)驗(yàn)結(jié)果分為以下兩種評價(jià)方式,邀請三位中國氣象局專業(yè)人員進(jìn)行評價(jià):
(1)對系統(tǒng)生成的各氣象類型預(yù)報(bào)文本分別進(jìn)行人工評級(jí),從準(zhǔn)確性和通順性兩個(gè)角度,評價(jià)等級(jí)分為五級(jí):很好、好、一般、不好、差,其中準(zhǔn)確性是指文本中的氣象類型、氣象數(shù)值、地理變量等是否與原始?xì)庀髷?shù)據(jù)所表達(dá)的一致;通順性是指文本用詞、語句是否符合氣象預(yù)報(bào)的規(guī)范;統(tǒng)計(jì)五個(gè)等級(jí)下有多少篇對應(yīng)的預(yù)報(bào)文本,規(guī)定一般及以上等級(jí)為合格,并計(jì)算合格率.
(2)對系統(tǒng)生成的200篇?dú)庀箢A(yù)報(bào)文本與對應(yīng)的歷史文本(由人工生成)進(jìn)行相似性比對,分為:很好、好、一般、不好、差五個(gè)等級(jí),并統(tǒng)計(jì)合格率.
3.1 各氣象類型的預(yù)報(bào)文本實(shí)時(shí)生成實(shí)驗(yàn)分析
以降水預(yù)報(bào)實(shí)驗(yàn)結(jié)果為例,降水預(yù)報(bào)的輸出結(jié)果如下:
請輸入要測試的數(shù)據(jù)類型(1,3,4,7,14,lwfd):14
正在處理第十四種類型的數(shù)據(jù)...
正在處理暴雨模塊...
Handel micaps14......
正在與第一級(jí)別行政區(qū)劃疊加..................
0...10...20...30...40...50...60...70...80...90...100 - done.
與一級(jí)行政區(qū)劃疊加后返回值(0表示正常):0
將與一級(jí)行政區(qū)劃的結(jié)果圖層寫入磁盤shp文件的處理結(jié)果(0表示成功):0
正在與第二級(jí)別行政區(qū)劃疊加..................
0...10...20...30...40...50...60...70...80...90...100 - done.
與二級(jí)行政區(qū)劃疊加后返回值(0表示正常):0
將與二級(jí)行政區(qū)劃的結(jié)果圖層寫入磁盤shp文件的處理結(jié)果(0表示成功):0
江南中部、貴州東南部等地大部地區(qū),廣東、江蘇、福建西北部等地部分地區(qū)有大雨,安徽、廣西、湖南、江西、浙江、廣東西北部、湖北東部等地部分地區(qū)有暴雨,其中安徽南部、廣西東北部、湖南南部、江西北部等地部分地區(qū)有大暴雨.
暴雨預(yù)警:? ?3,4,14,lwfd
強(qiáng)對流天氣預(yù)警:1,3,4,14,lwfd
沙塵暴預(yù)警:? 4,14
海上大風(fēng)預(yù)警: 3,4,14
寒潮預(yù)警:? ?1,3,4,14
暴雪預(yù)警:? ?1,3,4,14
霾預(yù)警:? ? 1,3,4,14,lwfd
高溫預(yù)警:? ?1,3,4,14,lwfd
臺(tái)風(fēng)預(yù)警:? ?7
退出程序:? ?0
氣象人員對該結(jié)果進(jìn)行打分如表5所示:
可以看出,系統(tǒng)本次生成降水預(yù)報(bào)文本的準(zhǔn)確性好,通順性很好.
此外,隨機(jī)抽取100份原始降水?dāng)?shù)據(jù)進(jìn)行處理,由系統(tǒng)自動(dòng)生成100篇降水預(yù)報(bào)文本,邀請中國氣象局三位氣象專業(yè)人員分別針對文本的準(zhǔn)確性和通順性進(jìn)行評級(jí),準(zhǔn)確性、通順性結(jié)果如表6、表7所示.
可以看出,對于降水?dāng)?shù)據(jù),系統(tǒng)自動(dòng)生成的預(yù)報(bào)文本準(zhǔn)確性在80%以上,通順性可達(dá)90%(均取最低值).
分別對每一種氣象類型的準(zhǔn)確性和通順性進(jìn)行打分,部分匯總結(jié)果如表8所示.
通過實(shí)驗(yàn)可以看出,此系統(tǒng)生成的氣象預(yù)報(bào)文本的準(zhǔn)確性都在71%以上,通順性都在85%以上.
3.2 實(shí)證比對分析
目前系統(tǒng)支持各類天氣的實(shí)況預(yù)報(bào)和災(zāi)害天氣預(yù)警,為了驗(yàn)證其輸出的準(zhǔn)確性,隨機(jī)選取2015年5月28日發(fā)布的全國降水預(yù)報(bào)原始數(shù)據(jù)做為輸入,本系統(tǒng)輸出的氣象預(yù)報(bào)文本如下:
28日08時(shí)至29日08時(shí),江南中東部、華南、新疆西部、四川省、西寧、黑龍江西北部等地有中到大雨,其中,華南地區(qū)北部和南部沿海、江西中部和東北部、浙江西部和北部、安徽南部等地的部分地區(qū)有暴雨,廣東北部、廣西東北部等地局地有大暴雨(100~130毫米).新疆地區(qū)、內(nèi)蒙古中東部、華北北部、東北地區(qū)南部等地有4~6級(jí)風(fēng).新疆地區(qū)等地的部分地區(qū)有揚(yáng)沙或浮塵.東海南部海域、臺(tái)灣海峽、臺(tái)灣以東有5~7級(jí)、陣風(fēng)8級(jí)的西南風(fēng),南海大部海域、北部灣有5~6級(jí)、陣風(fēng)7級(jí)的西南或偏南風(fēng).
當(dāng)天中央氣象臺(tái)發(fā)布的氣象預(yù)報(bào)文本如下:
28日08時(shí)至29日08時(shí),江南中東部、華南、新疆伊犁河谷、川西高原北部、黑龍江西北部等地有中到大雨,其中,華南北部和南部沿海、江西中部和東北部、浙江西部和北部、安徽南部等地的部分地區(qū)有暴雨,廣東北部、廣西東北部等地局地有大暴雨(100~130毫米).新疆、內(nèi)蒙古中東部、華北北部、東北地區(qū)南部等地有4~6級(jí)風(fēng).新疆南疆盆地等地的部分地區(qū)有揚(yáng)沙或浮塵.東海南部海域、臺(tái)灣海峽、臺(tái)灣以東洋面有5~7級(jí)、陣風(fēng)8級(jí)的西南風(fēng),南海大部海域、北部灣有5~6級(jí)、陣風(fēng)7級(jí)的西南或偏南風(fēng).
從2015-2017年的氣象預(yù)報(bào)文本數(shù)據(jù)庫中,隨機(jī)抽取200篇天氣預(yù)報(bào)(這些文本是預(yù)報(bào)員手工寫的)以及其相對應(yīng)的原始?xì)庀髷?shù)據(jù)(矩陣格式),同時(shí)用該系統(tǒng)調(diào)用這200份原始?xì)庀髷?shù)據(jù)進(jìn)行分析,生成相應(yīng)的天氣預(yù)報(bào)文本.
氣象專業(yè)人員的打分原則是系統(tǒng)生成的文本能否準(zhǔn)確并簡練的描述當(dāng)日氣象信息.專家打分的結(jié)果經(jīng)過統(tǒng)計(jì),如表9所示,證明了系統(tǒng)自動(dòng)生成的氣象預(yù)報(bào)文本易讀、可用性較高.
由表9可知,最后三人打分的合格率分別為89.0%、85.5%和84.0%,由此可見,系統(tǒng)預(yù)報(bào)的結(jié)果能夠比較好地描述氣象信息,基于空間分析的方法也有足夠的可行性.
4 結(jié)束語
本文利用自然語言處理技術(shù)分析海量歷史氣象文本,抽取其中的語法、用詞規(guī)律,針對每一種天氣類型建立對應(yīng)的預(yù)報(bào)文本模板;另外利用QGIS技術(shù)對原始?xì)庀髷?shù)據(jù)進(jìn)行解析,提取空間信息,并建立了一套完備的空間推理規(guī)律,最后通過模式匹配、文本生成并優(yōu)化來生成實(shí)時(shí)的氣象預(yù)報(bào)文本.目前,已證實(shí)了系統(tǒng)的準(zhǔn)確性、實(shí)時(shí)性和實(shí)用性.但是,中國氣象局發(fā)布的氣象預(yù)報(bào)種類繁多,也就是說,本文所研究的系統(tǒng)僅僅是一個(gè)開始,在氣象領(lǐng)域的文本自動(dòng)生成技術(shù)還有很多可發(fā)展空間,屆時(shí)會(huì)需要更多的空間推理方法作為支撐,這也是后續(xù)的研究方向.
參考文獻(xiàn):
〔1〕趙汝冰,肖如林,萬華偉,等.錫林郭勒盟草地變化監(jiān)測及驅(qū)動(dòng)力分析[J].中國環(huán)境科學(xué),2017,37(12):4734-4743.
〔2〕劉彬.氣象GIS空間數(shù)據(jù)集成組織與系統(tǒng)原型設(shè)計(jì)[D].南京:南京信息工程大學(xué),2017.
〔3〕吳煥萍,呂終亮,張華平,等.氣象落區(qū)文本自動(dòng)生成研究[J].計(jì)算機(jī)工程與應(yīng)用,2014(13):247-266.
〔4〕李濤,馮仲科,孫素芬,等.基于Hadoop的氣象大數(shù)據(jù)分析GIS平臺(tái)設(shè)計(jì)與試驗(yàn)[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2019,50(1):180-188.
〔5〕DUFFY D Q, SCHANSE J L, THOMPSON J H, et al. Preliminary evaluation of MapReduce for high-performance climate data analysis [EB/OL]. [2016-04-08]. https://ntrs.nasa.gov/archive/nasa/casi.ntrs.nasa.gov/2012009187.pdf.
〔6〕Huang Hongzhao,Larry H,Ji Heng. Leveraging deep neural networks and knowledge graphs for entity disambiguation [DB/OL].Ithaca:ArXiv,[2015-04-28]. Https://arxiv.org/pdf/1504.07678v1.pdf.
〔7〕Berg-KirkpatrickT, Gillick D, Klein D. Jointly learning to extract and compress[C]. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:? ?Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011:481-490.
〔8〕Galanis D, Androutsopoulos I. An extractive supervised two-stage method for sentence compression[C]. Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 885-893.
〔9〕張紅斌,殷依,姬東鴻,等.基于詞序列拼積木模型的圖像句子標(biāo)注研究[J].北京理工大學(xué)學(xué)報(bào),2017,37(11):1144-1149.
〔10〕李東陽.基于模板匹配的交通領(lǐng)域標(biāo)準(zhǔn)信息抽取技術(shù)[D].西安:長安大學(xué),2019.