亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于空間分析的氣象預(yù)報(bào)文本實(shí)時(shí)生成研究

2019-09-10 07:22:44于敏曹學(xué)海邱國鵬

赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版 2019年10期

于敏曹學(xué)海邱國鵬

摘要：旨在將專業(yè)且繁雜的原始?xì)庀髷?shù)據(jù)轉(zhuǎn)化成通俗易懂的氣象預(yù)報(bào)文本，提高氣象服務(wù)的時(shí)效性、科技含量和豐富性，重點(diǎn)對原始?xì)庀髷?shù)據(jù)進(jìn)行空間計(jì)算，另外利用特征提取相關(guān)算法處理海量歷史氣象文本，構(gòu)建氣象預(yù)報(bào)文本的模板庫.在此基礎(chǔ)上實(shí)現(xiàn)了一套面向氣象大數(shù)據(jù)的氣象預(yù)報(bào)文本實(shí)時(shí)生成系統(tǒng).實(shí)驗(yàn)結(jié)果顯示，該系統(tǒng)生成的氣象文本準(zhǔn)確性達(dá)到71%，通順性達(dá)到85%，合格率可達(dá)84%.較為理想的實(shí)驗(yàn)結(jié)果也證明了該系統(tǒng)的可行性與準(zhǔn)確性，具有良好而廣闊的應(yīng)用前景.

關(guān)鍵詞：自然語言處理;特征提取;空間分析;文本自動(dòng)生成

中圖分類號(hào)：P458? 文獻(xiàn)標(biāo)識(shí)碼：A? 文章編號(hào)：1673-260X（2019）10-0127-04

相關(guān)數(shù)據(jù)顯示，中國是受災(zāi)害影響最嚴(yán)重的國家之一，氣象災(zāi)害的有效防御還需要?dú)庀蠓?wù)能力的進(jìn)一步提高;人民生活方式的不斷轉(zhuǎn)變和生活質(zhì)量的不斷提高也需要更高層次的氣象服務(wù)相匹配.但是，現(xiàn)在我國氣象服務(wù)行業(yè)仍然存在著服務(wù)能力和經(jīng)濟(jì)社會(huì)發(fā)展要求不相適應(yīng)，產(chǎn)品質(zhì)量不高，科技含量不足等問題.近年來，GIS（Geographic Information System地理信息系統(tǒng)）技術(shù)在氣象的可視化、圖形化領(lǐng)域發(fā)揮了重要作用[1]，但是在具體的文本輸出方面，多數(shù)氣象部門仍然采用人工的方式解讀大量實(shí)況數(shù)據(jù)，并依靠人工進(jìn)行氣象的描述和文本輸出.很明顯，這種人工的方式已經(jīng)無法滿足現(xiàn)代社會(huì)所需要的時(shí)效性、精細(xì)化、更新快的氣象預(yù)報(bào)產(chǎn)品的要求.

國外于20世紀(jì)70年代初就開始了天氣預(yù)報(bào)文本的計(jì)算機(jī)自動(dòng)或半自動(dòng)生成技術(shù)的研究，代表性的有1991年的Scribe、1993年的ICWF和1999年的Siren系統(tǒng)[2].從國內(nèi)來看，中國氣象局于2014年研究的氣象落區(qū)文本自動(dòng)生成技術(shù)實(shí)現(xiàn)了從標(biāo)準(zhǔn)化的氣象數(shù)據(jù)到篇章級(jí)氣象預(yù)報(bào)文本的自動(dòng)生成[3].然而上述研究均存在一些不足：如只停留在原始?xì)庀髷?shù)據(jù)空間處理和氣象預(yù)報(bào)文本自動(dòng)生成分割處理的階段，缺乏時(shí)效性.

本文將建立面向氣象預(yù)報(bào)文本生成技術(shù)的文本特征提取、模式匹配、文本規(guī)劃組織的自然語言處理模型，并利用GIS相關(guān)工具對原始?xì)庀髷?shù)據(jù)進(jìn)行空間分析，獲取具體氣象信息并結(jié)合文本模型生成完整的氣象預(yù)報(bào)文本，從而建立基于空間分析的氣象預(yù)報(bào)文本實(shí)時(shí)生成系統(tǒng)模型與方法.

1 基于QGIS空間分析的氣象數(shù)據(jù)模型構(gòu)建

中國氣象局目前所有的原始?xì)庀髷?shù)據(jù)主要為14類Micaps數(shù)據(jù)，包括降水、氣溫、臺(tái)風(fēng)、霧霾等各類氣象類型，分為點(diǎn)、線、面、柵格四種格式.Micaps數(shù)據(jù)中包含有地理方位、氣象代碼、距離、方向、等級(jí)等多個(gè)特征，需從這些特征中綜合提取出氣象空間特征[4].還需考慮不同氣象要素、不同表現(xiàn)形式（單站點(diǎn)數(shù)據(jù)如觀測點(diǎn)數(shù)據(jù)、格點(diǎn)數(shù)據(jù)如降水?dāng)?shù)值），對于特定類型的氣象數(shù)據(jù)在空間特征提取的方法上也存在差異（如觀測站點(diǎn)需要先進(jìn)行插值處理形成空間分布場然后再表達(dá)）[4].

根據(jù)數(shù)據(jù)類型分別調(diào)用不同的GDAL庫接口從而創(chuàng)建不同格式的文件[5].具體的每種原始?xì)庀髷?shù)據(jù)處理流程如圖1所示.

以Micaps7數(shù)據(jù)為例，它是專門用于臺(tái)風(fēng)預(yù)警的站點(diǎn)數(shù)據(jù)，處理后得到的shp文件如圖2所示，表1為添加數(shù)據(jù)之后生成的shp文件屬性表（部分），包含有臺(tái)風(fēng)的時(shí)間、位置、速度等屬性.

可以看到，每種天氣要素發(fā)生的地理位置在原始?xì)庀髷?shù)據(jù)中是以經(jīng)緯度形式出現(xiàn)的，無法直接得到具體地名，需利用QGIS模塊并結(jié)合空間疊加原理，將每個(gè)級(jí)別的氣象地理區(qū)劃的空間文件分別同預(yù)報(bào)的天氣要素地理位置文件進(jìn)行疊加，得到重合的部分，讀取該重合部分所屬的每級(jí)區(qū)劃（如疊加部分屬于江南地區(qū)、江南地區(qū)東部、江西省、江西省北部）、天氣信息（如天氣的類別、級(jí)別等）、重合部分面積以及此面積占整個(gè)所屬地理區(qū)劃面積的比例p.確定了如上信息就可以進(jìn)行空間推理分析[2]，規(guī)則如表2所示.

2 氣象預(yù)報(bào)文本的特征提取與建模

2.1 氣象預(yù)報(bào)文本的特征提取

引入中國氣象局2015-2017年間各類型的歷史氣象文本資料共2000份，作為本模型的訓(xùn)練數(shù)據(jù)，利用NLPIR-ICTCLAS對氣象文本數(shù)據(jù)進(jìn)行信息抽取[6].主要抽取以下兩部分信息：1.天氣（天氣類型和天氣預(yù)警）和地理區(qū)域變量描述詞組;2.描述天氣的短句模板.這兩部分信息結(jié)合就可以組成一句完整的天氣描述的句子.部分結(jié)果如表3所示.

詞頻統(tǒng)計(jì)[7]結(jié)果顯示，在2000份氣象預(yù)報(bào)文本中，一共出現(xiàn)了2468個(gè)詞語，有些詞全年只出現(xiàn)了1-2次，屬于分詞中生僻詞.對預(yù)報(bào)文本進(jìn)行詞頻統(tǒng)計(jì)信息抽取的目的是得到氣象文本編寫的通用規(guī)律，所以在研究過程中只需要關(guān)注重點(diǎn)詞匯就可以了，低頻率的詞匯可以忽略.

二元詞組鄰接分析[8]部分結(jié)果如表4所示，所有的二元詞對總數(shù)只有17314.這種文本分析對研究預(yù)報(bào)員的文本寫作習(xí)慣是非常有效的.

結(jié)合上述詞頻統(tǒng)計(jì)結(jié)果和二元詞組鄰接分析結(jié)果，歸納出氣象預(yù)報(bào)文本必須包含的信息：模板規(guī)則和變量詞匯，其中變量詞匯包括氣象變量和地理區(qū)域變量，兩類變量通常是同時(shí)出現(xiàn)的，氣象變量主要是指描述各類氣象要素的專業(yè)氣象詞匯，比如“霧霾”“雷暴”“強(qiáng)對流”等詞匯，地理變量信息是描述天氣所在位置的地理區(qū)域，可以將全國分為四個(gè)等級(jí)來逐步縮小天氣的描述范圍，如“華北地區(qū)”“華北東部”來使天氣范圍更為精準(zhǔn).這類變量名詞均是可數(shù)且有限，指代（天氣、地理區(qū)域）明確的.

2.2 句子模板庫的構(gòu)建

經(jīng)過上述對文本的變量詞匯和模板規(guī)則的提取，可以建立相應(yīng)的短句模板和氣象變量詞匯文本庫[9]，描述天氣情況的句子主要是由這兩部分組成.

為每種氣象類型分別建立句子模板庫，其中中括號(hào)[]內(nèi)部的信息表示必填變量，如時(shí)間、地點(diǎn)、氣象等級(jí)等;大括號(hào){}內(nèi)部信息為選填項(xiàng)，根據(jù)氣象等級(jí)的不同選擇是否出現(xiàn).以下為氣溫預(yù)報(bào)模板示例：

“[時(shí)間]，[地點(diǎn)]氣溫將{上升/下降}{度數(shù)}℃，其中{地區(qū)}{局部地區(qū)}{上升/下降}溫度可達(dá){度數(shù)}℃”

QGIS模塊將處理后得到的氣象變量信息保存在一張附帶屬性表的shp文件中，通過空間分析技術(shù)確定每一氣象類型對應(yīng)的具體地理區(qū)域，最后系統(tǒng)會(huì)從不同類別的子庫中選擇合適的句子進(jìn)行描述.將合適的氣象信息填入句子模板的過程就是一個(gè)簡單的“填槽”過程[10].例如在預(yù)報(bào)氣溫時(shí)，可以由上述模型獲得溫度變化較大的地區(qū)的地理名稱以及具體的溫差數(shù)據(jù)，即“山東省北部、河北省大部、江南大部分地區(qū)、西北北部地區(qū)”，將其填入[地點(diǎn)]處地點(diǎn)對應(yīng)的位置可得：

“20日8時(shí)，山東省北部、河北省大部、江南大部分地區(qū)、西北北部地區(qū)氣溫將上升4～8℃，其中，河北省大部、江南大部分地區(qū)局部地區(qū)上升溫度可達(dá)10～12℃”

2.3 算法過程

根據(jù)上述模型，對原始?xì)庀髷?shù)據(jù)進(jìn)行空間計(jì)算，并利用自然語言處理技術(shù)構(gòu)建氣象預(yù)報(bào)文本的模板庫，實(shí)現(xiàn)一套氣象預(yù)報(bào)文本實(shí)時(shí)生成系統(tǒng).系統(tǒng)框架如圖3所示.

3 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)采用的氣象數(shù)據(jù)來自中國氣象局，包括氣溫、降雨、降雪等普通氣象類型以及霾預(yù)警、臺(tái)風(fēng)預(yù)警、暴雨預(yù)警等各種預(yù)警類型，類別范圍廣且具有代表性.實(shí)驗(yàn)結(jié)果分為以下兩種評價(jià)方式，邀請三位中國氣象局專業(yè)人員進(jìn)行評價(jià)：

（1）對系統(tǒng)生成的各氣象類型預(yù)報(bào)文本分別進(jìn)行人工評級(jí)，從準(zhǔn)確性和通順性兩個(gè)角度，評價(jià)等級(jí)分為五級(jí)：很好、好、一般、不好、差，其中準(zhǔn)確性是指文本中的氣象類型、氣象數(shù)值、地理變量等是否與原始?xì)庀髷?shù)據(jù)所表達(dá)的一致;通順性是指文本用詞、語句是否符合氣象預(yù)報(bào)的規(guī)范;統(tǒng)計(jì)五個(gè)等級(jí)下有多少篇對應(yīng)的預(yù)報(bào)文本，規(guī)定一般及以上等級(jí)為合格，并計(jì)算合格率.

（2）對系統(tǒng)生成的200篇?dú)庀箢A(yù)報(bào)文本與對應(yīng)的歷史文本（由人工生成）進(jìn)行相似性比對，分為：很好、好、一般、不好、差五個(gè)等級(jí)，并統(tǒng)計(jì)合格率.

3.1 各氣象類型的預(yù)報(bào)文本實(shí)時(shí)生成實(shí)驗(yàn)分析

以降水預(yù)報(bào)實(shí)驗(yàn)結(jié)果為例，降水預(yù)報(bào)的輸出結(jié)果如下：

請輸入要測試的數(shù)據(jù)類型（1，3，4，7，14，lwfd）：14

正在處理第十四種類型的數(shù)據(jù)...

正在處理暴雨模塊...

Handel micaps14......

正在與第一級(jí)別行政區(qū)劃疊加..................

0...10...20...30...40...50...60...70...80...90...100 - done.

與一級(jí)行政區(qū)劃疊加后返回值（0表示正常）：0

將與一級(jí)行政區(qū)劃的結(jié)果圖層寫入磁盤shp文件的處理結(jié)果（0表示成功）：0

正在與第二級(jí)別行政區(qū)劃疊加..................

0...10...20...30...40...50...60...70...80...90...100 - done.

與二級(jí)行政區(qū)劃疊加后返回值（0表示正常）：0

將與二級(jí)行政區(qū)劃的結(jié)果圖層寫入磁盤shp文件的處理結(jié)果（0表示成功）：0

江南中部、貴州東南部等地大部地區(qū)，廣東、江蘇、福建西北部等地部分地區(qū)有大雨，安徽、廣西、湖南、江西、浙江、廣東西北部、湖北東部等地部分地區(qū)有暴雨，其中安徽南部、廣西東北部、湖南南部、江西北部等地部分地區(qū)有大暴雨.

暴雨預(yù)警：? ?3，4，14，lwfd

強(qiáng)對流天氣預(yù)警：1，3，4，14，lwfd

沙塵暴預(yù)警：? 4，14

海上大風(fēng)預(yù)警： 3，4，14

寒潮預(yù)警：? ?1，3，4，14

暴雪預(yù)警：? ?1，3，4，14

霾預(yù)警：? ? 1，3，4，14，lwfd

高溫預(yù)警：? ?1，3，4，14，lwfd

臺(tái)風(fēng)預(yù)警：? ?7

退出程序：? ?0

氣象人員對該結(jié)果進(jìn)行打分如表5所示：

可以看出，系統(tǒng)本次生成降水預(yù)報(bào)文本的準(zhǔn)確性好，通順性很好.

此外，隨機(jī)抽取100份原始降水?dāng)?shù)據(jù)進(jìn)行處理，由系統(tǒng)自動(dòng)生成100篇降水預(yù)報(bào)文本，邀請中國氣象局三位氣象專業(yè)人員分別針對文本的準(zhǔn)確性和通順性進(jìn)行評級(jí)，準(zhǔn)確性、通順性結(jié)果如表6、表7所示.

可以看出，對于降水?dāng)?shù)據(jù)，系統(tǒng)自動(dòng)生成的預(yù)報(bào)文本準(zhǔn)確性在80%以上，通順性可達(dá)90%（均取最低值）.

分別對每一種氣象類型的準(zhǔn)確性和通順性進(jìn)行打分，部分匯總結(jié)果如表8所示.

通過實(shí)驗(yàn)可以看出，此系統(tǒng)生成的氣象預(yù)報(bào)文本的準(zhǔn)確性都在71%以上，通順性都在85%以上.

3.2 實(shí)證比對分析

目前系統(tǒng)支持各類天氣的實(shí)況預(yù)報(bào)和災(zāi)害天氣預(yù)警，為了驗(yàn)證其輸出的準(zhǔn)確性，隨機(jī)選取2015年5月28日發(fā)布的全國降水預(yù)報(bào)原始數(shù)據(jù)做為輸入，本系統(tǒng)輸出的氣象預(yù)報(bào)文本如下：

28日08時(shí)至29日08時(shí)，江南中東部、華南、新疆西部、四川省、西寧、黑龍江西北部等地有中到大雨，其中，華南地區(qū)北部和南部沿海、江西中部和東北部、浙江西部和北部、安徽南部等地的部分地區(qū)有暴雨，廣東北部、廣西東北部等地局地有大暴雨（100～130毫米）.新疆地區(qū)、內(nèi)蒙古中東部、華北北部、東北地區(qū)南部等地有4～6級(jí)風(fēng).新疆地區(qū)等地的部分地區(qū)有揚(yáng)沙或浮塵.東海南部海域、臺(tái)灣海峽、臺(tái)灣以東有5～7級(jí)、陣風(fēng)8級(jí)的西南風(fēng)，南海大部海域、北部灣有5～6級(jí)、陣風(fēng)7級(jí)的西南或偏南風(fēng).

當(dāng)天中央氣象臺(tái)發(fā)布的氣象預(yù)報(bào)文本如下：

28日08時(shí)至29日08時(shí)，江南中東部、華南、新疆伊犁河谷、川西高原北部、黑龍江西北部等地有中到大雨，其中，華南北部和南部沿海、江西中部和東北部、浙江西部和北部、安徽南部等地的部分地區(qū)有暴雨，廣東北部、廣西東北部等地局地有大暴雨（100～130毫米）.新疆、內(nèi)蒙古中東部、華北北部、東北地區(qū)南部等地有4～6級(jí)風(fēng).新疆南疆盆地等地的部分地區(qū)有揚(yáng)沙或浮塵.東海南部海域、臺(tái)灣海峽、臺(tái)灣以東洋面有5～7級(jí)、陣風(fēng)8級(jí)的西南風(fēng)，南海大部海域、北部灣有5～6級(jí)、陣風(fēng)7級(jí)的西南或偏南風(fēng).

從2015-2017年的氣象預(yù)報(bào)文本數(shù)據(jù)庫中，隨機(jī)抽取200篇天氣預(yù)報(bào)（這些文本是預(yù)報(bào)員手工寫的）以及其相對應(yīng)的原始?xì)庀髷?shù)據(jù)（矩陣格式），同時(shí)用該系統(tǒng)調(diào)用這200份原始?xì)庀髷?shù)據(jù)進(jìn)行分析，生成相應(yīng)的天氣預(yù)報(bào)文本.

氣象專業(yè)人員的打分原則是系統(tǒng)生成的文本能否準(zhǔn)確并簡練的描述當(dāng)日氣象信息.專家打分的結(jié)果經(jīng)過統(tǒng)計(jì)，如表9所示，證明了系統(tǒng)自動(dòng)生成的氣象預(yù)報(bào)文本易讀、可用性較高.

由表9可知，最后三人打分的合格率分別為89.0%、85.5%和84.0%，由此可見，系統(tǒng)預(yù)報(bào)的結(jié)果能夠比較好地描述氣象信息，基于空間分析的方法也有足夠的可行性.

4 結(jié)束語

本文利用自然語言處理技術(shù)分析海量歷史氣象文本，抽取其中的語法、用詞規(guī)律，針對每一種天氣類型建立對應(yīng)的預(yù)報(bào)文本模板;另外利用QGIS技術(shù)對原始?xì)庀髷?shù)據(jù)進(jìn)行解析，提取空間信息，并建立了一套完備的空間推理規(guī)律，最后通過模式匹配、文本生成并優(yōu)化來生成實(shí)時(shí)的氣象預(yù)報(bào)文本.目前，已證實(shí)了系統(tǒng)的準(zhǔn)確性、實(shí)時(shí)性和實(shí)用性.但是，中國氣象局發(fā)布的氣象預(yù)報(bào)種類繁多，也就是說，本文所研究的系統(tǒng)僅僅是一個(gè)開始，在氣象領(lǐng)域的文本自動(dòng)生成技術(shù)還有很多可發(fā)展空間，屆時(shí)會(huì)需要更多的空間推理方法作為支撐，這也是后續(xù)的研究方向.

參考文獻(xiàn)：

〔1〕趙汝冰，肖如林，萬華偉，等.錫林郭勒盟草地變化監(jiān)測及驅(qū)動(dòng)力分析[J].中國環(huán)境科學(xué)，2017，37（12）：4734-4743.

〔2〕劉彬.氣象GIS空間數(shù)據(jù)集成組織與系統(tǒng)原型設(shè)計(jì)[D].南京：南京信息工程大學(xué)，2017.

〔3〕吳煥萍，呂終亮，張華平，等.氣象落區(qū)文本自動(dòng)生成研究[J].計(jì)算機(jī)工程與應(yīng)用，2014（13）：247-266.

〔4〕李濤，馮仲科，孫素芬，等.基于Hadoop的氣象大數(shù)據(jù)分析GIS平臺(tái)設(shè)計(jì)與試驗(yàn)[J].農(nóng)業(yè)機(jī)械學(xué)報(bào)，2019，50（1）：180-188.

〔5〕DUFFY D Q， SCHANSE J L， THOMPSON J H， et al. Preliminary evaluation of MapReduce for high-performance climate data analysis [EB/OL]. [2016-04-08]. https：//ntrs.nasa.gov/archive/nasa/casi.ntrs.nasa.gov/2012009187.pdf.

〔6〕Huang Hongzhao，Larry H，Ji Heng. Leveraging deep neural networks and knowledge graphs for entity disambiguation [DB/OL].Ithaca：ArXiv，[2015-04-28]. Https：//arxiv.org/pdf/1504.07678v1.pdf.

〔7〕Berg-KirkpatrickT， Gillick D， Klein D. Jointly learning to extract and compress[C]. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics：? ?Human Language Technologies-Volume 1. Association for Computational Linguistics， 2011：481-490.

〔8〕Galanis D， Androutsopoulos I. An extractive supervised two-stage method for sentence compression[C]. Human Language Technologies： The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics， 2010： 885-893.

〔9〕張紅斌，殷依，姬東鴻，等.基于詞序列拼積木模型的圖像句子標(biāo)注研究[J].北京理工大學(xué)學(xué)報(bào)，2017，37（11）：1144-1149.

〔10〕李東陽.基于模板匹配的交通領(lǐng)域標(biāo)準(zhǔn)信息抽取技術(shù)[D].西安：長安大學(xué)，2019.