劉熔熔 封秀燕 馬仙妹 錢惠文
(浙江省氣象信息網絡中心,浙江杭州310017)
浙江省歷史地面氣象報表數字化處理和應用
劉熔熔 封秀燕 馬仙妹 錢惠文
(浙江省氣象信息網絡中心,浙江杭州310017)
介紹歷史地面氣象報表數字化處理項目建設內容,紙質報表掃描、數據錄入、數據文件轉換、質量檢查,數據集制作等報表數字化技術方法,針對質量檢查中遇到的一些問題及處理方法,進一步提高氣象數據的準確性。獲取時間序列長、空間和時間分辨率更高的氣象資料,尤其逐小時風、降水和日照資料,對浙江省精細化預報服務和氣象能源開發(fā)取得較大的推進作用,提升了氣象數據共享服務能力。
歷史地面氣象報表;數字化;處理;應用
我國地面氣象記錄報表的數字化處理工作始于上世紀70年代末,目前全國2400個國家基本(準)站和一般站已基本完成建站至2008年地面氣象月報表中基本定時觀測資料的信息化(A0/A1文件),680個國家基本(準)站已完成1991—2008年風向風速、降水和日照自記月報表的信息化(A6/A7文件),560個國家基本(準)站已完成1961—2000年降水自記紙圖像掃描和數字化處理工作,這些數據在氣象業(yè)務、科研和其它社會部門中得到廣泛應用,發(fā)揮了重要作用。
浙江省共68個國家基本(準)站和一般站已基本完成建站至2008年地面氣象月報表中基本定時觀測資料的信息化(A0/A1文件),19個國家基本(準)站已完成1995—2008年(部分站1997—2008年)風向風速、降水和日照自記月報表的信息化(A6/A7文件),19個國家基本(準)站已完成1961—2000年降水自記紙圖像掃描和數字化處理工作,這些已經信息化的資料為浙江省氣象預報、科研、氣候應用發(fā)揮了重要作用。地面歷史報表數字化項目的完成,將會為浙江省氣象業(yè)務、科研和服務提供更多的信息化數據資料,為進一步提升歷史氣象資料共享能力提供良好的基礎。
歷史地面氣象報表是記載氣象資料十分寶貴的財富,早期的大量地面觀測資料都停留在紙質報表上,雖然在氣象業(yè)務和科研中發(fā)揮了重要作用,隨著現代氣象業(yè)務的快速發(fā)展,氣象紙質報表檔案資料不再適應現代氣象業(yè)務需求,迫切需要開展未信息化的報表資料數字化。
隨著氣象業(yè)務和社會的發(fā)展,需要時間序列長、空間和時間分辨率更高的氣象資料,特別是精細化預報服務和氣象能源開發(fā),對逐小時風、降水和日照資料的需求尤為突出,這些資料大多以紙質報表和圖紙的形式保存,無法被有效利用。另一方面由于年代長、保存條件差,許多紙張已經出現不同程度的變質、字跡變淡等現象,急需盡快地拯救和保護?,F代化設備的發(fā)展與更新,信息技術的提高與逐漸完善,為以紙質為載體的大批量氣象資料進行數字化處理提供了可行的基礎。歷史地面氣象報表數字化對保護歷史氣象記錄檔案,提高氣象資料資源應用共享水平有重要的作用。
歷史地面報表數字化主要是對1951—2000年的氣表-4、氣表-5、氣表-6和相關氣表月總薄、氣表-1進行數字化處理。制定相應的業(yè)務流程,建立數據質量保障體系,對歷史地面氣象報表進行圖像掃描及處理,開發(fā)專用軟件進行數據錄入、數據文件轉換、質量檢查等工作,最后進行數據集制作。
將浙江省所有沒有信息化處理的1951—2000年氣表-4、氣表-5、氣表-6、氣表-8圖像掃描和資料錄入以及1961年后的氣表-1日照、1980年后的降水和風向風速資料的圖像掃描和數字錄入,建立逐時氣壓、氣溫、相對濕度、降水、風向風速、日照和逐日電線積冰報表圖像文件數據集和降水、風向風速、日照數字化文件數據集。
2.1.1 歷史地面氣象報表資料圖像掃描
按照館藏報表的卷冊詳細登記報表種類、站名、區(qū)站號、年、月、版面規(guī)格和數量,填寫臺站信息說明表,對破損或脆化厲害的應進行備注,提醒掃描時注意保護。圖像掃描格式為標準型.jpg圖像文件,對每頁圖像文件建立名稱和日期索引。掃描幅面大小為A3或16開,掃描設備可選用A3幅面平板掃描儀或非接觸式書刊掃描儀。掃描參數根據資料原件的質量狀況和應用需求來確定,主要包括掃描分辨率和色彩模式。字跡清晰可辨的,建議采用黑白二值掃描,掃描分辨率不低于300dpi;紙張和字跡狀況不良或有多種顏色字跡的,建議采用彩色方式掃描,掃描分辨率不低于150dpi。掃描后圖像要求進行后期處理,利用軟件去除掃描過程中造成的圖像雜點和臟點;進行圖像糾偏處理,圖像偏度不得大于3°,以達到視覺上基本不感覺偏斜為準,應避免重張、傾斜、模糊等圖像質量問題,確保報表不重復掃描、不漏掃,保證文檔順序準確。
2.1.2 歷史地面氣象報表資料的錄入和轉換
按照中國氣象局項目技術組統(tǒng)一制定和下發(fā)專用的歷史地面氣象報表數字化錄入格式,包括氣表-4錄入格式、氣表-5錄入格式、氣表-6錄入格式、氣表-8錄入格式,采取“兩錄、兩校、兩驗”的方式,按照相應資料錄入格式,原則上確保錄入數據與報表數據排列格式保持一致。
開發(fā)編制軟件,將錄入氣表-4、氣表-5、氣表-6、氣表-8錄入格式文件數據轉化為歷史沿用的歷史地面月報表信息化文件格式,即地面氣象月報表A6文件格式數據,形成統(tǒng)一長序列數據集,便于數據應用。
2.2.1 圖像文件質量檢查
掃描圖像的質量直接影響到資料數字化錄入的效果,因此必須對掃描形成的圖像文件進行嚴格的質量把關。質量檢查的要求是保證本次數字化掃描圖片的清晰、完整和有序。
2.2.2 錄入數據文件質量檢查
錄入數據文件的質量直接影響到最終數據集的質量,錄入數據文件進行嚴格的質量檢查。針對數據特點開發(fā)格式檢查軟件和質量檢查軟件,分別進行文件首部檢查、數據天數檢查、數據組數檢查、數據正確性檢查、合計值檢查、界限值檢查等。對于檢查程序提示的錯情,逐條人工審核、修改,并形成錯情說明文檔保存?zhèn)洳椤?/p>
2.2.3 A6格式數據文件質量控制
研制專門質量檢查軟件,對A6格式數據文件進行質量檢查。對于檢查程序提示的錯情,需逐條人工審核,并給出錯情說明。
2.2.4 圖像文件和數據文件綜合質量檢查報告
基于質量控制檢查結果,認真編寫圖像和數據文件綜合質量檢查報告,作為最終數據集質量檢查和評估的重要參考文件。將數字化圖像和數據文件進行質量檢查的結果、數字化錄入數據文件和A6格式數據文件質量檢查錯情說明和處理等情況,綜合制作數據質量檢查報告。
按照中國氣象局氣象數據集制作統(tǒng)一標準,嚴格按照有關標準和要求,統(tǒng)一的氣象數據集元數據模版,氣象數據集說明文檔模版,建立浙江省國家基本(準)站和國家一般站1951—2000年自記記錄逐小時降水、風向風速、日照和逐日電線積冰報表圖像文件數據集和數字化文件數據集。
圖像文件數據集包括數據集實體文件、資料的元數據文檔、數據集說明文檔、臺站信息說明文檔和readme;數字化文件數據集包括數據集實體文件、資料的元數據文檔、數據集說明文檔、所有原始報表的錯誤信息文件、數據集質量評估報告、質量控制方案說明文件、臺站信息說明文檔、原始報表錯誤信息說明文件、文件格式說明文件和readme。
3.1.1 日照時數與小時日照不相符
早年代的原始報表一般采用手工抄寫,這樣就存在一些抄錯和合計計算錯的現象。
(1)上下行抄錯,一行小時日照為空,但合計欄卻有數字,而在下一行剛好相反,小時日照有相應的值,合計欄卻為0.0,兩天的合計值剛好對調。這種情況先從臺站查看原始日照自記紙,在日照自記紙銷毀,無從查證的情況下再對這兩天的日照時數進行判斷,先從天氣現象和降水量去判斷,查看當天有小時日照的時間段是否有降水量,確定哪一天真正有日照,如果兩天的天氣現象差不多,再從云量和氣溫去判斷,前后兩天一般云少,氣溫高的有日照的可能性大。
(2)小時日照和合計不一致,這種情況只要通過重新計算小時值就可以重新統(tǒng)計正確的日合計值以及月合計值。如果是行合計和列合計都與計算值不一致,那就要去查自記紙,很可能是報表抄寫的時候抄錯。
3.1.2 出現莫名的日照時數
(1)有日合計值,但沒有對應的小時值。這種情況一般通過查看本月報表的備注欄,是否有對該記錄進行備注。本項目碰到以下兩種情況為正常值:一是該日的日照缺測,根據當時觀測員記錄前后兩天的天氣情況相似,故用前一天或者是后一天的記錄代替;二是該日的日照缺測,用臨近站該日的日照合計值代替。
(2)在小時日照值里出現大于1.0的值。小時日照值的最大值就是1.0,出現大于1.0的小時值理論上肯定是錯的,但是在報表備注中也會有特殊情況的說明,例如58653站1972年8月14日的日照,在18—19時出現了3.3,在備注中注明下午日照計被人轉動,13時后的各時日照總量3.3記在18—19時,對日合計值不影響。
降水自記記錄錯誤常見情況有2種:一是降水自記日合計值統(tǒng)計錯誤,一般通過重新統(tǒng)計計算小時值、日合計值及月合計值即可解決;二是因自記儀器故障導致小時降水量缺測,日合計值用相應時段的定時降水記錄代替,一般在查看報表備注欄就可以確定記錄是否正常。
風向風速自記記錄錯誤常見情況有3種:一是日合計值統(tǒng)計錯誤,一般通過重新統(tǒng)計計算小時值、日合計值及月合計值即可;二是早年代的風向風速自記記錄月報表中存在靜風C,但風速大于0.3m/s,這種情況只能采取與原始報表一致的原則處理;三是風速自記儀器故障用實測值代替時是取整數的,與自記記錄保留一位小數不同,在日合計值容易出現錯誤,這就需要認真的校對來避免這種錯誤的存在。
歷史地面報表數字化,將本省70個國家基本(準)站和一般站已基本完成建站至2000年地面氣象月報表圖像文件數據集,完成建站至1995年地面氣象月報表中風向風速、降水和日照自記月報表的信息化(A6文件),形成建站至今逐小時風向風速、降水和日照長序列數據集,這些數據將在氣象預報預測、氣象公共服務、氣候業(yè)務、氣象科研和其它社會部門中得到廣泛應用,在氣象資料服務和防災減災中發(fā)揮重要的作用。
圖像文件數據集包含了浙江省1951—2000年地面氣象月報表圖像,含氣表-1、氣表-2、氣表-4、氣表-5、氣表-6、氣表-8。隨著圖像文件數據集的建成,可以為用戶提供地面氣象報表圖像的電子化查閱,并且實現多用戶同時查閱服務,提高效率。例如:在校對檢查歷史資料、制作臺站歷史沿革以及服務資料的數據查詢上,實現多用戶同時查閱地面氣象報表圖像數據資料,提高了效率。此外,較大豐富電子信息化檔案數據,為實現氣象檔案信息現代化管理平臺建設奠定了基礎。
歷史地面報表數字化,將本省70個國家基本(準)站和一般站形成建站至今逐小時風向風速、降水和日照長序列數據集,在氣象業(yè)務、氣象科研、氣象服務發(fā)揮重要作用,具有廣泛的應用前景。遍布全省長序列的逐小時降水量數據集,對研究1h,3h,12h降水、暴雨預報,為短時臨近精細化降水預報研究提供重要的數據基礎,尤其暴雨研究可改變傳統(tǒng)以日界(24h)固定時間段,提高暴雨預報準確率。遍布全省長序列的逐小時風向風速數據集,對研究大風歷史分布規(guī)律,提高大風預報能力,特別是風能發(fā)電,海島風能開發(fā)應用研究提供更豐富的歷史數據。全省長序列逐小時日照數據集為太陽能開發(fā)應用研究提供基礎數據,提升全省清潔能源開發(fā)利用能力,推進生態(tài)省建設具有重要意義。
通過歷史地面報表數字化,建立浙江省國家基本(準)站和國家一般站1951—2000年自記記錄逐小時降水、風向風速、日照時間序列長、空間和時間分辨率更高的氣象資料。方便業(yè)務科研人員快速檢索查閱,為氣象業(yè)務和科研工作提供更好的服務,對浙江省精細化預報服務和氣象能源開發(fā)取得較大的推進作用,提升了氣象數據共享服務能力。同時為其它氣象記錄檔案數字化開展積累了豐富的經驗,為氣象檔案現代化管理建設提供信息化數據基礎。
[1] 闕東蘭,王金平,涂 明.談黑龍江省林業(yè)、農墾氣象站歷史資料的信息化處理和審核分析[J].林業(yè)勘查設計, 2009(3):73-75.
[2] 中國氣象局預報與網絡司.歷史地面氣象報表數字化項目材料匯編[G].2009.
2010-10-27