薛改萍 次珍 尼瑪次仁
(西藏氣象信息網(wǎng)絡(luò)中心,西藏 拉薩 850000)
西藏氣象局在近10年的時間里,在中國氣象局預(yù)報與網(wǎng)絡(luò)司的精心統(tǒng)一協(xié)調(diào)組織和具體領(lǐng)導(dǎo)下,共開展了8 期氣象歷史觀測數(shù)據(jù)資料數(shù)字化業(yè)務(wù)建設(shè)工作,對大部分紙質(zhì)觀測資料開展了圖像掃描、圖像文件整理、基于軟件的數(shù)據(jù)生成和成果上報等多項(xiàng)數(shù)字化業(yè)務(wù)建設(shè)項(xiàng)目。由于氣象業(yè)務(wù)面向現(xiàn)代化發(fā)展和服務(wù)經(jīng)濟(jì)社會的需求,特別是超長序列數(shù)字化氣象資料在應(yīng)對氣候變化、精準(zhǔn)精細(xì)提供預(yù)報預(yù)測氣象服務(wù)及清潔能源建設(shè)開發(fā)和利用方面具有基礎(chǔ)性數(shù)據(jù)支撐作用,為持續(xù)提升全區(qū)氣象觀測資料數(shù)據(jù)信息化處理水平,西藏氣象檔案館對13個風(fēng)自記觀測站歷史資料進(jìn)行數(shù)字化采集處理[1]。
西藏共有13 個風(fēng)自記觀測站,最早觀測時間從1954年6月開始,由于其中相當(dāng)部分的紙張已有不同嚴(yán)重程度的圖紙變質(zhì)、筆跡模糊、紙張過度磨損等情況。
為更好更高質(zhì)量的數(shù)據(jù)保護(hù)、拯救、妥善保存及有效利用,需要將所有自記觀測紙掃描,并通過專用軟件將紙張上的風(fēng)向風(fēng)速記錄轉(zhuǎn)為數(shù)據(jù),最后形成的數(shù)字產(chǎn)品將為西藏高原長年風(fēng)的氣候研究、經(jīng)濟(jì)社會建設(shè)和服務(wù)提供基礎(chǔ)數(shù)據(jù)。
根據(jù)中國氣象局《山洪地質(zhì)災(zāi)害防治氣象保障工程》(以下稱山洪項(xiàng)目)2019年項(xiàng)目實(shí)施方案明確要求,需開展西藏歷史紙質(zhì)氣象資料數(shù)字化建設(shè)工作。本研究旨在西藏自治區(qū)共13 個風(fēng)自記觀測站1954—2010年共計134913 萬張[1]EL 型電解風(fēng)自記紙進(jìn)行圖像掃描、數(shù)字化和質(zhì)量審核,并最終生成標(biāo)準(zhǔn)的數(shù)據(jù)集產(chǎn)品。
西藏自治區(qū)氣象信息網(wǎng)絡(luò)中心在中國氣象局技術(shù)組的統(tǒng)一組織和技術(shù)指導(dǎo)下順利開展了這項(xiàng)建設(shè)工作,需要完成西藏13 個站的EL 型風(fēng)自記紙的館藏統(tǒng)計、掃描提取有效數(shù)據(jù)以及制作數(shù)據(jù)集工作,并按照項(xiàng)目建設(shè)技術(shù)組統(tǒng)一制定的相關(guān)技術(shù)解決規(guī)范和質(zhì)量標(biāo)準(zhǔn)上報數(shù)字化建設(shè)成果。
2.2.1 掃描設(shè)備。掃描設(shè)備選用柯達(dá)i3200E,掃描的分辨率為300dpi,采用彩色底片掃描,該設(shè)備具備掃描容量大、速度快,圖像清晰的特點(diǎn)。存儲后圖像文件為JPG格式。
2.2.2 圖像資料借閱。由于自記觀測紙屬于觀測原始記錄,在資料掃描借閱時,原始記錄依據(jù)館藏檔案借閱規(guī)定不能被借出氣象檔案館,所有圖像資料文件掃描和數(shù)據(jù)提取必須在西藏氣象檔案館內(nèi)進(jìn)行,并按照檔案管理制度有關(guān)規(guī)定辦理借閱登記手續(xù),完成后按照原有裝訂的順序?qū)①Y料恢復(fù)原狀,及時歸還。同時檔案管理人員還一定要再次進(jìn)行檢查核對,確保借出的檔案資料收回后真實(shí)無誤。
2.2.3 圖像文件預(yù)處理。首先需要對EL 型風(fēng)自記紙按照“風(fēng)自記紙預(yù)處理技術(shù)規(guī)定”對掃描的風(fēng)自記圖像文件紙進(jìn)行預(yù)處理,按照氣象檔案館風(fēng)自記資料詳細(xì)準(zhǔn)確地登記資料檔案種類、版面規(guī)格、站名、站號、年、月、換上前和換下后使用時間是否完整,是否正確,有無出現(xiàn)缺測、備注和數(shù)量(有效記錄面的頁數(shù))。掃描模式參數(shù)的正確設(shè)置是根據(jù)掃描資料紙張狀況和根據(jù)需要提取的掃描資料數(shù)量來確定,主要包括設(shè)置掃描資料模式和設(shè)置掃描資料分辨率。筆跡不清楚的、有多種不同顏色筆跡的,設(shè)置掃描分辨率為150dpi,筆跡清晰可辨的,設(shè)置該掃描分辨率為300dpi。對紙質(zhì)有破損或紙質(zhì)脆化厲害的資料要及時進(jìn)行詳細(xì)備注,掃描時還要特別注意安全保護(hù)。
2.2.4 圖像處理。為保證已掃描好的圖像清晰可靠使用,要提前對掃描好的所有圖像進(jìn)行預(yù)處理,避免出現(xiàn)圖像重頁、錯頁、漏頁、掃描完后黑屏、頁面不齊、傾斜、模糊等圖像問題,要充分利用圖像掃描處理軟件及時除去掃描過程中的一些圖像雜亂點(diǎn)和臟點(diǎn)。同時要進(jìn)行圖像偏差調(diào)整處理,圖像與中間水平線夾角不能大于3度,在視覺感上基本沒有偏斜角度為準(zhǔn)。
2.3.1 圖像文件檢查。檢查圖像文件質(zhì)量分為人工質(zhì)量檢查和應(yīng)用程序質(zhì)量檢查兩個部分。人工質(zhì)量檢查主要是檢查掃描圖像是否清晰、有無任何歪斜、顛倒、扭曲或變形情況,黑邊和污點(diǎn)是否需要處理,文件命名是否和自記紙標(biāo)記時間一致等。應(yīng)用程序質(zhì)量檢查主要檢查掃描一個圖像文件的完整性,看有沒有錯誤的重命名、漏掃等一系列問題[1]。
2.3.2 數(shù)據(jù)質(zhì)量檢查。對數(shù)字化完的數(shù)據(jù)質(zhì)量必須進(jìn)行檢查,其結(jié)果要有詳細(xì)備注,備注的主要內(nèi)容包括編寫數(shù)據(jù)集質(zhì)量檢查報告,包含圖像掃描文件檢查情況、數(shù)據(jù)提取及問題處理情況、數(shù)據(jù)集質(zhì)量文檔制作流程說明等[3]。
按照中國氣象局相關(guān)技術(shù)標(biāo)準(zhǔn)規(guī)定,數(shù)字化的最終成果要制作為標(biāo)準(zhǔn)數(shù)據(jù)集,數(shù)據(jù)集主要包括:氣象數(shù)據(jù)集實(shí)體存檔文件(datasets)、元數(shù)據(jù)實(shí)體文檔(metadata)、說明解釋文檔(description)、附加說明文檔(documents)、readme.txt文件[3]。
EL 型電接風(fēng)向風(fēng)速自記紙數(shù)據(jù)提取結(jié)果文件包括:圖像預(yù)處理后提取圖像文件jpg 文件)、風(fēng)自記跡線文件(gal 跡線文件)、提取效果數(shù)據(jù)文件(png 文件)、數(shù)據(jù)庫提取文件(db文件)、風(fēng)自記紙分鐘數(shù)據(jù)提取文件(Fm 文件)、小時數(shù)據(jù)提取文件(Fh 文件)共6類文件。
按照規(guī)范要求,必須用四級標(biāo)志目錄來存儲代表文件與數(shù)據(jù)上報目錄。
XX_YYYYMM[-CCn](一級目錄:數(shù)據(jù)省份代碼_年月,年月為報送時間;CCn為每年重報標(biāo)識,n為每年重報次數(shù))
IIiii(二級目錄:區(qū)站號代表區(qū)域和站點(diǎn)編號)
Pic(三級目錄:小時圖像文件和小時跟蹤數(shù)據(jù)文件)
YYYY(四級目錄:代表年份)該目錄下同時存放jpg文件和gal文件
Fm(三級目錄:分鐘風(fēng)數(shù)據(jù)文件)
Fh(三級目錄:小時風(fēng)數(shù)據(jù)文件)
BZ(三級目錄:備注數(shù)據(jù)文件)
FZJ-IIiii.db(數(shù)據(jù)庫文件)
數(shù)據(jù)集清單見表1。
表1 西藏EL型電解風(fēng)自記紙掃描圖像文件數(shù)據(jù)集清單
項(xiàng)目建設(shè)成果將對全區(qū)氣象檔案館館藏歷史資料由于有不同程度的變質(zhì)、字跡模糊、紙張磨損等情況有一個質(zhì)的保護(hù)、拯救及保存,進(jìn)一步提高西藏自治區(qū)基礎(chǔ)氣象觀測資料業(yè)務(wù)的規(guī)范化、信息化和現(xiàn)代化建設(shè)水平,成果所產(chǎn)生的數(shù)字化基礎(chǔ)氣象資料將更便于信息化條件下的資料管理和普遍應(yīng)用,能有效地幫助提高基礎(chǔ)氣象觀測資料在相關(guān)業(yè)務(wù)和科研的使用效益,在應(yīng)對氣候變化和建立現(xiàn)代氣象資料業(yè)務(wù)體系起到積極作用。