余國(guó)倩 ,陶光毅 ,趙天宇 ,劉 冰
(1.山東省水文局,山東 濟(jì)南 250002;2.山東國(guó)基光曄信息科技有限公司,山東 濟(jì)南 250021;3.南水北調(diào)東線山東干線有限責(zé)任公司,山東 濟(jì)南 250019)
隨著水文事業(yè)的發(fā)展和信息化技術(shù)的進(jìn)步,水文數(shù)據(jù)的種類和體量都在快速增長(zhǎng)。目前我國(guó)積累了大量寶貴的水文資料,如何充分利用這些長(zhǎng)期積累的水文資料進(jìn)行水文分析,以及對(duì)分析挖掘的結(jié)果進(jìn)行原始數(shù)據(jù)溯源,顯得非常重要。
水文數(shù)據(jù)中,分鐘降水?dāng)?shù)據(jù)是強(qiáng)降水天氣過(guò)程、特征研究的基礎(chǔ)資料[1]。降水自記紙記錄的分鐘降水量對(duì)于了解和研究長(zhǎng)年歷史分鐘雨量特征及規(guī)律尤為重要[2]。利用信息化技術(shù)對(duì)紙質(zhì)降水自記紙記錄進(jìn)行數(shù)字化,從降水跡線提取分鐘降水?dāng)?shù)據(jù)[3–4]會(huì)產(chǎn)生海量數(shù)據(jù),僅山東省臨沂市降水自記紙記錄數(shù)字化獲取的分鐘降水?dāng)?shù)據(jù)就約為 2.36 億個(gè)。水文數(shù)據(jù)中有大量的文字信息需要分析,包括從文本格式水文資料非結(jié)構(gòu)化數(shù)據(jù)中抽取的文字內(nèi)容,如水文論文、水資源資料、水文測(cè)站測(cè)驗(yàn)資料和考證簿,等等。
數(shù)據(jù)來(lái)源于山東省水文局提供的 4 786 個(gè)水文測(cè)站的基本信息,臨沂市 143 個(gè)水文測(cè)站 1958—2013 年降水自記紙記錄數(shù)字化獲取的約 2.36 億個(gè)分鐘降水?dāng)?shù)據(jù)、約 48 萬(wàn)個(gè)降水自記紙正面和背面圖像文件及人工記錄信息。
將水文數(shù)據(jù)存儲(chǔ)在 TRIP 數(shù)據(jù)庫(kù)中,將搜索引擎集成在 TRIP 數(shù)據(jù)庫(kù)中,分析函數(shù)集成在 TRIP 數(shù)據(jù)庫(kù)的分析應(yīng)用程序中。利用 TRIP 數(shù)據(jù)庫(kù)存儲(chǔ)、索引、中文自動(dòng)分詞、搜索引擎和統(tǒng)計(jì)分析功能,在設(shè)定的分析范圍對(duì)水文數(shù)據(jù)進(jìn)行分析。分析范圍設(shè)定的方法與檢索條件設(shè)定的方法相同,包括:全文分析范圍,字符、數(shù)值、日期、時(shí)間和文本等字段的分析范圍。分析范圍可以是 1 個(gè)或多個(gè)字段的數(shù)據(jù),使用多個(gè)字段設(shè)定分析范圍時(shí),用邏輯運(yùn)算符“與”“或”“非”組成合適的連接式。字符字段的整個(gè)字段內(nèi)容分析需設(shè)定整個(gè)字段內(nèi)容重復(fù)的次數(shù),字符字段中詞的分析需設(shè)定詞重復(fù)的次數(shù);數(shù)值分析需設(shè)定開(kāi)始值、結(jié)束值和間隔值;日期分析需設(shè)定開(kāi)始和結(jié)束日期及間隔值(年、月、日);時(shí)間分析需設(shè)定開(kāi)始和結(jié)束時(shí)間及間隔值(時(shí)、分、秒);文本字段中詞的分析需設(shè)定詞重復(fù)的次數(shù)。
按照 TRIP 數(shù)據(jù)庫(kù)存儲(chǔ)水文結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的字段類型基本要求,建立水文測(cè)站、分鐘降水、降水自記紙圖像文件等數(shù)據(jù)庫(kù),分別存儲(chǔ)水文測(cè)站基本信息、分鐘降水?dāng)?shù)據(jù)、降水自記紙圖像文件及其人工記錄信息。水文測(cè)站數(shù)據(jù)庫(kù)主要有站碼、站名、觀測(cè)項(xiàng)目、流域、站類等字段;分鐘降水?dāng)?shù)據(jù)庫(kù)主要有站碼、站名、起始日、起時(shí)間和分鐘降水量等字段;降水自記紙圖像文件數(shù)據(jù)庫(kù)主要有站碼、站名、起始日、起時(shí)間、虹吸訂正后日降水量、正面和背面圖像文件等字段。對(duì)數(shù)據(jù)庫(kù)中所有文字、數(shù)值、日期、時(shí)間內(nèi)容進(jìn)行索引,并將字符字段的整個(gè)字段內(nèi)容作為 1 個(gè)詞進(jìn)行索引,索引存儲(chǔ)在索引文件中。中文分詞采用基于詞典的中文分詞方法分析進(jìn)行[14],編制的水文中文分詞詞典應(yīng)包括水文基本術(shù)語(yǔ)[15]。
山東省水文測(cè)站的觀測(cè)項(xiàng)目有 13 項(xiàng),即流量、水位、懸移質(zhì)、降水、蒸發(fā)、冰情、地下水水位、水質(zhì)、墑情、水文調(diào)查、顆粒分析、比降、水溫。每個(gè)測(cè)站的觀測(cè)項(xiàng)目不盡相同,有 1 項(xiàng)或多項(xiàng)。在水文測(cè)站數(shù)據(jù)庫(kù)中 13 個(gè)觀測(cè)項(xiàng)目名稱存儲(chǔ)在“觀測(cè)項(xiàng)目名稱”字符字段。
2.1.1 組配完全相同的水文觀測(cè)項(xiàng)目分布
使用字符字段的整個(gè)字段內(nèi)容分析的方法,無(wú)需知道觀測(cè)項(xiàng)目和水文測(cè)站的名稱,只需對(duì)觀測(cè)項(xiàng)目名稱字段的整個(gè)字段內(nèi)容進(jìn)行分析。例如:設(shè)定觀測(cè)項(xiàng)目名稱字段的整個(gè)字段內(nèi)容重復(fù)的次數(shù)大于0,可獲得 68 種組配完全相同的觀測(cè)項(xiàng)目分布,程序運(yùn)行用時(shí)小于 1 s,水文測(cè)站組配的觀測(cè)項(xiàng)目從1 個(gè)到 11 個(gè)不等,具體分布如表1 所示。點(diǎn)擊分析結(jié)果中的觀測(cè)項(xiàng)目組配名稱或測(cè)站數(shù),可以讀取數(shù)據(jù)庫(kù)中組配完全相同的觀測(cè)項(xiàng)目的詳細(xì)信息,觀測(cè)項(xiàng)目組配流量、水位、降水的詳細(xì)信息如表2 所示。
表1 組配完全相同的觀測(cè)項(xiàng)目分布(按測(cè)站數(shù)排列前 12 位)
表2 觀測(cè)項(xiàng)目組配流量、水位、降水的詳細(xì)信息(按站碼排列前 5 位)
2.1.2 水文觀測(cè)項(xiàng)目分布
應(yīng)用SPSS 21.00軟件進(jìn)行分析,計(jì)量數(shù)據(jù)與計(jì)數(shù)數(shù)據(jù)采用均數(shù)±標(biāo)準(zhǔn)差與百分比、率表示,對(duì)比方法主要為t檢驗(yàn)與卡方χ2分析,P<0.05為差異顯著。
使用字符字段中的詞分析的方法,無(wú)需知道觀測(cè)項(xiàng)目和水文測(cè)站的名稱,只對(duì)觀測(cè)項(xiàng)目名稱字段的每個(gè)觀測(cè)項(xiàng)目名稱進(jìn)行分析。例如:設(shè)定觀測(cè)項(xiàng)目名稱字段中的詞重復(fù)的次數(shù)大于 0,每個(gè)觀測(cè)項(xiàng)目名稱必須是中文分詞詞典中的詞,可獲得 13 個(gè)觀測(cè)項(xiàng)目分布,程序運(yùn)行用時(shí)小于 1 s,具體分布如表3 所示。點(diǎn)擊分析結(jié)果中的觀測(cè)項(xiàng)目名稱或測(cè)站數(shù),可以讀取數(shù)據(jù)庫(kù)中每個(gè)觀測(cè)項(xiàng)目的詳細(xì)信息,墑情觀測(cè)項(xiàng)目的詳細(xì)信息如表4 所示。
表3 觀測(cè)項(xiàng)目分布
2.2.1 不同年份降水量分布
設(shè)定統(tǒng)計(jì)分析的日期范圍為每年 5 月 1 日—10 月 31 日,使用數(shù)值字段統(tǒng)計(jì)分析的方法,逐年對(duì)分鐘降水?dāng)?shù)據(jù)庫(kù)中臨沂市 143 個(gè)水文測(cè)站 1958—2013 年的降水量進(jìn)行統(tǒng)計(jì)分析。以 1990 年為例,116 個(gè)測(cè)站共有 5 707 條降水跡線,約有 822 萬(wàn)條分鐘降水記錄,程序運(yùn)行用時(shí)約 3 s。對(duì) 56 a 的年度統(tǒng)計(jì)進(jìn)行分析,累計(jì)運(yùn)行用時(shí)約 168 s。
2.2.2 不同月份降水量分布
統(tǒng)計(jì)分析的設(shè)定范圍為每年汛期 6—9 月,使用數(shù)值字段統(tǒng)計(jì)分析的方法,逐年逐月對(duì)分鐘降水?dāng)?shù)據(jù)庫(kù)中臨沂市 143 個(gè)水文測(cè)站 1958—2013 年的降水量進(jìn)行統(tǒng)計(jì)分析。以 1990 年 7 月為例,116 個(gè)測(cè)站共有約 229 萬(wàn)條分鐘降水記錄,程序運(yùn)行用時(shí)約3 s。對(duì) 56 a 的 6—9 月進(jìn)行歷年月份降水量統(tǒng)計(jì)分析,累計(jì)運(yùn)行用時(shí)約 672 s??傮w分析如下:7 月降水量最多,其次是 8 月,9 月降水量最少;2005 年9 月比同年其他月份降水量多;1963 年和 1970 年的7 月是歷年汛期降水量最多的月份。
表4 墑情觀測(cè)項(xiàng)目的詳細(xì)信息(按站碼排列前 5 位)
2.2.3 不同時(shí)段降水量分布
使用數(shù)值字段統(tǒng)計(jì)分析的方法,分時(shí)段對(duì)分鐘降水?dāng)?shù)據(jù)庫(kù)中臨沂市 143 個(gè)水文測(cè)站 1958—2013 年的降水量進(jìn)行統(tǒng)計(jì)分析。采用 5—10 月的降水量,設(shè)定統(tǒng)計(jì)分析的起時(shí)間為整點(diǎn),1 h 為 1 個(gè)時(shí)段,平均每個(gè)時(shí)段約有 974 萬(wàn)條分鐘降水記錄,程序運(yùn)行用時(shí)約 7 s,對(duì) 24 個(gè)時(shí)段進(jìn)行統(tǒng)計(jì)分析,累計(jì)運(yùn)行用時(shí)約 168 s??傮w分析如下:臨沂市夜(20:00—次日 8:00)降水量大于晝(8:00—20:00)降水量,夜降水量占總降水量的 52.65%,晝降水量占總降水量的 47.35%。
2.2.4 單站單日降水量分布
使用數(shù)值字段統(tǒng)計(jì)分析的方法,對(duì)降水自記紙圖像文件數(shù)據(jù)庫(kù)中臨沂市 143 個(gè)水文測(cè)站 1958—2013 年的日降水量進(jìn)行統(tǒng)計(jì)分析。設(shè)定日降水量間隔值為 50 mm,獲得單站單日降水量分布,程序運(yùn)行用時(shí)小于 1 s。點(diǎn)擊分析結(jié)果中的日降水量或站次可以讀取數(shù)據(jù)庫(kù)中單站單日降水的詳細(xì)信息,并對(duì)降水自記紙圖像文件進(jìn)行溯源。單站單日降水量為300.1~350.0 mm 的詳細(xì)信息如表5 所示。
表5 1958—2013 年臨沂市單站單日降水量為 300.1~350.0 mm 的詳細(xì)信息(摘錄)
將字符字段的整個(gè)字段內(nèi)容作為 1 個(gè)詞進(jìn)行索引,索引存儲(chǔ)在索引文件中,這樣,就將整個(gè)字段相同的內(nèi)容匯聚在一起。對(duì)整個(gè)字段內(nèi)容進(jìn)行分析時(shí),將整個(gè)字段內(nèi)容作為 1 個(gè)詞進(jìn)行分析,無(wú)需知道組配的觀測(cè)項(xiàng)目名稱,通過(guò)分析所有組配的觀測(cè)項(xiàng)目名稱出現(xiàn)的次數(shù),就可獲得所有組配的觀測(cè)項(xiàng)目名稱及出現(xiàn)的次數(shù),獲得組配完全相同的觀測(cè)項(xiàng)目分布。
對(duì)字符字段中的詞進(jìn)行索引,索引存儲(chǔ)在索引文件中,這樣,就將字段中相同的詞匯聚在一起。使用字符字段中的詞分析方法,無(wú)需知道觀測(cè)項(xiàng)目名稱,對(duì)觀測(cè)項(xiàng)目名稱中的每個(gè)觀測(cè)項(xiàng)目進(jìn)行分析,就可獲得所有觀測(cè)項(xiàng)目名稱及出現(xiàn)的次數(shù),獲得觀測(cè)項(xiàng)目分布。觀測(cè)項(xiàng)目名稱必須是水文中文分詞詞典中的詞。
對(duì)文本字段中的詞(包括從文本格式水文資料非結(jié)構(gòu)化數(shù)據(jù)中抽取的詞)進(jìn)行全文索引,索引存儲(chǔ)在索引文件中,這樣,就將字段中相同的詞匯聚在一起。使用文本字段中的詞分析方法,無(wú)需知道有哪些詞,對(duì)全部詞進(jìn)行分析,就可獲得所有詞及出現(xiàn)的次數(shù)。詞必須是水文中文分詞詞典中的詞。
本研究使用的數(shù)據(jù)來(lái)自于臨沂市 143 個(gè)測(cè)站,每年參與監(jiān)測(cè)的平均測(cè)站數(shù)為 61 個(gè),站網(wǎng)平均密度達(dá)到 282 km2/站,測(cè)站分布在山地、丘陵、平原等不同地形處。水文站網(wǎng)是開(kāi)展水文工作的基礎(chǔ),其布設(shè)是否合理,密度是否得當(dāng),直接影響到水文數(shù)據(jù)的可靠程度和分析的準(zhǔn)確性,對(duì)水文工作的開(kāi)展有著廣泛而深遠(yuǎn)的影響[16]。對(duì)于站網(wǎng)布設(shè)不合理和密度低的區(qū)域,按最優(yōu)站網(wǎng)的要求,調(diào)整站網(wǎng)布設(shè)同,增加站網(wǎng)密度,使水文站網(wǎng)的整體功能達(dá)到最強(qiáng)。
采用信息化技術(shù)提取分鐘降水?dāng)?shù)據(jù),處理過(guò)程更客觀,減少了同一條降水跡線不同人讀取時(shí)可能產(chǎn)生數(shù)值大小的偏差。分鐘降水量可以滿足降水時(shí)空精細(xì)化分析要求。
使用臨沂市 143 個(gè)測(cè)站 1958—2013 年的分鐘降水量,分析臨沂市不同年份、月份、晝夜的降水變化特征,結(jié)果如下:2002 年汛期降水量最少,僅為248.3 mm,與張勝平等對(duì) 2002 年汛期山東全省平均降水量為 238.0 mm 的分析結(jié)果[17]基本相同;2005 年汛期降水量為 838.4 mm,每個(gè)月份降水量都較高,尤其是 9 月份降水量達(dá)到 252.8 mm,為歷年 9 月份降水量最高,與張世功等對(duì) 2005 年 9 月份臨沂全市平均降水量為 246.4 mm 的分析結(jié)果[18]接近;臨沂市夜降水量大于晝降水量,夜降水量占總降水量的52.65%,晝降水量占總降水量的 47.35%,與賈艷青等對(duì)華北地區(qū)晝夜降水量分布的結(jié)論[19]基本一致。
水文數(shù)據(jù)溯源是對(duì)分析的原始數(shù)據(jù)進(jìn)行溯源。歷史降水?dāng)?shù)據(jù)溯源須找到降水自記紙?jiān)加涗洠ń邓杂浖堄涗浀慕邓E線和人工記錄信息。將臨沂市 143 個(gè)水文測(cè)站 1958—2013 年的全部降水自記紙記錄數(shù)字化獲取的約 2.36 億個(gè)分鐘降水?dāng)?shù)據(jù)存入分鐘降水?dāng)?shù)據(jù)庫(kù),將約 48 萬(wàn)個(gè)降水自記紙正面和背面圖像文件及人工記錄信息,按照匹配關(guān)聯(lián)關(guān)系全部裝入數(shù)據(jù)庫(kù)。降水自記紙正面和背面圖像文件及人工記錄信息存儲(chǔ)在同一條記錄,同時(shí)自動(dòng)生成唯一的記錄號(hào),高效地將降水自記紙正面和背面圖像文件及人工記錄信息組織在一起,根據(jù)分析結(jié)果,可快速讀取文件及信息并進(jìn)行溯源。
基于非關(guān)系型數(shù)據(jù)庫(kù)的水文數(shù)據(jù)分析方法,充分利用非關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)海量水文結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),以及對(duì)文字信息索引的功能,在硬件低配置的條件下,設(shè)定統(tǒng)計(jì)分析的范圍,快速對(duì)水文數(shù)據(jù)進(jìn)行分析。對(duì)降水變化特征的分析,不是使用摘錄的自記降水?dāng)?shù)據(jù)或整編的降水?dāng)?shù)據(jù),而是使用臨沂市所有 143 個(gè)測(cè)站 56 a 積累的全部降水自記紙記錄數(shù)字化提取的分鐘降水?dāng)?shù)據(jù),這樣能夠從不同的角度,更細(xì)致地觀察和研究降水?dāng)?shù)據(jù)的方方面面,進(jìn)行新的分析,深入挖掘降水?dāng)?shù)據(jù)的價(jià)值。對(duì)字符字段的整個(gè)字段內(nèi)容及字符和文本字段中的詞進(jìn)行分析,可以有效用于水文數(shù)據(jù)中的文字信息分析。
今后的研究中將增加更多的分析功能,深入挖掘水文數(shù)據(jù)的價(jià)值,研究分析水文數(shù)據(jù)的相關(guān)和因果等關(guān)系,為管理決策提供科學(xué)依據(jù)。