曾俊軒,張 沙,戴能武
(長江水利委員會網(wǎng)絡與信息中心,湖北 武漢 430010)
數(shù)據(jù)是水利信息化的核心,是各類水利業(yè)務應用系統(tǒng)的支撐和基礎(chǔ)。隨著水利信息化進程的不斷深入,各級政府、事業(yè)單位和社會公眾對流域內(nèi)社會經(jīng)濟統(tǒng)計數(shù)據(jù)的需求越來越大,要求也越來越高。社會經(jīng)濟統(tǒng)計數(shù)據(jù)作為社會經(jīng)濟發(fā)展的脈搏,服務于防汛抗旱、水資源保護與管理、水土保持監(jiān)測與管理、水利工程建設與管理、農(nóng)村水電及電氣化管理、水利規(guī)劃設計管理等多種應用業(yè)務[1],在流域管理與決策中發(fā)揮著越來越重要的作用。但是,目前可獲取到的社會經(jīng)濟統(tǒng)計數(shù)據(jù)大多只能提供到縣一級,無法精確到鄉(xiāng)鎮(zhèn),因此對于縣級行政區(qū)中只有部分區(qū)劃在流域中的情況,如果直接使用社會經(jīng)濟數(shù)據(jù)將造成極大的誤差。
以長江流域水行政管理數(shù)據(jù)庫中社會經(jīng)濟統(tǒng)計數(shù)據(jù)應用為例,從統(tǒng)計專題、指標設計、指標內(nèi)涵等方面分析社會經(jīng)濟統(tǒng)計數(shù)據(jù)的特征,梳理了流域水行政管理中的數(shù)據(jù)應用需求,提出一套以流域空間單元為劃分、以數(shù)據(jù)分攤匯總為思路進行社會經(jīng)濟統(tǒng)計信息整合的應用方案,并討論該方案的優(yōu)缺點。
社會經(jīng)濟統(tǒng)計數(shù)據(jù)是社會經(jīng)濟組成要素在現(xiàn)實世界的時間與空間框架中運動與變化過程的反映[2],公布形式有統(tǒng)計年鑒、電子文檔、數(shù)據(jù)庫等。其中,統(tǒng)計年鑒主要根據(jù)政府公報、文件、國家重要報刊和各類統(tǒng)計報告的內(nèi)容精選編輯而成,內(nèi)容豐富、數(shù)據(jù)可靠,目前已成為了解和掌握我國國民經(jīng)濟和社會各領(lǐng)域發(fā)展狀況權(quán)威的、不可或缺的工具和資料來源。由于年鑒連續(xù)出版并提供逐年可比的資料與數(shù)據(jù),已吸引越來越多的用戶利用年鑒獲取所需的各種統(tǒng)計數(shù)據(jù)。
國家和地方各級統(tǒng)計局每年的社會經(jīng)濟統(tǒng)計數(shù)據(jù)龐大,從統(tǒng)計指標內(nèi)容來看,涉及自然資源、國民經(jīng)濟核算、人口、就業(yè)人員和職工工資、科技教育衛(wèi)生、財政、物價指數(shù)、人民生活狀況、三大產(chǎn)業(yè)各種指數(shù)等主要方面;從統(tǒng)計范圍涉及的行政層級來看,主要分為省、市、縣3級。根據(jù)目前社會經(jīng)濟統(tǒng)計數(shù)據(jù)的特點,用戶在利用數(shù)據(jù)時需要注意以下問題:
1)部分統(tǒng)計專題在時間維度上不連續(xù)。例如,河南省統(tǒng)計年鑒 2001年市級統(tǒng)計數(shù)據(jù)有23個專題,2007年有29個專題,雖然統(tǒng)計的內(nèi)容大部分相同,但用戶在使用數(shù)據(jù)時仍可能遇到上一年存在的指標在下一年卻空缺的情況。
2)不同行政區(qū)劃對統(tǒng)計指標內(nèi)容和類型要求存在差異。首先,省、市、縣級統(tǒng)計指標涵蓋范圍不完全一致,用戶在使用數(shù)據(jù)的過程中可能會出現(xiàn)某些指標在省、市級存在而在縣級空缺的情況。例如,福建省 2009年的統(tǒng)計年鑒中包含了省、市級“有效灌溉面積”數(shù)據(jù),但縣級相應指標數(shù)據(jù)卻沒有。其次,年鑒中絕大部分市(自治州)目前尚無市轄區(qū)社會經(jīng)濟統(tǒng)計數(shù)據(jù),用戶僅能查到部分直轄市市轄區(qū)的數(shù)據(jù)。例如,用戶可以在年鑒中找到2009年上海市轄區(qū)內(nèi)黃埔區(qū)的“年末總?cè)丝跀?shù)”,卻查不出江蘇省南京市轄區(qū)內(nèi)玄武區(qū)的“年末總?cè)丝跀?shù)”。
3)各地同類統(tǒng)計指標的內(nèi)涵和單位不完全統(tǒng)一。例如,針對“總?cè)丝跀?shù)”,有些地區(qū)是按“戶籍人口數(shù)”統(tǒng)計,而有些地區(qū)按“常住人口數(shù)”統(tǒng)計。又如,針對“總戶數(shù)”這一指標單位,一般省、市級年鑒中是按“萬戶”計,而縣級年鑒中是按“戶”計。
只有注意到上述這些問題,才能科學合理地使用好統(tǒng)計年鑒中的社會經(jīng)濟統(tǒng)計數(shù)據(jù)。
長江流域水行政管理數(shù)據(jù)庫中的社會經(jīng)濟數(shù)據(jù),主要包含行政區(qū)劃、人口、經(jīng)濟狀況、農(nóng)作物播種面積及產(chǎn)量等相關(guān)信息。社會經(jīng)濟信息在洪水調(diào)度預案評估、災情跟蹤監(jiān)測與評估、水資源保護與管理、水土保持監(jiān)測與管理、水利工程建設與管理、農(nóng)村水電及電氣化管理、水利規(guī)劃設計管理等方面發(fā)揮重要作用,為防汛調(diào)度和指揮搶險救災提供科學決策依據(jù),為分析水土保持和水利工程建設對社會經(jīng)濟發(fā)展的影響提供數(shù)據(jù)支撐,為水利規(guī)劃設計提供重要的參考信息,從而提高流域管理的決策科學水平。
為了更好地服務于流域管理工作,水利信息工作者應根據(jù)流域管理的應用需求對社會經(jīng)濟統(tǒng)計數(shù)據(jù)進行一定的分析與處理,運用科學的手段提煉出符合流域管理使用要求的社會經(jīng)濟數(shù)據(jù)。以下以長江流域水行政管理數(shù)據(jù)庫為例,分析其對社會經(jīng)濟統(tǒng)計數(shù)據(jù)的應用需求:
1)空間范圍應針對長江流域所轄行政區(qū)。長江流域水行政管理工作主要是針對長江流域范圍開展的,所以行政區(qū)范圍的正確性顯得尤為重要。長江流域行政區(qū)劃應根據(jù)長江流域所管轄的范圍而定,提供包括19個省、市、自治區(qū)的社會經(jīng)濟數(shù)據(jù)。
2)數(shù)據(jù)統(tǒng)計范圍應以長江流域空間范圍為界。目前各級年鑒所涉及的社會經(jīng)濟數(shù)據(jù)是按行政區(qū)劃的全境范圍統(tǒng)計的,而行政區(qū)劃與流域范圍不完全重合,因此會出現(xiàn)某些指標不僅包含長江流域內(nèi)的數(shù)據(jù),還包含流域外的數(shù)據(jù)。例如,浙江省 2005年全省總?cè)丝跀?shù)為 4602.11萬人,但該省在長江流域內(nèi)的區(qū)域僅4個地級市、5個縣級市和7個縣,該省2005年流域內(nèi)的實際總?cè)丝跀?shù)應為 818.57萬人。從實際工作需要考慮,社會經(jīng)濟數(shù)據(jù)主要用于長江流域范圍內(nèi)的管理工作,因此應對獲得長江流域相關(guān)行政區(qū)的統(tǒng)計數(shù)據(jù)進行處理,剔除長江流域外的數(shù)據(jù),盡可能準確地反映流域內(nèi)的社會經(jīng)濟狀況。
3)統(tǒng)計指標數(shù)據(jù)應進行統(tǒng)一規(guī)整處理。對于調(diào)整變更后的社會經(jīng)濟統(tǒng)計總量指標數(shù)據(jù),應按照縣、市、省3級行政層級由下至上逐級調(diào)整和匯總,使得各級統(tǒng)計數(shù)據(jù)指標單位統(tǒng)一,邏輯關(guān)系合理。這樣處理后的社會經(jīng)濟統(tǒng)計數(shù)據(jù),結(jié)果更接近實際值,才能在流域空間范圍內(nèi)符合流域水行政管理的應用需求。
首先要保證數(shù)據(jù)來源的正確性。資料來源主要是正規(guī)出版的按行業(yè)和行政區(qū)域分類的中央、地方、行業(yè)等年鑒數(shù)據(jù),如《中國統(tǒng)計年鑒》、《長江年鑒》,以及長江流域內(nèi)各省、自治區(qū)、直轄市的統(tǒng)計年鑒等。對于收集到的原始數(shù)據(jù),通過人工進行格式統(tǒng)一、度量單位換算等初步加工,然后開展數(shù)據(jù)的填報工作。
從實際工作需要出發(fā),將行政區(qū)劃限定為流域管轄的范圍,以長江流域為例,包括上海市、江蘇省、浙江省、安徽省、福建省、江西省、河南省、湖北省、湖南省、廣東省、廣西壯族自治區(qū)、重慶市、四川省、貴州省、云南省、西藏自治區(qū)、陜西省、甘肅省、青海省等19個省級行政區(qū)劃,以及包含的120個市(不含所屬市轄區(qū)),683個縣共 822個行政區(qū)域。如果行政區(qū)域有變更,則應根據(jù)實際情況及時進行調(diào)整。
對于部分面積在長江流域內(nèi)的行政區(qū)域,應針對“人口”、“面積”等總量指標進行一定比例的分攤計算,得出最接近實際情況的數(shù)據(jù)值。
從當前年鑒中可獲取的統(tǒng)計數(shù)據(jù)來看,選取面積百分數(shù)為分攤比例較為合適,即土地面積只有部分位于長江流域的區(qū)域,百分數(shù)表示屬于長江流域面積占全市、縣、區(qū)的百分比。例如,統(tǒng)計年鑒中江西省贛州市安遠縣 2010年的“耕地面積”值為11082.00萬m2,同時根據(jù)年鑒,該縣有 74% 的面積屬于長江流域,按此面積占比估算,該縣在長江流域中的“耕地面積”約為 8200.68萬m2。
數(shù)據(jù)的填報應按行政層級從下至上,由縣級逐級向上計算并調(diào)整。數(shù)據(jù)的調(diào)整修正包括以下幾種情況:
1)縣級數(shù)據(jù)。當年鑒中有較全面的縣級統(tǒng)計數(shù)據(jù),且該縣面積在長江流域所占面積的比例明確時,可直接將原始統(tǒng)計數(shù)據(jù)乘以該百分比即能獲得修正后的縣級數(shù)據(jù)。計算公式為
縣級數(shù)據(jù) =年鑒原始縣級統(tǒng)計數(shù)據(jù)×縣級面積占比
2)市級數(shù)據(jù)。年鑒中一般只包含市級統(tǒng)計數(shù)據(jù),而缺少市所屬市轄區(qū)的數(shù)據(jù)(直轄市除外)。在計算“人口”、“面積”等總量指標值時,如果直接將某市所轄縣修正后的統(tǒng)計數(shù)據(jù)求和,會因缺少市轄區(qū)的數(shù)據(jù)使求和后的市級數(shù)據(jù)小于實際值。因此,考慮年鑒中有原始的縣級和市級統(tǒng)計數(shù)據(jù),且假定市轄區(qū)面積完全在長江流域中,以原始的市級數(shù)據(jù)減去此市所轄縣不在長江流域內(nèi)的數(shù)據(jù),可以得到修正后的市級數(shù)據(jù)。計算公式為
市級數(shù)據(jù) =年鑒原始市級統(tǒng)計數(shù)據(jù) -∑[年鑒原始縣級統(tǒng)計數(shù)據(jù)×(1-縣級面積占比)]
3)省級數(shù)據(jù)。省級數(shù)據(jù)直接由修正后的市級數(shù)據(jù)匯總得到。計算公式為
省級數(shù)據(jù) = ∑市級數(shù)據(jù)。
數(shù)據(jù)填報時采用人工校核和自動演算相結(jié)合的方式,采用以下4個步驟對數(shù)據(jù)進行處理:
1)縣級數(shù)據(jù)填報(人工)。通過手動方式,對年鑒中的統(tǒng)計數(shù)據(jù)進行填報,錄入初始的未經(jīng)分攤的原始縣級統(tǒng)計數(shù)據(jù)和縣級面積占比。
2)縣級數(shù)據(jù)分攤(自動)。使用錄入的原始縣級統(tǒng)計數(shù)據(jù)和縣級面積占比,自動計算生成調(diào)整后的縣級數(shù)據(jù)和由調(diào)整后的縣級數(shù)據(jù)向上匯總成的市級數(shù)據(jù)(市級數(shù)據(jù)僅作為后續(xù)填報和調(diào)整的參考)。
3)市級數(shù)據(jù)調(diào)整(人工)。由人工對市級數(shù)據(jù)進行調(diào)整,即通過原始市級數(shù)據(jù)減去此市所轄的縣不在長江流域內(nèi)的數(shù)據(jù)獲得調(diào)整后的市級數(shù)據(jù)。
4)省級數(shù)據(jù)匯總(自動)。填報過程中由程序?qū)φ{(diào)整后的市級數(shù)據(jù)自動匯總,生成省級數(shù)據(jù),完成所有數(shù)據(jù)的填報。
使用數(shù)據(jù)分攤匯總的方法,具有數(shù)據(jù)來源可靠、操作簡便、準確性高等優(yōu)點,可以獲得更符合流域管理要求的社會經(jīng)濟數(shù)據(jù)。但是,受限于年鑒發(fā)布時間較晚、市轄區(qū)數(shù)據(jù)缺失等因素,此方法在數(shù)據(jù)時效性和數(shù)據(jù)精度方面還有進一步提高的空間。
1)數(shù)據(jù)來源可靠。數(shù)據(jù)主要來源于統(tǒng)計年鑒。統(tǒng)計年鑒是國家統(tǒng)計局編印的一種資料性年刊,是我國最全面、最具權(quán)威性的綜合統(tǒng)計年鑒,能全面反映中華人民共和國經(jīng)濟和社會發(fā)展情況。方案中通過年鑒采集數(shù)據(jù),在保證數(shù)據(jù)質(zhì)量的同時,也具有較強的可持續(xù)操作性,便于定期對社會經(jīng)濟數(shù)據(jù)更新,保持數(shù)據(jù)的生命力。
2)操作方法簡單,準確性高。數(shù)據(jù)分攤和自動匯總功能是通過程序自動計算并生成結(jié)果的,因此在輸入時只需要填報原始的年鑒數(shù)據(jù),并提供適當?shù)姆謹偙壤纯勺詣由蓴?shù)據(jù),再經(jīng)過部分人工校正即可獲取最終的填報數(shù)據(jù),節(jié)省人力投入,減少產(chǎn)生錯誤的可能性。
3)數(shù)據(jù)更符合實際情況,邏輯合理性更強。對于流域應用而言,如果直接使用年鑒中的數(shù)據(jù),則對部分行政區(qū)劃與流域交叉較少的省份會出現(xiàn)較大的數(shù)據(jù)偏差。如浙江省 2005年全省總?cè)丝跀?shù)為4602.11萬人,但該省在 2005年流域內(nèi)的實際總?cè)丝跀?shù)應為 818.57萬人,如果不經(jīng)處理直接使用,則數(shù)據(jù)相差5倍,在應用時會造成較大偏差。
1)數(shù)據(jù)時效性不高?!吨袊y(tǒng)計年鑒》一般發(fā)行于下半年,年鑒中提供的是上一年的社會經(jīng)濟數(shù)據(jù),如果再加上年鑒的獲取和數(shù)據(jù)填報復核的時間,獲得最終填報數(shù)據(jù)的日期至少會延遲1a 半以上,存在一定的遲滯性。但考慮社會經(jīng)濟發(fā)展在幾年之內(nèi)變化幅度不大,且社會經(jīng)濟數(shù)據(jù)僅提供決策評估參考,因此這一點對數(shù)據(jù)的正常使用影響較小。
2)數(shù)據(jù)精度有待提高。社會經(jīng)濟發(fā)展在地域上存在不均勻性,人口、耕地、工農(nóng)業(yè)等分布會因為各種環(huán)境和社會因素而改變,因此如果簡單地通過使用面積占比來獲取流域內(nèi)的相關(guān)社會經(jīng)濟數(shù)據(jù),獲得的僅僅是一種理想狀態(tài)下的均值。而且,計算過程中由于缺乏市轄區(qū)數(shù)據(jù)而假設市轄區(qū)面積完全在流域內(nèi),與實際情況也會存在一定的差異。因此,需進一步探索并獲取更準確的社會經(jīng)濟分布比例和缺失數(shù)據(jù),再通過這種比例分攤的方法獲得接近真實狀況的數(shù)據(jù),進一步提高數(shù)據(jù)精度。
使用數(shù)據(jù)分攤匯總方法對社會經(jīng)濟指標進行填報,使填報的數(shù)據(jù)更接近真實的區(qū)域內(nèi)社會經(jīng)濟指標數(shù)據(jù),對汛情和旱情評估提供更準確的參考數(shù)據(jù)。使用人工校核和自動演算相結(jié)合的方法,不僅提高了效率,也減少了人工填報計算時的錯誤率,保證了數(shù)據(jù)質(zhì)量。目前,此方法已應用于長江流域2008—2009年社會經(jīng)濟數(shù)據(jù)填報,在獲得水利系統(tǒng)內(nèi)各級領(lǐng)導和長江委防汛抗旱、水資源管理等各業(yè)務主管單位認可的同時,保證了數(shù)據(jù)的準確性,有效地提高了數(shù)據(jù)的質(zhì)量和用戶的滿意度。
[1] 水利部信息化工作領(lǐng)導小組辦公室.全國水利信息化規(guī)劃[S].北京:水利部信息化工作領(lǐng)導小組辦公室,2003:51-61.
[2] 羅麗華.社會經(jīng)濟統(tǒng)計時空數(shù)據(jù)服務系統(tǒng)的設計與實現(xiàn)[D].開封:河南大學,2007: 4.