大數(shù)據(jù)時代的兩大特征是數(shù)據(jù)爆炸和數(shù)據(jù)利用成都的提升,如何在大數(shù)據(jù)背景下,開展統(tǒng)計工作和大數(shù)據(jù)的深度融合,提升名錄庫更新維護的水平和質(zhì)量,是關系統(tǒng)計工作和名錄庫管理的重要問題。
一、前言
隨著信息時代發(fā)展的逐步深入,數(shù)據(jù)正呈現(xiàn)一種大爆發(fā)的增長模式,數(shù)據(jù)產(chǎn)生的數(shù)量前所未有,數(shù)據(jù)擴展的規(guī)模與日俱增。大數(shù)據(jù)技術不可避免的對政府統(tǒng)計工作產(chǎn)生一定影響。在大數(shù)據(jù)時代背景下,開展名錄庫更新和維護的研究,具有重大而現(xiàn)實的意義。
二、名錄庫數(shù)據(jù)源探討
基本單位名錄庫,是指包括了全部法人單位、產(chǎn)業(yè)活動單位的基本標識和主要屬性信息的數(shù)據(jù)庫,是經(jīng)濟社會管理的基礎。而統(tǒng)計系統(tǒng)基本單位名錄庫,作為基本單位名錄庫的延伸,是統(tǒng)計機構(gòu)用于各類統(tǒng)計調(diào)查的基本單位名錄庫。本文的討論主要針對統(tǒng)計系統(tǒng)基本單位名錄庫。
1、名錄庫數(shù)據(jù)源現(xiàn)狀分析
名錄庫是統(tǒng)計工作的四大工程之一,是統(tǒng)計工作得以完成的前提。只有建立健全名錄庫建設,才能保證統(tǒng)計數(shù)據(jù)的及時更新和維護,各類統(tǒng)計調(diào)查單位在進行抽樣和統(tǒng)計中才能夠準確定位,最終提升統(tǒng)計能力。名錄庫的質(zhì)量要素包括實效性、全面性和準確性,這三種質(zhì)量要素很大程度上取決于名錄庫的數(shù)據(jù)源。就我國現(xiàn)階段的名錄庫數(shù)據(jù)源分析,每五年一次的經(jīng)濟普查數(shù)據(jù)能夠為名錄庫更新提供較為詳實的數(shù)據(jù),各地方各部門自行組織的各類統(tǒng)計調(diào)查在名錄庫局部調(diào)整和更新中具有重要的意義。由縣級以上相關部門提供的行政記錄是名錄庫更新的重要外部數(shù)據(jù)來源,更新周期一般為半年。
2、名錄庫數(shù)據(jù)質(zhì)量分析
無論是在傳統(tǒng)統(tǒng)計工作還是大數(shù)據(jù)處理過程中,統(tǒng)計工作流程至少涉及統(tǒng)計機構(gòu)、數(shù)據(jù)用戶和數(shù)據(jù)提供者三個參與主體,并由這些參與主體的行為及其交互作用延伸出諸如目的性、準確性、時效性等統(tǒng)計數(shù)據(jù)質(zhì)量維度,以及與此相聯(lián)系的成本問題。名錄庫建設、更新,作為統(tǒng)計工作的基礎一環(huán),也符合統(tǒng)計工作流程的一般規(guī)律,我們將名錄庫建設、更新中的參與主體及數(shù)據(jù)質(zhì)量維度進行梳理。
名錄庫的內(nèi)部渠道主要是通過各種統(tǒng)計機構(gòu)的調(diào)查,收集和整理本部門的相關信息。多數(shù)單位在這一過程中作為數(shù)據(jù)的提供者,并不是數(shù)據(jù)的使用者,工作積極性不高,另一方面,這類機構(gòu)同時還肩負著其他的工作任務,負擔較重。非統(tǒng)計部門作為名錄庫信息的外部渠道,既是數(shù)據(jù)的提供者,也是數(shù)據(jù)的使用者。但是不同部門存在業(yè)務上的差異,統(tǒng)計部門主導建設的名錄庫并不能用于政府機構(gòu)使用。
3、名錄庫存在問題分析
我國經(jīng)濟社會發(fā)展取得了舉世矚目的成就,相應的我國單位數(shù)量呈現(xiàn)井噴式的增長。名錄庫更新和維護工作在如此巨大數(shù)據(jù)量面前,顯現(xiàn)出一定的技術難度。區(qū)縣統(tǒng)計局在人員配備和名錄庫技術方面存在客觀短板,難以在短時間內(nèi)完成名錄庫的更新維護工作。部分地區(qū)基層組織在指導性目錄之外進行委托事項,需要進行購買,名錄庫的更新經(jīng)費支持很少,寄希望于社區(qū)人員無償進行名錄庫更新不切實際。
三、大數(shù)據(jù)背景下名錄庫的更新維護
1、信息范圍確定
互聯(lián)網(wǎng)大數(shù)據(jù)時代,信息量越來越大。在名錄庫更新方面,不是所有的信息都具有價值,這就需要通過利用大數(shù)據(jù)篩選技術,排除那些價值密度不高、信息真假難辨的信息區(qū)域,對可以使用的信息范圍進行“聚焦”,鎖定信息范圍的方向。聚焦,在大數(shù)據(jù)信息統(tǒng)計領域,就是指的更新名錄庫所使用的具體數(shù)據(jù)源。名錄庫建設的基本單位包括法人單位和產(chǎn)業(yè)活動單位,在數(shù)據(jù)收集中,需要準確定位可靠的數(shù)據(jù)信息站點。
2、數(shù)據(jù)提取
在名錄庫更新中的信息提取,指的是利用大數(shù)據(jù)分析技術,在基本確定信息范圍之后,對于有效信息較為集中的特定區(qū)域,綜合運用信息提取技術進行信息提取。在數(shù)據(jù)信息發(fā)生變化的情況下,需要整合出某種適合的表達式,并通過表達式對信息進行過濾和剔除,最終提取到有價值的數(shù)據(jù)。在信息家戶飛速發(fā)展的今天,信息的產(chǎn)生和更新速度,對信息提取部門提出了巨大的挑戰(zhàn)。
3、信息整合
在利用信息技術確定信息范圍之后,能夠在一定程度上降低無效信息的干擾,得到比較準確的名錄庫基本信息列表。伴隨著大數(shù)據(jù)、互聯(lián)網(wǎng)和云計算等技術的發(fā)展,智能搜索技術日漸完善,在提取名錄庫基本信息和屬性的基礎上,還能夠得到數(shù)據(jù)周圍地理及天氣信息。這就為獲取之前難以得到的數(shù)據(jù)周邊信息提供了便捷的工具。地理位置信息能夠降低外出調(diào)查人員的工作量,優(yōu)化路徑選擇方案。
4、信息甄別
經(jīng)過上述三個步驟,能夠得到用于補充和更新名錄庫的有效數(shù)據(jù)。但是在使用上述數(shù)據(jù)進行名錄庫填制之前,還需要進行數(shù)據(jù)信息的甄別。經(jīng)常使用的方式是數(shù)據(jù)相互印證技術,統(tǒng)一數(shù)據(jù)來源或者相似數(shù)據(jù)來源的信息具有一定的關聯(lián)性和近似性,這就是大數(shù)據(jù)背景下進行信息甄別的邏輯思路。通過數(shù)據(jù)內(nèi)在的邏輯性進行數(shù)據(jù)的相互驗證和相互推測。
四、大數(shù)據(jù)時代名錄庫管理展望
數(shù)據(jù)的重要價值在大數(shù)據(jù)時代顯得尤為突出,數(shù)據(jù)是統(tǒng)計部門的立命之本和工作核心,面對洶涌的信息化浪潮,統(tǒng)計工作者需要一擁抱的姿態(tài)進行大數(shù)據(jù)模式下的名錄庫管理工作實踐,促進大數(shù)據(jù)和統(tǒng)計工作的深度融合,搶占發(fā)展先機,豐富數(shù)據(jù)調(diào)查體系,建立共建共享數(shù)據(jù)管理模式,打破各部門之間的信息壁壘,實現(xiàn)數(shù)據(jù)和名錄庫的互聯(lián)互通。
五、結(jié)語
通過上文的研究和探討,可以看到傳統(tǒng)的數(shù)據(jù)統(tǒng)計方式方法和名錄庫管理技術已經(jīng)不能適應大數(shù)據(jù)背景下統(tǒng)計工作的新要求,為此,本文基于現(xiàn)階段名錄庫管理,結(jié)合大數(shù)據(jù)和智能管理,提出了大數(shù)據(jù)背景下名錄庫的更新維護的原則方法和新手段。(作者單位為江蘇省興化市戴窯鎮(zhèn)統(tǒng)計站)