李艷霞
檔案信息化已經(jīng)成為檔案信息服務社會的最佳技術手段和實現(xiàn)途徑。如何高效地利用爆炸性增長的數(shù)字化資源,從錯綜復雜的海量信息中提取出有價值的信息,已成為檔案工作者的重要任務,數(shù)據(jù)挖掘正是解決這一問題的有力工具。各級財政和統(tǒng)計部門多年來積累了大量的財經(jīng)類檔案數(shù)據(jù),對其進行數(shù)據(jù)采集和預處理是進一步數(shù)據(jù)挖掘和利用的基礎。由于財經(jīng)類數(shù)據(jù)不同于一般檔案數(shù)據(jù),因此,在數(shù)據(jù)采集、預處理工作中必須充分注意其特性,采用相關技術才能形成高質量的數(shù)據(jù),使數(shù)據(jù)的利用(統(tǒng)計、數(shù)學建模、數(shù)據(jù)挖掘)等更加有效。
1??財經(jīng)類檔案數(shù)據(jù)的特點
1.1??數(shù)據(jù)表現(xiàn)形式單一。財經(jīng)類檔案數(shù)據(jù)主要由指標體系和對應的數(shù)字構成,主要以表格的形式表現(xiàn),也有一些數(shù)據(jù)出現(xiàn)在各類報告中。早期的財經(jīng)類檔案數(shù)據(jù)主要是紙質、人工填寫的各類報表。隨著計算機技術的發(fā)展和計算機的廣泛應用,財經(jīng)類檔案數(shù)據(jù)經(jīng)歷了一個從簡單的電子表格到數(shù)據(jù)庫應用發(fā)展過程。
1.2??數(shù)據(jù)來源繁雜。財經(jīng)類檔案數(shù)據(jù)的來源主要是各級政府部門的統(tǒng)計、財政決算、預算數(shù)據(jù)。由于各個主管部門都有其自己的數(shù)據(jù)來源,加上指標體系、部門劃分等因素隨著社會經(jīng)濟發(fā)展不斷調整,往往造成同一指標對應的數(shù)據(jù)不一致,或無法進行形成一個對應的、穩(wěn)定的時間序列數(shù)據(jù),從而使得數(shù)據(jù)的再利用、再加工(如統(tǒng)計、趨勢分析)等工作有較大困難。
1.3??電子數(shù)據(jù)種類繁多。財經(jīng)類數(shù)據(jù)在從紙質到電子化的過程中,幾乎使用了所有的電子表格和數(shù)據(jù)庫軟件,這些軟件的文件格式、數(shù)據(jù)結構互不相同,數(shù)據(jù)源彼此獨立且相互封閉,多數(shù)無法兼容。有些軟件由于早已退出市場,甚至無法找到能夠使用的版本。這給數(shù)據(jù)采集,特別是歷史數(shù)據(jù)的采集帶來了相當大的困難。
1.4??數(shù)據(jù)之間有嚴格的平衡關系和邏輯關系。財經(jīng)類數(shù)據(jù)之間一般情況下都有嚴格的平衡關系,一套報表往往要求表內(nèi)數(shù)據(jù)通過單表內(nèi)平衡審核、邏輯審核以及表間平衡和邏輯關系審核。這使得財經(jīng)類數(shù)據(jù)的整理、校驗有一個嚴格的要求,數(shù)據(jù)必須通過所有的平衡、邏輯關系審核。對于缺失數(shù)據(jù),往往也不能通過插值等統(tǒng)計方法補充。
2??數(shù)據(jù)采集
數(shù)據(jù)源的質量是數(shù)據(jù)挖掘質量的最重要因素之一。在原始數(shù)據(jù)的獲取過程中,如何針對財經(jīng)類數(shù)據(jù)的特點,從源頭盡量減少錯誤和誤差,尤為重要。在財經(jīng)類數(shù)據(jù)采集過程中,必須注意以下幾個方面。
2.1??了解原始數(shù)據(jù)屬性及對應的指標的確切含義。這是采集原始數(shù)據(jù)的基礎。一些數(shù)據(jù)指標經(jīng)歷了不斷調整的過程,因此,必須首先了解原始數(shù)據(jù)的屬性、結構、準確含義、包含的范圍以及前后時間階段的調整關系,確定所需要的數(shù)據(jù)項和數(shù)據(jù)提取原則。
2.2??原始數(shù)據(jù)獲取。財經(jīng)類數(shù)據(jù)的獲取必須按照嚴格的操作規(guī)范、使用恰當?shù)募夹g手段來完成。對于紙質報表類的數(shù)據(jù),可采用電子掃描、OCR識別的方法獲取原始數(shù)據(jù)。對于電子類多源異質異構數(shù)據(jù)的獲取,還要考慮數(shù)據(jù)源的連接和數(shù)據(jù)格式的轉換問題,必要時還需要安裝相應的軟硬件平臺。對于已退出市場、兼容性差且沒有運行平臺的電子表格或數(shù)據(jù)庫類軟件,則需要編寫相應的轉換工具從原始數(shù)據(jù)文件中讀出數(shù)據(jù)。
3??數(shù)據(jù)整理
數(shù)據(jù)整理是數(shù)據(jù)預處理過程中最花費時間,但也是最為關鍵的步驟。一般情況下,獲取的原始數(shù)據(jù)都會有各類問題或缺陷,在下一步處理之前必須進行整理。
3.1??財經(jīng)類數(shù)據(jù)的問題類型。對于財經(jīng)類數(shù)據(jù)來說,原始數(shù)據(jù)一般有以下幾種情況需要進行整理。
數(shù)據(jù)平衡關系錯誤:主要表現(xiàn)是一套報表或一個時間段內(nèi)的數(shù)據(jù)并無缺失遺漏,但數(shù)據(jù)間的各類平衡關系、邏輯關系不滿足。
數(shù)據(jù)缺失:表現(xiàn)為采集的原始數(shù)據(jù)中出現(xiàn)缺失遺漏,有孤立數(shù)據(jù)缺失和系列數(shù)據(jù)缺失兩種情況。
數(shù)據(jù)冗余:表現(xiàn)為在一個時間段或一個數(shù)據(jù)序列內(nèi),出現(xiàn)指標含義相同、數(shù)據(jù)相同的數(shù)據(jù)項,或是指標名稱不同但含義相同、數(shù)據(jù)相同的數(shù)據(jù)項。
數(shù)據(jù)不一致:表現(xiàn)為一個數(shù)據(jù)序列中出現(xiàn)指標名稱相同,數(shù)據(jù)不同或是在一個時間段內(nèi)由于數(shù)據(jù)統(tǒng)計范圍調整、指標含義變化引起的數(shù)據(jù)不一致情況出現(xiàn)。
3.2??數(shù)據(jù)整理:財經(jīng)類數(shù)據(jù)的整理按存儲媒介不同(紙質和電子)有不同的處理方法?,F(xiàn)存的財經(jīng)類紙質報表數(shù)據(jù)有人工填寫和計算機打印兩種形式。手工填寫的報表是在印刷好的報表中手工填寫數(shù)據(jù),由人工審核平衡關系,往往錯誤較多。計算機打印紙質報表一般是采用電子表格軟件或數(shù)據(jù)庫類軟件填寫數(shù)據(jù),通過數(shù)據(jù)平衡審核后打印出報表。對于早期的數(shù)據(jù)庫應用,由于原有軟件早已不再使用、數(shù)據(jù)組織結構不清楚,無法重現(xiàn)軟硬件環(huán)境,只能通過原打印的報表獲取數(shù)據(jù)。
初始獲得的數(shù)據(jù)根據(jù)實際情況可采用以下的技術手段進行整理。
(1)數(shù)據(jù)平衡關系錯誤。對于此類錯誤,關鍵是要找出平衡關系中錯誤的數(shù)據(jù)項加以修改。一般情況下,以一套報表中的其他報表或同時期的其他數(shù)據(jù)作參考,首先確定正確的數(shù)據(jù)項和錯誤數(shù)據(jù)項的位置,例如確定是合計數(shù)據(jù)錯誤還是分項數(shù)據(jù)錯誤。然后,通過倒推的方法,確定數(shù)據(jù)平衡關系中錯誤數(shù)據(jù)應有的值加以改正。實際操作中,這種做法要慎之又慎,每一步都要留有記錄供隨時回到上一步狀態(tài),以免引起更大錯誤出現(xiàn)。
(2)數(shù)據(jù)缺失錯誤。數(shù)據(jù)缺失錯誤主要原因是由于時間因素引起的報表數(shù)據(jù)項丟失,有紙質報表數(shù)據(jù)缺失和電子報表數(shù)據(jù)缺失兩種情況。紙質報表數(shù)據(jù)缺失一般由于保管不善引起報表缺頁或表內(nèi)數(shù)據(jù)不清,無法識別;電子類數(shù)據(jù)缺失一般是由于電子文件讀取錯誤引起。紙質報表數(shù)據(jù)缺失如果出現(xiàn)整套報表中某表缺失,補充數(shù)據(jù)相當困難,一般采用以下步驟進行:首先需要根據(jù)整套報表中各表間的對應關系確定和其他表有關聯(lián)的數(shù)據(jù)項,第二步參考數(shù)據(jù)平衡關系錯誤整理的方法對表內(nèi)缺失數(shù)據(jù)進行填補;表內(nèi)數(shù)據(jù)不清,無法識別的錯誤根據(jù)數(shù)據(jù)平衡關系一般可以確定。電子類數(shù)據(jù)缺失主要由于原保存在存儲介質(如軟盤、備份用硬盤、數(shù)據(jù)光盤等)上的備份數(shù)據(jù)文件無法讀出引起,此時切記不能在存儲介質進行文件拷貝、創(chuàng)建新文件等寫操作,首先要用數(shù)據(jù)恢復工具將存儲介質的數(shù)據(jù)文件進行恢復,盡可能減少缺失部分。對無法恢復的數(shù)據(jù)造成的數(shù)據(jù)缺失,再參照紙質報表數(shù)據(jù)缺失處理方法進行處理。
⑶數(shù)據(jù)冗余。財經(jīng)類檔案數(shù)據(jù)的數(shù)據(jù)冗余一般是指同一指標的數(shù)據(jù)出現(xiàn)多次。由于報表側重不同,一套報表中各表頁之間多有重復數(shù)據(jù)出現(xiàn)。對于此類問題,在數(shù)據(jù)整理中需要將冗余數(shù)據(jù)標定,以便在下一步構建數(shù)據(jù)庫時進行篩選。但是要特別注意的是,表中可能含有數(shù)據(jù)項指標類似但含義不同的數(shù)據(jù),在標定冗余數(shù)據(jù)時,一般需要在一套報表或原始數(shù)據(jù)庫中確定,哪些數(shù)據(jù)是基礎數(shù)據(jù),哪些是摘抄來的數(shù)據(jù),對于后者可標定為冗余數(shù)據(jù)。
⑷數(shù)據(jù)不一致錯誤。此類錯誤是財經(jīng)類檔案數(shù)據(jù)中最難解決的錯誤,由于指標體系中歷史數(shù)據(jù)無法對應,從而造成數(shù)據(jù)分析、趨勢預測等工作無法進行。引起這類錯誤主要有兩個原因。一是因為隨著經(jīng)濟的發(fā)展,原有指標體系調整,一些指標取消或合并,一些新的指標出現(xiàn);二是行政區(qū)劃、部門歸屬改變造成某部門、某地區(qū)包含范圍改變引起數(shù)據(jù)不能對應。這類問題的解決方法是將數(shù)據(jù)分解,將所有數(shù)據(jù)分解到底層統(tǒng)計單元(指標或單位)后,按照現(xiàn)行指標體系、管理范圍或行政區(qū)劃重新組合。對于無法分解的數(shù)據(jù),可采取統(tǒng)計方法進行估算,如采取歷史數(shù)據(jù)中所占比例或插值算法進行計算,將數(shù)據(jù)進行分解。但此類估算數(shù)據(jù)必須嚴格控制,關鍵數(shù)據(jù)還應結合其他歷史同期資料加以佐證。
⑸在數(shù)據(jù)整理過程中,有四點需要特別注意。一是在數(shù)據(jù)整理過程中注意和財經(jīng)方面的專家進行有效合作。二是一般情況下,報表系統(tǒng)軟件環(huán)境中會包含有大量的邏輯審核公式,如原有的軟件環(huán)境仍可重建,電子類數(shù)據(jù)缺失補充或錯誤改正應在原系統(tǒng)中進行,這樣可以有效地減少工作量并提高數(shù)據(jù)準確性。對于紙質類數(shù)據(jù),也可借助計算機電子表格類軟件,在其中建立對應邏輯審核關系,將紙質數(shù)據(jù)輸入到計算機中進行審核、修改,這樣可大大提高效率。三是財經(jīng)類數(shù)據(jù)的整理是一個十分繁瑣的工作,必須有極大的耐心確保數(shù)據(jù)準確,如果數(shù)據(jù)有誤,整理出來的檔案數(shù)據(jù)便失去了使用價值或引起負面作用。四是對刪除、修改、估算的數(shù)據(jù)必須作備注說明,建立數(shù)據(jù)修改檔案以備查用。
4??結語
在數(shù)據(jù)采集整理的實際過程中,上述步驟并不是截然分開。很多情況下需要四個步驟反復進行,或多種方法同時應用以獲得準確數(shù)據(jù),處理過程中應該針對具體問題詳細分析后選擇合適的技術和方法,同時要注意和同期的其他檔案資料,如文字性資料、各類報告等中的數(shù)據(jù)進行核對,如各類來源的數(shù)據(jù)差別較大,則有必要考慮對數(shù)據(jù)進行二次整理。
數(shù)據(jù)整理完成后,需將多個數(shù)據(jù)源中的數(shù)據(jù)(數(shù)據(jù)庫、數(shù)據(jù)立方體或一般文件)結合起來存放到一個一致的數(shù)據(jù)存儲中,進行數(shù)據(jù)集成和融合工作。由于篇幅有限,將另有專文探討。
*本文為河南省軟科學研究項目“非結構化數(shù)據(jù)在電子檔案中的應用研究”(142400411042)基金項目。
(作者單位:中原工學院??來稿日期:2015-04-16)