亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        電子檔案財經(jīng)類數(shù)據(jù)采集和整理淺析

        2015-06-25 10:52:31李艷霞
        檔案管理 2015年4期
        關鍵詞:數(shù)據(jù)項財經(jīng)類原始數(shù)據(jù)

        李艷霞

        檔案信息化已經(jīng)成為檔案信息服務社會的最佳技術手段和實現(xiàn)途徑。如何高效地利用爆炸性增長的數(shù)字化資源,從錯綜復雜的海量信息中提取出有價值的信息,已成為檔案工作者的重要任務,數(shù)據(jù)挖掘正是解決這一問題的有力工具。各級財政和統(tǒng)計部門多年來積累了大量的財經(jīng)類檔案數(shù)據(jù),對其進行數(shù)據(jù)采集和預處理是進一步數(shù)據(jù)挖掘和利用的基礎。由于財經(jīng)類數(shù)據(jù)不同于一般檔案數(shù)據(jù),因此,在數(shù)據(jù)采集、預處理工作中必須充分注意其特性,采用相關技術才能形成高質量的數(shù)據(jù),使數(shù)據(jù)的利用(統(tǒng)計、數(shù)學建模、數(shù)據(jù)挖掘)等更加有效。

        1??財經(jīng)類檔案數(shù)據(jù)的特點

        1.1??數(shù)據(jù)表現(xiàn)形式單一。財經(jīng)類檔案數(shù)據(jù)主要由指標體系和對應的數(shù)字構成,主要以表格的形式表現(xiàn),也有一些數(shù)據(jù)出現(xiàn)在各類報告中。早期的財經(jīng)類檔案數(shù)據(jù)主要是紙質、人工填寫的各類報表。隨著計算機技術的發(fā)展和計算機的廣泛應用,財經(jīng)類檔案數(shù)據(jù)經(jīng)歷了一個從簡單的電子表格到數(shù)據(jù)庫應用發(fā)展過程。

        1.2??數(shù)據(jù)來源繁雜。財經(jīng)類檔案數(shù)據(jù)的來源主要是各級政府部門的統(tǒng)計、財政決算、預算數(shù)據(jù)。由于各個主管部門都有其自己的數(shù)據(jù)來源,加上指標體系、部門劃分等因素隨著社會經(jīng)濟發(fā)展不斷調整,往往造成同一指標對應的數(shù)據(jù)不一致,或無法進行形成一個對應的、穩(wěn)定的時間序列數(shù)據(jù),從而使得數(shù)據(jù)的再利用、再加工(如統(tǒng)計、趨勢分析)等工作有較大困難。

        1.3??電子數(shù)據(jù)種類繁多。財經(jīng)類數(shù)據(jù)在從紙質到電子化的過程中,幾乎使用了所有的電子表格和數(shù)據(jù)庫軟件,這些軟件的文件格式、數(shù)據(jù)結構互不相同,數(shù)據(jù)源彼此獨立且相互封閉,多數(shù)無法兼容。有些軟件由于早已退出市場,甚至無法找到能夠使用的版本。這給數(shù)據(jù)采集,特別是歷史數(shù)據(jù)的采集帶來了相當大的困難。

        1.4??數(shù)據(jù)之間有嚴格的平衡關系和邏輯關系。財經(jīng)類數(shù)據(jù)之間一般情況下都有嚴格的平衡關系,一套報表往往要求表內(nèi)數(shù)據(jù)通過單表內(nèi)平衡審核、邏輯審核以及表間平衡和邏輯關系審核。這使得財經(jīng)類數(shù)據(jù)的整理、校驗有一個嚴格的要求,數(shù)據(jù)必須通過所有的平衡、邏輯關系審核。對于缺失數(shù)據(jù),往往也不能通過插值等統(tǒng)計方法補充。

        2??數(shù)據(jù)采集

        數(shù)據(jù)源的質量是數(shù)據(jù)挖掘質量的最重要因素之一。在原始數(shù)據(jù)的獲取過程中,如何針對財經(jīng)類數(shù)據(jù)的特點,從源頭盡量減少錯誤和誤差,尤為重要。在財經(jīng)類數(shù)據(jù)采集過程中,必須注意以下幾個方面。

        2.1??了解原始數(shù)據(jù)屬性及對應的指標的確切含義。這是采集原始數(shù)據(jù)的基礎。一些數(shù)據(jù)指標經(jīng)歷了不斷調整的過程,因此,必須首先了解原始數(shù)據(jù)的屬性、結構、準確含義、包含的范圍以及前后時間階段的調整關系,確定所需要的數(shù)據(jù)項和數(shù)據(jù)提取原則。

        2.2??原始數(shù)據(jù)獲取。財經(jīng)類數(shù)據(jù)的獲取必須按照嚴格的操作規(guī)范、使用恰當?shù)募夹g手段來完成。對于紙質報表類的數(shù)據(jù),可采用電子掃描、OCR識別的方法獲取原始數(shù)據(jù)。對于電子類多源異質異構數(shù)據(jù)的獲取,還要考慮數(shù)據(jù)源的連接和數(shù)據(jù)格式的轉換問題,必要時還需要安裝相應的軟硬件平臺。對于已退出市場、兼容性差且沒有運行平臺的電子表格或數(shù)據(jù)庫類軟件,則需要編寫相應的轉換工具從原始數(shù)據(jù)文件中讀出數(shù)據(jù)。

        3??數(shù)據(jù)整理

        數(shù)據(jù)整理是數(shù)據(jù)預處理過程中最花費時間,但也是最為關鍵的步驟。一般情況下,獲取的原始數(shù)據(jù)都會有各類問題或缺陷,在下一步處理之前必須進行整理。

        3.1??財經(jīng)類數(shù)據(jù)的問題類型。對于財經(jīng)類數(shù)據(jù)來說,原始數(shù)據(jù)一般有以下幾種情況需要進行整理。

        數(shù)據(jù)平衡關系錯誤:主要表現(xiàn)是一套報表或一個時間段內(nèi)的數(shù)據(jù)并無缺失遺漏,但數(shù)據(jù)間的各類平衡關系、邏輯關系不滿足。

        數(shù)據(jù)缺失:表現(xiàn)為采集的原始數(shù)據(jù)中出現(xiàn)缺失遺漏,有孤立數(shù)據(jù)缺失和系列數(shù)據(jù)缺失兩種情況。

        數(shù)據(jù)冗余:表現(xiàn)為在一個時間段或一個數(shù)據(jù)序列內(nèi),出現(xiàn)指標含義相同、數(shù)據(jù)相同的數(shù)據(jù)項,或是指標名稱不同但含義相同、數(shù)據(jù)相同的數(shù)據(jù)項。

        數(shù)據(jù)不一致:表現(xiàn)為一個數(shù)據(jù)序列中出現(xiàn)指標名稱相同,數(shù)據(jù)不同或是在一個時間段內(nèi)由于數(shù)據(jù)統(tǒng)計范圍調整、指標含義變化引起的數(shù)據(jù)不一致情況出現(xiàn)。

        3.2??數(shù)據(jù)整理:財經(jīng)類數(shù)據(jù)的整理按存儲媒介不同(紙質和電子)有不同的處理方法?,F(xiàn)存的財經(jīng)類紙質報表數(shù)據(jù)有人工填寫和計算機打印兩種形式。手工填寫的報表是在印刷好的報表中手工填寫數(shù)據(jù),由人工審核平衡關系,往往錯誤較多。計算機打印紙質報表一般是采用電子表格軟件或數(shù)據(jù)庫類軟件填寫數(shù)據(jù),通過數(shù)據(jù)平衡審核后打印出報表。對于早期的數(shù)據(jù)庫應用,由于原有軟件早已不再使用、數(shù)據(jù)組織結構不清楚,無法重現(xiàn)軟硬件環(huán)境,只能通過原打印的報表獲取數(shù)據(jù)。

        初始獲得的數(shù)據(jù)根據(jù)實際情況可采用以下的技術手段進行整理。

        (1)數(shù)據(jù)平衡關系錯誤。對于此類錯誤,關鍵是要找出平衡關系中錯誤的數(shù)據(jù)項加以修改。一般情況下,以一套報表中的其他報表或同時期的其他數(shù)據(jù)作參考,首先確定正確的數(shù)據(jù)項和錯誤數(shù)據(jù)項的位置,例如確定是合計數(shù)據(jù)錯誤還是分項數(shù)據(jù)錯誤。然后,通過倒推的方法,確定數(shù)據(jù)平衡關系中錯誤數(shù)據(jù)應有的值加以改正。實際操作中,這種做法要慎之又慎,每一步都要留有記錄供隨時回到上一步狀態(tài),以免引起更大錯誤出現(xiàn)。

        (2)數(shù)據(jù)缺失錯誤。數(shù)據(jù)缺失錯誤主要原因是由于時間因素引起的報表數(shù)據(jù)項丟失,有紙質報表數(shù)據(jù)缺失和電子報表數(shù)據(jù)缺失兩種情況。紙質報表數(shù)據(jù)缺失一般由于保管不善引起報表缺頁或表內(nèi)數(shù)據(jù)不清,無法識別;電子類數(shù)據(jù)缺失一般是由于電子文件讀取錯誤引起。紙質報表數(shù)據(jù)缺失如果出現(xiàn)整套報表中某表缺失,補充數(shù)據(jù)相當困難,一般采用以下步驟進行:首先需要根據(jù)整套報表中各表間的對應關系確定和其他表有關聯(lián)的數(shù)據(jù)項,第二步參考數(shù)據(jù)平衡關系錯誤整理的方法對表內(nèi)缺失數(shù)據(jù)進行填補;表內(nèi)數(shù)據(jù)不清,無法識別的錯誤根據(jù)數(shù)據(jù)平衡關系一般可以確定。電子類數(shù)據(jù)缺失主要由于原保存在存儲介質(如軟盤、備份用硬盤、數(shù)據(jù)光盤等)上的備份數(shù)據(jù)文件無法讀出引起,此時切記不能在存儲介質進行文件拷貝、創(chuàng)建新文件等寫操作,首先要用數(shù)據(jù)恢復工具將存儲介質的數(shù)據(jù)文件進行恢復,盡可能減少缺失部分。對無法恢復的數(shù)據(jù)造成的數(shù)據(jù)缺失,再參照紙質報表數(shù)據(jù)缺失處理方法進行處理。

        ⑶數(shù)據(jù)冗余。財經(jīng)類檔案數(shù)據(jù)的數(shù)據(jù)冗余一般是指同一指標的數(shù)據(jù)出現(xiàn)多次。由于報表側重不同,一套報表中各表頁之間多有重復數(shù)據(jù)出現(xiàn)。對于此類問題,在數(shù)據(jù)整理中需要將冗余數(shù)據(jù)標定,以便在下一步構建數(shù)據(jù)庫時進行篩選。但是要特別注意的是,表中可能含有數(shù)據(jù)項指標類似但含義不同的數(shù)據(jù),在標定冗余數(shù)據(jù)時,一般需要在一套報表或原始數(shù)據(jù)庫中確定,哪些數(shù)據(jù)是基礎數(shù)據(jù),哪些是摘抄來的數(shù)據(jù),對于后者可標定為冗余數(shù)據(jù)。

        ⑷數(shù)據(jù)不一致錯誤。此類錯誤是財經(jīng)類檔案數(shù)據(jù)中最難解決的錯誤,由于指標體系中歷史數(shù)據(jù)無法對應,從而造成數(shù)據(jù)分析、趨勢預測等工作無法進行。引起這類錯誤主要有兩個原因。一是因為隨著經(jīng)濟的發(fā)展,原有指標體系調整,一些指標取消或合并,一些新的指標出現(xiàn);二是行政區(qū)劃、部門歸屬改變造成某部門、某地區(qū)包含范圍改變引起數(shù)據(jù)不能對應。這類問題的解決方法是將數(shù)據(jù)分解,將所有數(shù)據(jù)分解到底層統(tǒng)計單元(指標或單位)后,按照現(xiàn)行指標體系、管理范圍或行政區(qū)劃重新組合。對于無法分解的數(shù)據(jù),可采取統(tǒng)計方法進行估算,如采取歷史數(shù)據(jù)中所占比例或插值算法進行計算,將數(shù)據(jù)進行分解。但此類估算數(shù)據(jù)必須嚴格控制,關鍵數(shù)據(jù)還應結合其他歷史同期資料加以佐證。

        ⑸在數(shù)據(jù)整理過程中,有四點需要特別注意。一是在數(shù)據(jù)整理過程中注意和財經(jīng)方面的專家進行有效合作。二是一般情況下,報表系統(tǒng)軟件環(huán)境中會包含有大量的邏輯審核公式,如原有的軟件環(huán)境仍可重建,電子類數(shù)據(jù)缺失補充或錯誤改正應在原系統(tǒng)中進行,這樣可以有效地減少工作量并提高數(shù)據(jù)準確性。對于紙質類數(shù)據(jù),也可借助計算機電子表格類軟件,在其中建立對應邏輯審核關系,將紙質數(shù)據(jù)輸入到計算機中進行審核、修改,這樣可大大提高效率。三是財經(jīng)類數(shù)據(jù)的整理是一個十分繁瑣的工作,必須有極大的耐心確保數(shù)據(jù)準確,如果數(shù)據(jù)有誤,整理出來的檔案數(shù)據(jù)便失去了使用價值或引起負面作用。四是對刪除、修改、估算的數(shù)據(jù)必須作備注說明,建立數(shù)據(jù)修改檔案以備查用。

        4??結語

        在數(shù)據(jù)采集整理的實際過程中,上述步驟并不是截然分開。很多情況下需要四個步驟反復進行,或多種方法同時應用以獲得準確數(shù)據(jù),處理過程中應該針對具體問題詳細分析后選擇合適的技術和方法,同時要注意和同期的其他檔案資料,如文字性資料、各類報告等中的數(shù)據(jù)進行核對,如各類來源的數(shù)據(jù)差別較大,則有必要考慮對數(shù)據(jù)進行二次整理。

        數(shù)據(jù)整理完成后,需將多個數(shù)據(jù)源中的數(shù)據(jù)(數(shù)據(jù)庫、數(shù)據(jù)立方體或一般文件)結合起來存放到一個一致的數(shù)據(jù)存儲中,進行數(shù)據(jù)集成和融合工作。由于篇幅有限,將另有專文探討。

        *本文為河南省軟科學研究項目“非結構化數(shù)據(jù)在電子檔案中的應用研究”(142400411042)基金項目。

        (作者單位:中原工學院??來稿日期:2015-04-16)

        猜你喜歡
        數(shù)據(jù)項財經(jīng)類原始數(shù)據(jù)
        GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
        受特定變化趨勢限制的傳感器數(shù)據(jù)處理方法研究
        一種多功能抽簽選擇器軟件系統(tǒng)設計與實現(xiàn)
        甘肅科技(2020年19期)2020-03-11 09:42:42
        非完整數(shù)據(jù)庫Skyline-join查詢*
        基于Python的Asterix Cat 021數(shù)據(jù)格式解析分析與實現(xiàn)
        “雙平臺嵌入式”的“糧味”財經(jīng)類專業(yè)人才培養(yǎng)模式創(chuàng)新與實踐
        全新Mentor DRS360 平臺借助集中式原始數(shù)據(jù)融合及直接實時傳感技術實現(xiàn)5 級自動駕駛
        汽車零部件(2017年4期)2017-07-12 17:05:53
        貼近生活的商業(yè)財經(jīng)類期刊
        消費導刊(2017年6期)2017-06-22 14:22:21
        財經(jīng)類MBA院校案例研發(fā)隊伍建設研究
        財經(jīng)類院校概率論與數(shù)理統(tǒng)計教學改革的探索
        河南科技(2014年10期)2014-02-27 14:09:37
        国产精品天干天干综合网| 亚洲福利av一区二区| 国产真实露脸4p视频| 丰满人妻无套中出中文字幕| 日本高清在线一区二区三区| 午夜秒播久久精品麻豆| 99精品欧美一区二区三区| 亚洲成AⅤ人在线观看无码| 日本精品一区二区三区在线播放 | 久久久亚洲成年中文字幕| 少妇高潮av久久久久久| 久久久久99精品成人片试看| 国产精品无码一区二区在线国| 亚洲视频一区二区久久久| 亚洲av不卡一区男人天堂| 无码乱人伦一区二区亚洲一| 国产精品主播视频| 亚洲精品国产二区在线观看| 天堂资源中文网| 亚洲欧美精品suv| 国产偷v国产偷v亚洲偷v| 精品人妻一区二区三区av| 国产视频自拍一区在线观看| 中国人妻被两个老外三p| 综合激情网站| 高清国产亚洲精品自在久久| 蜜臀av色欲a片无码精品一区| 午夜亚洲www湿好大| 国产一级一片内射在线| 亚洲乱码一区二区av高潮偷拍的| 精品久久久久香蕉网| h国产视频| 青榴社区国产精品| 国产一区二区免费在线视频| 免费高清av一区二区三区| 国产99久久无码精品| 亚洲av大片在线免费观看| 熟女人妻中文字幕av| 亚洲欧美日韩人成在线播放| 日韩av无卡无码午夜观看| 精品露脸熟女区一粉嫩av |