劉 軍,周 明,王 筠,田青松
(1.國網安徽省電力有限公司信息通信分公司,安徽 合肥 230009;2.合肥恒卓科技有限公司,安徽 合肥 230088)
源頭數據收集的過程,包括溯源、溝通、申請和落實等過程,是數據獲取的前提。
過程輸入:數據需求清單、數據接入方案、安全保密協議、數據使用申請、接口開通申請、接口方案。
過程輸出:業(yè)務部門、科信、信通公司、確認的數據接入方案、接口開通方案、源頭數據、日志文件。
完整性:應及時獲得完整的源頭數據。首先是項目組協同業(yè)務部門梳理完整的數據資源需求清單和數據字典;其次要獲得信息和業(yè)務主管部門的授權和認可。
及時性:要保證數據提供的及時性。數據清洗轉換工作牽涉源頭系統(tǒng)多,涉及業(yè)務面廣,讓各源頭系統(tǒng)和部門能在規(guī)定時間內將數據提供齊全,是數據收集過程需要重點關注的工作內容。為保證數據提供及時性,實施組織及關聯組織應出臺配套措施,例如事前商榷,責任到人,事前提醒,事后考核的過程管理辦法。
安全性:要確保信息安全。安全保密是公司全體謹記的防線,沒有安全保密措施業(yè)務部門不會提供數據,安全保密不到位,數據使用單位、人員都會受到責任牽連。因此,在數據申請之前,就應對安全措施進行梳理和落實。例如宣傳和落實禁止數據外傳、工作落實責任人,明確數據使用人員、查詢人員,簽訂安全保密協議等。
1.5.1 數據準備入問題
數據獲取過程中,問題主要集中在組織和溝通方面,組織得當,才能保證數據收集流程順利進行。而組織和責任落實方面,僅依靠項目組難以推動,必須梳理明確的數據需求清單,提交項目管控組,組織溯源會議,將工作項落實到相關部門和團隊,并指定負責人;再輔以必要的業(yè)務數據使用申請,請相關管理部門授權(簽字、蓋章)。申請由數據收集部門發(fā)起,源頭業(yè)務部門授權,科信和信通簽批。
1.5.2 信息安全問題
需要特別關注的是數據安全保密的問題,尤其是安全級別要求高的數據,項目組在溯源獲取之前,應先結合國網安全保密要求,列舉安全保密措施,例如在數據傳輸途徑方面禁止一切外接和外傳,人員安全保密要求方面,將安全保密要求在相關單位、部門、責任人方面逐層落實,提供明確的管理辦法并嚴格執(zhí)行。
數據清洗需要對獲取的源頭數據先進行初步篩查,通過目測手量加經驗的方式快速剔除非達標項,通過溝通、確認等方式從源頭獲取質量更高的數據;再通過技術手段,依據數據主鍵唯一性約束、數據關聯約束、數據完整性約束等條件,排查邏輯和結構異常的數據;還要結合業(yè)務規(guī)則,對違反或與實際明顯不符的數據進行甄別和排查。
過程輸入:源頭數據、日志文件、數據需求清單、數據字典。
過程輸出:可入庫的源頭數據、入庫數據清單、數據字典。
數據清洗過程的重點工作內容是快速甄別源頭數據的可用性、真實性、完整性,從而保障獲得的源頭數據是可以被后續(xù)過程使用的有效數據,促進后續(xù)流程順利開展。
數據清洗過程的難點是對數據甄別手段的掌握和應用。在電力行業(yè)有經驗積累的團隊成員,依據其所從事或分析的專業(yè),大多能快速的按照步驟逐一識別源頭提供的文件是否滿足要求,但其經驗應用于文件的甄別,有一個度的把
控的問題,這個主觀性較強,所以一方面需要不斷地經驗積累,另一方面則需要借助技術手段快速甄別。
2.5.1 DMP數據文件導入問題
數據清洗過程中基本都會遇到數據庫版本不一致的問題,例如安徽公司ERP系統(tǒng)使用的數據庫是Oracle10.2版,而數據歸集目標庫用的是Oracle10.1版,對于這種高版本向低版本導入的問題,源頭導出的DMP文件是不能直接在目標庫導入的,所以在數據導入目標庫之前需要做轉換處理。先在測試環(huán)境安裝與源頭版本相同的數據庫,將DMP文件導入其中,再通過與目標庫相同的客戶端導出該數據文件,通過轉換后的DMP文件才能成功導入到目標庫中。
DMP文件導入之前,需要先對導出用戶、導出表空間信息進行必要的調查,在用戶不一致、表空間不一致時數據導入時會報錯,或不能成功導入。因此需要隨DMP文件一起收集數據庫導出日志文件,通過日志文件對導出的數據文件信息做好充分的了解,為數據導入目標庫做好充足的準備。
2.5.2 EXCEL數據問題及常用解決辦法
對于源頭提供的EXCEL文件,由于其文件內容可編輯,對這部分數據在導入數據庫之前則需要更仔細地檢查。
(1)EXCEL中特殊格式問題及處理辦法。例如經常會出現在EXCEL中的格式字符、空格字符看不見,但真實存在。此部分內容導入數據庫后會對數據的有效性、準確性產生一定的影響,所以入庫之前,對重要字段,特別在后期轉換過程中需要用于關聯的,用于計算的字段進行必要的處理。通過Trim和Clean函數去除空格等特殊字符的用法。
(2)EXCEL中對篩選后的表進行復制粘貼的問題。EXCEL2007以上版本,在篩選結果集中復制數據粘貼到新表時,會將過濾掉的數值帶上,這時需要在復制之前設置定位條件。
以EXCEL2010版為例,在功能區(qū)選擇開始->查找和選擇->定位條件,然后在表格中框選需要復制的數據,到目標表格中進行粘貼。
(3)EXCEL設置條件格式。EXCEL中對部分數據需要區(qū)分顯示,例如正常區(qū)間段的顯示綠色,超出正常值的顯示成紅色,可以通過設置條件格式進行顯示。以EXCEL2010版為例,將發(fā)電量數據設置成100~10 000之間顯示為綠色,小于100顯示黃色,大于10 000顯示紅色。菜單路徑開始->條件格式->管理規(guī)則(或新建規(guī)則)。
(4)EXCEL中數值型數據顯示長度的問題。EXCEL中數值型數據只能顯示16位,超過16位時會自動轉換成科學計數法顯示,16位以后的數據顯示成0。對于數字型數據,例如編碼,在導入前需要將單元格格式設置成文本類型并防止數據丟失。
數據轉換是指將清洗后的數據按照數據轉換規(guī)則,將數據導入到按約定規(guī)則創(chuàng)建的標準表中。
過程輸入:清洗后的可用于轉換的源頭數據,數據清單、數據字典、檢查清洗記錄、問題記錄。
過程輸出:轉換后的標準表、轉換日志、表清單、數據字典、補充的問題記錄。
數據轉換過程的重點是轉換效率的不斷提升,需要經過異常問題處理的經驗積累,不斷提升數據清洗轉換效率。
轉換的結果是否被用戶認可,結果是否可用需要甄別和鑒定,需要通過數據核查行驗證。
數據轉換過程通過率不僅反映了轉換方法適用性,也反映了源頭數據收集、數據清洗處理、數據檢查階段工作的成效。在數據清洗轉換的初期,需要工作流程中各階段的不斷磨合和提升,磨合的過程也是發(fā)現問題解決問題的過程,我們將問題劃分為3類:(1)數據質量;(2)轉換方法適用性;(3)操作過程熟練度。
3.5.1 數據質量問題
數據質量的提升,需要從源頭入手,保證源頭提供真實完整的數據,然后在檢查過程中回溯反饋,依據實際情況逐項反推,促進源頭提升。在整個協動提升過程中,工作推動靠實施組織,問題解決過程是傳動紐帶,溝通辦法,技術手段,數據檢查規(guī)則是整體協動的抓手。提升過程也是圍繞目標解決問題的過程,問題記錄很重要,特別是在試用初期,一定要建立問題清單,所有問題逐項解決,才能掃清轉換過程障礙,提升轉換通過率。
3.5.2 轉換方法適用性問題
在轉換方法適用性提升方面,需要實施團隊對轉換規(guī)則進行充分的學習、梳理和理解;掌握了轉換規(guī)則,才能在出現異常時準確定位問題所在,有針對性地提出意見建議,促進功能、性能優(yōu)化,推動轉換方法適用性不斷提升。
3.5.3 過程操作問題
轉換方法實施的過程也是不斷學習,不斷研究,從陌生到熟練的過程。例如轉換方法執(zhí)行時,操作人員要及時了解過程中反饋的信息,在數據量大時,也可間隔一段時間后再查詢操作日志,如果轉換數據出現錯誤或者時間過長,則要查看具體數據庫運行狀態(tài)和報錯情況,根據報錯和問題原因進行優(yōu)化和調試。
統(tǒng)一數據歸集操作入口,使數據歸集工作更為規(guī)范化,同時固化了大量自動化數據轉換腳本,原先數據轉換多人分時段進行,跨度大概需要24~48 h,經過流程梳理,優(yōu)化過程方法,使整體耗時減低到4 h 11 min,大幅度地提高了數據轉換的效率。數據整體歸集時間由原先的3~4 天,壓縮到2~2.5天,取得了較好的效果。另外,實現了數據統(tǒng)一歸集、集中清洗、批量轉換的理念和方法,規(guī)范了數據歸集操作,壓縮了數據歸集工作周期,通過清洗轉換的數據也必然會為后續(xù)數據挖掘和分析提供更整潔精簡的數據資源支撐。