江疆,黃劍文,楊秋勇(廣東電網(wǎng)有限責(zé)任公司信息中心,廣州 510080)
基于廣東電網(wǎng)大數(shù)據(jù)的數(shù)據(jù)質(zhì)量管理方法
江疆,黃劍文,楊秋勇
(廣東電網(wǎng)有限責(zé)任公司信息中心,廣州 510080)
隨著智能電網(wǎng)建設(shè)的規(guī)模逐年增大,電網(wǎng)所產(chǎn)生的數(shù)據(jù)越來(lái)越多,類(lèi)型也越來(lái)越復(fù)雜。這些數(shù)據(jù)包含大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化信息,并且規(guī)模每年都呈指數(shù)級(jí)增長(zhǎng)。智能電網(wǎng)的發(fā)展要求對(duì)電網(wǎng)故障作出快速響應(yīng),短期負(fù)荷以及實(shí)時(shí)處理數(shù)據(jù)。為了有效解決這些問(wèn)題,電網(wǎng)行業(yè)陸續(xù)引入了大數(shù)據(jù)技術(shù)來(lái)解決。
然而,面對(duì)日益復(fù)雜的業(yè)務(wù)邏輯和日益繁多的數(shù)據(jù)資源,沒(méi)有有效的數(shù)據(jù)質(zhì)量管理機(jī)制是不行的。當(dāng)前,電網(wǎng)系統(tǒng)的數(shù)據(jù)質(zhì)量問(wèn)題主要體現(xiàn)在“系統(tǒng)外部問(wèn)題”,“系統(tǒng)內(nèi)部問(wèn)題”,“核對(duì)標(biāo)準(zhǔn)問(wèn)題”等方面,這些問(wèn)題的存在嚴(yán)重影響了系統(tǒng)的使用和推廣。電網(wǎng)需要引入數(shù)據(jù)質(zhì)量管理方法,以此數(shù)據(jù)質(zhì)量問(wèn)題。
南方電網(wǎng)所采集的各類(lèi)數(shù)據(jù)主要具有種類(lèi)多、高速、容量大、價(jià)值高的特征,其價(jià)值密度低卻又商業(yè)價(jià)值高。要有效地處理這些數(shù)據(jù)需要運(yùn)用大數(shù)據(jù)技術(shù)。
目前,大數(shù)據(jù)技術(shù)已經(jīng)逐步走向成熟,也滲透到各個(gè)領(lǐng)域,然而在電力系統(tǒng)的應(yīng)用依然存在一定的挑戰(zhàn),尤其是如何將種類(lèi)豐富的數(shù)據(jù)進(jìn)行整合。電力系統(tǒng)數(shù)據(jù)不僅包含結(jié)構(gòu)化數(shù)據(jù),也包含系統(tǒng)日志等半結(jié)構(gòu)化數(shù)據(jù)及視頻檢測(cè)這種非結(jié)構(gòu)化數(shù)據(jù)[3]。非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在本地系統(tǒng)中,不利于對(duì)這種類(lèi)型數(shù)據(jù)進(jìn)行檢索分析,而半結(jié)構(gòu)化數(shù)據(jù)往往是以文件的形式進(jìn)行存儲(chǔ)。隨著業(yè)務(wù)發(fā)展數(shù)據(jù)量的增加,應(yīng)用復(fù)雜導(dǎo)致的數(shù)據(jù)量增加,這些數(shù)據(jù)量增加了數(shù)據(jù)存儲(chǔ)和處理壓力,造成了不少的數(shù)據(jù)質(zhì)量隱患,這些問(wèn)題的存在嚴(yán)重影響了系統(tǒng)的使用和推廣。
隨著電網(wǎng)運(yùn)營(yíng)朝著低成本、一體化、精細(xì)化、實(shí)時(shí)化以及智能化運(yùn)營(yíng)方向的發(fā)展,電網(wǎng)對(duì)大數(shù)據(jù)數(shù)據(jù)質(zhì)量的管理也提出了一定要求,如要求將已出現(xiàn)及潛在的數(shù)據(jù)質(zhì)量問(wèn)題具體化,并落實(shí)到各環(huán)節(jié)的可檢查項(xiàng)中,實(shí)現(xiàn)流程化管理的要求;要求最大限度地修正目前存在的數(shù)據(jù)質(zhì)量問(wèn)題,并建立有效地監(jiān)控機(jī)制,控制預(yù)防將來(lái)的錯(cuò)誤范圍擴(kuò)大的要求;要求在整個(gè)數(shù)據(jù)處理過(guò)程中,每個(gè)環(huán)節(jié)都建立數(shù)據(jù)質(zhì)量保證機(jī)制,最終在各個(gè)環(huán)節(jié)都保證數(shù)據(jù)的正確性、一致性、完整性和可靠性等。簡(jiǎn)而言之,利用全面的數(shù)據(jù)質(zhì)量管理實(shí)現(xiàn)對(duì)電網(wǎng)大數(shù)據(jù)技術(shù)的支撐和完善。
數(shù)據(jù)質(zhì)量的好壞是由用戶(hù)以及數(shù)據(jù)的使用價(jià)值所決定的,代表著數(shù)據(jù)在數(shù)據(jù)知識(shí)應(yīng)用中、數(shù)據(jù)所存在的系統(tǒng)中以及數(shù)據(jù)使用的過(guò)程中被應(yīng)用的程度,并且只有當(dāng)數(shù)據(jù)被下游過(guò)程所接收并使用時(shí)討論數(shù)據(jù)質(zhì)量問(wèn)題才有意義。
2.1數(shù)據(jù)質(zhì)量的影響因素
數(shù)據(jù)質(zhì)量的影響因素有很多,可以根據(jù)產(chǎn)生的時(shí)間和節(jié)點(diǎn)劃分為數(shù)據(jù)導(dǎo)入過(guò)程、引起數(shù)據(jù)變壞的過(guò)程和內(nèi)部過(guò)程。
(1)數(shù)據(jù)導(dǎo)入過(guò)程
數(shù)據(jù)導(dǎo)入過(guò)程是指通過(guò)手工/接口/集成技術(shù)等方式將數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程。該過(guò)程對(duì)數(shù)據(jù)質(zhì)量造成影響表現(xiàn)在以下方面:轉(zhuǎn)換初始數(shù)據(jù)時(shí),缺少可靠的源系統(tǒng)的元數(shù)據(jù),源數(shù)據(jù)本身不完善等;系統(tǒng)整頓時(shí),通常發(fā)生于舊系統(tǒng)淘汰與合并,數(shù)據(jù)整頓與初始數(shù)據(jù)轉(zhuǎn)換面臨相同的挑戰(zhàn),但問(wèn)題更加復(fù)雜;人工數(shù)據(jù)錄入時(shí),由于人為因素?zé)o法預(yù)防,難以預(yù)測(cè)。
(2)引起數(shù)據(jù)變壞的過(guò)程
引起數(shù)據(jù)變壞的過(guò)程包括以下內(nèi)容:變化未捕獲,系統(tǒng)之間往往有很多接口,但是在修改接口的時(shí)候往往沒(méi)有將其影響的接口一起修改;專(zhuān)業(yè)知識(shí)流失,人員流失后新人很難精確地理解數(shù)據(jù)意義;處理自動(dòng)化,一些驗(yàn)證界面可能在自動(dòng)處理實(shí)施,但它們不能看到數(shù)據(jù)全部特性,或?yàn)榱诵阅鼙魂P(guān)閉了,當(dāng)大量數(shù)據(jù)暴露給更多用戶(hù)后,一旦出錯(cuò)受到更多抱怨,數(shù)據(jù)質(zhì)量感知變差。
(3)內(nèi)部過(guò)程
系統(tǒng)內(nèi)部的處理過(guò)程也在很大程度上對(duì)數(shù)據(jù)質(zhì)量水平產(chǎn)生影響。包括數(shù)據(jù)處理、數(shù)據(jù)清洗、數(shù)據(jù)清除。數(shù)據(jù)處理,日常數(shù)據(jù)處理的程序改變會(huì)引起數(shù)據(jù)質(zhì)量問(wèn)題,新的數(shù)據(jù)采集程序也會(huì)引起的同樣的問(wèn)題,更隱蔽的問(wèn)題是數(shù)據(jù)處理在錯(cuò)誤的時(shí)間意外發(fā)生,然后正確的程序可能產(chǎn)生錯(cuò)誤的結(jié)果,因?yàn)閿?shù)據(jù)并非處于它應(yīng)有的狀態(tài);數(shù)據(jù)清洗,數(shù)據(jù)清洗的危險(xiǎn)在于數(shù)據(jù)質(zhì)量問(wèn)題的復(fù)雜性和內(nèi)部相關(guān)性。解決一個(gè)問(wèn)題可能引起許多相同或其他相關(guān)數(shù)據(jù)元素的問(wèn)題。數(shù)據(jù)自動(dòng)清洗由計(jì)算機(jī)程序?qū)嵤?,?jì)算機(jī)程序會(huì)有bug并影響大量記錄;數(shù)據(jù)質(zhì)量說(shuō)明書(shū)未反映實(shí)際數(shù)據(jù)需求,結(jié)果數(shù)據(jù)可能符合理論模型但對(duì)實(shí)際使用仍是錯(cuò)誤的;數(shù)據(jù)清除,數(shù)據(jù)清除存在意外清除其他相關(guān)數(shù)據(jù)的風(fēng)險(xiǎn)。
2.2數(shù)據(jù)質(zhì)量保障體系
一個(gè)完善的、有效的數(shù)據(jù)質(zhì)量保障體系具有如下基本特點(diǎn):(1)數(shù)據(jù)質(zhì)量全過(guò)程都是受控的;(2)活動(dòng)必須是得到授權(quán);(3)具備有效的數(shù)據(jù)質(zhì)量文檔,從而保障整個(gè)過(guò)程的可檢查性的;(4)全面的數(shù)據(jù)質(zhì)量管理;(5)持續(xù)的改進(jìn)過(guò)程:從數(shù)據(jù)質(zhì)量本身來(lái)講,出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題是正常的,關(guān)鍵是進(jìn)行糾正,并采取“預(yù)防再犯”的措施,所以質(zhì)量保障過(guò)程是一個(gè)持續(xù)的改進(jìn)過(guò)程;(6)特別重視數(shù)據(jù)質(zhì)量問(wèn)題數(shù)據(jù)的采集以及數(shù)據(jù)質(zhì)量知識(shí)庫(kù)的建設(shè)。
3.1數(shù)據(jù)質(zhì)量檢查
數(shù)據(jù)質(zhì)量檢查是指檢查數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)質(zhì)量是否存在問(wèn)題,若存在問(wèn)題,則識(shí)別數(shù)據(jù)質(zhì)量問(wèn)題的級(jí)別。數(shù)據(jù)質(zhì)量檢查的目的是識(shí)別數(shù)據(jù)錯(cuò)誤,衡量對(duì)各種業(yè)務(wù)過(guò)程的影響。具體包括以下內(nèi)容:
(1)接口數(shù)據(jù)檢查
接口數(shù)據(jù)提供可以是以文件的形式提供也可以是以數(shù)據(jù)表的形式提供,因此檢查針對(duì)接口文件和接口數(shù)據(jù)表。通過(guò)對(duì)接口數(shù)據(jù)完整性和及時(shí)性等方面的檢查檢查及時(shí)發(fā)現(xiàn)問(wèn)題,以保證在數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前不存在明顯的數(shù)據(jù)質(zhì)量問(wèn)題和隱患。
接口文件的檢查主要包括對(duì)文件格式、文件大小、記錄長(zhǎng)度、傳送數(shù)量等方面的檢查;接口表的檢查主要包括對(duì)表的屬性、數(shù)據(jù)時(shí)間等方面的檢查;對(duì)于采取非上述接口方式的情況,可根據(jù)具體情況設(shè)計(jì)接口數(shù)據(jù)檢查的項(xiàng)目和內(nèi)容。
(2)數(shù)據(jù)倉(cāng)庫(kù)檢查
數(shù)據(jù)倉(cāng)庫(kù)檢查是對(duì)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)進(jìn)行數(shù)據(jù)完整性、一致性、正確性和及時(shí)性方面的檢查,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部的數(shù)據(jù)不存在數(shù)據(jù)質(zhì)量問(wèn)題。
(3)指標(biāo)檢查
數(shù)據(jù)展現(xiàn)的檢查主要檢查數(shù)據(jù)的正確性方面存在的質(zhì)量問(wèn)題;以保證數(shù)據(jù)能夠真實(shí)反映業(yè)務(wù)實(shí)情。
3.2數(shù)據(jù)質(zhì)量問(wèn)題控制
數(shù)據(jù)質(zhì)量控制是指采用一定的方法對(duì)已經(jīng)出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題的數(shù)據(jù)進(jìn)行處理。如果發(fā)現(xiàn)某些數(shù)據(jù)質(zhì)量問(wèn)題是由于系統(tǒng)設(shè)計(jì)不合理等原因?qū)е碌?,則還需要變更數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。
數(shù)據(jù)質(zhì)量問(wèn)題控制主要包括以下內(nèi)容如下。
(1)數(shù)據(jù)質(zhì)量問(wèn)題處理流程
在本流程中,數(shù)據(jù)質(zhì)量管理員先根據(jù)問(wèn)題的實(shí)際情況判斷數(shù)據(jù)質(zhì)量問(wèn)題的歸屬節(jié)點(diǎn),如果是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)內(nèi)部問(wèn)題,即轉(zhuǎn)入數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)變更處理流程;如果判斷為不是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)內(nèi)部問(wèn)題,則提交數(shù)據(jù)質(zhì)量事件報(bào)告并申請(qǐng)數(shù)據(jù)質(zhì)量小組協(xié)調(diào),數(shù)據(jù)質(zhì)量小組檢查數(shù)據(jù)質(zhì)量事件報(bào)告,確定責(zé)任歸屬。數(shù)據(jù)質(zhì)量小組中業(yè)務(wù)系統(tǒng)接口員由各個(gè)業(yè)務(wù)系統(tǒng)的代表?yè)?dān)任,在檢查過(guò)程中,各業(yè)務(wù)系統(tǒng)的代表應(yīng)該提供業(yè)務(wù)系統(tǒng)的實(shí)際情況,并結(jié)合自身的業(yè)務(wù)系統(tǒng)經(jīng)驗(yàn),協(xié)助數(shù)據(jù)質(zhì)量小組確定問(wèn)題的根本原因。責(zé)任確定以后,確定的責(zé)任歸屬業(yè)務(wù)系統(tǒng)的代表應(yīng)該推動(dòng)相應(yīng)的業(yè)務(wù)系統(tǒng)修改相應(yīng)的系統(tǒng),并在系統(tǒng)修改完畢以后,發(fā)業(yè)務(wù)系統(tǒng)變更通知到數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)根據(jù)業(yè)務(wù)系統(tǒng)變更通知進(jìn)入系統(tǒng)變更處理流程。最后,對(duì)于已經(jīng)發(fā)生錯(cuò)誤的數(shù)據(jù),則進(jìn)入錯(cuò)誤數(shù)據(jù)維護(hù)流程。
(2)錯(cuò)誤數(shù)據(jù)維護(hù)流程
在系統(tǒng)中由于歷史原因?qū)е铝爽F(xiàn)有數(shù)據(jù)庫(kù)中數(shù)據(jù)存在錯(cuò)誤,需要進(jìn)行維護(hù)。錯(cuò)誤數(shù)據(jù)的維護(hù)必須得到數(shù)據(jù)質(zhì)量管理員的同意,并在在維護(hù)完成后提交數(shù)據(jù)維護(hù)報(bào)告,數(shù)據(jù)質(zhì)量管理員可以采取適當(dāng)?shù)臋z查以驗(yàn)證數(shù)據(jù)維護(hù)操作的執(zhí)行情況。
(3)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)變更處理流程
為了面對(duì)業(yè)務(wù)環(huán)境的挑戰(zhàn),企業(yè)總是處在持續(xù)的變化過(guò)程中,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)必然處在不斷的變更中。系統(tǒng)變更處理流程從管理和技術(shù)兩個(gè)方面規(guī)范此類(lèi)事件的處理流程,保證系統(tǒng)的任何更改可能對(duì)數(shù)據(jù)質(zhì)量造成的影響都是受控制的。
3.3數(shù)據(jù)質(zhì)量問(wèn)題預(yù)防
數(shù)據(jù)質(zhì)量問(wèn)題預(yù)防是指建立一系列的影響因素的監(jiān)控規(guī)則,以便及時(shí)發(fā)現(xiàn)可能影響數(shù)據(jù)質(zhì)量的因素的變化,及時(shí)處理,防止數(shù)據(jù)質(zhì)量問(wèn)題的產(chǎn)生。數(shù)據(jù)質(zhì)量問(wèn)題的預(yù)防包括以下內(nèi)容:
(1)數(shù)據(jù)質(zhì)量測(cè)試過(guò)程
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)處理海量的輸入,并產(chǎn)生了大量的輸出結(jié)果(報(bào)表、OLAP分析),其中間存貯也是海量的,使得數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的測(cè)試壓力非常大。需要特別加強(qiáng)對(duì)測(cè)試過(guò)程的管理。測(cè)試過(guò)程是企業(yè)的標(biāo)準(zhǔn)IT過(guò)程,在此描述的數(shù)據(jù)測(cè)試過(guò)程不是一個(gè)完整的測(cè)試過(guò)程,只是測(cè)試過(guò)程的一個(gè)子過(guò)程,加強(qiáng)了對(duì)數(shù)據(jù)質(zhì)量的預(yù)測(cè)和管理,同時(shí)在很大程度上起到預(yù)防數(shù)據(jù)質(zhì)量問(wèn)題的作用。
為了保障數(shù)據(jù)質(zhì)量,數(shù)據(jù)管理員關(guān)注所有的測(cè)試過(guò)程,特別是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中的所有測(cè)試方案和測(cè)試報(bào)告都必須要由數(shù)據(jù)質(zhì)量管理員進(jìn)行檢查。測(cè)試方案中要求涵蓋對(duì)數(shù)據(jù)質(zhì)量的測(cè)試,數(shù)據(jù)質(zhì)量管理員對(duì)所有的測(cè)試方案進(jìn)行檢查,并向數(shù)據(jù)質(zhì)量小組和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)開(kāi)發(fā)組提交檢查報(bào)告,對(duì)于數(shù)據(jù)質(zhì)量管理員檢查不能通過(guò)的測(cè)試方案,要求必須在規(guī)定的期限內(nèi)重新設(shè)計(jì)并提交。數(shù)據(jù)質(zhì)量管理員對(duì)所有的測(cè)試報(bào)告進(jìn)行檢查,并向數(shù)據(jù)質(zhì)量小組和開(kāi)發(fā)小組提交檢查報(bào)告。對(duì)于數(shù)據(jù)質(zhì)量管理員檢查不能通過(guò)的測(cè)試報(bào)告,測(cè)試不能視為通過(guò)。
(2)統(tǒng)計(jì)口徑差異控制流程
統(tǒng)計(jì)口徑是元數(shù)據(jù)管理的重要組成部分,對(duì)于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)具有重要的意義,由于系統(tǒng)之間的統(tǒng)計(jì)口徑的差異已經(jīng)對(duì)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的實(shí)施造成了一定影響,因此控制好統(tǒng)計(jì)口徑,使其保持一致性是預(yù)防數(shù)據(jù)質(zhì)量問(wèn)題的基礎(chǔ)。
在統(tǒng)計(jì)口徑差異控制過(guò)程中,數(shù)據(jù)質(zhì)量管理員接受統(tǒng)計(jì)口徑差異問(wèn)題報(bào)告,判斷是否已經(jīng)確定的統(tǒng)計(jì)口徑(已經(jīng)確定的/企業(yè)內(nèi)有明確的文檔明確規(guī)定的),如果不是,則需要通過(guò)數(shù)據(jù)質(zhì)量小組協(xié)調(diào)。數(shù)據(jù)質(zhì)量小組中包含了各部門(mén)的代表,數(shù)據(jù)質(zhì)量管理員要求相關(guān)的系統(tǒng)或者業(yè)務(wù)部門(mén)的代表提供本部門(mén)對(duì)該統(tǒng)計(jì)口徑的定義,理解,計(jì)算辦法,計(jì)算公式,并確定關(guān)注和使用該統(tǒng)計(jì)口徑的部門(mén)。統(tǒng)計(jì)口徑應(yīng)該以該統(tǒng)計(jì)口徑的定義和使用部門(mén)的解釋為準(zhǔn)。如果有多個(gè)部門(mén)對(duì)同一個(gè)統(tǒng)計(jì)口徑的給出了不同的定義,并且使用了該統(tǒng)計(jì)口徑,數(shù)據(jù)質(zhì)量管理員應(yīng)該申請(qǐng)更高層次的協(xié)調(diào)。
(3)管理流程檢查
管理流程檢查包括管理機(jī)構(gòu)、管理流程及標(biāo)準(zhǔn)、質(zhì)量管理運(yùn)作的檢查。完善的管理機(jī)構(gòu)、流程和標(biāo)準(zhǔn)以及完整的運(yùn)作過(guò)程可以保障數(shù)據(jù)質(zhì)量,使數(shù)據(jù)倉(cāng)庫(kù)在任何情況下都按照一定規(guī)則標(biāo)準(zhǔn)來(lái)運(yùn)行維護(hù)。
結(jié)合南方電網(wǎng)的數(shù)據(jù)特點(diǎn)和業(yè)務(wù)需求,使用全面的數(shù)據(jù)質(zhì)量管理機(jī)制,通過(guò)業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的全體部門(mén)及人員齊心協(xié)力,把管理層面、技術(shù)層面以及統(tǒng)計(jì)方法和思想教育結(jié)合起來(lái),建立從系統(tǒng)設(shè)計(jì)、管理、運(yùn)營(yíng)等全過(guò)程的數(shù)據(jù)質(zhì)量管理體系,進(jìn)而有效地利用多方資源,提供符合期望的分析數(shù)據(jù),從而提升南方電網(wǎng)的管理水平和工作效率,增加核心競(jìng)爭(zhēng)力。
4.1數(shù)據(jù)質(zhì)量管理流程化、規(guī)范化
南方電網(wǎng)引入“主數(shù)據(jù)”管理概念,搭建起“數(shù)據(jù)資源管理平臺(tái)”。所有的主數(shù)據(jù)由專(zhuān)人專(zhuān)系統(tǒng)統(tǒng)一維護(hù),變更信息時(shí)統(tǒng)一推送至其他應(yīng)用平臺(tái)。這樣確保了主要數(shù)據(jù)維護(hù)的唯一性、準(zhǔn)確性,提升整體系統(tǒng)的數(shù)據(jù)質(zhì)量。同時(shí),南方電網(wǎng)制定出一套完整數(shù)據(jù)質(zhì)量流程以及管理規(guī)范,從底層數(shù)據(jù)到上層應(yīng)用數(shù)據(jù),形成有效統(tǒng)一的管理機(jī)制,最大程度上保證整個(gè)系統(tǒng)的數(shù)據(jù)質(zhì)量。
4.2數(shù)據(jù)質(zhì)量管理的有效性,全面性
南方電網(wǎng)最大限度地修正目前存在的數(shù)據(jù)質(zhì)量問(wèn)題,建立了有效地監(jiān)控機(jī)制,控制預(yù)防將來(lái)的錯(cuò)誤范圍擴(kuò)大;與源系統(tǒng)數(shù)據(jù)質(zhì)量相互驗(yàn)證,對(duì)源系統(tǒng)的部分?jǐn)?shù)據(jù)起到一定的檢查作用,并相互促進(jìn)在。同時(shí),在整個(gè)數(shù)據(jù)處理過(guò)程中,每個(gè)環(huán)節(jié)都建立數(shù)據(jù)質(zhì)量保證機(jī)制,最終在各個(gè)環(huán)節(jié)都保證數(shù)據(jù)的正確性、一致性、完整性和可靠性。
4.3系統(tǒng)/業(yè)務(wù)管理常態(tài)化、精細(xì)化
通過(guò)數(shù)據(jù)質(zhì)量管理機(jī)制和技術(shù)規(guī)范促進(jìn)信息通信運(yùn)維作業(yè)水平提升,保障各類(lèi)信息通信系統(tǒng)的穩(wěn)定運(yùn)行。通過(guò)加強(qiáng)組織管理,落實(shí)流程制定與實(shí)施,在現(xiàn)有的業(yè)務(wù)流程、管理流程的基礎(chǔ)上進(jìn)行優(yōu)化,將需求管理流程、數(shù)據(jù)質(zhì)量管理流程等納入了常態(tài)化管理,進(jìn)而明確、細(xì)化各種流程中職責(zé)分工,確保各種工作能夠落實(shí)到人、管理到人、認(rèn)責(zé)到人。
隨著大數(shù)據(jù)技術(shù)的發(fā)展,未來(lái)電網(wǎng)將更加智能化、安全化,必定會(huì)向著低成本、高效率、高可靠性的方向轉(zhuǎn)變。而當(dāng)前的數(shù)據(jù)分析處理要求一套數(shù)據(jù)質(zhì)量管理機(jī)制,為了進(jìn)一步提高廣東電網(wǎng)的核心競(jìng)爭(zhēng)力,向客戶(hù)提高更好、更安全的服務(wù),有必要積極研究數(shù)據(jù)質(zhì)量管理方法。研究能夠?qū)崿F(xiàn)對(duì)各種類(lèi)型數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量問(wèn)題檢查、數(shù)據(jù)質(zhì)量控制及數(shù)據(jù)質(zhì)量問(wèn)題預(yù)防可以為電力行業(yè)的發(fā)展提供基礎(chǔ)支持,促進(jìn)企業(yè)發(fā)展。
[1]李翠平,王敏峰.大數(shù)據(jù)的挑戰(zhàn)與機(jī)遇[J].科研信息化技術(shù)與應(yīng)用,2013,4(1):12-18.
[2]段軍紅,張奈丹,趙博等.電力大數(shù)據(jù)基礎(chǔ)體系架構(gòu)與應(yīng)用研究[J].中天科技,2015,13(2):92-94.
[3]岳陽(yáng),張曉佳,高一丹.基于Hadoop的電力大數(shù)據(jù)技術(shù)體系研究[J].電力與能源,2015,36(2):16-20.
Data Quality;Data Quality Management;Quality Control;Quality Prevention
Data Quality Management Based on Guangdong Power Grid
JIANG Jiang,HUANG Jian-wen,YANG Qiu-yong
(Information Centre of Guangdong Grid Co,Guangzhou510080)
1007-1423(2016)07-0088-04
10.3969/j.issn.1007-1423.2016.07.019
2015-12-07
2016-01-20
隨著廣東電網(wǎng)智能化建設(shè)和規(guī)模的擴(kuò)大,電網(wǎng)系統(tǒng)業(yè)務(wù)邏輯越來(lái)越復(fù)雜,數(shù)據(jù)也越來(lái)越龐大,導(dǎo)致類(lèi)似“系統(tǒng)外部問(wèn)題”、“系統(tǒng)內(nèi)部問(wèn)題”、“核對(duì)標(biāo)準(zhǔn)問(wèn)題”等的數(shù)據(jù)質(zhì)量問(wèn)題,嚴(yán)重影響系統(tǒng)的使用和推廣。根據(jù)電力大數(shù)據(jù)的特點(diǎn)和發(fā)展趨勢(shì),結(jié)合廣東電網(wǎng)數(shù)據(jù)質(zhì)量的現(xiàn)狀,從公司業(yè)務(wù)特點(diǎn)和實(shí)際需求出發(fā),提出一種高效的數(shù)據(jù)質(zhì)量管理方法,并分析該方法的數(shù)據(jù)質(zhì)量檢查、數(shù)據(jù)質(zhì)量問(wèn)題控制和數(shù)據(jù)質(zhì)量問(wèn)題預(yù)防等方面的實(shí)施。
數(shù)據(jù)質(zhì)量;數(shù)據(jù)質(zhì)量管理;問(wèn)題控制;問(wèn)題預(yù)防
江疆(1982-),湖北人,博士,研究方向?yàn)殡娏τ?jì)算應(yīng)用系統(tǒng)開(kāi)發(fā)與管理、機(jī)器學(xué)習(xí)黃劍文(1963-),廣東人,研究生,研究方向?yàn)閿?shù)據(jù)分析、數(shù)據(jù)應(yīng)用
楊秋勇(1986-),廣東人,碩士,研究方向?yàn)橹悄苄畔⑻幚?、?shù)據(jù)挖掘
With the expansion of Guangdong Power Grid,the business logic is more and more complex and the database becomes larger and larger, which resulting in questions like"system of external problems","internal system problems","check the standard problems"and so on, that seriously affecting the use and promotion of the system.Considering the characteristics of big data and the business characteristics and the needs of Guangdong Power Grid,proposes an efficient method to manage data quality,and then analyses quality check,quality control and quality prevention during the practice of Guangdong Power Grid.