張學宏,張緒東,張曉娟
(海軍海洋水文氣象中心,北京 100161)
多源溫鹽資料排重處理的一種方法
張學宏,張緒東,張曉娟
(海軍海洋水文氣象中心,北京 100161)
多源溫鹽資料存在大量重復現(xiàn)象,大大影響了這些資料的融合應用價值。本文根據(jù)多源溫鹽資料的重復現(xiàn)象,結(jié)合實際業(yè)務工作經(jīng)驗,提出了重復條件組合排重法這一模型(縮寫RRMCRC),并介紹了溫鹽資料排重業(yè)務化流程。利用該模型和業(yè)務流程,可以有效提高溫鹽資料的排重效率,在其他資料的排重處理中也有重要的借鑒意義。
重復;組合排重;排重判據(jù)
海洋環(huán)境歷史資料是人們認識海洋、研究海洋的重要基礎,是人類開展海洋科學研究、認識海洋科學規(guī)律、從事海洋經(jīng)濟發(fā)展、維護國家和地區(qū)海防安全的重要信息源泉。海洋環(huán)境資料的應用越來越引起人們的高度重視,對海洋環(huán)境的觀測也越來越頻繁和密集,因此對海洋環(huán)境歷史資料的科學處理是一項非?;A性的工作。從19世紀中葉以來,世界上相關國家就開展了海洋環(huán)境的觀測工作,我國也在上世紀中葉前后,開始了海洋環(huán)境持續(xù)監(jiān)測和資料的獲取工作,截至目前,我們積累了大量的海洋環(huán)境歷史資料。除了國內(nèi)各涉海部門的調(diào)查資料外,還有國外數(shù)據(jù)中心的共享資料、國際間合作調(diào)查資料等,但是由這些海量資料組成的數(shù)據(jù)集在要素數(shù)據(jù)的時空分布中重復收錄現(xiàn)象普遍,且有數(shù)據(jù)文件名相同的現(xiàn)象,存在大量的重復記錄,造成資料數(shù)據(jù)總量不確定和數(shù)據(jù)質(zhì)量不穩(wěn)定等問題,嚴重干擾了這些歷史資料的應用價值,因此必須采用先進的技術手段對這些歷史資料進行排重和質(zhì)量控制處理。
綜觀海洋溫鹽歷史資料,具有以下鮮明的特點:
(1)格式多樣性。由于資料來源多,觀測方式方法也不盡相同,且資料獲取年代不同所造成的觀測手段、技術規(guī)范以及應用目的等方面存在差異,這些因素導致了資料格式具有多樣性的特點;
(2)資料重復性。對每一個數(shù)據(jù)記錄,從獲取到收入數(shù)據(jù)集的過程中,由于對資料的應用目的不同,存在資料的重復收錄和針對性的處理,導致了資料的大量重復;
(3)資料質(zhì)量可靠性。從網(wǎng)絡、國際交換、合作共享等渠道獲取的非國內(nèi)觀測資料存在數(shù)據(jù)干擾問題,如數(shù)據(jù)造假、抽稀、時空換位等特有現(xiàn)象。這些現(xiàn)象的存在,尤其資料的重復現(xiàn)象,嚴重影響了資料在海洋經(jīng)濟、海洋科學、軍事等方面的應用。但是由于海洋環(huán)境資料獲取成本高,每一個記錄都彌足珍貴,因此為了能夠有效利用這些寶貴的資料,發(fā)揮其應有的價值,必須采用相關技術方法,對這類資料進行嚴格的排重和質(zhì)量控制處理,形成具有權威性、科學性和唯一性的高質(zhì)量標準化數(shù)據(jù)集,發(fā)揮其最大的應用價值。
溫鹽資料重復現(xiàn)象雖然多種多樣,但主要集中在記錄重復,常見如下幾種典型的重復現(xiàn)象[2—3]:
(1)記錄完全相同,而剖面觀測時間和地理位置存在偏差;
(2)剖面觀測時間和地理位置相同,而記錄不同;
(3)位置和觀測時間基本一致,但是記錄數(shù)據(jù)出現(xiàn)較大偏差;
(4)觀測位置和記錄完全相同,而觀測時間出現(xiàn)跨零點的現(xiàn)象;
(5)觀測時間和觀測位置完全相同,數(shù)據(jù)記錄的小數(shù)位保留的有效數(shù)字長度不一致;
(6)數(shù)據(jù)抽稀造成的數(shù)據(jù)重復。例如由一個剖面拆分成多個剖面,而數(shù)據(jù)層數(shù)發(fā)生變化。
(7)世界時和北京時混用現(xiàn)象。
這些重復現(xiàn)象在來自于國外海洋數(shù)據(jù)中心的共享數(shù)據(jù)集中尤為突出,而在來自于國內(nèi)不同部門的數(shù)據(jù)集之間也普遍存在;此外,由于來自于國外的共享數(shù)據(jù)集中收錄了國內(nèi)相關部門的觀測資料,造成數(shù)據(jù)集之間的資料重復。因此對溫鹽資料的安全應用,首先要解決資料的重復問題。下面以我們在資料處理業(yè)務化工作中出現(xiàn)的實例,來分析上述現(xiàn)象。
(1)記錄完全相同,而剖面觀測時間和地理位置存在偏差
分析:在表1中,兩個剖面資料觀測時間和觀測位置出現(xiàn)偏差,但是剖面的數(shù)據(jù)記錄完全相同。實際上,在海洋觀測中,即便是同一個儀器,在不同時間或不同位置出現(xiàn)這類現(xiàn)象的可能性極小,因此這類重復數(shù)據(jù)必須排出,待通過進一步人工審核、分析和確認后,保留真實資料。
(2)觀測時間和位置完全相同,而要素值不同分析:在表2中,剖面的觀測時間和觀測位置完全相同,但是觀測記錄卻不同,而且差異較大,對于出現(xiàn)這種現(xiàn)象的資料,都要作為重復資料排出,待進一步人工審核確認后,保留真實數(shù)據(jù)。
(3)位置和觀測時間基本一致,但是數(shù)據(jù)出現(xiàn)較大偏差。
表1 重復現(xiàn)象一實例
表2 重復現(xiàn)象二實例
分析:在表3中,兩個剖面的觀測位置基本重疊,時間相差1 min,但是在記錄中,卻出現(xiàn)了明顯的異常,這類重復現(xiàn)象也要作為重復資料予以排出。
(4)觀測時間跨零點而其他信息完全一致
分析:在表4中的兩個剖面觀測位置和要素記錄完全相同,但是觀測時間的表達出現(xiàn)了異常,一個是1997年11月10日零點26分觀測,一個是1997年11月9日24時25分觀測,實際應是相同時間觀測,只是在表達上出現(xiàn)問題,因此這類資料也作為重復資料排出。
(5)要素值小數(shù)位有效數(shù)字長度不一致
分析:表5中的兩個剖面的觀測時間、位置完全一致,而數(shù)據(jù)記錄由于小數(shù)位的有效數(shù)字長度不一致,造成資料重復。
表3 重復現(xiàn)象三實例
表4 重復現(xiàn)象四實例
表5 重復現(xiàn)象五實例
(6)數(shù)據(jù)抽稀造成的數(shù)據(jù)重復
分析:在表6中,剖面一和剖面二的觀測時間和觀測位置完全一致,但是從數(shù)據(jù)記錄中分析發(fā)現(xiàn),剖面二中的數(shù)據(jù)完全是從剖面一中抽取的,造成了數(shù)據(jù)大量重復。
(7)世界時和北京時混用
分析:表7中的兩條記錄來自于兩個不同的部門(兩個數(shù)據(jù)集),兩條記錄的觀測位置和要素測量值完全相同,而觀測時間相差8 h,第一個記錄應該是北京時間,第二個記錄應該是世界時間,這種資料也要作為重復資料排出。
從上述7類重復現(xiàn)象來分析,溫鹽資料的重復以時間、位置、要素值等信息重復為主,因此在排重程序設計時,應著重考慮這些重復信息下的排重,建立重復信息自由組合條件下的資料排重模型,即重復條件組合排重法。所謂重復條件組合排重法,就是對重復信息自由組合,形成新的排重要件,按照排重要件的重復判據(jù),開展資料排重。
表6 重復現(xiàn)象六實例
表7 重復現(xiàn)象七實例
例如:將時間和空間條件組合形成排重要件,即觀測點之間距離小于限定值,觀測時間相等或誤差小于限定值;將觀測層深、溫度值、鹽度值組合形成排重要件,即每個要素之間的誤差小于相應的限定值;以觀測時間作為主排重要件,其他條件組合形成次排重要件,即時間重復判據(jù)收緊,如相等或誤差小于限定值,其他條件重復判據(jù)放寬,形成排重條件等多種重復要件。然后利用各重復要件對資料進行排重,將重復資料排出,形成對應條件下的疑似重復資料集。
狹義上資料重復是指資料之間所有對應信息完全相同而出現(xiàn)的重復,而實際上并不盡然。從我們大量的資料處理過程中出現(xiàn)的重復現(xiàn)象分析,廣義上資料重復是在資料之間,由于對應觀測時間、觀測空間位置和觀測記錄等完全相等或者相近而造成的重復。在實際工作中,必須在廣義概念下開展多源資料的排重。由于考慮了重復條件相近或相似的情況,就必須定義重復條件的判據(jù)指標。如果判據(jù)指標過低,可疑重復資料就會大量增加,本不屬于重復的資料也可能作為重復資料排出;而如果判據(jù)指標過高,可疑重復資料量就會大大降低,有些重復資料難以發(fā)現(xiàn)和排出。因此重復判據(jù)指標的高低,直接關系到資料排重效果的優(yōu)劣。本文中的重復判據(jù)是作者在處理來自于國內(nèi)外的大中型數(shù)據(jù)集(十余個數(shù)據(jù)集,含有幾百萬個剖面)的基礎上總結(jié)制定的判據(jù)。利用該判據(jù),通過對來自于國內(nèi)各部門間的資料(13余萬個剖面)排重效果分析,重復資料檢出率高達95%以上,因此該判據(jù)具有普遍意義,可為讀者開展相關工作提供基本依據(jù)。讀者可以根據(jù)待排重的資料量和對資料質(zhì)量的需求情況,對該判據(jù)進行適當?shù)恼{(diào)整。
表8為針對觀測時間、觀測位置空間和記錄信息相似時的重復判據(jù)條件,對國外大型數(shù)據(jù)集資料的排重時,判據(jù)可適當放寬,但最高不應超過20%,對來源于國內(nèi)各部門之間的資料排重時,重復要件信息必須同時滿足以下條件,才可以作為疑似重復資料。
第一,溫鹽資料預處理[1]。
實現(xiàn)溫鹽資料排重,首先要對多源溫鹽資料進行預處理,即在對多源溫鹽歷史資料進行格式梳理、分析和歸類處理的基礎上,制定完整的預處理資料格式,將所有溫鹽剖面資料統(tǒng)一格式處理,同時進行非法碼和范圍檢驗等初步質(zhì)量控制處理。為了有效降低排重計算工作量,提高重復資料檢出率,對經(jīng)過預處理之后的所有資料按照海區(qū)進行劃分,重新建立以海區(qū)為劃分界限的數(shù)據(jù)集。同時提取每一個數(shù)據(jù)集中溫鹽剖面的觀測時間、觀測位置和觀測記錄等基礎數(shù)據(jù)元信息。
第二,采用重復條件組合排重法,對數(shù)據(jù)集內(nèi)的資料開展數(shù)據(jù)排重。
首先進行資料粗放排重。所謂粗放排重就是將重復條件組合排重法中的排重要件重復判據(jù)適當放寬,以此獲取相應排重要件下的粗排疑似重復資料集;
其次進行資料詳細排重,詳細排重與粗放排重相對應,就是將重復條件組合排重法中的排重要件的重復判據(jù)收緊,針對粗排疑似重復資料集排重,以此獲取細排重復資料集;
再次,針對細排中的重復資料和非重復資料結(jié)合人機交互方式,進行分析、審核和確認,最終將重復資料排出。
第三,采用重復條件組合排重法,對數(shù)據(jù)集間的資料開展數(shù)據(jù)排重。
采用溫鹽資料排重模型,重復第二步的步驟,開展資料集之間的數(shù)據(jù)排重,最終形成非重復資料集。
其工作流程圖見圖1。
圖1 重復條件組合排重處理業(yè)務流程圖
重復條件組合排重法是作者在大量的實際業(yè)務工作中摸索總結(jié)出來的一套排重方法和模型,利用該方法和模型,不但可以提高資料的排重效率,而且可以大大提高重復資料的檢出率。該方法不僅針對溫鹽資料排重,在其它資料的排重中也具有重要的參考和借鑒意義。
[1]國家技術監(jiān)督局.海洋調(diào)查規(guī)范海洋調(diào)查資料處理[S].北京:中國標準出版社,1991:65-66.
[2]許崇金,王凡,代亮,等.國際海洋信息共享與質(zhì)量控制.http://www.qdio.ac.cn:8000/doc/國際海洋信息共享與質(zhì)量控制0323.doc.
[3]中科院青島海洋科學研究所,地球科學數(shù)據(jù)共享政策與規(guī)范研究組.海洋科學數(shù)據(jù)庫建設規(guī)范.http://www.qdio.ac.cn:8000/doc/海洋科學數(shù)據(jù)庫建設規(guī)范.doc.
[4]王凡,許崇金,代亮,等.中國近海及毗鄰洋區(qū)國際海洋信息管理系統(tǒng)(IODBMS).http://www.docin.com/p-532150.thml.
Aduplicate-filter method for multi-sources temperature and salinity data sets
ZHANG Xue-hong,ZHANG Xu-dong,ZHANG Xiao-juan
(Navy Marine Hydrometeorological Center,Beijing 100161 China)
There are a large amount of duplicated data from the various sources of temperature and salinity data sets,which will affects the converging value of these data in the applications.In this article,a method to filter the duplicated data,is proposed.It is intruduced on how to remove the duplicated temperature and salinity data in the operational processes.The method will increase the efficiency effectively in the operational processes and is a good reference for the other duplicated data field.
duplication;combined duplicate-fliter;duplicate-fliter criterion
P731
A
1003-0239(2012)01-0048-07
2011-01-19
張學宏(1971-),男,高級工程師,主要從事海洋環(huán)境產(chǎn)品開發(fā)、預報和海洋環(huán)境資料處理與應用等工作。E-mail:xuehzhang@Sohu.com