亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        WOD與Argo數(shù)據(jù)集的排重方法與軟件實(shí)現(xiàn)?

        2015-03-18 08:33:43紀(jì)風(fēng)穎董明媚梁建鋒國(guó)家海洋信息中心天津3007中國(guó)海洋大學(xué)山東青島26600天津大學(xué)天津3007
        關(guān)鍵詞:浮標(biāo)測(cè)站儀器

        紀(jì)風(fēng)穎, 于 婷,2, 董明媚,3, 梁建鋒(.國(guó)家海洋信息中心,天津 3007;2. 中國(guó)海洋大學(xué),山東 青島 26600; 3.天津大學(xué),天津3007)

        ?

        技術(shù)報(bào)告

        WOD與Argo數(shù)據(jù)集的排重方法與軟件實(shí)現(xiàn)?

        紀(jì)風(fēng)穎1, 于 婷1,2, 董明媚1,3, 梁建鋒1
        (1.國(guó)家海洋信息中心,天津 300171;2. 中國(guó)海洋大學(xué),山東 青島 266100; 3.天津大學(xué),天津300171)

        海水的溫度和鹽度是描述海水性質(zhì)的重要物理量,其時(shí)空分布和變化幾乎與海洋中所有現(xiàn)象都有密切的聯(lián)系。因此世界各國(guó)都非常重視對(duì)海水溫度和鹽度的觀測(cè)。自1772年第一個(gè)海水溫度觀測(cè)數(shù)據(jù)記錄在案,截至目前全球已經(jīng)積累了2 000多萬(wàn)站次的溫鹽數(shù)據(jù)。由于目前海洋調(diào)查中儀器自動(dòng)觀測(cè)、衛(wèi)星傳輸數(shù)據(jù)的特點(diǎn),導(dǎo)致同一個(gè)觀測(cè)數(shù)據(jù)會(huì)被重復(fù)定位和傳送接收多次,而國(guó)際上不同的數(shù)據(jù)收集計(jì)劃,導(dǎo)致同一個(gè)數(shù)據(jù)也被不同的數(shù)據(jù)集所收集。這些被重復(fù)收集的數(shù)據(jù),可能會(huì)造成錯(cuò)誤的海洋特性的研究與分析結(jié)果。針對(duì)多來(lái)源重復(fù)收集的國(guó)際海洋數(shù)據(jù)問(wèn)題,首先根據(jù)觀測(cè)儀器精度、觀測(cè)頻率,研究設(shè)定了不同儀器重復(fù)數(shù)據(jù)判斷參數(shù)?;诤A刻幚砉δ芎腿斯そ换ナ讲僮鞯男枨?,基于Windows平臺(tái),在Win32體系架構(gòu)下,選用VisualC++ 6.0作為項(xiàng)目開(kāi)發(fā)工具,圖形顯示部分則直接調(diào)用圖形顯示功能比較強(qiáng)大MATLAB的圖形函數(shù)庫(kù)完成,使用窗口嵌入技術(shù)將MATLAB圖形庫(kù)生成的圖形完美融合到VC開(kāi)發(fā)的界面中,實(shí)現(xiàn)了海量溫鹽數(shù)據(jù)的準(zhǔn)確排重。對(duì)目前應(yīng)用最為廣泛的海洋數(shù)據(jù)集(WorldOceanDatabase,WOD)數(shù)據(jù)集、Argo浮標(biāo)數(shù)據(jù)集進(jìn)行了數(shù)據(jù)集內(nèi)和數(shù)據(jù)集間的排重,為溫鹽數(shù)據(jù)集的整合奠定了基礎(chǔ)。

        Argo;WOD; 排重; 排序

        海水的溫度和鹽度是描述海水性質(zhì)的重要物理量,其時(shí)空分布和變化幾乎與海洋中所有現(xiàn)象都有密切的聯(lián)系?,F(xiàn)有的數(shù)值同化模型、海平面高度變化和業(yè)務(wù)化海氣耦合模式都迫切需要海洋溫度和鹽度數(shù)據(jù),從而改進(jìn)模式的初始場(chǎng)和邊界約束條件。由于對(duì)于全球海洋溫鹽數(shù)據(jù)的需求,海洋觀測(cè)儀器不斷更新?lián)Q代,從最早的顛倒溫度計(jì)、機(jī)械式溫深計(jì)(Mechanical Bathythermograph,MBT)、溫鹽深自計(jì)儀(Conductivity-Temperature-Depth,CTD),到今天的自持式拉格朗日環(huán)流剖面觀測(cè)(Argo)浮標(biāo)、水下滑翔機(jī)(Glider)等,獲取數(shù)據(jù)方式也從人工讀數(shù)發(fā)展到今天的衛(wèi)星定位和自動(dòng)傳輸。由于任何一個(gè)國(guó)家都不可能單獨(dú)完成全球海洋數(shù)據(jù)的觀測(cè)工作,為此,眾多全球/區(qū)域海洋觀測(cè)、資料收集計(jì)劃應(yīng)運(yùn)而生,如世界海洋環(huán)流實(shí)驗(yàn)(WOCE)、全球溫鹽剖面計(jì)劃(GTSPP)、全球Argo浮標(biāo)陣列觀測(cè)計(jì)劃等等,這些觀測(cè)計(jì)劃為海洋研究和管理提供了大量的溫鹽數(shù)據(jù)。但是新的觀測(cè)儀器和數(shù)據(jù)收集機(jī)制也帶來(lái)了重復(fù)數(shù)據(jù)的問(wèn)題。

        對(duì)于Argo、Glider和浮標(biāo)等自動(dòng)觀測(cè)并由衛(wèi)星進(jìn)行定位和傳輸觀測(cè)數(shù)據(jù)的海洋調(diào)查儀器,雖然精度高,時(shí)效性強(qiáng),但是同一個(gè)觀測(cè)站的數(shù)據(jù)需要向衛(wèi)星重復(fù)傳送多次,以保證數(shù)據(jù)接收完整。在向衛(wèi)星傳輸數(shù)據(jù)的過(guò)程中觀測(cè)儀器本身仍在運(yùn)動(dòng),衛(wèi)星繼續(xù)定位,加之部分衛(wèi)星系統(tǒng)定位誤差可以達(dá)到數(shù)百米,這樣同一個(gè)觀測(cè)站數(shù)據(jù)所對(duì)應(yīng)的定位時(shí)間和定位位置存在很大差異。多次傳輸過(guò)程也存在數(shù)據(jù)接收不完整,不完整數(shù)據(jù)和完整數(shù)據(jù)以不同觀測(cè)站數(shù)據(jù)發(fā)布,從而造成了重復(fù)數(shù)據(jù)。

        對(duì)于全球溫鹽數(shù)據(jù)的收集與發(fā)布,以美國(guó)國(guó)家海洋大氣局/國(guó)家海洋數(shù)據(jù)中心(NOAA/NODC)的海洋氣候?qū)嶒?yàn)室(OCL)制作的世界海洋數(shù)據(jù)集WOD[1]最為著名,其數(shù)據(jù)時(shí)間序列長(zhǎng),其海水溫度數(shù)據(jù)可以上溯至1772年,鹽度數(shù)據(jù)的最早觀測(cè)時(shí)間為1803年;覆蓋范圍廣,數(shù)據(jù)來(lái)源眾多,包括Argo計(jì)劃、GTSPP和WOCE等300多個(gè)全球或區(qū)域海洋觀測(cè)/數(shù)據(jù)收集計(jì)劃。更新頻率也較快,每隔3~4個(gè)月,美國(guó)NODC網(wǎng)站都會(huì)發(fā)布WOD收集到的最新數(shù)據(jù),截至2013年6月該WOD數(shù)據(jù)集已經(jīng)發(fā)布了2 000多萬(wàn)站次的溫鹽數(shù)據(jù)。

        另外,法國(guó)和美國(guó)2個(gè)全球Argo數(shù)據(jù)中心也實(shí)時(shí)(逐日更新)發(fā)布自1998年全球Argo觀測(cè)計(jì)劃的開(kāi)始實(shí)施后獲取的100多萬(wàn)個(gè)高精度的溫鹽剖面數(shù)據(jù)。由上可見(jiàn),眾多的觀測(cè)項(xiàng)目由不同的國(guó)際機(jī)構(gòu)發(fā)起,數(shù)據(jù)收集渠道不同,導(dǎo)致同一個(gè)數(shù)據(jù)會(huì)被不同的數(shù)據(jù)集所收集,而全球資料中心沒(méi)有實(shí)施嚴(yán)格的排除重復(fù)數(shù)據(jù)工作[2-4](以下簡(jiǎn)稱(chēng)排重)。

        在數(shù)據(jù)集的綜合利用中,如果簡(jiǎn)單的合并使用,這些重復(fù)接收和重復(fù)收集造成的重復(fù)數(shù)據(jù),勢(shì)必會(huì)影響海洋氣候和變化趨勢(shì)的研究與分析結(jié)果。排除數(shù)據(jù)集中的重復(fù)數(shù)據(jù)成為數(shù)據(jù)處理工作中的一個(gè)重要組成部分。美國(guó)海洋數(shù)據(jù)中心也指出了排重工作的重要性,并提出了重復(fù)數(shù)據(jù)和“準(zhǔn)重復(fù)數(shù)據(jù)(near-duplicate data)”的定義,但并沒(méi)有介紹WOD數(shù)據(jù)集排重工作進(jìn)展和結(jié)果,發(fā)布的數(shù)據(jù)中也沒(méi)有相應(yīng)的標(biāo)識(shí)。全球Argo數(shù)據(jù)中心同樣沒(méi)有相應(yīng)的排重工作報(bào)告。

        為了保障海洋數(shù)據(jù)分析與相關(guān)研究的嚴(yán)謹(jǐn)性和正確性,本文根據(jù)儀器觀測(cè)周期、精度和傳輸頻率確定了判斷重復(fù)數(shù)據(jù)的關(guān)鍵信息項(xiàng)以及對(duì)應(yīng)的臨界值,制定了排重處理流程,開(kāi)發(fā)出相應(yīng)的軟件,對(duì)WOD和Argo數(shù)據(jù)集進(jìn)行了數(shù)據(jù)集內(nèi)和數(shù)據(jù)集之間的精細(xì)化排重。排重結(jié)果表明這2個(gè)數(shù)據(jù)集本身存在不同程度的重復(fù)數(shù)據(jù),而2個(gè)數(shù)據(jù)集也不是簡(jiǎn)單的包含關(guān)系,而是交叉重復(fù)。

        1 判斷重復(fù)數(shù)據(jù)的關(guān)鍵信息項(xiàng)

        排重工作的關(guān)鍵是重復(fù)數(shù)據(jù)的判斷。重復(fù)數(shù)據(jù)從字面上可以簡(jiǎn)單地定義為完全相同的數(shù)據(jù)。這個(gè)概念容易理解但不容易實(shí)現(xiàn)。目前所有的溫鹽數(shù)據(jù)基本采用計(jì)算機(jī)進(jìn)行采集存儲(chǔ),而計(jì)算機(jī)只能用固定的存儲(chǔ)位寬來(lái)存儲(chǔ)數(shù)據(jù),因此計(jì)算機(jī)存儲(chǔ)的浮點(diǎn)類(lèi)型數(shù)據(jù)能夠表示的實(shí)際數(shù)值不僅有限,而且離散。即使完全相同的數(shù)據(jù)在不同的計(jì)算機(jī)操作系統(tǒng)下存儲(chǔ)也有所差異。而對(duì)于觀測(cè)數(shù)據(jù)的背景信息項(xiàng),如調(diào)查儀器、航次號(hào)、調(diào)查船等需要用字符串表示的信息,若編碼規(guī)則、寫(xiě)法順序不同,結(jié)果數(shù)據(jù)都不可能完全一樣。因此對(duì)于WOD這種來(lái)源眾多的數(shù)據(jù)集,采用完全相同來(lái)判斷重復(fù)數(shù)據(jù)具有很大的局限性,其結(jié)果與實(shí)際情況相差很遠(yuǎn)。

        而對(duì)于Argo、Glider和浮標(biāo)等自動(dòng)觀測(cè)并由衛(wèi)星進(jìn)行定位和傳輸獲取的觀測(cè)數(shù)據(jù),單純采用完全相同方法也無(wú)法解決多次傳輸,多次定位造成的重復(fù)數(shù)據(jù)問(wèn)題。

        針對(duì)以上2種情況,必須根據(jù)儀器觀測(cè)和傳輸數(shù)據(jù)的屬性,精確判斷重復(fù)數(shù)據(jù)。而這個(gè)處理過(guò)程中需要首先確定表征數(shù)據(jù)的信息項(xiàng),這些信息項(xiàng)不能太多,太多容易丟失重復(fù)數(shù)據(jù);也不能太少,這樣會(huì)造成誤判。通過(guò)以上對(duì)造成重復(fù)數(shù)據(jù)的原因的分析,確定表征數(shù)據(jù)的關(guān)鍵信息項(xiàng)(Key item)為觀測(cè)儀器、觀測(cè)時(shí)間、觀測(cè)經(jīng)緯度、觀測(cè)數(shù)據(jù),輔助說(shuō)明信息項(xiàng)為國(guó)家、調(diào)查機(jī)構(gòu)、調(diào)查項(xiàng)目,其余信息在目前的排重工作中忽略不計(jì)。

        2 重復(fù)數(shù)據(jù)與準(zhǔn)重復(fù)數(shù)據(jù)的判定

        根據(jù)已確定的判斷重復(fù)數(shù)據(jù)的關(guān)鍵信息項(xiàng),本文對(duì)重復(fù)數(shù)據(jù)的定義為:關(guān)鍵信息項(xiàng)都相同的數(shù)據(jù)。在計(jì)算機(jī)判定中即為關(guān)鍵信息項(xiàng)的差異不大于設(shè)定的重復(fù)數(shù)據(jù)臨界值。

        目前WOD數(shù)據(jù)集中包含11種海洋觀測(cè)儀器獲取的溫鹽數(shù)據(jù),具體為:大面測(cè)站、CTD、MBT、拋棄式溫深儀(Expendable Bathythermograph,XBT)、海表面記錄儀、自治式生物攜帶溫鹽計(jì)、錨系浮標(biāo)、Argo浮標(biāo)、漂流浮標(biāo)、走航CTD以及Glider等。這些儀器觀測(cè)方式和精度各不相同,WOD也按照儀器將數(shù)據(jù)存放于不同文件中進(jìn)行發(fā)布。因此目前只對(duì)同種儀器獲取的數(shù)據(jù)進(jìn)行排重工作。

        除了觀測(cè)儀器,關(guān)鍵信息項(xiàng)又可以分為2部分:測(cè)站的位置和時(shí)間,以及水下1~5000個(gè)層次上對(duì)應(yīng)的層深、溫度和鹽度數(shù)據(jù)。測(cè)站時(shí)間和位置比較即為測(cè)站之間時(shí)間間隔與空間距離的比較,因此在重復(fù)數(shù)據(jù)判斷中需設(shè)定測(cè)站的時(shí)間間隔和空間距離臨界值。針對(duì)目前儀器的海洋觀測(cè)方式、傳輸方式、儀器的精度,以及數(shù)據(jù)集的制作方式,確定如下完全重復(fù)數(shù)據(jù)臨界值[5-10],并根據(jù)數(shù)據(jù)的時(shí)空分布情況和排重結(jié)果對(duì)其進(jìn)行了后期調(diào)整。

        (1)觀測(cè)儀器完全相同。

        (2)目前基本所有觀測(cè)儀器采用全球定位系統(tǒng)(Global Position System,GPS)進(jìn)行定位,因此距離臨界值都設(shè)定為10m;

        (3)采用如下規(guī)則來(lái)確定測(cè)站時(shí)間間隔的臨界值:

        (a)對(duì)于人工下放觀測(cè)的大面測(cè)站、CTD、MBT和XBT,其時(shí)間間隔臨界值為完成一個(gè)測(cè)站觀測(cè)所需的最少時(shí)間;

        (b)對(duì)于自動(dòng)觀測(cè)的Argo浮標(biāo)、漂流浮標(biāo)、Glider、和走航CTD,則時(shí)間間隔臨界值為完成一次觀測(cè)所需時(shí)間的最小值,以Glider為例,其完成一次觀測(cè)基本為3~9h,因此對(duì)于Glider,重復(fù)數(shù)據(jù)的時(shí)間臨界值為3h;

        (c)對(duì)于生物攜帶溫鹽傳感器,根據(jù)生物下潛和上浮時(shí)間一般情況,目前主觀定為時(shí)間臨界值為1min;(d)海表面記錄儀來(lái)源于志愿船走航觀測(cè),根據(jù)常規(guī)觀測(cè)頻率并瀏覽相應(yīng)的觀測(cè)數(shù)據(jù),時(shí)間間隔臨界值為10s;

        (e)由于WOD中錨系浮標(biāo)數(shù)據(jù)為日平均數(shù)據(jù),因此其時(shí)間間隔臨界值為24h;

        (4)考慮到目前水深測(cè)量的精度,確定層深數(shù)據(jù)重復(fù)的臨界值為不大于1m;

        (5)對(duì)于同一測(cè)站數(shù)據(jù)接收不完整的情況,做如下處理:假定A、B兩個(gè)測(cè)站的水下數(shù)據(jù),并且A的層深個(gè)數(shù)≥B的層深個(gè)數(shù)情況,首先按照規(guī)則(3)找到A、B中相同層深數(shù)據(jù)組成新的測(cè)站C、D,若D的層深個(gè)數(shù)小于B總層次數(shù)的95%,則不進(jìn)行進(jìn)一步比較,否則對(duì)同層溫鹽數(shù)據(jù)進(jìn)行逐一比較;

        (6)對(duì)于觀測(cè)主體為CTD的下放式CTD、拋棄式CTD(XCTD)、走航CTD(UCTD)、漂流浮標(biāo)(在WOD中漂流浮標(biāo)為漂流的溫度鏈或CTD鏈)、Argo、Glider、生物攜帶CTD,觀測(cè)數(shù)據(jù)的重復(fù)標(biāo)準(zhǔn)為同層觀測(cè)數(shù)據(jù)溫度差異不大于0.01℃,鹽度差異不大于0.01。對(duì)于觀測(cè)主體為BT的MBT、XBT和海面浮子,重復(fù)數(shù)據(jù)的標(biāo)準(zhǔn)為同層溫度差異不大于0.1℃。具體判定重復(fù)數(shù)據(jù)的臨界值見(jiàn)表1。

        對(duì)于準(zhǔn)重復(fù)數(shù)據(jù),參考WOD09的說(shuō)明文檔,從2個(gè)方面定義準(zhǔn)重復(fù)數(shù)據(jù):觀測(cè)經(jīng)緯度和時(shí)間相同,觀測(cè)數(shù)據(jù)不同;觀測(cè)數(shù)據(jù)相同而時(shí)間和位置不同。鑒于目前計(jì)算機(jī)的計(jì)算和存儲(chǔ)能力,在軟件設(shè)計(jì)與實(shí)現(xiàn)中,對(duì)于準(zhǔn)重復(fù)數(shù)據(jù)只限定為測(cè)站位置和時(shí)間小于重復(fù)數(shù)據(jù)臨界值,觀測(cè)數(shù)據(jù)不同的一種情況進(jìn)行了處理。

        表1 WOD中不同儀器判別重復(fù)數(shù)據(jù)的臨界值Table1 Duplicate threshold values of different instruments in WOD

        注:1深度數(shù)據(jù)相差小于1 m時(shí)視為同層。Depth differnece is less than 1 m.2PSS-78鹽標(biāo)。Practical Salinity Scale 1978.

        3 排重流程

        對(duì)于2 000萬(wàn)站次、所需存儲(chǔ)空間高達(dá)42GB的WOD數(shù)據(jù)集,每一個(gè)測(cè)站數(shù)據(jù)關(guān)鍵信息項(xiàng)都包含了觀測(cè)時(shí)間、觀測(cè)位置、觀測(cè)數(shù)據(jù)(一般大于10層),2 000萬(wàn)站次數(shù)據(jù)的比較,實(shí)際工作量是2億多個(gè)數(shù)據(jù)的比較,即n≥2億。普通計(jì)算機(jī)的內(nèi)存無(wú)法滿(mǎn)足如此大數(shù)據(jù)的比較計(jì)算。只能采用文件存儲(chǔ),比較計(jì)算中需要不停地進(jìn)行文件讀取,會(huì)造成巨大的時(shí)間浪費(fèi)。

        根據(jù)文獻(xiàn)[4],對(duì)于大數(shù)據(jù)集比較計(jì)算的情況,首先進(jìn)行排序,然后進(jìn)行比較。對(duì)于大數(shù)據(jù)量的WOD,排序方法選取堆排序,其花費(fèi)時(shí)間為O(nlogn),對(duì)排序后的數(shù)據(jù)再進(jìn)行比較,花費(fèi)時(shí)間為n。這樣整體數(shù)據(jù)的比較時(shí)間由原來(lái)的O(n2)降為O(nlogn)。

        實(shí)際計(jì)算中,對(duì)于同一數(shù)據(jù)集,首先按照觀測(cè)儀器將數(shù)據(jù)分門(mén)別類(lèi)存放。對(duì)相同觀測(cè)儀器的數(shù)據(jù),首先按照觀測(cè)時(shí)間和經(jīng)緯度進(jìn)行堆排序,從而挑選出時(shí)間間隔和空間距離小于重復(fù)臨界值的站點(diǎn),再對(duì)對(duì)應(yīng)的溫鹽數(shù)據(jù)進(jìn)行兩兩比較。對(duì)于溫鹽數(shù)據(jù)完全相同的數(shù)據(jù),保留附加信息多的站點(diǎn)。

        對(duì)于數(shù)據(jù)集之間的排重,設(shè)定資料原始收集者制作數(shù)據(jù)集的級(jí)別為1級(jí),而第二手或第三手的收集者,相應(yīng)的為2級(jí)和3級(jí)。對(duì)于WOD和Argo數(shù)據(jù)集的比較,則Argo數(shù)據(jù)的級(jí)別為1級(jí),WOD中Argo數(shù)據(jù)為2級(jí)。在數(shù)據(jù)集比較后,對(duì)于完全重復(fù)數(shù)據(jù),優(yōu)先保留直接從原始收集者那里得到的數(shù)據(jù)。對(duì)于準(zhǔn)重復(fù)數(shù)據(jù),仍采用保留附加信息多、數(shù)據(jù)體更完整的數(shù)據(jù)原則。具體流程見(jiàn)圖1。

        圖1 排重的流程Fig.1 Flow chart of eliminating duplicate data

        4 排重軟件功能設(shè)計(jì)

        根據(jù)排重的流程,排重軟件不僅需要滿(mǎn)足日常工作需要,并且需保證能夠在穩(wěn)定運(yùn)行的基礎(chǔ)上,對(duì)海量的溫鹽數(shù)據(jù)進(jìn)行及時(shí)有效地排重。同時(shí)軟件系統(tǒng)架構(gòu)上需靈活化和自動(dòng)化,系統(tǒng)的各部分功能既能夠作為整體中的部分使用也能單獨(dú)提供使用。軟件必須具有以下功能:

        (1)大數(shù)據(jù)量處理功能。由于海洋溫鹽數(shù)據(jù)量龐大,單次排重的數(shù)據(jù)量可能會(huì)到達(dá)數(shù)千萬(wàn)站次,排重程序應(yīng)滿(mǎn)足對(duì)數(shù)千萬(wàn)站次數(shù)據(jù)的處理能力。

        (2)數(shù)據(jù)讀取功能。根據(jù)用戶(hù)選擇方式的不同,靈活的讀取數(shù)據(jù)集文件,包括:讀取單個(gè)文件;讀取同一文件夾多個(gè)文件;讀取不同文件夾下的多個(gè)文件。

        (3)數(shù)據(jù)集內(nèi)部排重與數(shù)據(jù)集之間排重方式的設(shè)置與實(shí)現(xiàn)。

        (4)設(shè)置重復(fù)數(shù)據(jù)參數(shù)。對(duì)于不同儀器,重復(fù)數(shù)據(jù)的參數(shù)各不相同,因此軟件必須具有靈活設(shè)置重復(fù)數(shù)據(jù)參數(shù)的功能,見(jiàn)圖2。(5)自動(dòng)排重功能。根據(jù)用戶(hù)所選文件,設(shè)置的排重方法和參數(shù),對(duì)多個(gè)文件進(jìn)行自動(dòng)的排重,剔除完全重復(fù)數(shù)據(jù)。

        (6)人工審核功能。在程序自動(dòng)排重的基礎(chǔ)上,對(duì)軟件判定的準(zhǔn)重復(fù)數(shù)據(jù)提供交互式可視化界面,通過(guò)人工審核確定重復(fù)數(shù)據(jù)。人工審核主要具有如下功能:顯示數(shù)據(jù)的輔助信息項(xiàng)、在重復(fù)站位信息列表分組顯示準(zhǔn)重復(fù)數(shù)據(jù)站位信息、用不同顏色顯示不同重復(fù)數(shù)據(jù);表格顯示剖面數(shù)據(jù),并與站位信息一一對(duì)應(yīng);人工標(biāo)識(shí)判定重復(fù)數(shù)據(jù)。

        (7)整合排重結(jié)果導(dǎo)出功能。根據(jù)用戶(hù)排重過(guò)程中重復(fù)數(shù)據(jù)標(biāo)識(shí),剔除重復(fù)數(shù)據(jù),按照統(tǒng)一的溫鹽數(shù)據(jù)格式輸出為標(biāo)準(zhǔn)數(shù)據(jù)格式文件,對(duì)剔除的站位數(shù)據(jù)輸出到對(duì)應(yīng)目錄。

        (8)批量排重處理功能。在對(duì)排重方法和排重參數(shù)研究和確認(rèn)的基礎(chǔ)上,按照用戶(hù)設(shè)置的參數(shù)對(duì)批量文件支持排重處理功能。

        5 排重軟件的開(kāi)發(fā)與實(shí)現(xiàn)

        基于海量溫鹽數(shù)據(jù)處理功能和人工交互式操作的需求,該排重軟件運(yùn)行環(huán)境為Windows系列平臺(tái),主界面以及數(shù)據(jù)的處理、質(zhì)量控制部分使用VC6.0開(kāi)發(fā),圖形顯示部分則直接調(diào)用圖形顯示功能比較強(qiáng)大MATLAB的圖形函數(shù)庫(kù)完成,使用窗口嵌入技術(shù)將MATLAB圖形庫(kù)生成的圖形完美融合到VC開(kāi)發(fā)的界面中。所以本軟件在圖形顯示方面具有較強(qiáng)的靈活性以及較好的顯示效果,用VC開(kāi)發(fā)數(shù)據(jù)處理部分也保證了該軟件的運(yùn)行效率。

        圖2 設(shè)置重復(fù)數(shù)據(jù)臨界值界面Fig.2 The interface for setting duplicate threshold values

        圖3 準(zhǔn)重復(fù)數(shù)據(jù)的人工審核界面Fig.3 The interface for visual check of near-duplicate data

        6 排重結(jié)果

        (1)數(shù)據(jù)集內(nèi)排重。采用該軟件對(duì)WOD和Argo數(shù)據(jù)進(jìn)行排重,由于美國(guó)海洋數(shù)據(jù)中心每3~4a制作發(fā)布WOD數(shù)據(jù)集光盤(pán),并在線(xiàn)更新WOD更新數(shù)據(jù)集,因此對(duì)最新版WOD09數(shù)據(jù)進(jìn)行排重,并對(duì)光盤(pán)發(fā)布之后的數(shù)據(jù)集進(jìn)行排重。

        表2 WOD數(shù)據(jù)的重復(fù)率Table 2 Duplicate ratio of WOD

        注: 1. 分子為重復(fù)站次數(shù),分母為總站次數(shù)。Moleculeisthenumberofduplicatestations,denominatoristotalnumberofstations.

        2. 采用表1中錨系浮標(biāo)的重復(fù)數(shù)據(jù)參數(shù)。Usingthethresholdvaluesintable1.

        3. 采用表1中錨系浮標(biāo)的重復(fù)數(shù)據(jù)參數(shù),但時(shí)間間隔改為1min。Usingthethresholdvaluesintable1,buethetimeintervalis1minuete.

        通過(guò)計(jì)算結(jié)果可以發(fā)現(xiàn),WOD09的數(shù)據(jù)重復(fù)率基本小于0.3%,只有錨系浮標(biāo)和走航CTD的重復(fù)率較大。而對(duì)于錨系浮標(biāo),由于WOD其用戶(hù)手冊(cè)說(shuō)明數(shù)據(jù)均為日均值,設(shè)定重復(fù)數(shù)據(jù)時(shí)間間隔為24h。但通過(guò)人工審核數(shù)據(jù),發(fā)現(xiàn)1990年以后,部分錨系浮標(biāo)數(shù)據(jù)的間隔為30min~1h,因此將重復(fù)數(shù)據(jù)的時(shí)間間隔參數(shù)調(diào)整為30min,其余參數(shù)不變,重新計(jì)算后得到錨系浮標(biāo)重復(fù)率為0.06%??紤]到儀器的更新?lián)Q代,錨系浮標(biāo)的觀測(cè)頻率可以達(dá)到1min,因此將時(shí)間間隔改為1min,對(duì)2009年以后錨系浮標(biāo)重復(fù)數(shù)據(jù)進(jìn)行排重,與時(shí)間間隔為10min時(shí),重復(fù)率幾乎沒(méi)有變化。大面測(cè)站采用時(shí)間參數(shù)為1min;重復(fù)站次數(shù)由438675變?yōu)?38327,僅降低了0.07%。由此可以說(shuō)明重復(fù)參數(shù)設(shè)置比較合理,而重復(fù)數(shù)據(jù)是客觀存在的。

        對(duì)于WOD中的走航CTD數(shù)據(jù),通過(guò)人工審核準(zhǔn)重復(fù)數(shù)據(jù),發(fā)現(xiàn)重復(fù)數(shù)據(jù)的觀測(cè)深度一般在300m左右,忽略海水的浮力和阻力,走航CTD以自由落體的方式到達(dá)這個(gè)深度需要8s,因此把時(shí)間間隔臨界值設(shè)置為10s,發(fā)現(xiàn)重復(fù)數(shù)據(jù)仍然不變。因此在現(xiàn)有的重復(fù)數(shù)據(jù)參數(shù)下,走航CTD的重復(fù)率較高,為0.8%。造成重復(fù)的原因應(yīng)該為后期數(shù)據(jù)處理造成的。

        以上結(jié)果表明軟件設(shè)置的重復(fù)參數(shù)的有效性,采用相同參數(shù),對(duì)WOD09光盤(pán)發(fā)布后美國(guó)海洋數(shù)據(jù)中心網(wǎng)站發(fā)布的更新數(shù)據(jù)進(jìn)行排重,發(fā)現(xiàn)重復(fù)率基本都超過(guò)了3%,進(jìn)一步證明了重復(fù)參數(shù)的有效性,另一方面也說(shuō)明WOD09數(shù)據(jù)集光盤(pán)制作過(guò)程中進(jìn)行了有效地排重工作,而網(wǎng)站發(fā)布的數(shù)據(jù)沒(méi)有經(jīng)過(guò)排重。

        (2)溫鹽數(shù)據(jù)集之間排重。利用該軟件對(duì)WOD中的Argo數(shù)據(jù)和法國(guó)全球Argo數(shù)據(jù)中心發(fā)布的Argo數(shù)據(jù)進(jìn)行了數(shù)據(jù)集間的排重測(cè)試。

        在數(shù)據(jù)集間排重之前,采用表1中重復(fù)數(shù)據(jù)參數(shù)對(duì)法國(guó)全球Argo數(shù)據(jù)中心發(fā)布的Argo數(shù)據(jù)進(jìn)行了數(shù)據(jù)集內(nèi)排重,發(fā)現(xiàn)此數(shù)據(jù)集的重復(fù)率僅為0.1%,重復(fù)數(shù)據(jù)主要有2種:(1)同一個(gè)浮標(biāo)觀測(cè)的同一個(gè)數(shù)據(jù)命名不同造成的重復(fù);(2)不同的浮標(biāo)的數(shù)據(jù)完全相同。這都應(yīng)該是后期處理誤操作造成的。這個(gè)結(jié)果與文獻(xiàn)2中Argo數(shù)據(jù)重復(fù)率0.5%略有差異的原因,是本文對(duì)Argo數(shù)據(jù)重復(fù)數(shù)據(jù)判別準(zhǔn)則更加精細(xì)而造成的。

        由于WOD數(shù)據(jù)集更新頻率較慢,因此對(duì)于2013年1月1日之前經(jīng)過(guò)排重后的2個(gè)Argo數(shù)據(jù)集進(jìn)行了排重。結(jié)果見(jiàn)表3。

        表3 WOD與Argo數(shù)據(jù)的重復(fù)率Table 3 Duplicate ratio of WOD and Argo dataset

        Note: ①Numberofstations;②ArgodatafromGDACinFrench/ArgodatafromWOD;③Totalnumberofstations;④Numberofduplicatestations;⑤Numberofnear-duplicatestations

        通過(guò)軟件可視化剖面數(shù)據(jù)的圖形的比較發(fā)現(xiàn),經(jīng)緯度不同而數(shù)據(jù)不同的集中表現(xiàn)為2種形式:(1)深度與溫度相同,而鹽度不同;(2)層深相差2~4m,而溫度與鹽度相同。通過(guò)與美國(guó)NODC的技術(shù)人員溝通,確認(rèn)出現(xiàn)此現(xiàn)象的原因?yàn)閃OD中未采用訂正后的Argo數(shù)據(jù)所造成的[11]。由于收集渠道不同,2個(gè)數(shù)據(jù)集都收集了未參與全球Argo計(jì)劃的部分Argo浮標(biāo)數(shù)據(jù)。因此在數(shù)據(jù)整合時(shí),應(yīng)該根據(jù)實(shí)際需要來(lái)決定數(shù)據(jù)源。

        7 結(jié)果分析

        該排重軟件已經(jīng)應(yīng)用于由MBT、XBT、CTD、Argo、Glider、浮標(biāo)等觀測(cè)儀器獲取的溫鹽數(shù)據(jù)的排重,實(shí)現(xiàn)了多源、大數(shù)據(jù)量的數(shù)據(jù)排序、排重與合并等。該系統(tǒng)為業(yè)務(wù)化運(yùn)行系統(tǒng),整體性能良好,具有如下特點(diǎn):

        (1)高度模塊化:模塊化編程技術(shù)進(jìn)行開(kāi)發(fā),可以提高系統(tǒng)的可重用性和可維護(hù)性,易于進(jìn)行功能模塊的擴(kuò)充和修改。

        (2)交互性強(qiáng):界面設(shè)計(jì)靈活,互操作性高,對(duì)于數(shù)據(jù)的瀏覽、人工審核以及查詢(xún)檢索都極其便利。

        (3)高度自動(dòng)化:除人工審核外,其他所有工作都無(wú)人工參與,全部自動(dòng)運(yùn)行,節(jié)省了人力物力。

        8 結(jié)語(yǔ)

        該溫鹽數(shù)據(jù)排重軟件已經(jīng)應(yīng)用于國(guó)家海洋信息中心國(guó)際海洋資料處理、科技部海洋數(shù)據(jù)共享平臺(tái)建設(shè)、海洋環(huán)境與地理信息服務(wù)平臺(tái)建設(shè)等項(xiàng)目中。系統(tǒng)開(kāi)發(fā)人員一直跟蹤軟件使用過(guò)程,按照實(shí)際工作需要不斷調(diào)整程序的結(jié)構(gòu),最終實(shí)現(xiàn)了系統(tǒng)的整合、排重參數(shù)和排重方法調(diào)整與優(yōu)化,并根據(jù)使用情況不斷的修改完善,極大地提高了溫鹽數(shù)據(jù)處理的速度,為溫鹽數(shù)據(jù)的整合和深層次應(yīng)用和共享奠定了堅(jiān)實(shí)的基礎(chǔ)。該系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)具有廣闊的應(yīng)用前景。

        [1]BoyerTP,AntonovJI,BaranovaOK,etal.WorldOceanDatabase2009 [M].LevitusS,Ed.NOAAAtlasNESDIS66,U.S.Gov.WashDC:PrintingOffice, 2009: 216.

        [2] 薛惠芬, 苗春葆, 董明媚, 等. 全球ARGO浮標(biāo)及其觀測(cè)資料狀況分析 [J]. 海洋技術(shù), 2005, 24(4): 23-28.

        [3] 陳帥, 王丹, 張志迅.WOD09的PFL數(shù)據(jù)和Argo數(shù)據(jù)的比較 [J]. 海洋技術(shù), 2011, 30(4): 32-37.

        [4]CliffordAShaffer.Apracticalintroductiontodatastructureandalgorithmanalysis[M], 張銘, 劉曉丹, 譯.1版. 北京: 電子工業(yè)出版社, 1998: 151-174

        [5] 侍茂崇, 高郭平, 鮑獻(xiàn)文. 海洋調(diào)查方法 [M]. 青島: 中國(guó)海洋大學(xué)出版社, 2000: 31-52.

        [6]GreenAW,Bulkdynamicsoftheexpendablebathythermograph(XBT) [J].Deep-SeaRes, 1984, 31: 415-426.

        [7]HallockZR,TeagueWJ.ThefallrateoftheT-7XBT[J].JAtmosphOceanicTech, 1992, 9: 470-483.

        [8]BoehlertGW,CostaDP,CrockerDE,etal.Autonomouspinnipedenvironmentalsamples:usinginstrumentedanimalsasoceanographicdatacollectors[J].JAtmosOceanicTechnol, 2001, 18: 1882-1893.

        [9]DavisRE,OhmanMD,RudnickDL,etal.GlidersurveillanceofphysicsandbiologyinthesouthernCaliforniaCurrentSystem[J].LimnolOceanogr, 2008, 53(5): 2151-2168.

        [10]EriksenCC,OsseTJ,LightRD,etal.Seaglider:Along-rangeautonomousunderwatervehicleforoceanographicresearch[J].IEEEJOceanicEng, 2001, 26(4): 424-436.

        [11]WongAPS,JohnsonGC,OwensWB.Delayed-modecalibrationofautonomousCTDprofilingfloatsalinitydatabyθ-Sclimatology[J].JAtmosOceanicTechnol, 2003, 20: 308-318.

        責(zé)任編輯 陳呈超

        Method and Software for Eliminate Duplicate Data for WOD and Argo Datasets

        JI Feng-Ying1, YU Ting1,2, DONG Ming-Mei1,3, LIANG Jian-Feng1

        (1. National Marine Data and Information Service, Tianjin 300171, China; 2.Ocean University of China, Qingdao 266100,China; 3.University of Tianjin, Tianjin 300171, China)

        Temperature and salinity are essential quantities of oceanography, their distribution and varieties are closely related to almost all the process of ocean. They have been the major focus of oceanography observation in many countries. Until now more than 20 million temperature and salinity casts have been acquired since the first temperature were recorded in 1772. Because of the automatic observing nature and data transferring by satellite, a station may be transferred and received many times. In the meantime, some data may be repeatedly collected by different projects and shared by data exchanges. These duplicate data may induce error in oceanographic analysis and research work. In order to eliminate the duplicates, the primary step is to study and confirm the threshold parameters for data from different instruments based on the accuracy, transferred frequency. Then based on requirements of mass data processing functions and manual interactive operation, Visual C ++ 6.0 is chosen as the project development tool while the MATLAB graphics library is for powerful graphical display part is used for which is more directly using. Under windows platform and Win32 system, MATLAB graphics are embedded with VC interface to eliminate duplicate data from massive temperature and salinity data can be successfully accomplished. Currently this software area applied to check ocean temperature and salinity data from the most widely used dataset, WOD (world ocean database) and Argo dataset, and got the satisfied result, which lay the strong foundation for future dataset integration.

        Argo; WOD; eliminate duplicate; heap sort

        國(guó)家自然科學(xué)基金項(xiàng)目(41406024)資助

        2013-11-18;

        2014-06-10

        紀(jì)風(fēng)穎(1974-),女,博士,副研究員,主要從事物理海洋數(shù)據(jù)的處理分析等工作。E-mail:2320130582@qq.com

        TP

        A

        1672-5174(2015)08-121-07

        10.16441/j.cnki.hdxb.20130360

        猜你喜歡
        浮標(biāo)測(cè)站儀器
        受了委屈的浮標(biāo)君
        受了委屈的浮標(biāo)君
        受了委屈的浮標(biāo)君
        家教世界(2023年7期)2023-03-22 12:11:24
        受了委屈的浮標(biāo)君
        家教世界(2023年4期)2023-03-04 07:31:28
        GNSS鐘差估計(jì)中的兩種測(cè)站選取策略分析
        《現(xiàn)代儀器與醫(yī)療》2022年征訂回執(zhí)
        《現(xiàn)代儀器與醫(yī)療》2022年征訂回執(zhí)
        全球GPS測(cè)站垂向周年變化統(tǒng)計(jì)改正模型的建立
        測(cè)站分布對(duì)GPS解算ERP的影響分析
        我國(guó)古代的天文儀器
        国产精品女同av在线观看| 人妻少妇精品中文字幕av蜜桃| 国产超碰人人做人人爱ⅴa| 国产偷国产偷亚洲欧美高清| 69搡老女人老妇女老熟妇| 亚洲精品中文字幕一二三| 变态调教一区二区三区女同| 国内成+人 亚洲+欧美+综合在线 | 成人无码视频在线观看网站| 国产精品一区二区久久毛片| 女优av一区二区在线观看| 国产色视频一区二区三区qq号| 国产91精品一区二区麻豆亚洲| 成人影院在线视频免费观看| 97一期涩涩97片久久久久久久| 51国产黑色丝袜高跟鞋| 亚洲影院天堂中文av色| 亚洲欧美日韩国产综合久| 亚洲人妻有码中文字幕| 国内自拍偷国视频系列| 情人伊人久久综合亚洲| 性大片免费视频观看| 狠狠色噜噜狠狠狠狠97俺也去| 人妻体体内射精一区中文字幕| 我和隔壁的少妇人妻hd| 欧美日韩精品一区二区三区高清视频| 国产av成人精品播放| 国产熟女精品一区二区| 开心五月激情五月五月天| 山外人精品影院| 国产精品久久无码一区二区三区网| 亚洲欧美v国产蜜芽tv| 日韩精品一区二区亚洲专区| 妺妺窝人体色777777| 国产人妻久久精品二区三区特黄| 国产在线一区二区三区av| 一区二区三区精品婷婷| av免费播放网站在线| 中出人妻中文字幕无码| 波霸影院一区二区| 日韩激情av不卡在线|