陳孟婕,徐碩*,劉慧媛,蔣慶朝
1.中國水產(chǎn)科學研究院漁業(yè)工程研究所,中國水產(chǎn)科學研究院漁業(yè)信息工程研究中心,漁業(yè)信息工程功能實驗室,北京 100141
數(shù)據(jù)庫(集)基本信息簡介
數(shù)據(jù)庫(集)名稱 2017年我國沿海漁港地理分布數(shù)據(jù)集數(shù)據(jù)作者 陳孟婕、徐碩、劉慧媛、蔣慶朝數(shù)據(jù)通信作者 徐碩(xushuo19850718@126.com)數(shù)據(jù)時間范圍 2017年地理區(qū)域 地理范圍包括北緯18°15'28"~48°17'53"、東經(jīng)108°15'23"~130°14'51",涉及中國沿海各省??臻g分辨率 1000 m數(shù)據(jù)量 657條數(shù)據(jù)格式 *.xlsx數(shù)據(jù)服務系統(tǒng)網(wǎng)址 http://www.sciencedb.cn/dataSet/handle/542基金項目國家科技基礎條件平臺專項“農(nóng)業(yè)科學數(shù)據(jù)共享中心”(2005DKA31800);國家科技基礎條件平臺專項“漁業(yè)科學數(shù)據(jù)平臺”(2005DKA31800-03);中國水產(chǎn)科學研究院基本科研業(yè)務費專項(2017年),國家漁業(yè)科學數(shù)據(jù)中心數(shù)據(jù)匯聚與分析項目,2016HY-ZC10;中國水產(chǎn)科學研究院基本科研業(yè)務費專項(2016年),漁工所漁業(yè)工程學科數(shù)據(jù)體系結構研究,2016JC0110數(shù)據(jù)庫(集)組成 數(shù)據(jù)集由657條漁港地理信息數(shù)據(jù)組成,主要采集了沿海地區(qū)的漁港分布地理信息。
在移動互聯(lián)網(wǎng)時代,地理信息應用,尤其是基于位置的應用,在交通、購物、餐飲等領域開始廣泛發(fā)展和嘗試,并極大地改變了人們的生活方式。人們對于地理上下文信息的需求進一步驅(qū)動了該技術的發(fā)展[1-5]。在漁業(yè)科學數(shù)據(jù)資源中,地理屬性信息隱含在數(shù)據(jù)屬性、數(shù)據(jù)細節(jié)里。開展數(shù)據(jù)的地理屬性分析以及應用研究,促進用戶對數(shù)據(jù)的理解,是漁業(yè)科學數(shù)據(jù)的重要研究方向。漁業(yè)科學數(shù)據(jù)平臺[6]匯聚了豐富的漁業(yè)科學數(shù)據(jù)集,并在平臺上開放給用戶獲取和使用。不足是用戶對數(shù)據(jù)集的訪問量與數(shù)據(jù)集在平臺上的展示位置直接相關,并且由于數(shù)據(jù)間關系、數(shù)據(jù)與用戶的關系不明顯,因此,數(shù)據(jù)主動服務能力較弱。為了提高用戶對數(shù)據(jù)的興趣,解決位置帶來的數(shù)據(jù)訪問量偏差,目前,較常見的技術方法是研究數(shù)據(jù)的個性化服務、數(shù)據(jù)挖掘、機器學習等[7-8]。對于該問題的另一種解決思路是,挖掘數(shù)據(jù)中的地理屬性信息,便于為數(shù)據(jù)、用戶建立地理上、位置上的上下文相關環(huán)境,以最直觀的地圖方式為用戶展示數(shù)據(jù),促進用戶對關聯(lián)數(shù)據(jù)的訪問和使用。因此,本文選取具有代表性的數(shù)據(jù)集,采集地理屬性信息,形成新的數(shù)據(jù)集,為今后的數(shù)據(jù)科研以及支撐工作奠定基礎。
“漁港數(shù)量、分布、功能與現(xiàn)狀數(shù)據(jù)庫”[9]中,提供了全國1300多個漁港的避風等級、碼頭長度等參數(shù)的數(shù)據(jù)屬性,同時還提供了文本結構的“地理位置”屬性,例如大連市大連灣、東港市前陽鎮(zhèn)等描述信息,表明該數(shù)據(jù)集具有鮮明的地理屬性特點,可以通過相關技術手段,將數(shù)據(jù)轉(zhuǎn)換成便于地理位置標記的格式。本文通過運用字符串處理工具、位置解析工具、JS腳本語言等相關技術,對“漁港數(shù)量、分布、功能與現(xiàn)狀數(shù)據(jù)庫”數(shù)據(jù)進行解析,得到量化的地理屬性信息,為地理相關的漁港研究與實施工作提供基礎數(shù)據(jù)支持。
本數(shù)據(jù)集由“漁港數(shù)量、分布、功能與現(xiàn)狀數(shù)據(jù)庫”通過一定的計算方法獲取,因此,這兩個數(shù)據(jù)集的關系是因果關系?!皾O港數(shù)量、分布、功能與現(xiàn)狀數(shù)據(jù)庫”的數(shù)據(jù)來源于農(nóng)業(yè)部1990年公布的我國大陸沿海的漁業(yè)港口數(shù)據(jù),屬于漁業(yè)科技基礎數(shù)據(jù),數(shù)據(jù)詳細內(nèi)容在漁業(yè)科學數(shù)據(jù)共享平臺中提供,其在線鏈接地址為http://fishery.agridata.cn/grade3.asp?st=llsj&id=A040361。該數(shù)據(jù)集的數(shù)據(jù)飽滿度為85.5%,根據(jù)字段缺失數(shù)量與所有記錄總字段數(shù)量的比值計算得到,其中地理位置的飽滿度為99.2%,相對完整。因此,選取該數(shù)據(jù)集進行加工處理。
本數(shù)據(jù)集目前完成了數(shù)據(jù)采集、處理與存儲過程,并已發(fā)布在漁業(yè)科學數(shù)據(jù)平臺網(wǎng)站上,其訪問地址為http://fishery.agridata.cn/grade3.asp?st=llsj&id=A040364。
1.2.1 總體流程圖
數(shù)據(jù)采集及處理流程包括五個階段:原始數(shù)據(jù)預處理、地理數(shù)據(jù)采集、數(shù)據(jù)加工處理、數(shù)據(jù)關聯(lián)、數(shù)據(jù)校驗。數(shù)據(jù)采集及處理總流程如圖1所示。后續(xù)章節(jié)將展開介紹各個階段的處理方法。
圖1 數(shù)據(jù)處理總流程
1.2.2 原始數(shù)據(jù)預處理
在原始數(shù)據(jù)集中,每條數(shù)據(jù)由漁港名稱、地理位置、避風等級、碼頭長度、護岸長度、防波堤長度、數(shù)據(jù)提供單位、更新日期、更新時間組成。查看數(shù)據(jù)詳情,地理信息包含在漁港名稱、地理位置2個屬性中,而其他字段只與漁港本身的特性相關。原始漁港數(shù)據(jù)集中,有11條數(shù)據(jù)的地理位置屬性未填寫。對于這些漁港數(shù)據(jù),只能通過漁港名稱進行地理信息辨別。對于其他記錄完整的情況,增加“地理位置漁港名稱”字段,其內(nèi)容為漁港名稱、地理位置2個屬性的拼接,得到完整的地理屬性信息,作為數(shù)據(jù)加工處理的原材料。根據(jù)地址解析工具的輸入數(shù)據(jù)要求,將數(shù)據(jù)集所有的“地理位置漁港名稱”字段拼接成字符串數(shù)組格式,如圖2所示。
圖2 數(shù)據(jù)輸入格式
1.2.3 地理數(shù)據(jù)采集
在數(shù)據(jù)預處理后,數(shù)據(jù)采集的任務是對漁港地理屬性信息的進一步處理,實現(xiàn)定性的自然地理位置屬性與定量的地理坐標信息的轉(zhuǎn)換。
國際經(jīng)緯度坐標標準為WGS-84,稱作大地坐標,是目前廣泛使用的GPS全球衛(wèi)星定位系統(tǒng)使用的坐標系。國內(nèi)必須使用國測局制定的GCJ-02坐標系(也稱火星坐標系),對地理位置進行首次加密。通過常用的在線地圖應用,如百度地圖、高德地圖、騰訊地圖等,都提供了地理坐標拾取技術,即通過提供自然地理位置信息,得到絕對的經(jīng)緯度坐標信息。出于安全考慮,各個服務提供商并不提供真實的坐標,而是對數(shù)據(jù)進行不同加密技術的處理后再提供給用戶。因此,其經(jīng)緯度數(shù)值與真實值之間有一定偏差,而對于數(shù)據(jù)的位置關系分析、用戶與數(shù)據(jù)關系分析并不影響。在我國信息安全允許范圍內(nèi),本文采集了經(jīng)加密處理的地理坐標信息。
本文選取百度坐標系作為數(shù)據(jù)標準,以百度開放平臺的在線源代碼編輯器作為工具采集地理坐標信息。首先,百度坐標在火星坐標系的基礎上,進行了BD-09二次加密措施,更加保護了個人隱私。其次,百度在坐標轉(zhuǎn)換技術上提供了批量的坐標轉(zhuǎn)換的接口,包括地址解析和不同坐標系坐標的轉(zhuǎn)換,具有更高的坐標轉(zhuǎn)換效率。第三,工具對于輸入的數(shù)據(jù)具有一定的容錯性,并可以自動補全地址描述信息。第四,開放平臺還提供了完整的文檔,尤其是完整的演示Demo,使工具的使用簡單易懂,并支持多種技術二次開發(fā),如Android開發(fā)、IOS開發(fā)、Web開發(fā)、服務接口調(diào)用。針對本文中數(shù)據(jù)集采集需求,選擇JavaScript接口的批量地址解析工具,其訪問地址為http://lbsyun.baidu.com/jsdemo.htm?a#i7_3。
批量地址解析工具的輸入是地理位置組成的字符串數(shù)組,輸出是序號、地理位置、經(jīng)度值、緯度值組成的地址信息。將預處理好的數(shù)據(jù),代入該工具源代碼中運行,得到輸出結果A,執(zhí)行時間約為10分鐘,包含了網(wǎng)絡延遲以及每條數(shù)據(jù)處理的等待時間,得到的輸出結果1046條,其輸出片段如圖3所示。
為了后期對結果校驗,將地理位置和漁港名稱分別作為輸入數(shù)據(jù),利用工具得到另外兩組輸出結果,分別為輸入結果B約900條、輸出結果C約200條。對于原數(shù)據(jù)集的漁港數(shù)據(jù),有11.11%漁港數(shù)據(jù)在3組輸出結果中都沒有獲取地理坐標信息,需要運用其他的地理信息轉(zhuǎn)換方法進行坐標轉(zhuǎn)換。這些數(shù)據(jù)可以作為漁港地理分布數(shù)據(jù)集今后的增補數(shù)據(jù)來源。而3組輸出結果中,A通過詳細的輸入信息獲??;B的輸入數(shù)據(jù)在語義上地理覆蓋面更廣,得到的結果相對粗略,而且有很多重復的數(shù)據(jù);C的位置較精細,查詢的結果也較少。
1.2.4 數(shù)據(jù)加工處理
地址解析工具的輸出結果是非結構化的文本存儲格式。優(yōu)點是體積較小,查看方便,適用于少量數(shù)據(jù)的存儲。當數(shù)據(jù)量增多,數(shù)據(jù)查詢、處理需求越來越復雜,需要將文本格式轉(zhuǎn)換為結構化數(shù)據(jù)存儲格式。常見的方法是用程序逐行讀取數(shù)據(jù)并轉(zhuǎn)換成結構化存儲格式,另一種更為簡單有效的方法是利用Excel電子表格豐富的數(shù)據(jù)函數(shù)來處理。通過結構化處理,新的數(shù)據(jù)集與原始數(shù)據(jù)集可以建立更加清晰的對應關系,例如以漁港名稱作為關聯(lián)字段。
對于規(guī)范化的輸出結果A,采用Excel處理。Excel有多種處理技巧,其一,直接書寫公式,截取漁港名稱、兩個地理坐標,涉及的函數(shù)為字符串截取函數(shù) MID、字符位置查找函數(shù)FIND。例如,截取漁港名稱的公式為:MID(A1,FIND("、",A1)+1,FIND(":",A1)-1-FIND("、",A1)),A1即輸出結果A的一條記錄。其二,Excel預定義了便捷操作,可以直接利用數(shù)據(jù)分列工具,以預定義分隔符或者指定特殊的分隔符,對數(shù)據(jù)進行切割,分成多列,分割過程如圖4所示。通過分列得到的數(shù)據(jù)結果可以直接存儲為結構化數(shù)據(jù)。
1.2.5 數(shù)據(jù)關聯(lián)
數(shù)據(jù)基本轉(zhuǎn)換為結構化數(shù)據(jù)存儲格式后,初步形成了本數(shù)據(jù)集的主要內(nèi)容。但由于該數(shù)據(jù)集關注點為地理分布,并不涉及漁港的其他參數(shù)信息,因此需要將新的數(shù)據(jù)集與原數(shù)據(jù)集“漁港數(shù)量、分布、功能與現(xiàn)狀數(shù)據(jù)庫”進行關聯(lián)。
通過解析原數(shù)據(jù)集所在的發(fā)布平臺“漁業(yè)科學數(shù)據(jù)平臺”的鏈接地址,可以得到新數(shù)據(jù)在原數(shù)據(jù)集中的唯一標識。例如,漁港名稱為“丹東市海洋紅中心漁港”的數(shù)據(jù)記錄,其唯一標識符id為2,如圖5所示。
圖4 數(shù)據(jù)格式化轉(zhuǎn)換
圖5 原數(shù)據(jù)URL解析
因此,漁港地理分布數(shù)據(jù)集需要對每一條數(shù)據(jù)增加關聯(lián)信息,即原數(shù)據(jù)集編碼和原id。數(shù)據(jù)集編碼為統(tǒng)一的 A040360,id則需要通過兩個數(shù)據(jù)集的漁港名稱、地理位置的比對查找。利用Excel中VLOOKUP函數(shù),逐一查找新數(shù)據(jù)集中名稱在原數(shù)據(jù)集中的位置,并獲取數(shù)據(jù)id編號,如圖6所示。漁港地理分布數(shù)據(jù)集的采集工作基本完成。
圖6 數(shù)據(jù)索引方法示意圖
1.2.6 數(shù)據(jù)校驗
輸出結果A是數(shù)據(jù)集的主要數(shù)據(jù),其輸入數(shù)據(jù)是地理位置和漁港名稱的連接,數(shù)據(jù)描述更加準確,然而會有冗余、重復的信息。這樣的信息輸入到工具中,便可能得到不準確甚至錯誤的結果。當誤差過大直至錯誤時,則需要進行處理。
以A數(shù)據(jù)集作為漁港地理分布數(shù)據(jù)集的主要數(shù)據(jù),通過A、B的對比檢驗數(shù)據(jù)的合理性,C從一定程度上補充A、B所采集數(shù)據(jù)的不足。
(1)三組輸出結果數(shù)據(jù)對比
輸出結果A、B、C中,其地理分布數(shù)值的歐氏距離從0~25不等,圖7為A和B的數(shù)值分布情況。
圖7 A和B數(shù)據(jù)分布圖
數(shù)值歐氏距離的概念比較抽象,需要轉(zhuǎn)換成實際距離?;诎俣鹊貓D開放平臺,利用其中距離計算函數(shù)map.getDistance(pointA,pointB)計算距離。對A、B、C數(shù)據(jù)進行兩兩距離計算,可以得到3組距離,如圖8所示。其中,有些距離為空,其原因是地址解析工具沒有解析出相應的坐標點。通過對比距離,設定誤差值為1公里距離進行討論。當AB組距離在1公里誤差范圍以內(nèi)時,認為該數(shù)據(jù)可以進入最終的漁港地理分布數(shù)據(jù)集;當AB組距離超過1公里時,參考C組數(shù)據(jù),若C組數(shù)據(jù)接近A,則采用A輸出結果,否則采用B輸出結果。
圖8 三組數(shù)據(jù)距離計算結果示意圖
(2)漁港屬性校驗數(shù)據(jù)
在原數(shù)據(jù)集“漁港數(shù)量、分布、功能與現(xiàn)狀數(shù)據(jù)庫”中,碼頭長度、護岸長度、防波堤長度的數(shù)據(jù)單位為長度單位,體現(xiàn)漁港實際建設規(guī)模和大小。這些屬性對于漁港地理分布數(shù)據(jù)集的意義是對于有些數(shù)據(jù),可以適當放大誤差范圍。例如,數(shù)據(jù)集AB的距離為2公里,而漁港規(guī)模有3公里,則所采集的地理信息數(shù)據(jù)是合理的,可以進入漁港地理分布數(shù)據(jù)集。漁港屬性提供的校驗方法補充了部分數(shù)據(jù)記錄。通過以上兩步數(shù)據(jù)校驗,最終形成漁港地理分布數(shù)據(jù)集,合理數(shù)據(jù)量657條。
本數(shù)據(jù)集由657條數(shù)據(jù)記錄組成,每一條數(shù)據(jù)記錄包含id、name、x、y、dbcode、preid五個屬性信息。Id為數(shù)據(jù)記錄的唯一編號,一般是整型。Name是包含地理位置描述信息和漁港名稱的文本字段,為原數(shù)據(jù)集的地理位置與漁港名稱的連接。漁港在坐標系中的經(jīng)度信息用x記錄,緯度信息用y記錄。Dbcode和preid指向原數(shù)據(jù)集代碼和數(shù)據(jù)編號。
以數(shù)據(jù)集第2條記錄為例(圖9)。該數(shù)據(jù)對應的漁港名稱即name字段的內(nèi)容,是石塘車關村車關漁港,該漁港的經(jīng)度屬性取值為117.641872,緯度屬性取值為31.93985,其引用的數(shù)據(jù)來源是漁業(yè)科學數(shù)據(jù)平臺中A040360(decode)中第737(preid)條記錄。
數(shù)據(jù)質(zhì)量依賴于“漁港數(shù)量、分布、功能與現(xiàn)狀數(shù)據(jù)庫”的數(shù)據(jù)內(nèi)容完整性、準確性以及地理信息解析工具的準確性。
對于“漁港數(shù)量、分布、功能與現(xiàn)狀數(shù)據(jù)庫”,主要來源于農(nóng)業(yè)部1990年公布的我國大陸沿海的漁業(yè)港口數(shù)據(jù),數(shù)據(jù)的可信度和準確性較高。
圖9 數(shù)據(jù)樣本
對于地理信息解析工具,獲取的地理信息坐標允許一定的誤差,其誤差主要來自地理描述信息的精度問題,另一方面是服務提供商對地理信息坐標的加密,以符合相關法律法規(guī)。但誤差范圍必須符合人們的常規(guī)認識。將數(shù)據(jù)集依次輸入百度地圖在線經(jīng)緯度拾取工具(http://api.map.baidu.com/lbsapi/getpoint/index.html),對數(shù)據(jù)集中漁港位置進行定位對比,其中,有20條數(shù)據(jù)所在位置與實際偏差較大,數(shù)據(jù)的準確率為96.97%。
通過數(shù)據(jù)加工處理過程中數(shù)據(jù)校驗方法的應用,設置誤差范圍,得到相對準確的漁港地理分布數(shù)據(jù)集。
數(shù)據(jù)集通過定量的數(shù)值對地理位置進行量化,使數(shù)據(jù)之間的關系更加易于分析和利用。(1)數(shù)據(jù)關聯(lián)關系分析。通過利用數(shù)據(jù)挖掘、數(shù)據(jù)統(tǒng)計、機器學習等算法工具,對數(shù)據(jù)自身的特性進行分析,例如分析漁港位置與漁港屬性的關系,對漁港聚類后分析其共同特點等。(2)用戶與數(shù)據(jù)關系分析。根據(jù)用戶的訪問位置,可以得到用戶與數(shù)據(jù)之間的位置關系,并據(jù)此進一步提供相關的應用服務,如數(shù)據(jù)主動推薦、個性化服務,例如將用戶感興趣的數(shù)據(jù)推送給用戶,將用戶周邊熱點數(shù)據(jù)進行推薦等。
數(shù)據(jù)應用的一個實例如圖10所示?;谟脩粼L問位置,將閾值范圍內(nèi)的漁港在百度地圖中標記。位置遠近、數(shù)據(jù)訪問熱度等都可以作為閾值的指標,據(jù)此,可以進一步為用戶規(guī)劃其感興趣的內(nèi)容進行推薦。
圖10 應用實例
中國科學數(shù)據(jù)(中英文網(wǎng)絡版)2018年2期