左 棟,張雨心
(國家測繪地理信息局地圖技術(shù)審查中心,北京 100830)
國內(nèi)互聯(lián)網(wǎng)地圖POI存在的涉密問題及其解決辦法
左 棟,張雨心
(國家測繪地理信息局地圖技術(shù)審查中心,北京 100830)
隨著基于互聯(lián)網(wǎng)及各類導(dǎo)航設(shè)備的電子地圖和地理信息服務(wù)的迅速發(fā)展,互聯(lián)網(wǎng)地圖上涉及國家安全保密信息的泄露和傳播問題日益凸顯,嚴(yán)重?fù)p害了國家利益,威脅著國家安全。承載這些涉密信息的最重要的載體便是POI。本文對我國互聯(lián)網(wǎng)地圖POI存在的涉密問題及其產(chǎn)生原因進(jìn)行了分析,并從行政管理和軟件技術(shù)兩個方面提出了互聯(lián)網(wǎng)地圖POI涉密問題的解決辦法,使互聯(lián)網(wǎng)地圖在更好地服務(wù)于社會公眾的同時,確保國家主權(quán)與安全不受侵犯與威脅。
互聯(lián)網(wǎng)地圖;POI;涉密問題;解決辦法
近些年,基于互聯(lián)網(wǎng)及各類導(dǎo)航設(shè)備的電子地圖和地理信息服務(wù)發(fā)展迅速,在給人們的工作、生活提供便利的同時,也出現(xiàn)了許多不容忽視的問題。如一些單位和個人違反國家有關(guān)法律法規(guī)的規(guī)定,不具資質(zhì)或未經(jīng)批準(zhǔn)就擅自提供互聯(lián)網(wǎng)地圖和地理信息服務(wù),把一些敏感的、不宜公開的、甚至是涉及國家秘密的相關(guān)地理信息標(biāo)注在電子地圖上[1],嚴(yán)重?fù)p害了國家利益,威脅著國家安全。
在通過電子地圖標(biāo)注的敏感和涉密信息內(nèi)容中,興趣點(point of interest,POI)正是最重要的內(nèi)容載體。POI包含名稱、經(jīng)度、緯度等信息,一個POI所表述的信息可以是一棟房子、一個商鋪、一個公交站,同樣也可以是一個軍事基地、軍事禁區(qū)等[2]。由于POI具有坐標(biāo)信息,因此一旦帶有涉密內(nèi)容的信息以POI的形式反映在電子地圖上,并通過互聯(lián)網(wǎng)等媒介向全世界傳播,將會造成極為嚴(yán)重的國家機密信息泄露事件。中央電視臺此前就有過相關(guān)報道,稱某地圖服務(wù)網(wǎng)站甚至標(biāo)注了“中國核試驗爆炸地點”“中國軍用機場”“北京周邊軍事區(qū)域”等嚴(yán)重的涉密內(nèi)容[3]。
本文將對互聯(lián)網(wǎng)地圖出現(xiàn)涉密POI情況的原因進(jìn)行分析,并從行政管理和軟件識別技術(shù)兩個方面提出相應(yīng)的解決辦法,使互聯(lián)網(wǎng)地圖朝著健康、正確的方向發(fā)展,在更好地服務(wù)于社會大眾的同時,確保國家安全不受威脅。
從日常對送審POI列表的審查和互聯(lián)網(wǎng)地圖實時監(jiān)控的情況來看,各大互聯(lián)網(wǎng)地圖服務(wù)網(wǎng)站均存在不同程度的POI涉密問題。主要體現(xiàn)在標(biāo)注了國家相關(guān)法律禁止在公開地圖上表示的POI,即涉密POI,最常見的類型有:未核實是否對社會公眾開放的涉軍單位、發(fā)電站、變電站、石油化工廠、安康醫(yī)院等。而目前只能在發(fā)現(xiàn)了POI涉密問題之后責(zé)令相關(guān)單位盡快將其刪除,工作方式較為被動。
目前國家對公開地圖上不可表示的內(nèi)容有明確的法律規(guī)定,最主要的為《公開地圖內(nèi)容表示補充規(guī)定(試行)》《基礎(chǔ)地理信息公開表示內(nèi)容的規(guī)定(試行)》等。其中對公開地圖中能表示和不能表示的內(nèi)容有著明確的要求,它們是判定互聯(lián)網(wǎng)地圖上POI標(biāo)注內(nèi)容是否符合國家規(guī)定的主要依據(jù)。
互聯(lián)網(wǎng)地圖POI涉密問題的出現(xiàn)主要有兩方面重要的原因:一是部分互聯(lián)網(wǎng)地圖服務(wù)企業(yè)從業(yè)人員對國家相關(guān)法律法規(guī)認(rèn)識不夠,不能明確POI內(nèi)容表示的范圍,甚至有少部分從業(yè)人員不知道有相關(guān)的法律法規(guī);二是當(dāng)前涉密POI識別軟件算法沒有一個統(tǒng)一的標(biāo)準(zhǔn),各單位執(zhí)行各自的軟件識別算法,有的識別算法過于簡單,不能高效、準(zhǔn)確地篩查涉密POI,這是從技術(shù)角度封堵涉密POI傳播的主要障礙。
目前我國互聯(lián)網(wǎng)地圖POI涉密問題的解決需要從管理和技術(shù)兩方面進(jìn)行改進(jìn)。
針對互聯(lián)網(wǎng)地圖企業(yè)從業(yè)人員對國家在公開地圖內(nèi)容表示方面的法律法規(guī)意識淡薄的情況,可以通過以下3個方面進(jìn)行加強:一是加強對從業(yè)人員的業(yè)務(wù)培訓(xùn),增加培訓(xùn)的頻率和強度,并定期進(jìn)行考核,使從業(yè)人員正確認(rèn)識POI涉密問題的嚴(yán)肅性,始終保持高度的警惕性;二是確?;ヂ?lián)網(wǎng)地圖服務(wù)企業(yè)中的要害崗位做到持證上崗,如外包POI數(shù)據(jù)入庫檢測崗位、社會公眾上傳POI數(shù)據(jù)檢測崗位等;三是加強對數(shù)據(jù)采集單位從業(yè)人員的培訓(xùn)工作,目前主要培訓(xùn)對象為互聯(lián)網(wǎng)地圖服務(wù)企業(yè)人員,而很多企業(yè)的數(shù)據(jù)往往外包給了第三方,即專門的數(shù)據(jù)采集公司。加強對數(shù)據(jù)采集人員的培訓(xùn),可提升他們的安全保密意識,將直接從數(shù)據(jù)的采集源頭消除隱患,達(dá)到事半功倍的效果。
高效而準(zhǔn)確的涉密POI軟件識別算法是進(jìn)行涉密POI監(jiān)控、排查的核心技術(shù)手段,本文將對此部分內(nèi)容進(jìn)行詳細(xì)設(shè)計。
專業(yè)的搜索引擎通常能夠快速且準(zhǔn)確地提供給我們想要的結(jié)果,這其中所用到的搜索技術(shù)通常包括搜索引擎優(yōu)化(SEO)、關(guān)鍵詞優(yōu)化、自動分詞、詞法分析等方面[4]。另外,不難理解目前一些常用的殺毒軟件在識別病毒、管理病毒庫方面也應(yīng)該與涉密POI涉密關(guān)鍵詞庫的管理有共通之處[5]。因此,涉密POI識別算法應(yīng)以此作為切入點,深入發(fā)掘涉密POI識別與互聯(lián)網(wǎng)搜索技術(shù)的共通點,廣泛借鑒其先進(jìn)的技術(shù)和策略,并結(jié)合涉密POI識別工作自身的特點,最終形成具有針對性強、識別效果理想的涉密POI識別方法。
(1) 建立白名單庫
通過對涉密POI識別結(jié)果分析發(fā)現(xiàn),有一類POI,如“解放軍信陽軍分區(qū)門診部”,該POI名稱中包含“解放軍”“軍分區(qū)”兩個涉密關(guān)鍵詞。首先,識別軟件能夠準(zhǔn)確地將其識別出來;其次,經(jīng)人工判斷該POI表示的確實為軍事單位。根據(jù)相關(guān)法規(guī)規(guī)定,涉及軍事單位及軍事設(shè)施等的內(nèi)容不得在公開地圖上表示[6]。初看,識別軟件是將此涉密POI準(zhǔn)確地識別出來了。但規(guī)定中還有一條關(guān)鍵性的補充說明:“對社會公眾開放的除外”。而正是這個補充性的說明使得涉密識別的判定條件由限制性變成了非限制性[7],從而造成了一類誤識別的產(chǎn)生。經(jīng)外業(yè)采集人員實地考證,該部隊醫(yī)院是對社會公眾開放的,因此是可以在公開地圖上表示的。正是由于“是否對社會公眾開放”這個不確定因素,使得涉密POI識別過程不得不加入后期人工的判斷,否則就會出現(xiàn)大量的誤識別。
針對這類誤識別,可以通過建立涉密POI白名單庫來解決。所謂白名單,是指規(guī)則中設(shè)置的允許使用的名單列表[8]。目前白名單策略被廣泛用于計算機領(lǐng)域,如防火墻、殺毒軟件、廣告攔截軟件等都用到了該策略[9]。
因此,可以在識別算法中引入白名單策略。每當(dāng)出現(xiàn)此類誤識別時,便可將相應(yīng)的POI加入白名單庫,一旦進(jìn)入了白名單庫,涉密POI識別軟件就不再將其視為涉密POI了。這樣就避免了此類誤識別的發(fā)生。
(2) 通過涉密關(guān)鍵詞組合判別POI
有這么一類誤識別,以“沙井變電站公交站”為例,該POI名稱中因為包含“變電站”涉密關(guān)鍵詞,因此被識別軟件當(dāng)作涉密POI識別出來了,但是經(jīng)過人工判斷發(fā)現(xiàn),該POI實則表示的是一個公交站而非變電站,屬于非涉密POI。分析原因可知,決定這個POI涉密與否的關(guān)鍵詞并不是“變電站”。
在專業(yè)搜索領(lǐng)域,人們將關(guān)鍵詞分為主題關(guān)鍵詞和特征關(guān)鍵詞。主題關(guān)鍵詞是指表述主要搜索內(nèi)容的必用的詞語,不使用主題關(guān)鍵詞就不能準(zhǔn)確地搜索到特定的內(nèi)容。特征關(guān)鍵詞是指在內(nèi)容描述中與主題關(guān)鍵詞同時出現(xiàn)且位置較近的進(jìn)一步說明和限定主題關(guān)鍵詞的詞語,特征關(guān)鍵詞可以有效地縮小搜索范圍,使結(jié)果排序更加趨前[10]。
受以上搜索策略的啟發(fā),針對此種類型的誤識別,可以通過采用“涉密關(guān)鍵詞+非涉密關(guān)鍵詞”組合的形式對POI名稱進(jìn)行判斷。具體算法為:當(dāng)識別軟件在某POI名稱中發(fā)現(xiàn)了涉密關(guān)鍵詞后,還應(yīng)在其名稱中進(jìn)一步搜索是否含非涉密關(guān)鍵詞(對于名稱中未發(fā)現(xiàn)涉密關(guān)鍵詞的POI無需執(zhí)行此步驟),如果發(fā)現(xiàn)了非涉密關(guān)鍵詞,那么就可以直接將此POI視為非涉密POI,無需再將其加入到識別結(jié)果列表中。這樣即可避免此類誤識別的發(fā)生。
需要注意的是,此改進(jìn)算法需要建立非涉密關(guān)鍵詞庫,其中非涉密關(guān)鍵詞的選取應(yīng)當(dāng)來自于對每次識別結(jié)果的認(rèn)真分析。每當(dāng)出現(xiàn)此類誤識別時,即可將存在于該POI中的非涉密關(guān)鍵詞加入詞庫中,對詞庫進(jìn)行擴充。
(3) 通過詞法分析提高關(guān)鍵詞識別準(zhǔn)確性
還有一類誤識別是由于識別軟件不能進(jìn)行正確的詞法分析所造成的。對于詞法分析,科學(xué)的解釋為:計算機科學(xué)中將字符序列轉(zhuǎn)換為單詞序列的過程。其主要任務(wù)是把接收到的自然語言進(jìn)行切分,能正確地把一串連續(xù)的字符切分成單個的詞,更進(jìn)一步,還要為每個切分的詞加上詞性標(biāo)記,以便于后續(xù)的句法分析的實現(xiàn)[11]。詞法分析是理解自然語言中最小的語法單位的基礎(chǔ),最終決定語言理解的正確與否[12]。
以POI“吉林市船營區(qū)工商局”為例,通過人腦判斷該POI,可知其表示的是工商局,是一個普通POI。人腦通過詞法分析會將這個POI名稱拆分為“吉林市”“船營區(qū)”“工商局”3個關(guān)鍵詞,它們均不屬于涉密關(guān)鍵詞(其中“船營區(qū)”是吉林市的下屬轄區(qū)名稱)。如果識別軟件中沒有詞法分析功能,就不能根據(jù)詞法和語義對POI的名稱進(jìn)行正確的拆分。如在“吉林市船營區(qū)工商局”中,識別軟件僅能簡單地識別出“營區(qū)”這個涉密關(guān)鍵詞,然后便將此POI視為涉密POI,從而產(chǎn)成了誤識別。
因此,識別軟件應(yīng)當(dāng)具有詞法分析的功能,使其能夠正確拆分出關(guān)鍵詞,從而消除此類誤識別。
(4) 優(yōu)化涉密關(guān)鍵詞設(shè)置
通過對日常識別結(jié)果的分析發(fā)現(xiàn),有一部分誤識別的發(fā)生與部分涉密關(guān)鍵詞的設(shè)定不當(dāng)有關(guān)。用這些涉密關(guān)鍵詞所識別出來的涉密POI雖然名稱中包含涉密關(guān)鍵詞,但POI所表達(dá)的內(nèi)容與想要提取的涉密內(nèi)容幾乎毫不相干。究其原因是這些涉密關(guān)鍵詞的選取不能準(zhǔn)確地體現(xiàn)相關(guān)內(nèi)容的特征,即其體現(xiàn)的特征性不強[13]。
如“基地”這個涉密關(guān)鍵詞,設(shè)定該關(guān)鍵詞的初衷是想提取出類似軍事訓(xùn)練基地的涉密POI。但是在實際識別過程中識別出的卻是“瑯山苗圃苗木基地”“北京師范大學(xué)國際學(xué)術(shù)交流中心教學(xué)基地”等大量非涉密POI。這實際上是違反了搜索引擎優(yōu)化領(lǐng)域中“主關(guān)鍵詞不可太寬泛”的原則[14]。因此,必須對“基地”這類涉密特征不強的關(guān)鍵詞進(jìn)行優(yōu)化,如將“基地”關(guān)鍵詞優(yōu)化為更為具體的“軍事基地”“訓(xùn)練基地”等,以提高其所反應(yīng)內(nèi)容的涉密特征性。
可以想象,如果長期持續(xù)地對涉密關(guān)鍵詞進(jìn)行優(yōu)化,因涉密關(guān)鍵詞選取不當(dāng)而產(chǎn)生的誤識別可逐漸消除。
(5) 關(guān)注涉密關(guān)鍵詞在POI名稱中的位置
除了考慮提高識別的正確率外,還應(yīng)考慮提高識別的效率。
通過對日常識別結(jié)果的分析發(fā)現(xiàn),有一類涉密POI,其涉密關(guān)鍵詞一定在其POI名稱的詞尾位置,如“發(fā)電廠”“自來水廠”“監(jiān)獄”等。當(dāng)POI名稱中具有這些關(guān)鍵詞,且位于詞尾位置,如“某發(fā)電廠”“某看守所”那么它們一定是涉密POI。
掌握了這個規(guī)律之后,可通過在識別軟件中加入對涉密關(guān)鍵詞位置判讀的算法來提高識別效率:首先需要對位置敏感的涉密關(guān)鍵詞進(jìn)行特殊標(biāo)記;然后,在識別過程中一旦發(fā)現(xiàn)某POI名稱存在位置敏感涉密關(guān)鍵詞,且其在POI名稱中的位置與位置敏感涉密關(guān)鍵詞中記錄的位置一致,則可直接判定該POI為涉密POI,而不再對其進(jìn)行其他判定,由此提升識別軟件的識別效率。
(6) 改進(jìn)后的識別算法簡述
綜合以上5點改進(jìn)方案,得到大致的算法流程如圖1所示。
圖1 改進(jìn)后的識別算法流程
從圖1可以看到,改進(jìn)后的軟件算法將通過白名單庫識別、位置敏感涉密關(guān)鍵詞判定、非涉密關(guān)鍵詞組合查詢等流程快速識別涉密POI,既增加了識別結(jié)果的準(zhǔn)確度,也提高了識別的效率。
本文分析了當(dāng)前互聯(lián)網(wǎng)地圖中存在POI涉密問題的主要原因,并從管理和技術(shù)兩個方面提出了解決辦法。加強管理可以從主觀方面增強相關(guān)從業(yè)人員對解決互聯(lián)網(wǎng)地圖POI涉密問題的動力,而改進(jìn)涉密POI軟件識別算法則從客觀上保障了互聯(lián)網(wǎng)地圖POI涉密問題的技術(shù)實現(xiàn)能力。希望通過本文的研究可使互聯(lián)網(wǎng)地圖POI存在的涉密問題得以解決,最終使國家對互聯(lián)網(wǎng)地圖、導(dǎo)航電子地圖等新興地圖傳播、泄露涉密信息行為的監(jiān)督、管理水平得到有效提升。
[1] 雷京華.公開地圖的信息開放與安全問題探討[J]. 測繪通報, 2010 (10):47-49.
[2] 百度百科.POI百科詞條[EB/OL]. [2012-11-20].http:∥baike.baidu.com/subview/517279/5442944.htm#viewPageContent.
[3] 網(wǎng)易.央視《焦點訪談》警惕互聯(lián)網(wǎng)地圖泄密[EB/OL].[2010-05-18].http:∥tech.163.com/10/0518/09/66V49C75000915BF.html.
[4] 陳寧.基于網(wǎng)絡(luò)的關(guān)鍵詞檢索技巧[J].中國科技信息,2008(2):115-117.
[5] 孟令強,關(guān)勇,張向紅.基于可信計算的應(yīng)用程序白名單管理系統(tǒng)[J].計算機安全,2010(10):16-21.
[6] 國家測繪地理信息局.公開地圖內(nèi)容表示補充規(guī)定(試行)[EB/OL].[2009-01-23].http:∥www.sbsm.gov.cn/article/zcfg/zygfxwj/201009/20100900072392.shtml.
[7] 張敏,張立.搜索引擎優(yōu)化:技巧·策略·案例[M].北京:化學(xué)工業(yè)出版社,2012:159-161.
[8] 汪鋒,周大水.白名單主動防御系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機工程與設(shè)計,2011,32(7):2241-2243.
[9] 沈壯毫.基于白名單的Web應(yīng)用程序安全防護(hù)[J].廣州大學(xué)學(xué)報(自然科學(xué)版), 2012,11(6):27-30.
[10] 焦麗,路波. 搜索引擎優(yōu)化策略研究[J]. 生產(chǎn)力研究,2010(7): 118-119.
[11] 王文杰,史忠植.人工智能原理輔導(dǎo)與練習(xí)[M].北京:清華大學(xué)出版社,2007:250.
[12] 黃莉.詞法分析在自然語言分析處理中的地位和作用[J].價值工程,2010,29(10):157.
[13] 唐衛(wèi)東,劉存后.基于關(guān)鍵詞效能的搜索引擎優(yōu)化策略分析[J]. 現(xiàn)代情報, 2011,31(10):36-41
[14] 李福良,張輝.企業(yè)網(wǎng)站SEO技術(shù)研究[J].合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版),2004,27(1):92-96.
TheClassifiedIssuesandSolutionsofPOIinDomesticInternetMaps
ZUO Dong,ZHANG Yuxin
左棟,張雨心.國內(nèi)互聯(lián)網(wǎng)地圖POI存在的涉密問題及其解決辦法[J].測繪通報,2016(9):108-111.
10.13474/j.cnki.11-2246.2016.0306.
P28
B
0494-0911(2016)09-0108-04
2016-04-12
左 棟(1983—),男,碩士,工程師,從事互聯(lián)網(wǎng)地圖技術(shù)審查工作。E-mail:83261568@qq.com