亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用標(biāo)簽輔助地理空間數(shù)據(jù)分類(lèi)

        2022-06-06 12:58:04彭海波
        地理空間信息 2022年5期
        關(guān)鍵詞:語(yǔ)義分類(lèi)用戶(hù)

        劉 曦,彭海波,劉 莉,張 耀

        (1.湖南省第三測(cè)繪院,湖南 長(zhǎng)沙 410007)

        1 地理空間數(shù)據(jù)分類(lèi)現(xiàn)狀

        隨著信息技術(shù)的快速發(fā)展,信息資源的產(chǎn)生、存儲(chǔ)和利用方式都發(fā)生了革命性的變化[1]。地理空間數(shù)據(jù)的采集從傳統(tǒng)測(cè)繪生產(chǎn)轉(zhuǎn)變?yōu)榭仗斓匾惑w化采集。移動(dòng)互聯(lián)網(wǎng)讓眾包位置信息采集變?yōu)榭赡?,人人都成為地理空間數(shù)據(jù)的采集者。地理空間數(shù)據(jù)的來(lái)源、種類(lèi)、形式發(fā)生了翻天覆地的變化,如何對(duì)海量多源的地理空間數(shù)據(jù)進(jìn)行分類(lèi)成為一大難題。

        1.1 主流地理空間數(shù)據(jù)分類(lèi)

        地理空間數(shù)據(jù)作為一種專(zhuān)業(yè)性數(shù)據(jù),通常采用主題法進(jìn)行分類(lèi);但由于數(shù)據(jù)來(lái)源多種多樣,面向的用戶(hù)群體也不盡相同,即使是同一行業(yè)也難以統(tǒng)一分類(lèi)標(biāo)準(zhǔn)。國(guó)家地理信息公共服務(wù)平臺(tái)將地圖服務(wù)分為在線(xiàn)地圖、專(zhuān)題圖層、標(biāo)準(zhǔn)地圖等類(lèi)型,其中專(zhuān)題圖層又按照文化教育、醫(yī)療衛(wèi)生、行政區(qū)劃等20多個(gè)專(zhuān)題進(jìn)行分類(lèi)。在省級(jí)地理信息公共服務(wù)平臺(tái)中,湖北省將數(shù)據(jù)分為目錄與元數(shù)據(jù)、地理實(shí)體數(shù)據(jù)、電子地圖、三維景觀(guān)、影像數(shù)據(jù)等7大類(lèi)型[2]。全國(guó)地理信息目錄服務(wù)系統(tǒng)將涉密地理空間數(shù)據(jù)分為測(cè)量控制點(diǎn)、遙感影像、地形圖、地形地貌等類(lèi)型[3]?!吨腔鄢鞘袝r(shí)空大數(shù)據(jù)與云平臺(tái)建設(shè)技術(shù)大綱》(2017版)[4]中將地理信息時(shí)空大數(shù)據(jù)分為基礎(chǔ)地理數(shù)據(jù)、公共專(zhuān)題數(shù)據(jù)、智能感知數(shù)據(jù)、空間規(guī)劃數(shù)據(jù)等類(lèi)型。《國(guó)土空間基礎(chǔ)信息平臺(tái)建設(shè)總體方案》[5]中將國(guó)土空間基礎(chǔ)信息數(shù)據(jù)分為現(xiàn)狀數(shù)據(jù)、規(guī)劃數(shù)據(jù)、管理數(shù)據(jù)和社會(huì)經(jīng)濟(jì)數(shù)據(jù),分類(lèi)目錄如圖1所示。

        1.2 傳統(tǒng)分類(lèi)方法的缺陷

        1)數(shù)據(jù)查找困難。在傳統(tǒng)樹(shù)狀分類(lèi)體系中,用戶(hù)在使用文本搜索時(shí)要找到合適的關(guān)鍵字是非常耗時(shí)的,大多用戶(hù)并不具備找到合適關(guān)鍵字所需的知識(shí)[6],且無(wú)法預(yù)先判斷數(shù)據(jù)屬于哪一個(gè)類(lèi)型,無(wú)法獲知準(zhǔn)確的數(shù)據(jù)名稱(chēng),很難從樹(shù)狀結(jié)構(gòu)中逐層級(jí)地找到目標(biāo)數(shù)據(jù)。例如,某個(gè)用戶(hù)需要從圖1 中查找感興趣區(qū)域內(nèi)的“喀斯特地貌”分布情況,在缺少專(zhuān)業(yè)知識(shí)的情況下,無(wú)法按照“現(xiàn)狀數(shù)據(jù)—遙感測(cè)繪—地理國(guó)情監(jiān)測(cè)—矢量要素—地貌類(lèi)型單元”的順序逐級(jí)找到需要的內(nèi)容。

        2)易忽略數(shù)據(jù)的共性特征。傳統(tǒng)分類(lèi)方式一般采用樹(shù)狀結(jié)構(gòu),某項(xiàng)數(shù)據(jù)的類(lèi)型相對(duì)固定,易忽略不同節(jié)點(diǎn)下的共性特征。例如,某個(gè)用戶(hù)要從圖1 所示的目錄中找到關(guān)于某區(qū)域內(nèi)道路相關(guān)的數(shù)據(jù),則需分別從“基礎(chǔ)地理”、“地理國(guó)情監(jiān)測(cè)”、“交通規(guī)劃”,“導(dǎo)航路網(wǎng)”中尋找相關(guān)的數(shù)據(jù),而無(wú)法通過(guò)“道路”這一共性特征直接篩選出來(lái)。此外,當(dāng)用戶(hù)發(fā)現(xiàn)特定數(shù)據(jù)時(shí),通常喜歡檢索與以前發(fā)現(xiàn)的數(shù)據(jù)類(lèi)似的其他信息或有相同興趣的用戶(hù)收藏的其他數(shù)據(jù),傳統(tǒng)的方法則不能滿(mǎn)足這些需求[7]。

        圖1 國(guó)土空間基礎(chǔ)信息數(shù)據(jù)分類(lèi)示例

        3)分類(lèi)目錄調(diào)整困難。一般來(lái)說(shuō),傳統(tǒng)數(shù)據(jù)分類(lèi)目錄的制定需要經(jīng)過(guò)長(zhǎng)周期的設(shè)計(jì)和論證,一旦確定后短時(shí)間內(nèi)難以做出調(diào)整。然而,現(xiàn)實(shí)情況是信息時(shí)代下地理空間數(shù)據(jù)飛速增長(zhǎng),無(wú)法準(zhǔn)確預(yù)計(jì)即將出現(xiàn)的數(shù)據(jù)類(lèi)型并對(duì)其進(jìn)行分類(lèi)。另外,由于用戶(hù)群體知識(shí)結(jié)構(gòu)和使用需求的不同,他們對(duì)數(shù)據(jù)分類(lèi)方式的偏好也不盡相同,傳統(tǒng)分類(lèi)方式無(wú)法動(dòng)態(tài)做出調(diào)整以適應(yīng)不同用戶(hù)的需求。

        2 利用標(biāo)簽分類(lèi)

        利用標(biāo)簽分類(lèi)的方法來(lái)源于“分眾分類(lèi)法”——Folksonomy,即網(wǎng)絡(luò)社區(qū)成員共同創(chuàng)造的主題標(biāo)引系統(tǒng)。在Folksonomy中,人們可自由選擇標(biāo)簽來(lái)描述某個(gè)資源,而不必預(yù)先定義一個(gè)資源分類(lèi)體系[8]。Folkson?omy是Web2.0時(shí)代的產(chǎn)物,是一種用戶(hù)自發(fā)定義的平面型非層級(jí)結(jié)構(gòu)式分類(lèi)方法,用戶(hù)無(wú)需依賴(lài)某專(zhuān)業(yè)領(lǐng)域的先驗(yàn)知識(shí)和專(zhuān)業(yè)詞匯即可參與資源分類(lèi),具有開(kāi)放性、靈活性、友好性等特點(diǎn)。國(guó)內(nèi)對(duì)于標(biāo)簽尚且沒(méi)有嚴(yán)格的定義,為方便討論本文將各類(lèi)不同的標(biāo)簽概括為大眾標(biāo)簽、專(zhuān)家標(biāo)簽、系統(tǒng)標(biāo)簽3 類(lèi),并分別進(jìn)行分析。

        2.1 大眾標(biāo)簽

        大眾標(biāo)簽是指由所有用戶(hù)共同參與標(biāo)注而形成的標(biāo)簽,也被稱(chēng)為社會(huì)化標(biāo)簽。單個(gè)用戶(hù)標(biāo)簽也許是毫無(wú)規(guī)律的,但當(dāng)用戶(hù)數(shù)量足夠大時(shí),總有一部分標(biāo)簽?zāi)艿玫酱蠖鄶?shù)人的認(rèn)可[9]。以豆瓣讀書(shū)為例,它允許每個(gè)用戶(hù)為自己喜愛(ài)的書(shū)籍添加標(biāo)簽,系統(tǒng)將按照熱度對(duì)標(biāo)簽排序,然后按順序展示最受歡迎的若干個(gè)熱門(mén)標(biāo)簽。豆瓣讀書(shū)標(biāo)簽分為文學(xué)、文化、流行、生活等類(lèi)型,其中文學(xué)的熱門(mén)標(biāo)簽為小說(shuō)、隨筆、散文、詩(shī)歌、童話(huà),流行的熱門(mén)標(biāo)簽為漫畫(huà)、推理、青春、科幻、武俠,文化的熱門(mén)標(biāo)簽為歷史、哲學(xué)、傳記、設(shè)計(jì)、電影,生活的熱門(mén)標(biāo)簽為旅行、勵(lì)志、教育、職場(chǎng)、美食。大眾標(biāo)簽通俗易懂,很容易被用戶(hù)接受,且靈活性較強(qiáng);但由于眾多用戶(hù)參與易導(dǎo)致標(biāo)簽過(guò)于隨意而不規(guī)范,數(shù)據(jù)過(guò)于稀疏,易產(chǎn)生同義詞、模糊詞匯等大量冗余的“垃圾標(biāo)簽”,不利于管理。

        2.2 專(zhuān)家標(biāo)簽

        與大眾標(biāo)簽不同,專(zhuān)家標(biāo)簽是由系統(tǒng)指定的部分“領(lǐng)域?qū)<摇眳⑴c創(chuàng)建的標(biāo)簽,彌補(bǔ)了普通用戶(hù)標(biāo)注導(dǎo)致的分類(lèi)系統(tǒng)專(zhuān)業(yè)性不足的問(wèn)題。參考文獻(xiàn)[10]將大眾標(biāo)簽與專(zhuān)家標(biāo)簽相結(jié)合,提出了一種大眾與專(zhuān)家協(xié)作標(biāo)注的民族服飾語(yǔ)義標(biāo)簽體系,提高了標(biāo)簽語(yǔ)義的合理性和精準(zhǔn)性。對(duì)于地理空間數(shù)據(jù),大部分內(nèi)容專(zhuān)業(yè)性較強(qiáng),缺乏專(zhuān)業(yè)指導(dǎo)易產(chǎn)生理解分歧,引入專(zhuān)家標(biāo)簽是有必要的。以常見(jiàn)的遙感影像數(shù)據(jù)為例,一般大眾會(huì)稱(chēng)之為“影像”或“衛(wèi)星影像”、“航拍圖”;而事實(shí)上能直接共享使用的影像數(shù)據(jù)主要是“數(shù)字正射影像”,而“衛(wèi)星影像”和“航空影像”是指未經(jīng)正射糾正的原始影像數(shù)據(jù),并不適合直接使用。

        2.3 系統(tǒng)標(biāo)簽

        系統(tǒng)標(biāo)簽可視為非監(jiān)督分類(lèi)的結(jié)果,是系統(tǒng)依據(jù)一定的規(guī)律自動(dòng)生成的標(biāo)簽,也可稱(chēng)為自動(dòng)化標(biāo)注。自動(dòng)化標(biāo)注的方法較多,其中基于文本內(nèi)容的標(biāo)簽推薦是一種簡(jiǎn)單有效的方法,通常先計(jì)算文本內(nèi)容的TF-IDF值[9],再按權(quán)重提取標(biāo)簽。該方法的主要思想是若某個(gè)詞語(yǔ)在目標(biāo)文檔中出現(xiàn)的頻率值TF 高,并在其他文檔中很少出現(xiàn),則認(rèn)為該詞語(yǔ)具有很好的類(lèi)別區(qū)分能力,適用于分類(lèi)。對(duì)于詞語(yǔ)i 在文檔 j 中的TF-IDF值,其表達(dá)式為:

        式中,tfi,j為詞語(yǔ)i 在文檔 j 中出現(xiàn)的頻率; N 為總文檔數(shù)目;dfi為包含詞語(yǔ)i 的文檔數(shù)目。

        除此之外,系統(tǒng)標(biāo)簽還包括由用戶(hù)信息或用戶(hù)行為等方式產(chǎn)生的標(biāo)簽。以淘寶網(wǎng)為例,淘寶賣(mài)家上架全新的商品時(shí),會(huì)被標(biāo)記為新品,能夠得到一定的扶持;平臺(tái)還會(huì)針對(duì)買(mǎi)家的消費(fèi)行為或個(gè)人信息添加不同的人群標(biāo)簽,為不同的人群推薦不同的商品[11]。這種方式充分利用了大數(shù)據(jù)和深度學(xué)習(xí)等技術(shù),是目前主流的網(wǎng)絡(luò)信息資源分類(lèi)研究方向,但開(kāi)發(fā)和運(yùn)維難度較大。

        3 應(yīng)用實(shí)例

        湖南省地理空間數(shù)據(jù)交換共享平臺(tái)是依據(jù)《湖南省地理空間數(shù)據(jù)管理辦法》[12]建立的地理空間數(shù)據(jù)共享平臺(tái)。為了管理不同部門(mén)、不同類(lèi)型的數(shù)據(jù),平臺(tái)在已有數(shù)據(jù)目錄的基礎(chǔ)上,采用了利用標(biāo)簽對(duì)多源地理空間數(shù)據(jù)進(jìn)行分類(lèi)的方法。考慮到地理空間數(shù)據(jù)的專(zhuān)業(yè)性,平臺(tái)采用語(yǔ)義分析與專(zhuān)家干預(yù)相結(jié)合的方式提取分類(lèi)標(biāo)簽,具體流程如圖2所示。

        圖2 標(biāo)簽提取流程圖

        1)語(yǔ)義分析。語(yǔ)義分析的方法較多,本文基于第三方自然語(yǔ)言處理庫(kù)——Jieba進(jìn)行實(shí)驗(yàn),將數(shù)據(jù)文本作為語(yǔ)義分析的基本單元,主要包括數(shù)據(jù)名稱(chēng)和數(shù)據(jù)描述等內(nèi)容。選用Jieba精確模式,在不添加專(zhuān)業(yè)詞典的情況下,不同行業(yè)的地理空間數(shù)據(jù)名稱(chēng)分詞結(jié)果如表1所示,可以看出,Jieba精確模式針對(duì)常用詞匯已基本可以滿(mǎn)足要求,如“土壤重金屬污染普查”被分為“土壤”、“重金屬”、“污染”、“普查”4 個(gè)詞匯,均可反映該數(shù)據(jù)的某項(xiàng)特征;但“地理國(guó)情監(jiān)測(cè)”作為一個(gè)專(zhuān)業(yè)術(shù)語(yǔ),被分為了“地理”、“國(guó)情”、“監(jiān)測(cè)”3 個(gè)詞匯,“地震臺(tái)網(wǎng)”被分為了“地震”和“臺(tái)網(wǎng)”兩個(gè)詞匯,因此建立一個(gè)專(zhuān)業(yè)詞典用于改善分析結(jié)果是有必要的。

        表1 數(shù)據(jù)名稱(chēng)分詞結(jié)果

        2) 關(guān)鍵詞提取。本文通過(guò)計(jì)算每個(gè)詞語(yǔ)的TF-IDF值提取關(guān)鍵詞,如對(duì)名稱(chēng)“土地綜合整治與耕地保護(hù)”進(jìn)行處理后,得到的結(jié)果如表2 所示,其中“整治”和“耕地”兩個(gè)標(biāo)簽的TF-IDF值明顯高于其他詞匯,表明它們可以更好地反映該數(shù)據(jù)的特征,適用于分類(lèi)。

        表2 TF-IDF值結(jié)果示例

        3)標(biāo)簽清洗。在通過(guò)語(yǔ)義分析提取出短語(yǔ)集后,仍存在部分冗余的標(biāo)簽,需進(jìn)一步進(jìn)行清洗。事實(shí)上,由于標(biāo)簽是反映數(shù)據(jù)特征的,標(biāo)簽名稱(chēng)很有可能會(huì)與數(shù)據(jù)目錄分類(lèi)名稱(chēng)相同,如“地理國(guó)情”標(biāo)簽原本就是數(shù)據(jù)目錄中的一個(gè)類(lèi)型。為了減少該類(lèi)情況,本文將語(yǔ)義分析提取出的短語(yǔ)集與數(shù)據(jù)目錄進(jìn)行對(duì)比,若語(yǔ)義相同或相似,則排除該詞匯,從而達(dá)到清洗標(biāo)簽的目的。

        4)專(zhuān)家干預(yù)。專(zhuān)家干預(yù)一般分為兩種情形:①通過(guò)語(yǔ)義分析無(wú)法提取關(guān)鍵詞,但具有明顯的分類(lèi)特征的標(biāo)簽需要由專(zhuān)家添加,以“長(zhǎng)株潭綠心區(qū)”為例[13],當(dāng)缺乏詳細(xì)文本描述時(shí),利用語(yǔ)義分析只能提取出“長(zhǎng)株潭”和“綠心區(qū)”兩個(gè)標(biāo)簽,但事實(shí)上該數(shù)據(jù)具有規(guī)劃和環(huán)保的特征,需要由專(zhuān)家進(jìn)行添加;②當(dāng)語(yǔ)義分析結(jié)果與標(biāo)簽庫(kù)中已有的標(biāo)簽相似時(shí),系統(tǒng)將推薦由專(zhuān)家對(duì)這些標(biāo)簽進(jìn)行篩選。專(zhuān)家干預(yù)不是必須的選項(xiàng),干預(yù)程度也可依據(jù)應(yīng)用場(chǎng)景進(jìn)行調(diào)整。

        本文從湖南省地理空間數(shù)據(jù)交換共享平臺(tái)中抽取了128 項(xiàng)地理空間數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。首先利用語(yǔ)義分析提取標(biāo)簽,再按照標(biāo)簽出現(xiàn)的頻率進(jìn)行排序,排名前10位的標(biāo)簽如表3所示,其中包含“監(jiān)測(cè)”標(biāo)簽的數(shù)據(jù)包括地理國(guó)情監(jiān)測(cè)、土地利用監(jiān)測(cè)、耕地質(zhì)量監(jiān)測(cè)、地震臺(tái)網(wǎng)監(jiān)測(cè)等;包含“規(guī)劃”標(biāo)簽的數(shù)據(jù)包括主體功能區(qū)規(guī)劃、土地利用規(guī)劃、土地整治規(guī)劃、礦產(chǎn)資源規(guī)劃、地質(zhì)災(zāi)害防治規(guī)劃、交通路網(wǎng)規(guī)劃等。由此可見(jiàn),各類(lèi)數(shù)據(jù)原本分屬于不同的行業(yè)部門(mén),因具有“監(jiān)測(cè)”、“規(guī)劃”的共性特征而被劃分為同一類(lèi)型,有助于數(shù)據(jù)共享。

        表3 地理空間數(shù)據(jù)交換共享平臺(tái)標(biāo)簽頻率

        4 結(jié) 語(yǔ)

        針對(duì)地理空間數(shù)據(jù)分類(lèi)面臨的問(wèn)題,本文提出了一種利用標(biāo)簽分類(lèi)的方法。實(shí)驗(yàn)表明,該方法簡(jiǎn)單有效,能彌補(bǔ)傳統(tǒng)分類(lèi)目錄的缺陷。在現(xiàn)實(shí)情況中,地理空間數(shù)據(jù)分類(lèi)的需求千差萬(wàn)別,應(yīng)針對(duì)具體情況選用合適的標(biāo)簽分類(lèi)方法,以適應(yīng)不同的應(yīng)用場(chǎng)景。

        猜你喜歡
        語(yǔ)義分類(lèi)用戶(hù)
        分類(lèi)算一算
        語(yǔ)言與語(yǔ)義
        分類(lèi)討論求坐標(biāo)
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        關(guān)注用戶(hù)
        關(guān)注用戶(hù)
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        關(guān)注用戶(hù)
        認(rèn)知范疇模糊與語(yǔ)義模糊
        国产亚洲欧美在线观看的| 手机在线看片| 欧美人做人爱a全程免费 | 日韩无码视频淫乱| 亚洲AV专区一专区二专区三| 一本久道久久丁香狠狠躁| 中国午夜伦理片| 亚洲综合av在线在线播放| 在线观看av片永久免费| av网站国产主播在线| 久久婷婷五月国产色综合| 破了亲妺妺的处免费视频国产| 无码视频一区二区三区在线播放| 精品久久一区二区三区av制服| 偷看农村妇女牲交| 八戒网站免费观看视频| 精品三级久久久久久久| 你懂的视频在线看播放| 18禁黄网站禁片免费观看女女 | av一区二区三区亚洲| 色婷婷久久综合中文久久一本| 亚洲日韩精品a∨片无码加勒比| 中文字幕乱码人妻一区二区三区 | 国产啪精品视频网站| 久久精品国产热久久精品国产亚洲| 有码视频一区二区三区| 亚洲国产aⅴ成人精品无吗| 亚洲天堂2017无码中文| 国产优质女主播在线观看| 日韩一区av二区三区| 人人爽久久涩噜噜噜av| 久久精品一品道久久精品9| 亚洲中文字幕第一页免费| 国产播放隔着超薄丝袜进入| 中文字幕 人妻熟女| 女人被躁到高潮嗷嗷叫| 亚洲精品一区二区三区52p| 闺蜜张开腿让我爽了一夜| 9久久精品视香蕉蕉| av在线一区二区精品| 好男人社区影院www|