王 思,王光霞,田江鵬
信息工程大學(xué)地理空間信息學(xué)院,河南 鄭州 450052
信息分類是人類思維所固有的一種活動(dòng),是人們?nèi)粘I钪杏靡哉J(rèn)識(shí)、區(qū)別和判斷事物的一種邏輯方法[1]。人們通過(guò)對(duì)現(xiàn)有的信息和知識(shí)的提取、組織、分類和管理之后才能對(duì)信息進(jìn)行有效的認(rèn)識(shí)和使用。地圖學(xué)和GIS中,地理信息按照一定的原則和方法進(jìn)行分類和編碼,建立了特定的通用或?qū)S玫乩硇畔⒎诸愺w系,以便于地理信息的存儲(chǔ)、檢索、管理、分析與共享。地理信息分類是地理數(shù)據(jù)得以綜合分析和共享利用的重要基礎(chǔ)。
在ICT和大數(shù)據(jù)技術(shù)的推動(dòng)下,地圖學(xué)發(fā)展迎來(lái)了空前的機(jī)遇與挑戰(zhàn)[2-3]。伴隨著信息量的急劇增長(zhǎng),地理信息逐漸表現(xiàn)出實(shí)時(shí)性強(qiáng)、空間覆蓋面廣、來(lái)源多、體量大、復(fù)雜度高、碎片化和不確定性等特點(diǎn),呈現(xiàn)出“時(shí)空泛在”[4]的新質(zhì)特征。地圖作為表達(dá)和傳輸?shù)乩硇畔⒌闹匾ぞ?,也開(kāi)始呈現(xiàn)“泛在化”的發(fā)展趨勢(shì)[5-6]。與傳統(tǒng)地圖類似,泛在地圖可認(rèn)為是在地圖投影、制圖綜合和地圖可視化支撐下對(duì)地理對(duì)象、現(xiàn)象、過(guò)程等從現(xiàn)實(shí)空間到地圖空間的映射[7],具備傳輸和表達(dá)地理信息的功能[2]。所不同的是,泛在地圖對(duì)傳統(tǒng)地圖進(jìn)行了進(jìn)一步的拓展,表現(xiàn)出更加包羅萬(wàn)象的內(nèi)涵和特征。特別是在時(shí)空大數(shù)據(jù)[3]的背景下,更加強(qiáng)調(diào)其信息價(jià)值大、復(fù)雜但稀疏[8]、實(shí)時(shí)性強(qiáng)等特點(diǎn)。因而,如何在信息層面抽象泛在地圖的本質(zhì)特征,抓取泛在地圖的信息維度,實(shí)現(xiàn)泛在地圖信息的科學(xué)分類和管理,已經(jīng)成為地圖學(xué)面向泛在化發(fā)展而衍生的新問(wèn)題。
構(gòu)建泛在地圖信息的分類體系,旨在為如何認(rèn)識(shí)和理解泛在地圖,以及如何管理和使用泛在地圖提供依據(jù)與規(guī)范。泛在地圖信息的大數(shù)據(jù)特點(diǎn)使得其難以直接套用傳統(tǒng)地理信息分類方法,需要對(duì)泛在地圖信息的特征、分類模型等基本問(wèn)題進(jìn)行重新思考。針對(duì)這一需求,本文提出一種面向位置聚合的泛在地圖分類模型,希冀以此來(lái)探究泛在地圖的信息維度本征。
地理信息分類在一定時(shí)期內(nèi)已經(jīng)形成了相對(duì)穩(wěn)定的多級(jí)分類標(biāo)志體系和模型[9],并作為一種概念模型長(zhǎng)期以來(lái)支撐了地圖和GIS的發(fā)展。傳統(tǒng)地理信息分類主要依托專家的知識(shí)和經(jīng)驗(yàn)構(gòu)建地理信息分類的原則、方法和標(biāo)準(zhǔn)規(guī)范,采用規(guī)范的術(shù)語(yǔ)和清晰的層級(jí)關(guān)系描述地理要素,屬于專家分類法(taxonomy)的范疇。在諸如《GB/T13923—2006基礎(chǔ)地理信息要素分類與代碼》等標(biāo)準(zhǔn)形成之后,分類問(wèn)題逐漸面向語(yǔ)義一致性方向發(fā)展,出現(xiàn)了基于本體的地理信息分類[10-11]和基于形式語(yǔ)義的地理信息分類[12]等研究,旨在達(dá)成不同領(lǐng)域分類體系之間的共享與互操作。從廣義的信息學(xué)視角來(lái)看,地理信息分類可認(rèn)為是信息分類的一個(gè)具例,但將地理信息分類與信息學(xué)分類進(jìn)行比較分析,可以發(fā)現(xiàn)地理信息分類存在下述不足:
(1) 面向網(wǎng)絡(luò)地理信息資源的分類研究不足。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,帶有時(shí)空標(biāo)識(shí)的泛在網(wǎng)絡(luò)資源已經(jīng)將地理信息由傳統(tǒng)的地理空間全面擴(kuò)展至社會(huì)人文空間,物理域到認(rèn)知域的擴(kuò)展使得專家分類法難以適應(yīng)。突破分類受控詞只能由專家產(chǎn)生的限制,基于用戶協(xié)作式創(chuàng)建的標(biāo)簽實(shí)現(xiàn)網(wǎng)絡(luò)資源分類的大眾分類法(folksonomy)[13],成為海量網(wǎng)絡(luò)信息快速分類的主流方法。雖然Web地圖學(xué)和WebGIS已經(jīng)取得長(zhǎng)足的進(jìn)步,但本質(zhì)上仍沿用的是傳統(tǒng)地圖信息的分類模型,缺乏真正面向網(wǎng)絡(luò)信息資源的地圖信息分類模型與方法的研究。
(2) 缺乏兼容人機(jī)各自優(yōu)勢(shì)的分類模型設(shè)計(jì)。大眾分類法依賴于機(jī)器學(xué)習(xí)的自動(dòng)分類或者帶有專家驗(yàn)證的自動(dòng)分類。而機(jī)器分類通常有兩類任務(wù):①構(gòu)建特定的類別層次;②指定待分類對(duì)象在類別層次中所屬的類別[14]。這些任務(wù)的實(shí)現(xiàn)均依賴于算法抽取的特征。例如,ImageNet借助于圖像的特征標(biāo)注,已經(jīng)給出了涉及地圖在內(nèi)的不同領(lǐng)域的圖像數(shù)據(jù)分類方案[15]。然而,算法語(yǔ)義與人類語(yǔ)義之間存在鴻溝,機(jī)器分類算法獲得的類別層次和分類效果與人的分類結(jié)果之間存在一定的差異性。這一問(wèn)題雖然已經(jīng)得到部分學(xué)者的關(guān)注,例如文獻(xiàn)[16]將影像光譜特征語(yǔ)義詞匯與地圖要素分類體系進(jìn)行結(jié)合的研究,但總體上仍缺乏兼容人機(jī)各自優(yōu)勢(shì)的分類模型的設(shè)計(jì)。
(1) 泛在地圖信息:泛在信息的一種類型。泛在信息通常表現(xiàn)為文本、圖表、圖像、音頻、視頻和地圖等模態(tài),泛在地圖信息即以泛地圖[6]形式而存在的信息類型。泛在地圖信息也是專題地圖信息的一種,存在于泛在網(wǎng)絡(luò)中用以表示自然和社會(huì)人文環(huán)境要素的地圖,包括專題內(nèi)容要素、表示方式和地圖說(shuō)明信息。
(2) 位置:特指一種擴(kuò)展的“位置”概念。地圖信息整體上可分為時(shí)間、空間和屬性[3]3個(gè)維度,傳統(tǒng)上的位置是指空間中的坐標(biāo)或區(qū)域。在時(shí)空大數(shù)據(jù)背景下,單純以空間位置為基本框架來(lái)組織和關(guān)聯(lián)信息,并不能完全滿足全息制圖和表達(dá)[17]的需求。位置需由空間維擴(kuò)展到時(shí)間維和語(yǔ)義維,突破笛卡兒幾何空間至多要素相統(tǒng)一的高維語(yǔ)義空間,形成時(shí)空和語(yǔ)義為整體的描述能力。對(duì)位置進(jìn)行拓展后,尤其到語(yǔ)義維,能夠突破傳統(tǒng)位置計(jì)算的“幾何算法”屬性,可衍化出時(shí)間位置、空間位置和語(yǔ)義位置[18]等更為細(xì)致的位置分類,共同支撐高維語(yǔ)義空間中的概念、實(shí)體及其關(guān)系的結(jié)構(gòu)化描述。
(3) 位置聚合:面向時(shí)空泛在信息的信息聚合[19-20]模式。泛在信息的復(fù)雜稀疏性特點(diǎn),與越來(lái)越精準(zhǔn)化、個(gè)性化的用戶需求之間形成了矛盾。為解決這一問(wèn)題,一方面可通過(guò)對(duì)離散分布、異構(gòu)無(wú)序的多類型“信息碎片”進(jìn)行篩選、關(guān)聯(lián)、組織、匯集與呈現(xiàn)[21];另一方面,可采用擴(kuò)展的位置為框架組織和關(guān)聯(lián)信息,以全面反映位置本身及其相關(guān)的事物或事件的各種屬性。因此,位置聚合是一種以時(shí)空泛在信息為對(duì)象,以位置為框架關(guān)聯(lián)信息碎片,以構(gòu)建專題化地理場(chǎng)景[22]為目標(biāo)的時(shí)空泛在信息應(yīng)用新模式。
(4) 分類模型:特指用于指導(dǎo)泛在地圖信息分類的理論模型。分類的兩類主要任務(wù)[14],使得當(dāng)前存在構(gòu)建類別層次的分類模型和對(duì)象類別劃分的分類模型;同時(shí),由于研究的層次需求,存在理論模型、數(shù)據(jù)模型和算法模型等區(qū)別。本文瞄準(zhǔn)地理信息分類研究中存在的兩點(diǎn)不足,面向位置聚合應(yīng)用需求,試圖從理論的層次探討泛在地圖信息的分類問(wèn)題,因此分類模型是一種側(cè)重類別層次建模(即泛在地圖信息分類分級(jí))的理論模型。
泛在地圖信息分類既需要延續(xù)傳統(tǒng)地理信息分類的一般原則和要求,也需要顧及泛在地圖的信息維度特征。歸納起來(lái),需要滿足下述需求:①支撐位置聚合應(yīng)用——分類模型旨在建立泛在地圖信息的層級(jí)化組織結(jié)構(gòu),實(shí)現(xiàn)泛在地圖信息作為一種“大數(shù)據(jù)”的管理,進(jìn)而為位置聚合提供信息索引作用;②揭示微內(nèi)容——泛在地圖信息的稀疏性特點(diǎn),使得有效揭示和描述其中蘊(yùn)含的“細(xì)粒度”信息碎片成為突出需求,因此其分類應(yīng)有助于信息碎片的描述;③符合認(rèn)知結(jié)構(gòu)——泛在地圖信息分類分級(jí)結(jié)構(gòu)中,類別之間應(yīng)有明確、規(guī)范和清晰的語(yǔ)義關(guān)系,符合人們對(duì)地理事物的認(rèn)知結(jié)構(gòu);④自動(dòng)化分類能力——傳統(tǒng)地理信息分類方案制定和分類實(shí)施均由人完成,費(fèi)時(shí)費(fèi)力且更新升級(jí)周期長(zhǎng),泛在地圖信息分類需要一種數(shù)據(jù)驅(qū)動(dòng)、自由靈活、快速迭代的自動(dòng)化分類方法。
泛在地圖信息分類需求,決定了其分類需要從模型和方法上進(jìn)行改進(jìn)和創(chuàng)新?;诂F(xiàn)有的研究成果,本文的試圖從以下兩個(gè)方面進(jìn)行改進(jìn):
2.2.1 結(jié)合專家分類法和大眾分類法的各自優(yōu)點(diǎn)
專家分類法可以認(rèn)為是自頂向下的分類模式,而大眾分類法則是立足資源標(biāo)注的自下而上的分類模式,二者各具優(yōu)劣,具有互補(bǔ)融合的特點(diǎn)[23]。泛在地圖信息分類不僅需要延續(xù)傳統(tǒng)地理信息分類的層級(jí)化結(jié)構(gòu)、使用受控詞描述層級(jí)語(yǔ)義、符合人的認(rèn)知習(xí)慣等優(yōu)點(diǎn),也需要吸納網(wǎng)絡(luò)信息資源分類的細(xì)粒度語(yǔ)義描述、成本低、周期短、自動(dòng)化程度高等優(yōu)點(diǎn)。表1展示了泛在地圖信息分類的具體特點(diǎn)。
表1 泛在地圖信息分類需融合傳統(tǒng)地理信息分類和網(wǎng)絡(luò)信息資源分類的各自優(yōu)點(diǎn)
2.2.2 耦合認(rèn)知規(guī)律和數(shù)據(jù)驅(qū)動(dòng)的模型設(shè)計(jì)
人工分類和機(jī)器分類有著各自的優(yōu)點(diǎn),人類自古以來(lái)就進(jìn)化出對(duì)環(huán)境事物的抽象和分類的能力,能夠輕松完成概念化、關(guān)系推理和模式識(shí)別等任務(wù),而機(jī)器則擅長(zhǎng)于快速、高精度的數(shù)據(jù)處理。因此,較為可行的路線是設(shè)計(jì)耦合人機(jī)各自優(yōu)勢(shì)的分類模型,即一方面自上而下,擴(kuò)展經(jīng)典地理信息分類中細(xì)粒度語(yǔ)義信息的描述能力;另一方面則是自下而上,基于現(xiàn)有機(jī)器分類模型在數(shù)據(jù)和特征層面的算力,拓展其在概念、語(yǔ)義和知識(shí)層面的建模能力。
這種設(shè)計(jì)理念本質(zhì)上符合“視覺(jué)序列→視覺(jué)描述?知識(shí)模式?認(rèn)知表達(dá)”這一人類理解地圖的認(rèn)知原理[24],也是縮短算法語(yǔ)義與人類語(yǔ)義之間的鴻溝的有益嘗試。因此,耦合人機(jī)各自優(yōu)勢(shì)的分類模型,就是將之前全部由人類認(rèn)知系統(tǒng)完成的工作,現(xiàn)在部分交由機(jī)器去完成——將泛在地圖的數(shù)據(jù)組織管理、特征抽取、聚類分析等工作交由算法去實(shí)現(xiàn),而人則是在概念術(shù)語(yǔ)、分類模式、知識(shí)推理等更高層次進(jìn)行約束。
基于上述設(shè)計(jì)理念,本文提出了由“實(shí)例層→特征層?維度層?主題層”4個(gè)層次構(gòu)成的泛在地圖信息分類模型,如圖1所示。
圖1 面向位置聚合的泛在地圖信息分類模型Fig.1 Classification model of ubiquitous map information facing location-based aggregation
2.3.1 實(shí)例層
實(shí)例層涵蓋了不同類型的泛在地圖實(shí)例,是分類的數(shù)據(jù)基礎(chǔ)。根據(jù)地圖的“泛化”程度,可以將標(biāo)準(zhǔn)地圖、矢量地圖、影像地圖、專題地圖和意象地圖(例如旅游心象地圖)等實(shí)例納入泛在地圖的分類范圍之內(nèi)。
2.3.2 特征層
特征層描述了能夠從泛在地圖中抽取的信息碎片的類型和值。泛在地圖的構(gòu)成和形式較為靈活多樣,圖名、圖例和要素內(nèi)容等構(gòu)成元素均可能存在缺省情況,因此特征層的核心任務(wù)是建立泛在地圖特征系統(tǒng),以支撐不同類型泛在地圖的統(tǒng)一特征抽取與要素描述。借鑒適用于描述復(fù)雜地理數(shù)據(jù)的地理信息六要素[25]理念,結(jié)合泛在地圖自身特點(diǎn),本文從內(nèi)容特征、結(jié)構(gòu)特征和關(guān)系特征3個(gè)方面構(gòu)建泛在地圖的特征系統(tǒng)。①內(nèi)容特征——側(cè)重描述地圖中所表達(dá)的信息,例如地理對(duì)象或現(xiàn)象發(fā)生的時(shí)間和空間節(jié)點(diǎn)(時(shí)間定位、空間定位),地理對(duì)象的組成和演化結(jié)構(gòu)(幾何形態(tài)),地理對(duì)象和現(xiàn)象的固有屬性(屬性特征)、地理現(xiàn)象的發(fā)生與演化(演化過(guò)程)以及基于人類認(rèn)知的地理特征(語(yǔ)義描述)。②結(jié)構(gòu)特征——側(cè)重描述地圖的元數(shù)據(jù)或幅面構(gòu)成,例如圖名、副圖名、出版單位、出版時(shí)間、圖廓等,可以抽象地概括為圖幅、布局、模式、圖層、圖例等部分。③關(guān)系特征——側(cè)重描述特征之間存在的定性或定量的關(guān)系。泛在地圖需要顯式地抽取和描述這些基本關(guān)系,并作為特征記錄下來(lái),例如時(shí)序關(guān)系(例如正序、逆序、插序)、拓?fù)潢P(guān)系(例如九元組模型)、語(yǔ)義關(guān)系(例如部分整體關(guān)系、上下義關(guān)系)、尺度關(guān)系和因果關(guān)系等。
2.3.3 維度層
借鑒文獻(xiàn)[6]的觀點(diǎn),在分類層級(jí)系統(tǒng)中,一個(gè)維度實(shí)質(zhì)上就是它的一個(gè)側(cè)面,同一維度下的具體維度值形成了視角面,不同維度值按照一定規(guī)則關(guān)聯(lián)并疊加組合構(gòu)成了泛在地圖信息的一個(gè)種類。因此,維度是泛在地圖信息的基本量,一個(gè)維度實(shí)際上代表了信息特征的一個(gè)側(cè)面,能夠使用不同細(xì)化程度的特征予以表示。鑒于泛在地圖信息的社會(huì)屬性和大數(shù)據(jù)特點(diǎn),由時(shí)空信息X和屬性信息Z構(gòu)成最簡(jiǎn)二元組〈X,Z〉的地理信息描述范式[26],已經(jīng)難以覆蓋泛在信息范疇。因此,引入社會(huì)學(xué)領(lǐng)域信息分類[27]思想,并借鑒場(chǎng)景學(xué)[22]理論,宏觀上將泛在信息劃分為時(shí)間維、地點(diǎn)維、人物維、事物維、事件維和現(xiàn)象維6個(gè)維度。信息維度的劃分來(lái)源于社會(huì)學(xué)的歸納,在認(rèn)知層面界定了地圖信息的不同歸屬,是信息層面的范疇劃定,理論上任何粒度或類型的泛在地圖信息均可以劃分到此6個(gè)信息維度之中。
信息維度的劃分,為不同特征值提供了類型標(biāo)注,形成了〈特征,維度〉最簡(jiǎn)二元標(biāo)注單位。分類分級(jí)體系通常是一個(gè)層次化、結(jié)構(gòu)化的多維層級(jí)系統(tǒng)。因此以〈特征,維度〉標(biāo)注單位為基本信息單元構(gòu)建泛在地圖信息分類分級(jí),具有以下優(yōu)勢(shì)。一是最簡(jiǎn)二元標(biāo)注單位能夠讓分類分級(jí)體系具備多維特征描述特點(diǎn),這是實(shí)現(xiàn)由特征數(shù)據(jù)(算法語(yǔ)義)到分類分級(jí)(人類語(yǔ)義)之間銜接的關(guān)鍵。二是采用最簡(jiǎn)二元標(biāo)注單位標(biāo)注的泛在地圖信息,能夠與擴(kuò)展的位置(時(shí)間位置、空間位置和語(yǔ)義位置等)之間產(chǎn)生深層次的關(guān)聯(lián)性:時(shí)間維信息與時(shí)間位置是同質(zhì)的,地點(diǎn)維信息和空間位置是同質(zhì)的,人物維、事物維、事件維和現(xiàn)象維信息適宜于使用語(yǔ)義位置進(jìn)行關(guān)聯(lián),這種關(guān)聯(lián)性是實(shí)現(xiàn)信息和位置之間進(jìn)行關(guān)聯(lián)和聚合計(jì)算的基礎(chǔ)。
基于信息維度,可通過(guò)設(shè)置不同分類模式、分類結(jié)構(gòu)參數(shù)等構(gòu)建泛在地圖信息的分類分級(jí)體系。分類分級(jí)體系包含了譜系、模式(schema)和特征等部分。譜系體現(xiàn)了層級(jí)化結(jié)構(gòu),模式體現(xiàn)了受控詞和信息維度之間的關(guān)聯(lián)關(guān)系,而特征則映射了細(xì)粒度地圖信息內(nèi)容。
2.3.4 主題層
主題層描述了面向不同聚合主題的分類需求,例如按照時(shí)間序列、空間分布、事件過(guò)程、演化規(guī)律等主題進(jìn)行分類。
概括而言,該模型立足泛在地圖信息自身特點(diǎn),以不同的位置聚合主題為牽引,通過(guò)對(duì)地圖實(shí)例中抽取的信息碎片進(jìn)行信息維度分析和聚類,構(gòu)建數(shù)據(jù)驅(qū)動(dòng)、全面系統(tǒng)、精確合理的泛在地圖信息分類分級(jí)體系,為實(shí)現(xiàn)海量、多源異構(gòu)泛在地圖的管理、聚類和分析等提供認(rèn)知結(jié)構(gòu)保證。本質(zhì)上,該分類模型將傳統(tǒng)地理信息分類的“實(shí)例→維度?主題”模式擴(kuò)展為“實(shí)例→特征?維度?主題”模式,特征層的擴(kuò)展為機(jī)器提供了細(xì)粒度語(yǔ)義信息的描述能力,同時(shí)也能夠保持經(jīng)典地理信息分類模型的層級(jí)化認(rèn)知結(jié)構(gòu),這種擴(kuò)展是滿足泛在地圖信息分類需求的根本原因。
為了驗(yàn)證泛在地圖信息分類模型,本文設(shè)計(jì)并實(shí)現(xiàn)了一種泛在地圖信息分類建模方法,技術(shù)路線如下:①輸入泛在地圖數(shù)據(jù)集;②主題特征標(biāo)注——面向位置聚合主題需求,以〈特征,維度〉為基本單元抽取泛在地圖中的特征信息并標(biāo)注信息維度;③特征頻率矩陣構(gòu)建——將不同信息維度的非結(jié)構(gòu)化特征數(shù)據(jù)映射到統(tǒng)一的向量空間中;④層次聚類——基于特征頻率矩陣進(jìn)行層次聚類計(jì)算,建立泛在地圖信息分類分級(jí)體系;⑤輸出分類分級(jí)體系。
3.1.1 主題特征標(biāo)注
主題特征標(biāo)注旨在從泛在地圖中抽取出與位置聚合主題相關(guān)的特征信息,側(cè)重解決兩個(gè)問(wèn)題:
(1) 特征描述框架,即抽取和標(biāo)注哪些信息。根據(jù)分類模型,為了實(shí)現(xiàn)非結(jié)構(gòu)化泛在地圖的統(tǒng)一解構(gòu),可從特征系統(tǒng)和信息維度兩個(gè)方面建立泛在地圖特征描述框架,并抽取獲得〈特征,維度〉基本標(biāo)注單元。以圖2所示的“薔薇”臺(tái)風(fēng)路徑概率預(yù)報(bào)圖的標(biāo)注為例。該圖的結(jié)構(gòu)包括圖名、附圖名、出版單位、發(fā)布時(shí)間和圖例等,不同的結(jié)構(gòu)可以抽取不同的特征,例如在圖名結(jié)構(gòu)中可以抽取得到〈今年,時(shí)間維〉、〈未來(lái)48 h,時(shí)間維〉、〈“薔薇”臺(tái)風(fēng),事件維〉、〈路徑概率預(yù)報(bào)圖,事物維〉等特征。內(nèi)容結(jié)構(gòu)中主要包括底圖和專題圖層,例如在專題圖層中,可以抽取得到〈8月9日05時(shí),時(shí)間維〉、〈概率范圍,地點(diǎn)維〉、〈熱帶風(fēng)暴,現(xiàn)象維〉、〈薔薇,事件維〉等不同特征值。
注:本圖僅作地圖樣圖展示,不涉及國(guó)家版圖相關(guān)問(wèn)題。圖2 泛在地圖解構(gòu)與特征抽取示例Fig.2 Deconstruction and feature extraction of ubiquitous map
(2) 主題信息過(guò)濾。基于特征描述框架抽取的特征可能覆蓋不同的特征結(jié)構(gòu)和信息維。然而這些特征與位置聚合主題的相關(guān)性不盡相同,其能夠發(fā)揮出的作用有大有小,部分作用小的特征甚至無(wú)法反映地圖的核心信息,在一定程度上會(huì)干擾后續(xù)地圖信息分類的準(zhǔn)確性。因此,在具體的抽取實(shí)現(xiàn)過(guò)程中,需顧及位置聚合的主題需求,選取出能最能代表地圖主題特色的那部分特征,并作為泛在地圖信息維度抽象的數(shù)據(jù)基礎(chǔ)。
3.1.2 特征頻率矩陣構(gòu)建
泛在地圖中抽取的特征,通常是由符號(hào)、文字、數(shù)字等構(gòu)成,但這些特征信息通常不能直接參與分類體系構(gòu)建,需要通過(guò)特定的運(yùn)算轉(zhuǎn)換形成統(tǒng)一向量空間的表達(dá),以便于后續(xù)的聚類計(jì)算。特征頻率矩陣是一種特征的向量空間表示,即每個(gè)特征項(xiàng)在向量空間某一維度上都采用特定的數(shù)值表示,使得符號(hào)、文字、數(shù)字等形式的特征值能夠統(tǒng)一轉(zhuǎn)化為向量表示。特征頻率矩陣構(gòu)建的總體思路如圖3所示。
圖3 特征頻率矩陣構(gòu)建流程Fig.3 Construction process of feature frequency matrix
(1) 對(duì)特征值進(jìn)行規(guī)范化處理。時(shí)間類特征值通常表現(xiàn)出相對(duì)性和模糊性特點(diǎn),需要將相對(duì)時(shí)間、時(shí)間省略現(xiàn)象等表示為統(tǒng)一的、標(biāo)準(zhǔn)的表達(dá)形式。參照時(shí)間規(guī)范化[28]的方法進(jìn)行轉(zhuǎn)換,例如“8月9日05時(shí)”可轉(zhuǎn)換為數(shù)值“2020-08-09 T05:00:00”。地點(diǎn)類特征值通常表現(xiàn)為坐標(biāo)形式和地名形式,具有多級(jí)別性、相對(duì)性和模糊性等特點(diǎn)。特別對(duì)于地名值,一種方法是采用地名解析和換算方法,轉(zhuǎn)換為坐標(biāo)數(shù)值;另一種方法則是針對(duì)無(wú)法完成坐標(biāo)換算的情形,可將其作為自然語(yǔ)言文本進(jìn)行處理。對(duì)于人物、事物、事件和現(xiàn)象類特征值,由于它們通常表現(xiàn)為自然語(yǔ)言描述形式,可采取自然語(yǔ)言處理中的詞袋[29]模型表示,并采取分詞/去停用詞、命名實(shí)體識(shí)別等技術(shù),計(jì)算得到特征詞匯集合。
(2) 生成特征頻率矩陣。對(duì)時(shí)間值和坐標(biāo)值采用歸一化、特征詞匯采用TF-IDF[30]計(jì)算方法,獲得標(biāo)注文檔的全部特征頻率矩陣。初步獲得的特征頻率矩陣通常具有高維、稀疏的特點(diǎn),為提高后續(xù)分類計(jì)算效率,還需對(duì)其進(jìn)行降維計(jì)算。降維是在保證向量空間基本特性不變的前提下,將高維度的特征空間映射到一個(gè)較低維度的空間中。本文采用主元分析(PCA)[31]降維計(jì)算方法,獲得最后的低維度的特征頻率矩陣。
3.1.3 基于層聚類分析的分類分級(jí)體系生成
以特征頻率矩陣為基礎(chǔ),可以通過(guò)聚類分析將特征區(qū)分為不同的類別,不同的類別又可進(jìn)一步通過(guò)聚類分析區(qū)分為更高層次的類別,如此不斷迭代收斂,最終可獲得基于特征值的泛在地圖信息分類分級(jí)體系。
本文基于BIRCH算法[32]實(shí)現(xiàn)分類維度聚類,并使用LDA(latent Dirichlet allocation)算法對(duì)每一個(gè)聚類簇進(jìn)行主題提取,算法描述如下。
輸入:特征頻率矩陣weight,特征字典dict,距離閾值T,分支數(shù)量約束B(niǎo)
輸出:帶有節(jié)點(diǎn)主題標(biāo)簽的CFTree
(1) 將特征頻率矩陣weight轉(zhuǎn)化為向量{v1,v2,…,vn}
(2) 初始化CFTree,使其根節(jié)點(diǎn)為一個(gè)空的node
(3) forviin {v1,v2,…,vn}
尋找CFTree中與vi距離最近的節(jié)點(diǎn)node(k)以及距離d(i,k)
ifd(i,k)≤T
將vi插入到節(jié)點(diǎn)node(k)中,計(jì)算node(k)節(jié)點(diǎn)數(shù)num(k)
if num (k)≤B
更新node(k)節(jié)點(diǎn)到根節(jié)點(diǎn)路徑上的所有結(jié)點(diǎn)的(N,LS,SS,TAG)值
else
分裂node(k)為兩個(gè)新節(jié)點(diǎn)node(k1)和node(k2),按照距離重新分配node(k)中的向量
更新node(k1)和node(k2)到根節(jié)點(diǎn)路徑上的所有結(jié)點(diǎn)(N,LS,SS,TAG)值
else
創(chuàng)建一個(gè)新的節(jié)點(diǎn)node并插入node(k)之中,將vi插入到節(jié)點(diǎn)node中
更新node節(jié)點(diǎn)到根節(jié)點(diǎn)路徑上的所有結(jié)點(diǎn)的(N,LS,SS,TAG)值
(4) 遍歷CFTree所有節(jié)點(diǎn),基于TAG值自底向上對(duì)每個(gè)節(jié)點(diǎn)使用LDA算法獲得主題標(biāo)簽
(5) 打印輸出CFTree
BIRCH算法是典型的聚類算法之一,能夠通過(guò)拆分特征向量構(gòu)建樹(shù)狀層次結(jié)構(gòu),較好地適應(yīng)本文的聚類需求。根據(jù)BIRCH算法原理,本文對(duì)聚類特征樹(shù)(cluster feature tree,CFTree)進(jìn)行了改進(jìn)設(shè)計(jì),將樹(shù)中每一個(gè)節(jié)點(diǎn)由(N,LS,SS)三元組擴(kuò)展為(N,LS,SS,TAG)四元組,使得特征個(gè)數(shù)N、特征之和LS以及特征的平方和SS 3個(gè)參數(shù)用于樹(shù)的構(gòu)建,TAG記錄當(dāng)前節(jié)點(diǎn)包含的特征值,用于當(dāng)前節(jié)點(diǎn)主題的計(jì)算。
3.2.1 數(shù)據(jù)說(shuō)明
地圖的泛在性體現(xiàn)在數(shù)據(jù)來(lái)源、內(nèi)容信息和表達(dá)形式等方面。為了驗(yàn)證分類模型的可行性,本文圍繞地圖內(nèi)容信息的泛在性,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)構(gòu)建了一個(gè)以各類圖像格式為主的泛地圖數(shù)據(jù)集。數(shù)據(jù)集包含地圖共計(jì)1605幅,表2按照分類模型的實(shí)例層對(duì)所收集的地圖數(shù)據(jù)進(jìn)行了歸納,并結(jié)合地圖實(shí)例進(jìn)行了說(shuō)明。數(shù)據(jù)集的信息內(nèi)容涉及行政區(qū)劃、經(jīng)濟(jì)生產(chǎn)、交通出行、人文旅游、自然資源、日常生活等多個(gè)方面,特別是手繪地圖、語(yǔ)義地圖和知識(shí)地圖等這類非標(biāo)準(zhǔn)化但廣泛存在于社會(huì)媒介中的地圖實(shí)例的納入,力圖體現(xiàn)對(duì)地理空間和社會(huì)人文空間的覆蓋。
表2 試驗(yàn)數(shù)據(jù)說(shuō)明和統(tǒng)計(jì)
3.2.2 分類體系生成
為了驗(yàn)證面向特定主題的地圖數(shù)據(jù)特征標(biāo)注和分類分級(jí)建模方法的可行性,并展現(xiàn)建模過(guò)程細(xì)節(jié),從專題地圖數(shù)據(jù)集中按照氣象主題選取的部分地圖實(shí)例,涵蓋臺(tái)風(fēng)事件、大風(fēng)/降水預(yù)報(bào)、干旱、火險(xiǎn)等專題內(nèi)容進(jìn)行試驗(yàn)。圖4為按照分類建模的流程,取距離閾值T=1.8,分支數(shù)量約束因子B=8的分類體系效果圖。
圖4 氣象主題分類體系生成效果Fig.4 Generation result of the meteorological theme classification system
分類體系展現(xiàn)了整體的分類結(jié)構(gòu)和分類節(jié)點(diǎn)的細(xì)節(jié)信息。本試驗(yàn)結(jié)果共分為3個(gè)層級(jí):層級(jí)Ⅰ為一級(jí)聚類節(jié)點(diǎn),層級(jí)Ⅱ?yàn)槎?jí)聚類節(jié)點(diǎn),層級(jí)Ⅲ為三級(jí)聚類節(jié)點(diǎn)。每一個(gè)節(jié)點(diǎn)中均包含了LDA算法獲得的按照概率排序的主題特征,例如“0.045*臺(tái)風(fēng)”表示臺(tái)風(fēng)主題的概率為0.045;帶有下劃線的是專家分類受控詞,通過(guò)主題特征詞匯匹配獲得。
定義準(zhǔn)確率(P)=分類簇中正確的地圖數(shù)/分類簇中地圖總數(shù),召回率(R)=分類簇中正確的地圖數(shù)/分類簇中應(yīng)有的地圖數(shù),F(xiàn)1=2PR/(P+R)。對(duì)不同層級(jí)的分類結(jié)果進(jìn)行評(píng)價(jià),計(jì)算每一分類層級(jí)準(zhǔn)確率、召回率和F1值的均值,結(jié)果見(jiàn)表3。
表3 不同分類層級(jí)的評(píng)測(cè)
試驗(yàn)結(jié)果表明:①層級(jí)Ⅰ為直接分類簇,93.13%的P均值表明地圖實(shí)例得到較好的分類,但層級(jí)Ⅰ的R均值不高,其原因在于同一類型信息易被劃分為多個(gè)分類簇,例如臺(tái)風(fēng)、干旱、冰雹雷暴分類簇;②隨著分類層級(jí)的遞增,P均值整體下降表明聚類性能逐級(jí)遞減,但R均值整體上升表明分類簇的語(yǔ)義綜合度得到一定的保證;③所有分類層級(jí)的F1均值均保持相對(duì)穩(wěn)定水平,表明試驗(yàn)?zāi)軌蛉〉靡欢ǖ姆诸惙旨?jí)效果,但仍存在進(jìn)一步優(yōu)化和提高的空間。
本文從泛在地圖的位置聚合應(yīng)用需求出發(fā),提出了一種泛在地圖信息分類模型,并通過(guò)相關(guān)試驗(yàn)進(jìn)行了驗(yàn)證。該分類模型本質(zhì)上是一種認(rèn)知規(guī)律約束下數(shù)據(jù)驅(qū)動(dòng)的分類體系自動(dòng)建模,對(duì)泛在地圖數(shù)據(jù)分類、管理、分析和應(yīng)用等具有參考價(jià)值。
本文的研究意義包括2個(gè)方面。一是能夠推進(jìn)從海量泛在地圖數(shù)據(jù)中挖掘地理信息分類體系的自動(dòng)化處理水平;二是能夠進(jìn)一步改變地理信息分類模式,特征層將算法語(yǔ)義和人類語(yǔ)義有效銜接起來(lái),使得傳統(tǒng)上由人類專家完成的認(rèn)知分類模式,變?yōu)槿藱C(jī)協(xié)作、甚至完全智能化的地理信息分類模式。
本文的局限性包括3個(gè)方面。一是特征抽取的有效性。精準(zhǔn)、快速挖掘泛在地圖中的信息塊,并重建信息塊之間的關(guān)聯(lián)關(guān)系,需要進(jìn)一步構(gòu)建泛在地圖的理解模型,以及基于深度學(xué)習(xí)算法的高效自動(dòng)標(biāo)注方法。二是信息維度聚類算法的參數(shù)調(diào)優(yōu)。例如BIRCH算法的參數(shù)B和T,對(duì)聚類的結(jié)構(gòu)、分類粒度和收斂性等均具有重要影響,B和T參數(shù)如何調(diào)優(yōu)并能夠解釋其實(shí)際意義,特別是對(duì)于不同量級(jí)和規(guī)模的數(shù)據(jù)集,乃是需要進(jìn)一步研究的問(wèn)題。三是分類結(jié)果的有效性。驗(yàn)證方法雖然能夠得到分類分級(jí)結(jié)構(gòu),但相較于傳統(tǒng)地理信息的分類受控詞,其語(yǔ)義精準(zhǔn)度還需進(jìn)一步提高。