張思原,郭柯娜
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
隨著現(xiàn)代計(jì)算機(jī)的發(fā)展,簡(jiǎn)單的計(jì)量統(tǒng)計(jì)分析已經(jīng)無(wú)法滿足用戶的需求,而利用Internet和GIS結(jié)合在Web上為用戶提供空間數(shù)據(jù)瀏覽、查詢和分析功能,已經(jīng)成為文獻(xiàn)分析的一個(gè)必然趨勢(shì)。如今地理信息系統(tǒng)(GIS)的發(fā)展,既為地名的研究帶來(lái)了新的契機(jī),更是使得文化歷史研究形式多樣化。因此,從多元化、多角度文獻(xiàn)分析出發(fā),基于GIS的地名統(tǒng)計(jì)分析的出現(xiàn)能為歷史文化工作者提供更好的統(tǒng)計(jì)分析展示。
在數(shù)字化的現(xiàn)代社會(huì)里,諸多研究方法中地名分布角度的考察具有特殊的意義。地名分布中蘊(yùn)含著豐富的信息,可以反映出所研究文化歷史的熱點(diǎn)地區(qū),甚至可以發(fā)現(xiàn)區(qū)域與區(qū)域之間的間接聯(lián)系。本文以跨越了中亞大陸與南次亞大陸的天然界山,傳承了中印文化交流紐帶的喜馬拉雅區(qū)域文獻(xiàn)集為例,開(kāi)展從文獻(xiàn)中抽取出所包含的地名并對(duì)其進(jìn)行GIS可視化,對(duì)地名分布進(jìn)行分析的一系列工作,來(lái)促進(jìn)人們對(duì)喜馬拉雅區(qū)域文化的認(rèn)識(shí)和理解。通過(guò)文獻(xiàn)對(duì)該區(qū)域文化分布和遷移進(jìn)行研究,對(duì)于探索喜馬拉雅文化起源乃至整個(gè)中印古文明的演化都有一定的價(jià)值。
隨著自然語(yǔ)言處理技術(shù)的發(fā)展,命名實(shí)體識(shí)別成為文本信息挖掘的熱點(diǎn)之一,其子任務(wù)地名識(shí)別例如國(guó)家名,行政區(qū)劃名的自動(dòng)識(shí)別也是基于文本的地理信息挖掘的前提。近年來(lái),地名識(shí)別的研究趨于成熟,總體來(lái)看存在以下三種趨勢(shì)[1]:一為復(fù)雜統(tǒng)計(jì)模型的使用,例如隱馬爾可夫[2]、支持向量機(jī)[3]、最大熵[4]、條件隨機(jī)場(chǎng)[5]等模型都被用作地名識(shí)別;第二種是統(tǒng)計(jì)模型與語(yǔ)言知識(shí)的結(jié)合,充分利用了各種語(yǔ)言資料如地名詞典、地名用字、地名通名[4]等,以各種形式與統(tǒng)計(jì)模型結(jié)合起來(lái);第三種包括內(nèi)部結(jié)構(gòu)特征與上下文特征的結(jié)合。目前最受歡迎和廣泛應(yīng)用的地名識(shí)別工具有斯坦福NLP工具、HANLP工具、SpaCy工具等。
地名數(shù)據(jù)與地理空間位置緊密相關(guān),故使用地理信息系統(tǒng)(Geographic Information System,GIS)對(duì)地名數(shù)據(jù)進(jìn)行研究正在成為趨勢(shì),包括地名地圖化輸入,地名歷史變遷等是GIS對(duì)地名數(shù)據(jù)進(jìn)行研究的主要方面[6]。其中地名地圖化輸入就是將自然語(yǔ)言形式表達(dá)的地理信息“翻譯”成精確的地理位置,其對(duì)地名信息的可視化應(yīng)用可作為許多領(lǐng)域的輔助工具,如地名識(shí)別與抽取[7],知識(shí)空間可視化[8],建立地學(xué)知識(shí)圖譜[9]等。
盡管近來(lái)地名與GIS結(jié)合可視化的應(yīng)用十分廣泛,如研究[10]對(duì)海洋地名進(jìn)行整理,基于GIS開(kāi)展海洋地名的可視化發(fā)布,研究[11]也實(shí)現(xiàn)了地名信息地圖可視化的應(yīng)用,但是從文獻(xiàn)中抽取地名轉(zhuǎn)換成GIS對(duì)應(yīng)的地理位置的研究工作還很匱乏。
本文采用的命名實(shí)體識(shí)別工具為SpaCy,是一個(gè)Python和CPython的開(kāi)源NLP自然語(yǔ)言文本處理庫(kù)。在2015年命名實(shí)體識(shí)別工具行業(yè)專家評(píng)測(cè)時(shí),其在OntoNotes 5語(yǔ)料庫(kù)上進(jìn)行命名實(shí)體識(shí)別的準(zhǔn)確率高達(dá)82.6%,并且總體上速度較快,因此我們選用它作為我們的文獻(xiàn)地名識(shí)別工具。
根據(jù)對(duì)文獻(xiàn)集統(tǒng)計(jì),得到結(jié)果如表1所示。
表1 文獻(xiàn)地名統(tǒng)計(jì)表
根據(jù)表1中的統(tǒng)計(jì),可知喜馬拉雅文獻(xiàn)中,地名的提及是普遍存在的現(xiàn)象,文獻(xiàn)中存在足夠多的地名信息支持基于GIS的地名分布統(tǒng)計(jì)研究。
本文首先對(duì)文獻(xiàn)集里的2455篇英文文獻(xiàn)用SpaCy工具進(jìn)行地名識(shí)別工作,得到所有文獻(xiàn)里所提及的地名集合。接著使用基于Node.js的Geoservise接口對(duì)所有的地名進(jìn)行批量地址解析,即把地名逐一“翻譯”為地圖上精確的經(jīng)緯度并通過(guò)標(biāo)記在地圖上顯示出來(lái),本文使用的地理信息系統(tǒng)是由OpenStreetMap提供的共享地圖。最后,為了能對(duì)全球范圍內(nèi)數(shù)千的地理位置進(jìn)行更直觀的分布分析,我們使用ArcGIS所提供的Point clustering接口對(duì)地圖上所有的地址進(jìn)行聚簇處理,該API采用了數(shù)據(jù)挖掘里的K均值聚類算法。喜馬拉雅地名GIS可視化流程如圖1所示。
基于GIS的單篇文獻(xiàn)地名分布研究,隨機(jī)選取文獻(xiàn)Horses;Silvelj and Cowries:Yunnan in Global Perspective為例,識(shí)別出該文獻(xiàn)中的所有地名去重后共42例,在世界地圖上對(duì)這42例地名進(jìn)行地址解析標(biāo)記顯示如圖2,其中每一個(gè)標(biāo)記對(duì)應(yīng)一處地名。為更清晰地展示結(jié)果,對(duì)圖1中標(biāo)記聚集地即中國(guó)區(qū)域進(jìn)行局部放大顯示如圖2。
圖1文獻(xiàn)地名GIS可視化流程圖
圖2 中,可以直觀的看到該文獻(xiàn)地點(diǎn)提及分布涉及到亞洲、歐洲、非洲、北美洲,主要密集分布于亞洲中國(guó)。圖3中,清楚地顯示了文獻(xiàn)中地名提及中國(guó)區(qū)域主要集中于云南和四川兩個(gè)省,包括云南昆明、大理,四川成都、宜賓等城市。通過(guò)GIS視圖地名分布分析,可知該文獻(xiàn)主要有關(guān)于中國(guó)西南部,GIS圖將這種分布明確的展示了出來(lái)。說(shuō)明現(xiàn)文化歷史學(xué)家對(duì)喜馬拉雅文化研究范圍廣,深入研究已延伸到中國(guó)西南、云南和四川文化及特色受到了研究學(xué)者關(guān)注。
圖2 基于GIS的單篇文獻(xiàn)地名分布
圖3 對(duì)聚集地進(jìn)行局部放大
基于喜馬拉雅文獻(xiàn)集所識(shí)別出的不同地名共5351例,利用GIS繪制出文獻(xiàn)地名分布圖如圖4所示。
圖4 基于GIS的文獻(xiàn)集地名分布
圖5 基于GIS的喜馬拉雅文獻(xiàn)集地名分布
對(duì)圖5中密度較大的區(qū)域即東南亞和歐洲進(jìn)行局部放大,分別得到圖6和圖7。
圖6、圖7中分別展示了東南亞和歐洲區(qū)域的地名分布統(tǒng)計(jì),顯示出沿喜馬拉雅山脈區(qū)域包括中國(guó)西南、尼泊爾、印度等的地名提及非常廣泛,而歐洲主要包括德國(guó)、英國(guó)、瑞士、意大利等的地名提及比較多。
圖6 對(duì)圖四中東南亞區(qū)域局部放大
圖7 對(duì)圖四中歐洲區(qū)域進(jìn)行局部放大
通過(guò)總文獻(xiàn)地名分布GIS視圖,可知文獻(xiàn)中地名涉及世界各地。而從聚簇中可以看出,文獻(xiàn)中歐洲和東南亞地名提及相對(duì)其他地區(qū)比例較高。
本文主要介紹基于GIS的地名分布統(tǒng)計(jì)。首先闡述了相關(guān)研究和意義,接著分別以單篇文獻(xiàn)和文獻(xiàn)集的角度對(duì)地名信息分布進(jìn)行GIS可視化并做了簡(jiǎn)要的統(tǒng)計(jì)分析。
本文以一個(gè)全新的研究視角,對(duì)文本信息中的地名進(jìn)行統(tǒng)計(jì)分析,探索文化歷史在地理空間中存在的直接或間接關(guān)系,為歷史文化工作者提供一個(gè)新的思維模式。
[1]唐旭日,陳小荷,徐超,李斌.基于篇章的中文地名識(shí)別[J].中文信息學(xué)報(bào),2010(02).
[2]俞鴻魁,張華平,劉群,呂學(xué)強(qiáng),施水才.基于層疊隱馬爾科夫模型的中文命名實(shí)體識(shí)別[J].通信學(xué)報(bào),2006(27).
[3]李麗雙,黃德根,陳春榮,楊元生.基于支持向量機(jī)的中文文本中地名識(shí)別[J].大連理工大學(xué)學(xué)報(bào),2007(47).
[4]錢晶,張杰,張濤.基于最大熵的漢語(yǔ)人名地名識(shí)別方法研究[J].小型微型計(jì)算機(jī)系統(tǒng),2006(27).
[5]馮元勇,孫樂(lè),張大鯤,李文波.基于小規(guī)模尾字特征的中文命名實(shí)體識(shí)別研究[J].電子學(xué)報(bào),2008(36).
[6]白燕,艾松濤.海洋地名整理及其GIS應(yīng)用研究[J].測(cè)繪與空間地理信息,2012,35(12):47-52.
[7]杜萍.基于本體的中國(guó)行政區(qū)劃地名識(shí)別與抽取研究[D].蘭州:蘭州大學(xué),2011.
[8]王富強(qiáng).空間知識(shí)地圖構(gòu)建理論和方法研究[D].鄭州:解放軍信息工程大學(xué),2013.
[9]許珺,裴韜,姚永慧.地學(xué)知識(shí)圖譜的定義,內(nèi)涵和表達(dá)方式的探討[J].地球信息科學(xué)學(xué)報(bào),2010,12(4):496-502.
[10]白燕,艾松濤.海洋地名整理及其GIS應(yīng)用管理[J].測(cè)繪與空間地理信息,2012(35).
[11]戴紅,于寧,常子冠.地名信息可視化輸入方法的設(shè)計(jì)與實(shí)現(xiàn)[J].信息化建設(shè),2014(04).