李楠楠,李永勝,劉 濤,趙金梅,宮東海
(1. 西北大學(xué) 城市與環(huán)境學(xué)院,陜西 西安 710127;2. 中冶地集團 西北巖土工程有限公司,陜西 西安710119;3.京山縣國土資源勘測規(guī)劃設(shè)計院,湖北 京山 431800)
地理信息分類是對地理信息進行有效組織和管理的前提,為地理信息的共享、集成和互操作提供基礎(chǔ)?,F(xiàn)有地理信息分類大都采用傳統(tǒng)的信息分類結(jié)構(gòu),利用自然語言表達(dá)地理領(lǐng)域知識,難以形式化地表達(dá)地理信息概念之間錯綜復(fù)雜的關(guān)系。框架語義學(xué)把詞義、句子意義和文本意義統(tǒng)一用“框架”進行描述,一個“框架”表示一個認(rèn)知結(jié)構(gòu),有利于對同一概念形成統(tǒng)一的認(rèn)知。本文基于框架的語言思想,結(jié)合地理信息概念的本體屬性,提出一種基于框架語義的地理信息概念分析方法,并以部分水系地理信息概念為例對此方法進行了可行性分析。
框架語義學(xué)是美國語言學(xué)家Fillmore[1]提出的一種研究詞語意義和句法結(jié)構(gòu)意義的理論方法。該方法試圖理解一個言語社團為何會創(chuàng)建一個范疇并以詞語來表達(dá)它,同時通過背景知識的描述,來解釋這個詞語的意義[2]。而作為人類認(rèn)知構(gòu)建的一種手段,框架為詞在語言中的存在及話語的使用提供了背景和動力[3]??蚣苷Z義學(xué)把詞義、句子意義和文本意義統(tǒng)一用“框架”進行描述,框架是跟一些激活性語境相一致的一個結(jié)構(gòu)化的范疇系統(tǒng),一個“框架”雖然表示的是一個認(rèn)知結(jié)構(gòu),但它的意義在于這個認(rèn)知結(jié)構(gòu)的各個部分是和詞語掛鉤,為語言理解服務(wù)的[2]。
從1997年開始的由Fillmore親自主持的FrameNet工程[4]就是建立在框架語義學(xué)基礎(chǔ)之上的計算機字典編纂工作。本文用于地理信息概念本體分析而建立的地理信息概念“模版”就是借鑒FrameNet數(shù)據(jù)庫中的框架庫。FrameNet數(shù)據(jù)庫包括框架庫、詞匯庫和例句庫,其中框架庫就是詞語義項的語義框架及框架元素的細(xì)致描述,內(nèi)容包括框架的定義描述;框架元素的基本定義描述,多數(shù)定義帶有例句說明;該框架所涉及的詞元;框架和框架之間的關(guān)系。其中,框架元素根據(jù)它們與框架關(guān)系的緊密程度分為核心框架元素和非核心框架元素。核心框架元素是一個框架在概念理解上的必有成分,它們在不同框架中的類型和數(shù)量不同,顯示出框架的個性;非核心框架元素并不顯示框架的個性,可出現(xiàn)在多數(shù)框架中。
自從本體這一哲學(xué)概念被引入到計算機科學(xué)領(lǐng)域中,已經(jīng)在人工智能、計算語言、數(shù)據(jù)庫理論等領(lǐng)域發(fā)揮著特殊的作用。本體作為某個領(lǐng)域的概念化已經(jīng)被廣泛接受,同時,本體也可使用多種方法進行建模、分析和推理。為了便于人和機器、機器和機器之間的交流與合作,任何概念化都得借助于一種定義良好的語言進行描述,并且基于這種描述可進行推理,包括對描述進行分析以及得到有用的結(jié)論。近年來,學(xué)者們提出了各種不同的本體表達(dá)、描述語言及形式化方法[5],其中有一種基于框架的本體描述語言。
框架的概念最早在1975年被美國著名人工智能學(xué)者Minsky[6]用來解釋某些心智方面的活動。當(dāng)用它來表示有關(guān)事物的知識時,不僅可以表示事物各方面的屬性,而且可以表示出事物之間的類屬關(guān)系、事物的特征和變異等,因此該概念在識別、分析、預(yù)測事物及其行為方面有很大用處[2]。
框架的基本思想是:任何事物的狀態(tài)、屬性、發(fā)展過程和相互關(guān)系往往有一定的規(guī)律性,即依照一定的“模版”,可以把各領(lǐng)域、各類事物的“模版”事先總結(jié)出來,存于數(shù)據(jù)庫中。當(dāng)要認(rèn)識一個新的事物時,可根據(jù)對這個新事物的初步印象,從數(shù)據(jù)庫里取出一個與它最相近的“模版”來,實行“自頂向下”的匹配。如果匹配成功,則“模版”中存放的屬性就可向我們提供有關(guān)此新事物的知識;如果匹配不成功,則尋找原因,重新在數(shù)據(jù)庫中提取一個更能與新事物匹配的“模版”,或修改剛才那個匹配得不太成功的“模版”,直到最后求得一個令人滿意的解答為止。
由此可見,框架理論是描述對象屬性的一種數(shù)據(jù)結(jié)構(gòu)[5]。在框架表示法中,框架被看成是知識表示的基本單元。不同的框架之間可通過屬性之間的關(guān)系建立聯(lián)系,從而構(gòu)成一個框架網(wǎng)絡(luò),充分表達(dá)相關(guān)對象間的各種關(guān)系。其特點是善于表示結(jié)構(gòu)性知識,具有良好的繼承性,不僅減少了框架網(wǎng)絡(luò)表示知識的冗余,而且較好地保證了知識的一致性。一個框架由若干個被稱為槽的結(jié)構(gòu)組成;每一個槽又可根據(jù)實際需要分為若干個側(cè)面。一個槽用于描述對象某一方面的屬性;一個側(cè)面用于描述相應(yīng)屬性的一個方面,每一個方面又可給出具體的約束條件,如圖1所示。
在典型的框架系統(tǒng)中,構(gòu)造算子用來將框架的類組織成分類結(jié)構(gòu)。在該結(jié)構(gòu)中,每個框架連接到一個或者多個父框架。通過分類關(guān)系,一個類可看作是其超類的特殊化。分類中的子類從它們的超類中繼承如槽定義、默認(rèn)值等特征。框架系統(tǒng)的一個重要特征是位于類層次頂部的信息是固定的,可為個體框架提供具體的默認(rèn)值。框架中每個槽的值都被從它們祖先繼承而來的默認(rèn)值所填充,而不是空值;這些默認(rèn)值可被更適合具體情形的值所替代。
由于框架理論是描述對象屬性的一種數(shù)據(jù)結(jié)構(gòu),在運用框架對地理信息概念進行分析時,地理信息概念的屬性便成了關(guān)鍵要素之一。由于地理對象的特殊性,必然導(dǎo)致地理信息擁有不同于其他信息的獨特性與復(fù)雜性。人們通常借助概念來理解復(fù)雜的過程或事物。概念是人們用于認(rèn)識和掌握自然現(xiàn)象之網(wǎng)的扭結(jié),是認(rèn)識過程中的階段[7]。
目前,我國地理信息概念來源主要包括國家現(xiàn)有的基礎(chǔ)信息數(shù)據(jù)分類、地形圖圖式規(guī)范、交通技術(shù)規(guī)范、土地利用現(xiàn)狀分類、地理學(xué)辭典和現(xiàn)代漢語大詞典等?!秶一A(chǔ)地理信息本體關(guān)鍵問題研究》一書中對這些標(biāo)準(zhǔn)和規(guī)范進行了簡單的分析與比較[7],可以發(fā)現(xiàn):①地理信息分類標(biāo)準(zhǔn)隨著時間的發(fā)展,要素中類也可能會發(fā)生一定的變化,進而使得子類所包含的范圍發(fā)生變化,如“國土基礎(chǔ)信息數(shù)據(jù)分類與代碼GB/T 13923-92”與修訂后的“基礎(chǔ)地理信息要素分類與代碼GB/T 13923-2006”相比,要素大類和要素中類都有所變化;②分類標(biāo)準(zhǔn)和規(guī)范具有專題性,即由于領(lǐng)域不同而導(dǎo)致對同一類地理信息進行分類的出發(fā)點不同,如基礎(chǔ)地理信息分類多從管理等級上對道路要素進行分類,而交通技術(shù)規(guī)范則是以道路的寬度、車道及車輛行駛速度等技術(shù)信息作為分類依據(jù);③對地理信息概念的定義缺乏統(tǒng)一規(guī)范的文字描述,這是由于概念語義描述的歧義性[7]所致,由于地理信息概念的描述大多是基于自然語言的,這些描述與人們的經(jīng)驗知識和背景相聯(lián)系,因此,用同一術(shù)語表達(dá)的地理概念含義不盡相同。
概念語義的描述有多種方法,屬性枚舉是一種容易理解且有效的方法。所謂屬性枚舉就是一種將概念的屬性列舉出來描述概念語義的方式,用概念擁有的每個屬性來刻畫概念,通過滿足或具有這些屬性特征的表象表達(dá)概念的內(nèi)涵。亞里士多德認(rèn)為,每個概念或種類都與一定的屬性或性質(zhì)關(guān)聯(lián),而這些定義的屬性足以確定對象所屬的相關(guān)外延[8]。但是地理信息的復(fù)雜性決定了其概念屬性的繁雜性,許多非本質(zhì)的屬性對于地理信息概念的分析而言是冗余屬性,地理信息概念的本體屬性才是屬性枚舉法中提高概念語義分析效率的關(guān)鍵。
文獻(xiàn)[9]在分析本體層次[10,11]的基礎(chǔ)上對空間信息的語義特征進行過系統(tǒng)歸納,將語義特征歸納為:物質(zhì)(部分-整體層次)、形態(tài)(形態(tài)層次)、大?。ㄐ螒B(tài)層次)、功能(功能層次)和等級(社會層次),該研究對地理信息概念的本體屬性具有很好的借鑒作用。文獻(xiàn)[7]和文獻(xiàn)[12]以“基礎(chǔ)地理信息要素分類與代碼GB/T 13923-2006”中相關(guān)的概念為研究范圍,在分析語義描述的歧義性和語義表達(dá)方式的基礎(chǔ)上,提出形式本體的概念化作為排除語言背景干擾的有力手段,將地理信息的本體屬性明確抽取出來,為地理信息的概念語義描述提供了可靠的方法。文獻(xiàn)[7]中還提出了地理信息概念的本體屬性提取應(yīng)遵循的幾項規(guī)則,并以此為基礎(chǔ),結(jié)合基礎(chǔ)地理信息概念的含義,綜合考慮地理概念的特點,按照一般頂層本體的組織原理,將國家基礎(chǔ)地理信息概念的本體屬性歸納為空間性、時間性、物質(zhì)性、目的/功能、成因、對象及量度,各類本體屬性又可以按多種方式進一步細(xì)分,并可以繼續(xù)給出具體的約束條件。圖2是本體屬性之一空間性的簡單結(jié)構(gòu)圖。
將圖2與圖1對比,可發(fā)現(xiàn)兩者結(jié)構(gòu)的相似性。各種本體屬性對應(yīng)于框架結(jié)構(gòu)中的屬性槽,本體屬性的進一步細(xì)分恰好就是槽的若干個側(cè)面,對側(cè)面也可給出具體的約束條件。前者是一種本體描述語言的理論基礎(chǔ)結(jié)構(gòu),后者是概念本體屬性的體系結(jié)構(gòu),兩者結(jié)構(gòu)的相似性可以使地理信息概念的語義描述與其本體表示更好地結(jié)合。
在框架語義學(xué)理論指導(dǎo)和基于框架的本體語言思想啟發(fā)下,應(yīng)該對地理信息概念具有2方面的認(rèn)識:地理信息概念不僅作為對地理信息的抽象與概括而具有地理對象的本體屬性,還作為一種領(lǐng)域詞匯且一般均為名詞而具有語言學(xué)的名詞化特征。以這2個方面為出發(fā)點,從語言學(xué)角度結(jié)合框架語義學(xué)理論對地理信息概念進行分析。鑒于地理信息概念本體屬性體系結(jié)構(gòu)與框架結(jié)構(gòu)的相似性,本文試圖借助框架的基本思想來建立地理信息概念“模版”,一方面通過地理信息概念本體屬性枚舉法在一定程度上解決概念語義描述的歧義性問題,另一方面為地理信息概念的本體表示提供合適的結(jié)構(gòu)基礎(chǔ)以提高本體表示的效率,從而在所建立的地理信息概念“模版”中實現(xiàn)地理學(xué)和語言學(xué)的本體結(jié)合。
從語言學(xué)角度來看,地理信息概念作為詞語借助框架語義的分析可得到非常細(xì)化的語義角色描述,并顯示出詞語的個性;從地理學(xué)角度看,地理信息概念是地理信息的抽象與概括,我們關(guān)注得更多的是其代表的地理對象的屬性(特別是本體屬性),表現(xiàn)為概念語義的屬性。針對地理信息概念語義描述的歧義性問題,對地理信息概念的分析以概念的本體屬性為基礎(chǔ),以框架理論思想為指導(dǎo),結(jié)合框架語義學(xué),構(gòu)建了地理信息概念的分析模版。該模版借鑒了FrameNet框架庫的內(nèi)容,并結(jié)合地理信息概念的地理學(xué)特征進行了相應(yīng)改動,改動后框架內(nèi)容包括:
1)框架名,即地理信息概念名,本文主要以“基礎(chǔ)地理信息要素分類與代碼GB/T 13923-2006”中相關(guān)的概念為研究對象。
2)定義,即對地理信息概念的語義描述,來源于國家基礎(chǔ)地理信息要素數(shù)據(jù)字典。
3)核心框架元素,是一個框架的支撐者,地理信息概念框架的支撐者應(yīng)該由地理概念的本體屬性組成。前文中提到將國家基礎(chǔ)地理信息概念的本體屬性歸納為空間性、時間性、物質(zhì)性、目的/功能、成因、對象及量度[7],但并不是任何一個概念必須同時具有這一系列的本體屬性,這里的核心框架元素就是指與框架名所指概念相對應(yīng)的本體屬性,本體屬性的判斷與確定可參見文獻(xiàn)[12]。
4)附加框架元素,即本框架概念可能附加的屬性約束,通過附加屬性可形成新的概念。
5)子概念,即以框架名所指概念為基本概念衍生而來的復(fù)合概念,如河流加上時間屬性約束形成的“常年河”、“時令河”,加上空間屬性約束形成的“地面河流”、“地下河段”等。因為地理信息概念一般均為名詞,所以復(fù)合概念一般為“形容詞+名詞”[7],這項內(nèi)容在一定程度上反映了該框架下屬子框架的信息。
6)框架-框架關(guān)系,包括父框架和子框架,反映該框架地理信息概念在地理信息分類中所處的位置。
下面以水系地理信息概念中的“河流”和“溝渠”為例,簡要分析該模版的特點。
表1 “河流”概念框架
表2 “溝渠”概念框架
通過表1和表2可以看出,地理信息概念分析模版的主體支撐者由地理信息概念的本體屬性組成,加強了地理信息概念語義描述的明確性,并且自然地理要素(如河流)的時空屬性更加重要,人工要素(如溝渠)則更注重其功能用途。通過附加框架元素可大概地分析該地理信息概念可能存在的子類,有利于提高地理信息概念模版對新的地理信息概念詞匯進行匹配的適用程度。子概念和框架-框架關(guān)系分析都能反映該地理信息概念在分類體系中所處的位置。以框架理論為基礎(chǔ),地理信息概念本體屬性為支撐者的框架模版,在對地理信息概念的語義分析方面以及新概念匹配方面都具有一定的可行性和有效性。
本文在框架語義學(xué)的理論指導(dǎo)和基于框架的本體描述語言思想啟發(fā)下,以框架理論為整體基礎(chǔ),將地理信息概念的本體屬性作為主要支撐,從語言學(xué)的角度結(jié)合框架語義學(xué)構(gòu)建地理信息概念模版,在一定程度上實現(xiàn)了地理學(xué)和語言學(xué)的結(jié)合。同時,地理概念本體屬性體系結(jié)構(gòu)與本體表示框架語言結(jié)構(gòu)的相似性也為地理信息概念語義描述和本體表示的有效結(jié)合提供了基礎(chǔ)。通過對水系地理信息概念“河流”和“溝渠”框架模版的具體分析,表明該模版對地理信息概念的分析具有很好的效果,該分析方法具有一定的可行性。但是,由于人們認(rèn)知的差異性,不同專業(yè)領(lǐng)域?qū)ν坏乩砀拍畹谋倔w屬性的理解會有所不同,從而影響地理信息的共享與互操作。如何在地理信息概念分析模版的構(gòu)建中實現(xiàn)屬性認(rèn)知的統(tǒng)一,還有待進一步研究。
[1]Fillmore C J. Frame Semantics and Nature of Language[J].Annals of the New York Academy of Sciences,1976,280:20-32
[2]王曉慶. 基于框架語義的中文本體學(xué)習(xí)研究[D].青島:中國海洋大學(xué),2008
[3]潘艷艷. 框架語義學(xué):理論與應(yīng)用[J].外語研究,2003(5):14-18
[4]Johnson C, Fillmore C,Wood E, et al. The Frame Net Project: Tools for Lexicon Building[R]. Berkeley: International Computer Science Institute, 2001
[5]程鋼. 基于OWL的地名本體構(gòu)建和推理機制研究[D].武漢:武漢大學(xué),2008
[6]Minsky M. A Framework for Representing Knowledge[C].The Psychology of Computer Vision, New York, 1975
[7]王紅,李霖,朱海紅. 國家基礎(chǔ)地理信息本體關(guān)鍵問題研究[M].北京:科學(xué)出版社,2011
[8]汪子嵩. 亞里士多德關(guān)于本體的學(xué)說[J].中國社會科學(xué),1981(3):41-53
[9]杜清運. 空間信息的語言學(xué)特征及其自動理解機制研究[D].武漢:武漢大學(xué),2001
[10]Borgo S,Guarino N,Masolo C. Stratified Ontology: The Case of Physical Object[C]. ECAI-96 Workshop on Ontological Engineering, Budapest, 1996
[11]Guarino N. Some Organization Principle for A Unified Toplevel Ontology[C]. Working Notes of AAAI Spring Symposium on Ontological Engineering, Stanford, 1997
[12]李霖,朱海紅,王紅,等. 基于形式本體的基礎(chǔ)地理信息語義分析——以陸地水系要素類為例[J].測繪學(xué)報,2008,37(2):230-242