□張海亮
隨著網(wǎng)絡的迅猛發(fā)展,網(wǎng)頁上的信息成指數(shù)增長,網(wǎng)頁已經(jīng)成為最主要的信息交流渠道。由于HTML 本身的局限性而導致網(wǎng)頁上缺乏足夠的語義信息,難以實現(xiàn)WEB 信息的自動化處理,因此WWW、HTTP 和HTML的創(chuàng)始人Tim Berners-Lee 在一般萬維網(wǎng)的基礎上提出了語義網(wǎng)的概念,從而大大改進了人類思維和機器思維之間的差異,提高了機器自動處理網(wǎng)絡上信息的能力。
語義網(wǎng)是對未來網(wǎng)絡的一個設想,現(xiàn)在與WEB 3.0 這一概念結合在一起,是3.0 網(wǎng)絡時代的特征之一。簡單地說,語義網(wǎng)是一種智能網(wǎng)絡,它不但能夠理解詞語和概念,而且還能夠理解它們之間的邏輯關系,可以使交流變得更有效率和價值。語義網(wǎng)和人工智能中的語義網(wǎng)絡是兩個不同的概念,所以它采用的方法與自然語言處理不同。它對現(xiàn)有的WEB 進行了語義擴展,從而使其上面的信息能夠被計算機理解和處理,從功能上看它將是一個能夠“理解”人類信息的智能網(wǎng)絡。
在其體系結構中,第一層是Unicode(統(tǒng)一編碼)和URI,它是整個語義網(wǎng)的基礎。Unicode 是處理資源的編碼,URI 負責標識資源;第二層是XML+名空間+XML 模式,用于表示數(shù)據(jù)的內(nèi)容和結構;第三層是RDF 和RDF 模式,用于描述資源及其類型;第四層是本體詞匯,用于描述各種資源之間的聯(lián)系;第五層是邏輯,在前面四層的基礎上進行邏輯推理操作;第六層是驗證,根據(jù)邏輯陳述進行驗證以得出結論;第七層是信任,在用戶間建立信任關系。其中,第二、三、四層是一個語義網(wǎng)的關鍵層,用于表示W(wǎng)EB 信息的語義,也是現(xiàn)在語義網(wǎng)研究的熱點所在??蓴U展標記語言XML 讓每個人都能創(chuàng)建自己的信息標簽,來對網(wǎng)頁或頁面的部分文字進行注釋。資源描述框架RDF的基本結構是對象、屬性和值所組成的三元組,也就相當于一個句子中的主語,動詞和賓語。這些三元組可以用XML 語法來表示。用這種結構描述并由機器處理大量數(shù)據(jù),是非常自然的方法。RDF 模式是一個描述RDF 資源的屬性(Property)和類(Class)的詞匯表,提供了關于這些屬性和類的層次結構的語義。
語義到底是指什么?我們可以將語義簡單地看作是數(shù)據(jù)(符號)所代表的概念的含義,以及這些含義之間的關系,是對數(shù)據(jù)的抽象或者更高層次的邏輯表示。以關系數(shù)據(jù)庫為例,數(shù)據(jù)庫中的數(shù)據(jù)可以簡單地存儲在一張張表中,例如我們將學生基本信息存入到一張“學生”表中。這時,對于表中的每一列數(shù)據(jù)所構成的集合,其所隱含的意思就是該列數(shù)據(jù)所要表達的對應的概念,這個概念往往體現(xiàn)為設計人員對該列數(shù)據(jù)對應的屬性所給定的名稱,例如“姓名”“性別”等。這些屬性之間的關系就相當于數(shù)據(jù)對應的概念之間所存在的關系,它們都是學生這個實體的屬性。數(shù)據(jù)庫表中的屬性和關系都可以看作數(shù)據(jù)的語義信息。
在了解了什么是語義之后,讓我們來進一步討論語法和語義在數(shù)據(jù)描述和交換中的作用。對于人類來說,我們可以通過相同的語言進行交互,交互雙方以他們共同遵守的語言組織規(guī)律(相當于語法)對所要表達的信息含義(相當于語義)進行組織才能使對方理解。人與人之間信息的傳遞并不需要非常嚴格的語法,即便是對方在語言表達上存在著一定的錯誤,我們?nèi)匀豢梢岳斫鈱Ψ较胍磉_的意思。但對于計算機之間的信息交換來說,語法與語義缺一不可。數(shù)據(jù)正確的語法表達是保證計算機之間能夠進行信息交換和處理的前提,而數(shù)據(jù)語義的描述則是數(shù)據(jù)可被計算機正確理解和推理的基礎。
信息的語法描述是有差異的,我們往往通過必要的數(shù)據(jù)格式轉(zhuǎn)化讓目標應用能夠處理,理想的情況應該是所有的信息都采用同樣的語法來描述。XML的出現(xiàn)使得不同類型的數(shù)據(jù)表示成同一格式成為可能。XML 已經(jīng)成為WEB 上數(shù)據(jù)表示和交換的事實標準,是應用之間或者機器之間共享數(shù)據(jù)的一種有效方式。但是XML 除了給我們提供了一個可以被應用自動化讀取的格式外,并不能進一步促進數(shù)據(jù)交換的自動化,我們還需要通過專用的程序來對XML 數(shù)據(jù)進行解釋,以獲取目標應用能夠處理的數(shù)據(jù)。
XML 存在的問題是XML 不具備語義描述能力,因此萬維網(wǎng)聯(lián)盟推薦以RDF 標準來解決XML的語義局限。RDF 提出了一個簡單的模型用來表示任意類型的數(shù)據(jù)。這個數(shù)據(jù)類型由節(jié)點和節(jié)點之間帶有標記的連接弧所組成,節(jié)點用來表示W(wǎng)EB 上的資源,弧用來表示這些資源的屬性。因此,這個數(shù)據(jù)模型可以方便地描述對象以及它們之間關系。
RDF 和XML 是互為補充的。首先,RDF 希望以一種標準化、互操作的方式來規(guī)范XML的語義。通過引用RDF,XML的解析過程與解釋過程可以相結合。也就是說,RDF 可以幫助解析器在閱讀XML的同時,獲得XML所要表達的主題和對象,并根據(jù)它們的關系進行推理,從而做出基于語義的判斷。XML的使用可以提高WEB 數(shù)據(jù)基于關鍵詞檢索的精度,而RDF 與XML的結合則可以將WEB 數(shù)據(jù)的關鍵詞檢索推進到對象檢索。其次,由于RDF 是以一種建模的方式來描述數(shù)據(jù)語義的,這使得RDF 可以不受具體語法表示的限制。
由于RDF的數(shù)據(jù)語義描述仍然可能存在語義沖突,所以我們在描述數(shù)據(jù)語義的時候可以通過引用本體的相關技術,對語義描述結果作進一步的約束,以消除語義沖突。RDF(Schema)在提供了簡單的機器可理解語義模型的同時,為領域化的Ontology 語言提供了建?;A,并使得基于RDF的應用可以方便地與這些Ontology 語言所生成的Ontology 進行合并。因此,RDF的這一特性使得基于RDF的語義描述結果具備了可以和更多的領域知識進行交互的能力。
[1]Tim Berners-Lee,endler J,Lassila O.The semantic WEB [J].Scientific American,2001,284(5):34-43.
[2]TimBerners-Lee.SemanticWEB-XML 2000-slide”Architecture”[EB/OL].http://www.w3.org/2000/Talks -xml2k -tbl/Overview.html.
[3]Dan Bricley,Guha R V.RDF vocabulary description language 1.0:RDF schema [EB/OL].2003.http://www.w3.org/TR/2003/WDrdf-schema-20030123/.
[4]Asunción Gómez-Pérez,Mariano Ferná-nedz-López,Oscar Corcho.Ontological Engiceering [M].Springer,2003,5-25,230-240.