【摘 要】萬維網(wǎng)在進(jìn)行信息搜索時(shí)會(huì)顯得有些“笨”,人們期待有一個(gè)更“聰明”的網(wǎng)絡(luò)能夠取而代之,那就是語義網(wǎng)。語義網(wǎng)及其具有革命性的智能推理與代理技術(shù),將在很大程度上改變現(xiàn)有互聯(lián)網(wǎng)的運(yùn)行模式甚至人們的生活方式。
【關(guān)鍵詞】萬維網(wǎng);語義網(wǎng)
WWW已成為許多人口中“網(wǎng)絡(luò)”的代名詞,其全稱是World Wide Web,中文名稱“萬維網(wǎng)”。信息發(fā)布的自由化和信息提供的簡單化促進(jìn)了萬維網(wǎng)的繁榮,使之成為當(dāng)今使用最為普遍的網(wǎng)絡(luò)。然而,隨著社會(huì)的迅猛發(fā)展,人們對(duì)信息的需求越來越高,開始追求更理想的網(wǎng)絡(luò),語義網(wǎng)在這樣的環(huán)境下應(yīng)運(yùn)而生。
1.萬維網(wǎng)簡介
萬維網(wǎng)的發(fā)明者蒂姆·伯納斯·李(Tim Berners Lee)1980年構(gòu)建的ENQUIRE項(xiàng)目,是一個(gè)類似維基百科的超文本在線編輯數(shù)據(jù)庫。盡管與現(xiàn)在的萬維網(wǎng)大不相同,但其核心思想有許多相同之處。1989年3月伯納斯·李在《關(guān)于信息化管理的建議》一文中提及ENQUIRE并描述了一個(gè)更加精巧的管理模型。1990年11月12日他和羅伯特·卡里奧(Robert Cailliau)合作提出更加正式的關(guān)于萬維網(wǎng)的建議,并于1990年11月13日在一臺(tái)NEXT工作站上寫了第一個(gè)網(wǎng)頁以實(shí)現(xiàn)其文中想法。萬維網(wǎng)從此開始了它的發(fā)展歷程。
與傳統(tǒng)的信息資源相比,萬維網(wǎng)上的信息資源具有動(dòng)態(tài)性、重復(fù)性、非結(jié)構(gòu)化、非規(guī)范化的特點(diǎn)。因其信息存在不穩(wěn)定性和不可靠性,質(zhì)量得不到保證。
2.HTML技術(shù)
HTML(Hyper Text Mark-up Language)技術(shù)在萬維網(wǎng)的發(fā)展歷程中起著關(guān)鍵性作用,HTML即超文本標(biāo)記語言,是WWW的描述語言。它允許網(wǎng)頁制作人建立文本與圖片相結(jié)合的復(fù)雜頁面,這些頁面可以被其他任何人網(wǎng)上瀏覽到,無論使用什么類型的電腦或?yàn)g覽器。HTML的簡易性使萬維網(wǎng)得到迅猛發(fā)展。用戶通過瀏覽器可在任何時(shí)間、地點(diǎn)方便地瀏覽各種來源的HTML文檔,并可通過超鏈接技術(shù)將不同的資源和信息連接起來?,F(xiàn)在的網(wǎng)絡(luò)資源大都是以超鏈接的形式進(jìn)行組織和聯(lián)系的。
中國語言博大精深,語言文字本身的語義模糊性和歧義性增加了機(jī)器分析的難度。目前萬維網(wǎng)由大量HTML頁面組成,其內(nèi)容是人們可讀、可理解的;但對(duì)于計(jì)算機(jī)而言是不可理解的,使得Web上的內(nèi)容難以由計(jì)算機(jī)做有意義的自動(dòng)處理。例如,人類在理解head這個(gè)單詞時(shí),會(huì)根據(jù)語言環(huán)境判斷它的含義是“領(lǐng)導(dǎo)”還是“頭部”,但計(jì)算機(jī)卻很難分辨。另外,網(wǎng)絡(luò)自由寬松的環(huán)境便于人們利用各種形式的信息載體發(fā)布信息,信息量的迅猛增長引發(fā)了“信息迷航”和“信息過載”等諸多問題。計(jì)算機(jī)在采集、分解和組合萬維網(wǎng)中的信息時(shí)有些力不從心。這時(shí),人們渴望出現(xiàn)更“聰明”的網(wǎng)絡(luò)。
3.語義網(wǎng)的概念
為改善當(dāng)代萬維網(wǎng)信息不利于計(jì)算機(jī)自動(dòng)處理的現(xiàn)狀,萬維網(wǎng)的創(chuàng)始人Tim Berners-Lee于1998年提出了有關(guān)下一代萬維網(wǎng)的構(gòu)想——語義萬維網(wǎng)(Semantic Web)。語義萬維網(wǎng)是一個(gè)夢(mèng)想:期望Web上的數(shù)據(jù)通過另一種不同于現(xiàn)在的方式描述和鏈接,使這些數(shù)據(jù)不僅能以各種靈活的方式展現(xiàn)出來,也能被不同的應(yīng)用程序所自動(dòng)處理、綜合、重用,網(wǎng)頁蘊(yùn)含的語義信息能使計(jì)算機(jī)完成大部分的自動(dòng)化處理工作,從當(dāng)前“機(jī)器可閱讀”的萬維網(wǎng)擴(kuò)展為“機(jī)器可理解”的語義萬維網(wǎng)。
Tim Berners-Lee在和當(dāng)代萬維網(wǎng)的對(duì)比中,對(duì)語義萬維網(wǎng)的描述如下[1]:語義萬維網(wǎng)是對(duì)當(dāng)前萬維網(wǎng)的延伸和擴(kuò)展,其信息具有定義良好的含義,計(jì)算機(jī)能根據(jù)概念的定義聲明和邏輯推理規(guī)則發(fā)現(xiàn)資源對(duì)象的含義,使得機(jī)-機(jī)之間以及人-機(jī)之間都能夠更有效地合作處理。在語義萬維網(wǎng)中定義和鏈接的數(shù)據(jù)能被各種不同的應(yīng)用以更為有效的方式查詢、重用和集成。
語義網(wǎng)的信息具有充分的、完備的語義定義,能夠在計(jì)算機(jī)之間以及人與計(jì)算機(jī)之間建立語義上的理解與合作。在一定程度上,我們可以認(rèn)為語義網(wǎng)是能夠理解語義的萬維網(wǎng),它將成為未來的萬維網(wǎng)。語義網(wǎng),不僅可以描述現(xiàn)有網(wǎng)絡(luò)中的媒體資源(如網(wǎng)頁、圖像等),還可以描述人、地點(diǎn)、組織和事件等對(duì)象。它不僅包括資源之間單純的超鏈接關(guān)系,而且可以表示上面提到的對(duì)象之間的不同關(guān)聯(lián)。通過對(duì)領(lǐng)域知識(shí)的概念建模和數(shù)據(jù)語義的明確表達(dá),語義網(wǎng)能夠?yàn)橛脩籼峁└邔哟蔚姆?wù)。
近年來,語義網(wǎng)的研究已在國內(nèi)外掀起了陣陣熱潮,并出現(xiàn)了一些應(yīng)用性實(shí)例。在美國,語義網(wǎng)技術(shù)已被應(yīng)用于醫(yī)學(xué)界用于描述醫(yī)學(xué)術(shù)語,美國國立虛擬天文臺(tái)、國防部高級(jí)研究計(jì)劃局也都饒有興趣地研究語義網(wǎng)技術(shù)在各自領(lǐng)域中的應(yīng)用。在歐洲,歐洲委員會(huì)投資創(chuàng)建了Ontoweb,該網(wǎng)絡(luò)的主要目標(biāo)是把基于ontology的方法和語義網(wǎng)工具等方面結(jié)合起來,Ontoweb是不同興趣小組相互交流的平臺(tái)。在國內(nèi),語義網(wǎng)技術(shù)也逐漸應(yīng)用于醫(yī)學(xué)、商業(yè)等各個(gè)領(lǐng)域,許多大商業(yè)公司、科研機(jī)構(gòu)也紛紛參與到語義網(wǎng)的研究中。
在學(xué)術(shù)界,Tim Berners-Lee提出了語義網(wǎng)的層次架構(gòu),該架構(gòu)由七個(gè)層次組成[2]:
第一層:統(tǒng)一字符編碼(Unicode)和統(tǒng)一資源定位符(URI)。Unicode用于處理資源的編碼,保證使用的是國際通用字符集,實(shí)現(xiàn)信息的統(tǒng)一編碼。URI支持語義網(wǎng)上對(duì)象和資源的精細(xì)標(biāo)識(shí),為精確信息檢索打下基礎(chǔ)。
第二層:XML+域名空間(Name Space)
+XML模式(XML Schema)。XML(eXtensible
Markup Language,可拓展標(biāo)記語言)來源于SGML(Standard Generalized Markup Language,標(biāo)準(zhǔn)通用標(biāo)記語言)。SGML是標(biāo)記語言的標(biāo)準(zhǔn),XML省略了SGML中復(fù)雜和不常用的部分,是一個(gè)精簡的SGML,它綜合了SGML的豐富功能與HTML的易用性,XML允許用戶創(chuàng)建屬于自己的標(biāo)簽(tags),因此稱為“可拓展”,XML并沒有為我們提供任何已經(jīng)定義好的標(biāo)簽,它只是提供了一個(gè)標(biāo)準(zhǔn)。利用這個(gè)標(biāo)準(zhǔn),用戶可以根據(jù)自己的實(shí)際需要定義一套標(biāo)簽,即一種新的標(biāo)記語言。XML將資源信息的結(jié)構(gòu)、內(nèi)容與數(shù)據(jù)的表現(xiàn)形式進(jìn)行分離,確保語義網(wǎng)的定義。
第三層:RDF+RDF模式(RDF Schema)。資源描述框架RDF(Resource Description Framework,)是用于表達(dá)資源的元數(shù)據(jù)信息,其基本思想是:用URI來標(biāo)識(shí)事物;將一切可以在萬維網(wǎng)上標(biāo)識(shí)的事物(具體的或抽象的,存在的或不存在的)統(tǒng)稱為“資源”;用屬性(Property)和屬性值描述資源。RDF使用主體、謂詞和客體描述陳述。主體表示區(qū)別其它事物的部分,謂詞表示主體所持有的各個(gè)屬性,客體表示各個(gè)屬性對(duì)應(yīng)的屬性值。通過對(duì)主體的屬性填入相應(yīng)的值,描述關(guān)于主體的元數(shù)據(jù),一個(gè)這樣的三元組可以描述關(guān)于主題的一個(gè)特性,如圖1所示。
圖1 RDF表述模型
該層為資源描述提供統(tǒng)一的通用框架和實(shí)現(xiàn)數(shù)據(jù)集成的元數(shù)據(jù)解決方案,RDF和RDFS用于對(duì)URI標(biāo)識(shí)的對(duì)象進(jìn)行陳述。
第四層:本體(Ontology)。用于在信息結(jié)構(gòu)和信息內(nèi)容分離之后對(duì)信息作完全形式化的描述,描述資源本身以及各個(gè)資源之間的語義信息。
第五層:邏輯(Logic)。用于提供公理和推理規(guī)則。
第六層:證明(Proof)。對(duì)邏輯層產(chǎn)生的規(guī)則進(jìn)行證明,從而判斷推理是否正確。
第七層:信任(Trust)。用于保障信息交流安全可靠。
4.結(jié)束語
語義網(wǎng)的突出特點(diǎn)是對(duì)信息的“理解和推理”能力,它能夠在隱藏的編碼中明確指出每一項(xiàng)的具體含義,從而使計(jì)算機(jī)“理解”信息內(nèi)容。它還能讓計(jì)算機(jī)在“理解”信息之后,根據(jù)已有數(shù)據(jù)和規(guī)則進(jìn)行邏輯推理和自動(dòng)處理。我們期待語義網(wǎng)技術(shù)早日成熟,使網(wǎng)絡(luò)更好地為人類服務(wù)。
參考文獻(xiàn):
[1]宋煒,張銘.語義網(wǎng)簡明教程[M].北京:高等教育出版社,2004.
[2]劉興.基于語義網(wǎng)的網(wǎng)絡(luò)管理服務(wù)處理機(jī)制[D].北京郵電大學(xué),2011.
[3]黎明.基于語義網(wǎng)的信息檢索技術(shù)的研究[D].南京理工大學(xué),2007.
[4]黃果,周竹榮,周亭.基于語義網(wǎng)的信息檢索研究[J].西南大學(xué)學(xué)報(bào)(自然科學(xué)版),2007(01).
[5]Guarino N,Masolo C,Vetere G.,OntoSeek:Content-Based Access to the Web.IEEE Intelligent Systems,1999,14(3):70-80.
作者簡介:李靜(1979—),女,湖南邵陽人,主要從事一線教學(xué)工作和計(jì)算機(jī)應(yīng)用研究。