龍 瑞
(鄭州成功財(cái)經(jīng)學(xué)院 河南 451200)
當(dāng)前WWW的發(fā)展速度極為驚人,整個(gè)網(wǎng)絡(luò)正在形成一個(gè)前所未有的超級(jí)信息數(shù)據(jù)庫。2007年3月,由EMC公司贊助IDC進(jìn)行的研究,題為《數(shù)字宇宙膨脹:到2010年全球信息增長(zhǎng)預(yù)測(cè)》研究結(jié)果稱,2006年全球產(chǎn)生的數(shù)字化信息總量達(dá)1610億吉比特,其中原創(chuàng)信息為400億吉比特。而到2010年,全球產(chǎn)生的數(shù)字化信息總量有望達(dá)到9880億吉比特。
然而目前的網(wǎng)絡(luò)搜索引擎平均只能檢索25%的可獲取信息,其搜索結(jié)果常含有大量無用信息。另一方面,由于數(shù)字化信息具有形式復(fù)雜和內(nèi)容分散的特點(diǎn),其結(jié)構(gòu)的關(guān)聯(lián)性和數(shù)據(jù)的兼容性直接影響著數(shù)字化信息資源的有效管理和利用。這就導(dǎo)致傳統(tǒng)數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)字化信息進(jìn)行挖掘的效果總是不盡如人意。造成這些問題的一個(gè)重要原因是大量的數(shù)字化信息只能人工解析,機(jī)器自動(dòng)處理的能力很弱。因此Tim Berners-Lee提出了語義網(wǎng)的思想,即Web上定義的鏈接數(shù)據(jù)不僅能夠顯示,而且還應(yīng)該是機(jī)器可理解的,也就是說可以被機(jī)器自動(dòng)地處理、集成和重用。
Tim Berners-Lee并沒有就語義網(wǎng)的數(shù)學(xué)問題進(jìn)行嚴(yán)格定義,通過與萬維網(wǎng)的對(duì)比,他給出的描述是:語義網(wǎng)并非一個(gè)從無到有、孤立發(fā)展的萬維網(wǎng),而是對(duì)萬維網(wǎng)的擴(kuò)展與延伸,語義網(wǎng)信息具有定義良好的含義,計(jì)算機(jī)可以憑借概念的定義申明和邏輯推理規(guī)則尋找到資源對(duì)象的含義,從而使得人—機(jī)之間和機(jī)—機(jī)之間合作處理更加有效;數(shù)據(jù)通過語義網(wǎng)中的定義和鏈接可以以更有效的方式實(shí)現(xiàn)各種檢索、重用和集成。
1929年,匈牙利作家F·Karinthy最早提出了“小世界現(xiàn)象”的論斷[3]。他認(rèn)為,地球上的任何兩個(gè)人都可以平均通過一條由六位聯(lián)系人組成的鏈條而聯(lián)系起來。而后,在20世紀(jì)60年代,美國哈佛大學(xué)社會(huì)心理學(xué)教授斯坦利·米爾格蘭姆通過設(shè)計(jì)一個(gè)連鎖信件實(shí)驗(yàn),提出了著名的“六度分割”假說,即“小世界現(xiàn)象”。這體現(xiàn)了一個(gè)似乎很普遍的客觀規(guī)律:在如今的信息化時(shí)代,人們之間的關(guān)系已經(jīng)完全社會(huì)化,任何兩位素不相識(shí)的人都可能通過“六度空間”產(chǎn)生必然聯(lián)系或關(guān)聯(lián)。
“六度分離”在學(xué)術(shù)上稱為“小世界現(xiàn)象”或“小世界效應(yīng)”。小世界效應(yīng)的精確定義還在討論中,目前一個(gè)較合理的解釋是:若網(wǎng)絡(luò)中兩點(diǎn)間的平均距離 L隨網(wǎng)絡(luò)大小(網(wǎng)絡(luò)中結(jié)點(diǎn)數(shù) N)呈對(duì)數(shù)增長(zhǎng),即 ~ln L N,且網(wǎng)絡(luò)的局部結(jié)構(gòu)上仍具有較明顯的集團(tuán)化特征,則稱該網(wǎng)絡(luò)具有小世界效應(yīng)。
小世界網(wǎng)絡(luò)模型是Watts和Strogatz在1998年提出的基于人類社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)模型,它通過調(diào)節(jié)一個(gè)參數(shù)可以從規(guī)則網(wǎng)絡(luò)向隨機(jī)網(wǎng)絡(luò)過渡。
對(duì)于小世界網(wǎng)絡(luò)的理論研究目前還處于探索階段,大致可分為兩類:一是隨機(jī)網(wǎng)絡(luò);二是著名的W—S 小世界網(wǎng)絡(luò)模型及轉(zhuǎn)化類型。根據(jù)W—S 的小世界網(wǎng)絡(luò)模型,可以認(rèn)為Internet是一個(gè)小世界網(wǎng)絡(luò),它具有小世界網(wǎng)絡(luò)的特征。因此,我們?cè)诜治鯥nternet網(wǎng)絡(luò)特征后,可以運(yùn)用小世界原理來改善Internet的信息交流過程:利用小世界網(wǎng)絡(luò)特征來減少Internet上信息傳播的路徑長(zhǎng)度和提高網(wǎng)絡(luò)的可靠性;研究Internet的魯棒性和脆弱性,重視網(wǎng)絡(luò)關(guān)鍵結(jié)點(diǎn)在傳播中的作用;并逆向運(yùn)用小世界原理阻止計(jì)算機(jī)病毒在Internet上蔓延。對(duì)小世界網(wǎng)絡(luò)的研究,意義不僅在于它從網(wǎng)絡(luò)的抽象角度重視和描述了現(xiàn)實(shí)中的小世界現(xiàn)象,而且在于它提供了如何理解從局部特征涌現(xiàn)出系統(tǒng)結(jié)構(gòu)的新的線索。
本文是基于小世界網(wǎng)絡(luò)和語義網(wǎng)理念研究信息檢索的,由以上對(duì)小世界網(wǎng)絡(luò)的介紹可知,Internet具有小世界網(wǎng)絡(luò)的兩個(gè)特性:小世界效應(yīng) (~ln)L N和集團(tuán)化特征 C。在研究中,我們把Internet視為小世界網(wǎng)絡(luò),把網(wǎng)頁作為小世界網(wǎng)絡(luò)模型中的節(jié)點(diǎn),網(wǎng)頁的URL、name、type、language等定義為節(jié)點(diǎn)的屬性,而連接節(jié)點(diǎn)的邊則是根據(jù)語義的相似或相近度來定義的,這樣就形成了鄰居節(jié)點(diǎn)和相關(guān)節(jié)點(diǎn),下面對(duì)這兩類節(jié)點(diǎn)簡(jiǎn)單定義:
鄰居節(jié)點(diǎn):如果兩個(gè)節(jié)點(diǎn)iPjP直接相聯(lián),那么它們互為鄰居;
相關(guān)節(jié)點(diǎn):如果一個(gè)節(jié)點(diǎn)iP通過其它節(jié)點(diǎn)kP與一另一個(gè)節(jié)點(diǎn)jP相聯(lián)并交互,那么jP被定義為iP的一個(gè)相關(guān)節(jié)點(diǎn)。
Ontology是一種能在語義層次上描述知識(shí)的概念模型,其目的在于以一種通用的方式來獲取領(lǐng)域中的知識(shí),提供對(duì)領(lǐng)域中概念的共同一致的理解,從而實(shí)現(xiàn)知識(shí)在不同的應(yīng)用系統(tǒng)之間的共享和重利用[6]。在研究中,以網(wǎng)頁作為節(jié)點(diǎn),網(wǎng)站和超鏈接形成重要節(jié)點(diǎn);用語義分析網(wǎng)頁中的數(shù)據(jù)和信息,根據(jù)相似偏好和行為形成節(jié)點(diǎn)簇。Ontology對(duì)這些重要節(jié)點(diǎn)和節(jié)點(diǎn)簇進(jìn)行描述與分類,以形成不同的系統(tǒng),便于機(jī)器理解這些節(jié)點(diǎn)包含的數(shù)據(jù)和信息,從而提高信息檢索的查全率和查準(zhǔn)率;前面我們定義連接節(jié)點(diǎn)的邊是根據(jù)語義的相似或相近度,這些連接網(wǎng)頁的邊分為雙向的和單向的;超鏈接是網(wǎng)絡(luò)中的捷徑,即小世界網(wǎng)絡(luò)中的“斷鍵重連”。下面我們將用實(shí)例解析。
本文簡(jiǎn)要地介紹了語義網(wǎng)理念和小世界網(wǎng)絡(luò),指出了當(dāng)前Internet信息檢索的低效性。針對(duì)這種狀況,我們提出了基于語義的小世界網(wǎng)絡(luò)節(jié)點(diǎn)關(guān)聯(lián)的信息檢索,根據(jù)Internet具有小世界網(wǎng)絡(luò)的特征,用語義定義網(wǎng)絡(luò)中的節(jié)點(diǎn)以及節(jié)點(diǎn)根據(jù)自身的資源搜索與自己具有相似偏好和行為的節(jié)點(diǎn)形成鄰居節(jié)點(diǎn)和相關(guān)節(jié)點(diǎn),最終形成具有相似語義的節(jié)點(diǎn)簇,提高了信息檢索的查全率和查準(zhǔn)率,實(shí)現(xiàn)以較小的代價(jià)檢索到所需的數(shù)據(jù)這一目的。
[1]美國EMC.《數(shù)字宇宙膨脹:到2010年全球信息增長(zhǎng)預(yù)測(cè)》2007.3
[2]T.Berner-Lee, J.Henller, and O.Lassila.The SemanticW eb[J].Scientific American,May 2001.
[3]Braun T.Hungarian priority in network theoty[M].Science,2004:1745.
[4]Travers J,M ilgram S.An experimental study of the small world problem[M].Sociometry,1969:425——443.
[5]Watts DJ,Strongatz SH.Collective dynam ics of small-world networks[J].Nature,1998,393:440-442.
[6]劉耀.領(lǐng)域Ontology自動(dòng)構(gòu)建研究[D].北京大學(xué)博士后出站報(bào)告,2007.