李躍新,張 瑞,洪宗祥
(1.湖北大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,湖北 武漢 430062;2.商丘師范學(xué)院 計(jì)算機(jī)與信息技術(shù)學(xué)院,河南 商丘 476000)
語(yǔ)義網(wǎng)絡(luò)是奎廉(J.R.Quillian)于1968年在他的博士論文中作為人類(lèi)聯(lián)想記憶的一個(gè)顯式心理學(xué)模型最先提出的[1]。隨后在他設(shè)計(jì)的可教式語(yǔ)言理解器TLC(Teacher Language Comprehended)中用作知識(shí)表示,1972年西蒙將其用于自然語(yǔ)言理解系統(tǒng)。目前,人工智能和知識(shí)工程許多領(lǐng)域廣泛地應(yīng)用語(yǔ)義網(wǎng)絡(luò),這種知識(shí)表示方法表達(dá)能力強(qiáng)并且靈活多變。
當(dāng)前國(guó)內(nèi)外語(yǔ)義網(wǎng)絡(luò)的存儲(chǔ)和使用的工具,多是基于本體的知識(shí)體系的, 如 Sesame、Jena、3store、SquishQL 等幾種存儲(chǔ)管理系統(tǒng)。 JENA語(yǔ)言,是以RDF(Resource Description Framework)API為核心的,可以用來(lái)實(shí)現(xiàn)語(yǔ)義網(wǎng)的一種方便的語(yǔ)言[2]。JENA支持RDF的創(chuàng)建、操作和查詢(xún)等多項(xiàng)功,也支持很多不同的數(shù)據(jù)存儲(chǔ)技術(shù)。SquishQL語(yǔ)言從名字就可以看出與SQL語(yǔ)言有聯(lián)系。這是一種基于SQL的RDF查詢(xún)語(yǔ)言,使用比較簡(jiǎn)便,并且有兩種約束類(lèi),可以用來(lái)表達(dá)模式和過(guò)濾,可以直接將Web作為數(shù)據(jù)庫(kù)使用[3]。從定義上來(lái)看,本體是一種基于理論的知識(shí)體系,在理論研究中被廣泛用來(lái)描述領(lǐng)域知識(shí)[4]。所以應(yīng)以本體理論為依據(jù),根據(jù)實(shí)際的需要,制定規(guī)劃相應(yīng)的知識(shí)管理方案和策略[5]。作者正在研究本體論表示領(lǐng)域的知識(shí)體系,語(yǔ)義網(wǎng)絡(luò)表示領(lǐng)域的具體知識(shí)。
文中以關(guān)系數(shù)據(jù)模型為基礎(chǔ),并借助于關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)強(qiáng)大的存儲(chǔ)和處理能力以及良好的可靠性,介紹語(yǔ)義網(wǎng)絡(luò)知識(shí)表示方法,在關(guān)系數(shù)據(jù)庫(kù)支持下的存儲(chǔ)、使用和維護(hù)的技術(shù)方法并討論和分析這種技術(shù)下的存取效率。
語(yǔ)義網(wǎng)絡(luò)主要是將概念及其語(yǔ)義關(guān)系用圖的方式來(lái)表示一種知識(shí)結(jié)構(gòu)。單純從圖論的來(lái)看,它其實(shí)就是一個(gè)“有方向的圖”。下圖是一個(gè)最簡(jiǎn)單的語(yǔ)義網(wǎng)絡(luò),用三元組來(lái)表示:
圖1 基本語(yǔ)義網(wǎng)元的圖表示Fig.1 Basic semantic elements
其中node1、node2表示知識(shí)領(lǐng)域中的事物、概念和事件等,arc表示事物、概念和事件等之間的聯(lián)系。可用如圖1所示方法表示。node i用矩型圖表示,arc用有向直線(xiàn)表示。主要的聯(lián)系有:
1)隸屬關(guān)系——is a;
2)聚集關(guān)系——a part of;
3)分類(lèi)關(guān)系——a kind of;
4)推論關(guān)系——derived from;
5)活動(dòng)或行為關(guān)系——action or take part in;
6)時(shí)間、空間等關(guān)系——before、after、behind、in、at。
語(yǔ)義網(wǎng)絡(luò)系統(tǒng)是多結(jié)點(diǎn)的有向圖表示領(lǐng)域完整的知識(shí)系統(tǒng)。其定義如下:
其中V表示知識(shí)系統(tǒng)中的結(jié)點(diǎn)集合,E表示結(jié)點(diǎn)間的聯(lián)系集合。
語(yǔ)義網(wǎng)絡(luò)的不確定性表示,這里需要從3個(gè)方面進(jìn)行:
1)語(yǔ)義聯(lián)系的不確定性;
2)結(jié)點(diǎn)的不確定性;
3)語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)的不確定性。
文中考慮語(yǔ)義網(wǎng)絡(luò)節(jié)點(diǎn)聯(lián)系的不確定性,為此提出二元組:
其中,G為(2)式表示的有向圖,V是語(yǔ)義網(wǎng)絡(luò)中結(jié)點(diǎn)的集合:V=(v1,v2,…,vn)。
若 E(vi,vj)存在,E 為 G 中的邊集合,定義
μi是 E(vi,vj)的隸屬度,表示結(jié)點(diǎn)(vi,vj)聯(lián)系的模糊度、重要度等;F是V×V上的一個(gè)模糊關(guān)系。
二元關(guān)系模型可描述語(yǔ)義網(wǎng)中的有向邊的起始節(jié)點(diǎn)和終止節(jié)點(diǎn)之間的關(guān)系:
Start_Node(NodeID,NodeName,NodeArcIndex)
End_Node(NodeID,NodeName,ArcAttribute, Membership)
Start_Node關(guān)系描述了語(yǔ)義網(wǎng)中有向邊的起始節(jié)點(diǎn),其屬性分別為NodeID節(jié)點(diǎn)ID,NodeName節(jié)點(diǎn)名稱(chēng)。End_Node為有向邊的末端節(jié)點(diǎn),其屬性分別為NodeID有向邊末端節(jié)點(diǎn)ID,ArcAttribute節(jié)點(diǎn)的關(guān)系,Membership關(guān)系的隸屬度。用數(shù)學(xué)語(yǔ)言抽象兩個(gè)關(guān)系構(gòu)成一個(gè)二維矩陣,Start_Node為行元素,End_Node為列元素,ArcAttribute為元素的值(Membership也可是元素的值,這時(shí)元素的值將是一個(gè)二元組)。
有如下所述的關(guān)于小明和小麗的事實(shí)[6]:
小明和小麗是XX小學(xué)6年級(jí)學(xué)生,他倆是興園小區(qū)的鄰居。小明養(yǎng)有一只小狗,名叫“笨笨”,小明的媽媽每天下午7點(diǎn)鐘在小區(qū)內(nèi)遛狗,她可以看到小區(qū)內(nèi)有很多中老年人在鍛煉身體。
上述事實(shí)可抽象出的概念有(含時(shí)間概念):小明、小麗、XX小學(xué)、6年級(jí)、鄰居、狗、笨笨、小明的媽媽、中老年人、興園小區(qū)、下午、7點(diǎn)等,可抽象出的事件或活動(dòng):飼養(yǎng)、遛狗、鍛煉身體等。因此關(guān)于小明和小麗的事實(shí)可用如圖3所示的語(yǔ)義網(wǎng)絡(luò)描述。
圖2 關(guān)于小明和小麗事實(shí)語(yǔ)義網(wǎng)表示Fig.2 Bob and Mary's facts are described with the semantic network
關(guān)于小明和小麗事實(shí)語(yǔ)義網(wǎng)絡(luò)表示的數(shù)據(jù)庫(kù)關(guān)系表可依照Start_Node和End_Node關(guān)系建立如圖3所示的數(shù)據(jù)表,其中End_Node_Table最多有n個(gè),由于結(jié)點(diǎn)的關(guān)系為確定關(guān)系,屬性Membership省略 。
圖3 小明和小麗事實(shí)語(yǔ)義網(wǎng)絡(luò)的數(shù)據(jù)庫(kù)關(guān)系表Fig.3 Bob and Mary’s facts are described with the database relationship table
現(xiàn)在分析一下基于關(guān)系模型的語(yǔ)義網(wǎng)知識(shí)表示的空間資源耗費(fèi)情況。設(shè)知識(shí)領(lǐng)域的語(yǔ)義網(wǎng)表示的圖G=(V,E)中,V的結(jié)點(diǎn)數(shù)為n,Start_Node_Table表記錄的個(gè)數(shù)最大為 n,最壞的情況下每個(gè)結(jié)點(diǎn)i有指向所有結(jié)點(diǎn)的有向邊,End_Node_Tablei表的個(gè)數(shù)i為n,而表中的記錄個(gè)數(shù)也是n,因此知識(shí)領(lǐng)域的語(yǔ)義網(wǎng)表示的關(guān)系數(shù)據(jù)庫(kù)實(shí)現(xiàn)時(shí)最壞情況下的記錄數(shù)為:S(n)=O(n2)。 可以看出雖然 S(n)為多項(xiàng)式,但還是比較大的,因此如何優(yōu)化數(shù)據(jù)庫(kù)查詢(xún)提高知識(shí)使用效率將是后續(xù)研究的重點(diǎn)。
文中提出了給予關(guān)系模型的語(yǔ)義網(wǎng)的知識(shí)表示,并用關(guān)系數(shù)據(jù)庫(kù)表表示了一段的事實(shí),可以看出這種方法很好的解決了用二維關(guān)系表表示多維非結(jié)構(gòu)性知識(shí)的問(wèn)題。因論文的篇幅有限,文中沒(méi)有涉及如何查詢(xún)數(shù)據(jù)庫(kù)(如何使用知識(shí)),即利用事實(shí)推理得到與事實(shí)相關(guān)的事實(shí)以及如何得到隱含在事實(shí)中的事實(shí)。另外由于語(yǔ)義網(wǎng)表示知識(shí)本身也有缺陷,如表示知識(shí)的方法不統(tǒng)一、表示一個(gè)完整的、規(guī)模較大的知識(shí)體系比較困難[7-8]。這些問(wèn)題正在進(jìn)行深入的研究,研究的結(jié)果將發(fā)表在另外的論文中。
[1]陸建江,張亞非,苗壯,等.語(yǔ)義網(wǎng)原理與技術(shù)[M].北京:科學(xué)出版社,2007.
[2]鄧志鴻,唐世渭,張銘,等.Ontology研究綜述[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2002,38(5):730-738.DENG Zhi-hong,TANG Shi-wei,ZHANG Ming,et al.Ontology research[J].Journal of Peking University:Natural Science Edition,2002,38(5):730-738.
[3]Neches R,F(xiàn)ikes R Finin T,et a1.Enabling technology for knowledge sharing[J].AI Magazine,1991,12(3):36-56.
[4]Pan Z,Zhang X,Heflin J.DLDB2:A Scalable Multi-Perspective Semantic WebRepository[C]//In W1 08:Proceedings of the International Conference on WebIntelligence.IEEE Computer Society Press,IEEE,2008:489-495.
[5]Haarslev V,Moiler R.RACER System Description[C]//Proc.of the International Joint Conference on Automated Reasoning.Heidelberg:Springer-Overflag,2002.
[6]李躍新,胡婕.知識(shí)工程基礎(chǔ)與應(yīng)用案例[M].北京:科學(xué)出版社,2006.
[7]Gruber T R.Toward Principles for the Design of Semantic network Used for Knowledge Sharing[C]//Revision:August 23,2005.
[8]李曼,王琰,趙益宇,等.基于關(guān)系數(shù)據(jù)庫(kù)的大規(guī)模本體的存儲(chǔ)模式研究[J].華中科技大學(xué)學(xué)報(bào),2005(12):217-220.LI Man,WANG Yan,ZHAO Yi-yu.Research of large-scale storage model ontology based on relational database[J].Journal of Huazhong University of Science and Technology,2005(12):217-220.