摘要:Deep Web數(shù)據(jù)源發(fā)現(xiàn)是指從Web中搜索到含有Web數(shù)據(jù)庫的Deep Web站點。查詢接口作為Deep Web數(shù)據(jù)源信息訪問的唯一入口,發(fā)現(xiàn)工作更多地轉(zhuǎn)向了對查詢接口的判定。本文在處理時,首先構(gòu)建領(lǐng)域本體模型,并利用HowNet語義知識辭典進(jìn)行語義相似度計算,完成查詢接口判定工作,同時通過啟發(fā)式規(guī)則提高查詢接口判定的效率。
關(guān)鍵詞:Deep Web本體;語義相似度;啟發(fā)式規(guī)則
中圖分類號:TP391.1 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9599 (2012) 20-0000-02
Deep Web數(shù)據(jù)源發(fā)現(xiàn)一般指從Web中搜索到含有后臺數(shù)據(jù)庫的Deep Web站點,具體工作包括Web頁面爬取、表單特征抽取、查詢接口判定等部分,涉及的主要概念有:
定義1. Deep Web數(shù)據(jù)源(Deep Web Data Source, WDS)可以描述為一個三元組:WDS=(I, R, D)。其中:
(1)I指Deep Web數(shù)據(jù)源查詢接口,即用戶提交查詢的入口;(2)R指通過查詢接口提交查詢請求后Deep Web數(shù)據(jù)源返回的結(jié)果集;(3)D指Deep Web數(shù)據(jù)源后臺數(shù)據(jù)庫。
定義2. Deep Web查詢接口(Query Interface,QI)用I表示,可以描述為:I=(I_Name,Attributes,Number),其中:
(1)I_Name指抽取得到的查詢接口名稱;(2)Attributes定義為一個二元組數(shù)據(jù)集合,表示查詢接口中所有的屬性名-值信息,Attributes={a1, a2……an}。其中,ai=(Name, Values),Name為屬性名稱,Values為屬性值域。(3)Number表示查詢接口中屬性數(shù)目,用N表示。
定義3.頁面表單(Page Interface,PI)可以描述為一個四元祖:PI=(ID, PI_Name,Attributes,Number),其中:
(1)ID指頁面表單的編號,用于惟一標(biāo)識一個頁面內(nèi)的某表單;(2)PI_Name為表單名稱,Attributes、Number與查詢接口中的定義相同。從查詢接口與頁面表單的定義中可以得到,I∈PI。
定義4.查詢接口判定(Query Interface Determining, QID),假設(shè)頁面Page中同時含有表單:PI1、PI2…,則QID定義為按照一定的方法對所有表單進(jìn)行判定,看是否有表單是查詢接口。
1 本體模型構(gòu)建
由于Deep Web具有信息量大、異構(gòu)性等特點,使得Deep Web數(shù)據(jù)源具有明顯的領(lǐng)域限定特點,因此,本文引入領(lǐng)域本體模型輔助完成數(shù)據(jù)源發(fā)現(xiàn)工作。
本體是一個知識表示模型,用于定義一個領(lǐng)域內(nèi)的基本概念、關(guān)系和規(guī)則,本體模型構(gòu)建則是在領(lǐng)域?qū)<业膮f(xié)助下明確領(lǐng)域的概念及概念之間的關(guān)系,構(gòu)建領(lǐng)域本體模型。針對Deep Web查詢接口判定工作需要,本文給出了一個本體模型。
定義5.本體模型可以描述為一個六元組(C, T, R1, PI, L, R2),其中:
(1)C表示領(lǐng)域內(nèi)的一個概念劃分,每個概念ci都有取值范圍,包含若干個具體取值,且 ,其中i≠j;(2)T為概念Ci的取值范圍,有若干具體取值決定,Ci=T={t1,t2…}由此可得Ci至少對應(yīng)有一個取值結(jié)果。(3)R1表示T內(nèi)取值之間的關(guān)系,查詢接口的語義信息可以由若干個概念表示,概念則對應(yīng)一個或多個具體取值,具體取值之間的關(guān)系影響其在查詢接口中的顯示。(4)PI指頁面Page內(nèi)的表單,在表示時用經(jīng)過語義信息提取后的Attributes值表示;(5)L表示領(lǐng)域本體模型的集合,且有L={l1, l2…,lm},每個具體的領(lǐng)域li用概念C具體表示;(6)R2表示PI與L之間的關(guān)系,如果PI是一個查詢接口,則定有PI屬于某個領(lǐng)域li,否則PI≮L。
2 基于語義相似度的查詢接口判定
查詢接口作為Deep Web數(shù)據(jù)源的唯一入口,具有非常高的價值,可以通過判定頁面表單是否為查詢接口來確定站點是否為Deep Web數(shù)據(jù)源。本文利用網(wǎng)頁表單特征抽取獲得表單語義化表示,并在本體模型的基礎(chǔ)上采用語義相似度計算方法完成查詢接口判定工作。
2.1 網(wǎng)頁表單特征抽取
常見的網(wǎng)頁表單都是用HTML語言描述,通過分析頁面HTML代碼,可以發(fā)現(xiàn)網(wǎng)頁表單的主要內(nèi)容包含在
經(jīng)過表單特征分析后,得到表單對應(yīng)HTML代碼和特征集合。在特征抽取完成后,需要根據(jù)特征集合信息提取得到表單的語義信息表示,例如從表單的特征集合中可以獲得表單語義表示為:PI=(書名, 作者, 出版社)。
2.2 語義相似度計算
經(jīng)過特征抽取后,表單可以表示為語義信息,如果一個表單是查詢接口,則它的語義信息必定與領(lǐng)域本體模型非常相近。因此,在進(jìn)行查詢接口判定時,需要計算表單語義信息與領(lǐng)域本體模型之間的相似度,本文在HowNet[6-7]的基礎(chǔ)上給出了語義相似度計算方法。
定義6.表單PI與領(lǐng)域本體模型li的相似度 ,在計算 時,通過計算表單PI所有語義項與本體模型所有概念之間相似度后給出,方法為:
其中vj為表單PI的語義項。
定義7.目標(biāo)領(lǐng)域本體模型,計算PI與多個領(lǐng)域本體模型的集合L中各元素的之間的相似度,并取其中相似度最大的本體模型作為PI的目標(biāo)領(lǐng)域本體模型。用公式描述如下:領(lǐng)域本體模型集合中某一元素為目標(biāo)領(lǐng)域本體模型lt當(dāng)且僅當(dāng)t滿足 且 其中β為給定閥值。
定義8.表單PI的語義項vj與領(lǐng)域本體模型li中概念ck的相似度 為語義項vj與概念ck對應(yīng)概念指V的最大相似度:
定義9.語義項vj與概念ck具體概念值vm的相似度 ,語義項和具體概念值都是由詞語表示,因此 值與 相同,其中w1表示vj,w2表示vm,公式描述如下:
定義10.義原相似度 ,義原相似度計算時利用義原之間的距離來衡量,兩個義原相似度隨著距離增大而減少,參照HowNet義原層次樹中的距離計算方法Dis,給出 計算公式: 其中 是可調(diào)節(jié)參數(shù)。
參照定義6至定義10的計算公式,若能得到表單PI與領(lǐng)域本體模型集合L中最為匹配度且相似度大于閾值的目標(biāo)領(lǐng)域本體模型,則定義表單PI為查詢接口。否則,PI不是一個查詢接口。同時本文為了進(jìn)一步提高查詢接口判定的效率,在實際處理時通過啟發(fā)式規(guī)則輔助完成接口判定,所采用的啟發(fā)式規(guī)則如下:
(1)用n表示頁面表單中控件數(shù)目,給定一個閥值N,對于 n 3 結(jié)語 基于本體和語義相似度的數(shù)據(jù)源發(fā)現(xiàn)方法,利用了領(lǐng)域背景知識和語義計算方法,以及啟發(fā)式規(guī)則,取得了較好的實驗效果,平均準(zhǔn)確率達(dá)到了86.6%,具有很好的可行性和有效性。 參考文獻(xiàn): [1]方巍,胡鵬昱,趙朋朋,崔志明.基于語義的Deep Web數(shù)據(jù)源自動發(fā)現(xiàn)技術(shù)[J].微電子學(xué)與計算機(jī),2007,Vol 24(9):1799-1802. [作者簡介] 卓林(1986-)男,漢,江蘇省徐州市人,碩士研究生,從事智能化信息處理工作。