亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于本體和貝葉斯網(wǎng)絡(luò)的Deep Web集成系統(tǒng)研究

        2018-03-02 07:29:51朱國(guó)進(jìn)黃琪琪
        關(guān)鍵詞:語(yǔ)義文本

        朱國(guó)進(jìn), 黃琪琪

        (東華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 上海 201620)

        引言

        隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)中出現(xiàn)了越來(lái)越多的在線數(shù)據(jù)庫(kù)。這些數(shù)據(jù)一般不被搜索引擎通過(guò)靜態(tài)鏈接而得到,而是需要通過(guò)HTML表單提交查詢,由服務(wù)器根據(jù)請(qǐng)求動(dòng)態(tài)生成頁(yè)面。研究中通常把這些隱藏在后臺(tái)的在線數(shù)據(jù)庫(kù)稱為是Deep Web,也稱為Hidden Web。

        根據(jù)Bergamn等人在2000年的研究表明,存儲(chǔ)在Deep Web中的數(shù)據(jù)量是表層Web的500倍[1],在2014年“互聯(lián)網(wǎng)實(shí)時(shí)統(tǒng)計(jì)”[2]顯示,全球互聯(lián)網(wǎng)網(wǎng)站的數(shù)量已經(jīng)超過(guò)了10.6億,而在2011年時(shí),只有5.55億,這些數(shù)據(jù)說(shuō)明互聯(lián)網(wǎng)網(wǎng)站的數(shù)量在急速增長(zhǎng),相對(duì)地Deep Web中隱藏的數(shù)據(jù)量也在大幅增加,所以業(yè)界對(duì)Deep Web的研究是極為重視的。然而這些數(shù)據(jù)隱藏在后端數(shù)據(jù)庫(kù)(即Deep Web數(shù)據(jù)源)中,無(wú)法被搜素引擎所查詢,只有在用戶提交查詢條件后通過(guò)Web服務(wù)器動(dòng)態(tài)地生成結(jié)果頁(yè)面返回給客戶端[3]。在圖1中展示了用戶通過(guò)查詢接口而在Web數(shù)據(jù)庫(kù)中獲取信息的過(guò)程。

        圖1 從Web數(shù)據(jù)庫(kù)中獲取數(shù)據(jù)庫(kù)信息

        Fig.1ObtainingdatabaseinformationfromtheWebdatabase

        1 Deep Web查詢接口集成系統(tǒng)構(gòu)建

        Deep Web研究的根本目的旨在同時(shí)訪問(wèn)分布在互聯(lián)網(wǎng)中的同領(lǐng)域Deep Web數(shù)據(jù)庫(kù)中的信息資源。本文針對(duì)Deep Web集成系統(tǒng)的關(guān)鍵問(wèn)題進(jìn)行了研究,從Deep Web的入口查詢接口為主線,研究查詢接口的特征提取、領(lǐng)域分類和接口模式匹配。

        在本文中,提出一種語(yǔ)義Deep Web方法,通過(guò)使用基于程序設(shè)計(jì)者視角和基于用戶視角的屬性提取方法,結(jié)合WordNet確定最終屬性,并通過(guò)WordNet自動(dòng)構(gòu)建領(lǐng)域語(yǔ)義本體樹,最后通過(guò)領(lǐng)域語(yǔ)義本體樹進(jìn)行訓(xùn)練得到分類器模型和查詢接口模式匹配,完成Deep Web查詢接口的集成生成模塊。設(shè)計(jì)流程如圖2所示。

        圖2 Deep Web集成系統(tǒng)構(gòu)建流程圖Fig. 2 The flow chart of Deep Web integrated system construction

        1.1 Deep Web查詢接口屬性自動(dòng)抽取

        在論述本文工作原理前,需要探討解釋Deep Web中屬性的含義。在本文中,屬性指能夠表示控件的作用的特征詞,因此,對(duì)查詢接口屬性在本文中將給出如下定義。

        定義1程序設(shè)計(jì)視角屬性(Programmer Viewpoint Attributes,簡(jiǎn)稱PVAs): PVAs是從HTML標(biāo)簽中的內(nèi)部標(biāo)識(shí)符提取,在本文中特指表單中控件的name屬性值。

        定義2用戶視角屬性(User Viewpoint Attributes,簡(jiǎn)稱UVAs): UVAs是Web表單中的文本,一般處在標(biāo)簽之間,用戶可以在查詢接口頁(yè)面中直接觀看的文本信息,如圖3中Web網(wǎng)頁(yè)中的User Id:。

        圖3DeepWeb接口示例

        Fig.3DeepWebinterfaceexample

        Deep Web接口HTML設(shè)計(jì)代碼展開如下:

        "Problem ID:"

        "User ID:"

        "Result:"

        ?

        "Language:"

        ?

        本文提取Deep Web接口的正確屬性方法如圖4所示。在圖4中,可以看到,UVA和PVA之間存在重疊區(qū)域,也就是說(shuō)通過(guò)比較PVAs和UVAs的重疊部分來(lái)確定最終屬性。

        圖4 Deep Web數(shù)據(jù)源信息處理方法Fig. 4 Deep Web data source information processing method

        1.1.1 基于程序設(shè)計(jì)者視角屬性提取

        HTML中內(nèi)部標(biāo)識(shí)符和表單中文本可以輕松地使用程序提取,然而并不能直接派作選擇使用,因此需要對(duì)其進(jìn)行處理,進(jìn)一步分成為多個(gè)獨(dú)立的單詞并生成備選屬性(CA:candidate attributes)。算法1展示了從一個(gè)Deep Web接口中分離出一組基于內(nèi)部標(biāo)識(shí)符的備選屬性CAi的步驟。其中,DSi是一組Web查詢接口,包含HTML的表單元素{HF1,HF2, …,HFn},令I(lǐng)Ii表示從DSi中提取的一組內(nèi)部標(biāo)識(shí)符,KW表示來(lái)自所在Web查詢接口中提取控件對(duì)應(yīng)的文本標(biāo)簽。算法1的基本設(shè)計(jì)代碼如下。

        算法1提取備選屬性(CA)

        for eachHFinDSi:

        //從Web頁(yè)面中抽取表單元素

        forIIiinHFi

        //從表單元素中抽取內(nèi)部標(biāo)識(shí)符

        ifIIicontains special symbols (.,_,:,@,+,=,-,*,,?, ,et)

        separateIIiinto sub-strings//如果內(nèi)部標(biāo)識(shí)符有特殊符號(hào),將其分隔成多個(gè)子字符串

        ifIIicontains capital letters

        separate each sub-strings into several sub-strings //如果分隔后的子字符串中包含大寫字母,依照大寫字母分隔開

        ifIIicontains word inKW

        separate it into sub-strings by the word

        saveIIiand sub-strings asCAi//將提取的內(nèi)部標(biāo)識(shí)符和分隔后的字符串作為CAi

        returnCAi

        從所有的Deep Web數(shù)據(jù)源中得到備選屬性(CA),PVA需要通過(guò)算法2從所有的CA中進(jìn)行提取。算法2的運(yùn)行代碼可表述如下。

        算法2提取PVA

        add allCAiinto PVA

        for string in PVA

        if string appear one time in PVA

        //刪除只出現(xiàn)一次的字符串

        remove it from PVA

        if string appear several many times in PVA

        //刪除重復(fù)項(xiàng)

        save one and remove the duplicate ones

        return PVA

        圖5展示了獲取程序設(shè)計(jì)者視角(PVA)提取屬性特征的例子。假設(shè)具有2個(gè)Deep Web數(shù)據(jù)源DS1與DS2,通過(guò)提取得到2組內(nèi)部標(biāo)識(shí)符屬性II1和II2,通過(guò)算法1進(jìn)行分隔處理,本文從2組內(nèi)部標(biāo)識(shí)符得到2組備選屬性CA1與CA2,將2組內(nèi)部標(biāo)識(shí)符通過(guò)算法2進(jìn)行處理,最終得到PVA。

        1.1.2 基于用戶視角屬性提取

        用戶視角屬性用來(lái)確定Deep Web數(shù)據(jù)源的最終屬性,這是從查詢接口的文本中獲取的。在算法3中給出了在每個(gè)Deep Web數(shù)據(jù)源中獲取UVA的過(guò)程,可將HTML標(biāo)簽之間的文本存儲(chǔ)在基于文本的備選屬性TCAi(text-based candidate attributes)。其中,標(biāo)簽之間的文本是被忽略的,因?yàn)樵谶@之間的文本表示的是實(shí)例,而不是描述屬性。

        圖5 獲取PVA示例Fig. 5 The example of obtaining the PVA

        算法3提取UVA

        for eachHFi

        obtain all the text asTCAi

        for string inTCAi

        if string is a sentence

        //如果文本為句子,提取出內(nèi)容關(guān)鍵字

        extract import word asTCAi

        if string contains special symbols (.,_,:,@,+,=,-,*,,?, ,et)

        separate string into several sub-strings //如果文本有特殊符號(hào),將其分隔成多個(gè)子字符串

        if string contains capital letters

        separate strings into several sub-strings

        //如果分隔后的子字符串中包含大寫字母,依照大寫字母分隔開

        remove the duplicated inTCAi, save it intoUVAi

        returnUVAi

        在算法3中提取UVA,和提取PVA的算法很相似。不過(guò)UVA中提取的基于文本的備選屬性是來(lái)自于控件對(duì)應(yīng)的文本。同時(shí),在部分Deep Web查詢接口控件對(duì)應(yīng)的文本是一句完整的句子,需要提取出句子內(nèi)容的關(guān)鍵字。隨后對(duì)提取屬性進(jìn)行消除重復(fù)處理,得到UVA。

        1.1.3 基于本體的屬性拓展

        本文通過(guò)WordNet本體來(lái)獲得PVAs和UVAs的同義詞,并確定最終屬性。在本文只專注于名詞,因此,使用2個(gè)規(guī)則來(lái)過(guò)濾候選屬性:檢查候選屬性在WordNet中是否有名詞含義,如果在WordNet中至少有一個(gè)名詞含義,這個(gè)詞將被保留,否則丟棄;然而,一些候選屬性是由詞組組成,無(wú)法在WordNet查詢。為了解決這個(gè)問(wèn)題,第二條規(guī)則用來(lái)保留這些重要的詞:如果一個(gè)候選屬性是由詞組構(gòu)成,且構(gòu)成詞組的單詞在WordNet中具有名詞含義,那么保留短語(yǔ)。

        利用WordNet的詞匯關(guān)系,本文通過(guò)PVA或UVA得到了其中所有的候選屬性SOPVA、SOUVA,表1即為使用WordNet獲得同義詞的例子。

        表1 獲得同義詞示例Tab. 1 The example of obtaining synonyms

        1.1.4 最終屬性提取

        最終屬性(Final Attribute,簡(jiǎn)稱FA)必定是來(lái)自于SOUVA中的元素,相比較基于程序設(shè)計(jì)者視角提取出的屬性,基于用戶視角提取的屬性更為規(guī)范。來(lái)自SOUVA中的元素其字符串或者其同義詞之一的字符串與SOPVA中的一個(gè)元素相匹配,并且與UVA的該字符串元素的所有連續(xù)字符串塊的占有率大于α %(0<α<100),α是影響最終屬性總數(shù)的因素,即α越小,最終屬性數(shù)越多。圖6即為獲取最終屬性示例。

        圖6 獲取最終屬性示例Fig. 6 The example of obtaining final attribute

        1.2 構(gòu)建Deep Web領(lǐng)域本體

        由于人類與程序之間的知識(shí)共享的目標(biāo),本體的構(gòu)建將在語(yǔ)義網(wǎng)絡(luò)和Deep Web中發(fā)揮主導(dǎo)作用。為了支持語(yǔ)義網(wǎng),構(gòu)建領(lǐng)域的特定的本體是可取的,但是,手動(dòng)構(gòu)建本體是十分困難的,極其耗時(shí)且容易出錯(cuò)[4-5]。

        當(dāng)下,自動(dòng)構(gòu)建領(lǐng)域本體的方面工作已經(jīng)成為研究熱點(diǎn),并且推出了可觀研究成果。OntoBuilder[6]通過(guò)將一個(gè)網(wǎng)站作為層次結(jié)構(gòu),在每個(gè)網(wǎng)站對(duì)應(yīng)的本體之間進(jìn)行匹配。DeepMiner[7]根據(jù)樹形結(jié)構(gòu)中表單元素的相對(duì)位置提取概念和實(shí)例。在OntoMiner中IS-A關(guān)系通過(guò)網(wǎng)頁(yè)中XML樹中的父子頻率進(jìn)行挖掘。綜上方法的共同特點(diǎn)是研究了從Web中提取出本體的方法,但是沒(méi)有提供最終的本體,無(wú)法應(yīng)用在語(yǔ)義網(wǎng)絡(luò)中。

        本文使用WordNet的語(yǔ)義關(guān)系上位詞(hypernym)將最后的屬性組合在一起,并根據(jù)其中的最近公共上位詞構(gòu)成有向無(wú)環(huán)圖DAGs(directed acyclic graphs)。將這些最終屬性根據(jù)上位詞關(guān)系組合在一起的片段稱為DAG片段(small DAGs schema fragments,簡(jiǎn)稱SFs)。當(dāng)只有一個(gè)DAG或者達(dá)到最大迭代次數(shù)時(shí),迭代終止。在圖7中展示了在Online Judge領(lǐng)域中的部分最終屬性通過(guò)最近公共上位詞構(gòu)成SF的例子。

        在圖7中,具有2個(gè)最終屬性(author, user),通過(guò)WordNet來(lái)檢索對(duì)應(yīng)的上位詞,最終發(fā)現(xiàn),可以通過(guò)person來(lái)作為最近公共上位詞,可以用person來(lái)表示這2個(gè)最終屬性。在圖7(a)中顯示了2個(gè)最終屬性;圖7(b)中因?yàn)?個(gè)最終屬性沒(méi)有直接上下位關(guān)系,因此通過(guò)WordNet找到2個(gè)屬性的上位詞,虛線橢圓表示從WordNet派生出來(lái)的本體;圖7(c)繼續(xù)尋找上位詞,發(fā)現(xiàn)person為2個(gè)最終屬性的最近公共上位詞,將person作為該SF的根節(jié)點(diǎn)。

        圖7 基于最近公共上位詞構(gòu)成樹示例Fig. 7 The example of a recent common epistasis tree

        獲得最終語(yǔ)義本體樹的步驟如算法4所示。

        算法4構(gòu)建領(lǐng)域語(yǔ)義本體樹

        for all FA

        ifFAiis a hypernym ofFAj//如果FAi是FAj的上位詞,建立IS-A連接

        create DAG by inserting a new IS-A link betweenFAiandFAj

        deleteFAi,FAjfrom FA

        else ifFAjis a hypernym ofFAi

        //如果FAj是FAi的上位詞,建立IS-A連接

        create DAG by inserting a new IS-A link betweenFAiandFAj

        deleteFAi,FAjfrom FA

        While(just has only one DAG or iteration has been reached )

        //到只有一個(gè)DAG時(shí)候或者迭代次數(shù)超過(guò)限制

        for each DAG //對(duì)每個(gè)DAG的root節(jié)點(diǎn)在WordNet中尋找上位詞

        add new root by inserting the IS-A link between DAG's old root and it's hypernym;

        for all DAG //對(duì)DAG根節(jié)點(diǎn)尋找在其它DAG中節(jié)點(diǎn)是否有其上位詞

        if find an IS-A link betweenDAGi's root andDAGj's node

        inserting a new IS-A link betweenDAGi's andDAGj's node

        領(lǐng)域本體樹構(gòu)建完成后,對(duì)最終屬性進(jìn)行拓展,尋找其同義詞集,添加進(jìn)語(yǔ)義本體樹中,進(jìn)一步消除查詢接口中屬性的詞形異構(gòu)性。在WordNet中,所有名詞的最終祖先皆為entity,因此如果在算法3,最終只有一個(gè)DAG,可以將根結(jié)點(diǎn)替換成該領(lǐng)域名稱,如果有多個(gè)DAG,可以將該領(lǐng)域名稱作為最終根結(jié)點(diǎn),并將各個(gè)DAG與該節(jié)點(diǎn)連接起來(lái)。圖8則為通過(guò)該方法得到的經(jīng)過(guò)簡(jiǎn)化的Online Judge領(lǐng)域語(yǔ)義樹。

        圖8 Online Judge領(lǐng)域簡(jiǎn)化語(yǔ)義樹Fig. 8 Online Judge domain simplified semantic tree

        在得到Deep Web領(lǐng)域本體樹的時(shí)候,可以根據(jù)領(lǐng)域語(yǔ)義本體樹生成該領(lǐng)域Deep Web集成查詢接口。例如圖8的Online Judge領(lǐng)域語(yǔ)義本體樹,可以得到problem、person、result、language四個(gè)本體,生成如圖9所示集成查詢接口。

        圖9OnlineJudge領(lǐng)域集成查詢接口

        Fig.9OnlineJudgedomainintegratedqueryinterface

        1.3 貝葉斯網(wǎng)絡(luò)分類器

        本文在使用貝葉斯網(wǎng)絡(luò)算法時(shí),通過(guò)領(lǐng)域語(yǔ)義本體樹,將測(cè)試集Deep Web查詢接口轉(zhuǎn)換成特征向量,進(jìn)行訓(xùn)練得到貝葉斯網(wǎng)絡(luò)分類器,如圖10所示。

        圖10 貝葉斯網(wǎng)絡(luò)分類器訓(xùn)練Fig. 10 Training of Bayesian network classifier

        通過(guò)語(yǔ)義本體樹將每一個(gè)Deep Web數(shù)據(jù)樣本使用一個(gè)n維特征向量X= {x1,x2,x3,…,xn}(n的維度來(lái)自于各個(gè)語(yǔ)義樹根節(jié)點(diǎn)的直接相連節(jié)點(diǎn)數(shù))表示,分別描述該Deep Web樣本具有的特征屬性:A1,A2,A3,…,An。研究步驟內(nèi)容如下。

        (1)對(duì)訓(xùn)練樣本進(jìn)行特征提取,將得到的特征與該領(lǐng)域語(yǔ)義本體樹進(jìn)行匹配,通過(guò)統(tǒng)計(jì),可以得到該領(lǐng)域貝葉斯網(wǎng)絡(luò)的條件概率表;

        (2)貝葉斯網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和條件概率表構(gòu)成貝葉斯網(wǎng)絡(luò)分類器Hn;

        (3)通過(guò)貝葉斯網(wǎng)絡(luò)分類器Hn對(duì)測(cè)試樣本進(jìn)行分類,得到分類結(jié)果。

        1.4 接口模式匹配

        由于每一個(gè)查詢接口都具有自己的命名規(guī)則,導(dǎo)致查詢接口的屬性特征具備多樣性、異構(gòu)性和欠完備性,因此需要進(jìn)行預(yù)處理過(guò)程,根據(jù)一些規(guī)則將其標(biāo)準(zhǔn)化,獲得統(tǒng)一的表達(dá)方式再進(jìn)行匹配。

        根據(jù)查詢接口中表單模式信息的情況,通過(guò)2種匹配方式來(lái)進(jìn)行模式匹配:直接模式匹配和間接模式匹配。其中,直接匹配是將表單的屬性和領(lǐng)域語(yǔ)義本體樹中的本體信息使用基于字符串的方式進(jìn)行匹配,該字符串元素的連續(xù)字符串塊的占有率大于α% (0<α<100),則匹配成功。而由于本體信息是有限的,有些可匹配的查詢接口屬性特征無(wú)法通過(guò)基于關(guān)鍵詞匹配的方法進(jìn)行匹配,此時(shí)通過(guò)查詢接口屬性特征和領(lǐng)域語(yǔ)義本體樹中的本體進(jìn)行語(yǔ)義相似度計(jì)算,來(lái)尋找匹配的本體信息,這就是間接匹配。模式匹配的整體流程如圖11所示。

        圖11 模式匹配流程圖Fig. 11 The flow chart of pattern matching

        本文中的領(lǐng)域的集成查詢接口是根據(jù)構(gòu)建的領(lǐng)域語(yǔ)義本體樹的結(jié)構(gòu)得到的,當(dāng)匹配到處于領(lǐng)域語(yǔ)義本體樹中的相應(yīng)本體后,可以通過(guò)領(lǐng)域語(yǔ)義本體樹找到集成查詢接口對(duì)應(yīng)的本體,直至查詢接口模式集合匹配中為空,就完成一個(gè)該領(lǐng)域Deep Web查詢接口與集成查詢接口的模式匹配。

        2 實(shí)驗(yàn)與結(jié)果分析

        本實(shí)驗(yàn)采用了UIUC大學(xué)的Deep Web數(shù)據(jù)集合TEL-8數(shù)據(jù)集,分為8個(gè)領(lǐng)域: Airfare、Automobile、Book、Car Rentals、Hotels、Jobs、Movie、Music??紤]到TEL-8數(shù)據(jù)集中網(wǎng)頁(yè)信息年限較久,因此,本文在每個(gè)領(lǐng)域添加了20個(gè)通過(guò)手工收集的該領(lǐng)域的Deep Web網(wǎng)頁(yè),并添加一個(gè)新領(lǐng)域Online Judge,總計(jì)9個(gè)領(lǐng)域,613個(gè)Deep Web查詢接口。

        數(shù)據(jù)集分布如表2所示。本文采用隨機(jī)在其它領(lǐng)域查詢接口與非查詢接口中抽取400個(gè)樣本作為反例。

        表2 Deep Web查詢接口數(shù)據(jù)集分布Tab. 2 Deep Web query interface data set distribution

        在本節(jié),展示了在特征屬性提取結(jié)果、貝葉斯分類判別、接口模式匹配的3個(gè)實(shí)驗(yàn)結(jié)果,通過(guò)這3個(gè)實(shí)驗(yàn)結(jié)果進(jìn)行分析,證明了本文提出的方法的可行性。

        2.1 特征屬性提取結(jié)果

        一個(gè)特征屬性是包括其控件的屬性標(biāo)簽和該控件對(duì)應(yīng)的文本信息確定的。實(shí)驗(yàn)結(jié)果如表3所示。

        表3 屬性特征提取實(shí)驗(yàn)結(jié)果Tab. 3 Experimental results of attribute feature extraction

        在表3中詳細(xì)列出在各個(gè)領(lǐng)域中提取的最終屬性、DAG數(shù)量和通過(guò)WordNet得到的拓展詞。但是目前并沒(méi)有確定對(duì)本體構(gòu)建的統(tǒng)一評(píng)價(jià)標(biāo)準(zhǔn),因此無(wú)法對(duì)本文所得到的各個(gè)領(lǐng)域語(yǔ)義本體樹進(jìn)行客觀評(píng)價(jià)。在本文中,根據(jù)應(yīng)用在貝葉斯網(wǎng)絡(luò)分類和模式匹配實(shí)驗(yàn)的結(jié)果來(lái)表現(xiàn)本文領(lǐng)域語(yǔ)義本體樹的性能。

        2.2 貝葉斯網(wǎng)絡(luò)分類實(shí)驗(yàn)結(jié)果

        為了保證分類模型的準(zhǔn)確性,同時(shí)也考慮到數(shù)據(jù)集規(guī)模偏小,因此采用5折交叉驗(yàn)證方法來(lái)選擇和評(píng)估模型,將訓(xùn)練結(jié)果取平均值作為最終結(jié)果。實(shí)驗(yàn)結(jié)果如表4所示。

        表4貝葉斯網(wǎng)絡(luò)分類實(shí)驗(yàn)結(jié)果

        Tab.4ExperimentalresultsofBayesiannetworkclassification%

        將表4以直方圖形式展現(xiàn),最終效果如圖12所示??梢园l(fā)現(xiàn),Online Judge領(lǐng)域表現(xiàn)結(jié)果最好,達(dá)到100%,其他領(lǐng)域的準(zhǔn)確率、召回率和F1-measure基本保持在90%以上,說(shuō)明本文提出的方法具有較好的可行性和適用性。

        圖12 貝葉斯分類實(shí)驗(yàn)結(jié)果Fig. 12 Experimental results of Bayesian classification

        通過(guò)對(duì)比其它采用手工構(gòu)建領(lǐng)域本體方法進(jìn)行分類[8-9]得出的實(shí)驗(yàn)結(jié)果再經(jīng)討論總結(jié)和綜合分析后發(fā)現(xiàn),采用數(shù)據(jù)集相同,試驗(yàn)結(jié)果在查全率和準(zhǔn)確率方面相差不大,證明了本文自動(dòng)構(gòu)建的領(lǐng)域語(yǔ)義本體樹的的合理性以及分類算法的適用性。

        2.3 接口模式匹配結(jié)果

        在接口模式匹配階段,采用的數(shù)據(jù)集為已經(jīng)劃分好領(lǐng)域的Deep Web數(shù)據(jù)集,且所有查詢接口中屬性特征的匹配都是視作1∶1型匹配。各領(lǐng)域的匹配結(jié)果,如表5所示。

        表5 模式匹配結(jié)果Tab. 5 Pattern matching results

        將表5匹配結(jié)果以直方圖表示,可得結(jié)果如圖13所示。通過(guò)模式匹配過(guò)程,各個(gè)領(lǐng)域大部分的查詢接口特征屬性都可以成功完成匹配,通過(guò)對(duì)比其它通過(guò)手工或半手工構(gòu)建領(lǐng)域語(yǔ)義本體方法進(jìn)行模式匹配的結(jié)果[10-11],在匹配準(zhǔn)確度上相差不大,可以確定自動(dòng)構(gòu)建的領(lǐng)域語(yǔ)義本體樹的合理性和在查詢接口模式匹配方面的可行性與有效性。

        圖13 模式匹配結(jié)果Fig. 13 Pattern matching results

        3 結(jié)束語(yǔ)

        隨著互聯(lián)網(wǎng)的高速進(jìn)步,動(dòng)態(tài)網(wǎng)站的技術(shù)的不斷進(jìn)步,隱藏在這些Web中的Deep Web數(shù)據(jù)庫(kù)中的資源必定日益增加。但是Deep Web具有隱蔽性、動(dòng)態(tài)性和異構(gòu)性等特征,為獲取Deep Web中的海量資源帶來(lái)了嚴(yán)峻挑戰(zhàn)。本文中提出的方法提供了自動(dòng)構(gòu)建Deep Web查詢接口集成系統(tǒng)的解決方案,但是由于Deep Web自身具備特點(diǎn),依舊需要更多工作的探索完善。在下一步工作中,將會(huì)在這方面繼續(xù)改進(jìn),提高查詢接口分類和模式匹配的準(zhǔn)確性?;ヂ?lián)網(wǎng)的高速發(fā)展,必定使Deep Web數(shù)據(jù)集成收獲更多的研究和關(guān)注。在未來(lái),Deep Web數(shù)據(jù)集成會(huì)如同傳統(tǒng)搜索引擎一般使用戶自由訪問(wèn)Web數(shù)據(jù)庫(kù)中的數(shù)據(jù),給信息檢索帶來(lái)飛躍的提升。

        [1] Bergman M K. White paper: The deep web: Surfacing hidden value[J/OL]. Journal of electronic publishing, 2001, 7(1)[2001-09-24]. http://dx.doi.org/10.3998/3336451.0007.104.

        [2] 中商情報(bào)網(wǎng). 2013-2014年中國(guó)互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展研究年度總報(bào)告[EB/OL]. [2014-03-03]. http://www.askci.com.

        [3] 劉偉, 孟小峰. Deep Web 數(shù)據(jù)集成問(wèn)題研究 [R]. 北京:WAMDM, 2006.

        [4] 袁柳, 李戰(zhàn)懷, 陳世亮. 基于本體的 Deep Web 數(shù)據(jù)標(biāo)注[J]. 軟件學(xué)報(bào),2008, 19(2): 237-245.

        [5] LIN Ling, ZHOU Lizhu. Web database schema identification through simple query interface[M]//LACROIX Z. RED 2009. Berlin/ Heidelberg: Springer·Verlag,2010,6162: 18-34.

        [6] DOU D, MCDERMOTT D V, QI P. Ontology and translation on the semantic Web[M]//SPACCAPIETRA S. Journal on Data Semantics II. Berlin/ Heidelberg: Springer·Verlag,2004,3360: 35-57.

        [7] ROITMAN H, GAL A. OntoBuilder: Fully automatic extraction and consolidation of ontologies from Web sources using sequence semantics[M]//GRUST T, et al. Current trends in database technology-EDBT 2006. EDBT 2006. Lecture Notes in Computer Science. Berlin/ Heidelberg: Springer, 2006,4254:573-576.

        [8] 黃黎. 基于知識(shí)模型推理的 Deep Web 數(shù)據(jù)源分類研究[D]. 蘇州:蘇州大學(xué), 2009.

        [9] 牟曉偉. Deep Web 數(shù)據(jù)源發(fā)現(xiàn)與分類技術(shù)研究[D]. 長(zhǎng)春:長(zhǎng)春工業(yè)大學(xué), 2015.

        [10]蘇曉珂, 張勇敢, 黃青松. Deep Web 查詢接口的復(fù)雜模式匹配[J]. 石河子大學(xué)學(xué)報(bào)( 自然科學(xué)版), 2007, 25(1): 122-124.

        [11]龔桂芬. 基于查詢接口的 Deep Web 模式匹配方法研究[D]. 蘇州:蘇州大學(xué), 2011.

        猜你喜歡
        語(yǔ)義文本
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        語(yǔ)言與語(yǔ)義
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        認(rèn)知范疇模糊與語(yǔ)義模糊
        如何快速走進(jìn)文本
        “深+N季”組配的認(rèn)知語(yǔ)義分析
        乱子伦视频在线看| 在线免费观看黄色国产强暴av| 美女内射毛片在线看免费人动物| 正在播放东北夫妻内射| 久久国产精品国产精品日韩区 | 国产理论亚洲天堂av| 无码免费无线观看在线视| 99在线精品免费视频九九视| 久久天天躁狠狠躁夜夜2020!| 琪琪的色原网站| 初高中生精品福利视频| 国产伦理自拍视频在线观看| 一区二区三区四区中文字幕av| 国产精品99精品无码视亚 | 国产一区二区三区在线影院| 狠狠色狠狠色综合网| 中文人妻av久久人妻18| 中字亚洲国产精品一区二区| 偷偷夜夜精品一区二区三区蜜桃| 在线观看特色大片免费视频| 内射中出无码护士在线| yy111111少妇影院| 全亚洲高清视频在线观看| 人禽交 欧美 网站| 久久久国产精品黄毛片| 国产亚洲欧美在线| 操老熟妇老女人一区二区| 久久无码潮喷a片无码高潮| 欧洲人妻丰满av无码久久不卡 | 久久精品国产一区二区蜜芽| 国产黄色三级三级三级看三级| 日韩大片高清播放器大全| 亚洲精品综合一区二区三| 久久久精品中文无码字幕| 被灌醉的日本人妻中文字幕| 中文无码熟妇人妻av在线| 无码精品一区二区免费AV| 男女动态视频99精品| 99999久久久久久亚洲| 免费特级黄毛片| 日韩人妻有码中文字幕|