亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于本體的自動(dòng)化網(wǎng)頁(yè)搜集器

        2011-03-18 08:11:14江河
        關(guān)鍵詞:資料庫(kù)本體論使用者

        江河

        (太原大學(xué)外語(yǔ)師范學(xué)院,山西 太原 030012)

        0 引言

        Google采用關(guān)鍵詞查詢方式,僅使用少量的關(guān)鍵詞查詢,卻往往傳回?cái)?shù)量龐大的查詢結(jié)果。如此冗長(zhǎng)的查詢結(jié)果及排列方式,讓使用者必須費(fèi)時(shí)費(fèi)工地仔細(xì)瀏覽后,才能挑選出有用的信息,這表明搜尋系統(tǒng)本身無(wú)法完整精準(zhǔn)地了解使用者的查詢意圖。在網(wǎng)絡(luò)時(shí)代,人們要在網(wǎng)絡(luò)上搜索想要的有用信息,就必須使用各個(gè)獨(dú)立的搜索引擎,輸入關(guān)鍵詞來(lái)查找信息。為了讓使用者能以更快速、更有效率的方式,從大量的網(wǎng)絡(luò)資料中獲取所需的有用信息與知識(shí),我們期望設(shè)計(jì)出一個(gè)主動(dòng)比對(duì)的整合式主題搜集器,不僅能協(xié)助使用者查詢信息,降低使用者查詢作業(yè)上的負(fù)擔(dān),還能支持網(wǎng)頁(yè)搜索的核心組件,進(jìn)而提升其系統(tǒng)效能。綜上所述,論文的研究主題在于應(yīng)用知識(shí)本體技術(shù)設(shè)計(jì)出相關(guān)的知識(shí)本體并用Java語(yǔ)言建構(gòu)出整合式主題搜集器。

        1 相關(guān)開發(fā)技術(shù)

        1.1 本體論應(yīng)用

        本體原是哲學(xué)領(lǐng)域中的觀點(diǎn),主要探討生命或現(xiàn)實(shí)事物的知識(shí)本質(zhì),并能提供完整的語(yǔ)意模型,具有共享與重復(fù)使用的特性。通過本體論來(lái)描述知識(shí)內(nèi)容的架構(gòu),可以完整地呈現(xiàn)一個(gè)特定領(lǐng)域的知識(shí)核心,自動(dòng)地了解相關(guān)領(lǐng)域信息、溝通及存取,甚或更進(jìn)一步推演出新的知識(shí)與結(jié)果,對(duì)于信息系統(tǒng)的建立與維護(hù),是個(gè)非常有力的工具。

        1.2 相關(guān)開發(fā)技術(shù)

        系統(tǒng)的開發(fā)工具為MyEclipse,它是Java技術(shù)平臺(tái)的整合式開發(fā)環(huán)境,具備良好的人機(jī)接口及程序偵錯(cuò)機(jī)制。當(dāng)系統(tǒng)開發(fā)時(shí),能快速整合程序區(qū)塊,并縮短系統(tǒng)發(fā)展時(shí)程。此外,Java也提供諸多整合網(wǎng)際網(wǎng)絡(luò)應(yīng)用與資料庫(kù)的函數(shù)與方法。從系統(tǒng)延展性的觀點(diǎn)來(lái)看,Java絕對(duì)是解決跨平臺(tái)問題的首選技術(shù)。

        系統(tǒng)采用SQL Server做為本體知識(shí)資料庫(kù)分享平臺(tái)。MS SQL Server是目前最常被使用的一種關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)。本體論建構(gòu)工具Protégé是由美國(guó)斯坦福大學(xué)研究開發(fā)的知識(shí)本體自由軟件。Protégé是全球支持本體論的平臺(tái)中最廣為使用的一個(gè)。

        2 系統(tǒng)架構(gòu)

        2.1 構(gòu)建本體數(shù)據(jù)庫(kù)

        現(xiàn)今本體的研究大致可分為兩個(gè)方向:一是針對(duì)特定領(lǐng)域構(gòu)建大量的本體,通過建立特定領(lǐng)域的本體,支持該領(lǐng)域的知識(shí)剖析;二是研究如何建構(gòu)與表示本體。本系統(tǒng)的本體構(gòu)建屬前者。系統(tǒng)的本體論建置即利用建置好的Java程序代碼本體論資料庫(kù),支持系統(tǒng)進(jìn)行相關(guān)Java網(wǎng)頁(yè)的過濾搜集。Java程序代碼本體論資料庫(kù)的建置包括Java程序代碼相關(guān)概念統(tǒng)計(jì)與分析及本體論資料庫(kù)的建立兩階段。

        2.2 系統(tǒng)架構(gòu)

        圖1描繪出系統(tǒng)的架構(gòu),其各部分功能及相關(guān)技術(shù)詳述如下。

        (1)關(guān)鍵字及下載目錄:執(zhí)行網(wǎng)頁(yè)搜集的前置工作包括:將輸出區(qū)域清空、將輸入位所輸入的文字轉(zhuǎn)成URL碼嵌入搜索網(wǎng)址、將預(yù)設(shè)下載預(yù)設(shè)位置的輸入字串轉(zhuǎn)成儲(chǔ)存位置的文件名稱,并清除該位;最后,系統(tǒng)將提醒使用者輸入相關(guān)預(yù)設(shè)作業(yè)。

        (2)谷歌鏈接:提取一個(gè)URL組件并把Action方法中轉(zhuǎn)換好的URL加上搜索網(wǎng)址;接著使用一個(gè)緩沖讀取,并使用while循環(huán)逐行加入String組件line;最后,把line輸出成txt文件,作為分析時(shí)的參考,檔案內(nèi)容即為該頁(yè)面的html原始文檔。

        圖1 系統(tǒng)架構(gòu)圖

        (3)檢索鏈接:使用前述的正規(guī)表示法從line中尋找是否有符合的URL,符合者會(huì)下載URL,并輸出成txt文件提供給系統(tǒng)做進(jìn)一步的處理。

        (4)檢索內(nèi)容:使用SearchMatches( )方法來(lái)判定該網(wǎng)頁(yè)是否為我們所設(shè)定的網(wǎng)頁(yè)搜集范圍,如果是,就將html原始文件之中的html標(biāo)簽移除,只剩下純文字內(nèi)容,方便系統(tǒng)做進(jìn)一步的后續(xù)處理與分析。最后,把搜集過的網(wǎng)頁(yè)數(shù)除以總網(wǎng)頁(yè)數(shù),該值即為目前的搜集總進(jìn)度。

        3 系統(tǒng)驗(yàn)證

        我們以“JAVA程序”為關(guān)鍵詞進(jìn)行Java開放原始碼相關(guān)網(wǎng)頁(yè)搜集為例,并在Google進(jìn)行搜索。系統(tǒng)定義網(wǎng)頁(yè)準(zhǔn)確率(RP)及回取率(RR)。NWT表示所有的回傳網(wǎng)頁(yè)數(shù);NWC為正確的回傳網(wǎng)頁(yè)數(shù);NWR則為相關(guān)回傳網(wǎng)頁(yè)數(shù)。表1是經(jīng)領(lǐng)域?qū)<抑鹨槐葘?duì)回傳頁(yè)面后,得到Google的準(zhǔn)確率及回取率分別為6%與67%,以及系統(tǒng)輸入同樣關(guān)鍵詞后所得結(jié)果。從上述比較中可以看出,除了顯現(xiàn)系統(tǒng)比搜索引擎Google有較高的準(zhǔn)確率及回取率外,更展現(xiàn)并驗(yàn)證了論文提出技術(shù)的可行性。

        表1 搜索比較結(jié)果

        表2 系統(tǒng)性能比較

        4 結(jié)論

        本系統(tǒng)以Java為技術(shù)平臺(tái)提出本體支持的智能型網(wǎng)頁(yè)搜集分析軟件系統(tǒng)。通過軟件間的合作與協(xié)調(diào),來(lái)進(jìn)行相關(guān)網(wǎng)頁(yè)信息的獲取。在系統(tǒng)中本體概念結(jié)合相關(guān)自由軟件,將相關(guān)網(wǎng)頁(yè)管理運(yùn)作信息完整儲(chǔ)存在后端資料庫(kù),再提供給后端系統(tǒng)做進(jìn)一步分析處理。初步系統(tǒng)呈現(xiàn)及實(shí)驗(yàn)結(jié)果驗(yàn)證,此技術(shù)不僅對(duì)于網(wǎng)頁(yè)實(shí)時(shí)狀態(tài)的瀏覽、分析、處理行為分析精確,而且針對(duì)網(wǎng)頁(yè)的處理時(shí)間也有效縮短,對(duì)使用者有較大的幫助。

        [1]李善平,胡玉杰,郭鳴,等.本體論研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2004(7).

        [2]郁書好,郭學(xué)俊.基于本體的教學(xué)知識(shí)庫(kù)研究與應(yīng)用[J].計(jì)算機(jī)研究與發(fā)展.2007(8):161-164.

        [3]汪鵬.Ontology知識(shí)表示的藝術(shù)[J].計(jì)算機(jī)教育,2004(7):41-43.

        [4]王莉.基于Protégé的本體建模方法研究——以學(xué)位論文服務(wù)系統(tǒng)為例[J].現(xiàn)代圖書情報(bào)技術(shù),2006(10):55-59.

        猜你喜歡
        資料庫(kù)本體論使用者
        “法定許可”情況下使用者是否需要付費(fèi)
        基于內(nèi)容與協(xié)同過濾的GitHub學(xué)習(xí)資料庫(kù)推薦
        國(guó)家社科基金重大項(xiàng)目“‘古今字’資料庫(kù)建設(shè)與相關(guān)專題研究”成果鑒定會(huì)順利召開
        施工企業(yè)技術(shù)資料庫(kù)的建立與完善
        天津科技(2020年5期)2020-01-08 12:27:35
        CP論題能為本體論論證提供辯護(hù)嗎?
        張栻的本體論建構(gòu)及其體用邏輯探析
        張載哲學(xué)的本體論結(jié)構(gòu)與歸宿
        新型拼插休閑椅,讓人與人的距離更近
        好日子(2018年5期)2018-05-30 16:24:04
        抓拍神器
        微電影本體論辨析
        電影新作(2016年1期)2016-02-27 09:16:25
        国产精品美女久久久久浪潮AVⅤ | 色偷偷女人的天堂亚洲网| 亚洲欧美成人a∨| 日韩AV有码无码一区二区三区 | 99久久婷婷国产精品综合网站 | 天天摸天天做天天爽水多| 四虎影视成人永久免费观看视频 | 亚洲区一区二区中文字幕| 人妻露脸国语对白字幕| 久草青青91在线播放| 国产精品久久久久久亚洲av| 中文字幕人妻中文av不卡专区| 精品久久久久久电影院| 国产伦理一区二区久久精品| 婷婷五月六月激情综合色中文字幕| 一本久久伊人热热精品中文字幕| 久久免费视频国产| 一区二区三区在线蜜桃| 国产麻豆精品传媒av在线| 美女av一区二区三区| 大地资源中文在线观看官网第二页 | 影音先锋久久久久av综合网成人| 久久久久久久岛国免费观看| 日韩无码无播放器视频| 精品91精品91精品国产片| 成人水蜜桃视频在线观看| 日日摸天天碰中文字幕你懂的| 婷婷综合缴情亚洲| 蜜桃av无码免费看永久 | 正在播放淫亚洲| 熟女少妇丰满一区二区| 综合色免费在线精品视频| 18禁黄网站禁片免费观看女女| 国产av电影区二区三区曰曰骚网| 久久综合给日咪咪精品欧一区二区三| 午夜精品一区二区三区av免费| 亚洲国产中文字幕视频| 无码va在线观看| 精品免费福利视频| 国产午夜精品综合久久久| 欧美老肥妇做爰bbww|