亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語義Web的Blog智能檢索系統(tǒng)研究

        2011-04-10 05:51:38宿州學(xué)院信息工程學(xué)院安徽宿州234000
        關(guān)鍵詞:檢索系統(tǒng)搜索引擎日志

        崔 琳(宿州學(xué)院信息工程學(xué)院,安徽 宿州234000)

        汪材印(宿州學(xué)院機械與電子工程學(xué)院,安徽 宿州234000)

        自2003年以來,與Web 2.0相關(guān)的技術(shù)不斷涌現(xiàn),其中Blog(博客)是最熱門應(yīng)用之一,其開放性和易于發(fā)布性已吸引了眾多用戶。隨著Blog的發(fā)展,Blog頁面的數(shù)量呈指數(shù)級上升,只靠傳統(tǒng)的搜索引擎有可能查找不到所需要的Blog日志,這促使人們針對Blog搜索引擎進行研究。目前,已經(jīng)出現(xiàn)了許多頂級的Blog搜索引擎,如Technorati、BlogStreet等,Google也推出了中文Blog搜索引擎,但針對某一領(lǐng)域知識檢索的專業(yè)Blog搜索引擎還比較少[1]。為此,筆者基于語義Web思想,對計算機領(lǐng)域的Blog日志進行搜索的智能檢索系統(tǒng)進行了研究。

        1 語義Web的體系結(jié)構(gòu)

        1998年,萬維網(wǎng)(Web)的奠基人Tim Berners-Lee提出了語義 Web的概念及其技術(shù)路線[2]。后來,Tim Berners-Lee又提出了語義 Web的基本體系結(jié)構(gòu)[3],如圖1所示。

        若要讓計算機理解Web上的語義,需要為計算機提供描述Web數(shù)據(jù)的數(shù)據(jù),即元數(shù)據(jù)。資源描述框架RDF(Resource Description Framework,RDF)正是描述資源的元數(shù)據(jù)模型。RDF是由資源、屬性、屬性值所組成的三元組,在知識表示領(lǐng)域,資源、屬性和屬性值分別稱為主體(Subject)、謂詞(Predicate)和客體(Object),這三者的組合稱為一個陳述(Statement)[4]。

        圖1 語義Web的體系結(jié)構(gòu)

        2 系統(tǒng)設(shè)計

        為實現(xiàn)語義檢索計算機專業(yè)領(lǐng)域Blog日志,設(shè)計的系統(tǒng)結(jié)構(gòu)由RSS采集子系統(tǒng)、RSS處理子系統(tǒng)和Blog查詢子系統(tǒng)3個模塊構(gòu)成,每個大的模塊又詳細(xì)劃分為若干個小模塊(見圖2)。具體內(nèi)容如下:①聚合內(nèi)容采集子系統(tǒng)。Blog網(wǎng)頁的聚合內(nèi)容(really simple syndication,RSS)文件中包含該Blog網(wǎng)頁的重要信息,通過RSS的自動 “推送”,用戶可以很及時的獲得Blog網(wǎng)頁的更新信息,是使用最廣泛的XML應(yīng)用之一[5]。該系統(tǒng)中,網(wǎng)絡(luò)蜘蛛抓取的資源是RSS鏈接所指的XML文檔,這一點和傳統(tǒng)搜索引擎有明顯差別。該模塊設(shè)計中主要涉及網(wǎng)絡(luò)蜘蛛,其設(shè)計的好壞將直接影響系統(tǒng)檢索結(jié)果。網(wǎng)絡(luò)蜘蛛搜索算法如圖3所示。②RSS處理子系統(tǒng)。對抓取的RSS文件在本體庫的指導(dǎo)下進行語義標(biāo)注,提取出文檔的特征并對原始資源使用RDF描述形成元數(shù)據(jù),然后對元數(shù)據(jù)索引處理,以提供給查詢子系統(tǒng)進行查詢。③Blog查詢子系統(tǒng)。在本體庫的指導(dǎo)下對查詢詞進行語義擴展和語義推理,將經(jīng)過擴展的查詢詞在系統(tǒng)的索引庫中查詢,最后把查詢結(jié)果返回給用戶。

        圖2 Blog智能檢索系統(tǒng)詳細(xì)功能模塊

        3 本體文件的建立

        本體是概念模型的明確的規(guī)范化說明[6]。該系統(tǒng)中,需要利用本體對RSS文件進行語義標(biāo)注,還要對用戶提交的查詢詞進行語義擴展,所以構(gòu)建良好的本體是十分重要的。設(shè)計時使用OWL語言描述本體,采用本體構(gòu)建工具Protégé構(gòu)建本體。

        圖3 網(wǎng)絡(luò)蜘蛛搜索算法圖

        3.1 計算機專業(yè)領(lǐng)域本體的設(shè)計

        由于所設(shè)計的系統(tǒng)是針對計算機專業(yè)領(lǐng)域的Blog日志進行語義查詢,所以要構(gòu)建計算機專業(yè)領(lǐng)域的本體庫,將現(xiàn)有的計算機領(lǐng)域分成7類,即Computer science and technology based subjects(計算機科學(xué)技術(shù)基礎(chǔ)學(xué)科)、Computer Software(計算機軟件)、Computer Application(計算機應(yīng)用)、Computer Architecture(計算機系統(tǒng)結(jié)構(gòu))、Artificial Intelligence(人工智能)、Computer engineering(計算機工程)、Computer science and technology other subjects(計算機科學(xué)技術(shù)其他學(xué)科)。每個大類包含許多小的分類,每一個小的分類又包含許多個不同的子類,使用rdfs:subClassof表示類之間的上下位關(guān)系或父子關(guān)系。

        定義英語分類的同時,還定義了對應(yīng)的中文分類,將中英文詞匯用owl:sameas建立同義映射關(guān)系,查詢時,借助這種同義關(guān)系就可以實現(xiàn)擴展詞義。例如英文 “Database”與中文 “數(shù)據(jù)庫”之間的同義可表示為:

        3.2 RSS文件的本體設(shè)計

        針對所查詢文檔是RSS文件的特點,定義了用于描述RSS文件的本體Document類,并為Document類定義了若干描述RSS文件的屬性,語句如下:

        類定義:

        屬性定義:

        4 系統(tǒng)實現(xiàn)

        選擇Java作為開發(fā)平臺,后臺數(shù)據(jù)庫使用MySQL 2000,Web服務(wù)器選擇支持JSP服務(wù)的Tomcat。因為CSDN網(wǎng)和希賽網(wǎng)下的Blog是目前互聯(lián)網(wǎng)上使用最為廣泛的計算機學(xué)科類博客,網(wǎng)絡(luò)蜘蛛所抓取Blog網(wǎng)頁主要來自于上述網(wǎng)站。首先在檢索項選擇關(guān)鍵詞,檢索值輸入 “數(shù)據(jù)庫”,點擊“查詢”按鈕,結(jié)果如圖4所示?!皵?shù)據(jù)庫”經(jīng)過該系統(tǒng)的語義擴展推理,得到同義詞匯 “database”和下位詞匯 “sql”,除查詢到含有“數(shù)據(jù)庫”的Blog網(wǎng)頁外,還查詢到包含 “database”和 “sql”的Blog網(wǎng)頁。

        圖4 語義擴展查詢結(jié)果界面

        5 結(jié) 語

        針對計算機專業(yè)領(lǐng)域Blog日志進行語義搜索的智能檢索系統(tǒng),使用了本體、語義推理等語義Web技術(shù),把對資源信息的語義處理引入到信息檢索領(lǐng)域中。實際運用表明,該系統(tǒng)對網(wǎng)絡(luò)蜘蛛所抓取的計算機領(lǐng)域的Blog日志能實現(xiàn)一般查詢和語義擴展查詢,可以提高信息檢索的查全率和查準(zhǔn)率。下一步的工作是對本體庫進行細(xì)化和完善,以便使計算機學(xué)科類本體庫和RSS文檔本體更為合理。

        [1]潘冰,徐亮亮 .中文博客搜索引擎研究 [J].計算機工程與設(shè)計,2010,31(8):1718-1721.

        [2]葉育鑫,歐陽丹彤 .語義Web搜索技術(shù)研究進展 [J].計算機科學(xué),2010,37(3):1-5.

        [3]Tim Berners-Lee.Semantic Web-XML2000 [EB/OL].http://www.w3.org/2000/Talks/1206-xml2k-tbl/,2000-12-06.

        [4]郭志鑫 .基于本體的文檔引文元數(shù)據(jù)信息抽取 [J].微計算機信息,2006,6(3):304-306.

        [5]原舒雨,蔡皖東,李勇軍,等 .面向博客的智能網(wǎng)絡(luò)蜘蛛技術(shù)及其系統(tǒng)實現(xiàn) [J].微電子學(xué)與計算機,2011,28(1):193-196.

        [6]張柳松 .基于本體的智能檢索系統(tǒng)的研究 [J].微計算機信息,2007,12(3):237-238.

        猜你喜歡
        檢索系統(tǒng)搜索引擎日志
        一名老黨員的工作日志
        華人時刊(2021年13期)2021-11-27 09:19:02
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        收錄《信號處理》的檢索系統(tǒng)及數(shù)據(jù)庫
        信號處理(2018年1期)2018-09-03 07:53:04
        收錄《信號處理》的檢索系統(tǒng)及數(shù)據(jù)庫
        信號處理(2018年5期)2018-06-28 02:16:02
        本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
        信號處理(2018年4期)2018-06-27 03:34:16
        本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
        信號處理(2018年3期)2018-06-27 03:30:18
        游學(xué)日志
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        亚洲一区区| 一区二区三区av波多野结衣| 无码成人aaaaa毛片| 国产美女在线精品亚洲二区| 韩国免费一级a一片在线| 日本午夜剧场日本东京热 | 99精品人妻无码专区在线视频区| 国内少妇偷人精品视频免费| 狠狠躁夜夜躁人人爽天天不卡| 少妇精品揄拍高潮少妇桃花岛| 丰满熟妇人妻av无码区| 熟妇人妻av无码一区二区三区| 白丝美女被狂躁免费视频网站| 亚洲中文字幕综合网站| 欧美丰满老熟妇aaaa片| 亚洲粉嫩高潮的18p| 亚洲国产高清美女在线观看| 精品成人av人一区二区三区 | 18无码粉嫩小泬无套在线观看 | 在线观看91精品国产免费免费| 成人午夜视频在线观看高清| 日本亚洲视频一区二区三区| 亚洲欧美国产国产综合一区| 中文字幕少妇AV| 中文字幕丰满人妻被公强| 人妻少妇-嫩草影院| 国产剧情麻豆女教师在线观看 | 亚洲人妻无缓冲av不卡| 日本超骚少妇熟妇视频| 狠狠色狠狠色综合网| 午夜不卡av免费| 中文字幕乱码人妻无码久久久1| 亚洲天码一区二区三区| 成人午夜福利视频后入| 亚洲欧美日韩在线观看一区二区三区| 美腿丝袜av在线播放| av在线免费观看网站免费| 亚洲国产成人片在线观看无码| 国产午夜精品一区二区三区不| 中文字幕文字幕一区二区| 狂野欧美性猛xxxx乱大交|