亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種面向主題的web知識檢索方法

2012-12-31 00:00:00馬喆

計算機光盤軟件與應用 2012年22期

摘要：知識檢索研究如何從數(shù)據(jù)和信息中抽取知識，在數(shù)據(jù)和信息日益增長的今天，知識檢索顯得尤為重要。現(xiàn)有的知識檢索主要以事先構(gòu)造好的知識庫為基礎，需要通過專家來構(gòu)建和維護用于檢索的知識庫。然而，人工構(gòu)建知識庫非常耗時而且代價很高，而且，基于事先構(gòu)造好的知識庫的檢索結(jié)果也被局限于知識庫覆蓋的范圍，不具有動態(tài)性和時變性。本文提出了一種基于Web的面向主題的知識檢索方法。該方法一方面以開放動態(tài)的Web信息為基礎，支持動態(tài)即時的知識檢索；另一方面，以用戶選定的主題為中心，從Web信息中動態(tài)獲取知識，構(gòu)成與用戶主題相關(guān)的知識檢索結(jié)果，不局限于某個特定領(lǐng)城。

關(guān)鍵詞：面向主題；知識檢索；Web知識源；共現(xiàn)分析

中圖分類號：TP391.3 文獻標識碼：A 文章編號：1007-9599 （2012） 22-0000-02

1 簡介

知識檢索通過抽取數(shù)據(jù)和信息中的概念以及概念間的關(guān)系來組織知識并反饋給用戶。從用戶的角度看，它提供是結(jié)構(gòu)化的內(nèi)容；從計算機的角度看，它提供的是機器可讀的內(nèi)容。因此，知識檢索的返回結(jié)果既能夠用結(jié)構(gòu)化信息的方式回答用戶查詢的問題，也能夠作為知識應用到基于知識的系統(tǒng)中。在數(shù)據(jù)和信息日益增長的今天，知識檢索顯得尤為重要。

然而，現(xiàn)有的知識檢索主要以事先構(gòu)造好的知識庫為基礎，需要通過專家來構(gòu)建和維護用于檢索的知識庫。這種手動的方式耗時耗力，代價高，如，已對超過5500份生物信息學期刊進行索引的知識庫MEDLINE在引人新期刊之前需要先通過專家組推薦，再經(jīng)過文獻選擇技術(shù)審查委員的評估，同時，以事先構(gòu)造好的知識庫為基礎的檢索結(jié)果也局限于知識庫覆蓋的范圍，不能將新出現(xiàn)的知識即時吸納其中。

目前，Web以其海量信息和多樣化的內(nèi)容被許多研究者所關(guān)注。Wilipedia是近年來最受關(guān)注的研究對象之一，分別利用Wikipedia的分類系統(tǒng)和百科條目的具體內(nèi)容作為概念間語義相關(guān)度的評估憑證，在Wikipedia的分類系統(tǒng)上派生出一個大型的分類法（taxonomy ），分別使用Wikipedia作為概念間關(guān)系學習和命名實體識別的背景知識；此外，使用搜索引擎來計算概念在Web上的統(tǒng)計分布，使用在線辭典Freebase作為概念間關(guān)系抽取的外部知識源，從本體學習的角度刻畫了Web作為學習源的環(huán)境特征。由于其信息的海量性和異構(gòu)性，Web被普遍認為是知識獲取的有效知識源；同時，作為一種群體協(xié)作構(gòu)造的產(chǎn)物，Web能提供及時的知識，將Web用作知識檢索的知識源，可以避免手動構(gòu)造知識庫知識范圍受限以及知識陳舊、更新維護代價高的問題。

當前，一些Web搜索引擎在傳統(tǒng)的僅返回文檔集合的信息檢索服務外，也開始考慮引人面向知識的檢索服務。如，Google在2012年5月16日發(fā)布了一款名為“知識圖譜（ Knowledge Graph ）”的搜索功能，能夠在現(xiàn)有的搜索列表右側(cè)添加與查詢關(guān)鍵字相關(guān)的人物、地點和事物等內(nèi)容；中搜在2012年5月18日也推出的面向普通用戶的第三代搜索引擎服務，返回與查詢關(guān)鍵字相關(guān)的，包含視頻、百科、圖片，社交網(wǎng)站和問答等各類信息的集成檢索結(jié)果。

這表明，在線知識檢索正在進入人們的視野，基于web的知識檢索將成為下一代搜索引擎的主要關(guān)注點之一。

目前，上述面向知識的Web檢索服務主要關(guān)注的是查詢關(guān)鍵字的特定屬性的值，屬于概念定義型知識。而與查詢關(guān)鍵字以及它與其它相關(guān)概念的關(guān)系是另一類具有典型意義的知識，即概念關(guān)聯(lián)型知識。本文側(cè)重在面向主題的概念關(guān)聯(lián)型知識的在線提取，從某種意義上說，概念關(guān)聯(lián)型知識是面向主題的知識體系的骨架，它強調(diào)主題概念與其相關(guān)概念之間的關(guān)系，通過這些關(guān)系來表征主題概念的含義。

本文提出的面向主題的Web知識檢索的方法，以結(jié)構(gòu)化的Web信息源為基礎，以用戶給定檢索主題詞為出發(fā)點。構(gòu)建以該主題詞為中心的結(jié)構(gòu)化概念關(guān)聯(lián)網(wǎng)作為知識檢索的結(jié)果。

2 面向主題的知識檢索

本節(jié)分3個方面介紹本文提出的面向主題的知識檢索方法。首先介紹我們對知識源選取的考慮，其次介紹概念關(guān)聯(lián)網(wǎng)絡的提取方法，最后介紹知識檢索結(jié)果的展示。

2.1 Web知識源的選取

對在線知識提取而言，是否選擇了合適的知識源直接影響到知識提取的效果。目前，常用的Web知識源大致可分為三類：在線辭典、在線百科全書以及搜索引擎，其知識內(nèi)部組織方式和外部表現(xiàn)形式都不同。比如，在線辭典由專家手工構(gòu)建用幾種常見的關(guān)系將大部分的術(shù)語關(guān)聯(lián)起來：搜索引擎通過爬取Web上的網(wǎng)頁并為之建立索引，構(gòu)建了一個海量的數(shù)據(jù)庫，并為用戶提供一個實時的查詢接口；在線百科全書通過協(xié)作式方式使得虛擬社區(qū)的用戶能協(xié)同工作，最后以分類索引的方式將各個用戶編輯的條目組織起來。

2.2 面向主題詞的概念網(wǎng)絡獲取

在線百科全書的分類系統(tǒng)在本質(zhì)上是一個按主題詞間的分類索引關(guān)系組織的主題目錄，由在線用戶基于維基技術(shù)協(xié)作生成。在邏輯上，該主題目錄對于一個概念網(wǎng)絡，主題詞對應于概念網(wǎng)絡中的概念節(jié)點，概念節(jié)點之間通過分類索引關(guān)系相互關(guān)聯(lián)，也可稱之為分類索引節(jié)點。我們要獲取的面向主題詞的概念網(wǎng)絡在結(jié)構(gòu)上對應于整個主題目錄中的一個包含了主題詞的連通子圖，在語義上該圖中的其他概念都與主題詞對應的概念語義強相關(guān)。

通常，分類索引節(jié)點之間的連接關(guān)系是以與網(wǎng)頁標簽相關(guān)聯(lián)的嵌套模式隱藏在網(wǎng)頁編碼中。在線百科一般有兩種描述分類索引關(guān)系的模式，分別描述一定分類索引節(jié)點與其父分類索引節(jié)點和子分類索引節(jié)點的分類索引關(guān)系。這種隱藏的模式需要將其顯式地表示，本文選用了開源軟件包甘HTMParser來解析出模式，并根據(jù)該模式找到一定概念節(jié)點的父分類索引節(jié)點和子分類索引節(jié)點。

3 相關(guān)工作

近年來，各種Web知識源（如WordNet ，F(xiàn)reebase ，Wikipe- dia等）都成為知識獲取的實驗對象。將Wikipedia分類系統(tǒng)看作一個概念網(wǎng)絡，并基于網(wǎng)絡的連通性和詞匯句法匹配（lexico-syntactic matching）對概念節(jié)點間的關(guān)系進行標注，最終獲得了一個包含了大量is一分類關(guān)系的大型分類法（taxonomy ）?；赪ikipedia的主題詞表，通過各字映射和基于邏輯的映射來推導出Wikipedia中概念闖的關(guān)系。使用與Freebase代替了常用的作為WordNet查詢辭典。Freebase是一個關(guān)于元數(shù)據(jù)的數(shù)據(jù)庫，在文中被用作實體關(guān)系發(fā)現(xiàn)的外部知識源。以web為背景知識將概念形式化視為關(guān)于命名實體識別的任務。在文中作者做過探索Wikipedia，將術(shù)語歸類到預定義的分類名下，從而自動化地建模了領(lǐng)域的知識。

4 總結(jié)和展望

本文提出了一種面向主題的Web知識檢索方法。該方法一方而利用了Web信息的海址和開放動態(tài)性，能夠支持動態(tài)更新的及時知識的檢索；另一方而，又不受領(lǐng)域束縛，支持以主題為中心的知識體獲取，形成面向主題的知識檢索結(jié)果。本文在中文在線百科全書的分類系統(tǒng)和搜索引擎上，進行了知識檢索的實驗，實驗結(jié)果既能滿足面向主題的要求，又具備了一定的準確性。

參考文獻：

[1]許焱，金芝，李戈，李力行.一種面向主題的Web知識檢索方法[J].小型微型計算機系統(tǒng)，2012，10.

[作者簡介]馬喆.山西農(nóng)業(yè)大學信息學院計算機科學與技術(shù)專業(yè)技科信091班。

計算機光盤軟件與應用2012年22期

計算機光盤軟件與應用的其它文章: 淺析軟件工程教學中創(chuàng)新型人才的培養(yǎng); 高校教學資源數(shù)據(jù)庫系統(tǒng)的共建共享建設研究; 高職院校計算機類課程實驗教學改革; 淺談《網(wǎng)頁設計與制作》課程教學的得與失; 《網(wǎng)絡綜合布線》的教學研究; 對當前高中信息技術(shù)教學現(xiàn)狀的分析研究