摘要:知識檢索研究如何從數(shù)據(jù)和信息中抽取知識,在數(shù)據(jù)和信息日益增長的今天,知識檢索顯得尤為重要。現(xiàn)有的知識檢索主要以事先構(gòu)造好的知識庫為基礎,需要通過專家來構(gòu)建和維護用于檢索的知識庫。然而,人工構(gòu)建知識庫非常耗時而且代價很高,而且,基于事先構(gòu)造好的知識庫的檢索結(jié)果也被局限于知識庫覆蓋的范圍,不具有動態(tài)性和時變性。本文提出了一種基于Web的面向主題的知識檢索方法。該方法一方面以開放動態(tài)的Web信息為基礎,支持動態(tài)即時的知識檢索;另一方面,以用戶選定的主題為中心,從Web信息中動態(tài)獲取知識,構(gòu)成與用戶主題相關(guān)的知識檢索結(jié)果,不局限于某個特定領(lǐng)城。
關(guān)鍵詞:面向主題;知識檢索;Web知識源;共現(xiàn)分析
中圖分類號:TP391.3 文獻標識碼:A 文章編號:1007-9599 (2012) 22-0000-02
1 簡介
知識檢索通過抽取數(shù)據(jù)和信息中的概念以及概念間的關(guān)系來組織知識并反饋給用戶。從用戶的角度看,它提供是結(jié)構(gòu)化的內(nèi)容;從計算機的角度看,它提供的是機器可讀的內(nèi)容。因此,知識檢索的返回結(jié)果既能夠用結(jié)構(gòu)化信息的方式回答用戶查詢的問題,也能夠作為知識應用到基于知識的系統(tǒng)中。在數(shù)據(jù)和信息日益增長的今天,知識檢索顯得尤為重要。
然而,現(xiàn)有的知識檢索主要以事先構(gòu)造好的知識庫為基礎,需要通過專家來構(gòu)建和維護用于檢索的知識庫。這種手動的方式耗時耗力,代價高,如,已對超過5500份生物信息學期刊進行索引的知識庫MEDLINE在引人新期刊之前需要先通過專家組推薦,再經(jīng)過文獻選擇技術(shù)審查委員的評估,同時,以事先構(gòu)造好的知識庫為基礎的檢索結(jié)果也局限于知識庫覆蓋的范圍,不能將新出現(xiàn)的知識即時吸納其中。
目前,Web以其海量信息和多樣化的內(nèi)容被許多研究者所關(guān)注。Wilipedia是近年來最受關(guān)注的研究對象之一,分別利用Wikipedia的分類系統(tǒng)和百科條目的具體內(nèi)容作為概念間語義相關(guān)度的評估憑證,在Wikipedia的分類系統(tǒng)上派生出一個大型的分類法(taxonomy ),分別使用Wikipedia作為概念間關(guān)系學習和命名實體識別的背景知識;此外,使用搜索引擎來計算概念在Web上的統(tǒng)計分布,使用在線辭典Freebase作為概念間關(guān)系抽取的外部知識源,從本體學習的角度刻畫了Web作為學習源的環(huán)境特征。由于其信息的海量性和異構(gòu)性,Web被普遍認為是知識獲取的有效知識源;同時,作為一種群體協(xié)作構(gòu)造的產(chǎn)物,Web能提供及時的知識,將Web用作知識檢索的知識源,可以避免手動構(gòu)造知識庫知識范圍受限以及知識陳舊、更新維護代價高的問題。
當前,一些Web搜索引擎在傳統(tǒng)的僅返回文檔集合的信息檢索服務外,也開始考慮引人面向知識的檢索服務。如,Google在2012年5月16日發(fā)布了一款名為“知識圖譜( Knowledge Graph )”的搜索功能,能夠在現(xiàn)有的搜索列表右側(cè)添加與查詢關(guān)鍵字相關(guān)的人物、地點和事物等內(nèi)容;中搜在2012年5月18日也推出的面向普通用戶的第三代搜索引擎服務,返回與查詢關(guān)鍵字相關(guān)的,包含視頻、百科、圖片,社交網(wǎng)站和問答等各類信息的集成檢索結(jié)果。
這表明,在線知識檢索正在進入人們的視野,基于web的知識檢索將成為下一代搜索引擎的主要關(guān)注點之一。
目前,上述面向知識的Web檢索服務主要關(guān)注的是查詢關(guān)鍵字的特定屬性的值,屬于概念定義型知識。而與查詢關(guān)鍵字以及它與其它相關(guān)概念的關(guān)系是另一類具有典型意義的知識,即概念關(guān)聯(lián)型知識。本文側(cè)重在面向主題的概念關(guān)聯(lián)型知識的在線提取,從某種意義上說,概念關(guān)聯(lián)型知識是面向主題的知識體系的骨架,它強調(diào)主題概念與其相關(guān)概念之間的關(guān)系,通過這些關(guān)系來表征主題概念的含義。
本文提出的面向主題的Web知識檢索的方法,以結(jié)構(gòu)化的Web信息源為基礎,以用戶給定檢索主題詞為出發(fā)點。構(gòu)建以該主題詞為中心的結(jié)構(gòu)化概念關(guān)聯(lián)網(wǎng)作為知識檢索的結(jié)果。
2 面向主題的知識檢索
本節(jié)分3個方面介紹本文提出的面向主題的知識檢索方法。首先介紹我們對知識源選取的考慮,其次介紹概念關(guān)聯(lián)網(wǎng)絡的提取方法,最后介紹知識檢索結(jié)果的展示。
2.1 Web知識源的選取
對在線知識提取而言,是否選擇了合適的知識源直接影響到知識提取的效果。目前,常用的Web知識源大致可分為三類:在線辭典、在線百科全書以及搜索引擎,其知識內(nèi)部組織方式和外部表現(xiàn)形式都不同。比如,在線辭典由專家手工構(gòu)建用幾種常見的關(guān)系將大部分的術(shù)語關(guān)聯(lián)起來:搜索引擎通過爬取Web上的網(wǎng)頁并為之建立索引,構(gòu)建了一個海量的數(shù)據(jù)庫,并為用戶提供一個實時的查詢接口;在線百科全書通過協(xié)作式方式使得虛擬社區(qū)的用戶能協(xié)同工作,最后以分類索引的方式將各個用戶編輯的條目組織起來。
2.2 面向主題詞的概念網(wǎng)絡獲取
在線百科全書的分類系統(tǒng)在本質(zhì)上是一個按主題詞間的分類索引關(guān)系組織的主題目錄,由在線用戶基于維基技術(shù)協(xié)作生成。在邏輯上,該主題目錄對于一個概念網(wǎng)絡,主題詞對應于概念網(wǎng)絡中的概念節(jié)點,概念節(jié)點之間通過分類索引關(guān)系相互關(guān)聯(lián),也可稱之為分類索引節(jié)點。我們要獲取的面向主題詞的概念網(wǎng)絡在結(jié)構(gòu)上對應于整個主題目錄中的一個包含了主題詞的連通子圖,在語義上該圖中的其他概念都與主題詞對應的概念語義強相關(guān)。
通常,分類索引節(jié)點之間的連接關(guān)系是以與網(wǎng)頁標簽相關(guān)聯(lián)的嵌套模式隱藏在網(wǎng)頁編碼中。在線百科一般有兩種描述分類索引關(guān)系的模式,分別描述一定分類索引節(jié)點與其父分類索引節(jié)點和子分類索引節(jié)點的分類索引關(guān)系。這種隱藏的模式需要將其顯式地表示,本文選用了開源軟件包甘HTMParser來解析出模式,并根據(jù)該模式找到一定概念節(jié)點的父分類索引節(jié)點和子分類索引節(jié)點。
3 相關(guān)工作
近年來,各種Web知識源(如WordNet ,F(xiàn)reebase ,Wikipe- dia等)都成為知識獲取的實驗對象。將Wikipedia分類系統(tǒng)看作一個概念網(wǎng)絡,并基于網(wǎng)絡的連通性和詞匯句法匹配(lexico-syntactic matching)對概念節(jié)點間的關(guān)系進行標注,最終獲得了一個包含了大量is一分類關(guān)系的大型分類法(taxonomy )?;赪ikipedia的主題詞表,通過各字映射和基于邏輯的映射來推導出Wikipedia中概念闖的關(guān)系。使用與Freebase代替了常用的作為WordNet查詢辭典。Freebase是一個關(guān)于元數(shù)據(jù)的數(shù)據(jù)庫,在文中被用作實體關(guān)系發(fā)現(xiàn)的外部知識源。以web為背景知識將概念形式化視為關(guān)于命名實體識別的任務。在文中作者做過探索Wikipedia,將術(shù)語歸類到預定義的分類名下,從而自動化地建模了領(lǐng)域的知識。
4 總結(jié)和展望
本文提出了一種面向主題的Web知識檢索方法。該方法一方而利用了Web信息的海址和開放動態(tài)性,能夠支持動態(tài)更新的及時知識的檢索;另一方而,又不受領(lǐng)域束縛,支持以主題為中心的知識體獲取,形成面向主題的知識檢索結(jié)果。本文在中文在線百科全書的分類系統(tǒng)和搜索引擎上,進行了知識檢索的實驗,實驗結(jié)果既能滿足面向主題的要求,又具備了一定的準確性。
參考文獻:
[1]許焱,金芝,李戈,李力行.一種面向主題的Web知識檢索方法[J].小型微型計算機系統(tǒng),2012,10.
[作者簡介]馬喆.山西農(nóng)業(yè)大學信息學院計算機科學與技術(shù)專業(yè)技科信091班。