亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于KIM的語義檢索系統(tǒng)研究

        2010-08-31 11:26:54白如江王效岳山東理工大學圖書館山東淄博255049
        圖書館理論與實踐 2010年10期
        關鍵詞:信息檢索本體文檔

        ●白如江,王效岳(山東理工大學 圖書館,山東 淄博 255049)

        ●芮文浩 (安徽安慶師范學院 文學院,安徽 安慶 246133)

        1 KIM是什么

        KIM是OntoText實驗室的研究項目。該項目的研究成果KIMPlatform(Knowledge andInformationManagementPlatform)提供了一個語義服務平臺構(gòu)架和在此構(gòu)架上的應用,包括網(wǎng)頁內(nèi)容的半自動的語義標注、本體部署、基于內(nèi)容的語義索引、檢索和知識導航以及知識問答。

        2 KIM的體系結(jié)構(gòu)

        KIM平臺包括以下四個部分:KIMOntology、KIM WorldKB、KIMServer和Front-ends。如圖1所示。

        KIM的中部是API模塊。語義標注模塊API對與KIM本體和KB有關的文檔進行標注,同時還提供內(nèi)容和標注管理的基礎設施。文檔持久API模塊通過存儲文檔和相關標注從數(shù)據(jù)集中加載。索引API基于Lucene信息檢索引擎,通過修改索引策略允許對命名實體建立索引。查詢API模塊可以看成是語義檢索API,允許傳統(tǒng)的關鍵字搜索和其他基于本體的訪問方法。同時它還能夠建立復合型搜索,將實體搜索、關鍵字搜索和實體模式搜索集成在一起。語義存儲API能夠管理和訪問知識庫,通過RDFS和方法集訪問已有的知識庫。

        圖1 KIM體系結(jié)構(gòu)

        3 KIM的技術實現(xiàn)

        KIM在技術上借助了目前在本體及自然語言處理領域比較受推崇的三個開源項目:GATE[1]、Sesame[2]和 Lucene。[3]

        3.1 GATE

        GATE項目開始于1995年英國的謝菲爾德大學,其全稱是General Architecture forText Engineering,文本工程通用框架。經(jīng)歷了近10年的不斷發(fā)展,GATE已經(jīng)被應用于廣泛的研究和項目開發(fā)。GATE的主要開發(fā)者認為,GATE可以被看作是語言工程的軟件架構(gòu)。

        GATE框架采用了基于組件的軟件開發(fā)方式和面向?qū)ο蟮撵`活編程。GATE框架是由純Java語言開發(fā)的免費開源軟件,遵循GNU library license。GATE使用的編碼方式是Unicode,可以支持多種語言編碼,并且針對各種斯拉夫語言、日爾曼語言、拉丁系語言和印度語做過系統(tǒng)測試。GATE支持的文檔類型包括XML、RTF、Email、HTML、SGML以及純文本文件。

        GATE作為一個框架,規(guī)定其框架內(nèi)所有的自然語言處理軟件系統(tǒng)元素都可以有效地被細分成不同的幾種組件,在GATE中它們被稱為資源。在GATE框架下組件的集合被稱為CREOLE(a Collection of Reusable Objects forLanguage Engineering)。CREOLE組件是通過Java Beans的形式來實現(xiàn)的,CREOLE在GATE中分為三種形式:語言組件(LR)、處理組件(PR)和可視化組件 (VR)。

        GATE除了提供語言組件(LR)、可視化組件(VR)和處理組件(PR)之外,還提供了一些其他組件,比如GATE 提供了 JAPE(a Java Annotation Patterns Engine)作為建立規(guī)則庫的語法工具組件,用于英文信息抽取 的組件 ANNIE(ANearly-NewInformationExtraction System)。其中,JAPE提供了基于正規(guī)表達式的標注有限狀態(tài)轉(zhuǎn)換,我們通過JAPE手工設立各種規(guī)則來實現(xiàn)分詞、分句和命名實體識別等功能。優(yōu)秀的規(guī)則設置可以大大提高信息抽取的準確性。

        3.2 Sesame

        Sesame是一個本體存儲工具,可以用來存儲和查詢由RDF、RDFS語言構(gòu)建的本體,是歐洲IST項目On-To-Knowledge的一部分。值得指出的是,Sesame的設計和實現(xiàn)與具體的存儲設備無關,這意味著Sesame可以部署在各個不同的存儲設備之上,如關系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、文本文件等,但對外可提供一致的訪問接口,從而屏蔽了底層存儲設備的異構(gòu)性。我們采用Sesame來存儲protonontology,以及信息抽取出的ontology。

        3.3 Lucene

        Lucene是一個基于 Java的全文信息檢索工具包,它不是一個完整的搜索應用程序,而是為應用程序提供索引和搜索功能。Lucene目前是 Apache Jakarta家族中的一個開源項目。也是目前最為流行的基于 Java開源全文檢索工具包。

        4 KIM Ontology

        在KIM中KIMOntology中定義了實體的類型、實體類型的關系和屬性,而實體的具體描述則保存在KIMKnowledge Base中。所謂KIM Knowledge Base,就是所有實體的描述集合??梢园袺IMOntology看作是KIM Knowledge Base的模式(Schema),兩者都采用RDFS存儲在語義數(shù)據(jù)庫中,該語義數(shù)據(jù)庫存儲工具能夠支持知識推理、檢索,甚至版本控制、訪問控制、事務處理等功能。

        KIM KB已經(jīng)建立了一些重要實體的知識庫,目前包括8萬個實體。例如KB包含了5萬個位置實體,包含大陸、地區(qū)、282個國家、4700座城市以及山峰、河流、海洋甚至油田。為了使IE處理能夠識別KB中不包含的新實體和關系,KB還提供了詞匯資源的集合,該集合覆蓋了組織機構(gòu)的后綴、人名、時間、貨幣前綴,等等。為了保證KB對重要實體的覆蓋率,KB要一直處理和分析全球主要新聞的內(nèi)容,每周要更新4000份文檔,包括從15個媒體收集的重要報道、經(jīng)濟、政治新聞。

        5 基于KIM語義檢索系統(tǒng)

        基于KIM語義檢索系統(tǒng)分為實體搜索、實體模式搜索、預先定義模式搜索、本體瀏覽、關鍵詞搜索等幾部分功能。下面就幾個重要的功能分別進行介紹。

        5.1 實體模式搜索

        在實體模式搜索界面中讀者可以根據(jù)自己的要求進行檢索資源。舉個例子,如果要查詢“座落于中國的員工人數(shù)大于300的企業(yè)是哪些?并輸出這些企業(yè)的信息”。在實體模式搜索界面下,我們首先選擇X是一個organization,然后,確定X和Y的關系是X座落于Y,Y的值是“CHINA”;在屬性約束欄目中,我們定義X的“numberOfemployee”屬性大于“300”,最后點擊Entites按鈕就可以得到搜索結(jié)果了。如圖2所示。

        圖2 實體模式搜索界面

        在實體模式搜索結(jié)果界面,我們可以看到剛才定義的想要查找的內(nèi)容,總共有3條記錄符合要求,分別是 Yanzhou Coal Mining Company Limited、Qiao Xing Universal Telephone,Inc.、HaierGroupCompany。

        如果想繼續(xù)了解海爾公司的情況,我們點擊“HaierGroup Company”,這樣就可以看到與海爾公司相關的信息。如果點擊“D”按鈕,就可以獲得與海爾公司有關的文檔。此外我們還可以通過點擊“V”按鍵得到有關海爾公司的可視化信息。這樣就能幫助讀者方便迅速地了解了海爾公司的主要情況,而這是傳統(tǒng)信息檢索系統(tǒng)所不能的。

        5.2 預先定義搜索模式

        在預先定義搜索模式中,可以選擇預先定義好的搜索模式。比如,我們要查詢海爾公司的CEO是誰,我們就可以選擇“Person has Position Job Position within Organization Organization”模式,然后在person欄目中留空,在who has position一欄中填入CEO,在within Organization一欄中填入HaierGroup Company。然后點擊entity按鈕就可以找到海爾的CEO是張瑞敏。如果想要繼續(xù)了解有關張瑞敏的信息可以繼續(xù)點擊“Zhang Ruimin”,如果想查看與“Zhang Ruimin”有關的文檔點擊“D”按鈕;如果想查看與“ZhangRuimin”有關的可視化信息點擊“V”按鈕。我們還可以自己設定自己經(jīng)常需要用到的一些查詢模式存儲到預先定義搜索模式中。

        5.3 關鍵詞搜索

        基于KIM語義檢索系統(tǒng)還提供了通過傳統(tǒng)的關鍵詞查找來搜索我們想要的資源。比如我們要查詢有關于石油(oil)方面的文檔,可以在content欄目中輸入“oil”一詞,然后點擊Documents,就可以得到查詢結(jié)果。除此之外,我們還可以按照標題、副標題、作者等選項查找資源。查詢到某篇文章后,我們可以在系統(tǒng)中將其打開,然后通過系統(tǒng)對文章進行標引。這樣,讀者可以隨時點擊自己感興趣的內(nèi)容,做到了真正的智能檢索。如一篇題為“Spy claim threat to SingTel's buyinAustralia”的文章,我們通過系統(tǒng)打開,然后對其進行標引。當我們看到“Australian National University”這個詞條時,如果讀者不熟悉Australian National University的有關信息,就可以點擊它。這時系統(tǒng)會彈出與Australian National University有關的信息。同樣,如果我們想瀏覽和“Australian National University”有關的文章時可以繼續(xù)點擊“D”按鈕,想瀏覽與“Australian National University”有關的可視化信息可以點擊“V”按鈕。

        6 結(jié)論

        本文介紹了一個語義信息檢索平臺KIM。KIM通過對文檔建立基于本體的語義模式,結(jié)合傳統(tǒng)的IR技術,一定程度上能夠提高檢索的查全率。它開拓了信息檢索的新領域,利用了文檔豐富的語義信息和傳統(tǒng)的信息檢索技術,會是未來檢索技術發(fā)展的一個熱點領域。

        KIM的解決方案為協(xié)同環(huán)境下基于搜索的文檔定位提供了一個很有價值的研究方向。傳統(tǒng)的信息檢索技術目前已經(jīng)非常成熟,但是查詢效果不是令人很滿意。傳統(tǒng)的信息檢索根本不會理解查詢者的意圖,不會理解文檔中每句話中的語義信息。顯而易見,KIM現(xiàn)在可以解決這個問題,但尚不完美。

        KIM的信息抽取是基于英文的,我們未來的工作目標應該是使KIM實現(xiàn)中文的語義信息檢索。

        [1]Gate Research Group.General Architecture for Text Engineering[EB/OL].[2010-02-10].http://www.gate.ac.uk/,2009-09-01.

        [2]Open RDF org.Sesame Project[EB/OL].[2010-02-19].http://www.openrdf.org/,2009-09-07.

        [3]TheApacheSoftwareFoundation.LuceneProject[EB/OL].[2010-02-19].http://lucene.apache.org/,2009-09-07.

        猜你喜歡
        信息檢索本體文檔
        Abstracts and Key Words
        哲學分析(2023年4期)2023-12-21 05:30:27
        有人一聲不吭向你扔了個文檔
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        中國音樂學(2020年4期)2020-12-25 02:58:06
        基于RI碼計算的Word復制文檔鑒別
        醫(yī)學期刊編輯中文獻信息檢索的應用
        新聞傳播(2016年18期)2016-07-19 10:12:06
        基于神經(jīng)網(wǎng)絡的個性化信息檢索模型研究
        《我應該感到自豪才對》的本體性教學內(nèi)容及啟示
        文學教育(2016年27期)2016-02-28 02:35:15
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        教學型大學《信息檢索》公選課的設計與實施
        河南科技(2014年11期)2014-02-27 14:10:19
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        精品爆乳一区二区三区无码av| 蜜桃tv在线免费观看| 国产毛多水多高潮高清| 中日韩精品视频在线观看| 在线观看网址你懂的| 丝袜美腿亚洲综合玉足| 亚洲日本国产精品久久| 狠狠综合久久av一区二区| 亚洲精品中文字幕无乱码麻豆| 成年人视频在线播放视频| 激情五月开心五月麻豆| 丰满多毛的大隂户毛茸茸 | 午夜高清福利| 亚洲中文字幕不卡一区二区三区| 可免费观看的av毛片中日美韩| 亚洲综合色区另类av| 亚洲AV秘 无码一区二p区三区| 国产一区亚洲一区二区| 日韩中文字幕版区一区二区三区| 人妻少妇久久中文字幕一区二区| 亚洲动漫成人一区二区| 精品女人一区二区三区| 玩弄少妇人妻中文字幕| 在线播放无码高潮的视频| 国产精品无码不卡在线播放| 国产高清一区二区三区三州| 高清偷自拍亚洲精品三区 | 丝袜美腿在线观看视频| 精品国偷自产在线视频九色| 婷婷四房色播| 偷拍激情视频一区二区| 肥老熟女性强欲五十路| 无码毛片视频一区二区本码| 国产无码十八禁| 日本av不卡一区二区三区| 熟妇熟女乱妇乱女网站| 精品国产亚洲AⅤ麻豆| 男女搞黄在线观看视频| 国内永久福利在线视频图片| 精品一区二区久久久久久久网站 | 无码精品国产一区二区三区免费|