亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于工具書(shū)語(yǔ)料的國(guó)史知識(shí)庫(kù)構(gòu)建和檢索

        2016-02-15 09:00:44輝王穎張智雄
        現(xiàn)代情報(bào) 2016年1期
        關(guān)鍵詞:國(guó)史詞表工具書(shū)

        孫 輝王 穎張智雄

        (1.中國(guó)社會(huì)科學(xué)院當(dāng)代中國(guó)研究所,北京100009;2.中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京100190)

        基于工具書(shū)語(yǔ)料的國(guó)史知識(shí)庫(kù)構(gòu)建和檢索

        孫 輝1王 穎2張智雄2

        (1.中國(guó)社會(huì)科學(xué)院當(dāng)代中國(guó)研究所,北京100009;2.中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京100190)

        工具書(shū)語(yǔ)料是構(gòu)建知識(shí)庫(kù)的基本知識(shí)來(lái)源。本文給出基于工具書(shū)語(yǔ)料的知識(shí)庫(kù)構(gòu)建和檢索流程,從概念關(guān)系模型構(gòu)建、初始實(shí)例獲取和知識(shí)庫(kù)編輯等方面探討基于工具書(shū)語(yǔ)料的國(guó)史知識(shí)庫(kù)構(gòu)建;除了實(shí)現(xiàn)對(duì)象屬性檢索和語(yǔ)義關(guān)聯(lián)檢索外,利用工具書(shū)衍生的變體詞表還可以實(shí)現(xiàn)問(wèn)答式檢索。文章還指出工具書(shū)語(yǔ)料在知識(shí)來(lái)源揭示、超文本檢索方面的作用。

        工具書(shū)語(yǔ)料;國(guó)史;知識(shí)庫(kù);語(yǔ)義檢索

        [9]提出的知識(shí)采集模型,本文在文獻(xiàn)[10]提出的七步法基礎(chǔ)上,提出基于工具書(shū)語(yǔ)料的知識(shí)庫(kù)構(gòu)建和檢索流程,如圖1所示(單線箭頭表示知識(shí)庫(kù)構(gòu)建流程,雙線箭頭表示知識(shí)庫(kù)檢索過(guò)程)。

        圖1 基于工具書(shū)進(jìn)行知識(shí)庫(kù)構(gòu)建和檢索的流程框架

        ①通過(guò)信息抽取,工具書(shū)語(yǔ)料向知識(shí)庫(kù)進(jìn)行知識(shí)遷移;

        ②在知識(shí)遷移過(guò)程中,通過(guò)對(duì)詞條體例和詞條內(nèi)容分析,找到部分自然語(yǔ)言與知識(shí)庫(kù)中實(shí)例類型、屬性的可能對(duì)照關(guān)系,形成變體詞表,變體詞表可以輔助信息抽??;

        ③部分初始實(shí)例來(lái)源于工具書(shū)中的經(jīng)過(guò)清洗的詞表和目錄標(biāo)題,隨著實(shí)例增加,定期將所有實(shí)例和其別稱轉(zhuǎn)換成實(shí)體詞表;

        ④用實(shí)體詞表和變體詞表對(duì)詞條內(nèi)容進(jìn)行語(yǔ)義標(biāo)注,輔助信息抽取。

        Ⅰ輸入檢索問(wèn)句;

        Ⅱ用實(shí)體詞表切分檢索問(wèn)句,得到實(shí)例;用變體詞表切分檢索問(wèn)句,經(jīng)轉(zhuǎn)換,得到相關(guān)實(shí)例概念類型和屬性;

        Ⅲ經(jīng)過(guò)查詢轉(zhuǎn)換器,得到相應(yīng)的檢索模式,對(duì)知識(shí)庫(kù)進(jìn)行對(duì)象檢索、關(guān)聯(lián)檢索和提問(wèn)檢索等語(yǔ)義檢索;

        Ⅳ對(duì)工具書(shū)進(jìn)行全文檢索;

        Ⅴ知識(shí)庫(kù)的檢索結(jié)果為知識(shí)圖譜,知識(shí)圖譜中給出實(shí)例或事實(shí)的語(yǔ)料來(lái)源;

        Ⅵ語(yǔ)料庫(kù)的檢索結(jié)果為有關(guān)工具書(shū)詞條。

        2 基于工具書(shū)語(yǔ)料的國(guó)史知識(shí)庫(kù)構(gòu)建

        在工具書(shū)語(yǔ)料向知識(shí)庫(kù)進(jìn)行遷移時(shí),各種工具書(shū)語(yǔ)料對(duì)知識(shí)庫(kù)構(gòu)建的貢獻(xiàn)不同,同一工具書(shū)的不同要素也分別發(fā)揮不一樣的作用,具體如表1所示。

        表1 各種知識(shí)來(lái)源對(duì)國(guó)史知識(shí)庫(kù)的貢獻(xiàn)

        2.1 概念模型構(gòu)建

        2.1.1 從工具書(shū)種類和目錄中提取核心概念及其層次關(guān)系

        國(guó)史工具書(shū)一般為人物名錄、地區(qū)名錄、機(jī)構(gòu)名錄、大事年表等,這些圖書(shū)的類型本身就反映了“人物”“地區(qū)”“機(jī)構(gòu)”“事件”等是國(guó)史領(lǐng)域的關(guān)注重點(diǎn),可以成為知識(shí)庫(kù)的核心概念。國(guó)史領(lǐng)域的相關(guān)詞表,如《中圖法》中《中國(guó)地區(qū)復(fù)分表》,其反映的地區(qū)之間的層次關(guān)系,可以直接利用。一些工具書(shū)的目錄結(jié)構(gòu),反映了領(lǐng)域知識(shí)的分類和層級(jí)關(guān)系,例如《中國(guó)共產(chǎn)黨歷史大辭典》,按“人物”“事件”“會(huì)議”“組織”“文件”“著作”“報(bào)刊”“名詞術(shù)語(yǔ)”“路線方針”類別來(lái)組織詞條,非常合理地體現(xiàn)了國(guó)史領(lǐng)域的核心概念類型;《中華人民共和國(guó)職官志》的目錄將“組織機(jī)構(gòu)”分為“中央”和“地方”兩類,其中“中央”包括“中國(guó)共產(chǎn)黨”“全國(guó)人民代表大會(huì)”“中華人民共和國(guó)政府”“中國(guó)人民政治協(xié)商會(huì)議”“中國(guó)人民解放軍”“各民主黨派和工商聯(lián)”“各人民團(tuán)體”,“地方”包括地方的黨政軍機(jī)構(gòu),可直接用于“組織機(jī)構(gòu)”類的概念層次劃分。

        2.1.2 從工具書(shū)編纂體例凝練概念關(guān)系及其約束

        在詞條編纂過(guò)程中,大型工具書(shū)都規(guī)范的體例。例如,“人物”詞條,一般描述了人物的籍貫、出生和死亡時(shí)間、曾用名、所屬黨派、學(xué)歷,并以工作時(shí)間為序介紹其含所擔(dān)任的行政職務(wù)和社會(huì)職務(wù);“文件”詞條,描述了文件的起草者、發(fā)布時(shí)間、發(fā)布場(chǎng)合、發(fā)布內(nèi)容等。這些體例反映了概念的基本屬性。

        在工具書(shū)語(yǔ)料中選取典型詞條文本,以語(yǔ)句為單元進(jìn)行分析,可以發(fā)現(xiàn),每條語(yǔ)句包含一條或多條RDF三元組事實(shí),一般主語(yǔ)直接包含主體名稱或別稱,賓語(yǔ)包含客體名稱或別稱,而謂詞一般隱含在謂語(yǔ)動(dòng)詞中。同時(shí),某些謂語(yǔ)動(dòng)詞、介詞、時(shí)間地點(diǎn)狀語(yǔ)等,往往與一類概念或一種關(guān)系的多個(gè)自然詞匯相關(guān)。建立變體詞表,存儲(chǔ)這些“自然語(yǔ)言”與“相關(guān)概念類型”“相關(guān)屬性”之間的對(duì)應(yīng)關(guān)系。變體詞表既可以通過(guò)文本標(biāo)注輔助關(guān)系抽取,又可以參與問(wèn)答式檢索的分詞。典型詞條語(yǔ)料分析,有助于歸納凝煉出某類概念的共同特質(zhì),包括概念屬性和約束。表2給出了文本分析樣例,該文本來(lái)自《中華人民共和國(guó)史百科》中的“中共七屆六中全會(huì)”詞條(圖2),表3為經(jīng)文本分析而歸納衍生的變體詞表(部分)。國(guó)史概念關(guān)系模型(片段)如圖3所示。

        圖2 詞條樣例

        表2 文本分析樣例

        表3 變體詞表(片段)

        圖3 國(guó)史概念模型(片段)

        通過(guò)語(yǔ)料分析發(fā)現(xiàn),在國(guó)史概念模型中,以下屬性約束尤其重要。

        (1)名稱約束

        實(shí)例名稱惟一,即實(shí)例名稱與其他實(shí)例的名稱或別稱不能相同,但不同實(shí)例允許具有相同的別稱。例如,國(guó)史上“王力”有兩個(gè),一個(gè)是語(yǔ)言學(xué)家“王力”,一個(gè)是文革人物“王力”,那么前者的實(shí)例名稱是“語(yǔ)言學(xué)家王力”,后者的實(shí)例名稱是“文革王力”,二者的別稱都是“王力”,這種約束設(shè)定是體現(xiàn)了實(shí)體命名規(guī)范性,又兼顧了自然語(yǔ)言,方便了語(yǔ)料的實(shí)體抽取后續(xù)檢索詞切分和定位。

        (2)層級(jí)約束

        在“組織機(jī)構(gòu)”和“事件”中存在上下位等級(jí)傳遞關(guān)系,不能出現(xiàn)越級(jí)情況。例如,A的上位詞為B,且B的上位詞為C,此時(shí)B和C的上位詞不能是A。由于知識(shí)庫(kù)編輯是多用戶離散式的,層級(jí)約束的檢查很重要。

        (3)互逆關(guān)系

        互逆關(guān)系指謂詞存在逆屬性,如果屬性P1與P2是互逆屬性inverseOf(P1,P2),那么(A,P1,B),(B,P2,A)是成對(duì)出現(xiàn)的三元組。例如,在“會(huì)議”類中有“通過(guò)文件”這一屬性,在“文件”類中有“通過(guò)場(chǎng)合——會(huì)議”這一屬性,“通過(guò)文件”與“通過(guò)場(chǎng)合——會(huì)議”是互逆關(guān)系,當(dāng)增加“中共七屆六中全會(huì)——通過(guò)文件——《關(guān)于農(nóng)業(yè)合作化問(wèn)題的決議》”這一條事實(shí)的同時(shí),知識(shí)庫(kù)中自動(dòng)增加“《關(guān)于農(nóng)業(yè)合作化問(wèn)題的決議》——通過(guò)場(chǎng)合——中共七屆六中全會(huì)”這一事實(shí)。工具書(shū)語(yǔ)料中的詞條由于編寫角度不同,往往包含重復(fù)的事實(shí),這種約束設(shè)定,可減少多用戶語(yǔ)義沖突,也節(jié)約了建庫(kù)時(shí)間。

        2.2 初始實(shí)例獲取

        國(guó)史知識(shí)庫(kù)的初始實(shí)例來(lái)源于各類工具書(shū),具體如下:

        人物:《黨史大辭典(人物篇)》、《中華人民共和國(guó)史百科》(人物)、《中華人民共和國(guó)主要事件人物》、《中華人民共和國(guó)資料手冊(cè)》(人物)部分的詞條名稱直接轉(zhuǎn)化并整合;

        組織機(jī)構(gòu):經(jīng)《職官志》的目錄標(biāo)題直接轉(zhuǎn)化,再通過(guò)后期補(bǔ)充?!敖M織機(jī)構(gòu)”的概念層次和初始實(shí)例的基本屬性如表4所示,經(jīng)轉(zhuǎn)化,在知識(shí)庫(kù)中以三元組形式存儲(chǔ)。

        國(guó)家和地區(qū):經(jīng)《中圖法》通用復(fù)分表(世界地區(qū)表和中國(guó)地區(qū)表)轉(zhuǎn)化而來(lái),反映了地區(qū)間的層次關(guān)系和地區(qū)別稱。

        會(huì)議:對(duì)《黨史大辭典(社會(huì)主義建設(shè)時(shí)期)》、《中華人民共和國(guó)史百科》、《中華人民共和國(guó)主要事件人物》、《中華人民共和國(guó)資料手冊(cè)》《中華人民共和國(guó)大事記》的“會(huì)議”類詞條進(jìn)行整合,整理其別稱。

        事件:由于各工具書(shū)對(duì)事件命名有較大分歧,這項(xiàng)工作需要在國(guó)史專家指導(dǎo)下進(jìn)行整合。

        需要說(shuō)明的是,在語(yǔ)料的實(shí)體抽取中,實(shí)例別稱能幫助識(shí)別對(duì)不同自然語(yǔ)言表達(dá)的同一概念,對(duì)于多用戶協(xié)同編輯的知識(shí)庫(kù),有效防止同一概念多次命名。因此,在初始實(shí)例整理中,應(yīng)盡量通過(guò)自動(dòng)轉(zhuǎn)換或人工增加方式補(bǔ)全實(shí)例別稱。

        2.3 實(shí)例和事實(shí)編輯

        基于工具書(shū)構(gòu)建的概念關(guān)系模型與國(guó)史知識(shí)庫(kù)有較高的吻合度,實(shí)例和事實(shí)的編輯過(guò)程就是對(duì)工具書(shū)相關(guān)語(yǔ)料進(jìn)一步進(jìn)行事實(shí)抽取的過(guò)程。文獻(xiàn)[8]給出基本思路。本文對(duì)其流程作簡(jiǎn)略描述。

        2.3.1 建立實(shí)例與語(yǔ)料的對(duì)應(yīng)關(guān)系

        國(guó)史知識(shí)庫(kù)的事實(shí)和實(shí)例來(lái)源于相關(guān)語(yǔ)料,需要建立實(shí)例與詞條語(yǔ)料之間的關(guān)聯(lián)。系統(tǒng)首先對(duì)語(yǔ)料進(jìn)行素材管理,語(yǔ)料以詞條為記錄單元進(jìn)行管理,每條記錄包括詞條名稱、詞條種類、詞條來(lái)源、詞條內(nèi)容等字段;再根據(jù)實(shí)例名稱或別稱自動(dòng)建立部分實(shí)例與詞條之間的關(guān)聯(lián)。對(duì)于“人物”“組織機(jī)構(gòu)”“會(huì)議”“文獻(xiàn)”類實(shí)例,實(shí)例與詞條按名稱基本對(duì)應(yīng);對(duì)于“事件”類實(shí)例,各種知識(shí)來(lái)源表達(dá)不一致,甚至描述的側(cè)重點(diǎn)也不同,需要人工建立二者之間的關(guān)聯(lián)。圖為“素材遴選”界面。需要說(shuō)明的是,實(shí)例和工具書(shū)的詞條并不是一一對(duì)應(yīng)關(guān)系,一個(gè)實(shí)例的知識(shí)來(lái)源可以是不同工具書(shū)的多個(gè)詞條,同樣一個(gè)詞條可以作為多個(gè)實(shí)例的知識(shí)來(lái)源,比如,有些“事件”實(shí)例和“文獻(xiàn)”實(shí)例的知識(shí)來(lái)源于同一“文獻(xiàn)”類詞條。用戶在編輯時(shí),可參照多方面的語(yǔ)料,如果二者說(shuō)法有沖突,人工給出判斷。

        表4 “組織機(jī)構(gòu)”初始實(shí)例

        圖4 素材遴選

        2.3.2 從詞條語(yǔ)料獲取事實(shí)和實(shí)例

        在概念模型和基礎(chǔ)實(shí)例相對(duì)穩(wěn)定后,后續(xù)的實(shí)例增加和事實(shí)填充,由編輯根據(jù)語(yǔ)義標(biāo)注后的詞條文本人工完成,增加的實(shí)例定期導(dǎo)入實(shí)體詞表,這種循環(huán)迭代的方式(圖1中的步驟④)復(fù)用了知識(shí)庫(kù)的知識(shí),有利于信息抽取,也減少了大量重復(fù)編輯。圖2中的“黑體”為第一次標(biāo)注的詞條文本(在系統(tǒng)中不同概念大類用不同顏色字體表示),“黑體加下劃線”為經(jīng)后續(xù)經(jīng)實(shí)體詞表更新標(biāo)注的。對(duì)于“時(shí)間”,雖然國(guó)史工具書(shū)的時(shí)間表述有時(shí)比較模糊,但有其特定含義,現(xiàn)抽取其語(yǔ)料原文為“時(shí)間”實(shí)例名稱,系統(tǒng)對(duì)這種模糊表達(dá)按一定規(guī)則定義數(shù)值屬性“開(kāi)始時(shí)間”和“結(jié)束時(shí)間”,以方便國(guó)史知識(shí)庫(kù)的時(shí)序檢索。例如,“時(shí)間”實(shí)例名稱為“1956年末”(直接取自語(yǔ)料),其缺省的數(shù)值屬性“開(kāi)始時(shí)間”值為“1956-10-01”,“結(jié)束時(shí)間”值為“1956-12-31”。由于國(guó)史知識(shí)庫(kù)協(xié)同編輯的需要(該部分另文論述[11]),編輯人員采用“主體編輯模式”和“事實(shí)編輯模式”兩種方式進(jìn)行編輯。在編輯過(guò)程中,系統(tǒng)結(jié)合“素材遴選”中的詞條來(lái)源給出每一條事實(shí)的知識(shí)來(lái)源,并在知識(shí)圖譜中提示,體現(xiàn)了知識(shí)庫(kù)編輯人員的責(zé)任意識(shí)。

        通過(guò)多用戶協(xié)同編輯,當(dāng)前國(guó)史知識(shí)庫(kù)包含19個(gè)概念大類、22個(gè)數(shù)值屬性、72個(gè)對(duì)象屬性(圖5);實(shí)例共約11 618個(gè),其中人物3 480個(gè)、組織與機(jī)構(gòu)2 581個(gè)、特殊群體103個(gè)、會(huì)議694個(gè)、事件1 711個(gè)、理念與術(shù)語(yǔ)1 446個(gè)、文件1 085個(gè)、報(bào)告講話518個(gè),事實(shí)共26 780個(gè),實(shí)現(xiàn)可視化的問(wèn)答式檢索、時(shí)序檢索和關(guān)聯(lián)檢索功能。

        圖5 國(guó)史知識(shí)庫(kù)包含元素

        3 基于工具書(shū)語(yǔ)料的國(guó)史知識(shí)庫(kù)檢索

        基于工具書(shū)語(yǔ)料的國(guó)史知識(shí)庫(kù)建成后,工具書(shū)語(yǔ)料并非棄之不用,它仍然保留在系統(tǒng)中,在知識(shí)庫(kù)檢索中繼續(xù)發(fā)揮作用。國(guó)史知識(shí)庫(kù)使用SQL SERVER存儲(chǔ)國(guó)史工具書(shū)語(yǔ)料和國(guó)史本體知識(shí)庫(kù)的加工數(shù)據(jù),利用Neo4j存儲(chǔ)國(guó)史本體知識(shí)庫(kù)并構(gòu)建了Solr索引,使用Cytoscape Web可視化工具進(jìn)行知識(shí)圖譜展示,實(shí)現(xiàn)了知識(shí)導(dǎo)航、時(shí)序檢索、實(shí)體檢索、關(guān)聯(lián)檢索、問(wèn)答式檢索和全文檢索。時(shí)序檢索針對(duì)具有時(shí)間特征(文獻(xiàn)發(fā)表時(shí)間、事件發(fā)生時(shí)間、會(huì)議時(shí)間)的對(duì)象(文獻(xiàn)、事件、會(huì)議)提供時(shí)間段檢索,例如,列舉出1951-1952年的國(guó)史大事,具備大事記的功能(圖6)。實(shí)體檢索就是構(gòu)建類似SPARQL查詢語(yǔ)句進(jìn)行RDF三元組檢索,關(guān)聯(lián)檢索就是利用Neo4j圖遍歷機(jī)制查詢RDF圖路徑,路徑越短,概念之間的關(guān)系越密切,從而可以發(fā)現(xiàn)知識(shí)點(diǎn)之間的潛在關(guān)聯(lián)。例如檢索對(duì)看似不相關(guān)的兩個(gè)人物對(duì)象“毛澤東”與“胡耀邦”進(jìn)行關(guān)聯(lián)檢索,檢索結(jié)果如圖7所示,其中最近的路徑為經(jīng)過(guò)“1961年全黨大興調(diào)查研究之風(fēng)”這個(gè)事件節(jié)點(diǎn),經(jīng)查證,當(dāng)年,胡耀邦領(lǐng)導(dǎo)的遼寧海城調(diào)查組參與了毛澤東領(lǐng)導(dǎo)的這個(gè)事件,這個(gè)關(guān)聯(lián)檢索反映了胡耀邦“實(shí)事求是”的工作作風(fēng)的形成歷程,有利于國(guó)史人物研究。

        圖6 時(shí)序檢索

        圖7 關(guān)聯(lián)檢索

        問(wèn)答式檢索綜合利用文本分析、實(shí)體檢索、關(guān)聯(lián)檢索等手段,對(duì)用戶的自然語(yǔ)言提問(wèn)給予回答,檢索結(jié)果為知識(shí)圖譜和相關(guān)工具書(shū)語(yǔ)料,工具書(shū)語(yǔ)料衍生的變體詞表(表3)在問(wèn)答式檢索中發(fā)揮重要作用;系統(tǒng)采用超文本技術(shù)實(shí)現(xiàn)知識(shí)點(diǎn)和相關(guān)語(yǔ)料之間的跳轉(zhuǎn);點(diǎn)擊知識(shí)圖譜的實(shí)例或事實(shí),系統(tǒng)顯示這條知識(shí)來(lái)源于哪條工具書(shū)語(yǔ)料。在知識(shí)庫(kù)建立之后,工具書(shū)語(yǔ)料并沒(méi)有棄之不用,它在知識(shí)庫(kù)檢索中再次發(fā)揮作用。本文將具體就此進(jìn)行分析。

        3.1 問(wèn)答式檢索

        為滿足用戶使用自然語(yǔ)言提問(wèn)的檢索需求,系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)了國(guó)史知識(shí)問(wèn)答功能。利用自然語(yǔ)言處理技術(shù)對(duì)用戶提出的問(wèn)題進(jìn)行分析,構(gòu)造針對(duì)國(guó)史本體知識(shí)庫(kù)的結(jié)構(gòu)化檢索式,返回知識(shí)圖譜和相關(guān)語(yǔ)料。將自然語(yǔ)言提問(wèn)轉(zhuǎn)換成知識(shí)庫(kù)查詢是問(wèn)答式檢索的難點(diǎn)。工具書(shū)語(yǔ)料本身是用自然語(yǔ)言撰寫的,在知識(shí)庫(kù)構(gòu)建過(guò)程中,通過(guò)文本分析形成的變體詞表曾在概念模型構(gòu)建和信息抽取中發(fā)揮輔助作用,在知識(shí)庫(kù)問(wèn)答式檢索中,該變體詞表再次用于提問(wèn)句切分和識(shí)別。

        如圖8所示,基于自然語(yǔ)言的問(wèn)答式檢索包括以下幾步,第一步,提問(wèn)語(yǔ)句切分;第二步,提問(wèn)模式識(shí)別;第三步,根據(jù)提問(wèn)模式擬定查詢語(yǔ)句;第四步,知識(shí)圖譜展示。

        系統(tǒng)利用“實(shí)體詞表”和“變體詞表”對(duì)提問(wèn)語(yǔ)句進(jìn)行切分(本次切分,不采用傳統(tǒng)的分詞詞典),切分時(shí)采用最長(zhǎng)匹配方法?!皩?shí)體詞表”的切分結(jié)果為實(shí)例名稱或別稱,“變體詞表”的切分結(jié)果轉(zhuǎn)換為對(duì)應(yīng)的“相關(guān)概念類型”“相關(guān)屬性”,因此,拆分的結(jié)果有3種,分別是實(shí)例、相關(guān)屬性和相關(guān)概念類型。例如,提問(wèn)“中共十一屆三中全會(huì)是何時(shí)召開(kāi)的?”,拆分結(jié)果為實(shí)例“中共十一屆三中全會(huì)”,相關(guān)屬性“會(huì)議時(shí)間”。

        系統(tǒng)根據(jù)提問(wèn)語(yǔ)句的切分結(jié)果,將常見(jiàn)問(wèn)句劃為10種提問(wèn)模式(表5),并給出相應(yīng)的查詢方式,系統(tǒng)根據(jù)查詢方式擬定相關(guān)實(shí)體檢索語(yǔ)句和關(guān)聯(lián)檢索語(yǔ)句。例如“提問(wèn)模式2”對(duì)應(yīng)的是實(shí)體檢索;“提問(wèn)模式7”對(duì)應(yīng)的是關(guān)聯(lián)檢索。由于關(guān)聯(lián)檢索查詢時(shí)間與查詢路徑有關(guān),系統(tǒng)設(shè)定問(wèn)答式檢索的查詢路徑長(zhǎng)度不超過(guò)2。圖7~圖15給出每個(gè)查詢實(shí)例的結(jié)果界面。

        圖8 基于自然語(yǔ)言的問(wèn)答式檢索流程

        圖9 問(wèn)答式檢索界面

        表5 提問(wèn)模式

        圖10 模式1

        圖11 模式2

        圖12 模式3

        圖13 模式4

        圖14 模式5和6

        圖15 模式7

        圖16 模式8

        圖17 模式9

        3.2 超文本檢索

        無(wú)論是知識(shí)來(lái)源窗口顯示的工具書(shū)語(yǔ)料,還是全文檢索結(jié)果界面(見(jiàn)圖19),所有語(yǔ)料都經(jīng)過(guò)實(shí)體詞表標(biāo)注,不同概念類型用不同顏色表示,用戶點(diǎn)擊這些有顏色的實(shí)體詞,可以進(jìn)行二次知識(shí)庫(kù)檢索和全文檢索,多次跳轉(zhuǎn)到新的知識(shí)圖譜和相關(guān)工具書(shū)語(yǔ)料。

        3.3 知識(shí)來(lái)源揭示

        由于在素材遴選和信息抽取過(guò)程中,系統(tǒng)記錄了實(shí)例和事實(shí)的來(lái)源語(yǔ)料,在知識(shí)庫(kù)檢索過(guò)程中,用戶點(diǎn)擊實(shí)例或知識(shí)圖譜中節(jié)點(diǎn)之間的連線,可查看來(lái)源語(yǔ)料,這豐富了知識(shí)圖譜的表達(dá)形式,也體現(xiàn)了知識(shí)庫(kù)的責(zé)任意識(shí)和工具書(shū)的權(quán)威性。

        圖18 模式10

        圖19 工具書(shū)語(yǔ)料的超文本檢索

        圖20 查看知識(shí)來(lái)源

        4 結(jié) 語(yǔ)

        本文充分利用國(guó)史工具書(shū)語(yǔ)料,構(gòu)建國(guó)史知識(shí)庫(kù)并提供多樣化檢索,檢索入口為“中華人民共和國(guó)史教育網(wǎng)(http:∥www.hprc.org.cn/)”的“國(guó)史百科”欄目?!皣?guó)史百科”超越了大多數(shù)在線百科的全文檢索功能,其基于知識(shí)庫(kù)的豐富語(yǔ)義,不僅提供人物、事件、文獻(xiàn)、術(shù)語(yǔ)導(dǎo)航,還提供時(shí)序檢索、關(guān)聯(lián)檢索和問(wèn)答式檢索,首次在檢索結(jié)果界面同時(shí)提供知識(shí)圖譜和工具書(shū)原文,這種方式,全方位展示了國(guó)史概念之間的關(guān)系,實(shí)現(xiàn)了知識(shí)圖譜漫游式檢索,既豐富了用戶的檢索體驗(yàn),又保證了知識(shí)庫(kù)的嚴(yán)謹(jǐn)性和規(guī)范性。該項(xiàng)研究對(duì)普及國(guó)史知識(shí)和深入國(guó)史研究提供幫助。

        參考文獻(xiàn)

        [1]董慧,余傳明,楊寧.基于本體的數(shù)字圖書(shū)館檢索模型研究(Ⅲ)——?dú)v史領(lǐng)域資源本體構(gòu)建[J].情報(bào)學(xué)報(bào),2006,(5):564-574.

        [2]董慧,徐雷,王菲,等.語(yǔ)義分析系統(tǒng)研究(Ⅰ)——史籍語(yǔ)義分析流程[J].情報(bào)學(xué)報(bào),2014,33(2):183-194.

        [3]董慧,徐雷,王菲,等.語(yǔ)義分析系統(tǒng)研究(Ⅱ)——史籍推理機(jī)制[J].情報(bào)學(xué)報(bào),2014,33(2):195-203.

        [4]董慧,徐雷,王菲,等.語(yǔ)義分析系統(tǒng)研究(Ⅲ)——中華史籍語(yǔ)義分析系統(tǒng)實(shí)現(xiàn)[J].情報(bào)學(xué)報(bào),2014,33(2):204-214.

        [5]吳麗杰.基于本體的特色數(shù)據(jù)庫(kù)知識(shí)組織研究[J].圖書(shū)館學(xué)刊,2012,(3):41-43.

        [6]彭煒明,宋繼華.《資治通鑒》歷史領(lǐng)域本體構(gòu)建及其應(yīng)用研究[J].中文信息學(xué)報(bào),2010,(2):33-38.

        [7]丁晟春,傅柱.基于航天敘詞表的領(lǐng)域本體半自動(dòng)化構(gòu)建研究[J].情報(bào)理論與實(shí)踐,2011,(11):113-116.

        [8]王穎,張智雄,孫輝,等.國(guó)史知識(shí)的語(yǔ)義揭示與組織方法研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2015,(4):55-64.

        [9]王昊,谷俊,蘇新寧.本體驅(qū)動(dòng)的知識(shí)管理系統(tǒng)模型及其應(yīng)用研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2013,(2):98-110.

        [10]Natalya F.Noy and Deborah L.McGuinness.Development 101:A Guide to Creating Your First Ontology[OL].http:∥wenku.baidu.com/view/30fb4b956bec0975f465e2bf.html,2013-07-25.

        [11]孫輝,王穎,張智雄.本體構(gòu)建中的協(xié)同問(wèn)題研究——以中華人民共和國(guó)史本體為例[J].情報(bào)學(xué)報(bào).

        (本文責(zé)任編輯:郭沫含)

        Building and Retrieval of Knowledge Base on the Contemporary Chinese History Using Reference Books

        Sun Hui1Wang Ying2Zhang Zhixiong2
        (1.Institute of Contemporary China Studies,Chinese Academy of Social Science,Beijing 100009,China;2.National Science Library,Chinese Academy of Sciences,Beijing 100190,China)

        Refrence books are basic resource in building knowledge base.This paper gave the process of building and retrieval knowledge base using reference books.It researched the role of reference books in the knowledge base building from the perspective of concept relation model building,the initial instance acquisition and knowledge base editing.The variant terms derived from reference books can help realize question-and-answer retrieval.It also pointed out the role of reference books in hypertext retrieval.

        reference books;Chinese history;knowledge base;semantic retrieval

        10.3969/j.issn.1008-0821.2016.01.012

        G254.92

        A

        1008-0821(2016)01-0064-10

        1 基于工具書(shū)語(yǔ)料的知識(shí)庫(kù)構(gòu)建和檢索流程框架

        2015-10-20

        中國(guó)社會(huì)科學(xué)院哲學(xué)社會(huì)科學(xué)創(chuàng)新工程信息化項(xiàng)目“中華人民共和國(guó)史教育網(wǎng)”的研究成果之一。

        孫 輝(1971-),女,副編審,博士,研究方向:信息組織,知識(shí)管理。

        利用語(yǔ)義技術(shù)構(gòu)建歷史領(lǐng)域知識(shí)庫(kù),增強(qiáng)歷史認(rèn)知,促進(jìn)歷史普及,輔助歷史研究或資源檢索,已經(jīng)成為重要的知識(shí)服務(wù)方式。武漢大學(xué)董慧教授早在2006年就以《國(guó)共合作通史五卷本》為藍(lán)本構(gòu)建國(guó)共合作歷史本體[1],2014年又以中華書(shū)局出版的《二十四史》為藍(lán)本實(shí)現(xiàn)中華史籍語(yǔ)義分析系統(tǒng)[2-4],吳麗杰[5]通過(guò)人工構(gòu)建東北抗戰(zhàn)史本體輔助資源組織,彭煒明以《資治通鑒》為藍(lán)本構(gòu)建資治通鑒本體[6]等,上述文獻(xiàn)面向不同時(shí)代的歷史知識(shí)領(lǐng)域,在概念關(guān)系模型構(gòu)建、信息抽取、語(yǔ)義推理、知識(shí)庫(kù)檢索和資源組織等方面做了有益的嘗試。由于歷史領(lǐng)域知識(shí)存在模糊性和不確定性,選擇史料而不是一味依靠專家頭腦中的知識(shí)作為知識(shí)庫(kù)的知識(shí)來(lái)源,能夠保證知識(shí)庫(kù)的嚴(yán)謹(jǐn)和規(guī)范,其知識(shí)有據(jù)可查,這種構(gòu)建方法越來(lái)越成為一種趨勢(shì)。歷史學(xué)科的特點(diǎn)是,越是近期的歷史,史料越豐富。中華人民共和國(guó)史(簡(jiǎn)稱國(guó)史)指1949年建國(guó)以后的歷史,這段時(shí)期的史料比古代史和近代史的總和還要多。如何選擇合適的歷史語(yǔ)料作為國(guó)史知識(shí)庫(kù)的知識(shí)來(lái)源,是構(gòu)建國(guó)史知識(shí)庫(kù)必須考慮的問(wèn)題。本文認(rèn)為,大型詞表、詞典、百科類的工具書(shū)由數(shù)位領(lǐng)域?qū)<覕?shù)年集體創(chuàng)作而成,是對(duì)領(lǐng)域知識(shí)提煉加工的結(jié)晶,其體例、選材、文字組織和術(shù)語(yǔ)表達(dá)都有一定規(guī)范,包含了學(xué)科領(lǐng)域的基本知識(shí)。固化在工具書(shū)中的知識(shí)具有權(quán)威性、完整性、規(guī)范性、一致性,對(duì)于構(gòu)建領(lǐng)域知識(shí)庫(kù)來(lái)說(shuō),工具書(shū)是高度濃縮、轉(zhuǎn)化度比較高的語(yǔ)料。因此,建議借鑒自然科學(xué)領(lǐng)域利用敘詞表構(gòu)建領(lǐng)域知識(shí)庫(kù)的經(jīng)驗(yàn)[7],研究國(guó)史知識(shí)的語(yǔ)義揭示和組織方法[8],利用工具書(shū)語(yǔ)料構(gòu)建國(guó)史領(lǐng)域基本知識(shí)庫(kù),再通過(guò)其他研究成果類語(yǔ)料對(duì)知識(shí)庫(kù)進(jìn)行補(bǔ)充。本文首先給出基于工具書(shū)語(yǔ)料的知識(shí)庫(kù)構(gòu)建和檢索流程,從概念關(guān)系模型構(gòu)建、初始實(shí)例獲取和知識(shí)庫(kù)編輯等方面探討基于工具書(shū)語(yǔ)料的國(guó)史知識(shí)庫(kù)構(gòu)建,除了實(shí)現(xiàn)對(duì)象屬性檢索和對(duì)象語(yǔ)義關(guān)聯(lián)檢索外,還利用工具書(shū)衍生的變體詞表實(shí)現(xiàn)問(wèn)答式語(yǔ)義檢索,并指出工具書(shū)語(yǔ)料在知識(shí)來(lái)源揭示、超文本檢索方面的作用。本文重點(diǎn)介紹工具書(shū)語(yǔ)料在國(guó)史知識(shí)庫(kù)構(gòu)建和檢索中的作用,關(guān)于本系統(tǒng)架構(gòu)和功能平臺(tái)實(shí)現(xiàn),另文討論。

        猜你喜歡
        國(guó)史詞表工具書(shū)
        A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會(huì)項(xiàng)目名稱漢英對(duì)照詞表
        詩(shī)詞工具書(shū)二種
        詩(shī)詞工具書(shū)二種
        蔡國(guó)史地問(wèn)題研究
        好風(fēng)憑借力伴我泛書(shū)海
        ——小學(xué)語(yǔ)文閱讀教學(xué)中使用工具書(shū)的指導(dǎo)
        敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
        銘記——山東省黨史國(guó)史教育活動(dòng)薈萃 前言
        以社會(huì)主義核心價(jià)值觀為引領(lǐng),深入開(kāi)展黨史國(guó)史教育活動(dòng)
        關(guān)于習(xí)近平同志黨史國(guó)史重要論述的幾點(diǎn)思考
        網(wǎng)絡(luò)時(shí)代工具書(shū)閱覽室的建設(shè)
        黑龍江史志(2013年7期)2013-08-15 00:46:01
        99精品国产高清一区二区麻豆 | 中文字幕第1页中文字幕在| 亚洲AV手机专区久久精品| 黄色录像成人播放免费99网| 国产精品久久三级精品| 成人影片麻豆国产影片免费观看| 久久不见久久见免费视频6| 亚洲图片日本视频免费| 日日摸夜夜添狠狠添欧美| 国产精品18久久久久久不卡中国 | 日本视频在线观看一区二区| 亚洲欧美国产精品久久| 中文无码日韩欧| 日韩在线看片免费人成视频| 真人在线射美女视频在线观看| 无人视频在线播放在线观看免费| 亚洲女人的天堂网av| 欧美怡春院一区二区三区| 亚洲欧洲日本综合aⅴ在线| 香蕉国产人午夜视频在线观看| 久久午夜一区二区三区| 久久丝袜熟女av一区二区| 无人区乱码一区二区三区| 亚洲加勒比久久88色综合 | 日韩精品人妻少妇一区二区| 国产精品午夜夜伦鲁鲁| 东京热久久综合久久88| 人禽伦免费交视频播放| 国产精品美女| 一区二区视频网站在线观看| 日本韩国亚洲三级在线| 国产亚洲av无码av男人的天堂 | 国内精品久久久久久久久久影院| 国产高清a| 国产在线播放免费人成视频播放 | 亚洲区在线| 久久网站在线免费观看| 久草福利国产精品资源| 日本丰满熟妇videossexhd| 中国凸偷窥xxxx自由视频| 日本口爆吞精在线视频|