亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于本體的民國(guó)文學(xué)專題數(shù)據(jù)庫(kù)知識(shí)組織研究*

        2019-06-05 03:25:46沈立力朱蓓琳
        圖書館學(xué)刊 2019年3期
        關(guān)鍵詞:民國(guó)實(shí)例本體

        沈立力 朱蓓琳 姜 鵬 王 靜

        (上海圖書館,上海 200031)

        隨著信息技術(shù)的進(jìn)一步發(fā)展,傳統(tǒng)的圖書館文獻(xiàn)組織和服務(wù)形式無(wú)法解決讀者在獲取知識(shí)時(shí)的“信息過(guò)載”“信息迷航”等問(wèn)題,也達(dá)不到智能化、立體化、個(gè)性化的知識(shí)服務(wù)要求。要解決這些問(wèn)題,必須在傳統(tǒng)文獻(xiàn)組織方法(分類法、主題法等)的基礎(chǔ)上,運(yùn)用新的知識(shí)組織和知識(shí)挖掘方法(本體、關(guān)聯(lián)數(shù)據(jù)等),探索由二維線性描述方式向多維描述方式轉(zhuǎn)化的知識(shí)組織新模式,形成領(lǐng)域內(nèi)具有邏輯關(guān)系的結(jié)構(gòu)化知識(shí)網(wǎng)絡(luò)。

        經(jīng)過(guò)前期調(diào)研,目前基于本體的知識(shí)組織形式被廣泛應(yīng)用于醫(yī)學(xué)、農(nóng)學(xué)等領(lǐng)域。然而,目前本體在文史領(lǐng)域,尤其是針對(duì)民國(guó)文學(xué)領(lǐng)域的應(yīng)用還處于起步階段,且民國(guó)文學(xué)期刊資源市場(chǎng)需求較大,而提供的深層次知識(shí)服務(wù)卻較少。以此為契機(jī),上海圖書館全國(guó)報(bào)刊索引與芝加哥大學(xué)開展了民國(guó)文學(xué)期刊OCR 項(xiàng)目的合作,目的是通過(guò)本體、關(guān)聯(lián)數(shù)據(jù)等多種研究手段,與傳統(tǒng)文學(xué)歷史及文學(xué)評(píng)論相結(jié)合,建立文學(xué)作品、人物、期刊、歷史事件等不同實(shí)體之間的關(guān)系,并以可視化的方式展現(xiàn),優(yōu)化現(xiàn)有檢索結(jié)果,實(shí)現(xiàn)知識(shí)服務(wù)的升級(jí),為用戶提供更好的知識(shí)服務(wù)體驗(yàn),也為將來(lái)的資源共建與共享打下基礎(chǔ)。

        1 本體及民國(guó)文學(xué)知識(shí)組織現(xiàn)狀

        1.1 本體構(gòu)建方法及現(xiàn)狀

        本體的概念最早出現(xiàn)于哲學(xué)領(lǐng)域,而Studer 等學(xué)者在上世紀(jì)90年代對(duì)本體進(jìn)行大量深入研究后對(duì)本體進(jìn)行了更明確的設(shè)定,即“共享概念模型的明確的形式化規(guī)范說(shuō)明”[1]。本體是通過(guò)定義類、屬性、關(guān)系等元素對(duì)某一特定領(lǐng)域知識(shí)進(jìn)行層次關(guān)系的描述、歸納和抽象化[2]。同時(shí),本體又給數(shù)據(jù)本身賦予了語(yǔ)義,使機(jī)器能夠處理數(shù)據(jù)間的關(guān)系[3]。

        國(guó)內(nèi)外對(duì)于本體的構(gòu)建方法已經(jīng)有了一些研究,據(jù)岳麗欣[2]歸納,國(guó)內(nèi)外較為成熟的本體構(gòu)建方法包括:IDEF5法、骨架法、Methontology 法、七步法、循環(huán)獲取法、基于敘詞表構(gòu)建本體法等。筆者選擇斯坦福大學(xué)醫(yī)學(xué)院提出的七步法,結(jié)合項(xiàng)目本身的特點(diǎn),使用Protégé 本體編輯工具,根據(jù)已有元數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)民國(guó)文學(xué)知識(shí)體系,設(shè)計(jì)一個(gè)向下兼容、易于擴(kuò)展、多維描述,支持民國(guó)文學(xué)期刊數(shù)據(jù)重組和揭示的民國(guó)文學(xué)本體。

        1.2 文史領(lǐng)域本體建設(shè)的國(guó)內(nèi)研究現(xiàn)狀

        近年來(lái),全國(guó)各大圖書館、高校及數(shù)字出版公司都積極致力于開發(fā)深層次的知識(shí)組織與知識(shí)挖掘方式,更好地揭示館藏文獻(xiàn)資源,并就本體在文史領(lǐng)域的應(yīng)用進(jìn)行了研究,在歷史領(lǐng)域本體構(gòu)建、人物關(guān)系本體研究、特殊文獻(xiàn)體裁本體構(gòu)建等方面進(jìn)行了諸多實(shí)踐。中國(guó)社會(huì)科學(xué)院哲學(xué)社會(huì)科學(xué)創(chuàng)新工程信息化項(xiàng)目“中華人民共和國(guó)史教育網(wǎng)”中成功構(gòu)建了中華人民共和國(guó)國(guó)史本體,該國(guó)史本體描述了1977—1981年這一歷史時(shí)期關(guān)于中華人民共和國(guó)的概念、術(shù)語(yǔ)、關(guān)系等,構(gòu)建包括時(shí)間、人物、事件等8 個(gè)大類的本體,并為基于本體的國(guó)史知識(shí)檢索平臺(tái)構(gòu)建打下基礎(chǔ)[4]。廖作芳[5]以《三國(guó)志》為文本,利用七步法構(gòu)建基于人物、時(shí)間、地點(diǎn)、事件、職官為五大核心概念的歷史領(lǐng)域本體,并運(yùn)用SWRL 規(guī)則對(duì)《三國(guó)志》本體蘊(yùn)含知識(shí)做了發(fā)現(xiàn)推理,突出了本體在歷史領(lǐng)域的應(yīng)用。汪沛[6]則引入知識(shí)元及語(yǔ)義網(wǎng)的相關(guān)概念與理論,采用自動(dòng)抽取的方法對(duì)《三國(guó)志》中的特征詞進(jìn)行抽取,并作為實(shí)例添加到本體中,進(jìn)行了基于本體的歷史領(lǐng)域知識(shí)元構(gòu)建。夏翠娟等[3]則針對(duì)上海圖書館館藏家譜,進(jìn)行基于書目框架模型的家譜本體構(gòu)建,并論述了相關(guān)的應(yīng)用場(chǎng)景,既揭示了家譜資源的特殊文獻(xiàn)特征和內(nèi)容屬性,又揭示了其內(nèi)容之間的語(yǔ)義關(guān)聯(lián)。

        1 民國(guó)文學(xué)專題數(shù)據(jù)庫(kù)本體模型構(gòu)建原則和難點(diǎn)

        1.1 民國(guó)文學(xué)本體構(gòu)建原則

        在比較同類型文史領(lǐng)域構(gòu)建經(jīng)驗(yàn)的基礎(chǔ)上總結(jié)了以下兩點(diǎn)民國(guó)文學(xué)本體構(gòu)建原則。

        一是夯實(shí)數(shù)據(jù)來(lái)源,覆蓋各類文學(xué)期刊。中國(guó)現(xiàn)代文學(xué)發(fā)端于“五四運(yùn)動(dòng)”,它與當(dāng)時(shí)的政治、經(jīng)濟(jì)都有密切的關(guān)系,更是社會(huì)意識(shí)形態(tài)和整個(gè)文化的重要組成部分,是研究近代歷史不可或缺的一部分。據(jù)鄧集田[7]統(tǒng)計(jì),從中國(guó)第一種文學(xué)期刊《瀛寰瑣紀(jì)》起到1949年間共出版?zhèn)鞑ノ膶W(xué)期刊4200 余種。這里所說(shuō)的文學(xué)期刊包括兩類:一是以純文學(xué)內(nèi)容為主的期刊,主要內(nèi)容涵蓋詩(shī)歌、小說(shuō)、散文等,如《人世間》《小說(shuō)月報(bào)》等;另一種則是含有較多文學(xué)內(nèi)容的期刊,但也包括時(shí)政、教育等內(nèi)容,如《太平洋(北平)》《文藝月刊》等。另外,在項(xiàng)目前期對(duì)復(fù)旦大學(xué)文史專家進(jìn)行調(diào)研的過(guò)程中發(fā)現(xiàn),除了專門的文學(xué)性刊物外,還需關(guān)注刊登文學(xué)作品的綜合性刊物、革命性期刊、學(xué)術(shù)刊物、女性刊物及報(bào)紙副刊等,如《東方雜志》《女學(xué)報(bào)》等。

        二是重視客觀內(nèi)容的知識(shí)挖掘,謹(jǐn)慎處理主觀內(nèi)容的揭示。民國(guó)文學(xué)本體的構(gòu)建旨在利用技術(shù)手段對(duì)已有數(shù)字資源進(jìn)行挖掘、重組、研究,而不是深入某一細(xì)分領(lǐng)域代替歷史人文研究者進(jìn)行具體的研究工作[8]。在專家調(diào)研時(shí),文史專家也提到目前學(xué)界的研究方式大多以問(wèn)題為導(dǎo)向,因此更關(guān)注客觀著錄項(xiàng)的詳盡度和準(zhǔn)確度。在此基礎(chǔ)上,民國(guó)文學(xué)本體的構(gòu)建將重視對(duì)作者、時(shí)間等客觀元素的知識(shí)挖掘,而對(duì)歷史事件、文學(xué)社團(tuán)等相對(duì)主觀元素的揭示將更為謹(jǐn)慎。同時(shí),對(duì)于文學(xué)派別、地域文學(xué)研究等學(xué)界還未有綜合性研究成果的內(nèi)容暫不予以揭示,留待之后擴(kuò)展。

        1.2 民國(guó)文學(xué)本體模型構(gòu)建難點(diǎn)

        綜合前期調(diào)研和實(shí)際構(gòu)建中遇到的問(wèn)題,民國(guó)文學(xué)本體的構(gòu)建存在以下難點(diǎn):

        一是已有人文歷史領(lǐng)域的本體構(gòu)建更注重理論模型的研究,而真正運(yùn)用到實(shí)際中的本體并不多。依據(jù)調(diào)研只有家譜、國(guó)史、東北抗戰(zhàn)史本體等。其他例如三國(guó)志等的本體構(gòu)建與研究只是處于實(shí)驗(yàn)室階段。而在民國(guó)文學(xué)領(lǐng)域的本體研究與構(gòu)建更是處于空白,沒(méi)有直接可復(fù)用的本體模型。

        二是數(shù)據(jù)來(lái)源不充分。目前已經(jīng)完成OCR 加工的晚清民國(guó)期刊約為300 余種,而全國(guó)報(bào)刊索引晚清民國(guó)期刊全文數(shù)據(jù)庫(kù)總共約有兩萬(wàn)余種期刊,其中涉及文學(xué)內(nèi)容的約為2000余種,已經(jīng)進(jìn)行OCR加工的文學(xué)期刊占到所有文學(xué)類期刊的15%。文獻(xiàn)未進(jìn)行OCR 加工意味著在構(gòu)建過(guò)程中不能對(duì)全文文獻(xiàn)進(jìn)行深層次的挖掘、提取,存在一定缺陷。

        三是依據(jù)已有的本體構(gòu)建方法,對(duì)民國(guó)文學(xué)資源的本體構(gòu)建不能實(shí)現(xiàn)自動(dòng)構(gòu)建或半自動(dòng)構(gòu)建,構(gòu)建過(guò)程人工花費(fèi)較大。究其原因首先是在人文歷史尤其是民國(guó)文學(xué)領(lǐng)域,并未發(fā)現(xiàn)敘詞表、數(shù)據(jù)庫(kù)資源、或是在線本體庫(kù)等可以進(jìn)復(fù)用的半自動(dòng)構(gòu)建資源。其次,民國(guó)期刊文獻(xiàn)中沒(méi)有明確的上下位關(guān)系,因此關(guān)系的建立需要純?nèi)斯ね瓿?,同時(shí)對(duì)人物描述、地點(diǎn)演變等也需逐條進(jìn)行人工判斷。

        四是缺乏統(tǒng)一的本體評(píng)價(jià)機(jī)制。本體構(gòu)建的主觀性較強(qiáng),對(duì)于已經(jīng)構(gòu)建完成的本體體系成果缺乏成熟的評(píng)價(jià)標(biāo)準(zhǔn),不利于對(duì)本體進(jìn)行修正與優(yōu)化。

        2 民國(guó)文學(xué)本體的分析與設(shè)計(jì)

        2.1 民國(guó)文學(xué)本體模型構(gòu)建思路

        在前期調(diào)研的基礎(chǔ)上,選擇七步法為基本構(gòu)建方法,結(jié)合民國(guó)文學(xué)這一特殊學(xué)科領(lǐng)域,同時(shí)考慮本項(xiàng)目的實(shí)際可操作性,提出民國(guó)文學(xué)本體構(gòu)建流程。如圖1所示。

        圖1 本體構(gòu)建流程

        首先,確定民國(guó)文學(xué)本體的領(lǐng)域和范疇。其次調(diào)研復(fù)用現(xiàn)有本體的可能性,經(jīng)過(guò)前期調(diào)研,發(fā)現(xiàn)學(xué)界已成型且可被使用的文史領(lǐng)域本體系統(tǒng)較少,且未發(fā)現(xiàn)涉及民國(guó)文學(xué)的本體,不具備直接復(fù)用現(xiàn)有本體的可能性。因此,民國(guó)文學(xué)本體將在借鑒“家譜本體”“三國(guó)志本體”的基礎(chǔ)上進(jìn)行構(gòu)建。

        接下來(lái)是本體庫(kù)的設(shè)計(jì),它是本體構(gòu)建的關(guān)鍵。主要分為以下3 個(gè)步驟。首先,確定民國(guó)文學(xué)本體的核心概念,即以《中國(guó)圖書館分類法(第五版)》中“I2 中國(guó)文學(xué)”類目,中國(guó)新文學(xué)大系等作為基礎(chǔ),并汲取其中相關(guān)主題詞、關(guān)鍵詞作為主要概念來(lái)源,并將已經(jīng)OCR完成的300余種65萬(wàn)版30萬(wàn)篇民國(guó)文學(xué)類期刊作為主要數(shù)據(jù)來(lái)源,在領(lǐng)域?qū)<业膸椭麓_定其核心概念。接著,建立類與類之間的層次結(jié)構(gòu),即在確定核心概念后,依據(jù)自上而下的順序?qū)诵母拍钸M(jìn)行擴(kuò)展,并對(duì)所有概念進(jìn)行體系建立。最后,確定民國(guó)文學(xué)本體的屬性,包括數(shù)值屬性和對(duì)象屬性。并依據(jù)需求進(jìn)一步定義屬性的分面,如屬性的定義域、值域等。

        之后,利用 protégé 軟件對(duì)本體進(jìn)行編碼和構(gòu)建。添加相應(yīng)實(shí)例,以便于機(jī)器的讀取和存儲(chǔ)。最后,使用自帶推理機(jī)為民國(guó)文學(xué)本體制定推理規(guī)則,驗(yàn)證邏輯關(guān)系是否正確并進(jìn)行優(yōu)化。

        2.2 近代期刊民國(guó)文學(xué)專題數(shù)據(jù)庫(kù)的元數(shù)據(jù)解析

        館藏近代文學(xué)期刊的全文OCR 加工為民國(guó)文學(xué)本體建設(shè)奠定了基礎(chǔ)。規(guī)范化、結(jié)構(gòu)化的元數(shù)據(jù)是文獻(xiàn)資源數(shù)字化的成果,OCR 加工更是將這些成果進(jìn)一步變?yōu)橹R(shí)挖掘、知識(shí)組織、知識(shí)服務(wù)的寶貴素材。本體是元數(shù)據(jù)方案立體化的過(guò)程[9],是將平面的元數(shù)據(jù)方案通過(guò)類(Class)的確定,類與類之間層級(jí)關(guān)系的確定,屬性(Property)等的明確過(guò)程最終建立立體的本體模型。對(duì)民國(guó)文學(xué)期刊元數(shù)據(jù)解析為民國(guó)文學(xué)本體建設(shè)打下基礎(chǔ)。

        《全國(guó)近代中文期刊全文數(shù)據(jù)庫(kù)-文學(xué)專題》在民國(guó)全文數(shù)據(jù)庫(kù)基礎(chǔ)上進(jìn)行加工著錄,采用XML數(shù)據(jù)格式,分為圖片、廣告、正文3種資源類型,共用一套元數(shù)據(jù)元素著錄,而每種資源本身又有特殊的元數(shù)據(jù)元素和著錄規(guī)范細(xì)則。數(shù)據(jù)分為期刊、篇名兩層數(shù)據(jù)結(jié)構(gòu),可對(duì)已經(jīng)著錄的刊名、出版社、出版時(shí)間等字段進(jìn)行檢索、并在數(shù)據(jù)庫(kù)平臺(tái)上對(duì)文獻(xiàn)來(lái)源、作者、出版時(shí)間字段進(jìn)行聚類。這種以文獻(xiàn)本身為組織對(duì)象的信息組織方式無(wú)法完全滿足用戶的需求,主要問(wèn)題是缺乏對(duì)人名、地名等字段的規(guī)范控制,影響用戶的查全率和查準(zhǔn)率[3],其次不能有效地提供相關(guān)事件、文獻(xiàn)等的推薦功能。而民國(guó)文學(xué)本體的建立正是為了將內(nèi)容和文獻(xiàn)本身同時(shí)作為知識(shí)組織的對(duì)象,更好地為用戶服務(wù)。

        本體的構(gòu)建應(yīng)該盡可能多地復(fù)用已有本體的類和屬性,而當(dāng)已有本體的類和屬性不能完全描述待建本體中的關(guān)系時(shí),需自定義新的類及屬性。對(duì)于民國(guó)文學(xué)本體而言,雖然沒(méi)有可完全復(fù)用的成熟本體,但其本體建設(shè)應(yīng)建立在民國(guó)期刊元數(shù)據(jù)方案之上。近代期刊元數(shù)據(jù)對(duì)期刊以及文獻(xiàn)的揭示較為全面,對(duì)于題名項(xiàng)、責(zé)任者項(xiàng)、出版社項(xiàng)、出版年份項(xiàng)等文獻(xiàn)特征描述完整、定義清晰,可直接在本體構(gòu)建中復(fù)用,有足夠的類和屬性與之對(duì)應(yīng)。而已有元數(shù)據(jù)方案不能對(duì)一些特殊屬性、關(guān)系進(jìn)行描述,如人物籍貫、民族等的屬性描述,人物與事件、人物與人物等類與類之間關(guān)系的描述等。因此,在本體建立時(shí)需要對(duì)事件、地點(diǎn)、人物、機(jī)構(gòu)組織這4 個(gè)新的類進(jìn)行定義,并描述新的定義。而對(duì)文獻(xiàn)、期刊這兩個(gè)類中某些新的屬性,如文學(xué)體裁等進(jìn)行補(bǔ)充定義,在繼承已有元數(shù)據(jù)方案的基礎(chǔ)上,保證新增類和屬性與原有數(shù)據(jù)的兼容性。

        2.3 民國(guó)文學(xué)本體模型構(gòu)建

        《全國(guó)近代中文期刊全文數(shù)據(jù)庫(kù)-文學(xué)專題》是全國(guó)報(bào)刊索引開發(fā)的研究晚清民國(guó)時(shí)期文學(xué)發(fā)展歷史的專題數(shù)據(jù)庫(kù)。時(shí)間跨度為民國(guó)起始(1911年)到1949年為止,其中涉及少量晚清數(shù)據(jù)內(nèi)容(1833-1911年)。以下對(duì)構(gòu)建過(guò)程中最主要的3 個(gè)部分進(jìn)行論述。

        2.3.1 確定核心概念集及層次結(jié)構(gòu)

        基于本體的知識(shí)組織體系構(gòu)建中,核心概念集的確定是最重要也是最基礎(chǔ)的問(wèn)題。核心概念集的確定要遵照3 個(gè)基本要求,即遵照核心概念即頂級(jí)概念無(wú)二義性、概念與概念之間互不相交、核心概念覆蓋全領(lǐng)域[5]。具體方法是:以已有近代期刊元數(shù)據(jù)方案為基礎(chǔ),將文獻(xiàn)中其他字段提取并歸類,確定人物(Figure)、文獻(xiàn)(Document)、期刊(Journal)、事件(Event)、地 點(diǎn)(Place)、機(jī) 構(gòu)組 織(Organization Administrator)這6個(gè)核心概念。其中新增4個(gè)概念:人物一般指文獻(xiàn)的責(zé)任者,同時(shí)又有可能是期刊的主編,或是歷史事件中涉及的具有代表性的人物,但不涉及文學(xué)作品中創(chuàng)作的人物。事件主要指的是民國(guó)文學(xué)期刊中所記載的歷史事件或機(jī)構(gòu)組織變遷等期刊所涉及的事件本身,大多以政治、文化事件為主。此外,將機(jī)構(gòu)組織單獨(dú)作為一個(gè)核心概念。這里的機(jī)構(gòu)組織是指出版機(jī)構(gòu)、文學(xué)社團(tuán)等在民國(guó)文學(xué)發(fā)展史上起到一定推動(dòng)作用,有一定歷史地位的政府、民間或個(gè)人組織。機(jī)構(gòu)組織是非常重要的資源,將其單獨(dú)設(shè)類有助于將關(guān)于某一機(jī)構(gòu)組織的信息,如機(jī)構(gòu)負(fù)責(zé)人、機(jī)構(gòu)地點(diǎn)、主要負(fù)責(zé)人等信息結(jié)構(gòu)化、規(guī)范化揭示。最后,對(duì)于地點(diǎn)這個(gè)類的處理將參考上海圖書館人名規(guī)范檔中的地理信息進(jìn)行規(guī)范。

        而對(duì)于元數(shù)據(jù)方案中已有的期刊、文獻(xiàn)兩個(gè)核心概念的處理,則盡量復(fù)用原有元數(shù)據(jù)。其中將文獻(xiàn)這個(gè)核心概念依據(jù)體裁分為正文、圖片、廣告3個(gè)二級(jí)類(見圖2)。

        圖2 概念層次結(jié)構(gòu)

        2.3.2 定義屬性、屬性的分面、定義域和值域

        在確定了核心概念集與層級(jí)結(jié)構(gòu)之后,需要為每個(gè)核心概念級(jí)類(Class)定義屬性,通過(guò)屬性進(jìn)行概念的描述以及建立不同概念之間的聯(lián)系。屬性可以分為數(shù)據(jù)屬性(Datatype Property)以及對(duì)象屬性(Object Property)兩種。數(shù)據(jù)屬性用于描述概念本身的特性,對(duì)于人物這個(gè)類可定義性別、籍貫、民族等為數(shù)據(jù)屬性。其次,民國(guó)文學(xué)領(lǐng)域所涉及事件的描述由人、地、時(shí)三要素組成,事件這個(gè)類的對(duì)象屬性可定義為事件開始時(shí)間、事件結(jié)束時(shí)間、事件結(jié)果等。另外,為機(jī)構(gòu)組織定義機(jī)構(gòu)名稱、存在時(shí)間等數(shù)據(jù)屬性。最后,文獻(xiàn)、期刊這兩個(gè)類的數(shù)據(jù)屬性基本復(fù)用了原有的元數(shù)據(jù),并為正文、廣告、圖片都定義了不同的數(shù)據(jù)屬性,如欄目、責(zé)任者等,并新增文學(xué)體裁這個(gè)數(shù)據(jù)屬性。對(duì)象屬性用于描述概念之間的關(guān)系。例如人物與文獻(xiàn)之間的寫作關(guān)系,或人物與機(jī)構(gòu)之間的任職關(guān)系等為對(duì)象屬性。

        在確定了數(shù)據(jù)屬性和對(duì)象屬性后依據(jù)需求為部分屬性添加定義域和值域。例如人物的妻子屬性的值域是人物這個(gè)類本身,而人物的對(duì)象屬性參與的值域是事件。表1列出了部分類的部分對(duì)象屬性和數(shù)據(jù)屬性。

        2.3.3 添加實(shí)例

        實(shí)例添加是整個(gè)本體建設(shè)中最為耗時(shí)耗力的部分。雖然學(xué)界致力于研究本體的自動(dòng)或半自動(dòng)構(gòu)建,但由于中文文本處理的局限性和不成熟性,自動(dòng)或半自動(dòng)處理的本體需要大量的人工干預(yù),因此在嘗試后仍然采用人工添加實(shí)例的方法。此外,人工建設(shè)本體還可在實(shí)例添加的過(guò)程中對(duì)類和屬性作適當(dāng)調(diào)整。在實(shí)例添加過(guò)程中有以下兩點(diǎn)需要注意:

        一是在實(shí)例添加的過(guò)程中對(duì)于人物的數(shù)據(jù)屬性異名的規(guī)范性描述,即分辨該人物在不同時(shí)期的筆名、字、號(hào)等,在此次實(shí)例添加中,該屬性的規(guī)范參考了上海圖書館人名規(guī)范庫(kù)以及《中國(guó)近現(xiàn)代人物名號(hào)大辭典》。

        二是對(duì)于相同事件名稱、組織機(jī)構(gòu)名稱規(guī)范性的問(wèn)題。目前,學(xué)界并沒(méi)有成文的對(duì)于民國(guó)文學(xué)領(lǐng)域事件和機(jī)構(gòu)組織的規(guī)范檔可做參考,因此在實(shí)例添加的過(guò)程中秉持相同事件、相同組織機(jī)構(gòu)采用統(tǒng)一名稱,避免后期引起歧義。

        表1 民國(guó)文學(xué)本體概念關(guān)系

        3 民國(guó)文學(xué)本體模型及其應(yīng)用方向

        3.1 民國(guó)文學(xué)本體模型描述

        依據(jù)上文論述的構(gòu)建流程完成民國(guó)文學(xué)本體模型,該本體模型描述了1911年到1949年期間文學(xué)領(lǐng)域所涉及到的概念、關(guān)系和術(shù)語(yǔ)。本體模型包括人物、文獻(xiàn)、期刊、事件、地點(diǎn)、組織機(jī)構(gòu)6 個(gè)大類及其之間的關(guān)系,具體包含9個(gè)本體類(其中6個(gè)一級(jí)類,3個(gè)二級(jí)類),60個(gè)數(shù)據(jù)屬性,28個(gè)對(duì)象屬性,44個(gè)實(shí)例(其中涉及 6 篇文獻(xiàn),2 個(gè)事件,19 個(gè)人物,7 種期刊,8個(gè)機(jī)構(gòu)組織,2個(gè)地點(diǎn))。

        圖3是構(gòu)建完成的類與類之間的關(guān)系圖,帶箭頭的有向線條表示了該本體模型中的對(duì)象屬性,對(duì)象屬性的定義域(Domain)和值域(Range)可以從線條的起止方向表示。例如從Figure(人物)類存在有向線條指向Document(文獻(xiàn))類,表示Figure 與Document 之間通過(guò)對(duì)象屬性“Write”連接,即人物(Figure)與文獻(xiàn)(Document)存在寫作的關(guān)系。而對(duì)象屬性“Write”的值域是“文獻(xiàn)(Document)”。

        圖3 概念與概念之間關(guān)系

        圖4以可視化的方式顯示民國(guó)文學(xué)本體中與“徐志摩”這一人物實(shí)例相關(guān)的文獻(xiàn)、人物等概念,即以人物徐志摩為中心的人物關(guān)系,創(chuàng)作關(guān)系等。例如徐志摩的人物關(guān)系有前妻張幼儀、妻子陸小曼,父親徐申如,兒子徐積鍇。其著有文獻(xiàn)《志摩遺稿》,該文獻(xiàn)由《新月》雜志出版,而《新月雜志》的出版機(jī)構(gòu)則為新月書店,同時(shí)在《徐志摩先生遺著》一文中有提及徐志摩。此實(shí)例演示圖同時(shí)也展示了該本體未來(lái)的使用場(chǎng)景之一,便于用戶全方位地了解實(shí)例信息以及與其他實(shí)例的相互關(guān)系。

        圖4 實(shí)例演示

        最后,建設(shè)完成的民國(guó)文學(xué)本體OWL文檔部分片段如下:

        3.2 民國(guó)文學(xué)本體模型的應(yīng)用方向

        民國(guó)文學(xué)本體模型主要是基于“全國(guó)報(bào)刊索引中國(guó)近代中文期刊全文數(shù)據(jù)庫(kù)-文學(xué)專題”來(lái)設(shè)計(jì),最終目的是在該專題數(shù)據(jù)庫(kù)中進(jìn)行語(yǔ)義層面的知識(shí)組織和知識(shí)挖掘。預(yù)期應(yīng)用場(chǎng)景為對(duì)數(shù)據(jù)庫(kù)中人物、地點(diǎn)、時(shí)間進(jìn)行可視化的動(dòng)態(tài)顯示,揭示人物關(guān)系、時(shí)空關(guān)系、事地聯(lián)系等;同時(shí)對(duì)用戶檢索結(jié)果進(jìn)行語(yǔ)義層面的優(yōu)化,例如用戶檢索“眉軒”時(shí),檢索結(jié)果可同時(shí)返回徐志摩相關(guān)信息和相關(guān)文獻(xiàn),并顯示與徐志摩相關(guān)的人物關(guān)系,以此提升文學(xué)專題庫(kù)的知識(shí)服務(wù)效果。

        目前該本體模型尚處于試驗(yàn)階段,還未正式投入使用,下一步的工作重心將嘗試運(yùn)用半自動(dòng)方法為已有本體添加實(shí)例,即運(yùn)用關(guān)鍵詞自動(dòng)抽取,對(duì)近代期刊文學(xué)專題的OCR 全文進(jìn)行文本關(guān)鍵詞語(yǔ)義信息(人、時(shí)、地等)抽取,并添加為實(shí)例,以此提升本體構(gòu)建的工作效率。在這個(gè)過(guò)程中同時(shí)對(duì)已經(jīng)建成的模型做進(jìn)一步的邏輯檢測(cè)與推理,以進(jìn)一步保證民國(guó)文學(xué)本體的可靠性。另一方面,推動(dòng)對(duì)實(shí)例對(duì)象屬性的關(guān)系推理工作,目的在于對(duì)目標(biāo)實(shí)例自動(dòng)賦予相應(yīng)的對(duì)象屬性關(guān)系,減少本體構(gòu)建的人工干預(yù)程度,加強(qiáng)知識(shí)發(fā)現(xiàn)機(jī)制,挖掘民國(guó)文獻(xiàn)中潛在的知識(shí)關(guān)系,提升本體構(gòu)建項(xiàng)目的自動(dòng)化和智能化程度。

        4 總結(jié)與展望

        以上是對(duì)本體在文史方面應(yīng)用的一次嘗試,初步建立了民國(guó)文學(xué)本體模型,即揭示了近代期刊文學(xué)專題的文獻(xiàn)特征和內(nèi)容特征,能夠有效提高近代期刊文學(xué)專題資源知識(shí)服務(wù)的效果,將中國(guó)近代的經(jīng)濟(jì)政治變化和人文歷史變遷以更加清晰的形式展現(xiàn)在讀者面前。

        猜你喜歡
        民國(guó)實(shí)例本體
        Abstracts and Key Words
        對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
        他們?yōu)楹味紣勖駠?guó)?
        電影(2018年10期)2018-10-26 01:55:26
        民國(guó)人愛刷朋友圈
        百家講壇(2016年6期)2016-09-28 08:10:15
        《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
        完形填空Ⅱ
        完形填空Ⅰ
        民國(guó)書家與民國(guó)書風(fēng)
        午社“四聲之爭(zhēng)”與民國(guó)詞體觀的再認(rèn)識(shí)
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        成人免费播放视频影院| 亚洲熟妇少妇任你躁在线观看 | 中文字幕日韩人妻在线视频| 欧美巨大巨粗黑人性aaaaaa| 国产精品27页| 少妇又色又爽又刺激的视频| 国产激情视频免费在线观看| а√资源新版在线天堂| 国产三级欧美| 日本一区二区精品色超碰| 漂亮丰满人妻被中出中文字幕| 少妇高潮流白浆在线观看| 日日摸夜夜添狠狠添欧美| 亚洲乱色视频在线观看| 亚洲中文字幕一区av| 精品人妻大屁股白浆无码| 日日噜噜夜夜爽爽| 久久99精品久久久久久国产人妖| 国产激情一区二区三区成人| 国精品人妻无码一区二区三区性色| 国产又黄又大又粗视频| 在线视频一区二区亚洲| 日本一区二区三区亚洲| 专干老肥熟女视频网站300部| 视频一区欧美| 亚洲精品女优中文字幕| 性高朝久久久久久久3小时| 亚洲欧美日韩中文在线制服| 国产欧美日本亚洲精品一4区| 久久国产精品美女厕所尿尿av| 国产做国产爱免费视频| 国产99r视频精品免费观看 | 国产国产人免费人成免费视频| 中文字幕av日韩精品一区二区| 中文字幕一二区中文字幕| 国产精品一区二区av麻豆日韩| 久久国产劲暴∨内射| 亚洲国产精品中文字幕日韩| 男人天堂亚洲一区二区| 亚洲乱码一区av春药高潮| 精品欧美乱子伦一区二区三区|