亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        《康熙字典》的古漢語知識圖譜構(gòu)建方法研究

        2019-12-05 02:03:10陳濤楊開漠
        關(guān)鍵詞:方法

        陳濤,楊開漠

        (五邑大學(xué) 智能制造學(xué)部,廣東 江門 529020)

        《康熙字典》是康熙四十九年由張玉書與陳延敬等人所編寫的詞典,其包含了豐富的古漢語文化以及語義信息. 該詞典采用部首分類法進(jìn)行分類,并按筆畫對單字進(jìn)行排序. 全書共分為十二集,以子、丑、寅、卯、辰、巳、午、未、申、酉、戌、亥十二地支進(jìn)行標(biāo)識,每集又分為上、中、下三卷,并按韻母、聲調(diào)以及音節(jié)分類排序韻母表及其對應(yīng)漢字,共收錄漢字47 035 個(gè)[1-3].

        如果能夠挖掘詞典中包含的部首、集、卷及漢字間的語義關(guān)系,將有利于促進(jìn)《康熙字典》的研究進(jìn)程. 知識圖譜(Knowledge Graph)是一種對知識的深層語義描述的方法,其主要利用圖的形式來描述客觀世界中的概念、實(shí)體及其關(guān)系. 雖然現(xiàn)有的知識圖譜(例如 WordNet[4]、Freebase[5]、Zhishi.me[6]、XLore[7])已經(jīng)成為當(dāng)今許多人工智能和自然語言處理應(yīng)用的重要資源,但是知識圖譜的一個(gè)迫切問題是覆蓋范圍問題. 即使是目前規(guī)模最大的 XLore[7]中文知識圖譜也未能將《康熙字典》中所包含偏僻漢字和偏僻漢字間的關(guān)系全部描述出來,因而也無法進(jìn)一步挖掘《康熙字典》中所存在的語義關(guān)系. 為了幫助研究者對《康熙字典》中所蘊(yùn)涵的語義關(guān)系進(jìn)行分析和表達(dá),本文提出一種針對《康熙字典》的知識圖譜構(gòu)建方法,在該基礎(chǔ)上設(shè)計(jì)一套基于推理規(guī)則的內(nèi)部關(guān)系推理方法,以進(jìn)一步挖掘《康熙字典》知識圖譜中所隱含的實(shí)體和實(shí)體關(guān)系知識,并將該技術(shù)應(yīng)用于《康熙字典》的知識圖譜構(gòu)建及搜索系統(tǒng)中,提高該系統(tǒng)知識推薦效果.

        1 《康熙字典》的古漢語知識圖譜構(gòu)建方法

        本文提出的《康熙字典》古漢語知識圖譜構(gòu)建方法的基本框架如圖 1 所示. 首先,以《康熙字典》中每個(gè)詞條對應(yīng)的詞作為命名實(shí)體構(gòu)建命名實(shí)體庫. 其中,命名實(shí)體庫所包含的命名實(shí)體類型有漢字、部首、集、卷和典籍. 然后,結(jié)合外部中文知識圖譜和外部詞典,對實(shí)體庫中的實(shí)體構(gòu)建實(shí)體間關(guān)系,建立關(guān)系庫. 對于同時(shí)出現(xiàn)在外部資源中的兩個(gè)實(shí)體,將該外部資源中標(biāo)注的關(guān)系經(jīng)過篩選后補(bǔ)充到基于康熙字典的關(guān)系庫中. 本文所選用的關(guān)系類型主要有部首與集間的上下位關(guān)系、集與卷間的上下位關(guān)系、卷與漢字間上下位關(guān)系、漢字與典籍間的引用關(guān)系、漢字間的反義關(guān)系和近義關(guān)系. 本文所用到的中文知識圖譜包括Zhishi.me[6]、XLore[7]等,所用到的詞典包括在線詞林以及在線漢語詞典. 其次,根據(jù)關(guān)系庫構(gòu)建知識圖譜,對知識圖譜進(jìn)行質(zhì)量評估,即對命名實(shí)體庫和實(shí)體關(guān)系庫進(jìn)行抽樣質(zhì)量評估,若存在實(shí)體或?qū)嶓w間關(guān)系質(zhì)量不符合要求,需要剔除未達(dá)到質(zhì)量評估要求的關(guān)系,并重新進(jìn)行關(guān)系構(gòu)建. 最后,利用圖數(shù)據(jù)庫存儲(chǔ)知識圖譜,并進(jìn)行知識圖譜的可視化展示.

        圖1 本文提出的《康熙字典》的古漢語知識圖譜構(gòu)建方法的基本框架

        1.1 數(shù)據(jù)源和預(yù)處理

        本文以上海書店出版社1996 年出版的《康熙字典》[1]為數(shù)據(jù)源構(gòu)建古漢語知識圖譜. 對《康熙字典》數(shù)據(jù)集進(jìn)行預(yù)處理操作包括以下步驟:首先, 利用光學(xué)字符識別( Optical Character Recognition,OCR)技術(shù)對《康熙字典》的圖像文件進(jìn)行分析識別處理,以識別并獲取《康熙字典》圖片中所存在的文字信息,并將這些文字信息轉(zhuǎn)化為電子文本數(shù)據(jù)格式;然后,結(jié)合網(wǎng)絡(luò)上可供下載的“康熙字典數(shù)據(jù)庫”,清除電子文本中所存在的冗余數(shù)據(jù),如標(biāo)題、目錄、無法識別漢字等;最后,對電子文本數(shù)據(jù)進(jìn)行斷句處理,將所有詞條逐一處理成如圖2 所示的樣例形式.

        圖2 《康熙字典》內(nèi)容樣例

        1.2 命名實(shí)體庫構(gòu)建

        本文主要從《康熙字典》中抽取出部首、集、卷、漢字以及古代詩文五種實(shí)體作為核心實(shí)體. 結(jié)合《康熙字典》內(nèi)容排版特點(diǎn)以及不同核心實(shí)體在《康熙字典》語料庫中的位置特點(diǎn),提出一套用于抽取《康熙字典》中不同核心實(shí)體的規(guī)則,以達(dá)到自動(dòng)抽取《康熙字典》中對應(yīng)核心實(shí)體集的目的. 該規(guī)則所抽取到的實(shí)體集如表1 所示.

        表1 命名實(shí)體庫統(tǒng)計(jì)與示例

        1.3 關(guān)系庫構(gòu)建

        實(shí)體間的關(guān)系是知識圖譜的另外一個(gè)基本要素,直接決定了實(shí)體知識圖譜中知識的豐富程度和基于知識圖譜的其他應(yīng)用系統(tǒng)的功能范圍[8-9]. 《康熙字典》的實(shí)體關(guān)系構(gòu)建任務(wù)的主要目標(biāo)是研究如何抽取《康熙字典》中部首與集之間的上下文關(guān)系、集與卷之間的上下文關(guān)系、卷與漢字之間上下文關(guān)系、漢字與典籍之間引用關(guān)系、漢字實(shí)體之間的近義關(guān)系以及反義關(guān)系六種語義關(guān)系. 本文主要采用以下兩種方法來定義關(guān)系.

        第一種方法是《康熙字典》內(nèi)部規(guī)則關(guān)系構(gòu)建法. 該方法根據(jù)《康熙字典》內(nèi)部排版結(jié)構(gòu)進(jìn)行關(guān)系抽取,利用知識圖譜中的模式層定義知識圖譜中所應(yīng)用到的數(shù)據(jù)模式. 其中,數(shù)據(jù)模式主要包含實(shí)體類型和實(shí)體間關(guān)系等信息. 本文定義的實(shí)體類型之間的上下位關(guān)系,如圖 3 所示. 從圖中可以看出,實(shí)體類型“集”與“部首”之間、“卷”與“集”之間、“漢字”實(shí)體與“卷”之間都存在上下位關(guān)系. 本文利用“屬于”表示兩個(gè)實(shí)體或?qū)嶓w類型之間的上下位關(guān)系. 同時(shí),實(shí)體類型“典籍”引用“漢字”實(shí)體,所以這兩類實(shí)體之間存在“引用”關(guān)系.

        圖3 實(shí)體關(guān)系圖

        所抽取到的實(shí)體關(guān)系的集合一般以三元組〈頭實(shí)體,關(guān)系,尾實(shí)體〉的形式表示. 例如(集,屬于,部首)、(卷,屬于,集)、(漢字,屬于,卷)、(典籍,引用,漢字). 為了區(qū)分部首中集和集中卷的不同,本文以“部首+集”和“部首+集+卷”表示不同部首下的集以及不同集下的卷. 例如,“一巳集”、“一巳集上”等,如表 2所示.

        表2 實(shí)體關(guān)系示例

        利用以上方法從《康熙字典》中抽取出集與部首之間上下位關(guān)系、卷與集之間上下位關(guān)系、漢字與卷之間上下位關(guān)系、典籍與漢字之間引用關(guān)系等四種關(guān)系,數(shù)量與示例統(tǒng)計(jì)如表3 所示.

        表3 內(nèi)部規(guī)則關(guān)系構(gòu)建法抽取出的三元組數(shù)量及示例

        第二種方法是參考外部知識構(gòu)建關(guān)系的方法. 該方法通過參考現(xiàn)有的準(zhǔn)確度更高的中文知識圖譜或數(shù)據(jù)源百科,例如Zhishi.me、XLore 等中文知識圖譜,在線詞林、在線漢語詞典等在線詞典進(jìn)行關(guān)系抽取. 該方法首先從命名實(shí)體庫中抽取出命名實(shí)體. 然后,在現(xiàn)有的中文知識圖譜或百科中查找與該實(shí)體具有某種關(guān)系的實(shí)體,并對其建立實(shí)體間關(guān)系,其中,本文選用的關(guān)系類別主要有近義關(guān)系、反義關(guān)系等. 例如,漢字實(shí)體“?!焙蜐h字實(shí)體“擅”在Zhishi.me 中是近義關(guān)系,漢字實(shí)體“擒”和 “放”在Zhishi.me 中是反義關(guān)系,我們將上述關(guān)系補(bǔ)充進(jìn)康熙字典的實(shí)體關(guān)系庫中. 最后,對所抽取的關(guān)系進(jìn)行過濾,從中抽取出具有價(jià)值的關(guān)系. 該方法作為第一種方法的補(bǔ)充,能夠有效地解決第一種方法難以抽取出的漢字之間關(guān)系的問題.

        利用該方法從《康熙字典》中抽取出漢字間的近義關(guān)系和反義關(guān)系,如表4 所示. 漢字實(shí)體“櫲”與“樟”之間、“丂”與“考”之間、“擅”與“?!敝g、“擈”與“撲”之間都屬于近義關(guān)系,漢字實(shí)體“橫”與“豎”之間、“叛”與“順”之間、“擒”與“放”之間、“虧”與“盈”之間都屬于反義關(guān)系.

        表4 參考外部知識構(gòu)建關(guān)系方法所抽取出的三元組數(shù)量及示例

        1.4 質(zhì)量評估

        數(shù)據(jù)質(zhì)量體現(xiàn)了該數(shù)據(jù)在其相關(guān)領(lǐng)域下的“實(shí)用性”,數(shù)據(jù)質(zhì)量的好壞會(huì)影響該數(shù)據(jù)在其相關(guān)領(lǐng)域下的應(yīng)用質(zhì)量. 其中,數(shù)據(jù)質(zhì)量問題主要包含準(zhǔn)確性、完整性、一致性等問題[10-11]. 命名實(shí)體庫和實(shí)體關(guān)系庫中的數(shù)據(jù)質(zhì)量對于構(gòu)建《康熙字典》的古漢語知識圖譜具有決定性意義.

        本文面臨的一個(gè)重要問題是如何評判所構(gòu)建的命名實(shí)體庫中實(shí)體和實(shí)體關(guān)系庫中實(shí)體關(guān)系的質(zhì)量. 針對該問題,本文需要確定具體、客觀和可比較的數(shù)據(jù)質(zhì)量指標(biāo),其中包括實(shí)體及實(shí)體間關(guān)系的準(zhǔn)確性、語義表達(dá)的正確性以及實(shí)體間關(guān)系的覆蓋性.

        對于實(shí)體及實(shí)體間關(guān)系的準(zhǔn)確性,因?yàn)楸疚睦贸绦蜃詣?dòng)從《康熙字典》中抽取出部首、集、卷、漢字及典籍等五種實(shí)體集,所以需要利用人工抽樣檢查方法來保證所抽取實(shí)體的準(zhǔn)確性. 同時(shí),對于實(shí)體間的“屬于”和“引用”關(guān)系,可以利用同樣的方法進(jìn)行檢查. 對于漢字實(shí)體間的“近義關(guān)系”和“反義關(guān)系”的質(zhì)量評估,需要通過人工檢索多個(gè)相關(guān)性網(wǎng)站,從中尋找可信度高的答案作為結(jié)果.

        1.5 知識圖譜模型構(gòu)建及可視化

        本文利用前期所構(gòu)建的命名實(shí)體庫和關(guān)系庫來構(gòu)建《康熙字典》的古漢語知識圖譜. 將上述命名實(shí)體庫和實(shí)體關(guān)系庫中的實(shí)體及關(guān)系導(dǎo)入圖數(shù)據(jù)庫中,通過圖數(shù)據(jù)庫提供的程序接口,能夠方便的查詢知識圖譜中實(shí)體及其關(guān)系,并根據(jù)需求進(jìn)行數(shù)據(jù)可視化. 圖 4 為《康熙字典》的古漢語知識圖譜部分節(jié)點(diǎn)的可視化展示.

        圖4 《康熙字典》的古漢語知識圖譜部分節(jié)點(diǎn)的可視化展示

        2 結(jié)果與分析

        《康熙字典》的古漢語知識圖譜中各部分實(shí)體及其關(guān)系如下所示:

        部首、集與卷間的上下文關(guān)系. 查詢實(shí)體“口字部”和與其相關(guān)的集及卷間的關(guān)系,其查詢結(jié)果如圖5 所示. 從圖5 中可以看出,深灰色節(jié)點(diǎn)表示實(shí)體“口字部”,白色節(jié)點(diǎn)表示部首實(shí)體“口字部”所包含的集實(shí)體,其中,包括“口子集”、“口午集”、“口戌集”等集實(shí)體. 淺灰色節(jié)點(diǎn)表示集實(shí)體所包含的卷實(shí)體,比如,集實(shí)體“口戌集”包含卷實(shí)體“口戌集下”,集實(shí)體“口丑集”包含卷實(shí)體“口丑集中”等. 節(jié)點(diǎn)間的有向邊及其上面的“屬于”表示部首實(shí)體與集實(shí)體間、集實(shí)體與卷實(shí)體間的上下文關(guān)系.

        圖5 部首、集及卷間的關(guān)系圖

        卷與漢字間的上下文關(guān)系. 查詢卷實(shí)體“口字部”和與其相關(guān)的集及卷間的關(guān)系,其查詢結(jié)果如圖6 所示. 灰色節(jié)點(diǎn)表示卷實(shí)體“一子集上”,白色節(jié)點(diǎn)表示卷實(shí)體“一子集上”所包含的漢字實(shí)體,其中,包括“一”、“上”、“丁”、“下”,“萬”等漢字實(shí)體. 卷實(shí)體與漢字實(shí)體間的上下文關(guān)系通過節(jié)點(diǎn)間的有向邊及其上面的“屬于”表示.

        圖6 卷和漢字間的關(guān)系圖

        3 《康熙字典》的古漢語知識圖譜的應(yīng)用

        《康熙字典》的古漢語知識圖譜能夠有效地管理和利用《康熙字典》中知識,為古漢語研究人員提供豐富的知識點(diǎn)間關(guān)聯(lián)信息,從而抽取出新的漢字知識,為古漢語研究提供知識和理論基礎(chǔ). 以下列舉兩個(gè)可能的應(yīng)用領(lǐng)域:

        3.1 網(wǎng)絡(luò)知識關(guān)系挖掘

        網(wǎng)絡(luò)知識關(guān)系挖掘指的是以一個(gè)實(shí)體作為中心點(diǎn),以知識圖譜可視化的形式挖掘和查找與該實(shí)體具有相關(guān)關(guān)系的漢字實(shí)體、部首實(shí)體、典籍實(shí)體、集合實(shí)體、卷實(shí)體等. 在《康熙字典》知識圖譜中,每一個(gè)實(shí)體利用一個(gè)節(jié)點(diǎn)表示,實(shí)體間的關(guān)系用對應(yīng)節(jié)點(diǎn)間的有向邊表示,如圖7 所示.

        從圖7 可以看出,實(shí)體“康”與實(shí)體“平”之間存在近義關(guān)系,他們共同引用“唐韻”、“集韻”、“廣韻”等典籍實(shí)體. 實(shí)體“康”與實(shí)體“病”之間存在反義關(guān)系. 實(shí)體“康”、實(shí)體“平”及實(shí)體“病”都引用了典籍實(shí)體“正韻”. 當(dāng)《康熙字典》中實(shí)體關(guān)系比較復(fù)雜時(shí),《康熙字典》古漢語知識圖譜能夠幫助古漢語研究者更好的進(jìn)行分析.

        圖7 網(wǎng)絡(luò)知識關(guān)系挖掘示意圖

        3.2 路徑挖掘

        路徑挖掘指的是從知識圖譜中搜索出指定實(shí)體間的最短路徑. 圖 8 展示了典籍實(shí)體“玉篇”與典籍實(shí)體“徐曰”之間的最短路徑.

        從圖8 中可以看出,典籍實(shí)體“玉篇”與典籍實(shí)體“徐曰”均被漢字實(shí)體“夌”所引用,漢文化研究者可以通過研究漢字實(shí)體“夌”,間接研究典籍實(shí)體“玉篇”與典籍實(shí)體“徐曰”. 《康熙字典》中實(shí)體路徑關(guān)系越復(fù)雜,越能體現(xiàn)知識圖譜的價(jià)值.

        圖8 路徑挖掘示意示例

        4 總結(jié)

        針對現(xiàn)有中文知識圖譜對《康熙字典》中詞語實(shí)體間關(guān)系定義不足、覆蓋不全的問題,本文提出一種針對《康熙字典》的知識圖譜構(gòu)建方法,該方法可為古漢語研究提供知識和理論基礎(chǔ),但由于本文知識圖譜所用到的內(nèi)部關(guān)系推理方法是基于簡單的推理規(guī)則,還無法獲取《康熙字典》中所包含的更深層次的語義信息. 在未來的工作中,可以結(jié)合深度學(xué)習(xí)進(jìn)一步探索內(nèi)部規(guī)則推理方法,并將新方法應(yīng)用到現(xiàn)有的《康熙字典》的知識圖譜構(gòu)建和搜索系統(tǒng)中,以挖掘《康熙字典》中所包含的深層次信息.

        猜你喜歡
        方法
        中醫(yī)特有的急救方法
        中老年保健(2021年9期)2021-08-24 03:52:04
        高中數(shù)學(xué)教學(xué)改革的方法
        化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
        變快的方法
        兒童繪本(2020年5期)2020-04-07 17:46:30
        學(xué)習(xí)方法
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        最有效的簡單方法
        山東青年(2016年1期)2016-02-28 14:25:23
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        日本免费看一区二区三区| 思思99热精品免费观看| 96精品免费视频大全| 有码精品一二区在线| 40分钟永久免费又黄又粗| 青青草最新在线视频观看| 国内自拍视频一区二区三区 | 亚洲AV无码成人精品区H| 视频女同久久久一区二区| 午夜精品射精入后重之免费观看| 欧美丰满大乳高跟鞋| 免费视频成人 国产精品网站| 日韩一二三四区在线观看| 激情综合色五月丁香六月欧美| 狠狠色婷婷久久综合频道日韩| 99国产精品99久久久久久| 亚洲人av毛片一区二区| 在线视频中文字幕一区二区三区| 国产精品无码一区二区在线看| 亚洲天堂资源网| 精品午夜中文字幕熟女| 成人免费播放视频777777| 中国丰满熟妇xxxx| 国产成社区在线视频观看| 成人国产一区二区三区av| 精品国产青草久久久久福利| 久久久窝窝午夜精品| 亚洲免费人成网站在线观看| 日本免费大片一区二区| 国产真实伦在线观看| 久久久久久久尹人综合网亚洲| 激情五月开心五月啪啪| 国产一区内射最近更新| 香蕉视频一级| 久久精品一区二区三区夜夜| 亚洲av成人无码久久精品老人| 国产女人高潮叫床视频| 亚洲小说图区综合在线| 亚洲日本中文字幕乱码| 国产欧美一区二区精品久久久| 亚洲国产成人精品女人久久久|