亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文字知識圖譜構(gòu)建及應(yīng)用

        2022-02-25 01:48:18
        中國科技資源導(dǎo)刊 2022年1期
        關(guān)鍵詞:模型

        安 波

        (中國社會科學(xué)院民族學(xué)與人類學(xué)研究所,北京 100081)

        0 引言

        數(shù)千年來中華大地上誕生了很多不同的語言和文字,有些文字目前還在廣泛地使用,如漢字、藏文等,也有些文字已經(jīng)很少有人使用或?yàn)l臨滅絕,如西夏文、金文等。這些文字對于研究中華民族的歷史、文化、傳統(tǒng)習(xí)俗和語言發(fā)展的規(guī)律具有重要價(jià)值。為了更好地保護(hù)和研究中華民族文字,且保護(hù)與挖掘這些文字的價(jià)值,近年來國家立項(xiàng)了多個(gè)與文字相關(guān)的重大文化科技工程,如“中華字庫工程”“語保工程”[1]等。 其中,中華字庫工程是目前最為系統(tǒng)和完整地進(jìn)行中華民族文字整理工作的工程?!爸腥A字庫工程”[2]匯集了包括中國科學(xué)院軟件研究所、中版集團(tuán)數(shù)字傳媒有限公司、首都師范大學(xué)、北京中標(biāo)中易電子信息技術(shù)有限公司等在內(nèi)的國內(nèi)從事文字處理的科研機(jī)構(gòu)和公司,嘗試?yán)眯畔⒒?、?shù)字化手段進(jìn)行原始數(shù)據(jù)的采集、整理,建立準(zhǔn)確的字際關(guān)系,形成標(biāo)準(zhǔn)的國際編碼、字體文件、輸入法、字符屬性數(shù)據(jù)集等,并利用云計(jì)算技術(shù)將采集的成果數(shù)據(jù)對外提供字型云服務(wù)、屬性云服務(wù)和輸入法云服務(wù),且基于這3 種服務(wù)提供成果字庫和其他數(shù)據(jù)的輸入、顯示和屬性查詢服務(wù)?!爸腥A字庫工程”的研發(fā)建設(shè),為研究中華文字的產(chǎn)生、發(fā)展和演變提供數(shù)據(jù)基礎(chǔ),是提高中國文化“軟實(shí)力”的一項(xiàng)重要舉措,對于中華文明的普及與傳播具有重大的戰(zhàn)略意義。目前,已經(jīng)收集整理了包含楷書漢字、古漢字、少數(shù)民族語言等語種并針對每種文字形成了對應(yīng)的字體文件、編碼空間、字圖,并針對每個(gè)字符收集整理了相對應(yīng)的屬性信息。迄今已有一些在線的文字資源庫可以使用,如“在線新華字典”等。然而,中華字庫工程的數(shù)據(jù)存儲采用的是傳統(tǒng)文件系統(tǒng)(字體、輸入法、字圖)、關(guān)系型數(shù)據(jù)庫(屬性),不同類型的數(shù)據(jù)之間是隔離的,沒有建立合理的關(guān)聯(lián),致使這些文字資源主要以現(xiàn)代漢字為主,缺少古漢字、少數(shù)民族文字的相關(guān)內(nèi)容。因此無法很好地進(jìn)行數(shù)據(jù)融合、查詢、挖掘與推理等工作,不利于對文字整理成果數(shù)據(jù)的深入研究與應(yīng)用。

        知識圖譜(Knowledge Graph)[3]是一種語義網(wǎng)絡(luò)(Semantic Network)[4],最早是谷歌于2012年提出的且應(yīng)用于搜索引擎[5]、推薦[6]等,取得了很好的效果。知識圖譜使用結(jié)構(gòu)化的網(wǎng)絡(luò)結(jié)構(gòu)描述概念、實(shí)體(Entity)及關(guān)系(Relation),實(shí)體之間通過關(guān)系建立關(guān)聯(lián),形成圖狀結(jié)構(gòu)的知識結(jié)構(gòu),更加接近人類對世界的認(rèn)知形式,提供了一種更好的組織、管理和使用知識的方式。知識圖譜技術(shù)是指知識圖譜的構(gòu)建與應(yīng)用的技術(shù),融合了認(rèn)知計(jì)算[7]、表示學(xué)習(xí)[8]、查詢與推理等技術(shù)的交叉方向。知識圖譜的構(gòu)建通常包括本體(Ontology)[9]設(shè)計(jì)和知識抽取兩個(gè)階段。其中,本體定義了知識圖譜的實(shí)體、關(guān)系的類型等信息,限定了知識圖譜的范圍,本體設(shè)計(jì)是由領(lǐng)域?qū)<遗c知識圖譜專家人工設(shè)計(jì)的。而知識抽取則主要基于模型、規(guī)則等計(jì)算機(jī)技術(shù)實(shí)現(xiàn)。知識抽取常見的任務(wù)包括知識表示與建模、知識表示學(xué)習(xí)、實(shí)體識別與鏈接[10]、實(shí)體關(guān)系識別[11]、事件抽取[12]等。為了進(jìn)一步提升知識圖譜的覆蓋率,知識補(bǔ)全和知識融合[13-15]也是常用的技術(shù)。典型的知識圖譜的應(yīng)用有知識查詢與推理、智能搜索、知識問答、對話系統(tǒng)等。

        鑒于知識圖譜能夠支持知識的快速查詢與推理,本文將針對中華字庫工程研發(fā)建設(shè)中存在的問題,采用知識圖譜的方式對字庫工程的成果數(shù)據(jù)進(jìn)行組織,挖掘數(shù)據(jù)中的知識,形成中華字庫成果數(shù)據(jù)知識圖譜,利用圖數(shù)據(jù)庫進(jìn)行數(shù)據(jù)的存儲,并基于實(shí)體識別、關(guān)系抽取和三元組抽取等步驟,構(gòu)建一個(gè)包含60 萬個(gè)實(shí)體、1 000 萬個(gè)三元組的大規(guī)模文字知識圖譜。在該文字知識圖譜的基礎(chǔ)上,構(gòu)建智能問答系統(tǒng)[16],回答用戶以自然語言形式提出的問題。

        1 中華文字知識圖譜構(gòu)建

        1.1 文字?jǐn)?shù)據(jù)

        通過前期積累,整理形成了超過50 萬字的成果字符,以及這些字符對應(yīng)的編碼、字形、輸入法、掃描圖檔、屬性等信息。在很大程度上滿足了新聞出版行業(yè)的文字標(biāo)準(zhǔn)化的迫切需求,加快了國家尤其是民族地區(qū)的信息化進(jìn)程,增強(qiáng)了國家文化“軟實(shí)力”。

        然而,目前這些數(shù)據(jù)以字體文件、文本、關(guān)系數(shù)據(jù)庫等不同的形式進(jìn)行存儲,數(shù)據(jù)之間沒有建立關(guān)聯(lián),限制了成果數(shù)據(jù)的進(jìn)一步挖掘和應(yīng)用。針對該問題,本文提出使用更為先進(jìn)的知識圖譜的方式進(jìn)行數(shù)據(jù)的重新組織和存儲,建立數(shù)據(jù)之間的關(guān)聯(lián),為后續(xù)的字庫數(shù)據(jù)挖掘和應(yīng)用提供支撐。

        1.2 知識圖譜本體設(shè)計(jì)

        本體是知識圖譜的知識表示的基礎(chǔ),是知識圖譜的抽象概念集合,是某個(gè)領(lǐng)域的概念框架,如“人”“地”“事件”等。知識圖譜是在本體基礎(chǔ)上的具象,在本體中通常包含實(shí)體概念和關(guān)系概念。如在人物知識圖譜中,“人”是一個(gè)實(shí)體概念,“姚明”則是一個(gè)具體的實(shí)體。“妻子”是一個(gè)關(guān)系的概念,三元組(姚明,妻子,葉麗)則是關(guān)系“妻子”的一個(gè)具體實(shí)例。知識圖譜最終是由三元組構(gòu)成。三元組包含頭部實(shí)體、關(guān)系和尾部實(shí)體3 個(gè)元素。在前面的例子中,“姚明”為頭部實(shí)體,“妻子”為關(guān)系,“葉麗”為尾部實(shí)體。通過這些三元組可以構(gòu)建實(shí)體之間的相互關(guān)系,支持查詢、推理等操作。

        中華文字知識圖譜主要涉及字符、語種、地域和文獻(xiàn)四類實(shí)體。在中華文字知識圖譜中對關(guān)系和屬性不做嚴(yán)格地進(jìn)行區(qū)分,均采用三元組的方式進(jìn)行存儲。如字符編碼屬性和字符之間異體關(guān)系均采用三元組進(jìn)行存儲。關(guān)系和屬性在該知識圖譜中不進(jìn)行區(qū)分,均以關(guān)系的形式進(jìn)行存儲和使用。目前,中華文字知識圖譜中的主要關(guān)系類型如表1所示。同時(shí),中華文字知識圖譜不僅針對現(xiàn)代漢語,而且針對古漢語、傣文、西夏文等少數(shù)民族文字。中華文字知識圖譜包含的部分語種見表2。

        表1 中華字庫關(guān)系/屬性列表

        表2 中華文字知識圖譜包含的部分語種

        1.3 知識圖譜構(gòu)建

        基于上述本體定義的實(shí)體和關(guān)系類型,本文設(shè)計(jì)信息抽取系統(tǒng)實(shí)現(xiàn)從文本、圖片、字體、數(shù)據(jù)庫等信息中抽取文字對應(yīng)的實(shí)體、關(guān)系和三元組構(gòu)建知識圖譜。文字知識圖譜抽取的整體框架如圖1所示。該系統(tǒng)主要包括數(shù)據(jù)預(yù)處理、實(shí)體抽取、關(guān)系抽取、實(shí)體鏈接和三元組抽取。主要對不同模態(tài)的數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,形成能夠進(jìn)行統(tǒng)一信息抽取的數(shù)據(jù)形式。然后再進(jìn)行實(shí)體和關(guān)系的識別。同時(shí),由于相同實(shí)體在不同的數(shù)據(jù)中有不同的模態(tài)和形式,需要對這些實(shí)體進(jìn)行鏈接,實(shí)現(xiàn)實(shí)體的歸一化處理。如利用字符編碼將文本形式、圖片形式和字體文件中的同一字符關(guān)聯(lián)起來,便于后續(xù)的三元組抽取。

        圖1 文字知識圖譜構(gòu)建流程

        續(xù)表

        利用上述信息抽取系統(tǒng),本文抽取了超過60萬個(gè)實(shí)體和超 1 000 萬個(gè)三元組,構(gòu)成了當(dāng)前最大規(guī)模的中華文字知識圖譜。本文利用Neo4j構(gòu)建三元組數(shù)據(jù),形成可視化的數(shù)據(jù)查詢接口,具體的示例如圖2所示。

        圖2 以“人”作為部首的字符

        2 基于文字知識圖譜的智能問答

        知識圖譜將知識通過關(guān)系串聯(lián)起來,形成網(wǎng)狀結(jié)構(gòu),能夠支撐很多智能應(yīng)用,典型的應(yīng)用主要包括智能問答、智能客服、推薦系統(tǒng)等。本文在文字知識圖譜的基礎(chǔ)上構(gòu)建了一個(gè)智能問答系統(tǒng),實(shí)現(xiàn)了在文字知識圖譜上的智能問答,并實(shí)現(xiàn)了支持自然語言的方式進(jìn)行文字相關(guān)關(guān)系/屬性的查詢。該系統(tǒng)的整體架構(gòu)如圖3所示。主要包括實(shí)體抽取、意圖識別、知識圖譜查詢與推理和回復(fù)生成4 個(gè)模塊。本文基于這4 個(gè)模塊,利用中華文字知識圖譜實(shí)現(xiàn)一個(gè)較為完整的智能問答系統(tǒng),以完成針對該知識圖譜的自動(dòng)查詢,滿足該知識圖譜的基本查詢需求。

        圖3 基于文字知識圖譜的智能問答

        2.1 實(shí)體抽取

        實(shí)體抽取模塊的主要任務(wù)是從用戶提出的問題中準(zhǔn)確地識別實(shí)體詞。在文字知識圖譜中,實(shí)體詞主要為字符、語種、地域和文獻(xiàn)。本文基于Bert+CRF[17](預(yù)訓(xùn)練語言模型+條件隨機(jī)場)實(shí)現(xiàn)實(shí)體識別。該模型將實(shí)體識別轉(zhuǎn)換為序列標(biāo)注問題,通過給問題中的每個(gè)字預(yù)測不同的標(biāo)簽實(shí)現(xiàn)對實(shí)體的識別。具體的例子如圖4所示,其中“S”表示為一個(gè)實(shí)體字,“O”表示為其他字符。該模型能夠基于大規(guī)模預(yù)訓(xùn)練語言模型實(shí)現(xiàn)。預(yù)訓(xùn)練語言模型的微調(diào)機(jī)制使得該模型具有更好的魯棒性,所需要的標(biāo)注數(shù)據(jù)也更少,尤其適合于文字知識圖譜這種缺少標(biāo)注數(shù)據(jù)的模型。

        圖4 實(shí)體識別示意

        2.2 意圖識別

        意圖識別是在實(shí)體識別的基礎(chǔ)上,判斷用戶的意圖。如圖4 中的問題對應(yīng)的意圖是“異體字”。本文將意圖識別建模為一個(gè)分類問題,將用戶的問題分類為不同的關(guān)系/屬性的查詢需求。本文利用Bert+FC[18](預(yù)訓(xùn)練語言模型+全連接分類器)作為文本分類模型,用于實(shí)現(xiàn)意圖識別。

        2.3 知識圖譜查詢與推理

        當(dāng)識別了用戶問題中的核心實(shí)體和意圖后,可以生成知識圖譜的查詢命令,實(shí)現(xiàn)單跳和多跳的查詢。所謂“單跳”指的是通過一次關(guān)系查詢操作即可滿足用戶的需求。如圖4 的問題可以通過查詢目標(biāo)字的所有異體字來滿足用戶查詢?!岸嗵笔悄切┎荒芡ㄟ^單一的關(guān)系來滿足用戶需求的問題,如問題“字符頇對應(yīng)語種有多少字?”需要通過“語種”和“字符列表”兩個(gè)關(guān)系來滿足用戶查詢。在多跳場景下識別用戶的意圖后與知識圖譜中的關(guān)系組合進(jìn)行相似度計(jì)算,最終得到查詢的關(guān)系組合。本文基于SentenceBert[19]模型實(shí)現(xiàn)意圖與關(guān)系組合的相似度計(jì)算。該模型在大規(guī)模語言模型的基礎(chǔ)上計(jì)算句子/短語/詞匯之間的相似度,能夠充分利用上下文信息。

        2.4 回復(fù)生成

        基于上述模塊,系統(tǒng)完成對用戶問題的理解和知識的查詢與推理,得到用戶所需要的信息。為了能夠以更自然的交互方式與用戶進(jìn)行問答交互,本文實(shí)現(xiàn)了基于規(guī)則結(jié)合文本生成模型T5[18]進(jìn)行回復(fù)生成。

        3 結(jié)語

        本文在中華字庫成果數(shù)據(jù)的基礎(chǔ),采用知識圖譜技術(shù)和數(shù)據(jù)組織方式構(gòu)建了一個(gè)大規(guī)模的中華文字知識圖譜。文字知識圖譜涵蓋了楷書漢字、古漢字、少數(shù)民族文字等多種語言文字,包含了字形、字音、字義、編碼空間等多種模態(tài)和類型的屬性數(shù)據(jù)。本文采用實(shí)體抽取、關(guān)系識別、三元組抽取等技術(shù)構(gòu)建了知識圖譜。并利用深度學(xué)習(xí)在文字知識圖譜的基礎(chǔ)上實(shí)現(xiàn)了一個(gè)智能問答系統(tǒng),滿足了用戶對文字知識查詢的需求。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        av剧情演绎福利对白| 亚洲黄色性生活一级片| 亚洲乱码中文字幕综合| 在线观看午夜视频国产| 国产动作大片中文字幕| 欧美成人一区二区三区在线观看 | 日韩精品av在线一区二区| 精品人妻一区二区三区在线观看| 色狠狠色噜噜av天堂一区| 色妺妺视频网| 国产网友自拍亚洲av| 国产精品国产自产拍高清| 色www永久免费视频| 久久香蕉免费国产天天看| 亚洲精品白浆高清久久| 色综合悠悠88久久久亚洲| 蜜桃日本免费看mv免费版| 国内久久婷婷激情五月天| 国产激情视频免费观看| 少妇人妻中文久久综合| 久久中文精品无码中文字幕下载| 精品午夜久久网成年网| 精品在线视频免费在线观看视频| 青青草免费手机视频在线观看| 色橹橹欧美在线观看视频高清| av色综合网站| av资源在线免费观看| 久久精品国产亚洲av麻豆色欲| 4444亚洲人成无码网在线观看| 蜜桃av多人一区二区三区| 久久国产精品婷婷激情| 国语对白做受xxxxx在线| 亚洲男人的天堂精品一区二区| 亚洲国产精品嫩草影院久久av| 无码h黄肉3d动漫在线观看| 欧美日韩久久久精品a片| 精品午夜一区二区三区| 国产亚洲av另类一区二区三区| 亚洲精品无码av中文字幕| 99久久99久久精品免观看| 在线观看视频免费播放|