亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Transformer-CRF的文言文斷句方法研究
        ——以唐代墓志銘為例

        2021-11-24 06:25:06韓旭
        情報工程 2021年5期
        關(guān)鍵詞:繁體字斷句墓志銘

        韓旭

        中國科學(xué)技術(shù)信息研究所 北京 100038

        引言

        漢字作為世界上最古老的文字之一,距今已有六千多年的歷史,是承載中華傳統(tǒng)文化的重要工具,而文言文則是中國古代使用漢字書寫的一種書面語言。對文言文中所述內(nèi)容的深入研究,能夠更為詳盡地解讀歷史,建立對應(yīng)的中國古藉索引,為中國古代歷史研究提供更多的事實依據(jù)。

        目前基于中文的預(yù)訓(xùn)練模型大多針對現(xiàn)代漢語,但文言文和白話文在書寫方式、表達(dá)方式等方面都存在較大差異,難以使用相同語言模型對其進(jìn)行深入解讀。文言文和現(xiàn)代白話文的區(qū)別主要表現(xiàn)在以下幾點:(1)相對于白話文而言,文言文其最突出的特色是行文簡練、言文分離。古代文言文中每個漢字代表的語義都較為豐富,語言表述高度凝練,難以進(jìn)行分詞操作;而白話文則更接近日常交流的口語,講求表意清晰,在文本理解和語義分割上都更加簡單。(2)從書寫格式而言,中國古代人在寫作時,一般是從上至下從右至左縱向書寫,且不使用標(biāo)點符號、空格、分段等方式進(jìn)行文字分割,主要靠知識積累及語感進(jìn)行斷句;而白話文則需在有語義分割的地方進(jìn)行標(biāo)點的標(biāo)注,做到文字通俗易懂。(3)從文字的書寫形式而言,中國古代大多使用繁體字進(jìn)行書寫,因此留存的文言文古籍均為繁體字表述;而白話文一般使用漢字文字改革之后的簡體字進(jìn)行記錄。相對于繁體字而言,簡體漢字從筆畫和漢字結(jié)構(gòu)上都有較大的改變,將文字變得簡單易學(xué),但也因此損失了一些筆畫中的語義信息。文言文和白話文之間的具體差異如圖1所示。

        圖1 文言文和白話文從書寫、表達(dá)等方面的差異(唐·柳宗元《小石潭記》)

        墓志銘是一種悼念性文體,是指存放在墓中載有死者傳記的石刻。對古代墓志銘的深入分析能夠刻畫過世之人的生平,對建立古代人物數(shù)據(jù)庫并對人物之間親屬關(guān)聯(lián)的分析具有較為突出的作用,對建立中文古藉索引提供重要的事實依據(jù),因此墓志銘語料在古藉知識組織領(lǐng)域是一種較為珍貴的史料數(shù)據(jù)。除了具備文言文基本特征外,古代墓志銘還有另一個突出特點,即墓志銘數(shù)據(jù)大多來源于墓碑的摘抄或拓印,墓碑由于材質(zhì)及存放位置等原因,經(jīng)年累月風(fēng)雨侵蝕,部分文字已經(jīng)無法辨認(rèn),這些無法辨認(rèn)的部分也會為研究人員帶來一定的讀譯困難。

        對文言文的分析首先要進(jìn)行必要的語義分割,對文言文進(jìn)行句子邊界識別有助于后續(xù)的深入分析。針對文言文的文字特點,本文提出一種基于繁體字向量的Transformer-CRF模型,為唐代墓志銘文本進(jìn)行斷句。本文的主要貢獻(xiàn)有以下幾點:1.使用了繁體字的字形特點生成特有的漢語繁體字向量,該向量在古代漢語中有較好的表現(xiàn);2.將墓志銘數(shù)據(jù)集中缺失的文字進(jìn)行滑動窗口的數(shù)據(jù)填補(bǔ),解決墓志銘數(shù)據(jù)缺失的問題;3.主要針對唐代墓志銘進(jìn)行數(shù)據(jù)標(biāo)注,并同時生成唐代的文言文斷句模型,幫助人們克服閱讀障礙,并為后續(xù)有關(guān)古籍的知識組織工作提供有力的技術(shù)支撐。

        1 相關(guān)工作

        識別句子邊界是一個重要的自然語言處理任務(wù),目前該類任務(wù)普遍應(yīng)用于語音轉(zhuǎn)換文字的場景中?,F(xiàn)代漢語在寫作的過程中已經(jīng)形成了標(biāo)點標(biāo)注的規(guī)則,因此無需進(jìn)行句子邊界識別步驟。根據(jù)Li等[1]的研究及在實踐過程中的經(jīng)驗顯示,標(biāo)點符號的存在對文本分割和語義理解有著重要的作用,因此對于原始的文言文數(shù)據(jù),應(yīng)首先對其進(jìn)行句子邊界識別和標(biāo)點標(biāo)注。

        目前,已有相關(guān)學(xué)者聚焦到文言文語境下的句子邊界識別問題。早在2007年,陳天瑩等[2]就提出古文句子邊界識別的重要性,并使用N-Gram方法,以《論語》為數(shù)據(jù)集進(jìn)行句子邊界識別的訓(xùn)練。2008年,黃建年等[3]將文言文的關(guān)注范圍縮小到農(nóng)業(yè)這一領(lǐng)域,提出可以使用正則表達(dá)式等基于統(tǒng)計與規(guī)則的方法對古籍進(jìn)行斷句位置的標(biāo)注。張合等[4]使用了條件隨機(jī)場解決文言文句子邊界識別問題,并取得了優(yōu)于N-gram模型的效果。Huang等[5]同樣使用條件隨機(jī)場作為初始模型,并加入古漢語的音節(jié)音韻信息以達(dá)到提高效果的目的。上述文章均使用傳統(tǒng)的統(tǒng)計學(xué)習(xí)方法對文言文進(jìn)行斷句操作,并增加了一定的人工干預(yù),這類工作需要有文言文閱讀能力的專業(yè)研究者進(jìn)行人工標(biāo)注,難以實現(xiàn)大規(guī)模標(biāo)注集。

        2015年,百度團(tuán)隊[6]提出了雙向長短時記憶神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場模型(Bi-LSTM-CRF)來解決自然語言處理中的序列標(biāo)注問題,該算法在當(dāng)時迅速成為最主流的解決方案。高甦等[7]使用深度學(xué)習(xí)對古漢語中的中醫(yī)典籍領(lǐng)域進(jìn)行了命名實體識別研究,取得了較好的成果。丁龍等[8]提出使用Bert模型對特殊的領(lǐng)域做實體識別,這也為文言文領(lǐng)域提出了新的研究思路。2016年,Wang等[9]提出了使用循環(huán)神經(jīng)網(wǎng)絡(luò)建立古漢語斷句模型的方法,將深度學(xué)習(xí)方法引入古漢語斷句問題中。王博立等[10]提出使用GRU模型對文言文進(jìn)行斷句,并引入了句長懲罰,以提高斷句準(zhǔn)確率。俞敬松等[11]提出使用Bert方法來進(jìn)行文言文斷句并針對具體問題進(jìn)行微調(diào)適配,達(dá)到較好的效果。另外,還有學(xué)者考慮將文言文看作翻譯問題進(jìn)行模型構(gòu)建[12],但由于文言文的復(fù)雜性,翻譯效果還存在一定改進(jìn)空間。上述研究均基于神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,沒有深入考慮漢字本身可能帶來的一些語義信息。

        在自然語言處理的研究領(lǐng)域,目前較為通用的方法是使用詞表示作為模型的輸入。部分學(xué)者在基本詞表示的基礎(chǔ)上,對文字本身在演化過程中存在的一些語義信息進(jìn)行了深入剖析。在英文語境中,Hovy等[13]引入了卷積神經(jīng)網(wǎng)絡(luò),對英文進(jìn)行字母級別的劃分,學(xué)習(xí)了英文中詞根詞綴的語義內(nèi)涵,有效提高了英文詞性標(biāo)注、命名實體識別等任務(wù)的準(zhǔn)確率。在中文語境下,由于單個漢字即是計算機(jī)接收的最小單元,因此難以使用卷積神經(jīng)網(wǎng)絡(luò)對其進(jìn)行進(jìn)一步拆分,韓旭等[14]提出將繁體字的偏旁作為漢字的一個特征進(jìn)行訓(xùn)練,以此來增強(qiáng)繁體字的語義表示能力。這些基于文字本身的研究能在一定程度上提升后續(xù)任務(wù)的準(zhǔn)確率。

        目前大部分使用神經(jīng)網(wǎng)絡(luò)模型的文言文斷句工作都聚焦于全朝代分析,較少針對某一歷史時期或某種文體建立對應(yīng)的語料分析模型。而針對唐代(公元618年-907年)的文言文研究,尤其是對特殊文體例如墓志銘的研究更為稀少。本文針對以上的相關(guān)研究工作,建立針對唐代墓志銘文體的一種基于Transformer-CRF的斷句模型,并引入繁體字向量,加強(qiáng)模型的語義理解能力,提高模型的準(zhǔn)確率。本文工作為數(shù)字人文領(lǐng)域古代人物數(shù)據(jù)庫的建立提供了數(shù)據(jù)基礎(chǔ),為古藉知識組織的后續(xù)分析工作提供了技術(shù)支撐。

        2 模型方法

        2.1 基于偏旁的字向量表示

        文言文表述言簡意賅,通常每個字都能代表白話文中一個詞語甚至多個詞語的含義,且目前沒有公認(rèn)權(quán)威的能夠代表文言文分詞規(guī)則的相關(guān)詞典,因此本文不考慮將文言文進(jìn)行分詞,在模型生成中選擇以字為單元進(jìn)行向量表示。本文的字向量參考了本團(tuán)隊之前研究成果[14]中的方法,將漢字繁體字進(jìn)行基于繁體字偏旁的字向量表示。漢字中的偏旁和英文中的詞根詞綴類似,不需要上下文作參考,偏旁本身即可一定程度上表示字的語義信息。如偏旁三點水“氵”表示和水有關(guān)的事物,“江”、“河”、“湖”、“?!倍家浴般摺弊鳛槠?,其代表的含義均和“水”有關(guān)。這種表述方式主要是因為漢字的起源是象形文字,由于繁體字形態(tài)更接近于甲骨文,保留了象形文字的某些特征,這種現(xiàn)象在繁體字上表現(xiàn)更為明顯。因此本文首先將全部的文字轉(zhuǎn)換為繁體字,再進(jìn)行后續(xù)操作。

        漢字本身即是計算機(jī)接收信息的最小單元,目前沒有符號能系統(tǒng)的表示漢字的偏旁信息。本團(tuán)隊的前序研究中,主要根據(jù)漢字的Unicode編碼進(jìn)行偏旁分類。分析漢字的Unicode編碼可知,相同偏旁的Unicode編碼相鄰,因此借助Unicode編碼加人工校對的方式可以將每個漢字的偏旁信息進(jìn)行標(biāo)注。目前根據(jù)新華字典的檢索列表,漢字共214個偏旁。將偏旁信息作為字向量初始值的一部分,使用CBOW連續(xù)詞袋法共同訓(xùn)練,可以得到基于偏旁信息的繁體字向量。其具體的結(jié)構(gòu)如圖2所示。

        圖2 基于偏旁的繁體字向量的輸入及輸出

        其中ci表示字向量,ri表示偏旁向量。c-表示目標(biāo)字符前n個字符,c+表示目標(biāo)字符后n個字符,r-表示目標(biāo)字符前n個字符的偏旁信息,r+表示目標(biāo)字符后n個字符的偏旁信息。

        計算的損失函數(shù)是分別求字符和偏旁兩部分的上下文似然函數(shù),條件概率使用softmax函數(shù),如公式(1)、(2)。

        這里i表示文本中第i個字符,h1和h2分別代表字符上下文和偏旁上下文,hi1和hi2分別代表上下文輸入向量的加權(quán)平均值,表示漢字wi的輸出向量。使用該模型輸出的字向量作為字向量預(yù)訓(xùn)練模型,參與后文的序列標(biāo)注訓(xùn)練。該模型的優(yōu)勢是在基礎(chǔ)的字向量基礎(chǔ)上,獲取到漢字中相同的偏旁信息,增強(qiáng)字表示的語義性。

        2.2 Transformer模型

        早在2014年Bengio等[15]就提出在翻譯模型中引入注意力機(jī)制,其核心的內(nèi)容是在一個基本的編碼器—解碼器模型中,加入一個隱藏層的加權(quán)和,用來表示在當(dāng)前狀態(tài)時刻每個詞對狀態(tài)的影響概率。Google團(tuán)隊在2017年發(fā)表了著名論文中[16]提到了自注意力機(jī)制。這種方式脫離了編碼器—解碼器的限制,通過文本本身的注意力訓(xùn)練,得到句子內(nèi)部詞語之間的依存關(guān)系,這也是Transformer模型的核心思想。和RNN模型相比,Transformer模型解決了傳統(tǒng)序列標(biāo)注模型中無法并行計算的問題,極大地提高了運算速度,能夠在維持模型效果的同時提高模型運行效率。

        Transformer的編碼器部分,每一層都包含多頭注意力機(jī)制及一個全鏈接前饋神經(jīng)網(wǎng)絡(luò)。并且將兩個部分添加了殘差連接及歸一化操作,編碼器模型的基本結(jié)構(gòu)如圖3所示,所有的編碼器在結(jié)構(gòu)上相同,但不共享參數(shù)以便學(xué)習(xí)更多的特征。

        圖3 標(biāo)準(zhǔn)Transformer編碼器結(jié)構(gòu)

        將前文生成的字向量作為Transformer的輸入向量,模型首先需進(jìn)行位置編碼(positional encoding)。Transformer模型拋棄了傳統(tǒng)RNN模型的時間序列計算方式,因此需要對上下文的位置進(jìn)行學(xué)習(xí)以保證模型的位置感知能力。位置編碼計算方式如公式(3)、(4)。

        其中pos代表單詞在句子中的位置,d表示維度,i表示字符位置,奇數(shù)維度用cos,偶數(shù)維度用sin計算。字向量和位置向量相加,共同作為輸入向量。

        經(jīng)過位置編碼后的字向量進(jìn)入到編碼器進(jìn)行多頭注意力操作。多頭注意力使用concat函數(shù)將不同的頭連接起來形成高維度向量,獲取不同層次的語義表示信息。注意力機(jī)制首先會將輸入向量對應(yīng)生成查詢向量Q、鍵向量K和值向量V。并將Q和K與V的鍵值對映射到輸出上。主要的計算公式如公式(5)(6)(7),上述計算均以矩陣形式完成。

        Transformer模型使用自注意力機(jī)制將輸入傳遞到前饋神經(jīng)網(wǎng)絡(luò)中,并進(jìn)行對應(yīng)的殘差連接和歸一化操作。通過Transformer模型能夠?qū)⑤斎胄蛄羞M(jìn)行文本特征提取,多頭注意力能建立不同的子空間并擴(kuò)大學(xué)習(xí)參數(shù),提升模型的準(zhǔn)確度。且模型相比于傳統(tǒng)RNN而言,由于使用位置編碼信息,能夠進(jìn)行并行計算,極大地提升了模型效率。

        2.3 CRF模型

        Transformer模型在輸出層部分,序列之間沒有相關(guān)關(guān)聯(lián),導(dǎo)致輸出的結(jié)果可能會存在不合邏輯等問題,而CRF模型核心思想則是尋找一條最優(yōu)路徑,能夠使得輸出層的上下文標(biāo)注存在約束性的規(guī)則連接,得到非獨立的最優(yōu)化標(biāo)簽。將Transformer的最頂層與CRF模型鏈接,能夠保證輸出標(biāo)簽的合理性及準(zhǔn)確率。CRF模型的目標(biāo)是找到一個最大得分路徑并輸出。其路徑分?jǐn)?shù)的計算公式如(8)。

        其中A是轉(zhuǎn)移矩陣,pi,yi表示第i個詞語被標(biāo)記為yi的概率。將Transformer的結(jié)果輸入CRF層,相當(dāng)于兩個分類器的效果相疊加,能夠得到更優(yōu)的模型效果。

        2.4 文字標(biāo)注方法

        對于斷句這一特殊的序列標(biāo)注問題,本研究借鑒了命名實體識別的標(biāo)注形式,將句子的首尾進(jìn)行對應(yīng)的標(biāo)記。將句子的第一個字標(biāo)記為B(beginning),標(biāo)點前的一個字標(biāo)記為E(end),其余字標(biāo)記為O(otherwise)。在標(biāo)點選擇上,僅選擇帶有語義停頓含義的標(biāo)點進(jìn)行邊界識別:全停頓標(biāo)點{。?!},半停頓標(biāo)點{,;:}共6種標(biāo)點組成集合,在訓(xùn)練過程中6類標(biāo)點不做具體區(qū)分,只標(biāo)注斷句位置。具體的標(biāo)注樣例如圖4所示。

        圖4 標(biāo)注方式

        2.5 整體模型框架

        本文的整體模型框架如圖5所示。

        圖5 整體模型框架

        首先使用本團(tuán)隊前序研究的字向量生成方法[14],將古文進(jìn)行基于偏旁的繁體字向量訓(xùn)練。將訓(xùn)練好的基于偏旁的繁體字向量和位置向量進(jìn)行連接,作為Transformer模型的輸入向量進(jìn)行訓(xùn)練。最后將Transformer的結(jié)果輸入CRF層,并由CRF層訓(xùn)練最終的標(biāo)簽結(jié)果。

        3 實驗及結(jié)果分析

        3.1 數(shù)據(jù)集

        文言文作為中國古代通用的一種文字表述方式,其使用時間長達(dá)幾千年,因此不同朝代不同文體之間,文言文的寫作風(fēng)格和形式都有所不同。將文言文內(nèi)容進(jìn)行朝代和文體的分類,更有利于斷句的最終效果。墓志銘作為一類特殊文體,目前還存在大量的未被電子化及標(biāo)點化的數(shù)據(jù),因此本文重點針對唐代墓志銘進(jìn)行自動化句子邊界識別,以減輕古文知識組織相關(guān)工作者的標(biāo)注負(fù)擔(dān)。

        由于墓志銘的數(shù)據(jù)較難獲取,且數(shù)據(jù)量不大,僅使用墓志銘數(shù)據(jù)進(jìn)行深度學(xué)習(xí)建模,無法達(dá)到預(yù)期效果,本文使用同朝代相類似的文本類型進(jìn)行數(shù)據(jù)集的擴(kuò)充。本文主要使用的語料是唐代墓志匯編,因此擴(kuò)展數(shù)據(jù)集的朝代同樣選取唐代。在文體方面,通過對不同文體的調(diào)研及統(tǒng)計發(fā)現(xiàn),人物傳記類文體的寫作風(fēng)格和墓志較為相似,因此本文主要選取唐代人物傳記類文本作為擴(kuò)充數(shù)據(jù)集。本文所用的數(shù)據(jù)集具體情況如表1所示。

        表1 數(shù)據(jù)集數(shù)據(jù)細(xì)節(jié)

        由于模型的運行效率和文本段落的長短強(qiáng)相關(guān),因此對數(shù)據(jù)集進(jìn)行分段切割,選取60字符為一個單元。為保證分割后每個單元內(nèi)部的句子完整性,第n個單元和第n+1個單元選擇重合10個字符,即第n個單元的最后10個字,是第n+1個單元的前10個字,并只取每個單元前50個字進(jìn)行結(jié)果輸出,這種選取方法可以盡可能避免單元分割帶來的句子不完整問題。分好單元的文本需打亂順序進(jìn)行訓(xùn)練。本文按照訓(xùn)練集、驗證集、測試集比例分別為60%、20%,20%來進(jìn)行數(shù)據(jù)分配,其中訓(xùn)練集和驗證集數(shù)據(jù)是唐傳記數(shù)據(jù)和唐墓志銘數(shù)據(jù)混合而成,測試數(shù)據(jù)全部為墓志銘數(shù)據(jù)。

        3.2 缺失字的填補(bǔ)方法

        首先對墓志銘文本中的缺失文字進(jìn)行調(diào)研。經(jīng)過初步統(tǒng)計,墓志銘數(shù)據(jù)集中單個文字缺失的概率約在1.7%,本文嘗試將缺失字進(jìn)行字填補(bǔ)。在字向量模型生成后,使用滑動窗口方法,將缺失字的前n個字和后n個字的字向量做加權(quán)平均,作為缺失字的字向量輸入后續(xù)模型(實驗部分最終選取n=3)。本文在生成繁體字向量后,即進(jìn)行缺失字填補(bǔ)操作。并將填補(bǔ)后的字向量和位置向量連接,作為Transformer模型的輸入向量。另外,若缺失字連續(xù)出現(xiàn)5個以上,認(rèn)為關(guān)鍵信息缺失過多,在后續(xù)斷句任務(wù)中不予考慮。

        在實驗中,同時也考慮了僅使用統(tǒng)一的特殊字符對空缺文字進(jìn)行填補(bǔ),該方法和滑動窗口法的效果相近,但在缺失字位置附近的斷句效果略差于滑動窗口法。使用統(tǒng)一字符方法將所有缺失字作為相同字標(biāo)注,這種方法在連續(xù)缺失字情況下無法依靠上下文進(jìn)行斷句,因此效果較差。后續(xù)實驗統(tǒng)一使用滑動窗口進(jìn)行缺失文字的填補(bǔ)。

        3.3 實驗結(jié)果

        本文模型的學(xué)習(xí)率設(shè)置為0.005,迭代次數(shù)設(shè)置為30次,dropout值為0.4。評估函數(shù)采用基礎(chǔ)的精確率、召回率、和F1進(jìn)行評估,評估標(biāo)準(zhǔn)為是否在正確的位置進(jìn)行句子分割。在實驗過程中,使用word2vec和LSTM做基線模型,加入幾種改進(jìn)的模型進(jìn)行對比,最終對比結(jié)果如表2所示。

        表2 唐代墓志銘數(shù)據(jù)評估結(jié)果

        根據(jù)實驗數(shù)據(jù)分析可知:首先,對比word-2vec和繁體字向量,可以看出在文言文語境下,繁體字向量的模型效果要好于word2vec,這也證明了本團(tuán)隊前序工作的有效性。其次,同樣使用繁體字向量的情況下,Bi-LSTM-CRF模型的效果和Transformer模型從精準(zhǔn)率、召回率和F1值上均存在較大差距,證明目前Transformer在序列標(biāo)注任務(wù)上的表現(xiàn)能力已經(jīng)遠(yuǎn)遠(yuǎn)優(yōu)于改進(jìn)后的LSTM模型。最后可以看出,本文在Transformer模型的基礎(chǔ)上引入CRF之后的效果略優(yōu)于單一Transformer模型,分析這一現(xiàn)象的原因在于本文在句子標(biāo)注時,同時標(biāo)注了句子的首字和尾字,因此序列標(biāo)注本身存在一定的邏輯,即E和B應(yīng)按順序交替出現(xiàn),而CRF的優(yōu)勢既是對序列的輸出有一定的學(xué)習(xí)策略,因此在本文的應(yīng)用場景下,Transformer-CRF模型在三個指標(biāo)下均表現(xiàn)出了最佳效果。另外,對于墓志銘數(shù)據(jù)中的缺失字而言,本文也能夠進(jìn)行對應(yīng)的標(biāo)注,證明了模型具備一定的泛化能力。選取一個帶有缺失字的示例段落進(jìn)行展示,具體的結(jié)果如下。

        本段來源于《唐代墓志銘匯編續(xù)集》—垂拱。從斷句結(jié)果可以看出,本模型能夠做到基本的語義分割,在全停頓部分均預(yù)測正確,在半停頓部分更傾向于保留句子的完整性,斷句位置均能給出合理解釋。本文選取的段落缺失字較多且存在連續(xù)缺失,本模型在該種情況下仍然能進(jìn)行斷句切割,且能在連續(xù)缺失字之間進(jìn)行語義分割預(yù)測。分析存在該現(xiàn)象的原因是,在缺失字填補(bǔ)過程中,使用已生成的繁字體向量進(jìn)行滑動窗口缺失字填補(bǔ),對缺失字部分的語義有一定的填充作用。另外,在缺失字連續(xù)且較多的情況下,除語義信息外模型還捕捉到了文本的結(jié)構(gòu)信息進(jìn)行斷句。例如模型斷句6,7,8三個位置(加粗表示),傾向于分為5個字一組的結(jié)構(gòu),且第三個字為“而”,這種斷句位置的標(biāo)注能對語義信息進(jìn)行合理猜測提供了一定的輔助作用。該模型對于分析古藉知識發(fā)現(xiàn)尤其是帶有缺失字的古籍文獻(xiàn)具有重大意義,這為文言文整理工作提供新的思路,這也是本模型區(qū)別于其他相似模型的一個顯著特點。

        4 總結(jié)

        本文從古藉知識組織的實際應(yīng)用需求出發(fā),通過構(gòu)建繁體字向量表示及序列標(biāo)注模型來解決文言文標(biāo)點缺失的問題。針對文言文的語言特點,以及墓志銘這種特殊文體存在的問題,引入了Transformer-CRF模型,針對唐代文體進(jìn)行句子邊界識別,并使用本團(tuán)隊前序工作中的基于偏旁的繁體字向量作為字表示。在實驗中,以word2vec字表示以及LSTM模型為基線模型作對比,本文所用模型在三個主要評價參數(shù)上均獲得了更優(yōu)的表現(xiàn),提高了文言文唐代墓志銘斷句的準(zhǔn)確率。在數(shù)據(jù)處理中通過滑動窗口加權(quán)平均的方法,對墓志銘中的缺失字進(jìn)行填補(bǔ),并能夠在連續(xù)缺失字場景下對內(nèi)部進(jìn)行斷句位置預(yù)測,為后續(xù)的分析工作提供了技術(shù)支撐。

        目前對于墓志銘文體的相關(guān)電子資料和其他文體資料相比體量較小,數(shù)據(jù)量明顯不足,因此在模型的表現(xiàn)上存在一定差距。但本文重點解決了缺失字環(huán)境下的斷句問題,具有一定的研究意義。下一步的工作內(nèi)容將對具體的標(biāo)點進(jìn)行預(yù)測,并進(jìn)一步對古漢語中的實體構(gòu)建知識庫并識別。

        猜你喜歡
        繁體字斷句墓志銘
        哈哈鏡
        墓志銘也可以很幽默
        墓志銘漫話
        文史春秋(2019年12期)2019-04-13 13:49:54
        文言斷句判斷法
        墓志銘
        詩潮(2018年10期)2018-10-17 06:50:36
        “斷句” “密碼”費人解(二則)
        中華詩詞(2017年3期)2017-11-27 03:44:18
        《我的墓志銘》征文通知
        妙用標(biāo)點巧斷句
        臺網(wǎng)友鼓動“繁體字申遺”
        馮小剛建議讓繁體字回歸課本
        国产成人77亚洲精品www| 一区二区三区四区国产99| 欧美日韩精品乱国产| 国产超碰在线91观看| 综合色免费在线精品视频| 久久精品国产亚洲av高清热| 青青草国产成人99久久| 无码熟妇人妻av在线c0930| 亚洲成人av大片在线观看| 日本黑人乱偷人妻在线播放| 人妻中文字幕无码系列| 国产精品一区二区 尿失禁| 中文字幕第一页在线无码一区二区| 成人自拍偷拍视频在线观看| 成人国产一区二区三区| 欧美人与动人物牲交免费观看| av中文字幕少妇人妻| 久久久9色精品国产一区二区三区| 熟女人妻一区二区三区| 亚洲精品色午夜无码专区日韩| 日韩av高清无码| 天天躁日日操狠狠操欧美老妇 | 少妇人妻200篇白洁| 国产一区二区三区韩国| 男女互舔动态视频在线观看| 女人高潮内射99精品| 中文字幕无码日韩专区免费| 国产精品久久久久久久久免费观看 | 天美传媒精品1区2区3区| 日韩国产欧美成人一区二区影院| 美腿丝袜视频在线观看| 超碰97人人射妻| 亚洲天堂2017无码中文| 日本久久精品在线播放| 亚洲综合网国产精品一区| 情侣黄网站免费看| 国产一级淫片免费大片| 国产一区二区三区十八区| 免费黄色影片| 日韩二三区| 中文亚洲一区二区三区|