亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)字人文視域下面向歷史古籍的信息抽取方法研究

        2022-12-02 05:28:44韓立帆季紫荊陳子睿王鑫
        大數(shù)據(jù) 2022年6期
        關(guān)鍵詞:文言文工作者實(shí)體

        韓立帆,季紫荊,陳子睿,王鑫

        1. 天津大學(xué)智能與計算學(xué)部,天津 300350;

        2. 天津市認(rèn)知計算與應(yīng)用重點(diǎn)實(shí)驗室,天津 300350

        0 引言

        數(shù)字人文旨在將傳統(tǒng)人文研究與現(xiàn)代計算機(jī)技術(shù)相結(jié)合,在我國,其研究多集中在圖書情報領(lǐng)域,尤其是古籍的數(shù)字化研究方面。史書古籍不僅是文化的延續(xù),還蘊(yùn)含著豐富的信息,是歷史研究和學(xué)習(xí)的重要基礎(chǔ),如“二十四史”中包含著海量的歷史人物和事件,但由于其寫作語言為文言文,與現(xiàn)代大眾所使用的白話文區(qū)別較大,往往不易于閱讀和理解。如果能準(zhǔn)確高效地抽取出其中蘊(yùn)含的實(shí)體和關(guān)系等知識信息,并形象展示,則能夠有效推動人文領(lǐng)域的研究。

        在眾多知識表示方式中,知識圖譜(knowledge graph,KG)作為一種語義網(wǎng)絡(luò),擁有極強(qiáng)的表達(dá)能力,可以靈活地對現(xiàn)實(shí)世界中的實(shí)體、概念、屬性以及它們之間的關(guān)系進(jìn)行建模。相比于其他結(jié)構(gòu)知識庫,知識圖譜的構(gòu)建及使用都更加接近人類的認(rèn)知學(xué)習(xí)行為,因此對人類閱讀更加友好。知識圖譜旨在組織并可視化知識,其基礎(chǔ)是命名實(shí)體識別(named entity recognition,NER)和關(guān)系提?。╮elation extraction,RE)這兩項自然語言處理(natural language processing,NLP)任務(wù)。

        近年來,自然語言處理技術(shù)的快速發(fā)展使人類使用自然語言與計算機(jī)進(jìn)行通信成為可能。與此同時,深度學(xué)習(xí)(deep learning,DL)技術(shù)被廣泛應(yīng)用于各個領(lǐng)域,基于深度學(xué)習(xí)的預(yù)訓(xùn)練模型將自然語言處理帶入一個新時代。預(yù)訓(xùn)練語言模型(pre-trained language model,PLM)極大地提升了語言信息表示的效果,成為目前自然語言處理領(lǐng)域的重要研究方向。預(yù)訓(xùn)練模型的目標(biāo)在于使預(yù)訓(xùn)練好的模型處于良好的初始狀態(tài),在下游任務(wù)中具有更好的性能表現(xiàn),同時減少訓(xùn)練開銷,配合下游任務(wù)實(shí)現(xiàn)更快的收斂速度,從而有效提高模型性能,尤其是對一些訓(xùn)練數(shù)據(jù)比較稀缺的任務(wù)。

        BERT(bidirectional encoder representations from transformer)[1]模型是預(yù)訓(xùn)練語言模型的代表之一,旨在通過聯(lián)合調(diào)節(jié)上下文來預(yù)訓(xùn)練深度雙向表示,主要分為兩個階段:預(yù)訓(xùn)練(pretraining)和微調(diào)(fine-tuning)。預(yù)訓(xùn)練階段模型通過兩種預(yù)訓(xùn)練任務(wù)來訓(xùn)練無標(biāo)注數(shù)據(jù),包括遮蔽語言模型(mask language model,MLM)任務(wù)和下一句話預(yù)測(next sentence predict,NSP)任務(wù)。模型在微調(diào)階段使用預(yù)訓(xùn)練階段的參數(shù)初始化,然后使用下游任務(wù)的標(biāo)注數(shù)據(jù)來微調(diào)參數(shù)。由于BERT模型結(jié)構(gòu)簡單且有效性高,因此陸續(xù)出現(xiàn)了眾多在其基礎(chǔ)上進(jìn)行改進(jìn)的模型,對于英語外的其他常用語言,研究人員也提出了針對不同語言的預(yù)訓(xùn)練模型。

        針對中文的預(yù)訓(xùn)練語言模型研究近年來引起廣泛關(guān)注,現(xiàn)有的中文預(yù)訓(xùn)練模型處理中文的能力已經(jīng)在BERT模型的基礎(chǔ)上得到進(jìn)一步提升。然而,現(xiàn)有的中文預(yù)訓(xùn)練語言模型大多集中在白話文上,且現(xiàn)有的文言文預(yù)訓(xùn)練語言模型僅使用文言文語料進(jìn)行預(yù)訓(xùn)練,沒有針對性地修改模型結(jié)構(gòu)和優(yōu)化訓(xùn)練過程。因此,本文面向文言文特點(diǎn)構(gòu)建了一個預(yù)訓(xùn)練語言模型,在BERT模型的基礎(chǔ)上對預(yù)訓(xùn)練任務(wù)和模型結(jié)構(gòu)進(jìn)行優(yōu)化,從而進(jìn)一步提高預(yù)訓(xùn)練語言模型處理文言文的性能。

        此外,目前現(xiàn)有的中文理解測評基準(zhǔn)及數(shù)據(jù)集大多為白話文,無法針對性地微調(diào)模型使之適應(yīng)文言文任務(wù),同時無法準(zhǔn)確評測模型處理文言文任務(wù)的性能?,F(xiàn)有的文言文NER任務(wù)數(shù)據(jù)集來自第十九屆中國計算語言學(xué)大會(the nineteenth China national conference on computational linguistics,CCL2020)“古聯(lián)杯”古籍文獻(xiàn)命名實(shí)體識別評測大賽,其標(biāo)注數(shù)據(jù)僅包含“書名”及“其他專名”兩類實(shí)體,且規(guī)模有限。因此,本文設(shè)計并構(gòu)建了一個眾包標(biāo)注系統(tǒng),結(jié)合群體智慧與領(lǐng)域知識實(shí)現(xiàn)標(biāo)注的高效性和準(zhǔn)確性,實(shí)現(xiàn)歷史古籍文本中實(shí)體和關(guān)系的高精度抽取。根據(jù)系統(tǒng)獲得的標(biāo)注結(jié)果生成了文言文知識抽取數(shù)據(jù)集,包括建立在相應(yīng)數(shù)據(jù)集上的細(xì)粒度NER任務(wù)和RE任務(wù),數(shù)據(jù)集可用于微調(diào)當(dāng)前自然語言處理主流的預(yù)訓(xùn)練語言模型,并評估模型,處理文言文的性能,同時能夠為中國古代歷史文獻(xiàn)知識圖譜構(gòu)建提供數(shù)據(jù)支持。本文的整體技術(shù)框架如圖1所示,在眾包標(biāo)注系統(tǒng)所得數(shù)據(jù)集上的實(shí)驗證明了本文提出模型的有效性。

        圖1 整體技術(shù)框架

        1 相關(guān)工作

        1.1 數(shù)字人文視域下的文化遺產(chǎn)眾包

        數(shù)字人文是人文學(xué)科與計算機(jī)科學(xué)交叉研究衍生出的一個新領(lǐng)域,強(qiáng)調(diào)通過數(shù)字化重構(gòu)的方式,以開放、共建和共享的形式將各類人文資源呈現(xiàn)于公眾面前,近年來逐漸受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,大量基于數(shù)字人文的文本挖掘、地理信息系統(tǒng)(geographic information system,GIS)、情感分析、可視化等應(yīng)用開始出現(xiàn)。對文化遺產(chǎn)大數(shù)據(jù)的梳理離不開社會各界的共同努力,在數(shù)字化浪潮與文化建設(shè)需求的雙重推動下,對文化遺產(chǎn)資源進(jìn)行數(shù)字化、結(jié)構(gòu)化、關(guān)聯(lián)化等一系列運(yùn)作,以開放數(shù)據(jù)的形式提供數(shù)字化服務(wù),實(shí)現(xiàn)從靜態(tài)資源保護(hù)向動態(tài)文化傳承的轉(zhuǎn)變,在保護(hù)和傳播文化遺產(chǎn)的基礎(chǔ)上讓文化遺產(chǎn)資源得到有效利用。

        眾包一詞最早由Howe J[2]提出,其核心含義是一家公司或機(jī)構(gòu)將傳統(tǒng)上由員工履行的職能以公開召集的形式外包給廣泛而不確定的群體。早期的眾包模式應(yīng)用主要集中在商業(yè)領(lǐng)域。近年來,文化記憶機(jī)構(gòu)逐漸意識到眾包模式的價值,嘗試引入眾包模式開展一系列實(shí)踐 探索[3-4]。例如,利用大眾力量進(jìn)行各類文化遺產(chǎn)數(shù)據(jù)采集、標(biāo)注或分類的工作。

        從發(fā)起者角度來看,文化遺產(chǎn)眾包項目可分為兩大類:社會驅(qū)動型和組織驅(qū)動型。其中,社會驅(qū)動型項目數(shù)量不多且較少受 到關(guān)注[5];相較而言,組織驅(qū)動型項目更加廣泛成熟。組織發(fā)起文化遺產(chǎn)的眾包活動主要基于文化遺址和文化習(xí)俗的記錄、保護(hù)與傳承的需要。

        根據(jù)文化遺產(chǎn)資源類型的不同,組織驅(qū)動型文化遺產(chǎn)眾包項目主要可細(xì)分為3類:館藏資源建設(shè)型、文化遺址和景觀保護(hù)型、非物質(zhì)文化遺產(chǎn)保護(hù)型。其中,館藏資源建設(shè)型文化遺產(chǎn)眾包項目是指文化記憶機(jī)構(gòu)在數(shù)字資源建設(shè)中引入眾包模式,使公眾深度參與這些特色資源的組織、交流和管 理過程[6-7]。具體而言,眾包模式在館藏資源建設(shè)中的典型應(yīng)用包括增加數(shù)據(jù)價值(如標(biāo)記、評論)、提高數(shù)據(jù)質(zhì)量(如數(shù)據(jù)更正)和補(bǔ)充數(shù)據(jù)內(nèi)容(如創(chuàng)建并上傳用戶原創(chuàng)內(nèi)容)。

        然而,由于在數(shù)據(jù)化組織與管理、語義化分析、長期存儲和開放獲取等方 面存在瓶頸[8-9],文言文數(shù)字化轉(zhuǎn)型之路困難重重,由一人或者一個小型團(tuán)隊獨(dú)立完成的模式難以滿足數(shù)據(jù)量大量增長的現(xiàn)實(shí)需求。而 且經(jīng)研究表明[10],在共享文化環(huán)境和互動協(xié)作方式的眾包模式下,非物質(zhì)文化遺產(chǎn)的記錄和保護(hù)獲得了有力支持。鑒于此,本文通過設(shè)計構(gòu)建一個眾包標(biāo)注系統(tǒng),實(shí)現(xiàn)“二十四史”語料中實(shí)體和關(guān)系的高精度抽取,為文言文的保護(hù)與傳承提供可行路徑。

        1.2 基于預(yù)訓(xùn)練模型的信息抽取

        預(yù)訓(xùn)練模型是指預(yù)先設(shè)計好模型的網(wǎng)絡(luò)結(jié)構(gòu),對輸入數(shù)據(jù)進(jìn)行編碼訓(xùn)練,然后解碼輸出,提高模型的泛化能力。預(yù)訓(xùn)練完成后的模型可以根據(jù)下游任務(wù)的實(shí)際需要進(jìn)行微調(diào),相比從零開始訓(xùn)練模型節(jié)省了大量的開銷。信息抽取是一種從文本數(shù)據(jù)中抽取特定信息的技術(shù),主要包括兩個子任務(wù):命名實(shí)體識別和關(guān)系抽取。

        早期的預(yù)訓(xùn)練模型技術(shù)基于傳 統(tǒng)的詞向量嵌入[11-12],2013年Mikolov T等人[13]提出的 Word2vec模型對詞嵌入向量進(jìn)行了優(yōu)化,包括了連續(xù)詞袋模型(continuous bag-of-words model,CBOW)和跳字模型(continuous skip-gram model,Skipgram)兩種訓(xùn)練模式。相比傳統(tǒng)詞向量嵌入模型,Word2vec具有更低維度、更快運(yùn)算速度、更具通用性等優(yōu)點(diǎn),但同時也存在無法針對具體下游任務(wù)進(jìn)行動態(tài)調(diào)整等缺點(diǎn)。

        近年來,預(yù)訓(xùn)練模型占據(jù)信息抽取的主導(dǎo)地位,并取得最新成果?;谏舷挛牡念A(yù)訓(xùn)練模型開始流行,CoVe(contextualized word vectors)[14]模型可以從網(wǎng)絡(luò)模型中獲得上下文向量,并與詞向量結(jié)合以提升模型性能。ELMo(embedding from language models) 由Peters M等人[15]首次提出,并應(yīng)用動態(tài)詞向量方法實(shí)現(xiàn)復(fù)雜的語義表示,根據(jù)詞所在語境上下文對詞向量進(jìn)行相應(yīng)調(diào)整,動態(tài)生成詞向量,解決了一詞多義的問 題。

        Vaswani A等人[16]在ELMo模型和注意力(attention)機(jī)制的基礎(chǔ)上提出了Transformer模型。該模型完全依賴于attention機(jī)制,沒有使用諸如循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)等較為流行的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。attention機(jī)制一方面可以很好地處理較長序列,另一方面可以并行地處理數(shù)據(jù)。Transformer模型采用經(jīng)典的編碼器-解碼器(encoder-decoder)結(jié)構(gòu),在編碼器結(jié)構(gòu)中將輸入文本序列處理為一個連續(xù)的輸出序列,在解碼器結(jié)構(gòu)中將這個輸出序列進(jìn)行處理,并輸出結(jié)果。

        Transformer模型在諸多任務(wù)中的應(yīng)用效果表明,它的特征提取能力強(qiáng)于長短期記憶(long short-time memory,LSTM)[17]神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),因此Radford A等人[18]基于Transformer模型提出了GPT(generative pre-training)模型,該模型利用了Transformer模型中的Decoder結(jié)構(gòu),并且訓(xùn)練階段與ELMo相同,均采用兩階段訓(xùn)練模式,先通過大量語料完成模型預(yù)訓(xùn)練,再針對具體下游任務(wù)完成第二階段的微調(diào)訓(xùn)練。

        ELMo和GPT模型均為自回歸模型,ELMo雖然使用了雙向長短時記憶(bidirectional long short-term me mory,Bi-LSTM)[19]網(wǎng)絡(luò)獲取雙向語義信息,但其將方向相反的兩個網(wǎng)絡(luò)進(jìn)行疊加的做法不能真正實(shí)現(xiàn)對文本的雙向語義理解。谷歌(Google)在2018年提出了BERT模型,該模型基于Transformer模型的Encoder結(jié)構(gòu),使用完全雙向的語言模型結(jié)構(gòu),同樣采用預(yù)訓(xùn)練和下游任務(wù)兩階段的訓(xùn)練模式。BERT模型的出現(xiàn)大幅提升了自然語言處理任務(wù)的效果?;趯ER T模型的優(yōu)化,RoBERTa[20]模型將BERT模型中的靜態(tài)掩碼替換成了動態(tài)掩碼,即對每次輸入的句子進(jìn)行隨機(jī)掩碼,并移除BERT模型中的下一句話預(yù)測任務(wù),進(jìn)一步增強(qiáng)了模型在文本推理任務(wù)中的表現(xiàn)。同時,基于B ERT模型衍生的許多預(yù)訓(xùn)練模型[21-22],為自然語言處理任務(wù)中大量缺乏標(biāo)注數(shù)據(jù)的任務(wù)提供了 新的思路。2019年 Cui Y M等人[23]提出的BERT-wwm模型將全詞掩碼(whole word masking,WWM)的方法應(yīng)用至中文預(yù)訓(xùn)練模型,取得了更優(yōu)的實(shí)驗效果。

        王東波等人[24]以《四庫全書》為訓(xùn)練集構(gòu)建的SikuBERT和SikuRoBERTa預(yù)訓(xùn)練語言模型在古文NLP任務(wù)上表現(xiàn)出了優(yōu)秀的學(xué)習(xí)與泛化能力。但是,目前基于預(yù)訓(xùn)練模型完成文言文信息抽取的研究工作仍然還有很大的提升空間。本文基于BERT預(yù)訓(xùn)練語言模型構(gòu)建了一個面向文言文語義特點(diǎn)的預(yù)訓(xùn)練語言模型,通過優(yōu)化BERT模型的預(yù)訓(xùn)練任務(wù)和模型結(jié)構(gòu),提高預(yù)訓(xùn)練語言模型處理文言文的性能,并在此基礎(chǔ)上進(jìn)一步完成文言文語言理解數(shù)據(jù)集上細(xì)粒度的NER任務(wù)和RE任務(wù)。

        2 基于預(yù)訓(xùn)練模型的知識抽取

        2.1 預(yù)訓(xùn)練任務(wù)

        BERT模型采用遮蔽語言模型和下一句話預(yù)測這兩個任務(wù)對模型進(jìn)行預(yù)訓(xùn)練。具體來說,遮蔽語言模型任務(wù)對輸入文本中15%的字進(jìn)行隨機(jī)遮蔽,遮蔽部分以80%的概率將其改變?yōu)椤癧MASK]”標(biāo)簽,以10%的概率將其替換為隨機(jī)字,以10%的概率保持不變,之后讓模型對遮蔽的內(nèi)容進(jìn)行預(yù)測。下一句話預(yù)測任務(wù)則從語料庫中抽取一個語句,再以50%的概率抽取它之后緊接著的語句,以50%的概率隨機(jī)抽取一個其他的語句,讓模型判斷這兩個語句是否是相鄰語句。兩個任務(wù)分別學(xué)習(xí)輸入文本的詞級別信息和句子級別信息,目前已被證明均有提升空間。遮蔽語言模型采用類似完形填空的方式讓模型學(xué)習(xí)預(yù)測缺失字,但沒有考慮到詞語邊界信息;而下一句話預(yù)測任務(wù)難度較小,由于抽取到的兩個語句很可能并不屬于同一話題,因此較容易識別其是否銜接,不利于模型學(xué)習(xí)句子之間的聯(lián)系。

        本文針對文言文語料的特點(diǎn)對原始的預(yù)訓(xùn)練任務(wù)進(jìn)行了優(yōu)化,分別采用詞級別隨機(jī)長度遮蔽任務(wù)、句子級別句子順序預(yù)測任務(wù)以及文檔級別標(biāo)題內(nèi)容匹配任務(wù)以充分捕獲多級語義。具體來說,文言文中單字往往可以表達(dá)完整含義,無須對其進(jìn)行分詞,因此本文采用一種已被證明簡單有效的隨機(jī)長度遮蔽任務(wù),并隨機(jī)選擇長度為1到最大長度的目標(biāo)進(jìn)行遮蔽。如果將最大長度定義為N,則遮蔽片段長度為1~N,此時遮蔽片段長度為n的概率如式(1)所示:

        其中,n和k的取值范圍均為1~N。在本文中,最大長度N為3。

        此外,本文使用句子順序預(yù)測任務(wù)代替BERT模型的下一句話預(yù)測任務(wù)。該任務(wù)將來自同一文檔的兩個連續(xù)文段作為正例,以50%的概率將兩個連續(xù)段落的順序交換作為反例,避免文段主題的差別,促使模型專注于學(xué)習(xí)句子間的連貫性。

        最后,為了學(xué)習(xí)到更高級別的語義信息,本文提出文檔級別標(biāo)題內(nèi)容匹配任務(wù)。具體來說,考慮到古代詩詞往往篇幅較短、標(biāo)題通常包含詩詞主題的特點(diǎn),該任務(wù)將中國古代詩詞數(shù)據(jù)集作為訓(xùn)練語料。該任務(wù)是一種類似于句子順序預(yù)測任務(wù)的二元分類任務(wù),用于捕獲高級語義信息。具體來說,該任務(wù)將標(biāo)題和內(nèi)容匹配的詩詞作為正例,將50%的概率打亂詩詞的標(biāo)題與內(nèi)容之間的匹配作為反例,使模型學(xué)習(xí)標(biāo)題與內(nèi)容的語義關(guān)聯(lián),捕獲更高級別的語義信息。

        2.2 模型結(jié)構(gòu)

        首先,模型對于輸入語料中的每個文字生成3個部分詞嵌入,即目標(biāo)詞嵌入、段嵌入以及位置嵌入,疊加后輸入類似于BERT模型結(jié)構(gòu)的Transfomer編碼器進(jìn)行處理。

        對于輸出的詞向量,為了獲得更多可學(xué)習(xí)的表示,本文引入一個卷積層,將預(yù)訓(xùn)練語言模型生成的語料表示輸入該卷積層,使用激活函數(shù)非線性地將詞嵌入轉(zhuǎn)換為更高級別的特征。對于字符向量xt,經(jīng)過卷積層生成的詞嵌入定義如式(2)所示:

        其中,Wt表示權(quán)重矩陣,bt表示偏置向量。

        此外,為了進(jìn)一步增強(qiáng)詞表示,本文利用滑動窗口機(jī)制,設(shè)計了句子級聚合,以有效地獲取相鄰字符信息。具體來說,本文人工設(shè)置窗口大小,窗口在目標(biāo)句劃定的范圍內(nèi)滑動,從窗口第一次包含目標(biāo)字符開始,到窗口最后一次包含目標(biāo)字符結(jié)束,所有經(jīng)過的詞及目標(biāo)字符本身都被視為目標(biāo)字符的鄰居。在滑動過程中需要考慮兩種特殊情況,即如果目標(biāo)詞是句子中的第一個或最后一個詞,則窗口滑動范圍等于窗口大小。出于簡潔性考慮,在實(shí)驗中使用平均聚合方法,在給定窗口中聚合詞向量的鄰居信息。本文將聚合過程定義為AGG函數(shù),則字符向量xt在窗口尺寸w下的聚合結(jié)果htw定義如式(3)所示:

        其中,xj是鄰居字符向量,pt和pj分別表示字符向量和鄰居字符向量的位置,s表示句子的長度。由線性變換得到xt的新表示ht定義如式(4)所示:

        其中,Ws是一個可學(xué)習(xí)的權(quán)重矩陣,σ是一個激活函數(shù),如ReLU函數(shù)。

        3 基于眾包系統(tǒng)的知識抽取數(shù)據(jù)集構(gòu)建

        3.1 眾包系統(tǒng)設(shè)計與實(shí)現(xiàn)

        本文針對歷史古籍標(biāo)注任務(wù)專業(yè)性較強(qiáng)的特點(diǎn),設(shè)計并構(gòu)建了一個眾包標(biāo)注系統(tǒng),引入“二十四史”的全部文本,允許工作者標(biāo)注其中的實(shí)體和關(guān)系。不同于現(xiàn)有的眾包系統(tǒng),由于該標(biāo)注任務(wù)需要工作者具備領(lǐng)域知識,因此本文將工作者專業(yè)度引入系統(tǒng),以得到更準(zhǔn)確的標(biāo)注結(jié)果。具體來說,工作者初次登錄系統(tǒng)時,系統(tǒng)需要對其進(jìn)行專業(yè)度判斷,同時在答案整合和眾包激勵分配的階段均將專業(yè)度納入考慮。此外,目前的眾包系統(tǒng)大多注重任務(wù)的分配,系統(tǒng)中的標(biāo)注任務(wù)多以題目的形式呈現(xiàn),并盡可能通過任務(wù)分配算法交給能夠準(zhǔn)確作答的工作者。而本文的系統(tǒng)中,標(biāo)注任務(wù)以文本的形式呈現(xiàn),并向每名工作者開放相同任務(wù),即“二十四史”的全部內(nèi)容均在系統(tǒng)中呈現(xiàn),工作者可以自行選擇感興趣的章節(jié),也可以對同一文本進(jìn)行不同的標(biāo)注,最大限度地發(fā)揮群體智慧。

        眾包系統(tǒng)的工作者標(biāo)注界面如圖2所示,每位工作者可以從左側(cè)的樹形目錄中選擇感興趣的篇章進(jìn)行標(biāo)注,系統(tǒng)支持實(shí)體和關(guān)系的標(biāo)注,并將標(biāo)注出的實(shí)體用帶有背景色的方框顯示,標(biāo)注出的關(guān)系用斜體并加下劃線顯示。每一頁對應(yīng)歷史古籍文本中的一個段落,在每個結(jié)束標(biāo)點(diǎn)處換行,方便工作者進(jìn)行閱讀和定位。

        圖2 眾包系統(tǒng)的工作者標(biāo)注頁面

        由于本系統(tǒng)涉及的標(biāo)注任務(wù)具有較強(qiáng)的專業(yè)性,需要在工作者初次登錄系統(tǒng)時就對其專業(yè)能力進(jìn)行判斷,以了解該工作者是否能夠勝任本系統(tǒng)開放的標(biāo)注任務(wù)。因此,本系統(tǒng)引入了大多現(xiàn)有眾包系統(tǒng)未納入考慮的工作者專業(yè)度,并定義了兩種工作者類型,即“專家工作者”和“普通工作者”,同時定義了兩種判斷方法。

        對于已知的專業(yè)度較高的工作者,如高校的教師、學(xué)生等,在將其信息錄入數(shù)據(jù)庫時,可以直接將其類型定義為“專家工作者”。而對于未知工作者,如社會上的歷史愛好者等,系統(tǒng)準(zhǔn)備了具有標(biāo)準(zhǔn)答案的測試題目,要求工作者首次登錄系統(tǒng)時進(jìn)行作答,根據(jù)工作者的答題準(zhǔn)確率和題目難度綜合計算該工作者的專業(yè)度,具體計算方式如下。①選取若干志愿者(在本文中均為歷史或計算機(jī)專業(yè)的學(xué)生),準(zhǔn)備若干具有標(biāo)準(zhǔn)答案的題目請志愿者進(jìn)行作答,根據(jù)其答題情況為每道題目賦難度初始值,難度定義為答錯的志愿者數(shù)量與參與答題志愿者總數(shù)的比值(取值范圍為[0,1])。②工作者進(jìn)入系統(tǒng)后,題目難度動態(tài)變化,計算方式仍然為答錯的工作者總數(shù)與參與答題工作者總數(shù)的比值,此時的工作者總數(shù)為注冊工作者的數(shù)量和志愿者數(shù)量的總和。③題目的分?jǐn)?shù)與難度值成正比,定義為難度值乘10并向上取整,將所有題目分?jǐn)?shù)之和定義為總分。如果工作者得到的分?jǐn)?shù)能夠高于總分的60%,將其定義為專家工作者,反之,則將其定義為普通工作者。

        眾包系統(tǒng)中的專業(yè)度測試頁面如圖3所示,工作者首次登錄系統(tǒng)時將跳轉(zhuǎn)到該頁面進(jìn)行專業(yè)度測試,完成頁面的題目后點(diǎn)擊“提交”按鈕,系統(tǒng)返回工作者得分占總分的百分比及工作者類型。

        對于同一題目,若工作者具有不同的回答,現(xiàn)有系統(tǒng)往往采用投票策略,以多數(shù)工作者的作答為最終結(jié)果。后續(xù)也有很多研究工作將工作者在系統(tǒng)中完成標(biāo)注任務(wù)的準(zhǔn)確率納入考慮,以獲取更加準(zhǔn)確的結(jié)果,而對于本文系統(tǒng)中定義的歷史古籍中的實(shí)體和關(guān)系標(biāo)注任務(wù),專業(yè)度高的工作者更有可能做出正確的標(biāo)注。因此,不同于現(xiàn)有方法,為了確保結(jié)果的準(zhǔn)確性,本系統(tǒng)在答案整合階段充分考慮了工作者專業(yè)度。

        具體來說,系統(tǒng)允許工作者修改頁面上的現(xiàn)有標(biāo)注,并在工作者進(jìn)行標(biāo)注時將工作者ID、標(biāo)注時間以及標(biāo)注內(nèi)容等信息均錄入數(shù)據(jù)庫。如果多名工作者對同一個實(shí)體或?qū)嶓w對有不同的標(biāo)注,在頁面上會展示最新的標(biāo)注結(jié)果,而在數(shù)據(jù)庫中將分別保存它們,即出現(xiàn)新的標(biāo)注并不會覆蓋之前的標(biāo)注。在下載數(shù)據(jù)時,若對應(yīng)同一文本存在多條標(biāo)注記錄,即同一文本存在不同的標(biāo)注內(nèi)容,則將進(jìn)行基于工作者專業(yè)度的答案整合。具體來說,系統(tǒng)為專家工作者賦予雙倍于普通工作者的權(quán)重,并采用加權(quán)多數(shù)投票策略來獲得最終結(jié)果,而特別的是,若工作者將頁面上的現(xiàn)有標(biāo)注刪除,系統(tǒng)同樣會將該操作錄入數(shù)據(jù)庫,并認(rèn)為此工作者對該文本的判斷為非實(shí)體或?qū)嶓w對不存在關(guān)系。

        大多現(xiàn)有眾包系統(tǒng)在計算工作者的獎勵時考慮了其標(biāo)注數(shù)量及準(zhǔn)確率,而本文在該基礎(chǔ)上,將工作者專業(yè)度納入考慮,提出了一種新的眾包激勵機(jī)制,并以固定的周期結(jié)算獎勵。具體來說,簡單地將答案整合后的最終結(jié)果視為正確結(jié)果,如果工作者的標(biāo)注與正確結(jié)果相同,則給予獎勵,否則不給予獎勵。此外,認(rèn)為專家工作者做出正確標(biāo)注的可能性更高,因此為了激勵其積極進(jìn)行標(biāo)注,給予其雙倍于普通工作者的獎勵。最后,為了調(diào)動工作者盡可能準(zhǔn)確地完成更多的標(biāo)注,該系統(tǒng)還對標(biāo)注的數(shù)量和正確率設(shè)置了閾值,對超過該閾值的用戶給予多倍獎勵。

        例如,若將一次實(shí)體標(biāo)注或關(guān)系標(biāo)注的單價設(shè)為p,標(biāo)注數(shù)量閾值設(shè)為at,標(biāo)注準(zhǔn)確率閾值設(shè)為ct,這時如果一名普通工作者在某一獎勵分配周期內(nèi)完成了n個標(biāo)注,其中正確標(biāo)注m個,且該工作者的標(biāo)注數(shù)量與標(biāo)注準(zhǔn)確率均超過了系統(tǒng)設(shè)定的閾值,則該工作者將獲得的獎勵reward計算方式如式(5)所示:

        3.2 知識抽取數(shù)據(jù)集構(gòu)建

        基于眾包標(biāo)注系統(tǒng)的實(shí)體和關(guān)系標(biāo)注結(jié)果,構(gòu)建了一個由NER和RE任務(wù)及其相應(yīng)數(shù)據(jù)集組成的文言文知識抽取數(shù)據(jù)集。細(xì)粒度NER任務(wù)數(shù)據(jù)集由文本文件和標(biāo)簽文件組成。文本文件與標(biāo)簽文件逐行對應(yīng),共定義6類實(shí)體:人名(RER)、地名(LOC)、職位名(POS)、組織名(ORG)、書名和戰(zhàn)爭名。在標(biāo)簽文件中,采用BIO標(biāo)注法對文本進(jìn)行標(biāo)注,對標(biāo)注為實(shí)體首字的文本賦予“B-”標(biāo)簽,對標(biāo)注為實(shí)體中間字或尾字的文本賦予“I-”標(biāo)簽,對非實(shí)體的文字賦予“O”標(biāo)簽。NER任務(wù)數(shù)據(jù)集的統(tǒng)計信息見表1。

        表1 NER任務(wù)數(shù)據(jù)集的統(tǒng)計信息

        RE任務(wù)數(shù)據(jù)集的統(tǒng)計信息見表2,共包括7類關(guān)系:組織名-組織名、地名-組織名、人名-人名(PER-PER)、人名-地名(PER-LOC)、人名-組織名(PERORG)、人名-職位名(PER-POS)和地名-地名?;谠紨?shù)據(jù)集,本文可以生成一個由句子和關(guān)系文件組成的關(guān)系分類數(shù)據(jù)集,該數(shù)據(jù)集中,句子文件和關(guān)系文件逐行對應(yīng),表示每一個句子及其所包含的關(guān)系。此外還可以生成一個類似于NER任務(wù)數(shù)據(jù)集的序列標(biāo)記數(shù)據(jù)集,該數(shù)據(jù)集同樣由文本文件和標(biāo)簽文件組成,但這時,生成的標(biāo)簽不再是實(shí)體類別標(biāo)簽,而是標(biāo)志其是某關(guān)系的主體或客體的標(biāo)簽。

        表2 RE任務(wù)數(shù)據(jù)集的統(tǒng)計信息

        4 實(shí)驗及結(jié)果分析

        4.1 參數(shù)設(shè)置及評價指標(biāo)

        在微調(diào)階段,除批量大?。╞atch size)、學(xué)習(xí)率(learning rate)和訓(xùn)練輪數(shù)(epoch)外,其他超參數(shù)均與BERT預(yù)訓(xùn)練階段所使用的超參數(shù)相同。實(shí)驗結(jié)果表明,能夠在微調(diào)階段獲得較好效果的超參數(shù)取值如下:batch size取32;learning rate取5×10-5、3×10-5、2×10-5;epoch取3~10。

        本文在實(shí)驗中將F1值作為衡量模型性能表現(xiàn)的評價指標(biāo),它綜合考慮了精確率和召回率。如果模型能夠在測試集上取得較好的性能,可以考慮使用模型自動抽取未標(biāo)注文本中的實(shí)體和關(guān)系,以進(jìn)一步擴(kuò)展數(shù)據(jù)集;否則,迭代從系統(tǒng)中獲取新標(biāo)注的實(shí)體和關(guān)系再對模型進(jìn)行微調(diào),直到模型能夠在文言文任務(wù)上取得出色表現(xiàn)。

        4.2 數(shù)據(jù)集

        本文除了采用由眾包系統(tǒng)中獲取的數(shù)據(jù)構(gòu)建的數(shù)據(jù)集外(介紹詳見第3.2節(jié)),還采用了CCL2020“古聯(lián)杯”古籍文獻(xiàn)命名實(shí)體識別評測大賽主辦方提供的GulianNER數(shù)據(jù)集,該數(shù)據(jù)集定義了書名(BOOK)和其他專名(OTHER)兩類實(shí)體,數(shù)據(jù)集的統(tǒng)計信息見表3。

        表3 GulianNER數(shù)據(jù)集的統(tǒng)計信息

        4.3 實(shí)驗結(jié)果與實(shí)驗分析

        本文在基準(zhǔn)測試中評估了以下預(yù)訓(xùn)練模型:BERT-Base、BERT-wwm、RoBERTa-zh和Zhongkeyuan-BERT(以下簡稱ZKY-BERT),簡要介紹如下。

        ● BERT-Base:谷歌人工智能研究院于2018年10月提出的預(yù)訓(xùn)練模型,是NLP發(fā)展史上具有里程碑意義的模型成果。

        ● BERT-wwm:采用全詞遮蔽任務(wù),引入詞邊界信息,由遮蔽隨機(jī)譯字(token)改為分詞后對完整的詞進(jìn)行遮蔽。

        ● RoBERTa_zh:使用更大的模型參數(shù),更大的bacth size和更多的訓(xùn)練數(shù)據(jù)。此外,在訓(xùn)練方法中,去除了下一句預(yù)測任務(wù),采用了動態(tài)遮蔽方法,加強(qiáng)了訓(xùn)練實(shí)例的隨機(jī)性。

        ● ZKY-BERT:使用殆知閣語料和唐詩宋詞數(shù)據(jù)集等文言文語料進(jìn)行進(jìn)一步的預(yù)訓(xùn)練,將最大句子長度從128修改為512。另外,設(shè)立了受限波束搜索以排除非法轉(zhuǎn)換。

        在6類實(shí)體數(shù)據(jù)集上的實(shí)驗結(jié)果如圖4所示。可以觀察到,在處理細(xì)粒度NER時,本文模型能夠取得最好的性能表現(xiàn),在文言文語料庫上訓(xùn)練的ZKY-BERT模型表現(xiàn)和適應(yīng)中文特點(diǎn)的BERT-wwm模型也能取得較好性能,模型之間的性能表現(xiàn)差距較大。

        圖4 在6類實(shí)體數(shù)據(jù)集上的實(shí)驗結(jié)果

        由于戰(zhàn)爭名和書名兩類實(shí)體數(shù)量較少,為了進(jìn)一步提升模型的性能,本文采用了去除這兩類實(shí)體的數(shù)據(jù)集進(jìn)行實(shí)驗,結(jié)果如圖5所示。可以觀察到,由于實(shí)體類型減少,預(yù)訓(xùn)練模型均表現(xiàn)出了相對較好的性能,且模型之間的性能差距縮小。

        圖5 在4類實(shí)體數(shù)據(jù)集上的實(shí)驗結(jié)果

        在GulianNER數(shù)據(jù)集上的實(shí)驗結(jié)果如圖6所示,由于該數(shù)據(jù)集中包含的實(shí)體類型較少且數(shù)據(jù)規(guī)模較大,模型均能取得較好的性能表現(xiàn)。可以觀察到,本文模型依然能取得最佳性能,在文言文上訓(xùn)練過的ZKY-BERT模型次之,模型之間的性能差距縮小。

        圖6 在GulianNER數(shù)據(jù)集上的實(shí)驗結(jié)果

        對于RE任務(wù),本文將其拆分為兩個子任務(wù):關(guān)系分類和序列標(biāo)記。實(shí)驗表明,基線模型在關(guān)系分類任務(wù)上可以達(dá)到47.61%的準(zhǔn)確率,而由于關(guān)系類型較多且數(shù)據(jù)較為分散,在序列標(biāo)注任務(wù)上各模型都不能取得較好的性能表現(xiàn)。

        5 結(jié)束語

        為了基于預(yù)訓(xùn)練模型實(shí)現(xiàn)歷史古籍中實(shí)體和關(guān)系數(shù)據(jù)的抽取,助力傳統(tǒng)人文研究,并為知識圖譜的構(gòu)建提供數(shù)據(jù)基礎(chǔ),本文提出基于BERT模型對其預(yù)訓(xùn)練任務(wù)和模型結(jié)構(gòu)均進(jìn)行優(yōu)化的方法。針對文言文知識抽取任務(wù)的特點(diǎn)設(shè)計多級預(yù)訓(xùn)練任務(wù),并添加卷積層及句子級聚合等結(jié)構(gòu)進(jìn)一步優(yōu)化詞表示。同時,構(gòu)建了一個基于工作者專業(yè)度的眾包標(biāo)注系統(tǒng),以實(shí)現(xiàn)對古籍文本中實(shí)體和關(guān)系的標(biāo)注,從而構(gòu)建一個文言文上的語言理解測評基準(zhǔn),對模型的性能進(jìn)行評估和微調(diào)。實(shí)驗證明了本文提出的模型相較于其他基線模型在處理文言文任務(wù)的性能上有所提高。

        由于基準(zhǔn)集數(shù)據(jù)量較小,本文的模型在知識抽取任務(wù)上的性能表現(xiàn)仍有較大提升空間。在未來工作中,筆者將探索如何高效獲取更多標(biāo)注數(shù)據(jù),并進(jìn)一步探索如何提升模型在文言文上的性能表現(xiàn),以推進(jìn)傳統(tǒng)人文領(lǐng)域的研究。

        猜你喜歡
        文言文工作者實(shí)體
        關(guān)愛工作者之歌
        小題精練(二) 文言文翻譯
        小題精練(一) 文言文翻譯
        致敬科技工作者
        我們
        ——致敬殯葬工作者
        黃河之聲(2021年2期)2021-03-29 01:20:20
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        普法工作者的“生意經(jīng)”
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        亚洲av熟女少妇一区二区三区| 天天爱天天做天天爽| 久久精品国产精品青草| 麻豆高清免费国产一区| 欧美在线三级艳情网站| AV在线中出| 国产91精品清纯白嫩| 亚洲精品一区二区三区四区久久| 在线中文字幕乱码英文字幕正常 | 香蕉视频一级片| 视频精品亚洲一区二区| 国产亚洲精品视频一区二区三区| 国产网红主播无码精品| 国产精品福利影院| 国产日韩欧美视频成人| 最新国产av网址大全| 亚洲最近中文字幕在线| 桃花影院理论片在线| 日日摸日日碰人妻无码老牲| 中文字幕日本五十路熟女| 就爱射视频在线视频在线| 精品久久久久成人码免费动漫| 亚洲另类自拍丝袜第五页 | 日本高清中文一区二区三区| 国产流白浆视频在线观看| 日本久久高清一区二区三区毛片| 欧美综合自拍亚洲综合图片区| 国产精品成人av电影不卡| 久久中文字幕av一区二区不卡| 成 人色 网 站 欧美大片在线观看| 久无码久无码av无码| 国产呦系列视频网站在线观看| 婚外情长久的相处之道| 2018国产精华国产精品| 久久成人免费电影| 久久精品国产亚洲av热明星| 久久精品国产自产对白一区| 亚洲国产精品无码久久| 国产最新地址| 综合中文字幕亚洲一区二区三区| 大地资源高清在线视频播放|