黃柯源 張浩軍 李世龍 李大嶺 王家慧
摘 ?要:文章以高等教育政策文件為語料,在領(lǐng)域?qū)<抑笇?dǎo)下結(jié)合高等教育政策文件文本特點(diǎn),制定了一套標(biāo)注體系和標(biāo)注規(guī)范,開展了大規(guī)模的語料標(biāo)注工作,構(gòu)建了一個(gè)面向高等教育領(lǐng)域的標(biāo)注語料庫。該語料庫共標(biāo)注了137篇政策文件,包含5 102個(gè)句子和3 639個(gè)實(shí)體。同時(shí),通過使用模型對語料庫進(jìn)行實(shí)驗(yàn),探討了語料庫的可信度及預(yù)標(biāo)注策略的可行性。結(jié)果表明,該語料庫的F1值達(dá)到75.31%,為進(jìn)一步的高等教育領(lǐng)域?qū)嶓w識別研究提供了基礎(chǔ)。
關(guān)鍵詞:高等教育;命名實(shí)體;標(biāo)注規(guī)范;語料庫構(gòu)建
中圖分類號:TP18 ? ? 文獻(xiàn)標(biāo)識碼:A文章編號:2096-4706(2022)05-0095-04
Construction Method of Named Entity Annotation Corpus for Higher Education Field
HUANG Keyuan, ZHANG Haojun, LI Shilong, LI Daling, WANG Jiahui
(College of Information Science and Engineering, Henan University of Technology, Zhengzhou ?450001, China)
Abstract: This paper takes higher education policy documents as the corpus, and under the guidance of experts in the field, combined with the text characteristics of higher education policy documents, formulates a set of labeling system and labeling specifications, and carries out large-scale corpus labeling work, constructs an annotation corpus for higher education field. The corpus is annotated with a total of 137 policy documents, and contains 5 102 sentences and 3 639 entities. At the same time, by using the model to conduct experiments on the corpus, the credibility of the corpus and the feasibility of the pre-labeling strategy are discussed. The results show that the F1 number of this corpus reaches 75.31%, which provides a basis for further research on entity recognition in the field of higher education.
Keywords: higher education; named entity; labeling specification corpus construction
0 ?引 ?言
近年來,黨和國家高度重視我國高等教育發(fā)展情況,高等教育領(lǐng)域產(chǎn)出成果頗豐。隨著互聯(lián)網(wǎng)中高等教育領(lǐng)域相關(guān)信息不斷增多,亟須建立高等教育領(lǐng)域知識圖譜,以便更準(zhǔn)確地探析我國高等教育的發(fā)展態(tài)勢,為高等教育研究者提供理論支撐。
政策文件是由國家相關(guān)部門研究制定并下發(fā)的指導(dǎo)性文件,其權(quán)威性與專業(yè)性被大眾普遍認(rèn)可。因此,本研究以高等教育政策文件為數(shù)據(jù)源,探究領(lǐng)域語料標(biāo)注規(guī)范,構(gòu)建高教領(lǐng)域?qū)嶓w識別標(biāo)注語料庫,為高等教育領(lǐng)域命名實(shí)體識別、關(guān)系抽取和知識圖譜構(gòu)建提供可靠的數(shù)據(jù)支撐。
1 ?相關(guān)工作
語料庫作為信息抽取的基礎(chǔ),其質(zhì)量直接影響實(shí)體識別和關(guān)系抽取的結(jié)果。現(xiàn)有的語料庫構(gòu)建方法分為手動(dòng)構(gòu)建和自動(dòng)構(gòu)建兩種,在醫(yī)學(xué)[1,2]、國防[3]、公安[4]、建筑[5]等領(lǐng)域均已出現(xiàn)公開構(gòu)建且廣泛應(yīng)用的語料庫。李雁群等[6]以《人民日報(bào)》和ACE005中文語料為基礎(chǔ),構(gòu)建了中文嵌套命名實(shí)體識別語料庫。Lowe[7]等通過收集Ubuntu社區(qū)一百萬組對話內(nèi)容,構(gòu)建了具有人類自然對話特點(diǎn)與機(jī)器多次序?qū)υ捥攸c(diǎn)的Ubuntu對話語料庫。Hu[8]等通過收集新浪微博的中文短文本摘要,構(gòu)建了包含200余萬個(gè)真實(shí)短文本及作者所寫摘要的微博語料庫。目前,尚未發(fā)現(xiàn)公開發(fā)布的面向高等教育領(lǐng)域的命名實(shí)體標(biāo)注語料庫。因此,亟須構(gòu)建高等教育語料庫,以推動(dòng)我國高等教育領(lǐng)域命名實(shí)體識別研究的發(fā)展。
2 ?面向高等教育政策文件的實(shí)體標(biāo)注規(guī)范制定
2.1 ?標(biāo)注體系
本文將語料庫中實(shí)體定義為以下6類:指導(dǎo)思想實(shí)體、出臺背景實(shí)體、目標(biāo)實(shí)體、原則實(shí)體、任務(wù)實(shí)體和措施實(shí)體。本語料庫在標(biāo)注過程中采用基于BIO策略的字標(biāo)注方法,該語料庫中共包含13種標(biāo)簽類型,標(biāo)簽設(shè)置情況如表1所示。
2.2 ?標(biāo)注準(zhǔn)則
本文參照實(shí)體標(biāo)注領(lǐng)域的“不重疊、不嵌套、不包含標(biāo)點(diǎn)符號及連接詞”的三個(gè)基本原則的基礎(chǔ)上,結(jié)合高等教育政策文件的相關(guān)特點(diǎn),提出了一套適用于該領(lǐng)域的標(biāo)注準(zhǔn)則:
(1)最大范圍標(biāo)注:
例1:為深入貫徹落實(shí)“習(xí)近平總書記給全國涉農(nóng)高校書記校長和專家代表重要回信精神”,以新農(nóng)科建設(shè)為統(tǒng)領(lǐng),推進(jìn)高等農(nóng)林教育創(chuàng)新發(fā)展。
例1中,引號部分為指導(dǎo)思想實(shí)體。其中“習(xí)近平總書記給全國涉農(nóng)高校書記校長和專家代表”為“重要回信精神”的定語修飾部分,遵循最大范圍標(biāo)注,凡遇到指導(dǎo)思想實(shí)體中含有定語修飾的,將其一并作為指導(dǎo)思想實(shí)體進(jìn)行標(biāo)注。
(2)除指導(dǎo)思想實(shí)體外,其余實(shí)體可包含標(biāo)點(diǎn)符號:
例2:深入貫徹“黨的十九大和十九屆二中、三中、四中全會精神,”全面落實(shí)習(xí)近平總書記關(guān)于教育的重要論述和全國教育大會精神。
由于政策文件中需要完成的具體任務(wù)以及完成任務(wù)所需的具體措施描述的十分清晰,因此任務(wù)和措施實(shí)體往往需要包含標(biāo)點(diǎn)符號。例2中,引號部分包含有“、”,因此不將其標(biāo)注為實(shí)體。
(3)外層標(biāo)注:若一句話中包含多個(gè)實(shí)體,則只標(biāo)注最外層實(shí)體,其內(nèi)部的實(shí)體不進(jìn)行標(biāo)注。
3 ?語料庫構(gòu)建過程
語料庫構(gòu)建的核心任務(wù)是選取一種合適的標(biāo)注模式,并對語料進(jìn)行標(biāo)注。本文采用“領(lǐng)域?qū)<?團(tuán)體標(biāo)注”的模式,依據(jù)第2節(jié)中所提出的標(biāo)注體系及準(zhǔn)則,對137篇高等教育政策文件進(jìn)行標(biāo)注,標(biāo)注過程歷時(shí)3個(gè)月,共有2名高等教育專家、6名碩士生和3名本科生參與標(biāo)注工作。
3.1 ?語料選取與預(yù)處理
該語料庫以教育部發(fā)布的政策文件為數(shù)據(jù)源。為保證語料質(zhì)量,在人工采集時(shí)剔除回復(fù)性文件,保留正式政策文件。標(biāo)注格式如圖1所示,標(biāo)注文本中的{...[type]}表示該段內(nèi)容為一種實(shí)體,[]之間表示該實(shí)體所屬的類別。
圖1 ?語料標(biāo)注規(guī)則示例
3.2 ?標(biāo)注過程
為提高語料庫質(zhì)量,本文制定了多輪分組迭代標(biāo)注策略。具體流程為:
(1)將9名標(biāo)注人員隨機(jī)分配到三個(gè)小組中,每組的3名隊(duì)員獨(dú)立標(biāo)注同一篇文章。標(biāo)注完成后,由其他小組統(tǒng)計(jì)該組三名隊(duì)員的標(biāo)注一致率,若一致率低于80%,則重復(fù)上述過程。對于不一致性標(biāo)注,在征求專家的意見后對其進(jìn)行修改。對于標(biāo)注一致率連續(xù)3次達(dá)到80%以上的小組,停止迭代標(biāo)注。
(2)在所有小組均停止迭代后,從三個(gè)小組中選取出標(biāo)注質(zhì)量較高的6名標(biāo)注者,并隨機(jī)分配到3個(gè)小組中進(jìn)行二標(biāo)注。即每組的兩名成員獨(dú)立標(biāo)注同一篇文章,標(biāo)注結(jié)果由標(biāo)注規(guī)范制定者進(jìn)行審核,統(tǒng)一不一致性標(biāo)注,并從每組中選取標(biāo)注質(zhì)量好的標(biāo)注者組建最終標(biāo)注小組。
(3)選取30篇預(yù)處理過的政策文件作為初始數(shù)據(jù)源,交由最終標(biāo)注小組進(jìn)行標(biāo)注。對于不一致性標(biāo)注,由專家和標(biāo)注人員共同討論后進(jìn)行統(tǒng)一。構(gòu)建實(shí)體標(biāo)注模型,并以上述30篇標(biāo)注語料作為訓(xùn)練數(shù)據(jù),開發(fā)標(biāo)注工具。
(4)使用標(biāo)注工具對剩余語料進(jìn)行預(yù)標(biāo)注,再由標(biāo)注者對標(biāo)注結(jié)果進(jìn)行修改,得到完整的高等教育政策文件實(shí)體標(biāo)注語料庫。
3.3 ?語料庫統(tǒng)計(jì)
3.3.1 ?標(biāo)注數(shù)量統(tǒng)計(jì)
該語料庫共標(biāo)注了137篇政策文件,共計(jì)256 940個(gè)字符、5 102句話和3 639個(gè)命名實(shí)體。語料庫的標(biāo)注詳情如表2所示。
3.3.2 ?標(biāo)注一致性分析
在實(shí)體識別語料標(biāo)注領(lǐng)域,通常選擇F1值來計(jì)算標(biāo)注一致性。具體計(jì)算流程(1)~(3)式所示。
(1)
(2)
(3)
表3記錄了迭代標(biāo)注過程中各命名實(shí)體的標(biāo)注一致性,其中迭代次數(shù)為5次。
迭代標(biāo)注過程中,各實(shí)體的標(biāo)注一致性均逐步上升,說明標(biāo)注前培訓(xùn)及標(biāo)注規(guī)范迭代更新策略是積極有效的。其中TAS實(shí)體和MEA實(shí)體的初始標(biāo)注一致率低于其他實(shí)體,其主要原因是政策文件中的方法和措施通常擁有較長的文本長度,導(dǎo)致標(biāo)注人員無法清晰的辨識實(shí)體邊界。隨著迭代標(biāo)注的進(jìn)行,最終六種實(shí)體的標(biāo)注一致性均超過了80%可信賴標(biāo)注驗(yàn)證標(biāo)準(zhǔn),表明該標(biāo)注語料庫具有較高的標(biāo)注質(zhì)量且是可信的。
4 ?實(shí)驗(yàn)評估
為評估本文所構(gòu)建語料庫的性能,本文采取句子級的劃分方法語料按照8:1:1的比例隨機(jī)劃分為訓(xùn)練集、測試集和驗(yàn)證集,并搭建了三種主流的實(shí)體識別模型對標(biāo)注語料進(jìn)行初步的實(shí)驗(yàn)驗(yàn)證。采用準(zhǔn)確率(Precision, P)、召回率(Recall, R)和F1值作為該語料庫的測評指標(biāo)。其測評結(jié)果如表4所示。
由表4可知,當(dāng)測評語料為前三十篇時(shí),BERT-CRF模型的實(shí)驗(yàn)結(jié)果優(yōu)于BERT-BILSTM-CRF模型;當(dāng)測評語料為最終語料時(shí),BERT-BILSTM-CRF模型的實(shí)驗(yàn)結(jié)果反超BERT-CRF模型的實(shí)驗(yàn)結(jié)果。主要是因?yàn)椋築ERT是經(jīng)過大量無標(biāo)注語料訓(xùn)練的預(yù)訓(xùn)練模型,其本身具有很好的深度語言特征表達(dá)能力。當(dāng)訓(xùn)練語料較少時(shí),由BERT所生成的詞向量已經(jīng)具有較強(qiáng)的語義信息,可以直接通過CRF模型進(jìn)行判別,若此時(shí)經(jīng)過更為復(fù)雜的模型結(jié)構(gòu),會導(dǎo)致向量的部分語義信息丟失,導(dǎo)致實(shí)驗(yàn)結(jié)果的下降。而當(dāng)訓(xùn)練語料增加時(shí),復(fù)雜的模型結(jié)構(gòu)更容易學(xué)習(xí)各類實(shí)體的特征,因此BERT-BILSTM-CRF的實(shí)驗(yàn)結(jié)果更優(yōu)。
5 ?結(jié) ?論
本文介紹了面向高等教育領(lǐng)域政策文件的語料庫標(biāo)注體系和標(biāo)注過程。首先,依據(jù)高等教育領(lǐng)域?qū)I(yè)知識選定了高教政策文件語料中的各類實(shí)體,并制定了標(biāo)注規(guī)范。其次基于此規(guī)范展開大規(guī)模領(lǐng)域語料標(biāo)注工作并開發(fā)了標(biāo)注工具。目前,該語料庫已完成26萬余字的標(biāo)注工作,共包含5 102句語料及3 639個(gè)命名實(shí)體。此外,本文通過對小組標(biāo)注結(jié)果的一致性分析以及使用不同模型對語料庫進(jìn)行實(shí)驗(yàn),探討了所構(gòu)建語料庫的可信度及標(biāo)注工具預(yù)標(biāo)注策略的可行性。實(shí)驗(yàn)結(jié)果表明,該語料庫的命名實(shí)體識別性能F1值達(dá)到75.31%。
參考文獻(xiàn):
[1] 楊錦鋒,關(guān)毅,何彬,等.中文電子病歷命名實(shí)體和實(shí)體關(guān)系語料庫構(gòu)建 [J].軟件學(xué)報(bào),2016,27(11):2725-2746.
[2] 曲春燕,關(guān)毅,楊錦鋒,等.中文電子病歷命名實(shí)體標(biāo)注語料庫構(gòu)建 [J].高技術(shù)通訊,2015,25(2):143-150.
[3] 馮鸞鸞,李軍輝,李培峰,等.面向國防科技領(lǐng)域的技術(shù)和術(shù)語語料庫構(gòu)建方法 [J].中文信息學(xué)報(bào),2020,34(8):41-50.
[4] 曹若麟,杜渂.面向?qū)嶓w標(biāo)注的公安警情領(lǐng)域語料庫的構(gòu)建 [J].電信快報(bào),2021(3):20-24.
[5] 莫天金,李韌,楊建喜,等.公路橋梁定期檢測領(lǐng)域命名實(shí)體識別語料庫構(gòu)建 [J].計(jì)算機(jī)應(yīng)用,2020,40(S1):103-108.
[6] 李雁群,何云琪,錢龍華,等.中文嵌套命名實(shí)體識別語料庫的構(gòu)建 [J].中文信息學(xué)報(bào),2018,32(8):19-26.
[7] LOWE R,POW N,SERBAN I V,et al. The Ubuntu dialogue corpus:A large dataset for research in unstructured multi-turn dialogue systems [EB/OL].arXiv:1506.08909 ?[cs.CL] (2016-02-04).https: //arxiv.org/pdf/1506.08909v3.pdf.
[8] HU B T,CHEN Q C,ZHU F Z. LCSTS:A large scale Chinese short text summariazation dataset [J/OL].arXiv:1506.05865 ?[cs.CL].(2016-02-19). https: //arxiv.org/pdf/1506.05865.pdf.
作者簡介:黃柯源(1997.05—),男,漢族,河南平頂山人,碩士研究生在讀,研究方向:自然語言處理、知識圖譜