亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向高等教育領(lǐng)域的命名實(shí)體標(biāo)注語料庫構(gòu)建方法

        2022-07-10 13:45:45黃柯源張浩軍李世龍李大嶺王家慧
        現(xiàn)代信息科技 2022年5期
        關(guān)鍵詞:高等教育

        黃柯源 張浩軍 李世龍 李大嶺 王家慧

        摘 ?要:文章以高等教育政策文件為語料,在領(lǐng)域?qū)<抑笇?dǎo)下結(jié)合高等教育政策文件文本特點(diǎn),制定了一套標(biāo)注體系和標(biāo)注規(guī)范,開展了大規(guī)模的語料標(biāo)注工作,構(gòu)建了一個(gè)面向高等教育領(lǐng)域的標(biāo)注語料庫。該語料庫共標(biāo)注了137篇政策文件,包含5 102個(gè)句子和3 639個(gè)實(shí)體。同時(shí),通過使用模型對語料庫進(jìn)行實(shí)驗(yàn),探討了語料庫的可信度及預(yù)標(biāo)注策略的可行性。結(jié)果表明,該語料庫的F1值達(dá)到75.31%,為進(jìn)一步的高等教育領(lǐng)域?qū)嶓w識別研究提供了基礎(chǔ)。

        關(guān)鍵詞:高等教育;命名實(shí)體;標(biāo)注規(guī)范;語料庫構(gòu)建

        中圖分類號:TP18 ? ? 文獻(xiàn)標(biāo)識碼:A文章編號:2096-4706(2022)05-0095-04

        Construction Method of Named Entity Annotation Corpus for Higher Education Field

        HUANG Keyuan, ZHANG Haojun, LI Shilong, LI Daling, WANG Jiahui

        (College of Information Science and Engineering, Henan University of Technology, Zhengzhou ?450001, China)

        Abstract: This paper takes higher education policy documents as the corpus, and under the guidance of experts in the field, combined with the text characteristics of higher education policy documents, formulates a set of labeling system and labeling specifications, and carries out large-scale corpus labeling work, constructs an annotation corpus for higher education field. The corpus is annotated with a total of 137 policy documents, and contains 5 102 sentences and 3 639 entities. At the same time, by using the model to conduct experiments on the corpus, the credibility of the corpus and the feasibility of the pre-labeling strategy are discussed. The results show that the F1 number of this corpus reaches 75.31%, which provides a basis for further research on entity recognition in the field of higher education.

        Keywords: higher education; named entity; labeling specification corpus construction

        0 ?引 ?言

        近年來,黨和國家高度重視我國高等教育發(fā)展情況,高等教育領(lǐng)域產(chǎn)出成果頗豐。隨著互聯(lián)網(wǎng)中高等教育領(lǐng)域相關(guān)信息不斷增多,亟須建立高等教育領(lǐng)域知識圖譜,以便更準(zhǔn)確地探析我國高等教育的發(fā)展態(tài)勢,為高等教育研究者提供理論支撐。

        政策文件是由國家相關(guān)部門研究制定并下發(fā)的指導(dǎo)性文件,其權(quán)威性與專業(yè)性被大眾普遍認(rèn)可。因此,本研究以高等教育政策文件為數(shù)據(jù)源,探究領(lǐng)域語料標(biāo)注規(guī)范,構(gòu)建高教領(lǐng)域?qū)嶓w識別標(biāo)注語料庫,為高等教育領(lǐng)域命名實(shí)體識別、關(guān)系抽取和知識圖譜構(gòu)建提供可靠的數(shù)據(jù)支撐。

        1 ?相關(guān)工作

        語料庫作為信息抽取的基礎(chǔ),其質(zhì)量直接影響實(shí)體識別和關(guān)系抽取的結(jié)果。現(xiàn)有的語料庫構(gòu)建方法分為手動(dòng)構(gòu)建和自動(dòng)構(gòu)建兩種,在醫(yī)學(xué)[1,2]、國防[3]、公安[4]、建筑[5]等領(lǐng)域均已出現(xiàn)公開構(gòu)建且廣泛應(yīng)用的語料庫。李雁群等[6]以《人民日報(bào)》和ACE005中文語料為基礎(chǔ),構(gòu)建了中文嵌套命名實(shí)體識別語料庫。Lowe[7]等通過收集Ubuntu社區(qū)一百萬組對話內(nèi)容,構(gòu)建了具有人類自然對話特點(diǎn)與機(jī)器多次序?qū)υ捥攸c(diǎn)的Ubuntu對話語料庫。Hu[8]等通過收集新浪微博的中文短文本摘要,構(gòu)建了包含200余萬個(gè)真實(shí)短文本及作者所寫摘要的微博語料庫。目前,尚未發(fā)現(xiàn)公開發(fā)布的面向高等教育領(lǐng)域的命名實(shí)體標(biāo)注語料庫。因此,亟須構(gòu)建高等教育語料庫,以推動(dòng)我國高等教育領(lǐng)域命名實(shí)體識別研究的發(fā)展。

        2 ?面向高等教育政策文件的實(shí)體標(biāo)注規(guī)范制定

        2.1 ?標(biāo)注體系

        本文將語料庫中實(shí)體定義為以下6類:指導(dǎo)思想實(shí)體、出臺背景實(shí)體、目標(biāo)實(shí)體、原則實(shí)體、任務(wù)實(shí)體和措施實(shí)體。本語料庫在標(biāo)注過程中采用基于BIO策略的字標(biāo)注方法,該語料庫中共包含13種標(biāo)簽類型,標(biāo)簽設(shè)置情況如表1所示。

        2.2 ?標(biāo)注準(zhǔn)則

        本文參照實(shí)體標(biāo)注領(lǐng)域的“不重疊、不嵌套、不包含標(biāo)點(diǎn)符號及連接詞”的三個(gè)基本原則的基礎(chǔ)上,結(jié)合高等教育政策文件的相關(guān)特點(diǎn),提出了一套適用于該領(lǐng)域的標(biāo)注準(zhǔn)則:

        (1)最大范圍標(biāo)注:

        例1:為深入貫徹落實(shí)“習(xí)近平總書記給全國涉農(nóng)高校書記校長和專家代表重要回信精神”,以新農(nóng)科建設(shè)為統(tǒng)領(lǐng),推進(jìn)高等農(nóng)林教育創(chuàng)新發(fā)展。

        例1中,引號部分為指導(dǎo)思想實(shí)體。其中“習(xí)近平總書記給全國涉農(nóng)高校書記校長和專家代表”為“重要回信精神”的定語修飾部分,遵循最大范圍標(biāo)注,凡遇到指導(dǎo)思想實(shí)體中含有定語修飾的,將其一并作為指導(dǎo)思想實(shí)體進(jìn)行標(biāo)注。

        (2)除指導(dǎo)思想實(shí)體外,其余實(shí)體可包含標(biāo)點(diǎn)符號:

        例2:深入貫徹“黨的十九大和十九屆二中、三中、四中全會精神,”全面落實(shí)習(xí)近平總書記關(guān)于教育的重要論述和全國教育大會精神。

        由于政策文件中需要完成的具體任務(wù)以及完成任務(wù)所需的具體措施描述的十分清晰,因此任務(wù)和措施實(shí)體往往需要包含標(biāo)點(diǎn)符號。例2中,引號部分包含有“、”,因此不將其標(biāo)注為實(shí)體。

        (3)外層標(biāo)注:若一句話中包含多個(gè)實(shí)體,則只標(biāo)注最外層實(shí)體,其內(nèi)部的實(shí)體不進(jìn)行標(biāo)注。

        3 ?語料庫構(gòu)建過程

        語料庫構(gòu)建的核心任務(wù)是選取一種合適的標(biāo)注模式,并對語料進(jìn)行標(biāo)注。本文采用“領(lǐng)域?qū)<?團(tuán)體標(biāo)注”的模式,依據(jù)第2節(jié)中所提出的標(biāo)注體系及準(zhǔn)則,對137篇高等教育政策文件進(jìn)行標(biāo)注,標(biāo)注過程歷時(shí)3個(gè)月,共有2名高等教育專家、6名碩士生和3名本科生參與標(biāo)注工作。

        3.1 ?語料選取與預(yù)處理

        該語料庫以教育部發(fā)布的政策文件為數(shù)據(jù)源。為保證語料質(zhì)量,在人工采集時(shí)剔除回復(fù)性文件,保留正式政策文件。標(biāo)注格式如圖1所示,標(biāo)注文本中的{...[type]}表示該段內(nèi)容為一種實(shí)體,[]之間表示該實(shí)體所屬的類別。

        圖1 ?語料標(biāo)注規(guī)則示例

        3.2 ?標(biāo)注過程

        為提高語料庫質(zhì)量,本文制定了多輪分組迭代標(biāo)注策略。具體流程為:

        (1)將9名標(biāo)注人員隨機(jī)分配到三個(gè)小組中,每組的3名隊(duì)員獨(dú)立標(biāo)注同一篇文章。標(biāo)注完成后,由其他小組統(tǒng)計(jì)該組三名隊(duì)員的標(biāo)注一致率,若一致率低于80%,則重復(fù)上述過程。對于不一致性標(biāo)注,在征求專家的意見后對其進(jìn)行修改。對于標(biāo)注一致率連續(xù)3次達(dá)到80%以上的小組,停止迭代標(biāo)注。

        (2)在所有小組均停止迭代后,從三個(gè)小組中選取出標(biāo)注質(zhì)量較高的6名標(biāo)注者,并隨機(jī)分配到3個(gè)小組中進(jìn)行二標(biāo)注。即每組的兩名成員獨(dú)立標(biāo)注同一篇文章,標(biāo)注結(jié)果由標(biāo)注規(guī)范制定者進(jìn)行審核,統(tǒng)一不一致性標(biāo)注,并從每組中選取標(biāo)注質(zhì)量好的標(biāo)注者組建最終標(biāo)注小組。

        (3)選取30篇預(yù)處理過的政策文件作為初始數(shù)據(jù)源,交由最終標(biāo)注小組進(jìn)行標(biāo)注。對于不一致性標(biāo)注,由專家和標(biāo)注人員共同討論后進(jìn)行統(tǒng)一。構(gòu)建實(shí)體標(biāo)注模型,并以上述30篇標(biāo)注語料作為訓(xùn)練數(shù)據(jù),開發(fā)標(biāo)注工具。

        (4)使用標(biāo)注工具對剩余語料進(jìn)行預(yù)標(biāo)注,再由標(biāo)注者對標(biāo)注結(jié)果進(jìn)行修改,得到完整的高等教育政策文件實(shí)體標(biāo)注語料庫。

        3.3 ?語料庫統(tǒng)計(jì)

        3.3.1 ?標(biāo)注數(shù)量統(tǒng)計(jì)

        該語料庫共標(biāo)注了137篇政策文件,共計(jì)256 940個(gè)字符、5 102句話和3 639個(gè)命名實(shí)體。語料庫的標(biāo)注詳情如表2所示。

        3.3.2 ?標(biāo)注一致性分析

        在實(shí)體識別語料標(biāo)注領(lǐng)域,通常選擇F1值來計(jì)算標(biāo)注一致性。具體計(jì)算流程(1)~(3)式所示。

        (1)

        (2)

        (3)

        表3記錄了迭代標(biāo)注過程中各命名實(shí)體的標(biāo)注一致性,其中迭代次數(shù)為5次。

        迭代標(biāo)注過程中,各實(shí)體的標(biāo)注一致性均逐步上升,說明標(biāo)注前培訓(xùn)及標(biāo)注規(guī)范迭代更新策略是積極有效的。其中TAS實(shí)體和MEA實(shí)體的初始標(biāo)注一致率低于其他實(shí)體,其主要原因是政策文件中的方法和措施通常擁有較長的文本長度,導(dǎo)致標(biāo)注人員無法清晰的辨識實(shí)體邊界。隨著迭代標(biāo)注的進(jìn)行,最終六種實(shí)體的標(biāo)注一致性均超過了80%可信賴標(biāo)注驗(yàn)證標(biāo)準(zhǔn),表明該標(biāo)注語料庫具有較高的標(biāo)注質(zhì)量且是可信的。

        4 ?實(shí)驗(yàn)評估

        為評估本文所構(gòu)建語料庫的性能,本文采取句子級的劃分方法語料按照8:1:1的比例隨機(jī)劃分為訓(xùn)練集、測試集和驗(yàn)證集,并搭建了三種主流的實(shí)體識別模型對標(biāo)注語料進(jìn)行初步的實(shí)驗(yàn)驗(yàn)證。采用準(zhǔn)確率(Precision, P)、召回率(Recall, R)和F1值作為該語料庫的測評指標(biāo)。其測評結(jié)果如表4所示。

        由表4可知,當(dāng)測評語料為前三十篇時(shí),BERT-CRF模型的實(shí)驗(yàn)結(jié)果優(yōu)于BERT-BILSTM-CRF模型;當(dāng)測評語料為最終語料時(shí),BERT-BILSTM-CRF模型的實(shí)驗(yàn)結(jié)果反超BERT-CRF模型的實(shí)驗(yàn)結(jié)果。主要是因?yàn)椋築ERT是經(jīng)過大量無標(biāo)注語料訓(xùn)練的預(yù)訓(xùn)練模型,其本身具有很好的深度語言特征表達(dá)能力。當(dāng)訓(xùn)練語料較少時(shí),由BERT所生成的詞向量已經(jīng)具有較強(qiáng)的語義信息,可以直接通過CRF模型進(jìn)行判別,若此時(shí)經(jīng)過更為復(fù)雜的模型結(jié)構(gòu),會導(dǎo)致向量的部分語義信息丟失,導(dǎo)致實(shí)驗(yàn)結(jié)果的下降。而當(dāng)訓(xùn)練語料增加時(shí),復(fù)雜的模型結(jié)構(gòu)更容易學(xué)習(xí)各類實(shí)體的特征,因此BERT-BILSTM-CRF的實(shí)驗(yàn)結(jié)果更優(yōu)。

        5 ?結(jié) ?論

        本文介紹了面向高等教育領(lǐng)域政策文件的語料庫標(biāo)注體系和標(biāo)注過程。首先,依據(jù)高等教育領(lǐng)域?qū)I(yè)知識選定了高教政策文件語料中的各類實(shí)體,并制定了標(biāo)注規(guī)范。其次基于此規(guī)范展開大規(guī)模領(lǐng)域語料標(biāo)注工作并開發(fā)了標(biāo)注工具。目前,該語料庫已完成26萬余字的標(biāo)注工作,共包含5 102句語料及3 639個(gè)命名實(shí)體。此外,本文通過對小組標(biāo)注結(jié)果的一致性分析以及使用不同模型對語料庫進(jìn)行實(shí)驗(yàn),探討了所構(gòu)建語料庫的可信度及標(biāo)注工具預(yù)標(biāo)注策略的可行性。實(shí)驗(yàn)結(jié)果表明,該語料庫的命名實(shí)體識別性能F1值達(dá)到75.31%。

        參考文獻(xiàn):

        [1] 楊錦鋒,關(guān)毅,何彬,等.中文電子病歷命名實(shí)體和實(shí)體關(guān)系語料庫構(gòu)建 [J].軟件學(xué)報(bào),2016,27(11):2725-2746.

        [2] 曲春燕,關(guān)毅,楊錦鋒,等.中文電子病歷命名實(shí)體標(biāo)注語料庫構(gòu)建 [J].高技術(shù)通訊,2015,25(2):143-150.

        [3] 馮鸞鸞,李軍輝,李培峰,等.面向國防科技領(lǐng)域的技術(shù)和術(shù)語語料庫構(gòu)建方法 [J].中文信息學(xué)報(bào),2020,34(8):41-50.

        [4] 曹若麟,杜渂.面向?qū)嶓w標(biāo)注的公安警情領(lǐng)域語料庫的構(gòu)建 [J].電信快報(bào),2021(3):20-24.

        [5] 莫天金,李韌,楊建喜,等.公路橋梁定期檢測領(lǐng)域命名實(shí)體識別語料庫構(gòu)建 [J].計(jì)算機(jī)應(yīng)用,2020,40(S1):103-108.

        [6] 李雁群,何云琪,錢龍華,等.中文嵌套命名實(shí)體識別語料庫的構(gòu)建 [J].中文信息學(xué)報(bào),2018,32(8):19-26.

        [7] LOWE R,POW N,SERBAN I V,et al. The Ubuntu dialogue corpus:A large dataset for research in unstructured multi-turn dialogue systems [EB/OL].arXiv:1506.08909 ?[cs.CL] (2016-02-04).https: //arxiv.org/pdf/1506.08909v3.pdf.

        [8] HU B T,CHEN Q C,ZHU F Z. LCSTS:A large scale Chinese short text summariazation dataset [J/OL].arXiv:1506.05865 ?[cs.CL].(2016-02-19). https: //arxiv.org/pdf/1506.05865.pdf.

        作者簡介:黃柯源(1997.05—),男,漢族,河南平頂山人,碩士研究生在讀,研究方向:自然語言處理、知識圖譜

        猜你喜歡
        高等教育
        教學(xué)和管理層面的高等教育服務(wù)思考分析
        高校雙語教學(xué)現(xiàn)狀與創(chuàng)新分析
        在線性代數(shù)課程教學(xué)中引入MATLAB的簡單介紹
        考試周刊(2016年86期)2016-11-11 07:44:56
        教育國際化視閾下來華留學(xué)生管理干部之職業(yè)素養(yǎng)培育
        法津?qū)嶒?yàn)教學(xué)的思考
        新形勢下加強(qiáng)高校師德建設(shè)的對策研究
        科技視界(2016年18期)2016-11-03 22:22:25
        大數(shù)據(jù)對高等教育發(fā)展的推動(dòng)研究
        人間(2016年26期)2016-11-03 17:51:57
        各地區(qū)高等教育與經(jīng)濟(jì)發(fā)展水平協(xié)調(diào)性分析
        關(guān)于應(yīng)用型計(jì)算機(jī)專業(yè)培養(yǎng)方案的研究
        中國市場(2016年36期)2016-10-19 04:33:08
        基于Flash+XML技術(shù)的護(hù)理技能虛擬教學(xué)平臺設(shè)計(jì)與實(shí)現(xiàn)
        亚洲香蕉视频| 粗大猛烈进出高潮视频大全| 久久久噜噜噜久久中文福利| 青青草原综合久久大伊人| 一本一本久久久久a久久综合激情| 性一交一乱一乱一视频亚洲熟妇| 91精品国产91| 亚洲国产精品嫩草影院久久av | 特黄大片又粗又大又暴| 挺进朋友人妻雪白的身体韩国电影| 美女视频一区| av在线免费播放网站| 富婆猛男一区二区三区| 综合偷自拍亚洲乱中文字幕| 国产成人av性色在线影院色戒| 亚洲一区二区婷婷久久| 国产精品丝袜美女久久| 亚洲综合第一页中文字幕| 国产99久久久国产精品免费看| 丰满岳乱妇在线观看中字无码| 亚洲福利av一区二区| av日韩一区二区三区四区| 亚洲av成人中文无码专区| 麻豆变态另类视频在线观看| 性色国产成人久久久精品二区三区| 人妻丰满熟妇aⅴ无码| 拍摄av现场失控高潮数次| 日韩免费小视频| 日本人妻系列一区二区| 中文字幕无码中文字幕有码| 被群cao的合不拢腿h纯肉视频| 国产精品无码不卡在线播放| 国产高清一区二区三区三州| 色视频线观看在线网站| 131美女爱做视频| 2021年性爱喷水视频| 美利坚亚洲天堂日韩精品| 欧洲成人一区二区三区| 欧美极品美女| av网址大全在线播放| 精品亚洲一区中文字幕精品|