亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        針對(duì)特定任務(wù)的方法實(shí)體評(píng)估研究

        2021-09-24 09:54:18李小樂(lè)王玉琢章成志
        情報(bào)工程 2021年4期
        關(guān)鍵詞:影響力實(shí)體工具

        李小樂(lè) 王玉琢 章成志,2

        1. 南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院信息管理系 南京 210094;

        2. 富媒體數(shù)字出版內(nèi)容組織與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室 北京 100038

        引言

        科學(xué)研究指的是通過(guò)需求分析提出問(wèn)題,之后通過(guò)調(diào)查、驗(yàn)證、實(shí)驗(yàn)等方法進(jìn)行綜合分析,進(jìn)而探索未知、解決問(wèn)題的過(guò)程。在此過(guò)程中,研究方法的重要性不言而喻。研究方法的提出和使用推動(dòng)了各學(xué)科的發(fā)展,它既可以是學(xué)者的研究對(duì)象,也可以是學(xué)者解決問(wèn)題的重要工具。具體而言,在科學(xué)研究中,研究方法包括數(shù)據(jù)收集方法和數(shù)據(jù)分析方法[1],具體表現(xiàn)形式可為數(shù)據(jù)集、算法模型、軟件等實(shí)體。

        作為知識(shí)傳播的媒介,學(xué)術(shù)論文中包含了大量的研究方法,是學(xué)者們使用、學(xué)習(xí)和分析研究方法的重要資源。通過(guò)人工標(biāo)注或自動(dòng)抽取的方式從學(xué)術(shù)論文中獲取方法實(shí)體,并利用不同特征對(duì)其開(kāi)展學(xué)術(shù)影響力評(píng)估,可以為學(xué)者們特別是初學(xué)者提供方法參考,促進(jìn)其對(duì)領(lǐng)域內(nèi)方法的了解。因此,從學(xué)術(shù)論文中識(shí)別并評(píng)價(jià)不同類(lèi)別的方法實(shí)體目前已成為學(xué)者關(guān)注的熱點(diǎn)問(wèn)題[2]。但當(dāng)前的研究主要針對(duì)特定的學(xué)科和領(lǐng)域,所得結(jié)果無(wú)法直接應(yīng)用于具體任務(wù)[3-5]。將抽取和評(píng)估工作限定在特定任務(wù)中,一方面能夠充分了解方法實(shí)體在該任務(wù)的使用情況,反映該任務(wù)當(dāng)前的發(fā)展程度和未來(lái)發(fā)展方向;另一方面評(píng)估的結(jié)果能夠?yàn)槌鯇W(xué)者提供系統(tǒng)的研究方法體系,幫助其找到適合自身研究工作的方法。為此,本研究將面向具體任務(wù),從解決同一任務(wù)的學(xué)術(shù)論文中識(shí)別出多類(lèi)別方法實(shí)體,以期獲得更有針對(duì)性的方法實(shí)體評(píng)價(jià)結(jié)果。以命名實(shí)體識(shí)別任務(wù)為例,我們將探究如下幾個(gè)研究問(wèn)題:

        (1)在命名實(shí)體識(shí)別任務(wù)中,學(xué)者常用的方法實(shí)體有哪些?

        (2)學(xué)者在使用方法實(shí)體時(shí),會(huì)有哪些使用特征?不同的方法實(shí)體如何評(píng)價(jià)其影響力?

        考慮到目前并無(wú)研究工作對(duì)學(xué)術(shù)論文中的方法實(shí)體進(jìn)行明確定義,本文擬從問(wèn)題解決的角度出發(fā),將研究方法實(shí)體定義為:作者在學(xué)術(shù)論文中為解決問(wèn)題而使用到的算法模型、數(shù)據(jù)、工具、軟件和評(píng)價(jià)指標(biāo)。

        本研究的意義在于,一方面標(biāo)注獲取得到的常用方法實(shí)體,能幫助構(gòu)建研究方法體系,為學(xué)者在寫(xiě)論文時(shí)提供統(tǒng)一的參考,幫助建立使用規(guī)范;另一方面,通過(guò)不同維度評(píng)估實(shí)體影響力,能幫助學(xué)者深入理解該任務(wù),提高科研的效率。未來(lái),在命名實(shí)體識(shí)別任務(wù)中做好該項(xiàng)工作后,可以將標(biāo)注結(jié)果作為基礎(chǔ)數(shù)據(jù),使用機(jī)器學(xué)習(xí)的方法擴(kuò)充到其它相關(guān)領(lǐng)域。

        1 相關(guān)工作概述

        本文從學(xué)術(shù)論文全文出發(fā),在人工標(biāo)注的基礎(chǔ)上,研究命名實(shí)體識(shí)別領(lǐng)域方法實(shí)體的使用情況,并在此基礎(chǔ)上評(píng)估實(shí)體影響力。和本研究直接相關(guān)的工作包括方法實(shí)體的抽取和影響力評(píng)估,下面針對(duì)這兩方面進(jìn)行概述。

        1.1 方法實(shí)體抽取概述

        對(duì)于方法實(shí)體的抽取研究,學(xué)者們多采用人工抽取、規(guī)則匹配和機(jī)器自動(dòng)抽取的方法。

        人工抽取實(shí)體的方法主要借助內(nèi)容分析法,通過(guò)人工閱讀和標(biāo)識(shí)從學(xué)術(shù)文本中獲取方法實(shí)體。儲(chǔ)荷婷[6]通過(guò)研究情報(bào)學(xué)領(lǐng)域論文,發(fā)現(xiàn)內(nèi)容分析法、實(shí)驗(yàn)法和理論研討法取代了過(guò)去占主導(dǎo)地位的問(wèn)卷調(diào)查法和歷史研究法。Zhao等[7]通過(guò)內(nèi)容分析法,發(fā)現(xiàn)數(shù)據(jù)集的提及和引用在各學(xué)科中差異很大,醫(yī)學(xué)和健康科學(xué)是數(shù)據(jù)集使用率最高的學(xué)科[3]。Behrang和Siegfried在A(yíng)CL ARC的基礎(chǔ)上,通過(guò)手工和自動(dòng)標(biāo)注,將標(biāo)注出的技術(shù)術(shù)語(yǔ)分為算法、方法和解決方案,為計(jì)算語(yǔ)言學(xué)提供了完整的注釋語(yǔ)料庫(kù)。Yang等[8]為了研究軟件在生物信息學(xué)中的重要性,借助外部資源形成詞典,人工提取國(guó)內(nèi)外生物信息學(xué)論文的軟件實(shí)體,發(fā)現(xiàn)更好的科學(xué)軟件有助于產(chǎn)生更好的科學(xué)結(jié)果。

        規(guī)則匹配包括詞典直接匹配和其他規(guī)則識(shí)別。詞典匹配需要提前構(gòu)建實(shí)體名稱(chēng)詞典,通過(guò)將詞典內(nèi)容與王玉琢等[9]以十大數(shù)據(jù)挖掘算法為研究對(duì)象,通過(guò)在學(xué)術(shù)搜索引擎和在線(xiàn)資源中檢索得到相應(yīng)的算法縮寫(xiě)和別名,構(gòu)建數(shù)據(jù)挖掘十大算法的名稱(chēng)詞典,隨后利用詞典匹配法識(shí)別出NLP領(lǐng)域會(huì)議論文中提及的這十大算法及相關(guān)信息。其他規(guī)則包括文本中方法實(shí)體相關(guān)的引導(dǎo)詞、固定句型、所處位置等?;亓值萚10]先通過(guò)詞典匹配找出包含方法實(shí)體的句子,通過(guò)人工總結(jié)得到5大類(lèi)的描述方法實(shí)體的句式規(guī)則,從而從情報(bào)學(xué)領(lǐng)域論文中識(shí)別方法實(shí)體。在生物醫(yī)學(xué)領(lǐng)域,Tsuruoka[11]通過(guò)文本相似規(guī)則生成實(shí)體的拼寫(xiě)變體,并依據(jù)變體名抽取并拓展了生物醫(yī)學(xué)詞典的實(shí)體術(shù)語(yǔ)表。

        自動(dòng)抽取的方法包括傳統(tǒng)的機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)。機(jī)器學(xué)習(xí)的方法一般將實(shí)體識(shí)別看作分類(lèi)任務(wù)或序列標(biāo)注任務(wù)[12]。Pan等[13]提出一種改進(jìn)的bootstrapping方法,并使用此方法從2014年P(guān)LoS ONE上發(fā)表的所有論文中學(xué)習(xí)識(shí)別軟件實(shí)體,最終獲得超過(guò)2000種不同的軟件實(shí)體。深度學(xué)習(xí)則能夠從文本中自動(dòng)學(xué)習(xí)特征。Ammar等[14]使用BiLSTM和CRF相結(jié)合的模型從論文中識(shí)別“方法”和“數(shù)據(jù)集”等實(shí)體。

        在上述實(shí)體識(shí)別的方法中,人工標(biāo)注方法能較好地保證識(shí)別結(jié)果的準(zhǔn)確性,但效率較低。自動(dòng)抽取方法在處理數(shù)據(jù)規(guī)模和速度上表現(xiàn)較優(yōu),但仍然離不開(kāi)人工標(biāo)注的訓(xùn)練數(shù)據(jù)。因此,無(wú)論采用何種方法,人工標(biāo)注獲取方法實(shí)體都是重要的基礎(chǔ)工作。因此本文仍然采用人工標(biāo)注的方式從學(xué)術(shù)文本中識(shí)別方法實(shí)體。一方面保證所得結(jié)果的準(zhǔn)確性,另一方面也為未來(lái)的自動(dòng)抽取工作奠定基礎(chǔ)。

        1.2 方法實(shí)體評(píng)估概述

        評(píng)估方法實(shí)體在領(lǐng)域內(nèi)的影響力,常用方法包括專(zhuān)家評(píng)議和非專(zhuān)家評(píng)議兩種方法。2006 年12 月在IEEE 國(guó)際數(shù)據(jù)挖掘會(huì)議(IEEE International Conference on Data Mining, ICDM)中,為了得到數(shù)據(jù)挖掘領(lǐng)域中最具影響力的算法,多名領(lǐng)域?qū)<彝ㄟ^(guò)公開(kāi)投票,從18個(gè)候選算法中得出數(shù)據(jù)挖掘十大算法[15]。這是最早由學(xué)者歸納出的算法,在一定程度上能夠體現(xiàn)這些算法的影響力。Chu等[6]通過(guò)人工閱讀,識(shí)別出圖書(shū)情報(bào)學(xué)文獻(xiàn)中的常用研究方法,并對(duì)不同方法在該領(lǐng)域中的影響力進(jìn)行評(píng)價(jià)。專(zhuān)家評(píng)議的方式適合數(shù)據(jù)有限的情況,此方法對(duì)于實(shí)體的評(píng)估更加準(zhǔn)確。但是專(zhuān)家評(píng)議的結(jié)果依賴(lài)學(xué)者的學(xué)識(shí),使得評(píng)估結(jié)論帶有主觀(guān)性,而且當(dāng)數(shù)據(jù)量較大時(shí),處理的成本太高,耗費(fèi)時(shí)間長(zhǎng),難以擴(kuò)展。

        當(dāng)前,研究人員還依據(jù)使用次數(shù)、使用年代等非專(zhuān)家評(píng)議的方法來(lái)評(píng)估方法實(shí)體影響力。Wang等[5]依據(jù)提及論文數(shù)、提及總次數(shù)、提及位置三個(gè)方面評(píng)估十大數(shù)據(jù)挖掘算法的影響力,發(fā)現(xiàn)SVM在其既定標(biāo)準(zhǔn)下的影響力最大。Settouti等[16]選取10個(gè)使用不同分類(lèi)算法的分類(lèi)器,對(duì)特定的數(shù)據(jù)集進(jìn)行分類(lèi),評(píng)價(jià)10種分類(lèi)算法的效果。一些學(xué)者提出用文獻(xiàn)計(jì)量的方法比如被引次數(shù)來(lái)評(píng)價(jià)數(shù)據(jù)、軟件等知識(shí)實(shí)體的影響力[17]。趙蓉英[18]通過(guò)專(zhuān)業(yè)網(wǎng)站Depsy獲取軟件下載量、軟件復(fù)用次數(shù)、軟件在文獻(xiàn)中的引用情況三種指標(biāo),評(píng)價(jià)開(kāi)源軟件的學(xué)術(shù)影響力。Pan等[19]考察學(xué)術(shù)論文中CiteSpace、HistCite以及VOSviewer三種軟件的提及與引用情況,依據(jù)軟件在文章、期刊、學(xué)科等層面上的擴(kuò)散深度與速度,評(píng)估軟件的影響力。楊波[20]通過(guò)生物信息學(xué)中軟件實(shí)體的使用和引用情況,構(gòu)建相關(guān)性指標(biāo)來(lái)評(píng)估軟件的影響力??茖W(xué)研究離不開(kāi)數(shù)據(jù)的支持,規(guī)范的數(shù)據(jù)集能夠節(jié)約研究人員處理數(shù)據(jù)的時(shí)間。對(duì)科學(xué)數(shù)據(jù)進(jìn)行評(píng)價(jià),是促進(jìn)數(shù)據(jù)共享與重用的基礎(chǔ)[21]。丁楠[21]通過(guò)Web of Science中DCI數(shù)據(jù)庫(kù)的數(shù)據(jù)發(fā)布量、數(shù)據(jù)被引量等多個(gè)角度來(lái)衡量人口調(diào)查領(lǐng)域的數(shù)據(jù)集的影響力。Belter[22]研究海洋學(xué)領(lǐng)域的三個(gè)典型數(shù)據(jù)集,使用被引次數(shù)評(píng)估數(shù)據(jù)集影響力。Ding等[23]借助PubMedCenter的生物醫(yī)學(xué)全文文檔,根據(jù)生物實(shí)體的引用頻次構(gòu)建引文網(wǎng)絡(luò),評(píng)估不同實(shí)體之間的影響力。

        本文采用非專(zhuān)家評(píng)議方法來(lái)評(píng)估方法實(shí)體的影響力,期望能促進(jìn)針對(duì)特定任務(wù)的方法實(shí)體評(píng)估研究。

        2 研究方法

        如圖1所示,本文通過(guò)人工標(biāo)注的方法,識(shí)別命名實(shí)體識(shí)別任務(wù)相關(guān)文章中使用的研究方法實(shí)體,并探究不同類(lèi)別方法實(shí)體的學(xué)術(shù)影響力。本文從開(kāi)放數(shù)據(jù)平臺(tái)上獲取了NER相關(guān)論文全文內(nèi)容,隨后制訂了標(biāo)注規(guī)范開(kāi)展預(yù)標(biāo)注。根據(jù)預(yù)標(biāo)注反饋的結(jié)果,本研究對(duì)標(biāo)注方案進(jìn)行優(yōu)化,對(duì)全文內(nèi)容中使用的方法實(shí)體進(jìn)行正式標(biāo)注。最后,通過(guò)分析標(biāo)注結(jié)果中實(shí)體的使用情況和相關(guān)特征,對(duì)實(shí)體的學(xué)術(shù)影響力進(jìn)行多維度評(píng)估。

        圖1 研究框架

        2.1 數(shù)據(jù)獲取

        本研究所說(shuō)的“特定任務(wù)”是指命名實(shí)體識(shí)別,以此為例分析研究方法實(shí)體在任務(wù)中的影響力。為了保證數(shù)據(jù)的可靠性,本文從Association for Computational Linguistics(ACL)的開(kāi)放數(shù)據(jù)平臺(tái)中獲取原始論文數(shù)據(jù)①https://www.aclweb.org/anthology/,選擇這個(gè)數(shù)據(jù)集的原因如下:首先,網(wǎng)站提供超54000篇的自然語(yǔ)言處理研究的論文全文,NER則是自然語(yǔ)言處理的經(jīng)典任務(wù),該平臺(tái)可保證本文能獲取更為全面的論文和方法實(shí)體。其次,ACL中收錄了自然語(yǔ)言處理領(lǐng)域最知名的會(huì)議和期刊論文,從高質(zhì)量論文中識(shí)別的研究方法實(shí)體更具代表性。

        為了盡量獲取更多的NER任務(wù)的相關(guān)論文,本文使用三類(lèi)關(guān)鍵詞從網(wǎng)站中檢索,獲得論文標(biāo)題中含有“named entity recognition”或“named entity extraction” 或“named entity identification”(不區(qū)分大小寫(xiě))的文章。通過(guò)網(wǎng)站給出的文獻(xiàn)信息,提取出450條下載鏈接。通過(guò)人工的去重、刪除了會(huì)議安排、特邀演講、非英文文獻(xiàn)、和文獻(xiàn)綜述等文章,最終得到1998年至2019年間426篇學(xué)術(shù)論文全文。

        表1展示了426篇學(xué)術(shù)論文在不同會(huì)議的數(shù)量分布(已按論文數(shù)量降序排列)。首先論文數(shù)量最多的是WS(workshops),其次四大主會(huì)ACL,EMNLP,NAACL,COLING中論文數(shù)也明顯比其他會(huì)議要高。

        表1 不同學(xué)術(shù)會(huì)議中獲取的論文數(shù)

        圖2展示426篇論文的年代分布情況。該任務(wù)在2003年達(dá)到第一次頂峰,之后的十年基本上保持年發(fā)文量18篇的水平,近五年論文數(shù)量才表現(xiàn)出顯著增長(zhǎng)的趨勢(shì)。

        圖2 NER任務(wù)中論文數(shù)量年代分布

        2.2 數(shù)據(jù)標(biāo)注

        所有數(shù)據(jù)由兩名信息管理與信息系統(tǒng)專(zhuān)業(yè)的大四學(xué)生②兩名標(biāo)注人員分別為本文第一作者與陳仰。在此,感謝陳仰參加數(shù)據(jù)的標(biāo)注工作。進(jìn)行標(biāo)注。在標(biāo)注開(kāi)始之前,根據(jù)相關(guān)工作制定標(biāo)注規(guī)范,并邀請(qǐng)領(lǐng)域?qū)<覍?duì)標(biāo)注規(guī)范進(jìn)行完善。標(biāo)注員依照標(biāo)注規(guī)范對(duì)論文中的方法實(shí)體進(jìn)行預(yù)標(biāo)注后,根據(jù)標(biāo)注員反饋對(duì)標(biāo)注規(guī)范進(jìn)行優(yōu)化(優(yōu)化后的標(biāo)注規(guī)范見(jiàn)附錄)。隨后,基于新制訂的標(biāo)注規(guī)范,再次開(kāi)展新的預(yù)標(biāo)注,以了解標(biāo)注結(jié)果的一致性。為保證標(biāo)注結(jié)果的準(zhǔn)確性,在預(yù)標(biāo)注時(shí),隨機(jī)抽取50篇文獻(xiàn),由兩位標(biāo)注人員獨(dú)立標(biāo)注。本文將Kappa系數(shù)作為一致性檢驗(yàn)的指標(biāo),評(píng)估二者標(biāo)注的一致性[24]。Kappa系數(shù)的計(jì)算公式如下:

        其中,P(A)代表標(biāo)注結(jié)果一致性的實(shí)際觀(guān)測(cè)值,P(E)代表標(biāo)注結(jié)果一致性的期望值。若K≥0.8,則說(shuō)明標(biāo)注結(jié)果很可靠,若K≥0.69,則說(shuō)明標(biāo)注結(jié)果較為可靠[25]。對(duì)標(biāo)注人員獨(dú)立標(biāo)注的50篇文獻(xiàn)的結(jié)果進(jìn)行檢驗(yàn),隨機(jī)50篇文獻(xiàn)的kappa系數(shù)為0.70,標(biāo)注結(jié)果可以接受。

        之后,標(biāo)注人員對(duì)不一致的標(biāo)注進(jìn)行討論分析,再次更新標(biāo)注規(guī)范。依據(jù)最新的標(biāo)注規(guī)范,二人平均分配剩下的學(xué)術(shù)論文,最終得到全部論文中作者使用的方法實(shí)體。標(biāo)注結(jié)果包括426篇命名實(shí)體識(shí)別相關(guān)的文獻(xiàn)中3613條記錄,其中算法1144條,評(píng)價(jià)指標(biāo)1109條,數(shù)據(jù)源891條,工具469條。具體標(biāo)簽定義與標(biāo)注樣例分別見(jiàn)表2、表3。

        表2 人工標(biāo)注的標(biāo)簽定義及示例

        在引言部分已經(jīng)定義本文的研究方法實(shí)體,表3給出具體示例。

        表3 四類(lèi)方法實(shí)體的標(biāo)注示例

        2.3 方法實(shí)體的影響力評(píng)估

        本研究通過(guò)使用次數(shù)、使用年代等維度,考察四類(lèi)實(shí)體在學(xué)術(shù)論文中的使用情況并評(píng)估影響力。

        2.3.1 基于使用次數(shù)的評(píng)估

        論文數(shù)量是指某方法實(shí)體在全部數(shù)據(jù)中被使用在多少篇論文中。我們認(rèn)為論文數(shù)越多,則實(shí)體的影響力越大。同時(shí),我們借鑒學(xué)術(shù)論文影響力評(píng)價(jià)所使用的count one[23]方法,即一篇文章在不同位置多次說(shuō)明使用同一實(shí)體,只記為1次。

        (1)不同類(lèi)別方法實(shí)體影響力分析

        本文將使用了某一方法實(shí)體的論文數(shù)視為該方法的使用次數(shù),我們按照數(shù)據(jù)源、算法模型、工具、評(píng)價(jià)指標(biāo)對(duì)標(biāo)注所得的方法實(shí)體進(jìn)行統(tǒng)計(jì),得到每類(lèi)別中的方法實(shí)體數(shù)N;每個(gè)方法實(shí)體i被使用的次數(shù)ni為使用該方法實(shí)體的論文數(shù);每類(lèi)方法實(shí)體被使用的總次數(shù)UN為使用該類(lèi)方法的全部論文數(shù)量,即;每類(lèi)方法實(shí)體被使用的論文數(shù)UA為提及該類(lèi)別方法的論文去重后所得的論文數(shù);論文使用的平均實(shí)體數(shù)。

        (2)單一類(lèi)別方法實(shí)體影響力分析

        根據(jù)每類(lèi)別種不同方法實(shí)體的被使用數(shù)排序,即可得到不同類(lèi)別中方法實(shí)體影響力的排名。

        2.3.2 基于使用年代的評(píng)估

        本研究中,規(guī)定文章的發(fā)表年代即為實(shí)體的使用年代。對(duì)使用年代進(jìn)行分析,考察實(shí)體使用情況演變趨勢(shì),能夠得出在NER領(lǐng)域的各類(lèi)實(shí)體的使用規(guī)律。本文的研究數(shù)據(jù),每篇文獻(xiàn)都有唯一的文章ID(例如Q15-1018,即為2015年發(fā)表的文章,有28篇文章無(wú)法直接從ID中看出年份,需要從下載鏈接中確定)。在人工標(biāo)注過(guò)程中,記錄下文章ID作為實(shí)體的使用年代信息,在此基礎(chǔ)上統(tǒng)計(jì)各方法實(shí)體的論文數(shù)情況,以此進(jìn)行年代分布分析。

        3 結(jié)果分析

        針對(duì)前文對(duì)數(shù)據(jù)的處理結(jié)果,本節(jié)將從使用次數(shù)、論文數(shù)量、使用年代三方面對(duì)命名實(shí)體識(shí)別任務(wù)中出現(xiàn)的方法實(shí)體及其使用情況進(jìn)行分析并評(píng)估其實(shí)體的影響力。

        3.1 基于使用次數(shù)的方法實(shí)體評(píng)估

        經(jīng)過(guò)人工標(biāo)注及整理,最終得到904種不同的方法實(shí)體,其中包括345種數(shù)據(jù)源、251種算法模型、235種工具和73種評(píng)價(jià)指標(biāo)。具體使用次數(shù)和涉及的論文數(shù)如下所示(表4)。表4的使用總次數(shù)是指全部的某類(lèi)實(shí)體標(biāo)注得出的句子個(gè)數(shù)(比如全部的文章中,共469條使用工具的句子)。

        表4 方法實(shí)體類(lèi)型結(jié)果及論文數(shù)分布

        從各實(shí)體的數(shù)量來(lái)看,識(shí)別出的實(shí)體中,數(shù)據(jù)源類(lèi)型最多,評(píng)價(jià)指標(biāo)數(shù)量最少。筆者分析,由于本課題研究的特殊性(即僅針對(duì)NER領(lǐng)域的文章),各個(gè)國(guó)家的研究人員在進(jìn)行實(shí)體識(shí)別工作時(shí)可能都會(huì)采集不同的數(shù)據(jù),進(jìn)而形成不同的數(shù)據(jù)集,因此數(shù)據(jù)集的數(shù)量最多;而學(xué)術(shù)論文中最常見(jiàn)的評(píng)價(jià)指標(biāo)有F值、P值、R值等,短時(shí)間內(nèi)很難有別的更適合的指標(biāo),故該類(lèi)別最少。

        從表4的論文數(shù)量可知,評(píng)價(jià)指標(biāo)會(huì)被絕大多數(shù)的文章所使用,占比超過(guò)90%(396篇/426篇)。其余三類(lèi)實(shí)體在論文數(shù)量方面差別不大,且全都超過(guò)350篇。

        通過(guò)每類(lèi)方法實(shí)體的使用總數(shù)和其中涉及的論文數(shù),可得每篇文獻(xiàn)使用的實(shí)體數(shù)量。算法模型類(lèi)實(shí)體的平均每篇文獻(xiàn)出現(xiàn)該類(lèi)實(shí)體數(shù)量最大,約為3.08,也就意味著,在使用到算法模型的文章中,平均每篇會(huì)使用三種不同的算法。該標(biāo)準(zhǔn)下,工具類(lèi)實(shí)體的平均每篇文獻(xiàn)出現(xiàn)的實(shí)體僅約為1.3,在NER任務(wù)中使用工具的現(xiàn)象并不普遍。

        為了進(jìn)一步分析實(shí)體的影響力,下面從具體的論文數(shù)量和使用年代兩個(gè)方面評(píng)估實(shí)體影響力。

        3.2 不同類(lèi)別中的方法實(shí)體評(píng)估

        經(jīng)統(tǒng)計(jì),得到四個(gè)類(lèi)型的方法實(shí)體中排名前十的方法實(shí)體及使用的論文數(shù)量結(jié)果(表5)。

        表5 各個(gè)類(lèi)型實(shí)體中Top 10及使用論文數(shù)

        對(duì)于數(shù)據(jù)源來(lái)說(shuō),一些經(jīng)典測(cè)評(píng)會(huì)議中產(chǎn)生的數(shù)據(jù),如CoNLL 02/03、ACE 05會(huì)被學(xué)者廣泛使用。CoNLL系列的數(shù)據(jù)用于識(shí)別英語(yǔ)、德語(yǔ)和西班牙語(yǔ)中出現(xiàn)的地點(diǎn)、組織和人名。ACE05則包括中英文和阿拉伯語(yǔ)的語(yǔ)料。此外,由于Wikipedia和Twitter平臺(tái)上存在大量、多語(yǔ)言的語(yǔ)料,很多學(xué)者選擇從這兩個(gè)平臺(tái)直接獲取數(shù)據(jù),進(jìn)行NER任務(wù)。在生物醫(yī)學(xué)領(lǐng)域,NER的研究十分廣泛。GENIA語(yǔ)料庫(kù)是為GENIA項(xiàng)目編寫(xiě)并標(biāo)注的生物醫(yī)學(xué)文獻(xiàn)集合,該數(shù)據(jù)集包括生物醫(yī)學(xué)中常用的術(shù)語(yǔ)、事件和共指關(guān)系等內(nèi)容。時(shí)至今日,仍舊會(huì)被相關(guān)學(xué)者多次使用。關(guān)于MSRA和People’s Daily,前者是微軟亞洲研究院提供的數(shù)據(jù),后者是人民日?qǐng)?bào)的數(shù)據(jù),這兩類(lèi)數(shù)據(jù)常用于中文人名、地名和機(jī)構(gòu)名的識(shí)別任務(wù)。

        經(jīng)典算法條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)排在算法類(lèi)實(shí)體的首位。結(jié)合算法的發(fā)展歷史和圖2能夠看出,自2001年Lafferty提出該模型之后,論文數(shù)量便有大幅提升。排名第二的深度學(xué)習(xí)算法BiLSTM,雖然論文數(shù)量還不到CRF的一半,但已經(jīng)超過(guò)了傳統(tǒng)算法SVM和HMM等。作為老牌經(jīng)典算法,SVM算法理論基礎(chǔ)堅(jiān)實(shí),是所有已知著名算法中最穩(wěn)定且最精確的算法之一[7],故使用SVM算法的論文數(shù)較多。值得注意的是,雖然Viterbi并不會(huì)直接應(yīng)用到NER任務(wù)中,但是引入該算法能夠得到可觀(guān)察序列的最優(yōu)可能的隱藏狀態(tài)并且降低計(jì)算的復(fù)雜度,故Viterbi算法的排名較高。

        由于命名實(shí)體識(shí)別屬于NLP的子領(lǐng)域,因此論文中會(huì)出現(xiàn)一些NLP工具和一些機(jī)器學(xué)習(xí)的工具包。根據(jù)工具的用法可以將其分為三類(lèi):即在NER任務(wù)中被使用的僅支持NER類(lèi)工具、在NER任務(wù)中起到轉(zhuǎn)換作用的轉(zhuǎn)換類(lèi)工具和可執(zhí)行多種任務(wù)的綜合類(lèi)工具。具體來(lái)說(shuō),前十名中,僅有CRF++和CRFsuite是專(zhuān)門(mén)針對(duì)CRF開(kāi)發(fā)的工具,直接完成NER任務(wù)。word2vec既是模型也是工具,其作為工具時(shí),是Google在2013年推出的NLP工具,主要作用是將單詞轉(zhuǎn)換成向量形式,常用在深度學(xué)習(xí)中,起到轉(zhuǎn)換詞向量的作用。其他的工具則屬于綜合類(lèi),比如OpenNLP是一個(gè)機(jī)器學(xué)習(xí)工具包,用于處理自然語(yǔ)言文本,支持大多數(shù)常用的如:分詞、分句、詞性標(biāo)注、NER等NLP任務(wù)。Stanford CoreNLP和Stanford NER均是斯坦福大學(xué)開(kāi)發(fā)的NLP工具,用于完成詞性標(biāo)注、NER等多種任務(wù)。

        F值、Precision和Recall作為排名前三的評(píng)價(jià)指標(biāo),會(huì)被絕大多數(shù)的文章所使用。通過(guò)數(shù)據(jù)發(fā)現(xiàn),這三種實(shí)體的數(shù)量不是一一對(duì)應(yīng)的。具體來(lái)說(shuō),F(xiàn)值的使用次數(shù)要比P值和R值要大得多。也就意味著學(xué)者在評(píng)估NER任務(wù)的好壞時(shí),直接選擇F值作為評(píng)價(jià)指標(biāo)即可。cross validation屬于一種精度測(cè)試方法,用于評(píng)估模型的訓(xùn)練效果(常見(jiàn)的有10折交叉驗(yàn)證)。Accuracy表示分類(lèi)模型預(yù)測(cè)準(zhǔn)確的比例,有時(shí)會(huì)跟在前三種指標(biāo)的后面,有時(shí)也會(huì)單獨(dú)使用。inter-annotator agreement表示標(biāo)注者間信度,是用來(lái)衡量一項(xiàng)任務(wù)中人類(lèi)評(píng)分者意見(jiàn)一致的指標(biāo)。如果意見(jiàn)不一致,則任務(wù)規(guī)范可能需要改進(jìn)。

        綜上所述,四類(lèi)方法實(shí)體中影響力最大的實(shí)體分別是CoNLL 2003、CRF、CRF++、F-measure。Wikipedia等開(kāi)放平臺(tái)上的數(shù)據(jù)成為研究熱點(diǎn),神經(jīng)網(wǎng)絡(luò)算法也受到更多學(xué)者的關(guān)注,學(xué)者最常用的工具實(shí)體大都是高?;蚧ヂ?lián)網(wǎng)企業(yè)開(kāi)發(fā)的,信息檢索領(lǐng)域的評(píng)價(jià)指標(biāo)(F值、P值、R值)依然是影響力最大的指標(biāo)類(lèi)實(shí)體。

        此外,數(shù)據(jù)源、算法模型、評(píng)價(jià)指標(biāo)基本上符合“二八定律”,即排名前20%的方法實(shí)體會(huì)占據(jù)使用總次數(shù)的80%,但工具不滿(mǎn)足此規(guī)律。一方面,本來(lái)Computer Science領(lǐng)域直接使用工具就比較少,另一方面,在標(biāo)注時(shí),標(biāo)注人員還發(fā)現(xiàn)雖然有些論文使用到某工具,但作者可能不會(huì)明確說(shuō)明。

        3.3 基于使用年代的方法實(shí)體評(píng)估

        圖3展示四類(lèi)方法實(shí)體中排名前5的實(shí)體年代分布??傮w來(lái)看,工具的使用次數(shù)最低(圖3(b)),算法類(lèi)實(shí)體發(fā)展情況良好(圖3(c)),排名前三的評(píng)價(jià)指標(biāo)類(lèi)實(shí)體十分穩(wěn)定(圖3(d))。

        圖3 四類(lèi)方法實(shí)體中排名前5的實(shí)體年代分布圖

        圖3(a)顯示,近年來(lái)經(jīng)典數(shù)據(jù)集將被多次使用,這一點(diǎn)在近五年表現(xiàn)得更顯著,并且CoNLL 2003的增長(zhǎng)最為顯著。同時(shí),維基百科、推特上面豐富的語(yǔ)料也被廣大研究人員使用。

        在圖3(b)中,我們發(fā)現(xiàn)雖然工具的整體使用情況偏低,但在2015年之前被普遍使用,而近年來(lái)有所下降。相反,算法模型類(lèi)實(shí)體的使用在2015年之后有了很大的提高(見(jiàn)圖3(c)),這表明學(xué)者們開(kāi)始專(zhuān)注于算法本身來(lái)解決復(fù)雜的NER任務(wù),而不是直接使用現(xiàn)成的工具。除此之外,本文發(fā)現(xiàn)2013年,算法的使用次數(shù)有明顯的下降。研究認(rèn)為,隨著技術(shù)的發(fā)展,NER領(lǐng)域引入了深度學(xué)習(xí)算法,研究人員有更多選擇的機(jī)會(huì)來(lái)完成NER任務(wù),但是此時(shí)大多數(shù)學(xué)者還處于觀(guān)望狀態(tài)。到2015年之后,深度學(xué)習(xí)算法BiLSTM被更多的學(xué)者使用,其影響力有了極大的提高。

        如圖3(d)所示,F(xiàn)-measure是依然是研究人員最常用的評(píng)價(jià)指標(biāo),P值和R值已經(jīng)趨于穩(wěn)定。交叉驗(yàn)證(cross validation)最常用于評(píng)估一個(gè)模型在獨(dú)立數(shù)據(jù)集上的概括能力,隨著機(jī)器學(xué)習(xí)在NER任務(wù)的廣泛應(yīng)用,該實(shí)體的影響力也在不斷變大。

        4 結(jié)論與展望

        研究表明,近5年,命名實(shí)體識(shí)別領(lǐng)域的論文逐年上升,說(shuō)明研究人員還在不斷改進(jìn)算法,提高識(shí)別的準(zhǔn)確性。在使用了評(píng)價(jià)指標(biāo)的文章中,95%的文章都會(huì)使用F值;使用次數(shù)最多的實(shí)體是算法模型類(lèi),該類(lèi)別出現(xiàn)在373篇文獻(xiàn)中,使用算法的文章平均會(huì)用到三種不同的算法;使用次數(shù)最少的是工具類(lèi)實(shí)體,該類(lèi)別僅出現(xiàn)在361篇文獻(xiàn)中,其中超過(guò)半數(shù)的文章只會(huì)使用1種工具。當(dāng)前NER領(lǐng)域最流行算法組合是CRF+BiLSTM;研究人員最常在摘要和方法部分說(shuō)明研究使用到的算法;工具作為一類(lèi)重要的研究方法,研究人員對(duì)于工具的使用還不夠重視;論文中會(huì)出現(xiàn)多個(gè)名稱(chēng)代表同一實(shí)體的情況,這給實(shí)體抽取帶來(lái)一定的挑戰(zhàn),同時(shí)也不利于行業(yè)的規(guī)范發(fā)展。因此,制定一個(gè)統(tǒng)一的實(shí)體名稱(chēng)規(guī)范集合很有必要。

        本研究仍存在不足之處,其一是人工標(biāo)注的方法耗時(shí)耗力,擴(kuò)展性不強(qiáng);其二是對(duì)于標(biāo)注人員的要求較高,不適應(yīng)于非該領(lǐng)域的研究人員。其三是實(shí)體影響評(píng)估時(shí),只通過(guò)次數(shù)分析影響力的廣度,缺乏影響力深度的分析。未來(lái),在本研究的基礎(chǔ)上,使用機(jī)器學(xué)習(xí)的方法,自動(dòng)識(shí)別文章中的研究方法實(shí)體,并進(jìn)行更為細(xì)粒度的實(shí)體評(píng)估研究。

        猜你喜歡
        影響力實(shí)體工具
        波比的工具
        波比的工具
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        天才影響力
        NBA特刊(2018年14期)2018-08-13 08:51:40
        “巧用”工具
        讀者(2017年18期)2017-08-29 21:22:03
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        黃艷:最深遠(yuǎn)的影響力
        3.15消協(xié)三十年十大影響力事件
        永久天堂网av手机版| 久久人妻av不卡中文字幕| 国产一区二区三区探花| 国产精品久久久天天影视 | 中文字幕一区二区av| 疯狂做受xxxx高潮视频免费| 国产精品视频二区不卡| 亚洲欧美日韩在线中文一| 日本女优免费一区二区三区| 后入内射国产一区二区| 亚洲av第一页国产精品| 人妻无码在线免费| 亚洲人妻御姐中文字幕| 亚洲成a人片在线观看无码专区| 无码国产一区二区三区四区 | 一级做a爱视频在线播放| 一区二区三区激情免费视频| 一本本月无码-| 欧美视频第一页| 日本一道高清在线一区二区| 无码熟妇人妻av在线网站| 中文字幕精品久久久久人妻| 蜜桃在线播放免费一区二区三区| 国产日产高清一区二区三区| 加勒比一本heyzo高清视频| 蜜桃成人无码区免费视频网站| 亚洲熟妇av日韩熟妇av| 丝袜美腿人妻第一版主| 亚洲av无码一区二区三区人| 一本色道久久综合亚洲精品小说 | 未满十八勿入av网免费| 国产尤物AV尤物在线看| 日本视频一区二区二区| 精品人妻av一区二区三区 | 色偷偷888欧美精品久久久| 欧美性videos高清精品| 91久久精品一二三区蜜桃| 国产在线一区二区三区四区不卡| 无码人妻av免费一区二区三区| 人妻无码Aⅴ中文系列| 日韩国产自拍视频在线观看 |