李鵬程 程齊凱
(武漢大學(xué)信息管理學(xué)院 武漢 430072)
學(xué)術(shù)文本作為一種高信息密度的文檔資源,是科研工作者實(shí)現(xiàn)知識生產(chǎn)、知識組織以及知識傳播的重要載體。學(xué)術(shù)論文中包含大量的研究方法類實(shí)體,這些方法是文獻(xiàn)作者在文中用以解決預(yù)設(shè)問題所提出或使用的技術(shù)、工具或手段[1],是科技文獻(xiàn)中最為核心的知識單元。H.D.Ribaupierre等[2]認(rèn)為科研人員信息獲取行為往往以任務(wù)目標(biāo)為導(dǎo)向,如通過查閱文獻(xiàn)以尋求解決目標(biāo)任務(wù)或問題的相關(guān)技術(shù)方法。然而,隨著可獲取數(shù)字圖書資源的不斷激增,了解和掌握一個(gè)學(xué)科領(lǐng)域中的方法知識已愈發(fā)困難。針對于此,本文的目標(biāo)是在理解文本語義信息的基礎(chǔ)上實(shí)現(xiàn)學(xué)術(shù)文本中研究方法的自動識別獲取,為構(gòu)建完備的領(lǐng)域方法知識庫提供可行的技術(shù)路線。
研究方法在科學(xué)研究的推進(jìn)乃至學(xué)科的建設(shè)發(fā)展中都扮演著至關(guān)重要的角色。經(jīng)過數(shù)十載的持續(xù)發(fā)展,學(xué)者們從定性與定量、實(shí)證與非實(shí)證等角度對圖書情報(bào)領(lǐng)域中研究方法的使用情況及框架體系進(jìn)了探討[3-4]。在本文中,圖書情報(bào)學(xué)研究方法是指在圖書情報(bào)學(xué)研究過程中為實(shí)現(xiàn)特定目標(biāo)或效果所采用的某個(gè)確切方法類實(shí)體,包括且不限于模型、算法及工具等等。目前而言,研究方法實(shí)體的自動識別抽取總體可分為兩種:基于規(guī)則模板的方法和基于統(tǒng)計(jì)學(xué)習(xí)的方法。前者依靠人工構(gòu)建的規(guī)則、字典及模板,通過字符串匹配的方法從文本中獲取方法詞或方法句[5];后者則是采用有監(jiān)督或無監(jiān)督的學(xué)習(xí)方式完成所構(gòu)建模型的訓(xùn)練擬合[6]。雖然基于規(guī)則模板的方法能夠在特定語料上獲得較優(yōu)的識別效果,但由于存在泛化性差、局限性高及規(guī)則構(gòu)造繁瑣等問題,當(dāng)前更多的是采用基于統(tǒng)計(jì)學(xué)習(xí)或統(tǒng)計(jì)學(xué)習(xí)與規(guī)則模板相結(jié)合的方法進(jìn)行研究方法實(shí)體識別。
近年來,針對圖書情報(bào)領(lǐng)域的方法識別研究已取得一定進(jìn)展,通過NLP及深度學(xué)習(xí)技術(shù)的應(yīng)用,現(xiàn)有識別模型能夠在學(xué)習(xí)文本中詞匯、句法及語義等特征信息的基礎(chǔ)上對研究方法實(shí)體予以識別抽取[7]。然而,基于有監(jiān)督學(xué)習(xí)的識別策略嚴(yán)重依賴于大規(guī)模高質(zhì)量的標(biāo)注數(shù)據(jù)集。圖書情報(bào)學(xué)作為跨學(xué)科現(xiàn)象顯著的一門科學(xué),領(lǐng)域中的研究方法極其雜糅,拋開文獻(xiàn)計(jì)量法、引文網(wǎng)絡(luò)法及共詞分析法等傳統(tǒng)圖書情報(bào)學(xué)方法之外,還借鑒、融入了大量來自其他領(lǐng)域的技術(shù)方法[8],使得大規(guī)模的數(shù)據(jù)標(biāo)注極為不易。為克服現(xiàn)有方法實(shí)體識別研究中的數(shù)據(jù)獲取難題,本文利用圖書情報(bào)學(xué)的跨學(xué)科屬性,依循圖書情報(bào)學(xué)與計(jì)算機(jī)學(xué)之間的知識角色遷移規(guī)律,提出了一種基于跨學(xué)科知識角色遷移規(guī)律的研究方法識別路線,應(yīng)用bootstrapping自學(xué)習(xí)策略構(gòu)建了圖書情報(bào)領(lǐng)域的方法實(shí)體字典,繼而完成訓(xùn)練所需語料的自動標(biāo)注。
針對圖書情報(bào)領(lǐng)域中的研究方法識別,國內(nèi)學(xué)者也從多個(gè)層面進(jìn)行了嘗試探索。化柏林[5]依據(jù)圖書情報(bào)領(lǐng)域中方法類術(shù)語的表述形式,采用規(guī)則的方法從學(xué)術(shù)文本中識別出方法句,在此基礎(chǔ)上結(jié)合詞表從方法句中抽取方法術(shù)語。趙洪等[18]通過研究科技文獻(xiàn)中理論術(shù)語的特征,構(gòu)建了一種基于弱監(jiān)督學(xué)習(xí)的理論術(shù)語抽取模型,以解決現(xiàn)有方法識別研究中存在的語料匱乏問題。程齊凱等[19]在詞法、句法及組塊等多個(gè)特征的基礎(chǔ)上,設(shè)計(jì)了一種基于條件隨機(jī)場的學(xué)術(shù)文獻(xiàn)問題方法識別模型。張穎怡等[6]分析比較了CNN(Convolutional Neural Networks)、LSTM(Long-Short Term Memory)及BERT(Bidirectional Encoder Representation from Transformers)等多種神經(jīng)網(wǎng)絡(luò)模型在方法句分類中的效果,發(fā)現(xiàn)基于BERT的雙向LSTM模型能夠較好識別文獻(xiàn)中的方法句。章成志等[7]在前者的基礎(chǔ)上進(jìn)一步對所使用的深度學(xué)習(xí)方法進(jìn)行了擴(kuò)充,對比了8種神經(jīng)網(wǎng)絡(luò)在學(xué)術(shù)文本方法實(shí)體自動識別中的實(shí)驗(yàn)效果,并將識別粒度細(xì)化到詞匯層面以實(shí)現(xiàn)方法實(shí)體詞的自動獲取。
從現(xiàn)有成果看,方法實(shí)體識別已得到圖書情報(bào)領(lǐng)域?qū)W者們的重視并取得了一定進(jìn)展。隨著統(tǒng)計(jì)學(xué)習(xí)及相關(guān)配套技術(shù)的日益成熟,機(jī)器學(xué)習(xí)也逐步替代規(guī)則模板成為當(dāng)前方法實(shí)體識別研究中的主流選擇?;跈C(jī)器學(xué)習(xí)的方法雖能在多種實(shí)體識別任務(wù)上取得較好的效果,但卻極其依賴大規(guī)模、高質(zhì)量的訓(xùn)練樣本??鐚W(xué)科屬性使得圖書情報(bào)領(lǐng)域中的方法來源多樣、類型不一,已有的方法語料庫[20]多采用人工標(biāo)注的形式完成數(shù)據(jù)集構(gòu)建,不僅成本高昂、文本主題單一,且數(shù)據(jù)體量有限。針對以上,本文依循圖書情報(bào)領(lǐng)域的跨學(xué)科屬性,提出了一種基于知識角色遷移規(guī)律的數(shù)據(jù)自動標(biāo)注方法,通過大批量標(biāo)注語料的自動獲取,實(shí)現(xiàn)自建研究方法識別模型的訓(xùn)練擬合,進(jìn)而更為魯棒的識別圖書情報(bào)學(xué)領(lǐng)域中的方法實(shí)體。
1.2知識角色遷移的顯現(xiàn)機(jī)理知識遷移是遷移學(xué)習(xí)的重要理論基礎(chǔ)[21],其思想是通過將源領(lǐng)域中學(xué)習(xí)到的知識應(yīng)用到目標(biāo)領(lǐng)域以輔助目標(biāo)問題的求解。圖書情報(bào)學(xué)作為一門交叉屬性明顯的學(xué)科,其在成長過程中不斷積極吸收自然科學(xué)、技術(shù)科學(xué)和社會科學(xué)中的多源知識。近年來,隨著計(jì)算機(jī)科學(xué)技術(shù)的不斷發(fā)展與革新,計(jì)算機(jī)與圖書情報(bào)學(xué)科之間的知識遷移現(xiàn)象更是愈發(fā)顯著,大量的計(jì)算機(jī)算法、模型、工具及系統(tǒng)被應(yīng)用于圖書情報(bào)研究工作中。針對圖書情報(bào)領(lǐng)域的知識遷移現(xiàn)象,張瑞[8]、馮志剛等[22]及王旻霞等[23]通過引文網(wǎng)絡(luò)研究了圖書情報(bào)學(xué)的知識流入特征,指出計(jì)算機(jī)學(xué)科是向圖書情報(bào)學(xué)科輸入知識最多的學(xué)科。邱均平等[24]從作者發(fā)文領(lǐng)域分布的視角分析了圖書情報(bào)學(xué)科與計(jì)算機(jī)學(xué)科間的密切聯(lián)系。王思茗等[25]采用網(wǎng)絡(luò)分析與和弦圖分析相結(jié)合的方法對圖書情報(bào)領(lǐng)域中的學(xué)科交叉現(xiàn)象進(jìn)了細(xì)致分析,認(rèn)為圖書情報(bào)科學(xué)與計(jì)算機(jī)科學(xué)處于高度交叉狀態(tài)且已從研究對象層面交叉轉(zhuǎn)向技術(shù)層面交叉。
總體而言,一個(gè)學(xué)科的交叉特性多能夠在其研究方法上得以體現(xiàn)[26]。司莉等[27]以《中國圖書館學(xué)報(bào)》《情報(bào)學(xué)報(bào)》及《圖書情報(bào)工作》等期刊于2013-2017年所刊載4285篇論文為研究對象,對論文所使用研究方法的統(tǒng)計(jì)結(jié)果表明“實(shí)證分析法+模型展示法”成為我國圖書情報(bào)學(xué)研究中結(jié)合使用最為頻繁的方法。王芳等通過計(jì)量分析發(fā)現(xiàn),計(jì)算機(jī)學(xué)科是圖書情報(bào)學(xué)中方法[28]、理論[29]來源占比最高的學(xué)科。對于海外圖書情報(bào)學(xué),陶俊等[30]統(tǒng)計(jì)了JASIST、IPM及JIS等5種國際一流期刊于2013年和2018年兩個(gè)時(shí)間窗內(nèi)的研究方法使用情況,指出計(jì)算測試——計(jì)算機(jī)科學(xué)研究范式,已逐步成為當(dāng)前海外圖書情報(bào)學(xué)研究中應(yīng)用比重最高的方法。事實(shí)上,隨著跨學(xué)科合作成為當(dāng)前知識生產(chǎn)的主流模式,以計(jì)算機(jī)為代表的學(xué)科對圖書情報(bào)學(xué)的滲透和影響不斷強(qiáng)化[31],借助利用計(jì)算機(jī)領(lǐng)域中的算法、模型或工具解決圖書情報(bào)領(lǐng)域中的研究問題已屢見不鮮[32]。這些在計(jì)算機(jī)領(lǐng)域被視為研究對象的算法、模型或工具,在圖書情報(bào)領(lǐng)域多被作為解決特定問題的研究方法。在這一知識角色轉(zhuǎn)變背景下,本文提出了一種基于跨學(xué)科知識角色遷移規(guī)律的方法實(shí)體識別方法,通過構(gòu)建計(jì)算機(jī)領(lǐng)域中的算法、模型字典完成圖書情報(bào)領(lǐng)域方法實(shí)體語料的標(biāo)注,繼而解決數(shù)據(jù)需求問題,提升識別模型的泛化性和魯棒性。
2.1研究思路概述為了解決圖書情報(bào)領(lǐng)域中的研究方法自動識別問題,本文依據(jù)圖書情報(bào)領(lǐng)域與計(jì)算機(jī)領(lǐng)域間的知識角色遷移規(guī)律,提出了一種基于弱監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,通過大批量標(biāo)注樣本的訓(xùn)練擬合,實(shí)現(xiàn)更加精確和魯棒的圖書情報(bào)學(xué)研究方法識別。本文的整體研究框架如圖1所示,總共可分為3個(gè)步驟:a.數(shù)據(jù)獲取及預(yù)處理。采用字典結(jié)合bootstrapping的自學(xué)習(xí)策略獲取圖書情報(bào)領(lǐng)域中的方法字典,這些方法均為計(jì)算機(jī)領(lǐng)域中的算法、模型等實(shí)體,基于該字典完成訓(xùn)練語料的標(biāo)注;b.深度學(xué)習(xí)模型選擇。選擇當(dāng)前3種較為主流前沿的神經(jīng)網(wǎng)絡(luò)模型,通過實(shí)驗(yàn)檢測方法實(shí)體識別的效果;c.方法實(shí)體識別,應(yīng)用經(jīng)訓(xùn)練擬合后的模型完成學(xué)術(shù)文本中研究方法的識別。
圖1 研究方法實(shí)體識別整體框架
2.2數(shù)據(jù)獲取及預(yù)處理鑒于計(jì)算機(jī)領(lǐng)域中的算法及模型在圖書情報(bào)領(lǐng)域中通常作為解決研究問題的方法出現(xiàn),本文提出了一種基于跨學(xué)科知識角色遷移規(guī)律的數(shù)據(jù)自動標(biāo)注策略。具體而言,首先從百度學(xué)術(shù)、谷歌學(xué)術(shù)中收集本次研究所需的原始數(shù)據(jù)語料;其次,采用人工結(jié)合bootstrapping的方法構(gòu)建計(jì)算機(jī)領(lǐng)域的算法模型字典集;隨后,應(yīng)用計(jì)算機(jī)領(lǐng)域的算法模型字典匹配圖書情報(bào)領(lǐng)域的文本數(shù)據(jù),基于計(jì)算機(jī)領(lǐng)域與圖書情報(bào)領(lǐng)域間的知識角色遷移規(guī)律,將出現(xiàn)在圖書情報(bào)文獻(xiàn)中的計(jì)算機(jī)算法或模型均默認(rèn)為其研究方法,得到批量關(guān)于方法實(shí)體的標(biāo)注數(shù)據(jù)。
表1 數(shù)據(jù)獲取及預(yù)處理結(jié)果概覽
在數(shù)據(jù)采集方面,獲取《計(jì)算機(jī)學(xué)報(bào)》《軟件學(xué)報(bào)》《計(jì)算機(jī)工程》及《計(jì)算機(jī)科學(xué)》等12本計(jì)算機(jī)領(lǐng)域期刊2010-2019年刊載的學(xué)術(shù)文獻(xiàn)共計(jì)251 362篇;獲取《中國圖書館學(xué)報(bào)》《情報(bào)學(xué)報(bào)》及《圖書情報(bào)工作》等21本圖書情報(bào)領(lǐng)域期刊于2010年-2019年刊載的學(xué)術(shù)文獻(xiàn)共計(jì)8 586篇。在獲取原始文獻(xiàn)數(shù)據(jù)后,考慮到論文全文中含有大量與方法實(shí)體無關(guān)的語句,本文選用信息量更為富集的文獻(xiàn)摘要作為訓(xùn)練語料的獲取來源。
在計(jì)算機(jī)領(lǐng)域算法及模型的字典構(gòu)建上,本文首先采用規(guī)則結(jié)合人工的方式從計(jì)算機(jī)語料中獲取了3000個(gè)常見算法及模型實(shí)體詞,作為bootstrapping策略的原始字典。隨后應(yīng)用原始字典從計(jì)算機(jī)語料中匹配出若干條描述字典中算法或模型的語句,對該語句標(biāo)注并用以完成NER模型訓(xùn)練。最后,利用擬合好的NER模型對計(jì)算機(jī)語料進(jìn)行算法、模型的實(shí)體識別,將識別出的算法模型實(shí)體擴(kuò)充至原字典。對上述步驟多次重復(fù)迭代后,得到規(guī)模大小約為9 000的計(jì)算機(jī)領(lǐng)域模型算法字典。
在圖書情報(bào)理領(lǐng)域方法標(biāo)注語料獲取方面,本文應(yīng)用擴(kuò)充后的計(jì)算機(jī)領(lǐng)域模型算法字典從圖書情報(bào)領(lǐng)域語料中匹配出6 642條含有字典中算法或模型的語句,通過人工過濾后得到6 133條關(guān)于圖書情報(bào)領(lǐng)域研究方法的標(biāo)注語料。
2.3關(guān)鍵技術(shù)描述為識別圖書情報(bào)領(lǐng)域?qū)W術(shù)文獻(xiàn)中的研究方法,本文采用了一種跨學(xué)科知識角色遷移規(guī)律的數(shù)據(jù)標(biāo)注策略,以解決現(xiàn)有研究中數(shù)據(jù)獲取成本高昂的問題。在實(shí)驗(yàn)設(shè)置上,選擇了當(dāng)前較為主流及前沿的3種神經(jīng)網(wǎng)絡(luò)模型用以測試研究方法的識別效果。下面對這3種模型進(jìn)行概要介紹。
2.3.1 BiLSTM+CRF LSTM(長短時(shí)記憶網(wǎng)絡(luò),Long Short-Term Memory)作為RNN (循環(huán)神經(jīng)網(wǎng)絡(luò),Recurrent Neural Network)的一種改進(jìn),解決了傳統(tǒng)RNN中反向傳播所導(dǎo)致的梯度消失和梯度爆炸問題[33]。通過引入輸入門、遺忘門和輸出門等機(jī)制,LSTM能夠較好的存取序列中歷史關(guān)聯(lián)信息。BiLSTM(雙向長短時(shí)記憶網(wǎng)絡(luò))則是使用兩層LSTM從正向和反向進(jìn)行序列信息捕獲。CRF(條件隨機(jī)場,Conditional Random Field)是一種鑒別式概率模型,因能對標(biāo)簽轉(zhuǎn)移關(guān)系建模而被廣泛應(yīng)用于序列標(biāo)注任務(wù)中[34]。
圖2 基于BiLSTM+CRF實(shí)體識別模型
2.3.2 BERT BERT(Bidirectional Encoder Representation from Transformers)是Google AI團(tuán)隊(duì)于2018年提出了一種基于Attention機(jī)制[37]的預(yù)訓(xùn)練模型[38]。作為當(dāng)前最為前沿的深度學(xué)習(xí)模型, BERT網(wǎng)絡(luò)模型能夠在字符、詞匯及語句三個(gè)粒度層面實(shí)現(xiàn)文本的語義特征挖掘,學(xué)習(xí)文本中的詞性、句法和語義等潛在信息(見圖3)。相較傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型,BERT網(wǎng)絡(luò)采用Transformer作為模型的基本構(gòu)架,多層可疊加的self-attention使得BERT模型能夠無視空間和距離學(xué)習(xí)序列中的詞位交互信息。此外,為彌補(bǔ)self-attention機(jī)制所引起的序列位置信息損失,BERT使用了position encoding層記錄序列中每個(gè)元素的所在位置。
圖3 BERT多粒度特征挖掘示意圖
基于BERT模型的研究方法識別可看作為聯(lián)合學(xué)習(xí)(Joint learning)策略[39]下的序列標(biāo)注任務(wù),即要求模型同時(shí)完成BERT網(wǎng)絡(luò)自身中的語句配對任務(wù)以及本次研究中方法實(shí)體詞的BIO標(biāo)注任務(wù)。通過共享各項(xiàng)任務(wù)中模型所學(xué)習(xí)的特征信息,多任務(wù)學(xué)習(xí)模式下的神經(jīng)網(wǎng)絡(luò)模型具備更強(qiáng)的泛化能力,因而能夠?qū)W(xué)術(shù)文本中的研究方法實(shí)體更為魯棒的識別。
2.3.3 ALBERT BERT預(yù)訓(xùn)練模型在眾多NLP任務(wù)均獲取了不俗表現(xiàn),但高達(dá)數(shù)億的參數(shù)量也引起了諸多其他問題,如硬件算力要求苛刻、模型訓(xùn)練時(shí)間過長以及小批量數(shù)據(jù)下易欠擬合等。為了提高參數(shù)的利用效率,Lan在BERT的基礎(chǔ)上提出了更為精巧的ALBERT模型[40]。通過在嵌入層分解詞向量矩陣(factorized embedding parameterization)以降低其維度,并在全連接層和注意力層采用參數(shù)共享機(jī)制(cross-layer parameter sharing)的同時(shí)移除dropout策略,ALBERT網(wǎng)絡(luò)有效減少了模型參數(shù)量 (BERT_large參數(shù)大大小為334M,ALBER_large參數(shù)大小僅為18M),解決了BERT網(wǎng)絡(luò)中的模型退化問題。
與BERT網(wǎng)絡(luò)相似,基于ALBERT模型的研究方法識別同樣可視為聯(lián)合學(xué)習(xí)下的序列標(biāo)注。稍有區(qū)別的是ALBERT將BERT中原有的句子匹配任務(wù)(Next sentence prediction)替換為語序預(yù)測(Sentence Order Prediction),以提高模型在句對關(guān)系推理上的能力。
3.1實(shí)驗(yàn)環(huán)境及評價(jià)指標(biāo)本文的所有實(shí)驗(yàn)均在表2所示的環(huán)境配置中完成。
表2 實(shí)驗(yàn)環(huán)境
在評價(jià)指標(biāo)上,選擇查準(zhǔn)率(precision)、召回率(recall)及F1值來檢測模型對于圖書情報(bào)領(lǐng)域研究方法實(shí)體的識別效果。其中,F(xiàn)1值為查準(zhǔn)率和召回率的調(diào)和平均數(shù),用以評價(jià)模型的綜合性能,計(jì)算公式如下:
F1=(Precision+Recall)/2
(1)
3.2優(yōu)化策略參數(shù)設(shè)定及優(yōu)化策略對于BiLSTM+CRF模型,選用序列標(biāo)注任務(wù)中常用的預(yù)設(shè)初始參數(shù)值,經(jīng)40個(gè)epoch迭代調(diào)優(yōu)后:向量化維度為100,LSTM神經(jīng)元數(shù)為100,batch_size為32,學(xué)習(xí)率設(shè)置為0.001,選擇Relu激活函數(shù)作為正則化方法,droupout設(shè)置為0.5,應(yīng)用Adam梯度下降法加快模型的收斂速度,采用Glove向量化。
對于BERT模型,使用base及l(fā)arge兩個(gè)版本進(jìn)行對比試驗(yàn)。其中,應(yīng)用bert_base_config.json文件和bert_large_congfig.json文件設(shè)置相應(yīng)參數(shù)初始值,經(jīng)多40個(gè)epoch迭代調(diào)優(yōu)后:向量化維度為512,batch_size為32,學(xué)習(xí)率設(shè)置為5e-5,選擇Gelu激活函數(shù)作為正則化方法,attention_dropout設(shè)為0.1,使用Adam梯度優(yōu)化策略。
對于ALBERT模型,同使用base及l(fā)arge兩個(gè)版本進(jìn)行對比試驗(yàn)。其中,應(yīng)用albert_base_config.json文件和albert_large_congfig.json文件設(shè)置相應(yīng)參數(shù)初始值,經(jīng)多40個(gè)epoch迭代調(diào)優(yōu)后:向量化維度為128,隱藏層維度為1024,學(xué)習(xí)率設(shè)置為5e-5,選擇Gelu激活函數(shù)作為正則化方法,attention_dropout設(shè)為0,同樣使用Adam梯度優(yōu)化策略。
3.3實(shí)驗(yàn)結(jié)果及分析本文分別選用了BiLSTM+CRF、BERT以及ALBERT三種深度學(xué)習(xí)模型進(jìn)行對照實(shí)驗(yàn),以檢驗(yàn)本文所提出方法實(shí)體識別方法的表現(xiàn)效果?;跀?shù)據(jù)集規(guī)模采用了5折交叉驗(yàn)證的方式得到各模型最終的平均評測結(jié)果,如表3所示(其中,BERT與ALBERT分別使用了base和 large兩個(gè)版本進(jìn)行實(shí)驗(yàn))。
就整體識別效果而言,通過多輪迭代訓(xùn)練,本文所選用的三種模型均能在本次方法實(shí)體識別任務(wù)中取得較好的效果,在各項(xiàng)評測指標(biāo)上的實(shí)驗(yàn)結(jié)果均不低于93%,該結(jié)果表明大規(guī)模訓(xùn)練語料下的深度學(xué)習(xí)模型能夠在詞匯粒度層面對非結(jié)構(gòu)化文本中的方法類實(shí)體予以有效識別。其次,通過對比各個(gè)模型的具體效果可知,BiLSTM+CRF的識別效果最優(yōu),在Precision、Recall和F1-Score三項(xiàng)指標(biāo)上的結(jié)果數(shù)值均略高于其他模型。針對該現(xiàn)象,筆者認(rèn)為BERT及ALBERT模型雖然通過多粒度特征關(guān)系挖掘來進(jìn)一步增加詞向量模型的泛化能力,依靠字符、詞匯及語句層面的文本語義表征實(shí)現(xiàn)更為魯棒的潛在上下文信息捕獲,但自注意力機(jī)制所導(dǎo)致的位置信息丟失使得模型無法對序列數(shù)據(jù)中上下文信息的依賴關(guān)系進(jìn)行較好關(guān)聯(lián)。即使 BERT及ALBERT模型均引入了Position-Encoding層以期編碼文本的絕對位置信息,但字符相對位置信息的丟失使其無法較好的直接適用于對位置信息表現(xiàn)敏感的序列標(biāo)注任務(wù)。相較而言,BiLSTM能夠在迭代循環(huán)機(jī)制中直接通過順序結(jié)構(gòu)及時(shí)間維度獲取文本的相對和絕對位置信息,因此在研究方法實(shí)體識別的表現(xiàn)上,BiLSTM+CRF模型較BERT及ALBERT模型更優(yōu)。
對于BERT及ALBERT模型而言,BERT模型以微弱優(yōu)勢略勝于ALBERT模型,但ALBERT模型在本次任務(wù)中的訓(xùn)練擬合時(shí)間顯著低于BERT模型,該結(jié)果表明ALBERT模型能夠在大幅度降低計(jì)算量的同時(shí)仍能保持較好的方法實(shí)體識別性能。其次,通過增加網(wǎng)絡(luò)層數(shù)和對應(yīng)參數(shù),BERT及ALBERT的 large版本均能夠在原base版本的基礎(chǔ)上得到小幅度提升,但提升效果也較為有限,差值僅在1%以內(nèi)。
表3 各類模型實(shí)驗(yàn)結(jié)果
本文提出了一種基于知識角色遷移規(guī)律的圖書情報(bào)領(lǐng)域研究方法自動識別方案,為驗(yàn)證該方法的真實(shí)有效性,本文采用人工標(biāo)注的形式獲取了200條數(shù)據(jù)以用于實(shí)驗(yàn)測試。具體標(biāo)注方法如下:由1位情報(bào)學(xué)博士研究生和2位情報(bào)學(xué)碩士研究生對隨機(jī)抽取的200條數(shù)據(jù)進(jìn)行人工標(biāo)注。標(biāo)注過程分為兩輪,第一輪由個(gè)人獨(dú)立標(biāo)注,對于個(gè)人不能確定的數(shù)據(jù)或標(biāo)注不一致的數(shù)據(jù),由3位同學(xué)在第二輪中投票決定。最后,使用Kappa系數(shù)[41]進(jìn)行人工標(biāo)注數(shù)據(jù)的一致性校驗(yàn),計(jì)算結(jié)果(Kappa=0.89>0.8)顯示該數(shù)據(jù)具備較高的置信度。表4為3種模型在人工標(biāo)注數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果。
表4 人工標(biāo)注數(shù)據(jù)實(shí)驗(yàn)結(jié)果
選取BiLSTM+CRF、BERT(large)以及ALBERT(large)進(jìn)行實(shí)驗(yàn)測試,從表4結(jié)果可知,各個(gè)模型均在所有指標(biāo)上出現(xiàn)了不同程度的下降,但總體而言尚可接受。其中,LSTM的各項(xiàng)表現(xiàn)下降最為明顯,這是由于BERT及ALBERT自身攜有的強(qiáng)大語義表征能力能夠支持模型更好的捕獲文本上下文信息,該結(jié)果表明BERT及ALBERT模型相較于LSTM模型具有更優(yōu)的泛化性和魯棒性。其次,針對于各項(xiàng)指標(biāo),各個(gè)模型在召回率(Recall)上的下降程度整體上明顯高于準(zhǔn)確率(Precision)。通過錯(cuò)例分析發(fā)現(xiàn),對于圖書情報(bào)文獻(xiàn)中的模型及算法類方法實(shí)體,模型通常能夠以相對較高的準(zhǔn)確率和召回率予以識別,但對于其他描述形式的方法實(shí)體,由于命名實(shí)體識別模型在訓(xùn)練過程中缺乏足夠的數(shù)據(jù)進(jìn)行特征捕獲,因此在模型及算法之外的方法實(shí)體識別表現(xiàn)上較為有限,尤其在召回率上表現(xiàn)糟糕。造成該結(jié)果的主要原因在于數(shù)據(jù)標(biāo)注所構(gòu)建的種子字典中只囊括了計(jì)算機(jī)領(lǐng)域中的算法和模型,導(dǎo)致標(biāo)注語料中方法類實(shí)體的外在特征較為單一且顯著,過于依賴該特征的方法實(shí)體識別模型無法獲得一個(gè)較為可觀的魯棒性能。人工標(biāo)注數(shù)據(jù)集上的測試結(jié)果顯現(xiàn)出本文所提出的方法在泛化性上仍具有較大的提升空間,因此,在后續(xù)研究中將采用與BERT模型相似的Mask機(jī)制對語句中的方法實(shí)體詞進(jìn)行隨機(jī)概率遮掩,迫使模型學(xué)習(xí)語句中的語法等信息,進(jìn)而弱化方法實(shí)體詞本身的詞匯特征信息,以進(jìn)一步提升識別模型的泛化性能。此外,應(yīng)用BERT結(jié)合BiLSTM的方式,在獲取BERT強(qiáng)大語義表征能力的同時(shí)借助BiLSTM完成文本位置信息的編碼,實(shí)現(xiàn)對圖書情報(bào)學(xué)研究方法實(shí)體更為精準(zhǔn)和魯棒的識別。
本文的目的是在詞匯粒度層面實(shí)現(xiàn)圖書情報(bào)領(lǐng)域中方法實(shí)體的自動抽取。針對現(xiàn)有基于機(jī)器學(xué)習(xí)的方法實(shí)體識別研究中存在的數(shù)據(jù)獲取難題,本文提出了一種基于深度學(xué)習(xí)和知識角色遷移規(guī)律的學(xué)術(shù)文本研究方法識別策略,通過分析圖書情報(bào)領(lǐng)域與計(jì)算機(jī)領(lǐng)域之間的知識流入流出特性,在依循知識角色遷移規(guī)律的基礎(chǔ)上實(shí)現(xiàn)大規(guī)模的數(shù)據(jù)批量標(biāo)注,最后采用序列標(biāo)注的任務(wù)形式獲取非結(jié)構(gòu)化文本中的方法實(shí)體詞。實(shí)驗(yàn)結(jié)果表明,雖然本文的假設(shè)前提具有一定的風(fēng)險(xiǎn)性,即將出現(xiàn)在圖書情報(bào)領(lǐng)域中的計(jì)算機(jī)學(xué)算法及模型均視為其解決問題的研究方法,但通過大規(guī)模語料的有監(jiān)督學(xué)習(xí),本文中的深度學(xué)習(xí)模型能夠在方法實(shí)體識別上獲得較為可觀的表現(xiàn)效果。
本研究仍然存在諸多不足:首先,本文僅考慮了算法和模型這兩種在圖書情報(bào)領(lǐng)域中應(yīng)用較為頻繁的方法實(shí)體,與之相似的實(shí)體詞還包括計(jì)算機(jī)領(lǐng)域中的軟件、系統(tǒng)及工具等;其次,與圖書情報(bào)領(lǐng)域存在較多知識流入流出的領(lǐng)域?qū)W科還包括:檔案出版學(xué)、新聞與傳播及高等教育等,這些領(lǐng)域中的技術(shù)或理論也多被作為方法在圖書情報(bào)領(lǐng)域中廣為應(yīng)用;最后,基于字典和自學(xué)習(xí)策略的數(shù)據(jù)獲取方式,存在字符特征過強(qiáng)的問題。在未來研究中將通過構(gòu)建更為多源、多樣的方法類實(shí)體字典,同時(shí)應(yīng)用同義替換、隨機(jī)掩蓋等數(shù)據(jù)增強(qiáng)技術(shù),以實(shí)現(xiàn)更加精確和魯棒的方法實(shí)體識別。