孟旭陽(yáng) 白海燕
(中國(guó)科學(xué)技術(shù)信息研究所 北京 100038)
語(yǔ)步是語(yǔ)言學(xué)概念,指實(shí)現(xiàn)完整交流功能的一個(gè)修辭單位[1]。在科技論文的摘要中,作者一般會(huì)說明研究的目的、方法、結(jié)果以及結(jié)論等要素,這些要素被稱為科技論文摘要的語(yǔ)步。近年來,國(guó)內(nèi)外在語(yǔ)步自動(dòng)識(shí)別領(lǐng)域的相關(guān)研究中取得了較多的研究成果。
以科技論文為例,摘要語(yǔ)步自動(dòng)識(shí)別研究的終極目標(biāo)在于更好的對(duì)論文中主要意圖和科學(xué)知識(shí)進(jìn)行揭示,使科研人員閱讀文獻(xiàn)摘要時(shí)能夠快速、準(zhǔn)確了解論文的主要內(nèi)容,提升閱讀效率,同時(shí)更好地支撐基于科技論文的情報(bào)分析與知識(shí)發(fā)現(xiàn)。
然而,在各大學(xué)術(shù)檢索系統(tǒng),如WOS、PubMed、Wiley、CNKI、百度學(xué)術(shù)和萬(wàn)方等平臺(tái)目前都未發(fā)現(xiàn)提供語(yǔ)步成果的相關(guān)應(yīng)用功能服務(wù)。是學(xué)術(shù)研究成果成熟度不夠還是在工程化應(yīng)用中面臨著應(yīng)用難點(diǎn)?目前較為先進(jìn)成熟的摘要語(yǔ)步識(shí)別研究成果是否能夠投入實(shí)際應(yīng)用,如何進(jìn)行應(yīng)用,在加速推動(dòng)知識(shí)化服務(wù)建設(shè)上具有重要的意義。
本文重點(diǎn)關(guān)注面向?qū)W術(shù)檢索系統(tǒng)的應(yīng)用測(cè)評(píng)和應(yīng)用策略研究,以國(guó)家科技圖書文獻(xiàn)中心(以下簡(jiǎn)稱NSTL)為例,針對(duì)在NSTL實(shí)際應(yīng)用中需要考慮的應(yīng)用條件、場(chǎng)景、數(shù)據(jù)特點(diǎn)等,制定多維度的測(cè)評(píng)方案,對(duì)目前較為先進(jìn)的基于BERT深度學(xué)習(xí)模型的語(yǔ)步識(shí)別效果進(jìn)行多維度測(cè)評(píng)和結(jié)果分析,評(píng)估目前語(yǔ)步識(shí)別成果在實(shí)際應(yīng)用中的可行性及存在問題,并以NSTL為例,制定相應(yīng)的優(yōu)化策略和應(yīng)用方案,解決應(yīng)用問題,促進(jìn)語(yǔ)步識(shí)別研究成果的落地應(yīng)用。
摘要語(yǔ)步識(shí)別已有相關(guān)研究主要分為基于規(guī)則的方法、機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法三大類。
基于規(guī)則的方法主要通過一些啟發(fā)式定義的函數(shù)或組合特征,基于詞頻、位置等信息構(gòu)建特征模板。Milward等[2]對(duì)醫(yī)學(xué)領(lǐng)域文獻(xiàn)的摘要進(jìn)行了分析,提出了基于本體的科學(xué)文獻(xiàn)交互信息提取模型。Cross等[3]從語(yǔ)義組織和主題結(jié)構(gòu)兩個(gè)方面分析原生動(dòng)物學(xué)領(lǐng)域的文獻(xiàn)摘要,探索了摘要中各語(yǔ)步內(nèi)容的語(yǔ)義特點(diǎn)。杜圣梅等[4]對(duì)醫(yī)學(xué)領(lǐng)域的科技文獻(xiàn)摘要內(nèi)容特征進(jìn)行分析,使用PIBOSO模型給出了摘要中一些語(yǔ)步特征的抽取方法。鄭夢(mèng)悅等[5]基于知識(shí)元本體理論,對(duì)各個(gè)語(yǔ)步功能句中的線索詞、句型和位置,建立相關(guān)規(guī)則庫(kù),設(shè)計(jì)了非結(jié)構(gòu)化摘要語(yǔ)步信息的抽取算法。一般來說,基于規(guī)則的方法識(shí)別準(zhǔn)確度較高,但往往針對(duì)特定語(yǔ)言、特定領(lǐng)域等,具有一定的局限性,可移植性低,且規(guī)則特征模板的設(shè)計(jì)繁瑣耗時(shí),代價(jià)較高。
基于機(jī)器學(xué)習(xí)的方法大致可以分為兩類:一類是將語(yǔ)步自動(dòng)識(shí)別看作文本自動(dòng)分類任務(wù),即對(duì)論文摘要中的句子語(yǔ)步功能類別進(jìn)行劃分,利用文本分類算法模型實(shí)現(xiàn)語(yǔ)步的自動(dòng)識(shí)別。另一類是把語(yǔ)步識(shí)別問題轉(zhuǎn)化為序列標(biāo)注問題,根據(jù)各類別在文本中出現(xiàn)的位置順序規(guī)律來識(shí)別文本片段所屬的類。Wu等[6]提出了隱馬爾可夫模型對(duì)摘要中的語(yǔ)步進(jìn)行識(shí)別。McKnight等[7-8]構(gòu)建了支持向量機(jī)模型,對(duì)文獻(xiàn)摘要句子進(jìn)行分類。Hirohata等[9]利用條件隨機(jī)場(chǎng)構(gòu)建語(yǔ)步識(shí)別模型,取得了良好的識(shí)別效果。機(jī)器學(xué)習(xí)的方法識(shí)別性能良好,但大多為特征工程,依賴精心設(shè)計(jì)的詞匯、語(yǔ)義、結(jié)構(gòu)、統(tǒng)計(jì)等特征。
近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,越來越多的研究者將深度學(xué)習(xí)方法應(yīng)用到語(yǔ)步識(shí)別中。沈思等[10]提出了基于Bi-LSTM-CRF模型的全字語(yǔ)義摘要結(jié)構(gòu)功能自動(dòng)識(shí)別方法,實(shí)現(xiàn)了字粒度上的摘要語(yǔ)步內(nèi)容自動(dòng)識(shí)別。張智雄[11]等對(duì)不同深度學(xué)習(xí)模型的科技論文摘要語(yǔ)步識(shí)別效果進(jìn)行了對(duì)比研究,認(rèn)為深度學(xué)習(xí)方法在語(yǔ)步識(shí)別中具有較大的優(yōu)越性。特別是2018年10月,谷歌的Devlin等[12]發(fā)布的BERT受到了廣泛關(guān)注,一些學(xué)者基于BERT開展了語(yǔ)步識(shí)別工作[13]。王末等[14]結(jié)合句子文中位置改進(jìn)BERT模型輸入,同時(shí)在句子表征輸出單元之上增加多層感知機(jī)分類器,實(shí)現(xiàn)了語(yǔ)步分類,語(yǔ)步識(shí)別效果較好。Gaihong Yu等[15]提出的一種基于BERT的掩藏句子模型 (masked sentence model, MSM),對(duì)文摘中的語(yǔ)步開展自動(dòng)識(shí)別,該模型能夠充分學(xué)習(xí)摘要句子的上下文特征,提高整體識(shí)別性能,在PubMed 20k RCT 數(shù)據(jù)集上與其他基于BERT的方法進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果表明具有更好的標(biāo)注效果?;谏疃葘W(xué)習(xí)的方法避免了繁瑣的“特征工程”,能夠?qū)崿F(xiàn)精準(zhǔn)自動(dòng)識(shí)別并提高語(yǔ)步識(shí)別的效果。
在應(yīng)用研究上,國(guó)內(nèi)外已有不少學(xué)者在學(xué)術(shù)論文論證結(jié)構(gòu)上的相關(guān)研究證明,基于論文結(jié)構(gòu)的論證知識(shí)提取對(duì)于知識(shí)組織、語(yǔ)義檢索、知識(shí)發(fā)現(xiàn)等有重要的應(yīng)用價(jià)值和較好的知識(shí)服務(wù)能力[16]。黃永等[17]探討了學(xué)術(shù)文本全文層面的結(jié)構(gòu)功能在學(xué)術(shù)搜索中的作用,證明了學(xué)術(shù)文本的結(jié)構(gòu)功能在學(xué)術(shù)搜索中具有應(yīng)用價(jià)值。孟旭陽(yáng)等[18]分析了學(xué)術(shù)文獻(xiàn)摘要中目的、方法、結(jié)論等結(jié)構(gòu)功能代表的語(yǔ)義特征對(duì)關(guān)鍵詞抽取效果的提升有良好的作用。但是目前還沒有相關(guān)研究面向?qū)W術(shù)檢索系統(tǒng)中的知識(shí)服務(wù)對(duì)論文摘要語(yǔ)步識(shí)別研究成果進(jìn)行應(yīng)用測(cè)評(píng)和應(yīng)用探索,也并未發(fā)現(xiàn)相關(guān)的工程化實(shí)際應(yīng)用。因此,本文將選擇較為先進(jìn)語(yǔ)步識(shí)別模型開展面向?qū)嶋H學(xué)術(shù)檢索系統(tǒng)的應(yīng)用測(cè)評(píng)和應(yīng)用方案研究,給出面向應(yīng)用的策略和建議,以期促進(jìn)語(yǔ)步識(shí)別研究成果在學(xué)術(shù)檢索系統(tǒng)知識(shí)服務(wù)中的落地應(yīng)用。
為了促進(jìn)科技論文語(yǔ)步識(shí)別研究成果在實(shí)際系統(tǒng)中的應(yīng)用,以NSTL為例,深度分析和梳理面向應(yīng)用條件、應(yīng)用場(chǎng)景、數(shù)據(jù)特點(diǎn)等應(yīng)用問題,制定面向應(yīng)用的多維度測(cè)評(píng)方案,開展大樣本量的科技論文數(shù)據(jù)測(cè)評(píng)和結(jié)果分析,最終面向NSTL應(yīng)用給出具體的應(yīng)用策略和建議。本文研究設(shè)計(jì)框架如圖1所示。
圖1 研究設(shè)計(jì)框架圖
如圖1所示,本文的研究過程共包括6個(gè)部分。
a.面向NSTL的工程化集成應(yīng)用,梳理應(yīng)用問題。本文從應(yīng)用條件、應(yīng)用場(chǎng)景、數(shù)據(jù)特點(diǎn)等三個(gè)方面分析梳理投入NSTL實(shí)際應(yīng)用應(yīng)考慮的問題。具體主要包括:在應(yīng)用條件上,需要通過準(zhǔn)確率等測(cè)評(píng)指標(biāo)評(píng)估上線服務(wù)的可行性和實(shí)用性,切實(shí)保證服務(wù)質(zhì)量。在應(yīng)用場(chǎng)景上,應(yīng)結(jié)合不同場(chǎng)景的應(yīng)用方式和應(yīng)用內(nèi)容,評(píng)估語(yǔ)步要素?cái)?shù)量的適宜性。在數(shù)據(jù)特點(diǎn)上,一方面,針對(duì)NSTL數(shù)據(jù)資源涵蓋理工農(nóng)醫(yī)四大領(lǐng)域的特點(diǎn),應(yīng)評(píng)測(cè)語(yǔ)步識(shí)別在各領(lǐng)域?qū)W科上的通用性;另一方面,科技論文的摘要存在自有結(jié)構(gòu)化要素文摘和非結(jié)構(gòu)化文摘兩種類型,有必要面向不同文摘類型數(shù)據(jù)開展語(yǔ)步識(shí)別效果測(cè)評(píng)以支撐應(yīng)用策略研究。
b.制定多維度的測(cè)評(píng)方案。根據(jù)上述分析和梳理的具體應(yīng)用問題,制定有針對(duì)性的測(cè)評(píng)方案,包括準(zhǔn)確性與實(shí)用性測(cè)評(píng)、語(yǔ)步要素類型適宜性測(cè)評(píng)、學(xué)科領(lǐng)域通用性、不同文摘類型對(duì)比測(cè)評(píng)等多維度測(cè)評(píng)內(nèi)容,為后續(xù)的應(yīng)用策略和應(yīng)用方案提供切實(shí)參考依據(jù)。為保證測(cè)評(píng)質(zhì)量,通過自動(dòng)化測(cè)評(píng)和人工測(cè)評(píng)相結(jié)合的方式,實(shí)現(xiàn)更加高效、精準(zhǔn)的測(cè)評(píng)。
c.測(cè)評(píng)數(shù)據(jù)構(gòu)建。以NSTL實(shí)際英文科技論文數(shù)據(jù)為對(duì)象,根據(jù)測(cè)評(píng)方案涉及的要點(diǎn),構(gòu)建大體量的、學(xué)科領(lǐng)域涵蓋全面的、囊括多樣化文摘類型的測(cè)評(píng)數(shù)據(jù),充分支撐測(cè)評(píng)分析內(nèi)容。
d.基于BERT深度學(xué)習(xí)模型的語(yǔ)步識(shí)別效果測(cè)評(píng)。通過相關(guān)研究的調(diào)研和分析,本文選取Yu等[15]文章中基于BERT的掩藏句子模型 (masked sentence model, MSM)的語(yǔ)步自動(dòng)識(shí)別方法,該模型能夠充分學(xué)習(xí)摘要句子的上下文特征,提高整體識(shí)別性能,在現(xiàn)有研究中具有一定的代表性和先進(jìn)性。因此,本文選取該模型作為測(cè)評(píng)模型,開展面向應(yīng)用的語(yǔ)步識(shí)別效果測(cè)評(píng)。
e.測(cè)評(píng)結(jié)果分析。對(duì)測(cè)評(píng)實(shí)驗(yàn)結(jié)果進(jìn)行統(tǒng)計(jì),開展不同維度以及橫向縱向的對(duì)比分析,并針對(duì)測(cè)評(píng)內(nèi)容和面向?qū)嶋H應(yīng)用的具體問題進(jìn)行討論分析。
f.應(yīng)用策略及建議。根據(jù)測(cè)評(píng)結(jié)果分析,梳理存在的應(yīng)用問題和應(yīng)用難點(diǎn),從NSTL的實(shí)際應(yīng)用角度出發(fā),給出具體的應(yīng)用策略和建議。
語(yǔ)步識(shí)別效果測(cè)評(píng)過程主要包括:測(cè)評(píng)數(shù)據(jù)構(gòu)建、結(jié)構(gòu)化摘要語(yǔ)步要素類型分析與語(yǔ)步提取、基于BERT模型的語(yǔ)步識(shí)別、結(jié)果測(cè)評(píng)等4個(gè)部分,如圖2所示。
如圖2所示,首先開展測(cè)評(píng)數(shù)據(jù)的構(gòu)建、語(yǔ)步識(shí)別模型的準(zhǔn)備;然后,對(duì)結(jié)構(gòu)化摘要數(shù)據(jù)中包含的語(yǔ)步要素類型進(jìn)行梳理總結(jié),進(jìn)而對(duì)結(jié)構(gòu)化摘要進(jìn)行語(yǔ)步要素內(nèi)容的提取。一方面,將梳理總結(jié)的語(yǔ)步要素類型與語(yǔ)步識(shí)別模型支持的語(yǔ)步要素類型進(jìn)行對(duì)比分析;另一方面,結(jié)構(gòu)化摘要的語(yǔ)步提取為每個(gè)句子添加語(yǔ)步要素標(biāo)簽,支撐自動(dòng)化測(cè)評(píng)。其次,通過基于BERT的掩藏句子模型[15]對(duì)測(cè)評(píng)數(shù)據(jù)進(jìn)行語(yǔ)步識(shí)別;最后,開展語(yǔ)步識(shí)別結(jié)果測(cè)評(píng)。在測(cè)評(píng)方法上,針對(duì)不同摘要類型數(shù)據(jù)特點(diǎn)采取不同的測(cè)評(píng)方法,具體包括:①對(duì)于結(jié)構(gòu)化摘要數(shù)據(jù),以原文摘結(jié)構(gòu)化要素為正確依據(jù),開展大規(guī)模的自動(dòng)化測(cè)評(píng)。②對(duì)于非結(jié)構(gòu)化摘要數(shù)據(jù),因?yàn)闊o(wú)測(cè)評(píng)的正確依據(jù),只能依靠人工判讀,考慮人力和時(shí)間成本,開展隨機(jī)抽樣的人工判讀測(cè)評(píng)方法。
面向NSTL實(shí)際文獻(xiàn)數(shù)據(jù)開展測(cè)評(píng)數(shù)據(jù)的構(gòu)建,為確保測(cè)評(píng)的充分性、真實(shí)性、客觀性、準(zhǔn)確性,本文構(gòu)建較大規(guī)模的數(shù)據(jù)進(jìn)行測(cè)評(píng)。
首先,從NSTL數(shù)據(jù)倉(cāng)儲(chǔ)中抽取數(shù)據(jù),并對(duì)語(yǔ)種、文獻(xiàn)類型、發(fā)表年份、摘要長(zhǎng)度、數(shù)據(jù)量等進(jìn)行了設(shè)置,如表1所示。依據(jù)抽取條件設(shè)置開展數(shù)據(jù)抽取。
表1 數(shù)據(jù)抽取條件設(shè)置
數(shù)據(jù)抽取完成后,根據(jù)模型標(biāo)注結(jié)果的機(jī)器自動(dòng)化效果評(píng)估篩選(依據(jù)語(yǔ)步出現(xiàn)的異常順序等條件自動(dòng)過濾),經(jīng)統(tǒng)計(jì),保留的數(shù)據(jù)量為3 089 610篇,其中,結(jié)構(gòu)化摘要論文數(shù)1 487 038篇,非結(jié)構(gòu)化摘要論文數(shù)1 602 572篇。因此,本文以保留的3 089 610篇數(shù)據(jù)作為測(cè)評(píng)數(shù)據(jù)集開展測(cè)評(píng)分析。
在具有結(jié)構(gòu)化摘要的英文科技論文中,每篇論文使用的結(jié)構(gòu)化語(yǔ)步要素類型在數(shù)量和表達(dá)用詞上并不統(tǒng)一。為了全面了解實(shí)際數(shù)據(jù)中語(yǔ)步要素類型概況,以支撐實(shí)際應(yīng)用中語(yǔ)步要素類型的選擇。本文對(duì)實(shí)際英文科技論文數(shù)據(jù)中的結(jié)構(gòu)化語(yǔ)步要素進(jìn)行分析總結(jié),如表2所示。
表2 結(jié)構(gòu)化語(yǔ)步要素梳理
通過梳理總結(jié)了英文科技論文存在的較為常見的結(jié)構(gòu)化語(yǔ)步要素共18個(gè),共計(jì)45種不同的表達(dá)用詞。如“Objective”語(yǔ)步要素,其他表達(dá)用詞有“Aim”、“Purpose”等,因表達(dá)含義相同,均歸為或者映射為“Objective”語(yǔ)步要素內(nèi)容。
本文基于結(jié)構(gòu)化要素關(guān)鍵詞及表達(dá)用詞,利用正則表達(dá)式完成結(jié)構(gòu)化摘要語(yǔ)步要素對(duì)應(yīng)內(nèi)容的自動(dòng)提取,則每個(gè)句子有了正確的語(yǔ)步要素標(biāo)簽,作為判斷模型識(shí)別正確的依據(jù),支撐結(jié)構(gòu)化摘要數(shù)據(jù)的自動(dòng)化測(cè)評(píng)。
然而,目前語(yǔ)步識(shí)別研究成果中,大多數(shù)研究成果包括本文測(cè)評(píng)模型[15]采用的語(yǔ)步要素均為常見且使用較多的5個(gè)語(yǔ)步要素:“背景”、“目的”、“方法”、“結(jié)果”、“結(jié)論”,這與實(shí)際數(shù)據(jù)中存在18種語(yǔ)步要素的現(xiàn)狀不相符。這就需要討論兩個(gè)問題:①面向?qū)W術(shù)研究使用的5個(gè)語(yǔ)步要素是否能夠滿足和支撐面向工程化應(yīng)用的實(shí)際需求;②在測(cè)評(píng)工作開展中,如何對(duì)實(shí)際數(shù)據(jù)中的18個(gè)語(yǔ)步要素與模型支持的5個(gè)語(yǔ)步要素進(jìn)行合理的映射,以判斷模型識(shí)別結(jié)果正確與否,進(jìn)而開展測(cè)評(píng)分析。
為初步討論問題①,對(duì)測(cè)評(píng)數(shù)據(jù)集中的結(jié)構(gòu)化摘要語(yǔ)步分布情況進(jìn)行統(tǒng)計(jì),如圖3所示。
圖3 測(cè)評(píng)數(shù)據(jù)集中結(jié)構(gòu)化摘要語(yǔ)步分布情況
如圖3所示,可看出在實(shí)際數(shù)據(jù)中當(dāng)前學(xué)術(shù)研究常使用的5個(gè)語(yǔ)步要素占比均較高,“背景”占比10%、“目的”占比15%、“方法”占比21%、 “結(jié)果”占比24%、“結(jié)論”占比24%,一共占比所有語(yǔ)步要素的94%。從一定程度上側(cè)面反映了這5個(gè)語(yǔ)步要素在面向應(yīng)用中具備良好的適宜性。后面小節(jié)也將從準(zhǔn)確性等其他維度進(jìn)一步深度分析5個(gè)語(yǔ)步要素的適宜性。
為討論問題②,需要對(duì)結(jié)構(gòu)化摘要數(shù)據(jù)分為兩類分別進(jìn)行討論,類別A:原始結(jié)構(gòu)化摘要中的語(yǔ)步要素僅包括上述5個(gè)語(yǔ)步要素或?yàn)檫@5個(gè)語(yǔ)步要素中的幾個(gè);類別B:原始結(jié)構(gòu)化摘要中包括上述5個(gè)語(yǔ)步要素外的其他語(yǔ)步要素(即表2中的序號(hào)為6-18的語(yǔ)步要素)。對(duì)于類別A,無(wú)需進(jìn)行其他處理,可直接與模型識(shí)別結(jié)果開展對(duì)照測(cè)評(píng);對(duì)于類別B,則需要對(duì)其他語(yǔ)步要素與5個(gè)語(yǔ)步要素之間進(jìn)行對(duì)照映射,如結(jié)構(gòu)化摘要中存在“局限”語(yǔ)步,不在語(yǔ)步識(shí)別模型支持的5個(gè)語(yǔ)步要素之內(nèi),如何判斷“局限”句子在模型中識(shí)別的正確與否,依據(jù)具體的含義,普遍認(rèn)為模型將“局限”句子內(nèi)容識(shí)別為“結(jié)論”的話是可以被接受的,反之,若識(shí)別為“目的”、“方法”等其他語(yǔ)步則普遍認(rèn)為是不可以被接受的,即認(rèn)為識(shí)別錯(cuò)誤。因此,本文依據(jù)語(yǔ)步要素的具體含義和學(xué)術(shù)研究成果使用的映射方式對(duì)照進(jìn)行映射,具體對(duì)照映射關(guān)系為:將表2中序號(hào)為6、11、12、17的語(yǔ)步要素映射到“結(jié)論”語(yǔ)步,序號(hào)為7-10,13-16,18的語(yǔ)步要素映射到“方法”語(yǔ)步。依據(jù)映射后的語(yǔ)步,與測(cè)評(píng)模型的語(yǔ)步識(shí)別結(jié)果開展測(cè)評(píng)分析。
本文語(yǔ)步識(shí)別效果的測(cè)評(píng),對(duì)于每篇文獻(xiàn)的每個(gè)語(yǔ)步要素,統(tǒng)計(jì)準(zhǔn)確率P(Precision)、召回率 R(Recall)、 F1值(F1-Score),如公式(1)-公式(3)所示。使用F1值指標(biāo)的算術(shù)平均值評(píng)價(jià)各語(yǔ)步的識(shí)別效果。同時(shí),對(duì)每篇文獻(xiàn)統(tǒng)計(jì)Accuracy,如公式(4)所示。通過Accuracy指標(biāo)的算術(shù)平均值評(píng)價(jià)整體標(biāo)注的準(zhǔn)確率。
(1)
(2)
(3)
(4)
對(duì)于每個(gè)語(yǔ)步要素類型i來說, TP(True posit- ives)表示將實(shí)際為語(yǔ)步i且被預(yù)測(cè)為語(yǔ)步i的句子數(shù)。FP(False positives)表示將實(shí)際為其他語(yǔ)步類型但被預(yù)測(cè)為語(yǔ)步i的句子數(shù)。FN(False negatives)表示將實(shí)際為語(yǔ)步i但被預(yù)測(cè)為其他語(yǔ)步類型的句子數(shù)。
自動(dòng)化測(cè)評(píng):對(duì)結(jié)構(gòu)化摘要數(shù)據(jù),采用本文選取的基于BERT的掩藏句子模型開展語(yǔ)步識(shí)別。
測(cè)評(píng)一:語(yǔ)步識(shí)別效果的準(zhǔn)確性與實(shí)用性、當(dāng)前研究使用的5個(gè)語(yǔ)步要素的適宜性。結(jié)構(gòu)化摘要語(yǔ)步識(shí)別效果統(tǒng)計(jì)如表3所示。其中,結(jié)構(gòu)化摘要類別A、類別B的含義已在3.3節(jié)中說明。
表3 結(jié)構(gòu)化摘要語(yǔ)步識(shí)別效果統(tǒng)計(jì)
從表3的結(jié)果中可看出:a.整體的語(yǔ)步識(shí)別準(zhǔn)確率Accuracy平均值達(dá)70.88%,在NSTL的大體量科技論文數(shù)據(jù)中平均識(shí)別效果良好,準(zhǔn)確率有進(jìn)一步提升的空間。b.從各語(yǔ)步識(shí)別的平均F1值來看,“結(jié)論”語(yǔ)步識(shí)別效果最好,平均F1值86.27%,其次“方法”語(yǔ)步識(shí)別效果較好,平均F1值83.06%,“背景”語(yǔ)步識(shí)別效果最差,平均F1值31.36%。由此可看出,模型在不同的語(yǔ)步要素識(shí)別準(zhǔn)確率上存在較大差異,普遍在“結(jié)論”“方法”語(yǔ)步上表現(xiàn)較好,其他語(yǔ)步識(shí)別效果較差,因此,模型后續(xù)可著力針對(duì)效果較差的這幾個(gè)語(yǔ)步優(yōu)化提升。c.在結(jié)構(gòu)化摘要論文中,結(jié)構(gòu)化摘要類別A的論文有1303763篇,占全部結(jié)構(gòu)化摘要數(shù)據(jù)的87.68%,說明僅包含當(dāng)前研究成果采用的5個(gè)語(yǔ)步要素內(nèi)的論文量占比較多,5個(gè)語(yǔ)步要素的設(shè)置具有一定的合理性,能夠涵蓋大多結(jié)構(gòu)化摘要數(shù)據(jù)。d.通過其他語(yǔ)步要素的合理映射,采用統(tǒng)一的5個(gè)語(yǔ)步要素,模型的識(shí)別效果在類別B與類別A數(shù)據(jù)上的統(tǒng)計(jì)效果基本一致,也一定程度上反映了映射方式較為合理。
測(cè)評(píng)二:語(yǔ)步識(shí)別在不同學(xué)科領(lǐng)域文獻(xiàn)數(shù)據(jù)上的適用性和通用性測(cè)評(píng)。
將測(cè)評(píng)數(shù)據(jù)按照論文的分類號(hào):理O、工T、農(nóng)S、醫(yī)R,分別統(tǒng)計(jì)理工農(nóng)醫(yī)4個(gè)學(xué)科領(lǐng)域語(yǔ)步識(shí)別效果,如表4所示。
表4 理工農(nóng)醫(yī)4個(gè)學(xué)科領(lǐng)域語(yǔ)步識(shí)別效果統(tǒng)計(jì)
從表4的統(tǒng)計(jì)結(jié)果可看出,(1)統(tǒng)計(jì)數(shù)據(jù)中理工農(nóng)醫(yī)文獻(xiàn)數(shù)據(jù)量共約82萬(wàn)篇。其中,醫(yī)學(xué)類的文獻(xiàn)占比最多,約80.56萬(wàn)篇,占比為98.30%。且從Accuracy指標(biāo)來看,醫(yī)學(xué)論文的語(yǔ)步識(shí)別準(zhǔn)確率最高,達(dá)73.17%。通過分析發(fā)現(xiàn),本文選擇的測(cè)評(píng)模型是基于PubMed(核心主題為醫(yī)學(xué))數(shù)據(jù)集訓(xùn)練得到的,因此在醫(yī)學(xué)領(lǐng)域數(shù)據(jù)上表現(xiàn)效果最佳。(2)各學(xué)科間語(yǔ)步識(shí)別的效果存在一定的差異,醫(yī)學(xué)、工學(xué)文獻(xiàn)的語(yǔ)步識(shí)別平均準(zhǔn)確率較好,Accuracy值均在73%左右,理學(xué)文獻(xiàn)的語(yǔ)步識(shí)別平均準(zhǔn)確率略低,農(nóng)學(xué)文獻(xiàn)的語(yǔ)步識(shí)別平均準(zhǔn)確率最低,Accuracy僅為62.70%。(3)從語(yǔ)步要素角度來看,整體上 “結(jié)論”語(yǔ)步識(shí)別效果最好,且醫(yī)學(xué)的“結(jié)論”語(yǔ)步標(biāo)注效果最佳,達(dá)89.15%。其次是“方法”語(yǔ)步識(shí)別效果好,且醫(yī)學(xué)的“方法”語(yǔ)步標(biāo)注效果最佳,達(dá)83.80%。“背景”語(yǔ)步識(shí)別效果最差,平均F1值僅為34.16%。
人工測(cè)評(píng):對(duì)非結(jié)構(gòu)化摘要數(shù)據(jù),采用隨機(jī)抽樣人工判讀方式進(jìn)行效果評(píng)估。
隨機(jī)抽樣的數(shù)據(jù)對(duì)象為英文期刊科技論文,按中圖分類號(hào)對(duì)理(O)、工(T)、農(nóng)(S)、醫(yī)(R)4個(gè)學(xué)科領(lǐng)域的文獻(xiàn)進(jìn)行了隨機(jī)抽樣,每個(gè)領(lǐng)域各10篇論文,共40篇論文,對(duì)其語(yǔ)步識(shí)別結(jié)果進(jìn)行判讀,根據(jù)判讀結(jié)果統(tǒng)計(jì)得出準(zhǔn)確率Accuracy,結(jié)果如圖4所示。
圖4 非結(jié)構(gòu)化摘要數(shù)據(jù)語(yǔ)步識(shí)別人工評(píng)測(cè)結(jié)果
如圖4所示,對(duì)于隨機(jī)抽樣的非結(jié)構(gòu)化摘要樣例數(shù)據(jù),在醫(yī)學(xué)和農(nóng)學(xué)領(lǐng)域數(shù)據(jù)中語(yǔ)步標(biāo)注的準(zhǔn)確率近90%,準(zhǔn)確率和實(shí)用程度較好,但在理學(xué)和工學(xué)上的標(biāo)注準(zhǔn)確率較低,有優(yōu)化的空間。從40個(gè)隨機(jī)樣例的語(yǔ)步識(shí)別結(jié)果判讀來看,選取5個(gè)語(yǔ)步元素整體上具有一定的適宜性,僅有1個(gè)樣例數(shù)據(jù)不適用該5個(gè)語(yǔ)步元素,具體分析后發(fā)現(xiàn)該文主要闡述了主題為建筑業(yè)未來及新冠影響的研討會(huì)內(nèi)容,摘要主要論述了研討會(huì)概況和一些專家的觀點(diǎn),因此不適用。
基于以上對(duì)摘要語(yǔ)步識(shí)別效果的測(cè)評(píng)結(jié)果與分析,對(duì)面向?qū)W術(shù)檢索系統(tǒng)知識(shí)發(fā)現(xiàn)服務(wù)應(yīng)用上的語(yǔ)步識(shí)別成果應(yīng)用策略提出以下3點(diǎn)建議:
a.語(yǔ)步識(shí)別模型的準(zhǔn)確率與學(xué)科領(lǐng)域的通用性有待進(jìn)一步提升。在準(zhǔn)確率上,模型在方法和結(jié)論語(yǔ)步上識(shí)別效果較優(yōu),可著力針對(duì)效果較差的背景、目的和結(jié)果三個(gè)語(yǔ)步優(yōu)化提升。在學(xué)科領(lǐng)域上,當(dāng)前語(yǔ)步識(shí)別研究成果多是基于單一領(lǐng)域的數(shù)據(jù)集開展研究,主要專注于模型算法的優(yōu)化,提升識(shí)別準(zhǔn)確性。然而在實(shí)際系統(tǒng)中面臨的數(shù)據(jù)往往是多學(xué)科多領(lǐng)域的,在模型的準(zhǔn)確性要求上同時(shí)關(guān)注模型的通用性和可擴(kuò)展性,因此建議開展支持多學(xué)科領(lǐng)域協(xié)同的建模研究,進(jìn)一步優(yōu)化模型算法,增強(qiáng)模型成熟度和通用性,以滿足實(shí)際應(yīng)用需求。
b.可提供多層次的深度服務(wù)。學(xué)術(shù)檢索系統(tǒng)可結(jié)合數(shù)據(jù)特點(diǎn),服務(wù)場(chǎng)景、用戶需求等,基于語(yǔ)步要素和語(yǔ)步內(nèi)容為用戶提供多層次的深度服務(wù)。服務(wù)的場(chǎng)景、內(nèi)容,應(yīng)用的深度、維度,功能的可操作性、便利性與實(shí)用性等都直接影響著用戶體驗(yàn)。摘要語(yǔ)步識(shí)別研究成果在應(yīng)用中可充分考慮不同場(chǎng)景的數(shù)據(jù)特點(diǎn)和不同用戶的功能需求,以此獲取用戶青睞。如,檢索場(chǎng)景下可擴(kuò)展基于語(yǔ)步要素的檢索功能,深化學(xué)術(shù)研究要素的細(xì)粒度檢索,提升知識(shí)發(fā)現(xiàn)能力;瀏覽場(chǎng)景下可提供基于語(yǔ)步要素的分面篩選功能,通過限定語(yǔ)步精煉檢索結(jié)果,實(shí)現(xiàn)檢索結(jié)果的快速過濾;詳情查看場(chǎng)景下可提供結(jié)構(gòu)化要素的可視化展示功能,輔助用戶快速掌握論文要點(diǎn),提高閱讀效率;統(tǒng)計(jì)分析場(chǎng)景下可提供基于語(yǔ)步要素的統(tǒng)計(jì)分析功能,為用戶提供知識(shí)化的深度分析服務(wù)。
c.面向不同應(yīng)用場(chǎng)景與數(shù)據(jù)特點(diǎn)采取不同的應(yīng)用策略。從數(shù)據(jù)特點(diǎn)來看,摘要類型分為結(jié)構(gòu)化摘要和非結(jié)構(gòu)化摘要兩類,這兩類數(shù)據(jù)的應(yīng)用上可采取不同的應(yīng)用策略。如,對(duì)于結(jié)構(gòu)化摘要論文,在論文詳情查看場(chǎng)景下的結(jié)構(gòu)化語(yǔ)步要素展示功能,可采用結(jié)構(gòu)化摘要本身的語(yǔ)步要素進(jìn)行展示,不受限于研究成果的固定語(yǔ)步要素,因?yàn)樽髡叩慕Y(jié)構(gòu)化標(biāo)識(shí)是對(duì)論文摘要內(nèi)容最準(zhǔn)確的闡述,與作者保持一致不論是對(duì)閱讀用戶還是作者本身來說都是最合適的方式;對(duì)于非結(jié)構(gòu)化摘要論文,可采用研究成果得到的常用語(yǔ)步要素進(jìn)行展示。而在其他場(chǎng)景下,如基于要素的擴(kuò)展檢索中,可采用固定的、常見的、用戶較關(guān)注的結(jié)構(gòu)化要素進(jìn)行檢索,以滿足不同數(shù)據(jù)類型上應(yīng)用的統(tǒng)一性。
本文為探究語(yǔ)步識(shí)別研究成果的成熟度,加速推動(dòng)該成果的落地應(yīng)用,面向NSTL實(shí)際的各種應(yīng)用問題,制定了多維度的測(cè)評(píng)方案,包括準(zhǔn)確性、實(shí)用性、語(yǔ)步要素類型適宜性、學(xué)科領(lǐng)域通用性等,測(cè)評(píng)內(nèi)容較為全面,測(cè)評(píng)維度廣,測(cè)評(píng)模型對(duì)象具有先進(jìn)性,測(cè)評(píng)數(shù)據(jù)具有大體量和真實(shí)性,并通過自動(dòng)化測(cè)評(píng)和人工測(cè)評(píng)主客觀相結(jié)合的方式開展測(cè)評(píng)和結(jié)果分析。測(cè)評(píng)結(jié)果分析發(fā)現(xiàn)模型在識(shí)別的準(zhǔn)確率和學(xué)科領(lǐng)域通用性上有待進(jìn)一步優(yōu)化提升,同時(shí)給出了面向應(yīng)用的一些具體策略和建議,如多層次的深度應(yīng)用服務(wù),不同場(chǎng)景下可采用不同的應(yīng)用策略,希望可以為該學(xué)術(shù)研究成果的工程化應(yīng)用提供有益的參考。