亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        科學(xué)論文全文語步自動識別研究

        2021-11-03 01:54:24歐石燕陳嘉文
        現(xiàn)代情報 2021年11期
        關(guān)鍵詞:機器學(xué)習(xí)深度學(xué)習(xí)

        歐石燕 陳嘉文

        關(guān)鍵詞:科學(xué)論文;語步識別;機器學(xué)習(xí);深度學(xué)習(xí)

        科學(xué)論文是科研人員分享研究成果、學(xué)習(xí)他人經(jīng)驗的重要媒介。近年來,隨著科學(xué)研究的飛速發(fā)展以及數(shù)字出版的普及,科學(xué)論文數(shù)量急劇增長。與此同時,科研人員的信息需求也變得越來越多元化和精細化。但是科學(xué)論文傳統(tǒng)的線性組織模式并不利于讀者快速理解論文的整體結(jié)構(gòu)和精準(zhǔn)定位論文中的特定信息,降低了讀者的閱讀效率,難以應(yīng)對海量科學(xué)論文的“轟炸”。在此背景下,一些學(xué)者開始對科學(xué)論文的篇章結(jié)構(gòu)進行研究,通過使用文本信息處理技術(shù)自動識別出論文內(nèi)容的不同功能組成部分,以幫助讀者定位特定信息。但這些研究往往以章節(jié)或段落為單位[1-4],劃分粒度較粗,不能滿足讀者愈發(fā)精細的信息需求。

        1981年,密歇根大學(xué)的著名語言學(xué)家SwalesJM提出了語步分析法,其核心是通過分析文本局部的交際目的或修辭策略劃分文本的功能層次,并將具有特定交際功能和目的的文本片段稱作語步(Move),將實現(xiàn)語步的方法稱為步驟(Step)[5]。語步分析法從論文的交際意圖出發(fā)對科學(xué)論文進行拆解,分析得到的語步結(jié)構(gòu)為理解科學(xué)論文的內(nèi)容提供了新的視角,具有提供細粒度文獻信息服務(wù)的潛能。然而語言學(xué)者們進行的語步分析是一個費時費力的手動過程,這限制了語步結(jié)構(gòu)更廣泛、深入的應(yīng)用。

        近年來,隨著機器學(xué)習(xí)尤其是深度學(xué)習(xí)技術(shù)的不斷發(fā)展與突破,為以句子為單位的科學(xué)論文語步自動識別提供了可能。因此,本文將在前人研究基礎(chǔ)上對科學(xué)論文正文的語步自動識別方法進行探索,采用傳統(tǒng)機器學(xué)習(xí)與深度學(xué)習(xí)技術(shù)構(gòu)建多種語步自動識別模型并進行比較分析,從而發(fā)現(xiàn)有效的語步自動識別方法,并在此基礎(chǔ)上探索語步信息在文獻信息服務(wù)中的應(yīng)用模式。

        1相關(guān)研究

        科學(xué)論文的價值主要體現(xiàn)在其正文內(nèi)容上,因此對論文的內(nèi)容結(jié)構(gòu)進行識別可有助于讀者快速理解論文內(nèi)容,并為進一步的知識抽取及情報分析做準(zhǔn)備。早期對論文結(jié)構(gòu)的研究主要側(cè)重于識別粗粒度的結(jié)構(gòu)功能,即區(qū)分論文主要包含哪幾個部分,每部分都有著怎樣的語義功能。采用的識別方法多基于文本分類技術(shù),主要從章節(jié)標(biāo)題、段落結(jié)構(gòu)和文本內(nèi)容3個角度設(shè)計分類特征,使用支持向量機、條件隨機場等傳統(tǒng)機器學(xué)習(xí)算法來實現(xiàn),如陸偉等[1]、TeufelS等[6]的研究。近年來隨著深度學(xué)習(xí)的興起,有研究者開始嘗試采用深度學(xué)習(xí)技術(shù)進行論文結(jié)構(gòu)功能的自動識別。譬如,王東波等采用雙向長短時記憶神經(jīng)網(wǎng)絡(luò)模型(Bi-LSTM)進行識別,但可能因為數(shù)據(jù)量不足,效果反而弱于傳統(tǒng)的機器學(xué)習(xí)技術(shù)[7];王佳敏等使用卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)并結(jié)合章節(jié)標(biāo)題、章節(jié)段落和章節(jié)內(nèi)容等信息進行識別,獲得了較好的識別效果[8]??茖W(xué)論文的結(jié)構(gòu)功能與語步在目的上有一定的共通之處,都是從語義角度對論文的內(nèi)容進行劃分,但結(jié)構(gòu)功能關(guān)注的主要是論文的宏觀篇章結(jié)構(gòu),結(jié)構(gòu)簡單且劃分粒度較粗。而且多數(shù)論文的結(jié)構(gòu)功能都是以段落為單位連續(xù)出現(xiàn),不同結(jié)構(gòu)功能極少存在交錯出現(xiàn)的現(xiàn)象。相對而言,科學(xué)論文的語步結(jié)構(gòu)劃分粒度更細且更為復(fù)雜,語步的循環(huán)與交錯在科學(xué)論文寫作中經(jīng)常出現(xiàn)。

        對科學(xué)論文語步結(jié)構(gòu)進行自動識別的研究相對較少,且多數(shù)研究都只是針對論文摘要或者論文正文的引言部分。譬如,WuJC等[9]、SoonklangT[10]、王立非等[11]分別采用馬爾科夫模型、樸素貝葉斯、條件隨機場等傳統(tǒng)機器學(xué)習(xí)算法,張智雄等[12]采用全連接神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)算法,對論文摘要進行了語步識別,取得了良好的識別效果。相對于結(jié)構(gòu)簡單、篇幅短小的論文摘要,對論文正文進行語步識別則更加困難。有部分學(xué)者首先對論文引言部分的語步結(jié)構(gòu)進行了識別。譬如,AnthonyL等采用樸素貝葉斯算法識別出電氣和電子工程學(xué)科論文引言部分的3個語步[13],PendarN等[14]和CotosE等[15]采用支持向量機算法識別多個學(xué)科領(lǐng)域論文引言部分的語步,識別結(jié)果的宏平均F1值均達到65%以上。與摘要和引言這類概括性描述科學(xué)研究過程的文本相比,科學(xué)論文的全文蘊含著更加詳細的科學(xué)研究信息,語步結(jié)構(gòu)也更加復(fù)雜,不同語步的交錯和重復(fù)現(xiàn)象非常明顯。因此,在摘要和引言上效果較好的語步識別方法在全文中是否適用需要進一步地探索。

        目前,對科學(xué)論文的整篇正文進行語步識別的研究還非常少見,在國內(nèi)僅有王末等采用深度學(xué)習(xí)中的BERT模型對科學(xué)論文中的11種科學(xué)核心概念(即類別)進行了識別[16]。雖然科學(xué)核心概念(CoreScientificConcepts,簡稱CoreSCs)模型與語步結(jié)構(gòu)有些類似,但并不能完全反映科學(xué)論文的交際功能。因此,科學(xué)論文正文的語步自動識別還有待進一步探索。

        2科學(xué)論文語步分類框架

        為了實現(xiàn)科學(xué)論文語步結(jié)構(gòu)的自動識別,首先需要確立語步分類框架。鑒于不同學(xué)科領(lǐng)域的論文在語步結(jié)構(gòu)上存在較大差異,本研究只選取化學(xué)領(lǐng)域的英文科學(xué)論文作為語步識別對象。作為典型的以實驗為基礎(chǔ)的學(xué)科領(lǐng)域,化學(xué)領(lǐng)域科學(xué)論文的寫作通常比較規(guī)范,探索得到的語步自動識別方法對其他學(xué)科領(lǐng)域?qū)嶒炐涂茖W(xué)論文也具有較好的參考價值。

        為了確立化學(xué)領(lǐng)域科學(xué)論文的語步分類框架,首先從“英國皇家化學(xué)學(xué)會數(shù)據(jù)庫(TheRoyalSo?cietyofChemistry)”中隨機選取30篇科學(xué)論文,其中15篇論文作為分析樣本,通過對其正文內(nèi)容進行歸納分析建立初始的語步分類框架,剩余的15篇論文作為驗證樣本,通過標(biāo)注實驗檢驗初始分類框架的可靠性和全面性。在進行樣本分析時,嚴格采用SwalesJM提出的語步分析法[17]并參考了語言學(xué)者們在相關(guān)領(lǐng)域科學(xué)論文中的語步分析結(jié)果[18],歸納出化學(xué)領(lǐng)域科學(xué)論文的初始語步分類框架。標(biāo)注實驗則由兩名具有化學(xué)專業(yè)背景的編碼人員基于初始的語步分類框架對另外15篇論文中的每個句子進行語步類別標(biāo)注。標(biāo)注結(jié)果的編碼一致性采用Kappa值衡量,該值達到0??81,說明初始的語步分類框架具有較高的可靠性。此外,兩名標(biāo)注者在標(biāo)注過程中均沒有發(fā)現(xiàn)新的類別,說明該分類框架較為全面。最終,確立了化學(xué)領(lǐng)域科學(xué)論文的語步分類框架,包含7個語步,如表1所示。

        3科學(xué)論文語步自動識別方法

        為了實現(xiàn)科學(xué)論文語步的自動識別,本研究從兩個角度來解決該問題:一種是將語步識別看作是一個文本分類任務(wù),給論文中的每個句子賦予一個語步類別標(biāo)簽;第二種是將語步識別看作是一個序列標(biāo)注任務(wù),根據(jù)科學(xué)論文中語步出現(xiàn)的順序性,確定每個句子的語步類別標(biāo)簽。針對文本分類,分別采用傳統(tǒng)機器學(xué)習(xí)技術(shù)和深度學(xué)習(xí)技術(shù)來實現(xiàn);針對序列標(biāo)注,則主要采用條件隨機場(CRF)和雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)相結(jié)合的方式來實現(xiàn)。

        3.1基于傳統(tǒng)機器學(xué)習(xí)的語步自動識別

        基于傳統(tǒng)機器學(xué)習(xí)的分類算法首先需要將待分類文本(此處指句子)進行向量化表示,通?;谙蛄靠臻g模型(VSM)將非結(jié)構(gòu)化的文本字符串轉(zhuǎn)換為結(jié)構(gòu)化的特征向量,這一過程涉及特征提取和特征選擇,被稱作特征工程。

        3.1.1特征提取

        在本研究中,根據(jù)語步分類的特點,主要探索了詞匯、詞法、句法、位置這4類特征,此外也包括了句子中的引文標(biāo)記、句子所在章節(jié)的標(biāo)題等其他特征。

        1)詞匯特征:詞匯特征是指基于N-gram詞袋模型統(tǒng)計連續(xù)N個單詞在句子中出現(xiàn)的頻次。在本研究中,將N設(shè)為1~3,統(tǒng)計了Unigram、Bigram、Trigram3種詞頻。由于采用這種方式抽取的詞匯特征數(shù)量過多,因此只保留各自詞頻排名前2000的N-gram作為特征。

        2)詞法特征:詞法特征是指詞匯的詞性特征以及時態(tài)和語態(tài)特征,如動詞的過去時態(tài)、進行時態(tài)和被動語態(tài),形容詞和副詞的比較級和最高級形式,人稱代詞,情態(tài)動詞等。每種詞法特征均采用在句子中的出現(xiàn)頻次來表示。

        3)句法特征:句法特征是指詞與詞之間的依存關(guān)系特征。依存關(guān)系是一個句子中詞匯之間具有方向性的支配關(guān)系,如主謂關(guān)系、動賓關(guān)系等,處于支配地位的詞被稱為核心詞,被支配的詞被稱為依存詞。詞匯之間不同類型依存關(guān)系在句子中出現(xiàn)的頻次可作為句法特征用于語步分類。

        4)位置特征:位置特征是指一個句子在科學(xué)論文中出現(xiàn)的位置,共包括3種:一種是句子在全文中的位置,直接以句子的序數(shù)除以正文中的句子數(shù)來表示;第二種是句子所屬段落在正文中的位置,以段落的序數(shù)除以正文中的段落數(shù)來表示;最后一種是句子在段落中的位置,以句子在段落中的序數(shù)除以段落中的句子總數(shù)來表示。

        5)其他補充特征:此外,句子中出現(xiàn)的引用標(biāo)記、圖說明詞匯、表說明詞匯、句子所屬章節(jié)的標(biāo)題詞匯也被作為補充特征。

        上述特征共有6089個,全部采用獨熱編碼表示,基于向量空間模型表示為句子的特征向量,其中的各種頻次特征均通過TF-IDF算法進行加權(quán)處理,從而更精確地反映其在句子和論文中的重要性。

        3.1.2特征選擇

        通過上述方法構(gòu)造的句子特征向量擁有較高的維度,甚至有可能包含噪音,會影響分類器的訓(xùn)練速度以及分類效果,因此需要對特征進行篩選,對特征向量做降維處理。在本研究中,使用隨機森林模型來發(fā)現(xiàn)特征與類別之間的非線性關(guān)系,從而對特征重要性進行排序[19],以此篩選出重要性較高的特征。其原理如下:采用隨機森林模型在訓(xùn)練多棵決策樹期間,針對每一棵樹會進行一個數(shù)據(jù)抽樣,將抽樣的數(shù)據(jù)用于訓(xùn)練,而沒有被用于訓(xùn)練的數(shù)據(jù)則被稱為袋外數(shù)據(jù)(OutofBag,OOB);然后,對訓(xùn)練出的每一棵樹都選取它的袋外數(shù)據(jù)進行分類預(yù)測,并計算產(chǎn)生的數(shù)據(jù)誤差(記為errorOOB1);最后,將袋外數(shù)據(jù)的某一特征X加入決策樹進行干擾,再次計算袋外數(shù)據(jù)誤差(記為errorOOB2),兩次的數(shù)據(jù)誤差即反映了特征X的重要性,如式(1)所示。

        3.1.3傳統(tǒng)機器學(xué)習(xí)分類算法

        在傳統(tǒng)機器學(xué)習(xí)分類算法中,選擇采用支持向量機與深度森林兩種算法來進行語步自動識別。支持向量機是一種在分類任務(wù)中經(jīng)常被使用的算法[20],其主要思想是通過在數(shù)據(jù)空間中尋找一個最優(yōu)超平面,使其不僅能將兩類數(shù)據(jù)分開,而且能使兩類數(shù)據(jù)中距離該超平面最近的點到超平面的距離最大化。深度森林算法是由南京大學(xué)ZhouZH等于2019年提出的一種集成學(xué)習(xí)算法[21],通過訓(xùn)練出多個弱分類器(即一系列隨機森林)并將它們進行組合,進而獲得一個更好、更全面的強分類器。

        3.2基于深度學(xué)習(xí)的語步自動識別

        近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,其被廣泛應(yīng)用于文本分類任務(wù)。深度學(xué)習(xí)復(fù)雜的網(wǎng)絡(luò)模型可以更好的表示文本隱含的語義信息,且省略了繁瑣的特征工程步驟,能夠?qū)崿F(xiàn)更高效、精確的文本分類。

        3.2.1文本向量化表示

        無論是傳統(tǒng)機器學(xué)習(xí)算法還是深度學(xué)習(xí)算法,都需要對文本進行向量化表示。在傳統(tǒng)機器學(xué)習(xí)中,文本表示通常是基于詞的獨熱編碼,這種編碼方式有著明顯的缺點:一方面,特征維度過高,向量矩陣太稀疏,不利于分類器的訓(xùn)練;另一方面,難以體現(xiàn)單詞之間的語義相關(guān)性,因此不能精確表示文本的語義。在深度學(xué)習(xí)中,通常采用詞的分布式表示,即將詞表示成一個定長的、連續(xù)的稠密向量(即詞向量)。典型的詞向量訓(xùn)練方法是根據(jù)一個單詞出現(xiàn)的語境(即單詞的上下文)學(xué)習(xí)出該單詞的出現(xiàn)概率。在本研究中,使用Word2vec算法來訓(xùn)練針對化學(xué)領(lǐng)域科學(xué)論文的詞向量[22],然后將預(yù)處理后句子中的所有單詞的詞向量進行拼接后作為句子的向量表示。

        3.2.2深度學(xué)習(xí)分類模型

        本研究中,采用3種深度學(xué)習(xí)模型來實現(xiàn)語步自動識別,包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)和BERT模型。這3種深度學(xué)習(xí)模型在文本分類任務(wù)中被公認具有較好的效果。CNN的核心思想是通過卷積核來識別數(shù)據(jù)在空間上的局部特征,通過對多個局部特征的總結(jié)來認識數(shù)據(jù)[23]。對于文本數(shù)據(jù),連續(xù)的單詞便是認識文本的重要局部特征,CNN能夠?qū)@些局部特征進行組合和篩選,獲得更深層次的語義信息。但是CNN的局部特征采樣過程忽略了文本的結(jié)構(gòu)位置信息,而循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)能夠以序列模式處理文本,從而更好地利用這些信息。LSTM是一種特殊結(jié)構(gòu)的RNN,相較于普通RNN可以解決長期依賴關(guān)系[24]。但是,普通的LSTM只能捕捉由前到后的語義依賴關(guān)系,雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)則通過將兩個方向相反的LSTM拼接,可以同時捕捉雙向的語義依賴關(guān)系。BERT模型是谷歌公司于2018年提出的多用途預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,可以在大規(guī)模語料上同時對詞間關(guān)系和句間關(guān)系進行學(xué)習(xí),得到的模型具有高效表征語言語義的能力,可用于復(fù)雜的自然語言處理任務(wù)[25]。

        3.3基于混合模型的語步自動識別

        深度學(xué)習(xí)模型使用復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)自動對文本內(nèi)容進行特征抽取,較傳統(tǒng)機器學(xué)習(xí)中手工識別出的分類特征有著更好的語義表征能力。在語步識別任務(wù)中,除了句子本身的內(nèi)容外,其在論文中的位置、包含的引用標(biāo)簽、所在的章節(jié)標(biāo)題等特征也對語步識別有著重要價值,但這類結(jié)構(gòu)特征通常通過深度學(xué)習(xí)模型無法自動獲得。因此嘗試將深度學(xué)習(xí)模型與傳統(tǒng)機器學(xué)習(xí)方法相結(jié)合,提出一個混合識別模型,如圖1所示。該模型采用深度學(xué)習(xí)方法獲得句子的深層語義特征,然后將其與傳統(tǒng)機器學(xué)習(xí)中手工識別出的句子結(jié)構(gòu)特征進行拼接,以此獲得句子新的向量表示,最后采用傳統(tǒng)機器學(xué)習(xí)分類算法進行語步分類。

        3.4基于序列標(biāo)注的語步自動識別

        通過手工標(biāo)注,發(fā)現(xiàn)不同語步在一篇科學(xué)論文中的出現(xiàn)具有一定的順序,譬如M1(引出本文研究)語步通常出現(xiàn)在論文的開始,M7(重塑研究空間)語步則往往出現(xiàn)在論文結(jié)尾。因此,也可以將語步識別看作是一個序列標(biāo)注任務(wù),在整篇科學(xué)論文中以句子為時間步進行序列標(biāo)注。

        在本研究中,使用Bi-LSTM+CRF模型來實現(xiàn)科學(xué)論文的語步序列標(biāo)注,這是一種在序列標(biāo)注任務(wù)中被廣泛使用的模型。在前述的文本分類模式中,雖然也使用了Bi-LSTM模型,但關(guān)注的是句子中詞間的序列關(guān)系,每一個時間步的輸入是句子中每個詞匯的詞向量;在此處的序列標(biāo)注模式中,Bi-LSTM模型關(guān)注的是論文中句子間的序列關(guān)系,每個時間步的輸入是一篇論文中每個句子的向量表示。條件隨機場(CRF)是一種判別式概率模型[26],常用于分析序列數(shù)據(jù),主要關(guān)注相鄰數(shù)據(jù)之間的標(biāo)簽信息。通過在Bi-LSTM模型后連接一個CRF模型,可以既考慮本句文本與歷史文本信息,也考慮歷史語步信息。

        4實驗與結(jié)果分析

        4.1數(shù)據(jù)準(zhǔn)備

        本研究的實驗數(shù)據(jù)以開源的ART數(shù)據(jù)集為來源[27],基于表1所示的語步分類框架重新進行手工標(biāo)注后形成。ART數(shù)據(jù)集是由LiakataM等于2008年構(gòu)建的科學(xué)論文數(shù)據(jù)集,包含了225篇化學(xué)領(lǐng)域的研究性科學(xué)論文,均來自“英國皇家化學(xué)學(xué)會”出版的期刊,每篇論文均以句子為單位,采用科學(xué)核心概念(CoreSCs)模型進行了標(biāo)注。Co?reSCs是由英國威爾士大學(xué)的LiakataM等于2012年提出的一個針對科學(xué)論文的篇章結(jié)構(gòu)模型[28],共包含11個科學(xué)核心概念數(shù)據(jù)(即類別),分別為背景、假設(shè)、模型、動機、目的、對象、方法、實驗、觀察、結(jié)果和結(jié)論。雖然CoreSCs模型和語步分類框架均是對科學(xué)論文的篇章結(jié)構(gòu)進行劃分,但前者主要是從科學(xué)實驗過程的角度進行劃分,而后者主要是從交際意圖角度進行劃分,兩個模型雖有一定區(qū)別,但兩者的類別在很大程度上存在著映射關(guān)系。因此,根據(jù)CoreSCs模型的標(biāo)注結(jié)果可以大大減輕語步標(biāo)注的難度。本研究邀請兩名編碼人員基于表1所示的語步分類框架對ART數(shù)據(jù)集重新進行了標(biāo)注,在225篇論文的共33057個句子上獲得了0??86的Kappa值,說明標(biāo)注結(jié)果具有很好的可靠性。對于標(biāo)注結(jié)果中的少量差異,則通過協(xié)商討論予以校正。最終標(biāo)注數(shù)據(jù)中不同語步的數(shù)量分布如表2所示。

        重新進行語步標(biāo)注后的ART數(shù)據(jù)集中的句子按照82%∶8%∶10%的比例被劃分為訓(xùn)練集、驗證集和測試集。訓(xùn)練集的數(shù)據(jù)主要用于分類器的訓(xùn)練;驗證集的數(shù)據(jù)用于不同超參數(shù)條件下分類模型效果的比較;測試集的數(shù)據(jù)用于衡量語步識別模型最終的識別效果。

        4.2基于傳統(tǒng)機器學(xué)習(xí)的語步自動識別實驗結(jié)果

        在傳統(tǒng)機器學(xué)習(xí)中,首先需要進行特征選擇來降低句子特征向量的維度。因此,使用基于Python語言的機器學(xué)習(xí)工具包Scikit-learn來實現(xiàn)隨機森林模型的訓(xùn)練,并基于該模型的結(jié)果對特征的重要性進行排序。圖2展示了重要性排名前30的特征。

        由圖2可以看出,句子的相對位置、章節(jié)標(biāo)題詞匯、特定的詞法與語法組合、引用標(biāo)簽、句子中詞匯的依存關(guān)系等特征對于分類效果有較大貢獻。此外,一些單詞或短語也是識別語步的重要特征。

        接下來,分別采用深度森林和支持向量機這兩個分類算法來訓(xùn)練語步識別分類器。深度森林算法采用開源工具DeepForest來實現(xiàn),支持向量機算法則仍使用Scikit-learn工具包來實現(xiàn)。為了獲得最佳的特征數(shù)量,根據(jù)上述所得的特征重要性排序,以100為單位在句子向量表示中逐漸添加特征。分類效果的測試則采用常用的查準(zhǔn)率(Precision)、召回率(Recall)和F1值3個指標(biāo),并以宏平均作為7個類別(即語步)的整體識別效果。深度森林算法的超參數(shù)不需要過多設(shè)置,支持向量機算法主要調(diào)整的超參數(shù)則包括核函數(shù)、核函數(shù)參數(shù)及懲罰系數(shù)。兩種分類算法在不同特征數(shù)量下的分類效果如圖3所示。

        通過圖3可以看出,當(dāng)特征數(shù)量為100時,兩種分類算法的效果相差不多,宏平均F1值均在59%左右;當(dāng)特征數(shù)量增加到200時,兩個分類算法的效果都有了相應(yīng)的提高,但深度森林算法的效果此時已經(jīng)明顯優(yōu)于支持向量機算法;隨著特征數(shù)量的繼續(xù)增加,支持向量機算法的分類效果趨于穩(wěn)定,宏平均F1值約為59%,新特征的加入對于分類效果影響甚微;而深度森林算法的分類效果隨著特征數(shù)增加仍在進一步提升,在特征數(shù)量為600左右時,分類效果出現(xiàn)了一些波動,當(dāng)特征數(shù)量為1100時效果最好,宏平均F1值約為66%。由此可以看出,深度森林算法的整體分類效果始終優(yōu)于支持向量機算法,說明這種集成學(xué)習(xí)算法在處理高維數(shù)據(jù)時具有明顯優(yōu)勢。

        4.3基于深度學(xué)習(xí)的語步自動識別實驗結(jié)果

        在本研究中,采用Word2vec算法中的Skipgram模型在ART數(shù)據(jù)集中的全部225篇論文上訓(xùn)練詞向量,Word2vec算法使用自然語言處理Py?thon工具包Gensim來實現(xiàn),訓(xùn)練時上下文窗口大小設(shè)置為10,詞向量維度設(shè)置為200。CNN模型則具體使用KimY于2014年提出的專門針對文本的卷積神經(jīng)網(wǎng)絡(luò)TextCNN模型[29]。TextCNN模型和Bi-LSTM模型均基于神經(jīng)網(wǎng)絡(luò)計算框架Pytorch來實現(xiàn)。BERT模型則使用專為科學(xué)論文訓(xùn)練的SciBERT模型[30],但在語步分類時需要對最后幾層網(wǎng)絡(luò)的參數(shù)進行重新調(diào)整。3種深度學(xué)習(xí)算法在測試集上的語步識別結(jié)果如表3所示。

        根據(jù)表3中的實驗結(jié)果可以看出,BERT模型的語步識別效果最好,宏平均F1值達到了66%,Bi-LSTM模型次之,宏平均F1值為62%,CNN模型的識別效果最差,只有59%。

        4.4基于混合模型的語步識別實驗結(jié)果

        經(jīng)過上文實驗發(fā)現(xiàn),在傳統(tǒng)機器學(xué)習(xí)算法中深度森林模型的識別效果最好;在深度學(xué)習(xí)算法中BERT模型效果最好。因此,將BERT模型和深度森林算法進行融合,利用文本分類模式進行語步自動識別。首先,利用BERT模型預(yù)訓(xùn)練得到每個句子的深層語義特征,然后將其與人工識別的1100個分類特征拼接在一起,最后利用深度森林算法進行語步分類。該混合模型在7個語步類別上的分類結(jié)果如表4所示。

        根據(jù)表4所示,M1和M3語步的識別效果最好,F(xiàn)1值達到90%以上;而M2和M6語步的效果最差,F(xiàn)1值均低于60%;全部7個語步識別效果的宏平均F1值為73%。

        4.5基于序列標(biāo)注的語步自動識別實驗結(jié)果

        在使用序列標(biāo)注模式進行語步識別時,需要以單篇論文為單位作為輸入。因此,隨機選取ART數(shù)據(jù)集中的203篇論文作為訓(xùn)練數(shù)據(jù),剩余的22篇論文作為測試數(shù)據(jù)。為了與文本分類模式的識別效果相比較,在評價時仍以句子為單位衡量識別效果。每個時間步輸入的句子向量由該句所有單詞的詞向量的算數(shù)平均值表示,進入Bi-LSTM+CRF網(wǎng)絡(luò)結(jié)構(gòu)后便可結(jié)合序列信息輸出當(dāng)前句子所對應(yīng)的語步類別。使用序列標(biāo)注模式的語步識別結(jié)果如表5所示。從該表可以看出,與文本分類模式類似,采用序列標(biāo)注模式時也是M1和M3語步的識別效果較好,而M2和M6語步的識別效果較差,7個語步的宏平均F1值只有56%。

        4.6各模型識別結(jié)果比較

        針對科學(xué)論文的語步識別,本研究共采用了文本分類和序列標(biāo)注兩種任務(wù)模式,采用了傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)兩類技術(shù),共構(gòu)建了7個語步自動識別模型。這7個模型在測試集上的測試結(jié)果如表6所示。

        根據(jù)表6中的實驗結(jié)果可以看出,采用文本分類模式進行語步自動識別的效果要優(yōu)于序列標(biāo)注模式。其可能的原因在于:一方面,科學(xué)論文中的語步雖然具有一定的順序性,但語步交錯和循環(huán)現(xiàn)象也非常普遍,且由于科學(xué)論文中的句子數(shù)量較多,形成的序列結(jié)構(gòu)過長,導(dǎo)致語步序列規(guī)律并不十分明顯;另一方面,在序列標(biāo)注時,當(dāng)前句的識別會使用前面句子的歷史識別結(jié)果作為參考信息,但在結(jié)構(gòu)復(fù)雜的論文正文中容易出現(xiàn)錯誤累積,從而降低序列標(biāo)注模型的性能。

        在文本分類模式下,傳統(tǒng)機器學(xué)習(xí)算法與深度學(xué)習(xí)算法各有優(yōu)勢,兩者中各自最優(yōu)模型的效果差距不大,一個的F1值是64%(深度森林算法);另一個也只有66%(BERT模型)。在3種深度學(xué)習(xí)識別模型中,BERT的效果最好,Bi-LSTM模型次之,而TextCNN的效果最差,這主要是因為TextC?NN模型在處理文本時使用的方法與N元語法類似,只能通過連續(xù)的單詞組合來學(xué)習(xí)特征,而在語步識別任務(wù)中需要的深層次語義信息,TextCNN模型則無法獲得。Bi-LSTM模型雖然能夠?qū)W習(xí)較遠距離單詞之間的依賴關(guān)系,但對所有單詞同等對待,因此會忽視掉文本中的一些關(guān)鍵信息(如線索詞)。BERT模型使用超大的預(yù)訓(xùn)練語料與超大的模型參數(shù)來抽取文本中的隱含特征,而且可以根據(jù)注意力機制動態(tài)調(diào)整不同詞匯的權(quán)重,這樣學(xué)習(xí)出的文本特征具有較好的語義區(qū)分能力,從而具有較好的語步識別效果。

        在本研究中,提出的BERT預(yù)訓(xùn)練模型與深度森林分類算法相結(jié)合的混合模型獲得了最佳的語步識別效果,F(xiàn)1值達到73%。該模型不但使用了基于大規(guī)模預(yù)訓(xùn)練和復(fù)雜深層神經(jīng)網(wǎng)絡(luò)模型得到的句子隱含語義特征,也使用了人工識別出的句子結(jié)構(gòu)特征。此外,深度森林分類算法多層次的集成學(xué)習(xí)結(jié)構(gòu)也使其能夠有效學(xué)習(xí)高維數(shù)據(jù)中隱藏的規(guī)律。

        5結(jié)論

        當(dāng)前對科學(xué)論文語步結(jié)構(gòu)自動識別的研究主要聚集于論文摘要部分或者引言部分,針對論文全文的研究還非常少。本文以化學(xué)領(lǐng)域的科學(xué)論文為研究對象,探索采用文本分類和序列標(biāo)注兩種模式對科學(xué)論文全文的語步結(jié)構(gòu)進行自動識別,采用傳統(tǒng)機器學(xué)習(xí)技術(shù)與深度學(xué)習(xí)技術(shù)構(gòu)建了多種語步自動識別模型,并對其效果進行了實驗測評。實驗結(jié)果表明,采用文本分類模式進行語步識別的效果要優(yōu)于序列標(biāo)注模式,尤其是將深度學(xué)習(xí)BERT預(yù)訓(xùn)練模型與傳統(tǒng)機器學(xué)習(xí)深度森林分類算法相結(jié)合的混合模型,既利用了人工識別出的句子位置與結(jié)構(gòu)特征,又利用了深度學(xué)習(xí)自動識別出的文本深層語義特征,因此獲得了最佳的識別效果,在7個語步上的宏平均F1值達到73%。

        本文只是對化學(xué)領(lǐng)域英文科學(xué)論文的語步自動識別方法進行了探索,但該方法是否適用于其他領(lǐng)域的科學(xué)論文或者中文科學(xué)論文尚未進行驗證,這將是今后研究的一個重要方向。此外,科學(xué)論文的語步結(jié)構(gòu)對于讀者理解科學(xué)論文的主旨大意、快速定位所需信息具有重要的參考價值,在下一步的研究中,還將探索如何利用識別出的語步信息更好地為讀者提供文獻信息服務(wù)。

        猜你喜歡
        機器學(xué)習(xí)深度學(xué)習(xí)
        基于詞典與機器學(xué)習(xí)的中文微博情感分析
        有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        基于支持向量機的金融數(shù)據(jù)分析研究
        麻豆三级视频网站在线观看| 久久精品国产亚洲av电影| 久久亚洲高清观看| 亚洲中文字幕乱码在线视频| 亚洲av网一区二区三区| 国产操逼视频| 亚洲aⅴ无码日韩av无码网站| 国产熟女精品一区二区| 亚洲女优中文字幕在线观看 | 欧美日韩亚洲中文字幕二区| 中国亚洲女人69内射少妇| 国产精品女同学| 国产精品人伦一区二区三| 亚洲av片在线观看| 亚洲成a人片在线观看久| 亚洲福利av一区二区| 伊人久久大香线蕉av五月| 中出人妻中文字幕无码| 99精品成人片免费毛片无码| 色综合久久五十路人妻| 在线精品亚洲一区二区动态图| 无码人妻丰满熟妇片毛片| 欧美久久中文字幕| 粉嫩人妻91精品视色在线看| 人人爽人人爽人人片av| 宅男噜噜噜| 丰满人妻无套内射视频| 大地资源网在线观看免费官网| 欲色天天网综合久久| 天堂在线观看av一区二区三区| 国产日产亚洲系列首页| 中文字幕日本人妻久久久免费| 首页动漫亚洲欧美日韩| 99国产精品欲av麻豆在线观看| 久草青青91在线播放| 全免费a级毛片免费看网站| 免费一级黄色大片久久久| 在线观看的a站免费完整版| 中文字幕一区日韩精品| 欧美亚洲国产另类在线观看| 久久亚洲精品中文字幕蜜潮|