李楠 方麗 張逸飛
摘要:[目的/意義]學(xué)術(shù)文本的結(jié)構(gòu)功能識別可視為多類別文本自動分類問題,借助深度學(xué)習(xí)技術(shù)能夠獲得良好的自動識別性能,然而目前缺少其在不同學(xué)科適用性的對比研究。[方法/過程]選擇醫(yī)學(xué)、圖情、數(shù)據(jù)、出版、經(jīng)濟5個學(xué)科方向5種期刊的6 452篇結(jié)構(gòu)式摘要為基礎(chǔ)語料,設(shè)計并實現(xiàn)了基于Magpie深度學(xué)習(xí)組件的學(xué)術(shù)文本結(jié)構(gòu)功能識別實驗,通過對比分析同一分類模型在不同學(xué)科領(lǐng)域?qū)嶒炚Z料上的性能表現(xiàn)及其影響因素,揭示機器學(xué)習(xí)方法的學(xué)科適用性規(guī)律。[結(jié)果/結(jié)論]實驗結(jié)果顯示,學(xué)科差異性對于機器學(xué)習(xí)效果有顯著的影響,其中醫(yī)學(xué)領(lǐng)域?qū)W術(shù)文本的結(jié)構(gòu)功能識別效率明顯高于其他學(xué)科,常見的學(xué)術(shù)文本功能結(jié)構(gòu)框架中“方法”和“結(jié)果”的機器學(xué)習(xí)識別效果更佳。
關(guān)鍵詞:文本結(jié)構(gòu)功能識別;深度學(xué)習(xí);多學(xué)科;文本分類;Magpie
DOl: 10.3969/j .issn .1008 -0821 .2019 .12 .007
[中圖分類號] G203 [文獻標識碼]A [文章編號]1008-0821( 2019) 12-0055-09
學(xué)術(shù)文本的結(jié)構(gòu)功能是對學(xué)術(shù)文獻的結(jié)構(gòu)和章節(jié)功能的描述與概括[1],通常研究性論文的結(jié)構(gòu)可以根據(jù)IMRaD模型的定義劃分為“目的”、“方法”、“結(jié)果”和“結(jié)論”等部分[2],這種結(jié)構(gòu)化的功能劃分能夠更加清晰地展示學(xué)術(shù)文獻的語義構(gòu)成,便于更細粒度的知識檢索、挖掘與發(fā)現(xiàn),因而在圖書情報及信息科學(xué)領(lǐng)域,學(xué)術(shù)文本的結(jié)構(gòu)功能識別成為學(xué)術(shù)文獻知識挖掘的重要研究內(nèi)容之一。而隨著機器學(xué)習(xí)技術(shù)的興起,基于傳統(tǒng)的條件隨機場(CRF)、支持向量機(SVM)等機器學(xué)習(xí)模型的自動識別方法獲得了良好的實驗性能,識別準確率可達到70% - 80%[ 1.3-4]。尤其是近年來,深度學(xué)習(xí)領(lǐng)域的技術(shù)突破使得自然語言處理能力得到極大提升,文本結(jié)構(gòu)功能識別的效果獲得了更深層次地優(yōu)化,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶網(wǎng)絡(luò)( LSTM)等深度學(xué)習(xí)模型的最優(yōu)識別效果可接近或超過90%[ 5-6]。
然而,在數(shù)據(jù)的復(fù)雜性和規(guī)?;?yīng)的影響下,深度學(xué)習(xí)等機器學(xué)習(xí)方法的應(yīng)用研究同樣面臨諸多值得深入探討的現(xiàn)實問題,不同應(yīng)用情境下機器學(xué)習(xí)方法的適用性問題就是其中之一?;跈C器學(xué)習(xí)的文本結(jié)構(gòu)功能識別問題本質(zhì)上是基于文本的語法及語義特征實現(xiàn)的自動處理過程,因此,識別性能依賴機器學(xué)習(xí)模型對于文本特征的提取和訓(xùn)練學(xué)習(xí)效果。而學(xué)術(shù)文本不同于一般的開放域文本,學(xué)術(shù)研究的科學(xué)范式導(dǎo)致了學(xué)術(shù)文獻在科學(xué)陳述邏輯、語言表達方式、語義結(jié)構(gòu)功能等方面具有規(guī)律性的同時也存在一定差異,從而使得學(xué)術(shù)文本具有鮮明的學(xué)科特征。機器學(xué)習(xí)模型能否實現(xiàn)對特定應(yīng)用情境下文本語法及語義特征的提取則直接影響著實際的應(yīng)用效果。目前,大多數(shù)研究主要集中于各類機器學(xué)習(xí)模型的運行性能與應(yīng)用效果[7-8],卻少有學(xué)者從學(xué)科差異的視角探討學(xué)術(shù)語境下機器學(xué)習(xí)方法的適用性。針對上述情況,本文選取不同學(xué)科、具有不同語義結(jié)構(gòu)的學(xué)術(shù)文本建立深度學(xué)習(xí)實驗環(huán)境,通過對實驗結(jié)果的對比分析,評估機器學(xué)習(xí)模型在不同學(xué)科的運行表現(xiàn)。本研究不僅為驗證深度學(xué)習(xí)模型在語義結(jié)構(gòu)功能識別應(yīng)用上的性能狀況提供第一手的實證資料,而且為深度學(xué)習(xí)方法在不同學(xué)科背景下的應(yīng)用提供有價值的參考建議。
1 文本結(jié)構(gòu)功能識別相關(guān)研究
學(xué)術(shù)文本的內(nèi)容結(jié)構(gòu)具有一定的規(guī)律性,語句、段落或章節(jié)等不同的結(jié)構(gòu)單元承擔相應(yīng)的語義功能,例如:特定語句陳述研究的目的或意義,特定段落描述研究方法,特定章節(jié)給出實驗結(jié)果等。因而,學(xué)術(shù)文本的結(jié)構(gòu)功能識別問題從機器學(xué)習(xí)的視角可視為一種文本自動分類任務(wù),即在學(xué)術(shù)文獻的結(jié)構(gòu)框架下,對句子、段落或章節(jié)等不同層次的文本單元進行語義功能的分類預(yù)測,實現(xiàn)結(jié)構(gòu)功能語義標簽的自動標注。目前相關(guān)研究根據(jù)結(jié)構(gòu)框架的不同主要分為兩類:
一是對標題、摘要、章節(jié)、圖表、公式等邏輯結(jié)構(gòu)層次的自動識別,結(jié)構(gòu)功能識別的主要對象是學(xué)術(shù)文本內(nèi)容中包含的顯性知識單元。例如LuongMT等采用條件隨機場(CRF)方法實現(xiàn)文獻中標題、作者、摘要、圖表等邏輯結(jié)構(gòu)的識別[9],Tu-arob S等則是采用支持向量機(SVM)和樸素貝葉斯(NBC)模型對學(xué)術(shù)文獻的章節(jié)邊界進行劃分[10],Constantin A等提出了一種解析PDF文檔結(jié)構(gòu)的技術(shù)方案,實現(xiàn)了從PDF格式的學(xué)術(shù)文獻中獲取邏輯機構(gòu)并實現(xiàn)XML規(guī)范化描述的工具,實現(xiàn)了對標題、作者、參考文獻等結(jié)構(gòu)的識別[11]。而國內(nèi)相關(guān)研究也取得了進展,黃永等同樣以支持向量機為分類器引入詞匯聚類特征實現(xiàn)章節(jié)結(jié)構(gòu)的識別[4]。
二是對文本內(nèi)容的功能性結(jié)構(gòu)層次的自動識別,例如IMRaD模型定義的“四項式”功能結(jié)構(gòu),并不一定與文本的語句、段落或章節(jié)等邏輯結(jié)構(gòu)逐一對應(yīng),對學(xué)術(shù)文本中的語句、段落或章節(jié)等不同層次的單元根據(jù)不同的文本功能結(jié)構(gòu)進行分類標識,是近年來研究的重點,也是本文關(guān)注的研究內(nèi)容。目前,常用的學(xué)術(shù)文本功能結(jié)構(gòu)框架除了廣泛采用的IMRaD模型,還有根據(jù)特定領(lǐng)域的學(xué)科特點或論文體裁需求而定義的不同結(jié)構(gòu)模型,比如早期臨床類論文采用的“八項式”結(jié)構(gòu),包含目的、設(shè)計、研究單位、研究對象、處理方法、測定、主要結(jié)果和結(jié)論等要素,后經(jīng)改進后稱為Haynes -Huth結(jié)構(gòu)[12];根據(jù)循證醫(yī)學(xué)的臨床指南,生物醫(yī)學(xué)領(lǐng)域通常遵循PICO“四項式”結(jié)構(gòu),包含研究樣本、臨床干預(yù)、對照、干預(yù)的影響或結(jié)果,以便明確體現(xiàn)臨床醫(yī)學(xué)涉及的主要信息內(nèi)容[13];在社會科學(xué)領(lǐng)域也有采用背景、目的、方法、結(jié)果、結(jié)論和評述等“六項式”結(jié)構(gòu);針對綜述型論文提出的包括目的、資料來源、研究選擇、資料提取、資料綜合、結(jié)論等的“六項式”結(jié)構(gòu)。上述功能結(jié)構(gòu)框架已在不同領(lǐng)域文獻的結(jié)構(gòu)式摘要中得到采用,而在文本結(jié)構(gòu)功能識別研究中,功能結(jié)構(gòu)框架仍然以IMRaD為主。
在實現(xiàn)方法上,除了傳統(tǒng)的CRF、SVM分類模型以及多種分類模型的融合改進以外,近年來深度學(xué)習(xí)模型的應(yīng)用逐漸深入,以卷積神經(jīng)網(wǎng)絡(luò)( CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)為代表的深度學(xué)習(xí)模型,以及在此基礎(chǔ)上創(chuàng)新的長短期記憶網(wǎng)絡(luò)( LSTM)、LSTM - CRF、CNN -CRF等模型層出不窮,學(xué)者們圍繞不同分類模型在文本結(jié)構(gòu)功能識別中的應(yīng)用展開研究。筆者從調(diào)研文獻中選取了近年來發(fā)表的5種代表性方法,對其研究對象、功能結(jié)構(gòu)、分類模型等進行了對比,如表1所示,現(xiàn)有研究主要從機器學(xué)習(xí)方法有效性的視角更多地關(guān)注不同分類模型(分類器)在單一數(shù)據(jù)集上的實驗性能,包括不同分類模型的整體和單類別識別性能、方法的執(zhí)行效率、分類參數(shù)的最優(yōu)設(shè)置等。其中,前3項研究采用傳統(tǒng)的機器學(xué)習(xí)模型,后兩項則采用深度學(xué)習(xí)模型,性能對比結(jié)果顯示深度學(xué)習(xí)模型的實驗性能整體高于傳統(tǒng)模型,但由于現(xiàn)有研究針對不同學(xué)科領(lǐng)域的學(xué)術(shù)文本展開,樣本的語種、規(guī)模、學(xué)科領(lǐng)域、功能結(jié)構(gòu)都存在差異,因此無法直接對比分析其性能差異的影響因素?;谏鲜龇治?,本文重點關(guān)注特定分類模型在不同實驗條件下的性能表現(xiàn),以探索機器學(xué)習(xí)模型實際應(yīng)用性能的深層規(guī)律。
2 基于深度學(xué)習(xí)的學(xué)術(shù)文本語義結(jié)構(gòu)功能識別實驗
2.1 數(shù)據(jù)準備
結(jié)構(gòu)式摘要是近年來在部分學(xué)科領(lǐng)域推廣使用的摘要撰寫方式,倡導(dǎo)作者根據(jù)研究要素構(gòu)成提供結(jié)構(gòu)化的簡要內(nèi)容陳述,據(jù)統(tǒng)計ESI高被引期刊中提供結(jié)構(gòu)式摘要的期刊總體占比14.4%,而生物醫(yī)學(xué)領(lǐng)域采用結(jié)構(gòu)式摘要的期刊占比達到29.2%[15]。盡管結(jié)構(gòu)式摘要并未覆蓋所有學(xué)科領(lǐng)域,但這種自帶功能結(jié)構(gòu)標簽的摘要文本,對于開展有監(jiān)督機器學(xué)習(xí)提供了極大的便利,因而成為眾多學(xué)者選擇的理想實驗語料。
為了保證語料的選取滿足多學(xué)科對比研究的實驗需求,筆者通過對中國知網(wǎng)( CNKI)收錄期刊的摘要文本結(jié)構(gòu)化程度、摘要語義結(jié)構(gòu)、所屬學(xué)科分類、文獻量等方面進行調(diào)研,從5個不同的學(xué)科分支分別選擇一種代表性期刊,以5種期刊上提供結(jié)構(gòu)式摘要的刊載論文摘要文本作為實驗數(shù)據(jù)。其中,醫(yī)藥、衛(wèi)生類選取了國內(nèi)最早引進結(jié)構(gòu)式摘要并構(gòu)建了生物醫(yī)學(xué)領(lǐng)域“四項式”摘要結(jié)構(gòu)化模型的《新鄉(xiāng)醫(yī)學(xué)院學(xué)報》[16],傳統(tǒng)的圖情類期刊《圖書情報工作》和《數(shù)據(jù)分析與知識發(fā)現(xiàn)》則根據(jù)其發(fā)文所屬的中圖分類分布,將兩個期刊分別作為圖書館學(xué)、圖書館事業(yè)類( G25)和信息處理、信息加工類( TP391)的代表期刊,而針對目前提供結(jié)構(gòu)式摘要的經(jīng)濟類期刊較少的情況,選擇了同時被CSSCI和北大核心期刊收錄的《數(shù)量經(jīng)濟技術(shù)經(jīng)濟研究》作為經(jīng)濟類實驗語料。實驗數(shù)據(jù)集詳情如表2所示。
考慮到實驗數(shù)據(jù)規(guī)模平衡性,除《新鄉(xiāng)醫(yī)學(xué)院學(xué)報》只選取了10年數(shù)據(jù)外,其他期刊數(shù)據(jù)的起始年份均是從提供結(jié)構(gòu)式摘要的卷期年份開始截止至檢索日期(2019年6月)。然后,對獲取的文本數(shù)據(jù)進行預(yù)處理,包括過濾非研究論文數(shù)據(jù)、對摘要文本進行語句切分等,經(jīng)過預(yù)處理共獲得符合要求的學(xué)術(shù)文本摘要6 452篇,帶語義標簽的學(xué)術(shù)文本語句32 160條記錄,數(shù)據(jù)的訓(xùn)練測試比為9:1(摘要文本語料示例見圖1)。
2.2 工具選取與實驗步驟
實驗采用開源深度學(xué)習(xí)組件Magpie[17]作為基礎(chǔ)工具實現(xiàn)學(xué)術(shù)期刊摘要文本的功能結(jié)構(gòu)識別實驗,解決多學(xué)科不同期刊不同功能結(jié)構(gòu)框架下的多類別分類問題( Multi-class Classification)。Magpie最初用于實現(xiàn)高等物理領(lǐng)域文獻摘要的主題分類標引,后被改進并封裝后成為一種實現(xiàn)大規(guī)模訓(xùn)練語料基礎(chǔ)上的文本分類通用工具。目前,Magpie采用的基礎(chǔ)模型參考了先后由Kim y[18]和Berger MJ[19]提出的基于CNN的文本分類模型。封裝后的Magpie在Word2Vec實現(xiàn)的詞向量化基礎(chǔ)上,通過SciKit Leam進行數(shù)據(jù)集的標準化處理,然后利用Keras神經(jīng)網(wǎng)絡(luò)API實現(xiàn)深度學(xué)習(xí)完成分類任務(wù),基本原理如圖2所示。
為科學(xué)全面地評估機器學(xué)習(xí)方法的適用性,實驗根據(jù)5種期刊所屬的中圖分類(見2.1節(jié)表2)將樣本語料分為5組,下文簡稱“醫(yī)學(xué)”、“圖情”、“數(shù)據(jù)”、“出版”、“經(jīng)濟”,從學(xué)科差別、功能結(jié)構(gòu)、樣本規(guī)模等多種角度,觀察5組數(shù)據(jù)的分類性能差異,分析機器學(xué)習(xí)的影響因素及變化規(guī)律。具體步驟如下:首先,將實驗數(shù)據(jù)通過分詞處理后利用Word2Vec算法構(gòu)建各獨立語句文本的詞向量( Word_Vector);然后,在對數(shù)據(jù)進行標準化處理( Scaler)后調(diào)用Mapgie組件開展機器學(xué)習(xí);最后,生成相應(yīng)的機器學(xué)習(xí)模型( Model. h5),并應(yīng)用于測試語料的自動分類。部分示例代碼如下:
magpie= Magpie(
keras_model='../magpie_result/20_0.1 _li/mod-e1.h5 '.
word2vec_ model='../magpie _result/20 _0.1 _li/embeddings ',
scaler='../magpie_result/20_0. l_li/scaler ',
labels=[' purpose',' method',' result',' limita-tion ', 'application',valuation])
#調(diào)用Magpie機器學(xué)習(xí)模型及語義標注集
for index in df_test_data.index:
test—sentence= df—test—data. loc[ index,”sen-tence”]
test_sentence= jieba. cut( test _sentence, cut_all=False.HMM =True)
test—sentence=””.join( test_sentence)
#測試語句切分及預(yù)處理
temp= magpie.predict_from_text( test_sentence)
#應(yīng)用Magpie進行分類預(yù)測
2.3 性能評價方法
目前對于文本分類實驗的測評主要有如下指標:精確率( Precision)、召回率(Recall)以及調(diào)和均值( F-Score),可以單獨評價不同分類的局部預(yù)測性能,并通過均值計算表達整體性能。為方便對比分析,本實驗對混淆矩陣進行了P、R和F值列的擴展。具體混淆矩陣及其計算公式如下:
其中混淆矩陣中Ci表示分類,行代表真實值即摘要文本中自帶的分類標簽,列代表預(yù)測值即機器學(xué)習(xí)的分類預(yù)測結(jié)果,矩陣元素Xij表示真實值為Ci的文本被預(yù)測為Cj的類別數(shù),各分類的準確率Pi根據(jù)預(yù)測值對應(yīng)的列元素進行計算,召回率Ri根據(jù)真實值對應(yīng)的行元素進行計算,整體準確率和召回率根據(jù)均值計算。計算公式如下:
3 實驗結(jié)果分析
3.1 不同學(xué)科的文本結(jié)構(gòu)功能識別效果初步分析
實驗選擇Python3.6開發(fā)環(huán)境并調(diào)用Mag-piel.0,設(shè)置訓(xùn)練語料中10%的數(shù)據(jù)作為機器學(xué)習(xí)效果的測試數(shù)據(jù)(即Test_ratio=0.1),文本的詞向量維度設(shè)置為300(即vec_dim= 300),學(xué)習(xí)迭代次數(shù)設(shè)置為20(即Epochs= 20)。對5個學(xué)科的語句級文本數(shù)據(jù)進行標注實驗結(jié)果如下:
通過上述同參數(shù)對比實驗可以發(fā)現(xiàn):醫(yī)學(xué)類文獻摘要文本的語義結(jié)構(gòu)功能自動識別效果最優(yōu),其次是圖情和經(jīng)濟類摘要文本,識別效果較差的為數(shù)據(jù)類和出版類摘要文本。其中,醫(yī)學(xué)類文本較其他4個學(xué)科的語義結(jié)構(gòu)識別正確率有明顯優(yōu)勢。結(jié)合表5-7的混淆矩陣顯示,醫(yī)學(xué)類表征分類器整體性能的F值分布在0. 8619 -0.9105之間,各分類的性能表現(xiàn)都接近或優(yōu)于90%;而在其他學(xué)科,比如圖情和出版類文本上整體F值分別僅有0. 683和0. 5949,表明相同的分類模型在不同學(xué)科文本中性能差異明顯。
究其原因,醫(yī)學(xué)類文本在語言形式表達上具有明顯的規(guī)律性,使得各分類都有顯著的排他性特征。例如,對醫(yī)學(xué)類文本的句式進行歸納總結(jié)可以發(fā)現(xiàn)其句式具有特定規(guī)律,以“目的”類樣本為例,491條分類正確的樣本中,以“探討/探尋/探索…” (286條)、 “了解/考察/觀察…” (106條)、“研究…”(37條)、“分析/比較…”(32條)、“評價/總結(jié)…”(19條)為代表句型,共計480條,占該分類樣本總數(shù)的98%。而在其他4個學(xué)科,這種句式表達的規(guī)律性相對不顯著。
除了句式特征,只出現(xiàn)在某一類樣本中的高頻詞往往在分類等機器處理的過程中作為基本特征具有很高的區(qū)分度,將這種具有高區(qū)分度的高頻詞(常為學(xué)科術(shù)語)其稱為類別的專有高頻詞,據(jù)此對實驗文本進行高頻詞分析,統(tǒng)計結(jié)果同樣呈現(xiàn)出規(guī)律性。如表8所示醫(yī)學(xué)和圖情類語料專有高頻詞數(shù)量分布相對突出,醫(yī)學(xué)詞頻高于60的43個高頻詞中專有高頻詞有29個,占比67%,詞頻高于50的高頻詞集合中專有高頻詞占比甚至達到75%,相較而言圖情類文本表現(xiàn)稍弱,詞頻高于50的高頻詞集合中專有高頻詞占比最高,達到67.6%;而出版、數(shù)據(jù)和經(jīng)濟類語料整體上高頻詞相對較少,詞頻超過20的高頻詞分別僅有32、29、10個,專有高頻詞數(shù)量極少。而從詞頻均值來看,醫(yī)學(xué)類表現(xiàn)強勢,高頻詞的詞頻均值遠超其他類別,盡管出版類語料的詞頻均值也出現(xiàn)了40以上的較高數(shù)值,但高頻詞數(shù)量的限制使得出版類語料的文本特征區(qū)分度仍然較弱。從專有高頻詞與詞頻均值的分析結(jié)果來看,其特征規(guī)律也與實驗結(jié)果保持一致。雖然除醫(yī)學(xué)和圖情類外其他3類語料識別效果偏低的情況,一定程度上可能受這3類語料的樣本規(guī)模的影響,但筆者認為其數(shù)據(jù)統(tǒng)計結(jié)果呈現(xiàn)的規(guī)律一定程度上也反映出學(xué)科本身的術(shù)語專指度水平也是機器學(xué)習(xí)效果學(xué)科差異化產(chǎn)生的實質(zhì)影響因素。
3.2 不同結(jié)構(gòu)框架下學(xué)術(shù)文本結(jié)構(gòu)功能識別效果深度分析
為了進一步探究學(xué)科文本特征差異產(chǎn)生的原因,實驗對不同功能結(jié)構(gòu)框架下各分類的識別性能分別進行了對比分析。在5組樣本數(shù)據(jù)中,醫(yī)學(xué)和出版兩類文本的功能結(jié)構(gòu)完全相同,但其他3類文本也都包含了目的(研究目標)、方法(過程/方法、研究方法)、結(jié)果(研究發(fā)現(xiàn))等常用功能結(jié)構(gòu),根據(jù)期刊實際要求而略有不同。而對照不同功能結(jié)構(gòu)的實驗結(jié)果可以發(fā)現(xiàn)在各個學(xué)科不同分類之間的識別性能各異,縱向比較并沒有明顯的共同規(guī)律。醫(yī)學(xué)類整體準確率都在90%左右,尤其是“目的”和“結(jié)果”類的識別準確率高于90%,而出版和圖情類文本的識別準確率最高值出現(xiàn)在“方法”類,經(jīng)濟和數(shù)據(jù)類的識別準確率最高值分別出現(xiàn)在“研究價值”和“局限”類。
而從橫向比較來看,在“方法”和“結(jié)果”類的識別召回率上各個學(xué)科的表現(xiàn)趨勢是基本一致的,醫(yī)學(xué)類文本的“方法”類識別召回率達到全局最優(yōu)的94.43%,經(jīng)濟類文本的“研究發(fā)現(xiàn)”類召回率達到91.89%,其他學(xué)科的“方法”或“結(jié)果”類召回率均為學(xué)科內(nèi)最優(yōu),這一現(xiàn)象說明了這兩類文本的機器學(xué)習(xí)特征分類辨識度較高,而體現(xiàn)在F值上也具有同樣的規(guī)律。不同功能結(jié)構(gòu)的分類可辨識度具有一定差異,對于機器學(xué)習(xí)的效果有一定程度的影響。
結(jié)合詞頻分析對各分類專有高頻詞進行單獨統(tǒng)計也可以發(fā)現(xiàn),在醫(yī)學(xué)類文本中專有高頻詞的分布相對均衡,每個分類基本都有一定數(shù)量的專有高頻詞且詞頻相對較高,而在圖情類文本中專有高頻詞分布逐步向“方法/過程”類傾斜,在出版類文本中排名前15位的專有高頻詞就只在“方法”類中出現(xiàn)了,這一分布特點進一步印證了不同功能結(jié)構(gòu)分類的可辨識度差異的存在。綜合實驗結(jié)果證明在功能結(jié)構(gòu)中“方法”和“結(jié)果”類事實描述的學(xué)術(shù)性內(nèi)容具有更高的可辨識度,除了醫(yī)學(xué)領(lǐng)域,其他學(xué)科的“目的”、“結(jié)論”等思辨性較強的闡述性內(nèi)容則在機器學(xué)習(xí)過程中呈現(xiàn)較低的識別效果。
4 總結(jié)
本文創(chuàng)新性地從多學(xué)科對比分析的視角考量深度學(xué)習(xí)方法在學(xué)術(shù)文本結(jié)構(gòu)功能識別中的應(yīng)用效果,在相同分類模型的基礎(chǔ)上對不同學(xué)科文本的整體識別效果、各分類的局部識別性能以及不同學(xué)科文本的統(tǒng)計特征等進行對比研究。從實驗結(jié)果來看,深度學(xué)習(xí)模型在文本結(jié)構(gòu)功能識別中的應(yīng)用效果毫無疑問高于傳統(tǒng)的機器學(xué)習(xí)模型,本文的實驗數(shù)據(jù)并未進行過多的數(shù)據(jù)篩選及模型優(yōu)化,獲得的實驗結(jié)果已經(jīng)超過部分調(diào)研的相關(guān)研究成果,再次證明了深度學(xué)習(xí)策略優(yōu)于傳統(tǒng)機器學(xué)習(xí)方法中的機器學(xué)習(xí)特征建模策略,依靠神經(jīng)網(wǎng)絡(luò)的迭代計算與自學(xué)習(xí)來實現(xiàn)對特征的提取與模型構(gòu)建,在以自然語言處理為基礎(chǔ)的研究中具有很好的適用性。更重要的是,實驗研究的結(jié)果證明了學(xué)科差異性對學(xué)術(shù)文本結(jié)構(gòu)功能識別效果的影響是不可忽視的,而學(xué)術(shù)文本的句式、高頻詞等規(guī)律性特征是出現(xiàn)這種學(xué)科差異性的重要原因。因此,在當前大數(shù)據(jù)研究不斷深入,大量研究依靠數(shù)據(jù)規(guī)?;幚硪蕴嵘龣C器學(xué)習(xí)效率的同時,我們應(yīng)當充分考慮學(xué)科差異化帶來的影響,不應(yīng)該盲目構(gòu)建跨學(xué)科大規(guī)模應(yīng)用數(shù)據(jù)集合,而需要充分融人數(shù)據(jù)的學(xué)科特征,包括文本的語言表達特點、語義結(jié)構(gòu)差異、學(xué)科術(shù)語專指度等,在形成合理的跨學(xué)科數(shù)據(jù)集成框架后再考慮多學(xué)科數(shù)據(jù)的融合與集成應(yīng)用。由于本次實驗選取的各學(xué)科樣本規(guī)模并不均衡,部分學(xué)科樣本量偏小,一定程度上會對實驗結(jié)果的有效性產(chǎn)生一定影響,因此擬在后續(xù)研究中進一步擴大數(shù)據(jù)規(guī)模及學(xué)科覆蓋面,一方面更深層次、更全面地衡量機器學(xué)習(xí)的性能和泛化能力,實現(xiàn)更準確地學(xué)科差異化的影響評估;另外一方面也可以從深度學(xué)習(xí)的技術(shù)視角,進一步探索在不同學(xué)科語境下深度學(xué)習(xí)方法在條件設(shè)置、參數(shù)選取等方面是否也具有學(xué)科差異化表現(xiàn)等一系列問題。