學(xué)術(shù)論文子句語義類型自動標注技術(shù)研究

2021-07-17 14:59:44黃文彬王越千步一車尚錕

情報學(xué)報 2021年6期

黃文彬，王越千，步一，車尚錕

（1.北京大學(xué)信息管理系，北京 100871；2.清華大學(xué)經(jīng)濟管理學(xué)院，北京 100084）

1 引言

學(xué)術(shù)論文是學(xué)術(shù)成果交流的主要方式，學(xué)術(shù)論文的文本挖掘也是信息管理學(xué)科重要的研究內(nèi)容。與一般文本相比，學(xué)術(shù)論文具有以下特點：①學(xué)術(shù)論文的用詞和句法比較規(guī)范，這降低了對論文的語句進行語法、句法分析的難度；②學(xué)術(shù)論文內(nèi)部有比較嚴密的邏輯結(jié)構(gòu)，且同一學(xué)科或同一類型的論文行文內(nèi)部結(jié)構(gòu)具有較高的相似性。因此，除了使用一般文本的挖掘方法之外，合理利用上述特點對論文的結(jié)構(gòu)進行解析，將給學(xué)術(shù)論文的文本挖掘帶來極大的便利。

為了提升學(xué)術(shù)論文的文本挖掘效果，已有不少研究引入了各種理論模型將論文結(jié)構(gòu)化。例如，Swales的CARS（create a research space model）體裁分析模型[1]，將論文簡介部分分為三個語輪（Move）中的7個語步（Step），但使用的范圍一般僅限于論文的特定章節(jié)（如摘要、簡介等），泛化能力較弱，難以大規(guī)模應(yīng)用到學(xué)術(shù)論文的全文本分析中；黃曾陽的HNC（hierarchical network of concepts，概念層次網(wǎng)絡(luò)）理論[2]從詞語、語句、句群和篇章4個層級對文章進行解析輔助計算機進行自然語言理解，但語義單元類型過于復(fù)雜，提高了標注的難度；陸偉、黃永等[3-6]系列研究則對學(xué)術(shù)論文中章節(jié)的結(jié)構(gòu)功能進行識別，由于其粒度局限在章節(jié)層面，故不能實現(xiàn)更細粒度的文本挖掘。

本文期望找到滿足以下條件的學(xué)術(shù)論文結(jié)構(gòu)功能模型，并以此為基礎(chǔ)進行論文結(jié)構(gòu)自動標注的研究：①通用性強，適用于不同學(xué)科和論文中的不同章節(jié)；②模型規(guī)則不能過于復(fù)雜，且有明顯的語法、詞匯等語言學(xué)特征，方便機器識別；③粒度較細，即粒度要等于或更細于句子粒度。根據(jù)上述要求，本文選擇了de Waard[7]提出的篇章子段類型的模型作為本研究使用的模型。Waard認為，論文中所有子句可以分為事實（Fact）、假設(shè)（Hypothesis）、問題（Problem）、方法（Method）、結(jié)果（Result）、意義（Ⅰmplication）和目標（Goal）7種類型。以Huang等[8]一篇論文的片段為例，其劃分出的子句包括：

Although parallel browsing is more prevalent than linear browsing online(Fact),little is known about how users perform this activity(Problem).We study the use of parallel browsing(Goal)through a log-based study of millions of Web users and present findings on their behavior(Method).We identify a power law distribution in browser metrics comprising“outclicks”and tab switches(Result),which signify the degree of parallel browsing(Hypothesis).

本文旨在將論文的片段切分成子句（即上段例子中每個括號前的短句子），并用機器學(xué)習(xí)的方法給每個句子標注相應(yīng)的語義角色（即括號里的內(nèi)容）。與現(xiàn)有的學(xué)術(shù)論文子句語義類型自動標注研究相比，本文的主要貢獻在于：

（1）實現(xiàn)了論文全文本子句粒度的語義類型的標注。相比之下，以往研究大多是標注論文章節(jié)所屬的功能類型，或特定章節(jié)中句子的語義類型。

（2）使用了包括論文章節(jié)結(jié)構(gòu)在內(nèi)的更多的語法、詞匯、位置特征判斷子句的語義類型，提高了語義類型標注的準確度，并結(jié)合人工標注一致性實驗，探討導(dǎo)致標注錯誤的主要原因。

（3）進行了基于子句語義類型標注結(jié)果的論文主題聚類實驗，證明了本模型的價值。

2 篇章修辭結(jié)構(gòu)模型和自動標注回顧

篇章修辭結(jié)構(gòu)是指文章的功能結(jié)構(gòu)，其定義了文章各部分的順序和修辭功能[9]。隨著學(xué)術(shù)論文的撰寫、傳播和閱讀環(huán)境由線下向線上轉(zhuǎn)移，對學(xué)術(shù)論文的篇章修辭結(jié)構(gòu)進行建模以便于計算機理解，已經(jīng)成為了一個研究熱點。目前，篇章修辭結(jié)構(gòu)模型正在由較粗的段落粒度向較細的句子甚至子句粒度演進。本節(jié)將對句子及以下粒度的篇章結(jié)構(gòu)模型和基于這些模型的篇章結(jié)構(gòu)自動標注實驗進行回顧。

2.1 篇章修辭結(jié)構(gòu)模型

Teufel等[10]在1999年提出的論證分區(qū)模型（argumentative zoning，AZ模型）是一種較早的句子粒度修辭結(jié)構(gòu)模型。AZ模型針對語言學(xué)領(lǐng)域論文的結(jié)構(gòu)特點，將句子分為目標（Aim）、背景（Background）、理論基礎(chǔ)（Basis）、對比（Contrast）、已有研究（Other）、本文研究（Own）和篇章結(jié)構(gòu)（Textual）7種類型。AZ模型認為，研究者撰寫學(xué)術(shù)論文的目的在于向同行聲明其對新發(fā)現(xiàn)知識的所有權(quán)，因此，這種論文比較注重文中的新知識和已有知識之間的關(guān)系，而非對新知識本身的解析。

Mizuta等[11]參考AZ模型提出了嵌套標記模型，突破句子粒度，進入了更細的子句粒度。在子句粒度上，最常見的修辭結(jié)構(gòu)模型是在引言中提及的de Waard的篇章字段類型模型[7]。2008年，de Waard等[12]對篇章子段類型模型進行改進，在保證修辭結(jié)構(gòu)完整的前提下對分類粒度進行細化。除了引言中提及的7種子句語義類型外，改進模型還添加了介紹（Ⅰntroduction）大類和討論（Discussion）大類。其中，介紹大類分為研究定位（Positioning）、中心問題（Central Problem）、假設(shè)（Hypothesis）與結(jié)果匯總（Summary of Results）4個小類；討論大類分為評價（Evaluation）、對比（Comparison）、啟示（Ⅰmplications）和下一步研究（Next Steps）4個小類。另外，改進模型還對實體（專有名詞、圖標、引文）和關(guān)系（實體間關(guān)系、實體本身和實體在文中表示的關(guān)系、同一篇文章中不同類型子句的關(guān)系、不同文章中子句的關(guān)系）進行了定義。

2.2 篇章結(jié)構(gòu)自動標注

科學(xué)論文篇章結(jié)構(gòu)自動標注是指給定一定粒度的文本片段，要求判斷其功能類型。具體到句子粒度，則要求對給定論文文本中的每個句子進行語義類型自動標注。語義類型自動標注通常通過機器學(xué)習(xí)方法實現(xiàn)。從使用的特征上看，常用特征有句子在文中的位置特征、語法/句法特征與詞匯特征，特別是和動詞有關(guān)的詞匯特征；從使用機器學(xué)習(xí)模型上看，常用的模型有樸素貝葉斯（naive Bayesian model，NBM）、條件隨機場（conditional random field，CRF）、支持向量機（support vector machine，SVM）等傳統(tǒng)分類模型，深度學(xué)習(xí)的應(yīng)用相對較少；從實驗語料上看，大多數(shù)研究只對論文的部分章節(jié)（如摘要）進行標注，對論文全文進行標注的研究較少。

Guo等[13]對篇章結(jié)構(gòu)解析及其影響進行了一項較為完善的研究，其對AZ、CoreSC和摘要section headings模型（共有目標、方法、結(jié)果和結(jié)論四種句子語義類型）3種篇章修辭結(jié)構(gòu)模型進行研究，抽取了上個句子類型、句子位置特征、bi-gram、動詞信息、詞性等11個特征，訓(xùn)練了樸素貝葉斯、支持向量機、條件隨機場3種模型，對15種生物醫(yī)藥領(lǐng)域期刊的1000篇文獻的摘要部分進行了句子語義類型的自動標注。為了檢驗篇章結(jié)構(gòu)解析的實際效果，該文還請領(lǐng)域?qū)＜议喿x了未經(jīng)標注、經(jīng)人工標注和經(jīng)自動標注的3種不同篇章結(jié)構(gòu)解析方式的論文摘要，并記錄其在閱讀時回答論文相關(guān)問題的耗時和答案的一致性。實驗結(jié)果證明，該文使用的自動標注模型能在基本不影響回答的正確率的情況下有效縮短耗時。

Dasigi等[14]提出了一個基于長短時記憶模型（long short-term memory，LSTM）的科學(xué)論述標注系統(tǒng)（scientific discourse tagging，SDT）。SDT根據(jù)在PubMed語料中訓(xùn)練得到的詞嵌入模型，使用注意力（Attention）機制獲取句子的向量表示作為LSTM的輸入，按照Waard篇章子段類型模型七種子句語義類型，將PubMed中75篇文章的4497個子句進行標注。該文對注意力機制的可視化分析顯示，雖然沒有進行專門的特征工程，但注意力機制仍能捕捉到句子中對語義類型產(chǎn)生關(guān)鍵影響的詞匯，如“suggest”“analyze”等動詞。

為解決經(jīng)過標注的訓(xùn)練數(shù)據(jù)不足對監(jiān)督學(xué)習(xí)模型效果的限制，陳果等[15]將主動學(xué)習(xí)的方法應(yīng)用在論文摘要語句的功能識別中，利用結(jié)構(gòu)化摘要訓(xùn)練學(xué)習(xí)器，并選擇少量重要的非結(jié)構(gòu)化摘要進行標注，減小數(shù)據(jù)標注的工作量的同時達到較好的訓(xùn)練效果。Kiela等[16]提出了一種無監(jiān)督的聚類方法完成篇章結(jié)構(gòu)的自動標注任務(wù)，其以AZ模型和摘要section headings模型為分類標準，使用球面Kmeans、期望最大化高斯混合模型（expectation maximization-Gaussian mixture model，EM-GMM）和多級加權(quán)圖3種聚類模型，對15種生物醫(yī)藥領(lǐng)域期刊的1000篇文獻的摘要部分中的句子進行聚類，并且試圖通過聚類結(jié)果探索新的語義類型，使結(jié)構(gòu)模型更適合特定的學(xué)科領(lǐng)域。

3 子句語義類型自動標注實驗

本文使用de Waard的篇章字段類型模型[7]進行子句語義類型自動標注研究。整個實驗流程如下：首先，對論文語料進行預(yù)處理，人工標注訓(xùn)練集和測試集，并訓(xùn)練得到一個子句語義自動標注的機器學(xué)習(xí)模型。其次，選取100篇論文進行聚類實驗，使用自動標注模型對論文中每一個子句進行語義類型標注，通過幾種結(jié)構(gòu)化程度不同的模型，如純文本無結(jié)構(gòu)數(shù)據(jù)、LDA（latent Dirichlet allocation）模型、子句語義模型等，對這些論文進行主題聚類，通過對比聚類結(jié)果論證子句語義自動標注模型在文本挖掘等應(yīng)用上的價值。

3.1 數(shù)據(jù)獲取與預(yù)處理

由于本文采用的子句語義類型模型是針對實證研究類論文而構(gòu)建的，因此，將實驗語料中的論文也限制為實證研究，而不是綜述類文章或純理論文章，即論文必須具有方法部分和實驗/系統(tǒng)構(gòu)建部分。本文選擇論文的具體規(guī)則包括：①文章是用英語撰寫的；②文章長度適中（2000～20000詞）；③論文結(jié)構(gòu)符合ⅠMRD或ⅠMRC結(jié)構(gòu)，即論文至少要有表示引言、方法、結(jié)果、討論（或結(jié)論）的章節(jié)。

本文選擇了“Web信息提取”“文本信息提取”“瀏覽日志分析”和“購買記錄分析”四個主題，使用Google Scholar分別以“web information extraction”“text information extraction”“browsing log analysis”和“user behavior analysis”為檢索詞進行檢索，并人工選取相關(guān)性排名最靠前的30篇符合論文選擇規(guī)則的論文，將其中4篇加入訓(xùn)練集、1篇加入測試集、25篇加入后續(xù)聚類實驗語料。因此，本文的數(shù)據(jù)集共有120篇論文，其中16篇作為訓(xùn)練集、4篇作為測試集、100篇作為后續(xù)聚類實驗。實驗數(shù)據(jù)的集具體統(tǒng)計信息如下：訓(xùn)練集中共有16篇論文，3658個字句，經(jīng)過人工標注；測試集共有4篇論文，909個字句，經(jīng)過人工標注；聚類實驗語料共有100篇論文，27085個字句，未經(jīng)人工標注。

數(shù)據(jù)預(yù)處理過程分為3個步驟：子句切分、標題化歸和人工類型標注。其中，子句切分，是指根據(jù)一定規(guī)則將論文中的句子切分為粒度更細的子句；標題化歸，是指將論文中的章節(jié)標題統(tǒng)一屬于為8種標準章節(jié)標題中的一種，以作為特征輸入子句語義類型標注模型；人工類型標注，是指人工給每個子句打上語義類型的標簽，以作為訓(xùn)練/測試語料。訓(xùn)練集和測試集的預(yù)料需要經(jīng)過所有3個步驟的預(yù)處理，而用作聚類實驗的語料只經(jīng)過了子句切分和標題劃歸2個步驟。

1）子句切分

子句是指“文本中語義完整、不中斷的區(qū)間”[17]，是文本分析中常見的，并且介于句子和從句之間的分析粒度。子句切分將一個句子根據(jù)一定規(guī)則切分成一個或多個子句。和系統(tǒng)功能語言學(xué)注重語法和語義結(jié)構(gòu)完整性的切分方式不同，該切分方法更側(cè)重對子句語義類型或語義功能的描述。本文采用了一種較為簡單的啟發(fā)式的子句切分方法。切分原則如下：

（1）以逗號為切分點，將一個有n個逗號的句子切分為n+1個候選字句。

（2）如果一個候選子句的第一個單詞是“to”“by”或“then”，或候選子句中包含多于7個單詞，那么將這個候選子句作為一個獨立的子句單獨輸出；否則，將這個候選子句和前一個候選子句合并。

（3）如果這個候選子句是一個句子中的第一個候選子句，或者這個候選子句的前一個候選子句的第一個單詞是“to”“by”或“then”，則將其和后一個候選子句合并。

以Etzioni等[18]論文中的一個句子為例，“To address the problem of accumulating large collections of facts,we have constructed KNOWⅠTALL,a domain-independent system that extracts information from the Web in an automated,open-ended manner.”根據(jù)上述規(guī)則就應(yīng)該被拆分為“To address the problem of accumulating large collections of fact,”和“we have constructed KNOWⅠTALL,a domain-independent system that extracts information from the Web in an automated,open-ended manner.”兩個子句。

2）標題化歸

Yang等[19]提出章節(jié)標題可以分為傳統(tǒng)章節(jié)標題（“引言”“理論基礎(chǔ)”“文獻綜述”“方法”“結(jié)果”“討論”“結(jié)論”“教學(xué)法”和“意義”）、變異標題（“背景”“前人研究”“當前研究”“研究設(shè)置和主題”和“實驗設(shè)計”等在傳統(tǒng)章節(jié)標題基礎(chǔ)上變異而來，但具有相似功能的標題）和內(nèi)容標題（“第二語言學(xué)習(xí)者”“L2閱讀策略”“音韻學(xué)中心度”和“最短路徑算法”等表示章節(jié)具體內(nèi)容的標題）。為了將宏觀結(jié)構(gòu)信息結(jié)合到機器學(xué)習(xí)模型中，本文將所有標題都轉(zhuǎn)換為“摘要”“簡介”“綜述”“方法”“實驗”“結(jié)果”“討論”和“結(jié)論”8個標準章節(jié)標題中的一個。通過閱讀大量章節(jié)標題，本文總結(jié)了8類標準章節(jié)標題對應(yīng)的關(guān)鍵詞。對于本文數(shù)據(jù)集中每篇科學(xué)文獻的每個標題，按“摘要”（Abstract，對應(yīng)關(guān)鍵詞如“abstract”）、“簡介”（Ⅰntroduction，對應(yīng)關(guān)鍵詞如“introduction”“background”）、“綜述”（Review，對應(yīng)關(guān)鍵詞如“review”“background”）、“方法”（Methodology，對應(yīng)關(guān)鍵詞如“methodology”“method”“model”等）、“實施”（Ⅰmplementation，對應(yīng)關(guān)鍵詞如“implementation”“experiment”“validation design”等）、“結(jié)果”（Result，對應(yīng)關(guān)鍵詞如“result”“analysis”“evaluation”）、討論（Discussion）和“結(jié)論”（Conclusion，對應(yīng)關(guān)鍵詞如“conclusion”“future”）的順序，依次判斷每個標準章節(jié)標題對應(yīng)的關(guān)鍵詞是否在該標題中出現(xiàn)。如果該標題中出現(xiàn)了某類關(guān)鍵詞，那么將這個標題化歸為對應(yīng)的標準章節(jié)標題；如果標題中不含任何關(guān)鍵詞，那么將這個標題化歸為和上個章節(jié)相同的標準章節(jié)標題。大多數(shù)一級標題都是傳統(tǒng)/變異章節(jié)標題，基本都能通過關(guān)鍵詞匹配識別出來；內(nèi)容標題主要是二級及更低級別的標題，即使內(nèi)容標題不含關(guān)鍵詞，也可以通過化歸為和前一個章節(jié)相同的標準章節(jié)標題實現(xiàn)正確化歸。

3）人工類型標注

為方便和他人的實驗結(jié)果進行對比，本文使用de Waard[7]對子句語義類型的定義對訓(xùn)練集和測試集子句進行標注。實驗采用的7種類型標記為事實（F）、問題（P）、研究目標（G）、方法（M）、結(jié)果（R）、意義（Ⅰ）和假設(shè)（H）。7種類型的具體含義分別是：

（1）事實（Fact）：在領(lǐng)域內(nèi)已經(jīng)得到認可的觀點。

（2）假設(shè)（Hypothesis）：對一種現(xiàn)象的說明。

（3）問題（Problem）：未解決的、矛盾的或不明確的問題。

（4）方法（Method）：實驗方法。

（5）結(jié)果（Result）：實驗的直接結(jié)果。

（6）意義（Ⅰmplication）：根據(jù)研究目標和已知事實對結(jié)果的解釋。

（7）目標（Research Goal）：研究目標。

3.2 自動標注方法與實驗

3.2.1 特征選取

本文統(tǒng)計了一系列語法、句法和詞匯特征在不同類型子句上的分布情況后，選擇以下機器學(xué)習(xí)算法特征：

（1）時態(tài)。句法實驗和心理學(xué)實驗表明，子句的時態(tài)與其語義類型之間存在相關(guān)性。例如，de Waard等[20]的相關(guān)性分析實驗中已經(jīng)證明，現(xiàn)在時的子句更有可能被預(yù)測為事實；過去時的子句更可能被預(yù)測為結(jié)果。這一特征的可選取值為“過去時”和“其他時態(tài)”。

（2）引用。如果一個子句引用了其他文獻或指向一個公式/圖表，那么通常表明該子句應(yīng)歸類為結(jié)果或事實[21]。當一個子句沒有引用標記時，則此特征取值為“無”；如果該子句引用其他文獻，那么此特征取值為“外部”；如果該子句指向圖或表格，那么此特征取值為“內(nèi)部”。

（3）章節(jié)名稱。本文根據(jù)內(nèi)容將論文的傳統(tǒng)章節(jié)標題分為8類：“摘要”“簡介”“綜述”“方法”“實驗”“結(jié)果”“討論”和“結(jié)論”。將子句所在章節(jié)的傳統(tǒng)章節(jié)標題作為此特征的取值。

（4）情態(tài)動詞?！癱an”“may”等情態(tài)動詞更可能出現(xiàn)在“意義”子句中[20]。本文將子句是否包含情態(tài)動詞作為情態(tài)動詞特征的取值。

（5）詞表。本文使用了子段邊界（segment-segment boundaries）詞典和點互信息（pointwise mutual information，PMⅠ）高頻詞對兩個詞典以提取詞匯特征。子段邊界詞典是de Waard[7]統(tǒng)計得出的論文中從一種子句類型過渡到另一種子句類型時常見的標識詞。例如，若某個子句是事實類子句，而下一個子句以“we found”為起始詞組，這就往往意味著下一個子句不再是事實類子句，而是結(jié)果類子句。若某個子句以Waard統(tǒng)計的子段邊界詞之一為起始詞（組），則將這個起始詞（組）作為一個特征。為適應(yīng)本文所用的語料，使用點互信息法[22]創(chuàng)建了高頻詞對詞典，若某個詞對中的兩個詞在同一個子句中出現(xiàn)，則將該詞對作為這個子句的一個特征。

（6）詞性。本文使用Python nltk工具包對子句中的每個單詞的詞性進行標注，并將標注結(jié)果中的POS（part-of-speech）標簽去重后作為詞性特征。

3.2.2 機器學(xué)習(xí)模型

在撰寫科學(xué)論文時，作者通常會遵循一些寫作范式，如一個篇章子段通常先陳述事實并提出有關(guān)問題，然后根據(jù)問題確定實驗?zāi)康摹⒃O(shè)計實驗，并根據(jù)結(jié)果做出假設(shè)，即某個子句的語義類型可能和上個子句的語義類型存在關(guān)系?；谶@一特性，本文選擇序列標注模型中的條件隨機場完成子句類型標注任務(wù)。但考慮到不同文章結(jié)構(gòu)存在差異，CRF無法從相鄰句子的概率轉(zhuǎn)移中學(xué)習(xí)到適用于所有論文的模型，因此，本文還使用隨機森林（random forest，RF）、隨機梯度下降分類器（stochastic gradient descent，SGD）、支持向量機和梯度提升分類器（gradient boosting classifier，GBC）作為補充分類器。這些模型是使用Python軟件包sklearn和crfsuite構(gòu)建的。利用sklearn中的RandomizedSearchCV函數(shù)對5個機器學(xué)習(xí)模型的常見參數(shù)進行隨機搜索調(diào)優(yōu)。每個機器學(xué)習(xí)模型隨機搜索100次參數(shù)，并使用訓(xùn)練集的全部語料進行3折交叉驗證。參數(shù)調(diào)優(yōu)結(jié)果顯示，CRF、SVM和GBC這3個模型的效果比較好，說明某個子句語義類型和其上個子句語義類型之間的關(guān)系并不像預(yù)期的那樣重要，這是因為提取了眾多的特征，其中包含了一些子句間轉(zhuǎn)移的規(guī)則詞等，在一定程度上可以彌補序列中相鄰子句語義類型轉(zhuǎn)移情況的作用。將這3個表現(xiàn)最好的模型進行集成，即對使用3個模型分別給出的標注結(jié)果進行投票作為最終的預(yù)測結(jié)果。

最終參與集成的3個機器學(xué)習(xí)模型的部分重要參數(shù)如下：CRF使用的訓(xùn)練算法為lbfgs，不設(shè)置特征出現(xiàn)最小次數(shù)限制；SVM使用的核函數(shù)為線性（linear）核函數(shù)，正則化系數(shù)C=0.167，多分類問題策略為一對多（one vs rest）；GBC使用deviance loss作為損失函數(shù)，基學(xué)習(xí)器個數(shù)為300，學(xué)習(xí)率為0.13，節(jié)點特征選擇算法為friedman_mse，節(jié)點特征數(shù)上限設(shè)為對數(shù)個特征（log2），最大深度為2。

3.2.3 實驗結(jié)果

為了與前人的實驗進行比較，本文選擇了Burns等[21]提出的特征選取方法和CRF模型作為對比模型，在本文實驗的訓(xùn)練和測試集論文全文上進行實驗，實驗結(jié)果和集成模型的混淆矩陣如表1和表2所示。

表1 自動標注全文實驗結(jié)果

表2 集成模型自動標注全文混淆矩陣

集成模型在標注“目標”類型時效果最佳，大量的“目標”類型都以“To”開頭，因此模型可以通過子段邊界詞典中的詞匯特征判斷出目標類型?！笆聦崱焙汀胺椒ā鳖愋偷臉俗⑿Ч蚕鄬^好，這是因為數(shù)據(jù)集中這些類型子句的數(shù)量較多，所以更容易找到區(qū)分這些類型的特征。然而，此模型在對“假設(shè)”和“意義”類型進行標注時表現(xiàn)不佳，主要是由于這幾類子句的數(shù)量非常少，模型難以找到區(qū)分它們的特征。在區(qū)分論文全文中的子句類型時，由于本文的模型結(jié)合了章節(jié)等宏觀信息，同時利用了句法和語法層面的微觀信息，因此，絕大多數(shù)類型的標注效果都優(yōu)于對比算法。

Burns等[21]是為了通過“結(jié)果”章節(jié)實現(xiàn)對生物論文中實驗的分類而進行的子句語義類型標注實驗，因此，其僅使用了論文中的“結(jié)果”章節(jié)對自動標注結(jié)果進行評測。為了將本文提出的集成模型和Burns等[21]的對比模型進行進一步比較，從測試集中提取出每篇論文的“結(jié)果”章節(jié)進行評測?！敖Y(jié)果”章節(jié)的實驗結(jié)果和集成模型的混淆矩陣如表3和表4所示。

表3 自動標注“結(jié)果”章節(jié)實驗結(jié)果

在結(jié)果章節(jié)中，集成模型的效果雖在大多數(shù)指標上仍然優(yōu)于對照模型，但整體提升效果沒有在全文中明顯。這是因為對照模型本身就是針對“結(jié)果”章節(jié)的子句標注問題而提出的，所以在“結(jié)果”章節(jié)的準確度會提高；而集成模型在不同章節(jié)的標注準確度存在波動，因此可能在某些章節(jié)上標注準確度高于全文準確度，另一些章節(jié)上標注準確度低于全文準確度的情況。

表4 集成模型自動標注“結(jié)果”章節(jié)混淆矩陣

分析全文自動標注結(jié)果和人工標注一致性實驗的混淆矩陣，絕大多數(shù)混淆都發(fā)生在“事實”類型和其他幾種類型之間?！笆聦崱鳖愋褪瞧叻N子句類型中定義最寬泛、外延最廣的一類，“事實”類型子句數(shù)量占子句總數(shù)量的比例也最大。因此，明確對“事實”類型子句的定義，將更有助于完善該子句語義類型模型，并提升自動標注準確率。

3.2.4 人工標注一致性實驗

為了對自動標注結(jié)果產(chǎn)生錯誤的原因做進一步解釋，同時探索這七種子句語義類型的定義可能產(chǎn)生的理解上的問題，本次實驗招募了4名志愿者，對測試集中的4篇論文額外進行了兩輪標注。要求每名志愿者閱讀Waard對7種子句類型的定義，并提供了de Waard的論文原文[7]作為自愿閱讀的參考資料。每名志愿者在學(xué)習(xí)子句類型定義后標注1～3篇不同的文章。志愿者均是至少獲得了信息管理與信息系統(tǒng)專業(yè)的學(xué)士學(xué)位，且具有一定的相關(guān)領(lǐng)域的英文論文閱讀經(jīng)驗，是上述4個主題論文的主要讀者群體，因此，志愿者提供的標注結(jié)果比較可信。這2份標注的混淆矩陣如表5所示。

表5 人工標注混淆矩陣

2份標注中，僅有61.39%的子句標注結(jié)果相同。2份標注的分歧主要在如下3個方面：

（1）介紹論文行文結(jié)構(gòu)的子句。這類子句的主要作用是方便讀者閱讀，本身含有的信息量不大。如“the[…]results are given in table 2”經(jīng)常產(chǎn)生“事實”和“結(jié)果”間的混淆；“we divide this task into 2 parts”經(jīng)常產(chǎn)生“事實”和“方法”間的混淆；“in section 3,we[…]”經(jīng)常產(chǎn)生“事實”和“目標”之間的混淆。

（2）涉及別人實驗方法的子句。這類混淆集中在“方法”章節(jié)中。如“following the approach used by[…]”經(jīng)常產(chǎn)生“事實”和“方法”之間的混淆。標注“方法”志愿者認為這句話的確描述了實驗方法的一部分；標注“事實”志愿者認為別人在已發(fā)表論文中使用的方法是學(xué)界周知的事實，所以符合“事實”的定義。

（3）有關(guān)實驗結(jié)果和實驗討論的子句。這類混淆集中在“結(jié)果”章節(jié)和“討論”章節(jié)中。例如，“we observed two major reasons for changes in[…]”經(jīng)常產(chǎn)生“結(jié)果”和“意義”之間的混淆。志愿者難以把握這類句子中的內(nèi)容多大比例是數(shù)據(jù)直接展示的，多大比例是經(jīng)過作者推理或猜測才能得出的。同時，也存在因為不知道如何標注，于是直接標作“事實”的情況。

在機器學(xué)習(xí)分類任務(wù)中，人們常把人工分類的準確率（human-level）作為機器學(xué)習(xí)方法的“天花板”，機器學(xué)習(xí)模型分類的準確率往往難以突破人工分類的準確率。而本實驗中人工標注一致性并不能完全代表人工分類的準確率，其主要原因是人工標注實驗唯一分類標準是Waard對子句類型的定義，而這些定義在不同的具體情況下的確可以產(chǎn)生不同的理解。如果在訓(xùn)練機器學(xué)習(xí)模型時，對定義進行了進一步的明確（如在標注訓(xùn)練集時約定好上述幾種容易產(chǎn)生分歧的子句的標注方案），自動標注模型的準確度完全可以超過人工標注的一致性。

4 方法應(yīng)用實例：主題聚類實驗

子句語義類型可以用于學(xué)術(shù)論文的信息抽取和文本挖掘相關(guān)的許多場景，下文將通過在100篇文獻的聚類實驗語料上的主題聚類實驗作為示例說明其價值。如果論文在經(jīng)過語義類型自動標注并抽取出特定類型的子句后構(gòu)建的特征向量，比使用全文或其他語言模型構(gòu)建的特征向量在聚類實驗中的表現(xiàn)更好，那么說明經(jīng)過子句語義類型自動標注模型處理后構(gòu)建的特征向量更能反映論文的主題，即在抽取論文的內(nèi)容信息上具有一定的效果。

本文使用全文本無結(jié)構(gòu)數(shù)據(jù)、論文宏觀結(jié)構(gòu)模型中“摘要”“簡介”“結(jié)論”章節(jié)、子句語義類型模型中“事實”類型子句和全文LDA主題6種方法對論文進行處理。主體聚類實驗具體步驟如下：

（1）對于使用論文宏觀結(jié)構(gòu)模型子句語義類型模型的組別，分別抽取出相應(yīng)部分的內(nèi)容作為聚類語料。

（2）使用Python nltk中的分詞器進行分詞，并使用nltk中stopwords工具刪除停用詞。

（3）使用Snowball-Stemmer①https://snowballstem.org/提取詞語的詞干。

（4）使用TF-ⅠDF（term frequency-inverse document frequency）模型確定詞語權(quán)重。詞語頻率閾值分別為0.2和0.8，即剔除出現(xiàn)在大于80%的論文中和小于20%的論文中的詞語。

（5）使用LDA模型提取文檔的主題分布特征，或使用TF-ⅠDF向量空間模型計算文檔的距離，使用層次聚類方法對文檔進行聚類，并對聚類結(jié)果進行評測和解釋。

本文使用sklearn中的Agglomerative Clustering層次聚類算法對文檔進行聚類。層次聚類算法首先將每篇文檔作為1個簇，每次合并距離最小的2個簇，直到剩余的簇數(shù)小于設(shè)定的終止簇數(shù)為止。與Kmeans等常用的原型聚類算法相比，層次聚類算法不需要設(shè)定任何初始狀態(tài)，從而避免了因初始狀態(tài)不同，導(dǎo)致同樣的語料在多次實驗中得到不同聚類結(jié)果的情況發(fā)生。將層次聚類算法終止簇數(shù)設(shè)為4，文檔間距離度量算法使用曼哈頓距離，在合并2個簇時以2個簇中點間距離的最大值（即全鏈接算法）作為合并判斷的標準，使得算法傾向于對2個規(guī)模較小的類進行合并，以保證聚類結(jié)果中每個簇的大小盡量相同。

本文使用了純度、互信息和同質(zhì)性3個聚類效果評價指標。由于“Web信息提取”“文本信息提取”“瀏覽日志分析”和“購買記錄分析”4個主題分屬“信息抽取”和“用戶分析”大類主題，同一大主題下的兩類主題存在內(nèi)容相似度較高，因此，在純度和同質(zhì)性上分別選擇了以2個大類為真實類別的2類純度、2類同質(zhì)性以及以4個小類為真實類別的4類純度、4類同質(zhì)性對聚類結(jié)果進行評價。聚類結(jié)果的評測和分析如表6所示。

表6 主題聚類實驗結(jié)果

表6展示了不同模型下聚類的評測結(jié)果。綜合來看，經(jīng)過子句語義類型抽取的事實類子句在聚類結(jié)果的多種評測指標上都能得到最好或接近最好的結(jié)果，使用論文全文本和簡介章節(jié)在綜合效果上僅次于事實類子句，由于論文的全文和簡介部分中的事實類型子句占比較大，因此可以達到和事實類型子句相似地較好表現(xiàn)。

圖1展示了事實類子句層次聚類效果。其中，點的坐標對應(yīng)抽取出的事實類子句形成的文檔TF-ⅠDF矩陣經(jīng)主成分分析（principal component analysis，PCA）算法降至二維后的結(jié)果；點的形狀表示對應(yīng)文檔實際所屬的主題；數(shù)字表示對應(yīng)文檔在聚類結(jié)果中所屬的簇。從圖1中可知，聚類算法能夠較準確地區(qū)分“信息抽取”和“用戶分析”兩大類主題，但對每個大類主題內(nèi)的兩小類主題分辨能力仍有待提高。

圖1 事實類子句聚類效果展示圖

5 總結(jié)與展望

本文通過引入系統(tǒng)功能語言學(xué)中的體裁分析理論，結(jié)合自然語言處理領(lǐng)域的句法分析、語法分析和關(guān)鍵詞抽取等方法，將論文的宏觀結(jié)構(gòu)信息與子句語法特征相結(jié)合，構(gòu)建了能夠自動標注子句語義類型的機器學(xué)習(xí)模型。與已有自動標注模型的對比分析，發(fā)現(xiàn)應(yīng)用子句的章節(jié)特征，嘗試更多機器學(xué)習(xí)模型并使用集成學(xué)習(xí)可以改善子句語義類型自動標注的準確度，且當標注范圍從“結(jié)果”章節(jié)等特定章節(jié)擴展到論文全文時依舊有較好的效果。本文通過自動標注模型在論文主題聚類中的應(yīng)用，證明了該模型在文本挖掘方面的應(yīng)用價值。另外，本文的主要不足之處在于人工標注困難導(dǎo)致的數(shù)據(jù)量較小。論文語義模型的多樣性和缺乏統(tǒng)一、公開、經(jīng)過標注的數(shù)據(jù)集是包括本文的研究在內(nèi)的許多論文全文本語義模型研究的主要制約因素。

子句語義類型模型在保證不同學(xué)科論文普遍適用的前提下，實現(xiàn)了論文在子句粒度上的結(jié)構(gòu)化，可以廣泛應(yīng)用在文本挖掘任務(wù)中。本文只選取了主題聚類這一項應(yīng)用作為示例，其他的應(yīng)用場景還有：①在抽取式自動摘要任務(wù)中，可以利用本模型根據(jù)摘要的組成規(guī)律，分別選取合適的事實子句、方法子句、結(jié)果子句等拼合成一篇抽取式摘要，提升摘要的信息量和結(jié)構(gòu)上的完整性；②在論文的個性化檢索任務(wù)中，可以利用本模型從論文的假設(shè)、方法、結(jié)論等方面進行語義層面的信息檢索，為用戶提供更精準的學(xué)術(shù)論文檢索和分析服務(wù)。這些對子句語義類型自動標注結(jié)果的應(yīng)用將是下一步研究的重點。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放