薛家秀 歐石燕
摘 ? 要:科學(xué)論文篇章結(jié)構(gòu)解析是規(guī)范科學(xué)論文寫作、理解其內(nèi)容、快速定位和抽取論文中特定信息的前提與基礎(chǔ)。文章采用文獻調(diào)查法和對比分析法,從篇章結(jié)構(gòu)建模、篇章結(jié)構(gòu)自動解析、篇章結(jié)構(gòu)應(yīng)用三個方面對相關(guān)文獻進行梳理和總結(jié)。研究結(jié)果發(fā)現(xiàn)當前針對科學(xué)論文篇章結(jié)構(gòu)的研究主要集中在生物醫(yī)學(xué)和計算語言學(xué)領(lǐng)域,以粗粒度的基于修辭結(jié)構(gòu)的篇章模型為主,自動解析主要采用文本分類和序列標注兩大類方法,在自動文摘、基于上下文的引文分析等任務(wù)中都有重要的應(yīng)用。今后研究應(yīng)擴展到其他領(lǐng)域,并聚焦基于修辭和論證結(jié)構(gòu)的細粒度篇章結(jié)構(gòu)建模,采用深度學(xué)習(xí)技術(shù)實現(xiàn)更精確的篇章結(jié)構(gòu)解析。
關(guān)鍵詞:科學(xué)論文;篇章結(jié)構(gòu)模型;篇章結(jié)構(gòu)解析
中圖分類號:G312 ? 文獻標識碼:A ? DOI:10.11968/tsyqb.1003-6938.2019034
Research Progress on Discourse Structure Modelling and Discourse Parsing of Scientific Articles
Abstract Discourse parsing of scientific articles is the premise and basis for standardizing the writing of scientific articles, understanding their content, and quickly locating and extracting specific information from them. This paper analyzes and summarizes related literature from three aspects: discourse structure modeling, discourse parsing and their applications by literature survey and comparative analysis. The results show that the current research focuses on the coarse-grained models of discourse structure in the domains of bio-medicine and computational linguistics. Automatic discourse parsing mainly adopts two kinds of methods: text classification and sequence labeling. Discourse structure modelling and discourse parsing has important applications in many tasks such as automatic summarization and context-based citation analysis. Future research should be extended to other domains, pay more attention to fine-grained discourse structure models based on rhetoric and argumentation structure, and apply deep learning techniques to achieve more accurate discourse parsing.
Key words scientific articles; discourse structure model; discourse structure parsing
1 ? 引言
自1665年第一本學(xué)術(shù)期刊《英國皇家學(xué)會會刊(Philosophical transactions of the Royal Society)》出版以來,學(xué)術(shù)出版已經(jīng)有300多年的歷史,科學(xué)論文已經(jīng)逐漸發(fā)展成為科學(xué)研究者進行科學(xué)交流的重要載體。傳統(tǒng)期刊論文是以線性結(jié)構(gòu)呈現(xiàn),讀者需順序瀏覽文章的全部內(nèi)容才能獲取所需信息,隨著文獻數(shù)量的爆炸式增長,這種線性結(jié)構(gòu)難以滿足科研人員的信息需求。
篇章修辭結(jié)構(gòu)是指文章的功能結(jié)構(gòu),其定義文章各部分的順序和修辭功能,如文章中某段文字的作用是介紹“研究背景”或闡述“研究目的”[1]。當今,隨著數(shù)字出版的普及,越來越多的科學(xué)期刊采用在線出版的方式,但是很多期刊論文并不具有規(guī)范的結(jié)構(gòu)。通過對論文的篇章修辭結(jié)構(gòu)進行解析,將整篇文章以結(jié)構(gòu)化的形式呈現(xiàn)出來,一方面有利于讀者快速定位所需信息,另一方面便于文中重要信息的提取、集成和重用,此外,對于規(guī)范學(xué)術(shù)論文的寫作方式、深入解讀科學(xué)結(jié)論的論證過程也具有重要的意義。
本文首先對科學(xué)論文的各種篇章結(jié)構(gòu)模型進行梳理和對比,然后對篇章結(jié)構(gòu)解析的實現(xiàn)方法與技術(shù)進行總結(jié),最后對篇章結(jié)構(gòu)解析的應(yīng)用進行探討,為進一步研究科學(xué)論文的修辭結(jié)構(gòu)和論證結(jié)構(gòu)提供參考。
2 ? 篇章結(jié)構(gòu)模型
早在20世紀末,歐美學(xué)者就開始對科學(xué)論文篇章結(jié)構(gòu)進行不同維度、不同粒度的探索與解析。本文主要梳理幾種較為典型的篇章結(jié)構(gòu)模型,并通過綜合比較分析,總結(jié)其優(yōu)缺點。
2.1 ? ?IMRaD線性模型
IMRaD模型是在學(xué)術(shù)界被廣泛使用的一種科技論文寫作規(guī)范組織結(jié)構(gòu),在實證研究型科學(xué)論文中的應(yīng)用尤為普遍[2]。IMRaD模型主要分為四個部分:介紹(Introduction)、方法(Method)、結(jié)果(Result)和(and)討論(Discussion),該模型的名稱正是來自這四部分首字母的縮寫。在科學(xué)論文寫作過程中,有些作者也會在結(jié)尾部分加上結(jié)論(Conclusion),用于總結(jié)研究過程中的新發(fā)現(xiàn)和研究結(jié)論,這就成為了具有五個部分的IMRDC模型[3]。該模型與IMRaD模型沒有本質(zhì)區(qū)別,通常對它們不作區(qū)分(IMRaD/IMRDC模型中每部分的具體描述見表1)。
IMRaD模型具有兩大特征:一是上下對稱性,二是寬度變化性(見圖1)。從論述過程來看,“介紹”部分從宏觀角度對研究的整體內(nèi)容進行概括,引入研究主題并介紹背景信息,然后逐漸縮小主題范圍,聚焦到對具體研究對象的介紹;而中間的“方法”和“結(jié)果”部分則針對具體的研究問題進行論述;研究后的“討論/結(jié)論”部分總結(jié)研究結(jié)果,又回到宏觀角度對研究結(jié)果的意義進行拓展。整個流程涉及的主題范圍由大變小,然后由小變大,因此也將其稱為“酒杯模型”。
IMRaD模型屬于平行結(jié)構(gòu),簡單明晰,卻并不受大多數(shù)讀者的歡迎。荷蘭奈梅根大學(xué)的學(xué)者Joy Burrough-boenisch[4]于1999年面向三種不同閱讀人群——學(xué)者、編輯和同行評審者對該模型進行調(diào)查,發(fā)現(xiàn)只有編輯在閱讀文章時喜歡這種模式,而其他兩種類型的受訪人員一方面表示不能適應(yīng)這種行文習(xí)慣,另一方面則認為不能快速獲得新知識,因此IMRaD模型在海量文獻背景下難以適應(yīng)讀者的信息需求。
2.2 ? ?模塊化模型
模塊化模型是將文獻內(nèi)容按照功能劃分為不同的模塊,代表模型有Harmsze模型和ABCDE模型。
(1)Harmsze模型。2000年,荷蘭阿姆斯特丹大學(xué)的Harmsze從促進科學(xué)交流的角度提出了模塊化思想,將實證研究型科學(xué)文獻劃分為六個模塊,并采用人工標注的方法在分子動力學(xué)領(lǐng)域的科學(xué)論文中進行了驗證,這六個模塊具體包括[5]:
①元數(shù)據(jù)信息(Meta-Information):支持模塊,保證出版物內(nèi)部的緊密銜接,包括書目信息(bibliographic information)、摘要(abstract)、參考文獻(lists of references)、致謝(acknowledgement)、內(nèi)容映射關(guān)系(map of contents)等;②研究現(xiàn)狀(Positioning):介紹研究主題的相關(guān)研究狀況(situation)和亟需解決的核心問題(center problem);③方法(Methods):對研究現(xiàn)狀中核心問題解決方案的描述,主要包括實驗方法(experimental method)、數(shù)值方法(numerical method)和理論方法(theoretical method)三種;④結(jié)果(Results):詳細呈現(xiàn)實驗過程中使用的數(shù)據(jù)(raw data)和實驗獲得的數(shù)據(jù)(treated result);⑤解釋說明(Interpretation):對于實驗結(jié)果的解釋;⑥結(jié)論(Outcome):主要闡述科學(xué)文獻的發(fā)現(xiàn)(findings)和下一步研究(leads to future research)。
除了上述六個模塊,該模型還定義了模塊間不同的組織鏈接(organizational links)和篇章關(guān)系(discourse relations)。組織鏈接以實現(xiàn)快速導(dǎo)航為目的,為不同模塊之間提供聯(lián)系,但并不涉及模塊內(nèi)部的切分,主要有六種關(guān)系:層次化關(guān)系(hierarchical)、鄰近關(guān)系(proximity)、范圍關(guān)系(range-based)、管理關(guān)系(administrative)、順序關(guān)系(sequential)、表示關(guān)系(representational)[5]。篇章關(guān)系則只包括兩種:一種是基于交流目的的關(guān)系,能夠使讀者更易于理解科學(xué)文獻所要表達的觀點,提高其接受程度,如論證關(guān)系(argumentation relation)用來說明句子X對句子Y是支持態(tài)度還是否定態(tài)度; 另一種是內(nèi)容關(guān)系(content relations),能夠使文獻構(gòu)建出信息流,如解決關(guān)系(resolution relation)用來標注句子X是句子Y的一種解決方法[5]。組織鏈接和篇章關(guān)系將各模塊之間以及模塊內(nèi)部關(guān)聯(lián)起來,使線性的科學(xué)文本形成一個網(wǎng)絡(luò),讀者能夠自由地在不同模塊間跳轉(zhuǎn)瀏覽,獲得所需信息。
Harmsze的模塊化模型是描述科學(xué)論文篇章內(nèi)部修辭結(jié)構(gòu)和論證結(jié)構(gòu)的最早模型之一,是一種以科學(xué)交流為目的的粗粒度科學(xué)文獻結(jié)構(gòu)表示方法,揭開了篇章修辭結(jié)構(gòu)研究的序幕。雖然其在設(shè)計上達到了科學(xué)交流的目的,但由于結(jié)構(gòu)過于復(fù)雜,在實際中很少被采用[6-7]。
(2)ABCDE模型。ABCDE模型是由荷蘭烏特列支大學(xué)的Waard和Tel基于修辭塊(rhetorical block)理論提出的針對計算機會議論文的篇章結(jié)構(gòu)模型[8]。ABCDE模型將科學(xué)出版物分為五類,分別是:標注信息(Annotations)、背景(Background)、貢獻(Contribution)、討論(Discussion)和實體(Entities),并以這五類的首字母命名該模型。
標注信息是科學(xué)出版物的元數(shù)據(jù)描述,采用都柏林核心元素集(Dublin Core,DC)描述,以解決從海量數(shù)據(jù)中識別特定文獻的問題。中間三個部分是科學(xué)出版物的主體:背景信息描述當前研究狀況和現(xiàn)階段存在的問題;貢獻指作者在研究中所進行的新的嘗試,甚至編寫的代碼;討論指作者所做工作和已有工作的對比以及未來要進行的研究。實體指從科學(xué)出版物的腳注或者參考文獻部分識別出的參考文獻、人名、網(wǎng)站等。實體信息可被進一步挖掘并轉(zhuǎn)換為RDF三元組結(jié)構(gòu),包括實體所在的章節(jié)、鏈接類型(如參考文獻、人物、項目等)和實體URI標識。該模型并沒有定義摘要部分,而是通過從背景、貢獻和討論這三個論文核心部分中抽取出核心句構(gòu)成結(jié)構(gòu)化摘要。ABCDE模型將模塊化思想與語義技術(shù)相結(jié)合,并通過Latex工具實現(xiàn)語義格式轉(zhuǎn)化。
2.3 ? ?基于論證的模型
從科學(xué)交流角度來看,科學(xué)文獻是作者論點及其論證過程的載體,文獻傳播實際就是作者希望能夠通過完整的論證過程來說服讀者接受自己的論點,因此依據(jù)作者論證過程將科學(xué)文獻進行切分的模型被稱為論證結(jié)構(gòu)模型。代表模型有語用模型、論證分區(qū)模型和Mizuta模型。
(1)語用模型。2007年,Waard在ABCDE模型的基礎(chǔ)上對論文中的修辭結(jié)構(gòu)和知識元素進行進一步標注,試圖呈現(xiàn)科學(xué)出版物中所包含的論證(argumentation)結(jié)構(gòu)。為此,針對細胞生物學(xué)領(lǐng)域的科學(xué)論文提出了一個語用模型,該模型將文本內(nèi)容劃分為如下七個類別[9]:
①事實(Fact)指人們普遍接受的描述性陳述;②研究問題(Problem)描述了已知事實的矛盾之處或者其未知的方面;③研究目標(Research Goal)陳述研究要達到的目的,包含隱形假設(shè)和隱性問題;④方法(Methods)指進行實驗的具體方法;⑤結(jié)果(Result)指實驗直接的測量結(jié)果;⑥啟示(Implications)指根據(jù)已知的事實和研究目標進行實驗結(jié)果的說明;⑦假設(shè)(Hypotheses)是沒有實驗驗證情況下進行的解釋性說明。
接下來,Waard在此研究基礎(chǔ)上,結(jié)合Harmsze的模塊化思想和ABCDE模型的修辭塊理論以及實證統(tǒng)計結(jié)果,對模塊的粒度進行了優(yōu)化,定義了篇章結(jié)構(gòu)層次化模型(見圖2)[10],從而保證科學(xué)論文中的修辭敘事流(rhetorical narrative flow)。
(2)論證分區(qū)模型。英國劍橋大學(xué)的學(xué)者Teufel采用論證分區(qū)方法對科學(xué)論文的論證結(jié)構(gòu)和修辭結(jié)構(gòu)進行了分析。1999年,Teufel針對計算語言學(xué)領(lǐng)域的論文提出了一個標注方案,被稱為AZ-I模型[11]。該模型根據(jù)論辯中的修辭語步,將科學(xué)論文中的信息分為七大類,包括:研究目標(Aim)、背景(Background)、相關(guān)研究(Other)、研究起點(Basis)、對比分析(Contrast)、作者研究(Own)、篇章結(jié)構(gòu)描述(Textual),并在計算語言學(xué)論文中進行了標注驗證。2000年,Teufel通過對AZ-I模型進行細化,推出了AZ-II模型,并在計算語言學(xué)和生命科學(xué)兩個領(lǐng)域的論文中進行了標注驗證,以證明該模型的領(lǐng)域無關(guān)性[12](AZ-I和AZ-II模型各部分的具體介紹見表2)。
AZ-I模型和AZ-Ⅱ模型都完整地描述了科學(xué)論文中的科學(xué)論斷及其論證過程。相比AZ-I模型,AZ-Ⅱ模型更加詳細而具體:①將作者自己的工作進行了更具體的劃分,分為研究方法、研究結(jié)果、研究結(jié)論和研究錯誤四個子類;②更加細致地將作者自己的工作與他人相關(guān)工作進行了對比,分為中立比較、研究空白和矛盾比較三個子類;③通過突出作者所做研究在研究方法的優(yōu)勢,使得對作者研究的論證更具有說服力,使讀者更易于接受作者的觀點。
(3)Mizuta模型。針對分子生物學(xué)領(lǐng)域存在大量實驗數(shù)據(jù)和研究結(jié)果但不能快速精確定位這一突出問題,日本國立情報研究所的Mizuta和Collier通過對四種生物學(xué)期刊論文的篇章結(jié)構(gòu)進行實證研究分析,在對AZ-I模型進行調(diào)整的基礎(chǔ)上,提出了自己的淺層嵌套標注模型(見表3),并將其應(yīng)用于信息抽取任務(wù)中,以實現(xiàn)對作者新發(fā)現(xiàn)和研究結(jié)果的快速定位[13]。
Mizuta模型主要關(guān)注作者自己的研究及其新發(fā)現(xiàn),因此將作者研究部分進行了更為細粒度的劃分,包括研究方法、研究結(jié)果、研究發(fā)現(xiàn)、研究影響等。此外,還在AZ-I模型基礎(chǔ)上添加了“一致性”和“矛盾之處”兩類,用于突出實驗數(shù)據(jù)與研究發(fā)現(xiàn)之間的關(guān)系。
Mizuta模型中定義的類別在語義上是沒有重合的, 但是在標注時,一個較長的復(fù)合句可能包含多個類別的信息, 因此在標注過程中允許嵌套標注,但考慮到標注數(shù)據(jù)的復(fù)雜性,只允許嵌套一層,如以一個嵌套標注的復(fù)合句為例,該句既屬于“作者研究”中的“研究發(fā)現(xiàn)(INS)”類,又包含了實驗數(shù)據(jù)和研究發(fā)現(xiàn)的“一致性(CNN)”信息(實例見表4)。Mizuta模型的作者利用該模型對隨機選取的20篇生物學(xué)科學(xué)論文進行了手工標注,采用定性與定量相結(jié)合的方法,分析不同類別的主要特征,如各類別出現(xiàn)的位置、句子長度、在各節(jié)中的分布等,為基于該模型的科學(xué)論文自動標注奠定了基礎(chǔ)[14-15]。
2.4 ? ?本體模型
(1)科學(xué)文獻核心信息模型??茖W(xué)文獻核心信息(Core Information about Scientific Papers,CISP)模型是由英國威爾士大學(xué)的Larisa Soldatova和Maria Liakata[16]于2007提出的,采用本體工程方法對科學(xué)研究中的核心概念進行描述的一個本體模型。這里的科學(xué)研究泛指采用實驗方法進行的各種研究,包括實際進行的調(diào)查、計算機執(zhí)行的程序、理論實驗等。CISP模型的描述形式與DC元數(shù)據(jù)規(guī)范十分相似,但不同之處在于:它不僅表示在科學(xué)論文中通常所呈現(xiàn)的書目信息,還包括一個完整的科學(xué)研究的具體內(nèi)容。
CISP模型是建立在兩個已有本體DOLCE和EXPO基礎(chǔ)之上。DOLCE本體是一個頂層本體, EXPO本體則是一個描述“科學(xué)實驗”具體過程和方法的領(lǐng)域本體。CISP模型的開發(fā)者通過對文獻進行預(yù)標注和專家訪談,在DOLCE和EXPO本體的類中篩選出描述科學(xué)研究的八個核心概念(類)并為其定義了子類和屬性,從而生成了CISP模型(見表5)。CISP模型中八個核心類的具體描述為:①調(diào)查目標(Goal of Investigation):指研究所要達到目標狀態(tài),如研究有所發(fā)現(xiàn)、方法得到檢驗、問題被合理論證等;②調(diào)查動機(Motivation):指為達到調(diào)查目的而實施調(diào)查的原因;③調(diào)查對象(Object of Investigation):指被調(diào)查的主要實體;④研究方法(Research method):指為完成科研任務(wù)而實施的科研方法,主要指科學(xué)實驗方法;⑤實驗(Experiment):指對已知變量和未知變量之間因果關(guān)系進行調(diào)查的步驟或程序;⑥實驗觀察(Observation):指由實驗直接觀察得到的結(jié)果,目標變量的值的集合;⑦調(diào)查結(jié)果(Result):指通過對觀察結(jié)果的解釋而得出的一組事實;⑧調(diào)查結(jié)論(Conclusion):指從觀察、結(jié)果、假設(shè)和事實中推斷出來的,以支持或否定一個研究假設(shè)的陳述。
為了更細致地描述科學(xué)研究,后續(xù)開發(fā)者在CISP模型基礎(chǔ)上添加了假設(shè)等三個類別,衍生出了核心科學(xué)概念(Core Scientific Concepts,CoreSCs)模型[17]。①假設(shè)(Hypothesis):指一種需要被驗證的研究領(lǐng)域中已知變量與未知變量之間因果關(guān)系的陳述;②模型(Model):指科學(xué)研究中使用的模型和研究框架,如公式、邏輯規(guī)則等;③背景(Background): 指某一科學(xué)領(lǐng)域內(nèi)被人們普遍接受的或是持中立態(tài)度的事實性陳述。
CoreSCs模型采用了一個三層結(jié)構(gòu):第一層是11個核心科學(xué)概念;第二層是將核心概念中的方法(Method)類進一步分為新舊兩類,新方法(Method-New)指在當前研究中使用的方法,舊方法(Method-Old)則指在前人研究中使用的方法;第三層是指核心科學(xué)概念的標識及與實例的關(guān)聯(lián),如表示同一方法的句子都會與“方法”類的標識符相關(guān)聯(lián)。
CoreSCs模型與CISP模型沒有本質(zhì)區(qū)別,兩者都是句子級別的信息語義標注模型,采用本體工程的方法對概念的語義進行明確而細致的描述,采用形式化表示有利于機器的理解和處理。CISP和CoreSCs本體模型都是試圖從科學(xué)論文中解析科學(xué)研究的結(jié)構(gòu),對描述科學(xué)論文的篇章結(jié)構(gòu)和語義提供了新的思路。這兩個模型與上一節(jié)中提到的基于論證的模型有本質(zhì)不同,后者是從聲稱科學(xué)論斷所有權(quán)的角度解析論文中的論證結(jié)構(gòu)。
(2)SALT本體。隨著科學(xué)文獻數(shù)量激增,人工進行語義標注的方式越來越難以滿足科研工作者的實際需要,因此自動標注變得尤為重要。SALT(Semantically Annotated LaTex)本體提供了一個豐富的語義框架,利用語義元素來豐富科學(xué)出版物[18]?;谠撜Z義框架,作者在進行創(chuàng)作時就能對科學(xué)文獻進行語義標注,使文檔由線性結(jié)構(gòu)變?yōu)闄C器可讀理解的結(jié)構(gòu)化數(shù)據(jù),既保證了標注結(jié)果的準確性,又便于文檔的集成、管理與重用。
SALT模型采用層次結(jié)構(gòu),由三個語義層構(gòu)成:最下層是文檔本體(Document Ontology),描述科學(xué)文獻的物理結(jié)構(gòu),即出版物(publication)、章節(jié)(section)、段落(paragraph)、句子(sentences)等物理單元之間的構(gòu)成關(guān)系等;最上層是修辭本體(Rhetorical Ontology),對科學(xué)文獻的修辭結(jié)構(gòu)和論證結(jié)構(gòu)進行描述;中間層是標注本體(Annotation Ontology),不僅提供科學(xué)出版物的元數(shù)據(jù)信息,還在文檔結(jié)構(gòu)本體和修辭結(jié)構(gòu)本體之間構(gòu)建語義橋梁。修辭本體是SALT模型中最核心的本體,包括三個部分:修辭結(jié)構(gòu)、論證結(jié)構(gòu)和修辭關(guān)系。修辭結(jié)構(gòu)是在段落層面將出版物中的信息根據(jù)其功能和角色劃分至不同的修辭塊,是在ABCDE模型基礎(chǔ)上進行改進而得。一方面將ABCDE模型中原來的Annotation類改為Abstract類, 用于概括地表示科學(xué)出版物的主要內(nèi)容;另一方面添加了動機(Motivation)、情境(Scenario)和評價(Evaluation)三個類別,提供一個粗粒度且易于理解的修辭結(jié)構(gòu)模型。修辭關(guān)系來源于修辭結(jié)構(gòu)理論(Rhetorical Structure Theory)中定義的近30種修辭關(guān)系,如對照關(guān)系(Contrast)、條件關(guān)系(Condition)等,用來表示科學(xué)論斷與解釋說明之間的特定關(guān)系。修辭本體的最后一部分是論證結(jié)構(gòu),但在該模型中沒有進行詳細定義。
(3)修辭塊本體。修辭塊本體(Ontology Of Rhetorical Blocks,ORB)是W3C(World Wide Web)推出的標準化科學(xué)文獻標識語言,是對科學(xué)出版物粗粒度修辭結(jié)構(gòu)的形式化表示[19]。
ORB本體首先將科學(xué)出版物篇章粗略地分為頭部(Header)、主體(Body)和尾部(Tail)三部分。針對主體部分,進一步分為引言(Introduction)、方法(Methods)、結(jié)果(Results)和討論(Discussion)四個子類;針對尾部部分,進一步分為致謝(Acknowledgements)和參考文獻(References)兩個子類(ORB本體結(jié)構(gòu)見表6)??傮w來說,ORB本體本身對科學(xué)出版物只提供了一種簡單、粗粒度的修辭結(jié)構(gòu)描述,但是ORB允許利用其它本體或者元數(shù)據(jù)規(guī)范對上述粗粒度的描述進行拓展,提供更加豐富的語義信息。如針對頭部(即Header類),可采用DC、BIBO、PRISM本體中定義的元素對其進行更加細粒度的描述。
ORB本體融合了已有科學(xué)篇章修辭結(jié)構(gòu)模型的優(yōu)勢,不僅為不同學(xué)科領(lǐng)域的科學(xué)出版物創(chuàng)建了一個通用的粗粒度修辭結(jié)構(gòu),又為細粒度理解文檔語義內(nèi)容和文檔出版提供了契機。
SALT和ORB本體均為領(lǐng)域通用型本體,但是SALT本體不能針對科學(xué)文獻各個部分的屬性進行深入分析,而ORB本體雖然也屬于粗粒度修辭描述,但其擴展部分則恰好彌補了這一缺點,通過相關(guān)本體進行細化既能夠體現(xiàn)領(lǐng)域特征又能夠更加完整地描述語義。
2.5 ? ?篇章結(jié)構(gòu)模型對比分析
針對上述篇章結(jié)構(gòu)模型,我們從研究粒度、標注級別、是否包含篇章元素間關(guān)系、構(gòu)建目的和適用領(lǐng)域五個方面對它們進行總結(jié)和對比(見表7)。最初的模塊化篇章結(jié)構(gòu)模型,是從科學(xué)交流角度出發(fā),為了幫助讀者快速定位科學(xué)論文中的特定信息(如作者的研究結(jié)果), 將線性的科學(xué)文本切分成不同的功能模塊,使讀者可根據(jù)自己的信息需求快速跳轉(zhuǎn)到相應(yīng)模塊進行閱讀。接下來,研究者們聚集于科學(xué)論文中的論證結(jié)構(gòu),依據(jù)作者的論證過程對科學(xué)文本進行切分,衍生出基于論證的篇章結(jié)構(gòu)模型。自本世紀以來,隨著本體的出現(xiàn)和發(fā)展,采用本體模型對科學(xué)論文的篇章結(jié)構(gòu)進行建模成為一種趨勢,因此出現(xiàn)了基于本體的篇章結(jié)構(gòu)模型,能夠?qū)ζ陆Y(jié)構(gòu)中的模塊以及模塊間相互關(guān)系進行語義化描述??傮w而言,篇章結(jié)構(gòu)模型逐漸由粗粒度模塊化模型逐漸向細粒度語義模型方向發(fā)展,越來越關(guān)注科學(xué)論文中文本片段間的修辭關(guān)系和論證關(guān)系,試圖更加深入地對科學(xué)論文進行結(jié)構(gòu)化表示,有利于科學(xué)論文內(nèi)容的理解和重要信息的抽取。
3 ? 篇章結(jié)構(gòu)解析的實現(xiàn)方法與技術(shù)
篇章結(jié)構(gòu)模型的構(gòu)建為篇章結(jié)構(gòu)解析提供了理論基礎(chǔ)。許多學(xué)者基于篇章結(jié)構(gòu)模型開展了一系列實踐探索。早期階段的研究,通過邀請領(lǐng)域?qū)<覍茖W(xué)論文的結(jié)構(gòu)進行人工標注,從而發(fā)現(xiàn)不同功能模塊在科學(xué)論文中的分布情況[10,12]。鑒于手工標注的文獻數(shù)量很少,時間代價和人力代價卻很大,越來越難以滿足科研需求,因此許多學(xué)者開始進行篇章結(jié)構(gòu)自動解析的探索。
科學(xué)文獻篇章結(jié)構(gòu)自動解析實際上就是要識別文獻的結(jié)構(gòu)功能,即給定一個文本片段(句子、段落或章節(jié))判斷其屬于哪個功能類別。在已有研究中使用的篇章結(jié)構(gòu)自動解析方法大致可分為兩類:一類是把篇章結(jié)構(gòu)識別問題轉(zhuǎn)換為文本分類問題,采用文本分類算法識別文本片段屬于哪個功能類別;另一類是把篇章結(jié)構(gòu)識別問題轉(zhuǎn)化為序列標注問題,因為各功能類別在文檔中的位置具有一定的規(guī)律性,如“研究目標”必定出現(xiàn)在“研究方法”之前, 因此可根據(jù)各類別在文檔中出現(xiàn)的順序來識別文本片段所屬的類。
3.1 ? ?基于文本分類的篇章結(jié)構(gòu)識別
采用文本分類算法進行篇章結(jié)構(gòu)識別通常是觀察不同特征在分類過程中起到的作用,探究不同特征與分類性能間的關(guān)系。使用的文本分類算法可分為三類:有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。
科學(xué)文本的篇章結(jié)構(gòu)分類不同于傳統(tǒng)的基于主題的文本分類。在傳統(tǒng)的主題分類任務(wù)中,大都以基于內(nèi)容的主題詞為特征進行類別判斷,而篇章結(jié)構(gòu)分類是要判斷文本片段所屬的功能類別,過多的內(nèi)容特征反而會引入噪音,影響分類效果。通過對相關(guān)文獻進行梳理后我們發(fā)現(xiàn),在已有的篇章結(jié)構(gòu)分類研究中所使用的分類特征可歸為三類:
(1)內(nèi)容特征。內(nèi)容特征主要包括N-gram(一元詞、二元詞、句子中的前若干個詞等)、章節(jié)高頻詞、不同功能類別中的線索詞等[20-22]。如東京大學(xué)信息科學(xué)與技術(shù)研究所的Hirohata等人在語料中提取出一元詞和二元詞作為特征,然后計算這些特征與不同功能類別之間的共現(xiàn)強度(以X2來體現(xiàn)),反映出不同內(nèi)容的單詞能夠體現(xiàn)不同的功能類別[20]。Dasigi等[21]通過可視化的方式展現(xiàn)了不同內(nèi)容特征在功能類別識別時所起作用的大小,其中謂語部分(即動詞)的作用普遍較大。
(2)位置特征。由于學(xué)術(shù)論文具有連貫性,篇章結(jié)構(gòu)中的各部分往往具有一些固定的位置,如“引言”往往出現(xiàn)在文章最開始的部分,“結(jié)論”則常出現(xiàn)在文章的結(jié)尾部分,因此位置特征也是預(yù)測篇章結(jié)構(gòu)的一個重要因素。目前在已有研究中使用的位置特征主要包括:文本片段所處的章節(jié)、所在章節(jié)的絕對位置、所在章節(jié)的相對位置、近鄰特征(指當前待分類文本周圍文本的所屬功能類別)等[22-24]。位置特征反映的是不同功能類別處于一個“序列”狀態(tài)之中,給類別識別提供了一個上下文環(huán)境,但是位置特征在實際應(yīng)用中的效果卻具有兩面性。Mullen等[22]對文本片段所處位置和所在章節(jié)兩個特征在篇章結(jié)構(gòu)分類中的作用進行了對比,發(fā)現(xiàn)后者的作用要大于前者,兩者一起使用時分類效果更好。但是,劉霞在研究中卻得出了相反的結(jié)論,其發(fā)現(xiàn)使用位置特征的識別效果要差于不使用位置特征的效果,這可能是因為不同的特征提取方式和表示方式會帶來不同的效果[23]。
(3)語言特征。語言特征主要包括引用、不同功能類別對應(yīng)的動詞線索詞、動詞類別、動詞的曲折變化、詞性、句法關(guān)系、主謂搭配、元話語特征(meta-discourse)、顯性評價詞、連接詞等。其中,動詞的曲折變化是指動詞的時態(tài)、語態(tài)和情態(tài)變化;元話語特征是指在文本中組織篇章、表達作者寫作意圖、吸引讀者注意力的一類特定表達[24-27]。Waard等在線邀請標注人員對各功能類別中動詞的時態(tài)進行手工標注,發(fā)現(xiàn)各類別中使用的動詞時態(tài)具有十分顯著的區(qū)別,如現(xiàn)在式在“事實”部分中出現(xiàn)最多,過去式則在“結(jié)果”中出現(xiàn)最多,情態(tài)動詞在“假設(shè)”中出現(xiàn)最多[24]。Cox等在章節(jié)功能識別任務(wù)中發(fā)現(xiàn)時態(tài)特征能夠在該任務(wù)中起到十分顯著的作用[25]。
采用分類方法識別篇章結(jié)構(gòu)常用的算法包括樸素貝葉斯、支持向量機(SVM)、logistic回歸、決策樹和隨機森林等。Teuful和Monens[26]使用AZ模型對訓(xùn)練語料和測試語料進行人工標注,然后提取句子位置、句子長度、詞法特征、近鄰特征和元話語特征等15種特征,采用樸素貝葉斯算法進行分類實驗,達到了90%以上的分類精確率;Guo等[27]使用近鄰特征、位置特征、N-gram、動詞及類別特征、詞性、語法關(guān)系特征以及時態(tài)和語態(tài)特征,采用支持向量機算法進行分類實驗,獲得了良好的分類效果。此外,他們還發(fā)現(xiàn)N-gram和動詞這兩類特征對所有類別的預(yù)測效果都很好,而其他一些特征只在識別某些功能類別時具有較好效果,如時態(tài)特征只對于識別“結(jié)果”和“方法”兩個類別效果較好。Cox等[25]采用logistic回歸、決策樹和隨機森林三種分類算法進行分類對比實驗,并嘗試解決篇章結(jié)構(gòu)分類中的類別不平衡問題。實驗發(fā)現(xiàn),即使使用了均衡數(shù)據(jù)集分類性能也沒有顯著提升,動詞時態(tài)是預(yù)測功能類別的一個非常重要的特征。
有監(jiān)督的分類算法雖然能夠取得良好的分類效果,但需要耗費大量的人工精力標注訓(xùn)練語料,因此許多研究者開始探索采用無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法進行篇章結(jié)構(gòu)解析。Kiela等[28]使用N-gram、位置特征、動詞及動詞類別等特征,使用球面K-均值(Spherical k-means)聚類、基于最大期望優(yōu)化的高斯混合模型(Exception Maximization-Gaussian Mixture Model,EM-GMM)和多級加權(quán)圖聚類(Multilevel-Weighted Graph Clustering)這三種無監(jiān)督學(xué)習(xí)算法進行篇章結(jié)構(gòu)解析實驗,發(fā)現(xiàn)多級加權(quán)圖聚類算法效果最好,其F值達到70%。Varga等[29]基于論證區(qū)域的思想,在LDA主題模型基礎(chǔ)上,提出了zoneLDA模型及其拓展模型zoneLDAb用于篇章結(jié)構(gòu)識別。zoneLDA模型的原理是:假設(shè)句子中的單詞服從主題的狄利克雷分布,在這一前提下,每一個句子都會有一個對應(yīng)的潛在“主題”,如果每個主題對應(yīng)不同的論證分區(qū),則對含有相同詞匯的句子聚類,可實現(xiàn)論證區(qū)域的識別。zoneLDAb模型則是zoneLDA模型的拓展,在zoneLDA模型基礎(chǔ)上,通過設(shè)置變量對跨類別的通用詞匯和針對某一類別的特定詞匯進行區(qū)分,進行論證區(qū)域的識別。通過在科學(xué)和技術(shù)兩個領(lǐng)域的語料上進行對比實驗發(fā)現(xiàn),在科學(xué)領(lǐng)域zoneLDA和zoneLDAb兩個模型與LDA模型的F值差別不大,但在技術(shù)領(lǐng)域這兩個模型的F值要遠高于LDA模型,其中zoneLDA模型的F值又要好于zoneLDAb模型。
半監(jiān)督學(xué)習(xí)介于監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)之間,其所使用的語料往往只含有少量標注好的數(shù)據(jù),需利用少量的標注好的數(shù)據(jù)進行分類器的訓(xùn)練。Guo等[30]利用位置特征、N-gram特征、動詞及動詞類別、詞性等特征,采用主動學(xué)習(xí)(active learning)和自訓(xùn)練(self-training)相結(jié)合的方式從少量已標注數(shù)據(jù)開始進行分類器迭代訓(xùn)練,該研究采用10%標注數(shù)據(jù)進行實驗,結(jié)果表明采用半監(jiān)督學(xué)習(xí)的分類器性能要優(yōu)于有監(jiān)督學(xué)習(xí)的分類器,最終能夠達到80%以上的精確率。主動學(xué)習(xí)是在每輪訓(xùn)練中由機器自動選擇出一部分未標注數(shù)據(jù)(通常是分類器置信度較低的那部分數(shù)據(jù))由標注人員進行標注后加入到訓(xùn)練集中,而自訓(xùn)練則是在每輪迭代中機器自動選擇出分類器置信度較高的新標注數(shù)據(jù)加入到訓(xùn)練集中,通過不斷迭代地訓(xùn)練并測試分類器直到全部數(shù)據(jù)標注完成。兩種方法的區(qū)別是自訓(xùn)練是依靠少數(shù)已標注數(shù)據(jù)訓(xùn)練出來的分類器來標注數(shù)據(jù),然后再加入到訓(xùn)練集中迭代訓(xùn)練模型,而主動學(xué)習(xí)是依靠人來選擇,選擇出置信度低的數(shù)據(jù)進行標注,將標注好的數(shù)據(jù)放入到訓(xùn)練集中訓(xùn)練數(shù)據(jù)。
3.2 ? ?基于序列標注的篇章結(jié)構(gòu)識別
基于文本分類的篇章結(jié)構(gòu)識別,其前提是將篇章結(jié)構(gòu)中的不同部分看作是相互獨立、互不干擾的獨立個體。但是據(jù)我們的觀察可以發(fā)現(xiàn),篇章結(jié)構(gòu)中存在一定的序列性,如“結(jié)果”部分往往會出現(xiàn)在“研究方法”后面,而很少出現(xiàn)在“背景介紹”之后。因此許多研究者將篇章結(jié)構(gòu)識別問題轉(zhuǎn)化為序列標注問題,并進行了一系列探索,常用的算法有隱馬爾科夫模型(Hidden Markov Model,HMM)和條件隨機場(Conditional Random Fields,CRF)等。
Lin等[31]通過利用語言模型訓(xùn)練的二元詞組合作為特征,使用隱馬爾科夫模型(HMM)進行篇章結(jié)構(gòu)標注,獲得了較好的識別結(jié)果,整體識別正確率約為86%,該研究又在HMM模型加入了顯性判別分析(Linear Discriminant Analysis,LDA)方法,將數(shù)據(jù)投影到低維度,使得同類別的數(shù)據(jù)能夠盡可能靠近,不同類別的數(shù)據(jù)能夠盡可能遠離,研究證明,相比只使用HMM模型的方法,使用HMM+LDA的識別效果在總體上有了3%的提升,其中“結(jié)論”部分的識別準確率更是高達96%。Hirohata等[20]選用位置、近鄰等特征,采用分類算法SVM和序列標注算法CRF進行了篇章結(jié)構(gòu)自動識別對比實驗,發(fā)現(xiàn)CRF的性能要優(yōu)于SVM算法。陸偉等[1]使用自建的章節(jié)名稱詞表直接根據(jù)一些章節(jié)的標題(section heading)確定其功能類別,然后使用標題的位置特征、標題中的前兩個詞、整個標題以及與已經(jīng)確定了類別的標題間的距離四個特征,采用CRF模型識別每個章節(jié)的功能類別,最終實驗結(jié)果的F值在91%以上。
近年來,隨著深度學(xué)習(xí)的不斷發(fā)展,也有學(xué)者將該技術(shù)應(yīng)用到篇章結(jié)構(gòu)識別中來。Dasigi等[22]基于長短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM),通過使用遺忘門、輸入門和輸出門來克服卷積神經(jīng)網(wǎng)絡(luò)無法解決長期依賴的缺陷,是序列化標注的一種新的解決方式,同時作者還引入了注意力機制(Attention Mechanism)使得模型在訓(xùn)練過程中能夠更加注意關(guān)鍵特征,獲得了75%的準確率。王東波等[32]針對LSTM不能考慮未來上下文這一局限,使用雙向LSTM(Bidirectional LSTM,Bi-LSTM)從給定文本片段的開頭和末尾分別學(xué)習(xí)有用信息,但該方法的準確率只有34.94%,明顯低于作者使用的條件隨機場和支持向量機兩種方法,究其原因可能是實驗使用的數(shù)據(jù)量較小,神經(jīng)網(wǎng)絡(luò)的參數(shù)沒有得到充分訓(xùn)練。
4 ? 篇章結(jié)構(gòu)解析的應(yīng)用
在信息爆炸時代,文獻量的激增使得讀者越來越希望能夠快速理解文獻且定位所需信息,而篇章結(jié)構(gòu)解析能夠為檢索、定位、組織科學(xué)文獻中的知識提供關(guān)鍵的位置信息,是進行深層次語義理解的關(guān)鍵步驟,在許多自然語言處理任務(wù)中得到了廣泛應(yīng)用。
篇章結(jié)構(gòu)最早的應(yīng)用是在科學(xué)論文閱讀中, Harmsze的模塊化篇章結(jié)構(gòu)就是針對這一目的進行設(shè)計的。通過將線性的科學(xué)論文進行模塊化分解,可以改變科研工作者的閱讀模式,使其從傳統(tǒng)的線性閱讀轉(zhuǎn)化為面向不同閱讀目的的跳躍式閱讀,從而提高閱讀效率。其次,篇章結(jié)構(gòu)解析在自動文摘中具有非常廣泛的應(yīng)用。Teuful和Monens[26]認為位于不同篇章結(jié)構(gòu)部分的句子的價值是不一樣的,因此首先識別出篇章結(jié)構(gòu)中比較重要的部分,然后在其中選擇重要的句子生成論文摘要。近年來,在基于上下文的引文分析中也注意到了篇章結(jié)構(gòu)對于該任務(wù)的重要作用。據(jù)Ding等[33]的調(diào)查,“文獻綜述”與“引言”兩部分中的引文頻率遠遠高于論文中的其他部分。因此,在引文分析任務(wù)中加入篇章結(jié)構(gòu)這一因素,能夠確定被引內(nèi)容在施引文獻中的引用位置,通過為不同位置賦以不同的權(quán)重,能夠更精確地評價引文的重要性。Zhu等[34]在引文分析中加入章節(jié)功能這一因素,充分考慮被引內(nèi)容在不同章節(jié)功能間的分布情況,進而提出了一種更為全面的引文分析方法。
篇章結(jié)構(gòu)解析也是分析科學(xué)論文論辯結(jié)構(gòu)的基礎(chǔ)。論辯挖掘是文本挖掘領(lǐng)域的一個新興研究方向,重點關(guān)注文本中的論辯過程和結(jié)構(gòu)??茖W(xué)文本作為一種論辯文本,是論辯挖掘的重點研究對象。通過對科學(xué)論文中的研究背景、研究方法、研究數(shù)據(jù)、研究結(jié)論等各部分進行識別,能夠為研究結(jié)論的得出提供邏輯支持。此外,利用篇章結(jié)構(gòu)信息來跟蹤科學(xué)概念和科學(xué)實體在科學(xué)論文中出現(xiàn)位置的變化,可以檢測科學(xué)知識在傳播中的變化,深入了解知識發(fā)展歷程。如以前經(jīng)常出現(xiàn)在“背景”部分的一個概念現(xiàn)在經(jīng)常在“方法”部分出現(xiàn),說明該概念已經(jīng)從理論階段逐漸發(fā)展到了應(yīng)用階段。
5 ? 結(jié)語
篇章結(jié)構(gòu)解析是定位科學(xué)論文中的重要信息、理解其內(nèi)容的重要步驟。在本文中,我們對科學(xué)論文篇章結(jié)構(gòu)建模和篇章結(jié)構(gòu)解析的相關(guān)文獻進行了梳理和總結(jié)。通過研究發(fā)現(xiàn),篇章結(jié)構(gòu)解析的研究已逐漸從理論研究階段逐漸發(fā)展到應(yīng)用研究階段,但是仍然存在以下不足:①研究主要集中在生物醫(yī)學(xué)和計算語言學(xué)領(lǐng)域,其他領(lǐng)域涉及到的很少,缺乏跨領(lǐng)域、通用的篇章結(jié)構(gòu)模型;②當前的篇章結(jié)構(gòu)解析主要是對粗粒度篇章結(jié)構(gòu)的識別,針對全文的細粒度篇章結(jié)構(gòu)識別研究較少;③篇章結(jié)構(gòu)解析以修辭結(jié)構(gòu)為主,較少涉及論證結(jié)構(gòu)。
針對上述不足,未來針對科學(xué)論文篇章結(jié)構(gòu)的研究,首要任務(wù)是對更多領(lǐng)域的科學(xué)論文進行深入分析與標注,完善論證結(jié)構(gòu),并與修辭結(jié)構(gòu)相互補充,構(gòu)建更加細粒度的、全面的篇章結(jié)構(gòu)模型,同時也要注意提高模型的靈活性與可拓展性。在自動解析方面,要充分借鑒和利用自然語言處理中的新技術(shù),尤其是深度學(xué)習(xí)技術(shù),以提高篇章結(jié)構(gòu)識別的精確度。最后,應(yīng)促進篇章結(jié)構(gòu)解析成果的應(yīng)用,將其應(yīng)用到科學(xué)論文引文分析、自動摘要、語義出版、信息抽取等更多任務(wù)當中,提高對科學(xué)文獻內(nèi)容的理解,促進知識發(fā)現(xiàn)和知識重用。
參考文獻:
[1] ?陸偉,黃永,程齊凱.學(xué)術(shù)文本的結(jié)構(gòu)功能識別——功能框架及基于章節(jié)標題的識別[J].情報學(xué)報,2014,33(9):979-985.
[2] ?IMRAD[EB/OL].[2018-11-25].https://en.wikipedia.org/wiki/IMRAD.
[3] ?GLASMANDEAL H.Science Research Writing for Non-Native Speakers of English[M].Imperial College Press,2010.
[4] ?BURROUGH-BOENISCH J.International reading strategies for IMRD articles[J].Written Communication,1999,16(3):296-316.
[5] ?HARMSZE F A P.A modular structure for scientific articles in an electronic environment[D].Amsterdam:University of Amsterdam,2000.
[6] ?SHUM S B,CLARK T,GROZA T,et al.Scientific Discourse on the Semantic Web:A Survey of Models and Enabling Technologies[DB/OL].[2018-11-26].https://www.researchgate.net/profile/Agnes_Sandor/publication/268422724_Scientific_Discourse_on_the_Semantic_Web_A_Survey_of_Models_and_Enabling_Technologies/links/5472edf20cf2d67fc035d29c/Scientific-Discourse-on-the-Semantic-Web-A-Survey-of-Models-and-Enabling-Technologies.pdf.
[7] ?GROZA T,HANDSCHUH S,CLARK T,et al.A short survey of discourse representation models[DB/OL].[2018-11-26].https://oro.open.ac.uk/18565/1/DiscRep-ISWC-SWASD2009.pdf.
[8] ?WAARD A D,TEL G.The ABCDE Format Enabling Semantic Conference Proceedings[C].The Workshop on Semwiki.DBLP,2006.
[9] ?WAARD A D.A pragmatic structure for research articles[C].International Conference on Pragmatic Web,Icpw 2007,Tilburg,the Netherlands,October.DBLP,2007:83-89.
[10] ?WAARD A D,KIRCZ J.Modeling scientific research articles-shifting perspectives and persistent issues[C].Proc.ELPUB2008 Conference on Electronic Publishing,2008:234-245.
[11] ?TEUFEL S,CARLETTA J,MOENS M.An annotation scheme for discourse-level argumentation in research articles[C].Proceedings of the ninth conference on European chapter of the Association for Computational Linguistics.Association for Computational Linguistics,1999:110-117.
[12] ?TEUFEL S,SIDDHARTHAN A,BATCHELOR C.Towards discipline-independent argumentative zoning:evidence from chemistry and computational linguistics[C].Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing:Volume 3-Volume 3.Association for Computational Linguistics,2009:1493-1502.
[13] ?MIZUTA Y,COLLIER N.An Annotation Scheme for a Rhetorical Analysis of Biology Articles[C].LREC,2004:1737-1740.
[14] ?MIZUTA Y,COLLIER N.Zone identification in biology articles as a basis for information extraction[C].Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications.Association for Computational Linguistics,2004:29-35.
[15] ?MIZUTA Y,KORHONEN A,MULLEN T,et al.Zone analysis in biology articles as a basis for information extraction[J].International journal of medical informatics,2006,75(6):468-487.
[16] ?SOLDATOVA L,LIAKATA M.An ontology methodology and cisp-the proposed core information about scientific papers [J].JISC Project Report,2007.
[17] ?LIAKATA M,TEUFEL S,SIDDHARTHAN A,et al.Corpora for the Conceptualisation and Zoning of Scientific Papers[C].LREC,2010.
[18] ?GROZA T,HANDSCHUH S,M?LLER K,et al.SALT-Semantically Annotated LATEX\LaTeX for Scientific Publications [J].The Semantic Web:Research and Applications,2007:518-532.
[19] ?ORB[EB/OL].[2018-11-25].https://www.w3.org/TR/hcls-orb/.
[20] ?HIROHATA K,OKAZAKI N,ANANIADOU S,et al.Identifying sections in scientific abstracts using conditional random fields[C].Proceedings of the Third International Joint Conference on Natural Language Processing:Volume-I,2008.
[21] ?DASIGI P,BURNS G A P C,HOVY E,et al.Experiment segmentation in scientific discourse as clause-level structured prediction using recurrent neural networks[J].arXiv preprint arXiv,2017:1702.05398.
[22] ?MULLEN T,MIZUTA Y,COLLIER N.A baseline feature set for learning rhetorical zones using full articles in the biomedical domain[J].ACM SIGKDD Explorations Newsletter,2005,7(1):52-58.
[23] ?劉霞.英語學(xué)術(shù)論文摘要語步結(jié)構(gòu)自動識別模型的構(gòu)建[D].北京:北京外國語大學(xué),2016.
[24] ?DE WAARD A,MAAT H P.Verb form indicates discourse segment type in biological research papers:Experimental evidence[J].Journal of English for academic purposes,2012,11(4):357-366.
[25] ?COX J,HARPER C A,DE WAARD A.Optimized Machine Learning Methods Predict Discourse Segment Type in Biological Research Articles[M].Semantics,Analytics,Visualization.Springer,Cham,2017:95-109.
[26] ?TEUFEL S,MOENS M.Summarizing Scientific Articles:Experiments with Relevance and Rhetorical Status[J].Computational Linguistics,2002,28(4):409-445.
[27] ?GUO Y,KORHONEN A,LIAKATA M,et al.A comparison and user-based evaluation of models of textual information structure in the context of cancer risk assessment[J].BMC bioinformatics,2011,12(1):69.
[28] ?KIELA D,GUO Y,STENIUS U,et al.Unsupervised discovery of information structure in biomedical documents[J].Bioinformatics,2014,31(7):1084-1092.
[29] ?VARGA A,PREOTIUC-PIETRO D,CIRAVEGNA F.Unsupervised document zone identification using probabilistic graphical models[C].LREC,2012:1610-1617.
[30] ?GUO Y,KORHONEN A,POIBEAU T.A weakly-supervised approach to argumentative zoning of scientific documents[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:273-283.
[31] ?LIN J,KARAKOS D,DEMNER-FUSHMAN D,et al.Generative content models for structural analysis of medical abstracts[C].Proceedings of the hlt-naacl bionlp workshop on linking natural language and biology.Association for Computational Linguistics,2006:65-72.
[32] ?王東波,高瑞卿,葉文豪,等.不同特征下的學(xué)術(shù)文本結(jié)構(gòu)功能自動識別研究[J].情報學(xué)報,2018,37(10):31-42.
[33] ?DING Y,LIU X,GUO C,et al.The distribution of references across texts:Some implications for citation analysis[J].Journal of Informetrics,2013,7(3):583-592.
[34] ?ZHU X,TURNEY P,LEMIRE D,et al.Measuring academic influence:Not all citations are equal[J].Journal of the Association for Information Science and Technology,2015,66(2):408-427.