王鑫,程齊凱,李信,陸偉
(1.武漢大學(xué)信息管理學(xué)院,武漢 430072;2.武漢大學(xué)信息檢索與知識(shí)挖掘研究所,武漢 430072)
基于引文上下文的相關(guān)研究輔助生成系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)*
王鑫1,2,程齊凱1,2,李信1,2,陸偉1,2
(1.武漢大學(xué)信息管理學(xué)院,武漢 430072;2.武漢大學(xué)信息檢索與知識(shí)挖掘研究所,武漢 430072)
本文對(duì)學(xué)術(shù)文本引文上下文的定義及其識(shí)別研究進(jìn)展進(jìn)行梳理,考慮科研人員在相關(guān)研究撰寫過程中或期刊編輯在審稿過程中的特定信息需求,探討基于引文上下文輔助生成相關(guān)研究章節(jié)的可行性。在此基礎(chǔ)上,對(duì)基于引文上下文的相關(guān)研究輔助生成系統(tǒng)的系統(tǒng)思路、功能模塊進(jìn)行設(shè)計(jì),并以ScienceDirect數(shù)據(jù)庫在1957—2014年收錄的289 926篇計(jì)算機(jī)領(lǐng)域的科研文獻(xiàn)全文網(wǎng)頁數(shù)據(jù)作為數(shù)據(jù)源,實(shí)現(xiàn)相關(guān)研究輔助生成系統(tǒng)RWGS。結(jié)果表明,RWGS可較好滿足科研人員在撰寫相關(guān)研究章節(jié)或期刊編輯在審稿時(shí)更細(xì)粒度的信息需求,對(duì)傳統(tǒng)學(xué)術(shù)數(shù)據(jù)庫的檢索結(jié)果有一定優(yōu)化效果,同時(shí)將文獻(xiàn)檢索、文獻(xiàn)閱讀和相關(guān)研究寫作三個(gè)過程有機(jī)地整合,有效改善系統(tǒng)用戶體驗(yàn),提升學(xué)術(shù)創(chuàng)作效率。
相關(guān)研究;輔助生成系統(tǒng);引文上下文;計(jì)算機(jī)領(lǐng)域
科研工作者在進(jìn)行學(xué)術(shù)創(chuàng)作時(shí),需要廣泛收集和閱讀與研究主題相關(guān)的研究成果,以對(duì)主題的研究現(xiàn)狀、研究熱點(diǎn)、發(fā)展趨勢(shì)和存在問題進(jìn)行全面準(zhǔn)確地把握;并在此基礎(chǔ)上形成相關(guān)研究章節(jié),以支撐其研究,避免重復(fù)性和錯(cuò)誤性的工作。然而,隨著學(xué)術(shù)文獻(xiàn)的爆炸式增長(zhǎng)與多學(xué)科合作研究的廣泛開展,傳統(tǒng)的依靠人力來綜述文獻(xiàn)的方式越來越困難[1];同時(shí),這也給學(xué)術(shù)期刊審稿的速度、效率和準(zhǔn)確度帶來挑戰(zhàn)。因此,在科學(xué)創(chuàng)作和審稿過程中,針對(duì)特定研究主題,如何快速全面地獲取相關(guān)研究;如何快速對(duì)已有研究成果形成客觀全面的描述和評(píng)價(jià);如何利用計(jì)算機(jī)自動(dòng)進(jìn)行文獻(xiàn)回顧,并完成相關(guān)研究章節(jié)的輔助生成等問題的解決,對(duì)提升科研人員的學(xué)術(shù)創(chuàng)作效率、輔助期刊編輯審稿和有效進(jìn)行學(xué)術(shù)傳播具有重要的現(xiàn)實(shí)意義。通過文獻(xiàn)調(diào)研發(fā)現(xiàn),計(jì)算機(jī)科學(xué)、情報(bào)學(xué)和可視化等領(lǐng)域的學(xué)者已經(jīng)進(jìn)行探索,并開發(fā)了一系列具有實(shí)用價(jià)值的學(xué)術(shù)創(chuàng)作輔助系統(tǒng)(如文獻(xiàn)分析系統(tǒng)CiteSpace[2]、CiteRiver[3],輔助寫作系統(tǒng)FLOW[4]、WriteAhead[5])。通過比較發(fā)現(xiàn),現(xiàn)有學(xué)術(shù)創(chuàng)作輔助系統(tǒng)大多將檢索文獻(xiàn)、閱讀文獻(xiàn)和論文寫作三個(gè)相輔相成、互為交替的過程進(jìn)行人為分割,導(dǎo)致用戶體驗(yàn)差,實(shí)際輔助效果不佳。傳統(tǒng)的文獻(xiàn)檢索系統(tǒng)僅對(duì)文獻(xiàn)的題錄信息建立索引,導(dǎo)致返回的結(jié)果無法滿足用戶在撰寫相關(guān)研究章節(jié)時(shí)的特定信息需求。此外,現(xiàn)有的文獻(xiàn)分析系統(tǒng)也基本上不涉及文獻(xiàn)的引文上下文;而當(dāng)學(xué)者在撰寫論文的相關(guān)章節(jié)或期刊編輯在審稿時(shí),很大程度上希望直接得到系統(tǒng)返回的結(jié)果是文獻(xiàn)中的相關(guān)研究章節(jié),甚至直接是相關(guān)研究章節(jié)對(duì)特定研究成果的描述和評(píng)價(jià)語句(即引文上下文)。
基于此,本文從學(xué)術(shù)文獻(xiàn)引文上下文的角度出發(fā),構(gòu)建基于引文上下文的相關(guān)研究輔助生成系統(tǒng),將檢索文獻(xiàn)、閱讀文獻(xiàn)和相關(guān)研究章節(jié)寫作有機(jī)結(jié)合,在一定程度上彌補(bǔ)已有研究的不足。
隨著計(jì)算機(jī)信息技術(shù)的快速發(fā)展和學(xué)術(shù)大數(shù)據(jù)時(shí)代的來臨,為提升學(xué)術(shù)創(chuàng)作效率,計(jì)算機(jī)科學(xué)、信息科學(xué)和科學(xué)學(xué)領(lǐng)域的學(xué)者針對(duì)學(xué)術(shù)創(chuàng)作過程的不同環(huán)節(jié),設(shè)計(jì)和開發(fā)了相應(yīng)學(xué)術(shù)創(chuàng)作輔助系統(tǒng),根據(jù)系統(tǒng)主要功能將其分為學(xué)術(shù)檢索系統(tǒng)、文獻(xiàn)分析系統(tǒng)和輔助寫作系統(tǒng)。
學(xué)術(shù)檢索系統(tǒng)主要基于數(shù)據(jù)庫和關(guān)聯(lián)數(shù)據(jù)技術(shù),對(duì)科研文獻(xiàn)的元數(shù)據(jù)建立索引,為用戶提供文獻(xiàn)檢索和導(dǎo)航服務(wù),并提供簡(jiǎn)單的基于元數(shù)據(jù)的文獻(xiàn)統(tǒng)計(jì)分析功能,如Web of Science、ScienceDirect、PubMed、中國知網(wǎng)、萬方數(shù)據(jù)庫、維普網(wǎng)等。文獻(xiàn)分析系統(tǒng)的主要功能是幫助用戶更好地閱讀和理解科研文獻(xiàn),這類系統(tǒng)通常基于文獻(xiàn)計(jì)量理論和知識(shí)圖譜技術(shù)來實(shí)現(xiàn)對(duì)科研文獻(xiàn)的自動(dòng)化語義分析和可視化,以使用戶快速全面地把握研究主題的熱點(diǎn)問題、整體態(tài)勢(shì)和研究趨勢(shì),幫助用戶閱讀和理解科研文獻(xiàn)。具有代表性的文獻(xiàn)分析系統(tǒng)主要有CiteSpace[2]、VOSViewer[6]、NEViewer[7]和CiteRivers[3],CiteSpace和VOSViewer通過引文分析和可視化來向用戶直觀快速地展示研究領(lǐng)域的新興熱點(diǎn)、發(fā)展趨勢(shì),而NEViewer和CiteRiver分別利用?;鶊D和河流圖等可視化技術(shù),將文獻(xiàn)在時(shí)間序列上的統(tǒng)計(jì)信息返回給用戶。
輔助寫作系統(tǒng)旨在幫助用戶提高寫作效率。目前已有的輔助寫作系統(tǒng)主要分為雙語寫作系統(tǒng)、摘要生成系統(tǒng)和主題推薦系統(tǒng),這三類系統(tǒng)分別從語言學(xué)、自動(dòng)摘要生成和引文推薦的角度來輔助用戶學(xué)術(shù)寫作。Chen等為非英語母語學(xué)者開發(fā)的輔助寫作系統(tǒng)FLOW[4]、楊秉哲開發(fā)的摘要輔助寫作系統(tǒng)WriteAhead[5]、孔行通過LDA主題模型開發(fā)的例句推薦輔助寫作系統(tǒng)[8]都是典型的輔助寫作系統(tǒng)。
國內(nèi)外學(xué)者在提高用戶檢索、閱讀理解和學(xué)術(shù)論文寫作的效率上,已經(jīng)進(jìn)行大量的嘗試,設(shè)計(jì)和開發(fā)了一系列學(xué)術(shù)創(chuàng)作輔助系統(tǒng),但仍存在不足。一方面,學(xué)術(shù)檢索系統(tǒng)僅依賴檢索詞進(jìn)行字符匹配返回的檢索結(jié)果存在大量冗余、無關(guān)的文獻(xiàn),無法滿足科研工作者在學(xué)術(shù)寫作時(shí)的特定信息需求;另一方面,現(xiàn)有的學(xué)術(shù)輔助創(chuàng)作系統(tǒng)大多是人為地將這個(gè)有機(jī)整體進(jìn)行分割。此外,相關(guān)輔助寫作系統(tǒng)的研究還基本處于空白。
基于以上分析結(jié)果,本文聚焦相關(guān)研究輔助生成系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn),從引文上下文識(shí)別的視角出發(fā),充分考慮科研工作者在撰寫相關(guān)研究時(shí)的特定信息需求,有針對(duì)性地匹配檢索結(jié)果,從而對(duì)傳統(tǒng)學(xué)術(shù)數(shù)據(jù)庫的檢索結(jié)果進(jìn)行優(yōu)化,改善系統(tǒng)的瀏覽和導(dǎo)航體驗(yàn)。將文獻(xiàn)檢索、文獻(xiàn)閱讀和論文寫作三者有機(jī)地結(jié)合,利用引文上下文的自由組合和用戶自定義書寫的半自動(dòng)化寫作模式,改善用戶體驗(yàn),提高論文寫作效率。
引文上下文的研究源于科學(xué)家對(duì)傳統(tǒng)計(jì)量視角的引文分析可靠性的懷疑,因其僅從引用的角度對(duì)施引文獻(xiàn)和被引文獻(xiàn)的關(guān)系進(jìn)行探究,而忽視引文內(nèi)容、功能、情感和重要性等語義信息。1975年,Chubin等提出引文內(nèi)容分析,即以引文上下文為依據(jù)對(duì)引文的性質(zhì)進(jìn)行分析,深度挖掘施引文獻(xiàn)與被引文獻(xiàn)間的語義關(guān)系,但沒有具體給出引文上下文的定義[9];1999年,Nanba等給出“引用區(qū)域”的概念,即包含引用標(biāo)識(shí)符的句子周圍的一個(gè)連續(xù)區(qū)域[10];2010年,Qazvinain等對(duì)引文句和上下文進(jìn)行明確區(qū)分,指出引文上下文是一個(gè)引用區(qū)域內(nèi)除包含標(biāo)識(shí)符句子(引文據(jù))外的句子集合[11];2013年,張金松從NLP角度將引文上下文定義為:施引文獻(xiàn)為標(biāo)記處被引文獻(xiàn)內(nèi)容,而在引用標(biāo)記符號(hào)所出現(xiàn)的位置前、后截取的n個(gè)詞[12];2014年,Parikshit等在總結(jié)前人關(guān)于引文上下文定義的基礎(chǔ)上,提出顯式引文上下文和隱式引文上下文的概念,分別對(duì)應(yīng)Nanba和Qazvinain所定義的引文上下文[13]。由此可見,針對(duì)引文上下文的定義有狹義和廣義之分,狹義的引文上下文指包含引文標(biāo)識(shí)符的句子;廣義的引文上下文包含引文句和在引用區(qū)域內(nèi)引文句前、后句子的集合。
目前國際上關(guān)于引文上下文的研究還較少,由于引文上下文的自動(dòng)識(shí)別是引文內(nèi)容、引文功能、引文情感和引文重要性分析的前提和關(guān)鍵,有關(guān)引文上下文的研究主要集中在其自動(dòng)識(shí)別和抽取上。1999年,Nanba等使用引文句中的代詞、連接詞和人稱詞等制定引文上下文識(shí)別規(guī)則和識(shí)別引用區(qū)域,取得80%的準(zhǔn)確率和76%的召回率[10];Abu-Jbara等采用句法樹來改善引文句中含有多個(gè)引用的情況[14];Angrosh等針對(duì)文獻(xiàn)中相關(guān)研究章節(jié)的引文上下文,分析該章節(jié)的一般引用模式,并將引文上下文的識(shí)別轉(zhuǎn)化為分類實(shí)驗(yàn),使用條件隨機(jī)場(chǎng)進(jìn)行分類模型訓(xùn)練,最后取得96.51%的準(zhǔn)確率[15];2012年,Abu-Jbara等將引文上下文自動(dòng)識(shí)別問題分別轉(zhuǎn)化為單詞分類問題、序列標(biāo)注問題和句子片段分類問題,發(fā)現(xiàn)基于句子片段的分類效果最好,取得81.80%的準(zhǔn)確率[16];2013年,Angrosh使用詞匯特征構(gòu)建CRF模型進(jìn)行引文上下文識(shí)別,并基于此開發(fā)引文上下文自動(dòng)抽取系統(tǒng)CitContExt[17];2014年,Sondhi等在構(gòu)建文獻(xiàn)句數(shù)-引文數(shù)矩陣的基礎(chǔ)上,使用隱馬爾科夫模型進(jìn)行引文上下文自動(dòng)識(shí)別[18];Athar結(jié)合句法特征和詞匯特征訓(xùn)練SVM分類器,并證明引文上下文對(duì)引文情感和重要性的識(shí)別效果可分別提升48%和17%[19]。
國內(nèi)關(guān)于引文上下文自動(dòng)識(shí)別的研究還處于起步階段。孫楓軍通過識(shí)別引文句進(jìn)行概念抽取研究[20];張金松利用基于規(guī)則的方法識(shí)別引文上下文,并利用引文上下文的語義信息進(jìn)行文獻(xiàn)檢索[12];雷聲偉等梳理引文上下文研究的現(xiàn)狀和自動(dòng)識(shí)別研究的不足,歸納出五類特征,分別采用文本分類和序列標(biāo)注的思想進(jìn)行引文上下文識(shí)別,取得較好效果[21]。
綜上所述,引文上下文雖然提出較早,但相關(guān)研究數(shù)量還較少;計(jì)算機(jī)科學(xué)、情報(bào)學(xué)等領(lǐng)域的學(xué)者對(duì)引文上下文的自動(dòng)識(shí)別研究已取得一定理論成果,但仍存在不足。引文上下文的自動(dòng)識(shí)別主要分為兩個(gè)方面:一是基于機(jī)器學(xué)習(xí)思想,采用分類、序列標(biāo)注和條件隨機(jī)場(chǎng)等模型構(gòu)建特征工程,進(jìn)行模型訓(xùn)練和測(cè)試,這種方式速度快、自動(dòng)化程度高,但需要大量人工標(biāo)注,準(zhǔn)確率低;二是基于規(guī)則的方式,通過觀察和分析引文上下文的行文規(guī)律,構(gòu)建抽取規(guī)則,使用正則表達(dá)式進(jìn)行匹配,這種方式準(zhǔn)確率高,但需要人工構(gòu)建抽取規(guī)則。為保證引文上下文抽取的準(zhǔn)確度,本文采用第二種方式進(jìn)行引文上下文自動(dòng)識(shí)別。
科研人員在進(jìn)行科研創(chuàng)作時(shí),為避免重復(fù)性工作,需要廣泛地調(diào)研和閱讀研究領(lǐng)域相關(guān)研究成果,并對(duì)其核心內(nèi)容進(jìn)行歸納、總結(jié)和評(píng)述。在此情景下,本文假設(shè)對(duì)于一篇科研文獻(xiàn)而言,若有研究人員已對(duì)其進(jìn)行歸納和評(píng)述,當(dāng)這篇科研文獻(xiàn)被再次引用時(shí),已有評(píng)述可被借鑒使用。因此,本文擬利用引文上下文自動(dòng)識(shí)別技術(shù)將某一學(xué)科領(lǐng)域科研文獻(xiàn)集中相關(guān)研究部分的引文上下文識(shí)別并抽取,形成文獻(xiàn)-引文上下文數(shù)據(jù)集。在此基礎(chǔ)上,從引文上下文的視角實(shí)現(xiàn)相關(guān)研究的輔助生成,一方面為科研人員提供基于引文上下文的檢索和導(dǎo)航功能;另一方面,通過自動(dòng)識(shí)別得到的相關(guān)研究引文上下文組合可快速全面地生成研究初稿,結(jié)合用戶自定義判斷和個(gè)性化修改,提升科研效率。此外,通過對(duì)引文上下文和文獻(xiàn)標(biāo)題(摘要、全文)進(jìn)行聚類分析,可進(jìn)一步幫助科研人員對(duì)研究主題相關(guān)研究成果的整體態(tài)勢(shì)進(jìn)行快速把握。對(duì)期刊編輯或?qū)徃鍖<叶裕撓到y(tǒng)可幫助其檢查相關(guān)研究中針對(duì)某一研究成果的論述是否客觀、全面。
為實(shí)現(xiàn)基于引文上下文的相關(guān)研究輔助生成系統(tǒng),首先需要解決人工獲取研究領(lǐng)域的科研文獻(xiàn)集合的問題,識(shí)別和抽取出每篇科研文獻(xiàn)中的相關(guān)研究部分,得到引文上下文集合;在此基礎(chǔ)上,對(duì)引文上下文進(jìn)行分詞、去停用詞等文本預(yù)處理,作為檢索詞從人工收集的領(lǐng)域科研文獻(xiàn)集合中獲取對(duì)應(yīng)的參考文獻(xiàn)及文獻(xiàn)題錄信息,得到文獻(xiàn)集合和對(duì)應(yīng)的文獻(xiàn)-引文上下文數(shù)據(jù)集合。其次,將科研人員在書寫相關(guān)研究時(shí)的信息需求劃分為根據(jù)檢索“引文上下文”和檢索“相關(guān)文獻(xiàn)”,對(duì)引文上下文和文獻(xiàn)題錄信息分別建立索引,實(shí)現(xiàn)科研文獻(xiàn)語句層面的細(xì)粒度檢索。當(dāng)用戶進(jìn)行相關(guān)文獻(xiàn)檢索時(shí),輸入關(guān)鍵詞即可得到相關(guān)文獻(xiàn)列表;當(dāng)用戶繼續(xù)點(diǎn)擊文獻(xiàn)標(biāo)題時(shí),系統(tǒng)可交互式地返回關(guān)于該文獻(xiàn)的所有引文上下文集合、摘要及詳細(xì)的題錄信息,利用良好的用戶交互體驗(yàn)和對(duì)信息需求的細(xì)化來優(yōu)化傳統(tǒng)學(xué)術(shù)數(shù)據(jù)庫的檢索結(jié)果和使用體驗(yàn)。
為幫助科研工作者更好地完成論文寫作,系統(tǒng)需要加入寫作模塊。用戶可自由組合某一研究主題多篇文獻(xiàn)的多個(gè)引文上下文描述,形成較客觀和全面的論文初稿。由于初稿存在內(nèi)容重復(fù)、語法錯(cuò)誤等問題,寫作模塊還應(yīng)提供相應(yīng)的編輯模塊,使用戶可以對(duì)初稿的錯(cuò)誤進(jìn)行判斷和個(gè)性化修改,從而形成具有學(xué)者自身科研寫作風(fēng)格的論文終稿。此外,某一研究主題可能含有較多相關(guān)研究成果,使檢索得到的文獻(xiàn)和引文上下文數(shù)量超過一定規(guī)模,造成瀏覽困難。為解決這一問題,系統(tǒng)提供相應(yīng)聚類功能,用戶可限定使用文獻(xiàn)標(biāo)題或引文上下文進(jìn)行聚類。一方面使檢索結(jié)果分門別類,便于瀏覽和寫作;另一方面,對(duì)文獻(xiàn)或引文上下文進(jìn)行聚類,可形成對(duì)研究主題的相關(guān)研究概覽,有助于研究人員對(duì)研究主題的整體態(tài)勢(shì)快速地把握。
綜合考慮用戶的使用情景、需求和現(xiàn)有系統(tǒng)的功能,本文實(shí)現(xiàn)的相關(guān)研究輔助生成系統(tǒng)劃分為5個(gè)功能模塊:文獻(xiàn)檢索模塊、閱讀導(dǎo)航模塊、輔助寫作模塊、聚類分析模塊和數(shù)據(jù)管理模塊,系統(tǒng)功能框架見圖1。
圖1 系統(tǒng)功能框架
本系統(tǒng)的文獻(xiàn)檢索模塊通過分別對(duì)領(lǐng)域科研文獻(xiàn)的題錄信息和引文上下文建立索引,細(xì)化用戶信息需求,以優(yōu)化傳統(tǒng)數(shù)據(jù)庫的檢索結(jié)果。文獻(xiàn)檢索模塊包含兩個(gè)子模塊(相關(guān)文獻(xiàn)檢索和引文上下文檢索),二者的不同之處在于返回的對(duì)象不一樣,前者返回的是與輸入的研究主題詞或關(guān)鍵詞相關(guān)的文獻(xiàn)信息(包含文獻(xiàn)標(biāo)題、摘要、作者、出版年份等);后者返回的是相關(guān)研究主題的引文上下文列表,即施引文獻(xiàn)中對(duì)被引相關(guān)文獻(xiàn)的描述句。
用戶在閱讀文獻(xiàn)時(shí),通常希望直接閱讀主要關(guān)注的部分;科研人員在撰寫論文時(shí),通常希望能直接獲取前人撰寫的對(duì)其所關(guān)注文獻(xiàn)的描述和評(píng)價(jià)。閱讀導(dǎo)航模塊的作用是將這些組織好的信息呈現(xiàn)給用戶,幫助用戶快速了解相關(guān)研究?jī)?nèi)容。閱讀導(dǎo)航模塊包含文獻(xiàn)列表導(dǎo)航、引文上下文閱讀和文獻(xiàn)摘要閱讀三個(gè)子模塊。文獻(xiàn)列表導(dǎo)航模塊提供文獻(xiàn)導(dǎo)航功能,用戶通過點(diǎn)擊列表文獻(xiàn),系統(tǒng)可交互式地返回該文獻(xiàn)的摘要和引文上下文。后兩個(gè)子模塊作為容器分別呈現(xiàn)第一個(gè)模塊的返回值。摘要是科研文獻(xiàn)內(nèi)容的濃縮(包括核心內(nèi)容、主要觀點(diǎn)和基本情感等),幫助用戶確定文獻(xiàn)的利用價(jià)值;多個(gè)引文上下文是從更多的角度來闡釋和評(píng)價(jià)被引用文獻(xiàn)的主要內(nèi)容。用戶可以通過協(xié)調(diào)三個(gè)子模塊,將線性閱讀和非線性閱讀結(jié)合起來形成交互式閱讀,從而滿足其個(gè)性化信息需求。
本系統(tǒng)直接關(guān)注用戶撰寫相關(guān)研究時(shí)的實(shí)際場(chǎng)景,并開發(fā)了實(shí)時(shí)輔助寫作模塊。該模塊主要實(shí)現(xiàn)引文上下文組合插入和用戶自定義書寫功能。上下文組合插入功能可幫助用戶快速生成某一研究主題的相關(guān)研究初稿和對(duì)應(yīng)的參考文獻(xiàn)列表;系統(tǒng)在引文上下文閱讀子模塊提供選擇框,用戶可決定是否包含該引文上下文和該引文上下文在相關(guān)研究初稿中出現(xiàn)的相對(duì)位置。由于生成的相關(guān)研究初稿較粗糙,用戶自定義書寫功能允許用戶對(duì)相關(guān)研究初稿進(jìn)行修改。例如,修飾潤(rùn)色相關(guān)語句、修改行文風(fēng)格、加入用戶對(duì)文獻(xiàn)的理解等。此外,用戶可隨時(shí)勾選引文上下文面板中的引文句,并插入到書寫框的光標(biāo)處。用戶通過實(shí)現(xiàn)與系統(tǒng)各模塊的交互式閱讀和寫作,可高效地完成相關(guān)研究撰寫。此外,系統(tǒng)還提供自動(dòng)導(dǎo)出功能,當(dāng)用戶確認(rèn)書寫完成后,可直接點(diǎn)擊“生成綜述”按鈕,系統(tǒng)將自動(dòng)導(dǎo)出純文本格式,方便用戶保存和使用。
在實(shí)際科學(xué)研究中,一個(gè)研究主題通常涉及多個(gè)相關(guān)主題的研究?jī)?nèi)容。例如,圖像檢索系統(tǒng)的相關(guān)研究主題包括用戶認(rèn)知、信息檢索和圖像語義識(shí)別等。基于此,本系統(tǒng)在聚類分析模塊提供兩種聚類模式,即引文上下文聚類和文獻(xiàn)標(biāo)題聚類。通過聚類分析,用戶可快速全面地把握某一研究主題的研究態(tài)勢(shì)。
數(shù)據(jù)管理模塊主要具備對(duì)系統(tǒng)數(shù)據(jù)進(jìn)行增添、修改、刪除和維護(hù)等功能,共包含系統(tǒng)管理、數(shù)據(jù)采集管理和數(shù)據(jù)抽取管理三個(gè)子模塊。系統(tǒng)管理員可通過數(shù)據(jù)采集管理模塊定期采集數(shù)據(jù),對(duì)采集的數(shù)據(jù)進(jìn)行解析和清洗等操作,通過系統(tǒng)管理模塊對(duì)已清洗的數(shù)據(jù)進(jìn)行修改、維護(hù)等,通過抽取管理模塊可實(shí)現(xiàn)對(duì)語句分句、章節(jié)抽取規(guī)則的修改和增刪等。
本文以計(jì)算機(jī)領(lǐng)域?yàn)槔?,?gòu)建基于引文上下文的相關(guān)研究輔助生成系統(tǒng)(Related Works Generation System,RWGS)。RWGS的實(shí)現(xiàn)過程分為五個(gè)步驟:原始數(shù)據(jù)采集和數(shù)據(jù)清洗;引文上下文的識(shí)別和抽取,構(gòu)建文獻(xiàn)集、引文上下文集和文獻(xiàn)-引文上下文集,并分別建立索引;檢索和聚類模塊的實(shí)現(xiàn);輔助寫作模塊實(shí)現(xiàn);系統(tǒng)界面與調(diào)試(見圖2)。
圖2 RWGS系統(tǒng)實(shí)現(xiàn)過程框架
在RWGS的首次數(shù)據(jù)采集中,本文采用人工收集的方式從Science Direct Onsite數(shù)據(jù)庫中獲取計(jì)算機(jī)領(lǐng)域117本英文期刊在1957—2014年收錄的共289 926篇科研文獻(xiàn)的全文網(wǎng)頁數(shù)據(jù)。從Science Direct Onsite獲取的數(shù)據(jù)是HTML格式,可避免煩瑣的PDF文檔解析過程,提高準(zhǔn)確率;利用HTML解析器Jsoup對(duì)網(wǎng)頁無用信息進(jìn)行過濾,將其處理為便于閱讀和爬取的XML文檔。在此基礎(chǔ)上,本文結(jié)合正則表達(dá)式和XML解析器Jdom對(duì)文獻(xiàn)數(shù)據(jù)進(jìn)行信息抽取,獲得每篇文獻(xiàn)的題錄信息(包括標(biāo)題、摘要、作者、發(fā)表時(shí)間、關(guān)鍵詞等)。同時(shí),將文獻(xiàn)的正文數(shù)據(jù)單獨(dú)保存,為下一步識(shí)別和抽取文獻(xiàn)的相關(guān)研究章節(jié)提供數(shù)據(jù)基礎(chǔ)。此外,由于學(xué)術(shù)資源的動(dòng)態(tài)性,系統(tǒng)管理員可根據(jù)需要對(duì)采集的數(shù)據(jù)進(jìn)行周期性更新;普通用戶可通過數(shù)據(jù)管理維護(hù)模塊來手工定制檢索策略和采集周期,以構(gòu)建滿足時(shí)效性和自身信息需求的領(lǐng)域科研文獻(xiàn)數(shù)據(jù)集。
文獻(xiàn)-引文上下文數(shù)據(jù)集的構(gòu)建主要依靠抽取器中章節(jié)抽取規(guī)則和引文上下文抽取規(guī)則來實(shí)現(xiàn)對(duì)正文章節(jié)和引文上下文進(jìn)行識(shí)別和抽取。用戶可根據(jù)不同的科研文獻(xiàn)來源定制不同的章節(jié)抽取規(guī)則和引文上下文抽取規(guī)則,還可使用抽取管理模塊人工地對(duì)抽取規(guī)則進(jìn)行增減、修改和配置。
”下,且章節(jié)名稱符合一定的規(guī)律,如含有“relatedwork”“background”“l(fā)iterature”等詞匯。陸偉等在學(xué)術(shù)文本結(jié)構(gòu)功能識(shí)別的系列研究中探討基于章節(jié)標(biāo)題和段落的學(xué)術(shù)文本結(jié)構(gòu)識(shí)別,并指出若章節(jié)標(biāo)題存在詞典D={background,literatur,framework,previo,relat,measure,method}中任一詞干,則該章節(jié)很大可能是相關(guān)研究章節(jié)[22-24]。因此,本文首先從HTML文本中抽取存在于“
”標(biāo)簽下的章節(jié)標(biāo)題集合T={t1,t2,t3…tn},使用波特詞干提取法和自然語言處理工具OpenNLP對(duì)每個(gè)章節(jié)標(biāo)題進(jìn)行分詞和詞干提取,得到對(duì)應(yīng)的詞干序列W={w1,w2,w3…wm}。通過觀察章節(jié)標(biāo)題中的連接詞,本文構(gòu)建了一個(gè)無意義詞表K={k1,k2,k3…kx},對(duì)每個(gè)詞干序列進(jìn)行過濾得到核心詞干序列C。若某章節(jié)標(biāo)題的核心詞干集中包含詞典D中的任一元素,則判定該章節(jié)為相關(guān)研究章節(jié)。
為識(shí)別相關(guān)研究章節(jié)中的引文上下文,需找到含有引用標(biāo)識(shí)符的句子。通過觀察發(fā)現(xiàn),引用標(biāo)識(shí)符在正文HTML文本中以“”標(biāo)簽的形式出現(xiàn)。因此,本系統(tǒng)利用OpenNLP實(shí)現(xiàn)句子探測(cè),來定向探測(cè)相關(guān)研究章節(jié)包含“”標(biāo)簽的句子,并進(jìn)行分句處理,從而得到相應(yīng)的引文上下文集合。其中,為避免一個(gè)句子含有多個(gè)引用標(biāo)識(shí)符時(shí)造成的重復(fù)計(jì)數(shù),須先對(duì)句子進(jìn)行切分,然后再進(jìn)行標(biāo)簽探測(cè)。
為構(gòu)建文獻(xiàn)-引文上下文數(shù)據(jù)集,需將文獻(xiàn)和其他相關(guān)章節(jié)中對(duì)該文獻(xiàn)進(jìn)行描述的引文上下文對(duì)應(yīng)起來。本系統(tǒng)將引文上下文進(jìn)行分詞、去停用詞等文本預(yù)處理,然后將結(jié)果作為檢索詞對(duì)科研文獻(xiàn)集進(jìn)行查找,得到對(duì)應(yīng)被引用文獻(xiàn)。
利用得到的抽取規(guī)則,對(duì)計(jì)算機(jī)領(lǐng)域的28萬余篇文獻(xiàn)進(jìn)行信息抽取和數(shù)據(jù)處理,由于部分文獻(xiàn)的全文數(shù)據(jù)缺失,最終得到192 876個(gè)不重復(fù)的相關(guān)研究章節(jié),223 674個(gè)不重復(fù)的引文上下文句子。為驗(yàn)證抽取的準(zhǔn)確性,隨機(jī)抽取2 000個(gè)相關(guān)研究章節(jié)進(jìn)行人工標(biāo)注,得到的準(zhǔn)確率為98.52%。由于文獻(xiàn)可能多次引用或零引用,最終得到14 501個(gè)不重復(fù)的文獻(xiàn)-引文上下文對(duì)。通過對(duì)文獻(xiàn)集、引文上下文集、文獻(xiàn)-引文上下文集分別建立索引,RWGS可將與某一研究主題相關(guān)的文獻(xiàn)題錄信息、引文上下文以及文獻(xiàn)-引文上下文信息一同返回給用戶。
在檢索模塊,RWGS對(duì)采集的科研文獻(xiàn)進(jìn)行整合,對(duì)元數(shù)據(jù)(文獻(xiàn)的標(biāo)題、作者、出版年份等)、引文上下文、文獻(xiàn)-引文上下文集分別建立索引,并根據(jù)需要?dú)w并各索引文件。在信息檢索過程中,本系統(tǒng)使用傳統(tǒng)的信息檢索模型和方法來對(duì)用戶查詢進(jìn)行分詞處理、檢索和排序,通過可視化結(jié)構(gòu)將結(jié)果返回文獻(xiàn)列表導(dǎo)航模塊。當(dāng)用戶點(diǎn)擊文獻(xiàn)列表導(dǎo)航的文獻(xiàn)時(shí),將激活系統(tǒng)檢索模塊,RWGS會(huì)自動(dòng)檢索其他文獻(xiàn)在引用這篇文獻(xiàn)時(shí)對(duì)該文獻(xiàn)進(jìn)行描述的引文上下文和文獻(xiàn)摘要。主題聚類模塊包括根據(jù)標(biāo)題聚類和根據(jù)引文上下文聚類,RWGS采用TF-IDF算法計(jì)算語句相似度,并通過實(shí)現(xiàn)K-means聚類算法來對(duì)文獻(xiàn)列表和引文上下文列表中的文獻(xiàn)標(biāo)題和引文上下文進(jìn)行主題聚類。
輔助寫作模塊主要使用Ajax實(shí)現(xiàn)用戶與系統(tǒng)的交互。本系統(tǒng)設(shè)計(jì)在檢索得到的文獻(xiàn)列表點(diǎn)擊某篇文獻(xiàn)時(shí),將在系統(tǒng)界面中出現(xiàn)該文獻(xiàn)的摘要信息以及其他文獻(xiàn)的相關(guān)引用語句。摘要幫助用戶了解全文概況,用戶可自行判斷此文獻(xiàn)是否能滿足其信息需求;相關(guān)語句的呈現(xiàn)可輔助用戶寫作。
當(dāng)引文上下文列表存在滿足用戶寫作需求的條目時(shí),直接勾選該條目,被勾選的語句會(huì)出現(xiàn)在寫作框,用戶即可進(jìn)入編寫模式。當(dāng)用戶寫完后,可點(diǎn)擊“生成綜述”將已編好的內(nèi)容保存。
系統(tǒng)界面的實(shí)現(xiàn)采用JQuery EasyUI前端框架,主界面主要包含檢索欄、文獻(xiàn)列表導(dǎo)航界面、引文句界面、摘要閱讀界面、寫作面板、參考文獻(xiàn)界面。用戶在檢索框輸入檢索詞進(jìn)行相關(guān)文獻(xiàn)搜索時(shí),文獻(xiàn)列表導(dǎo)航界面會(huì)返回相關(guān)文獻(xiàn)的標(biāo)題、作者和發(fā)表年份等信息,供用戶瀏覽和選擇。點(diǎn)擊作者,結(jié)果按照作者名字的首字母升序排列;點(diǎn)擊標(biāo)題,結(jié)果按標(biāo)題第一個(gè)單詞的首字母升序排列;點(diǎn)擊年份,結(jié)果按發(fā)表年份降序排列。當(dāng)用戶點(diǎn)擊某篇感興趣的文獻(xiàn)標(biāo)題時(shí),引文句界面將返回其引文上下文。此外,系統(tǒng)還提供“語句分組”和“文獻(xiàn)分組”功能,分別用于激發(fā)基于引文上下文的主題聚類和基于文獻(xiàn)標(biāo)題的主題聚類,來應(yīng)對(duì)文獻(xiàn)和引文上下文較多的情況,幫助用戶全面、高效地完成論文寫作。
本文從引文上下文的角度出發(fā),設(shè)計(jì)基于引文上下文的相關(guān)研究輔助生成系統(tǒng),并在計(jì)算機(jī)領(lǐng)域?qū)υ撓到y(tǒng)進(jìn)行實(shí)現(xiàn)。雖然系統(tǒng)在一定程度上改善了已有研究成果,但仍然存在很多不足,需要進(jìn)一步完善。本文將在后續(xù)研究中對(duì)原始數(shù)據(jù)集進(jìn)行擴(kuò)充,使其兼容更多的數(shù)據(jù)源,構(gòu)建更大的文獻(xiàn)-引文上下文數(shù)據(jù)集,以提高系統(tǒng)結(jié)果的全面性和可靠性。針對(duì)主題聚類模塊,目前實(shí)現(xiàn)了基于引文句和文獻(xiàn)標(biāo)題的聚類,下一步將考慮基于文本標(biāo)題和摘要的聚類。此外,本系統(tǒng)在引文上下文的抽取中,為突出研究重點(diǎn)和保證抽取的準(zhǔn)確性,采用基于規(guī)則模板的引文句抽取,下一步應(yīng)嘗試基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的引文上下文句子集合的抽取,從而增加系統(tǒng)的適應(yīng)性和靈活性。
[1]DEMCHENKO Y,ZHAO Z,GROSSO P,et al.Addressing big data challenges for scientific data infrastructure[C]//IEEE,International Conference on Cloud Computing Technology and Science.Taipei:IEEE Computer Society,2012:614-617.
[2]陳超美,陳悅,侯劍華,等.CiteSpace Ⅱ:科學(xué)文獻(xiàn)中新趨勢(shì)與新動(dòng)態(tài)的識(shí)別與可視化[J].情報(bào)學(xué)報(bào),2009,28(3):401-421.
[3]HEIMERL F,HAN Q,KOCH S,et al.CiteRivers:visual analytics of citation patterns[J].IEEE Transactions on Visualization &Computer Graphics,2015,22(1):1.
[4]CHEN M H,HUANG S T,HSIEH H T,et al.Flow:a first-languageoriented writing assistant system[J].ACL System Demonstrations,2012,24(3):157-162.
[5]楊秉哲.WriteAhead:以學(xué)術(shù)論文寫作為目的之摘要寫作輔助系統(tǒng)[D].新竹:臺(tái)灣清華大學(xué),2009.
[6]VAN ECK N J,WALTMAN L.Vosviewer:a computer program for bibliometric mapping[J].Social Science Electronic Publishing,2009,84(2):523-538.
[7]WANG X,CHENG Q K,LU W.Analyzing evolution of research topics with NEViewer:a new method based on dynamic co-word networks[J].Scientometrics,2014,101(2):1253-1271.
[8]孔行.基于主題推薦的輔助寫作系統(tǒng)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2015.
[9]CHUBIND E,MOITRA S D.Content analysis of references:adjunct or alternative to citation counting?[J].Social Studies of Science,1975,5(4):423-441.
[10]NANBA H,OKUMURA M.Towards multi-paper summarization using reference information[J].Ipsj Sig Notes,1999,98(82):79-86.
[11]QAZVINIAN V,RADEV D R.Identifying Non-explicit Citing Sentences for Citation-based Summarization[C]//ACL 2010,Proceedings of the Meeting of the Association for Computational Linguistics,July 11-16,2010,Uppsala,Sweden.DBLP,2010:555-564.
[12]張金松.基于引文上下文分析的文獻(xiàn)檢索技術(shù)研究[D].大連:大連海事大學(xué),2013.
[13]SONDHI P,ZHAI C X.A constrained hidden markov model approach for non-explicit citation context extraction[M]//Proceedings of the 2014 SIAM International Conference on Data Mining.Pennsylvania:Society for Industrial and Applied Mathematics,2014:361-369.
[14]ABU-JBARA A,RADEV D.Coherent citation-based summarization of scientific papers[C]//Meeting of the Association for Computational Linguistics:Human Language Technologies.Portland:DBLP,2011:500-509.
[15]ANGROSHM A,CRANEFIELD S,STABGER N.Context identification of sentences in related work sections using a conditional random field:towards intelligent digital libraries[C]//Proceedings of the 10th annual joint conference on Digital libraries,Gold Coast:ACM,2010:293-302.
[16]ABU-JBARA A,RADEV D.Reference scope identification in citing sentences[C]//Proceedings of the 2012 Conference of the North American Chapter of ACM.Montreal:ACM,2012:80-90.
[17]ANGROSHM A,CRANEFIELD S,STANGER N.Contextidentification of sentences in research articles:towards developing intelligent tools for the research community[J].Natural Language Engineering,2013,19(4):481-515.
[18]SONDHI P,ZHAI C X.A constrained hidden markov model approach for non-explicit citation context extraction[C]//Proceedings of the 2014 SIAM International Conference on Data Mining.Philadelpha,Pennsylvania,2014:102-108.
[19]ATHAR A.Sentimental analysis of scientific citations[EB/OL].[2017-07-01].http://www.c1.cam.ac.uk/techreports/UCAM-CLTR-856.pdf.
[20]孫楓軍.引文上下文中的概念抽取[D].北京:中國科學(xué)技術(shù)信息研究所,2012.
[21]雷聲偉,陳海華,黃永,等.學(xué)術(shù)文獻(xiàn)引文上下文自動(dòng)識(shí)別研究[J].圖書情報(bào)工作,2016(17):78-87.
[22]陸偉,黃永,程齊凱,等.學(xué)術(shù)文本的結(jié)構(gòu)功能識(shí)別功能框架及基于章節(jié)標(biāo)題的識(shí)別[J].情報(bào)學(xué)報(bào),2014(9):979-985.
[23]黃永,陸偉,程齊凱,等.學(xué)術(shù)文本的結(jié)構(gòu)功能識(shí)別——基于段落的識(shí)別[J].情報(bào)學(xué)報(bào),2016,35(5):530-538.
[24]黃永,陸偉,程齊凱,等.學(xué)術(shù)文本的結(jié)構(gòu)功能識(shí)別——在學(xué)術(shù)搜索中的應(yīng)用[J].情報(bào)學(xué)報(bào),2016,35(4):425-431.
Abstract:This article takes specific information needs when a scholar is writing related works or a edit reviews a paper to design and implement a related works assistant system based on citation context.Firstly,we expound the definition of citation context in academic texts and the progress of its recognition,then discuss the feasibility of implementation a system like this and design the thought and functional modules of it.Finally,the full text page data of 289 926 scientific literatures included in the Science Direct database from 1957 to 2014 were used as data sources to realize a related research assistant generation system RWGS based on citation context.The result shows that RWGS can meet the needs of scholars in the preparation of the related works chapter or journal editor in the review process with more detailed information needs,which have a certain optimization effect,while the literature search the traditional academic database search results.
Keywords:Related Works;Assistant Generation System;Citation Context;Computer Science
Design and Implementation of Related Works Generation System Based on Citation Context
WANG Xin1,2,CHENG QiKai1,2,LI Xin1,2,LU Wei1,2
(1.School of Information Management,Wuhan University,Wuhan 430072,China;2.Information Retrieval and Knowledge Mining Laboratory,Wuhan University,Wuhan 430072,China)
G250.7
10.3772/j.issn.1673-2286.2017.08.003
* 本研究得到中國博士后科學(xué)基金項(xiàng)目(編號(hào):2016M602371)和國家自然科學(xué)基金青年項(xiàng)目“基于深度語義挖掘的引文推薦多樣化研究”(編號(hào):71704137)資助。
王鑫,男,1996年生,碩士研究生,研究方向:信息檢索。
程齊凱,男,1989年生,博士,講師,研究方向:自然語言處理、文本挖掘、信息檢索,E-mail:cehngqikai0806@163.com。
李信,男,1991年生,博士研究生,研究方向:大數(shù)據(jù)分析、語義計(jì)量、醫(yī)學(xué)知識(shí)發(fā)現(xiàn),E-mail:lucian@whu.edu.cn。
陸偉,男,1974年生,教授,博士生導(dǎo)師,研究方向:信息檢索、文本挖掘和知識(shí)發(fā)現(xiàn),E-mail:weilu@whu.edu.cn。
2017-08-09)