胡志剛,田文燦,孫太安,侯海燕
(1.大連理工大學科學學與科技管理研究所,大連 116024;2.大連理工大學WISE實驗室,大連 116024)
科技論文中學術信息的提取方法綜述*
胡志剛1,2,田文燦1,2,孫太安1,2,侯海燕1,2
(1.大連理工大學科學學與科技管理研究所,大連 116024;2.大連理工大學WISE實驗室,大連 116024)
為更好地利用和挖掘學術論文文本,識別并提取學術論文中的學術信息已成為一種非常迫切的現實需求,在文本挖掘、信息檢索、主題監(jiān)測、信息計量學等領域都有廣闊的應用前景。學術信息可以分為題錄信息、章節(jié)信息、引文信息、引用信息和其他信息。本文綜述了在PDF和HTML/XML兩種不同格式的學術論文全文中,提取各類學術信息的主要方法,并指出這些方法主要面向的格式文本以及可用來提取的信息種類。最后,本文列出了提取學術信息的常用工具。
學術信息;論文全文本;信息提取;機器學習
20世紀90年代以來,隨著學術論文電子化的出現和興起,信息技術和情報學領域的學者基于學術論文的全文本開展大量的研究工作,在信息檢索[1-2]、數字圖書館[3]、主題監(jiān)測和追蹤[4]、自動生成摘要[5]、全文引文分析[6–9]等領域都有廣泛應用。而隨著開放獲取運動的興起,學術論文全文本數據的批量獲取變得越來越易得[10],為此類研究提供了更為便利的數據基礎和更加廣闊的應用前景。
學術論文全文本數據是文本挖掘和文獻計量學研究的重要基礎,包含多種學術信息,可以滿足不同研究目的和功能的需要。除題錄中包含的論文題目、作者、機構、期刊、期卷號等信息外,還包括章節(jié)結構、引文信息、引用信息、圖表和致謝等。
近年來,面向論文全文本的學術信息提取,借助文本挖掘、自然語言處理、信息可視化、潛在語義分析、主題模型、機器學習等諸多技術手段,取得了豐富的研究成果。尤其是對元數據和引文數據的提取和解析,目前已經開發(fā)了多種高準確性和使用率的信息提取工具。
為梳理這一領域的研究進展,本文從學術論文全文的數據存儲格式和學術信息的分類出發(fā),綜述PDF和HTML/XML格式中全文各類學術信息的提取方法,包括題錄信息、章節(jié)信息、引文信息和引用信息。最后,本文還介紹了一些常用的學術信息提取工具或工具包。
隨著電子計算機和互聯網技術的發(fā)展,紙質學術期刊的出版模式在過去三十年日漸式微,學術期刊和學術論文的出版逐漸進入數字化時代。在學術文本數字化進程中,由Adobe公司開發(fā)的PDF文件格式憑借其優(yōu)良的設計,在與DjVu、Envoy、Common Ground Digital Paper、XPS及PostScript格式的競爭中脫穎而出,成為學術出版中最受歡迎的文檔格式[11]。世界知名的科技期刊出版商大多提供了PDF全文下載平臺,如國外Elsevier的ScienceDirect、Springer的SpringerLink 以及John &Wiley的OnlineLibrary等;在國內的萬方、維普等中文期刊全文數據庫中,PDF文檔也是重要的全文下載格式。
但是,PDF格式文本是一種固定版面的文本格式,不易標記學術論文中的元數據和結構信息,而HTML/XML語言正好彌補了PDF格式的這一缺陷。相比PDF格式,HTML/XML在結構化信息存儲方面更加方便,可通過豐富的內部鏈接和外部鏈接,清晰地展示論文的屬性信息(如作者信息、期刊名稱、卷期號等),章節(jié)結構、圖表信息等;此外,這一格式還具有廣闊的擴展空間,如讀者通過集成引文鏈接服務網站(如crossref.com、dx.doi.org等),可方便地跳轉到論文的參考文獻頁面[12],從而極大地提高學術論文的交互性。
HTML主要用于學術論文的前臺顯示,而XML則主要作為學術出版工作后臺的數據交換格式[13]。XML是一種標記語言,它將文檔分為許多元素,并對這些元素加以標識。與HTML不同,XML將文本外觀從數據的內容和結構中分離,使操作流程變得更簡潔。
在XML中,元素的類型、屬性等由文檔類型定義(Document Type De fi nition,DTD)或XML Schema進行聲明和定義。DTD專門用于定義文檔的結構和語法,XML Schema則用于定義管理信息等更強大、更豐富的特征。在XML出現后,相繼衍生出多種不同語言,包括MathML、SVG、RDF、ONIX、ePub、XHTML等。
HTML/XML格式的結構性使得它可以很好地被用于表示越來越高度結構化的學術論文。Springer、Elsevier和Wiley提供或部分提供HTML格式的全文閱讀。Elsevier的ConSyn數據平臺,可以直接提供XML格式全文數據的批量下載。此外,生物醫(yī)學數據庫PubMed Central,以及開放獲取期刊PLOS、PeerJ、Frontier等都支持XML格式論文的全文下載。
總體來看,目前可供解析的學術論文全文本數據格式大致分為3種:(1)PDF格式,對讀者友好,但對計算機不友好;(2)HTML格式,對讀者和計算機都比較友好;(3)XML格式,對讀者不友好,但對計算機友好。目前,國外的論文全文數據庫,尤其是開放獲取數據庫,部分已升級,可同時支持3種格式的全文下載;而國內的論文全文數據庫,基本上僅支持PDF格式的全文下載。
學術論文是一種具有規(guī)范結構和格式的文本。學術信息指學術論文中包含的基本元素和結構性信息,主要包括題錄信息、章節(jié)信息、引文信息、引用信息,以及圖表、致謝等其他信息。學術信息一般具有相對一致的位置特征、固定的模板、統(tǒng)一的標示性格式。
學術論文的題錄信息,一般出現在論文的開頭,因此又稱為論文的頭信息。學術論文的元數據指由標題、作者、期刊、期卷號、DOI等題錄信息構成的集合。在PDF格式的文檔中,論文的標題和作者信息等一般出現在文檔首頁上方,用與正文不同的字體和行距識別,并常居中對齊。而在XML格式的文檔中,則在論文的“Header”部分以不同的標簽逐一列出。
章節(jié)信息指學術論文各章節(jié)的標題、位置、邊界等信息。學術論文一般都具有約定俗成的邏輯結構,如自然科學領域最常見的IMR&D四節(jié)式結構[14]。其中,引言(introduction)部分主要描述研究背景和提出研究問題;方法(method)部分主要給出研究所使用的實驗材料及其實現方法、數據及分析算法等;結果(result)部分主要展現研究結果,該部分一般包含豐富的圖表信息;而結論(conclusion)部分總結論文作者的成果和貢獻,回答論文開始提出的問題。
在HTML/XML格式的文檔中,論文的章節(jié)信息通常以“
在學術論文的正文之后,大多會列出論文中所有引用的文獻信息。引文信息包含參考文獻的作者、標題、出版物名稱、發(fā)表年份、卷期號、頁碼等信息,部分還標有DOI標識符。不同出版商或不同學會出版的期刊,通常都有其特有的引文樣式,國外期刊常用的樣式有APA 6.0(美國心理學學會樣式)、CMS(芝加哥樣式)、MLA(美國現代語言協會樣式)等,而國內期刊主要遵循的標準是GB/T 7714—2005。目前,在引用樣式網站上列出的引文樣式已達8 000多種。
在PDF文檔中,引文信息通常位于正文的末尾,逐行列出,且每條引文都應遵循標準的固定樣式。對于XML格式的文檔來說,引文信息是在文檔的最后逐條逐項列出。
在PDF格式論文中,引用信息可以通過特殊樣式來識別。對XML格式的全文數據來說,由于引用會以專門的標簽給出,因此引用信息的識別要相對簡單得多。
目前在信息檢索領域已廣泛地開展題錄數據和引文信息提取,相對來說,對引用信息的提取還比較少。引用位置、強度和語境,可以用來甄別引用功能、動機和情感,隨著引用內容分析的興起,引用信息的提取和應用將變得越來越普遍。
除論文的題錄信息、章節(jié)信息、引文信息和引用信息外,學術論文中可供提取和分析的學術信息還包括摘要信息(尤其是結構化摘要)、圖信息[15]、表信息[16]、公式[17]、致謝[18](通常含有基金資助信息)和附錄信息等。這些信息在學術論文的話語分析[19]、論文抄襲檢測研究等方面,也具有重要的價值和意義。
學術信息是論文的結構化要素,既可以作為編制文獻數據庫的索引要素,又可以作為文獻計量研究的分析要素。對學術信息的識別和提取,是信息檢索、文獻管理、文獻存儲和文獻計量研究的基礎和前提,不論是CiteSeerX、Google Scholar等文獻數據庫,還是Mendeley、Zotero等文獻管理軟件,都離不開基于全文本的學術信息提取工作。
對于學術論文中學術信息的提取,按照問題的復雜程度和提取方法的難易程度,可以分為基于模板、基于規(guī)則和基于機器學習三種提取方法。
基于規(guī)則和基于機器學習的提取方法,主要針對PDF文檔,在這種格式的文檔中,論文的學術信息沒有被直接標出,需要通過論文的排版、位置、格式等規(guī)則,或綜合借助特征詞典對學術信息進行識別和分類。而基于模板的提取方法,主要針對XML/HTML格式的學術論文,由于XML/HTML格式全文對論文中的學術信息進行格式化標注,因此,只需要基于XML文檔的DTD識別對應的標簽,就可以提取出所需的學術信息。
此外,由于提取學術信息的對象不同,所采用的提取方法也不同。如對于引文信息的提取一般采用基于模板或基于規(guī)則的方法,因為引文有固定的樣式和模板,掌握引文書寫的規(guī)則很容易利用其來反推引文的各個組成部分。而對于題錄信息、引用信息這種非結構化內容的提取,則需要更多地借助機器學習進行識別和提取。
對于XML格式的結構化文本來說,學術信息的提取相對簡單。在XML格式的全文中,結構化學術信息都以標簽進行標記,而且所用標簽的含義在DTD中進行規(guī)定和說明,因此基于模板的提取方法相對簡單且直接。
目前,在學術期刊界,利用最廣泛的XML框架和標簽集是期刊論文標簽集(Journal Article Tag Suite,JATS),這一標準最早由美國國家醫(yī)學圖書館開發(fā),于2012年被確立為美國國家標準(NISO Z39.96)。JATS定義了XML文件中的元素和元素的屬性、排列方式、包含內容等,在JATS中共有246個元素和134種屬性。
基于模板的學術信息提取,主要通過對XML全文的解析函數完成。一些常見的程序語言(如PHP、Java、Python等)中基本都含有對XML的解析函數或命令,調用這些函數或命令,即可將XML文件中的元素信息提取到數組,方便用戶進一步存放到數據庫和數據表中。
相對于基于規(guī)則和基于機器學習的方法,基于模板的方法具有更高的準確度。但是由于其完全依賴文檔的框架和標簽集,因此對于某些質量不高的XML格式數據,可能出現提取失敗或中斷的狀況。
該方法可以廣泛應用于文檔中題錄信息、章節(jié)信息、引文信息、引用信息和其他類型信息的提取?;谀0宓膶W術信息提取的代表性工具有ParaCite、InfoMap等。Flynn等利用模板和字符串查找函數,并提取學術論文和研究報告中的元數據[20]。胡志剛等設計一種在XML格式全文中提取引用位置、引用語境信息的全文引文分析系統(tǒng)[21]。
基于規(guī)則的提取方法是基于一系列事先定義好的規(guī)則和流程,對論文的題錄信息、引文信息或引用信息等各類學術信息進行提取。該提取方法的背景和前提是學術論文通常會遵從一定的結構和格式。學術信息提取的規(guī)則設計可以基于知識、經驗和啟發(fā)式方法,因此基于規(guī)則的提取方法又稱基于知識的提取方法。可以利用如下規(guī)則來提取論文的題錄信息:(1)標題通常位于正文的開頭且在全篇中字體最大;(2)作者位于標題的下方;(3)各作者名稱的字體相同;(4)機構位于作者名稱下方;(5)機構的字體相同;(6)如果只有一個機構,那么所有作者都屬于這個機構;(7)章節(jié)標題比正文字體大。
基于規(guī)則的提取方法主要針對PDF、HTML或其他富文本格式,其準確率一般低于基于模板的方法,高于基于機器學習的方法。但是這種方法費時費力,尤其是規(guī)則較多時,該方法在題錄信息、引文信息的提取中應用較廣,很多常用的工具(如CiteSeerX[22]、Google Scholar[23]等)都基于或部分基于這種方法。Giuffrida等曾利用基于規(guī)則的方法提取PostScript這種半結構化全文中的題錄信息和章節(jié)信息[24];Groza等則提出一種面向PDF格式文檔首頁的元數據提取規(guī)則,主要基于字體的格式或位置進行提取,具有較高的準確性[25]。
基于模板或基于規(guī)則的方法,非常依賴專家的規(guī)則方案和文本的規(guī)范程度,一旦文本格式的復雜程度超出專家可以進行規(guī)則化的范圍,就必須依賴機器學習的方式進行提取。
機器學習方法是通過對訓練數據的學習獲得信息抽取的模式,并對未知數據進行判定和預測,主要用于元數據、引文信息和引用信息等相對復雜信息的抽取任務。如從引文中識別作者、期刊名、標題等信息,或者對引用語境進行情感分析、實體標注等。對于某些難以利用模板或規(guī)則進行抽取的不規(guī)范文本,基于機器學習的方法不失為一種行之有效的選擇。
支持向量機(Support Vector Machine,SVM)是機器學習中的一種基本分類算法。SVM應用于文本和超文本的分類,可顯著減少所需訓練樣本數,提高分類效率。在對學術信息進行抽取時,需先將抽取問題轉換成二元分類問題。如將抽取作者信息的問題,轉換成判斷一個字符串是否為作者的問題。
SVM方法的基礎,是對要分類的字符串進行特征選擇,并賦予不同權重。一般來說,學術信息相關的文本主要由以下特征組成:(1)格式特征,如首字母是否大寫、是否包含數字、是否包含簡寫、是否符合郵箱的正則式等;(2)位置特征,相關文本在句首、句中還是句尾;(3)詞典特征,如是否可以匹配姓名詞典、機構詞典、時間詞典等。SVM的目標,就是從這些特征中選擇對于分類真正重要的特征,以及確定間隔平面的特征向量(稱為支持向量)。
在學術信息的抽取任務中,SVM既可用于題錄信息的標注[26],又可用于引文信息的解析[27]。在對引文進行解析時,主要考慮的特征包括:是否存在于作者詞典中,是否存在于期刊詞典中,是否包含“et al”,是否包含“pp.”或“p.”,是否全為數字,是否全為字母,以及在整個句子中的位置等。
基于SVM分類方法的缺點是只能根據文本塊自身的特征進行分類。對于學術信息的抽取來說,各文本塊間的文法和語法規(guī)則(如各文本塊出現的順序,文本塊間的分隔詞或字符等),對判斷字符串的類型是非常重要的,其重要程度有時甚至超過文本塊自身的內容。因此,SVM在準確度上一般明顯低于專門面向序列標注的隱馬爾可夫模型(Hidden Markov Model,HMM)和條件隨機場(Conditional Random Fields,CRF)。
自然語言本質上可以看作一種由詞語組成的序列,詞語間不是彼此孤立的,在前后順序和關聯上需要遵守一定的文法和語法規(guī)則。HMM的方法和CRF是自然語言處理時常用的兩種數學模型,可以有效處理序列數據的標注問題,因此也被大量應用到學術信息的抽取過程中。
HMM是19世紀60年代由Baum等提出的[28],1980年,貝爾實驗室的Rabiner等對HMM進行簡化,并率先在語音識別中運用和推廣[29],此后被廣泛應用于語音識別、實體識別、詞性標注、信息抽取等領域。
HMM分別描述了一個可觀察的和一個隱性的隨機過程,隱性狀態(tài)間的轉換過程對應一個轉移概率矩陣,需要借助可觀察的隨機過程進行推斷。對于學術文本來說,作者、期刊名、標題、機構、期卷號等學術信息類型就是一個隱性的狀態(tài)序列。學術信息抽取的過程,就是標記引文中的各個部分所屬的狀態(tài)(即學術信息類型)。
HMM在學術文本領域的應用在20世紀90年代開始出現,早期主要集中應用在學術論文中的實體識別(如識別醫(yī)學論文中的癥狀、藥物、基因等),隨后擴展到對引文信息的解析[30-32]和頭信息的識別[33-37]。
HMM具有易于建立、不需要大規(guī)模的詞典集與規(guī)則集、適應性好和精度較高等優(yōu)點。在學術信息提取中,如果通過人工制定的規(guī)則難以達到較好的提取效果,就可以考慮采用HMM來處理該問題。
CRF是另一種廣泛使用的序列標注模型,由Lafferty等提出[38]。HMM依賴“狀態(tài)轉移過程中當前狀態(tài)只與前一狀態(tài)有關”這一個局部性假設,而CRF具有表達元素長距離依賴性和交疊性特征的能力,更易于處理關聯較強的信息抽取工作,如對于引用語境信息的抽取[39]。在抽取效果方面,CRF也展現了優(yōu)于HMM的提取效果[38,40-41]。
與SVM和HMM一樣,CRF在進行學術信息抽取時也依賴特征的選則與抽取,而且CRF可以為特征集中的各種特征賦予不同權重。實驗表明,位置和序列信息在特征空間中的權重越大,抽取的效果越好[40]。
由于具有更高的準確率和召回率,近年來,CRF已經成為學術信息領域用得最多的一種模型。尤其是借助經典的CRF++工具包,基于CRF算法的學術抽取工具的開發(fā)變得更加方便,如對于引用語境信息的抽取。
本文主要分析7個常用的學術信息提取工具。這些工具大部分提供開源下載或在線服務界面,用戶可以借助這些工具從XML、PDF或純文本中提取論文的題錄信息、引文信息等。
從開發(fā)目的來看,有的工具只面向單一類型信息的提取,如ParaCite只能解析引文信息;而有些則提供“一攬子”學術信息的提取功能,如ParsCit程序中同時集成了題錄信息、章節(jié)信息和引文信息的提取。從應用渠道來看,有些工具用于文獻管理,如Mendeley,Zotero等;有些工具則用于構建數字圖書館或文獻搜索引擎,如CiteSeerX、Google Scholar等。
CiteSeerX的前身為CiteSeer,是由美國普林斯頓大學NEC研究院研制開發(fā)的一款最先利用自動引文索引技術建立的科學文獻數據庫和搜索引擎[22,42]。在1997年,CiteSeer就開始自動爬取互聯網上Postscript和PDF格式的開放獲取學術論文,比Google Scholar早7年。2007年,研發(fā)人員在對原系統(tǒng)運行中暴露的問題和用戶反饋意見進行分析的基礎上,為該搜索引擎重新設計系統(tǒng)結構和數據模型,并改名為CiteSeerX。
作為數字圖書館,目前CiteSeerX中可檢索到的論文數量超過700萬篇,主要涉及計算機科學領域。作為搜索引擎,CiteSeerX系統(tǒng)的功能主要包括:(1)利用主題詞、作者等檢索文獻;(2)檢索結果會列出檢索文獻的題錄信息、引用語境,某一具體文獻的施引文獻、參考文獻以及相關文獻(共被引文獻)等。
CiteSeer向用戶免費提供文獻學術信息提取的應用程序接口——CiteSeer Extractor,為用戶提供PDF格式的學術論文解析和學術信息提取服務。用戶通過CiteSeer Extractor可以從PDF文檔中提取元數據、引文信息和正文章節(jié),并將提取的結果以XML、JSON或BibTex等格式返回給用戶。
CiteSeer Extractor,集成了一系列的開源工具包(包括ParsCit、SVM Header Parse、PDFBox等),這些工具包被用來完成自動引文索引、自動元數據提取、引文統(tǒng)計、生成引文鏈接、作者消歧、引用語境提取等一系列工作。CiteSeer Extractor也是開源的,用戶可以免費獲取源代碼并進行修改。
Mendeley是一個免費的參考文獻管理工具與學術社交媒體[43],2008年被推出,憑借其超前的理念和強大的產品功能獲得多項歐洲大獎,2013年被Elsevier公司收購。Mendeley可以幫助使用者管理和組織學術文獻,可以在線與其他研究者合作交流,以及發(fā)現最新研究成果。
對PDF文檔的解析和學術信息的自動提取是Mendeley區(qū)別于其他軟件的最大特色,它內置了PDF閱讀器,可以方便瀏覽和標注全文,并支持對PDF全文的檢索。更重要的是,它可以輕松解析用戶導入的PDF全文數據,提取出其中的題錄信息、章節(jié)框架,以便更有效地管理文獻。
Mendeley對PDF的解析基于Grobid開源程序包,其提取學術信息的具體步驟為:(1)利用pdf2xml程序將PDF轉換成帶格式(包括大小、字體和位置)的文本文件;(2)將文本中的各類信息轉換成分類器所需要的特征,然后利用開源工具包Grobid的元數據提取程序包對論文中的題目、作者、摘要等信息進行提??;(3)利用提取的學術信息生成一個檢索式并提交,以便與Mendeley、Arxiv、PubMed和CrossRef等數據庫中現有文獻進行比較,從而進一步豐富論文的元數據信息。
與Mendeley類似的工具還包括Zotero、Docear、PDFmeat等,這些工具中同樣集成了PDF文獻的學術信息提取功能。其中Docear是由德國馬格德堡大學的SciPlore研究小組開發(fā)的一款兼具文獻管理和論文寫作功能的思維導圖軟件[44],它可以從導入的PDF文獻中提取題錄信息和章節(jié)信息。
ParsCit是由靳民彥等開發(fā)的一個功能齊全、性能強大的學術信息提取工具,它既可以進行引文信息和引用信息提取,也可以對論文的題錄信息和章節(jié)信息提取[45]。其中,對題錄信息和章節(jié)信息的提取由與ParsCit同源的另外兩個程序ParsHead和SectLabel協助實現。
ParsCit是一種基于CRF的信息提取工具。其代碼是開源的,并且代碼中包含訓練集、特征生成器等。ParsCit的安裝和運行需要ruby、perl和CRF++嵌套包,不過,ParsCit提供在線提取功能,支持對TXT、PDF、XML等格式的論文進行在線解析和提取。其中,XML格式的文檔默認支持OmniPage的DTD框架。
ParaCite是機構知識庫服務商Eprints開發(fā)的一個引文信息提取工具和檢索平臺[46],集成在Eprints的軟件系統(tǒng)中,用于對引文的解析(reference parser模塊)和引用文獻的檢索(reference resolver模塊)。在引文的解析方面,ParaCite利用基于模板匹配的方法,將引文字符串與設定的引文模板集(目前包含235個常用模板)逐一進行匹配,找到與待解析引文最符合的模板并據此將引文切分為作者、年份、題目、期刊名、期卷號等信息單元。在引用文獻的檢索方面,ParaCite提供被引論文的檢索界面,用戶可將引文字符串輸入到檢索框中進行檢索,ParaCite對輸入的引文字符串進行解析,分別生成其在Google Scholar、CiteBase、Google和CiteSeer等數據庫中的openurl,并發(fā)送給各數據庫等待返回的檢索結果。
文獻目錄數據生成器(GeneRation Of BIbliographic Data,GROBID)是一款基于CRF算法的學術信息提取工具[47],用于在PDF格式的科技文獻中提取、解析學術信息,并進行TEI編碼的結構化存儲。GROBID利用Java語言進行開發(fā),并集成其他開源程序包。首先利用Xpdf程序對PDF進行預處理,然后在學術信息提取時通過JNI調用法國LIMSI-CNRS實驗室開發(fā)的Wapiti CRF Library程序包。
GROBID功能強大,可以提供55種學術信息的提取和識別。CROBID程序包中包含批處理程序、基于網絡的RESTful API、Java API、相對通用的評價框架和半自動生成的訓練級數據,面向用戶開源。在學術信息的解析和提取方面,GROBID具有很高的準確度和運行效率。從程序開發(fā)者基于MacBook Pro的測試結果來看,平均每秒可以完成3篇PDF文檔的解析和提取,并且在18秒內完成3 000條引文的解析。
由于其卓越的性能,GROBID在很多文獻數據庫和存儲平臺中有大量應用,其中包括ResearchGate、Mendeley、HAL Research Archive、the European Patent Office、INIST和CERN等。用戶還可以通過其官網在線使用GROBID的解析服務。
PDFx是由奧地利程序開發(fā)者Hager利用Python開發(fā)的一款學術信息提取和參考文獻下載工具。Hager指出其開發(fā)這一工具的背景和初衷是,當讀者讀到一篇不錯的論文時,往往想要下載這篇論文中的所有參考文獻,但這通常是一件非常麻煩的事情,尤其當參考文獻較多時,下載就更加費時費力。其所開發(fā)的PDFx工具可以提取PDF文獻中的參考文獻、元數據和正文文本,下載這些參考文獻的PDF(需要用戶所在機構購買相應的全文數據庫)。PDFx同樣面向用戶開源。
INFOMAP是Day等開發(fā)的一款基于本體知識表示的引文信息提取工具[48],可以提取引文中的作者、標題、期刊和期卷號等信息。本體是一個形式化的、共享的、明確化的、概念化的規(guī)范,用本體表示知識的目的是統(tǒng)一應用領域的概念,并構建本體層級體系表示概念間語義關系,實現人類、計算機對知識的共享和重用。本體層級體系的基本組成部分是五個基本的建模元語,分別為類、關系、函數、公理和實例。領域本體知識庫中的知識,不僅通過縱向類屬分類,而且通過本體的語義關聯進行組織和關聯,再利用這些知識進行推理,從而提高學術信息識別準確率。
基于對APA、IEEE、ACM、BIOI、JCB、MISQ的引文數據集所做的實驗,結果表明,INFOMAP的準確度平均高達97.87%[49]。
學術信息提取方法和工具的大量出現,標志著對學術論文的全文分析正日趨成熟。按照Shneider對于學科領域的四階段劃分[50],一個研究領域的發(fā)展可以分成四個階段:I-研究對象和有關概念的形成階段,II-大量方法和工具的開發(fā)階段,III-研究問題調研和解答階段,IV-隱性知識的顯性化階段。其中,階段II-大量方法和工具的開發(fā),是從理論到應用、從概念到實踐的必經之路。顯然,當前全文分析正處在一個非常關鍵的階段。
本文綜述了論文全文本中提取學術信息的主要方法和主要工具。隨著開放獲取運動的興起,學術論文全文本數據的批量獲取變得越來越易得,在此背景下,準確高效地提取全文數據中的學術信息已經成為重要的熱點課題。
學術信息的提取具有重要的學術價值和應用前景。在學術論文的全文本中提取學術信息,不僅可以有效地提高信息檢索的功能和精度,更好地為用戶提供知識服務,而且通過對學術信息的計量和統(tǒng)計,可以更好地基于學術論文全文進行深度的知識挖掘和知識發(fā)現。
[1] MAYR P,SCHARNHORST A.Combining bibliometrics and information retrieval:preface[J].Scientometrics,2015,102(3):2191-2192.
[2] LIU S,CHEN C,DING K,et al.Literature retrieval based on citation context[J].Scientometrics,2014,101(2):1293-1307.
[3] WILLIAMS K,WU J,CHOUDHURY S R,et al.Scholarly big data information extraction and integration in the CiteSeer χ digital library[C]//IEEE International Conference on Date Engineeri Workshops.[S.1.]:[s.n.],2014:68-73.
[4] WANG X,CHENG Q,LU W.Analyzing evolution of research topics with NEViewer: a new method based on dynamic co-word networks[J].Scientometrics,2014,101(2):1253-1271.
[5] YE S,CHUA T S S,KAN M Y,et al.Document concept lattice for text understanding and summarization[J].Information Processing and Management,2007,43(6):1643-1662.
[6] LIU X,ZHANG J,GUO C.Full-text citation analysis:a new method to enhance scholarly networks[J].Journal of the American Society for Information Science and Technology,2013,64(9):1852-1863.
[7] GLENISSON P, GL?NZEL W,PERSSON O.Combining full-text analysis and bibliometric indicators.A pilot study[J].Scientometrics,2005,63(1):163-180.
[8] 趙蓉英,曾憲琴,陳必坤.全文本引文分析——引文分析的新發(fā)展[J].圖書情報工作,2014,58(9):129-135.
[9] 胡志剛.全文引文分析:理論、方法與應用[M].北京:科學出版社,2016.
[10] 胡志剛,侯海燕,林歌歌.從書信沙龍到開放獲取——芻議學術學術論文形態(tài)的演化[J].數字圖書館論壇,2016(10):32-37.
[11] 張立.數字出版相關概念的比較分析[J].中國出版,2006(12):11-14.
[12] ZOU J,LE D,THOMA G R.Locating and parsing bibliographic references in HTML medical articles[J].International Journal on Document Analysis and Recognition,2010,13(2):107-119.
[13] 白杰,楊愛臣.XML結構化數字出版的特點與流程[J].出版廣角,2015(5):28-31.
[14] SOLLACI L B,PEREIRA M G.The introduction,methods,results,and discussion(IMRAD) structure:a fi fty-year survey[J].Journal of the Medical Library Association Jmla,2004,92(3):364-367.
[15] CHOUDHURY S R,TUAROB S,MITRA P,et al.A fi gure search engine architecture for a chemistry digital library[J].2013:369-370.
[16] LIU Y,BAI K,MITRA P,et al.TableSeer: automatic table metadata extraction and searching in digital libraries[C]//JCDL’07. Vancouver:[s.n.],2007:91-100.
[17] JIN J,HAN X,WANG Q.Mathematical Formulas Extraction[C]//International Conference on Document Analysis and Recognition,IEEE.[S.1.]:[s.n.],2003:1138-1141.
[18] COUNCILL I G,GILES C L,HAN H,et al.Automatic acknowledgement indexing:expanding the semantics of contribution in the CiteSeer digital library[C]//International Conference on Knowledge Capture,Banff:[s.n.],2005:1-8.
[19] SARIC J,CIMIANO P.Ontology-driven discourse analysis for information extraction[J].Data & Knowledge Engineering,2005,55:59-83.
[20] FLYNN P,LI Z,MALY K,et al.Automated template-based metadata extraction architecture[C]//International Conference on Asian Digital Libraries:Looking Back 10 Year and Forging New Frontiers.[S.1.]:Springer-Verlag,2007.
[21] 胡志剛,陳超美,劉則淵,等.基于XML全文數據引文分析系統(tǒng)的設計與實現[J].現代圖書情報技術,2012(11):71-77.
[22] GILES C L,BOLLACKER K D,LAWRENCE S.CiteSeer:an automatic citation indexing system[C]//Proceedings of the third ACM conference on Digital libraries.[S.1.]:ACM,1998:89-98.
[23] GOOGLE.Inclusion Guidelines for Webmasters:Indexing Guidelines[EB/OL].[2017-08-01].https://scholar.google.com/intl/zh-CN/scholar/inclusion.html#indexing.
[24] GIUFFRIDA G,SHEK E C,YANG J.Knowledge-based metadata extraction from PostScript files[C]//Proceedings of the 5th ACM Conference on Digital Libraries.New York:ACM Press,2000:77-84.
[25] GROZA T,HANDSCHUH S,HULPUS I.A document engineering approach to automatic extraction of shallow metadata from scienti fi c publications[R/OL].[2017-08-01].https://www.researchgate.net/publication/237536549_A_ DOCUMENT_ENGINEERING_APPR OACH_TO_AUTOMATIC_EXTRACTION_OF_SHALLOW_METAD ATA_FROM_SCIENTIFIC_PUBLICATIONS.
[26] HAN H,GILES C L L,MANAVOGLU E,et al.Automatic document metadata extraction using support vector machines[C]//Joint Conference on Digital Libraries.[S.1.]:IEEE,2003:37-48.
[27] ZHANG X,ZOU J,LE D X,et al.A structural SVM approach for reference parsing[J].BMC Bioinformatics,2011,12(3):1-7.
[28] BAUM L E,PETRIE T.Statistical inference for probabilistic functions of finite state Markov chains[J].Annals of Mathematical Statistics,1966,37(6):1554-1563.
[29] RABINER L R.A tutorial on hidden Markov models and selected applications in speech recognition[C]//Proceedings of the IEEE.[S.1.]:IEEE,1989,77(2):257-286.
[30] HETZNER E.A simple method for citation metadata extraction using hidden markov models[C]//Joint Conference on Digital Libraries.[S.1.]:[s.n.],2008:280-284.
[31] OJOKOH B,ZHANG M,TANG J.A trigram hidden Markov model for metadata extraction from heterogeneous references[J].Information Sciences,2011,181(9):1538-1551.
[32] CUI B G,CHEN X.An improved Hidden Markov Model for literature metadata extraction[C]//International Conference on Advanced Intelligent Computing Theories and Application:Intelligent Computing,[S.1.]:Springer Berlin Heidelberg,2010,6251(4):205-212.
[33] PARK D C,HUONG V T L,WOO D M,et al.Information extraction system based on Hidden Markov Model[M].Berlin:Springer Berlin Heidelberg,2009:52-59.
[34] SONG M,SONG I Y,HU X H,et al.KXtractor:an effective biomedical information extraction technique based on mixture Hidden Markov models[M].Berlin:Springer Berlin Heidelberg,2005:68-81.
[35] ZHONG P,CHEN J,COOK T.Web information extraction using generalized Hidden Markov Model[C]//IEEE Workshop on Hot Topics in Web Systems and Techologies.[S.1.]:IEEE,2006:1-8.
[36] XIAO J,ZOU L,LI C.Optimization of Hidden Markov Model by a genetic algorithm for web information extraction[J].International Journal of Computational Intelligence Systems,2007.
[37] CHI C Y,ZHANG Y.Information extraction from Chinese papers based on Hidden Markov Model[J].Advanced Materials Research,2014:846-847,1291-1294.
[38] LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th International Conference on Machine Learning.[S.1.]:[s.n.],2001,3(2):282-289.
[39] SCHWARTZ A S,DIVOLI A,HEARST M A.Multiple alignment of citation sentences with conditional random fields and posterior decoding example of unaligned citances[J].Computational Linguistics,2007(6):847-857.
[40] PENG F,MCCALLUM A.Information extraction from research papers using conditional random fi elds[J].Information Processing and Management,2006,42(4):963-979.
[41] PINTO D,MCCALLUM A,WEI X,et al.Table extraction using conditional random fields[C]//Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Informaion Retrieval.[S.1.]:[s.n.],2003:235-242.
[42] ORORBIAII A G,WU J,KHABSA M,et al.Big scholarly data in CiteSeerX:information extraction from the web[C]//International Conference.[S.1.]:[s.n.],2015:597-602.
[43] HENNING V,REICHELT J.Mendeley-A Last.fm for research?[C]//IEEE 4th International Conference on Escience.[S.1.]:IEEE,2008:327-328.
[44] BEEL J,GIPP B,LANGER S,et al.Docear:an academic literature suite for searching,organizing and creating academic literature[C]//Proceedings of the 11th Annual.[S.1.]:[s.n.],2011:4-6.
[45] COUNCILL I G,GILES C L,KAN M Y.ParsCit:an open-source CRF reference string parsing package[J].LREC’08:Proceedings of the 6th International Conference on Language Resources and Evaluation.[S.1.]:[s.n.],2008(3):661-667.
[46] GUPTA D,MORRIS B,CATAPANO T,et al.A new approach towards bibliographic reference identification,parsing and inline citation matching[C]//Communications in Computer and Information Science.Berlin:Springer Berlin Heidelberg,2009,40:93-102.
[47] LOPEZ P.GROBID:combining automatic bibliographic data recognition and term extraction for scholarship publications[C]//Proceedings of the 13th European Conference on Digital Library.Corfu:[s.n.],2009:473-474.
[48] DAY M Y,TSAI T H,SUNG C L,et al.A knowledge-based approach to citation extraction[C]//Proceedings of the 2005 IEEE International Conference on Information Reuse and Integration.[S.1.]:[s.n.],2005:50-55.
[49] CHEN C C,YANG K H,KAO H Y,et al.BibPro: a citation parser based on sequence alignment techniques[C]//22nd International Conference on Advanced Information Networking and Applications.[S.1.]:[s.n.],2008:1175-1180.
[50] SHNEIDER A M.Four stages of a scienti fi c discipline;four types of scientist[J].Trends in Biochemical Sciences,2009,34(5):217.
胡志剛,男,1984年生,講師,碩士生導師,研究方向:全文引文分析、科學計量學。
田文燦,男,1995年生,碩士研究生,研究方向:全文引文分析、科學知識圖譜。
孫太安,男,1991年生,碩士研究生,研究方向:科學計量學與信息計量學。
侯海燕,女,1971年生,博士,教授,博士生導師,通訊作者,研究方向:科學學與科技管理、科學計量學,E-mail:htieshan@dlut.edu.cn。
A Method Review on Academic Information Extracting from Scientific Papers
HU ZhiGang1,2, TIAN WenCan1,2, SUN TaiAn1,2, HOU HaiYan1,2
(1.Institute of Science of Science and Science and Technology Management, Dalian University of Technology, Dalian 116024, China;2.WISE Laboratory, Dalian University of Technology, Dalian 116024, China)
In order to make better use of rich information in academic papers, it is a very urgent and realistic requirement to identify and extract academic information within. The academic information extracting has a broad application prospect in text mining, information retrieval, theme monitoring, information metrology and many other fi elds. There are fi ve kinds of academic information, such as title information, section information, citation information, reference information and other information. This paper reviews the methods of academic information extracting from the full text of academic papers. Different methods could be used to extract different kinds of academic information from different types of full texts, PDF or HTML/XML. Finally, the paper also lists the current tools for extracting academic information.
Academic Information; Full Text; Information Extraction; Machine Learning
G203
10.3772/j.issn.1673-2286.2017.10.007
* 本研究得到國家自然科學基金項目“開放獲取背景下的全文引文分析方法與應用研究”(編號:71503031)資助。
信息與引文信息不同,指引文在施引文獻正文中被引用的位置和語境。引文在正文中被引用時的標識,大致可分成兩種:一種是大多數英文期刊所采用的標記;另一種是大部分中文期刊和部分英文期刊所采用的數字序號,通常在引用位置以上角標的樣式標出。兩種標記方法所對應的參考引文列表的排列方式不同,前者通常按照字母順序進行羅列,后者通常按照引用位置出現的順序進行羅列。
2017-08-28)