張夢瑩,盧 超,鄭茹佳,章成志
用于引文內容分析的標準化數(shù)據(jù)集構建*
張夢瑩,盧超,鄭茹佳,章成志
學術論文的全文數(shù)據(jù)越來越容易獲取使大規(guī)模的引文內容分析成為可能。文章通過設計引文內容標注框架,開發(fā)引文內容標注系統(tǒng),分別從引用對象、引文功能、引用情感、引文位置、引文重要性、標注自信度等方面進行標注。構建用于引文內容分析的標準化數(shù)據(jù)集并進行統(tǒng)計分析,可為引文內容的特征分析等基礎性研究及學術預測等應用性研究提供數(shù)據(jù)支撐。
引文內容分析引文標注系統(tǒng)標準化數(shù)據(jù)集引用功能引用情感傾向
引用本文格式張夢瑩,盧超,鄭茹佳,等.用于引文內容分析的標準化數(shù)據(jù)集構建[J].圖書館論壇,2016(8):48-53.
自Garfield提出SCI以來,引文分析一直是圖書情報學領域的研究重點和熱點。最初由于技術不成熟且全文數(shù)據(jù)匱乏,學者們關注更易獲取的題錄和參考文獻信息,但因忽略引文內容、位置、情感極性等被引情況,引文分析的結果缺乏內容層面的數(shù)據(jù)支持[1]。有關引文內容的少數(shù)研究一般是人工分析少量學術論文,結論缺乏普適性[2]。隨著自然語言處理技術不斷發(fā)展,學術文獻全文數(shù)據(jù)獲取難度下降,引文內容分析取得一定的成果。然而關于引文內容邊界識別、引文功能及情感極性判定等基礎性問題尚未出現(xiàn)公認的結論[3],并且缺乏支持這些研究的公開的標注數(shù)據(jù)集。因此,構建可用于引文內容分析的較大規(guī)模的標注數(shù)據(jù)集具有重要意義。
近年國內外部分學者關注到上述問題并做了相關研究。Simone Teufel等形成了自動識別引文功能的框架[4];Athar等利用機器學習方法對引文內容情感極性進行識別,精確度有待提高[5];陸偉等對引文內容標注作了全面梳理,并開發(fā)出相應的標注平臺,但龐雜的標注框架對標注者要求較高,且提供的標注數(shù)據(jù)規(guī)模較小[6]。為此,本文兼顧全面與易用,提出新的引文內容標注框架,并構建標注數(shù)據(jù)集進行統(tǒng)計分析。一方面,不斷擴大標注數(shù)據(jù)的規(guī)模,為缺乏統(tǒng)一規(guī)范的全文數(shù)據(jù)和引文內容的自動化標引提供樣本;另一方面,對其進行統(tǒng)計分析以了解和掌握數(shù)據(jù)集的基本特征,為后續(xù)大范圍的引文內容分析、情感極性測度、動機識別等深入研究提供較為清晰和直觀的數(shù)據(jù)。
從引文分析理論的研究[7]到評估學術產出的衡量指標[8],再到意識到缺乏引文內容信息的不足,以人工方式進行小樣本的引文內容分析的相關研究逐漸出現(xiàn)。引文內容概念[9]提出后,大批學者投入引文內容特征與應用的研究之中。隨后計算機技術的發(fā)展保證了大規(guī)模獲取全文本信息及進行文本挖掘,引文網絡研究、引文主題相似性研究、情感傾向分析等逐漸成為引文內容分析的新思路[10]。隱含引用、自引、轉引等現(xiàn)象普遍存在,引文范圍難以界定,而且引用動機的復雜使得判別的準確性難以保證,這都導致引文數(shù)據(jù)的充分性和準確性無法保證。如前所述,目前缺乏相對統(tǒng)一的引文內容標注框架和較大規(guī)模的引文內容標注數(shù)據(jù)集,而這些基礎研究能在一定程度上解決或緩解上述難題。
1.1引文內容標注框架研究概述
自20世紀60年代起,關于引文內容分類體系即引文內容標注框架的研究逐漸出現(xiàn)。Garfield[11]通過研究引文位置、上下文、重要性等因素,提出了15種引用動機,為后續(xù)研究提供了引導方向。Lipetz[12]定義了29種不同的引用原因,但沒有很好地應用到具體的實證分析中。20世紀70年代,一些研究人員根據(jù)其思路進行研究,但研究繁雜導致使用尤為困難。Oppenheim&Renn[2]整理出一個包括“歷史背景”“相關工作的描述”“提供信息或數(shù)據(jù)”“比較”等7種類別的分類方法,使得分類體系逐漸清晰明了。此外,對引文分類體系的研究還存在一定程度的融合現(xiàn)象。Bilal Hayat Butt等[13]將Spiegel-Rosing等[14]提出的13種引文動機類型分為3類概括性的情感類型。Simone Teufel[4]結合文章結構及引用情感提出一個12類引文功能的分類體系,但其工作僅傾向于施引文獻與引文之間的對比。引文分類體系的研究為引文內容標注框架的開發(fā)提供了理論依據(jù)。Ying D等[15]從語法和語義兩方面分別對引文屬性、被引屬性以及兩者之間的屬性進行分析,構建了相對全面均衡的引文內容分析框架。該框架的提出雖有較大提升,但實際應用效果并不理想。陸偉等[6]的研究分為15個功能類目的引文分類體系,11個類型的引用對象標注體系以及8個方面的引文屬性標注體系,但因注重全面性卻使其體系過于龐雜,缺乏易用性。
1.2現(xiàn)有引文內容分析的數(shù)據(jù)集概述
專注于引文內容標注框架研究的相關文獻,目前所使用的數(shù)據(jù)集僅有3個,見表1。這表明目前用于引文內容研究的標注數(shù)據(jù)集的規(guī)模較小,一般以約20篇學術文獻進行標注分析,且數(shù)據(jù)多數(shù)暫未公開。因此,構建一個較大規(guī)模且公開的標注數(shù)據(jù)集具有重要意義。
表1 現(xiàn)有引文內容分析的標注數(shù)據(jù)集
傳統(tǒng)引文分析局限性的凸現(xiàn),加之文本挖掘和自然語言處理等技術興起,激發(fā)了學者對引文內容研究的熱情。為獲得科學的研究數(shù)據(jù),學者紛紛提出不同的引文內容標注體系,但尚未有較為完善的標注理論和方法。因此,本文通過對前人的研究進行梳理和總結,形成一套較為完整與易用的引文內容標注框架,并構建用于引文內容分析的標注數(shù)據(jù)集,進而幫助引文更好地應用到學術評價、提高檢索性能、推薦系統(tǒng)以及學術預測等不同領域。
2.1研究思路
本研究首先獲取了一定規(guī)模的學術論文數(shù)據(jù)集;然后設計引文內容標注框架,并開發(fā)“引文內容標注系統(tǒng)”;接著隨機選取102篇文獻,分別從引用對象、引文功能、引文情感傾向、引文位置等方面進行標注,并對引文重要性、標注自信度進行評判,得到引文內容標注數(shù)據(jù)集,并進行了相應的統(tǒng)計分析。研究思路如圖1所示。
圖1 研究思路
2.2數(shù)據(jù)
2.2.1數(shù)據(jù)來源
Plos One(http://journals.plos.org/plosone/)是目前學術界非常有影響力的開放存取期刊,載文學科廣泛,涉及從自然科學到社會科學等10多種學科。該期刊對所發(fā)表論文提供結構化全文下載,非常適合本研究。因此,本文抓取來自Plos One期刊2006-2015年發(fā)表的3414篇文獻,涉及Cell Biology、Chemistry、Computer Science、Mathematics、MentalHealth、Physics等6個學科。
2.2.2數(shù)據(jù)預處理
獲得論文全文數(shù)據(jù)后,對所需信息進行抽取并存儲至數(shù)據(jù)庫,主要包括兩部分:(1)題錄信息。Plos One中文獻的題名、作者、通訊郵箱、發(fā)表時間、審查周期、論文類型及學科屬性等內容。(2)引文內容信息。引文內容及其前后各兩句話;引文內容所在的篇章結構及標題;引文內容中包含的引文的數(shù)目等信息。
2.3方法
2.3.1引文內容標注框架設計
正式標注實驗前,預先制定并統(tǒng)一標注標準。通過對“引文內容標注框架”相關文獻的調研和對已有引文分類體系的整理和分析,本標注框架分為6個部分,見表2。
表2 引文內容標注框架說明
2.3.2引文內容標注平臺實現(xiàn)
數(shù)據(jù)標注平臺開發(fā)利用Python語言在Django 1.8框架下完成。在對系統(tǒng)需要的功能予以理解的基礎上,設計系統(tǒng)的流程。引文內容標注系統(tǒng)包括兩個部分:用戶部分及管理員部分。用戶部分包括用戶注冊、用戶登錄、用戶標注;管理員部分包括管理員登錄、管理員查看所有已標注的結果。每一個用戶登錄后按照分頁內容選擇文章,進入標注界面,對文獻的每條引文內容進行標注,并提交。其中,標注界面包含文章基本信息,引文內容標注區(qū)域,自信度評價區(qū)域。
2.3.3數(shù)據(jù)標注步驟
數(shù)據(jù)標注的步驟可分為三步:(1)根據(jù)數(shù)據(jù)標注策略依次對引文內容標注;(2)根據(jù)標注的引文內容相關信息和被引文獻在施引文獻中的角色評估其重要性;(3)根據(jù)標注者的標注情況對其當前引文內容條目的標注結果進行自信度的打分。
本實驗分為兩階段:第一階段在標注實驗的1/3處據(jù)實際情況改進標注標準,以提高后續(xù)標注實驗的質量。第二階段則根據(jù)改進后的標準進行余下2/3的標注實驗,對于全部標注數(shù)據(jù)中自信度為“3”及以下的標注結果進行二次標注,獲得標注數(shù)據(jù)集。
2.3.4標準化引文內分析數(shù)據(jù)集的分析
為保證標注結果的一致性,此次標注結束后兩位標注者先各自對其標注的數(shù)據(jù)集進行統(tǒng)計分析,隨后將分析結果進行比較,差異性較小。為進一步提高數(shù)據(jù)可信度,在進行數(shù)據(jù)獲取與處理時,抽取標注自信度為“4”和“5”的全部數(shù)據(jù)進行分析。
在對標注數(shù)據(jù)集進行引文內容特征分析時,分別采用統(tǒng)計分析法和文獻分析法。通過數(shù)據(jù)透視圖進行數(shù)量和百分比的統(tǒng)計,并通過繪制餅圖、柱狀圖等分析標注結果。隨后對標注實驗呈現(xiàn)出的結果進行解釋分析,在此過程中主要采用文獻分析法,利用其他相關研究中的權威結論驗證本次標注實驗結果的準確與普適性。
3.1標注結果概述
本文隨機抽取的學科、各學科文獻數(shù)目及引文數(shù)目的分布情況如表3所示。引文數(shù)據(jù)來源廣泛彌補了僅局限于類似“模型研究”等單一主題文獻分析而導致由于學科屬性使得分析結果過度偏離事實的缺陷,因此更具普適性。
表3 引文內容分析標準數(shù)據(jù)集的數(shù)據(jù)分布情況
隨后分析5997條引文數(shù)據(jù)的標注自信度,其中自信程度在4及以上的標注結果累計達88.71%。此次標注實驗基于本文設計的引文內容標注系統(tǒng),從而建立引文內容分析的標準化訓練集。由此看出,此標注系統(tǒng)的可用性較強。為進一步提高數(shù)據(jù)的可信度,對其進行數(shù)據(jù)篩選,過濾掉自信度較低的11.29%的標注數(shù)據(jù),挑選標注自信度為4和5的全部數(shù)據(jù)進行后期分析,共5320條。其中自信度為4的4495條,占84.49%;自信度為5的結果共825條,占15.51%。
3.2引文內容標注指標結果分析
3.2.1引用對象統(tǒng)計分析
標準化數(shù)據(jù)集的引用對象方面如圖2所示。引用對象為“結論”“結果”的現(xiàn)象普遍存在,分別占31.28%和30.68%??萍嘉墨I是推動研究成果發(fā)展的手段,因此學者通常引用他人的方法、結果、結論來揭示其是否可以達到共同的認知。引用對象頻率較高的其次對象是“方法”,出現(xiàn)次數(shù)多達1034條,占19.44%。而“工具”“理論”“其它”最少,這是由于選取學科為自然科學,而成熟的理論與成形的軟件等工具較多出現(xiàn)在社會科學文獻中,這里出現(xiàn)的少部分是由于存在學科交叉現(xiàn)象所導致。
圖2 標準化數(shù)據(jù)集的引用對象統(tǒng)計
圖3 標準化數(shù)據(jù)集的引文功能統(tǒng)計
3.2.2引文功能統(tǒng)計分析
標準化數(shù)據(jù)集的引文功能的標注結果如圖3所示?!敖Y果”“術語來源”是出現(xiàn)頻次最高的引文功能,二者占所有引文標注數(shù)據(jù)的56.62%。劉宇等[17]提出多數(shù)引文是向讀者提供研究來源信息,或羅列現(xiàn)有的相關研究成果?!氨容^”“結果比較”也是常見的引用動機,一般用來與他人對比結果及方法。由于引用行為中真正起到實質性作用的引文甚少,因此“研究基礎”“研究空白”“評論”所占比例最低,三者僅占3.34%。
3.2.3引用情感統(tǒng)計分析
標注結果顯示,5141條引文數(shù)據(jù)表達中立的引用情感占96.64%,而明顯帶有情感色彩的引文數(shù)據(jù)僅占3.36%,其中113條引文數(shù)據(jù)表達了積極的情感傾向,占2.12%;66條引文數(shù)據(jù)表達消極的情感傾向占1.24%。本文上述研究結果與陸偉等[6]之前的研究結果(中立情感的引文占比96.14%)極為相似。引用的情感是隱藏的,以避免學術上公開的批評,因此引用情感常是中立的,而帶有明顯情感色彩的引用中,學者們更傾向于積極引用。
3.2.4引文位置統(tǒng)計分析
Hu[18]表示近半數(shù)的引文都高度集中于文章的引言部分,而本文標注實驗與其結論相似,但研究結果略低。位于“引言”位置的引文共2318條,占43.57%。學者們通常在文章開始引用他人文獻來引出自己的研究方法與思路,且多數(shù)相關綜述被合并到引言中,因此“引言”部分是引文出現(xiàn)的高頻區(qū)。其次是位于“討論”的引文出現(xiàn)頻次較高,共1161條,占21.82%。Plos One結構化全文數(shù)據(jù)使本文“結論”處的引文僅占0.45%,“文獻綜述”處的僅占0.23%。
3.2.5引文重要性統(tǒng)計分析
最后本文給出引文重要性的統(tǒng)計分析結果,引文的重要程度為2和3的最多,分別為2219條以及1901條,二者占全部數(shù)據(jù)的77.44%。對作為背景或相關性研究等引文的簡單提及較為普遍而且重要性相對較小,而真正非常重要且具有影響力的引文應該是能夠激發(fā)新的想法、方法的引用行為,例如作為本文的研究基礎,僅占全部數(shù)據(jù)的0.28%,可以看出,引用他人文獻不一定代表其對自己文章的重要性高。
缺乏科學的引文數(shù)據(jù)是引文內容分析發(fā)展的瓶頸,而引文內容標注框架的研究提供了良好的解決方法。因此,本文對前人的研究進行梳理,開發(fā)了一個較為完整與易用的引文內容標注系統(tǒng),通過對英文文獻進行標注實驗證實了該框架的可用性,并對引用對象、引文功能、引用情感、引文位置及引文重要性等方面的標注數(shù)據(jù)進行分析與討論,構建了較為標準的數(shù)據(jù)集,具有重要的理論與應用價值。通過簡單的數(shù)據(jù)統(tǒng)計,本文發(fā)現(xiàn)學者引用他人文獻的行為與動機較為復雜,引用對象方面,結果和結論是最常見的;引文功能方面,一般僅作為相關研究簡單提及或給出來源;引用情感方面,學者通常會避免學術上的批評而選擇中立態(tài)度;引文位置方面,近半數(shù)的引文出現(xiàn)在引言部分;引文重要性方面,多數(shù)引文沒有實質性的作用,重要性偏低。今后還可優(yōu)化引文分類標準,為引文內容標注體系的后續(xù)研究提供理論依據(jù);也可開發(fā)新功能,收集更全面、準確的訓練數(shù)據(jù),為實現(xiàn)引文內容的自動標引與分析提供數(shù)據(jù)支持。在標注數(shù)據(jù)分析方面,今后可深入挖掘引用行為的特征及規(guī)律,進一步提升分析結果的應用水平,并為學術評價與推介、學科知識演化等應用研究提供有力支持。
[1]葉鷹.高品質論文被引數(shù)據(jù)及其對學術評價的啟示[J].中國圖書館學報,2010,36(1):100-103.
[2]Oppenheim C,Renn S P.Highly cited old papers and thereasonswhytheycontinuetobecited[J].Journal ofthe American Society for Information Science,1978,29 (5):225-231.
[3]ZhangG,DingY,MilojeviS.Citationcontentanalysis(cca):Aframeworkforsyntacticandsemanticanalysis of citation content[J].Journal of the American Society for Information Science and Technology,2013,64 (7):1490-1503.
[4] Teufel S,Siddharthan A,Tidhar D.An annotation scheme for citation function[C]//Proceedings of the 7th SIGdial Workshop on Discourse and Dialogue.Sydney,Australia,2009:80-87.
[5]AtharA,TeufelS.Context-enhancedcitationsentiment detection[C]//Proceedingsofthe 2012 Conference ofthe North American Chapter of the Association for Computational Linguistics:Human Language Technologies. Montreal,Canada,2012:597-601.
[6]陸偉,孟睿,劉興幫.面向引用關系的引文內容標注框架研究[J].中國圖書館學報,2014,40(6):93-104.
[7]Small H.Co-citation in the scientific literature:A new measure of the relationship between two documents[J]. Journal of the American Society for Information Science,1973,24(4):265-269.
[8]Hirsch J E.An index to quantify an individual's scientific research output[J].Proceedings of the National Academy of Sciences of the United States of America,2005,102 (46):16569-16572.
[9]Small H.Citation context analysis[A]//Progress in communication sciences[M].Norwood,NJ:Ablex Publishing,1982:287-310.
[10]祝清松,冷伏海.引文內容分析方法研究綜述[J].情報資料工作,2013,38(5):97-107.
[11]Garfield E.Can Citation Indexing Be Automated[C]// Proceedings of the Symposyum on Statistical AssocicationMethods for Mechanized Documentation,Symposium.Washington,1963:189-192.
[12]Lipetz B A.Improvement of the selectivity of citation indexes to science literature through inclusion of citation relationship indicators[J].American Documentation,1965,16(2):81-90.
[13]ButtB H,RafiM,Jamal A,etal.ClassificationofResearch Citations(CRC) [C]//Proceedings of the First Workshop on Mining Scientific Papers:Computational Linguistics and Bibliometrics.Istanbul,Turkey,2015:18-27.
[14]Spiegel-R?sing I.Science studies:bibliometric and content analysis[J].Social Studies of Science,1977,7 (1):97-113.
[15]Ding Y,Liu X,Guo C,et al.The distribution of references across texts:Some implications for citation analysis[J].Journal of Informetrics, 2013, 7(3):583-592.
[16]David Mimmo.Topic Modeling Bibliograpyh[EB/OL]. [2014-07-16].http://mimmo.infosci.cornell.edu/topics. html.
[17]劉宇,李武.引文評價合法性研究——基于引文功能和引用動機研究的綜合考察[J].南京大學學報(哲學·人文科學·社會科學),2013,50(6):137-148.
[18]Hu Z,Chen C,Liu Z.Where are citations located in the body of scientific articles?A study of the distributions ofcitationlocations[J].Journal of Informetrics,2013,7 (4):887-896.
(責任編輯:何燕)
Construction of Standardized Data Set for Citation ContentAnalysis
ZHANG Meng-ying,LU Chao,ZHENG Ru-jia,ZHANG Cheng-zhi
As the structured data of academic literature becomes more and more accessible,it is likely toanalyze large-scale citation contentautomatically.In this paper,the framework of citation content annotation is constructed and a citation content annotation system is developed.Annotation is carried outon the objects,the functions,the sentiment,the location andthe importance of citations,and the degree of confidence.A standardized data set for citation analysis is then constructed and the statistical analysis is done,which provide data support for the basic research and applied research on citation content.
citation content analysis;citation tagging system;standardized data set;citationfunction;citationsentiment
*本文系國家社會科學基金項目“在線社交網絡中基于用戶的知識組織模式研究”(項目編號:14BTQ033)、國家社會科學基金重點項目“大數(shù)據(jù)環(huán)境下社會輿情與決策支持方法體系研究”(項目編號:14AZD084)研究成果之一
張夢瑩,女,南京理工大學信息管理與信息系統(tǒng)專業(yè)本科生;盧超,男,南京理工大學管理科學與工程專業(yè)博士生;鄭茹佳,女,南京理工大學信息管理與信息系統(tǒng)專業(yè)本科生;章成志,男,博士,博士生導師,南京理工大學信息管理系教授,通訊作者,E-mail:zhangcz@njust.edu.cn。
2016-06-12