張夢瑩,盧 超,鄭茹佳,章成志
用于引文內(nèi)容分析的標(biāo)準(zhǔn)化數(shù)據(jù)集構(gòu)建*
張夢瑩,盧超,鄭茹佳,章成志
學(xué)術(shù)論文的全文數(shù)據(jù)越來越容易獲取使大規(guī)模的引文內(nèi)容分析成為可能。文章通過設(shè)計引文內(nèi)容標(biāo)注框架,開發(fā)引文內(nèi)容標(biāo)注系統(tǒng),分別從引用對象、引文功能、引用情感、引文位置、引文重要性、標(biāo)注自信度等方面進(jìn)行標(biāo)注。構(gòu)建用于引文內(nèi)容分析的標(biāo)準(zhǔn)化數(shù)據(jù)集并進(jìn)行統(tǒng)計分析,可為引文內(nèi)容的特征分析等基礎(chǔ)性研究及學(xué)術(shù)預(yù)測等應(yīng)用性研究提供數(shù)據(jù)支撐。
引文內(nèi)容分析引文標(biāo)注系統(tǒng)標(biāo)準(zhǔn)化數(shù)據(jù)集引用功能引用情感傾向
引用本文格式張夢瑩,盧超,鄭茹佳,等.用于引文內(nèi)容分析的標(biāo)準(zhǔn)化數(shù)據(jù)集構(gòu)建[J].圖書館論壇,2016(8):48-53.
自Garfield提出SCI以來,引文分析一直是圖書情報學(xué)領(lǐng)域的研究重點和熱點。最初由于技術(shù)不成熟且全文數(shù)據(jù)匱乏,學(xué)者們關(guān)注更易獲取的題錄和參考文獻(xiàn)信息,但因忽略引文內(nèi)容、位置、情感極性等被引情況,引文分析的結(jié)果缺乏內(nèi)容層面的數(shù)據(jù)支持[1]。有關(guān)引文內(nèi)容的少數(shù)研究一般是人工分析少量學(xué)術(shù)論文,結(jié)論缺乏普適性[2]。隨著自然語言處理技術(shù)不斷發(fā)展,學(xué)術(shù)文獻(xiàn)全文數(shù)據(jù)獲取難度下降,引文內(nèi)容分析取得一定的成果。然而關(guān)于引文內(nèi)容邊界識別、引文功能及情感極性判定等基礎(chǔ)性問題尚未出現(xiàn)公認(rèn)的結(jié)論[3],并且缺乏支持這些研究的公開的標(biāo)注數(shù)據(jù)集。因此,構(gòu)建可用于引文內(nèi)容分析的較大規(guī)模的標(biāo)注數(shù)據(jù)集具有重要意義。
近年國內(nèi)外部分學(xué)者關(guān)注到上述問題并做了相關(guān)研究。Simone Teufel等形成了自動識別引文功能的框架[4];Athar等利用機(jī)器學(xué)習(xí)方法對引文內(nèi)容情感極性進(jìn)行識別,精確度有待提高[5];陸偉等對引文內(nèi)容標(biāo)注作了全面梳理,并開發(fā)出相應(yīng)的標(biāo)注平臺,但龐雜的標(biāo)注框架對標(biāo)注者要求較高,且提供的標(biāo)注數(shù)據(jù)規(guī)模較?。?]。為此,本文兼顧全面與易用,提出新的引文內(nèi)容標(biāo)注框架,并構(gòu)建標(biāo)注數(shù)據(jù)集進(jìn)行統(tǒng)計分析。一方面,不斷擴(kuò)大標(biāo)注數(shù)據(jù)的規(guī)模,為缺乏統(tǒng)一規(guī)范的全文數(shù)據(jù)和引文內(nèi)容的自動化標(biāo)引提供樣本;另一方面,對其進(jìn)行統(tǒng)計分析以了解和掌握數(shù)據(jù)集的基本特征,為后續(xù)大范圍的引文內(nèi)容分析、情感極性測度、動機(jī)識別等深入研究提供較為清晰和直觀的數(shù)據(jù)。
從引文分析理論的研究[7]到評估學(xué)術(shù)產(chǎn)出的衡量指標(biāo)[8],再到意識到缺乏引文內(nèi)容信息的不足,以人工方式進(jìn)行小樣本的引文內(nèi)容分析的相關(guān)研究逐漸出現(xiàn)。引文內(nèi)容概念[9]提出后,大批學(xué)者投入引文內(nèi)容特征與應(yīng)用的研究之中。隨后計算機(jī)技術(shù)的發(fā)展保證了大規(guī)模獲取全文本信息及進(jìn)行文本挖掘,引文網(wǎng)絡(luò)研究、引文主題相似性研究、情感傾向分析等逐漸成為引文內(nèi)容分析的新思路[10]。隱含引用、自引、轉(zhuǎn)引等現(xiàn)象普遍存在,引文范圍難以界定,而且引用動機(jī)的復(fù)雜使得判別的準(zhǔn)確性難以保證,這都導(dǎo)致引文數(shù)據(jù)的充分性和準(zhǔn)確性無法保證。如前所述,目前缺乏相對統(tǒng)一的引文內(nèi)容標(biāo)注框架和較大規(guī)模的引文內(nèi)容標(biāo)注數(shù)據(jù)集,而這些基礎(chǔ)研究能在一定程度上解決或緩解上述難題。
1.1引文內(nèi)容標(biāo)注框架研究概述
自20世紀(jì)60年代起,關(guān)于引文內(nèi)容分類體系即引文內(nèi)容標(biāo)注框架的研究逐漸出現(xiàn)。Garfield[11]通過研究引文位置、上下文、重要性等因素,提出了15種引用動機(jī),為后續(xù)研究提供了引導(dǎo)方向。Lipetz[12]定義了29種不同的引用原因,但沒有很好地應(yīng)用到具體的實證分析中。20世紀(jì)70年代,一些研究人員根據(jù)其思路進(jìn)行研究,但研究繁雜導(dǎo)致使用尤為困難。Oppenheim&Renn[2]整理出一個包括“歷史背景”“相關(guān)工作的描述”“提供信息或數(shù)據(jù)”“比較”等7種類別的分類方法,使得分類體系逐漸清晰明了。此外,對引文分類體系的研究還存在一定程度的融合現(xiàn)象。Bilal Hayat Butt等[13]將Spiegel-Rosing等[14]提出的13種引文動機(jī)類型分為3類概括性的情感類型。Simone Teufel[4]結(jié)合文章結(jié)構(gòu)及引用情感提出一個12類引文功能的分類體系,但其工作僅傾向于施引文獻(xiàn)與引文之間的對比。引文分類體系的研究為引文內(nèi)容標(biāo)注框架的開發(fā)提供了理論依據(jù)。Ying D等[15]從語法和語義兩方面分別對引文屬性、被引屬性以及兩者之間的屬性進(jìn)行分析,構(gòu)建了相對全面均衡的引文內(nèi)容分析框架。該框架的提出雖有較大提升,但實際應(yīng)用效果并不理想。陸偉等[6]的研究分為15個功能類目的引文分類體系,11個類型的引用對象標(biāo)注體系以及8個方面的引文屬性標(biāo)注體系,但因注重全面性卻使其體系過于龐雜,缺乏易用性。
1.2現(xiàn)有引文內(nèi)容分析的數(shù)據(jù)集概述
專注于引文內(nèi)容標(biāo)注框架研究的相關(guān)文獻(xiàn),目前所使用的數(shù)據(jù)集僅有3個,見表1。這表明目前用于引文內(nèi)容研究的標(biāo)注數(shù)據(jù)集的規(guī)模較小,一般以約20篇學(xué)術(shù)文獻(xiàn)進(jìn)行標(biāo)注分析,且數(shù)據(jù)多數(shù)暫未公開。因此,構(gòu)建一個較大規(guī)模且公開的標(biāo)注數(shù)據(jù)集具有重要意義。
表1 現(xiàn)有引文內(nèi)容分析的標(biāo)注數(shù)據(jù)集
傳統(tǒng)引文分析局限性的凸現(xiàn),加之文本挖掘和自然語言處理等技術(shù)興起,激發(fā)了學(xué)者對引文內(nèi)容研究的熱情。為獲得科學(xué)的研究數(shù)據(jù),學(xué)者紛紛提出不同的引文內(nèi)容標(biāo)注體系,但尚未有較為完善的標(biāo)注理論和方法。因此,本文通過對前人的研究進(jìn)行梳理和總結(jié),形成一套較為完整與易用的引文內(nèi)容標(biāo)注框架,并構(gòu)建用于引文內(nèi)容分析的標(biāo)注數(shù)據(jù)集,進(jìn)而幫助引文更好地應(yīng)用到學(xué)術(shù)評價、提高檢索性能、推薦系統(tǒng)以及學(xué)術(shù)預(yù)測等不同領(lǐng)域。
2.1研究思路
本研究首先獲取了一定規(guī)模的學(xué)術(shù)論文數(shù)據(jù)集;然后設(shè)計引文內(nèi)容標(biāo)注框架,并開發(fā)“引文內(nèi)容標(biāo)注系統(tǒng)”;接著隨機(jī)選取102篇文獻(xiàn),分別從引用對象、引文功能、引文情感傾向、引文位置等方面進(jìn)行標(biāo)注,并對引文重要性、標(biāo)注自信度進(jìn)行評判,得到引文內(nèi)容標(biāo)注數(shù)據(jù)集,并進(jìn)行了相應(yīng)的統(tǒng)計分析。研究思路如圖1所示。
圖1 研究思路
2.2數(shù)據(jù)
2.2.1數(shù)據(jù)來源
Plos One(http://journals.plos.org/plosone/)是目前學(xué)術(shù)界非常有影響力的開放存取期刊,載文學(xué)科廣泛,涉及從自然科學(xué)到社會科學(xué)等10多種學(xué)科。該期刊對所發(fā)表論文提供結(jié)構(gòu)化全文下載,非常適合本研究。因此,本文抓取來自Plos One期刊2006-2015年發(fā)表的3414篇文獻(xiàn),涉及Cell Biology、Chemistry、Computer Science、Mathematics、MentalHealth、Physics等6個學(xué)科。
2.2.2數(shù)據(jù)預(yù)處理
獲得論文全文數(shù)據(jù)后,對所需信息進(jìn)行抽取并存儲至數(shù)據(jù)庫,主要包括兩部分:(1)題錄信息。Plos One中文獻(xiàn)的題名、作者、通訊郵箱、發(fā)表時間、審查周期、論文類型及學(xué)科屬性等內(nèi)容。(2)引文內(nèi)容信息。引文內(nèi)容及其前后各兩句話;引文內(nèi)容所在的篇章結(jié)構(gòu)及標(biāo)題;引文內(nèi)容中包含的引文的數(shù)目等信息。
2.3方法
2.3.1引文內(nèi)容標(biāo)注框架設(shè)計
正式標(biāo)注實驗前,預(yù)先制定并統(tǒng)一標(biāo)注標(biāo)準(zhǔn)。通過對“引文內(nèi)容標(biāo)注框架”相關(guān)文獻(xiàn)的調(diào)研和對已有引文分類體系的整理和分析,本標(biāo)注框架分為6個部分,見表2。
表2 引文內(nèi)容標(biāo)注框架說明
2.3.2引文內(nèi)容標(biāo)注平臺實現(xiàn)
數(shù)據(jù)標(biāo)注平臺開發(fā)利用Python語言在Django 1.8框架下完成。在對系統(tǒng)需要的功能予以理解的基礎(chǔ)上,設(shè)計系統(tǒng)的流程。引文內(nèi)容標(biāo)注系統(tǒng)包括兩個部分:用戶部分及管理員部分。用戶部分包括用戶注冊、用戶登錄、用戶標(biāo)注;管理員部分包括管理員登錄、管理員查看所有已標(biāo)注的結(jié)果。每一個用戶登錄后按照分頁內(nèi)容選擇文章,進(jìn)入標(biāo)注界面,對文獻(xiàn)的每條引文內(nèi)容進(jìn)行標(biāo)注,并提交。其中,標(biāo)注界面包含文章基本信息,引文內(nèi)容標(biāo)注區(qū)域,自信度評價區(qū)域。
2.3.3數(shù)據(jù)標(biāo)注步驟
數(shù)據(jù)標(biāo)注的步驟可分為三步:(1)根據(jù)數(shù)據(jù)標(biāo)注策略依次對引文內(nèi)容標(biāo)注;(2)根據(jù)標(biāo)注的引文內(nèi)容相關(guān)信息和被引文獻(xiàn)在施引文獻(xiàn)中的角色評估其重要性;(3)根據(jù)標(biāo)注者的標(biāo)注情況對其當(dāng)前引文內(nèi)容條目的標(biāo)注結(jié)果進(jìn)行自信度的打分。
本實驗分為兩階段:第一階段在標(biāo)注實驗的1/3處據(jù)實際情況改進(jìn)標(biāo)注標(biāo)準(zhǔn),以提高后續(xù)標(biāo)注實驗的質(zhì)量。第二階段則根據(jù)改進(jìn)后的標(biāo)準(zhǔn)進(jìn)行余下2/3的標(biāo)注實驗,對于全部標(biāo)注數(shù)據(jù)中自信度為“3”及以下的標(biāo)注結(jié)果進(jìn)行二次標(biāo)注,獲得標(biāo)注數(shù)據(jù)集。
2.3.4標(biāo)準(zhǔn)化引文內(nèi)分析數(shù)據(jù)集的分析
為保證標(biāo)注結(jié)果的一致性,此次標(biāo)注結(jié)束后兩位標(biāo)注者先各自對其標(biāo)注的數(shù)據(jù)集進(jìn)行統(tǒng)計分析,隨后將分析結(jié)果進(jìn)行比較,差異性較小。為進(jìn)一步提高數(shù)據(jù)可信度,在進(jìn)行數(shù)據(jù)獲取與處理時,抽取標(biāo)注自信度為“4”和“5”的全部數(shù)據(jù)進(jìn)行分析。
在對標(biāo)注數(shù)據(jù)集進(jìn)行引文內(nèi)容特征分析時,分別采用統(tǒng)計分析法和文獻(xiàn)分析法。通過數(shù)據(jù)透視圖進(jìn)行數(shù)量和百分比的統(tǒng)計,并通過繪制餅圖、柱狀圖等分析標(biāo)注結(jié)果。隨后對標(biāo)注實驗呈現(xiàn)出的結(jié)果進(jìn)行解釋分析,在此過程中主要采用文獻(xiàn)分析法,利用其他相關(guān)研究中的權(quán)威結(jié)論驗證本次標(biāo)注實驗結(jié)果的準(zhǔn)確與普適性。
3.1標(biāo)注結(jié)果概述
本文隨機(jī)抽取的學(xué)科、各學(xué)科文獻(xiàn)數(shù)目及引文數(shù)目的分布情況如表3所示。引文數(shù)據(jù)來源廣泛彌補(bǔ)了僅局限于類似“模型研究”等單一主題文獻(xiàn)分析而導(dǎo)致由于學(xué)科屬性使得分析結(jié)果過度偏離事實的缺陷,因此更具普適性。
表3 引文內(nèi)容分析標(biāo)準(zhǔn)數(shù)據(jù)集的數(shù)據(jù)分布情況
隨后分析5997條引文數(shù)據(jù)的標(biāo)注自信度,其中自信程度在4及以上的標(biāo)注結(jié)果累計達(dá)88.71%。此次標(biāo)注實驗基于本文設(shè)計的引文內(nèi)容標(biāo)注系統(tǒng),從而建立引文內(nèi)容分析的標(biāo)準(zhǔn)化訓(xùn)練集。由此看出,此標(biāo)注系統(tǒng)的可用性較強(qiáng)。為進(jìn)一步提高數(shù)據(jù)的可信度,對其進(jìn)行數(shù)據(jù)篩選,過濾掉自信度較低的11.29%的標(biāo)注數(shù)據(jù),挑選標(biāo)注自信度為4和5的全部數(shù)據(jù)進(jìn)行后期分析,共5320條。其中自信度為4的4495條,占84.49%;自信度為5的結(jié)果共825條,占15.51%。
3.2引文內(nèi)容標(biāo)注指標(biāo)結(jié)果分析
3.2.1引用對象統(tǒng)計分析
標(biāo)準(zhǔn)化數(shù)據(jù)集的引用對象方面如圖2所示。引用對象為“結(jié)論”“結(jié)果”的現(xiàn)象普遍存在,分別占31.28%和30.68%??萍嘉墨I(xiàn)是推動研究成果發(fā)展的手段,因此學(xué)者通常引用他人的方法、結(jié)果、結(jié)論來揭示其是否可以達(dá)到共同的認(rèn)知。引用對象頻率較高的其次對象是“方法”,出現(xiàn)次數(shù)多達(dá)1034條,占19.44%。而“工具”“理論”“其它”最少,這是由于選取學(xué)科為自然科學(xué),而成熟的理論與成形的軟件等工具較多出現(xiàn)在社會科學(xué)文獻(xiàn)中,這里出現(xiàn)的少部分是由于存在學(xué)科交叉現(xiàn)象所導(dǎo)致。
圖2 標(biāo)準(zhǔn)化數(shù)據(jù)集的引用對象統(tǒng)計
圖3 標(biāo)準(zhǔn)化數(shù)據(jù)集的引文功能統(tǒng)計
3.2.2引文功能統(tǒng)計分析
標(biāo)準(zhǔn)化數(shù)據(jù)集的引文功能的標(biāo)注結(jié)果如圖3所示?!敖Y(jié)果”“術(shù)語來源”是出現(xiàn)頻次最高的引文功能,二者占所有引文標(biāo)注數(shù)據(jù)的56.62%。劉宇等[17]提出多數(shù)引文是向讀者提供研究來源信息,或羅列現(xiàn)有的相關(guān)研究成果?!氨容^”“結(jié)果比較”也是常見的引用動機(jī),一般用來與他人對比結(jié)果及方法。由于引用行為中真正起到實質(zhì)性作用的引文甚少,因此“研究基礎(chǔ)”“研究空白”“評論”所占比例最低,三者僅占3.34%。
3.2.3引用情感統(tǒng)計分析
標(biāo)注結(jié)果顯示,5141條引文數(shù)據(jù)表達(dá)中立的引用情感占96.64%,而明顯帶有情感色彩的引文數(shù)據(jù)僅占3.36%,其中113條引文數(shù)據(jù)表達(dá)了積極的情感傾向,占2.12%;66條引文數(shù)據(jù)表達(dá)消極的情感傾向占1.24%。本文上述研究結(jié)果與陸偉等[6]之前的研究結(jié)果(中立情感的引文占比96.14%)極為相似。引用的情感是隱藏的,以避免學(xué)術(shù)上公開的批評,因此引用情感常是中立的,而帶有明顯情感色彩的引用中,學(xué)者們更傾向于積極引用。
3.2.4引文位置統(tǒng)計分析
Hu[18]表示近半數(shù)的引文都高度集中于文章的引言部分,而本文標(biāo)注實驗與其結(jié)論相似,但研究結(jié)果略低。位于“引言”位置的引文共2318條,占43.57%。學(xué)者們通常在文章開始引用他人文獻(xiàn)來引出自己的研究方法與思路,且多數(shù)相關(guān)綜述被合并到引言中,因此“引言”部分是引文出現(xiàn)的高頻區(qū)。其次是位于“討論”的引文出現(xiàn)頻次較高,共1161條,占21.82%。Plos One結(jié)構(gòu)化全文數(shù)據(jù)使本文“結(jié)論”處的引文僅占0.45%,“文獻(xiàn)綜述”處的僅占0.23%。
3.2.5引文重要性統(tǒng)計分析
最后本文給出引文重要性的統(tǒng)計分析結(jié)果,引文的重要程度為2和3的最多,分別為2219條以及1901條,二者占全部數(shù)據(jù)的77.44%。對作為背景或相關(guān)性研究等引文的簡單提及較為普遍而且重要性相對較小,而真正非常重要且具有影響力的引文應(yīng)該是能夠激發(fā)新的想法、方法的引用行為,例如作為本文的研究基礎(chǔ),僅占全部數(shù)據(jù)的0.28%,可以看出,引用他人文獻(xiàn)不一定代表其對自己文章的重要性高。
缺乏科學(xué)的引文數(shù)據(jù)是引文內(nèi)容分析發(fā)展的瓶頸,而引文內(nèi)容標(biāo)注框架的研究提供了良好的解決方法。因此,本文對前人的研究進(jìn)行梳理,開發(fā)了一個較為完整與易用的引文內(nèi)容標(biāo)注系統(tǒng),通過對英文文獻(xiàn)進(jìn)行標(biāo)注實驗證實了該框架的可用性,并對引用對象、引文功能、引用情感、引文位置及引文重要性等方面的標(biāo)注數(shù)據(jù)進(jìn)行分析與討論,構(gòu)建了較為標(biāo)準(zhǔn)的數(shù)據(jù)集,具有重要的理論與應(yīng)用價值。通過簡單的數(shù)據(jù)統(tǒng)計,本文發(fā)現(xiàn)學(xué)者引用他人文獻(xiàn)的行為與動機(jī)較為復(fù)雜,引用對象方面,結(jié)果和結(jié)論是最常見的;引文功能方面,一般僅作為相關(guān)研究簡單提及或給出來源;引用情感方面,學(xué)者通常會避免學(xué)術(shù)上的批評而選擇中立態(tài)度;引文位置方面,近半數(shù)的引文出現(xiàn)在引言部分;引文重要性方面,多數(shù)引文沒有實質(zhì)性的作用,重要性偏低。今后還可優(yōu)化引文分類標(biāo)準(zhǔn),為引文內(nèi)容標(biāo)注體系的后續(xù)研究提供理論依據(jù);也可開發(fā)新功能,收集更全面、準(zhǔn)確的訓(xùn)練數(shù)據(jù),為實現(xiàn)引文內(nèi)容的自動標(biāo)引與分析提供數(shù)據(jù)支持。在標(biāo)注數(shù)據(jù)分析方面,今后可深入挖掘引用行為的特征及規(guī)律,進(jìn)一步提升分析結(jié)果的應(yīng)用水平,并為學(xué)術(shù)評價與推介、學(xué)科知識演化等應(yīng)用研究提供有力支持。
[1]葉鷹.高品質(zhì)論文被引數(shù)據(jù)及其對學(xué)術(shù)評價的啟示[J].中國圖書館學(xué)報,2010,36(1):100-103.
[2]Oppenheim C,Renn S P.Highly cited old papers and thereasonswhytheycontinuetobecited[J].Journal ofthe American Society for Information Science,1978,29 (5):225-231.
[3]ZhangG,DingY,MilojeviS.Citationcontentanalysis(cca):Aframeworkforsyntacticandsemanticanalysis of citation content[J].Journal of the American Society for Information Science and Technology,2013,64 (7):1490-1503.
[4] Teufel S,Siddharthan A,Tidhar D.An annotation scheme for citation function[C]//Proceedings of the 7th SIGdial Workshop on Discourse and Dialogue.Sydney,Australia,2009:80-87.
[5]AtharA,TeufelS.Context-enhancedcitationsentiment detection[C]//Proceedingsofthe 2012 Conference ofthe North American Chapter of the Association for Computational Linguistics:Human Language Technologies. Montreal,Canada,2012:597-601.
[6]陸偉,孟睿,劉興幫.面向引用關(guān)系的引文內(nèi)容標(biāo)注框架研究[J].中國圖書館學(xué)報,2014,40(6):93-104.
[7]Small H.Co-citation in the scientific literature:A new measure of the relationship between two documents[J]. Journal of the American Society for Information Science,1973,24(4):265-269.
[8]Hirsch J E.An index to quantify an individual's scientific research output[J].Proceedings of the National Academy of Sciences of the United States of America,2005,102 (46):16569-16572.
[9]Small H.Citation context analysis[A]//Progress in communication sciences[M].Norwood,NJ:Ablex Publishing,1982:287-310.
[10]祝清松,冷伏海.引文內(nèi)容分析方法研究綜述[J].情報資料工作,2013,38(5):97-107.
[11]Garfield E.Can Citation Indexing Be Automated[C]// Proceedings of the Symposyum on Statistical AssocicationMethods for Mechanized Documentation,Symposium.Washington,1963:189-192.
[12]Lipetz B A.Improvement of the selectivity of citation indexes to science literature through inclusion of citation relationship indicators[J].American Documentation,1965,16(2):81-90.
[13]ButtB H,RafiM,Jamal A,etal.ClassificationofResearch Citations(CRC) [C]//Proceedings of the First Workshop on Mining Scientific Papers:Computational Linguistics and Bibliometrics.Istanbul,Turkey,2015:18-27.
[14]Spiegel-R?sing I.Science studies:bibliometric and content analysis[J].Social Studies of Science,1977,7 (1):97-113.
[15]Ding Y,Liu X,Guo C,et al.The distribution of references across texts:Some implications for citation analysis[J].Journal of Informetrics, 2013, 7(3):583-592.
[16]David Mimmo.Topic Modeling Bibliograpyh[EB/OL]. [2014-07-16].http://mimmo.infosci.cornell.edu/topics. html.
[17]劉宇,李武.引文評價合法性研究——基于引文功能和引用動機(jī)研究的綜合考察[J].南京大學(xué)學(xué)報(哲學(xué)·人文科學(xué)·社會科學(xué)),2013,50(6):137-148.
[18]Hu Z,Chen C,Liu Z.Where are citations located in the body of scientific articles?A study of the distributions ofcitationlocations[J].Journal of Informetrics,2013,7 (4):887-896.
(責(zé)任編輯:何燕)
Construction of Standardized Data Set for Citation ContentAnalysis
ZHANG Meng-ying,LU Chao,ZHENG Ru-jia,ZHANG Cheng-zhi
As the structured data of academic literature becomes more and more accessible,it is likely toanalyze large-scale citation contentautomatically.In this paper,the framework of citation content annotation is constructed and a citation content annotation system is developed.Annotation is carried outon the objects,the functions,the sentiment,the location andthe importance of citations,and the degree of confidence.A standardized data set for citation analysis is then constructed and the statistical analysis is done,which provide data support for the basic research and applied research on citation content.
citation content analysis;citation tagging system;standardized data set;citationfunction;citationsentiment
*本文系國家社會科學(xué)基金項目“在線社交網(wǎng)絡(luò)中基于用戶的知識組織模式研究”(項目編號:14BTQ033)、國家社會科學(xué)基金重點項目“大數(shù)據(jù)環(huán)境下社會輿情與決策支持方法體系研究”(項目編號:14AZD084)研究成果之一
張夢瑩,女,南京理工大學(xué)信息管理與信息系統(tǒng)專業(yè)本科生;盧超,男,南京理工大學(xué)管理科學(xué)與工程專業(yè)博士生;鄭茹佳,女,南京理工大學(xué)信息管理與信息系統(tǒng)專業(yè)本科生;章成志,男,博士,博士生導(dǎo)師,南京理工大學(xué)信息管理系教授,通訊作者,E-mail:zhangcz@njust.edu.cn。
2016-06-12