亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

悄然興起的全文計量分析*

2021-03-19 10:59:30胡志剛章成志

圖書館論壇 2021年3期

胡志剛，章成志

文獻計量學自1920年代誕生以來，歷經(jīng)近百年發(fā)展，誕生了洛特卡定律[1]、布拉德福定律[2]、齊普夫定律[3]等理論，期刊影響因子[4]、半衰期、被引次數(shù)、Altmetrics[5]等評價指標，以及引文分析[5]、科學知識圖譜[6]等文獻計量方法，在科技評價、學科建設、科技政策制定等方面發(fā)揮著重要的作用。傳統(tǒng)的文獻計量學主要依據(jù)文獻題錄信息開展研究與實踐。近年隨著開放獲取運動的推進，學術論文全文，尤其是HTML/XML等結構化全文變得越來越易得，一些新的基于全文的文獻計量分析方法[7]，如引文內(nèi)容分析[8-13]、科學實體識別[14-16]等相繼興起。這些研究借助自然語言處理、機器學習等技術，深入學術論文的文本內(nèi)部，挖掘隱藏于全文之中的知識內(nèi)涵，形成新的研究范式和內(nèi)容。從這種意義上說，文獻計量學正走向全文計量分析時代。如何抓住全文本時代的“數(shù)據(jù)福利”，探索新的研究方法，解決新的現(xiàn)實問題，是文獻計量學發(fā)展中面臨的新課題。

1 從題錄計量到全文計量：文獻計量學的新階段

文獻計量學是以文獻作為考察對象，研究文獻信息的生產(chǎn)、離散、增長與老化的規(guī)律，并廣泛用于科研評價，以及學科或領域研究現(xiàn)狀、熱點、趨勢和知識體系的分析和確定的一個情報學科[17]。從統(tǒng)計目錄學[18]到文獻計量學、再到五計學[19]，文獻計量學與時俱進，在信息時代的數(shù)據(jù)浪潮中開拓創(chuàng)新，在智能時代的技術前沿中縱橫馳騁，在理論、方法和應用層面上不斷拓展自己的發(fā)展空間。正是基于文獻計量學由簡及繁，由淺及深的歷史發(fā)展規(guī)律，文獻計量學正從題錄到全文，走向全文計量分析的新階段。

1.1 基于題錄數(shù)據(jù)的文獻計量學

文獻的題錄數(shù)據(jù)是為文獻信息的存儲、組織、檢索和傳遞而設計開發(fā)的一種數(shù)據(jù)形式。1930年代，不滿足于圖書館的信息查詢現(xiàn)狀和方式，科學家開始研究面向期刊論文等更為細小的作品的組織和查詢方法，探索機械化和自動化信息檢索這種更高效更先進的信息查詢途徑。1960年代初，依托DIALOG、BRS、MEDLARS等文獻數(shù)據(jù)庫服務，一些期刊出版社和文摘社率先嘗試借助新興的計算機技術來實現(xiàn)文獻的電子存儲和查詢。在文獻數(shù)據(jù)庫中，一條文獻記錄由篇名、作者、出版物來源和關鍵詞等題錄項目(字段)組成，有些數(shù)據(jù)庫(如Web of Science、Scopus)還增加了文獻的引用信息，從而形成文獻的檢索信息。在形式上，不同的文獻管理系統(tǒng)開發(fā)了BibTex、Refman、Refworks 等不同的樣式?；陬}錄數(shù)據(jù)的文獻數(shù)據(jù)庫存儲和檢索一直是圖書情報學科的核心研究方向之一。

題錄數(shù)據(jù)的大量出現(xiàn)推動了文獻計量學的蓬勃發(fā)展。文獻計量學最早可以追溯到1920 年代，是作為文獻的統(tǒng)計目錄學[18]而存在，相繼形成三大定律，即有關作者分布的洛特卡定律、期刊分布的布拉德福定律、詞頻分布的齊普夫定律，這是文獻定量分析和計量研究的開端。1969年，文獻學家Pritchard A.提出用文獻計量學[20]代替統(tǒng)計目錄學。此后，文獻計量學正式成為圖書情報學科的一個重要分支。

基于題錄的文獻計量學，計量對象主要包括4類信息：(1)文獻主體信息，論文作者、作者單位及國家等；(2)文獻載體信息，論文發(fā)表的期刊及其卷次號、會議論文集等；(3)文獻客體信息，論文的標題、摘要和關鍵詞等；(4)文獻受體信息，論文的被引、下載和使用信息等。這4個方面相輔相成，構成了科學文獻的必要內(nèi)涵，也是文獻計量的核心要素。

早期的文獻計量學主要采用定量統(tǒng)計的分析方法，即通過描述、推斷等基本的統(tǒng)計學方法來展現(xiàn)文獻主體、客體、載體和受體的分布規(guī)律及相關關系等。1960年代后，隨著復雜網(wǎng)絡分析的興起，文獻計量學開始從單維度的統(tǒng)計分析，拓展到基于二元共現(xiàn)關系的網(wǎng)絡分析，如文獻耦合分析[21]、共被引分析[22]、作者合著分析[23-24]、作者共被引分析[25]、期刊共被引分析[26]和共詞分析[27]。這些方法從不同側面揭示文獻集及其所代表的研究領域中的統(tǒng)計規(guī)律、關聯(lián)模式和演進動態(tài)。Morris S. A.等用盲人摸象的比喻來形容這種文獻計量學方法的巴別塔現(xiàn)象[28]，如圖1所示。

1.2 基于全文數(shù)據(jù)的文獻計量學

1990年代至今，科技論文的電子化過程經(jīng)歷3個階段[29]。

(1)PDF 格式。1990 年代，在與Postscript等的格式競爭中，Adobe 公司開發(fā)的PDF(Portable Document Format，便攜式文件格式)格式憑借優(yōu)良的設計和一致的顯示效果，一舉成為最流行的科技論文全文電子化格式。

圖1 盲人摸象：不同視角下的文獻題錄計量方法[28]

(2)HTML格式。2000年后，Elsevier、Springer等期刊出版商為提升讀者的閱讀體驗，開始將HTML(Hyper Text Markup Language，超文本標記語言)作為科技論文在線版本的數(shù)據(jù)格式，并作為PDF格式的補充。2017年以來，中國CNKI數(shù)據(jù)庫嘗試在PDF和CAJ之外支持期刊論文的在線閱讀，取得了很好的效果。

(3)XML格式。XML(ExtensibleMarkupLanguage，可擴展標記語言)格式原用于全文本數(shù)據(jù)的存儲和傳輸層面，近10年來，由于開放獲取(Open Access，OA)運動的興起，PLOS、PeerJ、Frontiers等OA期刊出版商開始面向用戶提供這種更為通用和結構化的數(shù)據(jù)格式，使XML格式全文從后臺走向前臺，成為用戶可以直接獲取和分析的數(shù)據(jù)對象[9]。

除數(shù)據(jù)層面的迭代更新外，全文計量分析的出現(xiàn)還得益于OA運動打破了知識產(chǎn)權的束縛。以促進文獻自由傳播和使用為目標的OA運動是期刊出版業(yè)的一次革命，發(fā)端于2002年，并在過去十幾年得到快速發(fā)展。OA運動為文獻的受眾賦予了6 項權利[30]：閱讀權(Reader Rights)、再使用權(Reuse Rights)、版權(Copyrights)、作者發(fā)布權(Author Posting Rights)、自動發(fā)布權(Automatic Posting)以及機讀性(Machine Readable)。這使得作為第三方的文獻計量學學者可以獲得海量全文數(shù)據(jù)的開放使用權。根據(jù)在Scopus 數(shù)據(jù)庫中的統(tǒng)計，OA 全文文獻已達1，064萬篇。

在此背景下，基于全文數(shù)據(jù)的文獻計量分析應運而生。從題錄數(shù)據(jù)到全文數(shù)據(jù)，文獻計量學轉(zhuǎn)而關注科學論文的章節(jié)結構、論證邏輯、圖表公式、科學實體和引用語境等微觀內(nèi)在的信息。在全文計量分析中，研究對象是文獻中的知識單元、組織、網(wǎng)絡和系統(tǒng)。在科技論文全文中，上到章節(jié)段落下到單詞短語，從文本符號到圖表公式，都是圍繞著知識本體而展開的，只是在顆粒度或呈現(xiàn)形式上有所不同。不論哪一種形式，都是在展現(xiàn)知識單元的融貫路徑、生成過程和演化規(guī)律。

同樣借助大象作比喻，如果題錄時代的文獻計量學是盲人摸象的話，那么全文計量或許可以看作是解剖大象。利用仿生學的方法，全文計量分析就是通過對全文的解構，去識別文本內(nèi)部的邏輯骨架、論證脈絡、修辭肌理和信息細胞。

2 全文計量的研究內(nèi)容

從微觀到宏觀，根據(jù)計量顆粒度的不同，全文計量分析可以從語詞層面、語句層面和語篇層面分別展開。

2.1 語詞層面

在微觀層面上，語詞構成全文計量分析的基本單位。語詞的抽取和分析是全文計量分析的重要組成部分之一，涉及到關鍵詞提取、知識實體識別等具體問題。

2.1.1 內(nèi)容詞和線索詞的抽取與計量

作為構成文本的基本單位，語詞包括內(nèi)容詞和線索詞兩大類。內(nèi)容詞指的是名詞短語，包含獨立且明確的含義，一般作為關鍵詞和主題；線索詞指的是連詞、副詞、代詞等表示情感、轉(zhuǎn)折等句法或語法結構的詞，一般用作情感分析、邏輯分析等?；诮y(tǒng)計特征、詞法特征、句法特征、主題特征等篩選出重要且具有代表性的關鍵詞和線索詞，是進行文本分類、知識挖掘、情感分析等更深層次研究的基礎。

在關鍵詞抽取和計量方面，楊春明等在考慮詞長、位置、詞性等啟發(fā)性知識來計算詞權重基礎上，通過文檔凈化、領域詞典分詞等方法提高了關鍵詞提取的速度及準確度[31]。劉智鋒等以信息計量學領域為例，構建該領域關鍵詞語義功能分類框架和標注數(shù)據(jù)集，并探討這一數(shù)據(jù)集在語義分析等方面的初步應用[32]。未來基于詞嵌入模型(Word Embedding)或者語義空間(Vector Semantics)的研究，可望更好地解決關鍵詞提取中同義詞消歧或者縮略詞消歧的問題[33-36]。

在線索詞的抽取和計量方面，胡志剛等分析學術論文中的線索詞，包括人稱代詞、行為動詞、連接詞等，從而為判斷引用的動機和類型奠定了基礎[37]。陳超美等則探討了科學論文中表達不確定性和情感評價的線索詞的抽取方法[38]。此外，線索詞還可以依據(jù)具體的詞性，用于共指消解(基于代詞)、情感分析(基于形容詞副詞)等不同的分析任務。

2.1.2 知識實體的識別與計量

命名實體(Named Entity)主要是人名、地名、機構名等專有名詞。在科技論文中，命名實體主要指藥名、病癥、化合物、天文實體等。此外，學術論文中經(jīng)常出現(xiàn)的概念、算法、方法等學術術語也可以看作是命名實體。本文將這些命名實體統(tǒng)稱為知識實體。命名實體識別是自然語言處理中的一個重要任務，主要通過統(tǒng)計模型或機器學習的方法來實現(xiàn)，即通過有監(jiān)督的模型在訓練數(shù)據(jù)上進行訓練得到分類器。

在生物醫(yī)學計量領域，學者對命名實體識別率先開展方法探索[39-41]。Takeuchi K.等通過領域?qū)＜业臉俗颖竞椭С窒蛄繖C模型，實現(xiàn)論文全文中生物醫(yī)學實體(Biomedical Named Entity，BioNER)的自動抽取[42]。Ekbal A.等采用遺傳算法對生物醫(yī)學領域的知識實體進行抽取并借助其強大的搜索能力，實現(xiàn)生物醫(yī)學實體的分類器[43]。Settles B.專門研究蛋白質(zhì)和基因的實體識別[44]。此外，化學領域的知識實體識別也已發(fā)展得較為成熟[45-46]。

在文獻計量學領域，Ding Y.等提出實體計量學(Entitymetrics)概念[16]，即將知識單元的計量用于知識的發(fā)現(xiàn)。章成志等抽取學術文本中有關數(shù)據(jù)挖掘算法的實體，并從提及論文數(shù)、總提及次數(shù)、提及位置等方面對不同算法的影響力進行測度和比較[47-48]。最近他們進一步將識別對象擴展到研究方法實體，并比較8種神經(jīng)網(wǎng)絡模型在研究方法實體識別上的效率[15]。

2.2 語句層面

語詞層面只能揭示研究的主題，而語句層面可以立體展現(xiàn)研究者的觀點、態(tài)度和研究對象之間的關系。因此，語句才是構成語義的基本單位。在全文計量分析中，語句層面的分析主要包括引用語境分析、定義語句分析等。

2.2.1 引用語境的抽取和計量

引用語境(Citation Context Analysis)就是指包含引用的句子，有時也包括其前后句。在學術論文全文中，五分之一的句子為引用句[49]。引用語境是學術論文中特有的一種語句類型，很早就受到文獻計量學家的關注。早在E.Garfield創(chuàng)辦SCI 之初，引用語境就在其最初的考慮范圍之內(nèi)[50]。E.Garfield 認為，引用的動機多種多樣，研究引用語境可以破解引用動機之謎。

近年關于引用語境的大規(guī)模抽取和計量研究開始興起，其中引用情感分析是引用語境分析中的熱點問題[51-52]。引用語境在學術評價[53-54]、知識交叉[55]等方面具有重要的價值。章成志等從引用位置、強度、長度以及情感等方面，對5個不同學科領域中文圖書的引文內(nèi)容進行計量分析和比較[56]。此外，他們還設計一整套完整的引文內(nèi)容標注框架和標準化數(shù)據(jù)集，從引用對象、引文功能、引用情感、引文位置、引文重要性等方面對引用語境進行標注，這為基于引用語境的學術評價和預測等應用性研究提供數(shù)據(jù)支撐[13]。在引用語境的識別和抽取方面，章成志等圍繞被引片段最佳句子數(shù)量的問題，通過加入詞語語義相似度的特征來提高被引片段的識別效果[57]。艾倫實驗室構建了一個引用語境的搜索引擎Semantic Scholar[58]，可以提供施引文獻和被引文獻中的引用語境查詢。

2.2.2 定義語句的抽取與計量

定義語句是關于事物的本質(zhì)特征或概念的內(nèi)涵和外延的確切而簡要的說明[59]。學術定義的抽取是知識抽取的重要組成部分。學術定義可以看作是對學術術語的說明，這對理解知識本體、構建知識圖譜、開發(fā)自動問答系統(tǒng)等具有非常重要的價值[60]。

定義語句的抽取離不開句法分析。作為自然語言處理的基礎性任務，句法分析已經(jīng)有了比較成熟的工具，如斯坦福大學開發(fā)的Python工具包CoreNLP[61]。劉一寧綜述了學術定義語句抽取的相關技術和應用[62]，他還和其他學者一起通過混合使用模式規(guī)則、語法規(guī)則和詞頻統(tǒng)計，面向?qū)W術期刊論文設計一種學術定義抽取系統(tǒng)[63]。Pollak S.等借助形態(tài)句法模型、學術術語識別和語義標注技術，提出一種面向領域語料的學術定義抽取工作流[64]。潘湑以航空領域的術語定義抽取為例，提出一種不依賴已有特征選擇方法的特征選擇框架[65]。陽萍等將定義抽取問題建模為句子中術語及相應定義的序列標注問題，提出一個基于雙向長短時記憶(Bi-LSTM)的序列標注神經(jīng)網(wǎng)絡模型，對輸入文本進行自動化定義抽取[66]。CNKI數(shù)據(jù)庫就專門提供針對論文全文中出現(xiàn)的學術定義的檢索功能，相當于為用戶提供了一個最權威、最準確的不斷更新完善的學術定義詞典[67]。但是，目前對于定義語句的計量研究還比較少。

[23] Nadege Rolland, “China’s ‘Belt and Road Initiative’: Underwhelming or Game-Changer?” The Washington Quarterly, Vol. 40, No.1 (Spring 2017), p. 137; 韋宗友：《美國對“一帶一路”倡議的認知與中美競合》，《美國問題研究》2018年第1輯，第57頁。

2.3 語篇層面

全文計量分析還可以通過解構和分析學術論文的語篇結構，對全文有一個更宏觀和更整體的刻畫。語篇結構主要指學術論文的章節(jié)結構和論證結構。通過對章節(jié)結構和論證結構的解碼，可以更好地認識全文的有機性，理解文獻的布局、層次和理路。

2.3.1 章節(jié)結構的識別與計量

從形式看，學術論文由章節(jié)(Section)構成。學術論文誕生之初并沒有統(tǒng)一的章節(jié)結構，1930年代開始形成了規(guī)范的IMR&D結構，即“引言-方法-結果-討論”的四章式結構。這種論文結構先是在醫(yī)學領域出現(xiàn)，然后逐漸擴展到各理工類學科；而在社會科學和人文學科中，章節(jié)的構成則比較靈活。此外，綜述型、評論和書信類的論文，更加不拘一格。

陸偉等基于章節(jié)標題、章節(jié)內(nèi)容、段落和關鍵詞等視角展開探索，識別學術文本中的結構功能[68-71]。王東波等比較在選取不同特征和機器學習模型的情況下結構功能識別的效率和效果[72]。秦成磊等通過構建層次注意力網(wǎng)絡模型來實現(xiàn)對學術文本章節(jié)功能類型的自動判定[73]。李楠等對學術文本結構功能識別在醫(yī)學、圖情、數(shù)據(jù)、出版、經(jīng)濟等5個不同學科上的適用性進行了實驗和對比分析[74]。胡志剛對Journal of Informetrics期刊中的論文的章節(jié)結構進行可視化分析，發(fā)現(xiàn)大多數(shù)論文在章節(jié)結構和章節(jié)長度上都趨于一致，但在章節(jié)標題上存在不同的表達[49]。

2.3.2 論證結構的識別與計量

科學論文全文中的論證結構(Argumentation Structure)是非常重要的研究方面，主要是挖掘具有邏輯關聯(lián)的本體及其關系，如假設與檢驗、問題與對策、數(shù)據(jù)與方法、論點和證據(jù)等。對論證結構的挖掘和可視化的探索已在教育領域和計算機領域得以廣泛開展[75-76]。Andreas P.等對科學文本中的觀點(Claims)、前提(Premises)進行識別和分類，并在此基礎上將論證分為支持(Support)、反對(Attack)等關系[77]。針對更復雜的論證結構和框架，目前也有一些初步的探索[78]。Teufel S.等在其設計的科學論文全文論證結構分析模型中，標注15種不同類型的論證塊(Argumentative Zoning)，并利用有監(jiān)督學習的方法探索論證塊的自動標注技術[79-80]。

從語義層面分析語篇的論證結構，另一種常用的模型是修辭結構理論(Rhetorical Structure Theory)模型，即識別語篇中的核心-衛(wèi)星(Nucleus-Satellite)關系[81]。修辭結構理論的提出者William C.M.等命名和定義了20多種結構關系，包括因果、細化、證據(jù)、歸屬、列舉等，這些結構關系可進一步遞歸連接，組成更大的結構段，直至組成有機的語篇[82]。自1987年提出至今，修辭結構理論得到深入的發(fā)展和廣泛的應用，如跨語言翻譯[83]、情感分析[84]，并且已建立規(guī)范的語篇語料庫，如Treebank Manual[85]和The Penn Discourse TreeBank[86]。

3 全文計量的研究方法

全文計量分析就是從紛繁復雜的非結構化文本中，抽取知識單元的顆粒(實體抽取)和鏈條(關系抽取)，并通過統(tǒng)計或可視化的方法進行計量分析?？偟膩砜矗挠嬃糠譃槲谋痉治龊陀嬃糠治鰞煞N范式。

3.1 文本分析范式

如果把科學論文寫作看作是知識單元基于語法與語義規(guī)則的邏輯建構和組裝，那么全文計量就是論文寫作的逆過程。它的目標是打開全文本封裝后的黑箱，條分縷析地抽取并解讀全文中的知識訊息。

3.1.1 計算語言學方法

計算語言學主要是指通過建立形式化的數(shù)學模型來分析和處理自然語言的一門學科。對學術文本而言，計算語言學方法主要用于從正文中解析出所需的學術信息，如題錄信息、引用信息、圖表信息、章節(jié)信息，包括對全文進行分詞、詞性標注、命名實體識別、關鍵詞抽取、詞義角色標注等基礎性任務。學術信息的抽取技術包括基于字典、基于規(guī)則、基于機器學習等的多種方法，適用于不同的任務需求和文本類型[87]?；谝?guī)則的提取方法是指基于一系列事先設計好的規(guī)則和流程對全文中的各類學術信息進行提取，準確率較高。Groza T.等基于字體的格式或位置特征，設計了一套面向PDF格式文檔的題錄數(shù)據(jù)提取規(guī)則[88]?；跈C器學習的方法，主要包括支持向量機模型[89]、條件隨機場模型[90]、隱馬爾可夫模型[91]等，準確度一般低于基于規(guī)則的方法，但具有更高的通用性。例如，Schwartz A. S.等利用條件隨機場模型來識別生物學論文中的引用語境信息，取得了較好的效果[92]。

3.1.2 社會語言學方法

社會語言學(Sociolinguistics)主要是指運用語言學和社會學等學科的理論和方法，從不同的科學角度去研究語言的社會本質(zhì)及其差異的一門學科。話語分析是社會語言學中的一種典型方法，也是被用得最多的一種。話語分析主要研究話語的語境、語義、語法、產(chǎn)生、發(fā)展、實踐，以及話語與權力、話語與意識形態(tài)、話語與社會建構等問題，具體又包括會話分析、批評話語分析、語料庫話語分析、多模態(tài)話語分析等[93]。

從社會語言學角度，不同文化和學科背景下的科學家具有不同的表達風格和習慣。科學文本深受語言、文化和全球化等因素的影響[94]。盧超等利用大規(guī)模的學術文本對英語母語者和非母語者及二者合作論文的語言風格進行分析，結果顯示非母語者在一些指標上較母語者存在一定的弱勢[95]。有學者認為學術文本本質(zhì)上是一種語言游戲，包括科學語言的數(shù)學化、科學價值的認可等[96]。社會語言學方法尤其適用于人文社科的學術文本研究。在人文社科領域，信息本身的“意義”大于信息本身，因此需要解構信息背后不同的人文或社會內(nèi)涵，而文本的互文性又決定了必須從主觀的角度去理解文本的真正內(nèi)涵。

3.2 計量分析范式

在題錄數(shù)據(jù)中，文獻計量元素的各項一般是獨立互斥的，即這些計量數(shù)據(jù)或不會重復出現(xiàn)(如篇尾引文)，或與順序無關(如關鍵詞)，或雖然順序相關但是位置無關(如作者)。而在全文計量分析中，計量元素之間并不滿足這一假設，信息的頻次、密度、順序、位置都是需要考量的重要內(nèi)容，因此在計量過程中需要采用新的分析方法，如加權分析方法和序列分析方法。

3.2.1 加權分析方法

在全文計量分析中，由于計量信息(如篇中引用、學術實體)散落在正文中，可能出現(xiàn)多次，并且出現(xiàn)在多個不同的位置，因此需要考慮如何對這些信息進行加權計數(shù)。以篇中引用(in-text citation)為例，在施引文獻中，由于一篇引文在正文中被引用(提及)可能不止1次，重要的引文可能在同一篇施引文獻中被引用兩次或以上[97]，因此可以借助引用次數(shù)或位置的信息來為一篇引文的價值和意義賦權，而不是像傳統(tǒng)的基于篇末引文列表的引文分析那樣將引文進行同權看待。利用這種加權的方法，胡志剛等提出基于篇中引用的新的被引計數(shù)方式[98]，Ding Y.等比較了傳統(tǒng)的CountOne和考慮多引的CountX兩種計數(shù)方式的不同[99]。Zhao D.等進一步明確提出加權引文分析(weight citation analysis)的概念[100]，指出除基于引用強度的加權，還可以基于引用位置對引文賦予不同的權重。McCain K.W.很早就探索不同賦權下的引用效用指標(utility index)[101]，如對“數(shù)據(jù)與方法”一章中的引用賦予更高的權重。

3.2.2 序列分析方法

如果將篇中引用或者抽取的實體、主題詞等看作在正文中出現(xiàn)的事件，那么就可以利用事件序列的分析方法來對這些元素進行計量、模式發(fā)現(xiàn)或可視化分析。序列分析旨在從紛繁復雜的事件序列中發(fā)現(xiàn)抽象的事件相關規(guī)律，并通過可視化技術進行刻畫，使用戶可以結合領域知識來探索序列數(shù)據(jù)集中存在的演化模式和異常事件。常用的事件序列數(shù)據(jù)可視化呈現(xiàn)形式包括基于甘特圖(Gantt Chart)、基于流程圖(Flow Chart)、基于時間線(TimeLine Chart) 或故事線圖(StoryLine Chart)及基于矩陣的可視化方法[102]。Teufel S. 曾利用故事線圖來展現(xiàn)學術文本中的結構功能脈絡[80]。胡志剛等設計了一種引用位置分布的可視化圖譜，可以展現(xiàn)引用在正文中的章節(jié)分布、密度特點和簇集效應等[103]。

4 結語

與基于題錄數(shù)據(jù)的文獻計量分析相比，全文計量在數(shù)據(jù)源的異質(zhì)性、數(shù)據(jù)規(guī)模和結構化程度等方面更復雜，因此在計量流程、研究范式和研究內(nèi)容上都有著根本的不同。站在全文本時代前沿，這種與傳統(tǒng)文獻計量學一脈相承但又有著顯著區(qū)別的全文計量分析技術，正在為圖書情報學科翻開新的篇章。為了更好展現(xiàn)全文計量分析的全貌，本文從全文計量分析的數(shù)據(jù)來源、研究內(nèi)容、研究方法等方面，對全文計量的框架和范式進行了全面梳理和系統(tǒng)綜述。在數(shù)據(jù)方面，全文計量分析與開放獲取運動共生共長，在獲取海量、多源、異構、異質(zhì)的全文數(shù)據(jù)的前提下，擁有非常寬廣的文獻計量分析研究空間。在內(nèi)容方面，分別從語詞、語句和語篇等不同層面，探討和綜述了全文計量分析中的熱點問題。在方法方面，全文計量分析主要包括文本分析和計量分析兩種范式，其中文本分析包括了計算語言學和社會語言學兩方面的內(nèi)容，計量分析則主要引入了加權分析和序列分析等新的思路。展望未來，隨著全文計量分析的進一步發(fā)展，這一研究將廣泛應用于引文推薦和寫作輔助、文獻管理與閱讀、語義網(wǎng)與知識圖譜、學科交叉和文本分類、圖表分類和識別等領域，在圖書情報學領域發(fā)揮越來越大的作用。