胡乙
(江蘇經(jīng)貿(mào)職業(yè)技術(shù)學院,江蘇 南京 211168)
CiteSpace是CitationSpace的簡稱,是一款分析文獻中潛在知識的可視化分析軟件,廣泛適用于各學科研究。但在實踐中,部分作者只是借助該軟件更好地展示數(shù)據(jù),而不是利用軟件的強大功能深入地發(fā)掘文獻間隱藏的信息,據(jù)此,研究擬從情報學可視化技術(shù)入手,詳細闡述CiteSpace發(fā)明過程中涉及的學科知識,并據(jù)此分析該軟件的主要功能與原理,以此為基礎(chǔ),研究者能更深入地發(fā)掘該軟件的價值。
可視化技術(shù)推動了對知識圖譜的研究,而CiteSpace軟件是文獻圖譜專用繪制工具之一,其能輔助研究者有效識別學科熱點與研究前沿。
可視化是圖書館學情報學一般研究方法之一,是將數(shù)據(jù)轉(zhuǎn)化為可視表示形式的過程。從離散數(shù)學考察,其本質(zhì)是建立從抽象數(shù)據(jù)集合到可視化結(jié)構(gòu)數(shù)據(jù)集合之間的映射。可視化分類包括數(shù)據(jù)可視化、科學計算可視化、信息可視化與知識可視化??梢詫⒖梢暬暈檫B接人與電腦信息處理系統(tǒng)的橋梁。
可視化的產(chǎn)生涉及諸多跨學科知識與技術(shù),如高等代數(shù)、計算機圖形學、圖像處理等。其能將知識之間的聯(lián)系以表格、節(jié)點、圖等方式展現(xiàn)在屏幕上,這種方式有助于人們對數(shù)據(jù)或信息集合從一個全新的角度進行觀察分析,以發(fā)現(xiàn)過去研究中遺漏的隱藏情報。在大數(shù)據(jù)、人工智能、5G 通訊背景下,可視化技術(shù)為文本挖掘、情報挖掘等提供了新的的工具。例如,目前流行的科學知識圖譜與專利地圖就是可視化技術(shù)在情報學中的具體應用。
知識圖譜的概念,源于萬維網(wǎng)之父Ti.m Bener-Lee關(guān)于語義網(wǎng)的設(shè)想。其旨在運用圖結(jié)構(gòu)來構(gòu)建世間所有萬物之間關(guān)系及知識,以便實現(xiàn)更確切的搜索。其在搜索引擎、語言理解、大數(shù)據(jù)分析決策等領(lǐng)域得到了廣泛應用,已經(jīng)成為自動化知識獲取、大規(guī)模圖挖掘與分析等領(lǐng)域不可或缺的工具。
狹義的知識圖譜特指一類知識表示,本質(zhì)上是一種大規(guī)模的語義網(wǎng)絡(luò);廣義的知識圖譜是大數(shù)據(jù)時代知識工程一系列技術(shù)的總稱。從狹義角度考察,此種大規(guī)模的語義網(wǎng)絡(luò)包括實體、概念及其之間的各種關(guān)系,其中,語義網(wǎng)絡(luò)是知識圖譜的本質(zhì)。與傳統(tǒng)的語義網(wǎng)絡(luò)相比,知識圖譜代表的語義網(wǎng)絡(luò)規(guī)模巨大、語義豐富、質(zhì)量精良、結(jié)構(gòu)友好。語義網(wǎng)絡(luò)是一種以圖形化的形式,通過點與邊描述知識關(guān)系的方法。圖形中的點可以描述實體、概念和屬性。實體稱為對象或?qū)嵗?,它是一切屬性的物質(zhì)基礎(chǔ),是有明確指代意義的。概念又稱類別、類,其是指一類人,這類人有相同的特征。概念所對應的動詞稱為概念化和范疇化,概念化一般指識別文本中的相關(guān)概念的過程,例如,拉格朗日的中值思想;范疇化一般指實體形成類別的過程,如具有若干哲學思想的人們組成某個特定的哲學派別,則這一學派的形成就是典型范疇化的過程。每個實體都有一定的屬性值,包括數(shù)值、日期、文本等,知識圖譜的推理即是建立在實體、屬性與關(guān)系之上。
科學知識圖譜在圖書館學情報學應用領(lǐng)域,包括識別學科領(lǐng)域熱點、展示學科研究前沿、分析引用關(guān)系等。
從哲學、社會學、數(shù)據(jù)科學,數(shù)學等學科入手,可全面理解軟件包含的學科基礎(chǔ)知識。
CiteSpace設(shè)計靈感之一,是來源于托馬斯·庫恩的《科學革命的結(jié)構(gòu)》。庫恩重塑了科學的真理形象,其“范式論”“不可通約論”為科學史研究提供了新的視角。
庫恩思考的根本問題可以概括為“科學進步的機制是什么”。這是需要借助科學史研究才能回答的問題,但傳統(tǒng)的研究方法存在缺陷,而作者嘗試從科學史的編著工作中找到突破口??茖W知識的歷史不是簡單增長過程,其中某個階段必定會發(fā)生根本性的轉(zhuǎn)變,新的科學觀應以研究此類根本性轉(zhuǎn)變?yōu)樽谥?。同時,科學研究活動并不是單個人的孤立活動,而是群體活動。為了能順利有效地開展研究,科學共同體一般會就研究的基本事項達成共識。此類共識具有歷史性與偶然性,并且預定了科學知識的類型。正是這些共識的變遷帶來了科學知識系統(tǒng)的大轉(zhuǎn)換,也就是科技革命的發(fā)生,決的重大疑難問題,
《公務(wù)員法》和《勞動法》都有規(guī)定:公務(wù)員和勞動者患病在醫(yī)療期間不得被辭退的相關(guān)表述,但對于超過醫(yī)療期的勞動者和公務(wù)員是否應當被辭退,法律沒有硬性規(guī)定,出現(xiàn)大部分公務(wù)員生病期間也會受到很好的待遇,薪酬基本不會降低,但企業(yè)特別是民營企業(yè)的做法是辭退員工。由于單位性質(zhì)的不同,員工患病后也會出現(xiàn)截然不同的待遇。
20 世紀90 年代初,美國社會學家伯特提出了結(jié)構(gòu)洞理論。該理論描述了網(wǎng)絡(luò)中不同節(jié)點是如何影響行為人收益的。概括地說,如果網(wǎng)絡(luò)中的行動者所連接的其他行動者之間不存在直接聯(lián)系,則這個行動者就占據(jù)了結(jié)構(gòu)洞的位置,能夠通過中介機會獲取社會資本收益,從而帶來競爭優(yōu)勢。該理論創(chuàng)造性的從結(jié)構(gòu)角度對網(wǎng)絡(luò)進行分析,不僅有助于挖掘關(guān)鍵的行動者和關(guān)鍵位置,更有利于拓展研究與發(fā)展的視野。自問世以來,該理論在管理科學、社會科學與經(jīng)濟學等多個領(lǐng)域得到了廣泛的運用。
結(jié)構(gòu)洞來源于網(wǎng)絡(luò)分析學派的理論成果,并與社會資本共生理論密切相關(guān)。人的行為,不僅是受所處網(wǎng)絡(luò)結(jié)構(gòu)影響,也受人自身欲望影響,人具有選擇行為的主動性。如行動者彼此越接近,關(guān)系越密切,則其擁有的資源也基本相同,此種密切關(guān)系難以使個體獲得稀缺資源。相反,行動人能從弱的關(guān)系中尋找到更有價值的資源,由此引出社會資本概念。社會資本來自構(gòu)成社會的諸要素,單獨的個人并不能完全擁有社會資本,只有參與交換網(wǎng)絡(luò),并與他人建立關(guān)系,才能獲得所需收益。總之,處于結(jié)構(gòu)洞的行為主體往往能接觸更多的信息,并能占據(jù)更大的優(yōu)勢,沒有中間人,則部分群體或者個人無法發(fā)生交換關(guān)系。而位于結(jié)構(gòu)洞的行為主體即可視為發(fā)揮連接作用的中間人。
離散數(shù)學通常以邏輯與集合論開端,并以此為基礎(chǔ)講授函數(shù)、數(shù)列、算法等后續(xù)內(nèi)容。而圖論在各個領(lǐng)域中可進行可視化處理,圖模型為多個學科與領(lǐng)域提供了求解問題的新思路。圖是由頂點連接頂點的邊構(gòu)成的離散結(jié)構(gòu),根據(jù)圖中的邊是否有方向、相同頂點對之間是否可以有多條邊相連,以及是否允許存在短路環(huán),可將圖分為多個類型。圖模型在多個領(lǐng)域中均可用于建立數(shù)學模型,例如,文獻計量學或科學計量學用圖表示論文引用關(guān)系以及研究人員、研究機構(gòu)與團隊間合作關(guān)系等。一個圖是由頂點非空集合與邊的集合組成,每條邊有一個或兩個頂點與它相連,這些頂點稱為邊的端點,邊連接它的端點。點與邊使得可視化分析有了可能。圖的類型、同構(gòu)、連通性、通路等問題,為科學計量與可視化研究提供了新的思路。
從引文網(wǎng)絡(luò)分析、中介中心性、突發(fā)性檢測、共詞分析等入手,可深入理解軟件的主要功能與操作步驟。
引文網(wǎng)絡(luò)分析是科學計量領(lǐng)域的重要研究方向,其通過研究參考文獻被引用的網(wǎng)絡(luò)特征來探索科學知識發(fā)展的特征與規(guī)律,為學科研究、技術(shù)創(chuàng)新、科學評價等科技活動服務(wù)。引文分析是對科學文獻參考模式的探索,多用于影響力分析、知識流和知識網(wǎng)絡(luò)等多個社會科學領(lǐng)域中。該方法有助于解決研究、管理或信息服務(wù)等相關(guān)問題,例如,學校排名、研究評估、知識可視化等,受到了諸多領(lǐng)域?qū)W者的好評。
要進行科研合作網(wǎng)絡(luò)分析,可運用CiteSpace科學合作網(wǎng)絡(luò)分析功能。該分析包括三個層次:作者合作網(wǎng)絡(luò)、機構(gòu)合作網(wǎng)絡(luò)、國家與地區(qū)合作網(wǎng)絡(luò)。其中節(jié)點大小代表了各成員發(fā)表論文的數(shù)量,節(jié)點間連線描述了不同主體間合作關(guān)系。以作者合作網(wǎng)絡(luò)分析為例,依照前述步驟新建項目后,在節(jié)點類型中選擇Author,可得到初級作者合作網(wǎng)絡(luò)。在合作網(wǎng)絡(luò)圖中,選中某一節(jié)點,右擊Node Detail即可查詢該作者發(fā)表論文的時間統(tǒng)計及論文內(nèi)容。在機構(gòu)合作、國家地區(qū)合作網(wǎng)絡(luò)中也可運用上述功能。
節(jié)點的中介中心性有助于發(fā)現(xiàn)有價值的、新穎的成果。僅僅有好想法,出于風險最小化和利益最大化考慮,人們會謹慎行動。學術(shù)中的新發(fā)現(xiàn)往往具備高風險,但同行的支持有助于降低這種風險,使新的成果產(chǎn)生。如發(fā)現(xiàn)已經(jīng)有學者在研究類似的問題,則同行進行同一研究的風險會顯著降低。具有爭議性的結(jié)果發(fā)表后,往往會帶來更多的研究,即對風險與收益重新審視后,學者在新環(huán)境下更容易積極行動。
克萊因伯格認為,文本挖掘的一個基本問題是從隨著時間連續(xù)到達的文檔流中提取有意義的結(jié)構(gòu)。電子郵件與新聞報道是文檔流的自然例證,它們均以出現(xiàn)的主題為特征,在一段時間內(nèi)強度突然增加,然后逐漸消失。在特定領(lǐng)域中發(fā)表論文的數(shù)量在較長時間內(nèi)也表現(xiàn)出類似的現(xiàn)象。文檔流中主題的出現(xiàn)是一種突發(fā)活動的信號,隨著某個特定主題的出現(xiàn),某些特征的頻率會顯著上升。如果能開發(fā)一種簡便算法,對此類突發(fā)活動建立數(shù)學模型,則有可能穩(wěn)健高效地識別它們,并且有可能為分析底層內(nèi)容提供組織框架。
在CiteSpace中,有兩處可以對節(jié)點進行突發(fā)性檢測:(1)在可視化界面,點擊CitationFrequencyBurst;(2)點擊控制面板Burstness功能區(qū)的Refresh。如果存在具有突發(fā)性特征的節(jié)點,則電腦會將這些節(jié)點標注特殊顏色。
共詞分析法最早由法國文獻計量學家Callon提出。其通過統(tǒng)計一組詞在同一篇論文中同時出現(xiàn)的次數(shù),以此為基礎(chǔ),對這些詞進行聚類分析,以發(fā)現(xiàn)這些詞組之間的親疏關(guān)系,進而分析論文所涉及學科領(lǐng)域中主題之間的關(guān)系。如果一對關(guān)鍵詞在同一篇論文中出現(xiàn)次數(shù)越多,則表明兩者之間距離越近,關(guān)系越密切,學者對這兩個詞所涉及的領(lǐng)域也較為關(guān)注,同時,這些研究主題可能是該領(lǐng)域的研究熱點。
以關(guān)鍵詞分析為例,該方法是對論文集合中作者與數(shù)據(jù)庫提供的關(guān)鍵詞進行共現(xiàn)分析。在webofscience中,則對DE與ID所存儲的數(shù)據(jù)進行共現(xiàn)分析。在節(jié)點類型中選擇Keyword,在功能區(qū)設(shè)置相關(guān)參數(shù)后,CiteSpace可生成關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)。
以術(shù)語共現(xiàn)分析為例,該方法從論文標題、關(guān)鍵詞、摘要中提取名詞性術(shù)語后,通過自然語言處理的過程形成共詞網(wǎng)絡(luò)。在CiteSpace功能參數(shù)模塊TermTypes選擇NounPhrases,此時會彈出part-of-speech.TaggingOpinion對話框,首次支行時需要點擊CreatePOSTagS,CiteSpace會顯示相關(guān)時間跨度與論文數(shù)量信息,此時在節(jié)點類型中選擇Term后可創(chuàng)建共現(xiàn)網(wǎng)絡(luò)。
以科學領(lǐng)域共現(xiàn)分析為例, 該方法涉及wc(webofscienceCategory)與sc(Subject.Category), 兩者是webofscience對期刊在更加廣闊視野中的科學分類。wc比sc分類更為細致,在CiteSpace中,在節(jié)點類型中選擇Category,可建立科學領(lǐng)域共現(xiàn)網(wǎng)絡(luò)。在共現(xiàn)圖譜中,右擊可選擇節(jié)點細節(jié)以觀察某一領(lǐng)域研究的時序特征,也可以對不同領(lǐng)域發(fā)文突發(fā)性進行檢測。
未來研究中,知識圖譜仍在發(fā)展,現(xiàn)實應用對知識圖譜技術(shù)提出了眾多挑戰(zhàn)。在知識表示層面,未來研究應關(guān)注知識圖譜與規(guī)則等其他知識表示相聯(lián)合的方式。在知識獲取層面,未來研究將關(guān)注如何和降低自動化知識獲取過程中的成本。在知識應用中層面,未來研究將關(guān)注增加器學習能力,實現(xiàn)可解釋人工智能等目標。