李迎迎 鄭春厚
(曲阜師范大學(xué)信息技術(shù)與傳播學(xué)院,山東日照276826)
隨著現(xiàn)代信息技術(shù)的發(fā)展,人類已經(jīng)步入知識型社會,而這種知識型社會是直接建立在知識資源的開發(fā)、獲取和利用的基礎(chǔ)上的,因此知識資源的開發(fā)利用越來越受到社會和廣大學(xué)者的關(guān)注。Web2.0環(huán)境下,各種網(wǎng)絡(luò)技術(shù)、通信技術(shù)以及存儲技術(shù)的迅速發(fā)展,使得信息和知識急劇膨脹,造成了信息泛濫、知識無序。而泛濫無序的知識不僅不利于知識資源的利用,反而增加了知識利用的難度,加大了知識增長與利用的矛盾[1]。基于此,有必要對知識進行有效組織,以促進知識資源地充分挖掘與合理利用。與此相關(guān)的“知識組織”已日益成為學(xué)者關(guān)注的熱點話題。
“知識組織”的概念早在1929年美國圖書館學(xué)家布里斯(H.E.Bliss)就已經(jīng)提出了,是指為促進或?qū)崿F(xiàn)主觀知識客觀化和客觀知識主觀化而對知識客體所進行的諸如加工、整理、引導(dǎo)、揭示、控制等一系列組織化過程及其方法。目前國內(nèi)有幾種比較典型的觀點:蔣永福認為,知識組織是以知識為對象的諸如整理、加工、表示、控制等一系列組織化過程及其方法[2]。王知津認為,知識組織的任務(wù)是尋求抑制信息污染知識存貯無序化惡性循環(huán)的措施,其主要目標(biāo)是對知識進行整序和提供知識,既要處理大量的現(xiàn)有知識,又要減少知識的增長[3]。國外匈牙利賽格德大學(xué)的研究人員認為,知識組織的理論和實踐同人類知覺有著密不可分的關(guān)系,應(yīng)尋找契合用戶直覺的最佳的知識組織系統(tǒng)設(shè)計方案,提出可視化是將用戶直覺融入知識組織系統(tǒng)設(shè)計的有效方式[4]。Birger Hj?rland認為知識組織是利用不同的方法和研究習(xí)慣的圖書信息科學(xué)(LIS)的子類[5]。本文認為高效的知識組織可以促進知識的挖掘與利用,減小知識增長與利用之間的矛盾,了解知識組織領(lǐng)域的研究熱點便于知識組織的發(fā)展與改進。
近年來,關(guān)于知識組織的綜述性研究主要是針對知識組織領(lǐng)域的文獻進行理論層次的分析,如宋朋和張秀蘭是對知識組織的研究范圍、知識組織的原理和原則、知識組織的方法、知識組織的本體論、元數(shù)據(jù)、知識組織技術(shù)的研究、語義Web等方面進行了綜述[6],觀點過于主觀,缺乏使用客觀的、定量分析方法對知識組織研究內(nèi)容進行概述和分析。張文亮和郭金婷的研究亦是通過主觀的理論分析,總結(jié)出目前知識組織的研究熱點,缺乏客觀定量的分析[7]。
基于上述問題,本文采用共詞分析方法,利用SPSS統(tǒng)計分析軟件,以CNKI全文數(shù)據(jù)庫作為數(shù)據(jù)來源,對國內(nèi)知識組織領(lǐng)域文獻進行客觀定量分析。以期從文獻計量學(xué)角度對國內(nèi)知識組織領(lǐng)域研究進行概述,進而揭示國內(nèi)知識組織領(lǐng)域的研究熱點和發(fā)展趨勢。
共詞分析法是利用文獻集中詞匯對或名詞短語共同出現(xiàn)的情況,確定該文獻集中各主題之間的關(guān)系。一般認為詞匯對在同一篇文獻中出現(xiàn)的次數(shù)越多,則代表這兩個主題的關(guān)系越緊密。由此,通過主題詞兩兩之間在同一篇文獻出現(xiàn)的頻率,即主題詞之間的共現(xiàn)關(guān)系,便可形成由這些詞對關(guān)聯(lián)所組成的共詞網(wǎng)絡(luò)。根據(jù)網(wǎng)絡(luò)內(nèi)節(jié)點之間的親疏關(guān)系,反映詞對之間的聯(lián)系,在此基礎(chǔ)之上,進行聚類分析,得到不同的類團,進而分析該領(lǐng)域下的結(jié)構(gòu)變化[8]。
共詞分析法主要有以下幾個步驟:第一,確定高頻關(guān)鍵詞;第二,構(gòu)建關(guān)鍵詞共詞矩陣;第三,轉(zhuǎn)化為關(guān)鍵詞相關(guān)矩陣和相異矩陣;第四,運用統(tǒng)計分析軟件進行多元統(tǒng)計分析,如因子分析、聚類分析以及多維尺度分析等;第五,對結(jié)果進行深入分析。本文按照上述五個步驟,對國內(nèi)知識組織領(lǐng)域文獻進行統(tǒng)計分析,并對最終的分析結(jié)果進行理論闡述。
關(guān)鍵詞是共詞分析研究方法的基本單元,本研究所使用的關(guān)鍵詞來源于CNKI中國知網(wǎng)數(shù)據(jù)庫中的中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫,檢索“主題”為“知識組織”的期刊論文,時間限定在2001至2011年,選擇“精確”匹配,檢索結(jié)果顯示共有1718篇文獻,剔除無關(guān)鍵詞文獻、非學(xué)術(shù)論文以及不相關(guān)論文,得到有效篇數(shù)1535篇,總體產(chǎn)出情況如圖1所示。
圖1 2001-2011年國內(nèi)知識組織論文產(chǎn)出情況圖
從圖1可以看出,有關(guān)知識組織的發(fā)文數(shù)量呈每年遞增趨勢,在2005和2007年有所下降,在2008到2011年形成了研究的高峰期,說明知識組織越來越受到學(xué)者們的關(guān)注和重視。
2.3.1 高頻關(guān)鍵詞獲取
關(guān)鍵詞在簡單明了地揭示文獻主題內(nèi)容同時也是文章的精髓,關(guān)鍵詞的頻次和活躍程度代表了該領(lǐng)域理論和技術(shù)發(fā)展的方向以及它們的成熟度。經(jīng)統(tǒng)計,在“知識組織”領(lǐng)域中,關(guān)鍵詞為2316個,關(guān)鍵詞總頻次為5396,篇均關(guān)鍵詞為3.5個。
由于檢索主題詞為“知識組織”,其出現(xiàn)頻次必然過多,對研究現(xiàn)狀和熱點的描述沒有太大意義,因此將“知識組織”去除。同時,合并一些同義不同詞的關(guān)鍵詞,如“本體”、“本體論”、“領(lǐng)域本體”和“ontology”合并為“本體”,“圖書館學(xué)”、“圖書情報學(xué)”和“情報學(xué)”合并為“圖書情報學(xué)”,去除停用詞、無意義詞等。最終選取頻次大于等于10的54個高頻詞作為分析對象,如表1所示??煽闯?,知識管理、圖書館、本體、數(shù)字圖書館、圖書情報學(xué)、知識服務(wù)等是知識組織領(lǐng)域的高頻熱點詞匯。
表1 2001-2011年國內(nèi)知識組織研究高頻關(guān)鍵詞
2.3.2 構(gòu)造矩陣
由于以上選取的是“知識組織”文獻中出現(xiàn)頻次較高的詞,一定程度上可以代表知識組織領(lǐng)域的研究現(xiàn)狀和熱點,但往往某一研究熱點會涉及其他相關(guān)研究熱點與知識點。同時,不同的學(xué)者對關(guān)鍵詞的把握程度也會有所差異。因此,只是通過關(guān)鍵詞的頻次反映研究熱點是不科學(xué)的,這就需要對選擇的關(guān)鍵詞進行相應(yīng)的數(shù)據(jù)處理。本文利用浙江大學(xué)信息資源管理研究所設(shè)計的文獻題錄信息統(tǒng)計分析工具(Statistical Analysis Toolkit for Informatics,SA-TI),將高頻關(guān)鍵詞進行兩兩配對,統(tǒng)計在同一篇文章中共同出現(xiàn)的次數(shù),形成了54×54的共詞矩陣。
由于關(guān)鍵詞自身頻次的大小直接決定共現(xiàn)頻次的相對值,為了消除自身頻次所帶來的差異,以揭示關(guān)鍵詞之間真正隱含的關(guān)系,本文利用Ochiia[9]相關(guān)系數(shù)將共詞矩陣轉(zhuǎn)換為相關(guān)矩陣。
其中,Cij為A、B兩詞共同出現(xiàn)的次數(shù),Ci為A詞出現(xiàn)的頻次,Cj為B詞出現(xiàn)的頻次,如圖書館與知識管理的 Ochiia系數(shù)298664。相關(guān)矩陣中的數(shù)據(jù)表示兩關(guān)鍵詞之間的相關(guān)程度,數(shù)值越大表示兩詞之間的距離越近、相關(guān)性越大;相反,數(shù)值越小表示兩詞之間的距離越遠、相關(guān)性越小。例如知識管理與圖書館的Ochiia系數(shù)為0.298664,知識管理與知識的Ochiia系數(shù)為0.071414,這就說明知識管理與圖書館的相關(guān)性大于知識管理與知識的相關(guān)性。
由于關(guān)鍵詞較多,在相關(guān)矩陣中的零值較多。為方便進一步處理,用“1”與相關(guān)矩陣中的數(shù)據(jù)相減,得到相異矩陣。在相異矩陣中,兩關(guān)鍵詞之間的數(shù)值越大,表示關(guān)鍵詞之間的距離越遠、相關(guān)性越小;相反,數(shù)值越小,表示兩次之間的距離越近、相關(guān)性越大。
因子分析是用盡可能少的因子去描述眾多指標(biāo)或影響要素間的關(guān)系。利用因子分析方法可以將多個影響因子壓縮為幾個少數(shù)主要影響因子,即相關(guān)性比較密切的幾個變量歸為一類,每一類稱為一個公共因子,這樣可以用幾個公共因子反映原始信息的大部分內(nèi)容??筛鶕?jù)因子得分值和累計貢獻率,在因子所構(gòu)成的空間中把研究對象的變量點畫出來,從而達到客觀分類的目的,并以此作為聚類分析的依據(jù)[10]。
利用SPSS19.0對關(guān)鍵詞的54*54的共詞矩陣進行因子分析,首先將其轉(zhuǎn)化為斯皮爾曼相關(guān)系數(shù)矩陣(Spearman),將數(shù)據(jù)導(dǎo)入SPSS中,利用主成分分析法、協(xié)方差矩陣、基于特征值大于1與最大平衡值法進行因子分析,分析得到的解釋總方差如表2所示,表2中列出了部分主成分,它們按照特征值由大到小排列。按照“特征值大于1”和“累計貢獻率達到85%以上”的原則,由此可知,進行聚類分析時,可將本文研究的高頻關(guān)鍵詞分為6-7類。由因子分析碎石圖驗證,可知分為6-7類較為合理,如圖2所示。
圖2 2001-2011年國內(nèi)知識組織關(guān)鍵詞因子分析碎石圖
表2 2001-2011年國內(nèi)知識組織關(guān)鍵詞因子分析解釋的總方差
聚類分析是根據(jù)事物的特征對其進行分類,根據(jù)個體之間相似程度的大小,相似程度較大的個體聚為一類,把另外一些相似程度較大的個體聚為另一類,然后把關(guān)系密切的類聚到一個小類團中,直到把所有個體和類團都聚合完畢,形成一個由小到大的分類系統(tǒng)[11]。如根據(jù)地理位置和特征,每個國家都屬于一個大洲,如中國、印度等屬于亞洲,美國、加拿大等屬于北美洲,最終構(gòu)成了七大洲,七大洲又組成了全球國家,形成一個從小到大的系統(tǒng)。本文中的聚類分析是根據(jù)SPSS軟件中的平方Euclidean距離作為分類的依據(jù),依次進行聚類。
將54*54相異矩陣導(dǎo)入SPSS中,選擇平方Euclidean距離作為度量標(biāo)準(zhǔn),類間距離的計算方法采用組內(nèi)連接。根據(jù)因子分析的結(jié)果,指定聚類數(shù)為6-7類,通過關(guān)鍵詞的直觀理論分析以及聚類分析的結(jié)果,本文認為將54個高頻關(guān)鍵詞分為6類比較合理,聚類結(jié)果如圖3所示。這6類分別為:知識組織對象研究、知識組織服務(wù)研究、知識組織發(fā)展研究、知識組織技術(shù)研究、知識組織體系研究和知識組織系統(tǒng)研究。
圖3 2001-2011年國內(nèi)知識組織關(guān)鍵詞聚類分析圖
多維尺度分析通過低維空間展示研究對象之間的聯(lián)系,并利用平面距離反映研究對象之間的相似度,多維尺度分析法將多維空間的研究對象簡化到低維空間進行定位、分析和歸類,同時又保留對象間原始關(guān)系的數(shù)據(jù)分析方法。在多維尺度分析結(jié)果中,被分析的個體以點狀分布,具有高度相似性的個體聚集在一起,形成一類,越在中間的個體越核心[12]。
在SPSS中以相異矩陣為基礎(chǔ)進行多維尺度分析,結(jié)合因子分析和聚類分析的結(jié)果,多維尺度圖如圖4表示。
圖4 2001-2011年國內(nèi)知識組織關(guān)鍵詞多維尺度分析圖
根據(jù)SPSS多元統(tǒng)計分析的結(jié)果,將知識組織領(lǐng)域的研究分為6類。
在該類中,共包括4個高頻關(guān)鍵詞,分別是:圖書情報學(xué)、研究對象、綜述以及圖書館學(xué)理論。知識組織的研究對象,在圖書情報學(xué)領(lǐng)域已經(jīng)不僅僅是知識組織概念、理論和方法的研究。本類中的知識組織對象研究,是理論層次上的綜述性研究,它涵蓋了知識組織領(lǐng)域的多個方面,如:技術(shù)、應(yīng)用、體系等,尤其是隨著Web2.0技術(shù)、語義網(wǎng)技術(shù)以及網(wǎng)格技術(shù)的出現(xiàn),知識組織的研究對象應(yīng)該更加具有多元性和針對性。該類涉及到的4個高頻關(guān)鍵詞,雖不是研究熱點,但卻是知識組織中不可或缺的一部分。由于學(xué)者們對知識組織領(lǐng)域中的研究進行了細致劃分,而對知識組織綜述性的研究有所欠缺,如果將知識組織的研究對象進行明確界定,便于學(xué)者針對具體的研究對象進行深入研究。
該類涉及到12個高頻關(guān)鍵詞,占所有高頻關(guān)鍵詞的22.2%,其中,知識管理、圖書館、知識服務(wù)、知識經(jīng)濟、知識創(chuàng)新等關(guān)鍵詞的頻次都在40以上,知識管理和圖書館是第一和第二高頻關(guān)鍵詞,該類團的關(guān)鍵詞總頻次占所有關(guān)鍵詞總頻次的41.8%,說明此類研究是知識組織領(lǐng)域研究的熱點問題。在當(dāng)今網(wǎng)絡(luò)信息化時代,知識組織領(lǐng)域的服務(wù)研究主要是網(wǎng)絡(luò)環(huán)境下面向知識管理的服務(wù),包括圖書館管理、信息管理、知識管理,而知識管理又包括知識經(jīng)濟、知識服務(wù)以及知識創(chuàng)新等多個方面。但在面向服務(wù)的知識組織研究中,用戶沒有作為高頻關(guān)鍵詞出現(xiàn)在此類團中,說明目前知識組織服務(wù)缺乏對用戶方面的相關(guān)研究,用戶是服務(wù)的最終受益者,所以應(yīng)該加強對用戶方面的探討和研究。
知識組織的發(fā)展研究屬于基礎(chǔ)理論的研究范疇,是理論研究的重要組成部分,該類涉及到7個高頻關(guān)鍵詞,比較有代表性的是知識共享、隱形知識、企業(yè)以及知識轉(zhuǎn)移等。通過發(fā)展趨勢的研究,學(xué)者可以了解研究領(lǐng)域或?qū)W科的發(fā)展變化以及發(fā)展方向等。本文中的多元分析結(jié)果顯示,知識組織領(lǐng)域的發(fā)展研究逐漸擴展到企業(yè)領(lǐng)域中的知識遷移方面,知識組織已經(jīng)不僅局限在圖書情報領(lǐng)域,正在向其他領(lǐng)域延伸,這種延伸包括隱性知識的轉(zhuǎn)化,知識的共享遷移等。
該類涉及到的9個高頻關(guān)鍵詞顯示,知識組織領(lǐng)域中目前使用的技術(shù)主要包括專家系統(tǒng)、故障診斷、知識庫技術(shù)、數(shù)據(jù)庫技術(shù)、知識檢索技術(shù)、知識構(gòu)建技術(shù)等。應(yīng)該拓展知識組織領(lǐng)域技術(shù)的研究范圍,將其他領(lǐng)域的先進技術(shù)遷移到知識組織方面,促進知識組織技術(shù)和理論的共同發(fā)展。
該類涉及到15個高頻關(guān)鍵詞,占高頻關(guān)鍵詞的27.8%,是所占比重最大的一類,說明知識組織體系研究是知識組織領(lǐng)域的又一研究熱點,代表關(guān)鍵詞有本體、分類法、敘詞表、元數(shù)據(jù)、主題圖、知識地圖等。知識組織體系是用于進行知識組織的各類規(guī)范和方法的統(tǒng)稱,是獲取、利用知識的重要手段。由于知識組織體系涉及到的內(nèi)容比較寬泛,所以在知識組織體系的研究中可能也包括知識組織理論與技術(shù)結(jié)合的相關(guān)內(nèi)容[13]。目前知識組織體系在語義網(wǎng)的背景下,正趨于網(wǎng)絡(luò)化方向發(fā)展。
該類涉及到7個高頻關(guān)鍵詞,代表關(guān)鍵詞有知識組織系統(tǒng)、知識導(dǎo)航、主題地圖等。知識組織系統(tǒng)的核心在于構(gòu)建概念(知識)屬性的形式化描述框架以滿足基于及其理解的信息處理和知識管理的功能需求并實現(xiàn)不同系統(tǒng)之間不同層面上的互操作。國內(nèi)在知識組織系統(tǒng)的研究尚處于初級階段,沒有形成核心的可視化系統(tǒng),期望對知識組織系統(tǒng)理論的研究可以形成集資源、技術(shù)、檢索、導(dǎo)航等多方面為一體的系統(tǒng)。
本文以CNKI數(shù)據(jù)庫中2001-2011年國內(nèi)知識組織領(lǐng)域的文獻為研究對象,提取其高頻關(guān)鍵詞,利用共詞分析方法進行可視化分析,發(fā)現(xiàn)了國內(nèi)知識組織領(lǐng)域的主要研究內(nèi)容:知識組織對象研究、知識組織服務(wù)研究、知識組織發(fā)展研究、知識組織技術(shù)研究、知識組織體系研究和知識組織系統(tǒng)研究,并對各研究主題進行了進一步的分析與探討。通過共詞分析方法的應(yīng)用及領(lǐng)域主題的分析,揭示了國內(nèi)知識組織領(lǐng)域不同主題之間的相互關(guān)系,比較清晰系統(tǒng)地描繪國內(nèi)知識組織領(lǐng)域的研究現(xiàn)狀和研究熱點,以期為進一步研究提供借鑒。
〔1〕 王知津.從情報組織到知識組織[J].情報學(xué)報,1998,03:71-75
〔2〕 李秀云.網(wǎng)絡(luò)環(huán)境下的知識組織研究[J].中國圖書館學(xué)報,2002,05:35 -38
〔3〕 蔣永福.論知識組織[J].圖書情報工作,2000,06:5-10
〔4〕 Barat,A.H.Human perception and knowledge organization:visual?imagery[J].Library Hi Tech,2007,3:338 -351
〔5〕 Hj?rland,B.Facet analysis:The logical approach to knowledge organization[J].Information Processing and Management,2012,10:1-13
〔6〕 宋朋,張秀蘭.我國最近十年知識組織研究的新進展[J].圖書館學(xué)研究,2010,18:7 -11
〔7〕 張文亮,郭金婷.近5年我國知識組織研究綜述[J].圖書館學(xué)研究,2012,02:2 -5+11
〔8〕 湯建民,余豐民.國內(nèi)知識圖譜研究綜述與評估:2004-2010年[J].情報資料工作,2012,01:16-21
〔9〕 張玉,郭會雨,陳建青.我國數(shù)據(jù)挖掘研究現(xiàn)狀分析——基于共詞分析視角[J]. 情報科學(xué),2011,10:1589-1593
〔10〕 付鑫金,方曙,龐弘燊.基于共詞分析的我國情報學(xué)博碩士學(xué)位論文研究熱點分析[J].情報科學(xué),2011,11:1722-1725
〔11〕 張勤,馬費成.國外知識管理研究范式——以共詞分析為方法[J]. 管理科學(xué)學(xué)報,2007,06:65-75
〔12〕 鐘偉金,李佳.共詞分析法研究(一)——共詞分析的過程與方式[J].情報雜志,2008,05:70-72
〔13〕 宋文.知識組織體系語義互操作研究[J].圖書館論壇,2012,06:117 -121