■張 靜 劉筱敏 武麗麗 馬 娜
中國科學(xué)院文獻(xiàn)情報(bào)中心北京北四環(huán)西路33號 100190
如何將期刊進(jìn)行學(xué)科定位,是期刊評估中至關(guān)重要的問題,目前解決這個(gè)問題的一般方法是依據(jù)一種學(xué)科分類體系,由相關(guān)專家或者工作者進(jìn)行主觀判斷,對期刊進(jìn)行學(xué)科定位。
學(xué)科分類體系是科學(xué)知識內(nèi)在結(jié)構(gòu)的一種外在表現(xiàn),揭示了科學(xué)研究之間內(nèi)在關(guān)聯(lián),具有重要的理論研究意義和現(xiàn)實(shí)應(yīng)用價(jià)值。以《中國圖書分類法》(以下簡稱《中圖法》)、《杜威十進(jìn)分類法》、《美國國會圖書館圖書分類法》為代表的學(xué)科分類體系稱之為專家分類體系,是目前應(yīng)用較廣泛的學(xué)科分類體系。專家分類體系是通過各學(xué)科領(lǐng)域?qū)<覍δ骋浑A段科學(xué)發(fā)展的特點(diǎn)以及科學(xué)發(fā)展的歷史,對學(xué)科之間的關(guān)系進(jìn)行全面梳理、提煉、總結(jié)、整理,構(gòu)建的表達(dá)知識之間相關(guān)關(guān)系的體系。這些專家分類體系廣泛應(yīng)用于期刊、論文內(nèi)容揭示,信息組織等各個(gè)方面。
專家分類體系解決了建立合適的分類體系的問題,但復(fù)雜而多層級的分類體系,是否適用于期刊的分類需求?在實(shí)際應(yīng)用中,除了這些專家分類體系以外,一些機(jī)構(gòu)從實(shí)用的角度出發(fā),獨(dú)自構(gòu)建了適用于自身需求的學(xué)科體系,例如,Web of Science的ESI數(shù)據(jù)庫中使用的22個(gè)學(xué)科類目,JCR-science中使用的179個(gè)學(xué)科類目,JCR的學(xué)科類目沒有層級化的結(jié)構(gòu),所有的類目之間是平行關(guān)系,這種結(jié)構(gòu)更類似于主題類目。一些學(xué)者根據(jù)學(xué)科發(fā)展的特點(diǎn)和經(jīng)驗(yàn)構(gòu)建的分類體系,例如Gl?nzel等人[1]在 2003年、Boyack等人[2]在 2005年分別提出的包含15個(gè)類目的分類體系。
專家分類體系凝練了人類科學(xué)研究的成果及科學(xué)研究之間豐富的關(guān)系,但從客觀性和科學(xué)發(fā)展的角度來看,專家分類體系也存在一些弊端。鑒于此,基于客觀的科學(xué)計(jì)量的學(xué)科分類體系和專業(yè)領(lǐng)域挖掘的研究應(yīng)運(yùn)而生。1936年,Cason和Lubotsky[3]就運(yùn)用期刊之間的互引關(guān)系分析期刊之間的相互關(guān)系以及學(xué)科領(lǐng)域之間的相互影響。1953年Daniel和Louttit[4]首次在心理學(xué)領(lǐng)域運(yùn)用期刊之間的互引關(guān)系矩陣對期刊進(jìn)行聚類分析。1972年,Narin等人[5]首次根據(jù)期刊之間的相互引用關(guān)系,研究了從屬于不同學(xué)科分類的期刊之間的相互關(guān)系。之后,Narin[6]和 Leydesdorff[7-8]又運(yùn)用了諸如PCA、FA等多元統(tǒng)計(jì)分析方法對期刊之間的互引關(guān)系進(jìn)行了自下而上的凝聚式聚類分析,對聚合得到的學(xué)科分類體系與現(xiàn)存學(xué)科分類體系進(jìn)行了驗(yàn)證性研究。2004年,Leydesdorff[9-10]又提出利用 biconnected component analysis等圖論方法對來自JCR的期刊互引圖模型結(jié)構(gòu)進(jìn)行聚類分析。Leydesdorff等[11]在2008年同樣基于期刊之間的互引關(guān)系矩陣對科學(xué)結(jié)構(gòu)做了可視化分析,并且在時(shí)間維度上研究了科學(xué)結(jié)構(gòu)發(fā)展變化的趨勢。2010年和2012年,Zhang L等人[12-13]研究了基于期刊互引關(guān)系建立的學(xué)科分類體系與Gl?nzel等人建立的包含15個(gè)類目的專家系統(tǒng)的一致性,同時(shí)對現(xiàn)有專家系統(tǒng)的調(diào)整和改善給出參考和建議。此外,Robert等人[14]選取特定期刊的文章為研究對象,通過研究期刊文章之間的相互引用關(guān)系挖掘相應(yīng)學(xué)科中的研究領(lǐng)域。Chaomei Chen等人[15]分別基于文章之間的相互引用關(guān)系和作者之間的相互引用關(guān)系對科學(xué)結(jié)構(gòu)進(jìn)行了定量分析,Howard等[16]利用作者之間的互引關(guān)系,研究隱藏在作者背后的科學(xué)結(jié)構(gòu)的發(fā)展變化。
前人的研究說明了在已有學(xué)科體系框架下,可以通過互引關(guān)系,觀察學(xué)科結(jié)構(gòu)的變化,修正已有的分類體系。其次,可以通過互引關(guān)系,采用各種聚類方法,形成新的分類體系。當(dāng)然這種分類體系與專家分析體系比較更為簡單化,體系結(jié)構(gòu)不夠豐滿。但這些研究提供了一個(gè)對于期刊分類的很好思路。
本文以中國科學(xué)引文數(shù)據(jù)庫(CSCD)數(shù)據(jù)為基礎(chǔ),借助期刊之間耦合強(qiáng)度的計(jì)算,在《中圖法》10個(gè)自然科學(xué)一級類目框架不變的前提下,分析自然科學(xué)領(lǐng)域的126個(gè)二級類目之間的相關(guān)關(guān)系所體現(xiàn)出的新特征,通過對多種聚類分析方法進(jìn)行集成學(xué)習(xí)(集成學(xué)習(xí)主要運(yùn)用經(jīng)典的多模型投票的策略),對現(xiàn)有的《中圖法》的二級類目進(jìn)行合并和修正,表達(dá)適用于期刊分類的二級分類體系。
引證關(guān)系是科學(xué)發(fā)展規(guī)律的表現(xiàn),體現(xiàn)了科學(xué)知識的累積性、連續(xù)性和繼承性,能夠在一定程度上反映科學(xué)結(jié)構(gòu)的發(fā)展變化。本文對于學(xué)科分類的研究以期刊之間的相互引用關(guān)系為基礎(chǔ),通過研究期刊之間的相似性反映學(xué)科之間的相似性,以求在已有專家分類體系的基礎(chǔ)上,利用引文客觀反映學(xué)科之間關(guān)系的特征,找到適應(yīng)期刊特點(diǎn)的合適的分類體系。
文章耦合和同被引是互引關(guān)系的兩個(gè)方面的表征,是測度互引關(guān)系網(wǎng)絡(luò)中網(wǎng)絡(luò)節(jié)點(diǎn)相關(guān)性的兩種主要度量方法。耦合的概念最早提出是在1963年,美國麻省理工學(xué)院的Kessler教授首次使用“文獻(xiàn)耦合”這一術(shù)語描述文獻(xiàn)之間的相關(guān)關(guān)系[17]。此后,耦合強(qiáng)度逐漸運(yùn)用在度量互引網(wǎng)絡(luò)中期刊之間的相關(guān)關(guān)系[18-21]以及作者之間的相關(guān)關(guān)系[22-24]的研究中。同被引的概念最早于1973年由前蘇聯(lián)情報(bào)學(xué)家 Marshakova I[35]和美國情報(bào)學(xué)家 Henry Small[25]分別提出,用于度量互引網(wǎng)絡(luò)中文章之間的兩兩相似性,文獻(xiàn)同被引的概念還被進(jìn)一步引用到度量期刊之間相關(guān)關(guān)系的期刊同被引研究[15,26]以及作者同被引研究[14]中。耦合關(guān)系和同被引關(guān)系分別從互引關(guān)系的兩個(gè)方向度量了網(wǎng)絡(luò)節(jié)點(diǎn)之間的相關(guān)關(guān)系。耦合關(guān)系度量了后向的引用關(guān)系,反映了一種靜態(tài)穩(wěn)定的相關(guān)關(guān)系;同被引關(guān)系度量了前向的引用關(guān)系,反映了一種動(dòng)態(tài)變化的相關(guān)關(guān)系。從互引網(wǎng)絡(luò)的角度,耦合與同被引均為互引網(wǎng)絡(luò)中步長為1的相關(guān)性度量方法。
盡管側(cè)重點(diǎn)不同,期刊耦合強(qiáng)度和期刊同被引強(qiáng)度的強(qiáng)弱均可以反映學(xué)科之間的相關(guān)關(guān)系。相比較學(xué)科之間的期刊同被引強(qiáng)度是通過度量相同施引期刊的數(shù)量來計(jì)算學(xué)科之間的相關(guān)關(guān)系,本文選取學(xué)科的期刊耦合強(qiáng)度作為衡量學(xué)科之間相關(guān)關(guān)系的度量方法,通過統(tǒng)計(jì)期刊兩兩之間同引期刊的數(shù)量度量期刊之間的相似性,從而保證參與分析的期刊所組成的樣本盡可能增大,進(jìn)而提高后續(xù)分析的精確度。
基于互引行為的學(xué)科分類研究的本質(zhì)在于互引網(wǎng)絡(luò)中各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的共性與異性分析,而學(xué)科分類或者專業(yè)研究領(lǐng)域即為這些具有共性的節(jié)點(diǎn)所組成的集合的抽象概括,其中尋找共性節(jié)點(diǎn)集合的過程也即為聚類分析的過程。前期的研究中,聚類分析的方法可以分為三類,一類是基于多元統(tǒng)計(jì)思想的聚類分析方法,諸如主成分分析(因子分析)[7,16,27];一類是利用經(jīng)典的聚類分析方法,層次聚類[12-14]、最小生成樹[28]等;一類是基于社會網(wǎng)絡(luò)建立圖模型的聚類方法[15,21,24,26]?;诙嘣y(tǒng)計(jì)思想的聚類分析方法將具有互引關(guān)系的節(jié)點(diǎn)對分別作為分析特征和分析對象,借助投影的思想將具有相同特征的節(jié)點(diǎn)聚集成類,但是類的劃分沒有明確的標(biāo)準(zhǔn),類成員的選擇也沒有明確的條件,無法形成具有明確層次結(jié)構(gòu)的學(xué)科分類體系?;谏鐣W(wǎng)絡(luò)建立圖模型的聚類方法主要從圖的角度出發(fā)以整個(gè)引用網(wǎng)絡(luò)作為分析對象,網(wǎng)絡(luò)中節(jié)點(diǎn)之間的相似度的度量采用超越一步相似的度量方法,可以全面的反映整個(gè)互引網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)之間的共性和差異,但是此類方法的效果與參與分析的數(shù)據(jù)質(zhì)量以及樣本量的大小有很大的關(guān)系。經(jīng)典聚類方法的主要研究對象并非互引網(wǎng)絡(luò),而是互引網(wǎng)絡(luò)中的節(jié)點(diǎn)所組成的集合。節(jié)點(diǎn)之間相似度主要是基于互引關(guān)系網(wǎng)絡(luò)中的步長為1的相似性度量方法確定,相比較基于社會網(wǎng)絡(luò)圖模型結(jié)構(gòu)的聚類方法,經(jīng)典聚類方法對于原始數(shù)據(jù)存在利用不充分的問題,但是經(jīng)典聚類方法不受數(shù)據(jù)質(zhì)量以及樣本量大小的限制。
通過研究以上聚類分析領(lǐng)域中的主要方法,針對《中圖法》各個(gè)一級類目下的二級類目是小樣本量的特點(diǎn),所以考慮采用對樣本量要求不嚴(yán)格且對原始數(shù)據(jù)分布沒有預(yù)定假設(shè)條件的系統(tǒng)聚類方法和分割聚類方法兩大分類體系中的13種方法(表1),并運(yùn)用機(jī)器學(xué)習(xí)中集成學(xué)習(xí)的思想,將13種方法的結(jié)果進(jìn)行綜合集成,最大限度的保證聚類結(jié)果的有效性和準(zhǔn)確度。
表1 聚類算法的選取
筆者以中國科學(xué)引文數(shù)據(jù)庫(CSCD)2009—2011年數(shù)據(jù)為基礎(chǔ)進(jìn)行計(jì)算,該數(shù)據(jù)集涵蓋1286種期刊,來自93萬篇文章的1250萬余條參考文獻(xiàn)數(shù)據(jù)。中國科學(xué)引文數(shù)據(jù)庫(CSCD)來源期刊的數(shù)量較少,但是引證期刊的數(shù)量較大,在度量學(xué)科相似度時(shí),相比較學(xué)科的期刊同被引強(qiáng)度,學(xué)科的期刊耦合強(qiáng)度所覆蓋的期刊數(shù)量更大,為了提高研究結(jié)果的準(zhǔn)確性,采用學(xué)科的期刊耦合強(qiáng)度作為度量學(xué)科分類之間相似度的方法。此外,中國科學(xué)引文數(shù)據(jù)庫(CSCD)來源期刊的論文均采用《中圖法》,為期刊耦合強(qiáng)度提供了數(shù)據(jù)基礎(chǔ)。
(1)統(tǒng)計(jì)對象為CSCD 2009—2011年來源文獻(xiàn)及其參考文獻(xiàn)中文獻(xiàn)類型為期刊的數(shù)據(jù);
(2)對于中國科學(xué)引文數(shù)據(jù)庫的來源文獻(xiàn)(施引文獻(xiàn)),將其學(xué)科分類聚類到《中圖法》的二級類目下;
(3)通過施引文獻(xiàn)與被引文獻(xiàn)之間的相互引用關(guān)系形成二級學(xué)科類目—期刊組成的鄰接矩陣,為了降低鄰接矩陣的稀疏度,對于每一個(gè)學(xué)科分類,根據(jù)其引用各個(gè)期刊的引用頻次截取累積百分比小于80%的期刊作為后續(xù)分析的對象;
(4)為了避免各個(gè)期刊卷期數(shù)量、發(fā)文類型、發(fā)文量等等因素對被引頻次數(shù)據(jù)造成的影響,本文將(3)中得到的鄰接矩陣轉(zhuǎn)化為0-1型矩陣,從而消除以上因素對于期刊耦合強(qiáng)度計(jì)算的干擾;
(5)通過計(jì)算(4)中0-1型鄰接矩陣中各個(gè)學(xué)科分類之間的Gower相關(guān)系數(shù),將此矩陣轉(zhuǎn)化為學(xué)科分類之間的相似度矩陣;
本文對于從屬于同一個(gè)一級學(xué)科的二級學(xué)科分類之間的相似度矩陣分別運(yùn)用表1中列出的各種方法進(jìn)行聚類分析。
(1)聚類分析過程
聚類分析是一種無監(jiān)督式分析方法,最終結(jié)果并沒有明確給出類的個(gè)數(shù),所以聚類個(gè)數(shù)的確定對最終結(jié)果具有較大的影響。為了減少聚類過程中主觀因素對聚類結(jié)果的影響,文章依據(jù) Gap statistic[34]確定最終的聚類個(gè)數(shù)。以《中圖法》一級類目生物科學(xué)(Q類)所包含的17個(gè)二級學(xué)科類目的聚類過程為例,將Q生物科學(xué)所包含的17個(gè)二級類目運(yùn)用DIANA進(jìn)行聚類分析。聚類個(gè)數(shù)的Gap統(tǒng)計(jì)量的分布圖(見圖1)顯示聚類個(gè)數(shù)為5類或6類最佳,再對比Gap統(tǒng)計(jì)量的取值發(fā)現(xiàn),最優(yōu)的聚類個(gè)數(shù)還是6類。
通過系統(tǒng)聚類法DIANA所得到的17個(gè)二級類目的聚類譜系圖(見圖2)可以發(fā)現(xiàn),聚類個(gè)數(shù)為6對應(yīng)的聚類結(jié)果是Q綜合單獨(dú)為一類;Q-(Q-0生物科學(xué)的理論和方法,Q-1生物科學(xué)現(xiàn)狀與發(fā)展,Q-3生物科學(xué)的研究方法、技術(shù),Q-4生物科學(xué)教育與普及,Q-9生物資源調(diào)查)與Q2細(xì)胞學(xué),Q3遺傳學(xué),Q4生理學(xué),Q5生物化學(xué),Q6生物物理學(xué),Q7分子生物學(xué),Q81生物工程學(xué)(生物技術(shù)),Q93微生物學(xué)為一類;Q1普通生物學(xué),Q94植物學(xué),Q95動(dòng)物學(xué),Q96昆蟲學(xué)聚集成一類;Q91古生物學(xué)單獨(dú)為一類;Q98人類學(xué)單獨(dú)為一類;Q89環(huán)境生物學(xué)單獨(dú)為一類。
圖1 Q類17個(gè)二級類目基于DIANA的Gap統(tǒng)計(jì)量分布圖
圖2 Q類17個(gè)二級類目基于DIANA的聚類譜系圖
表2 生物科學(xué)(Q類)17個(gè)二級類目聚類結(jié)果
通過對生物科學(xué)(Q類)運(yùn)用聚類分析發(fā)現(xiàn),許多二級類目之間確實(shí)存在高度相關(guān)的現(xiàn)象。Q89在《中圖法》中是一個(gè)交替類目,根據(jù)分類法的規(guī)則應(yīng)歸入X類中,由于在CSCD論文數(shù)據(jù)中存在Q89的分類,我們遵循基本數(shù)據(jù)的特征,保留了這個(gè)二級類目,通過聚類發(fā)現(xiàn)Q89在Q類中保持了獨(dú)立性,這種獨(dú)立性從另一個(gè)方面證明利用互引關(guān)系可以說明學(xué)科的特征,Q89類期刊引用行為與Q類期刊引用行為存在差異。
(2)修正的《中圖法》自然學(xué)科分類體系
通過期刊耦合強(qiáng)度的計(jì)算,文章對《中圖法》的自然科學(xué)類目體系進(jìn)行了修正,期望提供一個(gè)滿足學(xué)科分類發(fā)展特征的兼?zhèn)涠ㄐ蕴卣骱投刻攸c(diǎn)的學(xué)科分類體系。我們發(fā)現(xiàn)U(交通運(yùn)輸)、V(航空、航天)兩個(gè)類目期刊數(shù)量較少,不適用二級分類體系,僅用一級類目即可。X(環(huán)境科學(xué)、安全科學(xué))類,除X9以外,其他二級類目的期刊耦合強(qiáng)度極高,均可收斂到一個(gè)超級二級類目下。O(數(shù)理科學(xué)與化學(xué))、P(天文學(xué)、地球科學(xué))雖有一定的期刊耦合,但保持了二級類目的獨(dú)立性。Q(生物科學(xué))類和S(農(nóng)業(yè)科學(xué))類相比較中圖法的分類體系來說變動(dòng)比較大,這兩個(gè)大類中二級學(xué)科分類之間具有較強(qiáng)的相關(guān)性,Q類下設(shè)15個(gè)二級類目收斂為6個(gè)二級類目(見表2)。S類下設(shè)9個(gè)二級類目收斂為5個(gè)二級類目,其中S1(農(nóng)業(yè)基礎(chǔ)科學(xué))和S2(農(nóng)業(yè)工程)聚合成一個(gè)超級二級類目;S3(農(nóng)學(xué)/農(nóng)藝學(xué))、S5(農(nóng)作物)、S6(園藝)和 S4(植物保護(hù))聚合成一個(gè)超級二級類目,其他各二級類目保持不變。對Q、S類二級類目收斂的情況,我們又分析了《中圖法》中各二級學(xué)科分類的定義,發(fā)現(xiàn)二級類目的定義具有相似性,二級類目下設(shè)立的交替類目較多,互為交替,因此定性的定義與基于互引關(guān)系測度的相關(guān)關(guān)系具有很大程度的一致性。R(醫(yī)藥、衛(wèi)生)類和T(工程技術(shù))類的變動(dòng)幅度相對不是特別大,R類中,R4臨床醫(yī)學(xué),R5臨床各科兩個(gè)類聚合成一個(gè)與臨床實(shí)踐相關(guān)的類;T類中,TF冶金工業(yè),TG金屬學(xué)與金屬工藝兩個(gè)二級學(xué)科分類由于都與金屬具有緊密的聯(lián)系所以聚集成一個(gè)超級二級學(xué)科分類;TN電子技術(shù)、通信技術(shù),TP自動(dòng)化技術(shù)、計(jì)算技術(shù)由于具有較強(qiáng)的交叉性也聚集到一起形成一個(gè)超級二級學(xué)科分類,其他各個(gè)二級類目保持不變。
(3)聚類結(jié)果的語義驗(yàn)證
對《中圖法》自然學(xué)科的二級學(xué)科分類進(jìn)行聚類分析的過程中,也發(fā)現(xiàn)了個(gè)別的與目前的經(jīng)驗(yàn)知識存在差異的超級二級學(xué)科分類。比如,在對醫(yī)藥、衛(wèi)生(R類)學(xué)科進(jìn)行聚類分析的過程中發(fā)現(xiàn),盡管R74神經(jīng)病學(xué)與精神病學(xué)和R76耳鼻咽喉科學(xué)兩個(gè)二級學(xué)科分類在最優(yōu)聚類個(gè)數(shù)確定之后并未聚合成一個(gè)超級二級學(xué)科分類,但是在分析具體的相關(guān)矩陣過程中發(fā)現(xiàn),兩個(gè)二級學(xué)科分類相對于其他的二級學(xué)科分類具有較強(qiáng)的相關(guān)性。鑒于此,本文將上述存在認(rèn)知模糊的超級二級學(xué)科分類進(jìn)行文本和語義層面的分析,分析的主要對象為具有耦合關(guān)系的施引文獻(xiàn)和被引文獻(xiàn),主要方法為分別提取以上超級二級學(xué)科分類中具有耦合關(guān)系的施引文獻(xiàn)對和被引文獻(xiàn)集合的標(biāo)題和關(guān)鍵詞等文本類數(shù)據(jù)中所包含的研究主題?;谖谋就诰蛑械闹黝}分析模型(LDA),分別對具有耦合關(guān)系的施引文獻(xiàn)序列對和被引文獻(xiàn)集合建立主題模型,從而在語義層面分析兩個(gè)二級學(xué)科分類較強(qiáng)期刊耦合強(qiáng)度的成因,為學(xué)科分類的發(fā)展研究提供參考。
通過表3可以發(fā)現(xiàn),R74和R76學(xué)科具有耦合關(guān)系的施引文獻(xiàn)對的研究主題大部分為腦中風(fēng)之后的吞咽障礙以及相關(guān)的吞咽功能障礙、呼吸睡眠障礙等并發(fā)癥的研究;被引文獻(xiàn)集合的研究主題與施引文獻(xiàn)對的研究主題基本一致,其研究主題主要集中在腦卒中之后的吞咽障礙,此外還包括耳鼻咽喉等疾病治療過程中的所涉及的神經(jīng)問題研究。
表3 R74神經(jīng)病學(xué)與精神病學(xué)和R76耳鼻咽喉科學(xué)耦合研究主題列表
TD和TU兩個(gè)學(xué)科的耦合研究主題,從施引文獻(xiàn)對方面分析主要集中在建筑科學(xué)(TU)中的巖石力學(xué)在煤礦建造、煤礦開采、煤礦安全試驗(yàn)研究以及其他的建筑學(xué)理論在煤礦設(shè)計(jì)環(huán)節(jié)的理論研究;被引文獻(xiàn)中所包含的研究主題與施引文獻(xiàn)對所提取的研究主題基本吻合,更多的是相關(guān)的建筑學(xué)、力學(xué)等理論在煤礦建造和開采過程中的應(yīng)用。
綜合以上對兩個(gè)超級二級學(xué)科分類的文本層面的研究發(fā)現(xiàn),首先,基于期刊耦合強(qiáng)度的研究具有現(xiàn)實(shí)的意義,以上兩個(gè)超級二級學(xué)科分類的主題分析結(jié)果都顯示,這些研究主題具有一致性,包含一定的統(tǒng)計(jì)規(guī)律,即從知識和語義的角度分析,耦合相關(guān)性較強(qiáng)的學(xué)科在研究內(nèi)容上具有一致性,有確定的交叉研究出現(xiàn)使得二者出現(xiàn)相關(guān)性,運(yùn)用期刊耦合強(qiáng)度可以反映學(xué)科之間的相關(guān)關(guān)系;再者,在對超級學(xué)科分類解釋的過程中,從具有耦合關(guān)系的施引文獻(xiàn)對抽取主題與從被引文獻(xiàn)集合抽取主題的解釋能力大致一致,側(cè)面反映出具有耦合關(guān)系的被引文獻(xiàn)集合具有解釋新生成學(xué)科分類的能力。但是相比較被引文獻(xiàn)集合,施引文獻(xiàn)對由于數(shù)據(jù)量更豐富且包含耦合文獻(xiàn)之間的相關(guān)關(guān)系所以對新形成學(xué)科的解釋力度更強(qiáng)一些;最后,各個(gè)學(xué)科分類的相關(guān)性在不斷發(fā)展變化,基于定量分析得到的學(xué)科分類反映了科學(xué)結(jié)構(gòu)的交叉融合,也在一定程度上反映了科學(xué)研究解決現(xiàn)實(shí)問題的客觀現(xiàn)實(shí)。
表4 TD礦業(yè)工程和TU建筑科學(xué)耦合研究主題列表
科學(xué)的迅速發(fā)展促使定量描述科學(xué)發(fā)展規(guī)律的科學(xué)結(jié)構(gòu)研究不斷的發(fā)展,學(xué)科分類是科學(xué)結(jié)構(gòu)研究中比較重要的組成部分,基于學(xué)科之間的期刊耦合強(qiáng)度定量研究學(xué)科分類的發(fā)展是本文的研究目的。本文在前期研究的基礎(chǔ)上,將定性研究與定量研究綜合于學(xué)科分類體系的研究過程中,綜合定量研究和定性研究的優(yōu)勢,以學(xué)科分類之間的期刊耦合強(qiáng)度作為學(xué)科之間相似度的度量,借助聚類分析的思想研究學(xué)科分類之間的關(guān)系??偨Y(jié)研究思路和方法,如下:
首先,明確研究方向,本文的學(xué)科分類體系研究建立在《中圖法》所確定的專家學(xué)科分類體系之上,所研究的學(xué)科分類的范圍為分類法所確定的所有10個(gè)自然科學(xué)的一級分類,分析的結(jié)果對于自然科學(xué)領(lǐng)域的學(xué)科分類具有普遍的適用性。
其次,數(shù)據(jù)分析基于大樣本量研究的數(shù)據(jù)來源為中國科學(xué)引文數(shù)據(jù)庫(CSCD),采用期刊的耦合強(qiáng)度充分的保證了足夠的樣本量,最大限度的擴(kuò)大參與分析的數(shù)據(jù)量。
第三采用多種數(shù)據(jù)計(jì)算方法。本文對于二級學(xué)科分類之間的相關(guān)關(guān)系研究借助聚類分析的思想,聚類方案的確定充分考慮到了數(shù)據(jù)的特征、方法的特點(diǎn),并且借助集成學(xué)習(xí)的思想保證聚類結(jié)果的穩(wěn)定性和準(zhǔn)確度,在分析的基礎(chǔ)上明確的給出了一個(gè)符合前期經(jīng)驗(yàn)認(rèn)知同時(shí)融合了學(xué)科發(fā)展知識的修正的學(xué)科分類體系。
第四,數(shù)據(jù)計(jì)算與觀察。對其中出現(xiàn)的一些具有認(rèn)知模糊的超級二級學(xué)科分類結(jié)果從文本分析的層面,運(yùn)用主題挖掘的方法給出解釋,并發(fā)現(xiàn)以上認(rèn)知模糊的超級二級學(xué)科確實(shí)存在一些具有統(tǒng)計(jì)學(xué)意義的交叉研究點(diǎn),從而導(dǎo)致兩個(gè)學(xué)科在耦合行為上具有較強(qiáng)的相似性。最后,在嘗試對超級學(xué)科進(jìn)行解釋過程中,本文也發(fā)現(xiàn)基于施引文獻(xiàn)和基于耦合文獻(xiàn)的語義解釋的結(jié)果具有一致性,在解釋能力上,施引文獻(xiàn)的解釋能力要更強(qiáng)一些,對于前期研究中如何選取分析對象解釋新得到學(xué)科分類的問題給出了論證。期望對后續(xù)的學(xué)科分類研究和應(yīng)用提供一定的參考。
本文雖然給出了一個(gè)修正的學(xué)科分類體系,但是在學(xué)科分類的研究方面還存在一些不足之處,比如學(xué)科分類相關(guān)性的研究并未將整個(gè)引文網(wǎng)絡(luò)綜合考量;再者,分類依據(jù)來自于論文給定的中圖分類號,由于《中圖法》類目結(jié)構(gòu)和分類方法,在使用過程中對類目的理解不同,可能會導(dǎo)致分析會所偏差;最后,不打破一級學(xué)科分類體系的研究對于發(fā)現(xiàn)新型交叉學(xué)科可能存在一些制約。本文期望進(jìn)一步將互引網(wǎng)絡(luò)與文本挖掘、NLP相結(jié)合,從引文和語義兩個(gè)層面同時(shí)研究學(xué)科分類體系的發(fā)展變化,在發(fā)現(xiàn)更大范圍的交叉學(xué)科方面進(jìn)行一些研究,從而更加科學(xué)的研究科學(xué)結(jié)構(gòu)的發(fā)展變化,為科學(xué)的發(fā)展規(guī)律研究提供一定的參考。
[1]Gl?nzelW ,Schubert A.A new classification scheme of science fields and subfields designed for scientometric evaluation purposes[J].Scientometrics,2003,56(3):357-367.
[2]Boyack KW,Klavans R,B?rner K.Mapping the backbone of science[J].Scientometrics,2005,64(3):351-374.
[3]Cason H,Lubotskyl M.The influence and dependence of psychological journals on each other[J].Psychological Bulletin,1936,33(2):95-103.
[4]Daniel R S,Louititi C M.Professional Problems in Psychology[M].New York:Prentice Hall,1953.
[5]Narin F,Carpenter M,Berlt NC.Interrelationships of scientific journals[J].Journal of the American Society for Information Science,1972,23(5):323-331.
[6]Narin F.Evaluative bibliometrics:The use of publication and citation analysis in the evaluation of scientific activity[M].Washington,DC:National Science Foundation,1976.
[7]Leydesdorff L,Cozzen S E.The Delineation Of Specialties in Terms of Journals using the Dynam ic Journal Set of the SCI[J].Scientometrics,1993,26(1):135-156.
[8]Leydesdorff L.Dynam ic and evolutionary updates of classificatory schemes in scientific journal structures[J].Journal of the American Society for Information Science and Technology,2002,53(12):987-994.
[9]Leydesdorff L.Clusters and maps of science journals based on bi-connected graphs in the Journal Citation Reports[J].Journal of Documentation,2004,60(4):371-427.
[10]Leydesdorff L.Top-down decomposition of the Journal Citation Report of the Social Science Citation Index:Graph-and factoranalytical approaches[J].Scientometrics,2004,60(2):159-180.
[11]Leydesdorff L.,Rafols,I.A globalmap of science based on the ISI discipline categories[J].Journal of the American Society for Information Science and Technology,2008,60(2):348-362.
[12]Zhang L,Janssens F,Liang L,et al.Journal cross-citation analysis for validation and improvement of journal-based discipline classification in bibliometric research [J].Scientometrics,2010,82(5):687-706.
[13]張琳,梁立明,劉則淵,等.基于期刊聚類與SOOI分類體系的科學(xué)結(jié)構(gòu)研究[J].科學(xué)學(xué)研究,2012,30(9):14-22.
[14]Braam RR,Moed HF.,van Raan AFJ.Mapping of Science by Combined Co-Citation and Word Analysis.I.Structural Aspects[J],Journal of the American Society for Information Science and Technology,1991,42(4):233-251.
[15]Chen CM,Ibekwe-SanJuan F,Hou JH.The Structure and Dynamicsof Cocitation Clusters:AMultiple-Perspective Cocitation Analysis[J].Journal of the American Society for Information Science and Technology,2010,61(7):1386-1409.
[16]White HD,McCain KW.Visualizing a Discipline:An Author Co-Citation Analysis of Information Science,1972 - 1995[J].Journal of the American Society for Information Science,1998,49(4):327-355.
[17]Kessler MM,Bibliographic coupling between scientific Papers[J].American Documentation,1963,14(1):10-25.
[18]岳增慧,方曙.基于共鏈與共引關(guān)系的期刊結(jié)構(gòu)特征比較研究[J].圖書情報(bào)知識,2013(5):72-81.
[19]曾倩,楊思洛.國外圖書情報(bào)學(xué)科知識交流的比較研究——以期刊引證分析為視覺[J].情報(bào)理論與實(shí)踐,2013,36(10):114-119.
[20]Ni C,Sugimoto C R,Jiang J.Venue-author-coupling:A Measure for Identifying Disciplines Through Author Communities[J].Journal of the American Society for Information Science and Technology,2013,64(2):265-279.
[21]邱均平,劉國微.基于期刊作者耦合的學(xué)科知識聚合研究[J].情報(bào)雜志,2014,33(4):17-22.
[22]Zhao DZ,Strotmann A.Evolution of Research Activities and Intellectual in Information Science 1996-2005:Introducing Author Bibliographic-Coupling Analysis[J].Journal of the American Society for Information Science and Technology,2008,59(13):2070-2086.
[23]邱均平,董克.作者共現(xiàn)網(wǎng)絡(luò)的科學(xué)研究結(jié)構(gòu)揭示能力比較研究[J].中國圖書館學(xué)報(bào),2013,39(1):15-24.
[24]馬瑞敏,倪超群.作者耦合分析:一種新學(xué)科知識結(jié)構(gòu)發(fā)現(xiàn)方法的探索性研究[J].中國圖書館學(xué)報(bào),2012,38(2):4-11.
[25]Small H.Co-citation in the Scientific Literature:A New Measure of the Relationship Between Two Documents[J].Journal of the American Society for Information Science,1973,24(4):265-269.
[26]王賢文,劉則淵.基于共被引率分析的期刊分類研究[J].科研管理,2009,30(5):187-195.
[27]Leydesdorff L.Can Scientific Journals be Classified in term of Aggregated Journal-Journal Citation Relations using the Journal Citation Reports[J].Journal of the American Society of Information and Technology,2006,57(5):601-603.
[28]Chang YF,Chen CM.Classification and Visualization of the Social Science Network by the M inimum Span Clustering Method[J].Journal of the American Society for Information Science and Technology,201162(8):2404-2413.
[29]Hartigan JA,Wong MA.A K-means clustering algorithm[J].Applied Statistics,1979,28(1):100-108.
[30]MacQueen J.Some methods for classification and analysis of multivariate observations[C].Proceedingsof the Fifth Berkeley Symposium on Mathematical Statistics and Probability,Calif:University of California Press,Berkeley,1967:281-297.
[31]Reynolds A,Richards G,de la Iglesia B,et al.Clustering rules:A comparison of partitioning and hierarchical clustering algorithms[J].Journal of Mathematical Modelling and Algorithms,1992,5(4):475-504.
[32]Everitt B.Cluster Analysis[M].London: Heinemann Educ.1974.
[33]Kaufman L,Rousseeuw PJ.Finding Groups in Data: An Introduction to Cluster Analysis[M ].New York:W iley,1990.
[34]Tibshirani R,Walther G,Hastie T.Estimating the number of data clusters via the Gap statistic[J].Journal of the Royal Statistical Society B,2001,63(2):411-423.
[35]Marshakova Shaikevich I.System of Document Connections Based on References[J].Scientific and Technical Information Serial of VINITI,1973,6(2):3-8.