亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PAM聚類的學(xué)科隊(duì)伍構(gòu)建方法研究*

        2020-06-10 03:38:42
        圖書館研究與工作 2020年6期
        關(guān)鍵詞:中心點(diǎn)科研成果分類號(hào)

        張 月

        (淮陰工學(xué)院高等教育研究所、學(xué)報(bào)編輯部 江蘇淮安 223001)

        1 引言

        2015年8月18日,中央全面深化改革領(lǐng)導(dǎo)小組會(huì)議審議通過(guò)《統(tǒng)籌推進(jìn)世界一流大學(xué)和一流學(xué)科建設(shè)總體方案》并于同年11月由國(guó)務(wù)院印發(fā),決定統(tǒng)籌推進(jìn)建設(shè)世界一流大學(xué)和一流學(xué)科,學(xué)科建設(shè)被提到了重要的戰(zhàn)略高度。2017年10月18日,習(xí)近平同志在十九大報(bào)告中指出,“要加快一流大學(xué)和一流學(xué)科建設(shè)”[1],為高校的發(fā)展指明了方向。隨著“雙一流”建設(shè)的推進(jìn),全國(guó)高校掀起了加強(qiáng)學(xué)科建設(shè)的高潮。學(xué)科是高校發(fā)展最基本、最基層的學(xué)術(shù)組織,學(xué)科建制雖小,但學(xué)科建設(shè)卻是一項(xiàng)復(fù)雜的、宏大的系統(tǒng)工程[2],主要包括制度建設(shè)、人才隊(duì)伍建設(shè)、基地與平臺(tái)建設(shè)、人才培養(yǎng)、學(xué)術(shù)研究五個(gè)方面的內(nèi)容。其中人才隊(duì)伍是學(xué)科建設(shè)的主體,是學(xué)科建設(shè)的決定性因素[3]。作為地方高校,學(xué)科隊(duì)伍建設(shè)的質(zhì)量直接決定著學(xué)科建設(shè)的質(zhì)量。

        目前,學(xué)科隊(duì)伍主要通過(guò)一些傳統(tǒng)的方法建立,如依據(jù)學(xué)科帶頭人的帶動(dòng)方式來(lái)建立,學(xué)科帶頭人確定學(xué)科定位,做好業(yè)務(wù)表率,通過(guò)選拔、培養(yǎng)與引進(jìn)人才的方式建立學(xué)科隊(duì)伍[2,4-5]。這是一種行之有效的學(xué)科隊(duì)伍構(gòu)建方法,但也存在缺陷,如過(guò)于依賴學(xué)科帶頭人的帶動(dòng)作用,無(wú)論從學(xué)科帶頭人的選定還是從學(xué)科帶頭人自身的素養(yǎng)與業(yè)務(wù)能力來(lái)看,都存在著許多不確定因素,一旦出現(xiàn)學(xué)科帶頭人能力不足或判斷失誤等問(wèn)題,就可能會(huì)導(dǎo)致學(xué)術(shù)隊(duì)伍向著不恰當(dāng)?shù)姆较蛉グl(fā)展。同時(shí),這種傳統(tǒng)的學(xué)科隊(duì)伍建設(shè)方法還存在著學(xué)科方向相對(duì)固定,難以快速吸引不同學(xué)科方向人才加入隊(duì)伍,進(jìn)而通過(guò)學(xué)科交叉等方式產(chǎn)生新方向的問(wèn)題。隨著學(xué)科建設(shè)的不斷發(fā)展,科技創(chuàng)新的要求不斷提高,學(xué)科交叉正成為新形勢(shì)下學(xué)科產(chǎn)生新方向的主要方式。學(xué)科交叉不能通過(guò)生硬的嫁接方式僅依靠學(xué)術(shù)帶頭人指定,而應(yīng)該從現(xiàn)有的學(xué)術(shù)人才庫(kù)中通過(guò)信息化等手段去發(fā)掘。

        本文從學(xué)術(shù)人才的科研成果數(shù)據(jù)分析著手,運(yùn)用數(shù)據(jù)聚類技術(shù)發(fā)現(xiàn)科研成果的內(nèi)在聯(lián)系,從而將科研成果相似度高、學(xué)科交叉可能性大的學(xué)術(shù)人才匯聚到一起,構(gòu)建科學(xué)合理的學(xué)科隊(duì)伍。聚類方法不同于分類方法,它不指定分類標(biāo)準(zhǔn),只通過(guò)數(shù)據(jù)分析得到自然聚類,能夠得到潛在的知識(shí)[6],因此,運(yùn)用聚類方法構(gòu)建學(xué)科隊(duì)伍時(shí)能夠獲得未經(jīng)指定的學(xué)科方向,它可能與現(xiàn)有的學(xué)科隊(duì)伍代表的學(xué)科方向一致,也極有可能是潛在的學(xué)科交叉新方向。對(duì)于高校而言,在“雙一流”建設(shè)大力推進(jìn)的大好時(shí)機(jī)下,這種相對(duì)快速合理的信息化方法能夠?yàn)閷W(xué)科建設(shè)提供強(qiáng)勁有力的支持,為高校的學(xué)術(shù)創(chuàng)新與科研實(shí)力提升提供更加廣闊的空間。

        2 學(xué)科成員相似度度量

        學(xué)科成員的科研成果決定了他的科研方向。本文通過(guò)對(duì)學(xué)科成員科研成果的分析發(fā)掘其內(nèi)在聯(lián)系,對(duì)科研人員進(jìn)行聚類,將科研方向相似度大的科研人員歸為一類,進(jìn)而構(gòu)建學(xué)科隊(duì)伍。運(yùn)用聚類算法,首先要確定學(xué)科成員的相似度,學(xué)科成員的相似度則是基于文獻(xiàn)相似度度量確定的。目前,多種文獻(xiàn)相似度計(jì)算方法如利用詞頻向量空間模型VSM[7]、利用語(yǔ)義角色標(biāo)注[8]及通過(guò)構(gòu)造領(lǐng)域本體進(jìn)而進(jìn)行文獻(xiàn)相似度計(jì)算的方法[9]等,這些計(jì)算方法往往存在著當(dāng)運(yùn)用不同的概念抽取方法時(shí)抽取的概念差異較大的問(wèn)題,其對(duì)計(jì)算結(jié)果的影響也很大,抽取方法的準(zhǔn)確程度制約了相似度計(jì)算。學(xué)科隊(duì)伍的建設(shè)是基于科研人員研究領(lǐng)域的相似或相關(guān)程度,對(duì)于學(xué)術(shù)人才發(fā)表的科研成果而言,只要取其所在領(lǐng)域,分析其與別的科研人員的研究領(lǐng)域相似度就足夠了。為敘述方便,文中提到的文獻(xiàn)僅指代科研論文。本文利用中國(guó)圖書館分類法(以下簡(jiǎn)稱“中圖分類法”),結(jié)合文獻(xiàn)作者與領(lǐng)域?qū)<业囊庖妼⑽墨I(xiàn)進(jìn)行分類,進(jìn)而通過(guò)類間相似度的確定來(lái)定義文獻(xiàn)的相似度。在文獻(xiàn)數(shù)據(jù)量比較小的情況下,這種分類方法的精準(zhǔn)度高,能夠?yàn)槲墨I(xiàn)相似度的度量提供可靠的計(jì)算基礎(chǔ)。

        2.1 文獻(xiàn)的預(yù)處理

        為了計(jì)算文獻(xiàn)相似度,需要先將文獻(xiàn)按中圖分類法進(jìn)行分類。一般情況下,中文文獻(xiàn)自身帶有文獻(xiàn)分類號(hào),中國(guó)知網(wǎng)等數(shù)據(jù)庫(kù)也有為文獻(xiàn)分配的文獻(xiàn)分類號(hào),在計(jì)算精度要求不高的情況下,可以就這兩種文獻(xiàn)分類號(hào)運(yùn)用本文提出的計(jì)算方法計(jì)算文獻(xiàn)間的相似度,進(jìn)而進(jìn)行粗略聚類。當(dāng)需要更加精確的學(xué)科隊(duì)伍聚類結(jié)果時(shí),往往需要作者與領(lǐng)域?qū)<抑匦路峙湮墨I(xiàn)分類號(hào)。另外,外文文獻(xiàn)也需要通過(guò)類似的方式加上中圖分類號(hào),對(duì)于已有分類號(hào)的外文文獻(xiàn)可以通過(guò)相關(guān)轉(zhuǎn)換[10]實(shí)現(xiàn)與中圖分類號(hào)的統(tǒng)一。

        對(duì)于一篇文獻(xiàn)而言,一個(gè)分類號(hào)往往不能概括其所在的領(lǐng)域,這時(shí)可以對(duì)一篇文獻(xiàn)分配多個(gè)分類號(hào),對(duì)于存在學(xué)科交叉的文獻(xiàn)而言一般分配兩個(gè)分類號(hào)比較恰當(dāng)(當(dāng)文獻(xiàn)分類號(hào)過(guò)多時(shí)其分類權(quán)重也逐漸減少,為敘述方便,本文研究的數(shù)據(jù)將文獻(xiàn)分類號(hào)限制在三個(gè)以內(nèi))。當(dāng)一篇文獻(xiàn)的分類號(hào)不止一個(gè)時(shí),還需要對(duì)不同的分類號(hào)分配不同的權(quán)重,這是因?yàn)槲墨I(xiàn)涉及的領(lǐng)域側(cè)重程度是不同的,如表1所示。

        2.2 基于中圖分類法的文獻(xiàn)相似度度量方法

        基于中圖分類法的文獻(xiàn)相似度度量方法原理是在文獻(xiàn)分類的基礎(chǔ)上考察兩文獻(xiàn)所在類之間的相似度,以確定兩文獻(xiàn)的相似度。當(dāng)兩文獻(xiàn)處于不同的底層分類中,將其相似度稱為類間相似度;當(dāng)兩文獻(xiàn)處于相同的底層分類中,稱其為類內(nèi)相似度,需考察此類內(nèi)文獻(xiàn)間的相似度。類間相似度與類內(nèi)相似度根據(jù)分類號(hào)目錄深度與分類相關(guān)度綜合專家意見定義。

        表1 文獻(xiàn)分類號(hào)分配示例

        文獻(xiàn)相似度的定義遵循以下四個(gè)原則:①類間相似度定義值的賦予僅限于從同一個(gè)類劃分出的多個(gè)類,即從不同的高層類劃分出的類之間不具有相似度定義值,如圖1所示,A1與A2之間相似度定義值為0.12,而A2與B1之間由于不存在共同的上一級(jí)類,其類間無(wú)直接的相似度定義值;②從同一個(gè)高層類劃分出的所有類之間的相似度值是相同的,如A21與A22的相似度值為0.26,A21與A23之間的相似度值為0.26,A22與A23之間的相似度值也為0.26,它們具有相同的高層類A2;③高層類劃分到低層類后,得到的類間相似度大于高層類間相似度,如A11與A12兩類的相似度總高于A1與A2之間的相似度,層級(jí)越高,同層類間的相似度越低;④任何兩個(gè)類或文獻(xiàn)之間的相似度都不大于1。

        圖1 基于中圖分類法的文獻(xiàn)相似度定義示例

        處于底層的類,除了類間的相似度需要定義之外,還需要定義類內(nèi)文獻(xiàn)的相似度,以便于衡量?jī)晌墨I(xiàn)處于同一個(gè)底層類時(shí)文獻(xiàn)間的類內(nèi)相似度。

        2.3 文獻(xiàn)相似度的計(jì)算

        以an表示文獻(xiàn),其中n為文獻(xiàn)序號(hào),n>0,以clp表示中圖分類號(hào)所代表的類,p>0,以Db函數(shù)表示文獻(xiàn)間相似度,Dc函數(shù)表示類間或類內(nèi)相似度。為敘述方便,先考察任一文獻(xiàn)只有1個(gè)中圖分類號(hào)的情況。利用上述文獻(xiàn)相似度定義,可以確定兩文獻(xiàn)am與an之間的相似度:當(dāng)am與an屬于兩個(gè)不同的底層類時(shí),尋找兩文獻(xiàn)所在類之間的相似度定義值,若無(wú)定義值,則向上一級(jí)尋找其父類之間的相似度定義值,直到找到有相似度定義值的兩個(gè)類clp與clq為止,則兩文獻(xiàn)的相似度即為此兩個(gè)類的相似度定義值,即Db(am,an)=Dc(clp,clq);當(dāng)am與an屬于同一底層類即p=q時(shí),文獻(xiàn)間的相似度可以表示為Db(am,an)=Dc(clp,clq)或Db(am,an)=Dc(clp),此時(shí)Dc(clp)表示的是底層類clp的類內(nèi)相似度。

        根據(jù)上述文獻(xiàn)相似度計(jì)算的方法,考慮文獻(xiàn)具有多個(gè)中圖分類號(hào)的情況,即文獻(xiàn)的中圖法分類數(shù)大于1的情況。對(duì)于某個(gè)文獻(xiàn)而言,它可能屬于多個(gè)中圖法類,不同的類具有不同的權(quán)重,文獻(xiàn)分類相關(guān)的參數(shù)表示方法如表2所示。

        表2 文獻(xiàn)參數(shù)表示法

        其中,an_t取值范圍為{1,2,3},文獻(xiàn)具有的分類表示為an_clt,分類對(duì)應(yīng)的權(quán)重為an_wt。若an_t=3,則文獻(xiàn)an具有3個(gè)分類,它們分別是an_cl1,an_cl2和an_cl3,這3個(gè)類對(duì)應(yīng)的權(quán)重分別是an_w1,an_w2和 an_w3。任意兩文獻(xiàn)am與an之間的相似度可以通過(guò)兩文獻(xiàn)所屬類間的相似度計(jì)算確定:

        此相似度計(jì)算公式考慮了文獻(xiàn)所具有的不同類所占的權(quán)重因素,同一篇文獻(xiàn)具有的所有類的權(quán)重之和為1。顯然,文獻(xiàn)a與文獻(xiàn)b的相似度和文獻(xiàn)b與文獻(xiàn)a的相似度計(jì)算值是相同的,

        2.4 學(xué)科成員相似度的度量

        學(xué)科成員相似度的度量可以通過(guò)考察其科研成果的相似度確定,通常情況下,學(xué)科成員會(huì)有多個(gè)科研成果即科研成果集,考察兩個(gè)學(xué)科成員的相似度即是計(jì)算其科研成果集的相似度。在上述文獻(xiàn)相似度度量的基礎(chǔ)上可以進(jìn)一步定義科研成果集的相似度度量方法。以學(xué)科成員A的單一科研成果與學(xué)科成員B的所有科研成果逐一進(jìn)行比較,將結(jié)果相加即可得到A的單一科研成果與B的科研成果集的相似度,將學(xué)科成員A的所有單一科研成果與B的成果集進(jìn)行比較即可得到A與B的總相似度。這種相似度的度量方法不同于生硬地使用歐幾里得距離函數(shù)的方法,它在文獻(xiàn)相似度度量的基礎(chǔ)上考慮兩學(xué)科成員成果集的相似度,能有效地反映出學(xué)科成員科研成果集的領(lǐng)域相似度。

        設(shè)有學(xué)科成員A(a1,a2,…,an),即A的科研成果集為{a1,a2,…,an},其中an表示其科研成果,n>0;學(xué)科成員B(b1,b2,…,bk),科研成果集為{b1,b2,…,bk},其中k>0,假設(shè)上述兩者的任一科研成果只屬于1個(gè)中圖法類,即任一文獻(xiàn)的中圖法分類數(shù)都為1,則學(xué)科成員A與B的相似度S(A,B)可以通過(guò)以下公式計(jì)算:

        考慮到不同的學(xué)科成員科研成果量雖然不同,但作為科研主體,每個(gè)學(xué)科成員的總成果量應(yīng)具有相同的權(quán)值,即不論其科研成果量多少,計(jì)算兩個(gè)學(xué)科成員的成果相似程度時(shí)應(yīng)保證兩個(gè)學(xué)科成員的重要性是一致的。基于此,在計(jì)算相似度時(shí)應(yīng)將任一學(xué)科成員的任一科研成果賦予相同的權(quán)重,若科研成果量為n,則單篇文獻(xiàn)所占權(quán)重應(yīng)為1/n。兩個(gè)學(xué)科成員的相似度計(jì)算應(yīng)為:文獻(xiàn)兩兩比較相似度之和/(n×k),其中n×k為兩學(xué)科成員的所有文獻(xiàn)兩兩比較的次數(shù),則單次比較在所有比較次數(shù)中所占的權(quán)重為1/(n×k)。顯然,學(xué)科成員A與學(xué)科成員B的相似度和學(xué)科成員B與學(xué)科成員A的相似度計(jì)算值是相同的,即S(A,B)=S(B,A)。

        3 利用PAM算法進(jìn)行學(xué)科成員聚類

        相較于傳統(tǒng)的指定學(xué)科帶頭人或指定學(xué)科方向建立學(xué)科隊(duì)伍的方式,聚類方法的優(yōu)勢(shì)在于它是基于數(shù)據(jù)分析的自動(dòng)化過(guò)程,能發(fā)現(xiàn)潛在的學(xué)科交叉方向,同時(shí)凝練出相應(yīng)的學(xué)科隊(duì)伍,能夠跟隨數(shù)據(jù)的更新隨時(shí)調(diào)整學(xué)科隊(duì)伍的成員。本文采用基于劃分的聚類算法,目前相關(guān)的典型算法有K平均與K中心點(diǎn)算法[6]。K平均算法需要計(jì)算簇中對(duì)象的平均值,且對(duì)“噪音”和孤立點(diǎn)(離其他數(shù)據(jù)點(diǎn)非常遠(yuǎn)的數(shù)據(jù)點(diǎn))敏感。由于學(xué)科成員的科研成果數(shù)量不一,科研方向多樣,導(dǎo)致“噪音”和孤立點(diǎn)較多,故而不適用于學(xué)科成員數(shù)據(jù)的聚類。PAM算法是典型的K中心點(diǎn)算法,相較于其他的劃分聚類算法,PAM算法對(duì)“噪音”和孤立點(diǎn)數(shù)據(jù)不敏感,且能夠處理不同類型的數(shù)據(jù),適用于學(xué)科成員的聚類計(jì)算。

        3.1 PAM算法概述

        PAM算法的目的是對(duì)n個(gè)數(shù)據(jù)對(duì)象給出k個(gè)劃分。PAM算法的基本策略[11]:先為每個(gè)簇隨意選擇一個(gè)代表對(duì)象(中心點(diǎn)),剩余的對(duì)象根據(jù)其與代表對(duì)象的相異度或距離分配給最近的一個(gè)簇。然后反復(fù)地用非代表對(duì)象來(lái)替換代表對(duì)象,以提高聚類的質(zhì)量;聚類質(zhì)量由代價(jià)函數(shù)來(lái)估算。該函數(shù)用來(lái)判斷一個(gè)非代表對(duì)象是否是當(dāng)前某代表對(duì)象的好的代替,如果是則進(jìn)行替換,否則不替換,最后給出正確的劃分。代價(jià)函數(shù)的計(jì)算基于學(xué)科成員相似度的計(jì)算。

        3.2 算法過(guò)程

        為了在學(xué)科成員數(shù)據(jù)庫(kù)D中找到k個(gè)學(xué)科成員簇,需要為每一個(gè)簇定義1個(gè)代表成員。該代表成員被稱為中心點(diǎn),即這個(gè)代表成員是其所在的簇中最中心的學(xué)科成員。當(dāng)k個(gè)中心點(diǎn)選定以后,剩余的n-k個(gè)非選中成員被劃分到k個(gè)簇中,劃分規(guī)則是:將非選中成員劃分到離它最近的代表成員所代表的簇,為此,需要依據(jù)學(xué)科成員相似度計(jì)算方法確定非選中成員到代表成員的距離。

        為了找出k個(gè)中心點(diǎn),PAM算法首先隨機(jī)地選擇了k個(gè)學(xué)科成員。然后在每一步中,用一個(gè)非選中成員Rh替換一個(gè)選中成員Ri,只要這樣的替換能夠提高聚類質(zhì)量。為了估量Rh與Ri之間替換的效果,PAM算法為每一個(gè)非選中成員Rj計(jì)算代價(jià)Cjih。根據(jù)Rj屬于下列哪種情況,Cjih用不同的公式定義。

        第一種情況:Rj當(dāng)前屬于Ri所代表的簇,并且Rj離Ri2比Rh近,即此處Ri2是Rj的第二接近中心點(diǎn)。這樣,如果Ri被Rh替換作為中心點(diǎn),Rj將屬于Ri2所代表的簇,因此就Rj而言替換的代價(jià)為:

        第二種情況:Rj當(dāng)前屬于Ri所代表的簇,并且Rj離Rh比Ri2近,即此處Ri2是Rj的第二接近中心點(diǎn)。這樣,如果Ri被Rh替換作為中心點(diǎn),Rj將屬于Rh所代表的簇,因此就Rj而言替換的代價(jià)為:

        第三種情況:Rj當(dāng)前屬于另一個(gè)非Ri所代表的簇,Ri2是Rj所屬簇的代表成員,并且Rj離Ri2比Rh近,即這樣,如果Ri被Rh替換作為中心點(diǎn),Rj將留在Ri2所代表的簇,因此就Rj而言替換的代價(jià)為:

        第四種情況:Rj當(dāng)前屬于另一個(gè)非Ri所代表的簇,Ri2是Rj所屬簇的代表成員,并且Rj離Rh比Ri2近,即這樣,如果Ri被Rh替換作為中心點(diǎn),Rj將從Ri2所代表的簇中跳入Rh所代表的簇中,因此就Rj而言代價(jià)為:

        綜合考慮以上四種情況,對(duì)所有n-k個(gè)Rj的代價(jià)Cjih求和,用Rh替換Ri的總代價(jià)為:此處符號(hào)Σj表示對(duì)當(dāng)前所有n-k個(gè)非中心點(diǎn)成員Rj的代價(jià)Cjih求和。

        算法處理流程如下:

        算法:學(xué)科成員數(shù)據(jù)的PAM聚類

        輸入:預(yù)期學(xué)科成員簇的數(shù)目k,包含n個(gè)學(xué)科成員及其對(duì)應(yīng)科研成果(文獻(xiàn))的數(shù)據(jù)庫(kù);

        輸出:k個(gè)學(xué)科成員簇,使得所有學(xué)科成員與其最近代表學(xué)科成員的相似度總和最大;

        Step1:隨機(jī)選擇k個(gè)學(xué)科成員作為初始的代表成員;

        Step2:repeat;

        Step3:指派n-k個(gè)剩余的學(xué)科成員給離它最近的中心點(diǎn)所代表的簇;

        Step4:對(duì)于代表對(duì)象Mi,任意選擇一個(gè)非代表學(xué)科成員Mh;

        Step5:計(jì)算用Mh代替Mi的總代價(jià);

        Step6:如果TCih<0,則用Mh替換Mi形成新的k個(gè)代表學(xué)科成員的集合;

        Step7:until所有形成的k個(gè)學(xué)科成員簇不再發(fā)生變化。

        需要說(shuō)明的是,算法中涉及任意兩個(gè)成員距離與替代代價(jià)的計(jì)算都離不開學(xué)科成員相似度的計(jì)算,因?yàn)橄嗨贫扰c距離是相反的,即相似度越大,距離越遠(yuǎn),因此距離計(jì)算本質(zhì)上與相似度計(jì)算是可以直接換算的。運(yùn)用上述PAM聚類算法時(shí)需要輸入預(yù)期得到的學(xué)科成員簇?cái)?shù)量。當(dāng)輸入不同的初始簇?cái)?shù)值時(shí),得到的聚類結(jié)果必然不同,一方面,調(diào)整初始簇?cái)?shù)目增加了學(xué)科建設(shè)需要考慮的因素,不恰當(dāng)?shù)某跏即財(cái)?shù)目的輸入可能會(huì)導(dǎo)致不恰當(dāng)?shù)木垲惤Y(jié)果;另一方面,通過(guò)對(duì)初始簇?cái)?shù)目的調(diào)整可以得到多樣化的聚類結(jié)果,有利于對(duì)比分析,根據(jù)結(jié)果的合理性人為地在更多的可能結(jié)果中做出最恰當(dāng)?shù)倪x擇。預(yù)期學(xué)科成員簇?cái)?shù)量的確定需要考慮的因素主要有原有的學(xué)科隊(duì)伍數(shù)量、每支學(xué)科隊(duì)伍的大致人數(shù)及科研群體的科研能力等,原則上可以在原有的學(xué)科隊(duì)伍數(shù)量上逐步加大,通過(guò)分析選取最恰當(dāng)?shù)闹怠?/p>

        4 實(shí)驗(yàn)與分析

        以某高校學(xué)科隊(duì)伍建設(shè)為例,以2018年元月為時(shí)間基準(zhǔn)點(diǎn),以該校所有教職工近五年的科研成果作為分析數(shù)據(jù),預(yù)期聚類結(jié)果12個(gè)成員簇。經(jīng)篩選形成該校所有符合近五年內(nèi)有科研成果的學(xué)科成員基本信息表,學(xué)科成員數(shù)為516,其片段如表3所示。

        表3 學(xué)科成員信息表片段

        與表3對(duì)應(yīng)的是所有學(xué)科成員的科研成果表,經(jīng)數(shù)據(jù)收集與整理,基于CNKI數(shù)據(jù)庫(kù)已標(biāo)注的中圖分類號(hào),結(jié)合領(lǐng)域?qū)<乙庖姶_定科研成果的分類及其權(quán)重,形成學(xué)科成員成果表,其片段如表4所示。

        根據(jù)該校原有學(xué)科隊(duì)伍數(shù)量與隊(duì)伍的平均成員數(shù),調(diào)整聚類預(yù)期簇?cái)?shù)為12,同時(shí)將以上兩表作為基礎(chǔ)數(shù)據(jù),經(jīng)PAM算法處理,最終得到12個(gè)聚類簇。為方便表示,將其統(tǒng)計(jì)結(jié)果片段如表5所示。

        表4 學(xué)科成員成果表片段

        表5 聚類結(jié)果統(tǒng)計(jì)片段示例

        分析聚類結(jié)果,發(fā)現(xiàn)其中10個(gè)簇與原有的學(xué)科隊(duì)伍數(shù)量、各學(xué)科隊(duì)伍成員構(gòu)成基本一致,另2個(gè)簇不一致,其中簇3人數(shù)較少不具備構(gòu)成學(xué)科隊(duì)伍的條件,簇12從學(xué)科成員數(shù)量與學(xué)科方向來(lái)看符合學(xué)科隊(duì)伍構(gòu)建的條件。經(jīng)分析簇12中學(xué)科成員普遍存在2-3個(gè)研究領(lǐng)域有交叉的科研成果,如通信與信息系統(tǒng)、環(huán)境工程、有色金屬。我們將該簇稱為有效簇,其相關(guān)數(shù)據(jù)片段如表6所示。

        表6 有效簇相關(guān)數(shù)據(jù)片段示例

        預(yù)期的簇?cái)?shù)對(duì)結(jié)果的影響很大,如果對(duì)聚類結(jié)果不滿意可以調(diào)整預(yù)期簇?cái)?shù)作為輸入重新計(jì)算,直到得到合適的聚類結(jié)果為止。

        通過(guò)上述實(shí)驗(yàn)結(jié)果得到的學(xué)科隊(duì)伍與傳統(tǒng)的通過(guò)指定學(xué)科成員的方法建立的學(xué)科隊(duì)伍對(duì)比可以看出,本文的方法能夠得到一些難以人為發(fā)現(xiàn)的學(xué)科方向,同時(shí)列出對(duì)應(yīng)的學(xué)科成員構(gòu)成,這是傳統(tǒng)的方法難以做到的。但是初始的聚類結(jié)果可能會(huì)存在少許不合理的情形,如科研成果相關(guān)度并不大的某個(gè)成員被納入某個(gè)簇中,這是因?yàn)樵紨?shù)據(jù)中出現(xiàn)的人員必會(huì)被分配到某個(gè)簇中,從數(shù)據(jù)聚類的角度上來(lái)看這種分配是合理的,但是從實(shí)際學(xué)科相關(guān)性上來(lái)看卻未必合理,這時(shí)就需要在聚類結(jié)果的基礎(chǔ)上加以人工分析,從相關(guān)簇中剔除一些不合理成員以達(dá)到優(yōu)化聚類結(jié)果、實(shí)現(xiàn)學(xué)科隊(duì)伍合理構(gòu)建的目的。

        5 結(jié)語(yǔ)

        本文針對(duì)學(xué)科成員的科研成果數(shù)據(jù)的特性提出了科研成果的相似度計(jì)算方法,進(jìn)而提出學(xué)科成員相似度的度量方法,運(yùn)用基于劃分的PAM聚類算法對(duì)學(xué)科成員進(jìn)行聚類,以期找出合理的學(xué)科隊(duì)伍的成員構(gòu)成。實(shí)驗(yàn)結(jié)果表明,本文提出的學(xué)科隊(duì)伍構(gòu)建方法是有效的,相較于傳統(tǒng)的學(xué)科成員構(gòu)建方法,它能發(fā)現(xiàn)潛在的難以確定的學(xué)科方向,同時(shí)列出對(duì)應(yīng)的學(xué)科成員,結(jié)合人工分析對(duì)結(jié)果進(jìn)行優(yōu)化,構(gòu)建合理的學(xué)科隊(duì)伍。運(yùn)用信息化處理的手段從海量的數(shù)據(jù)中分析并得到合理的學(xué)科隊(duì)伍聚類,對(duì)于當(dāng)前大力開展學(xué)科隊(duì)伍建設(shè)的科研院所與高校來(lái)說(shuō)是有益的嘗試,尤其對(duì)于需要尋找學(xué)科交叉新方向的機(jī)構(gòu)而言,它的作用更加明顯。目前相關(guān)研究雖處于初級(jí)階段,但是相較于傳統(tǒng)的學(xué)科隊(duì)伍建設(shè)方法,它的優(yōu)勢(shì)是顯而易見的,隨著相關(guān)研究的進(jìn)一步深入、各種信息化方法的不斷完善,相信學(xué)科隊(duì)伍建設(shè)必將越來(lái)越科學(xué)、越來(lái)越合理,也必能為我國(guó)的學(xué)科建設(shè)提供更多的選擇,為“雙一流”建設(shè)提供強(qiáng)有力的技術(shù)支持。

        猜你喜歡
        中心點(diǎn)科研成果分類號(hào)
        科研成果轉(zhuǎn)化
        中國(guó)科研成果震撼全球
        Scratch 3.9更新了什么?
        如何設(shè)置造型中心點(diǎn)?
        電腦報(bào)(2019年4期)2019-09-10 07:22:44
        加強(qiáng)醫(yī)療科技自主創(chuàng)新和科研成果轉(zhuǎn)化
        審批復(fù)雜 科研成果落地難
        A Study on the Change and Developmentof English Vocabulary
        漢字藝術(shù)結(jié)構(gòu)解析(二)中心點(diǎn)處筆畫應(yīng)緊奏
        尋找視覺中心點(diǎn)
        大眾攝影(2015年9期)2015-09-06 17:05:41
        Translation on Deixis in English and Chinese
        国产高清一区二区三区视频| 欧美人妻精品一区二区三区 | 中文字幕无码高清一区二区三区| 久久精品国产亚洲av成人无人区| 国产综合开心激情五月| 中文精品久久久久人妻不卡| 国产精品老熟女露脸视频| 国产精品无码久久久一区蜜臀| 久久迷青品着产亚洲av网站| 国产精品成人一区二区在线不卡| 精品亚洲国产成人蜜臀av| 男女裸交无遮挡啪啪激情试看| 精品无码AⅤ片| 美腿丝袜美腿国产在线| 国内精品国产三级国产| 天天做天天爱夜夜爽女人爽| 国产成人无码免费视频在线| jjzz日本护士| 亚洲一区二区三区一站| 自拍偷自拍亚洲一区二区| 摸进她的内裤里疯狂揉她动图视频| 亚洲色无码播放| 久久99国产亚洲高清观看首页| 日本韩国一区二区高清| 亚洲国产精品久久精品| 国产成人精品电影在线观看 | 色欲色香天天天综合vvv| 亚洲午夜精品a片久久www慈禧| 亚洲中文字幕在线爆乳| 午夜在线观看一区二区三区四区| 精品人妻久久一区二区三区| 亚洲a∨国产av综合av下载| 亚洲另类激情综合偷自拍图| 一亚洲一区二区中文字幕| 久久99精品国产麻豆| 无码人妻精品一区二区蜜桃网站| 韩国三级中文字幕hd久久精品| 国产高清精品在线二区| 亚洲精品偷拍自综合网| 国产午夜伦鲁鲁| 未满十八勿入av网免费|