亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于作者和研究主題的科研機(jī)構(gòu)名稱(chēng)演化關(guān)系識(shí)別研究

        2023-12-26 02:18:08董寒宇
        情報(bào)學(xué)報(bào) 2023年11期
        關(guān)鍵詞:研究

        胡 潛,吳 茜,董寒宇,李 靜

        (華中師范大學(xué)信息管理學(xué)院,武漢 430079)

        0 引言

        機(jī)構(gòu)名稱(chēng)是科研機(jī)構(gòu)實(shí)體的重要屬性信息,是機(jī)構(gòu)內(nèi)在規(guī)律以及特殊性的綜合反映[1]。然而,隨著時(shí)間的變遷,同一機(jī)構(gòu)在不同時(shí)期的名稱(chēng)表述各異,機(jī)構(gòu)的規(guī)范名稱(chēng)、曾用名等無(wú)法一一與機(jī)構(gòu)實(shí)體建立精準(zhǔn)映射,致使當(dāng)前基于科研機(jī)構(gòu)名稱(chēng)所展開(kāi)的信息檢索、計(jì)量評(píng)價(jià)、知識(shí)庫(kù)構(gòu)建等知識(shí)服務(wù)效果并不理想[2]。因此,為消解科研機(jī)構(gòu)名稱(chēng)異質(zhì)性、提升基于機(jī)構(gòu)驅(qū)動(dòng)的知識(shí)服務(wù)效果,需要對(duì)機(jī)構(gòu)名稱(chēng)間的演化關(guān)系進(jìn)行識(shí)別。

        目前,在對(duì)科研機(jī)構(gòu)名稱(chēng)演化關(guān)系的識(shí)別中,相較于直接抽取的方法,一種更加通用的識(shí)別思路是以學(xué)術(shù)論文作為數(shù)據(jù)源,基于發(fā)文作者進(jìn)行機(jī)構(gòu)關(guān)系識(shí)別。但其中存在問(wèn)題:對(duì)于發(fā)文較少的機(jī)構(gòu),可識(shí)別提取的作者特征信息相對(duì)較少,無(wú)法有效識(shí)別冷門(mén)機(jī)構(gòu)間的名稱(chēng)演化關(guān)系[3]。為此,本文從科研機(jī)構(gòu)的作者和研究主題兩個(gè)維度進(jìn)行科研機(jī)構(gòu)名稱(chēng)演化關(guān)系識(shí)別探究,消解因演化變遷所引起的科研機(jī)構(gòu)名稱(chēng)異質(zhì)問(wèn)題,使機(jī)構(gòu)名稱(chēng)與科研機(jī)構(gòu)實(shí)體間建立精準(zhǔn)映射,實(shí)現(xiàn)對(duì)機(jī)構(gòu)及其知識(shí)資源的規(guī)范化組織,以進(jìn)一步優(yōu)化基于科研實(shí)體所開(kāi)展的知識(shí)服務(wù)。

        1 相關(guān)研究

        目前,在機(jī)構(gòu)名稱(chēng)識(shí)別和歸一化的相關(guān)研究中,國(guó)內(nèi)外學(xué)者們圍繞機(jī)構(gòu)名稱(chēng)的同義、層級(jí)和演化關(guān)系識(shí)別,進(jìn)行了大量的理論和實(shí)踐探究。

        在機(jī)構(gòu)名稱(chēng)同義關(guān)系識(shí)別方面,主要是通過(guò)編輯距離、規(guī)則和機(jī)器學(xué)習(xí)等方法識(shí)別機(jī)構(gòu)的別名、簡(jiǎn)稱(chēng),將其與機(jī)構(gòu)規(guī)范名稱(chēng)形成映射。其中,具有代表性的方法有:①基于字符串匹配的方法,F(xiàn)rench 等[4-5]利用編輯距離和Jaccard 系數(shù),通過(guò)計(jì)算機(jī)構(gòu)名稱(chēng)字面的相似度對(duì)機(jī)構(gòu)名稱(chēng)的同義關(guān)系進(jìn)行了識(shí)別。當(dāng)機(jī)構(gòu)名稱(chēng)表述具有一定相似性時(shí),該方法能夠較好地實(shí)現(xiàn)同義名稱(chēng)識(shí)別。黃林晟等[6]基于編輯距離思想,提出了中文機(jī)構(gòu)名稱(chēng)簡(jiǎn)稱(chēng)和全稱(chēng)的優(yōu)化匹配算法,并通過(guò)實(shí)驗(yàn)證明該方法比原始的基于編輯距離的計(jì)算方法更為合理,匹配準(zhǔn)確率更高。②基于規(guī)則方法,楊波等[7]、Caron 等[8]、孫海霞等[9]、王錦華等[10]、高曼等[11]分別依據(jù)多源數(shù)據(jù),利用從數(shù)據(jù)中獲取的機(jī)構(gòu)地區(qū)、機(jī)構(gòu)地址、機(jī)構(gòu)類(lèi)別和機(jī)構(gòu)命名特征等信息,人工構(gòu)建規(guī)則庫(kù),通過(guò)關(guān)鍵詞觸發(fā)的形式對(duì)多個(gè)機(jī)構(gòu)名稱(chēng)對(duì)應(yīng)一個(gè)機(jī)構(gòu)實(shí)體的現(xiàn)象進(jìn)行了識(shí)別,使機(jī)構(gòu)的簡(jiǎn)稱(chēng)、別名和全稱(chēng)等一一對(duì)應(yīng),為有效實(shí)現(xiàn)高校、軍事醫(yī)學(xué)機(jī)構(gòu)等多類(lèi)型科研實(shí)體名稱(chēng)規(guī)范化提供了參考。③基于機(jī)器學(xué)習(xí)的方法,Balsmeier 等[12]、孫海霞等[13]、Cuxac等[14]、Jonnalagadda 等[15]分別采用kNN(k-nearest neighbors)、k-means 聚類(lèi)、層次聚類(lèi)、混合聚類(lèi)等方法對(duì)機(jī)構(gòu)名稱(chēng)進(jìn)行同義關(guān)系識(shí)別,將機(jī)構(gòu)名稱(chēng)的錯(cuò)誤翻譯、錯(cuò)誤拼寫(xiě)、縮寫(xiě)、簡(jiǎn)稱(chēng)、別名等一一與規(guī)范名稱(chēng)之間進(jìn)行映射,進(jìn)一步推動(dòng)實(shí)現(xiàn)了大規(guī)模機(jī)構(gòu)的名稱(chēng)歸一化。④基于深度學(xué)習(xí)的方法,孫源[16]、張建勇等[17]、Raman 等[18]、Cetoli 等[19]分 別利用word2vec 詞向量模型、多重圖注意力網(wǎng)絡(luò)和雙向長(zhǎng)短時(shí)網(wǎng)絡(luò)模型等方法對(duì)多源異構(gòu)數(shù)據(jù)中的機(jī)構(gòu)實(shí)體進(jìn)行識(shí)別、消歧處理,有效提升機(jī)構(gòu)名稱(chēng)規(guī)范數(shù)據(jù)庫(kù)建設(shè)的規(guī)范性和全面性。

        在機(jī)構(gòu)名稱(chēng)層級(jí)關(guān)系識(shí)別方面,主要是基于機(jī)構(gòu)屬性特征識(shí)別機(jī)構(gòu)實(shí)體間的隸屬關(guān)系。其中,Jiang 等[20]提出了一種基于標(biāo)準(zhǔn)化壓縮距離的聚類(lèi)方法來(lái)識(shí)別機(jī)構(gòu)間的隸屬關(guān)系,并以清華大學(xué)圖書(shū)館收錄的10000 篇論文中的機(jī)構(gòu)信息作為數(shù)據(jù)集驗(yàn)證了效果;楊奕虹等[21]基于敘詞表的知識(shí)組織方式,構(gòu)建了中文機(jī)構(gòu)名稱(chēng)的多層級(jí)詞表,并以文獻(xiàn)計(jì)量評(píng)價(jià)與機(jī)構(gòu)科研績(jī)效管理等場(chǎng)景為例,展示了詞表的應(yīng)用效果;Sun 等[22]基于本體方法,依據(jù)從文獻(xiàn)資源數(shù)據(jù)庫(kù)中獲取的作者與機(jī)構(gòu)間的隸屬關(guān)系,實(shí)現(xiàn)了對(duì)機(jī)構(gòu)實(shí)體間的層級(jí)關(guān)系的識(shí)別。楊昭等[23-24]基于共現(xiàn)視角,通過(guò)機(jī)構(gòu)名稱(chēng)實(shí)體邊界識(shí)別、機(jī)構(gòu)多層級(jí)詞表編制和異質(zhì)網(wǎng)絡(luò)挖掘等方法,先后構(gòu)建了基于共現(xiàn)關(guān)系和相似度的機(jī)構(gòu)名稱(chēng)歸一化模型與基于元路徑的機(jī)構(gòu)名稱(chēng)歸一化模型,利用機(jī)構(gòu)名稱(chēng)的層級(jí)結(jié)構(gòu),有效實(shí)現(xiàn)了對(duì)機(jī)構(gòu)上下級(jí)隸屬關(guān)系的識(shí)別。

        在機(jī)構(gòu)名稱(chēng)演化關(guān)系識(shí)別方面,主要是對(duì)機(jī)構(gòu)名稱(chēng)間的改名、拆分、合并和重組關(guān)系進(jìn)行識(shí)別。其中,賈君枝等[25]提出了一種利用TF-IDF(term frequency-inverse document frequency)和k-means 算法的中文科研機(jī)構(gòu)名稱(chēng)歸一化實(shí)現(xiàn)方法,從機(jī)構(gòu)作者共現(xiàn)角度識(shí)別機(jī)構(gòu)間的改名關(guān)系,并在中國(guó)知網(wǎng)數(shù)據(jù)集上驗(yàn)證了實(shí)驗(yàn)效果。曾建勛等[26]通過(guò)構(gòu)建基于知識(shí)組織的機(jī)構(gòu)規(guī)范文檔,依據(jù)機(jī)構(gòu)規(guī)范名稱(chēng)、屬性特征和關(guān)聯(lián)關(guān)系,對(duì)機(jī)構(gòu)名稱(chēng)間的同一關(guān)系、層級(jí)隸屬關(guān)系、沿革關(guān)系和相關(guān)關(guān)系進(jìn)行了識(shí)別。呂冬晴等[3]通過(guò)構(gòu)建機(jī)構(gòu)-作者向量與機(jī)構(gòu)-年度向量,并在綜合考慮兩個(gè)向量相似度、機(jī)構(gòu)名稱(chēng)映射關(guān)系以及作者絕對(duì)共現(xiàn)量的基礎(chǔ)上,實(shí)現(xiàn)了對(duì)機(jī)構(gòu)演變關(guān)系的識(shí)別。

        總的來(lái)看,圍繞機(jī)構(gòu)名稱(chēng)歸一化問(wèn)題的研究已經(jīng)取得了一定進(jìn)展,特別是在機(jī)構(gòu)同義關(guān)系和層級(jí)關(guān)系識(shí)別方面,但在機(jī)構(gòu)名稱(chēng)演化關(guān)系識(shí)別方面,仍存在一定不足。目前,科研機(jī)構(gòu)名稱(chēng)演化關(guān)系識(shí)別的基本思路是依據(jù)學(xué)術(shù)論文提取機(jī)構(gòu)作者屬性特征,通過(guò)機(jī)構(gòu)、作者共現(xiàn)進(jìn)行關(guān)系識(shí)別。然而,該方法雖然能夠識(shí)別出熱門(mén)機(jī)構(gòu)間的演化關(guān)系,但對(duì)于非熱門(mén)機(jī)構(gòu)來(lái)說(shuō)并不適用。一是當(dāng)作者共現(xiàn)指標(biāo)設(shè)置較低時(shí),存在大量誤召回,識(shí)別準(zhǔn)確率低;二是當(dāng)作者共現(xiàn)指標(biāo)設(shè)置較高時(shí),發(fā)文量少的機(jī)構(gòu)會(huì)被直接過(guò)濾,影響識(shí)別效果。這主要是由于作者屬性穩(wěn)定性不足,僅依據(jù)作者屬性特征無(wú)法有效實(shí)現(xiàn)對(duì)各類(lèi)型機(jī)構(gòu)名稱(chēng)演化關(guān)系的識(shí)別。

        基于此,為增加機(jī)構(gòu)特征表達(dá)的穩(wěn)定性,本文在現(xiàn)有研究基礎(chǔ)上,引入研究主題這一特征指標(biāo),綜合從科研機(jī)構(gòu)的作者和研究主題兩個(gè)維度,利用復(fù)雜相似度和聚類(lèi)算法進(jìn)行科研機(jī)構(gòu)名稱(chēng)演化識(shí)別研究。

        2 科研機(jī)構(gòu)名稱(chēng)演化在學(xué)術(shù)論文署名中的表現(xiàn)

        目前,科研機(jī)構(gòu)名稱(chēng)間的演化關(guān)系主要可劃分為改名、拆分、合并和重組4 種類(lèi)型。①改名。機(jī)構(gòu)由名稱(chēng)A 更改為名稱(chēng)B 時(shí),機(jī)構(gòu)間具有改名關(guān)系,其映射關(guān)系為1:1。②拆分。當(dāng)機(jī)構(gòu)A 的部分或全部單位拆分為多個(gè)新機(jī)構(gòu)時(shí),機(jī)構(gòu)間具有拆分關(guān)系,其映射關(guān)系為1:n。③合并。當(dāng)多個(gè)機(jī)構(gòu)合并為新機(jī)構(gòu)A 或并入已有機(jī)構(gòu)B 時(shí),機(jī)構(gòu)間具有合并關(guān)系,其映射關(guān)系為n:1。④重組。當(dāng)多個(gè)機(jī)構(gòu)間發(fā)生復(fù)雜更名、拆分、合并變化時(shí),機(jī)構(gòu)間具有重組關(guān)系,其映射關(guān)系為n:m[2-3]。

        作為科研機(jī)構(gòu)的重要研究成果,公開(kāi)發(fā)表的學(xué)術(shù)論文中包含了開(kāi)展名稱(chēng)演化關(guān)系探究所需的機(jī)構(gòu)名稱(chēng)、作者、關(guān)鍵詞、時(shí)間等信息??蒲袡C(jī)構(gòu)名稱(chēng)的演化是隨著機(jī)構(gòu)變遷而產(chǎn)生的,其發(fā)展具有時(shí)間跨度性。因此,為識(shí)別機(jī)構(gòu)名稱(chēng)間的改名、拆分、合并和重組關(guān)系,本文依據(jù)一定時(shí)間年份內(nèi)的學(xué)術(shù)論文數(shù)據(jù),對(duì)其中科研機(jī)構(gòu)名稱(chēng)演化的表現(xiàn)進(jìn)行分析。

        經(jīng)分析發(fā)現(xiàn),存在名稱(chēng)演化關(guān)系的科研機(jī)構(gòu)主要在學(xué)術(shù)論文年發(fā)文量、學(xué)術(shù)論文署名作者和學(xué)術(shù)論文研究主題3 個(gè)方面普遍具有相近的表現(xiàn),具體闡述如下。

        2.1 學(xué)術(shù)論文年發(fā)文量

        對(duì)科研機(jī)構(gòu)的發(fā)文量屬性進(jìn)行分析發(fā)現(xiàn),科研機(jī)構(gòu)名稱(chēng)的更變演化一定程度上體現(xiàn)在其年發(fā)文量的變化之中,即具有特定演化關(guān)系的科研機(jī)構(gòu)間,其發(fā)文量在時(shí)間分布上具有特定的規(guī)律。當(dāng)機(jī)構(gòu)改名、拆分、合并為新機(jī)構(gòu)且原機(jī)構(gòu)名稱(chēng)未得到延用時(shí),原機(jī)構(gòu)的發(fā)文量在演變年份前后會(huì)出現(xiàn)“從有到無(wú)”的特點(diǎn);對(duì)于演變而來(lái)的新機(jī)構(gòu),其發(fā)文量在變化年份前后會(huì)出現(xiàn)“從無(wú)到有”的特點(diǎn)。例如,西南農(nóng)業(yè)大學(xué)和西南師范大學(xué)于2005 年合并為西南大學(xué),在2005 年之前并沒(méi)有以西南大學(xué)為單位發(fā)表的學(xué)術(shù)論文,在2005 年之后西南農(nóng)業(yè)大學(xué)和西南師范大學(xué)的發(fā)文量也屈指可數(shù)。此外,若機(jī)構(gòu)在經(jīng)歷拆分、合并時(shí),原機(jī)構(gòu)名稱(chēng)得到了延用,此時(shí)署名為該機(jī)構(gòu)的論文數(shù)量變化呈現(xiàn)以下特點(diǎn):在一段時(shí)間內(nèi),機(jī)構(gòu)的年發(fā)文量相對(duì)穩(wěn)定,但在某一時(shí)間節(jié)點(diǎn)前后其發(fā)文量會(huì)產(chǎn)生“驟降”或“突增”。具體來(lái)說(shuō),當(dāng)機(jī)構(gòu)發(fā)生拆分時(shí),其發(fā)文量在拆分年份及之后幾年中會(huì)產(chǎn)生“驟降”現(xiàn)象;當(dāng)機(jī)構(gòu)發(fā)生合并時(shí),其發(fā)文量在合并年份及之后幾年中會(huì)產(chǎn)生“突增”現(xiàn)象。

        由此可知,發(fā)生演化變遷的科研機(jī)構(gòu),其發(fā)文量變化存在“新增”“消失”“突增”和“驟降”4種特征類(lèi)型。將存在名稱(chēng)演化關(guān)系的機(jī)構(gòu)作為科研機(jī)構(gòu)名稱(chēng)對(duì),對(duì)名稱(chēng)對(duì)間兩個(gè)機(jī)構(gòu)發(fā)文量的變化模式做進(jìn)一步分析,可以將科研機(jī)構(gòu)名稱(chēng)對(duì)間的發(fā)文量變化模式總結(jié)為以下4 種,具體如表1 所示。

        表1 科研機(jī)構(gòu)名稱(chēng)對(duì)發(fā)文量變化模式

        從表1 可以看出,“消失-新增”模式主要對(duì)應(yīng)3種具體的機(jī)構(gòu)名稱(chēng)演化情況:一是機(jī)構(gòu)A 改名為機(jī)構(gòu)B,則機(jī)構(gòu)A 和機(jī)構(gòu)B 之間具有改名關(guān)系;二是機(jī)構(gòu)A 拆分為新機(jī)構(gòu)B 和新機(jī)構(gòu)C,則機(jī)構(gòu)A 與機(jī)構(gòu)B、機(jī)構(gòu)C 之間具有拆分關(guān)系;三是機(jī)構(gòu)A 和機(jī)構(gòu)B 合并組成新機(jī)構(gòu)C,則機(jī)構(gòu)A、機(jī)構(gòu)B 與機(jī)構(gòu)C 之間具有合并關(guān)系?!绑E降-突增”模式主要對(duì)應(yīng)一種機(jī)構(gòu)名稱(chēng)演化情況,即機(jī)構(gòu)A 一部分保留、另一部分合并到已有機(jī)構(gòu)B 中,則機(jī)構(gòu)A 與機(jī)構(gòu)B 間具有重組關(guān)系?!绑E降-新增”模式主要對(duì)應(yīng)一種機(jī)構(gòu)名稱(chēng)演化情況,即機(jī)構(gòu)A 一部分保留,另一部分拆分為機(jī)構(gòu)B,則機(jī)構(gòu)A 與機(jī)構(gòu)B 間具有拆分關(guān)系?!跋?突增”模式主要對(duì)應(yīng)兩種機(jī)構(gòu)名稱(chēng)演化情況:一是機(jī)構(gòu)A 合并到已有機(jī)構(gòu)B 中,則機(jī)構(gòu)A 與機(jī)構(gòu)B 間具有合并關(guān)系;二是機(jī)構(gòu)A 拆分后,一部分并入已有機(jī)構(gòu)B,另一部分并入已有機(jī)構(gòu)C,則機(jī)構(gòu)A、機(jī)構(gòu)B 與機(jī)構(gòu)C 之間具有重組關(guān)系。

        2.2 學(xué)術(shù)論文署名作者

        對(duì)一定時(shí)間內(nèi)的學(xué)術(shù)論文作者數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),當(dāng)機(jī)構(gòu)發(fā)生演化變遷時(shí),其作者屬性具有以下特點(diǎn):①?gòu)恼w來(lái)看,演化變遷機(jī)構(gòu)間的作者屬性具有相對(duì)穩(wěn)定性。對(duì)于科研機(jī)構(gòu)來(lái)說(shuō),除正常的退休、畢業(yè)、調(diào)出和引進(jìn)之外,隸屬于同一機(jī)構(gòu)的絕大多數(shù)成員在一定時(shí)間期限內(nèi)的波動(dòng)相對(duì)較小[25,27]。因此,對(duì)存在名稱(chēng)演化關(guān)系的科研機(jī)構(gòu)來(lái)說(shuō),會(huì)存在部分相同的發(fā)文作者。②同一機(jī)構(gòu)內(nèi),年發(fā)文作者存在人員更迭。在科研機(jī)構(gòu)中,除高產(chǎn)出作者外,部分成員存在學(xué)術(shù)論文發(fā)表數(shù)量少、頻率低的情況。因此,每年基于學(xué)術(shù)論文提取的作者數(shù)據(jù),會(huì)存在一定的變化。③相對(duì)冷門(mén)機(jī)構(gòu)的作者屬性信息相對(duì)較少。對(duì)于實(shí)體規(guī)模較小、學(xué)術(shù)論文成果發(fā)表較少的相對(duì)冷門(mén)機(jī)構(gòu)來(lái)說(shuō),從這類(lèi)冷門(mén)機(jī)構(gòu)所發(fā)表論文中能夠提取的非重復(fù)作者數(shù)據(jù)相對(duì)較少。

        2.3 學(xué)術(shù)論文研究主題

        對(duì)一定時(shí)間內(nèi)的學(xué)術(shù)論文研究主題進(jìn)行分析發(fā)現(xiàn),科研機(jī)構(gòu)名稱(chēng)的更變演化在一定程度上體現(xiàn)在其研究主題的變化之中,即在具有特定演化關(guān)系的科研機(jī)構(gòu)間,其研究主題會(huì)相對(duì)更加穩(wěn)定,并不會(huì)隨著時(shí)間變遷而發(fā)生較大的方向性轉(zhuǎn)變[28]。具體來(lái)說(shuō),由于在科研機(jī)構(gòu)中各個(gè)重要研究主題均是以科研團(tuán)隊(duì)的形式來(lái)完成的,而同一科研團(tuán)隊(duì)的研究主題和研究方向具有一定穩(wěn)定性和延續(xù)性。因此,對(duì)于同一科研機(jī)構(gòu)來(lái)說(shuō),無(wú)論是發(fā)生改名、拆分、合并還是重組,其一定存在一個(gè)或多個(gè)相同、相近的研究主題。

        3 構(gòu)建基于作者和研究主題的科研機(jī)構(gòu)名稱(chēng)演化關(guān)系識(shí)別模型

        從科研機(jī)構(gòu)在學(xué)術(shù)論文署名中的表現(xiàn)來(lái)看,受作者發(fā)文頻率和數(shù)量的影響,僅基于科研機(jī)構(gòu)作者屬性進(jìn)行機(jī)構(gòu)名稱(chēng)演化關(guān)系識(shí)別,無(wú)法有效識(shí)別相對(duì)冷門(mén)的機(jī)構(gòu)間的演化關(guān)系,而研究主題屬性又不足以單獨(dú)用來(lái)判斷機(jī)構(gòu)間的演化關(guān)系。因此,模型中將首先依據(jù)科研機(jī)構(gòu)年發(fā)文量特點(diǎn),提取潛在存在演化關(guān)系的候選科研機(jī)構(gòu)名稱(chēng)對(duì),然后進(jìn)一步綜合考慮科研機(jī)構(gòu)中的作者和研究主題屬性特征,來(lái)進(jìn)行機(jī)構(gòu)名稱(chēng)演化關(guān)系識(shí)別。模型結(jié)構(gòu)如圖1 所示。

        圖1 科研機(jī)構(gòu)名稱(chēng)演化關(guān)系識(shí)別模型

        3.1 學(xué)術(shù)論文數(shù)據(jù)采集與預(yù)處理

        考慮到科研機(jī)構(gòu)名稱(chēng)演化具有一定的時(shí)間跨度性,本文選擇一定時(shí)間跨度內(nèi)的學(xué)術(shù)論文作為基礎(chǔ)數(shù)據(jù),為后續(xù)模塊提供數(shù)據(jù)支撐。

        在學(xué)術(shù)論文數(shù)據(jù)采集與預(yù)處理過(guò)程中,主要包含以下幾個(gè)方面:①論文數(shù)據(jù)采集。從學(xué)術(shù)論文數(shù)據(jù)庫(kù)中采集論文全文,以及文獻(xiàn)來(lái)源、題名、年份、作者、單位和關(guān)鍵詞等元數(shù)據(jù)字段信息。②數(shù)據(jù)過(guò)濾、清洗。過(guò)濾重復(fù)數(shù)據(jù),并對(duì)所采集數(shù)據(jù)中的特殊標(biāo)點(diǎn)符號(hào)、不完整信息等進(jìn)行清洗。③機(jī)構(gòu)別名、簡(jiǎn)稱(chēng)映射?;谥黝}詞表、百度百科等外部知識(shí)庫(kù),對(duì)機(jī)構(gòu)別名、簡(jiǎn)稱(chēng)和規(guī)范化名稱(chēng)構(gòu)建映射關(guān)系。④數(shù)據(jù)拆分。參照龍存鈺[29]的思路,以論文全文為基礎(chǔ)數(shù)據(jù),建立作者和機(jī)構(gòu)間的對(duì)應(yīng)關(guān)系,將所有論文參與者與其隸屬機(jī)構(gòu)進(jìn)行映射,以(論文題名,發(fā)表年份,{作者-機(jī)構(gòu),作者-機(jī)構(gòu),…,作者-機(jī)構(gòu)},關(guān)鍵詞,…,文獻(xiàn)來(lái)源)多元組的形式進(jìn)行存儲(chǔ)。

        3.2 科研機(jī)構(gòu)實(shí)體屬性表示

        對(duì)科研機(jī)構(gòu)實(shí)體屬性進(jìn)行規(guī)范化表示,主要是依據(jù)機(jī)構(gòu)間的隸屬關(guān)系,對(duì)機(jī)構(gòu)層級(jí)進(jìn)行劃分,識(shí)別提取一級(jí)、二級(jí)科研機(jī)構(gòu),并對(duì)提取科研機(jī)構(gòu)的屬性進(jìn)行表示,采用機(jī)構(gòu)的屬性特點(diǎn)來(lái)表征機(jī)構(gòu)。在此期間,先對(duì)科研機(jī)構(gòu)名稱(chēng)層級(jí)進(jìn)行識(shí)別,再采用多元組方式對(duì)各層級(jí)機(jī)構(gòu)實(shí)體的年度發(fā)文量、機(jī)構(gòu)成員和研究主題等屬性進(jìn)行規(guī)范化表示。

        (1)科研機(jī)構(gòu)名稱(chēng)層級(jí)識(shí)別

        為實(shí)現(xiàn)各層級(jí)科研機(jī)構(gòu)的提取,首先,依據(jù)機(jī)構(gòu)的隸屬關(guān)系,對(duì)科研機(jī)構(gòu)名稱(chēng)層級(jí)進(jìn)行識(shí)別。參照賈君枝等[25]的思路,利用現(xiàn)有的NLPIR(natural language processing and information retrieval)等詞性標(biāo)注和詞頻統(tǒng)計(jì)工具,通過(guò)詞性特征分析,識(shí)別提取高頻的機(jī)構(gòu)尾綴標(biāo)識(shí)詞,構(gòu)建機(jī)構(gòu)名稱(chēng)特征詞表。其次,依據(jù)特征詞表,依次正向遍歷機(jī)構(gòu)名稱(chēng)字符串,進(jìn)行機(jī)構(gòu)名稱(chēng)層級(jí)識(shí)別,并以“/”“//”為一級(jí)機(jī)構(gòu)和二級(jí)機(jī)構(gòu)的標(biāo)識(shí)符號(hào),對(duì)匹配結(jié)果進(jìn)行相應(yīng)標(biāo)注。最后,依據(jù)識(shí)別出的機(jī)構(gòu)名稱(chēng)層級(jí)結(jié)構(gòu),分別提取機(jī)構(gòu)名稱(chēng)字段中的一級(jí)、二級(jí)機(jī)構(gòu)名稱(chēng)。

        (2)科研機(jī)構(gòu)屬性規(guī)范化表示

        針對(duì)提取的所有一級(jí)、二級(jí)科研機(jī)構(gòu)實(shí)體,對(duì)其成員、研究主題、發(fā)文量等屬性進(jìn)行表示。具體的機(jī)構(gòu)屬性表示策略如下:①依據(jù)論文“年份”字段數(shù)據(jù),統(tǒng)計(jì)各機(jī)構(gòu)的年度發(fā)文頻數(shù),以表征機(jī)構(gòu)的年發(fā)文量屬性。②依據(jù)論文“作者”“年份”字段數(shù)據(jù),將各機(jī)構(gòu)同一年份中的作者數(shù)據(jù)進(jìn)行合并和去重,以表征機(jī)構(gòu)各年度的作者屬性。③依據(jù)論文“關(guān)鍵詞”“年份”字段數(shù)據(jù),將各機(jī)構(gòu)同一年的論文關(guān)鍵詞進(jìn)行合并,以表征機(jī)構(gòu)各年度的研究主題屬性。④以(發(fā)表時(shí)間,作者,研究主題,年發(fā)文量)四元組形式對(duì)科研機(jī)構(gòu)實(shí)體的屬性進(jìn)行表示。以武漢大學(xué)信息管理學(xué)院為例,機(jī)構(gòu)屬性的四元組表示如圖2 所示。

        圖2 科研機(jī)構(gòu)實(shí)體屬性四元組表示示例

        3.3 科研機(jī)構(gòu)名稱(chēng)演化相似度計(jì)算

        在科研機(jī)構(gòu)名稱(chēng)演化相似度計(jì)算的過(guò)程中,為提高模型效率、減少冗余計(jì)算,首先,基于機(jī)構(gòu)年發(fā)文量,識(shí)別提取潛在存在演化關(guān)系的候選科研機(jī)構(gòu)名稱(chēng)對(duì)。其次,綜合作者和研究主題兩個(gè)維度進(jìn)行機(jī)構(gòu)名稱(chēng)演化相似度計(jì)算,識(shí)別正式科研機(jī)構(gòu)名稱(chēng)對(duì),并對(duì)名稱(chēng)對(duì)間的具體演化關(guān)系進(jìn)行識(shí)別。

        (1)基于發(fā)文量變化的候選科研機(jī)構(gòu)名稱(chēng)對(duì)識(shí)別

        對(duì)于年發(fā)文量相對(duì)穩(wěn)定、不符合上文所提出的消失、新增、突增和驟降4 種類(lèi)型中任何一種的機(jī)構(gòu),可以判斷其并未發(fā)生機(jī)構(gòu)演化變遷,與其他機(jī)構(gòu)間的名稱(chēng)演化相似度為0,可直接過(guò)濾。

        對(duì)于年發(fā)文量存在明顯變化的機(jī)構(gòu),進(jìn)一步基于其發(fā)文量變化類(lèi)型和變化時(shí)間節(jié)點(diǎn),識(shí)別提取其中潛在存在名稱(chēng)演化關(guān)系的機(jī)構(gòu),組成候選科研機(jī)構(gòu)名稱(chēng)對(duì),為后續(xù)計(jì)算機(jī)構(gòu)名稱(chēng)演化相似度提供數(shù)據(jù)支撐。具體如下:①機(jī)構(gòu)年發(fā)文量變化時(shí)間節(jié)點(diǎn)及變化類(lèi)型標(biāo)注。基于機(jī)構(gòu)年發(fā)文量變化特征,將年發(fā)文量發(fā)生明顯變化的年份記為時(shí)間節(jié)點(diǎn)Y,并分別將機(jī)構(gòu)的發(fā)文量變化類(lèi)型標(biāo)注為“消失”“新增”“驟降”“突增”。②候選科研機(jī)構(gòu)名稱(chēng)對(duì)識(shí)別。充分考慮學(xué)術(shù)論文發(fā)表的“滯后性”特點(diǎn),設(shè)定閾值N,當(dāng)兩個(gè)機(jī)構(gòu)時(shí)間節(jié)點(diǎn)滿足|Y1-Y2|≤N,且兩個(gè)機(jī)構(gòu)的發(fā)文量變化屬于表1 中的任意一類(lèi)變化模式時(shí),將這兩個(gè)機(jī)構(gòu)識(shí)別為候選科研機(jī)構(gòu)名稱(chēng)對(duì)。

        其中,具體機(jī)構(gòu)發(fā)文量變化類(lèi)型的識(shí)別與標(biāo)注策略如下:①“消失”型識(shí)別。當(dāng)機(jī)構(gòu)于Y年開(kāi)始往后的年發(fā)文量一直為0 時(shí),則標(biāo)注該機(jī)構(gòu)的發(fā)文量變化類(lèi)型為“消失”。②“新增”型識(shí)別。當(dāng)機(jī)構(gòu)于Y年前的年發(fā)文量全部為0,而從時(shí)間節(jié)點(diǎn)Y年份開(kāi)始持續(xù)出現(xiàn)非0 值的年發(fā)文量時(shí),標(biāo)注該機(jī)構(gòu)的發(fā)文量變化類(lèi)型為“新增”。③“驟降”型識(shí)別。當(dāng)機(jī)構(gòu)于Y年及以后年份的年發(fā)文量保持相對(duì)穩(wěn)定,連續(xù)兩年的年發(fā)文量P1、P2滿足的值小于閾值J,且相較于Y-1 年的年發(fā)文量PY-1都減少一半或更多時(shí),標(biāo)注該機(jī)構(gòu)的發(fā)文量變化類(lèi)型為“驟降”。④“突增”型識(shí)別。當(dāng)機(jī)構(gòu)于Y年及以后年份的年發(fā)文量保持相對(duì)穩(wěn)定,連續(xù)兩年的年發(fā)文量P1、P2滿 足的值小于閾值J,且相較于Y-1 年的年發(fā)文量PY-1都增長(zhǎng)一倍及以上時(shí),標(biāo)注該機(jī)構(gòu)的發(fā)文量變化類(lèi)型為“突增”。

        需要說(shuō)明的是,在“驟降”和“突增”發(fā)文量變化類(lèi)型標(biāo)注的過(guò)程中,具體閾值J的選擇需結(jié)合實(shí)際情況來(lái)設(shè)定。此外,若機(jī)構(gòu)實(shí)際經(jīng)歷了多次演化變遷,其名稱(chēng)存在復(fù)用等復(fù)雜變化時(shí),雖然名稱(chēng)說(shuō)法一致,但需要將其看作不同的科研機(jī)構(gòu)實(shí)體來(lái)進(jìn)行名稱(chēng)演化關(guān)系識(shí)別。

        (2)基于作者和研究主題的科研機(jī)構(gòu)名稱(chēng)演化相似度計(jì)算

        為識(shí)別實(shí)際具有演化關(guān)系的正式科研機(jī)構(gòu)名稱(chēng)對(duì),需要先分別對(duì)上文提取候選科研機(jī)構(gòu)名稱(chēng)對(duì)的作者共現(xiàn)度和研究主題相似度進(jìn)行計(jì)算,再基于候選科研機(jī)構(gòu)名稱(chēng)對(duì)的名稱(chēng)演化相似度值,來(lái)判斷是否將其作為正式科研機(jī)構(gòu)名稱(chēng)對(duì)。考慮到人員流動(dòng)、作者同名、相對(duì)冷門(mén)機(jī)構(gòu)的發(fā)文量較少等問(wèn)題,模型在科研機(jī)構(gòu)名稱(chēng)演化相似度計(jì)算這一環(huán)節(jié)中,將通過(guò)調(diào)節(jié)數(shù)據(jù)比例和閾值的方式來(lái)減少相關(guān)因素對(duì)識(shí)別效果的影響。

        具體計(jì)算過(guò)程中,模型將首先采用滑動(dòng)時(shí)間窗的方式,以T年作為時(shí)間窗,歸并各機(jī)構(gòu)T年間的所有作者、關(guān)鍵詞信息。其中,對(duì)于消失、驟降型機(jī)構(gòu),歸并的是Y年在內(nèi)的前T年的數(shù)據(jù);對(duì)于新增、突增型機(jī)構(gòu),歸并的是Y年在內(nèi)的后T年的數(shù)據(jù)。完成數(shù)據(jù)歸并后,分別對(duì)候選科研機(jī)構(gòu)名稱(chēng)對(duì)的作者共現(xiàn)度和研究主題相似度進(jìn)行計(jì)算。

        ①候選科研機(jī)構(gòu)名稱(chēng)對(duì)作者共現(xiàn)度計(jì)算。除偶然性同名因素外,對(duì)于論文作者這一屬性來(lái)說(shuō),若作者的名稱(chēng)一致,則可判斷兩篇論文是同一作者,即在識(shí)別機(jī)構(gòu)間相同作者的過(guò)程中,可直接基于字符串匹配的方法進(jìn)行識(shí)別。

        具體的候選科研機(jī)構(gòu)名稱(chēng)對(duì)作者共現(xiàn)度計(jì)算策略設(shè)置如下:第一,依據(jù)上文時(shí)間窗策略,歸并T年間的所有作者信息;第二,設(shè)定機(jī)構(gòu)作者絕對(duì)共現(xiàn)量閾值G,對(duì)于候選科研機(jī)構(gòu)名稱(chēng)對(duì)中作者絕對(duì)共現(xiàn)量小于G的直接過(guò)濾;第三,對(duì)提取的各個(gè)機(jī)構(gòu)的作者數(shù)據(jù)進(jìn)行去重處理,并統(tǒng)計(jì)T年間各機(jī)構(gòu)的發(fā)文作者數(shù)量Num,以及候選科研機(jī)構(gòu)名稱(chēng)對(duì)中兩個(gè)機(jī)構(gòu)間的作者絕對(duì)共現(xiàn)數(shù)量Nsame,進(jìn)行候選科研機(jī)構(gòu)名稱(chēng)對(duì)作者共現(xiàn)度計(jì)算。具體公式為

        其中,SA表示候選科研機(jī)構(gòu)名稱(chēng)對(duì)的作者共現(xiàn)度;Num1、Num2分別表示候選科研機(jī)構(gòu)名稱(chēng)對(duì)中的各機(jī)構(gòu)的發(fā)文作者數(shù)量;Nsame表示兩個(gè)機(jī)構(gòu)單位中的作者絕對(duì)共現(xiàn)數(shù)量。

        ②候選科研機(jī)構(gòu)名稱(chēng)對(duì)研究主題相似度計(jì)算。對(duì)于作者遠(yuǎn)超上千人的大規(guī)模機(jī)構(gòu)來(lái)說(shuō),其研究主題可能相對(duì)較為廣泛,涉及多個(gè)研究主題。例如,“武漢大學(xué)”是一級(jí)機(jī)構(gòu)單位,研究主題包含“信息服務(wù)”“晶體結(jié)構(gòu)”“遙感影像”等。對(duì)于作者數(shù)量較少的小規(guī)模機(jī)構(gòu)來(lái)說(shuō),其研究主題方向相對(duì)集中一致。例如,“東莞職業(yè)技術(shù)學(xué)院圖書(shū)館”是二級(jí)機(jī)構(gòu)單位,研究主題方向主要是“高職院校圖書(shū)館”。因此,為計(jì)算不同規(guī)模機(jī)構(gòu)間研究主題的相似度,先通過(guò)聚類(lèi)方法把機(jī)構(gòu)的論文關(guān)鍵詞分為多個(gè)類(lèi)團(tuán),再以類(lèi)團(tuán)中的核心詞作為機(jī)構(gòu)研究主題計(jì)算其相似度。

        考慮到部分科研機(jī)構(gòu)在早年間學(xué)術(shù)論文發(fā)表的頻率和總量相較于當(dāng)前來(lái)說(shuō)會(huì)相對(duì)較低,具體的候選科研機(jī)構(gòu)名稱(chēng)對(duì)關(guān)鍵詞相似度計(jì)算策略設(shè)置如下:第一,依據(jù)上文時(shí)間窗策略,歸并T年間的所有關(guān)鍵詞信息;第二,基于論文關(guān)鍵詞進(jìn)行科研機(jī)構(gòu)研究主題聚類(lèi),采用類(lèi)似single-pass 的聚類(lèi)方法,不指定類(lèi)的數(shù)量,而是依據(jù)一定的度量方法直接計(jì)算關(guān)鍵詞間的相似度實(shí)現(xiàn)聚類(lèi),形成多個(gè)簇,并將每一個(gè)簇看作機(jī)構(gòu)的一個(gè)研究主題;第三,研究主題相似度計(jì)算,先采用詞嵌入模型獲取研究主題的詞向量表示,再依據(jù)余弦相似度計(jì)算方法,計(jì)算機(jī)構(gòu)對(duì)間各個(gè)研究主題的相似度。具體公式為

        其中,Sk表示候選科研機(jī)構(gòu)名稱(chēng)對(duì)間各研究主題的相似度;M、Z分別表示候選機(jī)構(gòu)對(duì)中的各機(jī)構(gòu)的研究主題。

        ③科研機(jī)構(gòu)名稱(chēng)演化相似度計(jì)算。由于僅依據(jù)作者或是研究主題均無(wú)法有效識(shí)別機(jī)構(gòu)間的名稱(chēng)演化關(guān)系,將綜合考慮作者和研究主題兩個(gè)因素進(jìn)行科研機(jī)構(gòu)名稱(chēng)演化相似度計(jì)算,并基于相似度值判斷識(shí)別正式科研機(jī)構(gòu)名稱(chēng)對(duì)。設(shè)置作者共現(xiàn)度閾值A(chǔ),研究主題相似度閾值K,將機(jī)構(gòu)名稱(chēng)演化相似度表示為Sgroup,當(dāng)且僅當(dāng)候選科研機(jī)構(gòu)對(duì)的作者共現(xiàn)度和至少一個(gè)研究主題相似度同時(shí)滿足閾值條件時(shí),該科研機(jī)構(gòu)名稱(chēng)對(duì)的Sgroup值為1,識(shí)別其為正式科研機(jī)構(gòu)名稱(chēng)對(duì)。具體公式為

        其中,SA′表示候選科研機(jī)構(gòu)名稱(chēng)對(duì)的作者共現(xiàn)度SA與閾值A(chǔ)的比較結(jié)果;SK′表示機(jī)構(gòu)各個(gè)研究主題相似度Sk與閾值K的比較結(jié)果;Sgroup表示科研機(jī)構(gòu)名稱(chēng)演化相似度。當(dāng)且僅當(dāng)SA′與SK′的乘積Sgroup為1 時(shí),識(shí)別該機(jī)構(gòu)對(duì)為具有實(shí)際演化關(guān)系的正式科研機(jī)構(gòu)名稱(chēng)對(duì)。

        3.4 科研機(jī)構(gòu)名稱(chēng)演化關(guān)系識(shí)別

        對(duì)于正式科研機(jī)構(gòu)名稱(chēng)對(duì),將基于科研機(jī)構(gòu)年發(fā)文量變化模式和名稱(chēng)映射關(guān)系兩個(gè)指標(biāo)進(jìn)行演化關(guān)系識(shí)別。具體如表2 所示。

        表2 正式機(jī)構(gòu)名稱(chēng)對(duì)演化關(guān)系識(shí)別

        4 實(shí) 驗(yàn)

        為驗(yàn)證上文所構(gòu)建演化關(guān)系識(shí)別模型的效果,本文以信息資源管理(原圖書(shū)情報(bào)與檔案管理)學(xué)科的學(xué)術(shù)論文為例,進(jìn)行實(shí)驗(yàn)效果驗(yàn)證。

        4.1 數(shù) 據(jù)

        考慮到機(jī)構(gòu)的演化變遷存在一定的時(shí)間跨度,在實(shí)驗(yàn)數(shù)據(jù)選擇和采集的過(guò)程中,主要采集了CSSCI(Chinese Social Sciences Citation Index)數(shù)據(jù)庫(kù)收錄的1996—2021 年的信息資源管理(原圖書(shū)情報(bào)與檔案管理)學(xué)科領(lǐng)域的學(xué)術(shù)論文數(shù)據(jù)。首先,采集刊目包括《大學(xué)圖書(shū)館學(xué)報(bào)》《國(guó)家圖書(shū)館學(xué)刊》《情報(bào)科學(xué)》《情報(bào)理論與實(shí)踐》《情報(bào)學(xué)報(bào)》《情報(bào)雜志》《情報(bào)資料工作》《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》《圖書(shū)館》《圖書(shū)館工作與研究》《圖書(shū)館建設(shè)》《圖書(shū)館論壇》《圖書(shū)館學(xué)研究》《圖書(shū)館雜志》《圖書(shū)情報(bào)工作》《圖書(shū)情報(bào)知識(shí)》《圖書(shū)與情報(bào)》和《中國(guó)圖書(shū)館學(xué)報(bào)》18 本核心期刊。其中,采集的學(xué)術(shù)論文元數(shù)據(jù)字段包含題名、年份、作者、單位和關(guān)鍵詞等。

        其次,基于上文模型中的策略,對(duì)采集數(shù)據(jù)進(jìn)行過(guò)濾、清洗、別名、簡(jiǎn)稱(chēng)映射等預(yù)處理。最后,共得到159195 條有效數(shù)據(jù)作為實(shí)驗(yàn)基礎(chǔ)數(shù)據(jù)。

        4.2 實(shí)驗(yàn)過(guò)程

        該實(shí)驗(yàn)依據(jù)上文所構(gòu)建的科研機(jī)構(gòu)名稱(chēng)演化關(guān)系識(shí)別模型展開(kāi),對(duì)于過(guò)程中完全一致的環(huán)節(jié),在此不再重復(fù)說(shuō)明,僅對(duì)實(shí)驗(yàn)中參數(shù)的優(yōu)化設(shè)置進(jìn)行詳細(xì)說(shuō)明。

        經(jīng)過(guò)對(duì)數(shù)據(jù)的分析,在候選科研機(jī)構(gòu)名稱(chēng)對(duì)識(shí)別環(huán)節(jié)中,設(shè)定閾值J和N分別為2 和3,當(dāng)各機(jī)構(gòu)內(nèi)連續(xù)兩年年發(fā)文量的比值,同時(shí)兩個(gè)機(jī)構(gòu)時(shí)間節(jié)點(diǎn)滿足|Y1-Y2| ≤3,且兩個(gè)機(jī)構(gòu)的變化類(lèi)型歸屬于“消失-新增”“驟降-突增”“驟降-新增”“消失-突增”等模式之一時(shí),將兩個(gè)機(jī)構(gòu)識(shí)別為候選科研機(jī)構(gòu)名稱(chēng)對(duì)。在名稱(chēng)演化相似度計(jì)算環(huán)節(jié)中,為控制作者重名、相對(duì)冷門(mén)機(jī)構(gòu)實(shí)驗(yàn)數(shù)據(jù)較少等問(wèn)題對(duì)實(shí)驗(yàn)結(jié)果的影響,設(shè)定作者絕對(duì)共現(xiàn)閾值G為2,將候選機(jī)構(gòu)名稱(chēng)對(duì)中相同作者數(shù)量小于2 的直接過(guò)濾,設(shè)定時(shí)間窗T為5,分別歸并機(jī)構(gòu)5 年間的所有作者和關(guān)鍵詞數(shù)據(jù)。在科研機(jī)構(gòu)名稱(chēng)演化關(guān)系識(shí)別環(huán)節(jié)中,將作者共現(xiàn)度閾值A(chǔ)和研究主題相似度閾值K分別初始設(shè)置為0.1,并以0.05 為步長(zhǎng),對(duì)候選科研機(jī)構(gòu)名稱(chēng)對(duì)進(jìn)行識(shí)別結(jié)果對(duì)比,綜合考慮實(shí)驗(yàn)召回和命中情況確定最佳取值。最終,設(shè)置科研機(jī)構(gòu)的作者共現(xiàn)度閾值為0.2,研究主題相似度閾值為0.85。

        4.3 結(jié)果與分析

        依據(jù)上文構(gòu)建模型和最終參數(shù)設(shè)置,對(duì)樣本數(shù)據(jù)中的科研機(jī)構(gòu)進(jìn)行名稱(chēng)演化關(guān)系識(shí)別,最終識(shí)別的正式科研機(jī)構(gòu)名稱(chēng)對(duì)的演化關(guān)系如表3所示。

        表3 正式科研機(jī)構(gòu)名稱(chēng)對(duì)演化關(guān)系識(shí)別結(jié)果示例

        從表3 可以看出,科研機(jī)構(gòu)名稱(chēng)對(duì)“廣東商學(xué)院-廣東財(cái)經(jīng)大學(xué)”“安徽財(cái)貿(mào)學(xué)院-安徽財(cái)經(jīng)大學(xué)”“武漢大學(xué)/大眾傳播與知識(shí)信息管理學(xué)院//-武漢大學(xué)/信息管理學(xué)院//”的年發(fā)文量變化模式為“消失-新增”,映射關(guān)系為1:1,識(shí)別其機(jī)構(gòu)對(duì)間機(jī)構(gòu)具有改名關(guān)系;科研機(jī)構(gòu)名稱(chēng)對(duì)“鄭州工業(yè)大學(xué)-鄭州大學(xué)”“吉林工業(yè)大學(xué)-吉林大學(xué)”“長(zhǎng)春科技大學(xué)-吉林大學(xué)”“白求恩醫(yī)科大學(xué)-吉林大學(xué)”的年發(fā)文量變化模式為“消失-突增”,映射關(guān)系為n:1,識(shí)別其機(jī)構(gòu)對(duì)間機(jī)構(gòu)具有合并關(guān)系。

        為了進(jìn)一步驗(yàn)證本文提出的科研機(jī)構(gòu)名稱(chēng)演化識(shí)別策略的效果,選擇呂冬晴等[3]提出的方法進(jìn)行對(duì)比分析。以準(zhǔn)確率、召回率和F1 值作為最終效果評(píng)價(jià)指標(biāo),對(duì)兩種科研機(jī)構(gòu)名稱(chēng)演化識(shí)別方法的實(shí)驗(yàn)效果進(jìn)行對(duì)比,結(jié)果如表4 所示。

        表4 對(duì)照實(shí)驗(yàn)結(jié)果

        在實(shí)驗(yàn)數(shù)據(jù)集中,一共有32 對(duì)實(shí)際具有改名關(guān)系的二級(jí)科研機(jī)構(gòu)名稱(chēng)對(duì),以及113 對(duì)實(shí)際具有演化關(guān)系的一級(jí)科研機(jī)構(gòu)名稱(chēng)對(duì)。其中,包含改名關(guān)系83 對(duì),拆分關(guān)系2 對(duì),合并關(guān)系28 對(duì)。從具體的科研機(jī)構(gòu)名稱(chēng)對(duì)演化關(guān)系識(shí)別結(jié)果來(lái)看,本文模型正確識(shí)別出實(shí)際具有演化關(guān)系的科研機(jī)構(gòu)名稱(chēng)對(duì)共131 對(duì)。其中,識(shí)別正確的改名關(guān)系100 對(duì),合并關(guān)系14 對(duì),將其他演變關(guān)系誤判為改名關(guān)系的有17 對(duì)。機(jī)構(gòu)-作者向量方法識(shí)別出實(shí)際具有演化關(guān)系的科研機(jī)構(gòu)名稱(chēng)對(duì)共115 對(duì)。其中,識(shí)別正確的改名關(guān)系90 對(duì),合并關(guān)系8 對(duì),將其他演變關(guān)系誤判為改名關(guān)系的有17 對(duì)??蒲袡C(jī)構(gòu)名稱(chēng)對(duì)演化關(guān)系識(shí)別結(jié)果如表5 所示。

        表5 科研機(jī)構(gòu)名稱(chēng)演化關(guān)系識(shí)別結(jié)果示例

        由表4 和表5 可知,科研機(jī)構(gòu)名稱(chēng)演化關(guān)系的識(shí)別中,相較于“機(jī)構(gòu)-作者向量”對(duì)比方法,本文模型的識(shí)別效果相對(duì)較好。在一級(jí)機(jī)構(gòu)的識(shí)別中,本文模型的準(zhǔn)確率、召回率和F1 值分別提升了0.022、0.053 和0.036,并成功識(shí)別出了對(duì)比方法中未能識(shí)別的“長(zhǎng)春師范大學(xué)-長(zhǎng)春師范學(xué)院”“長(zhǎng)春科技大學(xué)-吉林大學(xué)”等6 個(gè)科研機(jī)構(gòu)名稱(chēng)對(duì)間的演化關(guān)系。對(duì)一級(jí)機(jī)構(gòu)的發(fā)文量和作者絕對(duì)共現(xiàn)度指標(biāo)進(jìn)行分析發(fā)現(xiàn),大部分機(jī)構(gòu)的發(fā)文量相對(duì)較高,能夠從學(xué)術(shù)論文數(shù)據(jù)中提取到相對(duì)豐富的作者特征信息;而本文模型識(shí)別效果優(yōu)于對(duì)比方法的部分,主要是識(shí)別出了發(fā)文量較少、作者絕對(duì)共現(xiàn)度較低的、相對(duì)比較冷門(mén)的一級(jí)機(jī)構(gòu)間的名稱(chēng)演化關(guān)系。

        在對(duì)二級(jí)科研機(jī)構(gòu)名稱(chēng)演化關(guān)系的識(shí)別中,本文模型在召回率和F1 值的效果都明顯優(yōu)于對(duì)比識(shí)別方法,特別是召回率顯著提升了0.313。同時(shí),相較于對(duì)比方法,本文模型還成功識(shí)別出了“電子科技大學(xué)/政治與公共管理學(xué)院//-電子科技大學(xué)/公共管理學(xué)院//”“四川大學(xué)/工商管理學(xué)院//-四川大學(xué)/商學(xué)院//”等10 個(gè)科研機(jī)構(gòu)名稱(chēng)對(duì)間的演化關(guān)系。對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),除武漢大學(xué)信息管理學(xué)院等個(gè)別機(jī)構(gòu)外,二級(jí)科研機(jī)構(gòu)的發(fā)文量普遍較低,能夠提取的作者信息較少。相較于本文模型,對(duì)比實(shí)驗(yàn)方法僅基于少量機(jī)構(gòu)作者特征數(shù)據(jù)很難對(duì)機(jī)構(gòu)名稱(chēng)對(duì)間的實(shí)際演化關(guān)系進(jìn)行有效識(shí)別。

        此外,如“西藏民族學(xué)院-西藏民族大學(xué)”和“中南工業(yè)大學(xué)-中南大學(xué)”等多個(gè)機(jī)構(gòu)對(duì)的識(shí)別結(jié)果所示,兩種識(shí)別策略在具體實(shí)驗(yàn)過(guò)程中,都將這些機(jī)構(gòu)名稱(chēng)對(duì)的拆分、合并等演化關(guān)系誤判為了改名關(guān)系。通過(guò)數(shù)據(jù)核查與分析發(fā)現(xiàn),出現(xiàn)這種識(shí)別錯(cuò)誤的原因是實(shí)驗(yàn)數(shù)據(jù)集中不包含部分相關(guān)機(jī)構(gòu)的發(fā)文數(shù)據(jù),無(wú)法提取出“西藏民族學(xué)院-貴州大學(xué)”“湖南醫(yī)科大學(xué)-中南大學(xué)”以及“長(zhǎng)沙鐵道學(xué)院-中南大學(xué)”等機(jī)構(gòu)名稱(chēng)對(duì)。因此,本文模型雖然能夠識(shí)別出機(jī)構(gòu)名稱(chēng)間具有演化關(guān)系,但依據(jù)關(guān)系映射指標(biāo),將其演化關(guān)系錯(cuò)誤識(shí)別為了改名關(guān)系。

        基于多個(gè)角度對(duì)實(shí)驗(yàn)結(jié)果的對(duì)比分析可知,本文所構(gòu)建的基于作者和研究主題的科研機(jī)構(gòu)名稱(chēng)演化關(guān)系識(shí)別模型,在機(jī)構(gòu)演化關(guān)系的識(shí)別中受機(jī)構(gòu)發(fā)文量影響較少,能夠通過(guò)小規(guī)模語(yǔ)料數(shù)據(jù),對(duì)一般以及相對(duì)冷門(mén)的科研機(jī)構(gòu)的名稱(chēng)演化關(guān)系進(jìn)行有效識(shí)別。

        5 結(jié)語(yǔ)

        針對(duì)由機(jī)構(gòu)發(fā)展變遷而引發(fā)的名稱(chēng)演化問(wèn)題,本文提出了一種基于作者和研究主題的科研機(jī)構(gòu)名稱(chēng)演化關(guān)系識(shí)別方法?;跀?shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證發(fā)現(xiàn),本文模型無(wú)論是在一級(jí)研機(jī)構(gòu)還是二級(jí)科研機(jī)構(gòu)的名稱(chēng)演化關(guān)系識(shí)別中,相較于對(duì)比方法,效果均有所提升,尤其是二級(jí)機(jī)構(gòu)的召回率從0.531 提升為0.844。該方法能夠通過(guò)小規(guī)模的語(yǔ)料數(shù)據(jù),較好地識(shí)別出相對(duì)冷門(mén)的科研機(jī)構(gòu)之間的名稱(chēng)演化關(guān)系,將同一機(jī)構(gòu)不同時(shí)段、不同表達(dá)形式的規(guī)范化和非規(guī)范化機(jī)構(gòu)名稱(chēng)進(jìn)行關(guān)聯(lián)映射,從而進(jìn)一步優(yōu)化基于科研機(jī)構(gòu)的信息檢索和知識(shí)發(fā)現(xiàn)服務(wù)。

        但本文也存在一定的局限性,需要在后續(xù)研究中進(jìn)一步優(yōu)化。在機(jī)構(gòu)作者共現(xiàn)度計(jì)算中,需要進(jìn)一步減少流動(dòng)性較強(qiáng)的學(xué)生作者數(shù)據(jù),穩(wěn)定作者數(shù)據(jù)比例,以提升識(shí)別效果;在機(jī)構(gòu)研究主題相似度計(jì)算中,需要進(jìn)一步從語(yǔ)義角度加強(qiáng)考慮學(xué)術(shù)論文關(guān)鍵詞的相似性;針對(duì)發(fā)文量極少的冷門(mén)科研機(jī)構(gòu),需要進(jìn)一步進(jìn)行模型優(yōu)化,以識(shí)別其名稱(chēng)演化關(guān)系。

        猜你喜歡
        研究
        FMS與YBT相關(guān)性的實(shí)證研究
        2020年國(guó)內(nèi)翻譯研究述評(píng)
        遼代千人邑研究述論
        視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        關(guān)于遼朝“一國(guó)兩制”研究的回顧與思考
        EMA伺服控制系統(tǒng)研究
        基于聲、光、磁、觸摸多功能控制的研究
        電子制作(2018年11期)2018-08-04 03:26:04
        新版C-NCAP側(cè)面碰撞假人損傷研究
        關(guān)于反傾銷(xiāo)會(huì)計(jì)研究的思考
        焊接膜層脫落的攻關(guān)研究
        電子制作(2017年23期)2017-02-02 07:17:19
        久久伊人精品中文字幕有尤物| 99久久久久国产| 久久这里有精品国产电影网| 男女性生活视频免费网站| 无码精品国产一区二区三区免费 | 亚洲天堂久久午夜福利| 69精品人人人人| 国产美女遭强高潮网站| 久久精品国产精品亚洲艾| 日韩精品久久午夜夜伦鲁鲁| 不卡av电影在线| 黑人巨大videos极度另类| 一区二区丝袜美腿视频| 亚洲av三级黄色在线观看| 国产精品视频免费播放| 四虎4545www国产精品| 亚洲毛片av一区二区三区| 99久久99久久久精品蜜桃| 亚洲av无码精品蜜桃| 手机在线精品视频| 日本一区二区啪啪视频| 狠狠躁夜夜躁人人爽超碰97香蕉| 香港日本三级亚洲三级| 91华人在线| 亚洲肥婆一区二区三区| 美女内射毛片在线看免费人动物| 3d动漫精品啪啪一区二区下载| 久久无码中文字幕东京热| 亚洲一区二区刺激的视频| 伊人久久大香线蕉综合影院首页| 在线不卡av天堂| 91九色精品日韩内射无| 国产成人无码a区在线观看导航| 双乳被一左一右吃着动态图| 国产精品欧美视频另类专区| 手机在线播放av网址| 卡一卡二卡三无人区| 国产精品久久久久孕妇| av在线一区二区精品| 国产人妻熟女高跟丝袜图片| 国产精品自在拍在线播放|