劉 燕 孫月萍 侯 麗
(中國醫(yī)學(xué)科學(xué)院/北京協(xié)和醫(yī)學(xué)院醫(yī)學(xué)信息研究所 北京100020)
面對日益激增的海量數(shù)字化文獻(xiàn)資源,如何利用規(guī)范化的機(jī)構(gòu)體系對文獻(xiàn)資源進(jìn)行整合、挖掘、分析等一直是學(xué)界關(guān)注的重點[1]。近年來,學(xué)界加強(qiáng)了對機(jī)構(gòu)規(guī)范文檔[2-3]、機(jī)構(gòu)知識庫[4]等的構(gòu)建與應(yīng)用研究,從機(jī)構(gòu)名稱統(tǒng)一標(biāo)識[5]、機(jī)構(gòu)類別特征化[6]、機(jī)構(gòu)名稱相似度計算[7]等角度,推進(jìn)規(guī)范化機(jī)構(gòu)在各種服務(wù)場景中的應(yīng)用。機(jī)構(gòu)作為科技文獻(xiàn)的重要組成元素之一,是開展科研評價、信息檢索、學(xué)術(shù)資源組織與關(guān)聯(lián)的基礎(chǔ)。但現(xiàn)實中文獻(xiàn)機(jī)構(gòu)名稱著錄混亂、層級結(jié)構(gòu)模糊、更名、重組、合并、拆分等現(xiàn)象頻繁,加之名稱存在縮寫、簡稱、書寫不規(guī)范等問題,導(dǎo)致機(jī)構(gòu)名稱識別度降低,各類數(shù)據(jù)庫和搜索引擎很難準(zhǔn)確統(tǒng)計機(jī)構(gòu)對應(yīng)的資源數(shù)量[8],從而影響統(tǒng)計分析和評價結(jié)果的可靠性[9]。因此為有效整合并利用機(jī)構(gòu)實體不同名稱下的信息資源[10],進(jìn)行機(jī)構(gòu)名稱規(guī)范化的研究與實踐至關(guān)重要。
機(jī)構(gòu)名稱規(guī)范一般是指通過收集機(jī)構(gòu)實體的所有表現(xiàn)形式,實現(xiàn)多個機(jī)構(gòu)名稱到一個機(jī)構(gòu)實體的映射[11]。對于科技文獻(xiàn)中的機(jī)構(gòu)名稱規(guī)范研究而言,其核心問題是提取“作者單位”著錄項中的機(jī)構(gòu)名稱,并進(jìn)行機(jī)構(gòu)名稱的消歧,使同一機(jī)構(gòu)實體的不同名稱表現(xiàn)形式都指向一處。學(xué)者們據(jù)此開展諸多研究,取得較好效果,然而還無法有效解決表達(dá)形式差異較大的機(jī)構(gòu)名稱規(guī)范問題,如“北京安貞醫(yī)院”與“首都醫(yī)科大學(xué)第六臨床醫(yī)學(xué)院”。對此,有學(xué)者通過發(fā)文著者共現(xiàn)情況來判斷機(jī)構(gòu)名稱的相似度[12-13],取得了一定效果,但未考慮不同類型機(jī)構(gòu)的差異。鑒于此,本文嘗試從“機(jī)構(gòu)-作者”共現(xiàn)和機(jī)構(gòu)類型特征詞的角度,進(jìn)行機(jī)構(gòu)名稱的規(guī)范化研究,分析不同類型機(jī)構(gòu)名稱的命名特點,并結(jié)合機(jī)構(gòu)共現(xiàn)作者和相似度計算方法進(jìn)行中文機(jī)構(gòu)名稱的消歧,最后以醫(yī)學(xué)領(lǐng)域機(jī)構(gòu)為例進(jìn)行實踐。
機(jī)構(gòu)名稱的規(guī)范化建設(shè)經(jīng)歷了規(guī)范控制、訪問控制、唯一標(biāo)識符等階段。其中,規(guī)范控制是為各機(jī)構(gòu)設(shè)置一個規(guī)范名稱并將其他名稱都指向它,缺點是檢索其他名稱時只能獲取包含該名稱的資源;訪問控制則不設(shè)置規(guī)范名稱,而是將所有名稱都加入一個可訪問的白名單中,檢索任意名稱都能獲取全部資源,但多次檢索會加重系統(tǒng)負(fù)擔(dān)[14];國際標(biāo)準(zhǔn)名稱識別碼[15](International Standard Name Identifier, ISNI)、Ringgold標(biāo)識數(shù)據(jù)庫[16]等希望通過唯一標(biāo)識符來實現(xiàn)機(jī)構(gòu)的唯一識別,但由于目前并未形成統(tǒng)一的全球化方案,在文獻(xiàn)數(shù)據(jù)中的應(yīng)用程度還較低,因此利用唯一標(biāo)識符解決機(jī)構(gòu)實體的歧義問題更多是愿景和輔助手段[14]。常見機(jī)構(gòu)名稱規(guī)范化方法主要有基于字符串相似度的方法、基于規(guī)則的方法、基于統(tǒng)計關(guān)聯(lián)的方法和混合策略的方法。
基本思路是利用字符串相似度計算的方法判定機(jī)構(gòu)名稱相似性程度。常用方法包括Levenshtein編輯距離[17]、Cosine相似度、Jaccard相似度等。有學(xué)者[18-19]基于字符串編輯距離的方法構(gòu)建機(jī)構(gòu)名稱規(guī)范文檔。Ferosh J[20]利用Levenshtein編輯距離方法對求職簡歷中求職者機(jī)構(gòu)名稱進(jìn)行規(guī)范。Jiang Y等[21]基于歸一化的壓縮聚類方法實現(xiàn)對同一機(jī)構(gòu)不同名稱的聚類。
主要思想是基于建立的規(guī)則庫對錯誤匹配對進(jìn)行過濾。有學(xué)者[22-23]根據(jù)機(jī)構(gòu)名稱的特點,提出基于規(guī)則的機(jī)構(gòu)名稱消歧方法,并在Web of Science不同學(xué)科數(shù)據(jù)集中進(jìn)行有效性測試。沈嘉懿等[24]針對網(wǎng)絡(luò)文本數(shù)據(jù)提出基于規(guī)則識別中文組織機(jī)構(gòu)名稱的方法,借助機(jī)構(gòu)后綴詞庫、規(guī)則匹配和貝葉斯模型識別機(jī)構(gòu)邊界。
基本思路是利用Web大規(guī)模語料,通過計算不同機(jī)構(gòu)名稱字符串搜索結(jié)果中統(tǒng)一資源定位符(Universal Resource Locator,URL)的共現(xiàn)情況來判定機(jī)構(gòu)名稱相似度[25]。Aumueller D等[26]基于谷歌和雅虎搜索返回的前k個URL共現(xiàn)重疊情況來計算兩個機(jī)構(gòu)名稱匹配程度。
主要思想是通過整合兩種或兩種以上的方法,來實現(xiàn)更高的機(jī)構(gòu)名稱識別精準(zhǔn)度。楊瑞仙等[27]提出一種基于規(guī)則和向量空間模型的科研機(jī)構(gòu)名稱識別方法。孫海霞等[9]提出一種基于規(guī)則和編輯距離的機(jī)構(gòu)名稱匹配策略,并以中文生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫為例進(jìn)行實踐。張建勇等[14]基于規(guī)則和相似度計算的方法對國家科技圖書文獻(xiàn)中心內(nèi)的科研機(jī)構(gòu)實體進(jìn)行消歧,以便構(gòu)建科研合作網(wǎng)絡(luò)等。
本研究以中文科技文獻(xiàn)中的機(jī)構(gòu)為例開展名稱規(guī)范化研究。設(shè)計中文科技文獻(xiàn)機(jī)構(gòu)名稱規(guī)范實現(xiàn)流程,包括數(shù)據(jù)采集、機(jī)構(gòu)名稱提取和機(jī)構(gòu)實體消歧3個步驟,見圖1。

圖1 中文科技文獻(xiàn)機(jī)構(gòu)名稱規(guī)范化處理流程
科技文獻(xiàn)來源包括數(shù)據(jù)庫商、出版商、服務(wù)商等,不同來源的數(shù)據(jù)描述粒度不同,數(shù)據(jù)質(zhì)量也有所差異。本研究制定數(shù)據(jù)采集方案如下:根據(jù)數(shù)據(jù)質(zhì)量、權(quán)威性等采集要求,確定采集來源、時間范圍、期刊等;確定需要采集的字段項,如題目、作者、機(jī)構(gòu)著錄項等;利用爬蟲軟件進(jìn)行數(shù)據(jù)采集,完成格式轉(zhuǎn)換與存儲;制定規(guī)則對不完整數(shù)據(jù)和重復(fù)數(shù)據(jù)進(jìn)行處理,將缺少文獻(xiàn)題目、作者、機(jī)構(gòu)等關(guān)鍵字段的數(shù)據(jù)直接剔除,刪除重復(fù)數(shù)據(jù)中字段項較少的,判定重復(fù)數(shù)據(jù)的條件為兩篇文獻(xiàn)DOI是否一致或題目、作者和期刊3項信息是否完全相同。
3.2.1 概述 機(jī)構(gòu)名稱在科技文獻(xiàn)中的表述形式多樣,存在問題主要包括兩點:機(jī)構(gòu)合作客觀存在,且1位作者可能會隸屬于多個機(jī)構(gòu),故1篇文獻(xiàn)可能會存在多個機(jī)構(gòu)的現(xiàn)象(簡稱多機(jī)構(gòu));機(jī)構(gòu)著錄項標(biāo)注形式不統(tǒng)一,且不同期刊對機(jī)構(gòu)著錄項要求不同,如郵編位置、是否標(biāo)注機(jī)構(gòu)所在國家、機(jī)構(gòu)是否為獨立法人等。鑒于此,本研究將利用字符串匹配、詞典和規(guī)則過濾的方法進(jìn)行規(guī)范化機(jī)構(gòu)名稱提取。
3.2.2 多機(jī)構(gòu)拆分 將包含多個機(jī)構(gòu)的數(shù)據(jù)拆分為多條數(shù)據(jù),確保1條數(shù)據(jù)只包含1個機(jī)構(gòu)及其對應(yīng)的作者,便于統(tǒng)計機(jī)構(gòu)發(fā)表的文獻(xiàn)及隸屬于機(jī)構(gòu)的作者。拆分方法是先利用字符串方法找到機(jī)構(gòu)著錄項之間的分隔符,并以分隔符為邊界完成機(jī)構(gòu)拆分。
3.2.3 機(jī)構(gòu)著錄項拆分與過濾 對單機(jī)構(gòu)的機(jī)構(gòu)著錄項進(jìn)行拆分并過濾郵編、行政區(qū)劃地址等信息,以獲取作者原始著錄的機(jī)構(gòu)名稱信息。(1)機(jī)構(gòu)著錄項拆分。以逗號或空格為分隔符對機(jī)構(gòu)著錄項包含的字段進(jìn)行拆分,考慮到機(jī)構(gòu)名稱長度至少為4,可直接過濾掉長度小于4的字段。(2)郵編和行政區(qū)劃地址過濾。判斷剩余的字段是否為郵編和行政區(qū)劃地址,若是則直接刪除。其中,郵編可使用字符串編輯的方法處理,若該字段由6位連續(xù)的數(shù)字組成,則判定為郵編;行政區(qū)劃地址可通過構(gòu)建國內(nèi)各省市地區(qū)字典來處理。
3.2.4 機(jī)構(gòu)名稱規(guī)范化提取方案 本研究的規(guī)范化機(jī)構(gòu)名稱是指法人級別的機(jī)構(gòu),因此要對部門、科室等二級機(jī)構(gòu)名稱進(jìn)行識別并刪除。通常,中文機(jī)構(gòu)名稱以“A+B”的形式表達(dá),A部分一般由方位詞、序數(shù)詞、動詞等構(gòu)成,B部分一般為“大學(xué)”“研究所”“醫(yī)院”等用來表示機(jī)構(gòu)特征的中心語,故可以通過B部分來判定機(jī)構(gòu)名稱是否已規(guī)范至法人級別。本研究設(shè)計面向中文科技文獻(xiàn)機(jī)構(gòu)名稱規(guī)范化提取方案包括:(1)機(jī)構(gòu)名稱分詞。構(gòu)建機(jī)構(gòu)名稱詞庫,利用中文分詞工具Jieba對機(jī)構(gòu)名稱進(jìn)行分詞,得到A和B 兩部分。(2)構(gòu)建機(jī)構(gòu)特征詞表。結(jié)合國家機(jī)構(gòu)類型分類標(biāo)準(zhǔn)《組織機(jī)構(gòu)類型(GB/T 20091—2006)》,將機(jī)構(gòu)分為科研機(jī)構(gòu)、高等教育機(jī)構(gòu)、醫(yī)療機(jī)構(gòu)、事業(yè)單位、行政機(jī)構(gòu)、公司企業(yè)、社會團(tuán)體、其他8類,進(jìn)而利用中文機(jī)構(gòu)名稱的命名特點,構(gòu)建機(jī)構(gòu)類型特征詞表。(3)識別機(jī)構(gòu)名稱著錄深度。依次比較機(jī)構(gòu)名稱的B部分與機(jī)構(gòu)類型特征詞表有無匹配項,若有匹配項則不作處理,若無匹配項則表明該字段包含二級機(jī)構(gòu)名,應(yīng)從右至左依次遍歷分詞列表,直到匹配到正確的機(jī)構(gòu)中心語,并將中心語右側(cè)的二級機(jī)構(gòu)名刪除,得到規(guī)范的一級機(jī)構(gòu)名稱,見圖2。

圖2 中文科技文獻(xiàn)中的機(jī)構(gòu)名稱規(guī)范化提取方案
3.3.1概述 可用于機(jī)構(gòu)實體匹配的文獻(xiàn)特征有機(jī)構(gòu)名稱、行政區(qū)劃地址、郵編等,但很多機(jī)構(gòu)著錄項中的行政區(qū)劃地址和郵編信息并不完整。因此本研究考慮從機(jī)構(gòu)名稱出發(fā),構(gòu)建“機(jī)構(gòu)-作者”關(guān)系表,并基于機(jī)構(gòu)類型特征詞典對機(jī)構(gòu)進(jìn)行分類,進(jìn)而面向不同機(jī)構(gòu)類別分別構(gòu)建“機(jī)構(gòu)-機(jī)構(gòu)”作者共現(xiàn)矩陣、計算作者共現(xiàn)率,以實現(xiàn)機(jī)構(gòu)實體消歧。假設(shè)不同類別中的機(jī)構(gòu)名不可能指向同一機(jī)構(gòu)實體,即無需匹配不同類別之間的機(jī)構(gòu)名,這樣一方面可以減少機(jī)構(gòu)之間兩兩匹配的次數(shù),提高計算效率;另一方面能夠降低錯誤匹配的幾率,提升匹配準(zhǔn)確率。
3.3.2 構(gòu)建“機(jī)構(gòu)-作者”關(guān)系表 通常,機(jī)構(gòu)發(fā)表的文獻(xiàn)都不止1篇,故本研究先以機(jī)構(gòu)為中心對文獻(xiàn)進(jìn)行聚類,聚類個數(shù)即為待消歧機(jī)構(gòu)名稱的數(shù)量,從而得到各機(jī)構(gòu)發(fā)表的文獻(xiàn)集合,整合對應(yīng)集合中的作者,完成“機(jī)構(gòu)-作者”關(guān)系表構(gòu)建。作者消歧是實體消歧的另一關(guān)鍵問題,非本研究重點,故暫不考慮作者同名的情況。
3.3.3 機(jī)構(gòu)分類 利用分詞工具對上述規(guī)范至法人級別的機(jī)構(gòu)名稱進(jìn)行分詞處理,選取能夠代表機(jī)構(gòu)類型的中心語,即分詞列表中的最后一個詞,依次與機(jī)構(gòu)類型特征詞表中的特征詞進(jìn)行比較,據(jù)此得到各機(jī)構(gòu)名稱的分類。以“中國人民大學(xué)”為例,首先分詞得到“中國/ns 人民/n 大學(xué)/n”,然后選擇分詞列表中的最后一個詞“大學(xué)”與機(jī)構(gòu)特征詞表進(jìn)行匹配,發(fā)現(xiàn)該機(jī)構(gòu)名稱屬于“高等教育機(jī)構(gòu)”。
3.3.4 機(jī)構(gòu)消歧 本研究假設(shè),在一段時期內(nèi)機(jī)構(gòu)成員會保持相對穩(wěn)定[28],因此可通過機(jī)構(gòu)之間的作者共現(xiàn)率來推斷不同機(jī)構(gòu)名是否指向同一實體。此外,考慮到本研究涉及的機(jī)構(gòu)類型多樣,如公司企業(yè)、社會團(tuán)體等機(jī)構(gòu)發(fā)文量難以保證,無法避免由于發(fā)文量低而導(dǎo)致的重名風(fēng)險,即若某機(jī)構(gòu)發(fā)文量極低(如小于5),則可能因個別作者重名而導(dǎo)致作者共現(xiàn)率超過閾值[29],影響消歧準(zhǔn)確率。因此綜合考慮機(jī)構(gòu)對之間的作者共現(xiàn)率和作者絕對共現(xiàn)量指標(biāo),即針對不同類別機(jī)構(gòu)的數(shù)據(jù),循環(huán)遍歷“機(jī)構(gòu)-作者”關(guān)系表中的n個機(jī)構(gòu),依次比較機(jī)構(gòu)m(1≤m≤n)和剩下的n-1個機(jī)構(gòu),統(tǒng)計兩機(jī)構(gòu)各自的作者數(shù)、機(jī)構(gòu)間的共同作者數(shù)和全部作者數(shù),構(gòu)建“機(jī)構(gòu)-機(jī)構(gòu)”共現(xiàn)矩陣,計算機(jī)構(gòu)對之間的作者共現(xiàn)率,此處共現(xiàn)率是指機(jī)構(gòu)的共同作者占全部作者的比值,見公式(1),進(jìn)而確定共現(xiàn)率閾值(如0.3),并據(jù)此篩選出具有同一關(guān)系的候選機(jī)構(gòu)對;利用作者絕對共現(xiàn)量(機(jī)構(gòu)間的共同作者數(shù))指標(biāo)控制重名風(fēng)險:若作者絕對共現(xiàn)量大于等于2,判定兩個機(jī)構(gòu)名稱指向同一機(jī)構(gòu)實體,否則即使機(jī)構(gòu)對的作者共現(xiàn)率大于等于閾值,仍將其判定為非同一實體。

(1)
其中,A和B分別為兩個機(jī)構(gòu)對應(yīng)的作者集合,A∩B為兩個機(jī)構(gòu)的共同作者數(shù),A∪B為兩個機(jī)構(gòu)的全部作者數(shù)。
主要采用準(zhǔn)確率P來評價本文提出的中文科技文獻(xiàn)機(jī)構(gòu)名稱規(guī)范化方案有效性,見公式(2)。
(2)
其中,n為人工審核的正確機(jī)構(gòu)對數(shù)量,N為識別出的機(jī)構(gòu)共現(xiàn)對數(shù)量。
醫(yī)藥衛(wèi)生知識服務(wù)系統(tǒng)(https://med. ckcest.cn)整合大量醫(yī)學(xué)領(lǐng)域的科技文獻(xiàn)、專家、機(jī)構(gòu)、專利等學(xué)術(shù)資源,但科研成果中的機(jī)構(gòu)名稱存在著錄混亂、層級結(jié)構(gòu)模糊、更名頻繁等問題,導(dǎo)致機(jī)構(gòu)名稱識別困難,難以開展文獻(xiàn)、專家、機(jī)構(gòu)等科研實體之間的進(jìn)一步關(guān)聯(lián)分析與深入挖掘。為進(jìn)一步提高機(jī)構(gòu)名稱識別效率,打通不同類型學(xué)術(shù)資源之間的壁壘,提高用戶信息檢索效率,需要對機(jī)構(gòu)名稱進(jìn)行規(guī)范化處理。本研究以醫(yī)藥衛(wèi)生領(lǐng)域的中文科技文獻(xiàn)為例,開展機(jī)構(gòu)名稱規(guī)范化實踐,驗證提出的機(jī)構(gòu)名稱規(guī)范化處理方案是否可行。
選取醫(yī)藥衛(wèi)生知識服務(wù)系統(tǒng)作為數(shù)據(jù)來源,篩選醫(yī)藥衛(wèi)生領(lǐng)域相關(guān)的期刊進(jìn)行采集,采集內(nèi)容包括文獻(xiàn)題目、作者、機(jī)構(gòu)著錄項等,共采集1999—2020年發(fā)表的文獻(xiàn)數(shù)據(jù)10萬條,完成數(shù)據(jù)格式轉(zhuǎn)換與存儲,并對不完整數(shù)據(jù)和重復(fù)數(shù)據(jù)進(jìn)行預(yù)處理,剔除文獻(xiàn)題目、作者、機(jī)構(gòu)等關(guān)鍵字段不完整的數(shù)據(jù),得到相對規(guī)范、完整的數(shù)據(jù),見表1。

表1 部分采集樣例數(shù)據(jù)
4.2.1 多機(jī)構(gòu)拆分 從采集的中文科技文獻(xiàn)數(shù)據(jù)可知,其機(jī)構(gòu)著錄項之間都是通過分號進(jìn)行分割。因此以分號為分隔符,利用字符串方法對機(jī)構(gòu)進(jìn)行拆分,拆分后共得到包含單機(jī)構(gòu)記錄的數(shù)據(jù)350 587條。
4.2.2 機(jī)構(gòu)著錄項拆分與過濾 對于拆分后的單機(jī)構(gòu)記錄,其機(jī)構(gòu)名稱、行政區(qū)劃地址和郵編之間均以空格或逗號作為分隔符,據(jù)此可先對機(jī)構(gòu)著錄項進(jìn)行初步拆分,并直接剔除長度小于4的字段。然后,基于字符串編輯方法過濾掉剩余字段中的郵編。最后,基于構(gòu)建的國內(nèi)各省市地區(qū)字典識別并刪除行政區(qū)劃地址,只保留作者原始著錄的機(jī)構(gòu)名稱。
4.2.3 機(jī)構(gòu)名稱規(guī)范化處理 系統(tǒng)分析并構(gòu)建醫(yī)藥衛(wèi)生領(lǐng)域機(jī)構(gòu)類型特征詞表,該詞表共覆蓋8種類型機(jī)構(gòu),包含特征詞103個,其中醫(yī)療機(jī)構(gòu)最多(41個),其次為事業(yè)單位(22個),見表2。

表2 醫(yī)藥衛(wèi)生領(lǐng)域機(jī)構(gòu)類型特征詞
對作者原始著錄的機(jī)構(gòu)名稱數(shù)據(jù)進(jìn)行分詞、識別機(jī)構(gòu)著錄深度并刪除相應(yīng)的二級機(jī)構(gòu)名稱,完成機(jī)構(gòu)名稱規(guī)范化處理,見表3。

表3 規(guī)范化機(jī)構(gòu)名稱部分示例
4.3.1 構(gòu)建“機(jī)構(gòu)-作者”關(guān)系表 以機(jī)構(gòu)為中心對文獻(xiàn)進(jìn)行聚類,共得到15 088個聚類集合,分別整合各集合中的作者,構(gòu)建“機(jī)構(gòu)-作者”對應(yīng)關(guān)系表。
4.3.2 機(jī)構(gòu)分類 基于醫(yī)藥衛(wèi)生領(lǐng)域機(jī)構(gòu)類型特征詞表,對上述機(jī)構(gòu)名稱進(jìn)行分類,其中,醫(yī)療機(jī)構(gòu)占比最高,其次為事業(yè)單位,社會團(tuán)體最低,見表4。

表4 醫(yī)藥衛(wèi)生領(lǐng)域機(jī)構(gòu)名稱分類情況
4.3.3 構(gòu)建“機(jī)構(gòu)-機(jī)構(gòu)”共現(xiàn)矩陣 按照分類,依次計算各類別中機(jī)構(gòu)對之間的作者共現(xiàn)率。經(jīng)統(tǒng)計共14 592個機(jī)構(gòu)對間存在作者共現(xiàn)情況,考慮到共現(xiàn)率小于0.1時誤判率過高,分析意義不大,本研究只針對共現(xiàn)率大于等于0.1的2 088個機(jī)構(gòu)對進(jìn)行比較分析,并將根據(jù)不同類型機(jī)構(gòu)在數(shù)據(jù)集中所占的比例,按照同等比例從中隨機(jī)遴選300個機(jī)構(gòu)共現(xiàn)對,進(jìn)行準(zhǔn)確率的分析。需要說明的是由于“其他”類型中共現(xiàn)率大于等于0.1的機(jī)構(gòu)對共2個、“社會團(tuán)體”共0個,故實際遴選出來的相較按比例的數(shù)量少(若按比例應(yīng)遴選“其他”14個、“社會團(tuán)體”1個),因此最終子集共包含機(jī)構(gòu)共現(xiàn)對287個。由專業(yè)人員進(jìn)行結(jié)果準(zhǔn)確性測評,經(jīng)分析,將共現(xiàn)率閾值設(shè)置為0.1時準(zhǔn)確率可達(dá)89.2%,具有較高的機(jī)構(gòu)實體消歧能力,盡管隨著閾值的提升,準(zhǔn)確率也呈上升趨勢,但提升幅度較小,同時也會過濾掉很多雖然共現(xiàn)率低但實際為同一實體的機(jī)構(gòu)對,故本研究暫將共現(xiàn)率閾值設(shè)置為0.1。
通過統(tǒng)計,隨機(jī)遴選的閾值大于等于0.1的287個機(jī)構(gòu)共現(xiàn)對中,人工認(rèn)為其中256個機(jī)構(gòu)對是同一機(jī)構(gòu),整體準(zhǔn)確率為89.2%,具有較好的可參考性。此外,為進(jìn)一步比較該方法對于不同類型機(jī)構(gòu)的消歧效果,針對各類機(jī)構(gòu)分別進(jìn)行了誤判率統(tǒng)計。其中,“其他”類型誤判率最高,究其原因是該類型數(shù)據(jù)太少,少量誤判就會造成大的結(jié)果偏差;“高等教育機(jī)構(gòu)”和“行政機(jī)構(gòu)”類型誤判率也顯著高于其他類別,其原因可能是這兩類機(jī)構(gòu)存在更為頻繁的更名、重組、拆分等現(xiàn)象,依據(jù)較低的共現(xiàn)率難以實現(xiàn)機(jī)構(gòu)實體的有效識別。后續(xù)可通過進(jìn)一步擴(kuò)大數(shù)據(jù)集或提升共現(xiàn)率閾值來提高其準(zhǔn)確率。
規(guī)范化的機(jī)構(gòu)名稱是開展面向機(jī)構(gòu)的科技評價、異構(gòu)學(xué)術(shù)資源整合、學(xué)術(shù)圖譜構(gòu)建等工作的基礎(chǔ)與關(guān)鍵。本研究從“機(jī)構(gòu)-作者”共現(xiàn)和機(jī)構(gòu)類型特征詞的角度,開展面向中文科技文獻(xiàn)數(shù)據(jù)的機(jī)構(gòu)名稱規(guī)范化研究,通過分析科技文獻(xiàn)中不同類型機(jī)構(gòu)名稱的著錄特點,并結(jié)合作者共現(xiàn)情況進(jìn)行機(jī)構(gòu)名稱的消歧,最后在醫(yī)學(xué)領(lǐng)域進(jìn)行驗證。經(jīng)測試評估,該策略能夠有效匹配同一機(jī)構(gòu)的不同表現(xiàn)形式。后續(xù)將進(jìn)一步優(yōu)化消歧策略,擴(kuò)大實驗數(shù)據(jù)集并盡快推進(jìn)其在醫(yī)藥衛(wèi)生知識服務(wù)系統(tǒng)中的應(yīng)用。通過機(jī)構(gòu)間的作者共現(xiàn)率可以有效規(guī)范機(jī)構(gòu)名稱,實現(xiàn)機(jī)構(gòu)實體不同名稱形式的全面聚類與挖掘。但從長遠(yuǎn)發(fā)展來看,建議積極落實對機(jī)構(gòu)唯一識別碼的使用,特別是發(fā)表論文、專利等成果時,準(zhǔn)確標(biāo)識不同機(jī)構(gòu)實體,從而更好地開展機(jī)構(gòu)評價、構(gòu)建機(jī)構(gòu)知識庫、構(gòu)建學(xué)術(shù)知識圖譜、規(guī)范存儲機(jī)構(gòu)知識資源等工作。