, ,
機構(gòu)在現(xiàn)代漢語字典中被定義為“泛指機關(guān)、團體或其他工作單位”,全國組織機構(gòu)代碼管理中心把組織機構(gòu)定義為“依法成立的機關(guān)、事業(yè)、企業(yè)、社團及其他依法成立的單位”。本文涉及的“機構(gòu)”指文獻中的機構(gòu),包括實體機構(gòu)和虛擬機構(gòu)。虛擬機構(gòu)主要是指分散于不同時間、空間和組織邊界的一起工作完成共同任務(wù)的團體的結(jié)合[1],如網(wǎng)絡(luò)社區(qū)、專家委員會等,因此機構(gòu)數(shù)據(jù)的數(shù)量之大、類型之復(fù)雜可見一斑。
機構(gòu)數(shù)據(jù)具有以下兩大突出特點:一是機構(gòu)數(shù)據(jù)來源廣泛,類型豐富;二是機構(gòu)數(shù)據(jù)量大、更新速度快,這也是機構(gòu)規(guī)范文檔構(gòu)建難度大的主要原因。機構(gòu)的來源具有多種途徑,包括文獻、網(wǎng)絡(luò)等。文獻中作者標(biāo)注的作者單位準(zhǔn)確率高,文獻數(shù)據(jù)相對容易獲取,但是信息不夠豐富,僅包含機構(gòu)名稱、地址、郵編等。網(wǎng)絡(luò)的迅速發(fā)展和高共享性,意味著其中包含的機構(gòu)信息比較豐富,來源廣泛,但是信息質(zhì)量良莠不齊。機構(gòu)合并、拆分、撤建等,新機構(gòu)的不斷產(chǎn)生,傳統(tǒng)機構(gòu)的淘汰,從數(shù)量的角度講機構(gòu)具有基數(shù)大且增長速度快的特點。以上因素增加了機構(gòu)規(guī)范文檔構(gòu)建的難度。
機構(gòu)數(shù)據(jù)的特征造成了機構(gòu)名稱的多樣性、機構(gòu)間關(guān)系的復(fù)雜性和模糊性,由此導(dǎo)致了用戶在開展信息檢索、學(xué)術(shù)統(tǒng)計等科研活動的不準(zhǔn)確性。因此,有必要通過構(gòu)建機構(gòu)規(guī)范文檔對機構(gòu)數(shù)據(jù)進行規(guī)范。全國科學(xué)技術(shù)名詞評定委員會出版的《圖書館·情報與文獻學(xué)名詞》第一版中,把規(guī)范文檔定義為“由規(guī)范記錄組成的計算機文檔。其作用是實行規(guī)范控制,即保證機讀目錄中文檔標(biāo)目的一致性,以便有效地實現(xiàn)對機讀目錄的統(tǒng)一管理,包括主題規(guī)范檔、名稱規(guī)范檔和叢編規(guī)范檔”[2]。機構(gòu)規(guī)范文檔主要是通過實行規(guī)范控制保證機構(gòu)的唯一性和穩(wěn)定性,把機構(gòu)的不同名稱添加到規(guī)范文檔中,對其實體進行有效識別,并對機構(gòu)間的關(guān)聯(lián)關(guān)系進行有效揭示。由于機構(gòu)數(shù)量級大,無法在短時間內(nèi)完成所有機構(gòu)的規(guī)范,因此需要從大量的機構(gòu)數(shù)據(jù)中進行篩選。在機構(gòu)規(guī)范文檔構(gòu)建策略的基礎(chǔ)上對機構(gòu)的篩選方法進行研究,以用于機構(gòu)規(guī)范文檔的初步構(gòu)建。
關(guān)于機構(gòu)規(guī)范文檔的構(gòu)建,國內(nèi)外均開展了相關(guān)實踐工作。由聯(lián)機計算機圖書館中心(Online Computer Library Center,OCLC)主導(dǎo),主要針對名稱規(guī)范問題開展了虛擬國際規(guī)范文檔項目,鏈接國家圖書館及權(quán)威數(shù)據(jù)庫的規(guī)范名稱,形成包括個人、機構(gòu)、會議和地名的全球共享、可復(fù)用的規(guī)范文檔,其中僅關(guān)于團體的規(guī)范記錄已達到500萬條以上[3]。由歐洲IST計劃資助的規(guī)范文檔鏈接與探索項目,致力于開發(fā)一種分布式搜索系統(tǒng)的模型架構(gòu),收集已經(jīng)存在的名稱權(quán)限文件,然后將這些數(shù)據(jù)匯聚在一起,旨在建立基于用戶需求的通用名稱授權(quán)文件[4]。
中國國家圖書館、中國高等教育文獻保障系統(tǒng)管理中心、臺灣漢學(xué)研究中心、香港特別行政區(qū)大學(xué)圖書館長聯(lián)席會共同參與構(gòu)建了中文名稱聯(lián)合數(shù)據(jù)庫檢索系統(tǒng),主要包括名稱規(guī)范庫的構(gòu)建、對規(guī)范規(guī)則和規(guī)范系統(tǒng)的研究等,涉及個人名稱、團體名稱、會議名稱、題名等相關(guān)記錄的規(guī)范[5]。國家工程技術(shù)圖書館針對論文中的機構(gòu)要素,建立的機構(gòu)規(guī)范文檔主要包括5類數(shù)據(jù):機構(gòu)規(guī)范名稱和非規(guī)范名稱的對照,機構(gòu)基本屬性(所在地域、機構(gòu)類型、所屬學(xué)科等),機構(gòu)上下級隸屬關(guān)系,機構(gòu)中英文名稱對照,機構(gòu)名稱變遷[6]。
國內(nèi)外開展了一系列關(guān)于機構(gòu)名稱規(guī)范的實踐活動,并形成了一定數(shù)量的規(guī)范記錄。由于機構(gòu)數(shù)據(jù)的海量特征,如何選取具有代表性的機構(gòu)開展機構(gòu)規(guī)范是機構(gòu)規(guī)范文檔構(gòu)建的重要環(huán)節(jié)。
Ringgold標(biāo)識數(shù)據(jù)庫對機構(gòu)數(shù)據(jù)進行了規(guī)范,通過唯一ID來實現(xiàn)機構(gòu)的唯一識別[7]。其中的機構(gòu)類型包括學(xué)術(shù)機構(gòu)、公司企業(yè)、政府部門、醫(yī)療機構(gòu)、衛(wèi)生組織、公益機構(gòu)、公共機構(gòu)等7個大類,涵蓋的范圍廣泛且不斷進行更新和補充。微軟學(xué)術(shù)[8]從出版物及其元數(shù)據(jù)中獲取作者機構(gòu)的相關(guān)信息,并對其進行規(guī)范,按照學(xué)科對機構(gòu)進行篩選。以各學(xué)科領(lǐng)域的被引頻次、h指數(shù)為標(biāo)準(zhǔn),截至2018年5月,已完成規(guī)范的機構(gòu)總數(shù)為18 717,但相對于龐大的機構(gòu)數(shù)量,這只是其中的極小部分。萬方數(shù)據(jù)構(gòu)建機構(gòu)數(shù)據(jù)庫,按照機構(gòu)類型、領(lǐng)域以及當(dāng)前機構(gòu)類型的重要指標(biāo)等進行機構(gòu)的規(guī)范,機構(gòu)數(shù)據(jù)已達到近20萬條[9]。機構(gòu)規(guī)范文檔的建設(shè)是一個循序漸進的過程,如何從大量的機構(gòu)數(shù)據(jù)中選出具有代表性、覆蓋性強的數(shù)據(jù)是構(gòu)建機構(gòu)規(guī)范文檔的首要問題。
ESI(InCites Essential Science Indicators)是以Web of ScienceTM核心合集數(shù)據(jù)庫為基礎(chǔ)的計量分析數(shù)據(jù)庫,它提供了全球超過5 000多個規(guī)范化的機構(gòu)名稱,有利于開展以機構(gòu)為檢索點的信息檢索和相關(guān)的計量分析工作。ESI主要是通過論文數(shù)、論文被引頻次、論文篇均被引頻次、高被引論文、熱點論文和前沿論文、學(xué)科領(lǐng)域等指標(biāo)對機構(gòu)進行衡量和篩選。以上指標(biāo)具有很高的準(zhǔn)確性,能充分地從文獻的角度實現(xiàn)對機構(gòu)的評價[10]。
中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所在構(gòu)建基于中國生物醫(yī)學(xué)文獻數(shù)據(jù)庫(CBM)的機構(gòu)規(guī)范文檔時,采用的原則為邊建設(shè)邊服務(wù),進行階梯式可循環(huán)式建設(shè)。首先對核心類型的機構(gòu)進行形式規(guī)范的基礎(chǔ)上進行一般描述規(guī)范,并引入非核心類型的機構(gòu)規(guī)范;然后進行CBM中作者機構(gòu)內(nèi)部關(guān)系的規(guī)范,優(yōu)先構(gòu)建核心機構(gòu);最后構(gòu)建CBM作者機構(gòu)名稱與外部機構(gòu)規(guī)范文檔映射關(guān)系[11]。在整個構(gòu)建過程中是按照文獻年代、文獻頻次、語種、機構(gòu)類別、機構(gòu)等級、期刊等級、所在地區(qū)等因素對初步的機構(gòu)數(shù)據(jù)進行篩選。采用的方法是初級階段進行部分數(shù)據(jù)的部分規(guī)范,然后加入新的非規(guī)范數(shù)據(jù),進行更深層次的規(guī)范。中國科學(xué)院在構(gòu)建機構(gòu)名稱規(guī)范庫時的建設(shè)思路是以中科院為突破口,由中科院逐步覆蓋到高等院校、省級研究所、政府、企業(yè)研究院等其他的科研機構(gòu)[12]。
上述為機構(gòu)規(guī)范文檔初步建設(shè)提供數(shù)據(jù)源的篩選方法不夠全面,是由點到面的構(gòu)建策略。本文提出由線到面的構(gòu)建策略,涉及到多種不同領(lǐng)域、不同類型的機構(gòu),使初步篩選出的機構(gòu)更具全面性和代表性。另外,大多構(gòu)建過程主要從自身的數(shù)據(jù)和學(xué)科需求出發(fā)。如中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所主要涉及的機構(gòu)是與醫(yī)學(xué)相關(guān)的,由此導(dǎo)致篩選機構(gòu)的覆蓋面不夠廣,故本文在對篩選方法進行研究時,不涉及學(xué)科、地域、研究內(nèi)容的限制,篩選結(jié)果更具全面性。
研究機構(gòu)規(guī)范文檔的構(gòu)建策略,為機構(gòu)規(guī)范文檔的構(gòu)建提供基礎(chǔ)數(shù)據(jù),即研究如何從大量機構(gòu)中獲取具有代表性的機構(gòu)數(shù)據(jù)的方法。利用歸一化方法把大量的機構(gòu)數(shù)據(jù)通過模糊算法限制在一定的范圍,主要以機構(gòu)發(fā)文的穩(wěn)定性、活躍度和機構(gòu)的學(xué)科影響力為指標(biāo),獲得具有全面性和代表性的機構(gòu)。
構(gòu)建機構(gòu)規(guī)范文檔是一個長久而艱巨的任務(wù),需要循序漸進地開展,首先對活躍度高、具有代表性的機構(gòu)進行規(guī)范,然后不斷更新和補充,涉及數(shù)據(jù)采集、數(shù)據(jù)篩選、名稱規(guī)范、關(guān)系構(gòu)建以及數(shù)據(jù)的存儲等主要環(huán)節(jié)(圖1)。
圖1 機構(gòu)規(guī)范文檔構(gòu)建流程
機構(gòu)規(guī)范文檔的構(gòu)建是一個循序漸進、循環(huán)往復(fù)的過程。通過圖1所示流程把無序的機構(gòu)數(shù)據(jù)轉(zhuǎn)化為有序的機構(gòu)數(shù)據(jù),形成機構(gòu)規(guī)范文檔,并且要把新的來源數(shù)據(jù)與已有的機構(gòu)規(guī)范文檔進行匹配,對其進行更新和補充。鑒于文獻數(shù)據(jù)庫中的機構(gòu)數(shù)據(jù)具有準(zhǔn)確性高、易獲取等特點,從文獻數(shù)據(jù)庫中獲取機構(gòu)相關(guān)數(shù)據(jù),對海量的機構(gòu)數(shù)據(jù)進行篩選,并對篩選結(jié)果進行名稱規(guī)范和關(guān)系構(gòu)建,最后進行數(shù)據(jù)存儲并應(yīng)用于新一輪的規(guī)范文檔的構(gòu)建,以實現(xiàn)對機構(gòu)規(guī)范文檔的補充和更新。
基于機構(gòu)海量的數(shù)據(jù)特征,機構(gòu)篩選作為其中一個關(guān)鍵環(huán)節(jié),有必要對其篩選方法進行研究,且有利于機構(gòu)規(guī)范文檔構(gòu)建工作的循序開展。
數(shù)據(jù)歸一化,即把需要處理的數(shù)據(jù)經(jīng)過處理后限制在需要的范圍內(nèi),其具體作用是歸納統(tǒng)一樣本的統(tǒng)計分布性[13]。模糊算法是指用隸屬關(guān)系將數(shù)據(jù)元素構(gòu)建成模糊集合,確定隸屬函數(shù)。機構(gòu)數(shù)據(jù)篩選的過程即為數(shù)據(jù)歸一化的過程,根據(jù)其分布性特征對其進行篩選,構(gòu)建模糊集合并確定其隸屬函數(shù),主要包括機構(gòu)提取、機構(gòu)分析、文獻計量、機構(gòu)篩選4部分(圖2)。
圖2 機構(gòu)篩選方法
2.2.1 機構(gòu)提取
基于機構(gòu)來源的特征,選取文獻數(shù)據(jù)庫中的機構(gòu)數(shù)據(jù)作為原始數(shù)據(jù),它具有準(zhǔn)確性高、易獲取、機構(gòu)類型豐富等優(yōu)點。獲取中文發(fā)文的中國機構(gòu)和外文發(fā)文的中國機構(gòu)數(shù)據(jù),主要包括機構(gòu)名稱、中文文獻ID、中文文獻的中圖分類號、外文文獻ID。
對獲取的數(shù)據(jù)進行清洗、規(guī)范、歸并和分類。根據(jù)文本相似度計算去除機構(gòu)名稱的重復(fù)值和明顯錯誤的數(shù)值,并對機構(gòu)名稱對應(yīng)的計量指標(biāo)進行歸并。對英文機構(gòu)名稱進行規(guī)范,轉(zhuǎn)換為規(guī)范的中文機構(gòu)名稱,根據(jù)文本相似度與已有的中文機構(gòu)名稱進行匹配,并對其對應(yīng)的計量指標(biāo)進行歸并。
由于不同機構(gòu)類型在發(fā)文數(shù)量等方面的差異性,需要對機構(gòu)數(shù)據(jù)進行分類,通過對大量數(shù)據(jù)的分析構(gòu)建機構(gòu)類型的特征詞表(表1),對機構(gòu)類型進行分類,使篩選結(jié)果更具全面性和均衡性。
本文主要是在對機構(gòu)類型分類的國家標(biāo)準(zhǔn)的基礎(chǔ)上進行延展得到新的機構(gòu)類型分類?!督M織機構(gòu)類型(GB/T 20091-2006)》主要將機構(gòu)類型分為企業(yè)、機關(guān)、事業(yè)單位、社會團體、其他機構(gòu)和組織(主要包括基金會、宗教活動場所、農(nóng)村村民委員會等)[14]。以國家標(biāo)準(zhǔn)為基礎(chǔ),結(jié)合科研機構(gòu)、高校、醫(yī)療機構(gòu)等具有較突出的發(fā)文水平,對機構(gòu)類型重新分類,包括學(xué)前與初中等教育機構(gòu)、高等教育機構(gòu)、醫(yī)療機構(gòu)、事業(yè)單位、科研機構(gòu)、行政機構(gòu)、公司企業(yè)、社會團體、其他組織和機構(gòu)9類機構(gòu)類型。根據(jù)不同機構(gòu)類型中機構(gòu)名稱的特性,建立機構(gòu)名稱的特征詞表;基于特征詞表對機構(gòu)進行類型分類,并在分類過程中不斷對特征詞庫進行補充,保證分類結(jié)果的準(zhǔn)確性和全面性。
表1 機構(gòu)類型特征詞
2.2.2 機構(gòu)分析
從機構(gòu)發(fā)文的活躍度、機構(gòu)學(xué)科影響力、機構(gòu)發(fā)文穩(wěn)定性3方面對機構(gòu)進行分析和篩選。以機構(gòu)的發(fā)文量表征機構(gòu)的活躍度,以機構(gòu)的連續(xù)發(fā)文表征機構(gòu)的穩(wěn)定性,以機構(gòu)學(xué)科的發(fā)文和被引頻次表征機構(gòu)的學(xué)科影響力,并以此構(gòu)建機構(gòu)篩選指標(biāo)體系,如圖3所示。
圖3機構(gòu)篩選指標(biāo)體系
2.2.3 文獻計量
根據(jù)機構(gòu)篩選的指標(biāo)體系和文獻數(shù)據(jù)庫中的“機構(gòu)—文獻—學(xué)科”的對應(yīng)關(guān)系,運用文獻計量方法對文獻的被引頻次、文獻對應(yīng)的學(xué)科的發(fā)文和被引情況、機構(gòu)的發(fā)文情況進行統(tǒng)計分析,得到近10年內(nèi)的每年發(fā)文量、SCI發(fā)文量、機構(gòu)對應(yīng)學(xué)科的發(fā)文量和被引頻次。根據(jù)以上指標(biāo)設(shè)計篩選方法,構(gòu)建機構(gòu)的模糊集合,確定隸屬函數(shù)。
2.2.4 機構(gòu)篩選
本文主要采用機構(gòu)的中文發(fā)文量、機構(gòu)的SCI發(fā)文量、機構(gòu)的年均發(fā)文量、機構(gòu)學(xué)科發(fā)文量和被引頻次等指標(biāo)。機構(gòu)的SCI發(fā)文主要是均衡某些機構(gòu)傾向國外發(fā)文,這在很大程度上也能反映出其活躍度,從而增強了篩選結(jié)果的全面性。用機構(gòu)的學(xué)科發(fā)文作為衡量機構(gòu)學(xué)科活躍度的指標(biāo)之一,可以篩選出某一學(xué)科較為突出而綜合能力相對較弱的機構(gòu),使篩選結(jié)果更具全面性。
基于模糊算法將大量的機構(gòu)數(shù)據(jù),轉(zhuǎn)化為篩選后的機構(gòu)集合并確定隸屬函數(shù)。其中模糊集合的篩選是以得到的機構(gòu)數(shù)據(jù)的集合能夠覆蓋SCI的發(fā)文機構(gòu)和學(xué)科表現(xiàn)突出的機構(gòu)為依據(jù),隸屬函數(shù)以獲得的數(shù)據(jù)集合對應(yīng)中文年均發(fā)文為依據(jù)(圖4)。
圖4 機構(gòu)篩選方法流程
其中,若M為SCI發(fā)文機構(gòu)組成的集合,那么A為集合M中的中文年均發(fā)文的最小值;若N為學(xué)科水平較為突出的機構(gòu)組成的集合,那么B為集合N中對應(yīng)的中文年均發(fā)文的最小值。機構(gòu)信息篩選列表主要包括機構(gòu)名稱、機構(gòu)每年的發(fā)文量、機構(gòu)年均發(fā)文、機構(gòu)SCI發(fā)文、是否屬于學(xué)科水平較高的機構(gòu)等信息。年發(fā)文量不連續(xù)為零的機構(gòu),作為衡量其穩(wěn)定性的指標(biāo),對機構(gòu)進行初步篩選,選擇年均發(fā)文≥1的機構(gòu),作為衡量其活躍度的指標(biāo)。按照機構(gòu)的年均發(fā)文值對機構(gòu)信息列表進行排序。如果此時
SCI發(fā)文機構(gòu)中的對應(yīng)的中文年均發(fā)文的最小值A(chǔ)小于等于學(xué)科水平較高的機構(gòu)中對應(yīng)的中文年均發(fā)文的最小值B,即A≤B,就以A為機構(gòu)篩選的閾值;如果A>B,則以B作為機構(gòu)篩選的閾值。按照不同的機構(gòu)類型重復(fù)以上步驟,分別獲取機構(gòu)的篩選閾值。該篩選方法能在很大程度上涵蓋外文發(fā)文的機構(gòu)和學(xué)科表現(xiàn)較為突出的機構(gòu),對于獲取活躍度較高的機構(gòu)具有很好的代表性。
以中國科學(xué)技術(shù)信息研究所建設(shè)的中國知識鏈接數(shù)據(jù)庫的機構(gòu)數(shù)據(jù)為例,按照以上篩選方法進行實證研究,確定各機構(gòu)類型的篩選閾值(圖5)。
圖5 機構(gòu)篩選步驟
本文數(shù)據(jù)主要來源于中國知識鏈接數(shù)據(jù)庫和Web of Science,獲取2007-2016年的中文文獻中的機構(gòu)、文獻、學(xué)科以及中文機構(gòu)的SCI發(fā)文等數(shù)據(jù)。
對數(shù)據(jù)進行初步處理,包括去除明顯錯誤的數(shù)據(jù)、去重、中英文對照以及對應(yīng)數(shù)據(jù)的歸并,經(jīng)過處理后獲得1 159 247條機構(gòu)數(shù)據(jù)。按照機構(gòu)類型的特征詞表對其進行分類,在分類的過程中不斷提取新的特征詞,也可組合特征詞,實現(xiàn)對機構(gòu)數(shù)據(jù)機構(gòu)類型的劃分。對劃分數(shù)據(jù)類型后的機構(gòu)進行統(tǒng)計,各機構(gòu)類型的數(shù)目占比與其對應(yīng)的發(fā)文量的所占比例具有很大的差異性,詳見表2。
從表2發(fā)現(xiàn),在機構(gòu)數(shù)目占比排名靠前的初中等教育機構(gòu)和事業(yè)單位,在類型機構(gòu)的發(fā)文總量的占比中并不占優(yōu)勢,反而機構(gòu)數(shù)量較少的高等教育機構(gòu)、醫(yī)療機構(gòu)的發(fā)文總量占比較多,不同的機構(gòu)類型之間的差異也比較明顯。由此可認為機構(gòu)類型的劃分是合理且必要的,有利于機構(gòu)篩選的均衡性。
表2 各機構(gòu)類型數(shù)量、發(fā)文占比
按照機構(gòu)篩選的指標(biāo)體系,運用文獻計量獲得指標(biāo)數(shù)據(jù):機構(gòu)年發(fā)文量、機構(gòu)年均發(fā)文量、機構(gòu)的學(xué)科發(fā)文量和被引頻次、機構(gòu)SCI發(fā)文量。以機構(gòu)學(xué)科的發(fā)文量和被引頻次作為衡量機構(gòu)學(xué)科影響力的指標(biāo),選取排名前100的機構(gòu)作為學(xué)科水平較為突出的機構(gòu)。構(gòu)建機構(gòu)信息列表,包括機構(gòu)名稱、機構(gòu)年發(fā)文量、機構(gòu)年均發(fā)文量、機構(gòu)SCI發(fā)文量、是否屬于學(xué)科水平較突出的機構(gòu)。
按照圖4中的機構(gòu)篩選方法,構(gòu)建機構(gòu)的篩序集合,并確定其篩選閾值(表3)。根據(jù)閾值對機構(gòu)數(shù)據(jù)進行篩選,最后獲得不同機構(gòu)類型中的代表性數(shù)據(jù)共20 433條。
表3 機構(gòu)篩選閾值及結(jié)果
對篩選后的數(shù)據(jù)進行統(tǒng)計分析,各機構(gòu)類型數(shù)量在機構(gòu)總數(shù)的比例相對均衡,占比在10%左右。對比篩選前后的各機構(gòu)類型中機構(gòu)數(shù)量占比發(fā)現(xiàn),高校、科研機構(gòu)、醫(yī)療機構(gòu)的占比明顯增加,其發(fā)文數(shù)量是比較突出的,證明篩選的結(jié)果把各機構(gòu)類型的發(fā)文水平涵蓋其中,而且篩選后的各機構(gòu)類型相對均衡,使獲得的數(shù)據(jù)具有全面性和代表性。篩選后的機構(gòu)數(shù)目是篩選前機構(gòu)數(shù)目的7%左右,篩選后機構(gòu)的總發(fā)文量占篩選前的73%左右。從統(tǒng)計角度看,篩選后的機構(gòu)能夠代表篩選前的機構(gòu),屬于需要首先重點規(guī)范的機構(gòu)。
基于機構(gòu)規(guī)范文檔的構(gòu)建策略,對機構(gòu)規(guī)范文檔構(gòu)建中的機構(gòu)篩選方法進行研究。從機構(gòu)的穩(wěn)定性、活躍度、學(xué)科影響力出發(fā),構(gòu)建機構(gòu)篩選的指標(biāo)體系、隸屬函數(shù),使篩選結(jié)果具有代表性和全面性,便于快速有效地對大量數(shù)據(jù)進行篩選,進而有效開展機構(gòu)規(guī)范工作。另外,可以根據(jù)此篩選方法構(gòu)建自動化的數(shù)據(jù)篩選流程,有利于機構(gòu)規(guī)范文檔管理系統(tǒng)的構(gòu)建,實現(xiàn)其自動化管理。