孫清玉 梁美宏 胡曉輝
(河海大學(xué)圖書館 南京 210098)
機(jī)構(gòu)知識(shí)庫(kù)起源于開放獲取運(yùn)動(dòng),是互聯(lián)網(wǎng)技術(shù)環(huán)境下的新型學(xué)術(shù)交流共享方式,有利于數(shù)字化資源的管理、傳播、挖掘與利用。機(jī)構(gòu)知識(shí)庫(kù)自產(chǎn)生以來,國(guó)內(nèi)外均對(duì)其展開了一系列理論研究與實(shí)踐應(yīng)用。截至2022年2月底,開放存取知識(shí)庫(kù)目錄OpenDOAR登記的機(jī)構(gòu)知識(shí)庫(kù)已有5 814個(gè),其中我國(guó)大陸地區(qū)有65個(gè)[1]?,F(xiàn)有的機(jī)構(gòu)知識(shí)庫(kù)主要以資源存儲(chǔ)、簡(jiǎn)單標(biāo)引、基本檢索與利用等為主,尚缺乏廣泛、詳盡、細(xì)粒度的語(yǔ)義描述與關(guān)聯(lián),不足以使具有相關(guān)關(guān)系的資源得以充分集中呈現(xiàn),從而滿足語(yǔ)義網(wǎng)環(huán)境下數(shù)據(jù)開放共享的要求。
學(xué)術(shù)關(guān)系是學(xué)術(shù)研究產(chǎn)生與發(fā)展過程中存在的關(guān)聯(lián)關(guān)系。機(jī)構(gòu)知識(shí)庫(kù)收錄的資源中包含眾多相互之間存在學(xué)術(shù)關(guān)系的科研實(shí)體,如作者、機(jī)構(gòu)、成果等等,深入挖掘分析這些科研實(shí)體之間存在的學(xué)術(shù)關(guān)系,并通過科學(xué)的發(fā)現(xiàn)體系來實(shí)現(xiàn)實(shí)體間語(yǔ)義關(guān)聯(lián)與揭示,有利于從學(xué)術(shù)發(fā)展角度組織機(jī)構(gòu)知識(shí)庫(kù)資源,進(jìn)而推動(dòng)機(jī)構(gòu)知識(shí)庫(kù)的有效使用與價(jià)值發(fā)揮。目前學(xué)術(shù)界鮮有從學(xué)術(shù)關(guān)系角度的機(jī)構(gòu)知識(shí)庫(kù)資源語(yǔ)義組織研究。
機(jī)構(gòu)知識(shí)庫(kù)(Institutional Repository,簡(jiǎn)稱IR)又稱機(jī)構(gòu)典藏庫(kù)、機(jī)構(gòu)倉(cāng)儲(chǔ)、機(jī)構(gòu)庫(kù)等,通常情況下指的是,某個(gè)機(jī)構(gòu)實(shí)體為保存和管理本機(jī)構(gòu)智力成果資源(包括本機(jī)構(gòu)成員創(chuàng)作的學(xué)術(shù)成果、科研數(shù)據(jù)、課件教程、軟件工具等等),自主或借助第三方機(jī)構(gòu)建立的集提交、組織、檢索、分析、利用等為一體的學(xué)術(shù)存儲(chǔ)與服務(wù)系統(tǒng),通過校內(nèi)IP或賬號(hào)登錄等方式,為用戶提供開放式知識(shí)服務(wù)。
目前機(jī)構(gòu)知識(shí)庫(kù)科研實(shí)體關(guān)系研究主要集中在以下兩方面。其一,基于現(xiàn)有模型實(shí)體關(guān)系的機(jī)構(gòu)知識(shí)庫(kù)語(yǔ)義關(guān)聯(lián)研究,例如王思麗、祝忠明等以CASIR中實(shí)體關(guān)系為基礎(chǔ),利用關(guān)聯(lián)數(shù)據(jù)設(shè)計(jì)了機(jī)構(gòu)知識(shí)庫(kù)語(yǔ)義擴(kuò)展方案[2];肖可以、龔曉陽(yáng)等分析了科研信息系統(tǒng)CRIS中的CERIF 模型中實(shí)體之間關(guān)系及實(shí)體間語(yǔ)義關(guān)聯(lián),并分析其可以與機(jī)構(gòu)知識(shí)庫(kù)有機(jī)鏈接,實(shí)現(xiàn)異質(zhì)資源整合[3-4];Farid, H等研究并建立了機(jī)構(gòu)知識(shí)庫(kù)資源與本體的轉(zhuǎn)化體系,以實(shí)現(xiàn)機(jī)構(gòu)知識(shí)庫(kù)實(shí)體與本體的語(yǔ)義關(guān)聯(lián)[5]。其二,基于特定資源類型的機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù)關(guān)聯(lián)研究,例如侯瑞芳、陳嘉勇等在其研究中構(gòu)建了文獻(xiàn)實(shí)體關(guān)系模型[6-7];魏來等研究了書目數(shù)據(jù)與機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù)的關(guān)系及關(guān)聯(lián)方法[8];都平平等研究了機(jī)構(gòu)知識(shí)庫(kù)中研究數(shù)據(jù)的關(guān)聯(lián)關(guān)系[9];Hallo, M等研究了利用關(guān)聯(lián)數(shù)據(jù)發(fā)布開放獲取期刊數(shù)據(jù)的方法,實(shí)現(xiàn)相關(guān)數(shù)據(jù)集的關(guān)聯(lián)鏈接,指出該方法可用于機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù)的關(guān)聯(lián)組織[10]??梢钥吹?,現(xiàn)有研究主要以現(xiàn)有模型或特定資源實(shí)體作為機(jī)構(gòu)知識(shí)庫(kù)實(shí)體相關(guān)關(guān)系研究的對(duì)象,缺乏深入剖析不同類型資源的內(nèi)外部屬性特征,從細(xì)粒度分析資源間存在的各種關(guān)系,難以充分、深入表達(dá)揭示機(jī)構(gòu)知識(shí)庫(kù)實(shí)體之間的關(guān)系,繼而挖掘出更多潛在價(jià)值。
學(xué)術(shù)關(guān)系,顧名思義是指存在于專門學(xué)問中的關(guān)聯(lián)關(guān)系。劉紹懷指出學(xué)術(shù)關(guān)系是通過對(duì)學(xué)術(shù)的生成源頭和發(fā)展變化過程進(jìn)行的研究,有助于厘清學(xué)術(shù)發(fā)展的歷史脈絡(luò)、總結(jié)學(xué)術(shù)合作關(guān)系的形成與發(fā)展的基本規(guī)律[11];蘇靜認(rèn)為學(xué)術(shù)關(guān)系主要指從學(xué)術(shù)產(chǎn)出(論文)的角度出發(fā),學(xué)術(shù)生產(chǎn)主體(學(xué)者)之間、學(xué)術(shù)機(jī)構(gòu)之間、國(guó)家/地區(qū)之間、學(xué)術(shù)機(jī)構(gòu)和學(xué)術(shù)生產(chǎn)主體(學(xué)者)之間、學(xué)術(shù)期刊和學(xué)術(shù)生產(chǎn)主體(學(xué)者)之間所產(chǎn)生的某種學(xué)術(shù)聯(lián)系[12];雷雪等認(rèn)為學(xué)術(shù)關(guān)系是學(xué)者與學(xué)者之間因個(gè)人經(jīng)歷、隸屬機(jī)構(gòu)、所在國(guó)家/地區(qū)、學(xué)術(shù)產(chǎn)出等因素所產(chǎn)生的某種學(xué)術(shù)聯(lián)系[13]。此外,還有一些學(xué)者從學(xué)術(shù)產(chǎn)出主體、學(xué)術(shù)產(chǎn)出機(jī)構(gòu)等角度具體研究了作者學(xué)術(shù)關(guān)系、學(xué)術(shù)師承關(guān)系、機(jī)構(gòu)學(xué)術(shù)中介關(guān)系等方面[14-16]??梢?,學(xué)術(shù)關(guān)系涉及到學(xué)術(shù)生產(chǎn)者、學(xué)術(shù)產(chǎn)出機(jī)構(gòu)、學(xué)術(shù)產(chǎn)出國(guó)、學(xué)術(shù)產(chǎn)出成果、學(xué)術(shù)出版者、學(xué)術(shù)資助者、學(xué)術(shù)領(lǐng)域等多種科研實(shí)體。
現(xiàn)有學(xué)術(shù)關(guān)系研究涉及哲學(xué)、歷史學(xué)、管理學(xué)等領(lǐng)域。其中人文社會(huì)科學(xué)領(lǐng)域的學(xué)術(shù)關(guān)系研究主要以定性方法為主,研究?jī)?nèi)容包括學(xué)術(shù)成果之間的學(xué)術(shù)影響、學(xué)術(shù)機(jī)構(gòu)之間的學(xué)術(shù)淵源、學(xué)者之間的思想相互影響等等[17-19];自然科學(xué)領(lǐng)域的學(xué)術(shù)關(guān)系研究則以文獻(xiàn)計(jì)量學(xué)方法為主,以客觀數(shù)據(jù)為支撐,定量統(tǒng)計(jì)并分析學(xué)科演變、學(xué)術(shù)合作、知識(shí)脈絡(luò)等問題,具體分析方法有共引分析、共詞分析、多元統(tǒng)計(jì)分析、社會(huì)網(wǎng)絡(luò)分析等等[20-22]。
機(jī)構(gòu)知識(shí)庫(kù)中包含學(xué)者、機(jī)構(gòu)、成果等各種學(xué)術(shù)科研實(shí)體,其中學(xué)者除本機(jī)構(gòu)科研人員以外、還包含眾多與本機(jī)構(gòu)人員合作的外單位人員,機(jī)構(gòu)除本機(jī)構(gòu)不同層級(jí)單位外、還包含與本機(jī)構(gòu)合作的外機(jī)構(gòu)單位,成果則以本機(jī)構(gòu)科研人員在科研過程中產(chǎn)生的一系列科研成果為主。不同科研實(shí)體之間存在多種多樣的學(xué)術(shù)關(guān)系,例如學(xué)者與學(xué)者之間存在學(xué)術(shù)合作、學(xué)術(shù)繼承、學(xué)術(shù)引證等學(xué)術(shù)關(guān)系;機(jī)構(gòu)與機(jī)構(gòu)之間存在學(xué)術(shù)合作等學(xué)術(shù)關(guān)系;成果與成果之間存在學(xué)術(shù)合作、學(xué)術(shù)交叉、學(xué)術(shù)演進(jìn)等學(xué)術(shù)關(guān)系。
本文擬以機(jī)構(gòu)知識(shí)庫(kù)所含資源為分析對(duì)象,分析不同類型資源的屬性特征,以資源中主要科研實(shí)體為對(duì)象,研究科研實(shí)體之間存在的學(xué)術(shù)關(guān)聯(lián)關(guān)系,并構(gòu)建機(jī)構(gòu)知識(shí)庫(kù)科研實(shí)體學(xué)術(shù)關(guān)系發(fā)現(xiàn)體系,為機(jī)構(gòu)知識(shí)庫(kù)資源語(yǔ)義關(guān)聯(lián)提供理論基礎(chǔ)。
結(jié)合上述機(jī)構(gòu)知識(shí)庫(kù)定義及相關(guān)研究可知,機(jī)構(gòu)知識(shí)庫(kù)包含的資源類型既可以是著作、論文、專利、成果等公開出版的白色資源,也可以是預(yù)印本、實(shí)驗(yàn)數(shù)據(jù)、教學(xué)課件、授課講義等灰色資源,甚至還可以是一些涉密文獻(xiàn)、保密數(shù)據(jù)等黑色資源。根據(jù)載體/內(nèi)容特性可以將機(jī)構(gòu)知識(shí)庫(kù)資源大致分為:文本資源、聲像資源、數(shù)據(jù)資源、實(shí)物資源,各類型內(nèi)涵及實(shí)例如表1。
不同類型資源擁有不同的內(nèi)外部特征,分析發(fā)現(xiàn)文本資源、聲像資源、數(shù)據(jù)資源、實(shí)物資源四種類型資源主要特征屬性如下所述。
著作、論文、專利文獻(xiàn)、報(bào)告、手稿等文本資源包含但不限于以下特征屬性:標(biāo)識(shí)符、題名、作者、機(jī)構(gòu)、摘要、關(guān)鍵詞、分類號(hào)、主題詞、學(xué)科領(lǐng)域、參考文獻(xiàn)、資助基金、來源、語(yǔ)種、出版社、出版年等等。教學(xué)視頻、課件演示文稿、科研圖片等聲像資源包含但不限于以下特征屬性:標(biāo)識(shí)符、名稱、制作者、機(jī)構(gòu)、制作時(shí)間、格式類型、學(xué)科專業(yè)、播放時(shí)間、內(nèi)容簡(jiǎn)介、來源、語(yǔ)種等等。實(shí)驗(yàn)數(shù)據(jù)、研究數(shù)據(jù)、科學(xué)數(shù)據(jù)等數(shù)據(jù)資源包含但不限于以下特征屬性:標(biāo)識(shí)符、標(biāo)題、作者、機(jī)構(gòu)、產(chǎn)生時(shí)間、數(shù)據(jù)類型、學(xué)科領(lǐng)域、歸屬項(xiàng)目/論文、來源等等。專利產(chǎn)品、計(jì)算機(jī)軟件、實(shí)體模型等實(shí)物資源包含但不限于以下特征屬性:標(biāo)識(shí)符、名稱、創(chuàng)作者、創(chuàng)作時(shí)間、形狀、大小、尺寸、材質(zhì)、來源、歸屬項(xiàng)目/論文等等。
表1 機(jī)構(gòu)知識(shí)庫(kù)資源類型劃分
總體來看,不同類型資源既包含相同的科研實(shí)體,也包含不同的科研實(shí)體。為發(fā)現(xiàn)機(jī)構(gòu)知識(shí)庫(kù)主要科研實(shí)體間的學(xué)術(shù)關(guān)系,依據(jù)職能部門、科研人員、機(jī)構(gòu)庫(kù)用戶等不同用戶的不同需求內(nèi)容,選擇各類資源共同擁有的、且能體現(xiàn)其特征的科研實(shí)體作為分析對(duì)象。此外,學(xué)術(shù)資源的產(chǎn)生是源源不斷、不停變化的,不同學(xué)者的各類型新成果會(huì)被收集存儲(chǔ)在機(jī)構(gòu)知識(shí)庫(kù)中,而機(jī)構(gòu)知識(shí)庫(kù)中的本機(jī)構(gòu)學(xué)者、機(jī)構(gòu)、學(xué)科則是相對(duì)固定不變的,為系統(tǒng)全面地揭示本機(jī)構(gòu)主要科研實(shí)體間的學(xué)術(shù)關(guān)系,選擇學(xué)者、機(jī)構(gòu)、學(xué)科、資源作為學(xué)術(shù)關(guān)系分析的主要科研實(shí)體。
依據(jù)學(xué)術(shù)關(guān)系內(nèi)涵,學(xué)術(shù)關(guān)系是在學(xué)術(shù)生成與發(fā)展過程中產(chǎn)生的。學(xué)術(shù)生成過程中涉及到的學(xué)術(shù)關(guān)系主要是學(xué)術(shù)合作,包括作者合作、機(jī)構(gòu)合作、國(guó)家/地區(qū)合作,涉及的科研實(shí)體有學(xué)者、機(jī)構(gòu)、國(guó)家/地區(qū);學(xué)術(shù)發(fā)展過程中涉及到的學(xué)術(shù)關(guān)系包括學(xué)術(shù)繼承、學(xué)術(shù)演進(jìn),其中學(xué)術(shù)繼承主要指師承關(guān)系,學(xué)術(shù)演進(jìn)包括學(xué)術(shù)引證、學(xué)科前沿?zé)狳c(diǎn)、學(xué)科交叉等,涉及的科研實(shí)體有學(xué)者、參考文獻(xiàn)、學(xué)科、關(guān)鍵詞、主題詞、分類號(hào)等等。
1.了解現(xiàn)實(shí)問題。為了讓學(xué)生全面了解問題,主動(dòng)參與課堂教學(xué),筆者為學(xué)生播放相關(guān)視頻紀(jì)錄片,學(xué)生在感到震撼的同時(shí),也對(duì)環(huán)境污染問題有了更深入的了解,產(chǎn)生了掌握相關(guān)詞匯的迫切欲望。
本文選擇的科研實(shí)體中,學(xué)者是學(xué)術(shù)關(guān)系的生成主體;機(jī)構(gòu)是學(xué)者的隸屬單位,也是學(xué)術(shù)關(guān)系產(chǎn)生的重要實(shí)體單位;學(xué)科是學(xué)術(shù)生成與發(fā)展所在的研究領(lǐng)域;資源是學(xué)術(shù)生成與發(fā)展過程中產(chǎn)成的成果,在學(xué)者、機(jī)構(gòu)、學(xué)科等科研實(shí)體學(xué)術(shù)關(guān)系中起到重要的橋梁作用。基于學(xué)術(shù)關(guān)系內(nèi)涵、機(jī)構(gòu)知識(shí)庫(kù)資源特征,分別以學(xué)者、機(jī)構(gòu)、學(xué)科、資源為主體,分析機(jī)構(gòu)知識(shí)庫(kù)主要科研實(shí)體的學(xué)術(shù)關(guān)系,為學(xué)術(shù)關(guān)系的關(guān)聯(lián)、發(fā)現(xiàn)與揭示打下基礎(chǔ)。
以學(xué)者為主體,學(xué)者與學(xué)者之間存在的學(xué)術(shù)關(guān)系有師承關(guān)系、合作關(guān)系、引證關(guān)系等,其中師承關(guān)系主要涉及的資源是包含導(dǎo)師在內(nèi)的資源,典型的有學(xué)位論文;合作關(guān)系涉及的資源是包含兩個(gè)或兩個(gè)以上作者的資源;引證關(guān)系涉及的資源是包含參考文獻(xiàn)的資源。此外,學(xué)者與機(jī)構(gòu)之間存在隸屬關(guān)系;學(xué)者與學(xué)科之間存在研究領(lǐng)域隸屬關(guān)系;學(xué)者與資源之間存在貢獻(xiàn)關(guān)系。
以機(jī)構(gòu)為主體,機(jī)構(gòu)與機(jī)構(gòu)之間存在的學(xué)術(shù)關(guān)系主要是合作關(guān)系,涉及的資源是包含兩個(gè)或兩個(gè)以上機(jī)構(gòu)的各類型資源,除一級(jí)機(jī)構(gòu)之間的合作關(guān)系外,機(jī)構(gòu)知識(shí)庫(kù)中的機(jī)構(gòu)合作還可以依據(jù)作者所屬二級(jí)機(jī)構(gòu)、資源中存在的二級(jí)機(jī)構(gòu)信息等內(nèi)容分析到本機(jī)構(gòu)二級(jí)機(jī)構(gòu)合作關(guān)系。此外,機(jī)構(gòu)與學(xué)者之間存在隸屬關(guān)系;機(jī)構(gòu)與學(xué)科之間存在研究領(lǐng)域隸屬關(guān)系;機(jī)構(gòu)與資源之間存在貢獻(xiàn)關(guān)系。
以學(xué)科為主體,學(xué)科與學(xué)科之間存在的學(xué)術(shù)關(guān)系有前沿?zé)狳c(diǎn)、學(xué)科交叉等,涉及的資源主要是包含關(guān)鍵詞、主題詞、分類號(hào)等與學(xué)科有關(guān)的論文、專著、專利文獻(xiàn)等文本資源。此外,學(xué)科分別與學(xué)者、機(jī)構(gòu)、資源之間存在研究領(lǐng)域隸屬關(guān)系。
以資源為主體,資源之間存在的學(xué)術(shù)關(guān)系有引證關(guān)系、附屬關(guān)系、相關(guān)關(guān)系等,其中引證關(guān)系涉及的資源是包含參考文獻(xiàn)的資源;附屬關(guān)系涉及的資源是同屬于一個(gè)研究?jī)?nèi)容、研究項(xiàng)目等的資源;學(xué)術(shù)相關(guān)是指同作者、同學(xué)科、或同主題的研究成果。此外,資源與學(xué)者之間存在被貢獻(xiàn)關(guān)系;資源與機(jī)構(gòu)之間存在隸屬關(guān)系;資源與學(xué)科之間存在研究領(lǐng)域隸屬關(guān)系。
表2展示了機(jī)構(gòu)知識(shí)庫(kù)主要科研實(shí)體的學(xué)術(shù)關(guān)系類型、對(duì)應(yīng)的資源特征屬性、及主要意義。
表2 機(jī)構(gòu)知識(shí)庫(kù)主要科研實(shí)體學(xué)術(shù)關(guān)系類型及意義
實(shí)現(xiàn)機(jī)構(gòu)知識(shí)庫(kù)科研實(shí)體間的學(xué)術(shù)關(guān)系關(guān)聯(lián)與發(fā)現(xiàn),主要是依托機(jī)構(gòu)知識(shí)庫(kù)自身資源,對(duì)不同來源、不同類型的資源經(jīng)過整理、描述等加工過程,形成規(guī)范化的元數(shù)據(jù)集,明確資源中存在的科研實(shí)體,構(gòu)建規(guī)范名稱庫(kù),然后基于科研實(shí)體之間存在的學(xué)術(shù)關(guān)系,通過特征挖掘、關(guān)聯(lián)技術(shù)、揭示方法等一系列手段實(shí)現(xiàn)科研實(shí)體學(xué)術(shù)關(guān)系的關(guān)聯(lián)與發(fā)現(xiàn),最終實(shí)現(xiàn)機(jī)構(gòu)知識(shí)庫(kù)科研實(shí)體學(xué)術(shù)關(guān)系的揭示與應(yīng)用,具體關(guān)系關(guān)聯(lián)與發(fā)現(xiàn)體系框架如圖1。
圖1 機(jī)構(gòu)知識(shí)庫(kù)科研實(shí)體學(xué)術(shù)關(guān)系關(guān)聯(lián)與發(fā)現(xiàn)體系框架
其中人工上傳的數(shù)據(jù)是由科研成果生產(chǎn)主體或是科研秘書、學(xué)科秘書等管理人員直接在機(jī)構(gòu)庫(kù)系統(tǒng)進(jìn)行填報(bào)、提交,該種方式的數(shù)據(jù)字段內(nèi)容相對(duì)較為準(zhǔn)確、完備,但需要具有良好的主動(dòng)上繳環(huán)境,這對(duì)于剛建成的機(jī)構(gòu)知識(shí)庫(kù)是比較難的,并非能夠一蹴而就,需要機(jī)構(gòu)知識(shí)庫(kù)負(fù)責(zé)人員、單位的不斷努力,在做出一定成果之后,通過大力宣傳、取得院級(jí)/校級(jí)領(lǐng)導(dǎo)層面的支持等方式,逐步提高人員主動(dòng)上繳意愿。同時(shí),人工上傳方式要耗費(fèi)大量時(shí)間,還需要機(jī)構(gòu)知識(shí)庫(kù)負(fù)責(zé)人員承擔(dān)大量審核、維護(hù)工作。
相比之下,與國(guó)內(nèi)外各知名數(shù)據(jù)庫(kù)商合作,運(yùn)用機(jī)器學(xué)習(xí)、自動(dòng)追蹤等技術(shù)抓取數(shù)據(jù)庫(kù)中已有的成果數(shù)據(jù),能夠快速獲得本機(jī)構(gòu)人員的科研成果,節(jié)省大量時(shí)間。但該種方式得到的數(shù)據(jù)準(zhǔn)確性、完備性會(huì)存在一定問題,即使事先建立好學(xué)者規(guī)范詞典、機(jī)構(gòu)規(guī)范詞典,也會(huì)因原始數(shù)據(jù)中存在同名不同人、同人多種名稱變體、機(jī)構(gòu)字段不完整等情況,使數(shù)據(jù)出現(xiàn)偏差。因此通常需要人工介入,經(jīng)過認(rèn)領(lǐng)、修改、審核等工作來確定數(shù)據(jù)。
通常情況下,機(jī)構(gòu)知識(shí)庫(kù)采用機(jī)器抓取+人工上傳相結(jié)合的數(shù)據(jù)獲取方式,得到不同來源、不同類型的資源,力求最大程度容納本機(jī)構(gòu)科研人員的各類型科研成果。此外,由于科研成果的產(chǎn)生是源源不斷的,因此機(jī)構(gòu)知識(shí)庫(kù)也要建立數(shù)據(jù)采集更新機(jī)制,持續(xù)更新資源內(nèi)容,并依據(jù)用戶需求、知識(shí)組織要求,關(guān)注并解決數(shù)據(jù)采集中存在的問題。
機(jī)構(gòu)知識(shí)庫(kù)中不同來源、不同類型的資源擁有不同的數(shù)據(jù)結(jié)構(gòu),為便于資源管理、關(guān)聯(lián)、展示、利用,需要對(duì)這些異構(gòu)資源進(jìn)行整合、加工、標(biāo)準(zhǔn)化描述。為實(shí)現(xiàn)機(jī)構(gòu)知識(shí)庫(kù)科研實(shí)體學(xué)術(shù)關(guān)系關(guān)聯(lián)與發(fā)現(xiàn),需要選擇并構(gòu)建合適的規(guī)范描述框架,包括元數(shù)據(jù)集、語(yǔ)義描述框架、規(guī)范文檔等等,對(duì)相關(guān)數(shù)據(jù)進(jìn)行加工,形成可存儲(chǔ)、可讀取、可關(guān)聯(lián)、可展示的資源元數(shù)據(jù)架構(gòu)。
基于上述機(jī)構(gòu)知識(shí)庫(kù)資源類型及科研實(shí)體學(xué)術(shù)關(guān)系內(nèi)涵梳理,所構(gòu)建的元數(shù)據(jù)集應(yīng)至少包括:文本資源元數(shù)據(jù)集、聲像資源元數(shù)據(jù)集、數(shù)據(jù)資源元數(shù)據(jù)集、實(shí)物資源元數(shù)據(jù)集;規(guī)范文檔應(yīng)至少包括:學(xué)者名稱規(guī)范文檔、機(jī)構(gòu)名稱規(guī)范文檔、期刊名稱規(guī)范文檔、基金項(xiàng)目規(guī)范文檔等。依據(jù)上文分析的資源知識(shí)要素屬性,表3列出了不同資源元數(shù)據(jù)集的部分主要元素項(xiàng);依據(jù)科研實(shí)體基本特征,表4列出了不同名稱規(guī)范文檔的主要屬性項(xiàng)。此外,語(yǔ)義描述框架則可依據(jù)具體關(guān)聯(lián)方法、結(jié)果等來選擇合適的概念模型、編碼技術(shù),如FRBR、RDF等。為有效發(fā)現(xiàn)學(xué)科實(shí)體間的學(xué)術(shù)關(guān)系,應(yīng)構(gòu)建教育部學(xué)科、ESI學(xué)科、中圖學(xué)科、WOS學(xué)科等多種學(xué)科分類體系的映射詞表。
表3 不同資源元數(shù)據(jù)集的主要元素
表4 不同名稱規(guī)范文檔的主要屬性
以規(guī)范描述好的元數(shù)據(jù)集為基礎(chǔ),利用實(shí)體識(shí)別技術(shù)識(shí)別學(xué)術(shù)關(guān)系涉及的科研實(shí)體、元素項(xiàng)、屬性項(xiàng),完成實(shí)體抽取與主要元素抽取。以構(gòu)建好的規(guī)范文檔為依據(jù),對(duì)抽取出的實(shí)體與元素進(jìn)行唯一化、規(guī)范化,并完成語(yǔ)義描述?;谏衔姆治龅目蒲袑?shí)體間存在的學(xué)術(shù)關(guān)系類型及屬性特征,構(gòu)建基于屬性值匹配的推理關(guān)聯(lián)方法,從而發(fā)現(xiàn)資源實(shí)體之間的學(xué)術(shù)關(guān)系并使其建立關(guān)聯(lián)鏈接,主要關(guān)聯(lián)過程如圖2所示。最終形成機(jī)構(gòu)知識(shí)庫(kù)實(shí)體學(xué)術(shù)關(guān)系網(wǎng)絡(luò),網(wǎng)絡(luò)模型大致如圖3所示。
圖2 機(jī)構(gòu)知識(shí)庫(kù)科研實(shí)體學(xué)術(shù)關(guān)系關(guān)聯(lián)過程
圖3 機(jī)構(gòu)知識(shí)庫(kù)科研實(shí)體學(xué)術(shù)關(guān)系網(wǎng)絡(luò)模型
基于學(xué)術(shù)關(guān)系的機(jī)構(gòu)庫(kù)科研實(shí)體關(guān)聯(lián)與發(fā)現(xiàn),可以使分布在不同類型資源中具有學(xué)術(shù)關(guān)系的科研實(shí)體建立鏈接、實(shí)現(xiàn)關(guān)聯(lián),其大致可以在可視化揭示、語(yǔ)義化檢索、智慧化服務(wù)等方面進(jìn)行應(yīng)用。
首先基于發(fā)現(xiàn)的科研實(shí)體學(xué)術(shù)關(guān)系網(wǎng)絡(luò),可以將各實(shí)體及資源通過可視化圖譜等多種方式予以揭示,從而更清晰、直接地在用戶面前展示資源、實(shí)體間的相關(guān)性,便于用戶對(duì)機(jī)構(gòu)庫(kù)資源的利用。其次基于發(fā)現(xiàn)的科研實(shí)體學(xué)術(shù)關(guān)系網(wǎng)絡(luò),可以實(shí)現(xiàn)具有學(xué)術(shù)關(guān)系的機(jī)構(gòu)知識(shí)庫(kù)科研實(shí)體聚合組織,可構(gòu)建語(yǔ)義度更高的檢索系統(tǒng),用戶在檢索時(shí),可以同時(shí)獲得與檢索結(jié)果有學(xué)術(shù)關(guān)系的相關(guān)實(shí)體與資源,省去二次或多次檢索,節(jié)省檢索時(shí)間,提高檢索效率。再次基于發(fā)現(xiàn)的科研實(shí)體學(xué)術(shù)關(guān)系網(wǎng)絡(luò),圖書館可以為用戶提供更加豐富的智慧化、個(gè)性化知識(shí)服務(wù),例如相關(guān)內(nèi)容推薦、具有學(xué)術(shù)關(guān)系的資源/學(xué)者/學(xué)科發(fā)展態(tài)勢(shì)分析等等。
機(jī)構(gòu)知識(shí)庫(kù)作為存儲(chǔ)、管理、展現(xiàn)本機(jī)構(gòu)科研成果的重要平臺(tái),其序化組織對(duì)于平臺(tái)可持續(xù)發(fā)展有重要意義。現(xiàn)有的機(jī)構(gòu)知識(shí)庫(kù)資源組織主要以學(xué)者、機(jī)構(gòu)、學(xué)科等常用的單一實(shí)體組織為主,用戶可通過字段檢索、導(dǎo)航瀏覽等方式來查閱所需資源,這種資源組織方式得到的檢索結(jié)果相互之間較為獨(dú)立,難以將存在關(guān)聯(lián)關(guān)系的資源經(jīng)過一次檢索,直接呈現(xiàn)在用戶面前。本文以科研實(shí)體間存在的學(xué)術(shù)關(guān)系為研究起點(diǎn),分析機(jī)構(gòu)知識(shí)庫(kù)科研實(shí)體間存在的學(xué)術(shù)關(guān)系及其發(fā)現(xiàn)體系,該方式使不同科研實(shí)體間的學(xué)術(shù)關(guān)系得以語(yǔ)義揭示,并建立關(guān)聯(lián),形成機(jī)構(gòu)庫(kù)資源實(shí)體的語(yǔ)義聚集,能夠使用戶在檢索之后,同時(shí)獲得與檢索內(nèi)容有學(xué)術(shù)關(guān)系的其他知識(shí)內(nèi)容,有利于機(jī)構(gòu)庫(kù)資源更好地的組織與利用。
本文研究?jī)?nèi)容尚存在一些不足,例如學(xué)術(shù)關(guān)系類型主要依據(jù)學(xué)術(shù)關(guān)系內(nèi)涵及現(xiàn)有研究歸納所得,其完備性、準(zhǔn)確性還需在實(shí)踐工作中不斷修正與完善;所選科研實(shí)體中學(xué)者和機(jī)構(gòu)以本機(jī)構(gòu)的學(xué)者、不同層級(jí)單位為主,對(duì)與本機(jī)構(gòu)存在合作關(guān)系的外機(jī)構(gòu)學(xué)者、單位缺乏科學(xué)的數(shù)據(jù)規(guī)范與描述,容易導(dǎo)致本單位與外單位學(xué)術(shù)關(guān)系的揭示不夠全面準(zhǔn)確。未來將通過實(shí)證研究、與外單位協(xié)同合作等途徑開展進(jìn)一步深入研究,使研究?jī)?nèi)容更具有操作性、科學(xué)性、實(shí)踐性。