王芙蓉
(山西傳媒學(xué)院圖書(shū)館,山西 晉中 030619)
基于知識(shí)發(fā)現(xiàn)的高校圖書(shū)館機(jī)構(gòu)知識(shí)庫(kù)模型的建立
王芙蓉
(山西傳媒學(xué)院圖書(shū)館,山西 晉中 030619)
機(jī)構(gòu)知識(shí)庫(kù)是學(xué)術(shù)機(jī)構(gòu)將成員產(chǎn)生的學(xué)術(shù)資料進(jìn)行收集、保存、管理,以開(kāi)放和共享為目的,實(shí)現(xiàn)資源的永久保存和傳播。介紹了機(jī)構(gòu)知識(shí)庫(kù)的概念和高校圖書(shū)館建立機(jī)構(gòu)知識(shí)庫(kù)的必要性及原則。為了避免數(shù)據(jù)冗余,便于深層次數(shù)據(jù)挖掘,以題錄實(shí)體和機(jī)構(gòu)實(shí)體為元數(shù)據(jù),構(gòu)建了基于知識(shí)發(fā)現(xiàn)的三層架構(gòu)的機(jī)構(gòu)知識(shí)庫(kù)模型,并闡述了該模型的實(shí)現(xiàn)過(guò)程。
機(jī)構(gòu)知識(shí)庫(kù) 高校圖書(shū)館 數(shù)據(jù)挖掘 知識(shí)發(fā)現(xiàn) 題錄
機(jī)構(gòu)知識(shí)庫(kù)(IR,Institutional Repository)又稱為“機(jī)構(gòu)典藏庫(kù)”“機(jī)構(gòu)存儲(chǔ)庫(kù)”“機(jī)構(gòu)倉(cāng)儲(chǔ)庫(kù)”等,美國(guó)網(wǎng)絡(luò)信息聯(lián)盟(Coalition of Networked Information)執(zhí)行總監(jiān)Clifford Lynch[1]定義機(jī)構(gòu)知識(shí)庫(kù)為“高校的機(jī)構(gòu)知識(shí)庫(kù)是高校為其成員提供的一套服務(wù)系統(tǒng),用于管理和傳播高校各個(gè)部門(mén)及其成員創(chuàng)作的數(shù)字化資料”。因此機(jī)構(gòu)知識(shí)庫(kù)就是學(xué)術(shù)機(jī)構(gòu)利用計(jì)算機(jī)技術(shù),將成員產(chǎn)生的學(xué)術(shù)資源進(jìn)行收集、規(guī)范、組織、存儲(chǔ),形成可以運(yùn)用計(jì)算機(jī)保存、管理、檢索的數(shù)字資源,以開(kāi)放和共享為目的,實(shí)現(xiàn)資源的永久保存和傳播。國(guó)外機(jī)構(gòu)知識(shí)庫(kù)的建設(shè)已成為學(xué)術(shù)機(jī)構(gòu)的一項(xiàng)基礎(chǔ)教育設(shè)施,而在我國(guó)機(jī)構(gòu)知識(shí)庫(kù)建設(shè)比較落后,具有代表性的是廈門(mén)大學(xué)建設(shè)的學(xué)術(shù)典藏庫(kù)以及香港大學(xué)的機(jī)構(gòu)知識(shí)庫(kù)。
機(jī)構(gòu)知識(shí)庫(kù)中收納的學(xué)術(shù)資料包括公開(kāi)發(fā)表和未公開(kāi)發(fā)表的各種形式的學(xué)術(shù)成果,這些學(xué)術(shù)資料包括論文、專著、專利、研究報(bào)告、課件、實(shí)驗(yàn)報(bào)告等,以及所有格式的圖像、視頻資料、音頻資料、文本、藝術(shù)作品等。學(xué)術(shù)資料的收集是機(jī)構(gòu)知識(shí)庫(kù)建設(shè)中一項(xiàng)繁重的任務(wù),建立合理的征收制度,提高機(jī)構(gòu)知識(shí)庫(kù)的文獻(xiàn)資源服務(wù)質(zhì)量,吸引更多的教師使用機(jī)構(gòu)知識(shí)庫(kù),從而激發(fā)教師主動(dòng)提交學(xué)術(shù)成果,擴(kuò)大收錄范圍和形式。對(duì)公開(kāi)發(fā)表的學(xué)術(shù)資料可以運(yùn)用轉(zhuǎn)換工具直接將現(xiàn)有數(shù)據(jù)庫(kù)導(dǎo)入機(jī)構(gòu)知識(shí)庫(kù)中,未公開(kāi)發(fā)表的灰色文獻(xiàn)可以運(yùn)用個(gè)人自主提交的方法導(dǎo)入機(jī)構(gòu)知識(shí)庫(kù)。
機(jī)構(gòu)知識(shí)庫(kù)收錄各種內(nèi)容、不同格式的文獻(xiàn)資源,尤其收錄諸如實(shí)驗(yàn)報(bào)告、預(yù)印本文獻(xiàn)、測(cè)試數(shù)據(jù)等灰色文獻(xiàn),這些資源也具有很高的學(xué)術(shù)價(jià)值。機(jī)構(gòu)知識(shí)庫(kù)可以存儲(chǔ)成員產(chǎn)生的學(xué)術(shù)資料,以便得到很好的保存利用,同時(shí)成員可以通過(guò)機(jī)構(gòu)知識(shí)庫(kù)進(jìn)行學(xué)術(shù)交流,拓展視野,提升科研能力。機(jī)構(gòu)知識(shí)庫(kù)也成為高校與高校之間進(jìn)行學(xué)術(shù)交流的橋梁。
圖書(shū)館重要功能之一是對(duì)文獻(xiàn)資料進(jìn)行收集、加工、保存并傳播文化資源。因此,圖書(shū)館在文獻(xiàn)資源收集整理方面具有豐富的工作經(jīng)驗(yàn)、完善的工作流程以及相關(guān)技術(shù)人員。另一方面,數(shù)字圖書(shū)館與機(jī)構(gòu)知識(shí)庫(kù)在服務(wù)目的上是統(tǒng)一的,在信息技術(shù)平臺(tái)上是相似的,例如元數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)、中間件技術(shù)、信息交換協(xié)議、RSS技術(shù)、智能代理等,運(yùn)用這些技術(shù)可以建立相關(guān)的數(shù)據(jù)資源系統(tǒng)以及對(duì)分布式系統(tǒng)進(jìn)行集成,從而實(shí)現(xiàn)對(duì)文獻(xiàn)資源的有效整合以及跨庫(kù)、跨平臺(tái)的精確檢索。
3.1 數(shù)據(jù)資源應(yīng)不斷更新、完善
機(jī)構(gòu)知識(shí)庫(kù)中收集的數(shù)據(jù)資源應(yīng)充分體現(xiàn)學(xué)校教學(xué)科研的方向、特色以及水平,對(duì)學(xué)校成員產(chǎn)生的學(xué)術(shù)成果進(jìn)行收集、過(guò)濾、整理、評(píng)價(jià)、入庫(kù),從而不斷更新知識(shí)庫(kù),同時(shí),要對(duì)知識(shí)庫(kù)中的數(shù)據(jù)進(jìn)行備份。機(jī)構(gòu)知識(shí)庫(kù)建設(shè)是一個(gè)長(zhǎng)期、可持續(xù)、不斷完善的過(guò)程,應(yīng)堅(jiān)持“開(kāi)放存取”(Open Access)的服務(wù)理念。
3.2 具有統(tǒng)一標(biāo)準(zhǔn)的元數(shù)據(jù)
元數(shù)據(jù)的存儲(chǔ)是機(jī)構(gòu)知識(shí)庫(kù)建設(shè)的基礎(chǔ),良好的元數(shù)據(jù)格式為機(jī)構(gòu)知識(shí)庫(kù)的二次開(kāi)發(fā)與數(shù)據(jù)挖掘打下了堅(jiān)實(shí)的基礎(chǔ)。目前,我國(guó)大多數(shù)高校是使用軟件工具(NoteExpress、DSpace)將數(shù)據(jù)管理系統(tǒng)(高校自建數(shù)據(jù)庫(kù)、商業(yè)數(shù)據(jù)庫(kù))批量導(dǎo)入到機(jī)構(gòu)知識(shí)庫(kù)中,知識(shí)庫(kù)中的數(shù)據(jù)標(biāo)準(zhǔn)不一、關(guān)聯(lián)準(zhǔn)確性差,不利于對(duì)機(jī)構(gòu)知識(shí)庫(kù)進(jìn)行深層數(shù)據(jù)挖掘,這是機(jī)構(gòu)知識(shí)庫(kù)發(fā)展過(guò)程中面臨的一個(gè)重要問(wèn)題。因此,具有統(tǒng)一標(biāo)準(zhǔn)的元數(shù)據(jù)格式是機(jī)構(gòu)知識(shí)庫(kù)底層資源整合中至關(guān)重要的問(wèn)題。
3.3 保護(hù)版權(quán),合法使用文獻(xiàn)資源
機(jī)構(gòu)知識(shí)庫(kù)中的文獻(xiàn)資源按照所有權(quán)可以分為3類(lèi):機(jī)構(gòu)所有、提交者所有、其他權(quán)利人所有[2]。所有權(quán)屬于學(xué)術(shù)機(jī)構(gòu)的文獻(xiàn)資源一般不會(huì)產(chǎn)生版權(quán)糾紛問(wèn)題。對(duì)于提交者具有所有權(quán)的文獻(xiàn)資源,高校應(yīng)與提交者達(dá)成協(xié)議,獲得使用權(quán)利。對(duì)于其他個(gè)人或組織具有所有權(quán)的文獻(xiàn),高校應(yīng)依據(jù)相關(guān)法律規(guī)定,制定合理的收繳與使用制度。
知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)是指從數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他資源庫(kù)中運(yùn)用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)數(shù)據(jù)之間潛在的關(guān)聯(lián)、規(guī)則、趨勢(shì)等,并將數(shù)據(jù)及其關(guān)系轉(zhuǎn)換為知識(shí)模式,通過(guò)對(duì)模式進(jìn)行評(píng)價(jià),得到對(duì)用戶有用的知識(shí),并通過(guò)可視化界面展示出來(lái)。
知識(shí)發(fā)現(xiàn)過(guò)程可分為:搜集數(shù)據(jù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、知識(shí)評(píng)價(jià)與表示4個(gè)步驟。①搜集數(shù)據(jù):根據(jù)目標(biāo)搜集有關(guān)數(shù)據(jù)建立數(shù)據(jù)庫(kù),筆者所討論的數(shù)據(jù)搜集對(duì)象是數(shù)據(jù)資源系統(tǒng)和個(gè)人灰色資源,此時(shí)建立的數(shù)據(jù)庫(kù)沒(méi)有統(tǒng)一標(biāo)準(zhǔn)的元數(shù)據(jù)模型。②數(shù)據(jù)預(yù)處理:由于上一階段所建立的數(shù)據(jù)庫(kù)沒(méi)有統(tǒng)一標(biāo)準(zhǔn)格式、關(guān)聯(lián)不精準(zhǔn)、存在冗余數(shù)據(jù),因此需要對(duì)數(shù)據(jù)進(jìn)行加工、轉(zhuǎn)換。本文設(shè)計(jì)的機(jī)構(gòu)實(shí)體模型,能夠消除冗余數(shù)據(jù),并保證數(shù)據(jù)完整性與一致性,建立有利于挖掘算法的數(shù)據(jù)庫(kù)。③數(shù)據(jù)挖掘:采用挖掘算法對(duì)數(shù)據(jù)庫(kù)進(jìn)行挖掘。④知識(shí)評(píng)價(jià)與表示:對(duì)上一階段數(shù)據(jù)挖掘產(chǎn)生的數(shù)據(jù)集合運(yùn)用可視化的方法表示出來(lái),并運(yùn)用可信度與興趣度對(duì)知識(shí)模式進(jìn)行分析,去除冗余模式,更新或修改知識(shí)庫(kù)內(nèi)容,使知識(shí)庫(kù)處于不斷更新?tīng)顟B(tài),決策支持達(dá)到最優(yōu)。
圖1 基于知識(shí)發(fā)現(xiàn)的機(jī)構(gòu)知識(shí)庫(kù)模型流程
機(jī)構(gòu)知識(shí)庫(kù)的建設(shè)在技術(shù)上是以現(xiàn)有的數(shù)字圖書(shū)館信息平臺(tái)為基礎(chǔ),在管理上是以圖書(shū)館文獻(xiàn)資源管理模式為基礎(chǔ)。用戶可以通過(guò)機(jī)構(gòu)知識(shí)庫(kù)提交、獲取、共享學(xué)術(shù)資源,為用戶提供一個(gè)面向不同知識(shí)服務(wù)、開(kāi)放的人性化平臺(tái)。筆者設(shè)計(jì)的機(jī)構(gòu)知識(shí)庫(kù)模型總體架構(gòu)分為3層:數(shù)據(jù)處理層、知識(shí)發(fā)現(xiàn)層、知識(shí)表示層,這3層是相互聯(lián)系、相輔相成的整體,其流程如圖1所示。
4.1 數(shù)據(jù)處理層
數(shù)據(jù)處理層是將原始數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)預(yù)處理得到可以進(jìn)行數(shù)據(jù)挖掘的具有統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)庫(kù),可以對(duì)該數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)挖掘。機(jī)構(gòu)知識(shí)庫(kù)中的源數(shù)據(jù)包括兩個(gè)部分:數(shù)據(jù)資源系統(tǒng)和個(gè)人灰色資源。數(shù)據(jù)資源系統(tǒng)按照內(nèi)容主要包括高校科研系統(tǒng)數(shù)據(jù)庫(kù)、學(xué)位論文數(shù)據(jù)庫(kù)、外購(gòu)數(shù)據(jù)庫(kù)、學(xué)生作品庫(kù)等。個(gè)人灰色資源是指學(xué)者自己保存,未經(jīng)發(fā)表的文獻(xiàn)資料。數(shù)據(jù)管理系統(tǒng)通過(guò)NoteExpress工具將數(shù)據(jù)完整無(wú)損地導(dǎo)入到數(shù)據(jù)庫(kù)中,個(gè)人灰色資源通過(guò)自主存檔技術(shù)將數(shù)據(jù)導(dǎo)入到數(shù)據(jù)庫(kù)中。
由于從不同數(shù)據(jù)管理系統(tǒng)中導(dǎo)出的題錄數(shù)據(jù)的表達(dá)、格式、分類(lèi)體系不同,表達(dá)各異的同一個(gè)體會(huì)被識(shí)別成不同的個(gè)體,從而產(chǎn)生冗余數(shù)據(jù)和不完整數(shù)據(jù)。例如:學(xué)者、機(jī)構(gòu)、主題等實(shí)體在不同數(shù)據(jù)庫(kù)管理系統(tǒng)中有不同的名稱和寫(xiě)法,這樣的實(shí)體導(dǎo)入到數(shù)據(jù)庫(kù)中會(huì)被識(shí)別為不同的實(shí)體;不同的數(shù)據(jù)管理系統(tǒng)依據(jù)不同的學(xué)科分類(lèi)體系,例如中文數(shù)據(jù)庫(kù)普遍使用《中國(guó)圖書(shū)館分類(lèi)法》《中國(guó)科學(xué)院圖書(shū)館圖書(shū)分類(lèi)法》[3],外文數(shù)據(jù)庫(kù)普遍采用《杜威十進(jìn)分類(lèi)法》《國(guó)際十進(jìn)分類(lèi)法》,因此筆者設(shè)計(jì)了機(jī)構(gòu)實(shí)體關(guān)系模型,用戶看到和使用的是機(jī)構(gòu)實(shí)體的數(shù)據(jù)。該模型與題錄實(shí)體一并作為元數(shù)據(jù)來(lái)存儲(chǔ)機(jī)構(gòu)知識(shí)庫(kù)文獻(xiàn)資源,支持?jǐn)?shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)。題錄實(shí)體如圖2所示,機(jī)構(gòu)實(shí)體如圖3所示。
圖2 題錄實(shí)體
圖3 機(jī)構(gòu)實(shí)體
題錄實(shí)體具有主題詞、標(biāo)引詞、作者、文獻(xiàn)來(lái)源等屬性,題錄實(shí)體數(shù)據(jù)來(lái)源于對(duì)題錄數(shù)據(jù)的預(yù)處理,即對(duì)不同來(lái)源題錄數(shù)據(jù)的抽取。機(jī)構(gòu)實(shí)體具有機(jī)構(gòu)名稱、地址、學(xué)者、主題、學(xué)科等屬性,機(jī)構(gòu)實(shí)體數(shù)據(jù)來(lái)源于與學(xué)校信息中心的對(duì)接,同時(shí)由教學(xué)秘書(shū)或?qū)W科館員人工關(guān)聯(lián)題錄實(shí)體與機(jī)構(gòu)實(shí)體的對(duì)應(yīng)關(guān)系。
該模型可以將半結(jié)構(gòu)化的文本信息轉(zhuǎn)換為具有統(tǒng)一標(biāo)準(zhǔn)的結(jié)構(gòu)化關(guān)系數(shù)據(jù)模型,才能進(jìn)行更深層次的數(shù)據(jù)挖掘來(lái)支持用戶的個(gè)性化需求和決策。該模型的另一個(gè)優(yōu)點(diǎn)是易擴(kuò)充,增加了系統(tǒng)的穩(wěn)定性和可移植性,減少開(kāi)發(fā)人員工作量。例如:學(xué)者變換了所在單位機(jī)構(gòu),只需在機(jī)構(gòu)實(shí)體中做修改,題錄實(shí)體不需變動(dòng)。又如:題錄實(shí)體中若有眾多表達(dá)不同的數(shù)據(jù),不會(huì)對(duì)機(jī)構(gòu)實(shí)體產(chǎn)生影響。
4.2 知識(shí)發(fā)現(xiàn)層
知識(shí)發(fā)現(xiàn)層是機(jī)構(gòu)知識(shí)庫(kù)平臺(tái)的核心,采用數(shù)據(jù)挖掘算法,并通過(guò)知識(shí)表示與評(píng)價(jià)得到面向不同專題的知識(shí)庫(kù)。運(yùn)用關(guān)聯(lián)分析、分類(lèi)分析、聚類(lèi)分析、回歸分析、序列模式、特征分析等挖掘算法從數(shù)據(jù)庫(kù)中挖掘出數(shù)據(jù)之間潛在的關(guān)聯(lián)、規(guī)則、趨勢(shì)等關(guān)系,并結(jié)合智能代理、中間件技術(shù)、數(shù)據(jù)庫(kù)技術(shù)等,將文獻(xiàn)資源進(jìn)行選擇、重組、整理、開(kāi)發(fā),從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)新的模式、知識(shí)和規(guī)則,并用可視化的方法將新知識(shí)表示出來(lái)。
經(jīng)過(guò)數(shù)據(jù)挖掘得到的新知識(shí)很可能與常識(shí)或某一領(lǐng)域的知識(shí)不相容、重復(fù),通過(guò)知識(shí)評(píng)價(jià)模塊,根據(jù)興趣度值去掉重復(fù)和矛盾的知識(shí),同時(shí)根據(jù)知識(shí)的可信度修改或更新已有的知識(shí),最終實(shí)現(xiàn)文獻(xiàn)資源的整合化、專題化,構(gòu)建出具有不同學(xué)術(shù)特征的知識(shí)庫(kù)。依據(jù)前面的步驟不斷提取新知識(shí)并進(jìn)行測(cè)試,從而更新、擴(kuò)充知識(shí)庫(kù),使知識(shí)庫(kù)的學(xué)術(shù)價(jià)值達(dá)到最優(yōu)。本文在知識(shí)發(fā)現(xiàn)層中通過(guò)數(shù)據(jù)挖掘與知識(shí)評(píng)價(jià)最終構(gòu)建的知識(shí)庫(kù)有:特色知識(shí)庫(kù)、學(xué)科知識(shí)庫(kù)、學(xué)科導(dǎo)航庫(kù)、專家知識(shí)庫(kù),這4個(gè)知識(shí)庫(kù)構(gòu)成了機(jī)構(gòu)知識(shí)庫(kù)在知識(shí)體系層面的數(shù)據(jù)基礎(chǔ),運(yùn)用JSP、XML、HTML等信息網(wǎng)絡(luò)技術(shù),同時(shí)以上述4個(gè)知識(shí)庫(kù)為數(shù)據(jù)基礎(chǔ),設(shè)計(jì)知識(shí)表示層。
特色知識(shí)庫(kù)的內(nèi)容代表學(xué)校學(xué)術(shù)研究的發(fā)展方向,重點(diǎn)、特色專業(yè)的學(xué)術(shù)成果,在一定程度上反應(yīng)出學(xué)校的科研實(shí)力。學(xué)科知識(shí)庫(kù)是按照學(xué)科類(lèi)別組織文獻(xiàn)資源,能夠?yàn)橛脩舾涌旖?、?zhǔn)確地提供所需學(xué)科專業(yè)的知識(shí)服務(wù)。學(xué)科導(dǎo)航庫(kù)是將文獻(xiàn)資源按照學(xué)科類(lèi)別建立分類(lèi)目錄式資源體系,通過(guò)導(dǎo)航可以提高文獻(xiàn)資源的查準(zhǔn)率與查全率。專家知識(shí)庫(kù)是專家學(xué)者長(zhǎng)年所積累的學(xué)術(shù)經(jīng)驗(yàn)、成果、智能的集合,是學(xué)科知識(shí)的精華,專家知識(shí)庫(kù)的內(nèi)容應(yīng)擴(kuò)展到全體教師,通過(guò)數(shù)據(jù)挖掘?qū)⒏弋a(chǎn)和活躍學(xué)者的學(xué)術(shù)成果組織起來(lái),從而擴(kuò)大專家知識(shí)庫(kù)的覆蓋范圍以及學(xué)術(shù)影響力,為學(xué)??蒲刑峁└尤?、權(quán)威的決策支持。
4.3 知識(shí)表示層
知識(shí)表示層是用戶與機(jī)構(gòu)知識(shí)庫(kù)系統(tǒng)交流的平臺(tái)。根據(jù)用戶的不同需求,經(jīng)過(guò)知識(shí)發(fā)現(xiàn)產(chǎn)生不同的新知識(shí)模式,用戶的參與在知識(shí)庫(kù)內(nèi)容的擴(kuò)充和更新方面起著至關(guān)重要的作用。本文從邏輯結(jié)構(gòu)上將知識(shí)表示層分為4個(gè)模塊:個(gè)性化服務(wù)模塊、參考咨詢模塊、知識(shí)交流與服務(wù)模塊、知識(shí)檢索模塊。
個(gè)性化服務(wù)模塊是讓用戶感覺(jué)在“自己的機(jī)構(gòu)知識(shí)庫(kù)”中查閱文獻(xiàn)資源,一方面對(duì)于用戶新提交的論文,根據(jù)高頻主題詞、投稿刊物等信息,通過(guò)知識(shí)發(fā)現(xiàn)得到用戶感興趣的最新學(xué)術(shù)動(dòng)態(tài);另一方面,根據(jù)用戶經(jīng)常檢索的關(guān)鍵詞,通過(guò)知識(shí)發(fā)現(xiàn)技術(shù)得到用戶所需的相關(guān)信息,通過(guò)郵件、微信等方式主動(dòng)推送給用戶。同時(shí),該模塊能向用戶提供個(gè)性化定制服務(wù),包括信息資源定制和網(wǎng)頁(yè)版面設(shè)計(jì)定制,根據(jù)不同需求生成定制的動(dòng)態(tài)網(wǎng)頁(yè)。
參考咨詢模塊是圖書(shū)館員與用戶交流的平臺(tái),圖書(shū)館員根據(jù)用戶在利用文獻(xiàn)資源、尋找知識(shí)、情報(bào)等方面中遇到的問(wèn)題提供幫助。用戶可以在個(gè)人學(xué)術(shù)資源上傳方法、文獻(xiàn)要求、文獻(xiàn)資源檢索、機(jī)構(gòu)知識(shí)庫(kù)使用方法等方面進(jìn)行咨詢。圖書(shū)館應(yīng)配備專業(yè)學(xué)科館員進(jìn)行實(shí)時(shí)與非實(shí)時(shí)解答。
知識(shí)交流與服務(wù)模塊是用戶提交論文并參與知識(shí)交流的渠道。用戶通過(guò)身份認(rèn)證后登陸該模塊并提交學(xué)術(shù)資源,經(jīng)學(xué)科館員審核后方可提交到數(shù)據(jù)處理層,采用系統(tǒng)設(shè)定的元數(shù)據(jù)格式存儲(chǔ)和管理資源,在知識(shí)發(fā)現(xiàn)層運(yùn)用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)新的知識(shí)模式,從而將用戶的學(xué)術(shù)成果以知識(shí)模式的形式存儲(chǔ)到知識(shí)庫(kù),使得隱形知識(shí)顯性化,便于用戶進(jìn)行學(xué)術(shù)資源的交流。另一方面,通過(guò)用戶提交學(xué)術(shù)資源,增加了知識(shí)庫(kù)的內(nèi)容,提高了知識(shí)庫(kù)的服務(wù)能力。
知識(shí)檢索模塊提供用戶檢索所需信息的窗口,在該模塊中可以設(shè)定按照文獻(xiàn)類(lèi)型、文獻(xiàn)來(lái)源、學(xué)科、機(jī)構(gòu)、語(yǔ)種、年份、學(xué)者、主題等檢索條件進(jìn)行基本信息檢索。同時(shí)也可以在該檢索頁(yè)面中根據(jù)主題、關(guān)鍵詞、篇名、發(fā)表時(shí)間、文獻(xiàn)來(lái)源、作者、跨庫(kù)檢索等具體的檢索條件進(jìn)行高級(jí)檢索。該模塊運(yùn)用本體理念從語(yǔ)義、概念層面上進(jìn)行檢索,避免字面的機(jī)械匹配,提高計(jì)算機(jī)理解用戶查詢需求的能力,實(shí)現(xiàn)更好的人機(jī)交互。
通過(guò)設(shè)計(jì)機(jī)構(gòu)實(shí)體,消除不同數(shù)據(jù)管理系統(tǒng)中題錄數(shù)據(jù)產(chǎn)生的冗余與不完整信息,從而建立有利于數(shù)據(jù)挖掘的具有統(tǒng)一標(biāo)準(zhǔn)的關(guān)系數(shù)據(jù)庫(kù)。筆者設(shè)計(jì)了基于知識(shí)發(fā)現(xiàn)的3層架構(gòu)的機(jī)構(gòu)知識(shí)庫(kù)模型:數(shù)據(jù)處理層、知識(shí)發(fā)現(xiàn)層、知識(shí)表示層,并闡述了機(jī)構(gòu)知識(shí)庫(kù)模型的實(shí)現(xiàn)技術(shù)以及功能模塊。該機(jī)構(gòu)知識(shí)庫(kù)模型以用戶需求為中心,讓用戶感覺(jué)在“自己的機(jī)構(gòu)知識(shí)庫(kù)”中查找所需資料。通過(guò)用戶的需求指導(dǎo)知識(shí)發(fā)現(xiàn)過(guò)程,創(chuàng)建新的知識(shí)模式,更新機(jī)構(gòu)知識(shí)庫(kù)內(nèi)容。隨著用戶需求的變化,在知識(shí)表示層可以增加新的功能模塊。機(jī)構(gòu)知識(shí)庫(kù)包含文獻(xiàn)資源種類(lèi)、數(shù)量繁多,如何在已有知識(shí)庫(kù)基礎(chǔ)上進(jìn)行基于知識(shí)庫(kù)的知識(shí)發(fā)現(xiàn),建立多維度知識(shí)元,能夠在現(xiàn)有機(jī)構(gòu)知識(shí)庫(kù)基礎(chǔ)上進(jìn)行更深層次的知識(shí)發(fā)現(xiàn),建立更加科學(xué)化、人性化的機(jī)構(gòu)知識(shí)庫(kù),這是今后努力研究的方向。
[1] Lynch C A.Institutional repositories:essential infrastruc?ture for scholarship in the digitalage ARL,no.226,pp.1-7 [EB/OL].[2008-10-27].http://www arl.org/newsltr/226/ir. htm l.
[2]于佳亮,吳新年,賈彥龍.機(jī)構(gòu)知識(shí)庫(kù)資源建設(shè)中的產(chǎn)權(quán)策略研究[J].情報(bào)理論與實(shí)踐,2008(3):353-355.
[3]周婕,等.基于文獻(xiàn)數(shù)據(jù)規(guī)律的機(jī)構(gòu)知識(shí)庫(kù)關(guān)鍵技術(shù)研究[J].情報(bào)資料工作,2015(1):68-69.
[4]馮研,王馨.國(guó)內(nèi)圖書(shū)館數(shù)據(jù)挖掘技術(shù)實(shí)踐應(yīng)用進(jìn)展分析[J].圖書(shū)館學(xué)研究,2011(10):3-4.
[5]陳學(xué)進(jìn).Web結(jié)構(gòu)挖掘研究[D].合肥:合肥工業(yè)大學(xué),2006.
王芙蓉 女,1984年生。碩士,館員。
G258.6
2016-05-11;責(zé)編:王天泥。)