楊海鋒
(1.武漢大學(xué)信息管理學(xué)院,430072;2.江西理工大學(xué)應(yīng)用科學(xué)學(xué)院,贛州 341000)
?
大數(shù)據(jù)環(huán)境下企業(yè)知識(shí)管理聚合研究
楊海鋒1,2
(1.武漢大學(xué)信息管理學(xué)院,430072;2.江西理工大學(xué)應(yīng)用科學(xué)學(xué)院,贛州 341000)
文章借鑒館藏資源聚合的研究成果,嘗試在大數(shù)據(jù)環(huán)境下對(duì)企業(yè)知識(shí)管理進(jìn)行聚合研究,提出元數(shù)據(jù)聚合、本體聚合、引證關(guān)系聚合三種聚合模式。同時(shí)對(duì)聚合結(jié)果可視化進(jìn)行了探討,并在此基礎(chǔ)上架構(gòu)了企業(yè)知識(shí)管理聚合系統(tǒng)模型,將聚合過程分為數(shù)據(jù)層、知識(shí)采集層、本體構(gòu)建層、資源聚合層和應(yīng)用可視化層等五層。研究表明,知識(shí)管理聚合研究能對(duì)企業(yè)的知識(shí)傳播和創(chuàng)新提供很好的指導(dǎo)作用,為企業(yè)知識(shí)管理系統(tǒng)的升級(jí)和改造提供借鑒意義。
大數(shù)據(jù);知識(shí)管理;資源聚合;元數(shù)據(jù);本體
在以用戶生成內(nèi)容(User Generated Content)為主要特征的Web2.0時(shí)代,網(wǎng)絡(luò)數(shù)據(jù)量以爆炸式的態(tài)勢(shì)增長(zhǎng),其數(shù)據(jù)量、多樣性以及實(shí)時(shí)性都是以往傳統(tǒng)數(shù)據(jù)無法比擬的。大數(shù)據(jù)時(shí)代已悄然來到了我們身邊,對(duì)社會(huì)各方面產(chǎn)生了巨大的影響,它改變著個(gè)人的行為方式,促使企業(yè)在信息獲取、知識(shí)傳播、協(xié)同創(chuàng)新等方面不斷思變。在知識(shí)經(jīng)濟(jì)時(shí)代,知識(shí)管理顯得異常重要,許多企業(yè)都在開展自己的知識(shí)管理工作,并且取得了一定的成績(jī)。但在大數(shù)據(jù)環(huán)境下,知識(shí)管理在知識(shí)的收集、加工、儲(chǔ)存、分享和創(chuàng)造價(jià)值的過程中也有其自身的一些特性,本文即以此作為研究背景。在賀德方(2012)、邱均平(2013)、張玉峰(2014)等學(xué)者的研究中,館藏資源的深度聚合研究能更好地組織、揭示和展現(xiàn)知識(shí),以利于用戶能有效地獲取知識(shí)和對(duì)知識(shí)的共建共享。那么,企業(yè)中所產(chǎn)生的各類數(shù)字資源是否也可從此角度來展開研究,以便更好地滿足企業(yè)對(duì)各類知識(shí)的需求呢?據(jù)此,筆者將以大數(shù)據(jù)環(huán)境為背景,在充分挖掘企業(yè)內(nèi)外信息資源的基礎(chǔ)上進(jìn)行知識(shí)管理聚合,以便能為傳統(tǒng)的企業(yè)知識(shí)管理系統(tǒng)的升級(jí)和改造提供借鑒意義。
大數(shù)據(jù)時(shí)代,企業(yè)應(yīng)該積極地?fù)肀Ш腿谌肫渲小J紫?,?yīng)該具備大數(shù)據(jù)思維。企業(yè)高層要具備大數(shù)據(jù)的思維,不能躺在數(shù)據(jù)“金礦”上睡大覺,要積極促進(jìn)數(shù)據(jù)的流動(dòng),挖掘數(shù)據(jù)中的價(jià)值。第二,重視企業(yè)的大數(shù)據(jù)分析技術(shù)。企業(yè)要對(duì)原有的系統(tǒng)進(jìn)行升級(jí)改進(jìn),引進(jìn)大數(shù)據(jù)分析模塊或工具。第三,促進(jìn)“群眾”的參與。Web2.0時(shí)代,應(yīng)充分調(diào)動(dòng)企業(yè)的員工參與到企業(yè)的決策制定、流程改造、知識(shí)分享過程中。第四,建立企業(yè)制度和相關(guān)軟環(huán)境等。這里主要指以企業(yè)文化為主要內(nèi)容的企業(yè)制度和相關(guān)軟環(huán)境的配套。
和傳統(tǒng)知識(shí)管理不同,大數(shù)據(jù)時(shí)代給知識(shí)管理提出了新的課題:(1)數(shù)據(jù)量大,結(jié)構(gòu)關(guān)系復(fù)雜,數(shù)據(jù)源多,語義內(nèi)容豐富,對(duì)傳統(tǒng)知識(shí)系統(tǒng)提出了挑戰(zhàn);(2)動(dòng)態(tài)的競(jìng)爭(zhēng)環(huán)境要求對(duì)數(shù)據(jù)進(jìn)行及時(shí)(實(shí)時(shí))分析;(3)對(duì)結(jié)果特別是隱性知識(shí)的發(fā)現(xiàn)和分析需要更多的工具和專業(yè)知識(shí)。為了讓員工能在適當(dāng)?shù)臅r(shí)間和地點(diǎn)及時(shí)找到所需的知識(shí),并且能更好地學(xué)習(xí)、創(chuàng)造和分享知識(shí),我們這里用到了“聚合”的概念。
數(shù)字資源整合一直是學(xué)者們研究的熱點(diǎn),這一概念由學(xué)者馬文峰2002年提出,他認(rèn)為數(shù)字資源整合是將以前孤立的數(shù)字資源系統(tǒng)有機(jī)地整合,形成效率較高的資源服務(wù)體系,具體可涉及到各異構(gòu)資源系統(tǒng)格式轉(zhuǎn)化、內(nèi)容結(jié)構(gòu)組織和顯示、用戶檢索界面和過程的改善等[1]。隨著信息環(huán)境的變化,數(shù)字資源聚合的概念逐漸被學(xué)者們使用。目前數(shù)字資源聚合研究主要可分為兩個(gè)方面:一方面是基于本體來揭示數(shù)字資源的語義并以生動(dòng)可理解的方式呈現(xiàn)給用戶,賀德方、李勁、張玉峰等學(xué)者的研究[2-5]是其典型代表;另一方面利用計(jì)量方法來挖掘數(shù)字資源之間的關(guān)聯(lián)或者引證關(guān)系,邱俊平等學(xué)者從共現(xiàn)關(guān)系、引文耦合、同被引等方面進(jìn)行了深入探討[6-9]。但對(duì)于數(shù)字資源中的整合和聚合概念的區(qū)分方面還研究得不是很多,有的學(xué)者認(rèn)為整合就是聚合[9,10],有的學(xué)者則提出整合是聚合的基礎(chǔ),兩者相互區(qū)別又交叉融合,聚合是揭示數(shù)字資源之間的深層語義關(guān)聯(lián),識(shí)別不同對(duì)象的主題內(nèi)容并進(jìn)行內(nèi)容的標(biāo)識(shí)和關(guān)聯(lián),最終形成一個(gè)多學(xué)科多屬性維度的立體知識(shí)網(wǎng)絡(luò)[2,4,5,11]。張?jiān)浦衃11]對(duì)數(shù)字資源整合和聚合在背景、目標(biāo)、理念、內(nèi)容和方法等方面進(jìn)行了區(qū)分探討,并提出數(shù)字資源從整合到聚合是數(shù)字資源的新變革。筆者認(rèn)為數(shù)字資源聚合相對(duì)于整合具有幾個(gè)特點(diǎn):(1)面向用戶服務(wù)的意識(shí)和功能增強(qiáng);(2)更加注重深層知識(shí)情報(bào)的挖掘和知識(shí)多樣化的呈現(xiàn)方式;(3)是對(duì)學(xué)科知識(shí)不斷緊密融合和大數(shù)據(jù)環(huán)境的積極應(yīng)對(duì)。
綜合上述討論,在大數(shù)據(jù)環(huán)境下,將數(shù)字資源聚合思想和方法應(yīng)用到企業(yè)知識(shí)管理過程中將能更加突出知識(shí)資源的戰(zhàn)略地位,提高企業(yè)知識(shí)共享共建的熱情,增強(qiáng)企業(yè)的核心競(jìng)爭(zhēng)力。接下來,本文在分析知識(shí)管理相關(guān)研究的基礎(chǔ)上提出了幾種知識(shí)管理聚合方式,并討論了其具體過程,然后架構(gòu)了5層知識(shí)管理聚合模型,最后對(duì)本文的研究進(jìn)行了總結(jié)。
不同學(xué)者從不同側(cè)重點(diǎn)提出了知識(shí)管理的定義,其內(nèi)涵就是用戶能方便快捷地獲得自己所需要的知識(shí),具體涉及到知識(shí)的收集、加工、存儲(chǔ)、分享和增值等過程。在專門提出知識(shí)管理之前,企業(yè)中已存在一些輔助企業(yè)進(jìn)行決策和管理的知識(shí)系統(tǒng),但各系統(tǒng)依據(jù)不同的目的建立,缺少知識(shí)管理統(tǒng)一的解決方案。企業(yè)將多源的知識(shí)集成后經(jīng)由相關(guān)渠道傳播,通過相關(guān)機(jī)制整合到企業(yè)的產(chǎn)品和服務(wù)中去,最終提高企業(yè)的知識(shí)創(chuàng)新能力。不管各知識(shí)管理系統(tǒng)在解決方案上有何異同,他們的過程模型都是從知識(shí)資源、知識(shí)生產(chǎn)以及知識(shí)應(yīng)用這三個(gè)層面展開,只是在提供的功能服務(wù)上有所側(cè)重[12]。
數(shù)據(jù)倉庫是處理數(shù)據(jù)進(jìn)行知識(shí)發(fā)現(xiàn)的有效手段,它將各數(shù)據(jù)庫中相關(guān)主題的數(shù)據(jù)抽取清洗后,裝載到數(shù)據(jù)倉庫中進(jìn)行隱性知識(shí)的挖掘。雖然也能對(duì)各數(shù)據(jù)庫中的資源進(jìn)行整合,但數(shù)據(jù)倉庫是面向主題、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,其產(chǎn)品開發(fā)周期長(zhǎng),投入大,見效慢,往往為高層決策提供服務(wù)。而在大數(shù)據(jù)環(huán)境下,知識(shí)管理是為了滿足各類人員的知識(shí)需求,其過程和內(nèi)涵要比數(shù)據(jù)倉庫復(fù)雜和深入得多。比如,語義檢索克服了傳統(tǒng)檢索中關(guān)鍵詞匹配的不足,能結(jié)合用戶的查詢意圖更精確地匹配用戶的知識(shí)需求,還能借助用戶近期內(nèi)的查詢特征和信息瀏覽軌跡對(duì)知識(shí)進(jìn)行主動(dòng)推送。因此,為了應(yīng)對(duì)動(dòng)態(tài)的發(fā)展環(huán)境,有必要對(duì)傳統(tǒng)的知識(shí)管理系統(tǒng)重新認(rèn)識(shí)和思考。
描述數(shù)據(jù)資源的元數(shù)據(jù)的種類多樣,但對(duì)不同系統(tǒng)間語義異構(gòu)問題,元數(shù)據(jù)還不能得到很好的解決。因此,必須在不同元數(shù)據(jù)上建立某種機(jī)制,來實(shí)現(xiàn)不同系統(tǒng)之間的互操作,這就常用到知識(shí)本體。知識(shí)本體的本質(zhì)是促進(jìn)知識(shí)共享和重用,能表述不同系統(tǒng)間的語義關(guān)系,并具有強(qiáng)大的邏輯推理能力。
在大數(shù)據(jù)環(huán)境下,爆炸式增長(zhǎng)的數(shù)字資源淹沒了所需要的知識(shí)和專家團(tuán)隊(duì),如何將知識(shí)特別是隱性知識(shí)以及所涉及專家團(tuán)隊(duì)挖掘出來顯得比以前更加困難。隱性知識(shí)大多存在于相關(guān)專家的頭腦中,在以前“師傅帶徒弟”的傳統(tǒng)模式中,難免會(huì)有留一手的想法,為了發(fā)現(xiàn)專家并將其頭腦中的知識(shí)主動(dòng)地分享出來,應(yīng)采取主動(dòng)的策略和適當(dāng)?shù)呐嘤h(huán)境。同時(shí),大數(shù)據(jù)環(huán)境下多學(xué)科的交叉融合日益緊密,可視化的知識(shí)呈現(xiàn)能為用戶在獲取、理解和利用知識(shí)的過程中提供更加豐富全面的信息。
4.1 基于元數(shù)據(jù)的聚合研究
元數(shù)據(jù)是對(duì)信息資源的結(jié)構(gòu)性描述,用簡(jiǎn)練的邏輯結(jié)構(gòu)來描述盡可能詳細(xì)的資源信息,是信息資源的一種外在表現(xiàn)形式。大數(shù)據(jù)環(huán)境下相對(duì)于以往數(shù)據(jù)倉庫靜態(tài)的數(shù)據(jù),企業(yè)產(chǎn)生依附于不同載體的大量和動(dòng)態(tài)的數(shù)據(jù),元數(shù)據(jù)方案在此方面的應(yīng)用已較為成熟。由于在不同領(lǐng)域應(yīng)用的元數(shù)據(jù)不盡相同,比如Dublin Core(適合網(wǎng)絡(luò)資源)、EAD(適用于檔案和手稿資源,包括文本和電子文檔、可視材料和聲音記錄)、TEI(對(duì)電子形式全文的編碼和描述)[13],所以數(shù)字資源的元數(shù)據(jù)描述有多種格式,這將導(dǎo)致元數(shù)據(jù)之間無法緊密關(guān)聯(lián)和擴(kuò)展。同時(shí),元數(shù)據(jù)是知識(shí)信息資源的外在表現(xiàn),用戶的檢索仍然是傳統(tǒng)關(guān)鍵詞匹配的硬檢索,不能真正從基于語義的軟檢索來更好地滿足用戶的需求。元數(shù)據(jù)主要側(cè)重于資源體系分類和資源自身描述等外部特征,難以對(duì)不同系統(tǒng)架構(gòu)和不同“粒度”的資源進(jìn)行較滿意的描述,為解決在元數(shù)據(jù)上實(shí)現(xiàn)不同資源對(duì)象的相互通信和互操作,這里用到了知識(shí)本體。知識(shí)本體在不同元數(shù)據(jù)上創(chuàng)建了相互映射機(jī)制,實(shí)現(xiàn)了異構(gòu)系統(tǒng)之間的互通,為信息系統(tǒng)之間高層次互操作提供了很好的條件。
4.2 基于本體的聚合研究
Studer等[14]認(rèn)為本體是共享概念模型的明確的形式化規(guī)范說明。 企業(yè)要根據(jù)自己所涉及的產(chǎn)品和服務(wù)來構(gòu)建自己的領(lǐng)域本體,在領(lǐng)域?qū)<覅⑴c下,構(gòu)造出適合企業(yè)自身特點(diǎn)的領(lǐng)域本體。大數(shù)據(jù)環(huán)境下,隨著信息資源不斷大量地涌現(xiàn),相關(guān)人員將已經(jīng)建立的領(lǐng)域本體作為基礎(chǔ),利用本體已經(jīng)形成的概念及概念之間的關(guān)系、函數(shù)、推理機(jī)制和實(shí)例等,通過概念相似度的計(jì)算來對(duì)信息資源進(jìn)行標(biāo)注,為實(shí)現(xiàn)語義層面的服務(wù)提供基礎(chǔ)。同時(shí),本體庫要及時(shí)進(jìn)行內(nèi)容的更新和實(shí)例的添加,通過各種映射機(jī)制實(shí)現(xiàn)不同領(lǐng)域本體之間的互聯(lián)互通互操作,構(gòu)造復(fù)雜的語義網(wǎng)絡(luò)關(guān)聯(lián)結(jié)構(gòu)。本體構(gòu)建的目的是實(shí)現(xiàn)知識(shí)的共享和重用。因此在構(gòu)建企業(yè)領(lǐng)域本體的時(shí)候,要積極汲取前人研究的豐碩成果為我所用。比如世界上最大的多領(lǐng)域知識(shí)本體之一的DBpedia,從維基百科和其他資源抽取而來的YAGO,多語言的詞匯語義網(wǎng)和本體BabelNet等。
雖然在本體構(gòu)建過程中提出了本體構(gòu)造元素,但并不需要嚴(yán)格遵守。因此,本體的構(gòu)造目前沒有一個(gè)標(biāo)準(zhǔn)的方法,對(duì)于不同的問題域和具體實(shí)踐環(huán)境,各專家構(gòu)造本體的過程不盡相同,要實(shí)現(xiàn)不同領(lǐng)域小本體之間的互通互聯(lián)互操作,不僅要屏蔽其底層物理架構(gòu),更重要的是要實(shí)現(xiàn)不同領(lǐng)域之間知識(shí)的關(guān)聯(lián)。比如不同領(lǐng)域?qū)ν辉~不同的釋義。Gruber提出了本體應(yīng)用于知識(shí)管理的5個(gè)原則:明確性(Clarity)、一致性(Coherence)、可擴(kuò)展性(Extendibility)、最小編碼偏差(Minimal encoding bias)、最小本體承諾(Minimal ontology commitment)[15]。
目前,許多企業(yè)信息系統(tǒng)對(duì)數(shù)據(jù)的組織和操作都基于以前的元數(shù)據(jù)方案,如果對(duì)企業(yè)的知識(shí)系統(tǒng)重新架構(gòu)和對(duì)大量的歷史數(shù)據(jù)進(jìn)行重新組織,這將為企業(yè)帶來沉重的經(jīng)濟(jì)負(fù)擔(dān)。那么,如何將知識(shí)本體嵌入到以前的元數(shù)據(jù)系統(tǒng)中,實(shí)現(xiàn)不同數(shù)據(jù)資源描述方案的協(xié)同工作,這越來越受到人們的關(guān)注。文獻(xiàn)[16]將元數(shù)據(jù)的部分元素和知識(shí)本體的相關(guān)概念進(jìn)行了聯(lián)系,創(chuàng)建了政務(wù)信息資源語義檢索系統(tǒng);文獻(xiàn)[17]將元數(shù)據(jù)建模技術(shù)與本體相結(jié)合建立基于元數(shù)據(jù)的產(chǎn)品數(shù)據(jù)本體,并在某汽輪機(jī)產(chǎn)品模型上進(jìn)行了應(yīng)用。文獻(xiàn)[18]運(yùn)用元數(shù)據(jù)和本體相結(jié)合的思想來解決異構(gòu)數(shù)據(jù)庫的集成問題,通過分層思想來管理元數(shù)據(jù)達(dá)到屏蔽底層數(shù)據(jù)庫異構(gòu)的問題,通過本體處理不同領(lǐng)域中語義異構(gòu)的問題。
4.3 基于引證關(guān)系的聚合研究
目前,引證關(guān)系聚合研究主要應(yīng)用在館藏資源或者學(xué)術(shù)資源的知識(shí)管理中,在企業(yè)知識(shí)管理中還不多見。和館藏資源相比,企業(yè)知識(shí)管理中的資源具有如下特點(diǎn):資源類型多,結(jié)構(gòu)復(fù)雜,多以數(shù)字化和web形式呈現(xiàn)。因此,引證關(guān)系聚合在企業(yè)知識(shí)管理中的運(yùn)用環(huán)節(jié)較多且復(fù)雜。同時(shí),引證關(guān)系的聚合是筆者借鑒而來,其研究范圍可能不僅僅是引證本身。
在引證關(guān)系的聚合研究中,可以從以下方面著手考慮:(1)專家團(tuán)隊(duì)的發(fā)現(xiàn)。除了通常的工作硬性約束外,用戶自發(fā)的瀏覽行為以及企業(yè)虛擬社群的討論等多由其興趣愛好決定,對(duì)涉及到的相關(guān)資源,分析其來源、作者、主題以及關(guān)鍵詞等指標(biāo),借鑒信息計(jì)量學(xué)相關(guān)知識(shí),通過聚類分類方法能將企業(yè)中的多數(shù)隱形專家粗略地挖掘出來,為讓潛在的專家充分貢獻(xiàn)其知識(shí)和組建專家團(tuán)隊(duì)奠定了基礎(chǔ)。(2)領(lǐng)域情報(bào)及軌跡發(fā)現(xiàn)。通過信息資源中相關(guān)主題的統(tǒng)計(jì)和計(jì)算,能使企業(yè)了解自己所處領(lǐng)域的國(guó)內(nèi)外發(fā)展現(xiàn)狀以及競(jìng)爭(zhēng)對(duì)手目前的一些新的發(fā)展動(dòng)向,這是企業(yè)制定戰(zhàn)略和采取市場(chǎng)策略的重要參考依據(jù)。在大數(shù)據(jù)環(huán)境下,企業(yè)絕對(duì)的商業(yè)機(jī)密是不存在的,主要的競(jìng)爭(zhēng)對(duì)手不僅受到各大同行的嚴(yán)密監(jiān)視,而且專業(yè)的數(shù)據(jù)分析公司會(huì)更加敏銳地觀察企業(yè)的一舉一動(dòng),通過關(guān)聯(lián)時(shí)間和數(shù)據(jù)的分析獲得更加有參考價(jià)值的信息。(3)信息資源的整合和知識(shí)的發(fā)現(xiàn)?;谝C關(guān)系的聚合研究目的是對(duì)現(xiàn)有信息資源的整合,以存在的現(xiàn)有信息資源為研究對(duì)象,利用信息計(jì)量學(xué)和社會(huì)網(wǎng)絡(luò)分析等理論技術(shù),通過對(duì)對(duì)象的某些外部特征之間的關(guān)聯(lián)來構(gòu)造一張巨大的信息資源網(wǎng)絡(luò),將更有價(jià)值的資源及時(shí)迅速地推送給特定用戶。
4.4 結(jié)果可視化
在大數(shù)據(jù)時(shí)代,知識(shí)管理過程中可視化技術(shù)的使用將能為知識(shí)的理解、知識(shí)的增值創(chuàng)新提供更好的工具。結(jié)果可視化是利用可視化相關(guān)技術(shù)將用戶查詢結(jié)果以不同視角呈現(xiàn)給用戶,其中可包括文本、圖表、模型和數(shù)字等形式。檢索結(jié)果的可視化將能揭示出隱性知識(shí)及其關(guān)聯(lián)關(guān)系,促進(jìn)語義內(nèi)容的更好呈現(xiàn),使不同學(xué)科背景的用戶能進(jìn)行具體內(nèi)容的理解和有效的學(xué)習(xí)交流。目前結(jié)果可視化呈現(xiàn)方式主要有知識(shí)地圖、主題圖、概念圖、思維導(dǎo)圖等[4]。在企業(yè)的知識(shí)管理聚合中,聚合結(jié)果可視化應(yīng)滿足以下幾個(gè)條件:(1)結(jié)果中知識(shí)的關(guān)聯(lián);(2)滿足不同用戶知識(shí)需求;(3)注重隱性知識(shí)的發(fā)現(xiàn)和語義的呈現(xiàn);(4)結(jié)果可視化與用戶的深度交互。
圖1給出了大數(shù)據(jù)環(huán)境下企業(yè)知識(shí)管理聚合的系統(tǒng)架構(gòu),該模型自下而上分為數(shù)據(jù)層、知識(shí)采集層、本體構(gòu)建層、資源聚合層和應(yīng)用可視化層5層結(jié)構(gòu)[4,19,20]。
數(shù)據(jù)層:該層是數(shù)據(jù)資源層,數(shù)據(jù)來源主要包括各數(shù)據(jù)庫、數(shù)據(jù)倉庫、正式和虛擬社群、現(xiàn)存的知識(shí)信息、專家頭腦中知識(shí)、現(xiàn)成(如DBpedia、YAGO等)的或已構(gòu)造的領(lǐng)域本體、文檔資料以及與領(lǐng)域相關(guān)的爬蟲數(shù)據(jù)等。形式上包含文本、圖片、視頻資源;結(jié)構(gòu)上包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);網(wǎng)頁類型包括動(dòng)態(tài)網(wǎng)頁和靜態(tài)網(wǎng)頁,其中也不乏已標(biāo)注過的網(wǎng)頁;內(nèi)容上和企業(yè)性質(zhì)相關(guān),其中包含多領(lǐng)域數(shù)據(jù);功能上大多為以前與知識(shí)管理相關(guān)的系統(tǒng),比如客戶管理系統(tǒng),供應(yīng)鏈管理系統(tǒng),郵件系統(tǒng)等。該層數(shù)據(jù)能被計(jì)算機(jī)記錄和處理,但不能被理解。
知識(shí)采集層:知識(shí)的獲取是知識(shí)管理系統(tǒng)關(guān)鍵的一步,但也一直被視為知識(shí)系統(tǒng)運(yùn)行的“瓶頸”所在。從知識(shí)獲取的策略看,可分為人工知識(shí)獲取、半自動(dòng)知識(shí)獲取和全自動(dòng)知識(shí)獲取。人工知識(shí)獲取是領(lǐng)域?qū)<抑鲗?dǎo)下的知識(shí)獲取方式,該方式對(duì)知識(shí)內(nèi)容理解準(zhǔn)確性高,但要求領(lǐng)域?qū)<医?jīng)驗(yàn)豐富且費(fèi)時(shí)費(fèi)力;半自動(dòng)知識(shí)獲取方式是鼓勵(lì)普通員工參與的一種知識(shí)獲取機(jī)制,其思想是鼓勵(lì)全員參與知識(shí)創(chuàng)新,但該方式需要精心設(shè)計(jì)的人機(jī)交互界面和輔助的技術(shù)手段;全自動(dòng)知識(shí)獲取是通過機(jī)器學(xué)習(xí)、自動(dòng)抽取等技術(shù)獲取知識(shí)的過程,其所采集的知識(shí)通常隱藏在大量的數(shù)據(jù)背后,不易被發(fā)現(xiàn),需要借助一定的知識(shí)發(fā)現(xiàn)工具,獲取的具體知識(shí)需要經(jīng)過抽象、歸納、泛化成抽象的知識(shí),一般可分為概念知識(shí)、概念關(guān)系、公理、推理規(guī)則[20]。通過上述過程,采集到的知識(shí)最終被存放在知識(shí)庫中。
圖1 企業(yè)知識(shí)管理聚合系統(tǒng)模型
本體構(gòu)建層:知識(shí)本體庫的構(gòu)建過程主要為各(小)領(lǐng)域本體的構(gòu)建、領(lǐng)域本體映射機(jī)制的建立和(大)知識(shí)本體庫的生成。為了解決不同本體的異構(gòu)問題,人們提出了本體映射的概念,目的是促成不同本體的語義關(guān)聯(lián),通過通用的接口實(shí)現(xiàn)知識(shí)在不同本體間的訪問,并將檢索的結(jié)果集成后以特定的方式呈現(xiàn)。目前的本體映射方法主要有基于信息流的方法、基于相似度的方法、基于統(tǒng)計(jì)學(xué)的方法、基于機(jī)器學(xué)習(xí)的方法以及上述方法的綜合使用[21]。對(duì)于描述資源的不同元數(shù)據(jù)方案,可通過元數(shù)據(jù)復(fù)制、元數(shù)據(jù)轉(zhuǎn)換和元數(shù)據(jù)開放搜尋等方法實(shí)現(xiàn)互操作[22]。在此基礎(chǔ)上,尋找某種機(jī)制(前面3.2中已提到),實(shí)現(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)和知識(shí)本體的關(guān)聯(lián),提高其語義表達(dá)和檢索功能。
資源聚合層:該層通過已經(jīng)構(gòu)建的本體庫對(duì)知識(shí)資源進(jìn)行語義分析和語義標(biāo)注,同時(shí)也對(duì)聚焦Spider(抓取特定領(lǐng)域的網(wǎng)絡(luò)數(shù)據(jù))采集的網(wǎng)絡(luò)資源進(jìn)行標(biāo)注。知識(shí)資源進(jìn)行語義標(biāo)注通常分為發(fā)布文檔用戶自己標(biāo)注和專業(yè)機(jī)構(gòu)進(jìn)行標(biāo)注兩種方式,但由于標(biāo)注的隨意性和對(duì)語義理解的不同,常常導(dǎo)致標(biāo)注質(zhì)量不高。在知識(shí)資源的語義標(biāo)注過程中,Uren等[22]提出了7點(diǎn)要求:(1)標(biāo)注的規(guī)范化;(2)標(biāo)注系統(tǒng)設(shè)計(jì)利于調(diào)動(dòng)不同領(lǐng)域?qū)<覅⑴c;(3)對(duì)不同本體的支撐;(4)異構(gòu)文檔的支持;(5)文檔和標(biāo)注的一致性;(6)標(biāo)注的存儲(chǔ);(7)標(biāo)注的自動(dòng)化。目前,用于人工標(biāo)注的工具有Amaya、Annozilla、Mangrove等,用于自動(dòng)化標(biāo)注的工具有Lixto、MnM、Melita等[23]。
應(yīng)用可視化層:該層是用戶與系統(tǒng)的交互接口,根據(jù)用戶的請(qǐng)求,系統(tǒng)經(jīng)過語義解析,發(fā)送請(qǐng)求至各相關(guān)領(lǐng)域本體,最終將集成的結(jié)果以多種可視化的方式呈現(xiàn)給用戶,用戶在知識(shí)的使用過程中促發(fā)知識(shí)的創(chuàng)新,并將新知識(shí)反饋來更新知識(shí)庫??梢暬ぞ弑容^豐富,可以是本體構(gòu)建工具Protégé提供的插件OntoViz,也可以是通用的可視化插件Piccolo、Swoop,以及和該層API連接的UCINET等(引證聚合部分已提到)可視化軟件[4]。
知識(shí)管理的目標(biāo)是實(shí)現(xiàn)知識(shí)的共享和流動(dòng),促進(jìn)知識(shí)增值,提高組織的核心競(jìng)爭(zhēng)力。在大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)量大、數(shù)據(jù)類型多樣、價(jià)值附著度低等特點(diǎn),企業(yè)知識(shí)管理聚合研究顯得尤為重要,它將為企業(yè)知識(shí)生態(tài)的形成提供有利條件,促進(jìn)數(shù)據(jù)流到知識(shí)流的轉(zhuǎn)變和增值。本文中元數(shù)據(jù)聚合是基礎(chǔ)(傳統(tǒng)聚合模式),本體聚合研究是深入(深度聚合),而引證關(guān)系的聚合是深度聚合的延伸。對(duì)于其他學(xué)者提到的深度聚合模式,比如關(guān)聯(lián)聚合、主題聚合等[24],本文沒有專門單獨(dú)列出,期待后期繼續(xù)細(xì)化和研究。
知識(shí)管理系統(tǒng)的良好運(yùn)行還需要領(lǐng)導(dǎo)層、知識(shí)管理專家、普通員工的廣泛參與,領(lǐng)導(dǎo)要重視,普通員工要聚“才”,知識(shí)管理專家要營(yíng)造知識(shí)分享和傳播的氛圍,改進(jìn)知識(shí)管理系統(tǒng)的架構(gòu)和內(nèi)容組織,為知識(shí)分享提供便利的條件。
[1] 馬文峰.數(shù)字資源整合研究[J].中國(guó)圖書館學(xué)報(bào),2002(4):64-67.
[2] 賀德方,曾建勛.基于語義的館藏資源深度聚合研究[J].中國(guó)圖書館學(xué)報(bào),2012(4):79-87.
[3] 李勁,程秀峰,宋紅文等.基于語義的館藏資源深度聚合模型探析[J].湖北民族學(xué)院學(xué)報(bào),2013,31(2):212-215.
[4] 張玉峰,曾奕棠.語義環(huán)境下館藏資源深度聚合結(jié)果可視化框架研究[J].圖書情報(bào)知識(shí),2014(5):65-71.
[5] 張玉峰,何超.館藏資源聚合結(jié)果的層次可視化方法研究[J].情報(bào)理論與實(shí)踐,2013,36(8):41-44.
[6] 邱均平,劉國(guó)徽.基于共現(xiàn)關(guān)系的學(xué)科知識(shí)深度聚合研究[J].圖書館雜志,2014,33(6):14-23.
[7] 邱均平,周毅.基于作者共被引的館藏資源深度聚合模式與服務(wù)探析[J].圖書情報(bào)工作,2014,58(7):19-24.
[8] 杜暉.基于耦合關(guān)系的學(xué)術(shù)信息資源深度聚合研究[D].武漢:武漢大學(xué),2013.
[9] 李星星.館藏資源深度聚合及應(yīng)用研究[D].武漢:華中師范大學(xué),2013.
[10] 梁慧.基于語義的館藏資源深度聚合與可視化展示的保障機(jī)制研究[D].武漢:華中師范大學(xué),2013.
[11] 張?jiān)浦?從整合到聚合:國(guó)內(nèi)數(shù)字資源再組織模式的變革[J].數(shù)字圖書館論壇,2014(6):16-20.
[12] 夏敬華,金昕.知識(shí)管理[M].北京:機(jī)械工業(yè)出版社,2003:157.
[13] 劉煒.數(shù)據(jù)圖書館的語義描述和服務(wù)升級(jí)[M].北京:國(guó)家圖書館出版社,2010:7.
[14] Studer R, Benjamins V R, Fensel D.Knowledge engineering: principles and methods[J].Data & knowledge engineering, 1998, 25(1): 161-197.
[15] Gruber T R.Toward principles for the design of ontologies used for knowledge sharing?[J].International journal of human-computer studies, 1995, 43(5): 907-928.
[16] 花開明,陳家訓(xùn),楊洪山.基于本體與元數(shù)據(jù)的語義檢索[J].計(jì)算機(jī)工程,2007,33(24):220-221,224.
[17] 顧巧祥,祁國(guó)寧,紀(jì)楊建,等.基于元數(shù)據(jù)的產(chǎn)品數(shù)據(jù)本體建模技術(shù)[J].浙江大學(xué)學(xué)報(bào),2007,41(5):736-741.
[18] 賈琦,郭紹忠,丁志芳.基于本體的元數(shù)據(jù)管理系統(tǒng)的研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(1):116-119.
[19] 董金祥.基于語義面向服務(wù)的知識(shí)管理與處理[M].杭州:浙江大學(xué)出版社,2009:357.
[20] 王昊,谷俊,蘇新寧.本體驅(qū)動(dòng)的知識(shí)管理系統(tǒng)模型及其應(yīng)用研究[J].中國(guó)圖書館學(xué)報(bào),2013,39(204):98-110.
[21] 趙中英,梁永全,紀(jì)淑娟.本體工程中的本體映射機(jī)制[J].情報(bào)雜志,2008(8):23-27.
[22] 韓夏,李秉嚴(yán).元數(shù)據(jù)的互操作研究[J].情報(bào)科學(xué),2004,22(7):812-815.
[23] Uren V, Cimiano P, Iria J, et al.Semantic annotation for knowledge management: Requirements and a survey of the state of the art[J].Web Semantics: science, services and agents on the World Wide Web,2006,4(1):14-28.
[24] 趙蓉英,王嵩,董克.國(guó)內(nèi)館藏資源聚合模式研究綜述[J].圖書情報(bào)工作,2014,58(18):138-143.
(責(zé)任編輯:孟凡勝)
Research on Aggregation of Knowledge Management in Enterprises Under the Big Data Environment
YANG Hai-feng1,2
(1.Wuhan University, Wuhan 430072, China; 2.Jiangxi University of Science and Technology, Ganzhou 341000, China )
Based on the research of the aggregation in Library resources, this paper attempts to make research on aggregation of knowledge management in enterprises under the big data environment.Three aggregation models, meta-data aggregation, ontology aggregation and citation relationship aggregation, are put forward in this paper.And the visualization results are discussed.On the basis, the aggregation system model of knowledge management is constructed, which divides the aggregation process into data layer, knowledge collection layer, ontology construction layer, resources aggregation layer and application visualization layer.This research can provide a better guide to knowledge dissemination and innovation and the reference for the upgrading and transformation of knowledge management system in enterprise.
big data; knowledge management; resource aggregation; meta-data; ontology
F270.7
A
1006-1525(2016)05-0095-06
楊海鋒,男,講師,博士研究生。
2016-04-11