李燮慧(柳州職業(yè)技術(shù)學(xué)院圖書館)
基于本體論的大數(shù)據(jù)數(shù)字圖書館知識(shí)體系構(gòu)建研究
李燮慧
(柳州職業(yè)技術(shù)學(xué)院圖書館)
基于大數(shù)據(jù)背景的數(shù)字圖書館知識(shí)體系的構(gòu)建已經(jīng)成為數(shù)字圖書館知識(shí)組織的重要內(nèi)容。從數(shù)字時(shí)代的網(wǎng)狀知識(shí)結(jié)構(gòu)體系入手,具體分析知識(shí)組織體系的演進(jìn)路徑及未來(lái)發(fā)展趨勢(shì),實(shí)現(xiàn)知識(shí)組織體系的解構(gòu)與重構(gòu);以此為基礎(chǔ)進(jìn)行基于本體論的數(shù)字圖書館用戶知識(shí)關(guān)聯(lián)規(guī)則挖掘,最終為大數(shù)據(jù)數(shù)字圖書館知識(shí)體系的構(gòu)建提供系統(tǒng)歸納、對(duì)比、總結(jié),以及深化數(shù)字圖書館知識(shí)組織、知識(shí)發(fā)現(xiàn)、知識(shí)構(gòu)建的基本理論,并系統(tǒng)闡述了其實(shí)現(xiàn)方法與關(guān)鍵技術(shù)路線。
本體論;大數(shù)據(jù);數(shù)字圖書館;知識(shí)體系
從知識(shí)角度而言,人類發(fā)展的本質(zhì)就是知識(shí)組織探索和追求的過(guò)程。無(wú)論是古代還是現(xiàn)代,人類對(duì)于知識(shí)組織的認(rèn)識(shí)伴隨著理論與技術(shù)的發(fā)展,不斷經(jīng)歷著變革和演進(jìn)。法國(guó)《大百科全書》因?yàn)榘凑兆帜概判蛞欢缺簧駲?quán)認(rèn)為是褻瀆神靈的異物。但知識(shí)組織演進(jìn)的歷程并不會(huì)因?yàn)槟撤N阻擋而停止腳步,相反很多知識(shí)體系開始采取法國(guó)《大百科全書》的知識(shí)排序方式。眾所周知,傳統(tǒng)知識(shí)組織及其結(jié)構(gòu)體系是偉大的科學(xué)家、數(shù)學(xué)家、生物學(xué)家等依據(jù)知識(shí)組織的特性描述把握知識(shí)體系結(jié)構(gòu)的歷程。比較有代表性的知識(shí)組織結(jié)構(gòu)體系有線性結(jié)構(gòu)、樹形結(jié)構(gòu)、盒狀結(jié)構(gòu)以及鏈狀結(jié)構(gòu)。但到了21世紀(jì)互聯(lián)網(wǎng)出現(xiàn)后,對(duì)于知識(shí)的組織及其體系結(jié)構(gòu)產(chǎn)生了顛覆性的變革。無(wú)論哪種傳統(tǒng)分類方法,由于知識(shí)在計(jì)算機(jī)網(wǎng)絡(luò)時(shí)代不再受到物理載體的制約,因此,傳統(tǒng)分類方法已無(wú)法適應(yīng)新的信息組織的組織體系。因此,從技術(shù)進(jìn)步的角度深入研究當(dāng)今大數(shù)據(jù)背景下數(shù)字圖書館知識(shí)體系的構(gòu)建,對(duì)于未來(lái)知識(shí)的傳播、保存和發(fā)展具有積極的建設(shè)意義。[1]
(1)線性結(jié)構(gòu)知識(shí)組織及其體系結(jié)構(gòu),最早起源于古希臘和古羅馬時(shí)期,在18世紀(jì)有啟蒙作家狄德羅和數(shù)學(xué)家達(dá)朗貝在法國(guó)按照字母排序的方式,以《百科全書》的形式開始讓公眾了解知識(shí)組織的分類。我國(guó)的《百家姓》中按照筆畫排序也是這種知識(shí)組織體系結(jié)構(gòu)的體現(xiàn)。線性知識(shí)組織體系對(duì)當(dāng)前語(yǔ)義環(huán)境下的網(wǎng)絡(luò)知識(shí)體系很難融合。大數(shù)據(jù)環(huán)境下,Web語(yǔ)義檢索沒有特定的領(lǐng)域或詞庫(kù),數(shù)字圖書館當(dāng)中基于自動(dòng)術(shù)語(yǔ)抽取的權(quán)重共識(shí)獲得檢索的結(jié)果,并構(gòu)建自動(dòng)的分配描述符。因此,Web語(yǔ)義環(huán)境下的檢索是在文檔列表中動(dòng)態(tài)決定用戶檢索內(nèi)容的適當(dāng)屬性。由此可見,這種檢索結(jié)果不但呈現(xiàn)多樣性;而且是線性結(jié)構(gòu)知識(shí)組織所不能實(shí)現(xiàn)的過(guò)程和結(jié)果。
(2)樹形結(jié)構(gòu)的知識(shí)組織及體系。是由瑞典植物學(xué)家卡羅魯斯·林奈(Carolus Linnaeus)在《自然系統(tǒng)》著作中提出的植物分類方法。該書以樹形結(jié)構(gòu)將植物進(jìn)行系統(tǒng)性的分類,并在隨后的發(fā)展中將這種分類方式延伸到動(dòng)物學(xué)領(lǐng)域。這一方法使得知識(shí)體系在系統(tǒng)性方面實(shí)現(xiàn)了知識(shí)的自然樹形劃分特征。樹形結(jié)構(gòu)知識(shí)組織及體系面對(duì)大數(shù)據(jù)背景的混亂信息知識(shí)環(huán)境無(wú)所適從。當(dāng)用戶在數(shù)字圖書館檢索一個(gè)專業(yè)術(shù)語(yǔ),以期得到相關(guān)研究資料的時(shí)候,現(xiàn)代的數(shù)字圖書館利用本體理論組織這些關(guān)鍵詞屬性的重要性或興趣度,通過(guò)重要程度的半序合集的屬性層級(jí)構(gòu)建,生成一種導(dǎo)航信息,該信息由領(lǐng)域知識(shí)駕馭。而樹形結(jié)構(gòu)的知識(shí)組織及體系則根本不能適應(yīng)這種新的知識(shí)體系構(gòu)建的模式。而大數(shù)據(jù)背景下基于本體論的知識(shí)體系構(gòu)建,能將知識(shí)衍生、知識(shí)交叉、知識(shí)關(guān)聯(lián)等很好地表現(xiàn)出來(lái)。
(3)盒狀結(jié)構(gòu)的知識(shí)組織及體系。即“杜威十進(jìn)制分類法”,該方法簡(jiǎn)單說(shuō)是將人類所有知識(shí)分為十個(gè)大的類別,然后在每個(gè)類別之下將細(xì)分的知識(shí)體系再劃分為十個(gè)類別并以此類推。簡(jiǎn)單看就像是將知識(shí)裝進(jìn)十個(gè)盒子,然后每個(gè)盒子中又有十個(gè)較小盒子。如此人類知識(shí)得以被系統(tǒng)的歸類為預(yù)留有足夠分類空間的體系當(dāng)中。但是該種分類方法在摒除了知識(shí)的自然分類屬性的基礎(chǔ)上使得知識(shí)分類帶有人為的主觀性認(rèn)識(shí)。面對(duì)大數(shù)據(jù)背景下數(shù)字圖書館的知識(shí)組織沿著“文獻(xiàn)到信息到知識(shí)”的路徑發(fā)展,從本體論意義來(lái)看,其構(gòu)建的是立體的知識(shí)系統(tǒng),知識(shí)節(jié)點(diǎn)間會(huì)有很多融合和交叉,盒狀知識(shí)組織及體系顯然不能適應(yīng)這種新的知識(shí)分類模式。
(4)鏈?zhǔn)浇Y(jié)構(gòu)的知識(shí)組織和體系,是印度圖書館學(xué)家阮岡納贊(Ranganathan)在其著作《冒號(hào)分類法》中闡述的,該方法以冒號(hào)作為分段符號(hào),通過(guò)本體、物質(zhì)、動(dòng)力、空間、時(shí)間進(jìn)行書籍分類。不預(yù)先設(shè)定知識(shí)位置,使得沒有“樹根”分類模式在計(jì)算機(jī)系統(tǒng)中得以應(yīng)用。這種方法在當(dāng)今大數(shù)據(jù)信息環(huán)境下對(duì)語(yǔ)義描述和知識(shí)關(guān)聯(lián)性方面顯得非常薄弱,更加不能適應(yīng)數(shù)字圖書館概念化模式的構(gòu)建。
基于以上發(fā)現(xiàn),無(wú)論哪種傳統(tǒng)分類方法,由于知識(shí)在計(jì)算機(jī)網(wǎng)絡(luò)時(shí)代不再受到物理載體的制約,因此傳統(tǒng)分類方法不能適應(yīng)新的信息知識(shí)的組織體系。也進(jìn)而體現(xiàn)出大數(shù)據(jù)背景下數(shù)字圖書館知識(shí)體系的構(gòu)建,必須以概念本質(zhì)的特征呈現(xiàn)出來(lái),然后以此為基礎(chǔ)形成各種基于本體論的數(shù)字圖書館知識(shí)體系構(gòu)建模式和方法。[2]
2.1網(wǎng)絡(luò)時(shí)代知識(shí)組織的方式
如前文所述,任何知識(shí)體系當(dāng)中,人們只能對(duì)那些具有本質(zhì)性、鮮明特征、最重要和最易用的知識(shí)進(jìn)行挑選式的排序和分類等工作。但數(shù)字時(shí)代傳統(tǒng)的分類方式已經(jīng)顯露出它的不適應(yīng)性。如,動(dòng)畫片《埃及王子》,故事出自于《圣經(jīng)(舊約)》。按照傳統(tǒng)知識(shí)組織體系的分類,這部動(dòng)畫片是應(yīng)該歸類在基督教的大盒子中,還是“卡通片”的小盒子當(dāng)中呢?可是從知名配音演員的角度而言,這部作品是否又應(yīng)該被歸納到某一明星的作品集當(dāng)中呢?按照傳統(tǒng)知識(shí)歸類方式,這一作品的很多特征信息將會(huì)被湮滅在權(quán)威、固定而且強(qiáng)大的傳統(tǒng)知識(shí)組織體系當(dāng)中,該作品的很多知識(shí)自然屬性不能被表現(xiàn)出來(lái)。此時(shí),不再受到傳統(tǒng)物理特性制約的數(shù)字時(shí)代知識(shí)組織歸類方式被應(yīng)用到信息時(shí)代的知識(shí)歸類過(guò)程中。由此,我們發(fā)現(xiàn),數(shù)字時(shí)代的知識(shí)歸類是一種多向度的、多元化的,不斷生長(zhǎng)的,發(fā)展變化的,能夠?qū)⒅R(shí)內(nèi)在聯(lián)系和隱含關(guān)聯(lián)關(guān)系表現(xiàn)出來(lái)的錯(cuò)綜復(fù)雜的立體信息知識(shí)歸類結(jié)構(gòu)。傳統(tǒng)知識(shí)分類的教條和呆板的組織格局在網(wǎng)狀結(jié)構(gòu)信息知識(shí)組織結(jié)構(gòu)時(shí)代被徹底打破。這也是未來(lái)知識(shí)組織結(jié)構(gòu)類型的發(fā)展趨勢(shì)和方法。
2.2網(wǎng)絡(luò)時(shí)代知識(shí)組織分類與構(gòu)成
大數(shù)據(jù)時(shí)代的知識(shí)組織歸類,其任何信息都能夠成為一種歸類方式。從用戶角度而言,當(dāng)用戶依據(jù)自己的喜好要了解《埃及王子》時(shí),可以通過(guò)歷史中的塞萬(wàn)提斯一世或者是拉美西斯的鏈接進(jìn)行了解;也可以通過(guò)地理中的鏈接,諸如紅?;蛘呤悄崃_河進(jìn)行了解;也可以通過(guò)宗教中的《圣經(jīng)》或者是《十誡》進(jìn)行了解,甚至可以通過(guò)影片分類中的卡通片、奧斯卡或安妮獎(jiǎng)進(jìn)行了解,用戶對(duì)《埃及王子》的了解和掌握方式是通過(guò)不同向度的鏈接構(gòu)成,而用戶并不需要關(guān)心網(wǎng)絡(luò)的這部“百科全書”究竟如何實(shí)現(xiàn)知識(shí)的分類。從物理介質(zhì)角度來(lái)看,網(wǎng)絡(luò)的傳播方式使得用戶既沒有人知道,也不需要知道。
與此同時(shí),知識(shí)的多向度使得網(wǎng)絡(luò)時(shí)代的知識(shí)信息產(chǎn)生了不同知識(shí)體系之間明顯的相關(guān)性。比如,當(dāng)用戶搜索《埃及王子》時(shí)按照宗教角度的推薦,會(huì)同時(shí)向用戶提供《奇跡創(chuàng)造者》,這種類別的歸屬是通過(guò)用戶搜索行為、組織行為、詞條創(chuàng)建行為等算法產(chǎn)生。因此,知識(shí)組織過(guò)程中對(duì)既往用戶購(gòu)買行為模式的挖掘也成為一種知識(shí)組織的模式?;诖?,我們發(fā)現(xiàn),大數(shù)據(jù)時(shí)代的知識(shí)組織體系的分類和構(gòu)成不是一成不變的,而是一直處于動(dòng)態(tài)的智能變化中。大數(shù)據(jù)時(shí)代基于網(wǎng)絡(luò)技術(shù)的知識(shí)組織分類方式已經(jīng)徹底顛覆了傳統(tǒng)知識(shí)分類方式,這種網(wǎng)狀結(jié)構(gòu)的分類可以將某一知識(shí)的特征、屬性盡可能多地表現(xiàn)出來(lái),并以動(dòng)態(tài)演進(jìn)的方式構(gòu)建了新的知識(shí)組織分類。[3]
對(duì)世間萬(wàn)物最基本的描述,這就是源于哲學(xué)的本體一詞的概念。在當(dāng)前大數(shù)據(jù)背景下的信息科學(xué)領(lǐng)域,特定語(yǔ)義描述事物的信息工程就是本體理論的最佳應(yīng)用。應(yīng)用本體理論的發(fā)展與演變的數(shù)字圖書館知識(shí)組織體系,將逐漸智能化和自動(dòng)化結(jié)合網(wǎng)絡(luò)環(huán)境,形成了數(shù)字圖書館知識(shí)組織系統(tǒng)的設(shè)計(jì)與開發(fā)。
本體論和知識(shí)演變的過(guò)程是息息相關(guān)的。研究者指出本體論本身就為知識(shí)組織系統(tǒng)構(gòu)建了以概念化為支點(diǎn)的信息系統(tǒng)本體。而哲學(xué)和科學(xué)史方面的歷史淵源為信息系統(tǒng)本體的構(gòu)建提出了量化的方法和手段。繼續(xù)以前文的《埃及王子》為例,當(dāng)前的網(wǎng)絡(luò)信息知識(shí)用標(biāo)簽的形式,以用戶的認(rèn)可程度為基礎(chǔ)形成了動(dòng)態(tài)變化的《埃及王子》標(biāo)簽,這些標(biāo)簽有動(dòng)畫、圣經(jīng)故事、迪士尼、摩西、DVD、中東、歷史、靈感等多達(dá)54個(gè)標(biāo)簽的選擇和設(shè)定。說(shuō)明數(shù)字圖書館的知識(shí)體系分類也會(huì)基于用戶行為而產(chǎn)生不斷變化的分類方式。這些紛繁復(fù)雜變化的用戶標(biāo)簽行為,在背后支撐數(shù)字圖書館利用本體論規(guī)范性的概念結(jié)構(gòu)模型和概念之間視圖關(guān)系的語(yǔ)義化描述,廣泛的應(yīng)用在網(wǎng)絡(luò)時(shí)代知識(shí)組織系統(tǒng)的設(shè)計(jì)與開放研究中。
4.1大數(shù)據(jù)背景下知識(shí)組織的解構(gòu)
人類進(jìn)入21世紀(jì),當(dāng)互聯(lián)網(wǎng)和Web2.0應(yīng)用模式的盛行,人們開始反思知識(shí)精英時(shí)代知識(shí)組織的模式。反權(quán)威主義將沿襲已久、理性主義的知識(shí)組織體系徹底瓦解。這種趨勢(shì)在互聯(lián)網(wǎng)中最為明顯?;ヂ?lián)網(wǎng)中廣泛存在的站長(zhǎng)、編輯、專家甚至是用戶都是內(nèi)容提供者。知識(shí)組織的邏輯線索從精英向草根跨越。大數(shù)據(jù)背景下的數(shù)字圖書館之所以運(yùn)用本體論作為知識(shí)組織邏輯方式和實(shí)現(xiàn)手段,其目標(biāo)就是將一些人認(rèn)為的大數(shù)據(jù)背景下的知識(shí)“無(wú)序化”進(jìn)行規(guī)范化、有序化和優(yōu)化后的知識(shí)組織分類有系統(tǒng)地提供給用戶。并且這種優(yōu)化后的知識(shí)資源,為了實(shí)現(xiàn)更高的可控性知識(shí)服務(wù),形成了知識(shí)組織固化與動(dòng)態(tài)之間的相互升級(jí)過(guò)程。
但是知識(shí)組織的結(jié)構(gòu)基于互聯(lián)網(wǎng)或者是Web2.0的發(fā)展模式來(lái)看,其存在的土壤也是豐富多樣的。以《維基百科》為例,任何人任何地點(diǎn)都可以對(duì)《維基百科》中沒有的內(nèi)容進(jìn)行編輯。以百度為例,百度詞條、百度百科等很多欄目都可以實(shí)現(xiàn)閱讀者的自由編輯;甚至百度為很多站長(zhǎng)和普通用戶提供了自由創(chuàng)建詞條或是標(biāo)簽的功能。至此,知識(shí)組織傳統(tǒng)的系統(tǒng)被徹底打破。表面看大數(shù)據(jù)背景下的知識(shí)組織是混亂和無(wú)序的,就如同一片葉子被掛在不同的樹杈上,而每一個(gè)樹杈都延伸出一個(gè)知識(shí)組織系統(tǒng)。并且用戶不用擔(dān)心自己會(huì)受到知識(shí)組織分類的干擾或者是錯(cuò)誤地選擇知識(shí)類別,因?yàn)橛脩艨梢匝刂魏我粋€(gè)可能的標(biāo)簽尋找到自己所需要的目標(biāo)。因此,一些學(xué)者提出,信息時(shí)代知識(shí)組織的模式越是混亂就越是有效率。該種理論對(duì)傳統(tǒng)知識(shí)組織分類提出了挑戰(zhàn)和新的思維模式。但無(wú)序化的知識(shí)組織給當(dāng)今信息世界帶來(lái)了巨大的信息污染。無(wú)序、繁雜、不知所謂的知識(shí)組織和系統(tǒng),必然會(huì)干擾用戶選擇,因此,知識(shí)組織解構(gòu)之后必然是知識(shí)組織的重構(gòu)。
4.2大數(shù)據(jù)背景下基于本體論的知識(shí)組織重構(gòu)
大數(shù)據(jù)背景下基于本體論的數(shù)字圖書館知識(shí)組織重構(gòu),是在知識(shí)組織解構(gòu)的基礎(chǔ)上進(jìn)行的。因?yàn)楹?jiǎn)單的解構(gòu)必然會(huì)出現(xiàn)重構(gòu)的因果關(guān)系,使基于本體理論的語(yǔ)義檢索或?qū)υ捁芾沓蔀檎Z(yǔ)義網(wǎng)絡(luò)環(huán)境下信息知識(shí)組織研究的熱點(diǎn)。數(shù)字圖書館此時(shí)也從傳統(tǒng)的物理或符號(hào)分類中走出來(lái),開始向基于形式概念的知識(shí)工程和信息檢索領(lǐng)域發(fā)展,并獲得廣泛應(yīng)用?;诒倔w概念理論的建模思想和算法,通過(guò)學(xué)者大量的實(shí)證研究證明,其對(duì)于自動(dòng)化系統(tǒng)建設(shè)以及提升檢索效率有極為重要的作用和意義。由前文對(duì)本體理論的闡釋可以看出,本體理論旨在對(duì)當(dāng)前無(wú)序的知識(shí)組織系統(tǒng)利用技術(shù)的不斷發(fā)展重新進(jìn)行知識(shí)組織體系的構(gòu)建。[4,5]
可以預(yù)見的是,未來(lái)數(shù)字圖書館必然會(huì)沿著本體合并、本體集成和本體對(duì)應(yīng)三條路徑發(fā)展。本體合并是相同主體本體的發(fā)展空間出現(xiàn)進(jìn)一步的協(xié)調(diào),本體集成研究雖然開始淡化,但對(duì)于數(shù)字圖書館而言是起步之初的必由之路。本體對(duì)應(yīng)則是通過(guò)大領(lǐng)域、開放性以及分布式的環(huán)境完全取代單一的本體。至此,基于大數(shù)據(jù)背景的數(shù)字圖書館知識(shí)組織的重構(gòu)路線已經(jīng)明晰,且該路徑完全符合大數(shù)據(jù)的海量數(shù)據(jù)背景和用戶行為習(xí)慣及特點(diǎn)等諸多特征。
5.1用戶知識(shí)關(guān)聯(lián)規(guī)則的挖掘
隨著數(shù)字圖書館知識(shí)組織建設(shè)研究在全球的不斷深入,國(guó)內(nèi)學(xué)者開始從滿足用戶個(gè)性化需求的角度,參照互聯(lián)網(wǎng)用戶行為構(gòu)建知識(shí)組織分類系統(tǒng)。其中,用戶分類、用戶偏好、用戶體驗(yàn)、用戶模型等方面,都成為參照本體論的數(shù)字圖書館理論研究熱點(diǎn)。其中,客戶關(guān)系理論、信息構(gòu)建理論、長(zhǎng)尾理論等,均引入到數(shù)字圖書館用戶研究領(lǐng)域中。而技術(shù)層面的統(tǒng)計(jì)計(jì)量技術(shù)和大數(shù)據(jù)挖掘技術(shù)也在不斷的引入到數(shù)字圖書館知識(shí)體系構(gòu)建過(guò)程中。需要指出的是,國(guó)外針對(duì)數(shù)字圖書館知識(shí)體系構(gòu)建的研究過(guò)程中,非常注重從非盈利組織營(yíng)銷的角度強(qiáng)調(diào)實(shí)證研究。
而關(guān)聯(lián)規(guī)則的挖掘,先后出現(xiàn)了多循環(huán)方式的AIS算法、Apriori算法、DHP算法等。數(shù)字圖書館關(guān)聯(lián)規(guī)則挖掘中,用戶群體識(shí)別和規(guī)則提取是關(guān)聯(lián)規(guī)則挖掘的重點(diǎn)。關(guān)聯(lián)規(guī)則挖掘過(guò)程是以關(guān)注用戶知識(shí)活動(dòng)為原則的方式,突破了傳統(tǒng)忽略那些所謂“無(wú)足輕重”數(shù)據(jù)挖掘的方法。主要原因是,一些被認(rèn)為是非主流的用戶已遠(yuǎn)遠(yuǎn)超過(guò)了主流用戶,因此,重新認(rèn)識(shí)數(shù)字圖書館用戶知識(shí)活動(dòng)成為關(guān)聯(lián)規(guī)則挖掘的核心。[6,7]
5.2關(guān)聯(lián)規(guī)則挖掘的技術(shù)路線
用本體論的理論基礎(chǔ),在用戶市場(chǎng)細(xì)分過(guò)程中,大量非主流用戶的知識(shí)活動(dòng)習(xí)慣已經(jīng)替代了主流用戶的知識(shí)活動(dòng)習(xí)慣,因此如果參照傳統(tǒng)的數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘手段,以提前設(shè)定閾限的方式進(jìn)行挖掘,顯然在實(shí)際操作中會(huì)忽略很多用戶。同時(shí)造成一旦閾限改變,就不得不進(jìn)行重復(fù)操作的海量工作過(guò)程。所以,如果我們將關(guān)聯(lián)規(guī)則挖掘過(guò)程區(qū)別為“穩(wěn)定階段”和“可變階段”,首先,建立數(shù)據(jù)的預(yù)處理環(huán)節(jié),只要保證數(shù)據(jù)源不發(fā)生變化,就實(shí)現(xiàn)了該技術(shù)路徑的初步穩(wěn)定性。其次,作為系統(tǒng)的核心部分,“可變階段”的技術(shù)路徑,可以產(chǎn)生如下的假設(shè)和應(yīng)用:①如果所設(shè)定規(guī)則不具有實(shí)際意義,則通過(guò)調(diào)整支持度和置信度的閾值,在原有挖掘模型當(dāng)中重新提取;②如果所得規(guī)則能夠滿足用戶需求,其方法就是有價(jià)值的;③反復(fù)整理被忽略的規(guī)則,直到滿足要求為止。
由以上數(shù)字圖書館關(guān)聯(lián)規(guī)則的挖掘可以看出,數(shù)字圖書館在越來(lái)越針對(duì)用戶細(xì)分、用戶體驗(yàn)度等原則構(gòu)建知識(shí)體系的過(guò)程中,其本質(zhì)是從異質(zhì)的市場(chǎng)中尋找同質(zhì)。所以,關(guān)聯(lián)規(guī)則挖掘不是為了將用戶行為進(jìn)一步分解,而是為了聚合用戶行為,將那些需求相同的用戶聚合。由此展示出數(shù)字圖書館關(guān)聯(lián)規(guī)則挖掘的邏輯方式,如圖所示。
圖數(shù)字圖書館關(guān)聯(lián)規(guī)則挖掘的邏輯方式
需要指出的是,該種數(shù)字圖書館知識(shí)組織關(guān)聯(lián)規(guī)則的挖掘,并不是提前設(shè)定挖掘的閾值,而是在技術(shù)路徑實(shí)現(xiàn)以后,通過(guò)專家設(shè)定相應(yīng)閾值。由此將規(guī)則提取的難度降到目前技術(shù)條件下的最低。并通過(guò)這一方式,通過(guò)調(diào)整某領(lǐng)域?qū)<宜岢龅拈撝翟O(shè)定相關(guān)性參數(shù),能夠挖掘出更為細(xì)致的關(guān)聯(lián)規(guī)則體系。由此實(shí)現(xiàn)了數(shù)字圖書館知識(shí)組織的靜態(tài)和動(dòng)態(tài)兩方面分類的實(shí)現(xiàn)。目前的大數(shù)據(jù)挖掘主要呈現(xiàn)兩種特征:一種是雖然挖掘過(guò)程中不需要多次掃描數(shù)據(jù)庫(kù),但一般必須遍歷數(shù)據(jù)庫(kù)一次。這種挖掘思想和算法制約了挖掘活動(dòng)的可操作性,因?yàn)橐坏╅撓拊O(shè)置有問(wèn)題,需要不斷地重復(fù)這一操作過(guò)程。另一種是本文提出的先建立關(guān)聯(lián)規(guī)則挖掘的技術(shù)路徑,將不同的技術(shù)路徑等同于關(guān)聯(lián)規(guī)則的挖掘過(guò)程,該種方式忽視了技術(shù)路徑的可重復(fù)使用的初衷。因此,本文所提出的數(shù)字圖書館關(guān)聯(lián)規(guī)則挖掘的兩個(gè)階段“穩(wěn)定階段”和“可變階段”不但能夠?qū)崿F(xiàn)挖掘過(guò)程的復(fù)用性,同時(shí)簡(jiǎn)化了海量數(shù)據(jù)重復(fù)操作的麻煩。[8]
數(shù)字圖書館用戶知識(shí)組織與知識(shí)服務(wù),首先是知識(shí)體系的構(gòu)建,構(gòu)建方法有賴于基于本體論的知識(shí)關(guān)聯(lián)規(guī)則的挖掘?;诒倔w論的數(shù)字圖書館將用戶市場(chǎng)細(xì)分后,數(shù)字圖書館的用戶服務(wù)水平因此獲得明顯的提升。這一方法突破了傳統(tǒng)用戶活動(dòng)規(guī)則的梳理,將更為科學(xué)合理的口徑指標(biāo)提供給用戶,以多粒度的細(xì)分機(jī)制,構(gòu)建了中小數(shù)字圖書館的知識(shí)組織體系。而大型的數(shù)字圖書館,由于其資源更為豐富,用戶的行動(dòng)更加復(fù)雜,因此不同時(shí)段、不同目的下的用戶行為,其體驗(yàn)度的規(guī)則挖掘展示出更為巨大的潛在價(jià)值。也因此,針對(duì)大規(guī)?;虺笠?guī)模的數(shù)字圖書館,采用本文所提出的知識(shí)組織路徑和理論能夠提高該類數(shù)字圖書館的知識(shí)組織質(zhì)量和服務(wù)水平。知識(shí)組織是人類發(fā)展過(guò)程中不斷演變和發(fā)展的課題,這一課題歷久彌新,承載著人類智慧每一個(gè)閃光點(diǎn)通過(guò)邏輯化的方式,進(jìn)行組織、演變,最終更好地被人類利用的過(guò)程。而當(dāng)今的數(shù)字圖書館知識(shí)組織的科學(xué)性和有效性,已經(jīng)跨越了傳統(tǒng)知識(shí)組織的領(lǐng)域和范疇,為了實(shí)現(xiàn)更多的用戶對(duì)于知識(shí)的利用和開發(fā),當(dāng)今數(shù)字圖書館知識(shí)組織研究所承擔(dān)的使命也發(fā)生了巨大變革。隨著數(shù)字圖書館知識(shí)組織體系不斷的構(gòu)建與完善,多本體協(xié)同的知識(shí)地圖最終將出現(xiàn)在每一個(gè)用戶眼前,這也是數(shù)字圖書館知識(shí)組織體系發(fā)展的必由之路。
[1]滕廣青,畢強(qiáng).國(guó)外本體協(xié)調(diào)研究前沿進(jìn)展及熱點(diǎn)分析[J].中國(guó)圖書館學(xué)報(bào),2012(1):113-121.
[2]滕廣青,畢強(qiáng).從應(yīng)然之思到實(shí)然之舉:知識(shí)的本體與本體化進(jìn)程[J].情報(bào)理論與實(shí)踐,2011(12):21-26
[3]滕廣青.電子商務(wù)網(wǎng)站Folksonomy用戶Tag的語(yǔ)義認(rèn)知分析[J].情報(bào)科學(xué),2011(12):141-144.
[4]趙凡,冉美麗.本體論在戰(zhàn)略情報(bào)研究中的應(yīng)用[J].圖書館理論與實(shí)踐,2008(2):40-41.
[5]肖希明,李碩.信息集群理論和公共數(shù)字文化資源整合[J].圖書館,2015(1):1-4.
[6]張?jiān)迫?,?建立圖書檔案博物一體化數(shù)字網(wǎng)站之探討[J].齊魯工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(4):92-95.
[7]李金芮,肖希明.國(guó)外公共數(shù)字文化資源整合管理體制模式及其適用性研究[J].圖書情報(bào)工作,2015(3):26-34.
[8]潘煦,陽(yáng)廣元.近年來(lái)國(guó)內(nèi)基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字圖書館研究綜述[J].圖書館理論與實(shí)踐,2016(7):40-44.
Research on the Construction of Knowledge System of Large Data Digital Library Based on Ontology
Li Xie-hui
The construction of digital library knowledge system based on large data background has become an important part of digital library knowledge organization.Analyzing the network knowledge structure in digital era,this article forecasts the evolution path and development trend of knowledge organization system to realize its deconstruction and reconstruction.Based on above research,this article mines the knowledge connection rules data of digital library readers based on ontology,which provide reference for construction of knowledge system of large data digital library.Meanwhile,it demonstrates the methods and key technologies of large data digital library systematically.
Ontology;Big Data;Digital Library;Knowledge System
G250.76
A
1005-8214(2016)10-0047-05
本文系CALIS廣西壯族自治區(qū)文獻(xiàn)信息服務(wù)中心項(xiàng)目“基于大數(shù)據(jù)的數(shù)字圖書館移動(dòng)視覺搜索機(jī)制及應(yīng)用研究”(項(xiàng)目編號(hào):CALISGX201604),CALIS廣西壯族自治區(qū)文獻(xiàn)信息服務(wù)中心項(xiàng)目“可穿戴計(jì)算機(jī)設(shè)備在圖書館信息服務(wù)中的應(yīng)用研究”(項(xiàng)目編號(hào):CALISGX201606)的研究成果。
李燮慧(1973-),女,廣西柳州職業(yè)技術(shù)學(xué)院圖書館館員。
2016-01-21[責(zé)任編輯]李海燕