李錦霞
(大連圖書館,遼寧大連116012)
基于關(guān)聯(lián)標(biāo)簽的數(shù)字圖書館館藏資源主題分類研究
李錦霞
(大連圖書館,遼寧大連116012)
數(shù)字圖書館館藏資源社會化標(biāo)簽是用戶對圖書館期刊資源內(nèi)容的意識反映,標(biāo)簽內(nèi)容包含了多種價值信息。介紹了相關(guān)研究背景,闡述了研究思路與研究方法。從標(biāo)簽關(guān)聯(lián)程度出發(fā),通過對館藏資源標(biāo)簽采集、預(yù)處理及期刊資源標(biāo)簽間關(guān)聯(lián)關(guān)系進(jìn)行研究,實(shí)現(xiàn)了基于關(guān)聯(lián)標(biāo)簽的數(shù)字圖書館館藏資源主題特征分析。通過具體事例介紹了程度中心度分析法、中間中心度分析法和接近中心度分析法在基于關(guān)聯(lián)關(guān)系的數(shù)字圖書館館藏資源主題分類研究中的應(yīng)用。通過深入分析館藏期刊資源網(wǎng)絡(luò)社會化標(biāo)簽間的關(guān)聯(lián)關(guān)系,對館藏資源主題進(jìn)行集中展示,為數(shù)字圖書館館藏資源有效組織、展示與利用提供參考。
數(shù)字圖書館館藏資源關(guān)聯(lián)標(biāo)簽主題分類社會網(wǎng)絡(luò)分析
隨著互聯(lián)網(wǎng)應(yīng)用范圍的不斷擴(kuò)大,網(wǎng)絡(luò)體系參與和管理者的數(shù)量與日俱增,每個互聯(lián)網(wǎng)使用者都將成為互聯(lián)網(wǎng)資源的生產(chǎn)者、傳播者和建設(shè)者。在人們使用互聯(lián)網(wǎng)的同時,也對互聯(lián)網(wǎng)產(chǎn)生較大的影響[1]。比如,在互聯(lián)網(wǎng)使用過程中,由于用戶喜好不同,其可能對自己喜歡的網(wǎng)絡(luò)資源采取不同的操作方法,如有些用戶可能會及時收藏所喜歡的資源,有些用戶可能會將所喜歡的資源進(jìn)行分享等。用戶對網(wǎng)站的每項(xiàng)操作均屬于網(wǎng)絡(luò)資源的社會標(biāo)注,即社會化標(biāo)簽,在這些社會化標(biāo)簽中蘊(yùn)藏了關(guān)于用戶使用習(xí)慣及資源優(yōu)劣等有價值的信息。通過對這類社會化標(biāo)簽的研究,將有助于圖書、圖片、視頻等網(wǎng)絡(luò)資源的推介,有利于大眾化資源的導(dǎo)航與檢索。
近年來,數(shù)字圖書館網(wǎng)絡(luò)體系建設(shè)得到迅猛發(fā)展,大量館藏資源得到聚集。如何對這些館藏資源進(jìn)行有效整理并向用戶提供更為精確的個性化資源推介成為一個關(guān)鍵問題[2],而通過對數(shù)字圖書館館藏資源社會化標(biāo)簽的研究可以有效解決這一問題。館藏資源社會化標(biāo)簽蘊(yùn)含了許多圖書館用戶對館藏資源使用習(xí)慣和個性化選擇,通過對基于關(guān)聯(lián)標(biāo)簽的數(shù)字化圖書館館藏資源主題分類進(jìn)行研究,可以實(shí)現(xiàn)圖書館館藏資源社會化標(biāo)簽個性化推薦服務(wù),方便用戶信息查詢。
圖書館館藏資源是人類知識傳播和延續(xù)的重要基礎(chǔ)。圖書館館藏資源的存儲形式是多種多樣的,有些是以網(wǎng)頁來保存的,有些是以電子文檔來保存的,有些則是以圖片、視頻等形式來保存的。對于圖書館這些資源,如果不加以整理和分類,必將影響整個圖書館的運(yùn)行效率。
隨著圖書館用戶數(shù)量的逐漸增加,大量用戶對自己所喜歡的資源會進(jìn)行相關(guān)描述,這些描述可以被看作為圖書館館藏資源的社會化標(biāo)注[3-4]。目前,常見的標(biāo)注主要有以下3種:①基于內(nèi)容的標(biāo)注。用戶針對圖書館個別館藏資源主要內(nèi)容及該資源的使用需要,將資源中的主要信息提取并標(biāo)注出來。這類標(biāo)注主要側(cè)重于資源的使用信息,因該標(biāo)注信息可能是片面的,由此導(dǎo)致該標(biāo)注準(zhǔn)確度不高;②基于專家的標(biāo)注。在圖書館館藏資源存儲之前,專家將會對資源進(jìn)行專業(yè)的描述,使得該資源的主要內(nèi)容等得到闡述。該方法雖然提高了資源標(biāo)注的精確度,但是耗費(fèi)了大量的時間和人力,同時由于專家對資源信息的描述一般會用到專業(yè)詞匯,這將導(dǎo)致多數(shù)用戶很難理解,不利于廣大用戶的信息檢索;③基于社會化標(biāo)簽的標(biāo)注。該方法是建立在第一、二種方法基礎(chǔ)之上,它將用戶和專家的標(biāo)注進(jìn)行匯總,并提取出所有標(biāo)注中的共性標(biāo)注作為一類資源的統(tǒng)一描述;對于專業(yè)性較強(qiáng)的資源,可使用專家的描述標(biāo)注,同時備注用戶常用的詞匯,以豐富資源檢索的可行性。
隨著資源標(biāo)注內(nèi)容的增多,館藏資源社會化標(biāo)簽的數(shù)量也急劇增多,如果不對標(biāo)簽體系的規(guī)范化、結(jié)構(gòu)層級的合理化進(jìn)行處理,必將導(dǎo)致整個圖書館資源導(dǎo)航出現(xiàn)問題。數(shù)字圖書館館藏資源社會化標(biāo)簽代表的是資源的多維特征,這一特質(zhì)使得標(biāo)簽與標(biāo)簽之間存在一定的關(guān)聯(lián)。大量同類標(biāo)簽組合在一起則可以凸顯館藏資源的一些主題特征。筆者通過使用關(guān)聯(lián)標(biāo)簽對圖書館館藏資源主題分類進(jìn)行研究,旨在提高圖書館文獻(xiàn)資源的使用效率。
2.1研究思路
通過對圖書館館藏資源進(jìn)行主題分類,館員不僅能發(fā)現(xiàn)館藏資源的主要內(nèi)容特征,比如資源題目、作者、等,還要深層次挖掘資源的核心特征,即該資源的主要研究內(nèi)容、研究方法、研究結(jié)果等。只有通過高層語義和低層語義的館藏資源主題挖掘才能很好地獲得這類特征信息[5-6]。鑒于此,本研究將以圖書館館藏資源社會化標(biāo)簽為研究對象。具體研究思路:首先,依據(jù)圖書館館藏資源社會化標(biāo)簽之間的關(guān)聯(lián)關(guān)系,構(gòu)建關(guān)聯(lián)標(biāo)簽網(wǎng)絡(luò),并利用社會網(wǎng)絡(luò)分析方法對所構(gòu)建的標(biāo)簽網(wǎng)絡(luò)的主題與群落進(jìn)行分析;其次,通過標(biāo)簽間的關(guān)聯(lián)關(guān)系構(gòu)建圖書館館藏資源共標(biāo)簽網(wǎng)絡(luò),并通過社會網(wǎng)絡(luò)分析方法對該共標(biāo)簽網(wǎng)絡(luò)進(jìn)行分析;最后,對這兩類標(biāo)簽網(wǎng)絡(luò)的特征和結(jié)果進(jìn)行分析,形成圖書館館藏資源的主題特征。這一研究思路集合了共標(biāo)簽和關(guān)聯(lián)標(biāo)簽的各自優(yōu)勢,能更好地實(shí)現(xiàn)圖書館館藏資源主題分類和應(yīng)用研究。
2.2研究方法
社會網(wǎng)絡(luò)分析方法是建立在多個社會網(wǎng)絡(luò)節(jié)點(diǎn)基礎(chǔ)之上的。社會網(wǎng)絡(luò)是由龐大的節(jié)點(diǎn)和不同節(jié)點(diǎn)間錯綜復(fù)雜的關(guān)聯(lián)關(guān)系所構(gòu)成的,它不會以某個節(jié)點(diǎn)的具體位置或者是形態(tài)的變化而變化??傮w來看,社會資源網(wǎng)絡(luò)可以被定義為知識關(guān)聯(lián)、知識單元以及知識群落的共同體。知識本身不僅包含數(shù)字資源,而且包含了不同知識載體的各種關(guān)聯(lián)關(guān)系。社會網(wǎng)絡(luò)分析方法提供了一系列的知識載體、知識關(guān)系的分析挖掘方法,它能幫助學(xué)者深層次研究和分析圖書館館藏資源社會化標(biāo)簽所隱含的內(nèi)在規(guī)律,進(jìn)而科學(xué)合理地設(shè)計(jì)圖書館館藏資源主題分類導(dǎo)航系統(tǒng)。
3.1館藏資源標(biāo)簽采集
館藏資源社會化標(biāo)簽的采集是進(jìn)行圖書館館藏資源主題分類研究的基礎(chǔ)。社會化標(biāo)簽的采集方法有很多種,可以提供語義關(guān)聯(lián)對圖書館館藏資源社會化標(biāo)簽進(jìn)行采集,也可以通過手動添加的方法來實(shí)現(xiàn)。筆者通過語義關(guān)聯(lián),對館藏資源中檢索頻率較高的資源信息進(jìn)行分析,提取并匯總出針對某資源的所有社會化描述,完成標(biāo)簽采集過程。然而在整個標(biāo)簽采集過程中,可以很明顯地看出,所采集的社會化標(biāo)簽信息在結(jié)構(gòu)上是極其松散的,標(biāo)簽與標(biāo)簽之間所隱含的深層次關(guān)系也是不易發(fā)現(xiàn)的,同時各個標(biāo)簽所描述的資源信息也是片面的。因此,對社會化標(biāo)簽的采集僅僅是主題分類研究的第一步。
3.2館藏資源標(biāo)簽預(yù)處理
標(biāo)簽預(yù)處理的對象為采集到的館藏資源社會化標(biāo)簽所有內(nèi)容。預(yù)處理階段作為標(biāo)簽采集的后續(xù)階段,對整個標(biāo)簽網(wǎng)絡(luò)的構(gòu)建起到了重要作用,它主要實(shí)現(xiàn)了某個資源所有社會化標(biāo)簽的整理與主要特征的挖掘。比如,針對一篇圖書館管理系統(tǒng)論文的社會化標(biāo)簽的預(yù)處理,首先需要對社會化標(biāo)簽采集中所得到的題目名稱、作者畢業(yè)院校、主要研究內(nèi)容等標(biāo)簽信息進(jìn)行整理和歸類,同時還要對每個用戶所標(biāo)注的社會化標(biāo)簽進(jìn)行分析與挖掘。一些用戶可能對該篇文章中的研究方法感興趣,并進(jìn)行了標(biāo)注;一些用戶可能對該文章的研究結(jié)果非常關(guān)注,并進(jìn)行了標(biāo)注;一些用戶可能對文章中所使用到的試驗(yàn)方法非常關(guān)注,并進(jìn)行了標(biāo)注。標(biāo)簽預(yù)處理就是要將這些標(biāo)注結(jié)合文章的實(shí)際內(nèi)容進(jìn)行整理與挖掘,形成關(guān)聯(lián)標(biāo)簽矩陣,使得每個資源的標(biāo)簽都能全面、準(zhǔn)確地反映出該資源的整體特征。
3.3館藏資源關(guān)聯(lián)標(biāo)簽網(wǎng)絡(luò)體系的構(gòu)建
標(biāo)簽預(yù)處理的結(jié)果是得到資源社會化標(biāo)簽的內(nèi)在聯(lián)系,進(jìn)行關(guān)聯(lián)標(biāo)簽網(wǎng)絡(luò)體系的構(gòu)建。該體系的構(gòu)建是通過社會網(wǎng)絡(luò)分析技術(shù),對標(biāo)簽預(yù)處理形成的關(guān)聯(lián)標(biāo)簽矩陣進(jìn)行展開,分析各標(biāo)簽間的關(guān)聯(lián),發(fā)現(xiàn)其中的隱含知識信息。在整個關(guān)聯(lián)標(biāo)簽網(wǎng)絡(luò)體系中,每個經(jīng)過預(yù)處理的社會化標(biāo)簽將作為一個節(jié)點(diǎn)出現(xiàn),節(jié)點(diǎn)之間的距離大小將反應(yīng)出標(biāo)簽之間的關(guān)系。比如,兩個節(jié)點(diǎn)之間距離很近,這代表了這兩個節(jié)點(diǎn)所代表的標(biāo)簽關(guān)系很緊密。在整個關(guān)聯(lián)標(biāo)簽網(wǎng)絡(luò)體系中,可能存在多個節(jié)點(diǎn)重合的現(xiàn)象,該現(xiàn)象反映出這些標(biāo)簽內(nèi)容信息的重疊,從側(cè)面可以反應(yīng)出用戶對該資源信息的關(guān)注方面。
基于關(guān)聯(lián)標(biāo)簽的網(wǎng)絡(luò)體系雖然可以在一定程度上反映出每個不同標(biāo)簽之間的特征聯(lián)系,但節(jié)點(diǎn)的重疊卻使得整個結(jié)構(gòu)網(wǎng)絡(luò)體系變得異常模糊,增加了標(biāo)簽特征的辨識難度。鑒于此,筆者在社會化網(wǎng)絡(luò)分析方法的基礎(chǔ)上,結(jié)合了中心度分析法,對關(guān)聯(lián)標(biāo)簽網(wǎng)絡(luò)體系進(jìn)行了進(jìn)一步的特征分析,深入探討了圖書館館藏資源主題特征與發(fā)現(xiàn)。
中心度分析方法可以實(shí)現(xiàn)某關(guān)聯(lián)標(biāo)簽在整個關(guān)聯(lián)網(wǎng)絡(luò)體系中位置的檢測,同時對該標(biāo)簽在網(wǎng)絡(luò)體系中的重要程度與地位進(jìn)行判別,這種方法將對數(shù)字圖書館館藏資源主題分類的精確度有極大的提升。中心度分析方法主要可以分為3種,即程度中心度分析法、中間中心度分析法和接近中心度分析法。筆者以某數(shù)字圖書館館藏資源關(guān)聯(lián)標(biāo)簽網(wǎng)絡(luò)中心度分析結(jié)果為例對此方法進(jìn)行介紹。
表1 某數(shù)字圖書館館藏資源關(guān)聯(lián)標(biāo)簽網(wǎng)絡(luò)中心度分析結(jié)果
4.1程度中心度分析法
程度中心度分析法主要是以某個節(jié)點(diǎn)為基礎(chǔ)并對該節(jié)點(diǎn)有直接關(guān)系的節(jié)點(diǎn)進(jìn)行測量,發(fā)現(xiàn)節(jié)點(diǎn)間的關(guān)系程度。表1顯示程度中心度相對較高的是“圖書館”,程度達(dá)到“99.1%”,這說明該標(biāo)簽幾乎和其它標(biāo)簽都存在關(guān)聯(lián),并且處于標(biāo)簽網(wǎng)絡(luò)體系的核心位置,也就是說多數(shù)資源信息中都有該標(biāo)簽信息的存在。其它標(biāo)簽如“云計(jì)算”“系統(tǒng)設(shè)計(jì)”等也有相對較高的位置。對于“試驗(yàn)”這一標(biāo)簽,程度為“0%”,這代表了該標(biāo)簽信息在這個標(biāo)簽網(wǎng)絡(luò)體系中的關(guān)系非常弱。
4.2中間中心度分析法
中間中心度分析法主要用于分析兩個節(jié)點(diǎn)之間的關(guān)系程度,通過最短路徑分析法來進(jìn)行判別。從表1可以看出,“系統(tǒng)”的程度指數(shù)最高,為“5.13”,也就是說該標(biāo)簽在整個標(biāo)簽網(wǎng)絡(luò)體系的構(gòu)建中具有重要戰(zhàn)略意義,多數(shù)圖書館館藏資源中均包括這一標(biāo)簽信息。而“試驗(yàn)”標(biāo)簽的程度指數(shù)為“0”,這說明該標(biāo)簽在整個標(biāo)簽網(wǎng)絡(luò)體系中是孤立存在的,不與其它標(biāo)簽存在聯(lián)系。
4.3接近中心度分析法
接近中心度分析法主要是客觀測量兩個節(jié)點(diǎn)之間的距離來判別關(guān)系程度,所采用的是常規(guī)接近中心度的倒數(shù)形式,程度值越大,所代表的接近中心度越高,同時代表節(jié)點(diǎn)間的關(guān)系越緊密。由表1可以看出,“圖書館”、“云計(jì)算”、“系統(tǒng)”處于整個標(biāo)簽網(wǎng)絡(luò)體系的前三位,程度均處于95%以上,由此可以看出它們與其它節(jié)點(diǎn)的距離最近,而“試驗(yàn)”的程度為“0%”,由此可以看出該標(biāo)簽節(jié)點(diǎn)與其它節(jié)點(diǎn)最疏遠(yuǎn)。
筆者在對用戶圖書館館藏資源使用習(xí)慣分析的基礎(chǔ)上,以數(shù)字圖書館館藏資源社會化標(biāo)簽為基礎(chǔ),通過關(guān)聯(lián)標(biāo)簽研究方法構(gòu)建了共標(biāo)簽和關(guān)聯(lián)標(biāo)簽網(wǎng)絡(luò)體系,并通過社會網(wǎng)絡(luò)分析方法,結(jié)合標(biāo)簽節(jié)點(diǎn)中心度分析法,得到了數(shù)字圖書館館藏資源主題特征。該主題特征的獲得將有助于以用戶習(xí)慣或者用戶個性化需求為主題的應(yīng)用服務(wù)發(fā)展。筆者雖然做了大量的工作,但仍存在一些不足之處:一方面,本研究中所采集的社會化標(biāo)簽的范圍有限,涵蓋的地域較少。地域之間的差異將會影響到數(shù)字圖書館館藏資源社會化標(biāo)簽的采集,同時范圍的局限有可能導(dǎo)致標(biāo)簽預(yù)處理中個別特征的缺失;另一方面,在標(biāo)簽預(yù)處理階段因語義關(guān)聯(lián)技術(shù)自身問題可能導(dǎo)致標(biāo)簽間的關(guān)系存在少量混亂,在今后的研究中應(yīng)當(dāng)結(jié)合大數(shù)據(jù)分布式處理技術(shù)來對大量數(shù)字圖書館館藏資源社會化標(biāo)簽進(jìn)行處理,以期得到更為全面的標(biāo)簽主題。
[1]滕廣青,畢強(qiáng),高婭.基于概念格的Folksonomy知識組織研究——關(guān)聯(lián)標(biāo)簽的結(jié)構(gòu)特征分析[J].現(xiàn)代圖書情報(bào)技術(shù),2012(6):22-28.
[2]畢強(qiáng),等.面向知識關(guān)聯(lián)的標(biāo)簽云優(yōu)化機(jī)理研究[J].現(xiàn)代圖書情報(bào)技術(shù),2014(5):33-40.
[3]黃微,等.Folksonomy中Tag語義距離測度與可視化研究[J].現(xiàn)代圖書情報(bào)技術(shù),2014(7):64-70.
[4]陳婷,胡改麗,陳福集.社會化標(biāo)注系統(tǒng)的語義標(biāo)簽資源導(dǎo)航構(gòu)建[J].圖書館建設(shè),2015(1):78-83.
[5]靳延安,等.社會標(biāo)注及其在信息檢索中的應(yīng)用研究綜述[J].中文信息學(xué)報(bào),2010(4):52-62.
[6]劉向紅.大眾標(biāo)注在非遺數(shù)據(jù)庫中的應(yīng)用[J].圖書館建設(shè),2014(12):39-42.
李錦霞女,1977年生。本科學(xué)歷,館員。研究方向:分類、機(jī)讀目錄。
G250.76
(2016-08-29;責(zé)編:楊新寬。)