劉學(xué)平 (濰坊學(xué)院圖書館 山東 濰坊 261061)
網(wǎng)絡(luò)技術(shù)的發(fā)展使館藏?cái)?shù)字資源的環(huán)境由傳統(tǒng)文件網(wǎng)絡(luò)環(huán)境向充滿語(yǔ)義關(guān)聯(lián)資源的新環(huán)境轉(zhuǎn)變。這為知識(shí)發(fā)現(xiàn)活動(dòng)越來(lái)越多地基于網(wǎng)絡(luò)資源展開(kāi)增加了新的發(fā)展機(jī)遇。圖書館是數(shù)字資源的聚集地,從迅速增長(zhǎng)的館藏?cái)?shù)字資源中發(fā)現(xiàn)有效的知識(shí),與圖書館知識(shí)服務(wù)的趨勢(shì)正適切,而對(duì)館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程的研究,正好為知識(shí)服務(wù)的知識(shí)推送提供了實(shí)現(xiàn)路徑。因此,尋求資源關(guān)聯(lián)對(duì)知識(shí)發(fā)現(xiàn)效率和能力的影響,優(yōu)化二者之間的關(guān)系,促進(jìn)資源關(guān)聯(lián)背景下的知識(shí)發(fā)現(xiàn),實(shí)現(xiàn)發(fā)現(xiàn)知識(shí)對(duì)讀者需求的針對(duì)性,提升圖書館的知識(shí)服務(wù)能力,成為實(shí)現(xiàn)館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程的目的。這一目的決定了館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程的實(shí)現(xiàn)路徑要分兩個(gè)維度展開(kāi):一是從微機(jī)角度出發(fā),強(qiáng)調(diào)微機(jī)的計(jì)算能力和人工智能,以各種高性能處理算法、智能搜索與挖掘算法等為主要實(shí)現(xiàn)內(nèi)容;二是從讀者對(duì)知識(shí)的需求角度出發(fā),強(qiáng)調(diào)基于人機(jī)交互的、符合人的認(rèn)知規(guī)律的分析方法,將人所具備的、微機(jī)并不擅長(zhǎng)的認(rèn)知能力融入知識(shí)發(fā)現(xiàn)過(guò)程[1],具體表現(xiàn)如下。
實(shí)現(xiàn)館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程的動(dòng)力主要來(lái)自兩方面,一是讀者快速獲取知識(shí)的準(zhǔn)確性需求。目前館藏?cái)?shù)字資源檢索結(jié)果采用一維線性排列方式,讀者需要逐條閱讀篩選出自己需要的資源,在浪費(fèi)讀者時(shí)間的同時(shí)降低了資源的查全率與查準(zhǔn)率。二是讀者對(duì)館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)的期望。網(wǎng)絡(luò)時(shí)代,快節(jié)奏的學(xué)習(xí)方式致使讀者期望一個(gè)高效、便捷的知識(shí)獲取平臺(tái),能夠在同一張網(wǎng)頁(yè)上直觀地看到獲取到的有用資源并顯示出各知識(shí)之間的關(guān)聯(lián)關(guān)系。館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程的實(shí)現(xiàn),為讀者這一期望的實(shí)現(xiàn)提供了實(shí)現(xiàn)的路徑,即知識(shí)發(fā)現(xiàn)過(guò)程能將檢索結(jié)果用有效關(guān)聯(lián)、建立數(shù)據(jù)聯(lián)系、二次開(kāi)發(fā)等方法實(shí)現(xiàn),使資源具有相關(guān)性,再通過(guò)二維圖形和圖表、三維圖形和動(dòng)畫、多維模擬空間等可視化的方式[2],將檢索結(jié)果呈現(xiàn)給讀者,實(shí)現(xiàn)讀者一站式獲取資源的期望。讀者的這種需求和期望成為館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程實(shí)現(xiàn)的動(dòng)力源泉。
由于館藏?cái)?shù)字資源主要以網(wǎng)頁(yè)的形式存在,所以頁(yè)面資源的抓取至關(guān)重要。網(wǎng)頁(yè)抓取技術(shù)主要是對(duì)HTML頁(yè)面的抓取和分析,配合HTML connector即網(wǎng)頁(yè)連接器一起使用,抓取雙層鏈接并保存頁(yè)面內(nèi)容。常見(jiàn)的網(wǎng)頁(yè)抓取方法有三種,一是URL(Uniform Resource Locator,統(tǒng)一資源定位符)地址中包含分頁(yè)信息;二是通過(guò)Asp.net開(kāi)發(fā)的網(wǎng)站分頁(yè)控件,通過(guò)POST方式提交分頁(yè)信息到后臺(tái)代碼;三是翻頁(yè)過(guò)程中找不到頁(yè)碼信息,所以只能用代碼模擬手動(dòng)翻頁(yè),然后抓取[3]。
資源挖掘是利用路徑分析技術(shù)、關(guān)聯(lián)規(guī)則、序列模式、分類聚類等技術(shù),挖掘出有效的、可能被理解的資源和知識(shí)。常用的方法有貝葉斯方法、遺傳算法、神經(jīng)網(wǎng)絡(luò)等。在此基礎(chǔ)上,圖書館利用可視化技術(shù)、知識(shí)查詢技術(shù)等,將得到的資源轉(zhuǎn)換為讀者可以理解的資源,并刪除無(wú)用資源[3]。
索引技術(shù)是資源庫(kù)與讀者需求之間的橋梁,貫穿于整個(gè)資源發(fā)現(xiàn)過(guò)程中,它包括內(nèi)容索引和結(jié)構(gòu)索引。結(jié)構(gòu)索引即圖書館將網(wǎng)頁(yè)中的頁(yè)面和鏈接作為索引的節(jié)點(diǎn)和邊的有向圖,有了節(jié)點(diǎn)和邊的有向圖就可以對(duì)超鏈接創(chuàng)建索引。內(nèi)容索引主要是Web頁(yè)面的文本資源[3],是在資源挖掘時(shí)查詢內(nèi)容相關(guān)度的主要方法。
語(yǔ)義聚焦爬蟲(chóng)發(fā)現(xiàn)法分為發(fā)現(xiàn)目標(biāo)的定義和描述、發(fā)現(xiàn)策略的分析與制定、頁(yè)面語(yǔ)義標(biāo)注和分析三步。首先,以事先遴選好的URL作為種子樣本來(lái)決定爬行的起點(diǎn),從而達(dá)到對(duì)爬蟲(chóng)為發(fā)現(xiàn)新目標(biāo)頁(yè)面URL而進(jìn)行漫游的深度控制和引導(dǎo);其次,采用傳統(tǒng)的深度優(yōu)先、廣度優(yōu)先和啟發(fā)式搜索等策略,對(duì)提取到的URL列表進(jìn)行鏈接排序和下載,得到不含任何語(yǔ)義關(guān)聯(lián)信息的數(shù)據(jù)和相關(guān)的元數(shù)據(jù);最后,對(duì)得到的資源進(jìn)行分析和分類,從語(yǔ)義化的網(wǎng)頁(yè)或文件格式中(如URL文件、OWL文件、XTM文件、XML文件)嵌入相關(guān)語(yǔ)義標(biāo)記(如RDFa、Microdata的HTML和XHTML),并從文件中提取和分離出語(yǔ)義標(biāo)注信息。常采用的方法是編寫自定義的解析程序或者采用語(yǔ)義分離器RDF API等。對(duì)非語(yǔ)義化標(biāo)注的網(wǎng)頁(yè)文檔,此方法則通過(guò)一些自動(dòng)化語(yǔ)義標(biāo)注軟件或人工輔助標(biāo)注方式補(bǔ)充語(yǔ)義信息[4],實(shí)現(xiàn)對(duì)獲取到相關(guān)實(shí)體數(shù)據(jù)和元數(shù)據(jù)語(yǔ)義標(biāo)注的完善,最終根據(jù)語(yǔ)義標(biāo)注信息發(fā)現(xiàn)新知識(shí)。
領(lǐng)域本體發(fā)現(xiàn)法與語(yǔ)義聚焦爬蟲(chóng)發(fā)現(xiàn)方法有相同之處,由于它增加了領(lǐng)域本體庫(kù)的支持,因而也增加了多道處理工序,主要表現(xiàn)有:其一,在頁(yè)面語(yǔ)義標(biāo)注和分析環(huán)節(jié),并不僅僅是對(duì)當(dāng)前頁(yè)面進(jìn)行語(yǔ)義分析,而是結(jié)合領(lǐng)域本體庫(kù)的知識(shí)對(duì)頁(yè)面進(jìn)行擴(kuò)展解析。其二,在完成頁(yè)面解析后,能夠把得到的相關(guān)語(yǔ)義標(biāo)注信息重新返回給領(lǐng)域本體庫(kù),由領(lǐng)域本體庫(kù)進(jìn)行基于三元組的拆解和保存,從而達(dá)到擴(kuò)展和豐富現(xiàn)有本體庫(kù)的目的。其三,在資源存儲(chǔ)和索引環(huán)節(jié),利用本體映射技術(shù)對(duì)本體庫(kù)中新增的異構(gòu)本體進(jìn)行本體和實(shí)體的映射,同時(shí)利用實(shí)體融合技術(shù)對(duì)映射結(jié)果庫(kù)中相同或相似的實(shí)體進(jìn)行實(shí)體融合或?qū)嶓w關(guān)聯(lián),然后將最終形成的實(shí)體關(guān)系和數(shù)據(jù)交給索引分析模塊進(jìn)行處理[4],從而形成索引庫(kù)以進(jìn)行存儲(chǔ)和索引。
在數(shù)據(jù)結(jié)構(gòu)上,語(yǔ)義網(wǎng)主要采用“資源-屬性-值”的RDF三元組形式去描述網(wǎng)絡(luò)知識(shí)源。一個(gè)RDF三元組又可以表示為一個(gè)RDF有向圖。因此,對(duì)于微機(jī)來(lái)說(shuō),一個(gè)有效的語(yǔ)義網(wǎng)資源站點(diǎn)可以被定義為一個(gè)或多個(gè)RDF有向圖組成的集合。因而基于RDF的查詢,該方法能夠借助于RDF數(shù)據(jù)模型和語(yǔ)義網(wǎng)自身的優(yōu)勢(shì),對(duì)查詢需求進(jìn)行明確語(yǔ)義和強(qiáng)結(jié)構(gòu)化的表達(dá),從而查詢到精確滿足特定目標(biāo)需求的數(shù)據(jù),而返回的查詢結(jié)果仍然是一個(gè)RDF三元組的集合,這有利于進(jìn)一步的語(yǔ)義關(guān)聯(lián)和語(yǔ)義挖掘。目前,國(guó)際上具有代表性的RDF查詢語(yǔ)言主要包括SPARQL、RQL、RDQL、SERQL、N3、TRIPLE、Versa等[4]。
該方法首先利用語(yǔ)義搜索引擎或關(guān)聯(lián)數(shù)據(jù)源提供的接口,在根據(jù)應(yīng)用需求遴選出的相關(guān)關(guān)聯(lián)數(shù)據(jù)源中,通過(guò)訪問(wèn)這些數(shù)據(jù)源中的RDF鏈接發(fā)現(xiàn)更多的相關(guān)資源數(shù)據(jù)。其次,通過(guò)關(guān)聯(lián)映射實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)(不同的關(guān)聯(lián)數(shù)據(jù)通常采用不同的本體或敘詞表來(lái)標(biāo)注同一實(shí)體概念的語(yǔ)義信息)、不同本體或敘詞表中對(duì)同一個(gè)實(shí)體進(jìn)行定義或描述的術(shù)語(yǔ)的標(biāo)準(zhǔn),并能夠?qū)⑵淙哭D(zhuǎn)換或使用某種統(tǒng)一的目標(biāo)規(guī)范格式進(jìn)行表示,以避免后續(xù)處理出現(xiàn)誤解和混亂。最后,通過(guò)實(shí)體〔不同的關(guān)聯(lián)數(shù)據(jù)源也通常采用不同的URI(Uniform Resource Identifier,統(tǒng)一資源標(biāo)識(shí)符)去標(biāo)示同一個(gè)實(shí)體〕融合,對(duì)實(shí)體中所有使用標(biāo)記指向的數(shù)據(jù)源進(jìn)行資源獲取和審核,用于對(duì)當(dāng)前實(shí)體關(guān)系的語(yǔ)義補(bǔ)充和完善,并產(chǎn)生和分配給該實(shí)體一個(gè)主體的新的URI,形成一個(gè)新的關(guān)于該實(shí)體的RDF聲明,同時(shí)將通過(guò)審核的RDF鏈接作為來(lái)源數(shù)據(jù)源仍然使用標(biāo)記在新的RDF聲明中。同時(shí)也為了保證知識(shí)資源發(fā)現(xiàn)的可靠性[4],盡可能地摒棄無(wú)效的RDF鏈接和實(shí)體關(guān)聯(lián)信息。
“發(fā)現(xiàn)”是一個(gè)從無(wú)到有的過(guò)程。就館藏?cái)?shù)字資源知識(shí)發(fā)現(xiàn)過(guò)程而言,它不是通常的知識(shí)呈現(xiàn)的過(guò)程,而是超出館藏資源范圍以外,用新思維、新方法發(fā)現(xiàn)新知識(shí)的過(guò)程。館藏?cái)?shù)字資源的動(dòng)態(tài)增長(zhǎng),會(huì)不斷地給知識(shí)發(fā)現(xiàn)過(guò)程提供新的數(shù)據(jù)和信息,產(chǎn)生更多的新知識(shí)。這樣的知識(shí)發(fā)現(xiàn)過(guò)程會(huì)使我們意識(shí)到,由于讀者對(duì)館藏資源需求的滿足永遠(yuǎn)是不全面、暫時(shí)的,因而知識(shí)發(fā)現(xiàn)過(guò)程是一個(gè)動(dòng)態(tài)、不飽和的過(guò)程,它會(huì)以“發(fā)現(xiàn)”更多知識(shí)的新思維督促知識(shí)發(fā)現(xiàn)過(guò)程時(shí)刻準(zhǔn)備著去獲取和挖掘更多的最新知識(shí),而不是停留在原有、靜止的某個(gè)層面[5]。這樣的新思維會(huì)在調(diào)動(dòng)圖書館知識(shí)發(fā)現(xiàn)主動(dòng)性的同時(shí),提升知識(shí)發(fā)現(xiàn)率,達(dá)到提高館藏?cái)?shù)字資源利用率的目的。
發(fā)現(xiàn)技術(shù)的日新月異要求知識(shí)發(fā)現(xiàn)必須及時(shí)跟蹤與關(guān)注聚焦爬蟲(chóng)、領(lǐng)域本體、RDF查詢語(yǔ)言、關(guān)聯(lián)數(shù)據(jù)、語(yǔ)義網(wǎng)、資源發(fā)現(xiàn)、資源組織等相關(guān)領(lǐng)域的前沿技術(shù)發(fā)展動(dòng)態(tài),及時(shí)對(duì)其理論、方法、技術(shù)和工具進(jìn)行了解和掌握,并在知識(shí)發(fā)現(xiàn)過(guò)程中,根據(jù)每種發(fā)現(xiàn)技術(shù)和發(fā)現(xiàn)工具的優(yōu)劣點(diǎn),按知識(shí)發(fā)現(xiàn)過(guò)程的需要,選擇最佳的技術(shù)與工具完成發(fā)現(xiàn)過(guò)程的設(shè)計(jì)和發(fā)現(xiàn)任務(wù)。這也是館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程實(shí)現(xiàn)的基礎(chǔ)條件和必備條件。因?yàn)轲^藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程通常被要求能夠同時(shí)支持檢索驅(qū)動(dòng)和知識(shí)推理驅(qū)動(dòng)的過(guò)程。檢索驅(qū)動(dòng)是指基于頁(yè)面分析的標(biāo)記處理和語(yǔ)義標(biāo)注的過(guò)程,知識(shí)推理驅(qū)動(dòng)是指推理引擎借助領(lǐng)域本體和知識(shí)庫(kù)進(jìn)行新規(guī)則和關(guān)聯(lián)知識(shí)發(fā)現(xiàn)的過(guò)程[4]。這兩個(gè)過(guò)程的實(shí)現(xiàn)必須借助知識(shí)發(fā)現(xiàn)領(lǐng)域的最新技術(shù)和最新工具才能完成。
由于發(fā)現(xiàn)知識(shí)的最終目的是滿足讀者的知識(shí)需求,因而發(fā)現(xiàn)過(guò)程應(yīng)在以讀者知識(shí)需求為中心的同時(shí),鼓勵(lì)讀者參與到知識(shí)發(fā)現(xiàn)過(guò)程中,使發(fā)現(xiàn)知識(shí)對(duì)讀者的知識(shí)需求更具有針對(duì)性。讀者的知識(shí)需求一般來(lái)源于讀者對(duì)館藏資源的檢索與閱讀,因而可利用讀者日志、讀者cookie進(jìn)行讀者需求的提取和收集。采取的方法是對(duì)讀者的資源檢索行為進(jìn)行統(tǒng)計(jì)分析,對(duì)讀者的閱讀習(xí)慣進(jìn)行聚類,然后根據(jù)聚類得到的各類指標(biāo)(如檢索關(guān)鍵詞、關(guān)鍵詞出現(xiàn)頻率、讀者登錄頻率、檢索頻率、下載頁(yè)數(shù)、瀏覽時(shí)長(zhǎng)等)的相關(guān)性、邏輯性,對(duì)數(shù)據(jù)進(jìn)行過(guò)濾,去除無(wú)效數(shù)據(jù),保留一些能夠體現(xiàn)讀者對(duì)資源感興趣的信息,建立讀者需求數(shù)據(jù)庫(kù),運(yùn)用分類、聚類、關(guān)聯(lián)分析等方法,研究出讀者知識(shí)需求的內(nèi)在聯(lián)系和普遍規(guī)律,如使用習(xí)慣、知識(shí)背景及知識(shí)取向等[6],據(jù)此采用知識(shí)關(guān)聯(lián)對(duì)發(fā)現(xiàn)知識(shí)進(jìn)行有針對(duì)性的組織與管理,使其目的明確、方向清晰。讀者參與知識(shí)發(fā)現(xiàn)過(guò)程,是在發(fā)現(xiàn)需求調(diào)查階段采用角色扮演、預(yù)演和模擬的方式獲得讀者對(duì)知識(shí)的需求和期望,在發(fā)現(xiàn)過(guò)程中采用滿意度調(diào)查和可用性測(cè)試方法收集讀者對(duì)知識(shí)發(fā)現(xiàn)效果的評(píng)價(jià),在發(fā)現(xiàn)知識(shí)使用階段采用問(wèn)卷調(diào)查和使用統(tǒng)計(jì)來(lái)評(píng)估館藏?cái)?shù)字資源利用率的變化和讀者期望的滿足程度[7]??梢?jiàn),以讀者知識(shí)需求為導(dǎo)向的知識(shí)發(fā)現(xiàn)過(guò)程,在使發(fā)現(xiàn)知識(shí)更具針對(duì)性的同時(shí),對(duì)館藏?cái)?shù)字資源的建設(shè)也有很好的指導(dǎo)作用。
作為一種新型知識(shí)發(fā)現(xiàn)的探索,館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程的實(shí)現(xiàn)路徑尚處于摸索階段,它需要進(jìn)一步規(guī)范和完善。筆者將館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程的特殊性擬合到知識(shí)發(fā)現(xiàn)的一般過(guò)程中,得到的實(shí)現(xiàn)路徑為:利用相關(guān)技術(shù)和方法,從館藏資源數(shù)據(jù)中收集目標(biāo)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行提取、清理、序化、集成等預(yù)處理,再將處理過(guò)的數(shù)據(jù)轉(zhuǎn)換為能夠進(jìn)行數(shù)據(jù)關(guān)聯(lián)與挖掘的格式進(jìn)行數(shù)據(jù)的關(guān)聯(lián)與挖掘,從中發(fā)現(xiàn)相關(guān)知識(shí),再將知識(shí)進(jìn)行呈現(xiàn)、推送與評(píng)價(jià)。由于知識(shí)發(fā)現(xiàn)本身是一個(gè)循環(huán)求精的過(guò)程,根據(jù)評(píng)價(jià)結(jié)果的反饋,可以循環(huán)回到知識(shí)發(fā)現(xiàn)過(guò)程的前續(xù)階段,進(jìn)一步獲得更為準(zhǔn)確和符合需求的結(jié)果[8],完成整個(gè)知識(shí)發(fā)現(xiàn)過(guò)程,如圖1所示。
圖1 館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程
圖1展示出這一實(shí)現(xiàn)路徑的獨(dú)特之處在于:一是發(fā)現(xiàn)過(guò)程以資源關(guān)聯(lián)方法(數(shù)據(jù)、技術(shù)、資源環(huán)境、標(biāo)準(zhǔn)、機(jī)制)作為邏輯控制。因?yàn)橹R(shí)發(fā)現(xiàn)被視為基于資源關(guān)聯(lián)的特殊應(yīng)用,因而發(fā)現(xiàn)過(guò)程的邏輯控制遵循基于資源關(guān)聯(lián)數(shù)據(jù)應(yīng)用的一般規(guī)律。資源準(zhǔn)備、資源獲取、資源處理和資源挖掘處理過(guò)程,都需要根據(jù)資源關(guān)聯(lián)的特殊需求進(jìn)行重新的設(shè)計(jì)和解決。二是過(guò)程方法控制。流程以知識(shí)發(fā)現(xiàn)作為基本方法,采用分層結(jié)構(gòu),很自然地將資源關(guān)聯(lián)數(shù)據(jù)與知識(shí)發(fā)現(xiàn)方法融合在一起,發(fā)揮各自優(yōu)勢(shì)。三是功能操作控制。流程各層之間和各功能模塊之間依靠功能操作進(jìn)行銜接、互動(dòng)和控制,實(shí)現(xiàn)流程中資源的調(diào)用、組織和生成[9],它是資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程能否實(shí)現(xiàn)的關(guān)鍵。
問(wèn)題理解是對(duì)館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程的問(wèn)題進(jìn)行分析與定位。問(wèn)題分析是對(duì)發(fā)現(xiàn)基礎(chǔ)的問(wèn)題(通過(guò)知識(shí)發(fā)現(xiàn)的方法實(shí)現(xiàn)數(shù)字資源關(guān)聯(lián)的核心價(jià)值——關(guān)聯(lián)發(fā)現(xiàn))、如何發(fā)現(xiàn)的問(wèn)題(通過(guò)數(shù)據(jù)和資源之間的關(guān)聯(lián)關(guān)系去發(fā)現(xiàn)新的關(guān)系和新的知識(shí))、發(fā)現(xiàn)什么的問(wèn)題(如何發(fā)現(xiàn)和產(chǎn)生語(yǔ)義關(guān)聯(lián)的新知識(shí)[9])進(jìn)行分析。問(wèn)題定位是將館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程問(wèn)題定位為多任務(wù)、多路徑、多步驟:多任務(wù)是將資源關(guān)聯(lián)定位為詞表映射(用以實(shí)現(xiàn)兩個(gè)異構(gòu)資源之間的轉(zhuǎn)換)、資源比對(duì)(用以計(jì)算兩個(gè)資源之間的相似度)、資源鑒別(根據(jù)一個(gè)資源的屬性,通過(guò)與規(guī)范記錄比對(duì),獲得該資源的規(guī)范名稱)、去重(根據(jù)資源對(duì)比的結(jié)果,將兩個(gè)被認(rèn)為同指的資源進(jìn)行合并)、顯示化(將發(fā)現(xiàn)知識(shí)進(jìn)行可視化顯示)等多種任務(wù)類型[10];多路徑是指館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)的發(fā)現(xiàn)過(guò)程同時(shí)存在著多條發(fā)現(xiàn)路徑;多步驟是將館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)的發(fā)現(xiàn)過(guò)程分解成多個(gè)連續(xù)的步驟。
資源收集是將形式多樣、異質(zhì)異構(gòu)、數(shù)量龐大的館藏?cái)?shù)字資源聚集在一起,為知識(shí)發(fā)現(xiàn)的數(shù)量、質(zhì)量及其覆蓋面奠定基礎(chǔ)。收集方式以集中獲取為主、針對(duì)數(shù)字資源的特性而異,如針對(duì)資源的多樣性,收集過(guò)程采用網(wǎng)絡(luò)技術(shù)、發(fā)現(xiàn)技術(shù),確保資源收集的全面性、系統(tǒng)性;針對(duì)資源的動(dòng)態(tài)性,采用資源分析技術(shù),經(jīng)過(guò)設(shè)置收集資源的時(shí)間和關(guān)鍵詞等需求,實(shí)現(xiàn)對(duì)選定資源相關(guān)內(nèi)容的定期監(jiān)視和自動(dòng)收集[7];針對(duì)內(nèi)容復(fù)雜、信息量大的資源,采用資源挖掘、數(shù)據(jù)分析等技術(shù),對(duì)其進(jìn)行收集和整理。同時(shí),為使館藏資源知識(shí)發(fā)現(xiàn)更有針對(duì)性,圖書館還要將散存在讀者的個(gè)人網(wǎng)站、博客、微博、QQ 群等各種網(wǎng)絡(luò)交流工具中有價(jià)值的需求資源進(jìn)行收集。
由于通過(guò)以上諸方式收集起來(lái)的大量來(lái)自不同渠道、不同格式的數(shù)字資源是由多個(gè)孤立的子網(wǎng)組成,它們彼此之間是獨(dú)立自治、弱關(guān)聯(lián)的,缺乏互操作接口,因此尚不具備支持資源知識(shí)發(fā)現(xiàn)的能力[10],圖書館需要對(duì)其資源進(jìn)行挖掘。資源挖掘的核心是建立結(jié)構(gòu)化、關(guān)聯(lián)的資源表示。其方法是通過(guò)資源計(jì)量統(tǒng)計(jì)分析(利用文獻(xiàn)計(jì)量工具,如SPSS、TDA、SATI、UCINET 等,對(duì)數(shù)字資源進(jìn)行基本統(tǒng)計(jì)與挖掘)、引證文獻(xiàn)關(guān)系(在簡(jiǎn)單統(tǒng)計(jì)分析的基礎(chǔ)上更進(jìn)一步,包括對(duì)參考文獻(xiàn)、引文索引等引文關(guān)系的分析)、高相關(guān)度資源(解決讀者問(wèn)題的重要參考資料)、交叉資源(從宏觀的角度挖掘數(shù)字資源之間的隱含關(guān)系)等[11]先進(jìn)的技術(shù)手段,對(duì)收集來(lái)的數(shù)字資源進(jìn)行處理、分析與挖掘,將資源揭示由表面的信息深入到資源之間的復(fù)雜關(guān)系,使不同資源節(jié)點(diǎn)之間的多重關(guān)聯(lián)關(guān)系充分揭示出來(lái),展現(xiàn)給讀者的資源不再是一個(gè)點(diǎn)到點(diǎn)的線性結(jié)果表示,而是深入分析讀者需要的、揭示各資源關(guān)聯(lián)關(guān)系的立體資源體系[12],為發(fā)現(xiàn)潛藏在資源背后的知識(shí)做好充分的準(zhǔn)備。
經(jīng)過(guò)挖掘的資源,我們要對(duì)其合法性進(jìn)行檢查,清理錯(cuò)誤資源,進(jìn)行初步轉(zhuǎn)換,即利用一定的技術(shù)工具,實(shí)現(xiàn)多種格式數(shù)字資源的標(biāo)準(zhǔn)轉(zhuǎn)換,以此獲取規(guī)范元數(shù)據(jù)信息,并對(duì)資源的元數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)和規(guī)范接口,對(duì)各類資源加以描述和標(biāo)引,將各類資源統(tǒng)一組織和深層揭示,實(shí)現(xiàn)各類收錄資源的統(tǒng)一檢索和利用[13];并在轉(zhuǎn)換過(guò)程中進(jìn)行資源的創(chuàng)建、修改、刪除、克隆等,將其存入臨時(shí)數(shù)據(jù)區(qū);對(duì)臨時(shí)數(shù)據(jù)區(qū)內(nèi)的資源,選擇資源相關(guān)的屬性子集,并去除冗余屬性,采用資源采樣、資源轉(zhuǎn)換、資源表達(dá)等方式[14],對(duì)資源進(jìn)行相關(guān)性排序,即通過(guò)合并、去重及內(nèi)容補(bǔ)充等,保證元數(shù)據(jù)的品質(zhì);通過(guò)搜索引擎針對(duì)規(guī)范化的元數(shù)據(jù)進(jìn)行快速索引,建立不同屬性的規(guī)范詞表,實(shí)現(xiàn)讀者分面查詢和結(jié)果關(guān)聯(lián)。以此實(shí)現(xiàn)異構(gòu)資源有序化的轉(zhuǎn)換,即資源數(shù)據(jù)能進(jìn)行普通瀏覽、檢索瀏覽、分類瀏覽等操作,使資源達(dá)到序化的最佳匹配。
資源關(guān)聯(lián)是在挖掘與序化的資源數(shù)據(jù)中發(fā)現(xiàn)資源數(shù)據(jù)項(xiàng)之間的關(guān)系,生成新的資源數(shù)據(jù)鏈接的過(guò)程,其方法是:用URI來(lái)指代資源,用RDF三段式(事物—特性—值)來(lái)描述和聯(lián)接資源,RDF三段式資源中的任何一部分都可以集中很多信息,既可以回答檢索問(wèn)題[15],也可通過(guò)HTTP協(xié)議揭示并獲取這些資源數(shù)據(jù)。此方法可實(shí)現(xiàn)館藏資源的以下關(guān)聯(lián):一是文獻(xiàn)本身信息的糅合,如在圖書信息中,通過(guò)與網(wǎng)絡(luò)圖書封面、摘要、目次及網(wǎng)絡(luò)書評(píng)等信息的關(guān)聯(lián),實(shí)現(xiàn)了圖書詳細(xì)信息的無(wú)縫集成。二是構(gòu)建以檢索信息為核心的資源網(wǎng)絡(luò),實(shí)現(xiàn)引文關(guān)聯(lián)、知識(shí)元引用關(guān)聯(lián)、相似文獻(xiàn)關(guān)聯(lián)、概念關(guān)系詞關(guān)聯(lián)等,如分析圖書作者、相關(guān)合作者及期刊、會(huì)議、文章等不同文獻(xiàn)之間的關(guān)系,建立圖書、期刊及學(xué)位論文等不同文獻(xiàn)之間相互引用的立體引用關(guān)系;分析文獻(xiàn)作者、作者單位等信息的引文網(wǎng)狀,為讀者提供全方位的知識(shí)內(nèi)容信息等。三是通過(guò)海量數(shù)據(jù)聚類學(xué)科,進(jìn)行學(xué)科趨勢(shì)的分析,提供學(xué)科發(fā)展的基本脈絡(luò)和走勢(shì),為讀者了解不同時(shí)期學(xué)科研究熱點(diǎn)與發(fā)展方向提供重要信息[16]。關(guān)聯(lián)化館藏資源數(shù)據(jù)對(duì)于資源的發(fā)現(xiàn)、融合與互操作具有重要作用,它是知識(shí)發(fā)現(xiàn)和知識(shí)創(chuàng)造的起點(diǎn)。
知識(shí)發(fā)現(xiàn)不僅取決于知識(shí)結(jié)點(diǎn)之間的邏輯關(guān)系,也取決于知識(shí)之間的有機(jī)關(guān)聯(lián),更取決于讀者對(duì)知識(shí)的需求和利用。資源的動(dòng)態(tài)性決定了知識(shí)發(fā)現(xiàn)應(yīng)在資源進(jìn)行實(shí)時(shí)性節(jié)點(diǎn)定位的同時(shí),將定位節(jié)點(diǎn)不終止于單一資源,應(yīng)考慮資源間語(yǔ)義關(guān)聯(lián)關(guān)系,進(jìn)行知識(shí)的鏈?zhǔn)桨l(fā)現(xiàn)[17],即對(duì)資源數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換和歸類,形成發(fā)現(xiàn)軟件可識(shí)別的不同特征的數(shù)據(jù)集(如期刊影響力數(shù)據(jù)集、論文被引數(shù)據(jù)集等),并對(duì)不同的數(shù)據(jù)集采用不同的參數(shù)預(yù)算和維度表達(dá),形成發(fā)現(xiàn)多維索引體系,以滿足各種發(fā)現(xiàn)檢索需求。在此基礎(chǔ)上,再通過(guò)資源發(fā)現(xiàn)技術(shù),在深入分析讀者搜索行為的基礎(chǔ)上,圖書館運(yùn)用技術(shù)手段進(jìn)行快速匹配,對(duì)數(shù)字資源進(jìn)行充分的挖掘、關(guān)聯(lián)和升值,深入揭示資源的整體性,使得資源的查找和定位更加細(xì)化、快捷、準(zhǔn)確,幫助讀者發(fā)現(xiàn)所需資源的信息、知識(shí)、節(jié)點(diǎn)、來(lái)源等[12]。知識(shí)關(guān)聯(lián)挖掘具體可以分為兩個(gè)層級(jí)的任務(wù),一是在整合的關(guān)聯(lián)數(shù)據(jù)集上,調(diào)度和運(yùn)行傳統(tǒng)的數(shù)據(jù)挖掘,完成既定模式的知識(shí)發(fā)現(xiàn)。這一層級(jí)的工作需要考慮將關(guān)聯(lián)數(shù)據(jù)的檢索過(guò)程從數(shù)據(jù)挖掘過(guò)程中分離出來(lái),以便減輕讀者使用和了解關(guān)聯(lián)數(shù)據(jù)的底層邏輯(本體、語(yǔ)義)的負(fù)擔(dān)。第二個(gè)層面是利用關(guān)聯(lián)數(shù)據(jù)自身的特點(diǎn),通過(guò)鏈接挖掘與發(fā)現(xiàn)關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)中隱藏的、豐富的、潛在有用的關(guān)系。這一層級(jí)的工作目標(biāo)是創(chuàng)建針對(duì)關(guān)聯(lián)數(shù)據(jù)特性的挖掘算法、知識(shí)模式,以便在已有的語(yǔ)義關(guān)聯(lián)基礎(chǔ)上,推斷和發(fā)現(xiàn)任意資源之間的進(jìn)一步關(guān)聯(lián)或者通過(guò)特定模式重新組織和架構(gòu)形成新的關(guān)聯(lián)知識(shí)[18]。
知識(shí)呈現(xiàn)一方面要借助發(fā)現(xiàn)過(guò)程中一站式檢索來(lái)完成對(duì)檢索結(jié)果的呈現(xiàn)和獲取,另一方面在一站式檢索中嵌入更多的發(fā)現(xiàn)軟件,實(shí)現(xiàn)發(fā)現(xiàn)知識(shí)的多維呈現(xiàn)與關(guān)聯(lián)呈現(xiàn)。呈現(xiàn)方式主要有發(fā)現(xiàn)知識(shí)呈現(xiàn)、發(fā)現(xiàn)知識(shí)流程呈現(xiàn)和發(fā)現(xiàn)知識(shí)關(guān)聯(lián)呈現(xiàn)三種類型[13]。發(fā)現(xiàn)知識(shí)呈現(xiàn)是利用映射將數(shù)字知識(shí)轉(zhuǎn)化為圖示表達(dá),以利于讀者的觀察和理解;發(fā)現(xiàn)知識(shí)流程呈現(xiàn)是利用錄像、音響等技術(shù)手段將某些實(shí)驗(yàn)流程、示范片段或者研究報(bào)告等進(jìn)行視頻傳播,使知識(shí)發(fā)現(xiàn)流程更為顯性透明;發(fā)現(xiàn)知識(shí)關(guān)聯(lián)呈現(xiàn)是利用相關(guān)發(fā)現(xiàn)工具,將某個(gè)領(lǐng)域的資源知識(shí)進(jìn)行關(guān)聯(lián),以此展示或發(fā)現(xiàn)該領(lǐng)域的研究熱點(diǎn)和發(fā)展趨勢(shì)等。
知識(shí)的推送是圖書館在發(fā)掘讀者潛在資源知識(shí)需求的同時(shí),針對(duì)特定讀者的需求,通過(guò)RSS、E-mail、收藏推薦等方式,借助于信息推送技術(shù),將發(fā)現(xiàn)的館藏資源關(guān)聯(lián)知識(shí)主動(dòng)傳遞到讀者界面,提高知識(shí)服務(wù)的主動(dòng)性。
知識(shí)評(píng)價(jià)是根據(jù)知識(shí)發(fā)現(xiàn)本身是一個(gè)循環(huán)求精的過(guò)程而設(shè)定,是一個(gè)需要專家、讀者共同參與的人工過(guò)程,其方法是:召集資源發(fā)現(xiàn)領(lǐng)域?qū)<?,?duì)發(fā)現(xiàn)的知識(shí)進(jìn)行多維度的測(cè)評(píng),并將評(píng)價(jià)結(jié)果與讀者在使用資源知識(shí)過(guò)程中的反饋意見(jiàn)進(jìn)行合并,根據(jù)對(duì)讀者知識(shí)需求問(wèn)題的解決情況,對(duì)讀者不滿意的知識(shí)重復(fù)知識(shí)發(fā)現(xiàn)過(guò)程,將知識(shí)進(jìn)行修復(fù)和完善,直至讀者滿意為止[8],以實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)過(guò)程的經(jīng)驗(yàn)積累、知識(shí)修復(fù)和目標(biāo)的完善,進(jìn)而體現(xiàn)知識(shí)發(fā)現(xiàn)過(guò)程循環(huán)求精的不爭(zhēng)事實(shí)。
網(wǎng)絡(luò)環(huán)境下,知識(shí)服務(wù)成為圖書館服務(wù)的趨勢(shì),也是使命使然。因此,如何利用館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)來(lái)提升圖書館知識(shí)服務(wù)力,滿足讀者知識(shí)需求,對(duì)館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程實(shí)現(xiàn)路徑探究,既為此問(wèn)題提供了解決的方案,也適應(yīng)了圖書館提供知識(shí)服務(wù)的需求。它標(biāo)志著資源知識(shí)的傳播與交流價(jià)值凸顯,作為一種新的資源知識(shí)發(fā)現(xiàn)方式,從資源獲取、關(guān)聯(lián)揭示、知識(shí)發(fā)現(xiàn)到知識(shí)的呈現(xiàn)、推送與評(píng)價(jià),發(fā)現(xiàn)過(guò)程貫穿其建設(shè)推廣和功能擴(kuò)展的整個(gè)流程,有著不可替代的作用。按照研究思路,文章在對(duì)發(fā)現(xiàn)過(guò)程中的問(wèn)題進(jìn)行了分析與定位,將館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程的特殊性擬合到知識(shí)發(fā)現(xiàn)的一般過(guò)程中,把知識(shí)發(fā)現(xiàn)規(guī)律和資源關(guān)聯(lián)技術(shù)、標(biāo)準(zhǔn)、資源環(huán)境和知識(shí)發(fā)現(xiàn)的方法融合,構(gòu)建了實(shí)現(xiàn)館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程的完整路徑,擴(kuò)展和融合了知識(shí)發(fā)現(xiàn)和館藏?cái)?shù)字資源關(guān)聯(lián)的研究體系,并得出了如下結(jié)論:一是館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程的實(shí)現(xiàn)路徑是在建立起兩個(gè)或者多個(gè)資源關(guān)聯(lián)對(duì)象之間直接關(guān)聯(lián)的基礎(chǔ)上,構(gòu)建多類資源之間的關(guān)聯(lián)知識(shí)網(wǎng)絡(luò),其本質(zhì)是資源關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)不斷演變的過(guò)程。二是資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程是一個(gè)“多任務(wù)、多路徑、多步驟”、 無(wú)法一步到位的過(guò)程。數(shù)字資源的動(dòng)態(tài)性決定其關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程是一個(gè)常態(tài)化任務(wù);發(fā)現(xiàn)過(guò)程的復(fù)雜性決定館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)的發(fā)現(xiàn)過(guò)程能真正打破知識(shí)在物理和邏輯上的分割和獨(dú)立,能在廣泛、動(dòng)態(tài)和完整的基礎(chǔ)上完成知識(shí)的發(fā)現(xiàn)和創(chuàng)新。三是知識(shí)發(fā)現(xiàn)本身是一個(gè)多發(fā)的過(guò)程,通常要涉及到多個(gè)資源數(shù)據(jù)集的信息查找和知識(shí)組織過(guò)程,因而尋找資源信息之間相關(guān)點(diǎn)的能力尤為關(guān)鍵。館藏?cái)?shù)字資源關(guān)聯(lián)的實(shí)現(xiàn)恰恰為讀者增強(qiáng)了這一能力,也為知識(shí)的發(fā)現(xiàn)提供了新的可能。
當(dāng)然,館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程的實(shí)現(xiàn)路徑不僅是對(duì)發(fā)現(xiàn)知識(shí)的顯性揭示,還需從讀者多角度需求和資源關(guān)聯(lián)度出發(fā),對(duì)多來(lái)源資源進(jìn)行定向的分析,預(yù)測(cè)知識(shí)發(fā)現(xiàn)規(guī)律,對(duì)新發(fā)現(xiàn)的資源知識(shí)進(jìn)行一致性、效用性處理,挖掘資源子類結(jié)構(gòu)的層與發(fā)現(xiàn)知識(shí)庫(kù)中知識(shí)要素結(jié)點(diǎn)間的一一對(duì)應(yīng)關(guān)系,從一個(gè)特定角度揭示知識(shí)發(fā)現(xiàn)的潛在規(guī)律與復(fù)雜性,實(shí)現(xiàn)內(nèi)容知識(shí)的智能化發(fā)現(xiàn)和擴(kuò)展[16]。這是館藏?cái)?shù)字資源關(guān)聯(lián)知識(shí)發(fā)現(xiàn)過(guò)程實(shí)現(xiàn)路徑的長(zhǎng)遠(yuǎn)之道,也是我們未來(lái)的研究方向。
[1]任 磊, 杜 一, 馬 帥, 等. 大數(shù)據(jù)可視分析綜述[J]. 軟件學(xué)報(bào),2014,25(9):1909-1936.
[2]田 寧. 讀者服務(wù)視角下的資源發(fā)現(xiàn)系統(tǒng)可視化服務(wù)研究[J].圖書館學(xué)研究, 2014(17):71-75.
[3]許 微. 基于知識(shí)發(fā)現(xiàn)機(jī)制的企業(yè)決策支持系統(tǒng)構(gòu)建研究[D].湘潭:湘潭大學(xué)公共管理學(xué)院, 2013:11-16..
[4]王思麗, 劉 巍, 祝忠明, 等. 語(yǔ)義化的知識(shí)資源發(fā)現(xiàn)方法探析[J]. 圖書館學(xué)研究, 2014(9):2-6.
[5]董岳珂. 發(fā)現(xiàn)系統(tǒng)引發(fā)的關(guān)于信息素養(yǎng)教育的思考[J]. 圖書館論壇, 2014,34(4):58-63.
[6]張為江. 基于用戶需求分析的數(shù)字圖書館知識(shí)發(fā)現(xiàn)系統(tǒng)研究[J].圖書館理論與實(shí)踐, 2014(9):83-85.
[7]郝 飛. 圖書館資源發(fā)現(xiàn)系統(tǒng)應(yīng)用研究[J]. 電子世界, 2014(4):48-49.
[8]李 楠. 基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)研究[D].北京:中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所研究生院, 2012:93-99.
[9]李 楠, 張學(xué)福. 基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)應(yīng)用體系研究[J]. 圖書情報(bào)工作, 2013,57(6):127-133.
[10]沈志宏, 黎建輝, 張曉林. 面向LOD關(guān)聯(lián)發(fā)現(xiàn)過(guò)程的定位目標(biāo)與復(fù)雜性分析[J]. 中國(guó)圖書館學(xué)報(bào), 2013,39(6):101-108.
[11]李迎迎, 王 娟, 鄭春厚. 高校圖書館數(shù)字資源服務(wù)評(píng)價(jià)指標(biāo)體系構(gòu)建[J]. 情報(bào)雜志, 2014,33(3):192-197,142.
[12]劉江玲. 面向大數(shù)據(jù)的知識(shí)發(fā)現(xiàn)系統(tǒng)研究[J]. 情報(bào)科學(xué), 2014,32(3):90-92,101.
[13]解金蘭, 王 穎. 發(fā)現(xiàn)視角下機(jī)構(gòu)庫(kù)的建設(shè)與功能研究[J]. 圖書館學(xué)研究, 2014(8):52-57.
[14]劉 段. 發(fā)現(xiàn)系統(tǒng)在學(xué)術(shù)研究中的應(yīng)用研究[D]. 武漢:華中師范大學(xué)信息管理學(xué)院, 2014:16-26.
[15]田 寧. 基于關(guān)聯(lián)數(shù)據(jù)的信息資源整合[J]. 圖書館學(xué)刊, 2014(1):37-39.
[16]楊 會(huì), 汪 榮. 網(wǎng)絡(luò)級(jí)知識(shí)發(fā)現(xiàn)服務(wù)的功能分析及問(wèn)題探討[J]. 情報(bào)雜志, 2013,32(11):149-153.
[17]李丹丹. 應(yīng)急制造資源動(dòng)態(tài)發(fā)現(xiàn)與優(yōu)化配置方法[D]. 哈爾濱:哈爾濱理工大學(xué)機(jī)械動(dòng)力工程學(xué)院, 2013:22-32.
[18]李 楠,張學(xué)福. 基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)模型研究[J]. 圖書館學(xué)研究, 2013(1):73-77,67.