馬翠嫦 司徒俊峰 曹樹金
摘要:[目的/意義]隨著人們對檢索文檔之間關(guān)聯(lián)關(guān)系的理解越來越多樣化和細(xì)粒度化,檢索文檔內(nèi)信息單元間關(guān)聯(lián)關(guān)系的構(gòu)建顯得越來越重要。本研究旨在以學(xué)術(shù)文檔內(nèi)信息單元間關(guān)聯(lián)關(guān)系為基礎(chǔ),構(gòu)建文檔的細(xì)粒度聚合與關(guān)聯(lián)機(jī)制。[方法/過程]本研究從跨體裁聚合單元知識體系所蘊(yùn)涵的各類關(guān)聯(lián)關(guān)系出發(fā),從信息組在的角度闡述支持情景和語義關(guān)聯(lián)的細(xì)粒度聚合理論框架、知識組織系統(tǒng)構(gòu)建和聚合單元元數(shù)據(jù)標(biāo)注等關(guān)鍵問題,并提出聚合機(jī)制。[結(jié)果/結(jié)論]研究認(rèn)為構(gòu)建蘊(yùn)含聚合單元語義關(guān)系、學(xué)科領(lǐng)域語義關(guān)系、任務(wù)和文本關(guān)系的本體,采用可反應(yīng)聚合單元層級與關(guān)聯(lián)關(guān)系的聚合單元元數(shù)據(jù),是細(xì)粒度聚合機(jī)制發(fā)揮效用的關(guān)鍵。
關(guān)鍵詞:網(wǎng)絡(luò)文檔;學(xué)術(shù)資源;信息聚合;聚合機(jī)制;細(xì)粒度聚合;信息組織
DOl: 10 .3969/j .issn .1008 -0821 .2019 .12 .005
[中圖分類號] G203 [文獻(xiàn)標(biāo)識碼]A [文章編號]1008-0821( 2019) 12-0037-09
無論是從Vannevar Bush提出的Memex到TimBerners-Lee提出的語義網(wǎng),從互聯(lián)網(wǎng)出現(xiàn)初期的超鏈接到最近的關(guān)聯(lián)數(shù)據(jù),在網(wǎng)絡(luò)信息發(fā)展的各個時期,人們從沒停止對網(wǎng)絡(luò)信息資源之間關(guān)聯(lián)關(guān)系的探索,使得人們對網(wǎng)絡(luò)資源之間關(guān)聯(lián)關(guān)系的理解越來越多樣化和細(xì)粒度化。因此,網(wǎng)絡(luò)環(huán)境下信息單元之間關(guān)聯(lián)關(guān)系的構(gòu)建就顯得非常重要。
在網(wǎng)絡(luò)信息組織中,人們常常按照資源之間或資源與用戶之間的各類關(guān)聯(lián)關(guān)系進(jìn)行組織。最基本的是按照學(xué)科領(lǐng)域概念間的語義關(guān)系進(jìn)行組織,如分類法、主題法、學(xué)科領(lǐng)域本體等知識組織系統(tǒng)提供的概念間的語義關(guān)聯(lián)關(guān)系。與此相對,還可按照用戶需求與信息之間的關(guān)聯(lián)關(guān)系進(jìn)行組織,如根據(jù)用戶需求進(jìn)行相似網(wǎng)絡(luò)產(chǎn)品的組織與呈現(xiàn)。這兩種類型的關(guān)聯(lián)關(guān)系正好對應(yīng)廣義和狹義的語義關(guān)聯(lián)關(guān)系一狹義的語義關(guān)系僅指概念間的語義關(guān)系,如王知津的定義[1],而廣義的語義關(guān)聯(lián)關(guān)系包含多種類型語義關(guān)系,如Assefa S G的定義[2]的包含概念間的語義關(guān)系和基于用戶需求的關(guān)聯(lián)關(guān)系。由于單純基于概念間關(guān)系的主題相關(guān)性檢索匹配只能從語義層面確保檢索結(jié)果的準(zhǔn)確性,而無法完全確保這些信息對于用戶的有用性,因此廣義的關(guān)聯(lián)關(guān)系更有利于提高信息組織的效用。
語義網(wǎng)環(huán)境下,基于概念間語義關(guān)聯(lián)關(guān)系的知識發(fā)現(xiàn)、知識關(guān)聯(lián)、知識組織系統(tǒng)構(gòu)建等網(wǎng)絡(luò)信息組織既有理論、方法與工具可為基于語義關(guān)系的知識組織提供良好的基礎(chǔ),關(guān)聯(lián)數(shù)據(jù)理論和實(shí)踐的盛行使得基于語義關(guān)聯(lián)的網(wǎng)絡(luò)資源組織粒度由資源載體細(xì)化到數(shù)據(jù)、信息本身,再加上學(xué)術(shù)文獻(xiàn)內(nèi)部結(jié)構(gòu)單元的識別和自動化分技術(shù)的發(fā)展(如:[3-5]),使得語義信息組織朝著細(xì)粒度方向發(fā)展。然而,基于用戶需求的資源之間的關(guān)聯(lián)關(guān)系研究基本停留在資源或文檔整體的層面,如基于用戶需求的文檔推薦或商品網(wǎng)頁推薦等,因此難以建立用戶需求與細(xì)粒度資源之間的關(guān)聯(lián),更不能實(shí)現(xiàn)面向用戶需求和概念語義關(guān)聯(lián)的廣義的語義關(guān)聯(lián)與聚合。
面向語義關(guān)聯(lián)關(guān)系的細(xì)粒度聚合,是指以通用的或特定領(lǐng)域的知識體系為基礎(chǔ)賦予資源語義,并根據(jù)語義關(guān)系對資源進(jìn)行重新序化與組織,使原本分散的、異構(gòu)的資源和資源的片段形成面向用戶需求的、具有一定知識結(jié)構(gòu)的序化知識。為了進(jìn)一步實(shí)現(xiàn)基于概念與用戶需求的學(xué)術(shù)文檔細(xì)粒度關(guān)聯(lián)與聚合,本文將面向細(xì)粒度聚合的網(wǎng)絡(luò)學(xué)術(shù)文檔內(nèi)不同層級的信息單元稱為聚合單元。作者在前期研究中探索了學(xué)術(shù)文檔聚合單元劃分的理論與方法,嘗試建立用戶需求與若干類體裁文檔聚合單元之間的關(guān)聯(lián)關(guān)系,但如何從信息組織和知識組織的角度構(gòu)建基于概念語義關(guān)系和用戶需求的語義關(guān)聯(lián)與聚合機(jī)制?這一問題仍未得到回答。
為了解決這一問題,本文首先對聚合單元間關(guān)聯(lián)關(guān)系以及細(xì)粒度聚合相關(guān)理論進(jìn)行梳理和總結(jié),提出面向情景關(guān)聯(lián)與知識發(fā)現(xiàn)的細(xì)粒度聚合信息框架,進(jìn)而探索細(xì)粒度聚合知識組織系統(tǒng)構(gòu)建、聚合單元元數(shù)據(jù)語義標(biāo)引等關(guān)鍵問題,最終提出聚合單元細(xì)粒度聚合的整體框架與機(jī)制。
1 理論基礎(chǔ)
1.1 體裁理論與聚合單元劃分
功能語言學(xué)中的體裁結(jié)構(gòu)理論可為網(wǎng)絡(luò)文檔聚合單元的劃分提供面向用戶認(rèn)知的普遍性基礎(chǔ)。網(wǎng)絡(luò)學(xué)術(shù)文檔按照體裁類型不同而有各自的社會交際目標(biāo)(可理解為作者的寫作目的),遵循相應(yīng)的語篇結(jié)構(gòu)和話語意圖,這就使得資源除了具有基于主題的語義關(guān)聯(lián)關(guān)系外,同時也具有體裁交際目標(biāo)所承載的結(jié)構(gòu)化語言功能特征。例如:研究論文會包括摘要、引言、研究方法、研究結(jié)果、討論/結(jié)論等一系列規(guī)范的體裁結(jié)構(gòu)規(guī)則。因此,網(wǎng)絡(luò)學(xué)術(shù)信息資源的知識組織中,除了可采用傳統(tǒng)的基于學(xué)科領(lǐng)域術(shù)語本體外,還可以進(jìn)一步利用文檔體裁結(jié)構(gòu)規(guī)則所蘊(yùn)含的語義關(guān)系,從而實(shí)現(xiàn)語義關(guān)系更豐富的、更面向用戶需求的細(xì)粒度聚合。
體裁早期的利用源于知識組織領(lǐng)域,早至亞里士多德就認(rèn)識到體裁對文獻(xiàn)分類的功能[6]。在圖書情報學(xué)領(lǐng)域,體裁被廣泛用于自動分類[7]、知識組織[8-10]、網(wǎng)頁設(shè)計[6,11]和信息搜尋[12-13]等方面。
Zhang L借鑒功能語言學(xué)家Swales關(guān)于體裁分析的理論和CARS模型[14],利用體裁形式和結(jié)構(gòu)特征,對心理學(xué)領(lǐng)域的研究論文的語言功能單元進(jìn)行劃分,探索信息使用任務(wù)與不同類型的語言功能之間的關(guān)系,從而輔助信息利用[15]。在此基礎(chǔ)上,Zhang L更探索了信息使用任務(wù)情境下不同類型語言功能之間的關(guān)系,從而為知識組織提供參考[10]。Ma C-C和Cao S-J則借鑒體裁分析的理論對網(wǎng)絡(luò)環(huán)境下的題錄摘要、期刊論文、網(wǎng)絡(luò)百科詞條和學(xué)術(shù)博客文章進(jìn)行體裁層級和類型的劃分,建立了面向細(xì)粒度聚合的聚合單元分類體系[16]。
因而,體裁理論可為網(wǎng)絡(luò)學(xué)術(shù)文檔聚合單元的劃分提供理論與方法依據(jù):一方面可為聚合單元語言功能的解釋、語義的賦予和聚合應(yīng)用乃至基于學(xué)科領(lǐng)域體裁知識的聚合單元知識模型構(gòu)建奠定基礎(chǔ);另一方面為聚合單元與用戶信息獲取任務(wù)的關(guān)聯(lián)構(gòu)建、面向特定任務(wù)的聚合單元之間關(guān)聯(lián)關(guān)系的構(gòu)建提供理論與方法基礎(chǔ)。
1.2 信息資源聚合
信息資源聚合研究探索信息資源之間的各類語義關(guān)聯(lián)關(guān)系,從而提高資源組織和利用效率。按照資源類型劃分,信息資源聚合研究面向館藏資源、微博、網(wǎng)絡(luò)商業(yè)信息等多種類型。這些研究中,對基于聚合單元的細(xì)粒度聚合具有較高參考價值的研究包括:聚合單元元數(shù)據(jù)研究、多粒度語義標(biāo)注機(jī)制研究、多維語義聚合、深度聚合研究等。
曹樹金等構(gòu)建面向聚合搜索的細(xì)粒度聚合單元元數(shù)據(jù),以深入描述聚合單元的特征及其關(guān)系,從而促進(jìn)知識發(fā)現(xiàn)并提升知識服務(wù)效率。作者主張聚合單元元數(shù)據(jù)涵蓋訪問元數(shù)據(jù)、物理元數(shù)據(jù)和語義元數(shù)據(jù)。其中,訪問元數(shù)據(jù)包括標(biāo)識符、關(guān)鍵詞、來源等核心元素以及標(biāo)題、主要責(zé)任者、日期、語種等資源與篇章方面的個別描述元素;物理元數(shù)據(jù)包括聚合層級.存儲路徑等核心元素以及階段單元層級、圖表類型等個別描述元素;語義元數(shù)據(jù)則包括話語意圖和語義功能兩個元素。該研究雖然構(gòu)建了聚合單元元數(shù)據(jù)的框架,但并不涉及細(xì)粒度聚合信息組織框架下聚合單元元數(shù)據(jù)的標(biāo)注和組織問題[17]。
多粒度語義標(biāo)注機(jī)制研究方面,朱嘉賢、白偉華與李吉桂提出信息元的概念,提出構(gòu)建信息元本體和信息元知識體系,并按照樹狀組織結(jié)構(gòu)組織網(wǎng)絡(luò)資源及其內(nèi)部文檔的內(nèi)容。其中,資源信息元的概念與本文關(guān)注的聚合單元元數(shù)據(jù)類似,是對相關(guān)內(nèi)容單元的信息描述,但該研究只要考慮網(wǎng)絡(luò)資源本身和網(wǎng)絡(luò)資源內(nèi)部文檔兩個粒度層級,并未對文檔內(nèi)部內(nèi)容進(jìn)行進(jìn)一步劃分[18]。
多維語義聚合相關(guān)研究主要包括面向館藏資源的聚合和面向網(wǎng)絡(luò)資源的聚合研究。面向館藏資源聚合的研究中,相關(guān)研究可包括:邱均平團(tuán)隊研究了基于資源本體的館藏資源語義聚合,如:資源本體構(gòu)建、語義化與存儲研究[19]、館藏資源語義化模型與技術(shù)研究[20]、資源本體構(gòu)建理論研究[21]等,為基于主題以外的多維語義關(guān)系知識系統(tǒng)的構(gòu)建與應(yīng)用提供重要參考。何超等提出了基于本體的圖書館數(shù)字資源語義聚合與可視化模型,為圖書館數(shù)字資源的深度語義聚合提供語義知識的支持[22]。與之相似,歐石燕等提出一個基于本體與關(guān)聯(lián)數(shù)據(jù)的圖書館多類型異構(gòu)文獻(xiàn)資源語義整合框架,實(shí)現(xiàn)語義網(wǎng)環(huán)境下圖書館資源的語義整合[23]。
在網(wǎng)絡(luò)資源語義聚合方面,相關(guān)研究主要針對資源特征探索聚合的工具和方法,相關(guān)研究可包括:微博文本的內(nèi)容、時間、空間、人物等多維度主題聚合[24]?;谡Z義關(guān)聯(lián)和情景感知的信息資源推薦研究等[25]。
通過基于細(xì)粒度聚合相關(guān)研究我們可知,語義網(wǎng)絡(luò)環(huán)境下,面向細(xì)粒度聚合的元數(shù)據(jù)和本體構(gòu)建是實(shí)現(xiàn)多源異構(gòu)資源整合、多粒度標(biāo)注和語義聚合的基礎(chǔ)和關(guān)鍵。其中,信息單元本體和樹狀組織管理結(jié)構(gòu)的多粒度語義標(biāo)注研究可為聚合單元本體的構(gòu)建及其組織提供理論和方法參考,聚合單元元數(shù)據(jù)為網(wǎng)絡(luò)資源細(xì)粒度聚合提供基本的描述框架,語義聚合相關(guān)研究則為各類語義關(guān)聯(lián)的發(fā)現(xiàn)、構(gòu)建和應(yīng)用提供參考。
2 信息組組織基本理論框架
2.1 情景關(guān)聯(lián)與知識發(fā)現(xiàn)
網(wǎng)絡(luò)資源細(xì)粒度聚合作為面向用戶的應(yīng)用,在于按照用戶需求對網(wǎng)絡(luò)資源進(jìn)行不同粒度的重組,從而更準(zhǔn)確地滿足用戶信息獲取的需求并支持知識發(fā)現(xiàn)。
與廣義語義關(guān)聯(lián)關(guān)系對應(yīng),用戶信息獲取需求的滿足可在兩個層次上實(shí)現(xiàn),即:主題相關(guān)性性和資源的有用性。由于資源獲取的準(zhǔn)確性是傳統(tǒng)信息檢索系統(tǒng)的核心,用戶查詢主題和資源描述主題的匹配在信息檢索研究中已有成熟的研究結(jié)論,可為信息聚合研究提供參考。而本文提出的信息聚合則在主題相關(guān)性的基礎(chǔ)上,進(jìn)行聚合單元劃分及及其用戶任務(wù)情景的關(guān)聯(lián)的探索,從而提高信息的有用性,這就使得基于聚合單元的信息組織與呈現(xiàn)具備了情景性的要求。由于本體可為概念的匹配和關(guān)聯(lián)提供準(zhǔn)確性和全面性的保障,因此基于聚合單元分類體系與其任務(wù)關(guān)聯(lián)屬性的聚合單元本體,可為細(xì)粒度聚合提供主題以外更豐富的依據(jù),使得聚合結(jié)果體現(xiàn)用戶和資源的情景和語義關(guān)聯(lián)。
在主題相關(guān)性和資源有用性的基礎(chǔ)上,學(xué)科領(lǐng)域本體支持概念匹配和相關(guān)性擴(kuò)展,再加上聚合單元本體所賦予的聚合單元更豐富的語義和關(guān)聯(lián)關(guān)系,從而為細(xì)粒度信息單元的語義聚合提供更多的依據(jù),使聚合單元形成具有一定知識結(jié)構(gòu)的新聚合體。由于這些聚合資源之間具有知識語義關(guān)聯(lián),可以通過多種聚合網(wǎng)絡(luò)來呈現(xiàn)資源之間的語義關(guān)聯(lián),并與用戶進(jìn)行可視化的呈現(xiàn)和交互。因而可為新信息和新知識的發(fā)現(xiàn)提供可能,這就使得基于聚合單元的信息組織與呈現(xiàn)具備了支持知識發(fā)現(xiàn)的要求。
2.2 網(wǎng)絡(luò)學(xué)術(shù)文檔細(xì)粒度聚合的信息組織框架
在信息資源聚合相關(guān)研究的基礎(chǔ)上,本文著眼于網(wǎng)絡(luò)資源細(xì)粒度聚合對于情景關(guān)聯(lián)與知識發(fā)現(xiàn)的支持,提出網(wǎng)絡(luò)資源細(xì)粒度聚合的信息組織框架,包括:網(wǎng)絡(luò)學(xué)術(shù)文本的采集與預(yù)處理一主題與聚合單元識別一本體構(gòu)建一資源描述一面向用戶語義與情境需求的聚合與呈現(xiàn)5個主要步驟,如圖1所示:
1)采集與預(yù)處理。對多源異構(gòu)網(wǎng)絡(luò)資源進(jìn)行基于主題和非主體特征的采集,在此基礎(chǔ)上完成細(xì)粒度聚合前的規(guī)范性描述。
2)主題與聚合單元識別。網(wǎng)絡(luò)資源聚合單元是聚合的主要對象,對于采集的網(wǎng)絡(luò)文檔須按其體裁規(guī)則進(jìn)行識別和劃分,并對不同粒度的聚合單元進(jìn)行主題識別,從而為資源的細(xì)粒度組織提供對象。
3)細(xì)粒度聚合本體構(gòu)建。細(xì)粒度語義聚合需以本體作為語義描述和聚合處理的主要知識體系,如:聚合單元知識體系、學(xué)科領(lǐng)域知識體系、文檔與任務(wù)知識體系等。
4)語義標(biāo)注。依據(jù)領(lǐng)域本體和聚合單元本體對聚合單元的語義進(jìn)行標(biāo)注。其中,通過聚合單元本體劃分細(xì)粒度聚合單元,通過領(lǐng)域本體,識別聚合單元的語義。每個聚合單元通過多個與之相關(guān)的概念進(jìn)行標(biāo)注,形成了一個多維、復(fù)合的語義概念。此外,通過聚合單元元數(shù)據(jù),可對聚合單元進(jìn)行全面描述與索引。
5)聚合與呈現(xiàn)。將用戶需求語義空間與資源描述的語義空間進(jìn)行語義匹配后,把滿足用戶需求的資源按照聚合單元之間的語義關(guān)系進(jìn)行重組。聚合處理過程主要是語義匹配的過程,在此基礎(chǔ)上可采用多種模式進(jìn)行可視化呈現(xiàn),并與用戶進(jìn)行交互。
3 支持細(xì)粒度聚合的信息組織關(guān)鍵問題
由于細(xì)粒度聚合要求組織對象從文本整體細(xì)化到文本局部,且須建立各層級文本之間以及各層級文本與用戶需求之間的關(guān)聯(lián),這就要求信息組織理論與方法在細(xì)粒度知識組織系統(tǒng)構(gòu)建、基于聚合單元元數(shù)據(jù)的標(biāo)注與索引等關(guān)鍵環(huán)節(jié)進(jìn)行適應(yīng)性的改進(jìn)和發(fā)展。
3.1 細(xì)粒度知識組織系統(tǒng)構(gòu)建
按照網(wǎng)絡(luò)資源細(xì)粒度聚合的信息組織框架,支持細(xì)粒度聚合的知識組織系統(tǒng)除包括學(xué)科領(lǐng)域概念術(shù)語組成的面向主題聚合的知識體系,還應(yīng)包括面向用戶需求的、任務(wù)情景關(guān)聯(lián)的聚合單元分類體系,此外還應(yīng)建立面向文檔描述與組織的文檔本體,如圖2所示。
其中,學(xué)科領(lǐng)域知識體系的構(gòu)建已有較為成熟的理論和方法,其概念之間的等級和非等級關(guān)系可從資源內(nèi)部的句法、共現(xiàn)、耦合等關(guān)系中識別建立。以下主要對知識體系的粒度特征、聚合單元知識體系的構(gòu)建兩個主要方面,對細(xì)粒度聚合的信息組織理論與方法進(jìn)行探討:
學(xué)科領(lǐng)域概念與聚合單元概念均具有粒度特征。對于領(lǐng)域概念粒度而言,其粒度按照概念間的知識關(guān)系與邏輯關(guān)系(如:屬分關(guān)系、包含與被包含關(guān)系等)劃分;對于聚合單元概念所反映的粒度而言,聚合單元按照上下級之間語言功能與語義上的包含與被包含關(guān)系劃分粒度層級。
在聚合單元知識體系方面,邱均平團(tuán)隊提出基于非主題因素的資源本體的館藏資源語義聚合研究,可為本文中基于聚合單元關(guān)系的多維語義知識組織系統(tǒng)構(gòu)建路徑提供參考。Ma C-C和Cao S-J借鑒體裁結(jié)構(gòu)理論劃分網(wǎng)絡(luò)學(xué)術(shù)文檔的聚合單元,從而構(gòu)建跨體裁類型的聚合單元分類體系。該研究利用體裁的結(jié)構(gòu)規(guī)定性和多粒度特性,構(gòu)建包含不同層級、不同類型體裁實(shí)例的概念體系;體裁的特定社會交際目標(biāo),使得不同層級和類型體裁實(shí)例之間存在語言功能上的關(guān)聯(lián)關(guān)系。由于用戶對于學(xué)術(shù)體裁的格式和內(nèi)容能產(chǎn)生相對一致的認(rèn)識和期望,按照用戶對于聚合單元的認(rèn)知,調(diào)查特定任務(wù)情景下體裁及體裁單元的有用性,可構(gòu)建任務(wù)相關(guān)性知識體系[16]。因而細(xì)粒度聚合知識組織系統(tǒng)中包括用戶任務(wù)情景概念。
在概念間關(guān)系構(gòu)建方面,按照細(xì)粒度體裁實(shí)例劃分聚合單元,所形成的聚合單元概念之間存在3種主要的關(guān)聯(lián)關(guān)系:一是同一體裁下圍繞特定交流目的的同組聚合單元之間的推進(jìn)關(guān)系。同組聚合單元之間通過推進(jìn)關(guān)系實(shí)現(xiàn)上級聚合單元的交際目標(biāo);二是用戶任務(wù)情景與各層級、各類型聚合單元之間的有用性差異形成的相關(guān)關(guān)系:三是圍繞特定任務(wù)情景而形成的體裁實(shí)例之間的關(guān)聯(lián)關(guān)系。如Zhang L的研究指出,在特定任務(wù)下,感知有用性程度高的語言功能單元之間實(shí)際上已經(jīng)存在相關(guān)關(guān)系,包括同一構(gòu)內(nèi)的功能單元和不同構(gòu)成間的功能單元。這些功能單元之間的關(guān)系,實(shí)際上可以通過語義關(guān)系來解釋,也就是這些聚合單元之間圍繞著某一任務(wù),可以形成一定的語義關(guān)系[15],而任務(wù)下相關(guān)功能單元之間的關(guān)系更可形成語義相關(guān)的關(guān)系,從而幫助期刊論文內(nèi)功能單元的語義信息組織[10]。
可見,聚合單元知識體系的構(gòu)建的關(guān)鍵在于:建立基于體裁理論的、反應(yīng)用戶情景需求的聚合單元知識體系;對聚合單元分類體系的概念、概念之間關(guān)系和實(shí)例進(jìn)行形式化,就可形成反應(yīng)聚合單元知識體系的本體,從而支持對于文本信息單元的組織和檢索。
3.2 基于聚合單元元數(shù)據(jù)的標(biāo)注與組織
聚合單元元數(shù)據(jù),是指聚合單元元數(shù)據(jù)框架下經(jīng)標(biāo)注的文檔聚合單元,是標(biāo)注與搜索的基本粒度單元。按照信息組織的基本理論,元數(shù)據(jù)是信息組織的重要工具。對細(xì)粒度聚合而言,對文檔粒度屬性的描述,對各層級聚合單元的描述和索引,乃至對聚合單元內(nèi)容間的關(guān)聯(lián)與利用,都依賴于元數(shù)據(jù)。因此,基于聚合單元元數(shù)據(jù)的標(biāo)注與組織,是實(shí)現(xiàn)細(xì)粒度聚合的基礎(chǔ)。
本文以曹樹金等提出聚合單元元數(shù)據(jù)框架為主體[17],參考朱嘉賢、白偉華與李吉桂提出的基于資源信息元的組織方式[18],從聚合單元元數(shù)據(jù)標(biāo)注的角度完善基于聚合單元元數(shù)據(jù)的語義標(biāo)注與組織理論與方法。
聚合單元元數(shù)據(jù)的標(biāo)注本質(zhì)上是元數(shù)據(jù)方案的形式化,便于計算機(jī)對元數(shù)據(jù)信息進(jìn)行存儲、查找和處理。在確定元數(shù)據(jù)屬性元素集后,先利用關(guān)系數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)標(biāo)注元數(shù)據(jù)的查詢、管理功能,再進(jìn)一步進(jìn)行XML置標(biāo),即:在標(biāo)注元數(shù)據(jù)與文檔聚合單元之間加一層基于XML的內(nèi)容管理層,以便于將來獨(dú)立于系統(tǒng)的長期保存、與其它系統(tǒng)的互操作等。
通過關(guān)系數(shù)據(jù)庫對不同層級的聚合單元進(jìn)行標(biāo)注,可按照聚合單元知識體系的層級構(gòu)建篇章一章節(jié)一句群三層數(shù)據(jù)庫表,并按照聚合單元元數(shù)據(jù)的3類元素:物理元數(shù)據(jù)、訪問元數(shù)據(jù)和語義元數(shù)據(jù)設(shè)置數(shù)據(jù)表字段。其中,篇章數(shù)據(jù)庫表的主要字段應(yīng)包括:Article ID. Title. Authors. Institution.Sources. Reference. Content. Last—Update. KeyWord、 Genre Type等。章節(jié)數(shù)據(jù)庫表的主要字段包括:Section_ID. Article ID. Section_beginning_loca-tion. Section_Length. Last_Update. Key Word andSection_Genre_Type等。句群數(shù)據(jù)庫表的主要字段包括:Unit_ID. Section_ID. Article_ID. Unit_be-ginning_ location、 Unit—Length、 Last—Update、 KeyWord and Unit_Genre_Type等。
通過3個數(shù)據(jù)表之間的關(guān)聯(lián),構(gòu)建不同層級文本聚合單元之間的包含與被包含關(guān)系:數(shù)據(jù)表中標(biāo)引的體裁類型信息(即聚合單元元數(shù)據(jù)中語義元數(shù)據(jù)類要素)與聚合單元本體中的聚合單元概念對應(yīng),使得不同體裁類型下不同層級聚合單元之間基于語言功能的語義關(guān)聯(lián)成為可能:數(shù)據(jù)表中標(biāo)引的關(guān)鍵詞信息(即聚合單元元數(shù)據(jù)中訪問元數(shù)據(jù)包含的要素)與學(xué)科領(lǐng)域本體對應(yīng),使得各體裁下各層級聚合單元實(shí)現(xiàn)基于主題的語義關(guān)聯(lián)。3個層級聚合單元數(shù)據(jù)表及其之間的關(guān)聯(lián)關(guān)系如圖3所示:
通過XML對聚合單元元數(shù)據(jù)進(jìn)行標(biāo)注,可采用RDF/XML來描述元數(shù)據(jù)信息。RDF的基本數(shù)據(jù)模型是由三元體組成:資源( Resource)、屬性( Property)和陳述(Statement)。其中,資源是主語( Subject),屬性是謂詞(Predicate),屬性值則是對象( Object)[26]。使用RDF作為元數(shù)據(jù)的描述工具,可支持元數(shù)據(jù)進(jìn)行語義互操作,這是細(xì)粒度聚合單元未來需要實(shí)現(xiàn)的,另一方面也可以與多種元數(shù)據(jù)進(jìn)行交換不改變其語義。根據(jù)聚合單元元數(shù)據(jù)方案,以下以一個帶有圖文的句群級別聚合單元為例,來實(shí)現(xiàn)它的形式化描述。
<?xml version=”1.0”?>
xmlns: rdf= http: //www. w3. org/1999/02/22 - rdf-syntax-ns#
xmlns: ns= http: //www. sysu. edu.c n/2015/meta-dataaboutAS#>
Rdf: about=”http://www. sysu. edu. cn/2015/metadataaboutAS/Picture/A1 -P01>
圖片單元
片段
網(wǎng)絡(luò)環(huán)境下論文間的引用關(guān)系模型
A1_P 01
國外網(wǎng)絡(luò)引文研究的現(xiàn)狀及展望_1前沿
我們發(fā)現(xiàn),網(wǎng)絡(luò)環(huán)境下文獻(xiàn)發(fā)生了巨大變化,形成了傳統(tǒng)文獻(xiàn)(print,P)和網(wǎng)絡(luò)文獻(xiàn)(web,W)兩大類型。一方面,傳統(tǒng)的學(xué)術(shù)論文仍是人們進(jìn)行學(xué)術(shù)交流的主陣地;另一方面,網(wǎng)絡(luò)資源和網(wǎng)絡(luò)交流手段以其無可比擬的優(yōu)點(diǎn)受到人們的青睞,其關(guān)系見圖1。
jpg
16K
框架圖
C:\Users\Administrator\Desktop\數(shù)據(jù)庫\圖片單元
在聚合單元對文檔進(jìn)行聚合單元劃分后,采用自下而上的方法,借助聚合單元本體實(shí)現(xiàn)聚合單元元數(shù)據(jù)的語義標(biāo)注。以聚合單元元數(shù)據(jù)為結(jié)點(diǎn),邏輯上按照樹狀結(jié)構(gòu)組織聚合單元知識庫,將相互關(guān)聯(lián)的聚合單元元數(shù)據(jù)最終構(gòu)成的知識體系,從而為檢索和聚合提供基礎(chǔ)。
4 基于細(xì)粒度聚合本體的語義聚合與組織機(jī)制
在明晰細(xì)粒度聚合信息組織關(guān)鍵問題的基礎(chǔ)上,本文在語義網(wǎng)環(huán)境下討論網(wǎng)絡(luò)資源細(xì)粒度聚合機(jī)制,從信息組織的角度進(jìn)一步完善網(wǎng)絡(luò)資源細(xì)粒度聚合的理論體系。語義網(wǎng)環(huán)境下,基于聚合單元本體、元數(shù)據(jù)等知識組織工具的細(xì)粒度語義聚合機(jī)制如圖4所示。
從圖4可見,在對網(wǎng)絡(luò)文檔資源進(jìn)行聚合單元的劃分、抽取、元數(shù)據(jù)標(biāo)注和索引后,通過細(xì)粒度聚合本體賦予聚合單元更豐富的語義關(guān)聯(lián)關(guān)系和情景關(guān)聯(lián)關(guān)系,從而支持用戶聚合語義相關(guān)的細(xì)粒度網(wǎng)絡(luò)文檔資源。
網(wǎng)絡(luò)文檔細(xì)粒度聚合既需要學(xué)科領(lǐng)域本體的支持,同時也需要任務(wù)情景關(guān)聯(lián)的聚合單元本體的支持。領(lǐng)域本體一方面可通過其概念體系更全面地、更多維地構(gòu)建語義空間描述網(wǎng)絡(luò)資源;另一方面,依據(jù)領(lǐng)域本體中概念之間的各種等級和非等級的關(guān)系,建立資源之間的語義關(guān)聯(lián)網(wǎng)絡(luò)。通過本體提供的語義空間和語義關(guān)系,可進(jìn)一步設(shè)計語義匹配算法,將資源和用戶的聚合檢索提問進(jìn)行語義匹配,并根據(jù)匹配結(jié)果將相關(guān)資源重組成內(nèi)在語義關(guān)聯(lián)的聚合結(jié)果,通過可視化等形式呈現(xiàn)給用戶,以便用戶通過知識結(jié)構(gòu)發(fā)現(xiàn)更多可能的、隱藏的新資源和新知識;聚合單元本體則可為網(wǎng)絡(luò)文檔信息單元的劃分、關(guān)聯(lián)關(guān)系構(gòu)建提供知識參考,建立資源之間以及資源與用戶之間的語義關(guān)聯(lián)網(wǎng)絡(luò),成為學(xué)科領(lǐng)域本體的補(bǔ)充。
在明晰語義關(guān)系的基礎(chǔ)上,對聚合單元、元數(shù)據(jù)和本體均通過RDF、XML或XML Schema進(jìn)行標(biāo)引,將其納入語義網(wǎng)體系結(jié)構(gòu)框架內(nèi),從而實(shí)現(xiàn)語義網(wǎng)環(huán)境下的資源描述、組織與揭示。 從信息組織機(jī)制來看,聚合單元元數(shù)據(jù)與細(xì)粒度聚合本體通過不同類型索引數(shù)據(jù)庫的組織,為細(xì)粒度聚合提供支持。網(wǎng)絡(luò)文檔細(xì)粒度聚合的信息組織機(jī)制如圖5所示。
從圖5可見,網(wǎng)絡(luò)文檔細(xì)粒度聚合的機(jī)制始于不同層級聚合單元元數(shù)據(jù)的構(gòu)建,而聚合單元元數(shù)據(jù)的構(gòu)建則以細(xì)粒度聚合本體為基礎(chǔ)。對于網(wǎng)絡(luò)文檔原始信息,通過聚合單元元數(shù)據(jù)描述主文檔、構(gòu)成單元和聚合單元3個層級的信息對象,從而形成主元數(shù)據(jù)文檔、構(gòu)成單元元數(shù)據(jù)文檔和聚合單元元數(shù)據(jù)文檔。同時,根據(jù)細(xì)粒度聚合本體提供的不同層級聚合單元之間的包含與被包含關(guān)系、同組內(nèi)聚合單元之間的語義推進(jìn)關(guān)系、學(xué)科領(lǐng)域概念之間的等級關(guān)系、相關(guān)關(guān)系、學(xué)科領(lǐng)域概念與聚合單元之間的描述關(guān)系,任務(wù)情景與聚合單元之間的不同強(qiáng)度的相關(guān)關(guān)系、文檔與聚合單元之間的描述關(guān)系等,構(gòu)建聚合關(guān)系索引。
為了支持多途徑快速檢索,根據(jù)聚合檢索元數(shù)據(jù)項構(gòu)建檢索點(diǎn),按照檢索點(diǎn)對元數(shù)據(jù)文檔進(jìn)行關(guān)鍵字段的抽詞、排序、歸并、裝配倒排文檔,從而建立多組面向不同層級聚合單元的倒排文檔和倒排文檔索引。
用戶向聚合系統(tǒng)提出聚合檢索需求后,系統(tǒng)將其檢索需求映射到檢索元數(shù)據(jù)中,并從細(xì)粒度聚合本體獲得語義關(guān)系和關(guān)聯(lián)關(guān)系。系統(tǒng)按照檢索元數(shù)據(jù)對各層級聚合單元的各組倒排檔索引進(jìn)行檢索,按照聚合關(guān)系索引實(shí)現(xiàn)在不同層級和不同維度的聚合單元之間進(jìn)行跳轉(zhuǎn),從而實(shí)現(xiàn)高效的多維度和細(xì)粒度聚合。
可見,要實(shí)現(xiàn)基于聚合單元分類體系的情景關(guān)聯(lián)和語義關(guān)聯(lián)的細(xì)粒度聚合,構(gòu)建蘊(yùn)含聚合單元語義關(guān)系、學(xué)科領(lǐng)域語義關(guān)系、任務(wù)與文本關(guān)系的細(xì)粒度聚合本體是關(guān)鍵。
5 討論
語義網(wǎng)環(huán)境下,網(wǎng)絡(luò)資源之間的關(guān)聯(lián)關(guān)系更復(fù)雜多樣,網(wǎng)絡(luò)資源識別、組織與利用的粒度更加細(xì)化,基于網(wǎng)絡(luò)文檔主題概念的語義關(guān)聯(lián)關(guān)系已經(jīng)不能完全滿足用戶需求。本文在基于主題的關(guān)聯(lián)關(guān)系的基礎(chǔ)上,提出利用用戶與多粒度體裁實(shí)例間關(guān)聯(lián)關(guān)系實(shí)現(xiàn)資源重組的信息組織路徑,以實(shí)現(xiàn)情景與語義關(guān)聯(lián)的細(xì)粒度聚合:按照語篇體裁結(jié)構(gòu)劃分聚合單元,以建立用戶與聚合單元之間的關(guān)聯(lián)關(guān)系為突破口,構(gòu)建反應(yīng)聚合單元知識體系及其與用戶需求關(guān)聯(lián)的細(xì)粒度聚合本體和與相應(yīng)的聚合單元元數(shù)據(jù),從而形成支持面向用戶特定情景的、支持知識發(fā)現(xiàn)的細(xì)粒度聚合機(jī)制。
該研究不僅能推動網(wǎng)絡(luò)學(xué)術(shù)資源細(xì)粒度聚合趨勢下信息組織和知識組織理論的完善和發(fā)展,還可豐富網(wǎng)絡(luò)學(xué)術(shù)資源細(xì)粒度聚合的理論。實(shí)踐上,結(jié)合聚合單元知識體系、聚合單元元數(shù)據(jù)相關(guān)研究成果,本研究可為各學(xué)科領(lǐng)域網(wǎng)絡(luò)資源細(xì)粒度聚合的實(shí)現(xiàn)提供整合的路徑和方法,從而提供學(xué)科領(lǐng)域信息資源組織與利用的效率與效用。
該研究明晰了細(xì)粒度聚合本體構(gòu)建的必要性、可行性與本體構(gòu)建的目標(biāo),因而,后續(xù)研究可進(jìn)一步探索反應(yīng)聚合單元之間,聚合單元與用戶之間以及聚合單元與源文檔之間多維語義關(guān)系的細(xì)粒度聚合本體,提高網(wǎng)絡(luò)學(xué)術(shù)文檔細(xì)粒度聚合的效用。
參考文獻(xiàn)
[1]王知津,鄭悅萍,信息組織中的語義關(guān)系概念及類型[J].圖書館工作與研究,2013,(11):13-19.
[2] Assefa S G.Human Concept Cognition and Semantic Relations inthe Unified Medical Language System: A Coherence Analysis[D].
University of North Texas, 2007.
[3]王佳敏,陸偉,劉家偉,等,多層次融合的學(xué)術(shù)文本結(jié)構(gòu)功能識別研究[J].圖書情報工作,2019, 13:1-10.
[4]于豐暢,陸偉.基于機(jī)器視覺的PDF學(xué)術(shù)文獻(xiàn)結(jié)構(gòu)識別[J].情報學(xué)報,2019, 38 (4):384-390.
[5]方龍,李信,黃永,等.學(xué)術(shù)文本的結(jié)構(gòu)功能識別——在關(guān)鍵詞自動抽取中的應(yīng)用[J].情報學(xué)報,2017, 36 (6):599- 605.
[6] Santini M, MehlerA,SharoffS. Riding the Rough Waves of Cenreon the Web: Concepts and Research Questions[ A]. In MehlerA, Sharoff S,&Santini M(Eds.), Cenres on the Web: Com-putational Models and Empirical Studies. Dordrecht, The Nether-lands: Springer, 2010: 3-30.
[7] Montesi M, Navarrete T.Classifying Web Cenres in Context:ACase Study Documenting the Web Genres Used by a Software Engi-neer[J]Information Processing and Management, 2008, 44:1410-1430.
[8] Crowston K,Kwasnik,B H.Can Document-Genre Metadata Im-prove Information Access to Large Digital Collections?[J]LihraryTrends, 2003, 52: 345-361.
[9] Nahotko M.Text Genres in Information Organization[C]//lnfor-mation Research, 2016, 21(4):732. http://lnformationR.net/ir/21 -4/paper732.html,
2019-05 - 04.
[10] Zhang L Linking Information through Function[ J]. Journal ofthe American Society for Information Science and Technology,2014, 63 (3):469-480.
[11] Vaughan M W, Dillon A.Leaming the Shape of Information:ALongitudinal Study of Web-News Reading[A].In Numberg P J,Hicks D L,F(xiàn)urutaR.(Ed.). Proceedings of the Fifth ACM Con-ference on Digital Libraries, New York: ACM, 2000: 236-237.
[12] Freund L.A Cross-Domain Analysis of Task and Cenre Effects onPerceptions of Usefulness[ J]. Information Processing and Man-agement, 2013, 48 (5):1108-1121.
[13] Hajibayova L,Jacob E K.An Investigation of the Levels of Ah-straction of Tags Across Three Resource Genres[J].InformationProcessing&Management, 2016. 52 (6): 1178-1187.
[14] Swales J M. Genre Analysis: English in Academic and ResearchSettings[M].Cambridge, UK: Cambridge University Press,1990.
[15] Zhang LGrasping the Structure of Joumal Articles: Utilizing theFunctions of Information Units [J]. Journal of the American Societyfor Information Science and Technology, 2012, 63 (3): 469-480.
[16] Ma C - C, Cao S -J. ldentifying Structural Genre ConventionsAcross Academic Web Documents for Information Use[A].Pro-ceedings of the Association for Information Science&Technology,Washington, 2017, 54 (1): 260-267.
[17]曹樹金,李潔娜,王志紅,面向網(wǎng)絡(luò)信息資源聚合搜索的細(xì)粒度聚合單元元數(shù)據(jù)研究[J].中國圖書館學(xué)報,2017, 43(4):74-92.
[18]朱嘉賢,白偉華,李吉桂.Web資源的多粒度語義標(biāo)注及其應(yīng)用技術(shù)研究[J].計算機(jī)科學(xué),2011, 38(8):83-87.
[19]邱均平,樓雯,余凡,等,基于資源本體的館藏資源語義化研究[J]圖書館論壇,2013,33 (6):1-7.
[20]樓雯.館藏資源語義化關(guān)鍵技術(shù)及實(shí)證研究[J].中國圖書館學(xué)報,2013,39 (6):27-40.
[21]邱均平,楊強(qiáng),樓雯.資源本體構(gòu)建理論與實(shí)證研究[J].情報理論與實(shí)踐,2014,37 (5):1-6.
[22]何超,張玉峰.基于本體的館藏數(shù)字資源語義聚合與可視化研究[J].情報理論與實(shí)踐,2013,36 (10):73-76,39.
[23]歐石燕,胡珊,張帥.本體與關(guān)聯(lián)數(shù)據(jù)驅(qū)動的圖書館信息資源語義整合方法及其測評[J].圖書情報工作,2014,58(2):5-13.
[24]成全,周蘭芳,面向語義關(guān)聯(lián)的微博信息多維主題聚合研究[J].情報理論與實(shí)踐,2018,41 (7):136-142.
[25]李楓林,陳德鑫,梁少星,基于語義關(guān)聯(lián)和情景感知的個性化推薦方法研究[J].情報雜志,2015,34 (10):189-195.
[26] RDF Primer[ EB/OL] http://www.w3.org/TR/2004/REC-rdf -primer-20040210/,2019-05-04.
(責(zé)任編輯:孫國雷)
收稿日期:2019-09-21
基金項目:中央高?;究蒲袠I(yè)務(wù)費(fèi)項目“支持跨學(xué)科知識發(fā)現(xiàn)的學(xué)術(shù)論文信息單元識別與聚合研究”(項目編號:17wkpy56);國家社會科學(xué)基金重大項目“基于特定領(lǐng)域的網(wǎng)絡(luò)資源知識組織與導(dǎo)航機(jī)制研究”(項目編號:12&ZD222)。
作者簡介:馬翠嫦(1981-),女,副研究館員,研究方向:信息組織與行為、資源建設(shè)。司徒俊鋒(1980-),男,副研究館員,研究方向:信息組織、知識組織。曹樹金(1962-),男,教授、博士生導(dǎo)師,研究方向:信息組織與行為。