袁小群 孫夢婷
[摘 要] 指出出版內容重組是系統(tǒng)根據用戶信息需求,從已有的經過碎片化處理的信息資源中選擇相關內容組織成符合特定篇章結構的內容產品的過程;目前出版內容動態(tài)重組工作尚停留在對碎片化內容資源的關聯聚合上,未實現基于篇章結構的重新組織,最終呈現的內容產品缺乏可讀性,無法直接服務于用戶。因此設計出版內容重組系統(tǒng),將基于篇章結構的內容組織環(huán)節(jié)融入動態(tài)語義出版當中,對出版內容動態(tài)重組的整體工作框架進行完善;設計內容組織模塊的功能,通過挖掘更深層次的用戶需求和引入文本篇章結構,實施以下內容組織策略:根據深層次的用戶意圖構建篇章意圖結構,將其映射為篇章修辭結構,以此作為出版內容資源組織的框架。
[關鍵詞]出版內容重組 篇章結構 修辭結構理論 篇章組織框架 數字出版
[中圖分類號] G237[文獻標識碼] A[文章編號] 1009-5853 (2019) 02-0098-08
1 引 言
出版內容重組是指系統(tǒng)根據用戶信息需求,從已有的經過碎片化處理的信息資源中,選擇相關內容并組織成具有特定篇章結構的內容產品的過程。與一般的數字出版相比,出版內容動態(tài)重組屬于深層次和高級階段的數字出版:一般的數字出版強調數字化內容加工,而出版內容重組則是對一般數字出版產品進行知識碎片化加工后的按需重組和復用。通過出版內容重組,內容服務提供商可以從已有的出版資源中選擇用戶需要的內容進行動態(tài)組織,如此不僅能實現數字出版物的實時生成,還能為用戶提供定制化的內容服務。
出版內容動態(tài)重組是對出版內容資源“分解—重組”的復用過程,一般可分為以下幾個步驟:出版內容資源的數字化和碎片化處理;碎片化內容的結構化加工;基于用戶需求的內容聚合;基于篇章結構的內容重組;內容產品的最終呈現。目前,出版內容動態(tài)重組工作主要集中于前期出版內容資源的碎片化加工以及對碎片化內容的關聯聚合[1],比較忽視對相關內容基于篇章結構的重新組織,即語義出版物內容與傳統(tǒng)敘事性內容的協同工作問題[2]。以英國廣播公司為例,其實現按需重組的機制是根據用戶的查詢式獲取語義相關內容,包括利用SPARQL查詢調用RDF三元組形式存儲的內容、利用推理功能對相關內容進行擴展、調用關聯數據并返回相關聯內容等[3],但尚未實現對所聚合內容基于篇章結構的重新組織,而這一環(huán)節(jié)正是生成符合用戶閱讀習慣的內容產品的重要一步。
內容重組不只是重組內容的簡單堆砌,而且需要將其以符合自然語言組織規(guī)則的方式呈現給用戶。內容重組和內容聚合的區(qū)別在于:(1)內容聚合環(huán)節(jié)所生成的聚合內容需要根據一定的篇章結構進行重新組織,才是內容重組的結果;(2)內容聚合環(huán)節(jié)基于主題關聯方式對用戶需求進行表示和挖掘,缺少對更深層次用戶意圖的表示和追蹤,無法滿足根據用戶層級化的信息查詢意圖構建長篇幅結構文本的需要。因此,本文借鑒認知科學對“用戶需求”這一概念的定義和內涵描述,將用戶意圖進行分類表示,并給出對應于用戶意圖的系統(tǒng)任務,在此基礎上構建由意圖結構及修辭結構組成的篇章結構,作為出版內容資源重組的指導框架。
2 出版內容重組系統(tǒng)架構
出版內容重組本質上需要解決兩方面問題:一是重組內容的選擇,二是對所選擇內容的重新組織。對于前者,一般采用的方案是利用數據關聯技術或聚類等方法,根據用戶的信息需求,從領域知識庫中匹配得到相關的主題知識網絡。后者則是目前數字出版和語義出版領域比較忽視的一點,也是本文論述的重點,即如何對上一步得到的相關內容進行基于篇章結構的組織,以為用戶提供具有可讀性的長篇幅內容產品。從這兩方面的功能需求出發(fā),本文設計了如圖1所示的出版內容重組系統(tǒng)。
該系統(tǒng)分為3個功能模塊:(1)用戶模型:通過對用戶數據的分析和挖掘,識別用戶所處的信息搜索階段及其對應的用戶意圖;(2)內容選?。焊鶕脩裟P湍K分析得到的用戶查詢主題和用戶已有的領域知識水平,通過相似度匹配或數據關聯等方法,從領域知識庫中匹配得到符合用戶需求的主題知識網絡;(3)內容組織:根據用戶模型模塊分析得到的用戶意圖類型,確定系統(tǒng)目標,據此選擇對應的篇章結構框架,并利用所抽取的重組內容對該框架進行實例化,得到初步的文本規(guī)劃結果。最后,對該結果進行語法、版式等方面的進一步規(guī)范,得到最終的內容產品。
2.1 用戶模型
閱讀是一個解碼過程:讀者通過識別字母和單詞,從底層的最小文本單位(字母和單詞)到頂層越來越大的單位(短語、從句、句間連接)進行解析,重建作者的意圖和想要表達的意義[4]。出版內容重組則是一個逆向過程,需要從用戶意圖入手,基于用戶意圖來抽取用戶感興趣的重組內容、構建對應的內容組織結構,對兩者進行融合才能生成最終的內容產品。因此,本文從用戶所處的信息搜索階段和用戶意圖兩個維度對用戶需求進行表示:首先通過用戶檢索式和用戶領域知識的挖掘,對用戶所處的信息搜索階段進行分類表示,據此從領域知識庫中匹配得到符合用戶需求的重組內容;其次,通過用戶所處的搜索階段判斷用戶意圖,將其分解為一系列系統(tǒng)任務,以此作為設計篇章結構框架的依據。
2.2 內容選取
內容選取模塊的設計參考了目前發(fā)展較為成熟的內容推薦方法[5][6],采用基于語義相似度的知識網絡擴展方法:首先,通過聚類、數據關聯等方法,將用戶查詢式所反映的用戶查詢需求和領域知識庫進行匹配;其次,將匹配結果進行排序去冗,得到與用戶需求高度相關的主題列表;最后,將用戶模型中的用戶領域知識水平作為約束條件,對相關主題知識網絡的邊界進行進一步約束,由此獲取符合用戶需求的主題知識網絡。需要指出的是,這一模塊獲得的主題知識網絡是依據領域知識邏輯組織的,并不符合自然語言組織規(guī)則,需要進一步基于篇章結構的重新組織。
2.3 內容組織
在內容組織模塊,本文引入修辭結構理論(Rhetorical Structure Theory,RST)[7]這一經典的篇章結構理論。該理論通過描述文本各部分的修辭關系來分析篇章的結構和功能:功能語句(span)是最基本的篇章單位(Elemental Discourse Units,EDU),篇章整體結構可以通過EDU及連接EDU的修辭關系所組成的層級結構進行表示。EDU又可分為核心(nucleus)和衛(wèi)星(satellite)兩種,前者是表示中心信息的單元,具有相對完整的語義;后者則是次要內容,作用于核心部分。本文采用RST理論的原因有3點:(1)RST是一個擁有豐富注釋的框架[8][9],也是一個為數不多的對給定文本的意圖、修辭關系和層級關系進行統(tǒng)一刻畫的篇章結構理論;(2)已有的利用修辭結構樹對篇章結構進行分析的研究以及基于RST理論構建所得的結構樹庫表明,不同主體在RST理論框架下進行的注釋保持有較高的一致性;(3)基于RST理論的篇章結構樹已經在信息檢索[10]、文本摘要[11]、情感分析[12][13]等多個領域得到廣泛應用。
本文沿用RST理論對篇章結構的表示思路,即通過描述文本各部分的修辭關系來表示篇章結構和功能。在此基礎上,通過兩方面的內容來定義篇章結構框架:篇章意圖結構和修辭結構。前者是對用戶意圖的層級化推導,用于增加篇章的連貫性以及篇章組織的可解釋性;后者則對應于框架的實例化等操作層面的工作,修辭結構中的最小組成和操作單元是RST理論所定義的修辭關系(Rhetorical Relation)。
雖然數字出版模式早已實現了對出版物內容與形式的分離,語義出版進一步推動了數字出版向內容資源碎片化加工和關聯聚合服務模式的轉變。但從本質上來看,出版內容資源仍然被封裝在以本和篇為單位的文本載體中。受此局限,系統(tǒng)即便能夠準確推斷出用戶需求,其所推薦的內容產品也無法直接服務于用戶,用戶仍然需要對系統(tǒng)提供的結果進行進一步的篩選和組織。對此,本文提出將基于篇章結構的內容組織引入到語義出版當中,進一步推動個性化內容產品的動態(tài)生成。具體來說,本文設計的出版內容重組系統(tǒng)在接收用戶請求之前,并不存儲完整形態(tài)的出版物。只有在用戶發(fā)出請求后,系統(tǒng)才會根據用戶需求選擇相應的碎片化內容資源并對其進行基于篇章結構的重新組織,以此生成個性化定制的內容產品。為實現上述功能,上文提及的內容組織模塊擔負著關鍵作用,其功能的實現需要重點解決兩方面問題:一是對更深層次用戶需求的挖掘;二是對文本篇章結構的設計和利用。以下將針對這兩方面的功能設計展開更加詳細的論述。
3 用戶查詢意圖的表示和識別
針對處于不同情境、面對不同問題、擁有不同目標的用戶,識別其信息需求,是內容重組工作的起點。然而在現實中,顯式的用戶需求信息是稀缺的,用戶通常不會也不能準確傳達出個人的信息需求。因此,系統(tǒng)需要對隱式的用戶行為數據進行挖掘。在此之前,首先需要確定如何對“用戶需求”這一泛化概念進行形式化表征,為此本文引入“意圖”這一概念。
3.1 信息需求與查詢意圖
信息需求是指個人或群體定位和獲取信息以滿足有意識或無意識需求的期望[14]。這一概念最早由羅伯特·S·泰勒(Robert S. Taylor)于1962年[15]提出,他為了回答“一個具有信息需求的人是如何從信息系統(tǒng)中獲得答案的?”這一問題,將信息需求劃分為4個層次:(1)本能需求(Visceral Need)。對未知信息最高層次的需求,是用戶的真實需求,但是往往無法精確表達。(2)意識需求(Conscious Need)。在頭腦中對問題有意識的描述,是本能需求的具體化;(3)形式需求(Formalized Need)。對問題合理的、無歧義的、規(guī)范的描述。(4)妥協需求(Compromised Need)。提交給信息系統(tǒng)的問題,是用戶在與系統(tǒng)交互中受到多種限制而做出的對真實信息需求的簡化。這4個層次刻畫了用戶從本能信息需求出發(fā)到最終形成問題,并將查詢提交給系統(tǒng)的全過程。用戶最終提交的查詢并不能代表用戶的真實需要,而是用戶的妥協需求。因此,系統(tǒng)需要對查詢背后的用戶信息需求進行推斷,即從用戶的妥協需求向更高層次需求的探究?!安樵円鈭D”就是近似表達用戶高層次信息需求的用于機器理解的明確形式,是介于本能需求與妥協需求的一種中間狀態(tài),并不斷逼近本能需求[16]。
3.2 信息搜索過程階段模型
遵循泰勒對用戶信息需求4個層級的劃分,本文引入卡羅爾· C ·庫爾梭(Carol C. Kuhlthau)[17]信息搜索階段模型對“查詢意圖”進行層級化遞進的分類表示,并針對各階段的用戶意圖設計相應的系統(tǒng)任務,作為篇章意圖結構的頂層構成。
庫爾梭將信息搜索過程分為6個階段:(1)啟蒙(Initiation)。認識到對信息的需求:思考問題,理解任務,并將問題與先前的經驗和知識聯系起來。(2)選擇(Selection)。選擇和確定要調查的一般主題或要采取的方法:根據個人興趣、任務要求、可用信息和時間等標準來權衡各個主題,選擇最佳主題或方法。(3)探索(Exploration)。調查關于一般主題的信息:擴展個人理解,對主題形成足夠的了解,以產生重點關注的焦點或個人觀點。需要指出的是,在這一階段,那些有助于提供新的知識結構的策略(如羅列相關事實以擴展思路)是最有幫助的,而一些急于求成的指示性策略(如針對某一個細節(jié)問題進行詳細的記錄)可能會使信息搜索者產生挫敗感而阻礙進程。(4)形式化(Formulation)。根據檢索信息形成一個重點關注的焦點主題:從信息中識別和選擇觀點,形成對主題的聚焦視角。(5)收集(Collection)。收集與關注的焦點主題相關的信息,以定義、擴展和支持焦點主題。(6)呈現(Presentation)。通過對主題的個性化綜合來結束搜索,并對結果進行呈現。
3.3 基于任務的用戶意圖表示
信息搜索階段模型為識別用戶意圖提供了初步的分析框架,針對不同階段任務的特征,本文將各階段用戶意圖進一步分解為一系列系統(tǒng)子任務,并將其對應關系羅列如表1所示。
在不同的信息搜索階段,對應于知識儲備不一、信息需求各異的用戶(?c),系統(tǒng)需要實現不同的任務,如:讓用戶知曉(KNOW/KNOW-ABOUT)關于某一主題(?topic)不同層次的信息,包括典型描述方式(?description)、涉及的學科領域(?DISCIPLINARY)、典型研究視角(PERSPECTIVE-OF)、研究方法(METHODS-OF)、關鍵概念(KEY-CONCEPT-OF)、主要概念(?concept)或命題(?proposition)之間的區(qū)別或聯系(DIFF/RELA)等。以(KNOW ?c? (REF? ?topic? ?description))為例,該語句表示以下系統(tǒng)任務:讓用戶知曉(KNOW)關于某一主題(?topic)的典型描述方式(?description)。
3.4 用戶意圖識別
大量研究表明,通過挖掘用戶行為數據可以對用戶所處的信息搜索階段、用戶的領域知識水平進行判斷。如佩爾蒂·瓦克里(Pertti Vakkari)[18]、佩爾蒂·瓦克里和南納·哈卡拉 (Nanna Hakala)[19]的研究表明,用戶行為在檢索的不同階段不同:檢索開始時,用戶更多地只使用單詞片段;隨著檢索深入,用戶會使用更多同義詞和平行概念。賴恩·W·懷特(Ryen W. White)等人[20]指出,用戶隱性反饋更可能出現在檢索中期,而顯性反饋則更可能出現在檢索后期。張向敏等人[21]利用多元回歸分析方法建立了用戶領域知識的預測模型,通過比較發(fā)現利用到保存的文檔數、檢索式平均長度和所打開文檔的平均排位這3種變量的模型效果最佳。
總結來說,目前對用戶信息搜索狀態(tài)的預測模型在輸入特征項的選擇上,最常使用的是時間、檢索式、收藏點擊保存等行為數據;在預測方法上,普遍采用回歸分析方法、貝葉斯模型、決策樹模型等。在用戶意圖識別過程中,本文系統(tǒng)采用類似的預測方法,通過對用戶行為數據的挖掘,對用戶所處的信息搜索階段進行識別,以此判定用戶信息搜索的意圖。
4 篇章結構框架
篇章結構是文本宏觀結構的一部分,用于表示包含有作者預期表達意義的文本的邏輯組織形式[22]。當前領域知識庫通常采用學科知識邏輯來組織碎片化的內容資源,但系統(tǒng)呈現給用戶的內容產品并不符合自然語言的組織邏輯。隨著聚合內容體量的增加,缺乏可讀性的內容產品不能被用戶有效地理解吸收。為此,本文引入“篇章結構”這一概念,對主題知識網絡進行重新組織。在上文對用戶意圖進行形式化表示的基礎上,本文設計了用于內容組織的篇章結構框架,包括意圖結構和修辭結構兩個部分。前者用于增加篇章的連貫性和篇章組織過程的可解釋性,后者用于對接框架的實例化等操作層面的工作,由RST關系作為最小單位組成。
針對6個信息搜索階段,本文設計了相對應的篇章結構框架。如表2所示,該結構包含6個部分:框架名稱,框架信息,用戶意圖,系統(tǒng)目標,由系統(tǒng)目標分解得到的篇章意圖結構,由意圖結構映射所得、由RST關系組成的篇章修辭結構。以“啟蒙”階段為例,其篇章結構框架如表2所示。
4.1 篇章意圖結構
凱瑟琳· R ·麥克考恩(Kathleen R. Mckeown)[23]指出,自然語言在實現某一交流目的時往往遵循特定模式,如說話者在描述一個對象時通常采用以下策略:(1)將該對象歸為某一類別,提供該類別成員典型的屬性和功能信息;(2)提供該對象的類比、成分、屬性等額外信息;(3)通過舉例進行說明。本文對該種策略進行形式化表征,將其定義為篇章的意圖結構。在具體操作層面上,本文將系統(tǒng)目標分解為對篇章核心和衛(wèi)星片段的任務要求,并引入目標增長點(growth point)[24]對其進行任務的層級分解,將最終形成的整體層級結構作為語義約束條件來增加所組織篇章的連貫性,該整體層級結構即為篇章意圖結構。
以表2的“啟蒙”框架為例,為了實現“明確信息需求”這一用戶意圖,系統(tǒng)需要實現“給出不同學科領域(?DISCIPLINARY)對該主題(?topic)的概念化表述(CONCEPTUALIZATION)”這一系統(tǒng)目標。該系統(tǒng)目標可進一步分解為“對該問題的形式化表達:(KNOW ?c? (REF? ?topic? ?description))”“該問題涉及的學科領域:(KNOW ?c? (DISCIPLINARY-OF? ?topic))”“某一個領域對該問題進行概念化的操作方法:(KNOW? ?user? (OPERATIONALIZATION-OF(CONCEPTUALIZATION ?topic? ?DISCIPLINARY)))”這三個核心片段的子目標。子目標進一步衍生出更為細節(jié)的目標增長點,包括:該領域對該問題操作化方法的情況說明、成分、屬性、目的等任務。最終形成“用戶意圖—系統(tǒng)目標—目標增長點”這一層級樹狀結構,即為對應于該信息搜索階段的篇章意圖結構。該結構中的節(jié)點表示子目標或目標增長點,節(jié)點間的連接表示目標間的層級關系。
4.2 篇章修辭結構
篇章意圖結構各層級的系統(tǒng)任務體現了系統(tǒng)和用戶交互過程中的交流目的,不同交流目的又可映射為不同的修辭模式。篇章的修辭結構由RST關系組合而成,是篇章結構框架的操作化接口。RST關系作為連接篇章核心和衛(wèi)星片段的連貫關系,可從4個方面進行表示:(1)對核心片段的約束(constraint);(2)對衛(wèi)星片段的約束;(3)對核心片段和衛(wèi)星片段聯結(combination)的約束;(4)效果。以“總結關系(Summary)”為例,它的定義如下:(1)核心(N)受到約束:N的單位必須大于1;(2)衛(wèi)星(S)無約束;(3)核心+衛(wèi)星的約束:S復現N的內容,但更簡短;(4)效果:讀者識別出S是對N的簡要重述。
通過篇章意圖結構節(jié)點與RST關系“效果”部分的匹配,可將篇章意圖結構映射為修辭結構。同樣以表2的“啟蒙”框架為例,其篇章意圖結構中的核心片段目標增長點可映射為Circumstance、Elaboration、Purpose、Antithesis、Cause等RST關系,即通過調用Circumstance、Elaboration、Purpose、Antithesis、Cause等RST關系,對某一領域某一問題的操作化方法展開環(huán)境及情況說明,屬性、成分等子信息補充,目的闡述,帶有情感偏向的案例對照說明,原因闡釋等。
5 基于篇章結構框架的文本規(guī)劃
本文設計的內容組織策略是根據深層次用戶意圖構建篇章意圖結構,將其映射為篇章修辭結構,以此作為框架對出版內容資源進行重新組織。在上文對篇章的意圖結構和修辭結構進行定義的基礎上,本節(jié)將對基于框架的內容資源組織環(huán)節(jié)的具體步驟進行說明,即圖1內容組織功能模塊中文本規(guī)劃器的具體工作機制。
文本規(guī)劃器擔負著將重組內容和篇章修辭結構進行融合,以生成初步成型的內容產品的功能。這一過程首先需要對篇章結構框架進行選擇,通過不同框架和用戶所處信息搜索階段之間的匹配來實現。其次,需要對這一篇章結構框架進行實例化,即從相關主題知識網絡中搜尋符合條件的輸入元素,對篇章修辭結構的信息槽(slot)進行填充。文本規(guī)劃器的工作機制可表述為如圖2所示的步驟:(1)根據篇章意圖結構各層級的子目標節(jié)點,利用SPARQL查詢從相關的主題知識網絡中調用以RDF三元組形式存儲的內容作為文本規(guī)劃器的輸入元素;(2)根據RST關系和篇章意圖結構之間的映射關系,將篇章意圖結構轉化為篇章修辭結構;(3)文本規(guī)劃器檢查輸入元素和篇章修辭結構中各層RST關系的核心約束及衛(wèi)星約束的匹配情況,以深度優(yōu)先或寬度優(yōu)先的方式對修辭結構樹的節(jié)點進行擴展;(4)重復第3步,實現每個新激活的增長點目標,并將實例化的RST關系添加到目標篇章樹結構當中;(5)在所有輸入元素都被使用,或所有系統(tǒng)目標都得到滿足的情況下,目標篇章樹的結構化過程結束;(6)以深度優(yōu)先、從左到右的方式遍歷樹,將關系的特征線索詞或短語添加到適當的信息槽中,并將結果傳遞給語法規(guī)范器和版式規(guī)范器進行進一步優(yōu)化。
綜上,在本文第4部分所定義篇章結構框架的基礎上,系統(tǒng)根據篇章意圖結構從相關主題知識網絡中匹配得到文本規(guī)劃器的重組內容輸入量,通過將篇章意圖結構映射為篇章修辭結構得到文本規(guī)劃器的篇章組織結構輸入量。文本規(guī)劃器在得到輸入量后,基于RST關系的約束條件將兩者進行匹配,對RST關系進行實例化并添加到目標篇章樹中。滿足終止條件所得到的目標篇章樹結構即為符合特定篇章結構的內容重組形態(tài),對其進行語法和版式優(yōu)化,即可得到重組后的內容產品。
6 總 結
出版內容動態(tài)重組不僅是對相關內容的簡單聚合,而且需要將重組內容以符合自然語言組織規(guī)則的方式呈現給用戶。本文提出的出版內容重組系統(tǒng),旨在實現對一般數字出版產品知識碎片化后的按需重組和復用,將目前數字出版和語義出版領域對內容資源的碎片化加工及聚合工作,進一步拓展至基于篇章結構的內容組織,實現出版內容動態(tài)重組整體工作框架的進一步完善。文本重點論述兩個關鍵的系統(tǒng)功能設計:一是對更深層次用戶需求的挖掘;二是對長篇幅篇章結構的表示和操作設計。對于前者,本文借鑒認知科學對用戶需求的內涵描述,將用戶需求、用戶意圖和系統(tǒng)目標進行關聯,實現對用戶意圖的形式化表示;對于后者,本文引入計算語言學領域面向文本自動生成系統(tǒng)的篇章結構理論,從意圖結構和修辭結構兩個方面對篇章結構框架進行定義,并在此基礎上對文本規(guī)劃的工作機制進行說明。
注 釋
[1]李楠,孫濟慶,馬卓.面向學術文獻的語義出版技術研究[J].出版科學,2015,23(6):85-92
[2]王曉光,宋寧遠.語義出版物的內容組織架構研究:基于納米出版物和微型出版物的比較分析[J].出版科學,2017,25(4):20-27
[3]王莉莉,欒冠楠.英國廣播公司(BBC)動態(tài)語義出版模式研究[J].圖書情報工作,2017,61(8):126-132
[4]Zhang X Y. The Effects of Formal Schema on Reading Comprehension:An Experiment with Chinese EFL Readers[J]. Computational Linguistics and Chinese Language Processing, 2008, 13(2):197-214
[5]李吉,黃微,郭蘇琳.一種基于相似度和信任度融合的微博內容推薦方法[J].圖書情報工作,2018,62(11):112-119
[6]梁婷婷,李春青,李海生.基于內容過濾PageRank的Top-k學習資源匹配推薦[J].計算機工程,2017,43(2):220-226
[7]Mann W C, Thompson S A. Rhetorical Structure Theory: Toward a functional theory of text organization[J]. Text & Talk, 1988, 8(3):243-281
[8]Prasad R, Dinesh N, Lee A, et al. The Penn Discourse TreeBank 2.0[C]// International Conference on Language Resources and Evaluation, Lrec 2008, 26 May - 1 June 2008, Marrakech, Morocco. DBLP, 2008:2961-2968
[9]Zhou Y, Xue N. The Chinese Discourse TreeBank: a Chinese corpus annotated with discourse relations[J]. Language Resources & Evaluation, 2015, 49(2):397-431
[10]Kuyten P, Bollegala D, Hollerit B, et al. A Discourse Search Engine Based on Rhetorical Structure Theory[C]// European Conference on Ir Research, ECIR 2015, Vienna, Austria. 2015:80-91
[11]Ibrahim A, Elghazaly T. Improve the Automatic Summarization of Arabic Text Depending on Rhetorical Structure Theory[C]// Mexican International Conference on Artificial Intelligence. IEEE, 2014:223-227
[12]Chenlo J M, Hogenboom A, Losada D E. Rhetorical Structure Theory for Polarity Estimation: an Experimental Study[J]. Data & Knowledge Engineering, 2014, 94(PB):135-147
[13]Fu X, Liu W, Xu Y,Yu C,Wang T. Long Short-term Memory Network over Rhetorical Structure Theory for Sentence-level Sentiment Analysis[C].JMLR: Workshop and Conference Proceedings,2016, 63:17-32
[14]Baeza-Yates R. The intention behind web queries[C]// International Conference on String Processing and Information Retrieval. Springer-Verlag, 2006:98-109
[15]Taylor R S. The process of asking questions[J]. Journal of the Association for Information Science & Technology, 1962, 13(4):391-396
[16]宋巍. 基于主題的查詢意圖識別研究[D]. 哈爾濱:哈爾濱工業(yè)大學,2013:4-7
[17]Kuhlthau C C.Inside the search process: Information seeking from the user[J]. Journal of the American Society for Information Science & Technology, 1991, 42(5):361-371
[18] Vakkari P. A theory of the task‐based information retrieval process: a summary and generalisation of a longitudinal study[J]. Journal of Documentation,2001,57(1):44-60(17)
[19] Vakkari P, Hakala N. Changes in relevance criteria and problem stages in task performance[J]. Journal of Documentation, 2000,56(5):540-562
[20]White R W, Ruthven I, Jose J M. A study of factors affecting the utility of implicit relevance feedback[C]// ACM, 2005:35-42
[21]Zhang X, Liu J, Cole M, et al. Predicting users' domain knowledge in information retrieval using multiple regression analysis of search behaviors[J]. Journal of the Association for Information Science & Technology, 2015, 66(5):980–1000
[22]Sharp A. Chinese L1 Schoolchildren Reading in English: The Effects of Rhetorical Patterns[J]. Reading in A Foreign Language, 2002, 14(2):111-135
[23]Mckeown K R. The TEXT system for natural language generation: an overview [C]// The Proc. of the Meeting of the Association for Computational Linguistics. 1982:497-511
[24]Hovy E H. Automated discourse generation using discourse structure relations[M]// Natural language processing. MIT Press, 1994:341-385
(收稿日期: 2018-11-15)