李曉昀 陽小華 萬亞平 余穎 馬家宇 劉志明 蔣輝
摘要: 體裁是信息檢索中重要的上下文因素之一。文章闡述了體裁的含義,重點說明了數(shù)字體裁的含義、識別與描述,介紹了體裁在信息檢索中的應(yīng)用現(xiàn)狀,并分析了體裁在應(yīng)用中所面臨的識別、標(biāo)注等問題;同時指出在未來發(fā)展中,體裁作為檢索目標(biāo)與文檔目標(biāo)的表現(xiàn)方式之一,應(yīng)獨立于內(nèi)容與用戶當(dāng)前任務(wù)進行單獨匹配。為將體裁作為獨立維度應(yīng)用于檢索系統(tǒng)以提高返回結(jié)果相關(guān)度,引入DCG作為評價指標(biāo)。實驗結(jié)果表明,該方法能有效提高檢索效果。
關(guān)鍵詞: 體裁; 信息檢索; 上下文; 匹配; 任務(wù)
中圖分類號:TP391.1文獻標(biāo)志碼:A 文章編號:1006-8228(2012)05-29-03
Application of Genre in Information Retrieval
Li Xiaoyun, Yang Xiaohua, Wan Yaping, Yu Ying, Ma Jiayu, Liu Zhiming, Jiang Hui
(College of Computer Science and Technology, University of South China, Hengyang, Hunan 421001, China)
Abstract: Genre is one of the most important contextual factors in the context-driven information retrieval. The notion of genre was introduced in this paper, especially digital genre in cyber space. Expatiated current research works on the identification, description of genre, and its application in information retrieval. Furthermore, concluded some problems existed in current research, including automatic identification and annotation of genre, and proposed that genre can be used to reflect both search goal and document intent, and then serves as an unattached dimension, besides the topic dimension, to match the purpose between the information need and documents. The experimental results demonstrated the potential of genre to improve information retrieval.
Key words: genre; information retrieval; context; match; task
0 引言
中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[1]顯示,超過76%的網(wǎng)民選擇使用以搜索引擎為代表的信息檢索系統(tǒng)搜索網(wǎng)絡(luò)資源。近年來,如何提高信息檢索質(zhì)量一直是信息檢索領(lǐng)域的研究熱點。信息檢索是一個復(fù)雜且多變的過程,不同上下文情境會讓用戶產(chǎn)生不同的信息需求。在過去數(shù)十年中,信息檢索的發(fā)展經(jīng)歷了一個從以系統(tǒng)為中心,到以用戶為中心,再到目前基于上下文檢索的過程[2]。2005年信息檢索領(lǐng)域頂級會議SIGIR專設(shè)的IRiX討論組分析了信息檢索中的各類上下文因素,2006年歐洲信息檢索大會(ECIR)強調(diào)上下文是影響檢索質(zhì)量的關(guān)鍵,其他多個國際會議,如IIiX(2006至今)、Context-Based IR(CIR,2005, 2007)、Adaptive IR(AIR,2006, 2008)以及CIRSE(2009,2010)等亦專門討論了上下文信息檢索技術(shù)(Contextual IR,CIR)。 由此可見,上下文驅(qū)動的信息檢索已成為目前的研究熱點。
美國學(xué)者Ingwersen將信息檢索中各類上下文因素歸為七種[3]:文檔內(nèi)部特征、文檔之間關(guān)系、用戶與信息檢索系統(tǒng)的交互信息、用戶信息、其他用戶對文檔的評價、推薦等信息、當(dāng)前相關(guān)社會信息及歷史信息。在眾多上下文因素中,體裁既能反映文檔內(nèi)部特征、又可作為用戶對文檔的標(biāo)注,已成為信息檢索中的重要上下文因素之一。本文對信息空間中體裁的含義、識別與描述,信息檢索領(lǐng)域中體裁的應(yīng)用現(xiàn)狀、發(fā)展趨勢與所面臨的問題進行了分析,并用實驗驗證了體裁對于提高信息檢索質(zhì)量的作用。
1 體裁的含義
體裁是指在文學(xué)、電影、音樂、藝術(shù)等領(lǐng)域,描述作品表現(xiàn)形式的一種名稱。例如,文學(xué)作品有詩歌、散文、小說、戲劇等體裁;電影有動作、喜劇、懸疑等體裁;音樂有輕音樂、民謠、爵士、搖滾等體裁。為便于敘述,本文將文學(xué)、電影、音樂、藝術(shù)等領(lǐng)域中各類作品統(tǒng)稱為文檔。
每一種體裁都有一套相對穩(wěn)定的特征,能夠反映出某一類文檔特定的風(fēng)格、內(nèi)容及形式。其中,風(fēng)格描述出文檔的結(jié)構(gòu)特征,內(nèi)容表達出文檔的主題,形式則指明了內(nèi)容的編排方式。英國語言學(xué)家Swales[4]認為文檔體裁是由一組具有共同交際目的的事件組成,交際目的則決定了該文檔相應(yīng)的組織結(jié)構(gòu)及修辭手法。
體裁具有相對性,體裁之間無法劃出一道絕對界限。如一封簡報可能包含文章、社論及事件表等體裁。電影《功夫熊貓》則融入喜劇、動作、動畫、冒險、家庭五種體裁元素,其中任一單一體裁都無法完全描述出該電影的體裁。
體裁的形成與當(dāng)時社會環(huán)境和上下文情境相關(guān)。美國學(xué)者Yoshioka等[5]指出體裁反映的不是文檔內(nèi)容,而是作為上下文的一種載體來反映文檔的目的、內(nèi)容、人物、時間、地點、組織方式及語言特點等信息。由此可見,文檔體裁所蘊含的信息遠遠大于內(nèi)容所能表達的,這為賽博空間中數(shù)字體裁的識別與描述奠定了基礎(chǔ)。
2 體裁的識別與描述
文檔體裁的識別與描述一直是一項復(fù)雜而具有挑戰(zhàn)性的工作。首先,體裁在很大程度上是人類思維的抽象歸納,研究者自身知識的局限性使得對體裁的認知亦受到限制。美國學(xué)者Rosso[6]指出無論是體裁的定義者還是使用者都必須具有共同的體裁認知。例如,對“食譜”這種體裁的認知就是知道食譜是描述烹飪食物的過程與方法。目前,體裁的識別主要基于文檔的內(nèi)容和結(jié)構(gòu)特點,歸納為以下四種:①字面特點,如一些能夠表達特定功能或體裁的詞匯、標(biāo)點符號以及句子或文檔的長度等;②語言結(jié)構(gòu)特點,如說話方式、短語或句子的類型等;③顯示特點,即一篇文檔顯示的方式,如標(biāo)志類型、圖形元素或一些網(wǎng)頁標(biāo)簽等;④其他特點,如網(wǎng)頁集的地址特征、文檔描述、關(guān)鍵詞等。
其次,體裁與上下文情境密切相關(guān)。美國學(xué)者Crowston和Kwasnik[7]指出,同一文檔的體裁在特定情境下可能不同。例如,一封信可能是人與人之間的交往方式,在法庭上可能是一份證據(jù),在商場上可能作為一種協(xié)議,在收藏領(lǐng)域則可能是一件古董或是一件藝術(shù)作品。同樣,用戶信息需求的體裁在不同情境下亦可能不同,例如,一個大學(xué)教師在搜索與教學(xué)相關(guān)的資源時,所需文檔的體裁可能是教學(xué)計劃、教學(xué)日歷、課件、教學(xué)筆記等。而同一教師在搜索與科研相關(guān)的資源時,則需要學(xué)術(shù)論文、研究報告、會議征文等。
再者,體裁是動態(tài)演變的,這使得全面、準(zhǔn)確、有效地概括和描述繁雜的體裁極其困難。例如,塞萬提斯在寫作《唐吉可德》時,由于當(dāng)時的特定歷史環(huán)境,舊騎士文學(xué)無法滿足讀者要求,因此,他在作品中融入了傳奇、小說、傳記、敘事詩、悲喜劇等體裁元素。隨著網(wǎng)絡(luò)的發(fā)展,Web文檔比任何一種傳統(tǒng)類型文檔更復(fù)雜,難以用某一特定體裁來界定一篇文檔。英國學(xué)者Santini對網(wǎng)頁體裁做了大量研究[8],指出網(wǎng)頁是一類復(fù)雜、多變的文檔,一個網(wǎng)頁可能不僅限于某一簡單、傳統(tǒng)體裁,也可能是多種體裁的組合,亦可能沒有體裁。針對網(wǎng)絡(luò)環(huán)境中這些新特征,已有許多學(xué)者針對Web體裁做了大量研究。瑞典學(xué)者Ihlstr?m和?kesson[9]通過對網(wǎng)絡(luò)在線報紙的分析,提出了一個四元組<內(nèi)容,形式,功能,位置>來描述這種新媒介的體裁。
3 體裁在信息檢索中的應(yīng)用現(xiàn)狀
信息檢索領(lǐng)域中,用戶檢索目標(biāo)和文檔寫作目標(biāo)的推測一直是研究熱點。在推測文檔目標(biāo)方面,目前的主要方法有,分析文檔內(nèi)部詞語特征,分析作者在寫作過程中對文檔的編輯、修改等行為,分析文檔表示模型的主題相關(guān)性,或是挖掘文檔作者的隱性知識來推斷作者寫作目標(biāo)[11]。這些研究在一定程度上改進了文檔描述模型來推測文檔目標(biāo),但本質(zhì)上都是對文檔及其相關(guān)上下文內(nèi)容進行分析。事實上,文檔分類要么依據(jù)內(nèi)容或主題,要么依據(jù)體裁。例如,對學(xué)術(shù)文獻的分類,從內(nèi)容角度分為“計算機”,“語言學(xué)”,“經(jīng)濟學(xué)”等,從體裁角度則分為“論文”,“研究報告”,“市場調(diào)查表”等。與內(nèi)容相比,文檔體裁包含大量上下文信息,因此,目前有許多研究正是利用體裁來改善信息檢索效果。
依據(jù)各類上下文推測出的查詢目標(biāo)和文檔目標(biāo),主要應(yīng)用在查詢擴展、檢索結(jié)果過濾、目標(biāo)獨立匹配等方面。近年來,以查詢目標(biāo)與文檔目標(biāo)直接進行匹配逐漸成為趨勢。體裁天生就可用來表達文檔的交際目標(biāo)。Rosso[6]指出,文檔體裁能表達出內(nèi)容所不能、亦不會表達的信息。由此可見,體裁對于特定場景下判斷文檔與用戶檢索意圖的相關(guān)性具有關(guān)鍵作用。2007年TGSE研討會(Towards Genre-Enabled Search Engines)專門對利用體裁改進搜索引擎質(zhì)量進行了討論。在該研討會上,許多研究者也使用了體裁來過濾搜索引擎返回結(jié)果。Vidulin[10]分析了使用主題查詢詞所獲得的返回結(jié)果的準(zhǔn)確率,又分析了既用主題查詢詞又用體裁來進行檢索所獲得的返回結(jié)果的準(zhǔn)確率,兩種方法的比較結(jié)果表明用體裁來過濾返回結(jié)果能較大提高搜索引擎查準(zhǔn)率。Freund[2]詳細分析了軟件工程師的各項工作任務(wù)及所需文檔體裁之間關(guān)系,并基于這種關(guān)系,針對用戶當(dāng)前任務(wù)對檢索結(jié)果進行重新排序,結(jié)果表明利用任務(wù)與體裁的關(guān)系能有效提高查準(zhǔn)率。
4 問題分析與發(fā)展趨勢
利用體裁改善各類信息服務(wù)質(zhì)量已成為信息檢索領(lǐng)域一個重要研究方向。體裁分析不僅僅是對文檔表層表現(xiàn)形式的分析,也是對文檔深層邏輯結(jié)構(gòu)的解釋。在分析體裁時,既要檢查文檔結(jié)構(gòu)中的社會與認知因素,又要揭露出實現(xiàn)文檔交際目標(biāo)及邏輯結(jié)構(gòu)的特殊形式,這使得體裁分析具有一定難度。因此,雖然目前對文檔體裁的相關(guān)研究已經(jīng)取得一定成果,但仍然存在嚴峻的挑戰(zhàn):
⑴ 由于體裁依賴于文檔內(nèi)部特征,如詞句、文檔長度、說話方式、短語或句子類型、圖形元素或網(wǎng)頁標(biāo)簽等,體裁識別主要依靠人工方式進行標(biāo)注[2,6,10],且要求體裁標(biāo)注者與體裁使用者具有共同的與體裁相關(guān)的知識,這使得目前只能應(yīng)用在特定小范圍內(nèi),難以推廣。Rosso[6]表明基于內(nèi)容識別出體裁應(yīng)用在信息檢索中的效果并不理想。因此,由系統(tǒng)自動推理、識別文檔體裁的研究已迫在眉睫。
⑵ 文檔按體裁自動分類這個課題,交叉于傳統(tǒng)修辭學(xué)與計算語言學(xué)之間, 需要有較深語言學(xué)基礎(chǔ)及計算語言學(xué)理論功底,這使得文檔體裁的自動識別具有一定難度。
信息檢索系統(tǒng)中,與文檔目標(biāo)對應(yīng)的是用戶檢索目標(biāo)。然而,用戶檢索目標(biāo)要么是隱含在檢索主題中,要么是隱含在當(dāng)前的工作任務(wù)中,均未能顯式地以體裁的形式表示出來,這使得檢索目標(biāo)與文檔目標(biāo)的表示形式不一致,給匹配算法帶來了很大困難。因此,用以體裁的形式獨立地將文檔目標(biāo)及檢索目標(biāo)表達出來,獨立于內(nèi)容維度進行匹配,已成為當(dāng)前信息檢索研究領(lǐng)域中的一個熱點。
5 實驗驗證
為驗證以體裁將文檔目標(biāo)及用戶檢索目標(biāo)獨立表達出來進行匹配的效果,我們進行了初步實驗。首先是構(gòu)造測試集。分別以“汽車 銷售”、“汽車 購買”、“汽車 價格”、“汽車 新能源”、“汽車 保險”、“汽車 設(shè)計”、“汽車 游戲”、“汽車 保養(yǎng)”、“汽車 維修”、“汽車 展覽”、“汽車 比賽”為檢索詞,通過Google下載了每組關(guān)鍵詞返回結(jié)果的Top-50篇文檔,構(gòu)建了共包含471篇有效文檔的測試集。其次,采用中科院漢語詞法分析系統(tǒng)對文檔進行分詞,并進一步通過人工修改及標(biāo)注,獲得每篇文檔的內(nèi)容及體裁描述模型。測試集體裁包括“表”、“圖片”、“條款”、“合同”、“報告”、“公告”、“報道”、“通知”、“廣告”、“討論”、“評論”、“說明手冊”、“攻略”、“規(guī)則”、“論文”、“案例”、“文章”、“簡介”、“簡訊”、“摘要”、“排行榜”等。然后,要求測試者采用兩組關(guān)鍵詞在測試集中檢索,并對返回的Top-10結(jié)果進行打分:2分表示文檔非常相關(guān),1分表示一般,0分表示不相關(guān)。最后,實驗結(jié)果采用衡量搜索引擎質(zhì)量指標(biāo)的Discounted Cumulative Gain (DCG)進行分析。該方法以兩個假設(shè)為基礎(chǔ):①相關(guān)度越高的文檔在返回結(jié)果頁面中排在越前面越好;②對文檔相關(guān)度進行評價時,越排在返回列表前面的文檔的評價分數(shù)越高。具體參考文獻[12],在此不再贅述。
實驗分為兩步。第一步用與內(nèi)容相關(guān)的詞作為檢索詞,第二步用內(nèi)容和體裁同時進行檢索,體裁作為目標(biāo)維度進行匹配,詳見文獻[11]。作為初步實驗,在匹配算法中,內(nèi)容與體裁的權(quán)值視為相等。當(dāng)測試集文檔排序未變時,以Google原始排序為準(zhǔn)。首先,以“汽車 銷售”為主題檢索詞,以“報告”為體裁檢索詞,實驗結(jié)果如圖1所示。圖中,Ideal DCG為當(dāng)返回結(jié)果為最佳排序時的DCG值;normalized DCG(nDCG)是對DCG值進行歸一化處理后的值。
圖1不帶體裁及帶體裁的檢索結(jié)果比較圖
對本組檢索詞的Top-10返回結(jié)果的分析表明,使用體裁將檢索目標(biāo)獨立表示出來,并與文檔目標(biāo)體裁進行單獨匹配,在返回列表中相關(guān)度更高的信息資源的排名更靠前,這有效提高了返回結(jié)果與檢索目標(biāo)的相關(guān)度。在本組數(shù)據(jù)中,增加體裁信息進行檢索后,將衡量搜索引擎質(zhì)量指標(biāo)的nDCG值提高了21.8%。
我們對其他10組關(guān)鍵詞及相應(yīng)檢索目標(biāo)體裁進行了同樣的實驗分析,實驗結(jié)果如圖2所示。圖2第一列為檢索詞,先以不帶括號中的體裁進行檢索,再將體裁加入進行第二步檢索,其結(jié)果分別列于第二列、第三列。
圖2一組不帶體裁及帶體裁的檢索結(jié)果比較圖
實驗結(jié)果表明,加入體裁信息進行檢索能將檢索效果提高71%。其中,以“汽車 游戲”為檢索詞搜索時,Google的Top-50返回結(jié)果中體裁為“攻略”的文檔較少,且只在Top-10中出現(xiàn)在第九位。因此,當(dāng)預(yù)期目標(biāo)體裁為“攻略”時,nDCG值提高了約134%。實驗表明,相對于只用內(nèi)容維度的檢索詞,用體裁單獨將用戶檢索目標(biāo)與文檔目標(biāo)表達出來,并進行獨立匹配,能夠有效提高檢索效果。
6 結(jié)束語
本文對體裁的含義、識別、描述及其在信息檢索領(lǐng)域中應(yīng)用現(xiàn)狀和所面臨的問題進行了詳細闡述與分析。同時,為了驗證不帶體裁及帶體裁的信息檢索效果,我們進行了一系列實驗。結(jié)果證明,與只有內(nèi)容維度的檢索相比,體裁能夠?qū)z索目標(biāo)及文檔目標(biāo)以統(tǒng)一形式表示出來,并且能夠作為獨立維度被匹配,可以大大提高返回結(jié)果的相關(guān)度,從而改善用戶體驗。在后續(xù)研究中,我們將對文檔(尤其是Web文檔)體裁的自動識別及描述進行深入研究,并對如何從用戶工作任務(wù)中識別出檢索目標(biāo)體裁進行研究。本文的研究成果對于第四代信息檢索技術(shù)的建立有一定的意義,同時為語言學(xué)的體裁分析研究提供了新的視野和方法。
參考文獻:
[1] 中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[J].中國互聯(lián)網(wǎng)絡(luò)信息中
心,2011.7.
[2] Luanne S. Freund. Exploiting task-document relations in support
of information retrieval in the workplace[D].Doctoral dissertation, University of Toronto.2008.
[3] Ingwersen P. A Context-Driven Integrated Framework for
Research on Interactive IR[C]. LIDA Conference, June 25-30 2008,126(6):44~50
[4] Askehave I., Nielsen A.E. Digital genres: a challenge to traditional
genre theory[J]. Information Technology & People. 2005.18(2):120~141
[5] Yoshioka, T., Herman, G., Yates, J., Orlikowski, W. J. Genre
taxonomy: a knowledge repository of communicative actions. ACM Transactions on Information Systems. 2001.19(4): 431~456
[6] Mark A. Rosso. User-Based Identification of Web Genres[J].
ASIS&T. 2008.59(7):1053~1072
[7] Crowston K., Kwasnik B. A Framework for Creating a Facetted
Classification for Genres: Addressing Issues of Multidimensionality. Proc. 37th International Conference on System Sciences. Hawaii, USA. 2004.
[8] Santini M. Characterizing Genres of Web Pages: Genre Hybridism
and Individualization[C]. Proc. 40th Hawaii International Conference on System Science.2007.
[9] Ihlstr?m C., ?kesson M. Genre Characteristics:a Front Page
Analysis of 85 Swedish Online Newspapers[C]. Proc. 37th International Conference on System Sciences. Hawaii, USA. January,2004.
[10] Vidulin V., Lu?trek M., Gams M. Using Genres to Improve Search
Engines. Proc. International Workshop "Towards Genre-Enabled Search Engines:The Impact of NLP". Borovets, Bulgaria. September,2007.
[11] 陽小華, 馬家宇, 劉志明等. 基于隱性知識的信息檢索多維匹配模
型[C].第八屆全國搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會.成都,四川.2010.
[12] Xiaoyun Li, Ying Yu, Xiaohua Yang, et al. Personalized
Recommendation Based on Desktop Context[C]. Springer, Lecture Notes in Electrical Engineering, Recent Advances in Computer Science and Information Engineering. 2012, Volume 124, pp.383~388