李 立
(安慶廣播電視大學,安徽安慶 246003)
基于事件本體的查詢擴展方法
李 立
(安慶廣播電視大學,安徽安慶 246003)
針對用戶獲取互聯(lián)網(wǎng)上事件類信息的需求,提出了一種基于事件本體的查詢擴展方法,重點研究了該方法涉及的2個關(guān)鍵技術(shù):查詢內(nèi)容與領(lǐng)域事件本體的匹配和基于事件本體的擴展項的選取.在中文事件語料庫上,通過實驗驗證了方法的有效性.
事件本體;查詢擴展;擴展項
傳統(tǒng)信息檢索方法通常利用簡單的詞匹配法則計算文檔特征值與檢索詞之間的相似度,因而經(jīng)常出現(xiàn)與用戶查詢請求相關(guān)的文檔由于用詞不同而無法被檢索出來的情況[1].詞不匹配已成為影響信息檢索效果的重要原因之一.解決這一問題,目前常采用查詢擴展技術(shù).查詢擴展,指在原查詢詞的基礎(chǔ)上加入相關(guān)的詞,從而組成新的、更準確的查詢詞集,這在一定程度上能夠彌補查詢信息不足的缺陷,也有助于改善檢索的查全率和查準率[2].一般而言,領(lǐng)域事件本體存儲了一個領(lǐng)域的事件類、事件類的各個要素、事件類之間的關(guān)系以及事件類之間的影響因子.基于領(lǐng)域已有事件本體的先驗知識,對事件類信息的查詢可以進行面向事件本體的查詢擴展,而基于事件本體可以從事件類到事件類、事件類到事件要素這2個層面進行聯(lián)想擴展[3-8].據(jù)此,本研究提出一種基于事件本體的查詢擴展方法,并通過實驗驗證了方法的有效性.
基于事件本體的查詢擴展模型如圖1所示.
對圖1所示的查詢擴展模型而言,查詢內(nèi)容與領(lǐng)域事件本體的匹配、查詢項中事件項的判別、事件之間關(guān)聯(lián)強度的計算以及擴展項的選取都直接基于事件本體進行.該模型與其他查詢擴展模型最大的不同在于查詢擴展所依賴分析的資源發(fā)生了變化.
圖1 基于事件本體的查詢擴展模型示意圖
基于事件本體的查詢擴展模型涉及2個關(guān)鍵技術(shù):查詢內(nèi)容與領(lǐng)域事件本體的匹配和基于事件本體的擴展項選取.
在很多情況下,用戶在查詢內(nèi)容中指定了特定的領(lǐng)域,比如,“地震救援”,查詢的是“地震”領(lǐng)域的“救援”事件.由于同一個事件類在不同的領(lǐng)域?qū)氖录愱P(guān)系和事件類的要素都可能是不同的,所以應該判別用戶的查詢內(nèi)容所屬的具體領(lǐng)域.查詢內(nèi)容與領(lǐng)域事件本體的匹配,是指判別查詢內(nèi)容究竟屬于哪個領(lǐng)域的事件本體,以便基于此領(lǐng)域事件本體進行查詢擴展.
2.1.1 基于領(lǐng)域事件本體的查詢項的類別判別.
通過依存句法分析工具分析用戶輸入的查詢內(nèi)容,可明確事件要素充當?shù)南薅椧约霸~之間的依存關(guān)系.由動詞、動名詞以及名詞這些項組成的集合記作IQ,但IQ中的項還不能準確判別為事件.領(lǐng)域事件本體存儲了一個領(lǐng)域的絕大多數(shù)重要的事件類,對于IQ中這些未能準確判別的項可以基于領(lǐng)域事件本體進行.
假設領(lǐng)域事件本體有n個,分別記作EQ1,EQ2,…,EQn,EQi(1≤i≤n)中的事件類按照重要度的大小降序排列得到的事件類集合為,
基于領(lǐng)域事件本體判別IQ中的項是否是事件的思想是:取IQ中所有的項IQK∈IQ,依次與每個領(lǐng)域事件本體EQi中的事件類集合ECi比對,若IQK=ECi,則IQK就作為事件,否則不作為事件.
一旦查詢內(nèi)容中的事件判別出來以后,再根據(jù)詞之間的依存關(guān)系,就可確定查詢內(nèi)容中的事件項和限定項.
2.1.2 查詢內(nèi)容與領(lǐng)域事件本體的匹配.
通常,查詢內(nèi)容中可能包含多個事件,但事件項中只包含一個事件,事件項中的事件是用戶所要查詢的核心內(nèi)容.查詢內(nèi)容中的其他事件都是限定事件,限定事件的作用是限定所要查詢的核心事件的范圍,在查詢內(nèi)容與事件本體匹配的過程中具有重要的作用.
查詢內(nèi)容與領(lǐng)域事件本體匹配的具體步驟是:
①根據(jù)“2.1.1”中所述的方法判斷查詢內(nèi)容中的限定項Qe′和事件項Qe.
②如果Qe′中有事件充當了限定項,則用此限定項與每個領(lǐng)域事件本體EQi中的事件類集合ECi比對,并記下此限定項在ECi中出現(xiàn)的序號,記為ki(1≤i≤n),如果ECi中無此限定項,則ki值可設置為機器最大數(shù),然后,取序號最小的ki為匹配到的事件本體,匹配過程結(jié)束;如果Qe′中無事件充當限定項,則轉(zhuǎn)步驟 ③.
③直接用事件項e∈Qe與每個領(lǐng)域事件本體EQi中的事件類集合ECi比對,記下e在ECi中出現(xiàn)的序號為ki(1≤i≤n),如果ECi中無e,則ki值設置為機器最大數(shù),然后,取序號最小的ki為匹配到的事件本體,匹配過程結(jié)束.
以往已經(jīng)出現(xiàn)過不少由于護理管理制度存在不足而導致的醫(yī)療差錯甚至醫(yī)療事故,這些不足主要體現(xiàn)在制度沒有明確的工作標準,缺乏到位的崗位職責[1]。因此為了提升護理管理質(zhì)量,有必要建立并完善相關(guān)規(guī)章制度,將崗位具體職責明確,落實各項工作的具體標準,同時應該建立評審各項工作質(zhì)量的標準,對產(chǎn)科工作的具體流程進行明確優(yōu)化,并且要保證在實際工作中貫徹執(zhí)行,以實現(xiàn)護理糾紛的最大程度避免,實現(xiàn)產(chǎn)科護理質(zhì)量的逐步提升。
上述步驟完畢后,如果在查詢內(nèi)容中找到了匹配的領(lǐng)域事件本體,則可將此領(lǐng)域事件本體作為下一步擴展的依據(jù).
基于領(lǐng)域事件本體可以從2個層面對事件項進行查詢擴展:一是事件類到事件類的聯(lián)想擴展,二是事件類到其各個要素的聯(lián)想擴展.
擴展項選取的順序為:先是事件類之間的關(guān)系,然后是事件類的各個要素.
擴展項選取的具體步驟是:
①事件類的同義關(guān)系,通過事件類觸發(fā)詞的不同的語言表現(xiàn)獲??;
②組成關(guān)系,選取其組成事件類觸發(fā)詞的不同的語言表現(xiàn)進行擴展;
③父子關(guān)系,選取子事件類觸發(fā)詞的不同的語言表現(xiàn)進行擴展;
④其他關(guān)系,根據(jù)影響因子設置一個閾值,大于該閾值的就選取擴展,同時根據(jù)事件類觸發(fā)詞的不同的語言表現(xiàn)進行擴展;
⑤動作要素,是指事件類的動作的程度、方式、方法及工具的聯(lián)想擴展,根據(jù)其語言表現(xiàn)選??;
⑥對象要素,包括主體與客體,根據(jù)其語言表現(xiàn)選?。?/p>
⑦環(huán)境要素,根據(jù)其語言表現(xiàn)選取.
擴展項的選取一般都是指定具體的個數(shù),如果經(jīng)過了上述7個步驟擴展后,擴展項的個數(shù)還不能滿足要求,則可根據(jù)事件影響因子的大小,依次選取擴展事件,如果選擇完所有有關(guān)聯(lián)的事件,擴展項的個數(shù)還沒滿足要求,則停止擴展.
中文事件語料庫(Chinese Event Corpus,CEC)是在XML標簽的基礎(chǔ)上對事件原始語料庫進行標注,形成事件、事件要素和事件關(guān)系標注分明的事件語料庫.該語料庫的制作方法是建立在中文句法分析和語義分析基礎(chǔ)上的,符合中文的特點.CEC語料規(guī)模雖然偏小,但對文本中的事件、事件要素和事件關(guān)系的標注最為全面.在實驗中,本研究構(gòu)建了5個領(lǐng)域的突發(fā)事件本體,其CEC語料基本情況如表1所示.
表1 5個領(lǐng)域的文本語料
查詢主題的設置采用了與用戶使用搜索引擎最為一致的方式,即輸入若干個關(guān)鍵字.在實驗中,本研究人工設置了10個查詢主題,具體如表2所示.
表2 10個查詢主題
為了驗證本研究所提出的基于事件本體的查詢擴展方法的有效性,從以下3個角度擴展,以便進行實驗比較:僅根據(jù)事件類關(guān)系進行擴展的方法記作EOnto1;僅根據(jù)事件類要素進行擴展的方法記作EOnto2;綜合使用事件類關(guān)系和事件類要素進行擴展的方法記作EOnto3.對于每個查詢主題,用Ti表示,使用P@10和P@20作為評價指標.選取的時候以P@10為主,P@20為輔,同時對擴展項的個數(shù)從0~20之間做了實驗比較,每種方法選取最好的檢索結(jié)果.表3列出了3種擴展方法得到的檢索結(jié)果.
表3 3種擴展方法獲取的檢索結(jié)果比較
從表3可見,EOnto2的檢索性能最差,其原因是事件類的某些要素并不僅僅出現(xiàn)在某個事件類中,而是經(jīng)常出現(xiàn)在多個事件類中;EOnto3的檢索性能最好,EOnto1與EOnto3檢索的性能非常接近,尤其是對于評價指標p@20而言,這說明僅僅使用事件類之間的關(guān)系進行擴展,獲取的檢索結(jié)果已經(jīng)比較理想了,在事件類關(guān)系的基礎(chǔ)上再添加事件要素的擴展,檢索結(jié)果會進一步改善.實驗結(jié)果表明了本研究所提方法的有效性.
:
[1]劉宗田,黃美麗,周文.面向事件的本體模型[J].計算機科學,2009,36(11):191-195.
[2]仲兆滿,劉宗田.利用事件影響關(guān)系識別文本集合中重要事件的方法[J].模式識別與人工智能,2010,23(3):307-313.
[3]Fu Jianfeng ,Liu Zongtian,Zhong Zhaoman,et al.Chinese Event Extraction Based on Feature Weighting[J].Information Technology Journal,2010,9(1):184-187.
[4]Zhong Zhaoman,Liu Zongtian.Identifying Key People from a SingleDocument Using People Event Map[J].Journal of Computational Information Systems,2010,6(1):17-23.
[5]仲兆滿,劉宗田,周文.事件關(guān)系表示模型[J].中文信息學報,2009 ,23(6):56-60.
[6]馮平.特征詞抽取和相關(guān)性融合的偽相關(guān)反饋查詢擴展[J].現(xiàn)代圖書情報技術(shù),2011,7(1):35-37.
[7]張超盟,李戰(zhàn)懷.局部上下文分析剪枝概念樹的查詢擴展[J].計算機工程,2009,35(14):45-48.
[8]袁津生,程超然.基于文本聚類搜索引擎的查詢擴展算法[J].計算機工程與應用,2012,48(3):129-132.
Method of Query Expansion Based on Event Ontology
LI Li
(Anqing Radio and Television University,Anqing 246003,China)
Aiming at the requirements of getting event information from internet,a method of query expansion based on event ontology was proposed.Two key technologies were mainly introduced concerning this method:matching between query content and field event ontology and selecting extended item based on event ontology.Experiments on the prototype validated the effectiveness of the proposed method in Chinese Event Corpus(CEC).
event ontology ;query expansion ;extended item
TP391.3
A
1004-5422(2012)04-0364-03
2012-10-15.
李 立(1980—),女,碩士,講師,從事計算機軟件工程研究.