李 璠
(西藏民族大學外語學院 陜西咸陽 712082)
在修辭過程中,修辭者通過使用修辭策略闡釋知識的來源并標明其態(tài)度和評估,從而構建知識,將知識碎片化重新包裝,進而對被修辭者產生影響。而詞典編纂者與用戶之間的關系就是修辭與被修辭的關系。詞典的修辭過程,即傳播知識和學科。[1]在傳播學科過程中,學科邊界的劃分受知識發(fā)展的影響,而知識受世界構建影響,因此學科邊界是動態(tài)的。受后現(xiàn)代影響,知識的碎片化導致學科權威的瓦解。詞典幾乎包含了所有學科,是學科之間的大熔爐,隨著知識的碎片化,學科權威的瓦解,修辭者,即詞典編纂者如何引導用戶搜索詞匯也是需要革新的。
本文主要研究線上詞典,參考FrameNet的框架語義學理論,通過設置動態(tài)和靜態(tài)系數(shù),提出一套基于詞典學、修辭學、語義學的線上詞典搜索方法。詞典搜索方式的流程為:(1)接受用戶輸入的修辭描述,對其進行特征提取;(2)根據(jù)(1)中得到的關鍵詞集在詞典中進行匹配,找出匹配度超出某一閾值的詞集;(3)分析輸入句中的語義角色并計算相似度。有的搜索引擎技術多是完成詞形的匹配,用戶輸入想要查找的關鍵詞,根據(jù)詞語形態(tài)的匹配算法,顯示包含相關詞的文本,即采用用戶輸入詞與網頁中文本關鍵詞精確匹配的方式返回用戶搜索的結果,而沒有分析單詞或其他更基本的成分的結構關系和語義關系。本文構建的語義修辭詞典檢索優(yōu)化方法能夠很好地解決這個問題:根據(jù)詞和句子的語義來計算文檔與查詢內容的相關度。因為在詞典的內部,詞匯是通過屬性范疇和動態(tài)描述來表達的。動態(tài)描述就是一個語義框架,在這個框架中包含了所有的情境,而屬性范疇詳細地剖分了詞匯的靜態(tài)特征。利用語義修辭詞典搜索方法進行情境搜索,其實就是動態(tài)特征和靜態(tài)特征的匹配過程。[1]
對機器詞典FrameNet的研究這些年備受關注,它已經是自然語言處理系統(tǒng)的一個重要方面。[2]1986年日本建設了電子詞典研究所并開發(fā)和構建了10部詞典,其中包括分類詞典和概念描寫詞典,這在一定程度上滿足了自然語言處理和知識信息處理的需要。[3]
國內學者對機器詞典的研究也可以追溯到1990年代,包括北京大學七五期間構建的“現(xiàn)代漢語語法信息庫”,八五期間構建的“現(xiàn)代漢語語法電子詞典”。1994年構建了為機器翻譯服務的“現(xiàn)代漢語語義詞典”,這是北京大學計算機語言學研究所與中科院計算所聯(lián)合開發(fā)“漢英機器翻譯模型系統(tǒng)”的過程中得出的。1996-1998年,“現(xiàn)代漢語語義詞典”對4.9萬名詞、動詞、形容詞進行了語義分類,并對其語義搭配限制進行了簡單描述,取得了階段性進展,同時也能夠幫助消解詞和句法的歧義。[4]
現(xiàn)有研發(fā)的各種詞典如WordNet、FrameNet、VerbNet等,不僅可以計算詞和詞之間的相似度,還可以獲取詞的各種語義信息等,通過使用蘊含規(guī)則的形式對各種知識進行表達,即可將這些知識用于文本醞釀和識別推理。[5]盡管,經過這幾年的積累,英文的文本醞釀已經有了相當規(guī)模的知識庫。但是由于知識的不足和利用不充分,加上已標注的文本蘊含對訓練語料的規(guī)模限制等,導致文本識別性不高。
許多文獻是將知識資源FrameNet用于文本蘊含識別的方法,但也僅僅使用了FrameNet框架詞元的語義信息,未對FrameNet中的框架關系進行使用。Roni Ben Aharon、IdanSzpektor和 Ido Dagan提出了一種利用FrameNet框架及其框架關系與真實語料相結合構建文本蘊含規(guī)則知識庫的方法,并構建了知識庫“FRED”。
董振東曾指出“屬性與屬性值嚴格對應。不同的屬性類型對應不同的屬性值,世界上不存在屬性沒有屬性值,也不存在不從屬于任何屬性的屬性值。”[6]董振東所指的屬性值是對屬性具體情況的統(tǒng)稱,他設定的屬性值是性質形容詞和數(shù)詞。用描述性形容詞組成的“屬性值”概念來表示具體的屬性情況也同樣適用于WordNet。
劉春卉通過結合HowNet和WordNet,提出屬性的具體情況包含屬性值和屬性特征—“屬性值是對具體屬性情況的定性或測量,一般用數(shù)量短語、名詞和動詞來表示,屬性特征是指對屬性具體情況的特征描述或評價”。[7](P43-44)
伯克利FrameNet項目對幾千個英語詞匯項的框架語義進行描述,并用當代英語語料庫的語義注釋證明來備份這些描述。[5]這些描述都是基于從大型文本語料庫中提取的例句手動標注的語義注釋及由詞典編纂者和語言學家對其語義模式的系統(tǒng)分析。因此,項目的重點是人類以機器可讀的形式進行編碼語義知識。
FrameNet涵蓋的語義領域是:健康護理,感覺-交流,交易,時間-空間,身體(身體的部分和功能),運動,生活,階段,社會責任。[2]
項目的結果是(a)詞匯資源,稱為FrameNet數(shù)據(jù)庫3;和(b)相關的軟件工具。數(shù)據(jù)庫有三個主要組成部分(詳細描述如下):
其一,詞匯包含條目,其中包括:(a)一些常規(guī)的字典類型的數(shù)據(jù),主要是為了讀者;(b)公式捕捉語義框架的元素可以在單詞周圍的短語或句子中實現(xiàn)的形式化方式;(c)與語義連接的已標注的例句,其中說明了公式中標識的每個潛在實現(xiàn)模式;(d)鏈接到FRAME DATABASE和其他機器可讀資源(如WordNet和COMLEX)。其二,框架數(shù)據(jù)庫包含每個框架的基本概念結構的描述,并為參與這些結構的元素提供名稱和描述。其三,注釋標示例句,標示為詞匯項的語義和形態(tài)特征。這些句子為框架數(shù)據(jù)庫和詞典中提供的詞典分析提供經驗支持。這三個組成部分形成了高度相關性和緊密結合的整體:每個元素可指向另外兩個元素。數(shù)據(jù)庫還將包含對義項相對頻率的預測和通過對比手動標注的示例與BNC語料庫而計算出的完整模式(pattern)。[2]
FrameNet的工作在某些方面類似于在案例角色或角色角度描述詞匯項的參數(shù)結構,但在FrameNet中,角色名稱(稱為框架元素或FE)對特定概念結構是本地的(框架);其中一些是相當普遍的,而另一些則是針對一小部分詞匯項。在運動領域內的運輸框架提供了運動者,運輸方式和路徑。[5]例如,DRIVING框架指定DRIVER(主要MOVER),VEHICLE(MEANS元素的具體化),以及作為次級移動器的CARGO或RIDER。在此框架中,Driver啟動并控制車輛的移動。對于這個框架中的大多數(shù)動詞,DRIVER或VEHICLE可以被實現(xiàn)為主體;車輛,船只或貨物可以作為直接物體出現(xiàn);PATH和VEHICLE可以作為間接補充。
FrameNet項目的計算方面旨在有效地將人類視野引入語義結構。所涉及的大部分工作是用文本標簽標記文本,再次指定要處理的框架的結構,并根據(jù)注釋的結果和先驗描述寫入字典樣式的條目。除了例句提取部分之外,所有軟件模塊都具有高度交互性,并具有很大的用戶界面要求。大部分功能由基于WWW的程序以PERL語言編寫。
需要四個處理步驟產生框架語義表示的FrameNet數(shù)據(jù)庫:(a)生成用于語料庫查詢和注釋(“準備”)的語義和句法模式的初始描述;(b)提取好的例句(“子語料庫提取”);(c)手工標記(“注釋”);(d)基于注釋和其他數(shù)據(jù)(“條目寫作”)構建詞匯語義表示數(shù)據(jù)庫。Ruppenhofer J,Ellsworth M和Petruck MR在《FrameNet Theory and Practice》中給每一種關系定義了對應的上下位框架名稱,如表1所示。
表1:FrameNet中上下位框架名稱
除了詞語中的屬性的所有者需要確認,具體情況也需要進行確認。例如,具體名詞和抽象名詞的屬性字段不同,因為他們屬于不同的詞類。具體名詞的屬性字段一般包括色彩、形狀、大小、構成成分、外觀、是否可數(shù)、用途、如何生成等,因為這些屬性是真實而存在的,是可見可觸摸的。而抽象名詞明顯不能完全繼承這些屬性字段。這就要求詞典的構建者在設計的過程中從實際出發(fā),深入剖析,盡可能全面的挖掘詞語的屬性。
本文將詞語概念的屬性分為靜態(tài)屬性和動態(tài)屬性。靜態(tài)屬性用名詞、性質形容詞和數(shù)詞,是詞固有的屬性。動態(tài)屬性需要一系列的屬性特征值來表述,是在特定的情境結構下詞語所表現(xiàn)出來的屬性。
1、動態(tài)屬性
本文把詞語的動態(tài)屬性的概念和它的角色類別聯(lián)系起來,它的屬性特征描述寫在其情境框架中,并且使用題元角色分析(thematic role analysis)和格角色分析(case role analysis)法表現(xiàn)。[8]
2、靜態(tài)屬性
詞語必有的兩個靜態(tài)屬性是語義特征屬性和詞語的關系屬性。[7]
a.語義特征屬性
在本文構建的語義詞典中,詞語的語義特征屬性表征一個概念性詞語所屬的概念語義,是指詞匯本身表層概念所表現(xiàn)意義語義。例如:“路由器”對應的語義特征“計算機,網絡,硬件”;兩岸會談對應的語義特征值為“臺灣問題,政治”。
b.詞語間的關系屬性
關系的定義和種類多種多樣,作者認為概念和概念之間存在的所有聯(lián)系都可以稱其為關系。本文借鑒WordNet中詞匯間的直接關系,并加入了近形關系,即與目標概念集形似的概念集。[9]
現(xiàn)有的搜索引擎技術多是完成詞形的匹配,用戶輸入想要查找的關鍵詞,根據(jù)詞語形態(tài)的匹配算法,顯示包含相關詞的文本,即采用用戶輸入詞與網頁中文本關鍵詞精確匹配的方式返回用戶搜索的結果,而沒有分析單詞或其他更基本的成分的結構關系和語義關系。搜索引擎的目標是盡量提供用戶感興趣的網頁,減少用戶不感興趣的網頁,提高查詢的精度。因為計算機處理語言,用來解決人類生活中的實際問題。在很多情況下,存在用戶不知道如何準確的表述詞匯,而只能夠把自己的想法描述出來,那么搜索引擎如何智能化地感知人類想要表達的內容,并顯示我們所想要得到的關鍵詞呢?本文構建的語義修辭詞典搜索方法能夠很好地解決這個問題:根據(jù)詞和句子的語義來計算文檔與查詢內容的相關度。因為在詞典的內部,詞匯是通過屬性范疇和動態(tài)描述來表達的。動態(tài)描述就是一個語義框架,在這個框架中包含了所有的情境,而屬性范疇詳細的剖分了詞匯的靜態(tài)特征。利用語義修辭詞典進行情境搜索,其實就是動態(tài)特征和靜態(tài)特征的匹配過程。
修辭搜索工作流程為:
(1)接收用戶輸入的修辭描述,對其進行特征提取,提取出關鍵詞集X;
(2)根據(jù)(1)中得到的關鍵詞集X在詞典中進行匹配,找出匹配度超出某一閾值的詞,組成詞集Y;
(3)分析輸入句中的語義角色,并與詞集Y中的每一個詞進行相似度計算,將X與Y進行語義相似性對比研究。
靜態(tài)特征就是詞的屬性范疇,這里要進行的就是詞的屬性范疇相似度計算。我們不是把屬性范疇的每一個條目進行相似度計算,而是挑選出最能決定修辭描述范疇的屬性條目計算相似度。這里選擇的是“語義特征”,進行核心詞匯的語義特征匹配。
由于用戶的表述是隨意的,且因為用戶的表達能力不同,極有可能一個修辭描述中存在著的多個核心詞。設關鍵詞集X{x1,x2,...,xn},其中包含有輸入修辭描述中的核心詞,這里用XCore表示,需要注意XCore也是一個詞集,那么輸入描述的語義特征INPUT →Domain=X→Domain=U(XCore→ Domain)。設詞典中的詞集Z{z1,z2,...,zt}定義SimDom(INPUT→Domain,Zzj→Domain)為輸入的修辭描述和詞典中的詞zj的語義相似度。
給出計算語義相似度的算法:這個算法是一個循環(huán)算法。
SimDom(INPUT→Domain,Zzj→Domain)=0//設初值
設初值就是第一次循環(huán)開始前設定語義相似度等于0,如果是按0為完全不相似,那么第一次循環(huán)開始之前語義完全不相似。
for詞集Z中的詞:for是循環(huán)結構,也就是說不斷重復進行下面這一句的動作,即不斷重復判斷語義相似度是否大于等于設定的閾值α,直到算法結束,即詞集Z中的詞全部比對完。
if(SimDom(INPUT→Domain,Zzj→Domain)〉= 閾值α)則把zj放入集合Y中,并記作ym(1≤m≤t 1):if是判斷結構,括號里面是需要判斷的條件,即判斷語義相似度是否大于等于設定的這個閾值α。如果大于這個數(shù)值的話,就把zj放入集合Y中,并記作ym(1≤m≤t 1)。如果不大于就進行下一次判斷,因為我們上面說這是一個循環(huán)結構,要不斷重復直到算法結束。
當算法結束時,我們獲得了詞典中語義特征相同或相似的詞集Y{y1,y2,...ym}
動態(tài)特征匹配計算就是輸入語句和詞典中詞語的語義描述框架相似度計算。定義Sim(INPUT→frame,yj→frame)用來表示輸入語句描述的語義框架與詞集Y中詞匯Yj的語義框架相似度。定義
Sim(INPUT→frame,yj→frame)=Sim(INPUT→框架元素p,Yj→框架元素p)*
Sim(INPUT→框架元素q,Yj→框架元素q)*…*Sim(INPUT→框架元素w,yj→框架元素w)(其中p,q,...,w是輸入描述與詞典中詞語yj對應的所有框架元素(題元角色)
當Sim(INPUT→frame,yj→frame)≥閾值β時,顯示Yj
如果輸入描述中的題元角色與詞語Yj動態(tài)語義框架中對應的題元角色具有上下義關系,則它們之間的相似度
Sim(INPUT→框架元素p,Yj→框架元素q)=,其中表示上下義樹中兩個概念間的
路徑長度,表示貫穿這兩個概念的樹結構層次。上文詞典的結構設計中提到了,詞匯與詞匯之間有上下義關系,這種關系組成了詞匯間的樹結構,所以概念就是樹中的結點,概念間的路徑長度就是樹中一個結點到另一個結點之間的分支數(shù)目。而樹結構層次就是樹的路徑長度即從樹根到葉子結點的分支總和。
算法中依據(jù)下面四個步驟來確定輸入語句的題元角色:
步驟1:先找到用戶輸入語句中的動詞。
步驟2:應用規(guī)則1和規(guī)則2尋找句子的主語和賓語。主要題元角色的確定所依據(jù)的原則:
1、主動句和陳述句中,動作動詞主語一般是施事,狀態(tài)動詞和過程動詞主語一般是受事(與格和客體格)。先于動詞的名詞短語是有生命的,則認定它是施事者;如果先于動詞的名詞短語是無生命的,則主動句中主語題元角色是工具。
2、緊跟在動詞后面的未標志的名詞短語認定為賓語。如果存在兩個未標志的名詞短語跟在動詞后,那么第一個是間接賓語-受益者,第二個是接賓語-主題;如果只有一個未標志的名詞短語則認定其為主題。
步驟3:其他題元角色的確定。依據(jù)原則:施事、主題、體驗者、外力、結果、內容和動詞的搭配關系為“及物性關系”;受益、工具、目標、起點、手段、依據(jù)與動詞的搭配關系為“狀語性關系”。
規(guī)則1:確定主語。如果句子最右邊的題元角色是必要的,那么它一定是主語。若是可選擇的,則可以忽略掉,規(guī)則可重新用到剩余的部分中。
規(guī)則2:確定賓語。從句子的左邊出發(fā),不論是必要的,還是任選的每個名詞格都可當賓語,直到所有適當?shù)馁e語位置都被填滿。
通過上述三個步驟就將用戶輸入語句進行深層角色分解。主要依據(jù)的原理是:句型和句子成分的變化不會對句中名動詞間的語義關系(格)造成影響。通過步驟1到步驟3,從用戶輸入語句的表層句法結構探究出句子的深層語義結構。將得到的語義結構與詞典中的詞條進行查找匹配。
本文從修辭與知識關系的角度出發(fā),在修辭過程中,修辭者通過使用修辭策略闡釋知識的來源并標明其態(tài)度和評估,從而構建知識,將知識碎片化重新包裝,從而對被修辭者產生影響。而詞典編纂者與用戶之間的關系就是修辭與被修辭的關系。學科和知識一樣,是被構建的;因此學科不是固定的,是可以改變甚至被破壞的,所以學科邊界也是逐漸模糊的。在傳播學科過程中,學科邊界的劃分受知識發(fā)展的影響,而知識受世界的構建,因此學科邊界是動態(tài)的。人腦在認識概念的時候,既從概念的靜態(tài)特征出發(fā),也要結合具體的語言環(huán)境(動態(tài)特征)來理解。根據(jù)認知心理學的研究,大腦中意義的心智表達是一個概念網絡,調用一個詞語的意義可以激活網絡上相關的一大片語義節(jié)點。[3]所以本文提出了語義詞典檢索優(yōu)化方法的構造就是一張語義范圍內的知識網。
作者把構建的語義詞典檢索優(yōu)化方法用來解決搜索中遇到的問題,從而提出了修辭搜索的概念。修辭搜索即搜索引擎的使用者希望通過對固定修辭的描述來得到某一具體詞匯。因為語義詞典對詞的特征進行了詳細的分解,所以通過一系列的相似度匹配算法能夠很好的解決這個問題。