喬劍敏,張仰森
(北京信息科技大學(xué)智能信息處理研究所,北京100192)
詞義標(biāo)注是語料庫建設(shè)中的一個(gè)關(guān)鍵環(huán)節(jié)。保證了詞義標(biāo)注的質(zhì)量,語料庫的應(yīng)用價(jià)值才能得到體現(xiàn),其應(yīng)用才能可靠、高效。要保證詞義標(biāo)注的質(zhì)量,對(duì)詞義標(biāo)注結(jié)果的檢驗(yàn)和處理,是非常重要的一環(huán),它為詞義標(biāo)注的質(zhì)量把關(guān)。只有這個(gè)關(guān)把好了,“商品”才能體現(xiàn)其價(jià)值,才能“出售”,否則,“商品”即使生產(chǎn)出來了,也沒有其使用價(jià)值。目前,詞義消歧的研究已有很多,有基于詞典的消歧[1],具體分為基于機(jī)讀詞典和義類詞典的消歧,有基于規(guī)則的消歧[1],有基于語料庫的消歧,具體分為有指導(dǎo)的消歧方法[2]和無指導(dǎo)的消歧方法[2],還有各種綜合利用的方法[1]等,每種方法都有各自的優(yōu)缺點(diǎn),不能百分之百保證消歧正確。對(duì)詞義消歧結(jié)果的評(píng)判,停留在用精確率、召回率等指標(biāo)去評(píng)價(jià)一個(gè)詞義消歧算法或系統(tǒng)的好壞,對(duì)詞義消歧結(jié)果的校對(duì)也停留在人工校對(duì)上,而如何讓機(jī)器去校對(duì),并進(jìn)行錯(cuò)誤糾正,目前的研究還不多?;谶@些問題,本文提出了詞義標(biāo)注一致性檢驗(yàn)的方法研究。
詞義標(biāo)注一致性檢驗(yàn),就是判斷同一詞語在上下文相同或相似的語境中,其詞義標(biāo)注是否一致。由于非多義詞只有一個(gè)意思,因此檢驗(yàn)其一致性只需看這個(gè)詞語的詞義標(biāo)注是否是它所屬的意思即可;而對(duì)多義詞,有幾個(gè)意思,判斷其一致性比較復(fù)雜,因此我們的一致性檢驗(yàn)針對(duì)多義詞進(jìn)行試驗(yàn)。由于名詞、動(dòng)詞等不同詞性的詞語在語句中有其各自的使用規(guī)律,且同一詞性的詞語也因詞語不同而使用規(guī)律不同,因此,不能將所有詞語一概而論,要區(qū)分對(duì)待。因此,我們抽取了10個(gè)動(dòng)詞多義詞進(jìn)行小范圍試驗(yàn)。這 10個(gè)動(dòng)詞多義詞來自待校驗(yàn)語料——《人民日?qǐng)?bào)》語料,該語料已進(jìn)行了詞語切分、詞性標(biāo)注及詞義標(biāo)注這些處理。我們的具體做法是:先將多義詞的語句從待校驗(yàn)語料中抽取出來,通過語句相似度計(jì)算將相同或相似的語句聚類;同時(shí)另一方面,我們建立詞義標(biāo)注標(biāo)準(zhǔn)模式庫,里面存有多義詞的標(biāo)注及對(duì)應(yīng)的賓語集合;最后,將經(jīng)過聚類的語句與標(biāo)準(zhǔn)模式庫里的賓語進(jìn)行匹配,如果沒有直接匹配的賓語,則通過詞語相似度計(jì)算去匹配,校驗(yàn)語料中的詞義標(biāo)注。系統(tǒng)的各模塊流程圖如圖1所示。
圖1 系統(tǒng)模塊流程圖
目前的語句相似度計(jì)算方法的研究已有很多,但經(jīng)理論分析及實(shí)驗(yàn)證明,這些方法都不適合真實(shí)語料中的語句相似度計(jì)算。因?yàn)檎Z料中的語句比較冗長,具有多重短句,語句格式層次多,語法不單一等特點(diǎn),所以分析起來比較困難。我們研究語句相似度計(jì)算方法,應(yīng)針對(duì)其所處的應(yīng)用系統(tǒng)的實(shí)際功能需求,從待研究對(duì)象的自身特征出發(fā)。同樣,我們?cè)u(píng)價(jià)一個(gè)語句相似度計(jì)算方法的好壞,也不是孤立評(píng)價(jià),而要看它是否滿足應(yīng)用系統(tǒng)的實(shí)際需要。因此,針對(duì)語料中的語句的自身特點(diǎn),本文提出了面向真實(shí)語料的語句相似度計(jì)算方法。
完整的一句話,我們抽取短句,短句是指中間有若干停頓的一個(gè)長句中的一個(gè)斷句;然后在短句中抽取賓語,對(duì)賓語利用《知網(wǎng)》進(jìn)行相似度計(jì)算,得到的結(jié)果就是兩句話的相似度;依據(jù)相似度值的高低對(duì)語句聚類,聚在一塊的語句為語境相同或相似的句群。
在進(jìn)行語料多義詞語句抽取時(shí),我們不是以完整的一句話為單位,而是以一個(gè)短句為單位進(jìn)行抽取。因?yàn)檎Z料中完整的一句話一般都包含若干短句,按照漢語的表達(dá)習(xí)慣,每個(gè)短句又可以表達(dá)一個(gè)意思,有自己獨(dú)立或完整的語法、格式,這些非多義詞所在的短句對(duì)表達(dá)多義詞的語境意思作用不大,甚至根本沒用;且由于短句可以自成一個(gè)獨(dú)立或完整的語法體系或一個(gè)意思表達(dá)體,則整個(gè)句子就是這些獨(dú)立體的順序組合體,而不是能夠抽取出單一的主謂賓等,所以通過分析完整句子來研究多義詞的語境意思不具有可行性,當(dāng)然排除完整句子只有一個(gè)短句組成的情況,比如語料中下面的句子:
應(yīng){ying4}/v!C 老撾人民民主共和國/ns主席/n 坎代?西潘敦/nr 的/ud 邀請(qǐng)/vn ,/w d 中國/ns 國家/n 主席/n 江/nrf 澤民/nrg 今天/t 乘/v!A 專機(jī)/n 抵達(dá)/v 萬象/ns ,/w d 開始/v 對(duì)/p 老撾/ns 進(jìn)行/vx國事/n 訪問/vn
這個(gè)句子由三個(gè)短句組成,而我們要分析多義詞“乘”的語境,只需抽取第二個(gè)短句即可。
在抽取了多義詞所在的短句之后,經(jīng)過分析發(fā)現(xiàn),一句話中,在表達(dá)動(dòng)詞多義詞某個(gè)意思的語境時(shí),賓語起著決定性的作用。多義詞的某個(gè)意思,決定了它可以帶的賓語范疇,反過來,通過賓語,就可以判斷這個(gè)多義詞的語境。因此,在本文計(jì)算語句相似度時(shí),先通過一些規(guī)則確定賓語范圍,再對(duì)賓語進(jìn)行相似度計(jì)算,算得的值代表兩句話的相似度。如下兩句話:
(1)他/rr 高度/d 評(píng)價(jià)/v 普里馬科夫/nr在/p 任/v 俄/jn 外長/n 和/c 總理/n期間/f 為{wei4}/p!B2 發(fā)展/v 中/jn 俄/jn
關(guān)系/n 所/us 做/v!2 的/ud 大量/m 工作/vn
(2)做/v!2 群眾/n 的/ud 思想/n 工作/vn
判斷這兩句話相似否,我們看賓語“工作”即可,兩句話中“做”的語境都是“做工作”。
那么語句中的其他成分對(duì)表達(dá)動(dòng)詞多義詞的語境意思有作用嗎?通過下面的分析,我們認(rèn)為這種作用不大。
按照漢語的表達(dá)習(xí)慣,一個(gè)完整正確的語句,不一定非要主謂賓俱全,或者多重主謂賓交叉出現(xiàn),或者主語、賓語不是單一的詞語,而是又一個(gè)短句。另外,主語與謂語之間,可能夾雜很多附加成分,如補(bǔ)語、狀語等,因此,主語與謂語之間的銜接并不緊密,而謂語與賓語之間,賓語一般緊隨謂語之后,不會(huì)相距太遠(yuǎn),聯(lián)系較緊密。《人民日?qǐng)?bào)》語料中的語句,多是幾個(gè)短句組成一句話,各個(gè)語句成分比較分散,主語與謂語之間的距離可能較遠(yuǎn),很多情況主語與謂語不在一個(gè)短句內(nèi),因此分析起主語來比較困難。再者,《人民日?qǐng)?bào)》文章是報(bào)道實(shí)事的,而不是關(guān)于故事、科幻等的,如:小草也會(huì)微笑,大樹也會(huì)說話,因此排除一些擬人等特殊化用法,《人民日?qǐng)?bào)》語料語句的主語一般是人、組織等常規(guī)主語;而且,不管主語是什么,只要是人,就可以配謂語“插”、“乘”、“吃”、“穿”等,沒有哪個(gè)主語專屬哪個(gè)謂語。至于語句的其他成分,如定語、狀語、補(bǔ)語等,在《人民日?qǐng)?bào)》的語料中,更是變化多端,難以分析。如:
?無主語:
★ 而今/t ,/w d 轉(zhuǎn)變/v 思路/n 做/v!2 山水/n!1 文章/n 初/f 顯/v 成效/n,/w d 一個(gè)/mq 山水/n!1 相映成趣/iv 的/ud 新/a 蘭州/ns 漸漸/d “/wyz 立/v!2”/w yy 了/ul 起來/vq 。/w j
★為{wei4}/p!B1 這項(xiàng)/r 工程/n 所/us 做/v!2 的/ud 任何/rz 努力/an ,/w d都/d 會(huì)/vu!B2 使/v!2 安放/v 我們/rr 靈魂/n 的/ud 精神/n 家園/n 更加/dc 美好/a 。/w j
?主語與謂語不在一個(gè)短句內(nèi),相距較遠(yuǎn):
★為此/d ,/w d 上海/ns 交巡警/j 總隊(duì)/n 交通/n 科研/n 人員/n 深/d 挖/v潛力/n ,/w d 在/p 信號(hào)燈/n 上{shang5}/f!B “/w yz 做/v!2 ”/w yy 足/a 文章/n 。/w j
★問題/n 是/v l!B1 明擺著/lv 的/ud,/w d 就/d 看{kan4}/v!B2 當(dāng)?shù)?s 有關(guān)/vn 部門/n 如何/ryw 查處/v 了/y ,/w d是/vl!B1 做/v!1 表面文章/ln ,/w d 還是/c 狠抓/v 落實(shí)/vn 。/w j
綜上所述,我們把判斷動(dòng)詞多義詞的意思的重點(diǎn)依據(jù),放在賓語上。抽取賓語的方法是通過大量的語句分析,總結(jié)出一些規(guī)則來實(shí)現(xiàn)的,具體如下:
?賓語一般為名詞,有時(shí)為代詞;
?當(dāng)緊挨待校驗(yàn)動(dòng)詞后面有另一個(gè)動(dòng)詞且再往后有“的”出現(xiàn),則將這個(gè)動(dòng)詞與“的”之間的詞語忽略掉;
例如:做/v!3 造福/v 人類/n 的/ud事/n
不要/d f 做/v!2 破壞/v 和平/a 進(jìn)程/n的/ud 事/n
?緊挨待校驗(yàn)動(dòng)詞后面的詞語不是動(dòng)詞時(shí),則往后找動(dòng)詞,將找到的第二個(gè)動(dòng)詞后面的詞語忽略掉;
例如:還/d 應(yīng){ying1}/vu!B 看到/v 我們/rr 可以/vu 做/v!2 工作/vn 改善/v 客觀/n 環(huán)境/n 的/ud 一面/f
黨員/n 義務(wù)/n 卡/n 就/d 是/vl!B1農(nóng)村/n 黨員/n 把/p 每月/r 為{w ei4}/p!A 村民/n 群眾/n 所/us 做/v!2 的/ud事/n 記/v 在/p 各自/rr 的/ud 義務(wù)/n卡/n 上{shang5}/f!B
?如果詞“的”存在,且不是語句最后一個(gè)詞,則將“的”之前的詞語忽略掉;
例如:為{wei4}/p!B2 廠子/n 的/ud 興旺發(fā)達(dá)/lv 做/v!2 了/ul 不/df 少/a 力所能及/i 的/ud 工作/vn
?如果有兩個(gè)或兩個(gè)以上名詞連續(xù)挨著,則忽略掉前面的名詞,保留最后一個(gè)名詞;
例如:帶/v!1 著/uz 感情/n 做/v!2 思想/n 政治/n 工作/vn
?賓語一般出現(xiàn)在動(dòng)詞后面,所以開一個(gè)窗口,截取待校驗(yàn)動(dòng)詞后面4個(gè)詞語,判斷有沒有名詞,如果沒有名詞出現(xiàn),則截取該動(dòng)詞左邊兩個(gè)詞語,判斷有沒有名詞,如果沒有,則認(rèn)為其余名詞距離該動(dòng)詞太遠(yuǎn),不能算作賓語,認(rèn)為該動(dòng)詞沒有帶賓語。
例如:士兵/n 退役/vn 工作/vn 做/v!2得/ue 好不好/l
還有/v 很多/m 工作/vn 要/vu!2 做/v!2
另外有些語句,沒有名詞出現(xiàn),按沒有賓語處理。例如:做/v!2 得/ue 不/d f 到位/vi
經(jīng)過上述規(guī)則篩選,雖然我們開設(shè)窗口,確定的是賓語的范圍,但往往也只有一個(gè)賓語被抽取出來。
確定了賓語的范圍之后,兩句話的相似度就歸結(jié)為賓語的相似度了。本文參考并改進(jìn)文獻(xiàn)[3-7]的方法,提出了如下語句相似度計(jì)算方法。我們也對(duì)別的語句相似度計(jì)算方法做了考察并設(shè)計(jì)程序進(jìn)行了實(shí)驗(yàn),但發(fā)現(xiàn)已有語句相似度計(jì)算方法并不適合《人民日?qǐng)?bào)》語料中的語句,因?yàn)椤度嗣袢請(qǐng)?bào)》語料中的語句有其自身特點(diǎn),所以我們提出了本文的賓語相似度代表語句相似度的計(jì)算方法。首先對(duì)《知網(wǎng)》進(jìn)行簡單介紹。
3.2.1 《知網(wǎng)》中的知識(shí)表示方法
《知網(wǎng)》與一般的語義詞典不同,它對(duì)詞語的解釋不是通過具體的文字描述,而是通過“概念”和“義原”的結(jié)構(gòu)化的組織來進(jìn)行[8]。在《知網(wǎng)》中,對(duì)詞語的描述如圖2:
圖2.《知網(wǎng)》詞語定義結(jié)構(gòu)分解圖
一個(gè)詞語可以有一個(gè)或多個(gè)義項(xiàng)解釋,每個(gè)義項(xiàng)釋義叫“概念”,而每個(gè)概念又由一個(gè)或幾個(gè)“詞匯”通過一定的“法則”組織在一起來定義。這些“詞匯”即是“義原”。
上面提到的“法則”即是知識(shí)描述語言(Know ledge Database M ark-up Language即 KDM L),它有其自身的一套復(fù)雜的規(guī)范體系,用來組織義原對(duì)詞語義項(xiàng)進(jìn)行描述。
3.2.2 義原相似度的計(jì)算
《知網(wǎng)》將義原歸類,每個(gè)類是一個(gè)樹狀結(jié)構(gòu),樹的節(jié)點(diǎn)代表義原。由于不在同一棵樹下的義原不屬同一類,按本文系統(tǒng)要求,則處在同一棵樹下的兩個(gè)義原具有一定的相似度,不在同一棵樹下的兩個(gè)義原相似度為0。
圖3 義原樹狀圖
如圖3所示,P1,P2代表兩個(gè)義原,P為它們向上追溯的第一個(gè)公共節(jié)點(diǎn)。則 P1和P2的相似度為:
α為可調(diào)節(jié)參數(shù),len1、len2為 P 到P1、P2的路徑長度,deep(P)為P節(jié)點(diǎn)在整個(gè)義原樹中所處的層次(根節(jié)點(diǎn)為第一層),deep(tree)為這棵義原樹的深度。
將以P為根節(jié)點(diǎn)的子樹單獨(dú)拿出來,自P節(jié)點(diǎn)往下分叉,每走一步,則代表P1,P2的差異多一個(gè),且一個(gè)差異賦予一個(gè)權(quán)值α,P處相似度為1,則用1減去差異α(len1+len2),剩下的為P1和 P2的共同部分,即相似度,這個(gè)相似度對(duì)于P子樹來說是絕對(duì)的;又P子樹是整個(gè)義原樹的一部分,所以再乘以“部分在整體中所占的權(quán)重”,即deep(P)/deep(tree),最后所得結(jié)果為P1,P2在整個(gè)義原樹中的相對(duì)相似度。
3.2.3 概念相似度的計(jì)算
設(shè)概念d1由 t個(gè)義原P11,P12,P13…P1 t組成,概念d2由k個(gè)義原P21,P22,P23…P2k組成。
β1,β2為可調(diào)節(jié)參數(shù),β1+β2=1,β1>β2。
概念相似度的計(jì)算將第一獨(dú)立義原與剩余所有義原作為兩部分分別計(jì)算。《知網(wǎng)》里,概念的第一義原描述的是概念的最主要的屬性歸類,也是按本系統(tǒng)的功能而需要提取的詞語的屬性歸類,所以β1定義得比較大。
3.2.4 詞語相似度的計(jì)算
詞語W 1有n個(gè)概念定義:d11,d12,d13…d1n;W2有m個(gè)概念定義:d21,d22,d23…d2m。W1與W2的相似度取所有概念相似度中的最大值:
3.2.5 語料語句相似度的計(jì)算
語句相似度的計(jì)算歸于了賓語相似度計(jì)算,而抽取出的賓語范圍里,可能有不只一個(gè)賓語,則將句1的n個(gè)賓語與句2的m個(gè)賓語兩兩配對(duì),進(jìn)行計(jì)算,最后取一個(gè)最大值,作為兩句話的相似度值,最大值對(duì)應(yīng)的兩個(gè)賓語,分別為兩句話的賓語。
3.2.6 其他語句相似度的計(jì)算方法
目前,已有多種語句相似度計(jì)算方法,如:基于向量空間模型VSM的方法[9],基于語義依存的相似度計(jì)算方法[9],基于語義距離的句子相似度計(jì)算[9],多層次融合的相似度計(jì)算方法[10]等等。我們研究并設(shè)計(jì)了一種多層次融合的語句相似度計(jì)算方法,下面簡單介紹。
Step1:關(guān)鍵詞抽取
一般認(rèn)為,一句話的關(guān)鍵詞包括名詞、代詞、動(dòng)詞和形容詞,這些詞即可表達(dá)一句話的主要意思,因此首先將待計(jì)算的語句進(jìn)行關(guān)鍵詞抽取。
Step2:基于詞表面特征相似度計(jì)算
一句話可以從不同的角度去研究,我們將詞形、句長和結(jié)構(gòu)相似度歸為詞表面相似度。分別計(jì)算如下:
(1)詞形相似度
(2)句長相似度
(3)結(jié)構(gòu)相似度
(4)基于詞表面特征相似度
將(1),(2),(3)三方面的相似度綜合起來,得到基于詞表面特征的相似度。
Step3:語義相似度計(jì)算
計(jì)算完了詞表面特征的相似度,再利用《知網(wǎng)》計(jì)算語句的深層相似度,即語義方面的相似度。
Step4:詞表面特征和語義相似度的結(jié)合
我們從表層和里層分別考察完相似度后,將詞表面特征相似度和語義相似度結(jié)合起來,得到語句相似度。
經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),這種語句相似度計(jì)算方法比較適合語句結(jié)構(gòu)比較規(guī)范,語句成分比較少的單句,對(duì)《人民日?qǐng)?bào)》語料的復(fù)雜語句并不適合。如:“我愛吃香蕉”和“我喜歡吃蘋果”的相似度為1.000 000;而對(duì)《人民日?qǐng)?bào)》里的語句,如:“他/rr 高度/d評(píng)價(jià)/v 普里馬科夫/nr 在/p 任/v 俄/jn外長/n 和/c 總理/n 期間/f 為{wei4}/p!B2 發(fā)展/v 中/jn 俄/jn 關(guān)系/n 所/us做/v!2 的/ud 大量/m 工作/vn ”和“為{wei4}/p!B2 基本/ad 實(shí)現(xiàn)/v 兩/m 綱/n目標(biāo)/n 做/v!2 了/ul 大量/m 工作/vn ”的相似度為0.439 008。
因此,對(duì)《人民日?qǐng)?bào)》語料,我們?cè)O(shè)計(jì)了賓語相似度代表語句相似度的方法。
本系統(tǒng)的設(shè)計(jì)中,需要一個(gè)庫作為模板,來進(jìn)行一致性檢驗(yàn)。對(duì)于特定的謂語,賓語既然決定了語句語境,則我們以賓語為基礎(chǔ),建立標(biāo)準(zhǔn)模式庫。
經(jīng)過對(duì)大量語句的分析,我們發(fā)現(xiàn),多義詞的每個(gè)釋義對(duì)應(yīng)的賓語有一定的規(guī)律,如:“做”有三個(gè)釋義,“(1)制做;寫作”對(duì)應(yīng)的賓語大多為與書、文章有關(guān)的和具體物品;“(2)從事某種工作或活動(dòng)”對(duì)應(yīng)的賓語大多為事件、活動(dòng)之類的;“(3)充當(dāng),擔(dān)任;用做;結(jié)成”對(duì)應(yīng)的賓語大多為人物之類的。并且,對(duì)于特定的《人民日?qǐng)?bào)》語料,因語言有其自身特點(diǎn),許多賓語更是經(jīng)常、規(guī)律地出現(xiàn)。對(duì)照著聚過類的語句,我們將語境相同或相似的語句的賓語放在同一個(gè)釋義下,但同一個(gè)釋義下的賓語對(duì)應(yīng)的語句語境不一定相同或相似。因此,我們將多義詞釋義及其對(duì)應(yīng)的賓語作為模式庫構(gòu)建的元素,其組織結(jié)構(gòu)如表1所示。每個(gè)多義詞的模式庫都放在一個(gè)獨(dú)立的文本文件里。
當(dāng)然,漢語語言變換很多,幾個(gè)月的《人民日?qǐng)?bào)》語料不可能將多義詞每個(gè)釋義對(duì)應(yīng)的賓語全部列舉,我們?cè)谝恢滦詸z驗(yàn)時(shí),如果沒有直接匹配的賓語,則進(jìn)行詞語相似度計(jì)算,與模式庫里的某個(gè)賓語相似度最高,則跟這個(gè)賓語是屬于同一類的賓語,則匹配這個(gè)賓語歸屬的釋義。所以,模式庫里的每個(gè)賓語既可直接匹配,又可看作是某一類賓語的代表、標(biāo)識(shí),每個(gè)賓語可作為一個(gè)模板。
總之,標(biāo)準(zhǔn)模式庫將語境相同或相似的語句的賓語放在同一釋義下,可直接匹配,也可通過相似度計(jì)算匹配,保證了后面一致性檢驗(yàn)的可操作性。
表1 模式庫結(jié)構(gòu)
系統(tǒng)設(shè)計(jì)的最后一步是一致性檢驗(yàn)。聚在一塊的句群是語境相同或相似的,將每個(gè)語句按照前述的方法抽取出賓語,與標(biāo)準(zhǔn)模式庫對(duì)照,如果直接與模式庫賓語相匹配,則取該賓語對(duì)應(yīng)的釋義;如果沒有直接匹配到模式庫賓語,則將抽取出的賓語與庫里的賓語進(jìn)行相似度計(jì)算,取相似度最高的值對(duì)應(yīng)的模式庫賓語所屬的釋義,相當(dāng)于與此賓語模板相匹配。取出語料原始標(biāo)注與匹配到的模式庫標(biāo)注對(duì)照,校驗(yàn)結(jié)果分6種情況,各種情況及其處理辦法如下描述所示:
對(duì)于聚類的句群及系統(tǒng)校驗(yàn)后顯示在界面上的信息,人工也可進(jìn)行檢驗(yàn)并再糾正。界面上的信息經(jīng)確認(rèn)后:對(duì)于改正標(biāo)注之后的語句,寫回到原語料,替換原語句;對(duì)于校驗(yàn)過程中發(fā)現(xiàn)的新賓語,追加到模式庫里,擴(kuò)充、完善模式庫。
系統(tǒng)對(duì)上述6種情況分別有多少語句及校驗(yàn)的總語句數(shù)進(jìn)行統(tǒng)計(jì),并顯示在界面上,便于我們總結(jié) 、研究 。
實(shí)驗(yàn)中公式所用參數(shù)取值為:α=0.02,β1=0.7,β2=0.3。α,β1和 β2的值根據(jù)我們系統(tǒng)對(duì)詞語相似程度的要求,經(jīng)過對(duì)公式的演算推導(dǎo)得出;判定兩句話相似的閾值取為0.6,也是根據(jù)對(duì)大量相似語句的相似度值進(jìn)行考察總結(jié)得出;“*”表示一句話的開始;“#”符號(hào)后面的詞語表示程序判斷出的作為兩句話賓語的詞語。本文抽取“做”這個(gè)多義詞的語句進(jìn)行測試。實(shí)驗(yàn)結(jié)果的截圖如圖4、圖5所示。
圖4 “做”相似語句聚類結(jié)果1
圖5 “做”相似語句聚類結(jié)果2
一致性檢驗(yàn)的各種情況及統(tǒng)計(jì)信息如圖6、圖7所示。
圖6 校驗(yàn)結(jié)果顯示
圖7 統(tǒng)計(jì)結(jié)果
本文中,我們研究了賓語相似度代表語句語境相似度的計(jì)算方法,從語句聚類的實(shí)驗(yàn)結(jié)果可以看出,效果總體上是令人滿意的。我們的聚類要求是:語境相同的可以歸為一個(gè)大類,也可以歸為不同的類,這是因?yàn)椤吨W(wǎng)》對(duì)詞語的定義有其自身規(guī)則,我們是利用《知網(wǎng)》,而不是《知網(wǎng)》為我們的需求而量身定做的,所以我們主觀認(rèn)為相似的詞語,計(jì)算出的相似度也可能不高,如“工作”和“事情”,相似度為0.367 500。所以以“工作”、“事情”為賓語的語句歸在了兩個(gè)類里,但一個(gè)類里的是相似的。下面本文逐層對(duì)不正確的結(jié)果進(jìn)行分析。
從賓語抽取的的準(zhǔn)確與否說起:
1)抽取不準(zhǔn)確而導(dǎo)致計(jì)算錯(cuò)誤的,有以下幾種情況:
?是賓語抽取規(guī)則不完備,有待于進(jìn)一步研究、完善和擴(kuò)展;
?語料中的詞性標(biāo)注錯(cuò)誤,導(dǎo)致賓語抽取不準(zhǔn)確,這樣的情況比較少;
?語料中抽取出的語句也可能不完整,動(dòng)詞與賓語沒在一個(gè)短句里,但這樣的情況是很少數(shù)的。
2)抽取準(zhǔn)確,計(jì)算不準(zhǔn)確的,情況又有以下幾種:
?如上所述,《知網(wǎng)》中對(duì)詞語的定義不是為我們的需求量身打造,所以我們認(rèn)為不相似的詞語,而計(jì)算出的結(jié)果卻是相似度高的,而我們認(rèn)為相似的詞語,則結(jié)果可能是相似度偏低;
?抽取出的賓語可能不是一個(gè),所以非真正賓語對(duì)計(jì)算也具有干擾性;
?《知網(wǎng)》對(duì)詞語定義也存在不合理情況,也會(huì)導(dǎo)致詞語相似度計(jì)算不準(zhǔn)確。
在一致性檢驗(yàn)中,“做”總共有1 253句,為了方便觀察結(jié)果,我們?cè)谛r?yàn)之前,人工改造并記錄了一些各種情況的語句,按照前述情況的順序,校驗(yàn)結(jié)果如表2所示。
表2 校驗(yàn)結(jié)果統(tǒng)計(jì)
影響校驗(yàn)結(jié)果的因素主要有三個(gè):?賓語抽取的準(zhǔn)確否;?相似度計(jì)算的合理性;?模式庫賓語的代表性及規(guī)模。賓語抽取準(zhǔn)確是前提,如果不準(zhǔn)確了,自然結(jié)果不準(zhǔn)確;賓語抽取準(zhǔn)確了,相似度計(jì)算不合理,也找不到正確的義項(xiàng)標(biāo)注;相似度計(jì)算準(zhǔn)確了,模式庫賓語不具有代表性或賓語數(shù)量不夠,也同樣計(jì)算不出合理的相似度值,進(jìn)而匹配不到正確的標(biāo)注。
由表可見,結(jié)果總體是令人滿意的。同時(shí),我們會(huì)在上述主要因素及其他方面加強(qiáng)改進(jìn)。
本文在語句聚類,標(biāo)準(zhǔn)模式庫建立,一致性檢驗(yàn)階段,非常重要的一個(gè)思想是,對(duì)一個(gè)指定動(dòng)詞,賓語代表了其語境意思,代表了其釋義。另一個(gè)重要工作是相似度的計(jì)算,本文分析研究真實(shí)語料的語句特點(diǎn),研究了現(xiàn)有的相似度計(jì)算方法,發(fā)現(xiàn)了兩者的不相適應(yīng)性,具體情況具體分析,進(jìn)而提出了本文的計(jì)算方法,將其放在本系統(tǒng)的應(yīng)用中,效果令人滿意。今后,本文需要更多的研究語料中的構(gòu)句規(guī)則、語法、詞語信息等方面的內(nèi)容,完備賓語抽取規(guī)則;另外,還要進(jìn)一步完善、擴(kuò)展標(biāo)準(zhǔn)模式庫;同時(shí),進(jìn)一步改進(jìn)相似度計(jì)算。通過各方面改進(jìn),使系統(tǒng)功能更強(qiáng)。
[1] 李生,張晶,趙鐵軍,姚建民.詞義消歧研究的現(xiàn)狀與發(fā)展方向[J].計(jì)算機(jī)科學(xué),2001,28(9):95-98,封四.
[2] 商敏.漢語詞義消歧研究[D].大連:大連理工大學(xué)碩士論文,2007.
[3] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度的計(jì)算[OL].http://www.keenage.com.
[4] 張奇,黃萱菁,吳立德.一種新的句子相似度度量及其在文本自動(dòng)摘要中的應(yīng)用[J].中文信息學(xué)報(bào),2005,19(2):93-99.
[5] 王榮波,池哲儒.基于詞類串的漢語句子結(jié)構(gòu)相似度計(jì)算方法[J].中文信息學(xué)報(bào),2005,19(1):12-29.
[6] 李峰,李芳.中文詞語語義相似度計(jì)算——基于《知網(wǎng)》2000[J].中文信息學(xué)報(bào),2007,21(3):99-105.
[7] 張玉娟.基于《知網(wǎng)》的句子相似度計(jì)算的研究[D].北京:中國地質(zhì)大學(xué)碩士論文,2006.
[8] 董振東.《知網(wǎng)》.http://www.keenage.com[DB/OL].
[9] 趙巾幗,徐德智,羅慶云.漢語句子相似度計(jì)算方法比對(duì)之研究[J].福建電腦,2007,10:51,68.
[10] 南鉉國,崔榮一.基于多層次融合的語句相似度計(jì)算模型[J].延邊大學(xué)學(xué)報(bào),2007,33(3):191-194.