摘 要:本論文基于要實現(xiàn)二維圖像空間關(guān)系特征與描述詞對齊這一目的,研究如何將描述句中的“分詞碎片”自動識別為描述詞,增強對齊后語料的豐富性。本文采用模式識別的思想,總結(jié)“分詞碎片”的詞性構(gòu)成描述詞的構(gòu)成模式,對碎片中可能成為的描述詞進行識別。
關(guān)鍵詞:對齊;未登錄詞識別;構(gòu)詞模式;詞性;分詞碎片
中圖分類號:G353.1
基于二維圖像上兩個物體的不同空間位置關(guān)系特征與描述語句中的詞匯進行對齊,具體來說是要在描述語句中提取兩個范疇的詞匯,形狀和方位詞,再把這兩個范疇的詞與圖像的底層特征進行對應(yīng)。人工標(biāo)注語料經(jīng)過切分后會產(chǎn)生許多“分詞碎片”,這是因為描述詞的多樣化,如何從“分詞碎片”中將豐富的未登錄方位描述詞和形狀描述詞識別出來,是本文研究的重點。
1 數(shù)據(jù)準(zhǔn)備
本文的語料庫是由兩部分組成:人工標(biāo)注語料和圖像語料。
圖像語料是系統(tǒng)自動生成的1000幅圖片,圖片上有兩個基本圖形,用不同的灰度值進行區(qū)分,兩個物體的位置不相交,有一定的方位關(guān)系。如圖1所示:
圖1 圖像語料示例
標(biāo)注語料是對每幅圖片的人工標(biāo)注,本文采用了開放的不限定維度的語言對圖像進行了人工標(biāo)注。對600幅圖像的標(biāo)注經(jīng)過切分、詞性標(biāo)注并去掉表示句式的詞后的結(jié)果如下所示:
0000/m 三角形/n 正/d 五邊形/n 左邊/f
2 基于構(gòu)詞模式自動識別未登錄描述詞的方法
2.1 標(biāo)注預(yù)處理:先將描述語句進行一次切分,然后標(biāo)注詞性,因為本方法對于詞性標(biāo)注的準(zhǔn)確性有很高的要求,所以這里選用了中科院研究的分詞工具ICTCLAS進行切分,經(jīng)檢測此切分和詞性標(biāo)注工具準(zhǔn)確率達到98.5%,然后將表示句式的詞去掉,因為這些詞只是為了表達句式特點。
2.2 模式初選:因為不同的人有不同描述習(xí)慣,為了使模式覆蓋面更廣泛,在600條語句中,從每100條中抽取10條,總結(jié)這60條描述語句中“分詞碎片”的詞性的構(gòu)詞模式,構(gòu)成構(gòu)詞模式的初選集。
2.3 模式識別[1]:根據(jù)初選集中的模式去識別剩下語料中的“分詞碎片”,在識別的同時,統(tǒng)計出每種模式可以識別出的詞語數(shù)目。識別時,如果連續(xù)的“分詞碎片”中滿足初選集中的一種或幾種模式,以滿足的最長模式為最后結(jié)果。例如:左方/f偏/d上/f一點/m,既滿足模式fd,又滿足模式fdfm,選擇fdfm即詞語為左方偏上一點為結(jié)果。
2.4 模式篩選:去掉一些識別出詞語比較少的模式,因為這些模式往往只是某個分詞碎片組成的特例,不能稱之為一個模式。
2.5 用篩選后的模式,對測試集中的“分詞碎片”進行識別:篩選后的模式就是可用于對“分詞碎片”進行識別的模式。
3 實驗結(jié)果
實驗中從60條語句中總結(jié)出的“分詞碎片”的詞性成詞模式共18種如下所示:
\"mq\",\"fd\",\"ff\",\"fvf\",\"df\",\"fdfm\",\"dn\",\"dfdfm\",\"fn\",\"ffn\",\"fdam\",\"ffnn\",\"nn\",\"nfv\",\"bnf\",\"fda\",\"vf\",\"mnn\"
實驗準(zhǔn)備的測試集為200條分詞碎片語料,用這幾種模式去識別這200條測試集中的語料,實驗結(jié)果如表1所示:
表1 實驗結(jié)果
構(gòu)詞模式mqfdfffvfdffdfmdndfdfm
出現(xiàn)頻次31394002591162
構(gòu)詞模式fnfdamffnnnnfdavfmnn
出現(xiàn)頻次0900101
據(jù)統(tǒng)計,該方法識別出的詞語的正確率為97.5%,召回率為94.7%。
4 結(jié)束語
本文介紹了一種基于構(gòu)詞模式的自動識別未登錄描述詞的方法,并提出把該方法用于特征-描述詞的對齊中,極大地增強了對齊語料中的詞語豐富性。
附錄
計算所漢語詞性標(biāo)記集
Version 5.0
制訂人:劉群 張華平 張浩
n 名詞;t 時間詞;s 處所詞;f 方位詞;v 動詞;a 形容詞;b 區(qū)別詞;
z 狀態(tài)詞;r 代詞;m 數(shù)詞;q 量詞;d 副詞;p 介詞;c 連詞;u 助詞;
e 嘆詞;y 語氣詞;o 擬聲詞;h 前綴;k 后綴;w 標(biāo)點符號;
參考文獻:
[1]Richard O.模式分類[M].北京:機械工業(yè)出版社,2005.
作者簡介:王玉凡(1972-),女,河北人,碩士,講師,研究方向:信息處理。
作者單位:河北軟件職業(yè)技術(shù)學(xué)院,河北保定 071003
基金項目:河北省保定市科學(xué)技術(shù)研究與發(fā)展計劃(13ZG030)。