亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于構(gòu)詞模式的未登錄描述詞自動識別的研究

        2014-04-29 00:00:00王玉凡趙占坤韓曉霞
        計算機光盤軟件與應(yīng)用 2014年1期

        摘 要:本論文基于要實現(xiàn)二維圖像空間關(guān)系特征與描述詞對齊這一目的,研究如何將描述句中的“分詞碎片”自動識別為描述詞,增強對齊后語料的豐富性。本文采用模式識別的思想,總結(jié)“分詞碎片”的詞性構(gòu)成描述詞的構(gòu)成模式,對碎片中可能成為的描述詞進行識別。

        關(guān)鍵詞:對齊;未登錄詞識別;構(gòu)詞模式;詞性;分詞碎片

        中圖分類號:G353.1

        基于二維圖像上兩個物體的不同空間位置關(guān)系特征與描述語句中的詞匯進行對齊,具體來說是要在描述語句中提取兩個范疇的詞匯,形狀和方位詞,再把這兩個范疇的詞與圖像的底層特征進行對應(yīng)。人工標(biāo)注語料經(jīng)過切分后會產(chǎn)生許多“分詞碎片”,這是因為描述詞的多樣化,如何從“分詞碎片”中將豐富的未登錄方位描述詞和形狀描述詞識別出來,是本文研究的重點。

        1 數(shù)據(jù)準(zhǔn)備

        本文的語料庫是由兩部分組成:人工標(biāo)注語料和圖像語料。

        圖像語料是系統(tǒng)自動生成的1000幅圖片,圖片上有兩個基本圖形,用不同的灰度值進行區(qū)分,兩個物體的位置不相交,有一定的方位關(guān)系。如圖1所示:

        圖1 圖像語料示例

        標(biāo)注語料是對每幅圖片的人工標(biāo)注,本文采用了開放的不限定維度的語言對圖像進行了人工標(biāo)注。對600幅圖像的標(biāo)注經(jīng)過切分、詞性標(biāo)注并去掉表示句式的詞后的結(jié)果如下所示:

        0000/m 三角形/n 正/d 五邊形/n 左邊/f

        2 基于構(gòu)詞模式自動識別未登錄描述詞的方法

        2.1 標(biāo)注預(yù)處理:先將描述語句進行一次切分,然后標(biāo)注詞性,因為本方法對于詞性標(biāo)注的準(zhǔn)確性有很高的要求,所以這里選用了中科院研究的分詞工具ICTCLAS進行切分,經(jīng)檢測此切分和詞性標(biāo)注工具準(zhǔn)確率達到98.5%,然后將表示句式的詞去掉,因為這些詞只是為了表達句式特點。

        2.2 模式初選:因為不同的人有不同描述習(xí)慣,為了使模式覆蓋面更廣泛,在600條語句中,從每100條中抽取10條,總結(jié)這60條描述語句中“分詞碎片”的詞性的構(gòu)詞模式,構(gòu)成構(gòu)詞模式的初選集。

        2.3 模式識別[1]:根據(jù)初選集中的模式去識別剩下語料中的“分詞碎片”,在識別的同時,統(tǒng)計出每種模式可以識別出的詞語數(shù)目。識別時,如果連續(xù)的“分詞碎片”中滿足初選集中的一種或幾種模式,以滿足的最長模式為最后結(jié)果。例如:左方/f偏/d上/f一點/m,既滿足模式fd,又滿足模式fdfm,選擇fdfm即詞語為左方偏上一點為結(jié)果。

        2.4 模式篩選:去掉一些識別出詞語比較少的模式,因為這些模式往往只是某個分詞碎片組成的特例,不能稱之為一個模式。

        2.5 用篩選后的模式,對測試集中的“分詞碎片”進行識別:篩選后的模式就是可用于對“分詞碎片”進行識別的模式。

        3 實驗結(jié)果

        實驗中從60條語句中總結(jié)出的“分詞碎片”的詞性成詞模式共18種如下所示:

        \"mq\",\"fd\",\"ff\",\"fvf\",\"df\",\"fdfm\",\"dn\",\"dfdfm\",\"fn\",\"ffn\",\"fdam\",\"ffnn\",\"nn\",\"nfv\",\"bnf\",\"fda\",\"vf\",\"mnn\"

        實驗準(zhǔn)備的測試集為200條分詞碎片語料,用這幾種模式去識別這200條測試集中的語料,實驗結(jié)果如表1所示:

        表1 實驗結(jié)果

        構(gòu)詞模式mqfdfffvfdffdfmdndfdfm

        出現(xiàn)頻次31394002591162

        構(gòu)詞模式fnfdamffnnnnfdavfmnn

        出現(xiàn)頻次0900101

        據(jù)統(tǒng)計,該方法識別出的詞語的正確率為97.5%,召回率為94.7%。

        4 結(jié)束語

        本文介紹了一種基于構(gòu)詞模式的自動識別未登錄描述詞的方法,并提出把該方法用于特征-描述詞的對齊中,極大地增強了對齊語料中的詞語豐富性。

        附錄

        計算所漢語詞性標(biāo)記集

        Version 5.0

        制訂人:劉群 張華平 張浩

        n 名詞;t 時間詞;s 處所詞;f 方位詞;v 動詞;a 形容詞;b 區(qū)別詞;

        z 狀態(tài)詞;r 代詞;m 數(shù)詞;q 量詞;d 副詞;p 介詞;c 連詞;u 助詞;

        e 嘆詞;y 語氣詞;o 擬聲詞;h 前綴;k 后綴;w 標(biāo)點符號;

        參考文獻:

        [1]Richard O.模式分類[M].北京:機械工業(yè)出版社,2005.

        作者簡介:王玉凡(1972-),女,河北人,碩士,講師,研究方向:信息處理。

        作者單位:河北軟件職業(yè)技術(shù)學(xué)院,河北保定 071003

        基金項目:河北省保定市科學(xué)技術(shù)研究與發(fā)展計劃(13ZG030)。

        免费黄色电影在线观看| 亚洲精品中文字幕乱码三区| 精品久久日产国产一区| 在线看亚洲十八禁网站| 国产精品妇女一二三区| 婷婷久久av综合一区二区三区| 狠干狠爱无码区| 国产av无码专区亚洲av中文| 国产流白浆视频在线观看| 最新亚洲av日韩av二区一区| 欧美整片第一页| 亚洲成av人片在线观看ww| 狠狠躁日日躁夜夜躁2022麻豆| 伊人久久综合狼伊人久久| 国产一级黄色录像| 少妇人妻200篇白洁| 很黄很色很污18禁免费| 国产日产亚洲系列首页| 免费人成视频网站在线观看不卡| 亚洲一二三区在线观看| 少妇久久久久久被弄到高潮| 亚洲国产果冻传媒av在线观看| 国产蜜桃传媒在线观看| 日本肥老熟妇在线观看| 精品人妻中文av一区二区三区| 8ⅹ8x擦拨擦拨成人免费视频 | 一本一道av无码中文字幕| 97人伦影院a级毛片| 户外精品一区二区三区| 久久久国产精品首页免费| 亚洲综合久久1区2区3区| 国产乱子伦精品无码码专区| 4399理论片午午伦夜理片| 亚洲熟妇无码av在线播放| 国产主播性色av福利精品一区| 女同av免费在线播放| 亚洲高清视频在线播放| 亚洲综合欧美在线| 亚洲综合精品成人| 亚洲精品天堂成人片av在线播放| 国产精品久久久久久久久久红粉|