亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于構(gòu)詞模式的未登錄描述詞自動識別的研究

        2014-04-29 00:00:00王玉凡趙占坤韓曉霞
        計算機光盤軟件與應(yīng)用 2014年1期

        摘 要:本論文基于要實現(xiàn)二維圖像空間關(guān)系特征與描述詞對齊這一目的,研究如何將描述句中的“分詞碎片”自動識別為描述詞,增強對齊后語料的豐富性。本文采用模式識別的思想,總結(jié)“分詞碎片”的詞性構(gòu)成描述詞的構(gòu)成模式,對碎片中可能成為的描述詞進行識別。

        關(guān)鍵詞:對齊;未登錄詞識別;構(gòu)詞模式;詞性;分詞碎片

        中圖分類號:G353.1

        基于二維圖像上兩個物體的不同空間位置關(guān)系特征與描述語句中的詞匯進行對齊,具體來說是要在描述語句中提取兩個范疇的詞匯,形狀和方位詞,再把這兩個范疇的詞與圖像的底層特征進行對應(yīng)。人工標(biāo)注語料經(jīng)過切分后會產(chǎn)生許多“分詞碎片”,這是因為描述詞的多樣化,如何從“分詞碎片”中將豐富的未登錄方位描述詞和形狀描述詞識別出來,是本文研究的重點。

        1 數(shù)據(jù)準(zhǔn)備

        本文的語料庫是由兩部分組成:人工標(biāo)注語料和圖像語料。

        圖像語料是系統(tǒng)自動生成的1000幅圖片,圖片上有兩個基本圖形,用不同的灰度值進行區(qū)分,兩個物體的位置不相交,有一定的方位關(guān)系。如圖1所示:

        圖1 圖像語料示例

        標(biāo)注語料是對每幅圖片的人工標(biāo)注,本文采用了開放的不限定維度的語言對圖像進行了人工標(biāo)注。對600幅圖像的標(biāo)注經(jīng)過切分、詞性標(biāo)注并去掉表示句式的詞后的結(jié)果如下所示:

        0000/m 三角形/n 正/d 五邊形/n 左邊/f

        2 基于構(gòu)詞模式自動識別未登錄描述詞的方法

        2.1 標(biāo)注預(yù)處理:先將描述語句進行一次切分,然后標(biāo)注詞性,因為本方法對于詞性標(biāo)注的準(zhǔn)確性有很高的要求,所以這里選用了中科院研究的分詞工具ICTCLAS進行切分,經(jīng)檢測此切分和詞性標(biāo)注工具準(zhǔn)確率達到98.5%,然后將表示句式的詞去掉,因為這些詞只是為了表達句式特點。

        2.2 模式初選:因為不同的人有不同描述習(xí)慣,為了使模式覆蓋面更廣泛,在600條語句中,從每100條中抽取10條,總結(jié)這60條描述語句中“分詞碎片”的詞性的構(gòu)詞模式,構(gòu)成構(gòu)詞模式的初選集。

        2.3 模式識別[1]:根據(jù)初選集中的模式去識別剩下語料中的“分詞碎片”,在識別的同時,統(tǒng)計出每種模式可以識別出的詞語數(shù)目。識別時,如果連續(xù)的“分詞碎片”中滿足初選集中的一種或幾種模式,以滿足的最長模式為最后結(jié)果。例如:左方/f偏/d上/f一點/m,既滿足模式fd,又滿足模式fdfm,選擇fdfm即詞語為左方偏上一點為結(jié)果。

        2.4 模式篩選:去掉一些識別出詞語比較少的模式,因為這些模式往往只是某個分詞碎片組成的特例,不能稱之為一個模式。

        2.5 用篩選后的模式,對測試集中的“分詞碎片”進行識別:篩選后的模式就是可用于對“分詞碎片”進行識別的模式。

        3 實驗結(jié)果

        實驗中從60條語句中總結(jié)出的“分詞碎片”的詞性成詞模式共18種如下所示:

        \"mq\",\"fd\",\"ff\",\"fvf\",\"df\",\"fdfm\",\"dn\",\"dfdfm\",\"fn\",\"ffn\",\"fdam\",\"ffnn\",\"nn\",\"nfv\",\"bnf\",\"fda\",\"vf\",\"mnn\"

        實驗準(zhǔn)備的測試集為200條分詞碎片語料,用這幾種模式去識別這200條測試集中的語料,實驗結(jié)果如表1所示:

        表1 實驗結(jié)果

        構(gòu)詞模式mqfdfffvfdffdfmdndfdfm

        出現(xiàn)頻次31394002591162

        構(gòu)詞模式fnfdamffnnnnfdavfmnn

        出現(xiàn)頻次0900101

        據(jù)統(tǒng)計,該方法識別出的詞語的正確率為97.5%,召回率為94.7%。

        4 結(jié)束語

        本文介紹了一種基于構(gòu)詞模式的自動識別未登錄描述詞的方法,并提出把該方法用于特征-描述詞的對齊中,極大地增強了對齊語料中的詞語豐富性。

        附錄

        計算所漢語詞性標(biāo)記集

        Version 5.0

        制訂人:劉群 張華平 張浩

        n 名詞;t 時間詞;s 處所詞;f 方位詞;v 動詞;a 形容詞;b 區(qū)別詞;

        z 狀態(tài)詞;r 代詞;m 數(shù)詞;q 量詞;d 副詞;p 介詞;c 連詞;u 助詞;

        e 嘆詞;y 語氣詞;o 擬聲詞;h 前綴;k 后綴;w 標(biāo)點符號;

        參考文獻:

        [1]Richard O.模式分類[M].北京:機械工業(yè)出版社,2005.

        作者簡介:王玉凡(1972-),女,河北人,碩士,講師,研究方向:信息處理。

        作者單位:河北軟件職業(yè)技術(shù)學(xué)院,河北保定 071003

        基金項目:河北省保定市科學(xué)技術(shù)研究與發(fā)展計劃(13ZG030)。

        欧美最猛性xxxxx免费| 国产在线无码精品无码| 日韩精品视频免费网站| 亚洲国产中文字幕在线视频综合| 久久久久无码国产精品一区| 一本色道久久88综合日韩精品 | 最近中文字幕完整版| 国产真人无遮挡作爱免费视频| 伊人99re| 性xxxx18免费观看视频| 天堂国精产品2023年| 国产精品久久久久电影网| 亚洲中文字幕无码中字| 无码伊人久久大香线蕉| 国产黄三级三级三级三级一区二区| 一区二区三区在线乱码| 中文字幕人妻久久久中出| 久久伊人这里都是精品| 国产精品免费无遮挡无码永久视频| 国产熟妇另类久久久久| 久久99国产亚洲高清观看韩国 | 久久久久久国产精品免费免费男同| 人人狠狠综合久久亚洲| 999久久久精品国产消防器材| 精品国产日韩无 影视| 亚洲国产精品情侣视频| 久久久久久人妻无码| 国产后入又长又硬| 中文字幕在线免费 | 自拍视频在线观看成人| 一区二区三区在线日本视频| 色哟哟最新在线观看入口| 无码人妻av一二区二区三区| 精品无码AV无码免费专区| 无码国产一区二区色欲| 99精品国产综合久久麻豆| 无码无套少妇毛多18p| 拍摄av现场失控高潮数次| 国产精品美女久久久浪潮av| 久草福利国产精品资源| 国产午夜精品av一区二区麻豆 |