亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        詞結合型未登錄詞識別方法研究

        2012-04-20 09:31:36周蕾朱巧明
        常熟理工學院學報 2012年4期
        關鍵詞:互信息分詞次數(shù)

        周蕾,朱巧明

        (1.常熟理工學院計算機科學與工程學院,江蘇常熟 215500;2.江蘇省計算機信息處理技術重點實驗室,江蘇蘇州 215006)

        詞結合型未登錄詞識別方法研究

        周蕾,朱巧明

        (1.常熟理工學院計算機科學與工程學院,江蘇常熟 215500;2.江蘇省計算機信息處理技術重點實驗室,江蘇蘇州 215006)

        介紹一種基于詞結合提取的未登錄詞識別方法.該方法對碎片分詞后的文本建立二元模型,結合互信息和規(guī)則過濾提取由若干個詞組合而成的未登錄詞(組).測試結果準確率為84.71%,召回率為72.13%.

        未登錄詞;二元模型;互信息

        隨著互聯(lián)網(wǎng)的發(fā)展,“中文信息處理”日益成為計算機研究的重要領域,而未登錄詞的存在是該領域研究的一個難題.很多學者對此展開研究,韓艷[1]通過對分詞后的碎片建立左右鄰信息來識別二元未登錄詞,其利用統(tǒng)計的方法,對語料庫的要求很高,缺少規(guī)則的調(diào)節(jié);閆蓉[2]應用遺傳算法在分詞后的碎片中識別未登錄詞,是一次大膽的嘗試,但遺傳算法的影響因子比較多,識別的精度有待提高.程沖[3]通過建立多種規(guī)則,利用小語料庫識別多種領域中的未登錄詞,但該方法未使用統(tǒng)計方法,單純依賴規(guī)則識別,對規(guī)則的要求很高.綜觀多種方案,我們發(fā)現(xiàn)大部分學者選擇在分詞后的碎片中識別未登錄詞,縮小了識別范圍產(chǎn)生遺漏.本人也在前不久提出了一種基于分詞碎片的未登錄詞識別方案,開發(fā)測試的準確率為71.79%,召回率為72.72%,效果并不理想.經(jīng)過研究發(fā)現(xiàn):在碎片分詞的基礎上,建立詞與詞的二元模型并且通過互信息進行“詞結合”提取,進一步識別未登錄詞,開放測試的結果顯示識別精度有所提高.本文主要介紹“詞結合”識別未登錄詞的具體方法.

        1 未登錄詞識別整體流程介紹

        經(jīng)過多次實驗發(fā)現(xiàn),很多未登錄詞由詞詞組合而成,這種未登錄詞以新詞居多.在這些未登錄詞中,由兩個連續(xù)詞語組成未登錄詞的可能性最大[4].為此,本方法為連續(xù)兩詞創(chuàng)建二元模型,再根據(jù)互信息識別“詞結合”型的未登錄詞.圖1是該方法的整體流程圖.圖中待處理文本是經(jīng)過一次粗切分,并且產(chǎn)生的碎片也經(jīng)過分詞處理的文本.該方法分為三個步驟:

        步驟一:兩遍掃描待處理文本,建立相鄰詞組的二元模型,計算二元模型的構詞可信度.挑選可信度大于閾值1的二元組作為二元模型識別的未登錄詞候選;

        步驟二:對構詞可信度小于閾值1的二元組分別計算二元組的互信息值,挑選互信息值大于閾值2的二元組作為互信息識別的未登錄詞候選;

        步驟三:建立規(guī)則,過濾步驟一和步驟二識別的未登錄詞,得到詞結合方法識別的未登錄詞集合.

        圖1 未登錄詞識別整體流程圖

        2 二元模型和互信息篩選方法

        2.1 二元模型選取未登錄詞

        N元模型是統(tǒng)計學中經(jīng)常使用的計算方法,現(xiàn)在被很多學者用于計算機語言學中.原理為:把字符串根據(jù)一個長度值切分,組成固定長度的子串.如:字符串“CDEFG”(每個字符代表一個詞),按固定長度2進行切分,組成的二元子串集合為:CD/DE/EF/FG,共4組.下面分4步詳細介紹二元模型的選詞方法.

        2.1.1 模型創(chuàng)建

        取文本中處于標點之間的詞片斷,以固定長度2進行切分,構成二元模型.二元模型中記錄每個詞“WDi”和每個二元詞組“WDiWDj”在整個文本出現(xiàn)的次數(shù).

        2.1.2 算法介紹

        獲取“WDi”和“WDiWDj”的出現(xiàn)次數(shù),需要兩次遍歷整個文本.一次遍歷獲取文本中所有單詞,并記錄每個單詞出現(xiàn)次數(shù)DFi;第二次遍歷以每個單詞作為首詞Fst_word,記錄該詞與其他單詞Lst_word共同出現(xiàn)的次數(shù)DFij,表示為

        存儲結構如圖2所示,由詞表,鏈表和索引表三部分組成.詞表中存儲了文本中的所有單詞,按首字順序排列,其中iFword、iFcount、iHead、iLast、iPos分別記錄單詞本身、出現(xiàn)次數(shù)、鏈表地址起始、鏈表地址末尾、單詞性質(zhì);鏈表存儲每個首詞后跟隨的尾詞情況,其中Freqi、Posi、next分別記錄兩詞共同出現(xiàn)的次數(shù)、尾詞在詞表的位置、下一指針;索引表存儲單詞中的首個字符,增快搜索單詞的速度.

        2.1.3 詞組選取

        計算兩詞組合“WDiWDj”能成為一個未登錄詞的概率

        DFi代表單詞WDi在文本中的總次數(shù),DFij代表“WDiWDj”出現(xiàn)次數(shù).

        圖2 待處理文本中所有詞的存儲結構

        計算兩詞組合中以單詞“WDi”為首詞的概率均值

        K代表以“WDi”為首詞的兩詞組合個數(shù).

        將計算出的P_avg(WDi)值作為閾值1,選取概率大于閾值1的組合作為二元模型選取的未登錄詞候選.

        2.1.4 結果分析

        二元模型的選擇方式主要取決于P(WDj|WDi)的值相對于P_avg(WDi)的高低情況.根據(jù)(1)式,造成P(WDj|WDi)的值偏低的主要原因:

        ①DFi的值偏大,這同樣會引起P_avg(WDi)的值偏低,對選擇結果沒有影響.

        ②DFij的值偏低,這不會影響P_avg(WDi)值,因此會影響到這類兩詞組合被選為登錄詞候選.結論:二元模型對于由生僻字構成的未登錄詞組合很難識別.

        2.2 互信息選取未登錄詞

        互信息主要反映詞與詞之間的結合度.對于被閾值1篩選下的二元詞組,本文選擇用互信息進一步識別.

        秋季安全生產(chǎn)調(diào)研反饋問題解決落實得怎么樣?春節(jié)前“零事故”安全保障措施有哪些?……11月26日,郯城縣高峰頭鎮(zhèn)人大舉行聯(lián)席會議,就全鎮(zhèn)安全生產(chǎn)工作情況開展專題詢問。鎮(zhèn)安監(jiān)辦、經(jīng)貿(mào)辦、派出所、交通運輸及7大社區(qū)、48個村莊、23家涉危涉爆經(jīng)營項目負責人到會應詢。

        2.2.1 算法介紹

        互信息MI可由(3)式計算

        其中DFi、DFj、DFij分別代表單詞“WDi”、“WDj”和二詞組合“WDij”在總文本中的出現(xiàn)次數(shù),N代表文本中所有出現(xiàn)的單詞個數(shù).

        選擇互信息MI值大于閾值2的所有二詞組合作為互信息選取的未登錄詞候選.

        2.2.2 結果分析

        根據(jù)式(3),造成二詞組合MI值偏低有兩個原因:

        ②DFi*DFj的結果偏高:說明在這個二詞組合中有常用詞,這類詞組合在前面的二元模型中就可以識別,因此不存在無法識別的問題.

        通過以上分析,二元模型和互信息存在互補,能在一定程度上擴大未登錄詞獲取范圍.

        2.3 規(guī)則篩選

        以上都是統(tǒng)計的方法,存在較多垃圾詞串.為了提高識別的精度,建立以下規(guī)則進一步篩選.

        (1)去除無意義單詞.將文本中詞性為助詞、嘆詞、副詞等的單詞設為無意義詞,例如“的”、“啊”等,其不參與二詞組合.

        (2)去除量詞.“一”、“1”等的量詞,其不參與二詞組合.

        (3)去除地名、人名.

        (4)去除固定稱謂詞.例如“主任”、“校長”等,其不參與二詞組合.

        3 實驗結果分析

        語料構成:人民日報2005-2012年各類別報道,共120.3萬篇.選取其中1500篇進行粗切分和碎片分詞后作為待處理文本,將人工識別后的未登錄詞作為標準答案.

        封閉式測試:單獨使用二元模型或互信息對識別效果都不理想,將兩者結合后能大幅提高識別準確率和召回率.

        (1)如圖3、圖4所示,閾值1不變,增大閾值2,識別未登錄詞的準確率先提高后基本維持不變,召回率先略微降低后大幅降低.

        圖3 閾值2改變對準確率的影響

        圖4 閾值2改變對召回率的影響

        (2)如圖5、6所示,閾值2不變,增大閾值1,識別未登錄詞的準確率基本保持不變,召回率不斷降低.

        圖5 閾值1改變對準確率的影響

        圖6 閾值1改變對召回率的影響

        根據(jù)封閉測試結果,最后選取閾值1=P_avg(WDi),閾值2=5,準確率為84.71%,召回率為72.13%.開放式測試:隨機抽取10篇語料測試,準確率為79.23%,召回率為65.35%.

        4 結語

        本文提出一種新型的未登錄詞識別方法,將二元模型和互信息相結合擴大未登錄詞的識別范圍,建立規(guī)則篩選增強識別的精度.從測試的結果看,能有效地識別“詞結合”型未登錄,特別適用于輸入法的更新.識別的準確率和召回率還有待進一步提高,在實際使用中,將碎片分詞和詞結合共同使用效果更好.

        [1]韓艷,林煜熙,姚建民.基于統(tǒng)計信息的未登錄詞的擴展識別方法[J].中文信息學報,2009,23(3):24-30.

        [2]閆蓉,張蕾.基于遺傳算法的漢語未登錄詞識別[J].計算機應用與軟件,2008,25(7):88-90.

        [3]程沖,黃水清.自適應分詞算法中的未登錄詞識別技術研究[J].情報學報,2009,28(4):530-536.

        [4]李榮,鄭家恒,郭梅英.基于遺傳算法的隱馬爾可夫模型在名詞短語識別中的應用研究[J].計算機科學,2009,36(10):244-247.

        [5]孫茂松,鄒嘉彥.漢語自動分詞研究評述[EB/OL].http://blog.csdn.net/dzkadin/archive/2004/12/02/202190.aspx.

        [6]都菁,熊海靈.基于論壇語料識別中文未登錄詞的方法[J].計算機工程與設計,2010,31(3):630-633.

        [7]唐旭日,陳小荷,許超,等.基于篇章的中文地名識別研究[J].中文信息學報,2010,24(2):24-32.

        [8]程傳鵬.一種基于位置信息的未登錄詞的識別方法[J].中原工學院學報,2008,19(6):32-33.

        [9]http://202.119.104.100/wxy/cipp/main.asp,CIPP中文信息處理平臺.

        Research on the Recognition Method of Unknown Chinese Words Based On Compound Words Recognition

        ZHOU Lei,ZHU Qiao-ming
        (1.(School of Computer Science and Engineering,ChangShu Institute of Technology,Changshu 215500,China; 2.Jiangsu Provincial Key Laboratory for Computer Information Processing Technology,Suzhou 215006,China)

        This paper introduces a method to extract unknown Chinese words based on compound words recogni?tion.This method builds a bi-gram model on the text which is processed by fragments segmentation,and it uses mutual information and regulations to combine some adjacent words to unknown words.The precision on the open test sets is 84.71%and recall is 72.13%.

        unknown Chinese words;bi-gram model;mutual information

        TP391

        A

        1008-2794(2012)04-0110-05

        2012-02-28

        江蘇省自然科學基金資助項目“基于超媒體引擎的個人辦公移動桌面”(BK2003030);江蘇省教育廳自然基金資助項目“漢語新詞匯自動抽取和發(fā)布信息網(wǎng)格的研究”(04KKB320134)

        周蕾(1980—),女,江蘇常熟人,講師,碩士,研究方向:中文信息處理.

        朱巧明(1963—),男,江蘇昆山人,教授,博導,研究方向:中文信息處理技術,分節(jié)式計算.

        猜你喜歡
        互信息分詞次數(shù)
        機場航站樓年雷擊次數(shù)計算
        2020年,我國汽車召回次數(shù)同比減少10.8%,召回數(shù)量同比增長3.9%
        商用汽車(2021年4期)2021-10-13 07:16:02
        一類無界算子的二次數(shù)值域和譜
        結巴分詞在詞云中的應用
        智富時代(2019年6期)2019-07-24 10:33:16
        依據(jù)“次數(shù)”求概率
        值得重視的分詞的特殊用法
        基于互信息的貝葉斯網(wǎng)絡結構學習
        聯(lián)合互信息水下目標特征選擇算法
        改進的互信息最小化非線性盲源分離算法
        電測與儀表(2015年9期)2015-04-09 11:59:22
        基于增量式互信息的圖像快速匹配方法
        啪啪视频免费看一区二区| 中文字幕精品久久久久人妻红杏ⅰ| 日韩乱码人妻无码中文字幕视频| 亚洲AV秘 片一区二区三| 91久久精品一区二区喷水喷白浆| 亚洲一区二区三区地址| 日本激情久久精品人妻热| 人妻少妇精品专区性色anvn| 亚洲欧美乱日韩乱国产| 初尝黑人嗷嗷叫中文字幕| 精品一区二区三区在线观看l| 亚洲av日韩综合一区尤物| 天天夜碰日日摸日日澡性色av | 亚洲AV秘 无码一区二p区三区| 日本午夜一区二区视频| 少妇激情一区二区三区99| 精品乱码久久久久久久| 一本到无码AV专区无码| 亚洲日本国产一区二区三区| 亚洲精品国产电影| 少妇高潮惨叫正在播放对白| 亚洲专区路线一路线二天美| 精品久久精品久久精品| 内射干少妇亚洲69xxx| 亚洲有码转帖| 无码 免费 国产在线观看91| 国产91成人精品高潮综合久久| 久久久精品一区aaa片| 精品人无码一区二区三区| 国产av一区二区三区在线| 本道天堂成在人线av无码免费 | 亚洲av综合日韩| 久久精品熟女不卡av高清| 视频区一区二在线观看| 2019最新中文字幕在线观看| 日产精品久久久久久久| 国产亚洲亚洲精品视频| 超碰国产精品久久国产精品99| 国产无遮挡无码视频免费软件| 精品国产一区二区三区久久女人| 国产精品国产传播国产三级|