亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隱馬爾可夫模型的中文分詞

        2018-12-22 07:53:40吳帥潘海珍
        現(xiàn)代計(jì)算機(jī) 2018年33期
        關(guān)鍵詞:模型

        吳帥,潘海珍

        (上饒師范學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,上饒 334001)

        0 引言

        中文分詞是中文自然語(yǔ)言處理中的基礎(chǔ)環(huán)節(jié),由于中文的詞語(yǔ)之間沒(méi)有明顯的分隔符,使得中文相對(duì)其他語(yǔ)言的分詞難度更大,中文分詞的質(zhì)量和分詞效率將會(huì)影響建立在其基礎(chǔ)上的高級(jí)應(yīng)用。中文分詞也是中文自然語(yǔ)言處理中的瓶頸問(wèn)題,解決好了中文分詞,將會(huì)給其他相關(guān)領(lǐng)域的研究帶來(lái)突破性的發(fā)展。中文分詞的研究工作已經(jīng)持續(xù)了三十多年,分詞的準(zhǔn)確度和速度得到非常大的提高,目前比較流行且效果比較好的方法是基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法。

        隱馬爾可夫模型是一種基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)模型,可以通過(guò)觀測(cè)數(shù)據(jù)來(lái)預(yù)測(cè)數(shù)據(jù)最可能的原始狀態(tài),這點(diǎn)正好滿足中文分詞的要求,將漢字序列切分成一個(gè)個(gè)獨(dú)立且最合理的詞。首先為中文文本建立統(tǒng)計(jì)模型,利用隱馬爾可夫假設(shè)簡(jiǎn)化模型,降低計(jì)算的復(fù)雜度,最后通過(guò)Viterbi算法來(lái)預(yù)測(cè)最佳的詞方式。本文分析了隱馬爾可夫模型實(shí)現(xiàn)中文分詞的基本原理、過(guò)程及分詞模型的Python實(shí)現(xiàn)。

        1 中文分詞算法

        近年來(lái),專家學(xué)者們提出了許多的中文分詞算法,可以歸納為三大類:基于詞典匹配的算法、基于統(tǒng)計(jì)的算法和基于理解的算法。基于詞典匹配的算法是按照一定的策略將文本中準(zhǔn)備分析的字符串與詞典中的詞語(yǔ)進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則識(shí)別出文本中的詞語(yǔ);基于統(tǒng)計(jì)的算法是基于人的直觀理解,任意相鄰的漢字出現(xiàn)的頻率越高,說(shuō)明它們組成詞的可能性就越大;基于理解的算法是讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果,分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象,該方法還處于理論研究,未有實(shí)際的應(yīng)用。中文分詞中存在歧義識(shí)別和未登錄詞識(shí)別兩大難點(diǎn)。各類算法的具體比較見(jiàn)表1。

        表1 三類分詞算法的比較

        2 隱馬爾可夫模型概述

        2.1 隱馬爾可夫模型

        隱馬爾可夫模型(Hidden Markov Model,HMM)描述了含有隱藏變量的馬爾可夫隨機(jī)過(guò)程,該模型涉及兩個(gè)序列和三個(gè)概率矩陣,即可觀察的觀測(cè)序列O、隱藏的狀態(tài)序列Z、初始的狀態(tài)概率矩陣π,狀態(tài)轉(zhuǎn)移概率矩陣A及狀態(tài)生成觀測(cè)的概率矩陣B。HMM可表示為{O,Z,π,A,Bλ=(π,A,B)},λ=(π,A,B)決定 HMM 模型,PIπ和A決定觀測(cè)序列,B決定狀態(tài)序列。

        HMM具有三個(gè)基本問(wèn)題:概率計(jì)算問(wèn)題、學(xué)習(xí)問(wèn)題和預(yù)測(cè)問(wèn)題。概率計(jì)算問(wèn)題是計(jì)算在模型λ下觀測(cè)序列O的概率P(O/λ),直接求解的方法不可行,計(jì)算量非常大,有效的方法是前向-后向算法。學(xué)習(xí)問(wèn)題是已知觀測(cè) O 估計(jì)模型λ=(π,A,B)λ=(π,A,B)的參數(shù),有監(jiān)督可用極大似然估計(jì)法、無(wú)監(jiān)督可用Baum-Welch算法。預(yù)測(cè)問(wèn)題是給定觀測(cè)序列,求出最有可能的對(duì)應(yīng)的狀態(tài)序列,可用近似算法和Viterbi算法。

        2.2 應(yīng)用原理

        中文的詞是由漢字構(gòu)成,每個(gè)漢字在構(gòu)詞時(shí)都有一個(gè)確定的位置。字在詞中出現(xiàn)的位置可用BMSE四種標(biāo)簽表示,B表示詞的開(kāi)始位置、M表示多字詞的中間位置、E表示詞的結(jié)束位置,S表示字單獨(dú)成詞。如“明月湖的荷花露出迷人的笑臉”對(duì)應(yīng)的詞位標(biāo)簽序列為“BMESBEBESBE”,分詞結(jié)果為“明月湖/的/荷花/露出/迷人/的/笑臉”。

        文本中的每個(gè)字構(gòu)成觀測(cè)序列,每個(gè)字的詞位標(biāo)注構(gòu)成狀態(tài)序列。中文分詞就轉(zhuǎn)換為求解字的詞位標(biāo)注問(wèn)題,基于已加工好的語(yǔ)料庫(kù)訓(xùn),訓(xùn)練得到HMM的參數(shù)λ=(π,A,B),再通過(guò)Viterbi算法得到待分詞文本的詞位標(biāo)注序列,從而得到最佳分詞。

        3 HMM在中文分詞中的實(shí)現(xiàn)

        隱馬爾可夫模型實(shí)現(xiàn)中文分詞主要由三個(gè)步驟組成,即訓(xùn)練、預(yù)測(cè)和分詞,如圖1所示。

        圖1 HMM的中文分詞過(guò)程

        (1)訓(xùn)練

        通過(guò)統(tǒng)計(jì)語(yǔ)料庫(kù)中相關(guān)信息訓(xùn)練HMM中的三個(gè)參數(shù)PI、A和B。A表示字的詞位狀態(tài)轉(zhuǎn)移矩陣,B表示詞位到詞的混淆矩陣。從語(yǔ)料庫(kù)中可以獲得每個(gè)詞位出現(xiàn)的次數(shù),每個(gè)字符出現(xiàn)的次數(shù),通過(guò)頻率代替概率得到三個(gè)參數(shù)的值。

        公式中Z={B,M,E,S}為字的詞位序列,O={字符集}為觀測(cè)序列,freq(Zi,Zj)表示ZiZj在語(yǔ)料庫(kù)中相鄰?fù)瑫r(shí)出現(xiàn)的次數(shù),freq(Oj,Zi)表示字符Oj和Zi某個(gè)詞位同時(shí)出現(xiàn)的次數(shù)。HMM在分詞中的狀態(tài)轉(zhuǎn)移概率矩陣為:

        計(jì)算過(guò)程中會(huì)出現(xiàn)頻數(shù)為零或很小的值,為了避免出現(xiàn)計(jì)算結(jié)果的下溢,對(duì)頻數(shù)取對(duì)數(shù),如Aij=log(freq程序中采用的是北京大學(xué)加工的1998年《人民日?qǐng)?bào)》語(yǔ)料庫(kù),該語(yǔ)料庫(kù)具有較為完整的加工規(guī)范說(shuō)明,目前較為成熟,被研究人員普遍采用。

        若訓(xùn)練樣本的數(shù)據(jù)不足,混淆矩陣B會(huì)過(guò)于稀疏。矩陣B的形式為:

        給定觀測(cè)序列學(xué)習(xí)HMM模型參數(shù),采用Baum-Welch算法[4]訓(xùn)練分詞模型,參數(shù)估計(jì)公式分別為:

        算法的實(shí)現(xiàn)代碼如下:

        (2)預(yù)測(cè)

        從語(yǔ)料庫(kù)中訓(xùn)練HMM分詞模型后,可通過(guò)Viter?bi算法來(lái)預(yù)測(cè)未知語(yǔ)言中漢字的詞位標(biāo)記從而達(dá)到分詞的目的,可以求得全局最優(yōu)的分詞結(jié)果。Viterbi算法實(shí)際是用動(dòng)態(tài)規(guī)劃來(lái)求解隱馬爾可夫模型預(yù)測(cè)問(wèn)題,即用動(dòng)態(tài)規(guī)劃求概率最大路徑。δt定義在時(shí)刻t狀態(tài)為i的所有單個(gè)路徑(i1,i2,…,it) 中的概率最大值為:

        遞推公式為:

        定義在t狀態(tài)為i的所有單個(gè)路徑中概率最大的路徑的第t-1個(gè)結(jié)點(diǎn)為:

        (3)分詞

        一般情況下,完成文本的標(biāo)注序列后,需要進(jìn)行分詞,分詞的方法是從左到右,采用最大匹配模式。程序中分詞的實(shí)現(xiàn)如下所示。

        基于HMM的分詞模型經(jīng)常會(huì)將一起出現(xiàn)頻率高的字組切分成詞,如“我的”、“每個(gè)”等,會(huì)出現(xiàn)錯(cuò)誤分詞的現(xiàn)象。有訓(xùn)練語(yǔ)料時(shí),訓(xùn)練模型的時(shí)間較短。HMM是生成模型,即使沒(méi)有先驗(yàn)語(yǔ)料,也可以使用EM方法進(jìn)行估計(jì),估計(jì)原則是使每個(gè)序列的P(X)最大,這個(gè)優(yōu)勢(shì)是判別模型無(wú)法比擬的。

        4 結(jié)語(yǔ)

        本文分析隱馬爾可夫模型的理論基礎(chǔ),論述基于隱馬爾可夫模實(shí)現(xiàn)中文分詞的基本原理。HMM分詞模型只考慮詞前后關(guān)系,未考慮詞的上下文之間的關(guān)系,但在中文分詞中表現(xiàn)較好,HMM可以求得全局最優(yōu)的分詞結(jié)果。中文分詞涉及的范圍非常廣,由于中文本身的特殊性,中文分詞算法在不斷地發(fā)展和完善,在分詞速度更快、精度更高、歧義詞、未登錄詞、新詞的識(shí)別等方面會(huì)得到突破。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        午夜熟女插插xx免费视频| 国产一区二区三区免费精品| 人妻少妇无乱码中文字幕| 国产精品大片一区二区三区四区| 97人伦影院a级毛片| 中文字幕久无码免费久久| 国产午夜精品福利久久| 91久久精品一二三区色| 亚洲精品乱码久久久久久| 久激情内射婷内射蜜桃人妖| 热久久亚洲| 操老熟妇老女人一区二区| 97精品人妻一区二区三区蜜桃 | 亚洲欧美日韩中文字幕网址| 狠狠久久av一区二区三区| 一本色综合网久久| 黑人巨大av在线播放无码| 97日日碰日日摸日日澡| 亚洲av高清一区三区三区| 日本高清在线一区二区三区| 热re99久久精品国产99热| 久久与欧美视频| 精品久久一品二品三品| 久久婷婷五月综合97色一本一本| 丰满爆乳无码一区二区三区| 极品av在线播放| 亚洲一区二区三区偷拍视频| 国产成人喷潮在线观看| 在线精品国产一区二区| 日本成人三级视频网站| 国产精品国产三级国产av中文| 亚洲精品中文字幕乱码| 国模冰莲极品自慰人体| 免费无码av片在线观看网址| 国产一区二区三区亚洲天堂| 人妻熟女翘屁股中文字幕| 亚洲成a v人片在线观看| 亚洲韩国在线| 亚洲天堂av黄色在线观看| 国模无码一区二区三区| 久久88综合|