亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        隱馬爾可夫模型在中文文本分詞中應(yīng)用研究

        2017-01-10 02:34:44王慶福
        無線互聯(lián)科技 2016年13期

        王慶福

        摘要:文本分詞是各個互聯(lián)網(wǎng)領(lǐng)域中的基礎(chǔ)性工作。通過對平臺涉及的文本串進(jìn)行切詞處理,對切詞之后的短文本串更能夠聚合用戶。隱馬爾可夫模型作為機(jī)器學(xué)習(xí)領(lǐng)域中重要算法,它能夠進(jìn)行各個狀態(tài)之間的轉(zhuǎn)換,對于文本中詞語之間上下文語義關(guān)系、詞語與詞語之間前后向位置關(guān)系非常匹配,眾多的開源分詞工具都基于隱馬爾可夫模型。

        關(guān)鍵詞:文本分詞;上下文語義;隱馬爾可夫模型

        文本分詞是互聯(lián)網(wǎng)中各個行業(yè)的基礎(chǔ)性工作。文本分詞最直接的應(yīng)用場景應(yīng)該是在搜索引擎中,一方面需要對搜索引擎爬取到的網(wǎng)站內(nèi)容進(jìn)行切詞分析,另一方面,也需要對用戶輸入的短文本查詢字符串進(jìn)行切詞分析,度量切詞之后的用戶查詢字符串和網(wǎng)站內(nèi)容之間的相關(guān)性。隨著推薦系統(tǒng)的越來越廣泛應(yīng)用,尤其以咨詢和新聞類的推薦系統(tǒng)為主要形態(tài),都需要大量的文本切詞工作。甚至美團(tuán)等O2O平臺也需要對用戶的評論信息和地址信息等進(jìn)行切詞分析。

        隱馬爾可夫模型作為機(jī)器學(xué)習(xí)中重要算法,是在馬爾可夫模型的基礎(chǔ)上發(fā)展而來,但是它與馬爾可夫模型又是截然不同的兩個模型。它主要用觀測數(shù)據(jù)來預(yù)測原始數(shù)據(jù)形態(tài),能夠根據(jù)狀態(tài)節(jié)點之間的轉(zhuǎn)換方式來推測最可能的原始數(shù)據(jù)形態(tài),這正是文本分詞所需要的。文本分詞通過對文本串的多種切分方式尋找最佳的切分方式作為當(dāng)前的切詞結(jié)果,最佳的切分方式通過隱馬爾可夫模型預(yù)測獲得。

        1 隱馬爾可夫模型

        隱馬爾科夫模型(Hidden Markov Model)經(jīng)常被用在時間序列(例如一段時間內(nèi)的聲音信號,運動物體的位置等物理量)的建模與分析。

        它有3個要素:(1)可見隨機(jī)變量。用來描述人們所感興趣的物理量,隨時間變化。(2)隱含的狀態(tài)變量。一個假設(shè)的存在,每個時間點的物理量背后都對應(yīng)一個狀態(tài)量。(3)變量間的關(guān)系。用概率的方法(通常是概率密度函數(shù))描述以下3個關(guān)系或變量:初始狀態(tài)量,當(dāng)前的隱含狀態(tài)量與下一個隱含狀態(tài)量間關(guān)系(此處還用到馬爾科夫假設(shè):當(dāng)前隱含狀態(tài)只取決于前一個隱含狀態(tài)),當(dāng)前的隱含狀態(tài)量與可見隨機(jī)量間關(guān)系。

        隱含狀態(tài)變量是假設(shè)的存在,并不一定有對應(yīng)的物理解釋,此例狀態(tài)值取上下左右4個值是為了好理解,實現(xiàn)模型時可以取任意數(shù)量的狀態(tài)值,是一個可調(diào)參數(shù)。隱含狀態(tài)變量通常是離散的,可見狀態(tài)變量可離散可連續(xù)。

        HMM模型中每個節(jié)點代表一個狀態(tài)變量,狀態(tài)變量產(chǎn)生觀測變量,HMM中當(dāng)前狀態(tài)只與前一狀態(tài)有關(guān),與其他時刻狀態(tài)無關(guān)。狀態(tài)隨時間轉(zhuǎn)移,當(dāng)前觀測變量由當(dāng)前狀態(tài)決定。HMM模型的目標(biāo)通常是給出最有可能的結(jié)果,不關(guān)心其可信度。

        馬爾可夫獨立性假設(shè)是指,對一個節(jié)點,在給定它所連接的所有節(jié)點的前提下,它與外界是獨立的。也就是說,如果你觀測到了這個節(jié)點直接連接的那些節(jié)點的值,那它跟那些不直接連接它的點就是獨立的。形式上,我們將其設(shè)計成這個樣子,邊可以傳遞信息,點與點之間通過邊相互影響,如果觀測到一個節(jié)點的取值或者這個節(jié)點的取值是常量,那么別的節(jié)點就無法通過這個節(jié)點來影響其他節(jié)點。所以對一個節(jié)點來說,如果用來連接外界的所有節(jié)點都被鎖住了,那它跟外界就無法傳遞信息,就獨立了。一個HMM有兩部分,如圖1所示。

        (1)狀態(tài)(state)/狀態(tài)的轉(zhuǎn)移(transition):描述了HMM的基本骨架,即一個HMM有多少個states以及states之間的轉(zhuǎn)移關(guān)系。(2)每一個state的概率分布(probabilitydistributions)可再分為兩部分,①帶有概率的Markov鏈,即由某一狀態(tài)去往下一個狀態(tài)的轉(zhuǎn)移概率;②每一個state的data probability distributions,語音識別中通常用混合高斯模型(Gaussian Mixture Model)來描述。

        2 文本分詞

        眾所周知,在漢語中,詞與詞之間不存在分隔符(英文中,詞與詞之間用空格分隔,這是天然的分詞標(biāo)記),詞本身也缺乏明顯的形態(tài)標(biāo)記,因此,中文信息處理的特有問題就是如何將漢語的字串分割為合理的詞語序。主流的中文分詞方法有3種:第一類是基于語言學(xué)知識的規(guī)則方法,如各種形態(tài)的最大匹配、最少切分方法;第二類是基于大規(guī)模語料庫的機(jī)器學(xué)習(xí)方法,這是目前應(yīng)用比較廣泛、效果較好的解決方案,用到的統(tǒng)計模型有N元語言模型、信道一噪聲模型、最大期望、HMM等;第三類也是實際的分詞系統(tǒng)中用到的,即規(guī)則與統(tǒng)計等多類方法的綜合。

        對于一條完整的句子并不能得到可觀測的序列。采用統(tǒng)計語言模型的中文分詞,效果已經(jīng)非常好,可以認(rèn)為中文分詞是一個已經(jīng)解決了的問題。不過,這又需要訓(xùn)練一個新的馬爾可夫模型。因此,通常從左往右掃描句子,然后查找詞庫,找到最長的詞匹配,遇到不認(rèn)識的字串就分割成單字詞。

        將詞庫中的詞語按照unicode碼排序,可以方便地查找。在分詞時,首先將詞庫讀到內(nèi)存中,然后將句子按照從左往右最長匹配原則查找詞庫。由于詞庫按照unicode碼排序,所以我們可以采用二分快速查找詞組。查找時,首先讀取原始句子的第一個字,定位到該字在詞庫中的起始位置和結(jié)束位置,然后進(jìn)行二分查找即可。在查找的過程中記錄起始和結(jié)束位置之間所有詞的最大長度,然后從最大長度開始查找詞庫,長度逐一遞減,直到找到為止。圖2簡單描述了分詞的過程。

        HMM需要訓(xùn)練的參數(shù)有3個,即(PI,A,B)。PI表示詞性的先驗概率,A表示詞性之間的狀態(tài)轉(zhuǎn)移矩陣,B表示詞性到詞的發(fā)射矩陣或者混淆矩陣。采用有監(jiān)督的方式訓(xùn)練上述3個參數(shù)。有監(jiān)督的方式,即通過統(tǒng)計語料庫中的相關(guān)信息訓(xùn)練參數(shù)。HMM參數(shù)訓(xùn)練就是通過分析語料庫獲得HMM的3個參數(shù)。通過解析語料庫可以獲得:每個詞性出現(xiàn)的次數(shù),每個詞性及其后繼詞性出現(xiàn)的次數(shù)和詞性對應(yīng)的詞。統(tǒng)計完這些信息之后就可以以頻率代替概率獲得3個參數(shù)的值。

        獲得上述信息之后,可以很容易地統(tǒng)計相關(guān)信息,進(jìn)而利用頻率算概率。詞性先驗概率的計算沒有任何難度。隱藏狀態(tài)轉(zhuǎn)移矩陣按照公式1所示。(1)

        在公式1中,#(St-1-St)表示不同的兩個詞性前后出現(xiàn)的次數(shù),St-1表示詞性出現(xiàn)的次數(shù)。可觀測狀態(tài)的發(fā)射矩陣按照公式2所示。(2)

        在公式2中,#(Ot,St)表示某個詞和某個詞性同時出現(xiàn)的次數(shù)。在計算頻率的時候,由于有些值非常小,為了避免計算過程中的下溢,可以統(tǒng)一將計算的結(jié)果乘以一個較大的數(shù)。事實上,對于頻數(shù)為零或者頻數(shù)很小的情況,按照古德一圖靈估計重新計算,之后求最優(yōu)隱藏序列需要采用log方式。假設(shè)通過分析語料庫,最后獲得了N個詞性,M個詞組,則就是一個長度為N的向量,A是一個N×N的句子,B就是一個NXM的矩陣。后面對句子進(jìn)行詞性標(biāo)注時,要確保分詞后的詞組都在M中,否則就超出了HMM的處理能力。

        一般情況下,完成HMM參數(shù)訓(xùn)練之后,可以利用HMM完成一些具體的事情。不過,在這之前對于詞性標(biāo)注系統(tǒng),還需要進(jìn)一步分詞。采用的分詞方法是從左往右,最大匹配模式。但是程序中采用的語料庫卻傾向于最小匹配模式。所以初次分詞的結(jié)果有可能不在語料庫中。在此將語料庫不能識別的詞組再次進(jìn)行分詞嘗試讓算法找到更多的詞。

        3 結(jié)語

        文章主要論述隱馬爾可夫模型的實際應(yīng)用場景,分析隱馬爾可夫模型的理論基礎(chǔ)。隱馬爾可夫模型主要通過預(yù)測值和觀察值之間的狀態(tài)變化矩陣進(jìn)行數(shù)據(jù)預(yù)測。語音識別、文本分詞等多個領(lǐng)域都涉及隱馬爾可夫模型的應(yīng)用,文章選取了在文本分詞中應(yīng)用展開論述。

        韩日无码不卡| 久久女人精品天堂av影院麻| 伦伦影院午夜理论片| 精品人妻大屁股白浆无码| 亚洲综合色婷婷七月丁香| 男人和女人高潮免费网站| 国产人成无码视频在线1000 | 国产午夜片无码区在线播放| 饥渴的熟妇张开腿呻吟视频| 久久精品国产99久久丝袜| 午夜影院91| 在线观看黄片在线播放视频| 中文亚洲一区二区三区| 日本精品一区二区三区在线观看| 国产亚洲视频在线播放| 琪琪的色原网站| 精品免费福利视频| 国产对白刺激在线观看| 麻豆成人久久精品一区| 国产精品亚洲第一区二区三区| 国产裸体xxxx视频在线播放| 亚洲欧美日韩专区一| 富婆叫鸭一区二区三区| 国产一区二区三区 在线观看| 99热在线观看| 亚洲av无码片一区二区三区| 亚洲一区二区三区免费av在线| 狠狠久久av一区二区三区| 久久久久免费精品国产| 影音先锋中文字幕无码资源站| 中文亚洲日韩欧美| 亚洲综合精品一区二区三区| 国产精品亚洲第一区二区三区| 大肉大捧一进一出好爽视色大师| 98精品国产综合久久| 女人一级特黄大片国产精品| 亚洲第一网站免费视频| 欧美人与物videos另类| 亚洲另类激情专区小说婷婷久| 国产丝袜美腿一区二区三区| 色爱av综合网站|