亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于隱馬爾科夫模型與語義融合的文本分類

2017-08-12 15:45:56高知新徐林會(huì)

計(jì)算機(jī)應(yīng)用與軟件 2017年7期

關(guān)鍵詞：語義分類文本

高知新徐林會(huì)

(遼寧工程技術(shù)大學(xué)理學(xué)院遼寧阜新 123000)

基于隱馬爾科夫模型與語義融合的文本分類

高知新徐林會(huì)

(遼寧工程技術(shù)大學(xué)理學(xué)院遼寧阜新 123000)

提出一種融合語義的隱馬爾科夫模型用于文本分類的方法。將特征詞的語義作為先驗(yàn)知識融合到隱馬爾科夫分類模型中。通過信息增益提取特征詞，用word2vec提取特征詞語義，將每一個(gè)類別映射成一個(gè)隱馬爾科夫分類模型，模型中狀態(tài)轉(zhuǎn)移過程就是該類文本生成過程。將待分文本與分類模型做相似度比較，取得最大類別輸出概率。該方法不僅考慮特征詞、詞頻、文檔數(shù)量先驗(yàn)知識，而且將特征詞語義融合到隱馬爾科夫分類模型中。通過實(shí)驗(yàn)評估，取得了比原HMM模型和樸素貝葉斯分類模型更好的分類效果。

隱馬爾科夫模型語義融合 word2vec 信息增益文本分類

0 引言

近年來隨著Web和移動(dòng)互聯(lián)網(wǎng)的廣泛使用，各種信息的增長速度越來越快，其中文本信息占有重要地位。如何快速而有效地進(jìn)行文本的組織、管理以及使用是當(dāng)今信息處理的一個(gè)重要課題，而這也促進(jìn)了文本分類技術(shù)的發(fā)展。文本分類就是將未分類的文本根據(jù)一定的分類算法分配到正確的類別中，它廣泛應(yīng)用在搜索引擎、信息過濾、文本識別、數(shù)字圖書館等方面。為了快速高效的處理海量文本數(shù)據(jù)集，基于統(tǒng)計(jì)的分類模型被應(yīng)用到文本分類中。文獻(xiàn)[1]將文本利用向量空間模型表示成空間向量，利用TF-IDF表示文本權(quán)重，對文本進(jìn)行分類；文獻(xiàn)[2]討論了統(tǒng)計(jì)模型在文本分類中的應(yīng)用；文獻(xiàn)[3]將支持向量機(jī)應(yīng)用與文本分類，因?yàn)槠鋱?jiān)實(shí)的理論基礎(chǔ)和良好的分類性能成為一經(jīng)典的分類算法。除此以外，最大熵模型、模糊理論和二維文本模型等方法也被應(yīng)用于文本分類，同樣也取得了不錯(cuò)的效果[4-6]。

由于隱馬爾科夫模型(HMM)可以用來描述序列化隨機(jī)過程的統(tǒng)計(jì)特性，文本處理作為隨機(jī)過程統(tǒng)計(jì)特性一種，如何將HMM模型更好地應(yīng)用到文本處理中，成為當(dāng)下的研究熱點(diǎn)之一。文獻(xiàn)[7]利用HMM模型作為信息檢索模型，給定一個(gè)查詢系列，輸出一個(gè)和查詢相關(guān)的文檔。文獻(xiàn)[8]利用HMM模型用于文本分類，將每一個(gè)預(yù)定義的類映射為一個(gè)HMM模型，給定一篇待分類的文檔表示成詞序列，計(jì)算屬于該類別的可能性大小。文獻(xiàn)[9]將卡方一致性檢驗(yàn)和TF-IDF方法結(jié)合提取特征詞向量，在此基礎(chǔ)上建立HMM分類模型。

本文提出了一種文本分類方法，將文本的特征詞，特征詞詞頻，文檔數(shù)量以及特征詞語義作為先驗(yàn)知識融合到HMM分類模型當(dāng)中。通過信息增益方法提取特征詞，利用TF-IDF算法約束特征詞權(quán)重，利用word2vec提取特征詞的語義信息，將語義相似度較高特征詞合并，為每一個(gè)類別建立HMM分類模型。對于待分類的文本，本文提出通過與分類模型中特征詞向量做交集，交集集合特征詞作為觀察序列輸入到HMM分類模型中，通過前進(jìn)算法取得各個(gè)類別輸出概率，選取其中最大的作為分類依據(jù)。

1 基于HMM的分類模型

文本分類任務(wù)是指將待分類的文本自動(dòng)分配到預(yù)先定義好的類別集合當(dāng)中。本文中，給定一個(gè)訓(xùn)練集合T={(d1,c1),(d2,c2),…,(dn,cn)}，包含預(yù)定義的文檔類別，HMM分類模型目標(biāo)挖掘待分文檔和類別之間的關(guān)系，高效準(zhǔn)確地將文檔分配到某一類別中。

1.1 隱馬爾科夫模型

HMM模型(如圖1所示)建立在狀態(tài)和觀察獨(dú)立性上的統(tǒng)計(jì)模型，主要應(yīng)用于解決評估問題、學(xué)習(xí)問題和解碼問題。一個(gè)HMM模型λ一般由5個(gè)部分組成，記為λ={S,V,A,B,Π}，其中[10]：

(1)S是一組狀態(tài)的集合，設(shè)模型中共有N個(gè)狀態(tài)，則狀態(tài)集記為:

S={s1,s2,…,sN}

(2)V是一組輸出符號的集合，設(shè)模型中共有M個(gè)輸出符號，則符號集記為：

V={v1,v2,…,vM}

(3)A是狀態(tài)轉(zhuǎn)移概率分布矩陣，記為A={aij}，aij表示從狀態(tài)si轉(zhuǎn)移到sj的概率，其中:

aij=p(qt+1=sj|qt=si)

(1)

(4)B是符號輸出概率分布矩陣，記為B={bi(k)}，bi(k)表示在狀態(tài)si時(shí)輸出符號vk的概率，其中：

bi(k)=p(ot=vk|qt=si) 1≤j≤N1≤k≤M

(2)

(5)Π是初始狀態(tài)概率分布，記為Π={πi}，πi表示狀態(tài)si作為初始狀態(tài)的概率，其中：

πi=p(qi)=si1≤i≤N

(3)

圖1 HMM模型圖

1.2 word2vec詞向量模型

word2vec是Google在2013年開源的一款將詞語表征為實(shí)數(shù)值向量的高效工具。本文訓(xùn)練詞向量采用的skip-gram模型，經(jīng)測試，在小規(guī)模樣本集上skip-gram模型要比cbow模型效果要好。從圖2中看skip-gram應(yīng)該預(yù)測概率p(wi|wt)，其中t-c≤i≤t+c且i≠t，c是決定上下文窗口大小的常數(shù)，c越大則需要考慮的上下文語境就越多，一般能夠帶來更精確的結(jié)果，但是訓(xùn)練時(shí)間也會(huì)增加。假設(shè)存在一個(gè)w1,w2,…,wT的詞語序列，skip-gram的目標(biāo)是最大化：

(4)

基本的skip-gram模型定義p(wo|wI)為：

(5)

skip-gram是一個(gè)對稱的模型，如圖2所示，如果wt為中心詞時(shí)wk在其窗口內(nèi)，則wt也必然在以wk為中心的同樣大小窗口內(nèi)，即:

(6)

實(shí)現(xiàn)此模型的算法分別為層次Softmax和Negative Sampling兩種算法[15]。

圖2 skip-gram模型圖

1.3 HMM分類模型

每一篇文檔di都有一個(gè)類別ci屬性，目標(biāo)建立基于訓(xùn)練集的分類模型，完成新文本的分類。本文利用HMM模型作為文檔生成器，如圖3所示，每一個(gè)類映射成一個(gè)HMM模型，模型參數(shù)通過屬于本類的數(shù)據(jù)集訓(xùn)練而得。當(dāng)一篇待分類的文檔，先計(jì)算屬于當(dāng)前類別的概率分布大小，再作為屬于當(dāng)前類別的依據(jù)。

圖3 HMM文本分類模型

2 融合語義隱馬爾科夫分類模型的建立

在隱馬爾科夫分類模型基礎(chǔ)上，融合特征詞語義、詞頻、特征詞本身等先驗(yàn)知識，建立高效快速文本分類模型。將文本信息表示成詞向量能夠讓模型就行數(shù)據(jù)化處理，本文采用word2vec模型，融合上下文語義，將文本映射到向量空間模型中，進(jìn)行內(nèi)積計(jì)算，通過設(shè)定閾值，將相似特征詞進(jìn)行合并。例如“文化”和“藝術(shù)”就可以合并為同一類別的特征詞。為了去除文本中噪聲，處理以前進(jìn)行文本數(shù)據(jù)已處理。包括分詞、去除停用詞、去除詞頻相對文本數(shù)目較小的詞等。

2.1 特征詞提取

文本處理中時(shí)間復(fù)雜度和空間復(fù)雜度依賴于文本特征向量的維度。為了提高模型分類效果準(zhǔn)確性，需要對文本進(jìn)行降維處理，最終選擇特征詞表示文檔。本文中采取信息增益算法，可以計(jì)算當(dāng)前類別平均信息量。對于每一個(gè)w，信息增益G(w)：

(7)

2.2 隱馬爾科夫分類模型建立及參數(shù)訓(xùn)練

文本是由一些列的詞匯組成，在具體的不同文本中詞匯及其詞頻都不同。所以HMM分類模型的建立在特征詞本身和特征詞詞頻基礎(chǔ)上，而在特征詞提取過程中已將語義信息融合到特征詞當(dāng)中。類別特征詞集是構(gòu)建HMM分類模型的基礎(chǔ)，詞向量作為隱馬爾科夫模型的隱藏狀態(tài)，而將詞向量對應(yīng)的詞頻作為對應(yīng)狀態(tài)的觀察序列。

對每一個(gè)隱馬爾科夫分類模型，定義狀態(tài)集合S={s1,s2,…，sT}，每一個(gè)si對應(yīng)著類別特征詞的第個(gè)特征詞。狀態(tài)集由特征詞的順序構(gòu)建。狀態(tài)轉(zhuǎn)移過程即為特征詞遍歷過程，特征詞遍歷過程即為隸屬于該類別文檔生成過程。特征詞輸出序列為特征詞的詞頻用k表示，k為符合一定相似度閾值的特征詞之和。所以得到在中間狀態(tài)si下，ck類中對應(yīng)特征詞的觀察值分布為：

(8)

(9)

(10)

指定初始狀態(tài)s0的概率π={1,0,…,0}。對于類別ck的隱馬爾可夫模型可以表示為：

λk={Π,Ack,Bck}

(11)

2.3 待分文本相似度比較

對于一個(gè)待分類的文本，進(jìn)行如下步驟進(jìn)行分類：

(1) 對文本d按照預(yù)處理的方法，然后統(tǒng)計(jì)詞頻，得到詞向量和詞頻集合，并將wd表示為詞向量的形式。

(2) 將wd的詞向量分別與各類別特征詞做交集，選取其中k個(gè)特征詞作為隱藏狀態(tài)。給定隱馬爾科夫模型λk和k個(gè)特征詞對應(yīng)的詞頻觀察序列即為od，利用前向算法[10]求解該觀察序列輸入該分類模型的概率分布值p(od|λk)。

(3) 計(jì)算wd與所有HMM分類模型的p(od|λk)，待分文本的類標(biāo)號就是max{p(od|λk)}。

對于待分文本不僅將詞匯本身，詞匯詞頻和詞匯的上下文語義融合到其中，所選取的k個(gè)特征詞更具代表性，能夠映射出該文本和該類別的關(guān)聯(lián)程度。對于HMM分類模型的構(gòu)建考慮到詞匯本身屬性以及詞匯語義等先驗(yàn)性知識，構(gòu)建的模型不僅在數(shù)據(jù)維數(shù)上減少了，而且將相似度較高的特征詞進(jìn)行合并，也是根據(jù)語義信息對特征詞進(jìn)一步提取，得出的特征詞更好的代表這個(gè)類別屬性信息?？梢园袶MM分類模型作為該類文本生成器，待分文本可以看作是它狀態(tài)轉(zhuǎn)移過程生成的樣本。

3 實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證模型的有效性，本文采用三組實(shí)驗(yàn)對模型進(jìn)行驗(yàn)證。實(shí)驗(yàn)數(shù)據(jù)集來源于復(fù)旦大學(xué)文本分類語料，采用C3、C7、C11、C32、C38、C39共6個(gè)類別數(shù)據(jù)集。分詞采用HanNLP開源工具，進(jìn)行分詞、去停用詞，利用word2vec進(jìn)行特征詞語義合并，提取特征詞。實(shí)驗(yàn)結(jié)果從準(zhǔn)確率、召回率、F-Score三個(gè)方面進(jìn)行評價(jià)。其中，word2vec 訓(xùn)練語料來自于人民日報(bào)2014 。模型參數(shù)如表1所示。

表1 word2vec模型參數(shù)

3.1 HMM 模型試驗(yàn)對比

為驗(yàn)證模型有效性，將本文模型和不融合語義合并的模型對比。實(shí)驗(yàn)結(jié)果如表2所示。模型在三個(gè)指標(biāo)方面有顯著的提高。說明了融合語義特征能夠提高HMM模型在文本處理中的有效性。其中文獻(xiàn)[1]中說明了原模型的處理文本的方法。

表2 試驗(yàn)結(jié)果

3.2 交叉模型對比

為驗(yàn)證模型的可行性，本文建立的HMM模型和傳統(tǒng)的樸素貝葉斯模型[13]進(jìn)行對比。試驗(yàn)結(jié)果如表3所示。樸素貝葉斯作為文本分類中的重要方法，廣泛應(yīng)用在自然語言處理領(lǐng)域當(dāng)中。本實(shí)驗(yàn)在準(zhǔn)確率、召回率和F-Socre三個(gè)方面對比取得了和樸素貝葉斯模型相當(dāng)?shù)男Ч?，進(jìn)一步說明模型的有效性。

表3 交叉模型對比結(jié)果

3.3 訓(xùn)練樣本的數(shù)量對模型影響

統(tǒng)計(jì)模型，訓(xùn)練樣本的規(guī)模尺寸對模型的評估結(jié)果又很大影響。本文設(shè)計(jì)如下實(shí)驗(yàn)特征詞數(shù)為30。如圖4所示：水平軸表示每個(gè)類別的樣本數(shù)，垂直軸表示“詞匯+詞頻+語義+HMM”模型的平均準(zhǔn)確率。隨著訓(xùn)練樣本的增加，該模型的平均準(zhǔn)確率有顯著增加，可以解釋為隨著訓(xùn)練樣本的增加，通過文檔的詞匯、詞頻、語義，代表文檔的特征詞特征屬性提取的更充分，所以準(zhǔn)確率顯著增加，當(dāng)?shù)竭_(dá)[700,800]區(qū)間到達(dá)頂峰。隨著訓(xùn)練樣本進(jìn)一步增加，準(zhǔn)確率有下降的趨勢，隨著樣本遞增，word2vec進(jìn)行語義合并時(shí)，融合語義噪聲，使得特征詞代表性有所下降，準(zhǔn)確率會(huì)有所下降。

本文測試數(shù)據(jù)采用復(fù)旦大學(xué)文本分類語料，測數(shù)據(jù)中最大數(shù)量1 000多篇，對于大樣本數(shù)據(jù)或者不均衡語料數(shù)據(jù)需要應(yīng)用過采樣或欠采樣方法[15]。將本模型應(yīng)用到其他大規(guī)模文本數(shù)據(jù)，采用更為有效的評價(jià)指標(biāo)進(jìn)行評測也是接下來需要研究問題。

圖4 訓(xùn)練樣本的數(shù)量對模型影響

4 結(jié) 語

本文提出一種基于HMM模型和融合語義分析的文本分類方法。模型建立在特征詞基礎(chǔ)上，融合特征詞本身內(nèi)容，特征詞的詞頻以及特征詞的語義等先驗(yàn)知識，將每一個(gè)類別映射成隱馬爾科夫模型。本文對模型結(jié)構(gòu)和參數(shù)的訓(xùn)練進(jìn)行闡述，對比其他文本分類統(tǒng)計(jì)模型，模型結(jié)構(gòu)簡單，參數(shù)訓(xùn)練復(fù)雜度依賴于特征詞的維數(shù)，然而語義分析起到特征詞降維的作用，而且根據(jù)語料的增加，特征詞的維度可以調(diào)整，這也是本模型特點(diǎn)。通過實(shí)驗(yàn)分析的三組實(shí)驗(yàn)可以說明模型的有效性，取得了與樸素貝葉斯相當(dāng)?shù)慕Y(jié)果。如何針對具體領(lǐng)域更加有效地進(jìn)行特征提取和觀測值概率分布計(jì)算是今后研究的方向。

[1] Turney P D, Pantel P. From frequency to meaning: vector space models of semantics[J]. Journal of Artificial Intelligence Research, 2010, 37(1):141-188.

[2] Pelikan M, Goldberg D E, Lobo F G. A Survey of Optimization by Building and Using Probabilistic Models[J]. Computational Optimization and Applications, 2002, 21(1):5-20.

[3] Pal M, Foody G M. Feature Selection for Classification of Hyperspectral Data by SVM[J]. Geoscience & Remote Sensing IEEE Transactions on, 2010, 48(5):2297-2307.

[4] Kazama J, Tsujii J. Maximum Entropy Models with Inequality Constraints: A Case Study on Text Categorization[J]. Machine Learning, 2005, 60(1):159-194.

[5] Nunzio G M D. A Bidimensional View of Documents for Text Categorisation[M]// Advances in Information Retrieval. Springer Berlin Heidelberg, 2004:112-126.

[6] Liu W Y,Song N.A fuzzy approach to classification of text documents[J].Journal of Computer Science and Technology,2003,18(5):640-647.

[7] Miller D R H, Leek T, Schwartz R M. A hidden Markov model information retrieval system[C]//International Acm Sigir Conference on Research & Development in Information Retrieval. 2000:214-221.

[8] Yi K, Beheshti J. A hidden Markov model-based text classification of medical documents[J]. Journal of Information Science, 2009, 35(1):67-81.

[9] Li K, Chen G, Cheng J. Research on Hidden Markov Model-based Text Categorization Process[J]. International Journal of Digital Content Technology & Its Applications, 2011, 5(6):244-251.

[10] 楊健,汪海航.基于隱馬爾科夫模型的文本分類算法[J].計(jì)算機(jī)應(yīng)用,2010,30(9):2348-2350.

[11] 羅雙虎,歐陽為民.基于Markov模型的文本分類[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(30):179-181.

[12] 宗成慶.統(tǒng)計(jì)自然語言處理[M].北京:清華大學(xué)出版社,2013.

[13] 杜選.基于加權(quán)補(bǔ)集的樸素貝葉斯文本分類算法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(9):253-255.

[14] 鄧力.深度學(xué)習(xí)方法和應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2015.

[15] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2011, 16(1):321-357.

TEXT CLASSIFICATION BASED ON HIDDEN MARKOV MODEL AND SEMANTIC FUSION

Gao Zhixin Xu Linhui

(CollegeofScience,LiaoningTechnicalUniversity,Fuxin123000,Liaoning,China)

In this paper, a text classification method based on Hidden Markov Model and semantic fusion is proposed. The semantics of the feature words are integrated into the hidden Markov model as a priori knowledge. Then, the characteristic words were extracted by information gain, and the feature words semantics were extracted by the word2vec. Each class was mapped into a hidden Markov model, and the state transition process in the model was the text generation process. The similarity between the text to be classified and the classification model was compared to obtain the maximum class output probability. This method not only considers the prior knowledge of feature words, word frequency and document quantity, but also integrates the semantic of feature words into hidden Markov classification model. Through the experimental evaluation, we got better classification result than the original HMM model and Naive Bayes classification model.

Hidden Markov model Semantic fusion word2vec Information gain Text classification

2016-07-20。高知新，副教授，主研領(lǐng)域：最優(yōu)化與應(yīng)用。徐林會(huì)，碩士生。

TP3

10.3969/j.issn.1000-386x.2017.07.056

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于隱馬爾科夫模型與語義融合的文本分類

0 引 言

1 基于HMM的分類模型

2 融合語義隱馬爾科夫分類模型的建立

3 實(shí)驗(yàn)結(jié)果與分析

4 結(jié) 語

0 引言