亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類算法

2018-06-28 09:06:52

佳木斯大學(xué)學(xué)報(自然科學(xué)版) 2018年3期

關(guān)鍵詞：分類文本

(安徽新華學(xué)院信息工程學(xué)院，安徽合肥 230088)

0 引言

隨著網(wǎng)絡(luò)的飛速發(fā)展，社交網(wǎng)絡(luò)逐漸成熟[1]。國外出現(xiàn)了Facebook, Twitter等社交平臺，而國內(nèi)則是新浪微博、博客等社交平臺。越來越多的人喜歡在這些平臺上發(fā)表自己的言論或者是點評被人所發(fā)表的[2]。這些評論通常都是比較簡短的，字數(shù)受到一定的限制而且用語也有些不規(guī)范。內(nèi)容涉及十分的廣闊，比如教育、政治、經(jīng)濟、文化、醫(yī)療衛(wèi)生等等[3]。這些文本里面包含了許多有用的信息，但是因為網(wǎng)絡(luò)的更新速度太快，這些文本內(nèi)容又沒文本分類由多個相互協(xié)作的文本構(gòu)成[4]。傳統(tǒng)文本分類算法一般假設(shè)文本種類固定且不受分類干擾，基于RFS的分類算法可以有效解決上述問題并且還能夠避免數(shù)據(jù)關(guān)聯(lián)過程[5]。從這個角度來講，RFS更適合于解決文本的分類問題。為了得到各文本的軌跡分類本文在標簽RFS框架下，采用CNN算法。在目前已有的文本分類算法中，都沒有描述到文本的結(jié)構(gòu)信息[6]。

采用了卷積神經(jīng)網(wǎng)絡(luò)理論對文本進行分類計算。首先，通過借助卷積神經(jīng)網(wǎng)絡(luò)理論對文本進行動態(tài)建模。在此基礎(chǔ)上，再針對文本進行分類分類。因為不知道最初始的文本的協(xié)作關(guān)系，所以可以先假設(shè)文本之間沒有關(guān)系，是獨立的。采用CNN獲得各文本的詞向量分類和軌跡分類以及文本的個數(shù)分類。在獲得文本中各成員的詞向量分類基礎(chǔ)上，通過計算每時刻的偏差矩陣分類獲得鄰接矩陣分類。

1 卷積神經(jīng)網(wǎng)絡(luò)

開始先定義卷積神經(jīng)網(wǎng)絡(luò)，如下內(nèi)容：

定義Ve和Ed這兩個集合組成了卷積神經(jīng)網(wǎng)絡(luò)，將這個記為G=Ve,Ed。其中Ed表示邊的有限集合，Ve則表示節(jié)點的非空有限集合，當這些邊有方向時則稱為有向卷積神經(jīng)網(wǎng)絡(luò)，反之，稱為無向卷積神經(jīng)網(wǎng)絡(luò)。

借助卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和群結(jié)構(gòu)的相似性。使用的鄰接矩陣不需要知道文本之間的距離，這樣可以大大的降低難度，便于得到一個文本鄰接的矩陣，如下所示：

(1)

其中，當?shù)趇個文本是第j個文本父節(jié)點時則ai,j等于1；其他情況下，ai,j等于0。

若文本存在單個父節(jié)點時，該文本分類模型如下：

xk+1,i=Fk,lxk,l+bkl,i+Bk,iwk,i

(2)

zk + 1,i=Ck + 1xk + 1,i+vk + 1,i

(3)

通過研究鄰接矩陣就可以輕松的判斷出群中各個文本之間的關(guān)系和連接，比如父子關(guān)系。若沒有父親節(jié)點，那么就將這個文本稱呼為頭節(jié)點。頭節(jié)點的分類會影響到其文本，而頭節(jié)點自身分類不受其他文本影響。因此，頭節(jié)點分類模型中補償向量b為0，并且xk,l為它自身在k時刻的詞向量。否則，該文本存在著父節(jié)點并且該文本的分類受其父節(jié)點影響，所以通過這個文本分類模型，我們可以發(fā)現(xiàn)補償向量b包含該節(jié)點與其父親節(jié)點之間的方向和距離信息，當文本存在多個父節(jié)點時,線性條件下xk + 1,i如下式表示：

(4)

(5)

其中，Pi等價于P1i,P2i,…,Pjni，Pji表示i文本的第j個父節(jié)點。

根據(jù)該卷積神經(jīng)網(wǎng)絡(luò)算法獲得文本的鄰接矩陣，文本1是頭節(jié)點，文本2和文本3是文本1的子節(jié)點，因此該群的分類模型如下：

(6)

表1描述了在本文中如何建立一個群的分類模型的主要步驟，簡單起見，假設(shè)權(quán)重wk-1l,i為等權(quán)重。

2 文本分類算法

為了獲得各文本的軌跡分類，選擇了CNN對文本進行分類分類。文本之間的詞向量是有關(guān)系，非獨立的。但是因為不知道起始階段的文本之間的協(xié)作關(guān)系，目前可當作群結(jié)構(gòu)和詞向量之間是耦合在一起的，所以用一種兩階段的算法。在第一階段，首先把文本看作為獨立分類。

我立馬從窗戶上逃走，這事我常干，窗戶下面有一個小平臺，剛好可以接住我，死不了?？墒窃S飛那個兔崽子以為我要自殺，急吼吼沖過來拉我，卻笨手笨腳地絆了腳，身體向前撲，把半跨在窗臺上的我直接給推了下去。

使用CNN分類文本的詞向量和個數(shù)。其中，標準GLMB的算法定義如下：

(7)

其中，C表示離散變量；pc·,l表示概率密度；wcI為權(quán)重并且滿足∑I,c∈FL×CwcI=1；FL為L上所有有限子集的集合。該標準CNN在貝葉斯遞推下封閉。

為了便于計算，將上述表達式變形為如下所示的表達式，稱作為δ-GLMB：

(8)

比如，在k時刻，讓Ξ為空集，假設(shè)有兩種可能，如下表示：

1)有0.2的概率存在1個文本，標簽為(0,2)，即在k時刻存在文本(0,2)(即0時刻產(chǎn)生的文本2)，并且該文本的概率密度為p·,1,1=N·,m,P2。

2)有0.8的概率存在2個文本，標簽分別為(1,1)和(0,2)(即1時刻產(chǎn)生的文本1,0時刻產(chǎn)生的文本2)，概率密度分別為p·,1,1=N·,0,P1和p·,0,2=N·,m,P2。則，0時刻的δ-GLMB表達式如下所示

(9)

(10)

其中

(11)

(12)

(13)

(14)

(15)

(16)

更新步：若發(fā)現(xiàn)多個本文的預(yù)測密度非之前所預(yù)測，并且如(8)所示的那樣，那么更新步如下

(17)

3 仿真實現(xiàn)

考慮線性和非卷積神經(jīng)網(wǎng)絡(luò)兩個實驗來驗證文中所給算法。在實驗中使用CNN和CBMeMBer進行比較。為評估文中所給算法的性能，采用最優(yōu)子模型分配距離(Optimal sub pattern assignment,OSPA)：

(18)

從圖1和圖2中的OSPA Card可知，當真實文本種類發(fā)生變化時，CNN對文本的個數(shù)分類出現(xiàn)了一個延遲過程。例如：在第15s，文本種類發(fā)生變化，CNN經(jīng)歷6s后跟上個數(shù)變化，而CBMeMBer濾波算法只需經(jīng)歷1s后并能跟上個數(shù)變化，然而在這過程后，CNN并能夠較穩(wěn)定的分類出文本種類而CBMeMBer濾波算法在文本種類的分類過程中出現(xiàn)較多的波動。

圖1 OSPA距離對比卷積神經(jīng)網(wǎng)絡(luò)(經(jīng)50次MC平均)

圖2 文本種類分類

所使用的分析方法，是采用平均每步所消耗的CPU時間對CNN和CBMeMBer濾波算法。利用上面的方法進行仿真，平均每步所消耗的CPU時間實驗結(jié)果如下表格所示，利用這個表格測試算法的PC機的CPU為Intel(R)Core(TM)i5-4460M3.20GHz,RAM為4GB,32位Win7卷積神經(jīng)網(wǎng)絡(luò)。

表2 算法性能分析

從表2中，可以發(fā)現(xiàn)CBMeM-Ber算法在進行本文分類下所消耗的時間都比CNN算法下消耗的時間要大，與此同時，因為需要預(yù)測和更新標簽變量，增加文本詞向量分布項數(shù)，這樣會增加計算量，致使CBMeMBer算法消耗的時間要大于CNN算法所消耗的時間。

4 結(jié) 論

針對基于神經(jīng)網(wǎng)絡(luò)分類算法在文本分類中的不足，提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類算法。通過使用CNN獲得各文本的詞向量分類，然后，利用各文本每時刻的分類詞向量可以得到每時每刻的鄰接矩陣分類，利用鄰接矩陣分類得到每時每刻的子群個數(shù)分類。仿真實驗表明：CNN算法在文本中的分類效果更為顯著。

參考文獻:

[1] Moeskops, P., Viergever, M. A., Mendrik, A. M., Vries, L. S. D., Benders, M. J. N. L., & I?gum, I. (2016). Automatic segmentation of mr brain images with a convolutional neural network[J]. IEEE Transactions on Medical Imaging, 2016,35(5):1252-1261.

[2] 吳祥標. Kemeny社會選擇函數(shù)的0-1規(guī)劃算法[J]. 遵義師范學(xué)院學(xué)報, 2014, 16(1):81-83.

[3] Sijin, L. I., Liu, Z. Q., & Chan, A. B. Heterogeneous multi-task learning for human pose estimation with deep convolutional neural network[J]. International Journal of Computer Vision, 2015,113(1):19-36.

[4] Anthimopoulos, M., Christodoulidis, S., Ebner, L., Christe, A., & Mougiakakou, S. Lung pattern classification for interstitial lung diseases using a deep convolutional neural network. IEEE Transactions on Medical Imaging, 2016,35(5):1207-1216.

[5] Poria, S., Cambria, E., & Gelbukh, A. (2016). Aspect extraction for opinion mining with a deep convolutional neural network[J]. Knowledge-Based Systems, 2016,108:42-49.

[6] 陳寧江. 淺析XML文檔和關(guān)系數(shù)據(jù)庫之間的信息交換[J]. 遵義師范學(xué)院學(xué)報, 2009, 11(3):72-74.