(安徽新華學(xué)院信息工程學(xué)院,安徽 合肥 230088)
隨著網(wǎng)絡(luò)的飛速發(fā)展,社交網(wǎng)絡(luò)逐漸成熟[1]。國外出現(xiàn)了Facebook, Twitter等社交平臺,而國內(nèi)則是新浪微博、博客等社交平臺。越來越多的人喜歡在這些平臺上發(fā)表自己的言論或者是點評被人所發(fā)表的[2]。這些評論通常都是比較簡短的,字數(shù)受到一定的限制而且用語也有些不規(guī)范。內(nèi)容涉及十分的廣闊,比如教育、政治、經(jīng)濟、文化、醫(yī)療衛(wèi)生等等[3]。這些文本里面包含了許多有用的信息,但是因為網(wǎng)絡(luò)的更新速度太快,這些文本內(nèi)容又沒文本分類由多個相互協(xié)作的文本構(gòu)成[4]。傳統(tǒng)文本分類算法一般假設(shè)文本種類固定且不受分類干擾,基于RFS的分類算法可以有效解決上述問題并且還能夠避免數(shù)據(jù)關(guān)聯(lián)過程[5]。從這個角度來講,RFS更適合于解決文本的分類問題。為了得到各文本的軌跡分類本文在標簽RFS框架下,采用CNN算法。在目前已有的文本分類算法中,都沒有描述到文本的結(jié)構(gòu)信息[6]。
采用了卷積神經(jīng)網(wǎng)絡(luò)理論對文本進行分類計算。首先,通過借助卷積神經(jīng)網(wǎng)絡(luò)理論對文本進行動態(tài)建模。在此基礎(chǔ)上,再針對文本進行分類分類。因為不知道最初始的文本的協(xié)作關(guān)系,所以可以先假設(shè)文本之間沒有關(guān)系,是獨立的。采用CNN獲得各文本的詞向量分類和軌跡分類以及文本的個數(shù)分類。在獲得文本中各成員的詞向量分類基礎(chǔ)上,通過計算每時刻的偏差矩陣分類獲得鄰接矩陣分類。
開始先定義卷積神經(jīng)網(wǎng)絡(luò),如下內(nèi)容:
定義Ve和Ed這兩個集合組成了卷積神經(jīng)網(wǎng)絡(luò),將這個記為G=Ve,Ed。其中Ed表示邊的有限集合,Ve則表示節(jié)點的非空有限集合,當這些邊有方向時則稱為有向卷積神經(jīng)網(wǎng)絡(luò),反之,稱為無向卷積神經(jīng)網(wǎng)絡(luò)。
借助卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和群結(jié)構(gòu)的相似性。使用的鄰接矩陣不需要知道文本之間的距離,這樣可以大大的降低難度,便于得到一個文本鄰接的矩陣,如下所示:
(1)
其中,當?shù)趇個文本是第j個文本父節(jié)點時則ai,j等于1;其他情況下,ai,j等于0。
若文本存在單個父節(jié)點時,該文本分類模型如下:
xk+1,i=Fk,lxk,l+bkl,i+Bk,iwk,i
(2)
zk + 1,i=Ck + 1xk + 1,i+vk + 1,i
(3)
通過研究鄰接矩陣就可以輕松的判斷出群中各個文本之間的關(guān)系和連接,比如父子關(guān)系。若沒有父親節(jié)點,那么就將這個文本稱呼為頭節(jié)點。頭節(jié)點的分類會影響到其文本,而頭節(jié)點自身分類不受其他文本影響。因此,頭節(jié)點分類模型中補償向量b為0,并且xk,l為它自身在k時刻的詞向量。否則,該文本存在著父節(jié)點并且該文本的分類受其父節(jié)點影響,所以通過這個文本分類模型,我們可以發(fā)現(xiàn)補償向量b包含該節(jié)點與其父親節(jié)點之間的方向和距離信息,當文本存在多個父節(jié)點時,線性條件下xk + 1,i如下式表示:
(4)
(5)
其中,Pi等價于P1i,P2i,…,Pjni,Pji表示i文本的第j個父節(jié)點。
根據(jù)該卷積神經(jīng)網(wǎng)絡(luò)算法獲得文本的鄰接矩陣,文本1是頭節(jié)點,文本2和文本3是文本1的子節(jié)點,因此該群的分類模型如下:
(6)
表1描述了在本文中如何建立一個群的分類模型的主要步驟,簡單起見,假設(shè)權(quán)重wk-1l,i為等權(quán)重。
為了獲得各文本的軌跡分類,選擇了CNN對文本進行分類分類。文本之間的詞向量是有關(guān)系,非獨立的。但是因為不知道起始階段的文本之間的協(xié)作關(guān)系,目前可當作群結(jié)構(gòu)和詞向量之間是耦合在一起的,所以用一種兩階段的算法。在第一階段,首先把文本看作為獨立分類。
我立馬從窗戶上逃走,這事我常干,窗戶下面有一個小平臺,剛好可以接住我,死不了??墒窃S飛那個兔崽子以為我要自殺,急吼吼沖過來拉我,卻笨手笨腳地絆了腳,身體向前撲,把半跨在窗臺上的我直接給推了下去。
使用CNN分類文本的詞向量和個數(shù)。其中,標準GLMB的算法定義如下:
(7)
其中,C表示離散變量;pc·,l表示概率密度;wcI為權(quán)重并且滿足∑I,c∈FL×CwcI=1;FL為L上所有有限子集的集合。該標準CNN在貝葉斯遞推下封閉。
為了便于計算,將上述表達式變形為如下所示的表達式,稱作為δ-GLMB:
(8)
比如,在k時刻,讓Ξ為空集,假設(shè)有兩種可能,如下表示:
1)有0.2的概率存在1個文本,標簽為(0,2),即在k時刻存在文本(0,2)(即0時刻產(chǎn)生的文本2),并且該文本的概率密度為p·,1,1=N·,m,P2。
2)有0.8的概率存在2個文本,標簽分別為(1,1)和(0,2)(即1時刻產(chǎn)生的文本1,0時刻產(chǎn)生的文本2),概率密度分別為p·,1,1=N·,0,P1和p·,0,2=N·,m,P2。則,0時刻的δ-GLMB表達式如下所示
(9)
(10)
其中
(11)
(12)
(13)
(14)
(15)
(16)
更新步:若發(fā)現(xiàn)多個本文的預(yù)測密度非之前所預(yù)測,并且如(8)所示的那樣,那么更新步如下
(17)
考慮線性和非卷積神經(jīng)網(wǎng)絡(luò)兩個實驗來驗證文中所給算法。在實驗中使用CNN和CBMeMBer進行比較。為評估文中所給算法的性能,采用最優(yōu)子模型分配距離(Optimal sub pattern assignment,OSPA):
(18)
從圖1和圖2中的OSPA Card可知,當真實文本種類發(fā)生變化時,CNN對文本的個數(shù)分類出現(xiàn)了一個延遲過程。例如:在第15s,文本種類發(fā)生變化,CNN經(jīng)歷6s后跟上個數(shù)變化,而CBMeMBer濾波算法只需經(jīng)歷1s后并能跟上個數(shù)變化,然而在這過程后,CNN并能夠較穩(wěn)定的分類出文本種類而CBMeMBer濾波算法在文本種類的分類過程中出現(xiàn)較多的波動。
圖1 OSPA距離對比卷積神經(jīng)網(wǎng)絡(luò)(經(jīng)50次MC平均)
圖2 文本種類分類
所使用的分析方法,是采用平均每步所消耗的CPU時間對CNN和CBMeMBer濾波算法。利用上面的方法進行仿真,平均每步所消耗的CPU時間實驗結(jié)果如下表格所示,利用這個表格測試算法的PC機的CPU為Intel(R)Core(TM)i5-4460M3.20GHz,RAM為4GB,32位Win7卷積神經(jīng)網(wǎng)絡(luò)。
表2 算法性能分析
從表2中,可以發(fā)現(xiàn)CBMeM-Ber算法在進行本文分類下所消耗的時間都比CNN算法下消耗的時間要大,與此同時,因為需要預(yù)測和更新標簽變量,增加文本詞向量分布項數(shù),這樣會增加計算量,致使CBMeMBer算法消耗的時間要大于CNN算法所消耗的時間。
針對基于神經(jīng)網(wǎng)絡(luò)分類算法在文本分類中的不足,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類算法。通過使用CNN獲得各文本的詞向量分類,然后,利用各文本每時刻的分類詞向量可以得到每時每刻的鄰接矩陣分類,利用鄰接矩陣分類得到每時每刻的子群個數(shù)分類。仿真實驗表明:CNN算法在文本中的分類效果更為顯著。
參考文獻:
[1] Moeskops, P., Viergever, M. A., Mendrik, A. M., Vries, L. S. D., Benders, M. J. N. L., & I?gum, I. (2016). Automatic segmentation of mr brain images with a convolutional neural network[J]. IEEE Transactions on Medical Imaging, 2016,35(5):1252-1261.
[2] 吳祥標. Kemeny社會選擇函數(shù)的0-1規(guī)劃算法[J]. 遵義師范學(xué)院學(xué)報, 2014, 16(1):81-83.
[3] Sijin, L. I., Liu, Z. Q., & Chan, A. B. Heterogeneous multi-task learning for human pose estimation with deep convolutional neural network[J]. International Journal of Computer Vision, 2015,113(1):19-36.
[4] Anthimopoulos, M., Christodoulidis, S., Ebner, L., Christe, A., & Mougiakakou, S. Lung pattern classification for interstitial lung diseases using a deep convolutional neural network. IEEE Transactions on Medical Imaging, 2016,35(5):1207-1216.
[5] Poria, S., Cambria, E., & Gelbukh, A. (2016). Aspect extraction for opinion mining with a deep convolutional neural network[J]. Knowledge-Based Systems, 2016,108:42-49.
[6] 陳寧江. 淺析XML文檔和關(guān)系數(shù)據(jù)庫之間的信息交換[J]. 遵義師范學(xué)院學(xué)報, 2009, 11(3):72-74.