黑富郁,王景中,趙林浩
(北方工業(yè)大學 計算機學院,北京 100144)
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡已經(jīng)成為民眾不可或缺的生活必備品.根據(jù)第41 次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》,截至2017年12月,我國網(wǎng)民規(guī)模達7.72 億,手機網(wǎng)民規(guī)模達7.53 億,網(wǎng)民使用手機上網(wǎng)人群的占比由2016年的95.1%提升至97.5%[1].人們在獲取多樣化信息的同時,過多的信息也造成了人們注意力的分散,對輿情分析造成了極大的困難.因此對輿情信息進行分類具有重要意義.一方面,可以按照類別統(tǒng)計和查詢各類事件信息,統(tǒng)計形成相關的簡報.另一方面,由于同一事件在網(wǎng)絡上會有大量不同新聞報道,對輿情進行分類可以快速查找定位相關的信息,從技術(shù)上為判斷不同來源的同一事件提供支持.
現(xiàn)在輿情分析主要是針對文本進行分類[2,3],但是大數(shù)據(jù)[4]時代的到來使得網(wǎng)絡上的輿情數(shù)據(jù)越來越多且復雜(例如視頻、聲音、文本等),這些不同類型的數(shù)據(jù)包括圖片、視頻、語音等都承載了越來越多的信息和內(nèi)容.網(wǎng)絡輿情數(shù)據(jù)中包含的各種類型的信息,它們在內(nèi)容上和結(jié)構(gòu)上相互之間有著密切的相關性,只是通過網(wǎng)絡輿情數(shù)據(jù)中的某一類型的數(shù)據(jù)進行分類,這種忽視了不同數(shù)據(jù)之間的關聯(lián)的傳統(tǒng)分類方法漸漸不適用于當下的網(wǎng)絡輿情數(shù)據(jù)信息.
為了應對這樣的情況,研究出更先進的技術(shù)是組織和管理這些數(shù)據(jù)的重要依據(jù),在這些技術(shù)中優(yōu)秀的分類技術(shù)(例如文本分類、圖像分類等)是其它技術(shù)的基礎,通過好的分類技術(shù)可以更好的管理這些信息.近幾年在數(shù)據(jù)處理技術(shù)方面的相關研究中,神經(jīng)網(wǎng)絡的發(fā)展勢頭尤其迅猛.在圖像處理方面,通過神經(jīng)網(wǎng)絡對圖像的處理已經(jīng)屢見不鮮,例如人臉識別、物體識別、場景檢測都已經(jīng)有了長遠的發(fā)展.在圖像處理、語音處理等領域取得的巨大進展的同時,神經(jīng)網(wǎng)絡的焦點也開始匯集于自然語言處理方面的應用.伴隨著相關技術(shù)的日漸成熟,為各類型數(shù)據(jù)的融合處理打下了良好的基礎.其實,國外早在19 世紀就已經(jīng)開始信息融合的相關工作,并且將信息融合技術(shù)列為20 世紀開發(fā)和研究的關鍵技術(shù)之一.然而我國展開對信息融合技術(shù)的研究時間較晚,主要局限于軍事相關的領域且發(fā)展緩慢.通過三十多年的研究,雖然現(xiàn)在信息融合方面的研究尚不成熟,但是信息融合技術(shù)已經(jīng)得到了非常廣泛的關注和應用.
現(xiàn)在的信息融合技術(shù)從抽象的層次來分類,可以分為數(shù)據(jù)層級融合、特征層級融合和決策層級融合.本文主要從特征層級來考慮并實現(xiàn)對本文課題的研究.基于輿情數(shù)據(jù)的分布情況、現(xiàn)行的概念和技術(shù),本文提出一種結(jié)合了不同類型的數(shù)據(jù)來進行綜合考慮的輿情分類方法.
自2012年Krizhevsky 等人在ILSVRC-2012 大賽中,利用深度卷積神經(jīng)網(wǎng)絡對ImageNet 數(shù)據(jù)集進行分類,取得優(yōu)秀的結(jié)果并以此獲得冠軍[5].神經(jīng)網(wǎng)絡被學界和工業(yè)界越來越重視,神經(jīng)網(wǎng)絡得以被廣泛的應用于各領域.2014年,Simonyan 等人[6]提出一種名為VGG16的卷積神經(jīng)網(wǎng)絡,該神經(jīng)網(wǎng)絡模型在ILSVR2014 的比賽中獲得冠軍.Hochreiter 等人在RNN 的基礎上提出了長短時記憶網(wǎng)絡(Long Short-Term Memory,LSTM)[7],LSTM 很好的解決了語義的長距離依賴問題.近年來,LSTM模型被成功地應用于機器翻譯[8]及信息檢索[9]等方面.
Ngiam 等人提出了多模態(tài)深度學習模型,通過玻爾茲曼機(RBM)分別獨立地進行訓練以提取視頻和語音數(shù)據(jù)的特征,在特征層對二者特征進行組合,對多模態(tài)數(shù)據(jù)進行聯(lián)合表示.再通過多模態(tài)數(shù)據(jù)的聯(lián)合表示的特征去學習數(shù)據(jù)的高層語義特征[10].2012年,Srivastava 等人提出了一種新的與Ngiam 等人的方法相似的訓練過程,同樣是利用受限玻爾茲曼機獨立學習不同數(shù)據(jù)的特征然后將二者的特征組合起來,最后再通過監(jiān)督標簽對參數(shù)進行微調(diào)[11].除此之外與Ngiam等人不同的一點是,Srvastava 處理的是文本和圖像數(shù)據(jù).馮方向通過自動編碼機分別對不同模態(tài)信息進行特征抽取并通過典型關聯(lián)分析學習共有信息以實現(xiàn)跨模態(tài)檢索[12].異構(gòu)數(shù)據(jù)特征學習方法還包括Huiskes 提出的多模態(tài)支持向量機模型和Guillaumin等人提出的多模特半監(jiān)督學習方法等[13-15].
越來越多的神經(jīng)網(wǎng)絡模型被構(gòu)建,但是它們只是針對單一類型的數(shù)據(jù)來進行分類,同時現(xiàn)在的多模態(tài)學習方法也主要是針對各類數(shù)據(jù)信息對稱的異構(gòu)數(shù)據(jù),而針對各類型數(shù)據(jù)信息不對稱的網(wǎng)絡輿情數(shù)據(jù)分類,以上的方法難以適用.
LSTM 神經(jīng)網(wǎng)絡是一種特別的RNN 神經(jīng)網(wǎng)絡,使用LSTM 神經(jīng)網(wǎng)絡來對處理文本信息,通過這種方法可以防止RNN 神經(jīng)網(wǎng)絡常見的梯度爆炸問題,同時LSTM的記憶機制在處理長文本信息方面也具有一定優(yōu)勢.
Embeding 層通過Word2Vec 方法把文本信息表示到向量空間.通過LSTM 隱藏層提取文本特征,LSTM隱藏層由一系列的LSTM 基本單元組成.
圖1 LSTM 模型
平均池化層:通過對LSTM 隱藏層的數(shù)據(jù)特征進行池化操作提取出新的特征,實現(xiàn)特征的降維,這樣既可以降低計算復雜度又可以防止過擬合.同時因為LSTM 隱藏層的每一個特征向量都對分類結(jié)果有影響,為了保證分類的準確度這里使用平均池化.最后通過Softmax 層對提取到的特征進行分類.
卷積神經(jīng)網(wǎng)絡采用權(quán)值共享工作方式,相鄰兩層只有部分節(jié)點相連,這種模式顯著降低了神經(jīng)網(wǎng)絡模型的復雜度,減少了權(quán)值的數(shù)量,因而成為了現(xiàn)在眾多領域研究的熱點.由于CNN 神經(jīng)網(wǎng)絡可以繞過復雜的預處理過程直接輸入原始圖像,而得到了學術(shù)界和工業(yè)界的青睞.其中有代表性的VGG16 模型,它是由16 層卷積層和全連接層組合而成,其中前13 層為卷積層,后3 層為全連接層.整個模型如圖2所示.
卷積神經(jīng)網(wǎng)絡通過卷積層和池化層來完成特征提取.卷積層使輸入的特征圖(或原始圖像)與卷積核進行卷積操作,最終通過非線性的激活函數(shù)得到新的特征圖.池化層進行下采樣操作,通過激活函數(shù)得到一個更小的特征圖,以此減少訓練參數(shù)降低神經(jīng)網(wǎng)絡的復雜度,并防止過擬合現(xiàn)象.通過全連接層來將特征映射到特征空間,全連接層的每一個神經(jīng)元與前一層的所有神經(jīng)元進行全連接,全連接層可以整合池化層中具有類別區(qū)分性的局部信息.最后一層全連接層的輸出值,通過Softmax 層進行分類.
隨著大數(shù)據(jù)時代的到來和網(wǎng)絡技術(shù)的不斷提升,不同類型的數(shù)據(jù)開始越來越多出現(xiàn)在網(wǎng)絡上,這些不同類型的數(shù)據(jù)在網(wǎng)絡上構(gòu)成了一個復雜的集合.與以往不同,單一類型的數(shù)據(jù)難以完整表達輿情數(shù)據(jù)的信息.通過對輿情數(shù)據(jù)的多種類型數(shù)據(jù)綜合考慮進行分類,以便能夠在輿情數(shù)據(jù)中挖掘出更多有價值的信息和知識,更好地利用輿情數(shù)據(jù).
圖2 VGG16 網(wǎng)絡模型
不同類型數(shù)據(jù)的底層信息存在明顯的差異,本文考慮到不同類型的數(shù)據(jù),例如圖像數(shù)據(jù)和文本數(shù)據(jù),文本數(shù)據(jù)的表示通常是離散的,而圖像數(shù)據(jù)的表示則是連續(xù)的,因此很難在底層數(shù)據(jù)表示上建立不同類型數(shù)據(jù)之間的關聯(lián).神經(jīng)網(wǎng)絡適用于不同類型數(shù)據(jù)信息的特征提取,考慮到各類數(shù)據(jù)信息的特點選擇更加適合的神經(jīng)網(wǎng)絡模型并通過全連接層來將各類信息特征表達到相同的特征空間.
神經(jīng)網(wǎng)絡的全連接層的結(jié)點與上一層的每一個結(jié)點相連,用來將前面提取到的特征綜合起來.由于其全連接的特性,一般的全連接層的參數(shù)也是最多的.全連接層的核心就是矩陣的乘積操作,具體過程如下:
矩陣表示(其中Wij表示權(quán)重系數(shù),bi表示偏置系數(shù)):
通過全連接層能將特征空間中的特征映射到另一個特征空間.在CNN 神經(jīng)網(wǎng)絡中,全連接層一般出現(xiàn)在整個神經(jīng)網(wǎng)絡的最后幾層,對前面提取的特征做加權(quán)和,起到將提取到的特征映射到樣本標記空間的作用.在RNN 等神經(jīng)網(wǎng)絡中,全連接層也可以用來將embedding 空間映射到隱層空間,再將其映射到樣本標記空間.
圖3 全連接層操作
基于神經(jīng)網(wǎng)絡對不同類型數(shù)據(jù)的良好適用性,本文通過神經(jīng)網(wǎng)絡來實現(xiàn)特征的提取.在現(xiàn)有神經(jīng)網(wǎng)絡模型的基礎上,在最后幾層構(gòu)建全連接層將不同類型的信息表示到同一特征空間,以便對各類數(shù)據(jù)特征進行融合.
據(jù)此,本文已構(gòu)建了以下兩個特征提取模型.在上文提到的CNN 和LSTM 模型的基礎上增加或調(diào)整全連接層構(gòu)建出新的CNN 模型和FC-LSTM 模型如圖4所示.
神經(jīng)網(wǎng)絡分別單獨通過不同類型的數(shù)據(jù)訓練后,去掉神經(jīng)網(wǎng)絡的Softmax 分類器即可得到對應的特征提取模型.通過調(diào)整的神經(jīng)網(wǎng)絡模型,它們抽取的特征已經(jīng)表示在了同一特征空間上,在此基礎上可以直接對特征進行融合.
由于輿情信息的各類型數(shù)據(jù)包含的內(nèi)容并不對稱,只是簡單地將數(shù)據(jù)特征進行融合,難以達到預期的效果.考慮到不同類型的信息的重要性,具體的融合過程如下:
其中,V1i、V2i表示不同類型信息的特征向量,Vi表示融合后的特征向量,W1、W2分別表示不同類型信息的權(quán)重,這里通過對若干條數(shù)據(jù)測試來確定W1、W2,測試過程如圖5所示.
圖4 FC-LSTM 模型和CNN 模型
通過特征提取模型之后,在對整個特征融合過程中,讓特征V1i、V2i分別和權(quán)重W1、W2求積,將它們的結(jié)果相加得到融合后的特征.
最后,使用了Softmax 分類器(3)對融合后的特征進行分類.
根據(jù)上文可以架構(gòu)出整個模型.如圖6所示.
以此(圖6),通過不同的神經(jīng)網(wǎng)絡分別去提取不同類型網(wǎng)絡數(shù)據(jù)的特征,將他們表達到同一特征空間,并通過特征融合獲取更加全面的數(shù)據(jù)信息來對網(wǎng)絡數(shù)據(jù)進行分類.
圖5 權(quán)重獲取流程圖
在數(shù)據(jù)集上,當前缺少一個公開的具有一定標準的異構(gòu)輿情數(shù)據(jù)庫.為此,本文收集了搜狐、騰訊網(wǎng)站上的圖像和文本數(shù)據(jù)信息,采用圖像和文本這兩種類型的數(shù)據(jù)信息來進行實驗驗證.它們的內(nèi)容如表1所示.
圖6 輿情分類模型
本文選取內(nèi)容較多的軍事、歷史、旅游、財經(jīng)、房產(chǎn)、科技、體育、娛樂八個類別進行分類,一共收集了9000 條數(shù)據(jù),各類別數(shù)據(jù)一千多條,將其中的8000 條作為訓練數(shù)據(jù)集,剩下1000 條作為測試數(shù)據(jù)集.
表1 數(shù)據(jù)集
通過上文構(gòu)建的CNN 神經(jīng)網(wǎng)絡和FC-LSTM 神經(jīng)網(wǎng)絡特征提取模型構(gòu)建分別提取圖像和文本信息的特征,實現(xiàn)特征融合并進行輿情分類.采用CNN、LSTM、FC-LSTM 神經(jīng)網(wǎng)絡模型和LSTM-CNN 神經(jīng)網(wǎng)絡模型進行對比實驗.
CNN 神經(jīng)網(wǎng)絡模型:通過CNN 神經(jīng)網(wǎng)絡模型僅對圖片進行分類.
LSTM 神經(jīng)網(wǎng)絡模型:通過LSTM 神經(jīng)網(wǎng)絡模型對文本進行分類.
FC-LSTM 神經(jīng)網(wǎng)絡模型:通過FC-LSTM 神經(jīng)網(wǎng)絡模型對文本進行分類.
LSTM-CNN 多模態(tài)深度學習模型:對圖像和文本進行特征提取,并對提取到的特征融合后再進行分類.
分析圖7可知,隨著文本權(quán)重W1的變小和圖像權(quán)重W2的變大,分類的準確率開始上升,當文本和圖像的權(quán)重分別為W1=0.81,W2=0.19 時,LSTM-CNN 可以得到準確性最好的分類結(jié)果,之后隨著圖像權(quán)重W2的增加,準確率開始出現(xiàn)下降.當分類結(jié)果達到最優(yōu)時,圖像權(quán)重W2遠遠小于文本權(quán)重W1,經(jīng)分析對比圖像和文本數(shù)據(jù)具備以下特點:
1)信息承載量:在圖片中可以包含的信息量少于文本信息.文本信息可以承載更多的信息.
2)信息可靠度:文本信息與圖像信息相比可靠性更高.在一些相對數(shù)據(jù)質(zhì)量不高網(wǎng)絡數(shù)據(jù)中,相對應的圖像質(zhì)量要更低.
圖7 不同權(quán)重下的分類結(jié)果
雖然圖像數(shù)據(jù)有這些不足,但是圖像數(shù)據(jù)作為整個數(shù)據(jù)的一部分,仍然有著不容忽視的作用.當文本信息內(nèi)容出現(xiàn)缺失或兩個類別特征出現(xiàn)沖突時,將圖像信息作為輔助信息可以得到正確的分類結(jié)果.
訓練好的模型的精度如表2所示.
表2 不同模型的分類精度
根據(jù)表2比較各神經(jīng)網(wǎng)絡模型.CNN 模型和LSTM 模型對比可知,文本信息的可靠度和質(zhì)量要高于圖像信息.對比LSTM 和FC-LSTM 可知,FC-LSTM的全連接層并不會對分類結(jié)果構(gòu)成影響.結(jié)合文本信息和圖像信息的LSTM-CNN 與LSTM 模型(文本)對比準確率提高了4%,與CNN 模型(圖像)對比準確率提高了11%.
綜上所述,結(jié)合文本和圖片信息的特征對網(wǎng)絡數(shù)據(jù)信息進行分類,較原來只是通過單一類型的數(shù)據(jù)進行分類,準確率有了一定的提高.對一個含有圖像和文本的輿情信息而言,根據(jù)數(shù)據(jù)集包含不同類型數(shù)據(jù)的特點,圖像和文本信息扮演的角色和重要性也各不相同.實驗結(jié)果證明在本文數(shù)據(jù)集中,文本數(shù)據(jù)相比圖像數(shù)據(jù)無論是信息承載量或信息質(zhì)量都更為出色.但是文本和圖像數(shù)據(jù)都是不可或缺的一部分.本文通過根據(jù)它們的重要性,實現(xiàn)數(shù)據(jù)特征的融合及整體數(shù)據(jù)的分類.一方面,考慮到了文本信息的重要性,盡量減小圖像對文本信息分類結(jié)果造成的影響.另一方面,當文本信息出現(xiàn)不足時,通過圖像數(shù)據(jù)來對文本信息進行補充,最終達到了更好的分類效果.
本文針對現(xiàn)在網(wǎng)絡上輿情數(shù)據(jù)信息分布的特點和狀況,提出了基于異構(gòu)數(shù)據(jù)的輿情分類方法.與傳統(tǒng)的只是針對單一類型數(shù)據(jù)進行分類的方法不同,本文考慮到輿情數(shù)據(jù)的特點對不同類型的網(wǎng)絡輿情數(shù)據(jù)進行特征提取,通過融合后的特征進行分類,同時這種方法最大限度的考慮到了各類數(shù)據(jù)中的有效信息和各類數(shù)據(jù)的不同特性,據(jù)此可以使用不同的神經(jīng)網(wǎng)絡模型來完成特征提取,使得數(shù)據(jù)分類的結(jié)果更加準確.
隨著網(wǎng)絡的發(fā)展例如像微博、微信等新媒體已經(jīng)漸漸興起并壯大,包含多種類型數(shù)據(jù)的輿情信息已經(jīng)成為一種常態(tài),網(wǎng)絡上的數(shù)據(jù)隨之必然更為復雜.如何更好地利用不同類型的數(shù)據(jù),并針對這樣的數(shù)據(jù)進行綜合的處理和考慮,必然是未來的趨勢.