摘要:【目的】文章比較多個基于深度神經(jīng)網(wǎng)絡的中文新聞文本分類模型,旨在找到準確度較高的方法用以實際工作,為中文新聞文本分類提供更加高效的方法?!痉椒ā繉ξ谋痉诸惣夹g和中文新聞分類進行了梳理和歸納,對中文新聞文本的特征和預處理進行了闡述,詳細介紹FastText算法、Bert分類算法、TextCNN算法和TextRNN算法?!窘Y果】四種深度神經(jīng)網(wǎng)絡算法均可以應用于中文新聞文本分類,可以有效處理信息紊亂問題以及快速準確進行分類?!窘Y論】通過對四種深度神經(jīng)網(wǎng)絡算法進行試驗和效果對比,發(fā)現(xiàn)FastText模型在實際工作中的文本分類效果最為優(yōu)異。
關鍵詞:深度神經(jīng)網(wǎng)絡;文本分類;中文新聞;自然語言處理" " " " " " 中圖分類號:TP183" " " " " "文獻標識碼:A
文章編號:1671-0134(2023)03-147-05" " " " DOI:10.19483/j.cnki.11-4653/n.2023.03.033
本文著錄格式 :鄭創(chuàng)偉,王泳,邢谷濤,謝志成,陳義飛.基于深度神經(jīng)網(wǎng)絡的中文新聞文本分類方法[J].中國傳媒科技,2023(03):147-151.
導語
隨著信息時代的高速發(fā)展,網(wǎng)絡信息呈現(xiàn)爆炸式增長。新浪、今日頭條等一些主流新聞網(wǎng)站,每天提供數(shù)以百萬計的新聞數(shù)據(jù),然而這些爆炸式增長的數(shù)據(jù)給網(wǎng)站帶來了巨大的挑戰(zhàn)。新聞文本分類可以有效地對文本進行快速準確分類,提高網(wǎng)站的工作效率,成為近些年來的研究熱點。新聞文本分類屬于文本分類的一個子任務。文本分類廣泛應用于各個領域,如網(wǎng)頁分類、微博情感分析、用戶評論挖掘等,是自然語言處理中使用率最廣泛的技術之一。文本分類最重要的作用是可以有效處理信息紊亂問題,尤其是對海量信息而言,更能夠幫助用戶快速、高效準確地定位所需信息,從而更加高效地分析數(shù)據(jù)。[1]
本文對新聞文本分類技術進行探究和闡述,主要包括分類特點等,并通過實驗指出各個算法的優(yōu)劣所在,預測未來新聞分類的發(fā)展趨勢。
1.相關研究
1.1" "中文新聞分類概述
中文文本是一種無法被計算機處理的非結構化數(shù)據(jù),要轉化為結構化數(shù)據(jù)。結構化數(shù)據(jù)的過程首先要進行數(shù)據(jù)預處理,然后用一些特征提取的方法就可以使用。[2]特征提取可以概括為以下三類:(1)詞袋模型。(2)特性權重計算。(3)向量空間模型。詞袋模型指忽略詞序和語法,將文本僅僅看作是一個詞集合。若詞集合共有N個詞,每個文本表示為一個N維向量,元素為0/1,表示該文本是否包含對應的詞。特性權重計算一般有布爾權重、TFIDF型權重,以及基于熵概念權重等幾種方式。向量空間模型指以詞袋模型為基礎,通過特征選擇來降低模型維度,并且利用特征權重來進行二次計算。[3]通過上述方法,可以將非結構化的文本轉化為結構化的數(shù)組,從而進行文本分類。
基于傳統(tǒng)的機器學習方法,主要可以概括為特征工程+淺層分類模型?;跈C器學習分類方法中,會將數(shù)據(jù)集按照一定比例分為訓練集和測試集,然后通過不斷訓練調整分類模型的參數(shù)來達到更高的準確率,再利用測試集對該分類模型的分類效果進行評估。[4]在分類過程中,可以利用相似語料對提取出的文本信息進行擴展,進而得到特征向量,或者利用支持向量機,以及信息增益的計算方式來選擇特征,提高分類準確率。此外,還能夠對詞向量進行加權處理,這樣能更加精準區(qū)分不同詞條的重要程度,提高分類文本的準確率和效率。由于不同的任務對特征的要求不一樣,所以具體問題需要具體分析。其中最主要涉及的技術為構建分類器,這是一種基于統(tǒng)計分類的方法,包括SVM和樸素貝葉斯分類算法等。[5]
基于深度學習的文本分類方法,利用CNN/RNN等網(wǎng)絡結構自動獲取特征表達,然后進行分類,從而端到端的解決問題?;谏疃葘W習分類方法中,由于計算機性能不斷提升,使得圖像識別、自然語言處理等領域得到了快速發(fā)展。這種算法模擬了人的大腦中神經(jīng)元的連接與計算,在其神經(jīng)網(wǎng)絡中,一般包含輸入層、隱藏層和輸出層。層與層之間通過反向傳播算法等對數(shù)據(jù)進行訓練和計算,得到相應的訓練模型。深度學習的方式,往往也意味著其隱藏層較多,每層負責學習的特征有所區(qū)別,最終將這些特征匯總在一起,完成更加精準的學習任務。[6]在對文本分類過程中,可以從用戶特征信息、文本主題信息,以及評論關鍵詞等角度出發(fā),提取結構化文本中的特征信息,這樣能夠取得更好的分類效果。
2.中文新聞文本分類研究
2.1" "中文新聞文本特征
從文本分類的角度分析,中文新聞具有以下兩個特征:(1)新聞需要文本分類。隨著信息時代數(shù)據(jù)量爆發(fā)式增長,新聞也呈現(xiàn)指數(shù)型增長,如何從這些海量的數(shù)據(jù)當中獲取需要的新聞成為一個熱點問題。(2)新聞分類具有可行性。由于新聞數(shù)據(jù)的公開性,網(wǎng)絡上充斥著大量的訓練和測試數(shù)據(jù)。與此同時,隨著分類算法快速發(fā)展,分類性能也越來越高。
2.2" "中文新聞文本預處理
中文新聞的文本預處理主要是針對一些無實際意義的詞進行識別和剔除,例如大量的停用詞或噪聲等,從而能夠降低其對預處理的影響程度。[7]文本預處理的過程主要包括:分詞、降噪、詞性標注、剔除停用詞等。
2.2.1" "分詞
在中文新聞分詞過程中,沒有類似英文中間空格的斷開分詞特征,因此就需要對其進行更多處理,例如,使用向前向后最大匹配算法等,可以使用基于字典或者基于統(tǒng)計的方法進行分詞。中文分詞主要是解決中文文本中缺少形式上的分隔符這一難題,中文分詞所使用的技術主要有以下幾種:第一,基于字符串匹配技術,這種方法的關鍵是必須建立統(tǒng)一的詞典表,當句子開始進行分詞時,先將句子進行拆分,拆分后再和之前建立的詞典表進行匹配對比。第二,基于理解的分詞方法,這種方法是讓計算機通過神經(jīng)網(wǎng)絡算法去模擬人對句子進行理解和表達,進而可以識別中文詞語,但因中文詞語的語義較廣,因此難度較大。第三,基于統(tǒng)計的分詞技術,這種方法的最基本思維就是利用了統(tǒng)計學和概率等,認為分詞是一個概率最大化問題,基于所構建的語料庫,統(tǒng)計相鄰的字組成的詞語出現(xiàn)的概率,按照概率值進行分詞。
2.2.2" "降噪
對中文新聞信息的降噪,主要是去除網(wǎng)頁上雜亂的文字和圖片,只保留經(jīng)過工整排版的正文部分。如果遇到短文本,還需要剔除一些表情符號、轉發(fā)關系等,僅保留純文本用于后續(xù)分析和處理。在降噪過程中可能涉及特征抽取或特征降維這一操作,其可以有效降低算法計算的開銷、去除噪聲,能夠提升模型的訓練速度。
2.2.3" "詞性標注
降噪完成后,需要對中文新聞中的詞語進行詞性標注,包括名詞、動詞、形容詞、副詞等。詞性標注的作用主要體現(xiàn)在后續(xù)對文本進行識別和分類的過程中,經(jīng)過詞性標注后,處理效率能夠大大提升。
2.2.4" "停用詞或無意義詞過濾
第一種方法是根據(jù)已制定的停用詞表進行處理,停用詞表中一般包含語氣詞、標點符號等,在對新聞信息分詞去噪后,對其進行遍歷,遇到與停用詞表中相同詞語時,將其剔除。這種方法可控性較好,效率較高,能夠隨時對停用詞表進行修改。第二種方法是計算語料庫中詞語出現(xiàn)的頻率,然后選擇出現(xiàn)頻率較低或次數(shù)較少的詞語進行剔除。但這種方法計算量較大,會消耗較多資源,有時還可能將某個出現(xiàn)頻率較低但影響較大的詞語誤刪除。
2.3" "中文新聞文本分類的主要模型方法
文本分類是根據(jù)文本語義內(nèi)容來對其進行歸類的一個過程,文本數(shù)據(jù)集合與類別集合之間可以用3-1函數(shù)表示:
基于上文提到的新聞特征,將文本分類應用到新聞領域有重要實際意義。新聞文本分類具有以下三個特點[8]:(1)文本分析要考慮標題的重要性:新聞標題是對一篇文章的高度概括,它對新聞的分類有很大的輔助作用;(2)文本表示要考慮新聞特征:充分分析新聞文本的特性,進而優(yōu)化文本表示方法,有助于提高網(wǎng)絡新聞的分類效果;(3)分類標準偏向主題而非學科。因此,本研究針對實際工作中遇到的新聞數(shù)據(jù),基于深度學習的分類算法,采用了FastText、TextCNN、BERT、TextRNN等模型進行計算和訓練。在訓練過程中要注意對數(shù)據(jù)集進行分類,預設的判斷條件要盡可能科學,例如,考慮用梯度下降的反向傳播算法來更新權值,從而使得準確率逐步提高,達到更好的訓練效果。
2.3.1" "FastText模型
FastText模型主要包括輸入層、隱含層和輸出層(如圖1),與大型神經(jīng)網(wǎng)絡結構相比其較為簡單,運行效率較高,它在保證分類準確率的同時,還能夠進一步提升訓練速度。[9]在輸入層中,將文本當作一個由詞構成的集合,生成表征文本的向量,在此過程中的關鍵操作為對文本中出現(xiàn)的詞實施疊加平均操作,最后利用該向量完成多分類任務。此算法的優(yōu)點還體現(xiàn)在可以無須進行預訓練步驟,其可以自發(fā)訓練詞向量,將單詞序列作為輸入,并且使用層次softmax函數(shù)對分類進行加速,以及預測這些類別的概率分布。這種以霍夫曼編碼樹形式來建立層次的方法,大大降低了計算復雜度。
2.3.2" "TextCNN模型
選擇合適的中文文本分類算法是中文文本分類的核心,這需要對每種算法有一定程度的了解,同時要對新聞文本分類任務有清晰的認知。使用TextCNN處理文本并進行分類,就必須對信息進行數(shù)據(jù)預處理操作,以便后期達到更好的分析效果,具體包括向量化、詞向量初始化等。在文本分類中,TextCNN模型應用最為廣泛,尤其在工業(yè)領域應用更為成熟,已經(jīng)取得了較為優(yōu)異的輸出效果,其網(wǎng)絡結構較為簡單,因此模型可以使用較少的參數(shù)進行訓練,有效節(jié)約計算開支,提高了訓練速度。CNN主要運用在圖片分類領域,而TextCNN則是其一種變形,能夠用于文本分類,結構示意圖如圖2所示,詞向量經(jīng)過不同卷積核運算后得到對應的特征向量,再經(jīng)過池化層后得到全連接層,此時映射運算就能夠將高維數(shù)據(jù)轉換為低維數(shù)據(jù)。[10]TextCNN的可解釋性較弱,需要人工對其進行指導干預,對卷積核的尺寸進行設定,并且需要對模型進行手工調優(yōu)。TextCNN模型通過利用一個k維向量來代表某句子中的一個單詞,這些單詞會做成一個詞典以供文本輸入后使用。文本輸入后會將每個單詞對應一個一維向量,最終將一整個句子轉換成一個二維矩陣后卷積,而此時卷積核的列維度就與輸入的維度相同,并且卷積核的大小可以根據(jù)實際情況進行調整,滑動步長的范圍往往控制在2 ~ 5個單詞之間。
從圖3 TextCNN 算法流程圖中能夠看出,在輸入文本信息后,開始對文本進行數(shù)據(jù)預處理,此時使用到詞嵌入、詞向量初始化、向量維度變換等方法。數(shù)據(jù)預處理完畢后,使用Text CNN進行訓練,通過卷積、最大池化、Softmax方式輸出分類結果。最后對輸出的損失值進行判斷,如果超過了設定的閾值,則以梯度下降的反向傳播算法進行循環(huán)更新,直到小于或等于設定的閾值則訓練結束。常用的梯度下降方法為批量梯度下降法,即在每一次迭代過程中都需要更新梯度。梯度下降的優(yōu)點在于其利用矩陣計算所有樣本數(shù)據(jù),可對數(shù)據(jù)進行并行處理;缺點在于當數(shù)據(jù)量較大時,每次計算所有數(shù)據(jù)會使得訓練效率有所降低。
2.3.3" "Bert模型
Bert最早是谷歌團隊發(fā)明的一種語言模型,它由多個Transformer的Encoder疊加而成,模型結構如圖4所示。Transformer結構是采用一種注意力機制,在讀取數(shù)據(jù)信息時會一次性讀取文本序列,不僅能夠提高讀取效率,還能夠更方便的基于單詞的上下文進行語義學習,增強了對上下文語義的理解,也與中文語言表述更接近。這種方法對新聞文本分類而言,可以解決數(shù)據(jù)稀疏、上下文依賴性過高等難點,使得文本分類性能更加高效,滿足更加精準性的需求。
該模型的輸入層主要是利用Bert模型算法進行預訓練,進而能夠以文本語義向量表示。在句子開頭和結尾處需要進行標記,然后對讀取到的數(shù)據(jù)進行處理,采用映射索引的方法對文字和標簽進行切分,然后將每一個詞嵌入轉換為一維語義向量。再通過Transformer Encoder堆疊,完成雙向語義特征學習及向量表示。在特征抽取層,要通過Bert模型進行進一步微調,結合注意力機制對文本特征進行提取,通過這種機制能夠更加聚焦于數(shù)據(jù)內(nèi)部的相關性,利用詞向量加權的方式提高模型運算效率。[11]Bert算法模型就是由多個Transformer的Encoder部分疊加的深層次網(wǎng)絡,該方式一次性讀取整個文本序列,因此可以用于對某個單詞上下文語義進行學習,增強了對上下文語義學習的理解能力,在一定程度上更加接近人類語言。同時還會對文本進行特征抽取,示意圖如圖5,具有全局時序最優(yōu)等特征,可以提取文本信息中上下文語義信息,具體實現(xiàn)過程中需要利用Tensorflow庫函數(shù)來搭建雙向網(wǎng)絡操作函數(shù)。在輸出層,主要是對每個樣本所屬的標簽做概率預測,對文本信息能夠進行高效提取,然后通過全連接的方式提高分詞準確率。這種全連接方式利用了激活函數(shù)和數(shù)據(jù)線性變換的方式來提高計算效率,并且采用梯度下降算法來進行參數(shù)學習和Dropout策略防止模型過擬合問題。
2.3.4" "TextRNN模型
該遞歸神經(jīng)網(wǎng)絡模型又名文本循環(huán)神經(jīng)網(wǎng)絡,利用該模型在中文新聞文本分類時,能夠捕獲更長的序列信息,它避免了CNN算法中不能延展序列長度的缺陷,并且在進行參數(shù)調節(jié)時較為簡單,可以更加準確地表達上下文信息。在RNN算法中,輸出的結果并不僅僅是由矩陣和卷積計算得到的,其會根據(jù)計算得出一個State,并且會持續(xù)影響后續(xù)的計算,這樣經(jīng)過N個樣本的輸出,就能夠使得結果具備一定的序特征。這就使得輸入數(shù)據(jù)的狀態(tài)可以在自身神經(jīng)網(wǎng)絡中進行循環(huán)處理,并且產(chǎn)生時間關聯(lián)。TextRNN模型的特別之處在于其同一隱藏層的節(jié)點之間是存在連接的,并且將時間關系作為影響數(shù)據(jù)間關系的變量,它不僅考慮當前的輸入,還賦予網(wǎng)絡對過去的記憶。在其隱藏層中,數(shù)據(jù)可能會從第一個隱藏層中輸出后,再加上一定的權重進入第二個隱藏層,也就是說在向下一層輸入時,會將某一時刻的隱藏狀態(tài)神經(jīng)元和這一時刻的文本特征一起輸入。最后經(jīng)過的不斷循環(huán)和遞歸,再反向調整各層的連接權重,得到最優(yōu)化參數(shù)。但正是由于這種結構,使得TextRNN后一個時刻的輸出會依賴前一個時刻的輸出,因此無法并行處理,降低了訓練效率。[12]
從圖6 TextRNN網(wǎng)絡結構中可以看出,數(shù)據(jù)按時間序列展開后,能夠得到一個T維向量,U為輸入層到隱藏層的權重,權重越大則代表輸入信息量越多。橫向W則代表前一個隱藏層到后一個隱藏層的權重,V則代表從隱藏層到輸出層的權重。要注意的是,RNN在處理序列信息時,有時會偏向最后輸入的信息,這就可能導致早期信息丟失的問題,因此在初始化權重時,要盡可能避免極大或極小值,并且加入LSTM(長短期記憶網(wǎng)絡)和GRU(門控循環(huán)單元)。
2.4" "中文新聞文本分類實驗
2.4.1" "數(shù)據(jù)集介紹
筆者提供了一個新聞和公司相關的數(shù)據(jù)集,數(shù)據(jù)集是通過對某網(wǎng)的金融數(shù)據(jù)進行篩選過濾生成,包含40萬篇新聞,都是經(jīng)過預處理過后的文本,均為UTF-8純文本。在原始網(wǎng)站的基礎之上,將數(shù)據(jù)集劃分出1000個類,每一個類代表一家公司。將用一些主流的分類算法測試模型的性能。
2.4.2" "實驗結果
實驗需要對測試數(shù)據(jù)集分類結果的準確性進行評價,若結果不在合理范圍內(nèi),則需要返回特征選擇階段再次完成特征選取,重復這一步驟直到結果處于合理范圍內(nèi)。其分類標準主要包括準確率和召回率,準確率可以表示文本分類模型的準確程度,但僅準確率高而召回率很低,則代表沒有把本應預測出來的標簽類別預測出來,尤其是對于非均衡樣本,有時會把小類樣本預測成為大類樣本;或者某個多標簽分類模型,可能會出現(xiàn)特征和模型過擬合的現(xiàn)象,這也會導致召回率較低,因此在實驗時要加以注意。
筆者分別使用FastText算法、Bert分類算法、TextCNN算法、TextRNN算法來分別在數(shù)據(jù)集上進行測試,評估標準準確率和召回率,實驗結果如下表所示:
同時本研究還在THUCNews上測試了幾種方法的準確度和召回率,實驗結果如下表所示:
3.總結
本文在對中文文本分類進行梳理和研究的基礎上,認為以下幾個方向將成為研究的熱點:(1)基于無監(jiān)督學習模式的新聞文本分類:網(wǎng)絡上充斥著大量無監(jiān)督的數(shù)據(jù),如何利用好這些數(shù)據(jù),將成為一個熱門研究;(2)多層次新聞文本分類:充分利用分類體系的層次信息,采用逐層分類思想進行多層次文本分類,能有效地降低分類算法的復雜度,同時保證分類精度,值得進一步研究。(3)跨模態(tài)的新聞文本分類:新聞文本分類主要考慮文本信息,新聞中一些其他模態(tài)的信息被忽略,如何利用這些信息輔助分類,充分融合好文本信息和圖片信息,也是一個研究熱點。同時,本研究討論了新聞文本分類等相關研究,分別介紹了FastText模型、TextCNN模型、BERT模型以及TextRNN模型。經(jīng)過實驗,F(xiàn)astText模型在實際工作中的文本分類效果最為優(yōu)異,而TextCNN模型在THUCNews上的文本分類最為優(yōu)異。
[1]李澤魁,孫霏,陳珺.新聞媒體領域中文語義分析技術智能化、知識化之路的研究與探索[J].中國傳媒科技,2018(8):35-37.
[2]Li Z ,Shang W ,Yan M . News text classification model based on topic model[C]// IEEE/ACIS International Conference on Computer amp; Information Science. IEEE,2016.
[3]李可悅,陳軼,牛少彰. 基于BERT的社交電商文本分類算法[J]. 計算機科學,2021(2):87-92.
[4]賈澎濤,孫煒. 基于深度學習的文本分類綜述[J]. 計算機與現(xiàn)代化,2021(7):29-37.
[5]譚辛.政策解讀大數(shù)據(jù)分析應用的實踐探究[J].中國傳媒科技,2019(3):22-23.
[6]劉萌. 人工智能技術在媒體融合中的運用研究[J]. 中國傳媒科技,2021(11):154-156.
[7] 李澤魁,孫霏,陳珺. 新聞媒體領域中文語義分析技術智能化、知識化之路的研究與探索[J]. 中國傳媒科技,2018(8):35-37.
[8]賈紅雨,王宇涵,叢日晴,林巖. 結合自注意力機制的神經(jīng)網(wǎng)絡文本分類算法研究[J]. 計算機應用與軟件,2020(2):200-206.
[9]楊銳,陳偉,何濤,張敏,李蕊伶,岳芳. 融合主題信息的卷積神經(jīng)網(wǎng)絡文本分類方法研究[J]. 現(xiàn)代情報,2020(4):42-49.
[10]杜思佳,于海寧,張宏莉. 基于深度學習的文本分類研究進展[J]. 網(wǎng)絡與信息安全學報,2020(4):1-13.
[11]郝超,裘杭萍,孫毅,張超然. 多標簽文本分類研究進展[J]. 計算機工程與應用,2021(10):48-56.
[12]王迷莉. 基于機器學習的文本分類研究[J]. 科技創(chuàng)新與應用,2021(26):70-72.
作者簡介:鄭創(chuàng)偉(1978-),男,廣東汕頭,高級工程師,研究方向為大數(shù)據(jù)、人工智能;王泳(1977-),女,湖南邵陽,中級工程師,研究方向為大數(shù)據(jù);邢谷濤(1984-),男,海南文昌,中級工程師,研究方向為云計算;謝志成(1980-),男,廣東汕頭,中級工程師,研究方向為大數(shù)據(jù)、云計算;陳義飛(1981-),廣東湛江,中級工程師,研究方向為大數(shù)據(jù)。
(責任編輯:張曉婧)