亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT和RNN的新聞文本分類對比

        2021-12-14 10:01:14林德萍汪紅娟
        北京印刷學院學報 2021年11期
        關鍵詞:準確率神經(jīng)網(wǎng)絡分類

        林德萍,汪紅娟

        (北京印刷學院,北京 102600)

        1 緒論

        1.1 選題背景

        自然語言處理是當前人工智能領域中一個重要的研究方向,有著極其重要的地位,其目的在于研究如何將人類的語言或者說是人類的想法傳達給計算機,從而實現(xiàn)人與計算機之間的交流。人類與動物之間的主要區(qū)別在于人類有著其他生物所沒有的語言系統(tǒng),而動物無法進行直接的語言交流。因此人類信息的傳遞需要借助大量的語言文字,人類的各種發(fā)明、創(chuàng)新思維和經(jīng)驗知識等都需要通過語言文字的形式傳承下去。所以說人工智能的核心就是自然語言處理,自然語言處理可以應用在人類實際生活中的諸多方面,例如機器翻譯、輿情監(jiān)測、自動摘要、觀點提取、文本分類等方面[1]。隨著計算機技術的不斷發(fā)展及計算機的不斷升級更新?lián)Q代,計算機已經(jīng)可以通過學習逐漸達到人類的水平,在各方面得到擴展進而處理越來越多的自然語言處理任務。

        而我們今天要研究的則是其中一個重要方面:新聞文本分類不同模型的對比試驗??偟膩碚f就是通過兩個不同的已經(jīng)訓練好的神經(jīng)網(wǎng)絡分類模型,將同一新聞文本數(shù)據(jù)集代入其中進行訓練,通過實驗得出將新聞文本數(shù)據(jù)集進行標簽分類的準確率等評價指標,再將兩個實驗結果進行對比從而比較兩個方法的優(yōu)缺點。具體的細節(jié)將在后面的章節(jié)詳細說明。

        1.2 研究意義

        在人類豐富而燦爛的歷史當中,文字起著傳承和發(fā)揚文明的重要作用。五千年的華夏文明,只有通過文字這個必不可少的傳輸介質(zhì)才能源遠流長,才能讓后人感受并學習先人的智慧。不僅僅是對歷史的傳承,在當今社會中,我們的日常生活更是離不開文字。一方面,我們需要借助文字才能進行知識的學習和日常的溝通交流;另一方面隨著計算機技術的普及和應用領域越來越廣泛,借助計算機來處理文字信息,學習文字信息,最終將有效的信息傳達給人類實現(xiàn)人工智能,對現(xiàn)代人類來說變得更加意義非凡。

        隨著大數(shù)據(jù)時代的到來,人類在使用電子產(chǎn)品的過程中每天都會產(chǎn)生大量的數(shù)據(jù)信息[2],同樣互聯(lián)網(wǎng)內(nèi)記錄每天世界各地的新聞信息也在不斷更新。為了更好更快地處理這些海量新聞,提取出人們相對感興趣的新聞文本,將新聞文本信息進行分類就是其中的關鍵環(huán)節(jié)。文本分類,是將復雜的數(shù)據(jù)進行很好的歸納總結,從而更加高效地對事物進行判斷和改進。其中新聞文本分類就是分類問題的中的重要組成部分,也是人工智能領域中的基礎問題。在過去計算機尚未發(fā)明出來的時代,海量且冗余的信息只能耗費大量的人力物力來實現(xiàn)并不顯著的分類效果,效率低下且分類質(zhì)量不佳。因此,利用計算機遠超過人類的計算能力以及節(jié)約資源等優(yōu)點,通過機器學習的過程,讓計算機進行文本分類,不僅節(jié)約了大量資源更具有劃時代的重大意義。

        而面對眾多學者提出的不同分類算法和訓練模型,為人類篩選出更為高效、更為精準的分類方法,使計算機在文本分類過程中達到最佳分類效果也因此意義重大。新聞文本分類因此能夠更好地實現(xiàn)新聞分類的精確,這不僅僅是精度上的提高,在人類的實際生活中更是實現(xiàn)了利益最大化,資源合理化,實實在在地把人類的生活提高了一個檔次,在實際應用過程中有著卓越意義。

        1.3 本文主要研究內(nèi)容

        本文主要分為以下四個章節(jié)進行具體研究:

        第一章為本文的研究背景及意義,主要闡述了進行文本分類的研究意義,進而引出本文針對新聞文本分類來進行對比試驗以此找出更加高效且精準的分類模型的現(xiàn)實意義。

        第二章為相關理論與技術的概述,本章主要介紹了當下流行的文本分類模型,包括循環(huán)神經(jīng)網(wǎng)絡、長短期記憶網(wǎng)絡以及Transformer模型和BERT模型的基礎知識。

        第三章為兩個新聞文本分類模型的對比實驗分析,以新聞數(shù)據(jù)集為基礎,對比了兩個模型之間的異同,根據(jù)評價指標分析用于文本分類模型的優(yōu)勢之處。

        第四章為對本文的總結和展望,總結了本文的工作,并對下一步分類模型的改進和創(chuàng)新方向提出展望。

        2 相關理論與技術

        2.1 循環(huán)神經(jīng)網(wǎng)絡以及文本分類

        循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)和傳統(tǒng)的前饋神經(jīng)網(wǎng)絡相比,它不僅僅是通過連接不同層次來進行信息傳遞,而是在網(wǎng)絡中引入環(huán)狀結構來建立神經(jīng)元到自身的連接[3]。通過該環(huán)狀結構增加上一節(jié)點存儲在網(wǎng)絡中的記憶,從而影響下一步的網(wǎng)絡輸出。循環(huán)神經(jīng)網(wǎng)絡的改進,是推進深度學習領域快速發(fā)展中濃墨重彩的一筆,目前已經(jīng)應用在了自然語言處理等諸多領域,文本分類就是其中一個非常具有現(xiàn)實意義的研究方向。許多學者對文本分類的研究與改進就是基于循環(huán)神經(jīng)網(wǎng)絡的,文本分類本質(zhì)上可以說是一種特征提取,而循環(huán)神經(jīng)網(wǎng)絡為特征提取提供了有效的解決方式,因此能夠為文本分類提供很好的解決思路。

        2.1.1 RNN循環(huán)神經(jīng)網(wǎng)絡

        循環(huán)神經(jīng)網(wǎng)絡屬于遞歸神經(jīng)網(wǎng)絡,輸入序列數(shù)據(jù)后在其演進方向遞歸,連接所有節(jié)點(循環(huán)單元)的方式是鏈式[4]。和卷積網(wǎng)絡的輸入數(shù)據(jù)相比,循環(huán)神經(jīng)網(wǎng)絡不僅輸入數(shù)據(jù)X,還將每一步的輸出作為下一步的輸入,每一次循環(huán)都采用相同的激活函數(shù)和參數(shù)。典型的循環(huán)神經(jīng)網(wǎng)絡結構模型如圖1所示,右側(cè)是將其按照時間序列展開之后的網(wǎng)絡結構圖。

        圖1 基礎循環(huán)神經(jīng)網(wǎng)絡結構

        2.1.2 LSTM長短期記憶網(wǎng)絡

        以序列化方向演進的循環(huán)神經(jīng)網(wǎng)絡,每次只能通過一個參數(shù)進行傳播,但當輸入信息量大且復雜的時候,序列化輸入一個參數(shù)并不能滿足需求,因此長短期記憶網(wǎng)絡(Long Short Term Memory,LSTM)就誕生了,用來解決此類問題。LSTM屬于門控算法,其單元包含了3個門控分別是輸入門、遺忘門和輸出門[5]。這個機制可以有選擇地輸入輸出需要的信息,或者選擇性地遺忘不需要的信息。LSTM是RNN的一種改進結構,和RNN隱藏層的遞歸運算相比,LSTM隱藏層節(jié)點結構是由三個門控單元組成的并在LSTM單元的內(nèi)部建立了自循環(huán),LSTM網(wǎng)絡單元結構如圖2所示:

        圖2 長短期記憶網(wǎng)絡單元結構

        詳細來說,輸入門決定內(nèi)部單元該添加什么信息;遺忘門決定丟棄一些不需要的信息;輸出門通過對前面狀態(tài)的更新判斷決定輸出什么信息[6]。LSTM單元的更新方式如下:

        式中fh,fs為系統(tǒng)狀態(tài)和內(nèi)部狀態(tài)的激勵函數(shù),通常為雙曲正切函數(shù),g為隨時間步更新的門控,本質(zhì)上是以Sigmoid函數(shù)為激勵函數(shù)的前饋神經(jīng)網(wǎng)絡,使用Sigmoid函數(shù)的原因是其輸出在[0,1]區(qū)間,等效于一組權重。式中腳標i,f,o表示輸入門、遺忘門和輸出門。

        2.2 Transformer模型以及文本分類

        由于RNN自身的網(wǎng)絡結構優(yōu)勢,它可以將不同長度大小的數(shù)據(jù)信息從前往后進行線性傳導[7],且經(jīng)過改進成LSTM結構后引入三個門控,可以捕獲更長距離的數(shù)據(jù)特征。因此從某種角度來說,RNN天然適合解決NLP這種線性序列應用的問題場景,這也是為什么RNN在發(fā)展之初就迅速占領了自然語言處理領域的高地,并在文本分類的處理任務上曾經(jīng)風靡一時的原因。然而隨著技術的不斷發(fā)展,近幾年后起之秀Transformer逐漸占據(jù)了主導地位,成為新的主流方法。究其原因,主要還是RNN本身的序列依賴結構并不適用于信息量巨大的并行運算[8]。從并行計算能力來看Transformer目前具有明顯的優(yōu)勢。近年來基于Transformer的文本分類模型越來越多,并在新聞文本分類等具體實際上的應用取得了較好的效果,引發(fā)了越來越多學者的關注。

        2.2.1 Transformer模型整體

        Transformer模型最早是由Google提出的,該模型的提出是為了解決機器翻譯任務中傳統(tǒng)網(wǎng)絡訓練時間過長,難以較好實現(xiàn)并行計算的問題。經(jīng)過大量實驗表明,這個模型對于語序特征的提取和傳統(tǒng)的RNN、LSTM相比效果較好因此逐漸廣泛應用。

        Transformer模型并行效果好且訓練速度快的原因在于它不再是傳統(tǒng)的時序結構,而是一種編碼機制,該編碼同時包括了語義信息(Multi-Head Attention)和位置信息(Positional Encoding)[10]。

        Transformer模型大量使用了注意力機制來代替RNN中的時序結構因此讓整個模型實現(xiàn)并行計算,如圖3為Transformer模型的整體結構圖。整個模型分為Encoder以及Decoder兩部分(分別對應圖3的左邊和右邊)。

        圖3 Transformer模型的整體結構

        2.2.2 BERT模型

        BERT(Bidirectional Encoder Representations from Transformer)模型可以說是一個多層雙向的Transformer編碼器,它的架構就是基于Transformer模型。雙向指的是通過某個信息數(shù)據(jù)可以獲取上下文語義的功能。

        BERT模型是以數(shù)據(jù)信息通過矩陣轉(zhuǎn)化為原始詞向量作為輸入的,詞向量不僅可以隨機初始化,通過相關算法進行預訓練后還能作為初始值再輸入[11];輸出的則是原始向量融合全文語義信息后的向量表示[12]。如圖4所示為BERT 模型示意圖。

        圖4 BERT模型

        圖4中E1是指的單個字或詞,T1指的是最終計算得出的隱藏層,序列里面的每一個字經(jīng)過注意力機制和加權之后,當前這個字等于用這句話中其他所有字重新表達了一遍,每個字含有了這句話中所有成分的信息[13]。

        BERT語言模型是用于學習自然語言本質(zhì)的,比如學習英文單詞后通過已有詞匯自動生成英文文章。BERT模型預訓練的目的是通過調(diào)整模型參數(shù)來使輸出結果能夠描述自然語言的本質(zhì),為此專家提出了兩個預訓練任務:Masked LM和Next Sentence Prediction[14]。

        Masked LM的任務描述為:隨機地隱藏所給語句中的若干詞匯,可以根據(jù)剩余詞匯預測所隱藏的詞匯是什么[15],如圖5所示。

        圖5 MLM訓練任務圖

        Next Sentence Prediction的任務描述為:判斷所給的兩個語句在文章中是否屬于上下文關系,如圖6所示。

        圖6 NSP訓練任務圖

        3 新聞文本分類對比實驗

        3.1 新聞文本分類實驗準備

        針對自然語言處理任務中的文本分類問題,很多學者提出了不同的分類算法和訓練模型,尋找出更為高效、更為精準的分類模型是當前很多學者和專家越來越關注的問題。尤其是在對新聞文本分類的研究對比工作相對較少,因此對現(xiàn)在流行的分類模型效果進行對比對新聞文本分類有著重大的現(xiàn)實意義。本文主要就是針對新聞文本數(shù)據(jù)集,通過經(jīng)典的RNN模型和新興的BERT模型進行實際訓練實驗,以此來分析兩者的效率與性能。

        3.1.1 實驗環(huán)境

        新聞本文分類所需要的實驗硬件環(huán)境如表1所示,采用windows 10系統(tǒng),由于所用電腦本身環(huán)境配置的局限問題,本次實驗軟件環(huán)境采用的是Google實驗室所提供的實驗環(huán)境作為深度學習框架訓練的工具。GPU采用的是NVIDIA GeForce MX250內(nèi)存8GB。

        表1 硬件配置表

        3.1.2 實驗數(shù)據(jù)

        本實驗使用的是“ag_news_subset”數(shù)據(jù)集進行模型訓練。該新聞文本數(shù)據(jù)集包含了超過一百萬條新聞文章。其中的新聞文章是由學術團體從2000多個新聞來源中收集而來的,為學者們研究數(shù)據(jù)挖掘等學術活動所用。AG的新聞主題分類數(shù)據(jù)集是由張翔從其中的新聞數(shù)據(jù)集中構建而來的[16]。AG的新聞主題分類數(shù)據(jù)集構建了4個最大類別,其中訓練樣本總數(shù)為120000,測試樣本為7600。

        3.1.3 評價指標

        本次實驗評價指標采用的是通用的準確率、損失率。準確率(accuracy)表示的是測試數(shù)據(jù)集上正確分類的樣本數(shù)和總樣本數(shù)之比,損失率(loss)則表示構建模型時得到的預測值與真實值之間的差距。

        3.2 實驗過程

        3.2.1 實驗參數(shù)設置

        本文主要采用了RNN和新聞文本分類這兩個訓練模型來進行新聞文本分類的對比,這兩個模型實驗所用的共同參數(shù)如表2所示。

        表2 兩模型的相同參數(shù)

        3.2.2 實驗訓練

        本實驗是在Google實驗室上進行網(wǎng)絡訓練的,配置好tensorflow環(huán)境后,下載所需數(shù)據(jù)集,分別定義RNN和BERT訓練模型,再代入同一新聞文本數(shù)據(jù)集進行模型訓練。

        通過RNN模型對數(shù)據(jù)集進行訓練得出了訓練集準確率和驗證集準確率,如圖7所示。隨著網(wǎng)絡的不斷訓練,訓練集上網(wǎng)絡的準確性不斷提高,最終達到98.1%。 相反,驗證集的準確率在第3個時期達到91.35%,此后準確率趨于穩(wěn)定。

        圖7 RNN模型準確率

        通過RNN模型對數(shù)據(jù)集進行訓練得出了訓練集損失值和驗證集損失值,如圖8所示。類似地,訓練集的損失在不斷減少,而驗證集的損失也在減少,但在第2個時期達到最低28.9%后再次增加。

        圖8 RNN模型損失率

        通過BERT模型對數(shù)據(jù)集進行訓練得出了訓練集準確率和驗證集準確率,如圖9所示。隨著網(wǎng)絡的不斷訓練,訓練集上網(wǎng)絡的準確性不斷提高,最終達到99.6%。不同的是,驗證集的準確率緩慢上升,在第4個時期達到93.48%,此后準確率趨于穩(wěn)定。

        圖9 BERT模型準確率

        通過BERT模型對數(shù)據(jù)集進行訓練得出了訓練集損失值和驗證集損失值,如圖10所示。類似地,訓練集的損失在不斷減少,而驗證集的損失從一開始處于穩(wěn)定狀態(tài),但隨著訓練次數(shù)的增加驗證集的損失率出現(xiàn)上升趨勢。

        圖10 BERT模型損失值

        在構建模型的過程中,如果準確率和驗證準確率存在較大的差異,則說明該模型存在過擬合現(xiàn)象。

        通過觀察RNN及BERT模型驗證集的變化趨勢,可以看出,當訓練時期超過3時,兩種模型都會處于過度擬合狀態(tài)。對于特定的樣本數(shù)據(jù)集,當訓練周期較長時經(jīng)過過長時間的訓練,訓練集的損失函數(shù)值會越來越小,而驗證集/測試集上的損失函數(shù)值反而會越來越大,兩者之間的差距越來越大,從而造成過擬合狀態(tài)。產(chǎn)生的主要原因是迭代次數(shù)過多,訓練時間過長,擬合了訓練數(shù)據(jù)中的噪音和訓練樣例中沒有代表性的特征,使得模型的泛化能力降低。我們可以通過設定合適的停止標準,限制訓練時間重新進行訓練來避免過擬合現(xiàn)象。

        3.2.3 實驗結果對比分析

        本節(jié)通過使用不同的深度學習方法對同一個新聞文本分類的數(shù)據(jù)集AG進行訓練,得到了測試的樣本集中分類的準確率與損失率,通過畫折線圖對兩個訓練模型得出的數(shù)據(jù)結果進行了對比。

        如圖11所示,對于損失值來說,RNN和BERT模型均是在訓練10個周期過程中,損失值逐步下降再緩慢回升,均存在了過擬合現(xiàn)象。但在前三個未產(chǎn)生過擬合現(xiàn)象的訓練周期中,BERT模型的損失值明顯低于RNN模型。

        圖11 損失值對比

        如圖12所示,對于準確率來說,RNN和BERT模型的驗證準確率在整個訓練過程中都處于緩慢上升后偶有下降,最終趨于平穩(wěn)的趨勢, 但BERT模型的驗證準確率明顯高于RNN模型。

        圖12 準確率對比

        通過對比RNN和BERT模型對同一新聞文本數(shù)據(jù)集進行分類訓練的實驗結果來看,BERT模型的分類準確率高于RNN模型,且其分類的損失值會低于RNN模型,因此BERT模型的分類效果是優(yōu)于RNN模型的。

        4 總結與展望

        4.1 論文總結

        在本文中,我們首先將本次新聞文本分類所用神經(jīng)網(wǎng)絡模型相關的理論知識與技術進行了簡單的介紹。然后通過實際的實驗訓練,在Google實驗室內(nèi)配置實驗環(huán)境并使用新聞文本數(shù)據(jù)集進行訓練,得出了RNN和BERT模型對同一新聞數(shù)據(jù)集進行訓練得出的準確率和損失率。分析對比了兩者的實驗結果,驗證了BERT模型在新聞文本分類中的精確性和先進性。

        4.2 未來展望

        本文雖然對比了基于新聞文本數(shù)據(jù)集的文本分類模型,明確了文本分類算法的基本原理和步驟,根據(jù)實驗結果對比分析驗證出了兩者的優(yōu)異,但并沒有提出具體可行的改進和優(yōu)化方法,從算法的角度上來說仍然存在很大的不足之處。從實驗結果來說,產(chǎn)生的過擬合現(xiàn)象也是實驗訓練需要改進的地方。

        在接下來的日子里我們將進行進一步的研究,對于訓練中出現(xiàn)的過擬合現(xiàn)象,我們將從減少訓練時間、增加數(shù)據(jù)集規(guī)模、交叉驗證數(shù)據(jù)集及通過正則化降低模型復雜性等方面來改進實驗結果,降低過擬合。針對循環(huán)神經(jīng)網(wǎng)絡,我們將從如何提高該神經(jīng)網(wǎng)絡并行運算能力入手,減小其不能進行并行運算的局限性;對于BERT模型來說,雖然它是當前的主流方法,性能優(yōu)于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡,但BERT模型的未來研究前景依然廣闊,我們在考慮如何在不降低準確率的情況下減少參數(shù)量,從而提高BERT模型的工作效率。

        猜你喜歡
        準確率神經(jīng)網(wǎng)絡分類
        分類算一算
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
        神經(jīng)網(wǎng)絡抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        分類討論求坐標
        高速公路車牌識別標識站準確率驗證法
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        亚洲本色精品一区二区久久| 国产又色又爽又刺激视频| 亚洲无线码1区| 久久av一区二区三区黑人| 97久久久久国产精品嫩草影院| 日本高清人妻一区二区| 精品国产一区二区三区色搞| 欧洲女人性开放免费网站| 日本又黄又爽gif动态图| 韩国精品一区二区三区| 91亚洲精品久久久蜜桃| 国产传媒精品成人自拍| 国产成人久久精品一区二区三区 | 亚洲hd高清在线一区二区| 一边捏奶头一边高潮视频| 亚洲精品无播放器在线播放 | 理论片87福利理论电影| 国产91成人精品亚洲精品| 日本不卡一区二区高清中文| 最好的99精品色视频大全在线| 蜜桃tv在线免费观看| 久久久久无码精品国产app| 一本久道久久综合久久| 亚洲在中文字幕乱码熟女| 亚洲av成人一区二区三区本码| 国产色秀视频在线播放| 仙女白丝jk小脚夹得我好爽| 久久国产精品免费专区| 国产亚洲精品综合一区| 东北老女人高潮疯狂过瘾对白| 免费一级黄色大片久久久| 亚洲啪啪色婷婷一区二区| 日本另类αv欧美另类aⅴ| 欧美日韩成人在线| 亚洲美女主播一区二区| 国产一区二区三区的区| 欧美性猛交xxxx三人| 亚洲人在线观看| 久久久婷婷综合五月天| 亚洲av色图一区二区三区| 超清精品丝袜国产自在线拍|