亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于AI深度學(xué)習的新聞文本分類法研究

        2024-12-04 00:00:00龔靜鄭迪聰劉現(xiàn)芳
        中國新技術(shù)新產(chǎn)品 2024年5期
        關(guān)鍵詞:自然語言處理

        摘 要:針對傳統(tǒng)機器學(xué)習未能考慮局部信息對新聞文本分類的影響以及無法及時捕獲長距離特征信息等問題,本文提出了一種基于AI深度學(xué)習的新聞文本分類方法。為進一步驗證新聞文本分類效果,該方法將徑向基函數(shù)模型與多層感知層模型結(jié)合,并進行深度學(xué)習訓(xùn)練,通過樣本標記迭代試驗進行測試。結(jié)果表明,AI深度學(xué)習加快了模型訓(xùn)練過程,提升了模型在迭代過程的正確率,降低了漏報率,顯著增強了分類效果。

        關(guān)鍵詞:AI深度學(xué)習;新聞文本分類;自然語言處理;詞向量

        中圖分類號:TP 391 文獻標志碼:A

        隨著網(wǎng)絡(luò)信息大量增加,主流新聞網(wǎng)站每日需要提供海量新聞數(shù)據(jù),這些數(shù)據(jù)為新聞網(wǎng)站帶來了很多挑戰(zhàn)。新聞文本分類能夠?qū)ξ谋具M行快速分類,提升網(wǎng)站工作效率。新聞文本分類廣泛應(yīng)用于各領(lǐng)域,例如網(wǎng)頁分類和用戶挖掘等。經(jīng)常使用的新聞文本分類方法有2種,即傳統(tǒng)機器學(xué)習與AI深度學(xué)習。傳統(tǒng)機器學(xué)習主要通過手工提取特征輸入分類器進行訓(xùn)練,但是通常存在提取不全和高緯度等問題[1],AI深度學(xué)習具有較好的分類效果,其可自動選擇數(shù)據(jù)的標注與訓(xùn)練順序,能夠快速完成新聞文本分類任務(wù),解決了在迭代訓(xùn)練過程中由于標記時間限制,因此僅能在未標記文本數(shù)據(jù)內(nèi)選擇樣本子集標注后作為訓(xùn)練集來訓(xùn)練的問題[2]。鑒于此,本文提出了一種基于AI深度學(xué)習的新聞文本分類方法,旨在解決信息紊亂的問題,能夠顯著提升模型在迭代過程中的正確率并降低漏報率。當存在海量數(shù)據(jù)時,可以幫助用戶高效、快速完成信息定位,篩選各類場景下最有價值的信息,從而更高效地進行數(shù)據(jù)分析。

        1 理論研究

        自然語言處理的快速發(fā)展提升了文本分類效率,已成為研究熱點。薛麗等[3](2023) 提出了用于學(xué)術(shù)文本分類的CNN-BiGRU模型,該模型篩選文本的局部信息,但是忽略了上下文語義關(guān)聯(lián)性信息。楊茜[4](2023)為了捕獲序列語義信息,繼續(xù)優(yōu)化長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)的網(wǎng)絡(luò)結(jié)構(gòu),并提出了Bi-LSTM模型,該模型能夠同時用向前與向后對序列進行掃描,但是當單獨文本分類時僅能捕獲文本的語義信息,無法捕獲局部特征信息。針對這些問題,本文提出基于AI深度學(xué)習的新聞文本分類法進行合理、有效的分類。

        2 流程設(shè)計

        深度學(xué)習是對未標記文本集內(nèi)有價值的子集進行采樣,對其人工標記后再展開相關(guān)訓(xùn)練的過程。該方式僅需標記與迭代訓(xùn)練部分未標記文本,就可以提高模型質(zhì)量,提升文本分類效果[5]。依托AI的學(xué)習方法是深度學(xué)習中的常見流程,本文也參考了該方法。維護未標記文本數(shù)據(jù)集合,通過采樣函數(shù)選取集合內(nèi)需要進行標記或訓(xùn)練的文本數(shù)據(jù),對其標記后添加已標記的文本集合作為新的訓(xùn)練集。采樣函數(shù)在該過程中發(fā)揮了重要作用,其目的是根據(jù)預(yù)測標記概率選取最有標記價值的一系列數(shù)據(jù),具體流程如圖1所示。全量訓(xùn)練能夠獲得更高的精度,特別是當進行深度網(wǎng)絡(luò)訓(xùn)練時,因此在模型迭代訓(xùn)練過程中直接使用該方法。

        3 采樣設(shè)計

        3.1 貝葉斯深度采樣

        貝葉斯深度采樣適用于深度網(wǎng)絡(luò)處理,在模型激活層前添加隱藏層,就可以在訓(xùn)練過程中對隱藏層權(quán)重的后驗分布使用馬爾科夫算法得到類別概率的后驗分布。在不同分類問題中,使用該算法求解后驗概率,如公式(1)所示。

        P(A|B)=P(B|A)·P(A)/P(B) " "(1)

        式中:P(A|B)為在B發(fā)生的情況下A出現(xiàn)的概率;P(B|A)為在A發(fā)生的情況下B出現(xiàn)的概率;P(A)為A發(fā)生的先驗概率;P(B)為B發(fā)生的先驗概率。這樣便可根據(jù)后驗概率,在迭代中通過貝葉斯深度采樣從文本數(shù)據(jù)內(nèi)選擇合適數(shù)據(jù)展開訓(xùn)練,從而形成優(yōu)化后的AI深度學(xué)習法。

        3.2 辨識性深度采樣

        辨識性深度采樣是將AI深度學(xué)習轉(zhuǎn)化為分類任務(wù),選擇特定文本樣本后進行標記,減少標記后與未標記的文本集差異,從中篩選具有代表性的文本訓(xùn)練集。該方法定義了二值分類問題,擬設(shè)1個輸入空間與標記空間,輸入空間是到標記空間的一種映射,選取標記標簽與未標記標簽,計算特征值后經(jīng)人工處理后得到代碼如下所示。

        mean_on_train=X_train.mean(axis=0)##計算特征均值

        std_on_train=X_train.std(axis=0)##計算特征標準差

        X_train_scald=(X_train-mean_on_train)/std_on_train##減去均值,乘以標準差的倒數(shù)

        X_test_scald=(X_test-mean_on_train)/std_on_train##對測試集做同樣處理

        通過數(shù)據(jù)縮放可知,由于采集前后存在一定差距,甚至出現(xiàn)過度擬合,因此可通過調(diào)整其他參數(shù)來提高采集過程的泛化性能。

        4 模型設(shè)計

        模型設(shè)計是AI深度學(xué)習的基礎(chǔ)環(huán)節(jié),與采樣設(shè)計共同構(gòu)成了完善的深度學(xué)習方法。采樣設(shè)計對其匹配的模型有不同要求,例如貝葉斯深度采樣只需要模型在預(yù)測過程中輸出置信度,其他采樣方法則需要與內(nèi)含嵌入表示的網(wǎng)絡(luò)模型相契合。

        當表示新聞文本時AI深度學(xué)習模型使用雙向嵌入,同時在詞嵌入基礎(chǔ)上添加了句嵌入,在一定程度上優(yōu)化了原模型,從而更好地把握整體信息與詞句之間的關(guān)系,在各類自然語言處理任務(wù)中表現(xiàn)得更突出。模型的主要框架是過渡層,由數(shù)個編碼器與解碼器構(gòu)成。編碼器包括注意力機制、殘差網(wǎng)絡(luò)、前饋神經(jīng)網(wǎng)絡(luò)以及歸一處理4層構(gòu)件;解碼器在編碼器的基礎(chǔ)上添加了注意力層,由此實現(xiàn)了文本信息的解碼與序列化[6]。其中,注意力層是過渡層的內(nèi)核,其主要作用是通過計算詞句關(guān)聯(lián)性調(diào)整權(quán)重系數(shù),體現(xiàn)詞句之間的聯(lián)系,并在該過程中反映詞匯對所在句表達的重要性。

        模型設(shè)計主要包括以下3個步驟。1)序列輸入后進入編碼器,經(jīng)線性轉(zhuǎn)換后得到表示文本字符的初始化矩陣。2)經(jīng)放縮點積獲得相關(guān)注意力值,據(jù)此體現(xiàn)當模型進行編碼時某個詞匯與所在句其他詞匯的關(guān)系。3)轉(zhuǎn)換注意力值,得到與模型輸入文本長度相同的輸出量,該輸出量能夠提高語義效果。

        5 試驗分析

        5.1 構(gòu)建數(shù)據(jù)集

        為驗證模型性能,使用爬蟲技術(shù)在20Newsgroups新聞文本數(shù)據(jù)集上進行比較,數(shù)據(jù)集包括18 000篇新聞文章,共涉及20個話題,通常用來進行文本分類。本次試驗使用語料庫包括經(jīng)濟、娛樂、文化、房產(chǎn)、游戲、體育、時事、科學(xué)、生活和社會等類別,不同類別涵蓋的文本樣本有所差異。抽取16 000條新聞數(shù)據(jù)作為訓(xùn)練集、1 000條數(shù)據(jù)作為測試集以及1 000條數(shù)據(jù)作為驗證集,每條新聞經(jīng)人工標記判斷是否為所需要的新聞文本。因為AI深度學(xué)習需要數(shù)次查詢與標記,所以創(chuàng)設(shè)簡單的自動標記系統(tǒng),能夠更便捷地將采樣設(shè)計選擇的標記文本發(fā)送至系統(tǒng),經(jīng)人工標記后對模型進行相應(yīng)訓(xùn)練。

        5.2 具體參數(shù)

        參數(shù)為模型內(nèi)的配置變量,參數(shù)設(shè)置不同會對試驗結(jié)果產(chǎn)生一定影響。本次試驗中的較模型包括AI深度學(xué)習模型、徑向基函數(shù)模型和多層感知器模型等神經(jīng)網(wǎng)絡(luò)模型,具體參數(shù)設(shè)置見表1。通過調(diào)整,AI深度學(xué)習模型訓(xùn)練的初始設(shè)置與訓(xùn)練參數(shù)均得到了顯著優(yōu)化,在對不同模型進行深度訓(xùn)練的過程中,應(yīng)保持新增標記文本數(shù)據(jù)統(tǒng)一,這樣能夠比較迭代過程中的性能差異以及性能提升速率。在訓(xùn)練的過程中還引入了“預(yù)先解除”策略,當驗證集的正確率停止上升時應(yīng)即刻解除,避免出現(xiàn)收斂性降低、過度擬合等情況,從而使訓(xùn)練效率顯著提升。

        5.3 試驗環(huán)境

        本次試驗環(huán)境見表2,為避免出現(xiàn)收斂性降低和過度擬合等情況,試驗采用“預(yù)先解除”策略,即如果多次迭代后損失值較小,那么再迭代數(shù)次后便無須優(yōu)化參數(shù)。

        5.4 評價指標

        評價指標是評價數(shù)據(jù)表現(xiàn)情況的主要標準,對新聞文本分類來說,一般采用正確率(Accuracy)與漏報率(Missrate)2個評價指標,該指標經(jīng)過計算,可直觀觀察模型在新聞文本分類過程中的具體性能,因此試驗決定采用上述指標進行研究。其中,正確率為不同類別正確率的均值,如公式(2)所示;漏報率為不同類別漏報率的均值,如公式(3)所示。

        (2)

        (3)

        式中:TP為文本正樣本被正確識別的量;FP為文本負樣本被誤報的量;TN為文本負樣本被正確識別的量;FN為文本正樣本被漏報的量。正確率反映模型正確判斷整體樣本的能力,值越大,性能越好;漏報率反映模型正確預(yù)測負樣本純度的能力,值越小,性能越好。

        5.5 結(jié)果分析

        為體現(xiàn)設(shè)計效果,驗證本文提出的新聞文本分類法的有效性,筆者將AI深度學(xué)習模型與多層感知器模型、徑向基函數(shù)模型進行比較。

        各模型的訓(xùn)練正確率如圖2所示,AI深度學(xué)習模型的正確率最高,當?shù)?00次時精度達到了95.6%,遠高于多層感知器模型的83.2%和徑向基函數(shù)模型的91.5%。其中,多層感知器模型的精度最低,說明其雖然可以雙向傳輸記憶距離較遠的文本信息,但是當處理長文本序列時遺忘門易丟失時間較久的序列信息,因此導(dǎo)致精度顯著降低;雖然徑向基函數(shù)模型具有提取局部特征信息的能力,但是提取上下文序列特征的能力不顯著,徑向基函數(shù)模型的正確率低于 AI 深度學(xué)習模型,當提取整體文本時仍落后于 AI 深度學(xué)習模型。

        各模型的訓(xùn)練漏報率如圖3所示,3個模型起始均存在漏報情況,但是遺漏速度存在顯著差異。由試驗可知,AI深度學(xué)習模型不僅漏報率更低,而且數(shù)據(jù)浮動情況較少,當?shù)?300 次時,其漏報率為25.3%,遠低于多層感知器模型的41.7%和徑向基函數(shù)模型的35.5%。

        3個模型在測試集中的訓(xùn)練分類結(jié)果見表3。由表3可知,AI深度學(xué)習模型在新聞文本測試集的召回率達到了92%,顯著優(yōu)于徑向基函數(shù)模型與多層感知器模型,分別提升了3%與9%。AI深度學(xué)習模型的F1分數(shù)也較為優(yōu)秀,達到了91,說明其能夠?qū)W習更多的文本分類特征,與徑向基函數(shù)模型、多層感知器模型相比具有較大優(yōu)勢。

        6 結(jié)語

        綜上所述,文本分類是自然語言處理領(lǐng)域的經(jīng)典任務(wù),本研究將AI深度學(xué)習應(yīng)用于新聞文本分類任務(wù)中。利用AI深度學(xué)習模型,以爬蟲收集的新聞文本數(shù)據(jù)信息為資料,以篩選所需新聞為目標,驗證了AI深度學(xué)習模型、多層感知器模型和徑向基函數(shù)模型對深度神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練效果,為新聞文本分類的深度學(xué)習提供了可操作的實踐經(jīng)驗。試驗結(jié)果表明,AI深度學(xué)習加快了模型訓(xùn)練過程,提升了模型在迭代過程中的正確率,降低了漏報率,顯著增強了分類效果,尤其是AI深度學(xué)習模型與采樣設(shè)計緊密配合,成為較好的新聞文本分類深度學(xué)習策略。在后續(xù)研究中,可通過強化新聞文本數(shù)據(jù)與外部知識、構(gòu)建優(yōu)秀詞向量模型和提高新聞文本特征表示等方法進一步優(yōu)化新聞文本分類工作。

        參考文獻

        [1]胡容波,郭誠,王錦浩,等. 基于深度學(xué)習的自然資源政策文本分類研究[J]. 高技術(shù)通訊,2023,33(7):692-703.

        [2]侯震,童惟依,鄧靖飛,等. 融合深度學(xué)習模型和上下文特征的健康話題短文本分類[J]. 電視技術(shù),2023,47(7):18-23,27.

        [3]薛麗,鄭含笑,吳昊辰. 基于CNN-BiGRU的學(xué)術(shù)文本分類研究[J]. 鄭州航空工業(yè)管理學(xué)院學(xué)報,2023,41(3):61-68.

        [4]楊茜.基于Bi-LSTM和圖注意力網(wǎng)絡(luò)的多標簽文本分類算法[J]. 計算機應(yīng)用與軟件,2023,40(9):145-150,183.

        [5]林子洛. 基于深度學(xué)習語言模型的心理學(xué)領(lǐng)域文本分類[J]. 軟件,2023,44(7):112-118.

        [6]張震.深度遷移學(xué)習在文本分類問題中的應(yīng)用研究綜述[J]. 信息技術(shù)與信息化,2023(6):121-124.

        猜你喜歡
        自然語言處理
        基于LSTM自動編碼機的短文本聚類方法
        自然語言處理與司法案例
        魅力中國(2017年24期)2017-09-15 04:35:10
        國外基于知識庫的問答系統(tǒng)相關(guān)研究進展及其啟示
        中國市場(2016年39期)2017-05-26 17:55:58
        基于依存句法的實體關(guān)系抽取
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        面向機器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
        詞向量的語義學(xué)規(guī)范化
        漢哈機器翻譯中的文字轉(zhuǎn)換技術(shù)研究
        HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
        科技視界(2016年5期)2016-02-22 11:41:39
        基于.NET的維哈柯多語種網(wǎng)上數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)
        成av人片一区二区三区久久| 国产成人精品日本亚洲i8| 亚洲三区在线观看内射后入| 国产麻豆精品一区| 人妻在线中文字幕| 精品一区二区三区女同免费| 人妻无码人妻有码不卡| 久久亚洲AV无码精品色午夜| 国产精品一区二区三区蜜臀| av影院手机在线观看| 欧美日韩国产码高清综合人成 | 国产成人综合亚洲av| 国产乱淫h侵犯在线观看| 九九久久自然熟的香蕉图片 | 中文字幕人妻激情在线视频| 日本丰满少妇xxxx| 综合无码一区二区三区| 中日韩欧美高清在线播放| 国产人妖在线观看一区二区三区| 亚洲av香蕉一区区二区三区| 久久精品人人做人人爽电影蜜月| 久久99中文字幕久久| 亚洲国产一区二区网站| 99精品国产丝袜在线拍国语| 天天爱天天做天天爽| 亚洲香蕉av一区二区蜜桃| 国产三级久久精品三级91| 女人被男人躁得好爽免费视频| JIZZJIZZ国产| 亚洲hd高清在线一区二区| 一本一道av无码中文字幕麻豆| 欧美性猛交xxxx乱大交蜜桃| 日本中文字幕一区二区视频| 免费av网站大全亚洲一区| 国产一区二区三精品久久久无广告| 精品不卡久久久久久无码人妻 | 亚洲AV成人无码久久精品四虎| 亚洲天堂一区二区三区| 亚洲av色香蕉一区二区三区老师| 精品人妻伦九区久久AAA片69| 国产精品无码久久久久久久久作品|