亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的中文文本分類算法*

        2022-02-16 08:34:00薛興榮靳其兵
        計算機與數(shù)字工程 2022年1期
        關(guān)鍵詞:準確度語料全局

        薛興榮 靳其兵

        (北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院 北京 100029)

        1 引言

        文本情感識別也稱為情感分析、意圖挖掘[3],它是根據(jù)文本所表達的含義和情感信息將文本分為積極、消極的兩種或多種類型,它是特殊的文本分類問題[4]。通過分析和研究這些數(shù)據(jù),挖掘出潛在的信息,以此來分析網(wǎng)民對社會熱點話題的關(guān)注度和情感傾,從而為相關(guān)部門的政策制定提供支持以及正確引導(dǎo)網(wǎng)民的情緒傳播[5~11]。

        2 方法

        本文提出了一種混合深度神經(jīng)網(wǎng)絡(luò)文本分類模型TBLC-rAttention,如圖1 所示。模型由七個部分組成:1)輸入層:獲取文本數(shù)據(jù);2)預(yù)處理層:分詞并去除無關(guān)數(shù)據(jù);3)詞嵌入層:把文本數(shù)據(jù)映射為詞向量;4)Bi-LSTM 層:提取文本數(shù)據(jù)的上下文語義特征;5)Attention 機制層:生成含有注意力概率分布的加權(quán)全局語義特征;6)CNN 層:在加權(quán)全局語義特征的基礎(chǔ)上進行局部語義特征提??;7)輸出層:實現(xiàn)文本分類。

        圖1 TBLC-rAttention文本分類模型

        2.1 預(yù)處理層

        對文本數(shù)據(jù)按照以下方式進行預(yù)處理操作。

        1)數(shù)據(jù)清,刪除原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù)以及處理異常和缺失數(shù)據(jù);

        2)進行類別標簽標注;

        3)使用jieba 進行分詞和去停用詞,在分詞的過程中可以使用一些領(lǐng)域?qū)倜~以提高分詞的準確度;

        4)將預(yù)處理完成的文本數(shù)據(jù)分為訓(xùn)練集、測試集和驗證集。

        2.2 詞嵌入層

        詞嵌入是把文本數(shù)據(jù)轉(zhuǎn)化為計算機能夠識別和處理的過程[12],如圖2所示。

        在這樣的故事情節(jié)之中,小說的創(chuàng)作還體現(xiàn)出如下的特點:首先,小說具有歐·亨利特有的結(jié)尾方式。即,故事的結(jié)局既在人的預(yù)料之中又出乎人的意料。因而,它體現(xiàn)出了故事獨有的幽默,體現(xiàn)出了小說主題特有的諷刺。其次,小說語言與眾不同。在小說各種語言描寫中,作者不僅通過巧妙的修辭增強了文學(xué)語言的意蘊性,還且通過對時弊的針砭產(chǎn)生了“含淚的微笑”。

        圖2 文本數(shù)據(jù)向量化表示

        通過詞嵌入矩陣Ew的映射,把按批次讀入帶有標簽的文本數(shù)據(jù)映射為一個三維詞向量矩陣M,Ew可以通過Word2Vec 等方法得到。此時,一個包含n 個字的文本Dj=(x1,x2,…,xn)可以表示如下:

        其中,M∈Rbatch×n×d,Ew∈Rvw×d,batch為每一批次讀入的文本數(shù)據(jù)條數(shù),vw為字典大小,d 為詞向量維度,每個字在Ew中都有一個唯一的用于檢索其對應(yīng)詞向量的索引bxi。

        2.3 Bi-LSTM 層

        2.4 Attention機制層

        在Bi-LSTM 網(wǎng)絡(luò)之后引入注意力機制[14~16],對重要的信息給予較多的關(guān)注,模型如圖3所示。

        圖3 多注意力機制

        其中,V∈Rbatch×r*n×2d為加權(quán)全局語義特征,a∈Rbatch×r*n×2d為注意力概率分布,r 為每個文本的Attention 方案數(shù),Wa1∈Rd×n是全局注意力權(quán)重矩陣,ba為全局注意力偏置矩陣,wa2∈Rr*n×d為每個文本不同的Attention 方案矩陣,m 值越大說明了該時刻的全局語義特征越重要。

        得到每一時刻的ai后,將它們分別和該時刻對應(yīng)的hi相乘,得到第i 時刻的加權(quán)全局語義特征Vi。

        2.5 CNN層

        把V作為CNN的[17~18]輸入進行局部特征提取,如圖4 所示。每一次卷積都通過一個固定大小的窗口來產(chǎn)生一個新的特征,經(jīng)過卷積后得到第j個文本包含局部和全局語義特征的Cj,接著采用最大池化方法得到每個文本的最終特征表示C。

        圖4 CNN模型

        其中,C ∈Rbatch×2d,Cj∈R(r*n-h+1)×2d,Wvi∈R2d×h為卷積核向量,h 和2d 分別為卷積核窗口的高和寬,Vi:h表示第i行到第h 行的加權(quán)全局語義特征值,bvi表示偏置。

        2.6 輸出層

        把C 作為分類層的輸入,分類層采用dropout方式將最佳特征Cd連接到Softmax 分類器中,并計算輸出向量p(y):

        其中,p(y)∈Rbatch×classes,Wc和bc分別表示分類器的權(quán)重參數(shù)和偏置項,classes表示文本的類別數(shù),Cd為C通過dropout產(chǎn)生的最佳特征。

        分類器用于計算出每個文本屬于每一類別的概率向量p(y),然后選擇最大概率y對應(yīng)的類型作為文本分類的預(yù)測輸出,通過分類器層之后,整個模型就實現(xiàn)對文本的分類任務(wù)。

        3 實驗

        3.1 實驗語料

        語料數(shù)據(jù)是利用爬蟲技術(shù)爬取某電商平臺上一種感冒藥銷售的評論數(shù)據(jù),語料的一些基本信息如表1、圖5和圖6所示。

        圖5 語料句子長度分布

        圖6 語料詞云圖

        表1 語料數(shù)據(jù)信息

        3.2 實驗設(shè)置

        具體實驗設(shè)置如表2和表3所示。

        表2 實驗環(huán)境

        表3 實驗參數(shù)設(shè)置

        3.3 模型訓(xùn)練

        其中,θ為模型當前參數(shù),α為學(xué)習(xí)率,N 為訓(xùn)練樣本大小,D 是訓(xùn)練樣本,L是樣本D 對應(yīng)的真實類別標簽,Li∈L,y 為分類器的預(yù)測分類結(jié)果,p(Lj)表示正確分類結(jié)果,λ是L2正則項系數(shù)。

        3.4 評價指標

        其中,TP 為真正率,TN 為真負率,F(xiàn)P 為假正率,F(xiàn)N為假負率。

        4 結(jié)果與討論

        模型訓(xùn)練過程的準確度和損失值變化如圖7所示,為了比較本文提出的模型性能,選取了CNN、LSTM、Bi-LSTM、BiLSTM+Attention、RCNN 5 種模型作為比較基準,比較結(jié)果如表4 所示,所有結(jié)果都是在訓(xùn)練的準確度和測試準確度都不再變化再循環(huán)1000次后得到的結(jié)果。

        圖7 訓(xùn)練過程中個模型的準確度和損失值變化

        表4 各文本分類模型分類效果對比

        在表4 中,通過LSTM 和Bi-LSTM 的實驗結(jié)果可以發(fā)現(xiàn),雖然Bi-LSTM 花費的時間比LSTM 多,但是準確度提高了約3%,這是由于Bi-LSTM 網(wǎng)絡(luò)通過正向和反向兩層網(wǎng)絡(luò)結(jié)構(gòu)來擴展單向的LSTM 網(wǎng)絡(luò)的結(jié)果,這樣的網(wǎng)絡(luò)結(jié)構(gòu)可以充分提取文本的上下文信息,但是空間復(fù)雜度是LSTM 的2倍,所以花費的時間比LSTM 略長;在Bi-LSTM 模型中引入Attention 機制準確度提高了4%左右,說明Attention 機制的確可以有效識別出對分類影響較大的特征信息;只使用CNN 時,雖然準確率不是最好的但大大的節(jié)省了訓(xùn)練時間;RCNN 汲取了RNN 和CNN 各自的優(yōu)勢,分類效果比單獨使用RNN、CNN 都好,與BiLSTM+Attention 效果相近;本文提出的模型分類準確率達到了99%,在本次實驗的所有模型中分類準確度最高,模型在驗證時以100%的準確率實現(xiàn)了數(shù)據(jù)分類,值得注意的是當消費者沒有進行評論,電商系統(tǒng)會默認為好評,但模型將這類數(shù)據(jù)視為中評。

        5 結(jié)語

        本文提出了一種基于混合深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情識別方法,該方法先提取文本數(shù)據(jù)的上下文語義特征,再提取局部語義特征得到最終的特征表示,并通過實驗驗證了本文提出模型的有效性。未來的工作是如何對語料數(shù)據(jù)進行更好的預(yù)處理操作,例如進一步減少噪聲數(shù)據(jù)、更好地進行精準分詞等;同時,研究其他算法和模型,并進行有效的融合和改進,進一步提高分類的準確度。

        猜你喜歡
        準確度語料全局
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        量子Navier-Stokes方程弱解的全局存在性
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        幕墻用掛件安裝準確度控制技術(shù)
        建筑科技(2018年6期)2018-08-30 03:40:54
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        動態(tài)汽車衡準確度等級的現(xiàn)實意義
        華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
        新思路:牽一發(fā)動全局
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
        亚洲欧美另类精品久久久| 国産精品久久久久久久| 白浆国产精品一区二区| 国内自拍速发福利免费在线观看| 免费观看91色国产熟女| 久久久久久久亚洲av无码| 人妻丰满熟妇无码区免费| 久久久g0g0午夜无码精品| 丰满少妇被猛烈进入| vr成人片在线播放网站| 国产99在线视频| 伊人婷婷色香五月综合缴激情 | 国产精品亚洲专区无码web| 日韩亚洲欧美精品| 在线观看中文字幕一区二区三区| 青青草在线公开免费视频| 亚洲精品女同一区二区三区| 国产在线观看91一区二区三区 | 亚洲一二三四五中文字幕| 91九色最新国产在线观看| 亚洲图片自拍偷图区| 最新中文字幕av无码不卡| 激情综合色五月丁香六月亚洲| 在线中文字幕有码中文| 天天狠天天透天干天天| 午夜天堂精品一区二区| 日本不卡一区二区三区在线观看 | 精品国产a一区二区三区v| 免费a级作爱片免费观看美国| 躁躁躁日日躁| 午夜一级成人| 人妻中文字幕一区二区二区| 久久久精品网站免费观看| 无码人妻丰满熟妇啪啪网不卡| 婷婷丁香五月中文字幕 | 激情航班h版在线观看| 亚洲性啪啪无码av天堂| 91精品福利一区二区| 亚洲国产成a人v在线观看| 国产黄三级三级三级三级一区二区| 天涯成人国产亚洲精品一区av|