亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        GM-FastText多通道詞向量短文本分類模型①

        2022-09-20 04:12:16白子誠周艷玲
        計算機系統(tǒng)應用 2022年9期
        關鍵詞:分類特征文本

        白子誠, 周艷玲, 張 龑

        (湖北大學 計算機與信息工程學院, 武漢 430062)

        1 引言

        隨著互聯(lián)網(wǎng)的普及, 中國大數(shù)據(jù)產(chǎn)業(yè)領跑全球, 每時每刻都產(chǎn)生大量的短文本數(shù)據(jù)信息, 如新聞標題、應用評論、短信息等[1]. 在大數(shù)據(jù)時代背景下, 大量短文本信息的篩選與管理成為人們亟待解決的需求. 文本分類作為自然語言處理(natural language processing, NLP)的一個子任務, 是將指定文本歸納到預定義標簽的過程, 廣泛應用于新聞標題分類、情感分析、主題標簽和對話系統(tǒng)等, 對于特定的信息篩選, 有著極大的便利. 與長文本分類相比, 短文本分類數(shù)據(jù)具有特征稀疏, 用詞不規(guī)范, 數(shù)據(jù)海量等問題[2].

        目前處理短文本分類思路主要有兩個方向[3]: 一是通過大規(guī)模的預訓練語言模型, 生成“動態(tài)”的嵌入詞向量, 通過引入大量的外部信息提高分類效果; 二是通過構建優(yōu)良的模型結構, 更深層次的挖掘信息從而提高分類準確度. 本文同時考慮這兩個角度改進提高文本分類效果. 為了獲取更多短文本的特征, 采用FastText方法[4]代替?zhèn)鹘y(tǒng)Word2Vec方法產(chǎn)生嵌入詞向量, 這種方式不單單只是利用字向量級別的嵌入詞向量, 同時產(chǎn)生含有N-gram級別的嵌入詞向量, 形成多通道的嵌入詞向量輸入; 另外在多通道的嵌入詞輸入下, 采取了GRU (gate recurrent unit)和多層感知機(multi-layer perceptron, MLP)混合網(wǎng)絡結構(GRU-MLP hybrid network architecture, GM)提取并結合各通道詞向量特征. 提出新的文本分類結構GM-FastText, 并在多個數(shù)據(jù)集上通過對比分析其性能.

        2 相關工作

        在數(shù)據(jù)較小情況下, 可以采用傳統(tǒng)的機器學習方式, 如樸素貝葉斯、K-近鄰、支持向量機等, 這些方法通過對數(shù)據(jù)集的預定義學習從而預測結果. 然而, 特征工程的建立往往需要大量工作量. 隨著數(shù)據(jù)量的增長,傳統(tǒng)機器學習方式已不再適用, 卷積神經(jīng)網(wǎng)絡(convolutional neural networks, CNN)、循環(huán)神經(jīng)網(wǎng)絡(recurrent neural networks, RNN)等基于神經(jīng)網(wǎng)絡可以自主提取文本的特征, 減少大量人工標注, Kim[5]提出TextCNN模型, 應用了多個不同卷積核提取文本特征實現(xiàn)文本分類.

        實現(xiàn)自主提取特征的關鍵是字詞向量化. 在NLP中廣泛應用的獨熱編碼(one-hot)將詞表示為長度為詞表大小的長維度向量, 其中僅一個緯度值為1及表示這個詞. 這樣的編碼方式易于理解, 但是難以聯(lián)系上下文關系, 在實際應用過程中易造成維數(shù)災難等問題. 然而, 分布式詞向量表示則在很大程度上解決了以上問題, 訓練良好的分布式詞向量可以通過計算向量之間歐幾里得距離衡量相似度. 現(xiàn)階段主流的分布式詞向量訓練模型有Mikolov[6]在2013年提出的Word2Vec模型, 其訓練方式有兩種模式: CBOW和Skip-gram, 并通過層次Softmax和負采樣兩種優(yōu)化方式訓練, 可以得到較為準確的詞向量表示. Facebook研究團隊提出的FastText模型是一個開源詞向量計算和文本分類工具, 其效果可以媲美深度神經(jīng)網(wǎng)絡, 運行速度快并且在CPU上一分鐘能實現(xiàn)10萬數(shù)據(jù)級別的分類任務, 同樣是在Word2Vec的基礎上進行了改進, 可以得到除了詞向量以外的N-gram向量信息. 張焱博等人[7]將預訓練詞向量分別通過CNN-Bi-LSTM和FastText提取淺層語義并做拼接然后直接映射到分類, 得到了較好的結果并加速了訓練過程. 汪家成等人[8]為解決FastText準確率低問題, 在輸入階段使用TextRank和TF-IDF技術使輸入特征表示信息量更高. 范昊等人[9]則利用Bi-GRU直接處理FastText詞向量. 但是這些操作僅是對FastText不同N-gram詞向量簡單的疊加操作, 而丟失了各個N-gram詞向量獨立特征. 不同N-gram詞向量這一特性對于短文本分類處理可以一定程度上解決“簡寫”導致超出詞表問題. 然而FastText產(chǎn)生的向量組比主流的詞向量多了很多數(shù)據(jù)參數(shù), 如何建立高效網(wǎng)絡結構成為一個挑戰(zhàn), 針對此問題采取了GRU和MLP混合網(wǎng)絡結構.

        3 GM-FastText模型

        為了解決短文本分類中存在的特征稀疏、用詞不規(guī)范等問題, 本文根據(jù)FastText模型能產(chǎn)生多通道的詞向量等特點, 結合GRU和MLP等模型在特征提取上的優(yōu)勢提出了GM-FastText模型. GM-FastText模型流程圖如圖1所示, 利用FastText模型產(chǎn)生3種不同的嵌入詞向量編碼, One-Emb、Two-Emb、Thr-Emb分別代表由1、2、3個字表示的向量. 將One-Emb輸入到GRU網(wǎng)絡提取One-Emb信息, 然后再輸入到MLP-Layer層. Two-Emb和Thr-Emb則直接輸入到MLP-Layer層. 通過MLP層聯(lián)系3組嵌入詞向量, 平均池化后連接全連接層得到分類結果.

        圖1 GM-FastText模型結構圖

        3.1 FastText

        FastText模型架構如圖2所示, 只有輸入層、隱藏層、輸出層3層構成. 雖然其結構與Word2Vec模型的CBOW類似, 但是模型任務不同. 前者通過上下文預測中間詞, 后者通過全部特征預測文本標簽.

        圖2 FastText模型結構

        模型中{X1, X2, …, Xn-1, Xn}表示文本中的特征詞向量, 通過隱藏層將多個詞向量疊加經(jīng)過激活函數(shù)得到輸出層的輸入:

        其中, Hdoc表示平均文本特征, W0表示隱藏層權重矩陣, Y表示輸出層輸入.

        對于大量類別的數(shù)據(jù)集, 在做類別概率歸一化時會占用非常長的時間, 因此在模型輸入層中引入了分層Softmax[10], 其思想是根據(jù)類別的頻率構造哈夫曼樹來代替標準Softmax, 只需要計算一條路徑上所有節(jié)點的概率值, 不需要在意其他節(jié)點, 可以將計算時間復雜度從O(N)降低到O(logN).

        FastText通過詞袋模型獲取文本特征的同時, 還融入了N-gram信息. 其基本思想是按指定的步長進行大小為N的窗口滑動, 最終得到片段長度N的序列. 這樣對于一些罕見單詞可以提供更好的詞向量, 對于一些超出詞表的單詞可以通過字符級N-gram進行組合,同時也面臨著內(nèi)存壓力. FastText模型隨著語料庫增加, 使用Hash的方式被分配到不同的桶中緩解內(nèi)存壓力.

        3.2 GUR

        為采用GRU模型處理字符集別的嵌入詞向量, 這個模型由Chung[11]提出, 是RNN的變種與LSTM (long short-term memory)結構相似. 然而GUR只有兩個門控, 分別是更新門和重置門, 簡化了模型結構計算效率更高, 同時也能解決梯度消失和梯度爆炸等文本信息丟失問題.

        GRU模型結構由圖3所示, Zt為更新門, 是由隱藏狀態(tài)Ht-1和當前輸入Xt控制, 其計算過程如式(3)所示, Wz表示為權重, 通過激活函數(shù)Sigmoid將結果映射到0-1之間, 結果越大表示存儲下來的信息多, 反之越少, 有助于獲取長序列依賴關系. Rt為重置門決定了對上一時刻的信息的獲取程度, 如式(4)所示, 有助于獲取短序列的依賴關系. H~t表示當前序列的隱藏狀態(tài),是由重置門和當前輸入控制, 使用tanh激活函數(shù)結果映射在-1~1之間如式(5)所示. Ht表示傳遞到下個序列信息, 通過更新門實現(xiàn)記憶更新, 其計算如式(6).

        圖3 GRU模型結構圖

        3.3 MLP-Layer

        為了使3種不同特征通道之間參數(shù)能有交互, 設計了MLP-Layer層[12], 是由層歸一化層(LayerNorm)、全聯(lián)接層和一個激活層構成, 其結構如圖4所示. 層歸一化是為了突出特征同時保持特征穩(wěn)定的分布結構,然后再通過全聯(lián)接層和激活層輸入到下一層. 其計算流程可以如式(7), 其中X表示輸入, Y表示輸出, W表示訓練權重, b表示偏置, σ表示激活函數(shù).

        圖4 MLP-Layer結構

        4 實驗結果分析

        該實驗將采取多個數(shù)據(jù)集與傳統(tǒng)的基線模型做對比, 分析模型的性能, 實驗使用Python 3.8版本, 采用NVIDIA 1070顯卡作為計算平臺.

        4.1 數(shù)據(jù)集

        該實驗采用短新聞標題去驗證模型的效果, 由于數(shù)據(jù)庫過大, 限于計算資源, 分別從THUCNews、Sogo新聞庫中選取10個類別按每個類別2萬條, 然后每個類別抽取2 000條以1:1分為測試集和驗證集. 由于頭條新聞庫單個類別數(shù)量少, 選取了10個類別每個類別只抽取12 000條再分別抽取出2 000條以1:1分為測試集和驗證集. 數(shù)據(jù)集的詳細情況如表1所示.

        表1 數(shù)據(jù)集信息表

        4.2 實驗評估指標

        實驗將詞向量維度設置為300, 采用Adam優(yōu)化器進行參數(shù)更新, 學習率設置為0.001, 批處理設置為128, 為防止過擬合隨機失活率設置為0.5. 文本分類常用指標包括精確率P、召回率R、F1以及準確率Accuracy, 由于F1指標中已經(jīng)包含了精確率P和召回R, 所以選擇F1和Accuracy作為評估指標.

        為了驗證GM-FastText模型的有效性, 主要從兩個角度進行了對比. 首先使用相同的運行參數(shù), 且都使用隨機初始化嵌入詞向量對比分析了TextCNN、TextRNN、DPCNN[13]、RCNN[14]、Transformer、FastText 模型的文本分類性能. 同時為了分析GM結構的特征提取優(yōu)勢, 將FastText分別與RNN、CNN拼接后的模型FastText-CNN、FastText-RNN與GMFastText模型也進行對比實驗分析.

        4.3 實驗結果分析

        各模型在3個數(shù)據(jù)集上的F1值如表2-表4所示.從表2可以看出, GM-FastText模型在THUCNews數(shù)據(jù)集中各分類的F1值最好. 與傳統(tǒng)文本分類模型TextCNN、TextRNN相比, GM-FastText在該數(shù)據(jù)集上F1值提升最大類別為Sport和Stock分別為0.04和0.05, 10個類別F1值分別平均提升0.02和0.019;采用FastText詞向量, GM-FastText與FastText,FastText-CNN和FastText-RNN相比在該數(shù)據(jù)集上F1值提升最大類別為Stock、Entertainment和Stock分別為0.02、0.03和0.03, 10個類別F1值平均提升0.005, 0.015, 0.011.

        表2 THUCNews數(shù)據(jù)集10類別F1值

        從表3中可以看出, 在頭條新聞庫數(shù)據(jù)集中除Entertainment、Education和Travel這3個類別外有7個類別達到最優(yōu)值. 與傳統(tǒng)文本分類模型TextCNN、TextRNN相比, GM-FastText在該數(shù)據(jù)集上F1值提升最大類別為Science和Word分別為0.03和0.04,10個類別F1值分別平均提升0.013和0.015; 采用FastText詞向量, GM-FastText與FastText, FastText-CNN和FastText-RNN相比在該數(shù)據(jù)集上F1值提升最大類別為Financial、Science和Word分別為0.03、0.03和0.03, 10個類別F1值平均提升0.008, 0.008,0.013.

        表3 頭條新聞庫數(shù)據(jù)集10個類別F1值

        從表4可以看出, 在Sogo新聞庫數(shù)據(jù)中除Travel類別外其他9個分類能達到最好的效果. 與傳統(tǒng)文本分類模型TextCNN、TextRNN相比, GM-FastText在該數(shù)據(jù)集上F1值提升最大類別都為Culture分別為0.07和0.06, 10個類別F1值分別平均提升0.032和0.035 ; 采用FastText詞向量, GM-FastText與FastText,FastText-CNN和FastText-RNN相比, 在該數(shù)據(jù)集上F1值提升最大類別為Culture、Education和Science分別為0.02、0.05和0.05, 10個類別F1值平均提升0.005, 0.019, 0.025.

        表4 Sogo新聞庫數(shù)據(jù)集10個類別F1值

        根據(jù)以上分析, GM-FastText與傳統(tǒng)文本分類模型TextCNN、TextRNN相比, 在3個數(shù)據(jù)集上F1平均提升0.021和0.023; GM-FastText相比于FastText,FastText-CNN和FastText-RNN在3個數(shù)據(jù)集上10個類別F1平均提升0.006, 0.014和0.016.

        各模型在3個數(shù)據(jù)集上的準確率值如表5所示.從表5中可以看出, GM-FastText在不同的數(shù)據(jù)集上都達到了最高的值. 與傳統(tǒng)文本分類模型TextCNN、TextRNN相比, GM-FastText分別在3種數(shù)據(jù)集上準確率提升了1.74、0.95、3.2和1.64、1.58、3.03個百分點; 采用FastText詞向量, GM-FastText與FastText、FastText-CNN、FastText-RNN相比在3個不同的數(shù)據(jù)集上的準確率分別提升, 0.56、0.28、0.43,1.15、0.41、1.62和1.01、1.09、2.21個百分點.

        表5 各模型在不同數(shù)據(jù)集的準確率(%)

        由以上數(shù)據(jù)可得, GM-FastText與傳統(tǒng)文本分類模型TextCNN、TextRNN相比在3個數(shù)據(jù)集上準確率平均提升1.96、2.08個百分點; GM-FastText相比于FastText, FastText-CNN和FastText-RNN在3個數(shù)據(jù)集上準確率平均提升0.42、1.06、1.41個百分點.

        同時從表2-表5可以看出DPCNN和Transformer兩個深度神經(jīng)網(wǎng)絡模型, 相比其他網(wǎng)絡模型準確率上缺乏優(yōu)勢, 說明僅依靠增加網(wǎng)絡深度對于短文本處理沒有明顯的提升效果.

        總之, 針對3個數(shù)據(jù)集表2-表5中的F1值和準確率的性能改善可知, FastText多通道詞向量在短文本分類中有更好的詞向量表達和更加準確的特征表示;且GM網(wǎng)絡結構相對于傳統(tǒng)的CNN、RNN模型在應對多通道大量數(shù)據(jù)時有更好的特征提取和整合能力.

        5 結論與展望

        通過詞向量表征和模型結構兩個切入點, 構建了一個多通道嵌入詞的簡易網(wǎng)絡短文本分類模型GMFastText. 通過FastText生成3種不同N-gram嵌入詞向量, 以多通道的形式輸入到GM結構中, 突出文本特征然后通過全聯(lián)接層得到結果. GM-FastText模型利用N-gram特殊的滑窗結構構建特殊的字詞向量, 對于短新聞中一些極簡詞也有對應向量解決大多數(shù)的OOV問題, 提高了部分類別新聞分類準確率. 盡管MLP提取整合多特征向量有著良好性能, 但是特征向量經(jīng)過1次MLP-Layer層特征識別有限, 在接下來的工作中應著重優(yōu)化MLP-Layer嘗試多次經(jīng)過MLP-Layver層多次提取詞向量特征.

        猜你喜歡
        分類特征文本
        分類算一算
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        分類討論求坐標
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        日本乱偷人妻中文字幕在线| 日本不卡视频一区二区三区| 日韩a级精品一区二区| 377p日本欧洲亚洲大胆张筱雨| 婷婷综合久久中文字幕蜜桃三电影 | 亚洲午夜精品第一区二区| 国产日韩欧美一区二区东京热| 亚洲日韩中文字幕一区| 国产亚洲欧洲AⅤ综合一区| 激情视频在线播放一区二区三区 | 青青草绿色华人播放在线视频| 国产av激情舒服刺激| 亚洲国产一区二区a毛片| 国产V日韩V亚洲欧美久久| 国产无套粉嫩白浆内精| 亚洲av无码成人精品国产| 天天做天天爱天天爽综合网| 无码一区二区三区在线在看| 国产又湿又爽又猛的视频| 久久婷婷五月综合97色直播| 欧美疯狂性xxxxxbbbbb| WWW拍拍拍| 大屁股流白浆一区二区三区| 国产成人精品a视频| 久久精品波多野结衣中文字幕| 日本高清长片一区二区| 水野优香中文字幕av网站| 亚洲一本到无码av中文字幕| 人妖另类综合视频网站| 久久国产精品免费专区| 人妻av无码一区二区三区| 一本色道久久99一综合| 毛片av中文字幕一区二区| 男女无遮挡高清性视频| 国产在线一区二区三区av| 三级国产女主播在线观看| 国产精品髙潮呻吟久久av| 中文字幕中文有码在线| 国产精品国产三级农村妇女| 亚洲男女视频一区二区| 欧美亚洲精品suv|