郭小磊,張吳波
(湖北汽車工業(yè)學(xué)院電氣與信息工程學(xué)院,湖北十堰 442002)
隨著城市化建設(shè)的不斷推進(jìn),市民熱線成為城市管理中最為重要的途徑之一。各類熱線問(wèn)題通過(guò)電話、短信等形式向政府部門(mén)反映,這些對(duì)政府決策和管理至關(guān)重要[1]。然而,市民熱線文本通常是短文本,具有表述不規(guī)范、結(jié)構(gòu)復(fù)雜等特點(diǎn),這給文本分類任務(wù)帶來(lái)了巨大的挑戰(zhàn)[2]。將市民熱線文本進(jìn)行自動(dòng)識(shí)別和歸類,對(duì)于促進(jìn)政府與市民的溝通交流具有重要意義。目前,已有許多學(xué)者嘗試使用不同的方法解決短文本分類問(wèn)題,如基于傳統(tǒng)機(jī)器學(xué)習(xí)的分類方法和基于深度學(xué)習(xí)模型的分類方法。然而,由于熱線短文本的特征稀疏性以及語(yǔ)言表述不規(guī)范性,導(dǎo)致一般的文本分類方法難以取得理想的分類效果[3]。
針對(duì)此問(wèn)題,提出使用TF-IWF模型和LDA主題模型抽取關(guān)鍵詞構(gòu)建核心詞庫(kù)、利用Word2Vec 模型計(jì)算詞語(yǔ)相似度,實(shí)現(xiàn)對(duì)短文本內(nèi)容及詞匯向量的擴(kuò)展,以提高文本的表征能力;并設(shè)計(jì)了一種基于雙通道特征融合的短文本分類BGTC模型,該模型采用TextCNN 通道學(xué)習(xí)文本的局部特征,BiGRU-Attention 通道獲取上下文的重要語(yǔ)義特征,通過(guò)融合2 個(gè)通道的特征信息,豐富了詞向量的語(yǔ)義特征,最終實(shí)現(xiàn)了對(duì)市民熱線短文本的高效分類。
傳統(tǒng)的市民熱線文本分類基于機(jī)器學(xué)習(xí)的方法,使用人工提取特征,將多個(gè)特征串聯(lián)組成高維特征向量,通過(guò)各種機(jī)器學(xué)習(xí)算法完成文本分類[4],如支持向量機(jī)(Support Vector Machine,SVM)、樸素貝葉斯(Naive Bayes,NB)、邏輯回歸模型(Logistic Regression,LR)等。李銘鑫等[5]通過(guò)構(gòu)建LR、NB 模型完成了對(duì)政務(wù)留言文本的分類。武光華等[6]基于LDA 模型求取語(yǔ)義影響力作為特征詞的權(quán)重改進(jìn)了TF-IDF 算法,提高了在95598 熱線工單分類任務(wù)的準(zhǔn)確率。傳統(tǒng)機(jī)器學(xué)習(xí)方法的特征選擇和提取復(fù)雜,針對(duì)短文本分類時(shí)往往效果較差。目前,市民熱線文本分類任務(wù)主要運(yùn)用深度學(xué)習(xí)技術(shù)完成特征的自動(dòng)提取和分類。承孝敏等[7]提出了一種基于強(qiáng)化聯(lián)系的注意力(Attention)機(jī)制算法,捕獲文本之間的關(guān)聯(lián)信息,將分類結(jié)果輸出給12345熱線事件所對(duì)應(yīng)的分撥部門(mén),解決了手工事件分撥耗時(shí)長(zhǎng)、效率低下等問(wèn)題。陳鋼[8]提出了一種融合RoBERTa 和特征提取的分類方法,通過(guò)融合市民熱線文本的局部特征和全局特征,取得了更好的文本分類效果。黃秀彬等[9]將殘差卷積網(wǎng)絡(luò)與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)結(jié)合,來(lái)挖掘市民熱線文本中的深層語(yǔ)義信息,從而提升了分類的準(zhǔn)確度。
相較于長(zhǎng)文本,短文本的長(zhǎng)度限制往往會(huì)導(dǎo)致內(nèi)容稀疏、缺乏全面性。針對(duì)短文本的分類,常需要對(duì)短文本的內(nèi)容進(jìn)行擴(kuò)展,短文本擴(kuò)展的主要方法有兩種:①基于外部語(yǔ)料庫(kù)的文本特征擴(kuò)展;②基于短文本自身內(nèi)容特征擴(kuò)展[10]?;谕獠空Z(yǔ)料庫(kù)的文本特征擴(kuò)展,是使用大規(guī)模的語(yǔ)料庫(kù)來(lái)獲取與短文本相關(guān)的額外信息,以增加短文本的信息量。許淞源等[11]借助知識(shí)圖譜獲取外部知識(shí)對(duì)短文本進(jìn)行特征擴(kuò)展,解決了短文本特征稀疏的問(wèn)題。另一方面,基于短文本自身內(nèi)容特征擴(kuò)展是指利用原始的文本特征進(jìn)行擴(kuò)展,如提取命名實(shí)體、關(guān)鍵詞等元素,該方法擺脫了對(duì)外部語(yǔ)料庫(kù)質(zhì)量的依賴性,具有更強(qiáng)的適用性。李艷紅等[12]使用TF-IDF 算法從評(píng)論文本中抽取特征詞,完成了對(duì)微博文本特征擴(kuò)展。周國(guó)劍等[13]提出了一種基于LDA 模型和文本互擴(kuò)展的短文本分類方法,基于LDA 模型預(yù)測(cè)分布信息以及短文本的相異詞關(guān)系,實(shí)現(xiàn)了短文本的特征擴(kuò)展??紤]到LDA 模型可以構(gòu)建基于主題粒度的高頻詞集、詞向量模型可以根據(jù)語(yǔ)義的粒度豐富短文本內(nèi)容,邵云飛等[14]使用TF-IDF 模型以及LDA 主題模型構(gòu)建了基于類別特征的關(guān)鍵詞集與主題分布集,完成對(duì)短文本內(nèi)容及詞匯向量表征上的擴(kuò)充。
綜上所述,針對(duì)市民熱線短文本特征稀疏、描述概念弱的特點(diǎn),提出首先通過(guò)LDA 模型、TF-IWF 模型和Word2Vec 模型挖掘短文本自身的內(nèi)容特征,以構(gòu)建核心詞庫(kù)實(shí)現(xiàn)短文本擴(kuò)展;然后再使用基于雙通道特征融合的BGTC 模型完成對(duì)市民熱線文本的分類。
LDA 模型是一種概率主題模型用于對(duì)文檔集合進(jìn)行主題分析,該模型假設(shè)每個(gè)文檔都包含若干個(gè)主題,每個(gè)主題又由多個(gè)單詞組成。給定一篇文檔,LDA 模型會(huì)通過(guò)生成過(guò)程推斷出主題分布,即該文檔中每個(gè)主題的出現(xiàn)概率,每個(gè)主題則為特征詞的多項(xiàng)分布。
TF-IDF 模型指詞頻-逆文檔頻率模型,是用于衡量一個(gè)詞在文本中的重要性。它采用兩個(gè)因素:一個(gè)是詞頻(TF,Term Frequency),指在文本中該詞出現(xiàn)的頻率;另一個(gè)是逆文檔頻率(IDF,Inverse Document Frequency),指在文檔集中出現(xiàn)該詞的文檔數(shù)的倒數(shù)。TF-IDF 算法將一個(gè)單詞在文檔中出現(xiàn)的頻率與該單詞在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的頻率相除,得到該單詞的TF-IDF 權(quán)重。TF-IDF 既反映了單詞在當(dāng)前文檔中的重要性,又反映了單詞在整個(gè)語(yǔ)料庫(kù)中的普遍性。
TF-IWF 是TF-IDF 的變體,通過(guò)將逆文檔頻率(IDF)替換為逆詞頻權(quán)重(IWF,Inverse Word Frequency),減輕了高詞頻問(wèn)題帶來(lái)的影響,加強(qiáng)了對(duì)出現(xiàn)不太頻繁但有較大權(quán)重的單詞的重視度,因此在文本分類場(chǎng)景下會(huì)比TF-IDF 更有效[15],TF-IWF 算法的計(jì)算公式如式(1)-(3)。
其中:Nd,t為詞t在文檔d中出現(xiàn)的總次數(shù);Nd為文檔d的總詞數(shù);Wc為文檔集中所有詞的頻率;Wc,t為詞t在文檔集所有詞中的頻率。
結(jié)合LDA 模型和TF-IWF 算法統(tǒng)計(jì)特征詞獲取核心詞庫(kù)的具體步驟如下:
(1)對(duì)訓(xùn)練集進(jìn)行預(yù)處理,使用分詞、去停用詞、詞性過(guò)濾法,僅保留對(duì)分類影響較大的單詞;
(2)使用LDA 模型處理訓(xùn)練集,獲取各個(gè)主題下的主題詞的概率分布,針對(duì)某個(gè)主題,從主題詞概率分布中選取概率值排名前X個(gè)特征詞作為該主題的主題詞集;
(3)利用TF-IWF 算法計(jì)算訓(xùn)練集中每個(gè)單詞的權(quán)重,選取在每個(gè)類中權(quán)重值大于Y的特征詞作為高權(quán)重詞集;
(4)最終將每個(gè)主題的主題詞集和高權(quán)重詞集進(jìn)行合并,從而得到訓(xùn)練集的核心詞庫(kù)W=(W1,W2,...,WT),T為核心詞個(gè)數(shù)。
Word2Vec 是一種詞向量模型,該模型利用詞語(yǔ)窗口的上下文信息將一個(gè)詞轉(zhuǎn)化為低維實(shí)數(shù)向量,從而能夠在向量空間中比較詞語(yǔ)之間的相似度,Word2Vec模型通過(guò)計(jì)算兩個(gè)單詞向量間的距離來(lái)評(píng)估它們的相似性,其中較小的距離意味著更相似的單詞。Word2Vec 模型計(jì)算兩個(gè)詞M1 和M2 的相似度方式,如圖1。
圖1 基于Word2Vec計(jì)算相似度方法圖
其中,a、b分別為詞語(yǔ)M1 和M2 根據(jù)Word2Vec 模型計(jì)算出的詞向量;cos為余弦相似度公式。
對(duì)于訓(xùn)練集,基于核心詞庫(kù)和相似度的短文本擴(kuò)展的具體過(guò)程如下:
(1)對(duì)訓(xùn)練集中的短文本進(jìn)行預(yù)處理,使用分詞、去停用詞、詞性過(guò)濾法,僅保留對(duì)分類影響較大的單詞作為特征詞集合N=(N1,N2,...,NM),M為特征詞個(gè)數(shù);
(2)對(duì)特征詞集合中的每個(gè)特征詞Ni(Ni∈N)與經(jīng)過(guò)LDA 模型與TF-IWF 算法計(jì)算得到的核心詞庫(kù)集合中的每個(gè)核心詞Wj(Wj∈W)基于Word2Vec模型計(jì)算相似度,將相似度排名最高的前Z個(gè)單詞作為特征詞Ni的擴(kuò)展詞。
例如,對(duì)表1中的市民熱線文本進(jìn)行基于核心詞庫(kù)和相似度的短文本擴(kuò)展。首先以“特殊門(mén)診”“規(guī)則”“住院記錄”等詞匯為中心,構(gòu)建核心詞庫(kù);然后根據(jù)余弦相似度計(jì)算短文本中每個(gè)單詞與核心詞庫(kù)中單詞的相似度;接著篩選出與短文本相似度較高的核心詞匯,如“辦理”“規(guī)則”“特需門(mén)診”;最終將篩選出的關(guān)鍵詞融合到原始短文本中,結(jié)果如表1,其中將擴(kuò)展詞加括號(hào)后放在被擴(kuò)展詞之后,得到擴(kuò)展后的新文本。
表1 短文本擴(kuò)展樣例表
針對(duì)市民熱線文本分類任務(wù),提出首先基于LDA 模型和TF-IWF模型抽取關(guān)鍵詞構(gòu)建核心詞庫(kù),利用Word2Vec計(jì)算詞語(yǔ)相似度對(duì)短文本進(jìn)行特征擴(kuò)展,接著使用BGTC 模型進(jìn)行短文本分類,該方法的具體架構(gòu)如圖2。
圖2 基于BERT-CNN的短文本分類架構(gòu)圖
2.4.1 BERT模型
BERT 是一個(gè)強(qiáng)大的預(yù)訓(xùn)練語(yǔ)義表征模型,該模型基于多層雙向的Transformer 編碼器構(gòu)建,可以同時(shí)提取上下文的雙向語(yǔ)義信息,從而增強(qiáng)詞向量的語(yǔ)義表征能力。BERT的模型結(jié)構(gòu)如圖3。
圖3 BERT模型結(jié)構(gòu)圖
BERT 模型的核心是Transformer 編碼器的多頭注意力(Multi-head Attention)機(jī)制,采用多個(gè)Attention 模塊從不同角度學(xué)習(xí)輸入單詞與上下文單詞的關(guān)聯(lián)關(guān)系并分配相應(yīng)的權(quán)重值,最終學(xué)習(xí)到了一個(gè)與原始詞向量長(zhǎng)度相同的增強(qiáng)語(yǔ)義向量。Attention機(jī)制的計(jì)算方法如式(4)。
其中,Q、K、V為輸入向量矩陣,dk為字向量維度。
Multi-head Attention 機(jī)制通過(guò)多個(gè)不同的線性變化對(duì)Q、K、V 進(jìn)行投影,將得到的多個(gè)Attention 結(jié)果進(jìn)行拼接,計(jì)算方法如式(5)-(6)。
BERT 模型通過(guò)Multi-head Attention 機(jī)制調(diào)整每個(gè)字詞在輸入文本中的權(quán)重,實(shí)現(xiàn)了文本序列的高效向量表征。
2.4.2 TextCNN模型
TextCNN 是一種經(jīng)典的文本分類模型,由嵌入層、卷積層、池化層和一個(gè)全連接層組成,可以有效地提取文本的關(guān)鍵信息,TextCNN結(jié)構(gòu)如圖4。
圖4 TextCNN結(jié)構(gòu)圖
首先,將BERT 模型輸出的特征向量矩陣輸入到卷積層,在卷積層通過(guò)采用k個(gè)不同大小的滑動(dòng)窗口對(duì)文本特征進(jìn)行卷積操作學(xué)習(xí)文本的局部特征,計(jì)算方法如式(7)-(8)。
其中,Ci為卷積操作后得到的特征向量;Pi為特征向量組成的特征矩陣;Hi∶i+k-1為詞向量矩陣H從第i 行到i+k-1行的子矩陣;f為ReLU激活函數(shù);b為偏置向量;L為序列長(zhǎng)度;滑動(dòng)步長(zhǎng)為1。
然后,對(duì)卷積層輸出的特征集合進(jìn)行池化操作,以保留文本中的局部關(guān)鍵特征,丟棄無(wú)關(guān)特征,降低特征向量維度,防止過(guò)擬合。采用最大池化(Max Pooling)法從每個(gè)滑動(dòng)窗口中篩選出一個(gè)最大特征值,計(jì)算方法如式(9)。
最終,采用全連接層充當(dāng)整個(gè)模型的分類器,將池化層中得到的特征轉(zhuǎn)化為類別標(biāo)簽,使用Softmax分類器,計(jì)算出所屬各類別的概率,取概率最大的類別作為最終的分類結(jié)果,計(jì)算如公式(10)。
2.4.3 BiGRU-Attention模型
在BiGRU 模型中融合Attention 機(jī)制,可以選擇性地對(duì)文本中的不同詞語(yǔ)賦予不同的權(quán)重,使模型關(guān)注到對(duì)分類結(jié)果影響更大的特異性信息,從而提高分類的性能。BiGRU-Attention模型結(jié)構(gòu)如圖5。
圖5 BiGRU-Attention結(jié)構(gòu)圖
首先將BiGRU的輸出特征Gi輸入到Attention機(jī)制中,計(jì)算出注意力權(quán)重zi;然后通過(guò)Softmax函數(shù)將注意力權(quán)重標(biāo)準(zhǔn)化,生成概率向量ai;最后將歸一化權(quán)重值ai與BiGRU 輸出的Gi進(jìn)行點(diǎn)乘與累加操作,得到最終的輸出特征Y。計(jì)算方法如式(11)-(13)。
數(shù)據(jù)集基于Python 爬蟲(chóng)收集三亞市和永州市市長(zhǎng)郵箱中的熱線文本,按照8∶2的比例劃分成訓(xùn)練集和測(cè)試集,進(jìn)行預(yù)處理后用于后續(xù)實(shí)驗(yàn),數(shù)據(jù)集劃分為10個(gè)類別,具體如表2。
表2 數(shù)據(jù)集分布情況表 單位/條
實(shí)驗(yàn)采用準(zhǔn)確值(Accuracy)和F1 值作為模型的評(píng)價(jià)指標(biāo),準(zhǔn)確值作為分類任務(wù)中經(jīng)常使用的評(píng)價(jià)指標(biāo)之一,定義如式(14)。
其中,T 表示分類器預(yù)測(cè)正確的樣本數(shù)目;N 表示分類器預(yù)測(cè)錯(cuò)誤的樣本數(shù)目。
F1 值需先計(jì)算精確度(Precision)和召回率(Recall),F(xiàn)1 值是指精確度等于召回率時(shí)的平衡值,計(jì)算公式如(15)。
其中,TP 是樣本為正,預(yù)測(cè)結(jié)果為正的數(shù)量;FP 是樣本為負(fù),預(yù)測(cè)結(jié)果為正的數(shù)量;FN 是樣本為正,預(yù)測(cè)結(jié)果為負(fù)的數(shù)量。
實(shí)驗(yàn)超參數(shù)設(shè)置:模型中采用Adam 作為優(yōu)化器,學(xué)習(xí)率參數(shù)設(shè)置為e-5,采用L2 正則化最小化交叉熵作為損失函數(shù),其中BERT 層采用谷歌公司開(kāi)源模型,該模型采用12 層Transformer 編碼器,隱層的維度為768;多頭注意機(jī)制的頭數(shù)為12;TextCNN 模型中隱藏單元數(shù)各為32;GRU 隱藏維度為64;訓(xùn)練過(guò)程中batch_size 設(shè)置為16,max_sequence 設(shè)置為32,drop_rate 設(shè)置為0.05,epochs 設(shè)置為10。
基于TF-IWF 模型、LDA 模型和Word2Vec 模型構(gòu)建核心詞庫(kù)時(shí)的參數(shù)X、Y、Z分別設(shè)置為15、0.5、5。
3.4.1 基于擴(kuò)展后不同模型的分類實(shí)驗(yàn)
針對(duì)市民熱線文本數(shù)據(jù)集,為了驗(yàn)證,采用的BGTC模型對(duì)于市民熱線文本分類效果的有效性,使用不同模型進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)前,已對(duì)數(shù)據(jù)集基于TF-IWF 模型、LDA 模型和Word2Vec 模型進(jìn)行了短文本擴(kuò)展,結(jié)果如表3。
表3 不同模型的分類結(jié)果
由表3 可知,BERT-CNN、BERT-BiGRU 模型在針對(duì)市民熱線文本進(jìn)行分類時(shí),表現(xiàn)都不甚理想,其中CNN 模型的表現(xiàn)略好于LSTM 模型,準(zhǔn)確值和F1 值分別提高了1.5%和0.9%,這是因?yàn)長(zhǎng)STM是一種適用于長(zhǎng)序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以對(duì)歷史狀態(tài)進(jìn)行長(zhǎng)期的記憶和處理,然而在短文本分類任務(wù)中,輸入的文本較短信息量比較少,因此不需要過(guò)長(zhǎng)的歷史狀態(tài)來(lái)進(jìn)行判斷,這導(dǎo)致了LSTM 在短文本分類中可能存在著過(guò)度建模、參數(shù)冗余等問(wèn)題,從而影響了它的性能表現(xiàn)。BERTCNN-Attention 和BERT-BiGRU-CNN 模型的分類性能都有較大提升,其中,BERT-CNN-Attention 模型通過(guò)Attention 機(jī)制獲取局部關(guān)聯(lián)權(quán)值來(lái)提取出重要的局部特征,進(jìn)而提升了區(qū)分不同的語(yǔ)義類別的能力。BGTC 模型的準(zhǔn)確值和F1 值分別為85.6%和85.8%,相較于其他的模型在準(zhǔn)確值和F1 值上都有明顯的提升,比單通道的BERT-BiGRU-Attention-CNN 模型提高了1.7%和1.6%,這表明雙通道模型憑借融合TextCNN 模型提取局部關(guān)鍵信息和BiGRU-Attention 模型提取上下文特征的能力,進(jìn)而擁有了更強(qiáng)的表征能力,能夠有效地提高分類性能。相較于單通道的BERT-BiGRU-Attention-CNN 模型,BGTC 模型綜合利用了雙通道的優(yōu)點(diǎn),使得模型具備更好的特征提取能力及句子理解能力,進(jìn)而取得了更好的分類效果。
3.4.2 基于不同擴(kuò)展方法的分類實(shí)驗(yàn)
為了驗(yàn)證基于TF-IWF 模型、LDA 模型構(gòu)建核心詞庫(kù)以及基于Word2Vec模型的詞語(yǔ)相似度計(jì)算的短文本擴(kuò)展方法,基于BGTC分類模型與如下幾個(gè)公開(kāi)的短文本擴(kuò)展方法進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4。
表4 不同短文本擴(kuò)展方法的分類效果表
方法1:文獻(xiàn)[16]基于詞嵌入、詞相似度和詞重要性共同作用的文本擴(kuò)展方法,在Word2vec 上引入詞語(yǔ)相似度,并通過(guò)相似度與TF-IDF 模型的乘積來(lái)表示擴(kuò)展詞語(yǔ)對(duì)短文本的影響因子,構(gòu)造短文本向量以擴(kuò)展文本長(zhǎng)度和內(nèi)容。
方法2:文獻(xiàn)[17]基于TF-IDF 與LDA 模型提取類別特征,并基于詞匯信息熵N-gram 過(guò)濾出低類別貢獻(xiàn)度詞,最終完成了短文本的擴(kuò)展。
方法3:文獻(xiàn)[18]基于TF-IDF 與LDA 模型構(gòu)建出核心詞庫(kù),使用了HowNet算法進(jìn)行相似度計(jì)算完成了短文本擴(kuò)展。
方法4:首先使用LDA 模型獲取每個(gè)主題下的主題詞,然后利用TF-IWF 算法提取出高權(quán)重詞集,接著將主題詞集和高權(quán)重詞集合并得到核心詞庫(kù),最終將核心詞庫(kù)集合中的每個(gè)核心詞基于Word2Vec 模型計(jì)算相似度得到擴(kuò)展詞,實(shí)現(xiàn)了對(duì)短文本的擴(kuò)展。
由表4 可知,短文本擴(kuò)展后BGTC 模型的準(zhǔn)確值和F1 值都有所提升,其中準(zhǔn)確值從82.8%提升到85.6%,F(xiàn)1 值從83.0%提升到85.8%。這表明所提的使用3 種模型:TF-IWF 模型、LDA 模型和Word2Vec模型進(jìn)行短文本擴(kuò)展,可以在不同程度上豐富文本的語(yǔ)義信息,有助于模型更全面地理解文本。相較于未擴(kuò)展的短文本,使用各種方法進(jìn)行擴(kuò)展后BGTC模型進(jìn)行分類的性能都有了不同程度的提高。方法相對(duì)于其他3種方法達(dá)到了最佳的分類效果,F(xiàn)1值分別有了2.1%、0.5%和1.1%,這表明基于TF-IWF 模型、LDA 模型構(gòu)建核心詞庫(kù)以及基于Word2Vec 模型的詞語(yǔ)相似度計(jì)算的短文本擴(kuò)展方法,針對(duì)市民熱線文本的擴(kuò)展方式更加有效,通過(guò)加括號(hào)的方式,將擴(kuò)展詞直接添加到被擴(kuò)展詞之后,完成了對(duì)短文本的擴(kuò)展,此方法可以有效地對(duì)被擴(kuò)展詞進(jìn)行具體的闡述說(shuō)明,同時(shí)擴(kuò)展詞和被擴(kuò)展詞相鄰,更有助于保留句子之間的語(yǔ)法關(guān)系,在增加上下文語(yǔ)義信息的同時(shí),使得BGTC模型能夠更有效地學(xué)習(xí)到核心詞的特征信息。相較于使用TF-IDF 模型的方法,采用了TF-IWF 模型,TF-IDF 模型僅用詞頻來(lái)表示文檔中每個(gè)單詞的重要性,但是詞頻并不能完全衡量單詞的重要性,也就無(wú)法理解單詞在不同文集中使用的潛在分布。相反,TF-IWF 模型同時(shí)考慮了單詞在局部文本和全局語(yǔ)料庫(kù)中的頻率,所以可以更好地捕捉單詞的特征,因此更適用于這種短文本場(chǎng)景下。最終,提出的基于TF-IWF 模型、LDA 模型構(gòu)建核心詞庫(kù)、基于Word2Vec 模型計(jì)算詞語(yǔ)相似度的短文本擴(kuò)展方法,在BGTC 模型下取得了更有效的分類效果,準(zhǔn)確值和F1值分別達(dá)到了85.6%和85.8%。
在市民熱線短文本分類任務(wù)中,提出了首先通過(guò)基于TF-IWF 模型、LDA 模型構(gòu)建核心詞庫(kù),基于Word2Vec 模型計(jì)算詞語(yǔ)相似度實(shí)現(xiàn)對(duì)短文本的擴(kuò)展,使得擴(kuò)展后的文本更加全面、準(zhǔn)確。然后提出了雙通道特征融合的BGTC 模型,利用TextCNN 通道學(xué)習(xí)文本的局部特征,BiGRU-Attention 通道獲取上下文的重要語(yǔ)義特征,并通過(guò)融合2個(gè)通道的特征信息,豐富了詞向量的語(yǔ)義特征,最終實(shí)現(xiàn)了對(duì)市民熱線短文本的有效分類。盡管方法有一定局限性,但仍為解決市民熱線領(lǐng)域的短文本分類任務(wù)提供了一定的思路和方向。