高 珊,李世杰,蔡志平
(國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院,湖南 長(zhǎng)沙 410073)
文本分類是指為文本指定預(yù)定義標(biāo)簽的過程,是許多自然語(yǔ)言處理NLP(Natural Language Processing)應(yīng)用程序中的一項(xiàng)重要任務(wù),具有眾多的應(yīng)用場(chǎng)景,例如情感分析[1]如圖1所示;問答系統(tǒng)[2,3]的基本流程如圖2所示;對(duì)話行為分類[4]、話題分類[5]等。
Figure 1 Sentiment analysis
Figure 2 Basic process of question and answer system
近年來,國(guó)內(nèi)外的文本分類研究者在傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)2個(gè)方向?qū)ξ谋痉诸悊栴}做了許多探索和研究。本文將簡(jiǎn)要介紹傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類方法,詳細(xì)闡述使用深度學(xué)習(xí)的文本分類方法。
文本特征表示是對(duì)原始文本進(jìn)行預(yù)處理,以便訓(xùn)練分類模型。文本特征表示通常包括分詞、數(shù)據(jù)清理和統(tǒng)計(jì),是文本分類的基礎(chǔ)。
和英文文本處理分類相比,中文文本的預(yù)處理是關(guān)鍵技術(shù)。中文文本預(yù)處理通常要進(jìn)行分詞、去除停用詞、過濾低頻詞等。其中,最重要的是分詞部分。在中文表達(dá)中,詞是表達(dá)完整含義的最小單位。由于漢字的粒度較小,在大部分情況下,無法表達(dá)完整的含義,如圖3所示,“鼠”可以是“老鼠”,也可能定義為“鼠標(biāo)”,而句子的粒度又較大,承載的信息量過多,難以復(fù)用。
Figure 3 Example of Chinese word segmentation
中文語(yǔ)句需要通過分詞,構(gòu)成詞的集合,為后續(xù)文本分類奠定基礎(chǔ)。在分詞上,中文文本與英文文本有很大的不同。中文分詞難點(diǎn)主要體現(xiàn)在3個(gè)方面:分詞的規(guī)范、歧義詞的切分和未登錄詞識(shí)別。英文文本使用空格作為分隔符,中文文本沒有該特點(diǎn),切分時(shí)需要根據(jù)語(yǔ)義,因此如何切分中文文本成為一個(gè)難點(diǎn),例如“兵乓球拍賣完了”,不同的分詞方式可表達(dá)出不同的涵義:
乒乓球 拍賣 完了
乒乓 球拍 賣 完了
隨著網(wǎng)絡(luò)社交的不斷發(fā)展,人類處于信息爆炸的時(shí)代,在網(wǎng)絡(luò)上新出現(xiàn)了一些網(wǎng)絡(luò)流行語(yǔ),如“藍(lán)瘦香菇”“房姐”“奧特”“累覺不愛”等,這些網(wǎng)絡(luò)流行語(yǔ)也給中文的分詞技術(shù)加大了難度。此外,中文詞在文本中的前后關(guān)系復(fù)雜,不同詞在不同的語(yǔ)境中具有不同的含義,中文里也常見一詞多義的情況,導(dǎo)致分詞易出現(xiàn)歧義。
中文分詞方法常見為3大類:基于詞典匹配的方法、基于統(tǒng)計(jì)的方法和基于深度學(xué)習(xí)的方法?;谠~典匹配的分詞方法,基本思想是基于詞典匹配,將待分詞的中文文本根據(jù)一定規(guī)則切分和調(diào)整,根據(jù)詞典中的詞語(yǔ)進(jìn)行匹配,如果該詞語(yǔ)在詞典中,則分詞成功;否則繼續(xù)拆分匹配直到成功,然后進(jìn)行反復(fù)循環(huán)。代表性的方法有:基于正向最大匹配方法、基于逆向最大匹配方法和雙向匹配方法?;诮y(tǒng)計(jì)的方法統(tǒng)計(jì)由相鄰單詞組成的單詞出現(xiàn)的概率。相鄰單詞的出現(xiàn)次數(shù)和出現(xiàn)概率都很大。根據(jù)概率值進(jìn)行分割,主要有隱馬爾科夫模型HMM(Hidden Markov Model)[6]和條件隨機(jī)場(chǎng)模型 CRF(Conditional Random Field)[7]。比如Stanford和HanLP[8]分詞工具都是基于CRF算法的。
近年來,隨著基于深度學(xué)習(xí)算法的中文分詞方法的提出,其分詞效果在一定程度上優(yōu)于傳統(tǒng)的分詞方法,使用深度學(xué)習(xí)算法進(jìn)行中文分詞的基本思想是同步進(jìn)行分詞、語(yǔ)句、語(yǔ)義以及語(yǔ)法的分析。Peng 等人[9]采用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)提取中文分詞特征,使用 CRF對(duì)標(biāo)簽進(jìn)行聯(lián)合解碼,其本質(zhì)上為序列標(biāo)注。此外,還有常用的Python中文分詞工具jieba等方法。
中文文本相對(duì)于英文文本,通常存在大量的“的”“和”等副詞,以及量詞、感嘆詞和數(shù)詞等與理解語(yǔ)義無關(guān)的詞組且出現(xiàn)頻率較高,容易帶來噪聲。去停用詞可以減少特征詞的數(shù)量,提高文本分類的準(zhǔn)確性。可通過建立中文的停用詞表,掃描分詞詞典進(jìn)行字符匹配。
對(duì)于分詞后的中文文本,還可以根據(jù)不同的任務(wù)進(jìn)行詞性標(biāo)注,比如情感分析、輿情挖掘等任務(wù)。
文本表示旨在以一種對(duì)計(jì)算機(jī)來說更容易且最小化信息損失的形式來表達(dá)預(yù)處理的文本,例如BOW(Bag Of Words)[10]、N-gram、詞頻逆文檔頻率TF-IDF(Term Frequency-Inverse Document Frequency)、word2vec[11]以及單詞表示的全局向量GloVe(Global Vectors)[12]。
BOW的思想是創(chuàng)建一個(gè)含有來自于訓(xùn)練語(yǔ)料庫(kù)全部詞語(yǔ)的字典,每個(gè)詞語(yǔ)都與其獨(dú)特的識(shí)別編號(hào)一一對(duì)應(yīng)。其中,One-Hot可對(duì)中文文本進(jìn)行字符級(jí)編碼,即存在的詞語(yǔ)用1表示,不存在的用0表示。BOW只關(guān)注了詞語(yǔ)出現(xiàn)的次數(shù),無視句子或者文檔中的語(yǔ)法、語(yǔ)序關(guān)系和順序。
與BOW相比,N-gram考慮了相鄰的中文文本信息,并通過考慮相鄰中文文本來構(gòu)建詞典。N-gram常用于計(jì)算句子的概率模型。句子的概率表示為句子中每個(gè)文本的聯(lián)合概率。
TF-IDF使用單詞頻率并反轉(zhuǎn)文檔頻率來建模文本。統(tǒng)計(jì)文本詞頻,生成文本的詞向量空間。TF是特定文章中某個(gè)詞的詞頻,IDF是包含該詞的文章占語(yǔ)料庫(kù)中文章總數(shù)的比例的倒數(shù),TF-IDF是兩者的乘積。TF-IDF用于評(píng)估一個(gè)單詞對(duì)一組文件或語(yǔ)料庫(kù)中一個(gè)文檔的重要性。一個(gè)單詞隨著它在文檔中出現(xiàn)的次數(shù)成比例地增加。然而,它在語(yǔ)料庫(kù)中的頻率總體上呈反比下降。TF-IDF沒有考慮詞的上下文和重要性,單純以“詞頻”衡量一個(gè)詞的重要性,不夠全面。
word2vec使用2個(gè)基本模型CBOW(Continuous Bag Of Words)和Skip gram,如圖4和圖5所示。前者是在已知當(dāng)前單詞的上下文的前提下來預(yù)測(cè)該詞,FastText[13]是基于CBOW模型提出的快速文本分類方法。后者是在已知當(dāng)前單詞時(shí)預(yù)測(cè)上下文。word2vec在對(duì)大量的語(yǔ)料進(jìn)行訓(xùn)練之后,使用給定維度的向量來對(duì)每個(gè)單詞進(jìn)行表示,單詞之間的語(yǔ)義和語(yǔ)法相似度均可用向量的相似度表示。由于詞和向量是一對(duì)一的關(guān)系,所以多義詞的問題無法解決。此外,word2vec是一種靜態(tài)的方式,如圖6展示了使用word2vec進(jìn)行中文文本表示的示例,其具有較強(qiáng)的通用性,但是無法根據(jù)指定任務(wù)進(jìn)行動(dòng)態(tài)處理和優(yōu)化。
Figure 4 CBOW model
Figure 5 Skip gram model
Figure 6 Example of word2vec Chinese representation
GloVe通過局部上下文和全局統(tǒng)計(jì)特征來訓(xùn)練單詞,單詞屬于共現(xiàn)矩陣中的非零元素。它使詞向量能夠包含盡可能多的語(yǔ)義和語(yǔ)法信息,以語(yǔ)料庫(kù)為基礎(chǔ),建立詞匯的共現(xiàn)矩陣并結(jié)合 GloVe模型進(jìn)行詞向量學(xué)習(xí)。最后,根據(jù)所選特征將所表示的文本反饋到分類器中。
使用傳統(tǒng)的機(jī)器學(xué)習(xí)對(duì)文本進(jìn)行分類,主要是進(jìn)行文本特征表示(包含文本預(yù)處理、特征提取、文本表示3個(gè)部分)、構(gòu)造分類器、分類結(jié)果的評(píng)估與反饋等過程。文本表示主要以布爾模型 (Boolean Model)、概率模型(Probabilistic Model) 和向量空間模型(Vector Space Model) 3種模型為代表。構(gòu)造分類器是傳統(tǒng)機(jī)器學(xué)習(xí)進(jìn)行文本分類的核心之一,通過使用提取詞頻或者詞袋特征的方法,將提取出的特征放入模型中進(jìn)行訓(xùn)練。
對(duì)于傳統(tǒng)模型,樸素貝葉斯NB(Naive Bayesian)[14]是用于文本分類任務(wù)的第一個(gè)模型,如圖7及式(1)所示,其中文本T=[T1,T2,…,Tn]獨(dú)立。
y∈{T1,T2,…,Tn}
(1)
Figure 7 Naive Bayes
隨后,研究者提出了通用分類模型,K值鄰近算法KNN(K-Nearest Neighbor)[15]如圖8所示、支持向量機(jī)SVM(Support Vector Machine)[16]、隨機(jī)森林RF(Random Forest)[17]、決策樹DT(Decision Tree)、中心向量法以及Ada Boost技術(shù)[18]等,廣泛地用于文本分類。最近的研究發(fā)現(xiàn),極限梯度增強(qiáng)XGBoost(eXtreme Gradient Boosting)[19]和光梯度增強(qiáng)機(jī)LightGBM(Light Gradient Boosting Machine)[20]具有優(yōu)異的性能。
Figure 8 K-value proximity algorithm (K=3)
傳統(tǒng)機(jī)器學(xué)習(xí)方法都具有一定的優(yōu)缺點(diǎn),比如樸素貝葉斯算法,對(duì)小規(guī)模的數(shù)據(jù)表現(xiàn)很好但對(duì)缺失數(shù)據(jù)不敏感,算法思想較為簡(jiǎn)單,通過先驗(yàn)和數(shù)據(jù)來決定后驗(yàn)的概率從而決定文本分類。樸素貝葉斯算法需要數(shù)據(jù)集屬性之間的關(guān)系相對(duì)獨(dú)立,對(duì)輸入數(shù)據(jù)的表達(dá)形式較為敏感。因此,在屬性數(shù)量較多或者屬性之間相關(guān)性較大時(shí),其分類效果較差;基于KNN文本分類算法具有穩(wěn)定、準(zhǔn)確率較高的優(yōu)點(diǎn),但其預(yù)測(cè)的結(jié)果容易受到含噪聲數(shù)據(jù)的影響,并且對(duì)樣本均衡的要求較高。
目前,傳統(tǒng)機(jī)器學(xué)習(xí)表現(xiàn)出的分類效果相對(duì)較低,這是因?yàn)閭鹘y(tǒng)機(jī)器學(xué)習(xí)是淺層次的特征提取,忽略了詞與詞之間以及句子和句子間的關(guān)系,對(duì)于文本背后的語(yǔ)義、結(jié)構(gòu)、序列和上下文理解不夠,對(duì)高維數(shù)據(jù)的處理和泛化能力較差,模型的表征能力有限。
隨著研究者的不斷探索,2006年Hinton等[21]提出了深度學(xué)習(xí)(Deep Learning)的概念。自此,文本分類問題的重心逐漸從傳統(tǒng)機(jī)器學(xué)習(xí)轉(zhuǎn)向基于深度學(xué)習(xí)的研究,并成為了文本分類領(lǐng)域的主流研究?jī)?nèi)容。
相較于傳統(tǒng)的機(jī)器學(xué)習(xí),深度學(xué)習(xí)可利用其自身的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行學(xué)習(xí),從而獲得數(shù)據(jù)特征。例如,卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)[22]、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)[23]等。
圖9展示了利用傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)進(jìn)行文本分類過程的流程圖。文本數(shù)據(jù)不同于數(shù)字、圖像或信號(hào)數(shù)據(jù)。第一個(gè)重要步驟是為模型預(yù)訓(xùn)練文本數(shù)據(jù)。傳統(tǒng)模型通常需要通過人工方法獲得良好的樣本特征,然后用經(jīng)典的機(jī)器學(xué)習(xí)算法對(duì)其進(jìn)行分類。因此,特征提取在很大程度上限制了該方法的有效性。然而,與傳統(tǒng)機(jī)器學(xué)習(xí)模型不同,深度學(xué)習(xí)通過學(xué)習(xí)一組用于將特征直接映射到輸出的非線性變換,將特征工程集成到模型擬合過程中[24]。
Figure 9 Traditional machine learning and deep learning text classification processes
CNN因其卷積濾波器可以提取圖像的特征,最初被提出用于圖像分類。CNN能對(duì)多個(gè)序列塊進(jìn)行多核的卷積運(yùn)算。因此,神經(jīng)網(wǎng)絡(luò)在很多 NLP問題中得到了應(yīng)用。
首先,將輸入文本的單詞向量拼接成矩陣。然后,矩陣被送入卷積層,卷積層包含幾個(gè)不同維度的濾波器。最后,卷積層的結(jié)果經(jīng)過池化層并連接池化結(jié)果,以獲得文本的最終矢量表示。類別由最終向量進(jìn)行預(yù)測(cè),如圖10所示。
Figure 10 CNN text classification
在CNN網(wǎng)絡(luò)的基礎(chǔ)上,Kim[25]提出了一種卷積神經(jīng)網(wǎng)絡(luò)的無偏模型TextCNN。它可以通過一層卷積更好地確定最大池化層中的區(qū)分短語(yǔ),并通過保持單詞向量靜態(tài)來學(xué)習(xí)除單詞向量之外的超參數(shù)。僅對(duì)標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練對(duì)于數(shù)據(jù)驅(qū)動(dòng)的深度模型是不夠的。因此,一些研究人員考慮利用未標(biāo)記的數(shù),與傳統(tǒng)圖像的 CNN 網(wǎng)絡(luò)相比,TextCNN保持原有網(wǎng)絡(luò)結(jié)構(gòu),簡(jiǎn)化了卷積層,使其具有網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單、參數(shù)量少、計(jì)算量少和訓(xùn)練速度快的優(yōu)點(diǎn)。
CNN以及TextCNN都為淺層網(wǎng)絡(luò),Alexis等人[26]在此基礎(chǔ)上,對(duì)深度網(wǎng)絡(luò)在文本分類任務(wù)上的問題進(jìn)行了研究,提出了字符級(jí)的深層卷積神經(jīng)網(wǎng)絡(luò)VDCNN(Very Deep Convolutional Neural Network for Text Classification);Johnson 等人[27]在2015年提出了一種基于兩視圖半監(jiān)督學(xué)習(xí)進(jìn)行文本分類任務(wù)的模型;在此基礎(chǔ)上,Johnson等人[28]又提出了一種深度金字塔卷積神經(jīng)網(wǎng)絡(luò)DPCNN(Deep Pyramid Convolutional Neural Networks for Text Categorization),通過提高網(wǎng)絡(luò)深度來提高計(jì)算精度,DPCNN比殘差網(wǎng)絡(luò)ResNet[29]結(jié)構(gòu)更為簡(jiǎn)單;2015年Zhang等人[30]提出的CharCNN,通過卷積的方式共享參數(shù),可以有效地減少嵌入層需要訓(xùn)練的參數(shù)量,從而提高計(jì)算效率;Adams 等人[31]提出了一種字符級(jí)CNN模型,稱為MGTC(Multilingual Geographic Text Classification),可以實(shí)現(xiàn)對(duì)多語(yǔ)言文本的分類;Kipf等人[32]在圖卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出了GCN(Graph Convolutional Network)模型,后續(xù)的研究者對(duì)GCN模型進(jìn)行了研究和變體,尤其是在文本分類任務(wù)上,又提出了TextGCN[33]、FastGCN[34]、TensorGCN[35]、Text-level GCN[36]、D-GCN(Dynamic-Graph Convolutional Network)[37]和GCNII[38]等模型。
循環(huán)神經(jīng)網(wǎng)絡(luò)RNN常用于通過遞歸計(jì)算來獲取序列的演進(jìn)方向。其中在深度學(xué)習(xí)中,門控循環(huán)單元GRU(Gate Recurrent Unit)[39]和LSTM較為常見。
RNN的核心為有向圖,以循環(huán)單元為元素進(jìn)行鏈?zhǔn)巾?xiàng)鏈,易捕獲文本分類任務(wù)的所有單詞中的位置信息。圖11展示了RNN文本分類模型。首先,使用詞嵌入技術(shù),將每一個(gè)詞匯用特定的向量表示。然后,嵌入的詞匯向量將連續(xù)反饋給循環(huán)單元(RNN Cell)。最后,可以通過隱藏層的輸出來預(yù)測(cè)文本的分類標(biāo)簽。
Figure 11 RNN text classification
Koutnik等人[40]為了克服RNN梯度爆炸或消失等問題,提出了CW-RNN(Clock Work RNN),通過時(shí)鐘頻率使RNN獲得最佳效果;為了對(duì)具有長(zhǎng)輸入序列的主題標(biāo)記任務(wù)進(jìn)行建模,Dieng等人[41]提出了TopicRNN用于主題分類,其模型將RNN和文本的潛在主題結(jié)合起來,以此獲得句法和語(yǔ)義之間的依賴關(guān)系;Schuster等人[42]在單向RNN的基礎(chǔ)上,提出雙向循環(huán)神經(jīng)網(wǎng)絡(luò),模型可獲取過去和未來2個(gè)方向上的信息,提高了文本分類任務(wù)的準(zhǔn)確性;Wang等人[43]提出的膠囊結(jié)構(gòu)的RNN模型,在情感分類任務(wù)上起到了很好的效果。
LSTM可以有效緩解因RNN在連續(xù)乘法中的梯度消失問題,為文本分類模型提供了基礎(chǔ),如Tai等人[44]提出的Tree-LSTM,即從樹結(jié)構(gòu)來改進(jìn)語(yǔ)義表示;袁婷婷等人[45]基于微博上的性格情感分析提出了PLSTM(Personality-based LSTM)。
GRU作為L(zhǎng)STM的變體,在一定程度上對(duì)LSTM的結(jié)構(gòu)進(jìn)行了精簡(jiǎn)改進(jìn)。2019年孫明敏[46]提出的基于GRU和Attention聯(lián)合的中文文本分類,利用注意力機(jī)制,找出中文文本中的關(guān)鍵詞。
CNN和RNN均在文本分類相關(guān)任務(wù)上展示出了優(yōu)異的結(jié)果。然而,由于隱藏?cái)?shù)據(jù)的不可讀性,導(dǎo)致這些模型在分類錯(cuò)誤的情況下難以解釋。
在Bahdanau等人[47]提出的基于機(jī)器翻譯注意力機(jī)制的基礎(chǔ)上,Yang等人[48]提出了分層注意力網(wǎng)絡(luò)HAN(Hierarchical Attention Network),可以對(duì)每個(gè)句子使用注意力機(jī)制提取出關(guān)鍵信息,進(jìn)而對(duì)關(guān)鍵信息使用注意力機(jī)制并用其進(jìn)行文本分類。
預(yù)訓(xùn)練語(yǔ)言模型[49]可以高效地學(xué)習(xí)全局語(yǔ)義,并顯著提高NLP任務(wù)的效率和結(jié)果的準(zhǔn)確率。預(yù)訓(xùn)練語(yǔ)言模型通常使用無監(jiān)督方法自動(dòng)挖掘語(yǔ)義知識(shí)以及并行化計(jì)算,從而提高文本分類的效率。
2019年,Devlin等人[50]提出了BERT(Bidirectional Encoder Representations from Transformers)模型,BERT應(yīng)用雙向編碼器,通過聯(lián)合調(diào)整所有層中的上下文來預(yù)訓(xùn)練深度的雙向表示。在處理自然語(yǔ)言處理的下游任務(wù)時(shí),只需要對(duì)其進(jìn)行微調(diào)。
在BERT的基礎(chǔ)上,RoBERTa[51]進(jìn)行了改進(jìn),它采用動(dòng)態(tài)掩蔽方法,每次生成掩蔽模式,并將序列送入模型;ALBERT(A Lite BERT)[52]通過減少了碎片向量的長(zhǎng)度和與所有編碼器共享參數(shù)的方式減少了BERT的參數(shù),實(shí)現(xiàn)了跨層參數(shù)共享。GANBERT(Generative Adversarial Nets BERT)[53]使用生成對(duì)抗的半監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)來增強(qiáng)BERT的訓(xùn)練;RoCBert(Robust Chinese Bert)[54]是一種經(jīng)過訓(xùn)練的中文BERT,為了解決中文字形易受對(duì)抗攻擊性的問題而提出的。Dai等人[55]分別使用標(biāo)準(zhǔn)字符級(jí)掩碼、全詞掩蔽以及兩者的組合來訓(xùn)練3個(gè)中文BERT模型。Dict-BERT[56]通過利用字典中稀有單詞的定義來增強(qiáng)語(yǔ)言模型的預(yù)訓(xùn)練。
對(duì)于將BERT進(jìn)行精簡(jiǎn)上,DistilBERT[57]在減少了40%的參數(shù)基礎(chǔ)上仍保留了97%的語(yǔ)言理解能力;TinyBERT[58]和LightMobileBERT[59]也通過不同的方法對(duì)BERT進(jìn)行了精簡(jiǎn);bert2BERT[60]通過遞進(jìn)式訓(xùn)練大模型的方法,提高了效率,也加快了收斂速度。
受到圖像學(xué)習(xí)的啟發(fā),文本分類任務(wù)中也涌現(xiàn)出一大批語(yǔ)言模型,如:Glove[12]、ELMO(Embedding from Language MOdels)[61]、ULMFiT(Universal Language Model Fine-Tuning)[62]、XLNet(eXtreme multiLingunal pretraiNEd Transformer)[63]、TG-Transformer(Text Graph-Transformer)[64]、X-Transformer(eXtreme-Transformer)[65]、LightXML(Light eXtreme Multi-Label)[66]以及近期的研究熱點(diǎn)OpenAI GPT(Generative Pre-trained Transformer)模型。
數(shù)據(jù)集的選擇對(duì)文本分類實(shí)驗(yàn)結(jié)果有著重要的影響,目前文本分類常用的開源數(shù)據(jù)集如下:
Sogou數(shù)據(jù)集:Sogou 新聞數(shù)據(jù)集是Sogou CA和 Sogou CS新聞?wù)Z料的混合。新聞的分類標(biāo)簽由統(tǒng)一資源定位符URL(Uniform Resource Locator)中的域名決定,常用于新聞分類??蓮腟ogou官網(wǎng)https://www.sogou/labs/resource/ca.php獲取。
THUCNews數(shù)據(jù)集:THUCNews是根據(jù)新浪新聞RSS訂閱頻道2005~2011年間的歷史數(shù)據(jù)篩選過濾生成,包含74萬篇新聞文檔(2.19 GB),均為UTF-8純文本格式。在原始新浪新聞分類體系的基礎(chǔ)上,重新整合劃分出14個(gè)候選分類類別:財(cái)經(jīng)、彩票、房產(chǎn)、股票、家居、教育、科技、社會(huì)、時(shí)尚、時(shí)政、體育、星座、游戲和娛樂??蓮腡HUCNews官網(wǎng)http://thuctc.thunlp/中獲取。
Datahub數(shù)據(jù)中心:包含文本分類、情感分析以及知識(shí)圖譜的數(shù)據(jù)集,可從Datahub官網(wǎng)http://www.datahub.ileadall42中獲取。
今日頭條新聞文本分類數(shù)據(jù)集:數(shù)據(jù)來源于今日頭條客戶端,共382 688條數(shù)據(jù),分布于15個(gè)分類中。 可從toutiao-text-classfication-dataset中獲取。
復(fù)旦中文文本分類語(yǔ)料庫(kù):共20類,18 655條數(shù)據(jù)集。
本文主要介紹了現(xiàn)有的文本分類任務(wù)方法,包括傳統(tǒng)的機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。傳統(tǒng)方法主要通過改進(jìn)特征提取方案和分類器的設(shè)計(jì)來提高文本分類性能。相比之下,深度學(xué)習(xí)方法通過改進(jìn)演示學(xué)習(xí)方法、模型結(jié)構(gòu)以及其他數(shù)據(jù)和知識(shí)來提高性能。本文著重介紹了中文文本分類任務(wù)中的文本表示部分以及常用的中文文本分類數(shù)據(jù)。
對(duì)于中文文本分類方法的集成,RNN需要逐步遞歸以獲得全局信息。CNN可以獲得局部信息,并且可以通過多層堆棧增加感測(cè)場(chǎng),以捕獲更全面的上下文信息。注意力機(jī)制學(xué)習(xí)句子中單詞之間的全局依賴性。Transformer模型依賴于注意力機(jī)制,以建立輸入和輸出之間的全局依賴關(guān)系的深度。因此,設(shè)計(jì)一個(gè)集成方法可能是未來發(fā)展的方向。
對(duì)于方法的效率,盡管基于深度學(xué)習(xí)的文本分類方法是非常有效的,例如CNN、RNN和LSTM,但是,這些方法仍存在許多技術(shù)限制,如網(wǎng)絡(luò)層的深度、正則化問題、網(wǎng)絡(luò)學(xué)習(xí)率等。因此,優(yōu)化文本分類方法和提高模型訓(xùn)練速度仍有更廣闊的發(fā)展空間。