沈雅婷 左志新
(南京理工大學(xué)紫金學(xué)院 江蘇 南京 210023)
分類一直是自然語(yǔ)言處理(NLP)領(lǐng)域的重點(diǎn)問(wèn)題,被廣泛地應(yīng)用到生活之中。隨著中國(guó)互聯(lián)網(wǎng)信息技術(shù)行業(yè)的快速發(fā)展以及大數(shù)據(jù)時(shí)代的到來(lái),電子文本數(shù)據(jù)呈現(xiàn)井噴式增長(zhǎng),例如微博、商品評(píng)論、商品名稱等短文本數(shù)據(jù)占比最大。合理地對(duì)其進(jìn)行分類,便于用戶快速查找所需信息或商品,也便于商家及時(shí)發(fā)現(xiàn)問(wèn)題和掌握用戶需求,提高用戶滿意度。針對(duì)產(chǎn)生的大量短文本數(shù)據(jù),人工分類存在速度慢,成本高等問(wèn)題,所以需要機(jī)器去代替人工完成分類。
文本分類問(wèn)題是NLP領(lǐng)域中一個(gè)非常經(jīng)典的問(wèn)題,最早可以追溯到20世紀(jì)50年代,早期主要通過(guò)知識(shí)工程,手工定義規(guī)則來(lái)分類,不僅浪費(fèi)時(shí)間和人力,而且使用范圍和準(zhǔn)確度都十分有限。隨著20世紀(jì)90年代互聯(lián)網(wǎng)在線文本的涌現(xiàn)和機(jī)器學(xué)習(xí)的興起,研究者重新開(kāi)始對(duì)文本分類的研究,逐漸將文本分類問(wèn)題拆分成特征工程和分類器兩個(gè)部分,即基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類。其中特征工程包括文本預(yù)處理、特征提取和文本表示等,分類器基本都是統(tǒng)計(jì)分類的方法,如K近鄰、樸素貝葉斯[1]、決策樹(shù)、支持向量機(jī)等。以上方法相比早期的方法有著更好的分類效果,但是文本表示的特征表達(dá)能力較弱,還需要人工進(jìn)行特征工程且非常費(fèi)時(shí)費(fèi)力,成本很高。隨著計(jì)算能力提升、成本下降、海量大數(shù)據(jù)支持和人工神經(jīng)網(wǎng)絡(luò)興起,基于人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法逐漸成為主流的研究方向,深度學(xué)習(xí)方法利用人工神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)獲取特征表達(dá)的能力解決文本分類的文本表示問(wèn)題[2],避免了繁雜的人工特征工程,即端到端地解決問(wèn)題。在文本分類中,常用的神經(jīng)網(wǎng)絡(luò)模型有TextCNN[3-4]、TextRNN、fastText[5]等。
直至目前,文本分類在工業(yè)界和學(xué)術(shù)界已經(jīng)積累了很多方法,主要分為基于傳統(tǒng)機(jī)器學(xué)習(xí)、基于深度學(xué)習(xí)兩種文本分類實(shí)現(xiàn)方法?;谏疃葘W(xué)習(xí)的文本分類方法比基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類方法準(zhǔn)確度高,而常規(guī)深度學(xué)習(xí)的文本分類方法中的神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)間較長(zhǎng)。短文本分類的本質(zhì)還是文本分類,可以直接使用這些方法,但是短文本存在長(zhǎng)度短、特征稀疏、表述不規(guī)范等特點(diǎn)導(dǎo)致分類性能明顯下降。目前針對(duì)短文本的特點(diǎn),主要有通過(guò)外部語(yǔ)料庫(kù)構(gòu)建詞向量、利用網(wǎng)絡(luò)資源構(gòu)建專門(mén)的類別詞庫(kù)對(duì)特定的短文本進(jìn)行擴(kuò)展等方法,以提高短文本的分類性能。雖然這些方法降低了短文本的稀疏性,提高了分類準(zhǔn)確率,但是獲取覆蓋所有類別的外部語(yǔ)料庫(kù)是很困難的。并且在大數(shù)據(jù)的時(shí)代背景下,短文本數(shù)據(jù)的流通變得越來(lái)越快,已有的文本分類方法無(wú)法達(dá)到既準(zhǔn)確率高又訓(xùn)練速度快,這就限制了其在大數(shù)據(jù)背景下的廣泛使用,漸漸不能滿足時(shí)代對(duì)信息處理的高速要求。因此,為了滿足時(shí)代要求,迫切需要尋求一種新的方法以實(shí)現(xiàn)對(duì)短文本又好又快地自動(dòng)分類。
本文提出一種新的模型框架(B_f),以快速文本分類算法(fastText)作為基模型,借鑒自舉匯聚法(Bagging)集成算法基本思想,構(gòu)建多基模型的方法對(duì)文本進(jìn)行分類。通過(guò)實(shí)驗(yàn)證實(shí)提出的方法在文本分類中較獨(dú)立基模型具有不錯(cuò)的效果,較基于機(jī)器學(xué)習(xí)的傳統(tǒng)文本分類算法和深度學(xué)習(xí)分類方法在準(zhǔn)確度與效率上有明顯優(yōu)勢(shì)。
fastText是一個(gè)基于淺層神經(jīng)網(wǎng)絡(luò)、架構(gòu)簡(jiǎn)單的快速文本分類器,由Facebook在2016年開(kāi)源。其優(yōu)點(diǎn)是可以使用標(biāo)準(zhǔn)多核CPU在10分鐘內(nèi)訓(xùn)練超過(guò)10億個(gè)詞,比常規(guī)深度學(xué)習(xí)模型快幾百倍,在5分鐘內(nèi)可以對(duì)超過(guò)30萬(wàn)個(gè)類別的50萬(wàn)個(gè)句子完成分類。其通過(guò)使用n-gram(N元模子)特征來(lái)縮小線性規(guī)模,其分類準(zhǔn)確度能夠與常規(guī)深度學(xué)習(xí)模型保持相當(dāng),但訓(xùn)練時(shí)間卻大大短于常規(guī)深度模型,分類速度也比深度模型快很多。
fastText由輸入層、隱藏層和輸出層三層構(gòu)成,其模型結(jié)構(gòu)如圖1所示。
圖1 fastText模型結(jié)構(gòu)
圖1中:Xn表示第n個(gè)單詞以及字符的n-gram特征的one-hot表示;Vn表示第n個(gè)單詞以及字符的n-gram特征密集向量表示;Labeln表示第n個(gè)標(biāo)簽。
fastText是將已經(jīng)分詞后的文本作為輸入,輸出該文本屬于不同類別的概率。使用文本中的詞和詞組構(gòu)成特征向量,通過(guò)線性變換,將特征向量映射到隱藏層,然后構(gòu)建層次Softmax分類器根據(jù)類別的權(quán)重和模型參數(shù)使用Huffman編碼對(duì)標(biāo)簽進(jìn)行編碼,將Huffman樹(shù)作為輸出[6-9],Huffman樹(shù)的葉子節(jié)點(diǎn)即為標(biāo)簽。
當(dāng)數(shù)據(jù)集的類別很多時(shí),線性分類器的計(jì)算會(huì)變得很昂貴。為了降低Softmax層的計(jì)算復(fù)雜度,fastText使用了一個(gè)基于Huffman編碼樹(shù)的分層Softmax。在這個(gè)Huffman樹(shù)中,每個(gè)葉子節(jié)點(diǎn)即代表一個(gè)標(biāo)簽。利用了類別不平衡的這個(gè)事實(shí),將每個(gè)類別出現(xiàn)的頻率作為權(quán)重,使用Huffman算法構(gòu)建Huffman樹(shù),出現(xiàn)頻率高的類別比出現(xiàn)頻率低的類別深度要小,使得計(jì)算效率更高。
常用的特征有詞袋(Bag-of-words,BoW)模型和n-gram特征。其中詞袋模型不考慮詞之間的順序,但是對(duì)于很多分類問(wèn)題而言,詞序十分重要,如果詞序不同,文本含義可能截然相反,但是直接考慮順序的計(jì)算成本又很高昂,而n-gram考慮了局部詞序。因此,fastText使用n-gram特征,通過(guò)向量表示單詞n-gram來(lái)將局部詞序考慮在內(nèi),過(guò)濾掉低頻的n-gram,從而提高效率[10]。
Bagging[11]是通過(guò)多個(gè)模型相結(jié)合降低泛化誤差的技術(shù),把多個(gè)不同的個(gè)體分類器集成為一個(gè)分類器的集成學(xué)習(xí)方法,主要思想是將訓(xùn)練數(shù)據(jù)有放回地抽樣訓(xùn)練多個(gè)不同模型,然后將所有模型對(duì)測(cè)試樣例的表決輸出。由于Bagging集成學(xué)習(xí)算法的個(gè)體分類器之間沒(méi)有強(qiáng)依賴關(guān)系,從而可以并行,可使用分布式計(jì)算進(jìn)一步提高算法的效率。
1) TextCNN模型。CNN是一種前饋神經(jīng)網(wǎng)絡(luò),廣泛應(yīng)用于模式識(shí)別、圖像處理等領(lǐng)域,是深度學(xué)習(xí)的代表算法之一。2014年,紐約大學(xué)Yoon Kim將CNN應(yīng)用在文本分類上提出TextCNN模型,一個(gè)簡(jiǎn)單且具有少量超參數(shù)調(diào)整的CNN,可根據(jù)具體任務(wù)進(jìn)行微調(diào)進(jìn)一步提高性能。對(duì)矩陣化的文本進(jìn)行卷積和最大池化后,再通過(guò)全連接層的Softmax進(jìn)行結(jié)果輸出。由于其結(jié)構(gòu)簡(jiǎn)單、效果好,在文本分類任務(wù)上有著廣泛的應(yīng)用。
2) 樸素貝葉斯模型。貝葉斯算法是以貝葉斯原理為基礎(chǔ),使用數(shù)理統(tǒng)計(jì)的知識(shí)對(duì)樣本數(shù)據(jù)集進(jìn)行分類。貝葉斯分類算法的誤判率很低,在數(shù)據(jù)集較大的情況下表現(xiàn)出較高的準(zhǔn)確率,同時(shí)算法本身也比較簡(jiǎn)單。樸素貝葉斯算法是在貝葉斯算法的基礎(chǔ)上進(jìn)行了相應(yīng)的簡(jiǎn)化,即假設(shè)給定目標(biāo)值時(shí)屬性之間相互條件獨(dú)立,也就是特征向量中一個(gè)特征的取值并不影響其他特征的取值,雖然在一定程度上降低了貝葉斯算法的分類效果,但是由于其實(shí)現(xiàn)簡(jiǎn)單且表現(xiàn)驚人,成為應(yīng)用最為廣泛的分類模型之一。
B_f使用fastText模型作為基模型,借鑒Bagging集成算法的基本思想,挑選fastText的兩組最優(yōu)超參數(shù)。15次打亂預(yù)處理后的訓(xùn)練數(shù)據(jù)作為訓(xùn)練樣本集分別進(jìn)行訓(xùn)練,最后構(gòu)建由15個(gè)產(chǎn)生的基模型組成的多基模型,結(jié)合少數(shù)服從多數(shù)的投票機(jī)制才能對(duì)預(yù)處理后的測(cè)試樣本數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測(cè),B_f的總體流程如圖2所示。
圖2 B_f總體流程
在使用數(shù)據(jù)之前,需要對(duì)原始文本數(shù)據(jù)進(jìn)行預(yù)處理工作。主要流程有分詞和去停用詞等,步驟詳述如下:
1) 中文分詞。中文與英文不同,英文是以詞為單位,詞與詞之間用空格分隔,而中文是以字為單位,需要使用相關(guān)分詞工具將中文漢字序列分割成詞并用空格分隔[12]。中文分詞算法可以分為三類:(1) 字符串匹配算法,其核心思想是詞典匹配完成詞語(yǔ)切分;(2) 基于理解的分詞算法,其基本思想是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,因?yàn)橹形恼Z(yǔ)言的復(fù)雜性,目前基于理解的分詞系統(tǒng)還處于試驗(yàn)階段;(3) 基于統(tǒng)計(jì)的分詞算法,其主要思想是將每個(gè)詞看作是由字組成的,如果相連的字在不同文本中出現(xiàn)的頻率越多,則證明這段字越有可能是一個(gè)詞。目前Python常用的分詞工具有jieba分詞、THULAC(一個(gè)高效的中文詞法分析工具包)等。因此本文選取了具有分詞速度快、準(zhǔn)確率高和使用簡(jiǎn)單等特點(diǎn)的jieba分詞作為本文使用的分詞工具。部分文本使用jieba分詞樣例如表1所示。
表1 部分文本使用jieba分詞樣例
(2) 去停用詞。去停用詞為了將文本中一些出現(xiàn)頻率高、無(wú)實(shí)際意義、對(duì)有效信息噪音干擾的詞去掉,如“的”“是”“和”等,并且可以節(jié)省計(jì)算機(jī)的存儲(chǔ)與計(jì)算資源[13]。本文使用“哈工大停用詞表”、“四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù)”和“百度停用詞表”相整合的停用詞表作為中文停用詞表對(duì)文本進(jìn)行過(guò)濾。
超參數(shù)[14-15]是機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)模型內(nèi)的框架參數(shù),是在學(xué)習(xí)之前設(shè)置的參數(shù),而不是通過(guò)訓(xùn)練得到的。通常,需要對(duì)超參數(shù)進(jìn)行調(diào)優(yōu),給學(xué)習(xí)機(jī)選擇一組最優(yōu)超參數(shù),以提高學(xué)習(xí)的性能和效果,是一項(xiàng)繁瑣但至關(guān)重要的任務(wù)。通常需要手動(dòng)設(shè)定,不斷試錯(cuò)調(diào)試,需要大量的專家經(jīng)驗(yàn);也可以通過(guò)貝葉斯優(yōu)化算法[16-17]等自動(dòng)的優(yōu)化模型進(jìn)行調(diào)優(yōu)。
由于n-gram超參數(shù)是fastText模型一個(gè)重要的超參數(shù),能夠影響模型的時(shí)間效率以及分類精度,所以將n-gram超參數(shù)設(shè)置為一個(gè)固定的值,再進(jìn)行調(diào)優(yōu)可以大幅度提高超參數(shù)調(diào)優(yōu)的進(jìn)度。通過(guò)多次手動(dòng)調(diào)優(yōu)的實(shí)驗(yàn)發(fā)現(xiàn),對(duì)于商品名稱而言,n-gram超參數(shù)設(shè)置為1或2時(shí),模型的時(shí)間效率以及分類精度最好,研究者需要根據(jù)具體數(shù)據(jù)進(jìn)行微調(diào)。
將預(yù)處理后的商品名稱訓(xùn)練數(shù)據(jù)劃分為訓(xùn)練集和驗(yàn)證集,然后分別將fastText模型的n-gram超參數(shù)設(shè)定為1和2,進(jìn)行超參數(shù)調(diào)優(yōu),獲得兩組最優(yōu)超參數(shù)。
B_f共由15個(gè)fastText基模型組成,其中7個(gè)由n-gram超參數(shù)為1的最優(yōu)超參數(shù)組作為超參數(shù)訓(xùn)練得到,另外7個(gè)由n-gram超參數(shù)為2的最優(yōu)超參數(shù)組作為超參數(shù)訓(xùn)練得,最后1個(gè)基模型是在這兩組最優(yōu)超參數(shù)組中隨機(jī)抽取一組最為超參數(shù)訓(xùn)練得。如圖3所示。當(dāng)對(duì)文本進(jìn)行預(yù)測(cè)時(shí)采用投票機(jī)制[18]融合,得到最終預(yù)測(cè)標(biāo)簽。多基模型如圖2所示。
圖3 多基模型示意圖
每個(gè)基模型的訓(xùn)練數(shù)據(jù)都是由訓(xùn)練集隨機(jī)打亂而來(lái)。對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)當(dāng)訓(xùn)練集較大時(shí),訓(xùn)練集前面的樣本對(duì)模型權(quán)重的影響會(huì)隨著訓(xùn)練變小,通過(guò)多次的打亂達(dá)到一種綜合的目的。多基模型相對(duì)于獨(dú)立模型而言,對(duì)容易產(chǎn)生歧義的樣本分類更加有效,單個(gè)模型對(duì)不同類別的樣本分類具有偏向性,實(shí)現(xiàn)效果有限,使用多個(gè)模型組合能夠提高模型的泛化能力[19-20]。
輸入:訓(xùn)練集D;fastText算法A。
輸出:B_f分類器C(X)。
Step1對(duì)訓(xùn)練集D進(jìn)行預(yù)處理;創(chuàng)建預(yù)處理后的訓(xùn)練集D1。
Step2使用預(yù)處理后的訓(xùn)練集D1進(jìn)行fastText算法A超參數(shù)調(diào)優(yōu);創(chuàng)建最優(yōu)超參數(shù)組P1;創(chuàng)建最優(yōu)超參數(shù)組P2。
Step3fori=1 to 7
Step4將預(yù)處理后的訓(xùn)練集D1隨機(jī)打亂;創(chuàng)建樣本集Di。
Step5用樣本集Di和使用最優(yōu)超參數(shù)組P1作為超參數(shù)的fastText算法A訓(xùn)練,得到基分類器ci(x)。
因此,趙五娘與公婆之間的關(guān)系,不是封建的孝道關(guān)系,而是體現(xiàn)了下層社會(huì)中人與人之間的一種優(yōu)良的、樸素的道德關(guān)系。
Step6end for
Step7fori=7 to 14
Step8將預(yù)處理后的訓(xùn)練集D1隨機(jī)打亂;創(chuàng)建樣本集Di。
Step9用樣本集Di和使用最優(yōu)超參數(shù)組P2作為超參數(shù)的fastText算法A訓(xùn)練,得到基分類器ci(x)。
Step10end for
Step11將預(yù)處理后的訓(xùn)練集D1隨機(jī)打亂;創(chuàng)建樣本集D15。
Step12用樣本集D15和隨機(jī)使用最優(yōu)超參數(shù)組P1或P2作為超參數(shù)的fastText算法A訓(xùn)練,得到基分類器c15(x)。
Step13輸出B_f分類器
(1)
使用B_f分類器C(X)對(duì)未知樣本x分類:
未知樣本x分類時(shí),每個(gè)分類器ci(x)得出一個(gè)分類結(jié)果,15個(gè)分類器投票,得票最多的類別即為未知樣本x的分類結(jié)果,并輸出分類結(jié)果:
(2)
1) 實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)使用浪潮卓數(shù)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展有限公司提供的網(wǎng)絡(luò)零售平臺(tái)商品數(shù)據(jù),其中商品名與標(biāo)簽來(lái)源于網(wǎng)絡(luò)。選用其中已標(biāo)記標(biāo)簽的數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),包含本地生活——游戲充值——QQ充值、本地生活——游戲充值——游戲點(diǎn)卡、寵物生活——寵物零食——磨牙/潔齒等1 260個(gè)類別。共有50萬(wàn)條數(shù)據(jù),本文將分別取數(shù)據(jù)的100%、50%和1%作為實(shí)驗(yàn)數(shù)據(jù),如表2所示,其中類別數(shù)目c隨著數(shù)據(jù)規(guī)模增大而遞增。實(shí)驗(yàn)全部通過(guò)十折交叉驗(yàn)證[21]方式進(jìn)行,使獲得的數(shù)據(jù)真實(shí)有效。
表2 不同規(guī)模下的數(shù)據(jù)集對(duì)比表
2) 實(shí)驗(yàn)環(huán)境。硬件環(huán)境平臺(tái):MacBook Pro,處理器2.6 GHz Intel Core i7,內(nèi)存16 GB 2 400 MHz DDR4,macOS Mojave操作系統(tǒng)。軟件環(huán)境平臺(tái):Python 3.7,scikit-learn,TensorFlow。
本文采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和綜合評(píng)價(jià)指標(biāo)(F1-Measure)作為評(píng)估指標(biāo)。準(zhǔn)確率(Accuracy)計(jì)算式為:
(3)
精確率(Precision)的計(jì)算式為:
(4)
召回率(Recall)的計(jì)算式為:
(5)
綜合評(píng)價(jià)指標(biāo)(F1-Measure)的計(jì)算式為:
(6)
式中:TP為真正例;TN為真負(fù)例;FP為假正例;FN為假負(fù)例。
使用十折交叉驗(yàn)證得到最終的準(zhǔn)確率、精確率、召回率和綜合評(píng)價(jià)指標(biāo),以減小實(shí)驗(yàn)結(jié)果的誤差負(fù)例。
對(duì)于文本分類任務(wù),TextRNN和TextCNN是深度學(xué)習(xí)中最常見(jiàn)的兩大類模型,由于TextRNN與TextCNN分類效果相差不大,TextCNN擅長(zhǎng)捕獲更短的序列信息,TextRNN擅長(zhǎng)捕獲更長(zhǎng)的序列信息且訓(xùn)練成本更大。本實(shí)驗(yàn)使用的商品名稱數(shù)據(jù)集,商品名稱描述相對(duì)較短,特征詞較集中,所以略去TextRNN,使用TextCNN作為對(duì)比模型。同時(shí),作為傳統(tǒng)文本分類算法的樸素貝葉斯,也較適合處理此類描述相對(duì)較短、特征詞較集中的文本分類問(wèn)題。本次實(shí)驗(yàn)采用對(duì)比分析,在預(yù)處理后的實(shí)驗(yàn)數(shù)據(jù)的100%、50%和1%上進(jìn)行實(shí)驗(yàn)。將B_f與單個(gè)fastText模型、TextCNN模型以及樸素貝葉斯模型進(jìn)行對(duì)比實(shí)驗(yàn),并采用十折交叉驗(yàn)證方法對(duì)這四種算法分別訓(xùn)練十次,將每次訓(xùn)練的輸出結(jié)果保留,并將十次輸出結(jié)果取平均值得到四種模型結(jié)果的準(zhǔn)確率、精確率、召回率和綜合評(píng)價(jià)指標(biāo)對(duì)比如表3-表6所示,其中最優(yōu)值加粗表示。
表3 四種模型結(jié)果準(zhǔn)確率對(duì)比
表4 四種模型結(jié)果精確率對(duì)比
表5 四種模型結(jié)果召回率對(duì)比
表6 四種模型結(jié)果綜合評(píng)價(jià)指標(biāo)對(duì)比
可以看出,本文模型在使用的數(shù)據(jù)規(guī)模為100%時(shí)預(yù)測(cè)精確率高達(dá)88.47%,其準(zhǔn)確率也達(dá)到了86.62%,綜合評(píng)價(jià)指標(biāo)為87.22%。當(dāng)數(shù)據(jù)規(guī)模為50%時(shí),本文模型各項(xiàng)指標(biāo)依然領(lǐng)先與另外三個(gè)模型。當(dāng)數(shù)據(jù)規(guī)模為1%時(shí),本文模型各項(xiàng)指標(biāo)略微低于TextCNN。不難看出本文模型對(duì)于單個(gè)fastText模型有較大的提升,對(duì)比TextCNN模型在數(shù)據(jù)規(guī)模較大時(shí)也有著明顯的優(yōu)勢(shì),對(duì)比樸素貝葉斯模型同樣有著明顯優(yōu)勢(shì)。因此可得,本文模型相比于單個(gè)fastText模型、TextCNN模型、樸素貝葉斯模型較為理想,達(dá)到實(shí)驗(yàn)?zāi)康摹?/p>
作為傳統(tǒng)文本分類算法的樸素貝葉斯在訓(xùn)練時(shí)只需計(jì)算概率,并不需要復(fù)雜的矩陣計(jì)算或者迭代優(yōu)化,因此樸素貝葉斯模型不作為訓(xùn)練時(shí)間參考模型。三種模型一次的訓(xùn)練時(shí)長(zhǎng)如表7所示。不難看出,TextCNN模型由于結(jié)構(gòu)相對(duì)復(fù)雜,通常需要很長(zhǎng)的訓(xùn)練時(shí)間,訓(xùn)練成本較高,在數(shù)據(jù)規(guī)模較大的情況下此問(wèn)題更加明顯。fastText模型由于結(jié)構(gòu)簡(jiǎn)單取得了很好的效果,本文模型由于采用fastText模型為基模型,也取得相對(duì)令人滿意的效果。
表7 三種模型訓(xùn)練時(shí)間對(duì)比 s
本文在fastText模型的基礎(chǔ)上構(gòu)建了多基模型框架B_f。它比單個(gè)fastText模型具有更高的分類準(zhǔn)確率;比TextCNN等深度學(xué)習(xí)模型在數(shù)據(jù)量大的情況下有著更短的訓(xùn)練時(shí)長(zhǎng)和更高的準(zhǔn)確率;比樸素貝葉斯等傳統(tǒng)文本分類模型也具有更好的分類效果。能夠有效地處理商品名稱描述的文本分類問(wèn)題,同時(shí)普遍適用于大規(guī)模數(shù)據(jù)的有監(jiān)督文本分類問(wèn)題。
鑒于本文提出的多基模型框架B_f的基模型之間沒(méi)有強(qiáng)依賴關(guān)系,可以并行實(shí)現(xiàn)。下一步將考慮擴(kuò)大模型規(guī)模,進(jìn)行在分布式環(huán)境下的研究,以進(jìn)一步提高文本分類的準(zhǔn)確率和時(shí)間效率。