徐 巖 陶漢中
南京工業(yè)大學(xué)能源學(xué)院 江蘇 南京 210009
利用LDA-SVM模型來進(jìn)行分類,主要原因是能夠克服SVM模型在進(jìn)行分類時(shí)需求空間太多,在使用過程中能夠避免文本考慮不全導(dǎo)致的分類不全面問題。利用LDA主題模型能夠自動(dòng)分布語義相近的主題特點(diǎn),從中改進(jìn)SVM主題分類中語義特點(diǎn)重復(fù)問題。
1.1 LDA模型建模 LDA模型算法每次進(jìn)行分類時(shí),需要每次選擇概率向量,從而完成一個(gè)維度,保證其他的維度數(shù)值一致后,對(duì)新維度數(shù)值進(jìn)行推算。不停的迭代讓其收斂后得出估計(jì)的數(shù)值。在整個(gè)創(chuàng)建模型中,對(duì)主題模型的最終模型結(jié)構(gòu)中的數(shù)值K造成直接影響。主題的差異對(duì)實(shí)驗(yàn)的最終結(jié)果也造成直接性的影響。
1.2 文檔的主題向量提取 在進(jìn)行SVM訓(xùn)練在前,首先要確定文本特征值的權(quán)重。通過了解準(zhǔn)里文本的數(shù)據(jù)可知,專利文本的內(nèi)容主要是將摘要、標(biāo)題、主權(quán)等進(jìn)行專利濃縮,其具有的特點(diǎn)詞匯成為代表,摘要表達(dá)的意義作為詞匯體現(xiàn)。在文檔中,位置不同呢,特點(diǎn)詞匯的代表程度也具有很大差異,例如在LDA模型中進(jìn)行語料建模時(shí),特點(diǎn)詞匯在文檔中的位置影響不做考慮時(shí),文本的分類效果將受到嚴(yán)重的影響。因此,需要依據(jù)專利文本數(shù)據(jù)具備的特殊性,對(duì)特點(diǎn)詞匯在不同位置時(shí)體現(xiàn)的信息差異進(jìn)行體現(xiàn),利用某一個(gè)位置的詞匯加權(quán)來對(duì)文本主題向量進(jìn)行計(jì)算。
2.1 實(shí)驗(yàn)數(shù)據(jù)獲取與處理 實(shí)驗(yàn)中使用的數(shù)據(jù)主要來源為專利數(shù)據(jù)庫(kù)中,以這些專利數(shù)據(jù)作為本次實(shí)驗(yàn)的文本數(shù)據(jù),從中選擇一萬條與濕法脫硫相關(guān)的專利數(shù)據(jù),然后從其中隨機(jī)選擇一定的文本數(shù)量,以選擇出來的文本數(shù)據(jù)進(jìn)行模型測(cè)試與訓(xùn)練樣本。其中五千條作為模型訓(xùn)練數(shù)據(jù),主要進(jìn)行模型分類訓(xùn)練;五千條作數(shù)據(jù)作為模型測(cè)試,主要利用其來對(duì)模型分類的準(zhǔn)確率進(jìn)行檢測(cè)。根據(jù)搜索,濕法脫硫文本中有16709條數(shù)據(jù)屬,從其中選擇1條至5500條當(dāng)做實(shí)驗(yàn)檢測(cè)數(shù)據(jù)。
2.2 實(shí)驗(yàn)過程 對(duì)于全部的實(shí)驗(yàn)文本數(shù)據(jù)進(jìn)行處理與篩選時(shí),專利文本中存在大量的連接性詞匯與計(jì)量單位數(shù)據(jù),因此,在進(jìn)行語料清洗過程中,必須依據(jù)中文詞匯表述來展開詞匯分類,同時(shí)必須將專利文本里無意義的固定詞匯添加帶停用表格中。以上個(gè)章節(jié)作為基礎(chǔ),展開文本分類,對(duì)于摘要部分,依舊利用jieba分詞處理。以相同的方式清除其中的介詞、數(shù)量詞以及定冠詞等等,同時(shí)依據(jù)第四章節(jié)中的處理方式得出對(duì)其他特點(diǎn)造成影響的停用詞。
本文主題數(shù)為8,將實(shí)驗(yàn)文本的數(shù)據(jù)和主題展開人為的調(diào)節(jié),因此,本文以實(shí)驗(yàn)得出的數(shù)據(jù)作為主題標(biāo)準(zhǔn)。并且在主題數(shù)據(jù)為8時(shí),表示訓(xùn)練數(shù)據(jù)和文本主題標(biāo)準(zhǔn)接近,因此,在LDA分析數(shù)據(jù)設(shè)立為:主題數(shù)K等于8,表示成50/K=6.25,超參數(shù)β表示成0.1,代數(shù)表示成500。
使用SVM進(jìn)行數(shù)據(jù)分類時(shí),必須設(shè)置參數(shù)設(shè)置。SVN屬于二類分類器,與上文中的8類分類方式成為一對(duì)一形式實(shí)現(xiàn)方式是四種類型中選擇兩種類型,并且設(shè)計(jì)相同的支持向量機(jī)SVM,所以得出28個(gè)不同的SVM。在展開數(shù)據(jù)分類檢測(cè)過程中,次數(shù)在其中最多的類型便稱之為所屬類型。本文利用LIBSVM進(jìn)行方案分類。SVM中選擇函數(shù)來計(jì)算高維空間,因此,必須設(shè)置LIBSVM核函數(shù)數(shù)據(jù)。假如m維空間的計(jì)算中存在問題,核函數(shù)的計(jì)算公式變?yōu)?n維空間的輸入值表示為x和y,f(x)表示為x在m維中形成的映射,相同道理,f(y)也表示為y在m維中形成的映射。目前具有很多形式的函數(shù)值,例如線性、多項(xiàng)性、高斯以及Sigmoid等形式的核函數(shù)。因濕法脫硫具有不確定性,因此文本會(huì)使用高斯核函數(shù)來進(jìn)行最終驗(yàn)證。提取特點(diǎn)詞匯-主題概率的分布過程中,會(huì)對(duì)文本的特點(diǎn)詞匯空間-主題的概率分布利用RBF核函數(shù)計(jì)算,通過10次驗(yàn)證后確定最終數(shù)據(jù)。
本文利用Gibbs抽樣方式選擇出最佳的LDA的主題數(shù)據(jù),得出LDA提取主題的方式,然后使用文本特點(diǎn)來實(shí)現(xiàn)SVM分類模型訓(xùn)練,最后得出LDA-SVM專利文本的分類模型。
LDA提取特點(diǎn)方式作為特點(diǎn)的分類方式,以主題為標(biāo)簽進(jìn)行分類檢測(cè)時(shí),總體分類的準(zhǔn)確率達(dá)到80%以上。依據(jù)F1數(shù)值的大小效果進(jìn)行評(píng)價(jià),數(shù)值越大,分類的效果就越標(biāo)準(zhǔn),利用主題的特點(diǎn)展開分類能達(dá)到良好的效果。利用IPC標(biāo)簽分類方式進(jìn)行分類時(shí),得出的結(jié)果非常差,準(zhǔn)確率約為50%。實(shí)驗(yàn)表明,利用IPC標(biāo)簽分類方式對(duì)對(duì)主題展開的分類結(jié)果非常不準(zhǔn)確,造成其主要是因素為:1、IPC分類方式不能全面表示文本中的信息,專利文本中具有多個(gè)不同的主題內(nèi)容。2、IPC分類不能對(duì)主題進(jìn)行統(tǒng)計(jì),同時(shí)也不能深入分類文本中的內(nèi)容信息,分類出來的主題非常粗糙。從中可見,利用LDA主題分類方式展開的主題特點(diǎn)提取,能夠?qū)⑽谋局黝}特點(diǎn)進(jìn)行加密,從而了解文本特點(diǎn)中不具備語料的多種問題。在對(duì)專利文本展開文本分類時(shí),利用專利文本中不同主題展開可行性分類,并且依據(jù)專利文本的主題數(shù)據(jù)展開詳細(xì)分析。
本文主要利用濕法脫硫?qū)@诸惙绞絹韺?shí)現(xiàn)自動(dòng)化模型分類,依據(jù)模型分類方式對(duì)濕法脫硫主題進(jìn)行劃分達(dá)到的效果。利用LDA模型分類方式來提取濕法脫硫摘要文本的特點(diǎn),主要將文本主題的概率作為分類器的特點(diǎn)進(jìn)行訓(xùn)練。最后得出依據(jù)濕法脫硫摘要文本主題的模型分類,其分類結(jié)果具有確定性,對(duì)于之前使用的特點(diǎn)提取分類器更加明確,同時(shí)還能解決語義問題和準(zhǔn)確性問題,并且實(shí)現(xiàn)了預(yù)期設(shè)置的濕法脫硫?qū)@黝}的分類任務(wù)。之后在依據(jù)主題展開詳細(xì)的文本分類,讓整個(gè)文本主題的分類更加快捷,結(jié)果更加明確科學(xué)。