亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于權(quán)重預(yù)處理的中文文本分類(lèi)算法

        2022-04-02 05:26:58管有慶
        關(guān)鍵詞:分類(lèi)特征文本

        何 鎧,管有慶,龔 銳

        (南京郵電大學(xué) 物聯(lián)網(wǎng)學(xué)院,江蘇 南京 210003)

        0 引 言

        信息檢索[1]、文本挖掘[2]作為自然語(yǔ)言處理[3]領(lǐng)域的關(guān)鍵技術(shù),給人們的生活帶來(lái)了許多便利,而文本分類(lèi)[4-6]正是這些關(guān)鍵技術(shù)開(kāi)展的重要基礎(chǔ)。文本分類(lèi)作為自然語(yǔ)言處理研究的一個(gè)熱點(diǎn),其主要原理是將文本數(shù)據(jù)按照一定的分類(lèi)規(guī)則實(shí)現(xiàn)自動(dòng)化分類(lèi)。目前常見(jiàn)的文本分類(lèi)方式主要分為基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)兩種,它們的本質(zhì)是通過(guò)計(jì)算機(jī)自主學(xué)習(xí)從而提取文本信息中的規(guī)則來(lái)進(jìn)行分類(lèi)。針對(duì)數(shù)據(jù)量較小、硬件運(yùn)算能力較低的應(yīng)用場(chǎng)景,往往使用基于機(jī)器學(xué)習(xí)算法而衍生的文本分類(lèi)模型。這類(lèi)模型運(yùn)行速度快、硬件資源占用量小,并且可以取得不錯(cuò)的分類(lèi)準(zhǔn)確性。機(jī)器學(xué)習(xí)算法是當(dāng)前文本分類(lèi)領(lǐng)域研究的一個(gè)重點(diǎn)。

        目前,幾種重要的機(jī)器學(xué)習(xí)算法在文本分類(lèi)領(lǐng)域都有所應(yīng)用,如KNN(K-nearest neighbor,K臨近算法)、SVM(support vector machine, 支持向量機(jī))和LR[7](logistic regressive,邏輯回歸)等。將基于詞頻的TF-IDF(term frequency-inverse document frequency,詞頻逆文本頻率)算法和NBC[8](naive Bayes classifier,樸素貝葉斯分類(lèi)器)進(jìn)行結(jié)合,是基于機(jī)器學(xué)習(xí)原理衍生出的一種被廣泛應(yīng)用的文本分類(lèi)模型[9]。NBC分類(lèi)器原理簡(jiǎn)明易懂,并且由于其所需要估算的參數(shù)較少,對(duì)于缺失的數(shù)據(jù)不敏感,所以在進(jìn)行小規(guī)模文本分類(lèi)時(shí),有著不錯(cuò)的表現(xiàn)。但該算法也存著一些問(wèn)題,傳統(tǒng)TF-IDF[10-12]算法僅通過(guò)詞語(yǔ)在文本中出現(xiàn)的頻率來(lái)判斷詞語(yǔ)的重要性,無(wú)法根據(jù)詞語(yǔ)所在的位置信息來(lái)進(jìn)行評(píng)估,從而導(dǎo)致文本分類(lèi)的準(zhǔn)確性受到限制[13]。

        該文提出一種基于權(quán)重預(yù)處理的文本分類(lèi)算法,即PRE-TF-IDF(pre-processing term frequency inverse document frequency,文本預(yù)處理的文本詞頻和逆文本詞頻)算法。該算法在傳統(tǒng)TF-IDF模型的基礎(chǔ)上,增加了關(guān)鍵信息權(quán)重處理和詞密度權(quán)重處理兩個(gè)新的處理環(huán)節(jié),增加分類(lèi)模型對(duì)詞語(yǔ)位置信息的評(píng)估,最終提升了文本分類(lèi)的準(zhǔn)確性。

        1 TF-IDF算法

        TF-IDF算法是一種統(tǒng)計(jì)方法,該算法在文本分類(lèi)中的作用是評(píng)估某一個(gè)詞語(yǔ)對(duì)其所在文本的重要性,結(jié)合NBC最終實(shí)現(xiàn)對(duì)文本的分類(lèi)。TF-IDF主要包含兩個(gè)部分,TF(term frequency,詞頻)和IDF(inverse document frequency,逆文本頻率)。具體定義如式(1)所示:

        TF-IDF=TF×IDF

        (1)

        TF-IDF算法從定義上看是將TF和IDF兩個(gè)數(shù)值相乘,其中TF的定義式為:

        (2)

        式中,N(wi,d)表示詞語(yǔ)wi在文本d中出現(xiàn)的次數(shù),S表示文本d中所有詞語(yǔ)的總數(shù)。用詞語(yǔ)wi在文本d中出現(xiàn)的次數(shù)除以文本d中所有詞語(yǔ)的總數(shù),當(dāng)詞語(yǔ)wi出現(xiàn)的次數(shù)越多,TF值越大,詞語(yǔ)wi對(duì)文本d越重要;當(dāng)詞語(yǔ)wi出現(xiàn)的次數(shù)越少,TF值越小,詞語(yǔ)wi對(duì)文本d越不重要。但僅憑TF值來(lái)衡量一個(gè)詞語(yǔ)區(qū)分文本類(lèi)別的能力會(huì)出現(xiàn)一些問(wèn)題,諸如“的”和“是”,這類(lèi)詞語(yǔ)在每個(gè)文本中幾乎都具有非常高的出現(xiàn)次數(shù)。因此,在評(píng)價(jià)某個(gè)詞語(yǔ)對(duì)于整個(gè)文本集的區(qū)分能力時(shí),需要依據(jù)IDF值來(lái)判斷。IDF的定義式為:

        (3)

        式中,N表示文本集中所有文本的總量,N(wi)表示文本集中出現(xiàn)過(guò)詞語(yǔ)wi的文本總數(shù)。當(dāng)N(wi)的數(shù)值越小,IDF值就會(huì)越大,表示某個(gè)詞語(yǔ)在整個(gè)文本集中出現(xiàn)的次數(shù)越少,則該詞將具有很強(qiáng)的區(qū)分類(lèi)別的能力。

        TF-IDF算法的含義是:如果某一個(gè)詞語(yǔ)在一篇文本中出現(xiàn)的概率很高(即TF的數(shù)值高),但在其他文本中出現(xiàn)的概率很低(即IDF的數(shù)值高),則可以認(rèn)為該詞語(yǔ)具有很好的區(qū)分類(lèi)別的能力,可以作為特征詞語(yǔ)進(jìn)行分類(lèi)。

        TF-IDF算法單純地認(rèn)為文本頻率越小的單詞越具有區(qū)別文本類(lèi)別的能力,而文本頻率越大的單詞就越無(wú)用,這樣的思想運(yùn)用于文本集中的文本是同一類(lèi)型的文本時(shí)就顯得不正確了;并且TF-IDF算法沒(méi)有根據(jù)詞語(yǔ)出現(xiàn)的位置賦予不同的權(quán)值。這兩方面的不足導(dǎo)致TF-IDF算法的精度并不是很高。PRE-TF-IDF算法在傳統(tǒng)TF-IDF算法的基礎(chǔ)上,增加了關(guān)鍵信息權(quán)重處理和詞密度權(quán)重處理兩個(gè)新的處理環(huán)節(jié),以解決上述兩點(diǎn)不足,最終提升文本分類(lèi)的準(zhǔn)確性。

        2 基于權(quán)重預(yù)處理的優(yōu)化算法(PRE-TF-IDF)

        傳統(tǒng)TF-IDF算法在進(jìn)行文本分類(lèi)時(shí),主要存在兩個(gè)問(wèn)題。首先,算法僅憑某一個(gè)詞語(yǔ)在文本和整個(gè)文本集中的出現(xiàn)頻率來(lái)判定這個(gè)詞語(yǔ)的重要性,IDF值計(jì)算式結(jié)構(gòu)簡(jiǎn)單,不能有效地反映詞語(yǔ)的重要程度,導(dǎo)致算法精度不高。其次,不考慮詞語(yǔ)在文本中出現(xiàn)的位置,在詞頻相同的情況下,關(guān)鍵詞語(yǔ)和非關(guān)鍵詞語(yǔ)的權(quán)重相同,從而導(dǎo)致分類(lèi)的準(zhǔn)確性降低。為解決這兩個(gè)問(wèn)題,提出了基于權(quán)重預(yù)處理的改進(jìn)TF-IDF算法,在文本預(yù)處理階段增加了關(guān)鍵信息權(quán)重處理環(huán)節(jié),對(duì)文本中不同位置出現(xiàn)的詞語(yǔ)賦予不同的權(quán)重,以解決傳統(tǒng)算法無(wú)法反映詞語(yǔ)位置信息的問(wèn)題。在特征詞語(yǔ)的選取階段,增加了詞密度權(quán)重處理環(huán)節(jié)并改進(jìn)了IDF值的計(jì)算方法,以便選取出更具有類(lèi)別區(qū)分能力的特征詞語(yǔ)。結(jié)合上述兩方面的改進(jìn),最終提出一種基于權(quán)重預(yù)處理的優(yōu)化算法,PRE-TF-IDF算法。

        2.1 關(guān)鍵信息權(quán)重處理

        (1)算法原理。

        針對(duì)傳統(tǒng)TF-IDF算法無(wú)法根據(jù)特征詞在文本中的分布情況而賦予不同權(quán)重的問(wèn)題,基于權(quán)重預(yù)處理的PRE-TF-IDF優(yōu)化算法在預(yù)處理階段,對(duì)于不同位置出現(xiàn)的詞語(yǔ)賦予不同的權(quán)重,以突出關(guān)鍵位置詞語(yǔ)的重要性,提升區(qū)分文本類(lèi)別的能力。PRE-TF-IDF算法模型主要針對(duì)的應(yīng)用場(chǎng)景是論文、期刊等文本的分類(lèi)。這類(lèi)文本往往包含著標(biāo)題、發(fā)表單位、摘要、關(guān)鍵詞等特殊信息,這些段落文字量較少,但對(duì)全文起到了概括和提煉的作用。針對(duì)這些段落中的詞語(yǔ),賦予更高的權(quán)重,有利于更好地選取出具有類(lèi)別區(qū)分能力的特征詞語(yǔ)。

        文章標(biāo)題字?jǐn)?shù)一般在20字左右,字?jǐn)?shù)較少并且能夠簡(jiǎn)明扼要地概述全文的內(nèi)容,對(duì)標(biāo)題內(nèi)的詞語(yǔ)賦予高于正文詞語(yǔ)的權(quán)重。

        摘要可以使讀者在最短的時(shí)間內(nèi)準(zhǔn)確地了解文章的內(nèi)容,摘要對(duì)區(qū)分文本類(lèi)別也起到了十分重要的作用,因此對(duì)于摘要段落內(nèi)出現(xiàn)的詞語(yǔ)賦予高于正文詞語(yǔ)的權(quán)重。

        關(guān)鍵詞段落常常位于摘要后一段,使用幾個(gè)詞語(yǔ)來(lái)概括文章涉及的專(zhuān)業(yè)領(lǐng)域,字?jǐn)?shù)較少但概括能力極強(qiáng),因此需要對(duì)關(guān)鍵詞賦予高于正文詞語(yǔ)的權(quán)重。針對(duì)不包含摘要和關(guān)鍵詞的期刊文本,則不作額外賦值,統(tǒng)一按正文中出現(xiàn)詞語(yǔ)賦值。

        發(fā)表單位常常會(huì)出現(xiàn)學(xué)校的名稱(chēng)、企業(yè)名稱(chēng)或期刊名稱(chēng)等。根據(jù)文本所屬的出版單位信息,可以大致對(duì)文本可能涉及的領(lǐng)域進(jìn)行一定的評(píng)估。例如,一篇發(fā)表自理工類(lèi)學(xué)校的文章,該文章屬于計(jì)算機(jī)、電子或能源等領(lǐng)域的可能性要比藝術(shù)、教育或法律等領(lǐng)域的可能性高。通過(guò)中國(guó)大學(xué)信息查詢系統(tǒng),獲取國(guó)內(nèi)所有高校的名稱(chēng)及其所對(duì)應(yīng)的專(zhuān)業(yè)類(lèi)別,類(lèi)別包含“綜合類(lèi)”、“理工類(lèi)”、“師范類(lèi)”、“財(cái)經(jīng)類(lèi)”和“農(nóng)林類(lèi)”。表1中這五種高校類(lèi)別與表2中八類(lèi)文本專(zhuān)業(yè)領(lǐng)域分別具有不同的權(quán)重配比。

        (2)權(quán)重處理具體過(guò)程。

        如圖1所示,虛線框內(nèi)的步驟為權(quán)重處理的流程。經(jīng)過(guò)預(yù)處理后,文本去除了停用詞,并以詞語(yǔ)的形式保存,詞與詞之間用空格分隔,段落之間使用換行符分隔。使用預(yù)處理后的文本數(shù)據(jù)作為輸入,對(duì)文本進(jìn)行位置權(quán)重賦值,賦值規(guī)則如下:

        圖1 權(quán)重處理流程

        對(duì)于標(biāo)題段落內(nèi)的詞語(yǔ),權(quán)重值乘以2。通過(guò)中國(guó)大學(xué)信息查詢系統(tǒng),獲取國(guó)內(nèi)所有高校的名稱(chēng)及其所對(duì)應(yīng)的專(zhuān)業(yè)類(lèi)別。檢索“摘要”和“關(guān)鍵詞”段落,對(duì)“摘要”段落內(nèi)的詞語(yǔ),權(quán)重值乘以1.5;“關(guān)鍵詞”段落內(nèi)的詞語(yǔ),權(quán)重值乘以2。檢索文本中前300個(gè)詞語(yǔ),與高校名稱(chēng)庫(kù)進(jìn)行匹配,若匹配成功,按高校所屬類(lèi)別乘以類(lèi)別權(quán)重,具體類(lèi)別權(quán)重見(jiàn)表1。若匹配失敗則不做額外賦值處理。

        表1 高校類(lèi)別對(duì)應(yīng)專(zhuān)業(yè)領(lǐng)域權(quán)重

        通過(guò)中國(guó)大學(xué)信息查詢系統(tǒng),收集“綜合類(lèi)”、“理工類(lèi)”、“師范類(lèi)”、“財(cái)經(jīng)類(lèi)”和“農(nóng)林類(lèi)”這五類(lèi)大學(xué),每類(lèi)10所院校。通過(guò)統(tǒng)計(jì)不同專(zhuān)業(yè)研究生數(shù)量進(jìn)行加權(quán)平均的方式,求得每個(gè)專(zhuān)業(yè)領(lǐng)域的權(quán)重,繪制成表1。

        在求得待分類(lèi)文本中所有特征詞語(yǔ)出現(xiàn)在不同類(lèi)別的聯(lián)合概率分布后,可以得到該文本分別屬于各個(gè)類(lèi)別的概率值,再將各個(gè)類(lèi)別的概率值與表1的專(zhuān)業(yè)領(lǐng)域權(quán)重進(jìn)行相乘,最終取概率值較大的類(lèi)別,即為待分類(lèi)文本的類(lèi)別。

        關(guān)鍵信息權(quán)重處理中標(biāo)題段、摘要段和關(guān)鍵詞處的權(quán)重系數(shù)為通過(guò)多次實(shí)驗(yàn)后,經(jīng)過(guò)分類(lèi)效果對(duì)比,最終確定的具體數(shù)值。

        2.2 詞密度權(quán)重處理

        傳統(tǒng)TF-IDF算法單純地認(rèn)為文本頻率越小的詞語(yǔ)越具有區(qū)別文本類(lèi)別的能力,而文本頻率越大的詞語(yǔ)就越無(wú)用,這樣的思想并不是完全正確的。造成這一問(wèn)題的主要原因是IDF值的計(jì)算方式較為簡(jiǎn)單,只考慮了某個(gè)詞語(yǔ)與其出現(xiàn)的文本數(shù)量之間的關(guān)系。為解決這一問(wèn)題,在PRE-TF-IDF算法中增加了詞密度權(quán)重處理環(huán)節(jié),該環(huán)節(jié)的主要原理是通過(guò)類(lèi)別內(nèi)詞密度和類(lèi)別外詞密度兩個(gè)指標(biāo)對(duì)特征詞語(yǔ)的類(lèi)別區(qū)分能力進(jìn)行衡量。

        通過(guò)ICD(intra class density,類(lèi)別內(nèi)詞密度)來(lái)表示特征詞語(yǔ)在類(lèi)別內(nèi)文本中的出現(xiàn)密度權(quán)重;用OCD(outer class density,類(lèi)別外詞密度)來(lái)表示特征詞語(yǔ)在其他類(lèi)別文本中出現(xiàn)的密度權(quán)重。同時(shí)引入WF(word frequency,詞語(yǔ)出現(xiàn)頻數(shù)),即WF(wi)、WF(wi,Cj)和WF(wi,Cjk)這三個(gè)參數(shù)進(jìn)行計(jì)算。

        類(lèi)別內(nèi)詞密度權(quán)重ICD表示為:

        (4)

        類(lèi)別外詞密度權(quán)重OCD表示為:

        (5)

        式(4)和式(5)中,WF(wi)表示特征詞語(yǔ)wi在所有類(lèi)別文本中出現(xiàn)的頻數(shù)總數(shù),WF(wi,Cj)表示特征詞語(yǔ)wi在第j類(lèi)中的頻數(shù),WF(wi,Cjk)表示特征詞語(yǔ)wi在第j類(lèi)中第k篇文本中出現(xiàn)的頻數(shù),n表示第j類(lèi)中文本的總數(shù),m表示文本的類(lèi)別總數(shù)。

        類(lèi)別內(nèi)詞密度權(quán)重ICD的取值范圍為[0,1]。當(dāng)ICD值趨向于0時(shí),表明在類(lèi)別內(nèi)特征詞語(yǔ)wi的出現(xiàn)密度較為平均,能夠很好地體現(xiàn)該類(lèi)文本的共性;當(dāng)取值趨向于1時(shí),表明特征詞語(yǔ)wi在該類(lèi)文本中出現(xiàn)密度不平均,存在某些文本頻數(shù)過(guò)高的情況,不具有代表性。

        類(lèi)別外詞密度權(quán)重OCD的取值范圍也為[0,1]。當(dāng)取值趨向于0時(shí),表明特征詞語(yǔ)wi在不同類(lèi)別的文本中都有較為平均的出現(xiàn)密度,不能很好地代表某一類(lèi)文本;當(dāng)取值趨向于1時(shí),表明特征詞語(yǔ)在不同類(lèi)別中的出現(xiàn)密度分布不均,類(lèi)別區(qū)分能力較強(qiáng)。

        綜上所述,當(dāng)某個(gè)特征詞語(yǔ)的ICD值趨向于0,OCD值趨向于1時(shí),代表該詞語(yǔ)針對(duì)某一類(lèi)文本具有較強(qiáng)的代表能力?;趥鹘y(tǒng)TF-IDF算法,結(jié)合ICD和OCD兩種詞密度權(quán)重,最終形成PRE-TF-IDF權(quán)重計(jì)算函數(shù):

        PRE-TF-IDF=TF×IDF×OCD×(1-ICD)

        (6)

        式(6)中,TF表示詞頻,由式(2)定義;IDF表示逆文本頻率,由式(3)定義;OCD表示類(lèi)別外詞密度權(quán)重,由式(5)定義;ICD表示類(lèi)別內(nèi)詞密度權(quán)重,由式(4)定義。

        3 實(shí)驗(yàn)結(jié)果與分析

        采用三個(gè)性能評(píng)估指標(biāo)來(lái)對(duì)基于權(quán)重預(yù)處理的PRE-TF-IDF分類(lèi)算法進(jìn)行實(shí)驗(yàn)分析,分別是精確率(Precision)、召回率(Recall)和F1值(F1 Score)。通過(guò)對(duì)相同數(shù)據(jù)集使用傳統(tǒng)選取方式和該文優(yōu)化后的選取方式,進(jìn)行對(duì)照實(shí)驗(yàn)并評(píng)估。實(shí)驗(yàn)運(yùn)行設(shè)備是在安裝了Windows10專(zhuān)業(yè)版操作系統(tǒng),內(nèi)存為16 GB,CPU(central processing unit,中央處理器)主頻為2.8 GHz的PC機(jī)上進(jìn)行的。主要使用的軟件環(huán)境是基于Python3.6.7內(nèi)核和Pycharm 2018.12.5版本,采用的數(shù)據(jù)集源于復(fù)旦大學(xué)中文文本分類(lèi)語(yǔ)料庫(kù)。在實(shí)驗(yàn)過(guò)程中,將獲取的數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集并且按照1∶1的比例進(jìn)行實(shí)驗(yàn)評(píng)估。分類(lèi)類(lèi)別為8種,訓(xùn)練集共8 800篇文章,測(cè)試集共8 800篇文本。文本以“.txt”的格式進(jìn)行保存,實(shí)驗(yàn)共分為10組,將這8類(lèi)文本進(jìn)行等比例縮放,形成10組數(shù)據(jù)集,具體數(shù)據(jù)集明細(xì)如表2所示。

        表2 數(shù)據(jù)集分類(lèi)明細(xì)

        將上述數(shù)據(jù)按照所占比例的大小,分成10組實(shí)驗(yàn)數(shù)據(jù)集,其中訓(xùn)練集和測(cè)試集的比例為1∶1,表3描述了每組數(shù)據(jù)的大小。

        表3 數(shù)據(jù)集分組大小

        在完成分詞后,針對(duì)文本中出現(xiàn)的語(yǔ)氣助詞、人稱(chēng)、標(biāo)點(diǎn)符號(hào)這類(lèi)對(duì)文本特征沒(méi)有貢獻(xiàn)的字詞,將其收集、合并,形成了一個(gè)停用詞列表。通過(guò)與停用詞列表匹配并將停用詞從文本中去除掉,以達(dá)到提升程序運(yùn)行效率、減少干擾因素和提高算法準(zhǔn)確性的目的。

        3.1 特征詞語(yǔ)選取

        在實(shí)驗(yàn)過(guò)程中,特征詞語(yǔ)選取的數(shù)量對(duì)PRE-TF-IDF算法的精確率和運(yùn)行效率都有一定的影響。通過(guò)實(shí)驗(yàn)計(jì)算出兼顧精確率與運(yùn)行效率的特征詞語(yǔ)占比。實(shí)驗(yàn)時(shí),將訓(xùn)練集和測(cè)試集的數(shù)量都定為8 800,在保持這一條件不變的情況下,通過(guò)調(diào)整特征詞語(yǔ)所占的比重,觀察運(yùn)行效率和精確率的變化,最終選取最佳的特征詞語(yǔ)占比。

        圖2 特征向量占文本比重

        根據(jù)圖2可知,在一定范圍內(nèi),PRE-TF-IDF算法的分類(lèi)準(zhǔn)確性隨著特征詞語(yǔ)在文本中的比重增加而增加。但當(dāng)特征詞語(yǔ)占文本比重超過(guò)一定數(shù)值后,反而使得算法分類(lèi)的效果下降,對(duì)分類(lèi)的精確率產(chǎn)生負(fù)面影響。所以,特征詞語(yǔ)在文本中的比重存在一個(gè)峰值。隨著特征詞語(yǔ)在文本中的比重不斷增加,算法進(jìn)行文本分類(lèi)時(shí)所需要的時(shí)間也隨之變長(zhǎng)。最終得出精確率峰值時(shí)的平均值為特征詞語(yǔ)所占文本的比重17.57%。此時(shí),能使得PRE-TF-IDF算法兼顧分類(lèi)精確率和運(yùn)行效率。

        3.2 精確率

        精確率定義為測(cè)試集文本經(jīng)過(guò)算法所分類(lèi)出的類(lèi)別與其正確類(lèi)別之間的百分比,也就是正確分類(lèi)的文本占所有文本的百分比,其對(duì)應(yīng)的公式如下:

        (7)

        其中,TP表示被正確分類(lèi)的文本,F(xiàn)P表示被錯(cuò)誤分類(lèi)的文本數(shù)量,(TP+FP)即文本的總數(shù)量[14]。

        這里將上述8類(lèi)文本按照文本數(shù)量的大小進(jìn)行從小到大的排序,隨著訓(xùn)練集數(shù)量的增加,觀察不同算法對(duì)于文本分類(lèi)精確率的表現(xiàn)。實(shí)驗(yàn)中將KNN[15]、LR[7]、TF-IDF[12]算法和所提出的PRE-TF-IDF算法進(jìn)行對(duì)比,結(jié)果如圖3所示。

        圖3 四種分類(lèi)算法在不同數(shù)據(jù)集下的

        由圖3可知,PRE-TF-IDF權(quán)重預(yù)處理優(yōu)化算法進(jìn)行分類(lèi)的準(zhǔn)確率比KNN、LR和傳統(tǒng)TF-IDF算法都要高。隨著訓(xùn)練集文本量的增加,各個(gè)分類(lèi)模型的精確率也在不斷增加。當(dāng)數(shù)據(jù)集數(shù)量達(dá)到最大時(shí),KNN算法、LR、TF-IDF和PRE-TF-IDF算法對(duì)應(yīng)的精確率分別為74.8%、80.0%、84.9%和86.9%。LR算法當(dāng)遭遇特征空間較大時(shí),進(jìn)行LR分類(lèi)時(shí)的性能不是很好,容易出現(xiàn)欠擬合,精確性不高的情況。傳統(tǒng)TF-IDF算法結(jié)合樸素貝葉斯分類(lèi)器在進(jìn)行分類(lèi)時(shí),雖然精確性相比于KNN和LR算法有所提升,但是由于傳統(tǒng)TF-IDF算法存在無(wú)法根據(jù)詞語(yǔ)位置信息分別賦予權(quán)重和僅憑文本詞頻進(jìn)行IDF值計(jì)算的問(wèn)題,所以精確性存在一定的限制。PRE-TF-IDF算法由于增加了權(quán)重預(yù)處理和詞密度處理兩個(gè)環(huán)節(jié),相比于傳統(tǒng)的算法,精確率提升了2%~5.5%。

        3.3 召回率

        召回率作為一項(xiàng)評(píng)估文本分類(lèi)系統(tǒng)從數(shù)據(jù)集中分類(lèi)成功度的指標(biāo),用來(lái)體現(xiàn)分類(lèi)算法的完備性,數(shù)值越高代表算法的成功度越高。具體公式如下:

        (8)

        其中,TP表示被正確分類(lèi)的文本數(shù)量,F(xiàn)N表示應(yīng)當(dāng)被分到錯(cuò)誤類(lèi)別中的文本的數(shù)量。為了評(píng)估PRE-TF-IDF算法的召回率指標(biāo),同樣進(jìn)行十組不同數(shù)據(jù)量的對(duì)照實(shí)驗(yàn)。分別采用KNN、LR、TF-IDF算法和PRE-TF-IDF算法進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖4所示。

        圖4 不同分類(lèi)算法的召回率對(duì)比

        由圖4可以看出,PRE-TF-IDF的召回率比其他三種文本分類(lèi)算法的召回率都要高。文本分類(lèi)的召回率和精確率往往隨著數(shù)據(jù)集的增加而有所提升,召回率與數(shù)據(jù)集的數(shù)量總體上成線性增長(zhǎng)。當(dāng)數(shù)據(jù)集數(shù)量達(dá)到最大時(shí),KNN算法、LR、TF-IDF和PRE-TF-IDF算法對(duì)應(yīng)的召回率分別為73.6%、79.0%,83.3%和86.5%。

        3.4 F1值

        F1值是一個(gè)綜合考慮精確率和召回率的指標(biāo),同時(shí)兼顧了分類(lèi)模型中的精確率和召回率,也可以將這個(gè)指標(biāo)看作是算法精確率和召回率的調(diào)和平均。計(jì)算公式如下:

        (9)

        其中,P表示精確率(Precision),R表示召回率(Recall),這兩個(gè)指標(biāo)反映了分類(lèi)準(zhǔn)確性和成功性兩個(gè)不同的方面。將精確率和召回率數(shù)據(jù)進(jìn)行計(jì)算,并繪制成如圖5所示的折線圖。

        F1值通過(guò)精確率和召回率計(jì)算而得,可以用來(lái)評(píng)價(jià)整個(gè)分類(lèi)器分類(lèi)效果的優(yōu)劣。KNN、LR、TF-IDF和PRE-TF-IDF的F1值最終分別為0.742、0.795、0.841和0.867。

        圖5 不同分類(lèi)算法的F1值對(duì)比

        4 結(jié)束語(yǔ)

        該文首先介紹了傳統(tǒng)TF-IDF算法的實(shí)現(xiàn)原理,并指出了傳統(tǒng)TF-IDF算法存在的兩個(gè)問(wèn)題,即無(wú)法根據(jù)詞語(yǔ)的位置信息進(jìn)行權(quán)重賦值和僅憑文本詞頻計(jì)算IDF值。對(duì)此,該文提出了一種基于權(quán)重預(yù)處理的PRE-TF-IDF算法。通過(guò)PRE-TF-IDF算法中的關(guān)鍵信息權(quán)重處理和詞密度權(quán)重處理兩個(gè)環(huán)節(jié)來(lái)相應(yīng)地解決傳統(tǒng)TF-IDF算法存在的兩個(gè)問(wèn)題,并且描述了原理和處理流程。通過(guò)實(shí)驗(yàn),將PRE-TF-IDF算法與現(xiàn)有的KNN、LR和傳統(tǒng)TF-IDF算法進(jìn)行對(duì)照,在精確率、召回率和F1值這三個(gè)方面進(jìn)行對(duì)比,對(duì)PRE-TF-IDF算法進(jìn)行了評(píng)估。

        猜你喜歡
        分類(lèi)特征文本
        分類(lèi)算一算
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        分類(lèi)討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        欧美丰满熟妇bbb久久久| 中文字幕亚洲精品一二三区 | 国产三区二区一区久久| 国产精品爽爽ⅴa在线观看| 欧美熟妇色ⅹxxx欧美妇| 精品福利一区| 人妻体体内射精一区中文字幕| 欧美v国产v亚洲v日韩九九| 国产大陆亚洲精品国产| 亚洲精品国产品国语在线app | 久久精品国产只有精品96| 国产精品污www一区二区三区| 久久99中文字幕久久| 99伊人久久精品亚洲午夜| 久久人人爽爽爽人久久久 | 国产a三级久久精品| 欧美人与动牲交片免费| 高清中文字幕一区二区三区| 日韩日韩日韩日韩日韩日韩| 天天爽天天爽天天爽| 国产成人精品蜜芽视频| 亚洲一区二区刺激的视频| 男女猛烈xx00免费视频试看| 久久天天躁夜夜躁狠狠躁2022| 国产美女自拍国语对白| 国产亚洲av成人噜噜噜他| 亚洲精品综合中文字幕组合| 亚洲熟妇无码久久精品| 97精品人妻一区二区三区香蕉| 免费黄网站久久成人精品| 亚洲国产91高清在线| 三级做a全过程在线观看| 精品国产a∨无码一区二区三区| 精品一区二区三区人妻久久| 亚洲一区二区三区综合免费在线| 国产午夜精品一区二区三区| 亚洲A∨无码国产精品久久网| 亚洲情精品中文字幕99在线| 无码人妻丰满熟妇啪啪网不卡 | 99久久国产一区二区三区| 亚洲精品中文字幕一区二区|