亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于樸素貝葉斯分類(lèi)器的中文論文自動(dòng)分類(lèi)算法

        2024-01-02 00:00:00廖興思

        摘 要:本文針對(duì)人工分類(lèi)論文準(zhǔn)確性、一致性較低,并且時(shí)間、精力耗費(fèi)較大等問(wèn)題,提出一種基于樸素貝葉斯分類(lèi)器的中文論文自動(dòng)分類(lèi)算法。該算法根據(jù)TF-IDF值,從論文的標(biāo)題、關(guān)鍵詞、摘要和刊名中提取特征詞,構(gòu)建論文特征詞向量,將其作為樸素貝葉斯分類(lèi)器的分類(lèi)依據(jù)。并假設(shè)論文特征相互獨(dú)立,降低了算法復(fù)雜度和模型訓(xùn)練難度,能夠獲得較高的分類(lèi)正確率。試驗(yàn)結(jié)果表明,該算法的分類(lèi)正確率在83%以上,具有較高的準(zhǔn)確性和一致性,能夠有效輔助人工進(jìn)行論文分類(lèi)工作。

        關(guān)鍵詞:樸素貝葉斯分類(lèi)器;期刊分類(lèi);自動(dòng)分類(lèi)

        中圖分類(lèi)號(hào):TP 182 " " 文獻(xiàn)標(biāo)志碼:A

        分類(lèi)是使信息有序化的基本方法,也是圖書(shū)館工作的重要內(nèi)容之一,圖書(shū)館工作人員需要投入大量時(shí)間和精力為新采購(gòu)的圖書(shū)和期刊指派分類(lèi)號(hào)。我國(guó)制定的《中國(guó)圖書(shū)館分類(lèi)法》包括約5.4萬(wàn)個(gè)分類(lèi)號(hào),如果考慮復(fù)分,那么分類(lèi)號(hào)會(huì)進(jìn)一步增加。龐大的分類(lèi)體系給圖書(shū)館工作人員帶來(lái)了巨大挑戰(zhàn)[1]。尤其是在目前科學(xué)技術(shù)迅猛發(fā)展的背景下,科研人員每年產(chǎn)出大量論文,為這些論文指定準(zhǔn)確的分類(lèi)號(hào),既是一項(xiàng)基于圖書(shū)館專(zhuān)業(yè)知識(shí)的腦力勞動(dòng),也是一項(xiàng)消耗圖書(shū)館工作人員時(shí)間和精力的“體力”勞動(dòng)。

        因此本文提出基于樸素貝葉斯分類(lèi)器的中文論文分類(lèi)算法。該算法能夠利用歷史分類(lèi)數(shù)據(jù)訓(xùn)練算法參數(shù),并以較高正確率對(duì)論文自動(dòng)分類(lèi)。該算法假設(shè)論文特征間相互獨(dú)立,具有計(jì)算復(fù)雜度低、操作簡(jiǎn)單和性能較好等優(yōu)勢(shì)。

        1 樸素貝葉斯分類(lèi)器原理

        貝葉斯分類(lèi)的原理是利用貝葉斯公式計(jì)算實(shí)例所屬類(lèi)別的概率,將具有最大概率的類(lèi)作為該實(shí)例所屬類(lèi)。假設(shè)實(shí)例X具有m個(gè)屬性,構(gòu)成屬性集{x1,x2,...,xm},該實(shí)例有可能屬于n個(gè)類(lèi)別,構(gòu)成類(lèi)別集{C1,C2,...,Cn}。逐一計(jì)算實(shí)例A屬于每個(gè)類(lèi)別的條件概率,如公式(1)所示。

        (1)

        進(jìn)而選出條件概率最大的類(lèi)別,將其作為實(shí)例X的所屬類(lèi)別。條件概率計(jì)算分母P(X)為常量,在不影響最大條件概率計(jì)算結(jié)果的情況下,可簡(jiǎn)化不予計(jì)算。簡(jiǎn)化后的貝葉斯分類(lèi)器計(jì)算公式為C(X)=P(Ci)P(X|Ci)。

        通常情況下,實(shí)例X的m個(gè)屬性在特定類(lèi)別Ci中出現(xiàn)的概率是相關(guān)的,這將導(dǎo)致條件概率P(X|Ci)的計(jì)算復(fù)雜度較高,甚至統(tǒng)計(jì)樣本不足,無(wú)法直接計(jì)算。因此,本文假設(shè)m個(gè)屬性在特定類(lèi)別Ci中出現(xiàn)的概率相互獨(dú)立,P(X|Ci)的計(jì)算將簡(jiǎn)化為∏m j=1P(xj|Ci)。該假設(shè)被稱(chēng)為樸素貝葉斯假設(shè),基于該假設(shè)進(jìn)行的貝葉斯分類(lèi)器設(shè)計(jì)被稱(chēng)為樸素貝葉斯分類(lèi)[2]。樸素貝葉斯分類(lèi)器的計(jì)算公為C(X)=P(Ci)∏m j=1P(xj|Ci)。

        樸素貝葉斯分類(lèi)器的運(yùn)用包括訓(xùn)練和分類(lèi)2個(gè)階段。訓(xùn)練階段主要根據(jù)已有分類(lèi)數(shù)據(jù),估計(jì)任一實(shí)例X被分類(lèi)到類(lèi)別Ci的先驗(yàn)概率P(Ci)和任一屬性xi出現(xiàn)在類(lèi)別Ci的條件概率??梢愿鶕?jù)極大似然估計(jì)法,并利用實(shí)例和屬性出現(xiàn)的頻率估計(jì)上述概率參數(shù)。樸素貝葉斯分類(lèi)器算法邏輯簡(jiǎn)單、易于實(shí)現(xiàn),分類(lèi)過(guò)程中時(shí)間、空間開(kāi)銷(xiāo)較小,并且算法性能穩(wěn)定,對(duì)于不同的數(shù)據(jù)特點(diǎn),其分類(lèi)性能差別不大,具有較好的魯棒性,目前已廣泛應(yīng)用于各類(lèi)分類(lèi)任務(wù)中[3]。

        2 基于樸素貝葉斯分類(lèi)器的中文論文自動(dòng)分類(lèi)算法

        根據(jù)樸素貝葉斯分類(lèi)器原理設(shè)計(jì)的中文論文分類(lèi)算法如圖1所示,該算法分為模型訓(xùn)練和分類(lèi)2個(gè)階段。模型訓(xùn)練階段主要根據(jù)已分類(lèi)數(shù)據(jù),利用極大似然估計(jì)法估計(jì)樸素貝葉斯分類(lèi)器的先驗(yàn)概率和條件概率參數(shù)。分類(lèi)階段根據(jù)分類(lèi)實(shí)例的特征詞向量,計(jì)算該實(shí)例屬于各類(lèi)別的條件概率,將條件概率最大的類(lèi)別作為該實(shí)例所屬分類(lèi)。該算法的關(guān)鍵之處是從論文的元數(shù)據(jù)中提取特征詞,構(gòu)建表征論文特征的特征詞向量。

        2.1 特征詞提取

        特征詞是將文獻(xiàn)進(jìn)行分類(lèi)的依據(jù),最典型的特征詞是關(guān)鍵詞。在自動(dòng)分類(lèi)中,特征詞將不再局限于關(guān)鍵詞,一切與文獻(xiàn)分類(lèi)相關(guān)的詞匯均可以作為特征詞。本算法將論文的標(biāo)題、關(guān)鍵詞、摘要和刊名作為特征詞來(lái)源。關(guān)鍵詞和刊名是獨(dú)立的意義單位,無(wú)須分詞,可以直接作為表征論文內(nèi)容屬性的特征詞。標(biāo)題和摘要的句子較長(zhǎng),無(wú)法直接作為特征詞。本算法使用結(jié)巴分詞工具,在全模式下[4]對(duì)標(biāo)題和摘要進(jìn)行分詞,將分詞后的詞匯表作為表征論文內(nèi)容屬性的特征詞來(lái)源。分詞后的詞匯表包括介詞、助詞等不能表征論文內(nèi)容屬性的詞匯,不同詞匯在分類(lèi)過(guò)程中輔助分類(lèi)的能力也存在差異。本算法將詞頻-逆文檔頻率(term frequency–inverse document frequency,TF-IDF)值作為表征詞匯分類(lèi)能力的度量工具,提取TF-IDF值排名靠前的詞匯作為論文特征詞。

        2.2 模型訓(xùn)練

        模型訓(xùn)練過(guò)程是根據(jù)已有分類(lèi)數(shù)據(jù)估計(jì)樸素貝葉斯分類(lèi)器先驗(yàn)概率和條件概率的過(guò)程。假設(shè)已分類(lèi)論文集為D,從論文集中提取m個(gè)特征詞x1,x2,...,xm,將論文分為n類(lèi),分別為C1,C2,...,Cn。先驗(yàn)概率的計(jì)算方法如公式(2)所示,各特征詞的條件概率計(jì)算方法如公式(3)所示。

        (2)

        式中:DCj為數(shù)據(jù)集D中分類(lèi)為Cj的論文數(shù)量;|D |為論文集中的論文總量。

        (3)

        式中:Dij為包括特征詞xi并被分類(lèi)為類(lèi)別Cj 的論文數(shù)量。

        在訓(xùn)練過(guò)程中,Dij的值可能為0,這將導(dǎo)致條件概率的計(jì)算結(jié)果為0,不利于分類(lèi)。本文采用“拉普拉斯修正”進(jìn)行平滑處理,將分子加1,即假設(shè)任一特征詞xi在任一類(lèi)別中均出現(xiàn)過(guò)1次,即將分子由Dij變?yōu)镈ij+1,將分母加上論文總數(shù),即由DCj變?yōu)镈Cj+|D |,變換后的條件概率計(jì)算方法如公式(4)所示。

        (4)

        進(jìn)而根據(jù)已分類(lèi)論文集計(jì)算特征詞的TF-IDF值,將其作為從標(biāo)題和摘要的分詞詞匯集合中提取有效特征詞的依據(jù)。采用文獻(xiàn)[4]中的TF-IDF權(quán)重計(jì)算方法,分別計(jì)算標(biāo)題和摘要特征詞的TF-IDF值,如公式(5)所示。

        (5)

        式中:fij為特征詞xi在某篇論文標(biāo)題或摘要分詞結(jié)果中出現(xiàn)的頻率;ni為整個(gè)論文集中,標(biāo)題或摘要包括該特征詞的論文總數(shù)。

        2.3 論文分類(lèi)

        論文分類(lèi)包括2步(如圖1所示)。1)對(duì)標(biāo)題和摘要進(jìn)行分詞,并根據(jù)詞匯的TF-IDF值提取特征詞,形成表征論文內(nèi)容屬性的特征詞向量。2)根據(jù)模型訓(xùn)練環(huán)節(jié)所得參數(shù),計(jì)算最大條件概率,計(jì)算方法如公式(6)所示,其中p(Cj )根據(jù)公式(2)計(jì)算得出;log2p(xi|Cj )為估計(jì)的條件概率,根據(jù)公式(3)計(jì)算得出。

        (6)

        式中:p(Cj )為估計(jì)的先驗(yàn)概率;log2p(xi|Cj )為估計(jì)的條件概率。

        由于條件概率數(shù)值較小,連續(xù)乘法會(huì)導(dǎo)致計(jì)算機(jī)下界溢出,因此將條件概率取對(duì)數(shù),將乘法運(yùn)算轉(zhuǎn)換為加法運(yùn)算,避免發(fā)生上述情況。該優(yōu)化計(jì)算方法所得分類(lèi)結(jié)果與原始計(jì)算方法所得分類(lèi)結(jié)果相同。

        3 試驗(yàn)結(jié)果

        3.1 試驗(yàn)設(shè)計(jì)

        在中國(guó)知網(wǎng)上利用網(wǎng)絡(luò)爬蟲(chóng)隨機(jī)采集757268篇期刊論文元數(shù)據(jù),以驗(yàn)證分類(lèi)器性能,元數(shù)據(jù)包括標(biāo)題、關(guān)鍵詞、摘要、刊名和分類(lèi)號(hào)5個(gè)字段。試驗(yàn)數(shù)據(jù)將分類(lèi)號(hào)字段按照字母和數(shù)字排序,排序后,類(lèi)號(hào)相同的論文相鄰。根據(jù)排序號(hào)的個(gè)位數(shù),將數(shù)據(jù)集分為10份,每份數(shù)據(jù)為總體數(shù)據(jù)中的一個(gè)樣本,并且每份數(shù)據(jù)的分類(lèi)號(hào)占比基本相同。試驗(yàn)中隨機(jī)選取9份作為訓(xùn)練數(shù)據(jù),1份作為測(cè)試數(shù)據(jù),將《中國(guó)圖書(shū)館分類(lèi)法》第1個(gè)層級(jí)22個(gè)大類(lèi)作為分類(lèi)目標(biāo)。

        在訓(xùn)練階段,根據(jù)訓(xùn)練數(shù)據(jù)集計(jì)算模型參數(shù)。在測(cè)試階段,根據(jù)模型參數(shù)計(jì)算論文所屬分類(lèi),并將分類(lèi)結(jié)果與知網(wǎng)上的分類(lèi)結(jié)果進(jìn)行比較,將比較結(jié)果相同的論文數(shù)量與測(cè)試論文數(shù)量的比值,即分類(lèi)正確率作為評(píng)估分類(lèi)器性能的指標(biāo)。

        特征詞向量的設(shè)計(jì)是影響論文分類(lèi)正確率的關(guān)鍵因素。本文試驗(yàn)從單字段中選取特征詞,分析特征詞數(shù)量對(duì)分類(lèi)正確率的影響,進(jìn)而選取最優(yōu)特征詞數(shù)量,分析多字段特征組合情況下的論文分類(lèi)正確率。

        3.2 基于單字段特征的自動(dòng)分類(lèi)

        每篇論文元數(shù)據(jù)包括4個(gè)字段,其中刊名字段只提供1個(gè)特征詞,無(wú)須考慮特征詞數(shù)量對(duì)分類(lèi)器性能的影響。篇名、摘要和關(guān)鍵詞能夠提供1個(gè)以上的特征詞,需要分析特征詞數(shù)量對(duì)分類(lèi)器性能的影響。僅以刊名作為特征詞對(duì)論文進(jìn)行分類(lèi),分類(lèi)正確率高達(dá)73.5%,說(shuō)明期刊本身具有較強(qiáng)的分類(lèi)特征,原因是一份刊物通常集中發(fā)表特定學(xué)科、特定領(lǐng)域的論文,該類(lèi)論文通常歸屬于《中國(guó)圖書(shū)館分類(lèi)法》的某一類(lèi)。

        特征詞數(shù)量越多,提供給分類(lèi)器的信息就越多,分類(lèi)正確率也就越高。將論文的特征詞數(shù)量從1開(kāi)始遞增,分別計(jì)算每個(gè)特征詞數(shù)量條件下的模型參數(shù)和預(yù)測(cè)正確率,形成不同特征詞數(shù)量條件下的論文分類(lèi)正確率曲線(xiàn),如圖2所示??傮w來(lái)看,從摘要中提取特征詞進(jìn)行分類(lèi)的正確率最高,從關(guān)鍵詞中提取特征詞的分類(lèi)正確率最低。導(dǎo)致該差異的原因是摘要包括的特征詞數(shù)量大于題名,題名中包括的特征詞數(shù)量大于摘要,表征論文內(nèi)容特征的特征詞更多,將有利于提升分類(lèi)器的分類(lèi)正確率,但是并不絕對(duì)。

        分析從摘要中提取特征詞的分類(lèi)正確率曲線(xiàn)可知,在特征詞數(shù)量從1增至10的階段,分類(lèi)正確率隨特征詞數(shù)量增加而增加,但是當(dāng)特征詞數(shù)量超過(guò)10個(gè)以后,分類(lèi)正確率隨著特征詞數(shù)量的增加而迅速降低。其原因是摘要中包括大量介詞、助詞等不能表征論文內(nèi)容特征的詞匯。將這些詞匯作為論文特征詞,將無(wú)法提升分類(lèi)正確率。從標(biāo)題中提取特征詞的分類(lèi)正確率趨勢(shì)與之相似,但是由于標(biāo)題的總長(zhǎng)度有限,能夠提供的詞匯有限,因此在特征詞數(shù)量超過(guò)13個(gè)以后,分類(lèi)正確率不再下降。

        將關(guān)鍵詞作為特征詞來(lái)源,分類(lèi)正確率會(huì)隨特征詞數(shù)量的增加而迅速增加,但是在特征詞數(shù)量超過(guò)5個(gè)以后,分類(lèi)正確率的變化幾乎是直線(xiàn),其原因是論文的關(guān)鍵詞數(shù)量通常為3~5個(gè),即便將特征詞數(shù)量增加為5個(gè)以上,也無(wú)法從關(guān)鍵詞字段中提取到更多的關(guān)鍵詞。

        由上述分析可知,表征論文內(nèi)容特征的高質(zhì)量特征詞數(shù)量是影響分類(lèi)正確率的關(guān)鍵因素。在實(shí)際中,如果論文元數(shù)據(jù)數(shù)量較少,那么可以通過(guò)以下2種途徑補(bǔ)充論文高質(zhì)量特征詞數(shù)量。一種是從論文的內(nèi)容中直接提取高質(zhì)量特征詞,另一種是引入百科數(shù)據(jù)等額外數(shù)據(jù)源[5],從中提取高質(zhì)量特征詞。

        3.3 基于字段特征組合的自動(dòng)分類(lèi)

        組合4個(gè)字段來(lái)源的特征詞將有助于提升分類(lèi)正確率。將表征論文內(nèi)容屬性的特征詞數(shù)量設(shè)定為10個(gè),驗(yàn)證不同字段組合情況下的分類(lèi)正確率,如圖3所示。由圖3可知,使用的來(lái)源字段越多,分類(lèi)正確率越高。使用1個(gè)字段作為特征詞來(lái)源的分類(lèi)正確率約為73%,摘要的分類(lèi)正確率略高,為76.6%。使用2個(gè)字段作為特征詞來(lái)源的分類(lèi)正確率的差異較大,將標(biāo)題和刊名作為特征詞來(lái)源的分類(lèi)正確率最高,為82.4%;使用標(biāo)題和關(guān)鍵詞作為特征詞來(lái)源的分類(lèi)正確率最低,為78.2%。其原因是標(biāo)題和刊名間的信息相關(guān)度較低,組合能夠提供更豐富的信息;標(biāo)題和關(guān)鍵詞間的信息相關(guān)度較高,甚至有大量重合現(xiàn)象,組合能夠提供的信息量較少。使用3個(gè)字段作為特征詞來(lái)源的分類(lèi)正確率顯著高于使用2個(gè)字段的分類(lèi)器,但是將4個(gè)字段作為特征詞來(lái)源時(shí),分類(lèi)正確率的增加幅度并不顯著。

        4 結(jié)論

        本文提出了一種基于樸素貝葉斯分類(lèi)器的中文論文分類(lèi)算法。該算法假設(shè)論文特征相互獨(dú)立,降低了算法復(fù)雜度和模型訓(xùn)練難度,能夠獲得較高的分類(lèi)正確率。試驗(yàn)過(guò)程中討論了特征詞數(shù)量設(shè)定對(duì)分類(lèi)正確率的影響和組合不同字段來(lái)源特征詞對(duì)分類(lèi)正確率的影響。試驗(yàn)結(jié)果證明,增加能夠表征特征詞內(nèi)容屬性的高質(zhì)量特征詞數(shù)量是提升分類(lèi)算法正確率的關(guān)鍵,低質(zhì)量的特征詞反而會(huì)降低分類(lèi)正確率。在實(shí)踐中,可以從論文內(nèi)容或者百科數(shù)據(jù)等額外數(shù)據(jù)中豐富特征詞數(shù)量。本文算法的分類(lèi)正確率為83%,能夠有效輔助圖書(shū)館工作人員進(jìn)行高效分類(lèi)工作。

        參考文獻(xiàn)

        [1]高斌,馬菊紅,顧婷.基于語(yǔ)義的多層式圖書(shū)自動(dòng)分類(lèi)實(shí)證研究[J].圖書(shū)館學(xué)研究,2024(8):62-76.

        [2]蔣良孝.樸素貝葉斯分類(lèi)器及其改進(jìn)算法研究[D].武漢:中國(guó)地質(zhì)大學(xué),2009.

        [3]陳曉?shī)?,張?guó)華.基于樸素貝葉斯的大數(shù)據(jù)模糊隨機(jī)挖掘仿真[J].計(jì)算機(jī)仿真,2023,40(11):428-432.

        [4]曾小芹.基于Python的中文結(jié)巴分詞技術(shù)實(shí)現(xiàn)[J].信息與電腦(理論版),2019,31(18):38-39,42.

        [5]鄒鼎杰.基于知識(shí)圖譜和貝葉斯分類(lèi)器的圖書(shū)分類(lèi)[J].計(jì)算機(jī)工程與設(shè)計(jì),2020,41(6):1796-1801.

        精品一区二区三区a桃蜜| 人人妻人人澡人人爽曰本| 日韩在线观看你懂的| 狠狠亚洲婷婷综合久久久| 日韩av一区二区毛片| 亚洲国产不卡免费视频| 久久国内精品自在自线| 狠狠色婷婷久久一区二区三区 | 中国少妇×xxxx性裸交| 久久久久久人妻毛片a片| 日韩国产成人精品视频| 国产人成无码视频在线1000| 男女视频在线观看一区二区| 99久久免费视频色老| 亚洲国产另类精品| 亚洲午夜无码久久yy6080 | 北岛玲精品一区二区三区| 午夜免费观看日韩一级片| 国产精品久久久久免费观看| 爱性久久久久久久久| 青青草97国产精品免费观看| 久久久久久久妓女精品免费影院| 久久AⅤ天堂Av无码AV| 男女视频网站在线观看| 国内最真实的xxxx人伦| 国产一区二区三区四区五区vm| 麻豆成年视频在线观看| 成人麻豆视频免费观看| 久久精品国产亚洲av电影网| 国产精品11p| 蜜桃av噜噜一区二区三区免费| 国产亚洲视频在线播放| 熟妇的荡欲色综合亚洲| 国产精品黑色丝袜在线播放| 亚洲熟妇一区二区蜜桃在线观看 | 日本不卡一区二区三区在线| 久久aⅴ无码av免费一区| 久久午夜伦鲁鲁片免费| 中文字幕一区二区精品视频 | 国产一区二区三区av免费观看| 精品一区二区在线观看免费视频|