亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機(jī)器學(xué)習(xí)的中文論文自動分類

2018-01-30 13:42:34賈瑞強(qiáng)

大經(jīng)貿(mào) 2017年12期

賈瑞強(qiáng)

一.引言

1.選題背景和意義

隨著現(xiàn)代科技的發(fā)展，信息量在成幾何級數(shù)膨脹，每天都有大量新的論文產(chǎn)生，紙張這些傳統(tǒng)的存儲介質(zhì)已經(jīng)不能滿足現(xiàn)有的需求，構(gòu)建數(shù)字圖書館勢在必行。中國知網(wǎng)是我國目前比較成功的論文數(shù)字圖書館，構(gòu)建數(shù)字圖書館就是將期刊論文進(jìn)行電子化，電子化就必然會面臨兩個主要工作：期刊論文的格式必須有統(tǒng)一標(biāo)準(zhǔn)和期刊論文的分類管理。經(jīng)過多年的努力，期刊論文現(xiàn)在已經(jīng)形成了一套統(tǒng)一的著錄標(biāo)準(zhǔn)，期刊論文的分類管理還基本是以人工分類為主。人工分類目前面臨兩個問題：一個是隨著期刊論文數(shù)量的快速增長，人工分類顯得心有余而力不足，人工分類每天能分類的數(shù)量是固定的，即使增加人力成本，想要趕上期刊論文增長的速度還是很困難的，這無疑給分類工作增加了很大的壓力；第二個問題是人工分類存在一定的主觀性，分類工作人員一般會通過期刊論文的標(biāo)題和來源來確定論文的類別，比較少的閱讀論文全文來對論文進(jìn)行分類，因此分類的正確率受人的主觀意識影響很大。鑒于這種情況的基礎(chǔ)上，研究期刊論文的自動分類能夠有效的解決以上兩個問題，不僅可以減輕人工分類的壓力，提高分類的效率，還能提高分類結(jié)果的正確率，減少主觀因素的影響。。

二.模型的實現(xiàn)

1.1數(shù)據(jù)準(zhǔn)備

首先將所有的論文通過python里的jieba模塊進(jìn)行分詞，將出現(xiàn)的名詞、形容詞、動名詞作為總詞包，將在數(shù)理統(tǒng)計的論文里出現(xiàn)的詞歸結(jié)為數(shù)理統(tǒng)計詞包，將在經(jīng)濟(jì)統(tǒng)計的論文里出現(xiàn)的詞歸結(jié)為經(jīng)濟(jì)統(tǒng)計詞包，從數(shù)理統(tǒng)計包和經(jīng)濟(jì)統(tǒng)計詞包各取10個高頻詞作為高詞頻包

詞包結(jié)果圖如下：

1.2 詞包初探：從做成的詞包，統(tǒng)計成詞頻數(shù)據(jù)，并做成詞云圖。

由詞云圖可以看出，數(shù)理統(tǒng)計的論文中，都是理論性的詞語詞頻較高，如：數(shù)據(jù)、研究、應(yīng)用、模型等詞。而經(jīng)濟(jì)統(tǒng)計學(xué)論文中更偏經(jīng)濟(jì)學(xué)，如：經(jīng)濟(jì)、發(fā)展、分析等詞出現(xiàn)頻率較高。由此可以初步判定，通過詞頻的差別作為論文類別區(qū)分的特征是合理的。

1.3 建立模型

1.3.1 論文類別的預(yù)測

在模型識別和機(jī)器學(xué)習(xí)中的相關(guān)研究中，經(jīng)常會將整個數(shù)據(jù)集合分成兩個部分，分別是訓(xùn)練集合合測試集，假設(shè)X是集合全體，A是全集X的非空真子集，那么非空集合X、A則是集合A在全集X中的補(bǔ)集。于是可以在A上面做訓(xùn)練和分析，而幾個X、A則用來做測試和驗證。一開始的集合A被稱作訓(xùn)練集，而他的補(bǔ)集A被稱作是驗證集或者測試集。這是一個重要的觀點就是：只有訓(xùn)練集才可以使用在模型的訓(xùn)練之中，而測試集必須在模型訓(xùn)練完成后才用來評估模型的誤差。

從驗證結(jié)果中可以看出，正確率在大于90%，通過樸素貝葉斯模型預(yù)測論文類別，是可以行的。

【參考文獻(xiàn)】

[1] 白如江基于粗糙集和神經(jīng)網(wǎng)絡(luò)的文本自動分類方法現(xiàn)代圖書情報技術(shù)，：白小明，邱桃榮.

[2] 基于和算法的科技文獻(xiàn)自動分類研究微計算機(jī)信息，：包劍，冀常鵬，李義杰.

[3] 基于矢量空間模型的文本自動分類系統(tǒng)研究計算機(jī)系統(tǒng)應(yīng)用，：陳玉.

[4] 多類別科技文獻(xiàn)動分類系統(tǒng)碩士學(xué)位論文湖北：華中科技大學(xué)，楚存坤，李韜.

[5] 模糊聚類技術(shù)在文獻(xiàn)自動分類系統(tǒng)中的應(yīng)用現(xiàn)代情報：刁倩，張惠惠，玉永成，何驥.endprint