亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的中文論文自動分類

        2018-01-30 13:42:34賈瑞強(qiáng)
        大經(jīng)貿(mào) 2017年12期
        關(guān)鍵詞:期刊論文數(shù)理統(tǒng)計詞頻

        賈瑞強(qiáng)

        一.引言

        1.選題背景和意義

        隨著現(xiàn)代科技的發(fā)展,信息量在成幾何級數(shù)膨脹,每天都有大量新的論文產(chǎn)生,紙張這些傳統(tǒng)的存儲介質(zhì)已經(jīng)不能滿足現(xiàn)有的需求,構(gòu)建數(shù)字圖書館勢在必行。中國知網(wǎng)是我國目前比較成功的論文數(shù)字圖書館,構(gòu)建數(shù)字圖書館就是將期刊論文進(jìn)行電子化,電子化就必然會面臨兩個主要工作:期刊論文的格式必須有統(tǒng)一標(biāo)準(zhǔn)和期刊論文的分類管理。經(jīng)過多年的努力,期刊論文現(xiàn)在已經(jīng)形成了一套統(tǒng)一的著錄標(biāo)準(zhǔn),期刊論文的分類管理還基本是以人工分類為主。人工分類目前面臨兩個問題:一個是隨著期刊論文數(shù)量的快速增長,人工分類顯得心有余而力不足,人工分類每天能分類的數(shù)量是固定的,即使增加人力成本,想要趕上期刊論文增長的速度還是很困難的,這無疑給分類工作增加了很大的壓力;第二個問題是人工分類存在一定的主觀性,分類工作人員一般會通過期刊論文的標(biāo)題和來源來確定論文的類別,比較少的閱讀論文全文來對論文進(jìn)行分類,因此分類的正確率受人的主觀意識影響很大。鑒于這種情況的基礎(chǔ)上,研究期刊論文的自動分類能夠有效的解決以上兩個問題,不僅可以減輕人工分類的壓力,提高分類的效率,還能提高分類結(jié)果的正確率,減少主觀因素的影響。。

        二.模型的實現(xiàn)

        1.1數(shù)據(jù)準(zhǔn)備

        首先將所有的論文通過python里的jieba模塊進(jìn)行分詞,將出現(xiàn)的名詞、形容詞、動名詞作為總詞包,將在數(shù)理統(tǒng)計的論文里出現(xiàn)的詞歸結(jié)為數(shù)理統(tǒng)計詞包,將在經(jīng)濟(jì)統(tǒng)計的論文里出現(xiàn)的詞歸結(jié)為經(jīng)濟(jì)統(tǒng)計詞包,從數(shù)理統(tǒng)計包和經(jīng)濟(jì)統(tǒng)計詞包各取10個高頻詞作為高詞頻包

        詞包結(jié)果圖如下:

        1.2 詞包初探:從做成的詞包,統(tǒng)計成詞頻數(shù)據(jù),并做成詞云圖。

        由詞云圖可以看出,數(shù)理統(tǒng)計的論文中,都是理論性的詞語詞頻較高,如:數(shù)據(jù)、研究、應(yīng)用、模型等詞。而經(jīng)濟(jì)統(tǒng)計學(xué)論文中更偏經(jīng)濟(jì)學(xué),如:經(jīng)濟(jì)、發(fā)展、分析等詞出現(xiàn)頻率較高。由此可以初步判定,通過詞頻的差別作為論文類別區(qū)分的特征是合理的。

        1.3 建立模型

        1.3.1 論文類別的預(yù)測

        在模型識別和機(jī)器學(xué)習(xí)中的相關(guān)研究中,經(jīng)常會將整個數(shù)據(jù)集合分成兩個部分,分別是訓(xùn)練集合合測試集,假設(shè)X是集合全體,A是全集X的非空真子集,那么非空集合X、A則是集合A在全集X中的補(bǔ)集。于是可以在A上面做訓(xùn)練和分析,而幾個X、A則用來做測試和驗證。一開始的集合A被稱作訓(xùn)練集,而他的補(bǔ)集A被稱作是驗證集或者測試集。這是一個重要的觀點就是:只有訓(xùn)練集才可以使用在模型的訓(xùn)練之中,而測試集必須在模型訓(xùn)練完成后才用來評估模型的誤差。

        從驗證結(jié)果中可以看出,正確率在大于90%,通過樸素貝葉斯模型預(yù)測論文類別,是可以行的。

        【參考文獻(xiàn)】

        [1] 白如江基于粗糙集和神經(jīng)網(wǎng)絡(luò)的文本自動分類方法現(xiàn)代圖書情報技術(shù),:白小明,邱桃榮.

        [2] 基于和算法的科技文獻(xiàn)自動分類研究微計算機(jī)信息,:包劍,冀常鵬,李義杰.

        [3] 基于矢量空間模型的文本自動分類系統(tǒng)研究計算機(jī)系統(tǒng)應(yīng)用,:陳玉.

        [4] 多類別科技文獻(xiàn)動分類系統(tǒng)碩士學(xué)位論文湖北:華中科技大學(xué),楚存坤,李韜.

        [5] 模糊聚類技術(shù)在文獻(xiàn)自動分類系統(tǒng)中的應(yīng)用現(xiàn)代情報:刁倩,張惠惠,玉永成,何驥.endprint

        猜你喜歡
        期刊論文數(shù)理統(tǒng)計詞頻
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        醫(yī)學(xué)期刊論文中常見統(tǒng)計學(xué)錯誤
        淺談《概率論與數(shù)理統(tǒng)計》課程的教學(xué)改革
        公共圖書館不應(yīng)認(rèn)可的職稱期刊論文探析——基于重慶圖書館職稱期刊論文的實證調(diào)研
        人文社科期刊論文被引頻次和下載頻次相關(guān)性研究
        詞頻,一部隱秘的歷史
        云存儲中支持詞頻和用戶喜好的密文模糊檢索
        論《概率論與數(shù)理統(tǒng)計》教學(xué)改革與學(xué)生應(yīng)用能力的培養(yǎng)
        以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報》學(xué)術(shù)研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        財經(jīng)類院校概率論與數(shù)理統(tǒng)計教學(xué)改革的探索
        河南科技(2014年10期)2014-02-27 14:09:37
        亚洲精品一区国产欧美| 青青久久精品一本一区人人| av天堂最新在线播放| 精品欧洲av无码一区二区14 | 国产人妻熟女高跟丝袜| 欧美日韩精品一区二区三区高清视频| 人人妻人人澡人人爽精品欧美| 国产精品女同学| 日韩精品一区二区三区人妻在线| 亚洲国产aⅴ成人精品无吗| 久久精品无码中文字幕| 中文字幕无码高清一区二区三区| 凹凸世界视频a一二三| 人成午夜大片免费视频77777| 亚洲av无码一区二区三区四区 | 欧美精品一级| 免费啪啪av人妻一区二区| 一本大道道久久综合av| 骚片av蜜桃精品一区| 国产日韩A∨无码免费播放| 骚货人妻视频中文字幕| 揄拍成人国产精品视频| 国产又滑又嫩又白| 97色综合| 白白色发布在线观看视频| 永久免费人禽av在线观看| 国产精品厕所| 男女发生关系视频网站| 国产一区二区三区内射| 天码人妻一区二区三区| 婷婷色综合成人成人网小说| 手机在线国产福利av| 免费无遮挡无码永久视频| 十八岁以下禁止观看黄下载链接| 亚洲AV无码中文AV日韩A| 一区二区三区四区中文字幕av | 大陆极品少妇内射aaaaaa| 色窝窝无码一区二区三区2022| 成人免费毛片立即播放| 日日拍夜夜嗷嗷叫国产| 亚洲男人天堂2019|