亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的中文論文自動分類

        2018-01-30 13:42:34賈瑞強(qiáng)
        大經(jīng)貿(mào) 2017年12期
        關(guān)鍵詞:期刊論文數(shù)理統(tǒng)計詞頻

        賈瑞強(qiáng)

        一.引言

        1.選題背景和意義

        隨著現(xiàn)代科技的發(fā)展,信息量在成幾何級數(shù)膨脹,每天都有大量新的論文產(chǎn)生,紙張這些傳統(tǒng)的存儲介質(zhì)已經(jīng)不能滿足現(xiàn)有的需求,構(gòu)建數(shù)字圖書館勢在必行。中國知網(wǎng)是我國目前比較成功的論文數(shù)字圖書館,構(gòu)建數(shù)字圖書館就是將期刊論文進(jìn)行電子化,電子化就必然會面臨兩個主要工作:期刊論文的格式必須有統(tǒng)一標(biāo)準(zhǔn)和期刊論文的分類管理。經(jīng)過多年的努力,期刊論文現(xiàn)在已經(jīng)形成了一套統(tǒng)一的著錄標(biāo)準(zhǔn),期刊論文的分類管理還基本是以人工分類為主。人工分類目前面臨兩個問題:一個是隨著期刊論文數(shù)量的快速增長,人工分類顯得心有余而力不足,人工分類每天能分類的數(shù)量是固定的,即使增加人力成本,想要趕上期刊論文增長的速度還是很困難的,這無疑給分類工作增加了很大的壓力;第二個問題是人工分類存在一定的主觀性,分類工作人員一般會通過期刊論文的標(biāo)題和來源來確定論文的類別,比較少的閱讀論文全文來對論文進(jìn)行分類,因此分類的正確率受人的主觀意識影響很大。鑒于這種情況的基礎(chǔ)上,研究期刊論文的自動分類能夠有效的解決以上兩個問題,不僅可以減輕人工分類的壓力,提高分類的效率,還能提高分類結(jié)果的正確率,減少主觀因素的影響。。

        二.模型的實現(xiàn)

        1.1數(shù)據(jù)準(zhǔn)備

        首先將所有的論文通過python里的jieba模塊進(jìn)行分詞,將出現(xiàn)的名詞、形容詞、動名詞作為總詞包,將在數(shù)理統(tǒng)計的論文里出現(xiàn)的詞歸結(jié)為數(shù)理統(tǒng)計詞包,將在經(jīng)濟(jì)統(tǒng)計的論文里出現(xiàn)的詞歸結(jié)為經(jīng)濟(jì)統(tǒng)計詞包,從數(shù)理統(tǒng)計包和經(jīng)濟(jì)統(tǒng)計詞包各取10個高頻詞作為高詞頻包

        詞包結(jié)果圖如下:

        1.2 詞包初探:從做成的詞包,統(tǒng)計成詞頻數(shù)據(jù),并做成詞云圖。

        由詞云圖可以看出,數(shù)理統(tǒng)計的論文中,都是理論性的詞語詞頻較高,如:數(shù)據(jù)、研究、應(yīng)用、模型等詞。而經(jīng)濟(jì)統(tǒng)計學(xué)論文中更偏經(jīng)濟(jì)學(xué),如:經(jīng)濟(jì)、發(fā)展、分析等詞出現(xiàn)頻率較高。由此可以初步判定,通過詞頻的差別作為論文類別區(qū)分的特征是合理的。

        1.3 建立模型

        1.3.1 論文類別的預(yù)測

        在模型識別和機(jī)器學(xué)習(xí)中的相關(guān)研究中,經(jīng)常會將整個數(shù)據(jù)集合分成兩個部分,分別是訓(xùn)練集合合測試集,假設(shè)X是集合全體,A是全集X的非空真子集,那么非空集合X、A則是集合A在全集X中的補(bǔ)集。于是可以在A上面做訓(xùn)練和分析,而幾個X、A則用來做測試和驗證。一開始的集合A被稱作訓(xùn)練集,而他的補(bǔ)集A被稱作是驗證集或者測試集。這是一個重要的觀點就是:只有訓(xùn)練集才可以使用在模型的訓(xùn)練之中,而測試集必須在模型訓(xùn)練完成后才用來評估模型的誤差。

        從驗證結(jié)果中可以看出,正確率在大于90%,通過樸素貝葉斯模型預(yù)測論文類別,是可以行的。

        【參考文獻(xiàn)】

        [1] 白如江基于粗糙集和神經(jīng)網(wǎng)絡(luò)的文本自動分類方法現(xiàn)代圖書情報技術(shù),:白小明,邱桃榮.

        [2] 基于和算法的科技文獻(xiàn)自動分類研究微計算機(jī)信息,:包劍,冀常鵬,李義杰.

        [3] 基于矢量空間模型的文本自動分類系統(tǒng)研究計算機(jī)系統(tǒng)應(yīng)用,:陳玉.

        [4] 多類別科技文獻(xiàn)動分類系統(tǒng)碩士學(xué)位論文湖北:華中科技大學(xué),楚存坤,李韜.

        [5] 模糊聚類技術(shù)在文獻(xiàn)自動分類系統(tǒng)中的應(yīng)用現(xiàn)代情報:刁倩,張惠惠,玉永成,何驥.endprint

        猜你喜歡
        期刊論文數(shù)理統(tǒng)計詞頻
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        醫(yī)學(xué)期刊論文中常見統(tǒng)計學(xué)錯誤
        淺談《概率論與數(shù)理統(tǒng)計》課程的教學(xué)改革
        公共圖書館不應(yīng)認(rèn)可的職稱期刊論文探析——基于重慶圖書館職稱期刊論文的實證調(diào)研
        人文社科期刊論文被引頻次和下載頻次相關(guān)性研究
        詞頻,一部隱秘的歷史
        云存儲中支持詞頻和用戶喜好的密文模糊檢索
        論《概率論與數(shù)理統(tǒng)計》教學(xué)改革與學(xué)生應(yīng)用能力的培養(yǎng)
        以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報》學(xué)術(shù)研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        財經(jīng)類院校概率論與數(shù)理統(tǒng)計教學(xué)改革的探索
        河南科技(2014年10期)2014-02-27 14:09:37
        久久婷婷国产精品香蕉| 亚洲熟妇无码一区二区三区导航| 亚洲一线二线三线写真| 久久亚洲道色宗和久久| 蜜桃av区一区二区三| 99久久婷婷国产一区| 四川丰满妇女毛片四川话| 国产第19页精品| 亚洲AV日韩AV高潮喷潮无码| 特级国产一区二区三区| 人人妻人人澡人人爽国产一区| 99精品国产综合久久久久五月天| 国产亚洲第一精品| 国产精品成年人毛片毛片| av网站免费线看精品| 丰满岳妇乱一区二区三区| 亚洲AV永久天堂在线观看| 久久国产精品懂色av| 成年美女黄网站色大免费视频| a级毛片免费观看网站| 四虎精品国产一区二区三区| 女同另类一区二区三区| 视频一区视频二区制服丝袜| 中文字幕一区二区人妻| 久久久亚洲精品蜜桃臀| 亚洲一区二区蜜桃视频| 欧美丰满熟妇性xxxx| 亚洲中文字幕第一页在线| 亚洲av噜噜狠狠蜜桃| 少妇一区二区三区久久| 末发育娇小性色xxxx| 亚洲AV无码精品色欲av| 手机免费在线观看日韩av| 日韩大片高清播放器大全| 醉酒后少妇被疯狂内射视频| 无码精品一区二区三区免费16| 亚洲无人区乱码中文字幕能看| 男女做爰猛烈啪啪吃奶动| 亚洲性啪啪无码AV天堂| 色偷偷亚洲精品一区二区| 国产av国片精品有毛|