亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于行業(yè)分類標(biāo)準(zhǔn)的債券新聞自動(dòng)多分類

        2017-07-16 21:53:42陳欽明賴澤華呂威
        中國(guó)新通信 2017年11期
        關(guān)鍵詞:貝葉斯文檔數(shù)據(jù)挖掘

        陳欽明+賴澤華+呂威

        【摘要】 本文首先介紹了文本分類的研究背景包括傳統(tǒng)的人工分類以及基于文本數(shù)據(jù)挖掘相關(guān)技術(shù)的文本分類,接著根據(jù)實(shí)際需求通過(guò)跟蹤多家債券主體相關(guān)的新聞,基于行業(yè)分類標(biāo)準(zhǔn),完成債券新聞的自動(dòng)多分類。新聞多分類處理流程包括數(shù)據(jù)集獲取、數(shù)據(jù)集的預(yù)處理、分類算法設(shè)計(jì)與實(shí)現(xiàn)、評(píng)估及穩(wěn)定性檢測(cè)等方面。

        【關(guān)鍵字】 行業(yè)分類標(biāo)準(zhǔn) 多分類 數(shù)據(jù)預(yù)處理 人工標(biāo)記 SVM 交叉驗(yàn)證 算法穩(wěn)定性

        一、研究背景

        自上個(gè)世紀(jì)80年代以來(lái),信息化的浪潮開(kāi)始席卷全球,特別是互聯(lián)網(wǎng)技術(shù)的不斷普及與完善,信息技術(shù)迅速地滲透到社會(huì)的各個(gè)行業(yè)領(lǐng)域。近幾年,隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展以及電腦的普遍使用,電子化文檔的規(guī)模得到了急劇的增長(zhǎng),這些文檔都包含了大量的非結(jié)構(gòu)化信息,為了充分利用這些非結(jié)構(gòu)化數(shù)據(jù),我們便需要使用相關(guān)的文本數(shù)據(jù)分析技術(shù)對(duì)其進(jìn)行處理和利用,當(dāng)數(shù)據(jù)挖掘的對(duì)象完全由文本這種數(shù)據(jù)類型組成時(shí),這個(gè)過(guò)程便是文本數(shù)據(jù)挖掘[1]。事實(shí)上,最近研究表明公司信息有80%包含在文檔中[2]。文本數(shù)據(jù)挖掘正逐漸成為一個(gè)熱門(mén)領(lǐng)域,吸引各大高校以及專家學(xué)者不斷深入研究。

        傳統(tǒng)的文本分類是依靠大量的人工完成的。在不同的行業(yè)領(lǐng)域,主要依靠專業(yè)的人員針對(duì)特定的領(lǐng)域進(jìn)行人工標(biāo)注與分類。如政府機(jī)關(guān)人員針對(duì)公文的分類、早期圖書(shū)館對(duì)圖書(shū)的分類歸檔,專利部門(mén)對(duì)專利的分類。著名的國(guó)際網(wǎng)站Yahoo曾雇傭一百多名來(lái)自各個(gè)領(lǐng)域的專家,他們即使?jié)M負(fù)荷地工作,也沒(méi)能對(duì)每天不斷涌現(xiàn)在互聯(lián)網(wǎng)上新網(wǎng)頁(yè)進(jìn)行標(biāo)注與分類[3]。

        本文根據(jù)它說(shuō)債券資訊模塊開(kāi)發(fā)的實(shí)際需求,通過(guò)跟蹤4528家債券主體的相關(guān)新聞,基于文本分類的相關(guān)算法如樸素貝葉斯、K最近鄰算法[4]、支持向量機(jī)[5]等,最終完成它說(shuō)債券資訊模塊的新聞自動(dòng)分類的功能。

        數(shù)據(jù)源介紹

        本文的新聞文本數(shù)據(jù)來(lái)源于第三方數(shù)據(jù)庫(kù)萬(wàn)德數(shù)據(jù)庫(kù)的相關(guān)表如公司表、行業(yè)負(fù)面表、行業(yè)正面表等,數(shù)據(jù)采集的規(guī)模,采集的時(shí)間等具體見(jiàn)如下表1:

        二、數(shù)據(jù)預(yù)處理

        本文對(duì)文本數(shù)據(jù)做了如下的數(shù)據(jù)預(yù)處理:將每一條數(shù)據(jù)庫(kù)記錄轉(zhuǎn)化為txt文檔;將文本的編碼從非UTF-8編碼轉(zhuǎn)化為UTF-8編碼;過(guò)濾掉小于1kb的文檔、英文文檔及無(wú)意義文檔;去掉html標(biāo)記、換行符、多余空格。

        三、人工標(biāo)記

        接著,對(duì)經(jīng)數(shù)據(jù)預(yù)處理后的新聞文本數(shù)據(jù),按照行業(yè)分類標(biāo)準(zhǔn)表根據(jù)文檔內(nèi)容對(duì)樣本數(shù)據(jù)按分類主題進(jìn)行人工分類。最終的分類結(jié)果如下表2:(Result——19/19/4988)

        四、基于多種分類算法新聞模塊實(shí)現(xiàn)

        文本分類算法是構(gòu)成一個(gè)成熟的文本分類系統(tǒng)不可或缺的一個(gè)非常重要的部分,基于高效地文本分類算法可以提高文本分類的時(shí)效性及準(zhǔn)確度。目前比較常用的文本分類算法包括K-最近鄰算法、樸素貝葉斯、支持向量機(jī)等等。下面簡(jiǎn)單介紹一下樸素貝葉斯、k最近鄰算法及支持向量機(jī)。

        (1)樸素貝葉斯分類算法。它基于一個(gè)前提假設(shè):即在給定的文本類集合中,文本間的屬性是獨(dú)立的,互不影響。對(duì)文本分類,就是求該文本在文本類集合中各個(gè)類別的概率,概率值最大的那個(gè)類別就作為該文本的類別。

        (2)K-最近鄰計(jì)算的是待分類的文本與所有訓(xùn)練文本之間的距離,然后將距離按照從小到大進(jìn)行排序,返回前K個(gè)距離最小的樣本,統(tǒng)計(jì)這K個(gè)樣本所屬的類別數(shù)目,最后將類別數(shù)目最大的類別作為待分類文本的類別。

        (3)支持向量機(jī),即SVM,它由V.Vapnik提出。可以應(yīng)用于非線性分類及模式識(shí)別,在解決非線性、小樣本及高維模式識(shí)別等問(wèn)題中具有很大的優(yōu)勢(shì)。它的主要思想是在樣本空間中尋找一個(gè)最優(yōu)超平面,從而最大化的將兩大類劃分開(kāi)來(lái)。

        本文使用經(jīng)數(shù)據(jù)預(yù)處理后剩下的4988條新聞作為最終的樣本集,并對(duì)樣本集進(jìn)行中文分詞處理,構(gòu)造樣本集文本對(duì)象,構(gòu)建樣本集TF_IDF詞向量空間,然后使用相關(guān)分類算法進(jìn)行預(yù)測(cè)分類結(jié)果。具體的算法流程圖如下圖1:

        五、文本分類評(píng)價(jià)性能指標(biāo)

        在完成文本分類的訓(xùn)練與測(cè)試之后,往往需要對(duì)分類算法進(jìn)行分類性能評(píng)估,以確定一個(gè)算法的優(yōu)劣及進(jìn)行算法之間的性能比較。目前常用的文本分類性能評(píng)價(jià)指標(biāo)包括召回率、錯(cuò)分率、準(zhǔn)確率、F1-score等。

        1、召回率(Recall Rate,也叫查全率):是檢索出的相關(guān)文本數(shù)和文本庫(kù)中所有相關(guān)文本數(shù)的比率,衡量的是分類系統(tǒng)的查全率。

        召回率(Precision)= 系統(tǒng)檢測(cè)到的相關(guān)文本 / 系統(tǒng)所有相關(guān)的文本總數(shù)

        2、錯(cuò)分率為另外一個(gè)角度對(duì)召回率的刻畫(huà),滿足錯(cuò)分率+召回率=1

        3、精度(Precision,也稱為準(zhǔn)確率):是檢索出的相關(guān)文本數(shù)與檢索出的文本總數(shù)的比率,衡量的是分類系統(tǒng)的查準(zhǔn)率。

        精度(Precision)= 系統(tǒng)檢索到的相關(guān)文本 / 系統(tǒng)所有檢索到的文本總數(shù)

        4、F1-score綜合考慮了精度以及召回率,是兩者的協(xié)調(diào)評(píng)價(jià)指標(biāo)。

        本文按照20%測(cè)試集、80%訓(xùn)練集,10%測(cè)試集、90%訓(xùn)練集,20%測(cè)試集、100%訓(xùn)練集三種不同的數(shù)據(jù)集隨機(jī)切分方式對(duì)分類結(jié)果進(jìn)行了交叉驗(yàn)證(cross_validation),最終的分類結(jié)果如下表2:

        六、債券新聞多分類穩(wěn)定性檢測(cè)

        評(píng)價(jià)一個(gè)分類系統(tǒng)的好壞不僅僅考慮系統(tǒng)分類的準(zhǔn)確度等指標(biāo)還要考慮分類系統(tǒng)的穩(wěn)定性。因此本文對(duì)分類算法做了算法穩(wěn)定的檢測(cè)工作。數(shù)據(jù)檢測(cè)來(lái)源為companynews表,取樣時(shí)間為2016年09月03日到2016年09月10日,持續(xù)一個(gè)星期,取樣的標(biāo)準(zhǔn)為每次獲取數(shù)據(jù)最新更新時(shí)間的前一天的數(shù)據(jù),數(shù)據(jù)量較大時(shí)隨機(jī)取樣10%作為測(cè)試樣本,并對(duì)其進(jìn)行人工分類形成最終測(cè)試樣本集。

        最終針對(duì)各種分類算法的穩(wěn)定性檢測(cè)結(jié)果如下表3所示,由下表可知綜合比較貝葉斯,knn,svm三種算法,svm在文本多分類的穩(wěn)定性上較好。

        參 考 文 獻(xiàn)

        [1]王偉強(qiáng), 高 文. Internet 上的文本數(shù)據(jù)挖掘[J ] . 計(jì)算機(jī)科學(xué), 2000 , 27 (4) : 32 - 37.

        [2] AH - HWEE TAN. Text Mining : The state of the art and the challenges[ Z] . PAKDD99 Workshop on Knowledge discovery from Advanced Databases ( KDAD99) , Beijing , 1999.

        [3] J.M Gomez.Text Representation for automatic Categorization.In Proceeding of Eleventh Conference Of the European Chapter Of the Association for Computational Linguistic,2003

        [4]亞南.KNN文本分類中基于遺傳算法的特征提取技術(shù)研究[D].中國(guó)石油大學(xué),2011.

        [5]毛雪岷,丁友明.基于語(yǔ)義引導(dǎo)與支持向量機(jī)的中文文本分類[J].情報(bào)雜志,2007,26(1 1):56-58

        猜你喜歡
        貝葉斯文檔數(shù)據(jù)挖掘
        有人一聲不吭向你扔了個(gè)文檔
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        貝葉斯公式及其應(yīng)用
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
        国产在线精品一区二区三区不卡| 富婆猛男一区二区三区| 超碰色偷偷男人的天堂| 一本一道波多野结衣一区| 国产成人久久蜜一区二区| 亚洲天堂av在线一区| 亚洲日韩成人无码| 国产在线观看www污污污| 自拍亚洲一区欧美另类| 国产高清在线精品一区不卡| 人妻熟妇乱又伦精品hd| 7777奇米四色成人眼影| 亚洲福利天堂网福利在线观看| 中文字幕一区二区三区综合网| 精人妻无码一区二区三区| 亚洲欧洲无码一区二区三区| 国产黑色丝袜在线观看视频| av在线播放免费观看| 欧美黑寡妇特a级做爰| 国偷自产av一区二区三区| 美腿丝袜av在线播放| 2020国产在视频线自在拍| 色偷偷av男人的天堂| 99热门精品一区二区三区无码| 视频一区视频二区亚洲| 国产成人无码a区在线观看导航| 国产精品免费久久久久影院仙踪林| 国产一区二区三区免费在线视频| av天堂亚洲另类色图在线播放| 少妇扒开毛茸茸的b自慰| 中文字幕高清在线一区二区三区| 精品日产一区2区三区| 综合国产婷婷精品久久99之一| 老师翘臀高潮流白浆| 狼色在线精品影视免费播放| 国产主播性色av福利精品一区| 国产精品久久国产精品99 | 在线观看人成视频免费| 伴郎粗大的内捧猛烈进出视频观看| 国产一区二区在线观看我不卡| 日韩不卡的av二三四区|