亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于行業(yè)分類標(biāo)準(zhǔn)的債券新聞自動(dòng)多分類

        2017-07-16 21:53:42陳欽明賴澤華呂威
        中國(guó)新通信 2017年11期
        關(guān)鍵詞:貝葉斯文檔數(shù)據(jù)挖掘

        陳欽明+賴澤華+呂威

        【摘要】 本文首先介紹了文本分類的研究背景包括傳統(tǒng)的人工分類以及基于文本數(shù)據(jù)挖掘相關(guān)技術(shù)的文本分類,接著根據(jù)實(shí)際需求通過(guò)跟蹤多家債券主體相關(guān)的新聞,基于行業(yè)分類標(biāo)準(zhǔn),完成債券新聞的自動(dòng)多分類。新聞多分類處理流程包括數(shù)據(jù)集獲取、數(shù)據(jù)集的預(yù)處理、分類算法設(shè)計(jì)與實(shí)現(xiàn)、評(píng)估及穩(wěn)定性檢測(cè)等方面。

        【關(guān)鍵字】 行業(yè)分類標(biāo)準(zhǔn) 多分類 數(shù)據(jù)預(yù)處理 人工標(biāo)記 SVM 交叉驗(yàn)證 算法穩(wěn)定性

        一、研究背景

        自上個(gè)世紀(jì)80年代以來(lái),信息化的浪潮開(kāi)始席卷全球,特別是互聯(lián)網(wǎng)技術(shù)的不斷普及與完善,信息技術(shù)迅速地滲透到社會(huì)的各個(gè)行業(yè)領(lǐng)域。近幾年,隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展以及電腦的普遍使用,電子化文檔的規(guī)模得到了急劇的增長(zhǎng),這些文檔都包含了大量的非結(jié)構(gòu)化信息,為了充分利用這些非結(jié)構(gòu)化數(shù)據(jù),我們便需要使用相關(guān)的文本數(shù)據(jù)分析技術(shù)對(duì)其進(jìn)行處理和利用,當(dāng)數(shù)據(jù)挖掘的對(duì)象完全由文本這種數(shù)據(jù)類型組成時(shí),這個(gè)過(guò)程便是文本數(shù)據(jù)挖掘[1]。事實(shí)上,最近研究表明公司信息有80%包含在文檔中[2]。文本數(shù)據(jù)挖掘正逐漸成為一個(gè)熱門(mén)領(lǐng)域,吸引各大高校以及專家學(xué)者不斷深入研究。

        傳統(tǒng)的文本分類是依靠大量的人工完成的。在不同的行業(yè)領(lǐng)域,主要依靠專業(yè)的人員針對(duì)特定的領(lǐng)域進(jìn)行人工標(biāo)注與分類。如政府機(jī)關(guān)人員針對(duì)公文的分類、早期圖書(shū)館對(duì)圖書(shū)的分類歸檔,專利部門(mén)對(duì)專利的分類。著名的國(guó)際網(wǎng)站Yahoo曾雇傭一百多名來(lái)自各個(gè)領(lǐng)域的專家,他們即使?jié)M負(fù)荷地工作,也沒(méi)能對(duì)每天不斷涌現(xiàn)在互聯(lián)網(wǎng)上新網(wǎng)頁(yè)進(jìn)行標(biāo)注與分類[3]。

        本文根據(jù)它說(shuō)債券資訊模塊開(kāi)發(fā)的實(shí)際需求,通過(guò)跟蹤4528家債券主體的相關(guān)新聞,基于文本分類的相關(guān)算法如樸素貝葉斯、K最近鄰算法[4]、支持向量機(jī)[5]等,最終完成它說(shuō)債券資訊模塊的新聞自動(dòng)分類的功能。

        數(shù)據(jù)源介紹

        本文的新聞文本數(shù)據(jù)來(lái)源于第三方數(shù)據(jù)庫(kù)萬(wàn)德數(shù)據(jù)庫(kù)的相關(guān)表如公司表、行業(yè)負(fù)面表、行業(yè)正面表等,數(shù)據(jù)采集的規(guī)模,采集的時(shí)間等具體見(jiàn)如下表1:

        二、數(shù)據(jù)預(yù)處理

        本文對(duì)文本數(shù)據(jù)做了如下的數(shù)據(jù)預(yù)處理:將每一條數(shù)據(jù)庫(kù)記錄轉(zhuǎn)化為txt文檔;將文本的編碼從非UTF-8編碼轉(zhuǎn)化為UTF-8編碼;過(guò)濾掉小于1kb的文檔、英文文檔及無(wú)意義文檔;去掉html標(biāo)記、換行符、多余空格。

        三、人工標(biāo)記

        接著,對(duì)經(jīng)數(shù)據(jù)預(yù)處理后的新聞文本數(shù)據(jù),按照行業(yè)分類標(biāo)準(zhǔn)表根據(jù)文檔內(nèi)容對(duì)樣本數(shù)據(jù)按分類主題進(jìn)行人工分類。最終的分類結(jié)果如下表2:(Result——19/19/4988)

        四、基于多種分類算法新聞模塊實(shí)現(xiàn)

        文本分類算法是構(gòu)成一個(gè)成熟的文本分類系統(tǒng)不可或缺的一個(gè)非常重要的部分,基于高效地文本分類算法可以提高文本分類的時(shí)效性及準(zhǔn)確度。目前比較常用的文本分類算法包括K-最近鄰算法、樸素貝葉斯、支持向量機(jī)等等。下面簡(jiǎn)單介紹一下樸素貝葉斯、k最近鄰算法及支持向量機(jī)。

        (1)樸素貝葉斯分類算法。它基于一個(gè)前提假設(shè):即在給定的文本類集合中,文本間的屬性是獨(dú)立的,互不影響。對(duì)文本分類,就是求該文本在文本類集合中各個(gè)類別的概率,概率值最大的那個(gè)類別就作為該文本的類別。

        (2)K-最近鄰計(jì)算的是待分類的文本與所有訓(xùn)練文本之間的距離,然后將距離按照從小到大進(jìn)行排序,返回前K個(gè)距離最小的樣本,統(tǒng)計(jì)這K個(gè)樣本所屬的類別數(shù)目,最后將類別數(shù)目最大的類別作為待分類文本的類別。

        (3)支持向量機(jī),即SVM,它由V.Vapnik提出。可以應(yīng)用于非線性分類及模式識(shí)別,在解決非線性、小樣本及高維模式識(shí)別等問(wèn)題中具有很大的優(yōu)勢(shì)。它的主要思想是在樣本空間中尋找一個(gè)最優(yōu)超平面,從而最大化的將兩大類劃分開(kāi)來(lái)。

        本文使用經(jīng)數(shù)據(jù)預(yù)處理后剩下的4988條新聞作為最終的樣本集,并對(duì)樣本集進(jìn)行中文分詞處理,構(gòu)造樣本集文本對(duì)象,構(gòu)建樣本集TF_IDF詞向量空間,然后使用相關(guān)分類算法進(jìn)行預(yù)測(cè)分類結(jié)果。具體的算法流程圖如下圖1:

        五、文本分類評(píng)價(jià)性能指標(biāo)

        在完成文本分類的訓(xùn)練與測(cè)試之后,往往需要對(duì)分類算法進(jìn)行分類性能評(píng)估,以確定一個(gè)算法的優(yōu)劣及進(jìn)行算法之間的性能比較。目前常用的文本分類性能評(píng)價(jià)指標(biāo)包括召回率、錯(cuò)分率、準(zhǔn)確率、F1-score等。

        1、召回率(Recall Rate,也叫查全率):是檢索出的相關(guān)文本數(shù)和文本庫(kù)中所有相關(guān)文本數(shù)的比率,衡量的是分類系統(tǒng)的查全率。

        召回率(Precision)= 系統(tǒng)檢測(cè)到的相關(guān)文本 / 系統(tǒng)所有相關(guān)的文本總數(shù)

        2、錯(cuò)分率為另外一個(gè)角度對(duì)召回率的刻畫(huà),滿足錯(cuò)分率+召回率=1

        3、精度(Precision,也稱為準(zhǔn)確率):是檢索出的相關(guān)文本數(shù)與檢索出的文本總數(shù)的比率,衡量的是分類系統(tǒng)的查準(zhǔn)率。

        精度(Precision)= 系統(tǒng)檢索到的相關(guān)文本 / 系統(tǒng)所有檢索到的文本總數(shù)

        4、F1-score綜合考慮了精度以及召回率,是兩者的協(xié)調(diào)評(píng)價(jià)指標(biāo)。

        本文按照20%測(cè)試集、80%訓(xùn)練集,10%測(cè)試集、90%訓(xùn)練集,20%測(cè)試集、100%訓(xùn)練集三種不同的數(shù)據(jù)集隨機(jī)切分方式對(duì)分類結(jié)果進(jìn)行了交叉驗(yàn)證(cross_validation),最終的分類結(jié)果如下表2:

        六、債券新聞多分類穩(wěn)定性檢測(cè)

        評(píng)價(jià)一個(gè)分類系統(tǒng)的好壞不僅僅考慮系統(tǒng)分類的準(zhǔn)確度等指標(biāo)還要考慮分類系統(tǒng)的穩(wěn)定性。因此本文對(duì)分類算法做了算法穩(wěn)定的檢測(cè)工作。數(shù)據(jù)檢測(cè)來(lái)源為companynews表,取樣時(shí)間為2016年09月03日到2016年09月10日,持續(xù)一個(gè)星期,取樣的標(biāo)準(zhǔn)為每次獲取數(shù)據(jù)最新更新時(shí)間的前一天的數(shù)據(jù),數(shù)據(jù)量較大時(shí)隨機(jī)取樣10%作為測(cè)試樣本,并對(duì)其進(jìn)行人工分類形成最終測(cè)試樣本集。

        最終針對(duì)各種分類算法的穩(wěn)定性檢測(cè)結(jié)果如下表3所示,由下表可知綜合比較貝葉斯,knn,svm三種算法,svm在文本多分類的穩(wěn)定性上較好。

        參 考 文 獻(xiàn)

        [1]王偉強(qiáng), 高 文. Internet 上的文本數(shù)據(jù)挖掘[J ] . 計(jì)算機(jī)科學(xué), 2000 , 27 (4) : 32 - 37.

        [2] AH - HWEE TAN. Text Mining : The state of the art and the challenges[ Z] . PAKDD99 Workshop on Knowledge discovery from Advanced Databases ( KDAD99) , Beijing , 1999.

        [3] J.M Gomez.Text Representation for automatic Categorization.In Proceeding of Eleventh Conference Of the European Chapter Of the Association for Computational Linguistic,2003

        [4]亞南.KNN文本分類中基于遺傳算法的特征提取技術(shù)研究[D].中國(guó)石油大學(xué),2011.

        [5]毛雪岷,丁友明.基于語(yǔ)義引導(dǎo)與支持向量機(jī)的中文文本分類[J].情報(bào)雜志,2007,26(1 1):56-58

        猜你喜歡
        貝葉斯文檔數(shù)據(jù)挖掘
        有人一聲不吭向你扔了個(gè)文檔
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        貝葉斯公式及其應(yīng)用
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
        亚洲中文字幕视频第一二区| 久青草久青草视频在线观看 | 日本少妇被爽到高潮的免费 | 亚洲女优中文字幕在线观看| 比较有韵味的熟妇无码| 国产内射一级一片高清内射视频| 国产一区高清在线观看| 亚洲中文字幕无码中文字| 久久精品无码av| 又黄又爽又色又刺激的视频| 91福利国产在线观看网站| 亚洲精品成人久久av| 国产成人大片在线播放| а√中文在线资源库| 国产成人精品999在线观看| 国产欧美曰韩一区二区三区| 国产亚洲女人久久久久久| 永久免费看黄在线观看| 国产让女高潮的av毛片| 天堂网www资源在线| 亚洲av片不卡无码久久| 亚洲国产精品综合久久20| 国产精品日本一区二区三区在线| 男女真人后进式猛烈视频网站| 男女高潮免费观看无遮挡 | 亚洲va久久久噜噜噜久久天堂 | 亚洲成Av人片不卡无码观看| 综合中文字幕亚洲一区二区三区| 中文字幕一区二区中出后入| 久久久久久无码av成人影院| 久久久久无码国产精品不卡| 中文字幕在线一区乱码| 少妇高潮精品在线观看| 亚洲av日韩av永久无码下载| 巨茎中出肉欲人妻在线视频 | 丰满大爆乳波霸奶| 日本japanese少妇高清| 99久久亚洲国产高清观看| 在线观看高清视频一区二区三区| 少妇被猛烈进入到喷白浆| 无码不卡av东京热毛片|