亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談覆蓋算法在文本分類(lèi)中的應(yīng)用

        2019-11-12 12:01:33胡超
        電腦知識(shí)與技術(shù) 2019年25期
        關(guān)鍵詞:文本分類(lèi)

        胡超

        摘要:隨著我國(guó)信息的不斷膨脹,基于傳統(tǒng)算法模式下的文本分類(lèi)已經(jīng)不能滿足時(shí)代的需求,基于覆蓋算法的構(gòu)造性神經(jīng)網(wǎng)絡(luò)文本分類(lèi)算法,可以有效地解決因?yàn)閿?shù)據(jù)量過(guò)大而無(wú)法實(shí)現(xiàn)分類(lèi)的弊端。因此,本文使用覆蓋性前后神經(jīng)網(wǎng)絡(luò)算法,從文本的預(yù)處理入手,構(gòu)造了文本的自動(dòng)分類(lèi),并且做出了相應(yīng)的實(shí)驗(yàn),從實(shí)驗(yàn)結(jié)果當(dāng)中來(lái)看,覆蓋性前后神經(jīng)網(wǎng)絡(luò)算法無(wú)論是對(duì)于文本分類(lèi)的準(zhǔn)確度還是容納的數(shù)據(jù)量都遠(yuǎn)遠(yuǎn)高于傳統(tǒng)算法。

        關(guān)鍵詞:覆蓋算法;文本分類(lèi);文本預(yù)處理;實(shí)驗(yàn)構(gòu)建

        中圖分類(lèi)號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2019)25-0278-02

        隨著我國(guó)經(jīng)濟(jì)的高速發(fā)展,科技水平的病毒案提高,我國(guó)已經(jīng)全面進(jìn)入了互聯(lián)網(wǎng)時(shí)代,以互聯(lián)網(wǎng)為基礎(chǔ)的信息出現(xiàn)了爆炸式的增長(zhǎng),文本信息作為信息的主體,但是目前我國(guó)對(duì)于文本信息的分類(lèi)算法還存在各種各樣的不足,文本信息的搜索能夠?qū)崿F(xiàn)文本的分享和查找,是我國(guó)廣大人民群眾最實(shí)際的需求。要從如此膨脹的文本信息當(dāng)中找到自己所需要的信息,文本的自動(dòng)分類(lèi)的處理就顯得尤為重要,基于覆蓋式算法的文本分類(lèi)可以幫助我們更好地查詢和發(fā)掘信息。但是由于互聯(lián)網(wǎng)產(chǎn)業(yè)的高速發(fā)展,基于傳統(tǒng)算法模式下的文本分類(lèi)已經(jīng)不能滿足廣大人民群眾的需求,如何利用新型的算法實(shí)現(xiàn)更加快速的文本分類(lèi),成為目前我國(guó)信息產(chǎn)業(yè)最需要解決的問(wèn)題之一。

        1 文本分類(lèi)

        隨著我國(guó)經(jīng)濟(jì)水平的不斷發(fā)展,科技水平的日益提高,互聯(lián)網(wǎng)產(chǎn)業(yè)的不斷普及,特別是改革開(kāi)放以后,我國(guó)的信息出現(xiàn)了爆炸式的瘋狂增長(zhǎng),文本信息作為信息當(dāng)中最主要的一部分,在各種各樣的媒體信息當(dāng)中,文本分析的分類(lèi)也是目前我國(guó)廣大人民群眾最需要的地方,但是因?yàn)閿?shù)據(jù)的日益膨脹,如何在如此多的文本信息實(shí)現(xiàn)分類(lèi)的檢索從而方便客戶找到自己雖需要的資料,算法在文本分類(lèi)當(dāng)中的作用就顯得越來(lái)越重要。在文本的具體分類(lèi)當(dāng)中,首先需要對(duì)于文本實(shí)現(xiàn)基本的預(yù)處理,然后通過(guò)去除停用詞和去除稀有詞,通過(guò)特征提取,構(gòu)造專(zhuān)門(mén)的自動(dòng)分類(lèi)器實(shí)現(xiàn)自動(dòng)分類(lèi)文本,大大節(jié)省了人力物力的同時(shí)有效地提高的文本分類(lèi)的效率。

        1.1 文本分類(lèi)的預(yù)處理

        目前我國(guó)的文本預(yù)處理和歐洲發(fā)達(dá)國(guó)家的文本預(yù)處理之間最大的一個(gè)差別就是在歐美發(fā)達(dá)國(guó)家詞匯之間存在一個(gè)明顯的空格,而我國(guó)卻規(guī)定了文本的預(yù)處理必須是連續(xù)的字符串,詞匯之間沒(méi)有空格,針對(duì)這一差別就要去我們?cè)谶M(jìn)行本文預(yù)處理的時(shí)候,必須確定好特征選項(xiàng),例如字符,詞句,字符串等,現(xiàn)目前最實(shí)用的特征類(lèi)型采用詞為基本單位是最高效的處理方式。從實(shí)質(zhì)來(lái)看所謂的文本處理和分類(lèi)就是在某一個(gè)特定的文本分類(lèi)系統(tǒng)下,根據(jù)文本之間內(nèi)容的差距自動(dòng)分類(lèi)文本,如果從數(shù)學(xué)的角度來(lái)看的話,其實(shí)文本的分類(lèi)屬于一個(gè)映射的過(guò)程,就是將未標(biāo)注的文本映射到現(xiàn)有的分類(lèi)體系當(dāng)中,這種分類(lèi)可以一對(duì)一,也可以實(shí)現(xiàn)一對(duì)多。簡(jiǎn)單來(lái)說(shuō)就是一個(gè)文本可以對(duì)應(yīng)一個(gè)分類(lèi),也可以對(duì)應(yīng)多個(gè)分類(lèi)。而且我們需要理解中英文之間的差距,對(duì)于中文的文本分類(lèi)來(lái)說(shuō),我們需要基于字符串匹配的方式去實(shí)現(xiàn)文本的分類(lèi),還需要進(jìn)行標(biāo)注和識(shí)別,一般我國(guó)對(duì)于文本的預(yù)處理一般為以下三種。

        1)去除停用詞

        具體來(lái)說(shuō)就是在實(shí)際根據(jù)文本特征進(jìn)行分類(lèi)的時(shí)候可以根據(jù)此行的標(biāo)識(shí)去過(guò)濾一部分形容詞或者虛詞,只保留語(yǔ)句當(dāng)中較為重要的名詞動(dòng)詞。一般來(lái)說(shuō)對(duì)于文本中文詞匯的分析分為三個(gè)主要階段,分別是詞匯的拆分,未登錄詞匯的識(shí)別,標(biāo)注詞匯等三個(gè)步驟。進(jìn)行具體的拆分之后將文本當(dāng)中出現(xiàn)頻率較高但是概念模式并且范圍較為廣泛的詞匯停用。對(duì)于某一些詞匯使用概率較高的詞匯也可以當(dāng)中停用詞停用。

        2)去除稀有詞

        所謂稀有詞,顧名思義就是在整個(gè)文檔當(dāng)中出現(xiàn)頻率都較高的詞匯,這些詞匯不能作為文本的特征選項(xiàng),一般我們會(huì)選擇設(shè)定一個(gè)詞匯數(shù)值,低于這個(gè)數(shù)值的詞匯就會(huì)當(dāng)作稀有詞匯去除。

        3)詞匯合并

        詞匯合并就是將詞匯意思相同但是具體表達(dá)不同的詞匯進(jìn)行合并,當(dāng)作同一個(gè)詞匯進(jìn)行計(jì)算和處理。

        1.2 文本的基本表示方法

        由于文本的處理和分類(lèi)不是依靠人工而是使用計(jì)算機(jī),所以我們需要將文本轉(zhuǎn)換成計(jì)算機(jī)能夠分別和識(shí)別的表示模式,因?yàn)榇蟛糠钟?jì)算機(jī)不具有智能,不能識(shí)別文字,但是我們可以通過(guò)將文字轉(zhuǎn)換成0.1模式讓計(jì)算機(jī)進(jìn)行識(shí)別。我們可以將文本當(dāng)作的詞句拆分之后,通過(guò)詞句的組合來(lái)代替文本,以計(jì)算機(jī)為基礎(chǔ)實(shí)現(xiàn)文本的實(shí)現(xiàn)和分類(lèi)。

        目前在文本信息的處理上,文本的表示一般采用向量模式VSN,利用向量去表示文本,將文本當(dāng)作的詞句作為特征選項(xiàng),在實(shí)際的實(shí)踐當(dāng)中我們發(fā)現(xiàn),詞相對(duì)于句或者字來(lái)說(shuō),具有更好的特征性。所以我們要建立向量模型就必須要對(duì)于文本的詞匯進(jìn)行分類(lèi),將文本用詞匯組合的方式表達(dá)出來(lái),并且根據(jù)詞匯出現(xiàn)的頻率具體化的表示文本,主要使用TF-IDF公式來(lái)建設(shè)和實(shí)現(xiàn)文本的表示。

        1.3 特征選擇

        在信息文本的分類(lèi)當(dāng)中,特征選擇是最重要的部分,特征選擇就是通過(guò)去除不能表達(dá)信息的詞匯,分類(lèi)和提取重要詞匯。特征選擇可以有效地提高信息文本分類(lèi)的效率降低所需要的計(jì)算量。特征選擇的方式一般是通過(guò)構(gòu)建評(píng)價(jià)函數(shù),然后通過(guò)特征集的特征去對(duì)于分本進(jìn)行分類(lèi),這樣會(huì)讓文本得到一個(gè)大概的分值,在根據(jù)所得分支大小將文本排序,選擇特征文本當(dāng)中的特征子集,然后通過(guò)特征子集實(shí)現(xiàn)文本的分類(lèi)。一般來(lái)說(shuō),我國(guó)目前常用的特征選擇為以下四種。

        1)通過(guò)文本的頻率實(shí)現(xiàn)文本特征的選擇,當(dāng)文檔當(dāng)中某一個(gè)詞匯出現(xiàn)的頻率小于某一固定值或者大于某一固定值的時(shí)候就可以將該詞匯停用或者去除,提高文檔分類(lèi)的準(zhǔn)確性。

        2)通過(guò)信息增益實(shí)現(xiàn)文本特征的選擇,所謂的信息增益也就是這個(gè)詞對(duì)于這個(gè)文檔分類(lèi)的價(jià)值,如果該詞匯的價(jià)值較低就將詞匯停用。

        3)X2統(tǒng)計(jì)量,所謂統(tǒng)計(jì)來(lái)就是文檔當(dāng)中某一個(gè)詞匯和文檔的獨(dú)立性以及相關(guān)性,當(dāng)詞匯和文檔的相關(guān)性越高,獨(dú)立性越小那么這個(gè)詞就當(dāng)作文檔分類(lèi)的重點(diǎn)詞匯,如果該詞和文檔的相關(guān)性較低,獨(dú)立性較高那么在文檔分類(lèi)的時(shí)候就刪除或者停用這個(gè)詞。

        4)期望交叉熵,期望交叉熵的特征選擇是通過(guò)鑒定詞匯對(duì)于本次分類(lèi)的影響比重,如果本次詞匯對(duì)于文檔分類(lèi)的影響比重超過(guò)某一固定值,那么就將該詞當(dāng)作文檔劃分的重要依據(jù)。

        2 覆蓋算法

        2.1 前后神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法

        如果一個(gè)文檔經(jīng)過(guò)上述所有預(yù)處理之后,那么這個(gè)文檔就變成了一個(gè)特征選擇文檔,我們就可以通過(guò)前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法去進(jìn)行文檔的分類(lèi),所謂前向神經(jīng)神經(jīng)網(wǎng)絡(luò)覆蓋算法就是通過(guò)某一個(gè)輸入集合例如K(K為N維的歐式空間的集合),然后我們?cè)趯⒓螷細(xì)分成八個(gè)不同的小集合K1,K2,K3,K4,K5,K6,K7,K8.然后再具體的網(wǎng)絡(luò)機(jī)構(gòu)實(shí)現(xiàn)的時(shí)候,建立一個(gè)圓球性區(qū)域當(dāng)作一個(gè)神經(jīng)元,每一個(gè)神經(jīng)元的功能函數(shù)表達(dá)式為

        將X,Y分別當(dāng)作內(nèi)積,這時(shí)候就可以形成一個(gè)以X為主體,以O(shè)為具體值的覆蓋區(qū)域C,將樣品當(dāng)中的每一個(gè)點(diǎn)都映射到最開(kāi)始設(shè)定的神經(jīng)元網(wǎng)絡(luò)當(dāng)中,按照這樣的方法可以得到文檔的全部覆蓋和具體分類(lèi)。

        前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法可以快速地構(gòu)建一個(gè)分類(lèi)正確的神經(jīng)網(wǎng)絡(luò)體系,對(duì)比于傳統(tǒng)的文檔分類(lèi)算法,前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法可以提高效率。

        2.2 算法的具體應(yīng)用

        要想實(shí)現(xiàn)前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法的具體應(yīng)用,那么就必須學(xué)習(xí)算法,首先我們需要設(shè)定一個(gè)具體的樣本X并且將它劃分為N類(lèi),利用數(shù)學(xué)表達(dá)為X=(X1,X2,X3...XN),具體的應(yīng)用為,先將X樣本當(dāng)中計(jì)算得出一個(gè)最大的模R,然后將X當(dāng)中的每一個(gè)類(lèi),映射到半徑為2R的圓球當(dāng)中,分別設(shè)定好覆蓋的數(shù)值和類(lèi)別的數(shù)值,將類(lèi)別覆蓋到設(shè)定好的覆蓋數(shù)值當(dāng)中,如果無(wú)法覆蓋則將這個(gè)類(lèi)停用,如果可以覆蓋就按照具體構(gòu)造公式計(jì)算這個(gè)類(lèi)的覆蓋范圍,實(shí)現(xiàn)前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法的具體應(yīng)用。

        2.3 算法的準(zhǔn)確性測(cè)試

        要實(shí)現(xiàn)前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法的精準(zhǔn)性測(cè)試,就必須通過(guò)給定一個(gè)具體的測(cè)試樣本,若果這個(gè)測(cè)試樣本符合之前設(shè)定的類(lèi)別當(dāng)中某一個(gè)類(lèi)別的圓球形區(qū)域,然后將其帶入算法當(dāng)中計(jì)算,如果計(jì)算結(jié)果和最后的文檔分類(lèi)正確那么本次前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法準(zhǔn)確性合格,如果帶入算法之后無(wú)法計(jì)算或者最后的文檔分類(lèi)出現(xiàn)錯(cuò)誤,那么本次前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法精準(zhǔn)性測(cè)試不合格。

        3 實(shí)驗(yàn)結(jié)果和具體分析

        本次的前向精神網(wǎng)絡(luò)交叉覆蓋算法的實(shí)驗(yàn),通過(guò)實(shí)現(xiàn)基于互聯(lián)網(wǎng)檢索并且人工審核之后確定分類(lèi)的文檔,本次文檔的類(lèi)別分別為交通類(lèi),體育類(lèi),自然類(lèi),災(zāi)害類(lèi),生活類(lèi),娛樂(lè)類(lèi)六個(gè)大類(lèi),每個(gè)大類(lèi)挑選了200個(gè)文檔,將每一個(gè)大類(lèi)的文檔分別挑選出100篇訓(xùn)練和100篇測(cè)試。再訓(xùn)練類(lèi)文檔當(dāng)中,通過(guò)稀有詞除去,停用詞去除以及詞匯合并的方式,確定每一個(gè)文檔的特征選擇,然后統(tǒng)計(jì)總計(jì)成為該文檔的特征詞匯表,再將100個(gè)測(cè)試文檔進(jìn)行計(jì)算,通過(guò)對(duì)于前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法去進(jìn)行分類(lèi),然后通過(guò)計(jì)算準(zhǔn)確率和查全率兩個(gè)方法驗(yàn)證本次覆蓋算法的準(zhǔn)確性。準(zhǔn)確性=正確文檔分類(lèi)個(gè)數(shù)/總文檔個(gè)數(shù),查全率=正確文檔分類(lèi)個(gè)數(shù)/屬于該類(lèi)別的文檔個(gè)數(shù)。

        具體實(shí)驗(yàn)如下所示:

        根據(jù)實(shí)驗(yàn)數(shù)據(jù)表可以看出本次前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法的精準(zhǔn)性較高,可以較為快速快慰準(zhǔn)確的分別出文檔的類(lèi)別。

        4 總結(jié)

        文檔的分類(lèi)實(shí)質(zhì)上就是通過(guò)文檔的特性詞匯和內(nèi)容的識(shí)別,將文檔劃分到不同的類(lèi)別當(dāng)中,可以讓用戶更加準(zhǔn)確和快速地查找到自己所需要的相關(guān)資料,目前文檔的自動(dòng)分類(lèi)已經(jīng)成為我國(guó)信息文檔處理最主要的方式之一,本次基于前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法通過(guò)去除停用詞和稀有詞以及詞匯合并的方式,構(gòu)建一個(gè)類(lèi)別文檔的選擇標(biāo)準(zhǔn),然后實(shí)現(xiàn)對(duì)于該類(lèi)別文檔的選擇和分類(lèi)。本次基于前向神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法的文檔分類(lèi)具有較高的準(zhǔn)確性,而且文檔分類(lèi)速度較快,比起傳統(tǒng)模式的文檔分類(lèi)具有較大的優(yōu)勢(shì)。

        參考文獻(xiàn):

        [1] 高潔,吉根林.文本分類(lèi)技術(shù)研究[J].計(jì)算機(jī)應(yīng)用研究,2014(7).

        [2] 王灝.文本分類(lèi)實(shí)現(xiàn)技術(shù)[J].廣西師范大學(xué)學(xué)報(bào),2011(9).

        【通聯(lián)編輯:李雅琪】

        猜你喜歡
        文本分類(lèi)
        基于樸素貝葉斯的Web文本分類(lèi)及其應(yīng)用
        基于組合分類(lèi)算法的源代碼注釋質(zhì)量評(píng)估方法
        基于貝葉斯分類(lèi)器的中文文本分類(lèi)
        基于蟻群智能算法的研究文本分類(lèi)
        基于樸素貝葉斯分類(lèi)的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
        基于K—means算法的文本分類(lèi)技術(shù)研究
        文本分類(lèi)算法在山東女子學(xué)院檔案管理的應(yīng)用
        科技視界(2016年24期)2016-10-11 09:36:57
        不同情境下中文文本分類(lèi)模型的表現(xiàn)及選擇
        基于內(nèi)容的英語(yǔ)錄音教材標(biāo)注研究與應(yīng)用
        多核SVM文本分類(lèi)研究
        軟件(2015年5期)2015-08-22 08:02:45
        国产欧美一区二区成人影院| 中文字幕无线码一区二区| 亚洲精品久久一区二区三区777| 久久亚洲精品无码va大香大香 | 91网站在线看| 蜜桃视频高清在线观看| 丰满人妻猛进入中文字幕| av 日韩 人妻 黑人 综合 无码| 欧美人成人亚洲专区中文字幕| 亚洲色图在线视频免费观看| 水蜜桃在线精品视频网| 性色av免费网站| 日韩国产精品一区二区Hd| 一区二区三区国产精品| 日韩肥臀人妻中文字幕一区| 亚洲av永久无码精品三区在线| 国产精品视频牛仔裤一区| 在线亚洲精品国产成人二区| 色婷婷久久精品一区二区| 亚洲av日韩精品久久久久久久| 国内精品久久久影院| 国产人成在线免费视频| 国产偷国产偷亚洲综合av| 精东天美麻豆果冻传媒mv| 欧美一级视频精品观看 | 一区二区三区观看视频在线| 国产精品无码dvd在线观看| 亚洲av无码一区二区三区网站| 国产精品毛片99久久久久| 久久中文字幕暴力一区| 无码成人一区二区| 欧美a视频在线观看| 91亚洲精品久久久中文字幕| 国产a级毛片久久久精品毛片| 日韩有码在线一区二区三区合集| 999国产精品999久久久久久| 国产成人av 综合 亚洲| 东京热无码人妻中文字幕| 色和尚色视频在线看网站| 一区二区三区乱码在线 | 欧洲| 亚洲欧美日韩专区一|