亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于遺傳算法的文本過濾模型及收斂性分析

        2011-10-15 01:37:10朱振方劉培玉李少輝王乾龍
        中文信息學(xué)報(bào) 2011年5期
        關(guān)鍵詞:定義分類文本

        朱振方,劉培玉,李少輝,趙 靜,王乾龍

        (1.山東師范大學(xué)信息科學(xué)與工程學(xué)院,山東濟(jì)南250014;2.山東省分布式計(jì)算機(jī)軟件新技術(shù)重點(diǎn)實(shí)驗(yàn)室,山東濟(jì)南250014)

        文本信息過濾[1]是指在大量的文本數(shù)據(jù)流中尋找滿足特定用戶需求的文本的過程,當(dāng)前實(shí)現(xiàn)信息過濾的主要方法有合作過濾[2]和內(nèi)容過濾[3]兩類?;趦?nèi)容的文本信息過濾是目前信息過濾研究的熱點(diǎn),而基于內(nèi)容的信息過濾又分為基于統(tǒng)計(jì)的過濾方法和基于機(jī)器學(xué)習(xí)的過濾方法[3]。在基于機(jī)器學(xué)習(xí)的內(nèi)容過濾方法中,核心部分是過濾模板的構(gòu)建和更新。

        1 相關(guān)背景

        遺傳算法[4]自20世紀(jì)70年代產(chǎn)生以來,很多機(jī)構(gòu)和研究人員對其進(jìn)行了廣泛而深入的研究,取得了很多重要的研究成果,并使其應(yīng)用領(lǐng)域迅速推廣到優(yōu)化、搜索、機(jī)器學(xué)習(xí)等各個方面,逐漸發(fā)展成為一種通過模擬自然進(jìn)化過程解決最優(yōu)化問題的計(jì)算模型。

        基于內(nèi)容的文本信息過濾是機(jī)器學(xué)習(xí)的重要組成部分,最早將遺傳算法應(yīng)用于機(jī)器學(xué)習(xí)是用來解決一些較為簡單的學(xué)習(xí)問題,例如,Holland和 Reitman提出的CS-1系統(tǒng)[5]中將遺傳算法首次應(yīng)用于求解迷宮問題,Goldberg[6]則將遺傳算法應(yīng)用到工程控制中,這些研究產(chǎn)生了真正意義上的基于遺傳算法的機(jī)器學(xué)習(xí)(Genetic-based Machine Learning,GBML)。

        研究中發(fā)現(xiàn),將遺傳算法引入到文本信息處理特別是中文文本信息過濾的研究很少,主要集中在應(yīng)用遺傳算法進(jìn)行特征選擇以及將遺傳算法應(yīng)用于生成模板的實(shí)際應(yīng)用。2000年,BURNS和 DANYLUK[7]首次將遺傳算法應(yīng)用到特征選擇,接著,PAN Li等[8]將基于遺傳算法的特征選擇引入到文本分類領(lǐng)域,此后很多研究者提出了多種改進(jìn)方案,文獻(xiàn)[9]也提出了一種自適應(yīng)遺傳算法并將其應(yīng)用到特征選擇中。

        近年來遺傳算法在中文文本信息過濾中的應(yīng)用研究除了呂志龍[10]等人外,則就是作者所在課題組基于遺傳算法的文本分類和過濾模型的構(gòu)建及其改進(jìn)[11]。在呂志龍研究中,只是將遺傳算法應(yīng)用到模板優(yōu)化,并沒有直接應(yīng)用遺傳算法生成模板,而在作者所在課題組前期研究則著重于具體實(shí)現(xiàn),并沒有從理論上進(jìn)行相應(yīng)的證明。

        本文針對應(yīng)用遺傳算法解決中文文本信息過濾問題建立了相應(yīng)的問題模型,并在理論上證明其可行性。同時(shí),還根據(jù)在實(shí)際應(yīng)用中存在的問題,引入了自適應(yīng)策略解決應(yīng)用過程中存在的問題。

        2 問題空間描述

        文本信息過濾從一定程度上可以看作是一種二值文本分類,它將待過濾文本映射到一個合法文檔集或非法文檔集。上述過程可用形式化的數(shù)學(xué)語言表述如下:

        對于每個<di,ci>∈D×C,其中D為待過濾文檔集,di為D中的一個文檔,C為類別集,C中含有兩個值c1和c2,分別為過濾文檔集和正常文檔集,判定其布爾值,若其為真(T),則文檔di屬于類別c1,否則(F)不屬于c2,文本信息過濾過程就是構(gòu)造函數(shù)α:D×C?{T,F}。

        2.1 文本預(yù)處理

        基于向量空間模型的信息過濾中,需要首先對訓(xùn)練文檔di進(jìn)行分詞,把di表示成一系列特征項(xiàng)序列c1c2c3…ck…cn,并對這些文本計(jì)算權(quán)重信息wk,從而形成按照類別劃分切詞和權(quán)重計(jì)算結(jié)果。

        2.2 問題編碼及初始種群生成

        在遺傳算法尋優(yōu)過程中,需要將問題空間進(jìn)行編碼,然后才能運(yùn)用遺傳算法計(jì)算。在中文文本信息過濾中,采用一種改進(jìn)的二進(jìn)制編碼方式。具體方式如下。

        1)使用隨即發(fā)生器隨機(jī)產(chǎn)生一個二進(jìn)制序列,該二進(jìn)制序列長短則代表基因串長度;

        2)將該二進(jìn)制序列同預(yù)處理后的類別切詞結(jié)果進(jìn)行邏輯與操作;

        3)將計(jì)算結(jié)果作為問題求解的一個個體,依次生成問題空間的個體構(gòu)成初始種群。

        由此生成的基因串長度是有限的,這使得系統(tǒng)中不再需要專門的降維操作,編碼同時(shí)就等于同時(shí)實(shí)施了降維。

        2.3 個體適應(yīng)度衡量

        適應(yīng)度函數(shù)表明個體對環(huán)境適應(yīng)能力的強(qiáng)弱,不同問題適應(yīng)度函數(shù)的定義方式不同。在求解中文文本信息過濾的遺傳算法計(jì)算過程中,最終要生成進(jìn)行內(nèi)容過濾的模板,該模板應(yīng)該是能夠代表類別空間的最佳個體,因此必然能夠與相同類別的待過濾文檔具有較大的相似度而與其他類別文檔具有較小相似度,因此在應(yīng)用中把個體之間的相似度作為適應(yīng)度函數(shù)是一種可取方案[11]。

        而課題組在應(yīng)用過程中,通過實(shí)驗(yàn)驗(yàn)證和比較各種方案的基礎(chǔ)上[11],發(fā)現(xiàn)使用適應(yīng)度差的絕對值作為評價(jià)個體優(yōu)劣的標(biāo)準(zhǔn)更為恰當(dāng)。

        定義1:個體間相似度

        individual[i]、individual[j]表示遺傳算法中第i和第j個個體,weight[i]、weight[j]分別表示第i和第j個個體的權(quán)重。

        定義2:平均相似度

        其中g(shù)roup_size表示種群大小,其他變量同定義1。

        3 收斂性分析

        在遺傳算法收斂性分析方面,主要有模式定理[12]、隨機(jī)理論[13]以及動力學(xué)原理[14]等幾個方面,王麗薇[15]等提出了一種應(yīng)用集合論的證明方法,本文將借鑒該方法分析上述優(yōu)化問題的收斂性。

        3.1 問題歸約

        中文文本信息過濾問題在一定程度上屬于文本分類問題,解決了文本分類問題則文本信息過濾迎刃而解,但是多類別文本分類屬于多維空間判斷問題,在多維空間上討論斂散性具有很大困難。因此,我們可以將中文文本信息分類和過濾問題轉(zhuǎn)化到二維空間討論其斂散性。

        3.2 相關(guān)定義

        在該收斂性分析中,涉及以下幾個定義:

        定義1:問題的解

        設(shè)問題空間為I,C={1,2…n}k是問題解的一個編碼結(jié)果,針對C中的每一個可能解,在問題空間I都有一個點(diǎn)與之對應(yīng)。反之不一定成立。

        定義2:空間轉(zhuǎn)變函數(shù)

        用f表示空間轉(zhuǎn)變函數(shù),稱為強(qiáng)度函數(shù),令其定義域?yàn)閱栴}空間I,值域?yàn)槟繕?biāo)函數(shù)值域,則函數(shù)f可定義為一個映射I中的每一個點(diǎn)i,如果i對應(yīng)于一個解,則令 f(i)等于目標(biāo)函數(shù)在i點(diǎn)的值;否則,令 f(i)等于目標(biāo)函數(shù)的最小值。

        通過空間轉(zhuǎn)變函數(shù)將問題空間的解轉(zhuǎn)化為強(qiáng)度函數(shù) f的二維空間解集。在該二維空間集合上,我們可以定義相關(guān)類的定義,用以討論在二維空間集合上討論復(fù)雜問題的斂散性。

        定義3:類的概念

        集合S稱為一個類當(dāng)且僅當(dāng)S?I,類S在種群POP的強(qiáng)度為類S在種群中所有個體平均強(qiáng)度;對于類S,如果存在 f(S,POP)≥f(POP,POP),則成為類S在種群中占優(yōu)勢;如果類S在任何一個種群中都占優(yōu)勢,則稱為S為一致類。如果存在強(qiáng)度函數(shù)值域V中的一點(diǎn)r,S包含且僅包含問題空間中強(qiáng)度函數(shù)大于r的個體,即:

        則S成為一個優(yōu)類。

        定義4:一致類判定

        類S是一致類當(dāng)且僅當(dāng)其是優(yōu)類。

        之所以定義優(yōu)類,是因?yàn)橐恢骂惖目刹僮餍蕴疃x4給出了一個可操作的直觀方法。

        3.3 收斂性假設(shè)

        最優(yōu)解包含在任何優(yōu)類中,所有優(yōu)類的交集就是最優(yōu)解。由定義4可以看出,優(yōu)類等價(jià)一致類,因此,如果種群中一致類所占的比例不斷增加,則搜索空間縮小,其方向就是一致類交集的方向,理論上講遺傳算法能收斂到最優(yōu)解。

        但是這種穩(wěn)定性很容易被破壞掉。基于這個原因,如果遺傳過程能夠找到最優(yōu)解就要保證上述一致類集合不被代替或者消失,因此提出如下假設(shè):

        收斂性假設(shè)

        如果S為一致類,POP為種群,則對任意競爭類S′,如果:

        下面兩個條件則必有一個成立:

        (1)S′中的個體均在S 中,即 S′∩POP?S;

        (2)S′和S交集(即同屬于S′和S的的個體)強(qiáng)度均大于或者等于S′強(qiáng)度,即 f(S′,POP)≥f(S,POP)。

        上述收斂假設(shè)中無論哪種情況發(fā)生,S′在下一代中都不會取代S,而只能一起獲得增長,這就保證了一直模式不會被其他類所取代。

        從上面定義和假設(shè)中可以看出,在遺傳操作情況下,如果S在遺傳操作中是近乎封閉的,則類是穩(wěn)定的,那么也就能找到最優(yōu)解。如果不完全封閉的情況下就要考慮穩(wěn)定程度,穩(wěn)定性保證了類在遺傳操作中不會被取代,只有這樣的類才能在遺傳運(yùn)算中被傳遞,對遺傳算法才有意義。因此,在遺傳算法中我們只考慮這種類,而不穩(wěn)定類,即使它強(qiáng)度再高,也不能被遺傳進(jìn)化,我們不必考慮。

        3.4 問題收斂性分析

        由上述可以得出這樣的收斂性結(jié)論:如果一致類具有穩(wěn)定性,遺傳算法就可以收斂到最優(yōu)解。任何問題空間只要滿足這個條件,我們就認(rèn)為可以用遺傳算法進(jìn)行求解,并有希望獲得最優(yōu)解。

        信息過濾特征項(xiàng)是從訓(xùn)練文檔中抽取的,而訓(xùn)練文檔是靜態(tài)的,這就決定了用遺傳算法求解信息過濾問題是相對封閉的過程,通過本文第2節(jié)給出的基于遺傳算法的信息過濾模型,并結(jié)合本節(jié)相關(guān)定義我們可以認(rèn)為本文所給出的基于遺傳算法的信息過濾可以收斂。也就是說從理論上來講本文所給出的模型是有效的。

        4 應(yīng)用分析

        課題組將遺傳算法應(yīng)用到網(wǎng)絡(luò)信息過濾中生成過濾模板,其主要原理在本節(jié)加以介紹。

        4.1 訓(xùn)練集

        訓(xùn)練文檔采用了復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系國際數(shù)據(jù)庫中心自然語言處理小組李榮陸整理中文文本分類語料,共9804篇文檔,分為 20個類別。其中文學(xué)、教育等11個類別其文檔數(shù)不超過100篇,計(jì)算機(jī)、環(huán)境、農(nóng)業(yè)、經(jīng)濟(jì)、政治以及體育等六個類別文檔數(shù)超過1000。由于算法最終要應(yīng)用于信息過濾,因此項(xiàng)目組又自行收集了暴力、色情兩個類別分別276和192篇文檔,共計(jì)八個類別7947篇文檔用于訓(xùn)練。訓(xùn)練文檔分布如表1所示:

        表1 訓(xùn)練文檔分布

        4.2 測試集

        測試集則主要包括封閉測試集和開放測試集。①封閉測試集:將復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系國際數(shù)據(jù)庫中心自然語言處理小組李榮陸整理的中文文本分類語料中不超過100篇文檔的11個類別共計(jì)502篇文檔與從訓(xùn)練集每個類別隨機(jī)抽取的50篇文檔組成訓(xùn)練集共計(jì)902篇測試文檔。②開放測試集:中國科學(xué)院計(jì)算技術(shù)研究所譚松波整理的中文文本分類語料庫-T anCorpV1.0,該語料庫分為兩個層次,收集文本14150篇,第一個層次為12個類別,本文即從第一層次中與訓(xùn)練文檔相關(guān)的財(cái)經(jīng)、電腦、體育共三個類別中每個類別隨機(jī)選取200篇混合組成測試文檔。

        4.3 開發(fā)和運(yùn)行環(huán)境

        預(yù)設(shè)種群規(guī)模大小為400,染色體數(shù)目為200,最大遺傳代數(shù)為1000,變異率和交叉率分別預(yù)先設(shè)置為0.015和0.6。相關(guān)實(shí)驗(yàn)在一臺方正PC上進(jìn)行,處理器為Intel(R)Core(TM)Duo CPU E7200@2.53HZ,內(nèi)存為2G,開發(fā)環(huán)境為Visual Studio2005,開發(fā)語言為C#。

        4.4 考查參數(shù)

        1)單類測試方案

        目前信息過濾和文本分類中普遍使用的性能評估指標(biāo)為準(zhǔn)確率(Precision,簡記為p)、召回率(Recall,簡記為r)。對于文檔類中的每一個類別,使用列聯(lián)表(Contingency Table)來計(jì)算召回率和準(zhǔn)確率。表2為一個列聯(lián)表實(shí)例。

        表2 單類列聯(lián)表(Contingency Table)

        此時(shí),準(zhǔn)確率(precision)、召回率(recall)定義如下:

        2)整體考查策略

        上述列聯(lián)表只能對單個類別分類效果進(jìn)行評估,如果要對分類性能做一個全面評價(jià),通常引入宏平均[16]概念,其計(jì)算方式為對每個類計(jì)算 p和r值,然后對所有類求其平均值,即:

        4.5 文本分類實(shí)驗(yàn)

        為保證實(shí)驗(yàn)效果,試驗(yàn)中單詞切分部分應(yīng)用河北理工大學(xué)經(jīng)管學(xué)院呂震宇根據(jù)計(jì)算所漢語詞法分析系統(tǒng)ICTCLAS改編.net平臺下的SharpICTCLAS,該切詞程序理論準(zhǔn)確率為97.58%,模板生成應(yīng)用遺傳算法進(jìn)行訓(xùn)練。主要從文本分類和信息過濾兩個方面進(jìn)行比較。

        4.5.1 在測試數(shù)據(jù)1上的測試

        如表3所示,為本文所提出的方法在測試數(shù)據(jù)1上的各個類別準(zhǔn)確率。

        表3 在測試數(shù)據(jù)1上的各類準(zhǔn)確率

        在表3所示的實(shí)驗(yàn)數(shù)據(jù)中,經(jīng)分析可以發(fā)現(xiàn),在分類效果較差的兩種類別中,訓(xùn)練文檔中文章存在一些相似之處,如政治類別往往包含到經(jīng)濟(jì)、環(huán)境、農(nóng)業(yè)等因素,因此造成其準(zhǔn)確率較低。

        為考查該方法分類效果,應(yīng)用了上述測試方法中的宏平均評價(jià)方式,經(jīng)計(jì)算,上述數(shù)據(jù)平均準(zhǔn)確率為=85.810,我們將該數(shù)據(jù)同近年來在Reuters-21578上的幾種基本方法進(jìn)行了比較,其比較數(shù)據(jù)如圖1所示。

        圖1 改進(jìn)方法平均精度比較

        上圖中,GA代表文中所敘述方法,NB表示Naive Bayes方法,DT表示 Decision Tree方法,KNN表示最近鄰分類方法,而SVM為支持向量機(jī),上述幾組數(shù)據(jù)[15]系近年來報(bào)道的在Reuters-21578語料的最好分類效果。

        4.5.2 在測試數(shù)據(jù)2上的測試

        上述實(shí)驗(yàn)數(shù)據(jù)中,該改進(jìn)的計(jì)算方法能夠取得較好的效果,但是,我們不能排除上述實(shí)驗(yàn)結(jié)果是在數(shù)據(jù)1的基礎(chǔ)上得到的,可能存在一定的過度擬合問題,因此設(shè)計(jì)了應(yīng)用上述第二組測試數(shù)據(jù)進(jìn)行了進(jìn)一步測試,其分析數(shù)據(jù)如表4所示。

        表4 在測試數(shù)據(jù)2上的準(zhǔn)確率比較

        上述實(shí)驗(yàn)數(shù)據(jù)中,就準(zhǔn)確率來講,其中電腦財(cái)經(jīng)類與封閉測試雖然略有下降,但是相差不大,而體育類則具有較大差距,究其原因,分析訓(xùn)練文檔和測試文檔即可發(fā)現(xiàn),原訓(xùn)練文檔中有關(guān)體育類中均屬于體育理論研究,而測試文檔則來源于網(wǎng)絡(luò),因此二者具有較大差距。

        4.5.3 信息過濾實(shí)驗(yàn)測試

        鑒于研究目的在于應(yīng)用到基于內(nèi)容的信息過濾中,因此設(shè)計(jì)該試驗(yàn)將上述分類器應(yīng)用于網(wǎng)絡(luò)信息過濾的測試實(shí)驗(yàn)。試驗(yàn)中將實(shí)驗(yàn)室測試數(shù)據(jù)1劃分成了兩個大類,即合法文檔和非法文檔,其中的非法文檔由測試數(shù)據(jù)1中的色情和暴力文檔組成,而合法文檔則由其他六個類別隨機(jī)選取組成,實(shí)驗(yàn)數(shù)據(jù)構(gòu)成以及測試結(jié)果如表5所示。

        表5 過濾效果測試統(tǒng)計(jì)數(shù)據(jù)

        我們將上表中的過濾數(shù)據(jù)同文獻(xiàn)[18]進(jìn)行比較,本文中所給方法不論在哪個類別上,都明顯好于文獻(xiàn)[18]所給出的數(shù)據(jù),因此本文方法具有較好的過濾效果,同時(shí),從表中也可以看出,非法文檔等具有鮮明特色的類別具有更好的分類效果,而我們最終要過濾的就是該類不良信息,因此本文方法的應(yīng)用是有效的。

        5 遺傳參數(shù)的自適應(yīng)調(diào)整

        研究過程中發(fā)現(xiàn),遺傳算法進(jìn)化過程隨機(jī)性太大,而在前面進(jìn)化較慢而后面進(jìn)化太快,容易陷入局部最優(yōu),通過繪制適應(yīng)度變化曲線,我們也發(fā)現(xiàn),遺傳過程容易反復(fù),這使得局部最優(yōu)不可避免。

        圖2給出了類別“體育”在遺傳算法運(yùn)行過程中適應(yīng)度值隨時(shí)間變化的曲線。

        圖2 適應(yīng)度變化曲線

        圖2可以看出,訓(xùn)練過程中相似度差越來越小,也就是說適應(yīng)度值越來越大,即生成的個體越來越好,這也就從實(shí)驗(yàn)的角度證明了基于遺傳算法的方案的可行性。
        但是,上圖中也發(fā)現(xiàn)選取的數(shù)據(jù)點(diǎn)中存在一個奇異點(diǎn),這就是說在訓(xùn)練過程存在反復(fù)現(xiàn)象,這是因?yàn)檫z傳算法應(yīng)用過程中采用了固定交叉和變異操作,針對該問題,很多研究者提出了自適應(yīng)修改策略[19]。

        5.1 參數(shù)調(diào)整策略

        課題組研究過程結(jié)合相關(guān)研究引入了一種改進(jìn)的變交叉率和變異率操作。

        max_f itness,f itness[i]及max_gen分別是當(dāng)前代中最大適應(yīng)度值、待變異個體的適應(yīng)度值及預(yù)設(shè)的最大代數(shù),max_pm和min_pm分別是預(yù)設(shè)的最大變異率和最小變異率,t為當(dāng)前進(jìn)化代數(shù),pm為當(dāng)前代中個體的變異率。x和temp是中間計(jì)算變量 ,且

        5.2 實(shí)驗(yàn)結(jié)果比較分析

        該部分采用同4.2中實(shí)驗(yàn)結(jié)果相同的實(shí)驗(yàn)設(shè)置,其適應(yīng)度變化曲線圖3所示。

        從圖3可以看出,適應(yīng)度曲線明顯比圖2具有更加明顯的收斂特性,該改進(jìn)策略是有效的。

        6 結(jié)束語

        論文通過分析遺傳算法以及中文文本信息過濾的特點(diǎn),從理論以及實(shí)驗(yàn)分析了其可行性,并結(jié)合實(shí)驗(yàn)中存在的問題提出了遺傳算子的自適應(yīng)策略。理論以及實(shí)驗(yàn)分析均發(fā)現(xiàn),該方法能夠解決中文文本信息過濾問題。

        圖3 自適應(yīng)策略適應(yīng)度變化曲線

        下一步主要針對基于遺傳算法網(wǎng)絡(luò)信息過濾模型進(jìn)行改進(jìn),提高其分類準(zhǔn)確率,同時(shí)考慮結(jié)合蟻群算法解決遺傳算法在后期存在的遺傳速度較慢、容易陷入局部最優(yōu)問題。

        [1]Belkin N.J.,Croft W.B.Information Filtering and Information Retrieval:Two Sides of the Same Coin[J]Communications of the ACM,1992,35(12):29-38.

        [2]崔寶俠,任重,段勇.基于用戶興趣的電子商務(wù)推薦方法[J].沈陽工業(yè)大學(xué)學(xué)報(bào),2009,31(5):573-576.

        [3]方娟,梁文燦.一種基于協(xié)同過濾的網(wǎng)格門戶推薦模型[J].電子與信息學(xué)報(bào),2010,32(7):1585-1590.

        [4]John H.Holland.Adaptation in Natural and Artificial System:an Introduction with Application to Biology,Control and Artificial Intelligence[M].Ann Arbor,U-niversity of Michigan Press,1975.

        [5]John H.Holland.Adaptation in Natural and Artificial Systems:An Introductory Analysis with Applications to Biology,Control,and Artificial Intelligence[M].The M IT Press,1992.

        [6]Goldberg D E.Genetic Algorithms is Search,Optimization,Machine Learning[M].Reading MA:Addison Wesley,1989,29-48.

        [7]Burns,Danyluk.Feature Selection vs Theory Reformulation:A Study of Genetic Refinement of Knowledge-based Neural Networks[J].Machine Learning,2000,38,89-107.

        [8]PAN Li,ZHENG Hong,ZHANG Zuxun,et al.Genetic Feature Selection for Texture Classification[J].Geospatial Information Science(Quarterly).2004,7(3):163-173.

        [9]LIU Peiyu,ZHU Zhenfang,XU Liancheng,CHI Xuezhi.Optimization of a Subset of Features Based on Fuzzy Genetic Algorithm[C]//Proceedings 2009 IEEE International Symposium on IT in Medicine&Education,2009,2(2):933-937.

        [10]呂志龍.基于遺傳算法的自適應(yīng)文本過濾方法的研究[D].哈爾濱:哈爾濱工程大學(xué),2007.

        [11]ZHU Zhen-fang,LIU Pei-yu,ZHAO Li-na,et al.Research of Feature Weights Adjustment Based on Semantic Paragraphs Matching[J].ICIC Express Letters,2010,4(2):559-564.

        [12]Holland J H.Adaptation in Natural and Artificial System:An Introductory Analysis with Application to Biology,Control,and Artificial Intelligence[M].2nd Edition,Cambridge,MA:MIT Press,1992:96-127.

        [13]Christopher T.H.Baker,Evelyn Buckwar.Numeri

        cal Analysis of Explicit One-Step Methods for Stochastic Delay Differential Equations[J].LMS Journal of Computation and Mathematics,2000,3:315-335.

        [14]郭東偉,劉大有,周春光,等.遺傳算法收斂性的動力學(xué)分析及其應(yīng)用[J].計(jì)算機(jī)研究與發(fā)展,2002,39(2):225-230.

        [15]王麗薇,洪勇,洪家榮.遺傳算法的收斂性研究[J].計(jì)算機(jī)學(xué)報(bào),1996,19(10):794-797.

        [16]Muhammad Arifur Rahman.Performance Evaluation for Question Classification by Tree Kernels using Support Vector Machines[J].Journal of Computers,2010,5(1):32-39.

        [17]蘇金樹,張博峰,徐昕.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J].軟件學(xué)報(bào),2006,17(9):1848-1859.

        [18]朱振方,劉培玉,王金龍.一種基于語義特征的邏輯段落劃分方法及應(yīng)用[J].計(jì)算機(jī)科學(xué),2009,36(12):227-230.

        [19]劉勝,趙紅.遺傳交叉和變異對種群多樣性的影響[J].控制與決策,2009,24(10):1535-1539.

        猜你喜歡
        定義分類文本
        分類算一算
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        修辭學(xué)的重大定義
        国产欧美曰韩一区二区三区 | 亚洲一区二区三区国产| 国产精品国产三级国产av剧情 | 色噜噜狠狠色综合欧洲| 精品日韩在线观看视频| 亚洲国产婷婷六月丁香| 日本少妇被黑人xxxxx| 久久久99精品成人片中文字幕| 国内激情一区二区视频| 国产精品国产三级国产av品爱 | 蜜桃网站入口可看18禁| 国产免码va在线观看免费| av天堂久久天堂av色综合| 无码人妻中文中字幕一区二区| 亚洲成在人线天堂网站| 看久久久久久a级毛片| 亚洲深深色噜噜狠狠爱网站 | 久久人人爽av亚洲精品| 熟妇人妻无码中文字幕| 一区在线播放| 日本视频在线观看一区二区| 国产色xx群视频射精| 国内免费AV网站在线观看| 91精品国产乱码久久久| 色综合久久中文字幕综合网| 亚洲日本在线电影| 久久综合给合久久狠狠狠9| 国产午夜福利小视频在线观看| av国产传媒精品免费| 日韩欧美亚洲综合久久影院d3| 亚洲天堂av社区久久| 人妻少妇中文字幕在线观看| 国产精品自在线拍国产| 中出高潮了中文字幕| 成人免费av高清在线| 国产乱了真实在线观看| 国产欧美精品一区二区三区,| 日本老熟女一区二区三区| 国产亚洲美女精品久久久2020| 欧美午夜精品久久久久免费视| 久久99精品免费国产|