亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主題模型的水利信息分類方案設(shè)計

        2019-01-04 12:21:04諸葛慶子張審問蔡朝暉
        水利信息化 2018年6期
        關(guān)鍵詞:卡方特征選擇類別

        諸葛慶子 ,張審問 ,蔡朝暉 ,徐 華 ,周 琦

        (1. 武漢大學計算機學院,湖北 武漢 430072;2. 甘肅省水利廳信息中心, 甘肅 蘭州 730000)

        0 引言

        水利信息分類是進行水利信息交換和實現(xiàn)信息資源共享的重要前提,是水利科學數(shù)據(jù)共享標準化的一項最為重要的工作。目前,針對水利信息資源集成度低、有效利用率不高的情況,應對信息資源進行統(tǒng)一管理,因此,建立水利領(lǐng)域大量信息的分類十分必要。根據(jù)不同的業(yè)務(wù)需求和管理要求,從不同的角度出發(fā),形成不同的水利信息分類體系。綜觀現(xiàn)有各分類體系,主要面臨如下 2 個問題:1)現(xiàn)有的水利信息分類不能完全滿足水利科學數(shù)據(jù)共享分類的要求;2)原有分類體系如何與共享分類體系對應。

        建立分類體系,主要是對水利信息中大量文本數(shù)據(jù)的分類。文本數(shù)據(jù)分類的難點是特征的高維度和稀疏性,給分類算法帶來以下 2 個問題:1)訓練和分類時間上需要很大的開銷;2)過多的特征往往會導致維數(shù)災難問題。不同特征選擇的方法對于不同場景下的文本分類有著不同的效果,在水利領(lǐng)域的文本分類中采用適當?shù)奶卣鬟x擇方法有著重要意義[1]。針對水利領(lǐng)域的非結(jié)構(gòu)化文本數(shù)據(jù)的特點,設(shè)計一個基于主題模型的水利文本信息的分類方案,按照水利信息的科學屬性進行分類。主題模型是一種自動化的無監(jiān)督模型,在模式識別和自然語言處理等領(lǐng)域被使用,是能夠在離散數(shù)據(jù)集中發(fā)現(xiàn)淺層主題信息的一種統(tǒng)計概率模型[2]。直觀來講,如果 1 篇水利文檔包含多個中心思想,那么一些表達這些主題思想的特定詞語就會出現(xiàn)得比較頻繁,就可以利用這些信息,建立一個多層的圖模型,將語料、文檔、主題、詞等層面的信息,以及他們之間和內(nèi)部的關(guān)聯(lián)等信息融合起來,這些信息對水利文本分類、聚類、摘要、過濾等都非常有價值。

        1 水利文本預處理

        1.1 文本分詞

        使用基于概率統(tǒng)計語言模型的分詞方法,利用1 個包含 2 萬多條詞語的詞典(包含哈工大、百度停用詞表,搜狗詞庫,以及搜集整理水利中的專有名詞),將詞語放入一個 Trie 樹中,利用 Trie 樹高效掃描詞圖并生成句子中所有可能成詞情況,從 0到 n -1(n 為句子的長度),每個開始位置作為詞典的鍵,鍵值對的值為 value,里面存放了可能的詞語結(jié)束位置,并將這些成詞情況構(gòu)成有向無環(huán)圖,根據(jù)動態(tài)規(guī)劃查找最大概率路徑的方法,水利文本處理對句子采用從右往左的方式計算反向計算最大概率,由于漢語句子常常將重心落在后面,因此反向計算比正向計算的正確率更高。最后由最大概率路徑獲得分詞結(jié)果,這種方法能夠解決歧義詞問題。

        對于文本中較多的未登錄詞(各類專有名詞、縮寫詞、新增詞匯等),采用 HMM 模型和 Viterbi算法。未登錄詞指詞典中并未出現(xiàn)過的詞,中文詞匯有 B,E,M,S 等 4 個狀態(tài),B 是開始,E 是結(jié)束,M 是中間,S 是 singgle,使用 HMM 找到一個最佳的 BEMS 序列,使用 Viterbi 算法得到最佳的隱藏狀態(tài)序列。在人工標注語料的情況下,使用HMM 模型和 Viterbi 算法也能夠單獨對句子進行分詞處理。

        1.2 去除停用詞

        經(jīng)過分詞之后,水利文本中還有大量高頻,但對于分類無意義的形容詞和副詞,還有一些出現(xiàn)頻率不高的特殊符號和英文字符,這些詞通常本身沒有明確的意思,只有被放在一個完整的句子中才會有一定的作用。在文本分類中廣泛使用停用詞會輕易導致對有效信息的噪聲干擾,也會影響文本分類器對于文章類別的判斷,而通過文本特征選擇不一定能被完全剔除。在特征加權(quán)和提取之前將大量無意義的中英文符號等噪聲濾去非常重要,停用詞的濾去也會幫助有效提高關(guān)鍵詞的密度,減少詞的數(shù)量和特征選擇時的計算復雜度。

        哈工大及百度停用詞表總結(jié)整理了日常生活中許多的語氣詞、副詞、形容詞等,另外在水利文本中經(jīng)常會出現(xiàn)例如“長江”“湖南”“湖北”這樣一些名詞,這些高頻名詞對于水利文本類別的判斷同樣沒有任何意義,將哈工大和百度停用詞表和這些單詞整合起來,可作為本研究使用的停用詞表,以濾去文本中的噪聲。在對每篇文本去停用詞時,需要將文本中的單詞掃描 1 遍,對每個單詞都在停用詞表中查詢,若存在則該單詞去除。

        2 基于詞頻的卡方檢驗提取特征

        卡方檢驗(CHI)[3]是一種常見的文本特征選擇方法,卡方檢驗首先假設(shè) 2 個變量之間是相互獨立的關(guān)系,然后對實際值和理論值的偏差進行計算,實際值可以通過觀察得到,理論值是指兩者確實獨立情況下的預計值。當兩者之間的偏差程度足夠小,認為測量不夠精確導致偶然誤差的發(fā)生,因此可以認為兩者之間相互獨立,接受原假設(shè);而偏差大到一定程度時,認為偏差不可能是偶然發(fā)生,即兩者之間相互關(guān)聯(lián),這時否定原假設(shè),選擇接受備擇假設(shè)。

        在水利文本中使用卡方檢驗提取特征時,對于M 篇水利文本,其中有 N 篇關(guān)于水利工程,考察特征詞“水庫”與類別“水利工程”之間的相關(guān)性,一共有以下 4 個觀察值可以使用:

        1)包含“水庫”,而且類別是“水利工程”的文本數(shù),命名為 A;

        2)包含“水庫”,而且類別不是“水利工程”的文本數(shù),命名為 B;

        3)不包含“水庫”,但類別是“水利工程”的文本數(shù),命名為 C;

        4)既不包含“水庫”,而且類別也不是“水利工程”的文本數(shù),命名為 D。

        卡方檢驗觀察值統(tǒng)計表如表 1 所示。

        表 1 卡方檢驗觀察值統(tǒng)計表

        特征 ti出現(xiàn)在類別 Cj中文本數(shù)的期望值 Ei,j為

        則偏差項 Dev(ti,Cj) 為

        特征項與類別相關(guān)的卡方檢驗值為 x2(ti,Cj) ,則卡方檢驗的公式為

        考慮水利文本數(shù)量不平衡的特點和卡方檢驗中存在的低頻缺陷問題,對卡方檢驗進行 3 個方面的改進。

        2.1 特征項與類別的正負相關(guān)性

        在卡方檢驗基本公式中 N 是該語料庫所有文本的數(shù)量,是個常數(shù),在對同一個類別中特征項計算卡方值時可以被忽略。其中的(A + C)代表了某一個類別的所有文本數(shù),(B + D)代表了其他所有類別的文本數(shù),同樣作為常數(shù)可以被忽略。在進行卡方檢驗時,根據(jù)數(shù)學原理,若認為該詞與分類類別相關(guān)性大,則認為文章中出現(xiàn)該詞時很有可能是屬于這個類別,而沒有該詞時很有可能不屬于這個類別。參考公式(3),可以得出當 A D - B C > 0 時,即 A ÷ C - B ÷ D > 0,一般是因為這個詞在該類別文本中出現(xiàn)概率較高,而在別的類別文本中出現(xiàn)概率較低,認為該特征與該類別成正相關(guān),即該特征可以代表這個類別;而 A D - B C < 0 時,一般是這個單詞在這個類別文本中出現(xiàn)概率較低,而在別的類別文本中出現(xiàn)概率較高,認為該特征與該類別成負相關(guān),該特征不能很好地代表這個類別。

        為提高從語料庫中提取和分類類別正相關(guān)的特征的能力,應判斷特征項與分類類別的相關(guān)性,取其正相關(guān)性,去其負相關(guān)性,即當特征項與分類類別呈負相關(guān)時取值為 0。判斷公式如下:

        2.2 類間詞頻對數(shù)差

        若 1 個單詞能夠在這個類別的大部分文本中都出現(xiàn),且在每篇文本中出現(xiàn)的頻率都較高時,可以認為這個詞與這個類別分類關(guān)聯(lián)性強。為了區(qū)別這個詞在本類別中出現(xiàn)的頻率和別的類別中出現(xiàn)的頻率差,顯示該詞與本類別的關(guān)聯(lián),引入類間詞頻對數(shù)差因子 F,定義如下:

        式中:w(ti,Cj)為特征 ti出現(xiàn)在類別 Cj中的總次數(shù);為特征出現(xiàn)在不屬于類別 Cj的文章中總次數(shù),類別 Cj中一共有文章數(shù) nj,定義語料庫中文本總數(shù)為 N;是指在特征 ti出現(xiàn)在類別 Cj的每篇文本中的平均詞頻。是指特征 ti出現(xiàn)了除類別Cj之外其他所有類別中每篇文本的平均詞頻。

        類間詞頻對數(shù)差因子 F 考慮到單詞在該類別每篇文本中出現(xiàn)的平均次數(shù)和在其他類別中出現(xiàn)的平均次數(shù)的差異,當一個特征項出現(xiàn)在這個類別每篇文本中的平均次數(shù)越多,而出現(xiàn)在別的類別中的平均次數(shù)越少,那么這個詞和這個分類類別的相關(guān)性較大,即是這個類別的強分類特征;反之,這個詞語與該分類類別的相關(guān)性較差,是這個類別的弱分類特征。如果直接將該詞頻因子加入卡方檢驗,對于特征選擇的結(jié)果擾動會過大,進而會影響特征提取的效果,因此取單詞在該類別中和別的類別中出現(xiàn)平均次數(shù)的對數(shù)差。

        計算每個特征項和類別之間的 F 值,并乘以基于正負相關(guān)性考慮的卡方檢驗值,可得到改進后基于詞頻的卡方檢驗值,特征選擇依然按計算所得值從高到低對特征進行排序,取排名靠前的特征,認為是對水利文本分類相關(guān)性較強的特征。

        2.3 局部特征選擇

        當卡方檢驗用于全局特征選擇時,既可以取它與每個類別計算卡方檢驗的最大值,也可以按它分布在每個類別的概率權(quán)重乘以卡方檢驗值計算最后結(jié)果。但這 2 種做法都無法保證在小類中選擇特征項的數(shù)量,為了提高對小類的識別能力,引入一種局部特征選擇的思想。

        局部特征選擇是將基于特征與類別正負相關(guān)性的卡方檢驗值與類間詞頻對數(shù)差因子相乘,對水利文本數(shù)據(jù)中的水利工程、水資源、水雨情、水土保持、自然環(huán)境和防汛抗旱 6 個類別,分別統(tǒng)計每個類別中特征項與該分類類別的相關(guān)性,并在每個類別中按照相關(guān)性從高到低排列。一般而言,對于局部的特征選擇方法,在每個類別中提取的特征數(shù)與該類別的篇數(shù)成正比,但對于不平衡文本,采用此方法,獲取到的代表小類的特征數(shù)較少。因此為了提高對小類別的識別能力,增加從小類別文本中獲取到的特征項,在每個類別中取排名前 n 的特征。

        3 結(jié)合 LDA 和 GloVe 模型的水利文本表示

        3.1 水利文本主題建模

        傳統(tǒng)文本分類是將文本表示為向量空間模型,向量空間模型具有特征維度高和稀疏的特點,但不能表示文本中的語義。隱含狄利克雷分布(LDA)模型能夠在一定程度上改善向量空間模型的缺點。LDA 模型認為一篇文本以一定概率分布在若干主題上,一個主題以一定概率分布在若干詞語上,這 2 個多項分布的求解采用吉布斯采樣,獲得需要求解的概率分布的樣本值從而反過來確定概率分布的樣本數(shù)。LDA 主題模型如圖 1 所示。

        圖 1 LDA 主題模型

        圖 1 中,陰影部分圓圈是可被觀察的變量,非陰影部分圓圈是潛在變量,不能直接通過觀測得到;M 為語料庫中所有文章的數(shù)量;K 為語料中包含主題的個數(shù)(被手動設(shè)置);W 為語料庫中所有的詞的個數(shù);α 為超參數(shù),每篇文檔的主題分布中先驗分布狄利克雷分布的參數(shù);β 為超參數(shù),是每個主題的詞分布中先驗分布狄利克雷分布的參數(shù);θ為一個 M × K 的矩陣,表示文本主題之間的關(guān)系;為第 m 篇文章的主題分布向量;φ 為一個 K × N的矩陣,表示主題與詞的關(guān)系;是第 k 篇文章的詞分布;z 表示一個主題。

        一篇文章的生成步驟如下:首先生成這篇文章中的詞所對應的主題,然后再生成詞,即不考慮詞位置的先后順序,在主題被生成的情況下任意 2 個詞的生成是可以交換的。這樣就得到語料生成的聯(lián)合分布概率 P,公式如下:

        LDA 模型主要用來提取文本主題,所需求解的參數(shù)為主題變量 z 的后驗分布 P ( z | w ) 的參數(shù),求解的概率計算表達式如下:

        在實際建模中,由于訓練過程過于復雜,采用吉布斯采樣求解參數(shù)可以簡化求解步驟。吉布斯采樣先要進行隨機初始化,對語料庫中每篇水利文本中的每個特征詞 w,采用隨機的方式將其分配給一個主題,主題編號賦值為 z。對語料庫中每篇文本重新掃描 1 遍,利用吉布斯采樣公式重新采樣語料庫中每個特征詞的主題,并不斷在語料庫中更新,然后在吉布斯采樣收斂之前不斷重復上述過程,最后統(tǒng)計主題和特征詞的共現(xiàn)頻率,得到主題詞分布矩陣,即為 LDA 的模型,如表 2 所示。

        3.2 利用 GloVe 生成文本和主題向量

        詞向量模型 GloVe 統(tǒng)計詞共現(xiàn)矩陣,利用詞共現(xiàn)矩陣中的非零元素對詞向量進行訓練。統(tǒng)計詞共現(xiàn)矩陣過程中,第 i 行第 j 列的值為詞 wi和 wj在整個語料庫中共同出現(xiàn)次數(shù) xij的對數(shù),xi表示詞 wi上下文所有詞出現(xiàn)次數(shù)綜合,求得詞 wj在詞 wi上下文中出現(xiàn)的概率 Pij為

        表 2 主題詞分布

        可以從 2 個詞的共現(xiàn)概率中表示 2 個詞的相關(guān)性。給定任意一個詞通過計算判斷詞 wk和 wi及 wj的相關(guān)性,如果比值說明詞 wk和 wi的相關(guān)性更大,如果,則詞wk和詞 wj的相關(guān)性更大。根據(jù)詞共現(xiàn)概率的比值進行轉(zhuǎn)化最終得到要最小化的代價函數(shù) J :

        一般認為權(quán)重函數(shù)應符合以下 3 個特點:1)f (0) = 0,如果 2 個詞沒有共同出現(xiàn)過,權(quán)重為 0;2)f (x) 必須是非減函數(shù),即隨著詞共現(xiàn)頻率的增大,權(quán)重增大或者不變;3)對于較大的 x,f (x) 不能取太大值。最后得到的權(quán)重函數(shù)如下:

        采用簡單的方法,將水利文本每篇文章中所有詞的向量累加,考慮文本有長有短,排除文章長度對生成文檔向量的影響,對累加后的向量除以文章中詞的個數(shù)求平均值,公式如下:

        式中:wt代表特征 t 的詞向量;N (d ) 是文本 d 中詞的總數(shù);V (d ) 為文本向量。采用這種方法對每篇水利文本生成文本向量,使文本的維度從向量空間模型的上萬維降低到數(shù)百維。

        對于主題向量的生成,從表 2 可以看出主題分布在每個單詞上的概率不同,在 LDA 生成的主題模型 k 個主題中,主題 15 分布在所有單詞上的概率之和為 0.213 0,主題 44 分布在所有單詞上的概率之和為 0.170 1。為了排除主題分布在單詞上概率總和對生成主題向量的影響,對于第 k 個主題,這個主題中含有 n 個詞,第 i 個詞的詞向量為 wki,主題 k分布在該單詞上的概率為φki,則生成主題 k 的向量可以表示為

        3.3 文本表示模型

        對于一篇水利文本 i,生成的 m 維文本向量為di={ai1,ai2,...,aim},ai為每一維度的文本向量;對于主題 k,主題向量為 tk={bk1,bk2,...,bkm},bk為每一維度上的主題向量。本研究使用余弦相似度度量2 個向量之間的距離。

        余弦相似度是機器學習中通過衡量 2 個向量間的夾角衡量 2 個向量的相似程度的方法,兩向量之間的余弦值可以通過歐幾里得點積和量級公式推導,歐幾里得公式為 a×b =‖a‖×‖b‖cos θ,鑒于 2 個向量屬性,余弦相似度 S 被表達為

        產(chǎn)生的相似性范圍為 -1~1,相似性為 -1,意味著 2 個向量所指的方向截然相反;1 表示它們所指方向是相同的;當相似性取 0 時,2 個向量之間相互獨立。

        最后利用文本與主題間的距離表示文本,模型如圖 2 所示。

        圖 2 文本表示模型

        4 有監(jiān)督學習的水利信息分類

        采用結(jié)合 LDA 和 GloVe 的文本表示模型表示水利文本后,將文本與主題的距離矩陣作為輸入,使用分類器進行分類。KNN(鄰近算法)是一種文本分類中常見的分類器,分類效果較好,同時也是一種弱分類器。對于弱分類器分類性能的提升,AdaBoost 算法是一種有效的方法。AdaBoost 算法從初始訓練樣本集得到基分類器,然后對訓練樣本進行調(diào)整,增加錯分樣本的權(quán)重,使用改變后的樣本學習下一個分類器,重復學習得到 T 個分類器,并對這 T 個分類器的分類結(jié)果加權(quán)求均值得到最終分類結(jié)果。AdaBoost 訓練分類器如圖 3 所示。

        圖 3 AdaBoost 訓練分類器

        利用 AdaBoost 算法將 KNN 作為基分類器生成1 個分類器集合,得到 1 種線性組合的分類器模型,采用前向分布算法,首先確定初始分類器 f0(x) = 0,然后每一步都通過經(jīng)驗風險極小化確定下一個 KNN分類器的參數(shù)。分類器訓練算法如圖 4 所示。

        圖 4 AdaBoost 提升 KNN 算法

        分類器訓練算法經(jīng)過 T 次的迭代,每一次迭代中根據(jù)當前的權(quán)重分布對樣本 x 定義一個分布 P,在這個分布下的樣本使用 KNN 算法得到 1 個分類器。通過每次迭代中更新權(quán)重,減小分類器分類效果較好的數(shù)據(jù)權(quán)重,增大分類器分類效果較差的數(shù)據(jù)權(quán)重,最終得到的分類器是多個 KNN 分類器的線性組合,分類結(jié)果取每個 KNN 分類結(jié)果的加權(quán)平均值。

        5 實驗結(jié)果分析

        水利文本數(shù)據(jù)集采用從水利行業(yè)相關(guān)部門收集到的 2 056 篇水利文本,文本按照水利行業(yè)的特點被劃分為自然環(huán)境、水利工程、水雨情、水資源、水土保持和防汛抗旱 6 類,各文本數(shù)量如圖 5 所示。最大類與最小類的數(shù)量比大約達到 16∶1,數(shù)據(jù)具有不平衡性。

        圖 5 水利文本數(shù)據(jù)集

        常用的特征選擇方法有信息增益(IG)、卡方檢驗(CHI)、互信息(MI)3 種,分別使用 3 種常見的分類器樸素貝葉斯(NB)、決策樹和 KNN 對特征選擇后的水利文本進行分類,并采用宏觀 F1、準確率、召回率,以及微觀 F1、準確率、召回率對分類結(jié)果做全面的評估。具體分析如下:

        1)使用 CHI 進行特征選擇,取不同特征維度進行水利文本分類,實驗結(jié)果如圖 6 和 7 所示。

        圖 6 CHI 取不同維度的分類微觀 F1

        圖 7 CHI 取不同維度的分類宏觀 F1

        在使用卡方檢驗進行特征選擇時,可以看到KNN 分類器在水利文本中表現(xiàn)良好。其中當特征維度為 600 維時,分類效果最好,此時微觀 F1為0.913,宏觀 F1為 0.842,微觀準確率為 0.914,微觀召回率為 0.912,宏觀準確率為 0.794,宏觀召回率為 0.914。使用卡方檢驗的特征選擇方法在維度較低的情況下可以獲得較好的分類效果。

        2)針對不平衡文本,使用基于詞頻改進的卡方檢驗(W_CHI)的實驗結(jié)果如圖 8 和 9 所示。

        圖 8 W_CHI 取不同維度的分類微觀 F1

        圖 9 W_CHI 取不同維度的分類宏觀 F1

        從實驗結(jié)果可以看到,改進的特征選擇方法W_CHI 在特征維度為 240~600 的區(qū)間內(nèi),KNN 分類器取得較好的分類效果,在維度為 600 時,取得最好分類效果,微觀 F1為 0.924,微觀準確率達到0.924,微觀召回率 0.924,宏觀 F1為 0.854,宏觀準確率 0.788,宏觀召回率 0.935。

        同樣對 IG 和 MI 進行特征選擇,取不同特征維度對水利文本進行分類,從實驗結(jié)果得知,在特征維度為 1 200 維時,使用 IG 進行特征選擇分類效果最好,此時,微觀 F1為 0.911,宏觀 F1是 0.816,微觀準確率為 0.912,微觀召回率為 0.916,宏觀準確率為 0.786,宏觀召回率為 0.839;而使用 MI 進行特征選擇時,維度越高,分類效果越好。當特征維度低于 1 200 維時,使用 3 種分類器的情況下分類效果都遠差于 IG 和 CHI。

        為證實提出的特征選擇方法的有效性,將特征維度取 1 200 維的 IG、取 600 維的 CHI、取 3 000 維的 MI,和特征維度為 600 維的 W_CHI 進行對比,分類器選擇分類效果最好的 KNN,實驗結(jié)果如圖 10和 11 所示。

        圖 10 4 種特征選擇的微觀指標比較

        圖 11 4 種特征選擇的宏觀指標比較

        從圖 10 和 11 中可以看到,CHI 對比 IG 有著微弱的優(yōu)勢,而 W_CHI 在多項指標中,相對于原來的IG 和 CHI 均有著絕對的優(yōu)勢,在微觀準確率和 F1上均提升了接近 1 個百分點。在宏觀準確率上也有所提升。W_CHI 對于水利文本分類的效果最好,增加了每篇文本中高頻、有效特征被選擇的幾率,能夠改善 CHI 的“低頻缺陷”。

        使用 W_CHI 用于特征選擇,然后使用結(jié)合LDA 和 GloVe 的文本表示模型表示水利文本,最后使用 Adaboost 提升 KNN 的方法進行分類,與單獨使用 KNN 作為分類器進行對比,實驗結(jié)果如圖 12和 13 所示。

        圖 12 4 種分類器的實驗結(jié)果比較

        圖 13 4 種分類器的實驗結(jié)果比較

        結(jié)果顯示:使用 AdaBoost 提升 KNN 對于水利文本分類效果良好,分類效果遠遠好于常見分類器NB 和決策樹,和原來的 KNN 分類器相比微觀準確率提高了 1.1%,宏觀準確率提高了 3.3%,微觀 F1提高了 0.9%,宏觀準確率提高了 4.1%。使用AdaBoost 算法在宏觀角度對水利文本分類的提升尤其明顯,證明了在水利文本分類中使用 AdaBoost 算法提升 KNN 分類器的有效性。

        6 結(jié)語

        圍繞著水利文本分類中的特征選擇、文本表示和分類器優(yōu)化 3 個方面進行研究,討論出一種適合于水利文本的分類方法,結(jié)合改進卡方檢驗的特征提取、LDA 和 GloVe 的文本表示及 AdaBoost 提升KNN 的分類方法,相對于傳統(tǒng)的分類方法,大大提高了水利文本的分類效果,在小類別的分類效果上也有了很大的提升,對水利領(lǐng)域大量數(shù)據(jù)信息的分類具有重要的意義。但是其中也有不足和需要完善的地方,如簡單地對文本或主題中所有單詞的向量值進行累加求平均值,這種方法生成的文本和主題向量都會存在一定的誤差,如何利用 GloVe 獲得更好的文本和主題向量,也是有待進一步研究的方向。

        猜你喜歡
        卡方特征選擇類別
        卡方檢驗的應用條件
        卡方變異的SSA的FSC賽車轉(zhuǎn)向梯形優(yōu)化方法
        卡方檢驗的應用條件
        Kmeans 應用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        聯(lián)合互信息水下目標特征選擇算法
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        基于改進卡方統(tǒng)計量的藏文文本表示方法
        計算機工程(2014年6期)2014-02-28 01:26:50
        日本大骚b视频在线| 成人性生交大片免费看7| 亚洲熟妇一区二区蜜桃在线观看| 亚洲中国精品精华液| 一道之本加勒比热东京| 18国产精品白浆在线观看免费 | 国产亚洲欧美另类第一页| 精品视频一区二区杨幂| 国产一区二区三区av免费| 亚洲一区二区三区av无码| 久久天天躁夜夜躁狠狠躁2022| 精品国产迪丽热巴在线| 亚洲精品98中文字幕| 国产三级精品视频2021| 四虎影视永久地址www成人| 亚洲AV成人无码国产一区二区| 91国语对白在线观看| 老熟妇乱子伦牲交视频| 乱人伦中文无码视频| 一本大道在线一久道一区二区| 国产av一区二区三区天美| 欧美黑人又粗又大xxxx| 玩弄人妻少妇500系列网址| 国产精品一区成人亚洲| 熟女肥臀白浆一区二区| 国产欧美成人一区二区a片| 国产成人av 综合 亚洲| 无码伊人久久大蕉中文无码 | 人人妻人人澡人人爽精品欧美 | 成年人视频在线播放麻豆| 本道天堂成在人线av无码免费 | 高清亚洲成av人片乱码色午夜| 亚洲岛国一区二区三区| 精品久久久久香蕉网| 国产成人v爽在线免播放观看| 国产一区二区三区免费小视频| 人妻夜夜爽天天爽三区丁香花| 精品国内自产拍在线观看| 亚洲成AV人久久| 亚洲伊人av天堂有码在线| 欧美黑人xxxx又粗又长|