亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于無(wú)標(biāo)記Web數(shù)據(jù)的層次式文本分類

        2014-11-26 01:49:46何力譚霜賈焰韓偉紅
        智能系統(tǒng)學(xué)報(bào) 2014年3期
        關(guān)鍵詞:分類利用方法

        何力,譚霜,賈焰,韓偉紅

        (國(guó)防科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院,湖南長(zhǎng)沙410073)

        為了實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)上信息的有效管理和訪問(wèn),人們一般按照一個(gè)概念或主題類別層次對(duì)網(wǎng)絡(luò)信息進(jìn)行標(biāo)記和組織,以更好地搜索和訪問(wèn)網(wǎng)絡(luò)資源。這些主題類別一般被組織為樹(shù)形結(jié)構(gòu),例如雅虎目錄(Yahoo!directory)和 ODP(open directory project)。對(duì)于Web文本分類這個(gè)問(wèn)題,傳統(tǒng)的有監(jiān)督方法需要標(biāo)注好的語(yǔ)料來(lái)訓(xùn)練分類器。在實(shí)際分類問(wèn)題中,對(duì)于一個(gè)由專家編制的類別層次,通常并沒(méi)有標(biāo)注好的語(yǔ)料,而Web分類目錄的規(guī)模往往比較大,通常包含數(shù)百甚至數(shù)千個(gè)類別,此時(shí)通過(guò)人工標(biāo)記文檔類別來(lái)構(gòu)建語(yǔ)料庫(kù)將是一項(xiàng)非常繁重的工作。因?yàn)樾枰獮槊總€(gè)類別人工標(biāo)記足夠多的訓(xùn)練樣本,這項(xiàng)工作需要耗費(fèi)巨大的人力成本來(lái)完成。對(duì)此,本文試圖實(shí)現(xiàn)一個(gè)不需要有標(biāo)記訓(xùn)練樣本的層次式文本分類方法。

        針對(duì)文本主題分類缺少訓(xùn)練樣本的問(wèn)題,已有工作利用外部數(shù)據(jù)源來(lái)豐富類別的特征信息[1-9],這些方法利用類別的特征關(guān)鍵詞以及類別層次的上下文信息,到Web中獲取更多的相關(guān)數(shù)據(jù),為分類學(xué)習(xí)產(chǎn)生訓(xùn)練樣本,增加類別的分類依據(jù)。因?yàn)檫@一類方法在分類學(xué)習(xí)過(guò)程中不需要人工標(biāo)記訓(xùn)練樣本,稱為無(wú)標(biāo)記數(shù)據(jù)分類方法。無(wú)標(biāo)記數(shù)據(jù)分類利用Web搜索引擎和開(kāi)放數(shù)據(jù)庫(kù)來(lái)獲取訓(xùn)練樣本。對(duì)于Web搜索引擎,如谷歌,可以利用類別名稱以及類別的上下文信息搜索相關(guān)頁(yè)面,那么搜索結(jié)果應(yīng)該和該類別具有一定相關(guān)性,體現(xiàn)了該主題類別的特征。對(duì)于開(kāi)放數(shù)據(jù)庫(kù),如維基百科、ODP等,可以利用主題類別在知識(shí)庫(kù)中搜索相關(guān)文檔,將這些文檔作為該類別的樣本。

        無(wú)標(biāo)記數(shù)據(jù)分類方法借助外部數(shù)據(jù)源學(xué)習(xí)分類模型,但是通過(guò)Web獲得的學(xué)習(xí)樣本可能會(huì)包含噪聲數(shù)據(jù),從而影響分類學(xué)習(xí)效果[2,5],這是其面臨的一個(gè)主要挑戰(zhàn)。本文針對(duì)Web搜索結(jié)果中含有噪聲數(shù)據(jù)的問(wèn)題,采用以下3個(gè)手段來(lái)提高分類學(xué)習(xí)效果。

        1)利用類別知識(shí)和類別層次信息構(gòu)造準(zhǔn)確的Web查詢,采用節(jié)點(diǎn)的標(biāo)簽路徑來(lái)產(chǎn)生查詢關(guān)鍵詞;

        2)利用多數(shù)據(jù)源產(chǎn)生樣本,同時(shí)從谷歌搜索引擎、維基百科這2個(gè)數(shù)據(jù)源搜索相關(guān)頁(yè)面和文檔,以獲取更加全面的樣本數(shù)據(jù);

        3)結(jié)合類別層次對(duì)樣本數(shù)據(jù)分組,為每個(gè)類別獲得更加完整的特征源,根據(jù)搜索到的樣本數(shù)據(jù),利用主題類別層次學(xué)習(xí)分類模型,減小噪聲數(shù)據(jù)的影響。

        相比已有的無(wú)標(biāo)記數(shù)據(jù)分類方法,本文提出的方法通過(guò)這些手段可以獲取更加有效的樣本數(shù)據(jù)。在得到樣本數(shù)據(jù)之后,采用支持向量機(jī)分類算法訓(xùn)練層次式分類模型,最后在ODP數(shù)據(jù)集上對(duì)提出的無(wú)標(biāo)記數(shù)據(jù)分類方法進(jìn)行實(shí)驗(yàn)驗(yàn)證。

        1 無(wú)標(biāo)記數(shù)據(jù)分類相關(guān)工作

        對(duì)于有監(jiān)督學(xué)習(xí)缺少訓(xùn)練樣本的問(wèn)題,Weiss[10]可以將已有的解決策略概括為3類:過(guò)采樣技術(shù)[11-13]、利用外部數(shù)據(jù)生成新樣例[2-9]、采購(gòu)新樣例。過(guò)采樣技術(shù)通過(guò)簡(jiǎn)單復(fù)制已有樣本來(lái)增加訓(xùn)練集,學(xué)習(xí)過(guò)程中會(huì)產(chǎn)生過(guò)擬合問(wèn)題,而直接購(gòu)買(mǎi)數(shù)據(jù)則要承擔(dān)非常高昂的代價(jià)。利用外部數(shù)據(jù)源生成新樣例則可以通過(guò)技術(shù)手段獲取比較有價(jià)值的新樣例。

        在生成新樣例方面,已有工作主要是利用Web數(shù)據(jù)為主題層次中的類別產(chǎn)生新的樣本文檔,來(lái)豐富類別的特征信息[2-9]。Ha-Thuc等[2]根據(jù)類別層次為每個(gè)類別構(gòu)造一個(gè)查詢,查詢?cè)~包括類別名稱、類別描述以及父、子節(jié)點(diǎn)名稱,利用Web搜索引擎獲取相關(guān)文檔,然后采用產(chǎn)生式模型對(duì)文檔建模,為每個(gè)類別建立一個(gè)語(yǔ)言模型,最后采用自上而下的分類方法對(duì)文檔分類。Wetzker等[3]利用類別主題名以及父類別主題名構(gòu)造查詢,采用雅虎搜索獲取每個(gè)類別的top-k相關(guān)文檔,然后為每個(gè)類別學(xué)習(xí)一個(gè)中心向量,構(gòu)造了一個(gè)支持多標(biāo)簽分類的層次式分類器。Zhang等[4]利用ODP目錄的數(shù)據(jù)集學(xué)習(xí)主題分類模型,并對(duì)知識(shí)監(jiān)督學(xué)習(xí)中的預(yù)測(cè)風(fēng)險(xiǎn)進(jìn)行優(yōu)化。Huang等[5]利用那些在一個(gè)類別和它祖先類別中同時(shí)出現(xiàn)的單詞構(gòu)造查詢,以谷歌搜索結(jié)果作為訓(xùn)練樣本,然后采用KNN算法對(duì)文檔進(jìn)行分類。這些方法利用主題目錄的類別層次信息和類別知識(shí)來(lái)構(gòu)造Web查詢。類別知識(shí)包括一個(gè)類別的主題名稱、關(guān)鍵詞、描述信息等。除了類別自身知識(shí)之外,還可以利用主題層次的結(jié)構(gòu)特征,例如類別在主題層次中的父類別、子類別、鄰居類別等信息。Wang等[6]利用維基百科知識(shí)庫(kù)構(gòu)造通用分類器,該方法首先人工為每個(gè)類別確定一組關(guān)鍵詞,然后根據(jù)這些類別關(guān)鍵詞到維基百科中獲取相關(guān)概念與文檔,最后利用這些概念與文檔訓(xùn)練分類器。Hung等[7-8]提出了一種Web語(yǔ)料獲取方法,該方法首先為每個(gè)類別搜索少量相關(guān)度較高的Web文檔,然后從這些文檔中抽取出類別的關(guān)鍵詞,然后利用這些關(guān)鍵詞搜索更多的相關(guān)Web文檔。劉麗珍等[9]提出一種模糊劃分聚類方法,該方法對(duì)無(wú)標(biāo)記樣本進(jìn)行模糊劃分聚類,通過(guò)一定的相似度度量,將相關(guān)文本歸并,得到少量標(biāo)記文本,從而為監(jiān)督學(xué)習(xí)找到了分類依據(jù)。

        另外,Chen等[1]試圖利用外部數(shù)據(jù)源學(xué)習(xí)類別和詞匯之間的關(guān)系,即在每個(gè)類別中不同單詞的概率權(quán)重,從自然語(yǔ)言處理角度考慮,就是為每個(gè)類別建立一個(gè)語(yǔ)言模型,從而實(shí)現(xiàn)對(duì)微博短文本的主題分類。Ko等[14]采用自舉法進(jìn)行機(jī)器標(biāo)注樣本,根據(jù)無(wú)標(biāo)記文檔集合和類別的標(biāo)題詞來(lái)自動(dòng)生成標(biāo)記文檔,然后針對(duì)機(jī)器標(biāo)注過(guò)程中的噪聲數(shù)據(jù),采用特征投影技術(shù)訓(xùn)練分類器。Veeramachaneni等[15]提出了一個(gè)層次式狄利克雷產(chǎn)生式模型,對(duì)類別層次中的語(yǔ)料文檔進(jìn)行主題建模,通過(guò)學(xué)習(xí)每個(gè)類別中不同單詞的概率權(quán)重,實(shí)現(xiàn)了一種無(wú)監(jiān)督分類方法。

        2 無(wú)標(biāo)記數(shù)據(jù)的HSVM分類模型

        首先利用類別知識(shí)和主題層次信息從Web數(shù)據(jù)獲取每個(gè)類別的相關(guān)文檔,然后根據(jù)這些相關(guān)文檔為主題類別層次學(xué)習(xí)分類模型。

        2.1 獲取Web樣本

        本文采用多種技術(shù)手段來(lái)提高樣本文檔的質(zhì)量,首先根據(jù)類別標(biāo)簽路徑構(gòu)造Web查詢,然后融合多個(gè)Web數(shù)據(jù)源的搜索結(jié)果產(chǎn)生相關(guān)文檔,最后利用類別層次結(jié)構(gòu)對(duì)相關(guān)文檔進(jìn)行數(shù)據(jù)分組,具體過(guò)程如圖1所示。

        圖1 無(wú)標(biāo)記文檔分類方法示意圖Fig.1 The classification method with no labeled data

        1)構(gòu)造Web查詢

        已有方法利用類別的本體知識(shí)和類別層次的上下文信息為類別構(gòu)造查詢[2-3,5]。本文利用類別在類別層次樹(shù)中的標(biāo)簽路徑來(lái)構(gòu)造查詢,即以從根節(jié)點(diǎn)到該節(jié)點(diǎn)路徑上的所有類別的名稱作為查詢?cè)~。例如,對(duì)于ODP中的類別“英語(yǔ)”,其標(biāo)簽路徑為“科學(xué)_社會(huì)科學(xué)_語(yǔ)言學(xué)_語(yǔ)言_英語(yǔ)”,那么以“科學(xué)”、“社會(huì)科學(xué)”、“語(yǔ)言學(xué)”、“語(yǔ)言”、“英語(yǔ)”這些詞匯作為該類別的查詢?cè)~。相比已有的這些方法,利用類別樹(shù)為每個(gè)類別生成查詢?cè)~,更能代表一個(gè)類別的完整語(yǔ)義。

        2)搜索相關(guān)文檔

        本文同時(shí)從Web搜索引擎和開(kāi)源分類目錄來(lái)獲取樣本。對(duì)于Web搜索引擎,采用谷歌從互聯(lián)網(wǎng)上搜索相關(guān)頁(yè)面。對(duì)于開(kāi)源目錄,由于本文采用ODP目錄進(jìn)行實(shí)驗(yàn)測(cè)試,因此采用了維基百科來(lái)搜索相關(guān)文檔。通過(guò)利用多種Web數(shù)據(jù),本文能夠獲取更多的相關(guān)文檔數(shù)據(jù),減少噪聲數(shù)據(jù)的影響。

        3)樣本抽取

        在從Web數(shù)據(jù)中搜索到這些相關(guān)頁(yè)面之后,需要將其轉(zhuǎn)化為訓(xùn)練樣本。對(duì)于搜索到的相關(guān)頁(yè)面,本文按照標(biāo)準(zhǔn)的文本處理過(guò)程抽取網(wǎng)頁(yè)中的文本,刪除停用詞和低頻詞,將文檔轉(zhuǎn)換為T(mén)FIDF特征向量。另外采用top-down數(shù)據(jù)分組方式,對(duì)于一個(gè)類別,首先找到類別樹(shù)中以該類別為根節(jié)點(diǎn)的子樹(shù),然后將該子樹(shù)中所有節(jié)點(diǎn)的相關(guān)文檔作為這個(gè)類別的訓(xùn)練樣本。這樣結(jié)合類別層次對(duì)數(shù)據(jù)分組,可以為每個(gè)類別獲得更加完整的特征源。

        2.2 學(xué)習(xí)分類器

        在從Web獲取樣本數(shù)據(jù)之后,接下來(lái)結(jié)合主題類別層次學(xué)習(xí)分類模型。本文采用層次式支持向量機(jī)(hierarchical SVMs,HSVM)學(xué)習(xí)分類模型,基于搜索到的Web樣本訓(xùn)練HSVM分類器。HSVM是一個(gè)基于支持向量機(jī)的層次式分類模型,已被驗(yàn)證是一個(gè)有效的層次式文本分類方法[16]。本文實(shí)現(xiàn)并比較了2種HSVM方法,分別是二元分類器的HSVM和多元分類器的HSVM。二元分類器的HSVM為類別層次樹(shù)中除根節(jié)點(diǎn)以外的每個(gè)節(jié)點(diǎn)訓(xùn)練一個(gè)二元SVM分類器,對(duì)文檔進(jìn)行自上而下的分類。二元分類器的HSVM如圖2(a)所示,每個(gè)虛線框表示一個(gè)二元分類器,對(duì)于一個(gè)文檔,自上而下進(jìn)行分類預(yù)測(cè),由每個(gè)節(jié)點(diǎn)上的本地分類器判斷文檔是否屬于當(dāng)前類別。多元分類器的HSVM如圖2(b)所示,根據(jù)類別層次樹(shù)逐層為具有相同父節(jié)點(diǎn)的所有類別建立一個(gè)多類SVM分類器,即在類別層次樹(shù)中所有中間節(jié)點(diǎn)上分別訓(xùn)練一個(gè)多類分類器,對(duì)文檔進(jìn)行自上而下的分類。這2種HSVM均是對(duì)測(cè)試文檔進(jìn)行自上而下的分類預(yù)測(cè)。

        圖2 HSVM分類模型Fig.2 The classification models of HSVM

        Liblinear[17]是臺(tái)灣大學(xué)林智仁教授開(kāi)發(fā)的一個(gè)SVM分類器,根據(jù)林智仁小組的研究結(jié)果,Liblinear適用于具有高維特征的Web文檔分類,因此本文采用LibLinear來(lái)實(shí)現(xiàn)HSVM。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)準(zhǔn)備

        本文采用ODP簡(jiǎn)體中文網(wǎng)站目錄作為實(shí)驗(yàn)對(duì)象,ODP簡(jiǎn)體中文網(wǎng)站目錄是一個(gè)深度為6層的類別層次樹(shù),包括參考、商業(yè)、休閑、體育、健康、計(jì)算機(jī)、新聞、家庭、社會(huì)、游戲、藝術(shù)、購(gòu)物、科學(xué)等13個(gè)大類,1 763個(gè)類別,整個(gè)目錄包括24 570個(gè)網(wǎng)站。根據(jù)ODP中的網(wǎng)站URL爬取頁(yè)面,然后對(duì)采集到的網(wǎng)頁(yè)進(jìn)行解析、分詞和停用詞過(guò)濾,最終將每個(gè)網(wǎng)站表示為一個(gè)文檔。ODP數(shù)據(jù)的類別分布和文檔分布如圖3所示。

        在ODP樣本集中,有1 048個(gè)類別的樣本個(gè)數(shù)不足10個(gè),由于這些稀有類別的實(shí)例非常少,采用現(xiàn)有的機(jī)器學(xué)習(xí)方法很難對(duì)這些類別的網(wǎng)頁(yè)進(jìn)行有效地自動(dòng)分類。為了使有監(jiān)督分類算法能夠同本文提出的方法進(jìn)行公平比較,采用父類別模型對(duì)稀有類別進(jìn)行分類預(yù)測(cè),即將文檔分到稀有類別的父類別后就不再繼續(xù)往下細(xì)分,以避免這些稀有類別對(duì)有監(jiān)督分類方法的性能影響。

        圖3 數(shù)據(jù)的層次分布Fig.3 Data distribution on different level

        網(wǎng)頁(yè)文檔是一種高維數(shù)據(jù),因此需要進(jìn)行特征降維以解決文本特征向量高維問(wèn)題,本文采用基于詞頻逆文檔頻率值的特征詞子集選擇方法進(jìn)行特征降維。對(duì)于有監(jiān)督分類方法,先將ODP數(shù)據(jù)集隨機(jī)分為10份,其中1份為測(cè)試集,其余作為訓(xùn)練集,然后訓(xùn)練分類器并計(jì)算各評(píng)價(jià)指標(biāo),如此反復(fù)10次,以這10次的平均值作為最終結(jié)果。對(duì)于無(wú)標(biāo)記數(shù)據(jù)分類方法,本文采用Web樣本訓(xùn)練分類器,然后對(duì)ODP數(shù)據(jù)集進(jìn)行測(cè)試并計(jì)算各評(píng)價(jià)指標(biāo)。

        為了獲取更加廣泛的Web數(shù)據(jù),同時(shí)從谷歌和維基百科搜索相關(guān)文檔。對(duì)于一個(gè)主題類別,首先利用谷歌搜索引擎搜索相關(guān)頁(yè)面,并從中抽取出相關(guān)文檔,然后同樣在維基百科中搜索該主題類別的相關(guān)文檔,補(bǔ)充到該類別的訓(xùn)練樣本中去。最后結(jié)合所有從谷歌和維基百科獲取到的樣本訓(xùn)練分類器,并將其記為GW-HSVM(Google Wikipedia based HSVM)。具體在實(shí)驗(yàn)中,取谷歌搜索結(jié)果的top-50作為相關(guān)文檔,取維基百科搜索結(jié)果的top-10作為相關(guān)文檔。

        對(duì)于標(biāo)注樣本的有監(jiān)督分類方法,文中采用有標(biāo)記的ODP數(shù)據(jù)集訓(xùn)練HSVM分類器,記為S-HSVM(Supervised-HSVM)。顯然,GW-HSVM是基于Web樣本的無(wú)標(biāo)記數(shù)據(jù)分類方法,S-HSVM是有監(jiān)督分類方法。

        對(duì)于文本分類問(wèn)題,通常采用精度precision、召回率recall、F1評(píng)價(jià)分類算法的好壞,同時(shí)根據(jù)這些指標(biāo)的宏平均值和微平均值來(lái)衡量算法在所有類別上的性能。微平均評(píng)價(jià)指標(biāo)體現(xiàn)了大類別對(duì)結(jié)果的影響,宏平均評(píng)價(jià)指標(biāo)給每個(gè)類別以相等權(quán)重,更能體現(xiàn)算法在小類別上的性能表現(xiàn)。

        本文實(shí)驗(yàn)中的數(shù)據(jù)為單標(biāo)簽文檔,此時(shí)precision、recall和F1的微平均值均相等,等于分類的準(zhǔn)確率 accuracy。因此,采用 Macro-Precision,Macro-Recall,Macro-F1和 accuracy作為分類算法的評(píng)價(jià)標(biāo)準(zhǔn)。另外,層次式分類方法在自上而下的分類過(guò)程中會(huì)產(chǎn)生錯(cuò)誤傳播問(wèn)題,對(duì)此分析了算法在不同層級(jí)上的性能表現(xiàn)。在類別層次中,隨著深度增加,會(huì)出現(xiàn)大量的小類別,對(duì)此采用宏平均指標(biāo)評(píng)價(jià)算法在各層級(jí)上的性能。具體在計(jì)算第n級(jí)的宏平均指標(biāo)時(shí),只考慮第n級(jí)上所有類別精度、召回率和F1的宏平均值。

        3.2 實(shí)驗(yàn)結(jié)果

        在實(shí)驗(yàn)中可以發(fā)現(xiàn),二元分類器的HSVM和多元分類器的HSVM在分類準(zhǔn)確率上性能接近,但是多元分類器的HSVM需要的訓(xùn)練和預(yù)測(cè)時(shí)間要更少,這是因?yàn)槎嘣诸惼鞣椒ú恍枰谌~子節(jié)點(diǎn)上訓(xùn)練分類器,如圖2(b)所示。因此,本文在實(shí)驗(yàn)中采用多元分類器實(shí)現(xiàn)的HSVM。

        GW-HSVM和S-HSVM對(duì)ODP中文目錄所有類別的分類性能如表1所示,包括精度、召回率、F1的宏平均值以及準(zhǔn)確率??梢钥吹剑珿W-HSVM的分類準(zhǔn)確率稍低于有監(jiān)督分類方法S-HSVM,但是在宏平均指標(biāo)上,GW-HSVM的性能接近S-HSVM,這說(shuō)明GW-HSVM能夠?qū)π☆悇e進(jìn)行更為有效的分類,這是因?yàn)镚W-HSVM為每個(gè)類別采集了足夠多的Web訓(xùn)練文檔,而S-HSVM所采用的ODP數(shù)據(jù)集中則包含有大量的小類別。

        表1 整體分類性能比較Table 1 Overall classification performance comparison

        本文還比較了S-HSVM和GW-HSVM在類別樹(shù)中不同層級(jí)上的分類性能,包括Macro-P、Macro-R和Macro-F1,如圖4所示。

        圖4 不同層級(jí)上的分類性能Fig.4 Performance on different level

        可以看到,GW-HSVM在第1級(jí)和第4級(jí)上的性能差于S-HSVM,這是因?yàn)镺DP中文目錄中這兩層上的類別包含較多的實(shí)例。對(duì)于目錄中其他幾層,由于這些層級(jí)中包含有大量稀有類別,這時(shí)GW-HSVM的分類性能接近甚至優(yōu)于S-HSVM。結(jié)合表1和圖4的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),本文提出的無(wú)標(biāo)記數(shù)據(jù)分類方法取得了較好的分類效果,其性能接近于有標(biāo)記訓(xùn)練樣本的監(jiān)督分類方法。

        4 結(jié)束語(yǔ)

        本文針對(duì)主題分類目錄缺少訓(xùn)練樣本的問(wèn)題,提出了一種無(wú)標(biāo)記數(shù)據(jù)的層次式文本分類方法,該方法利用搜索引擎從Web數(shù)據(jù)中獲取訓(xùn)練樣本,通過(guò)有效的Web查詢和樣本抽取方法降低了噪聲數(shù)據(jù)的影響,獲得了較好的分類效果,其分類性能接近于有標(biāo)注訓(xùn)練樣本的監(jiān)督分類方法。

        [1]CHEN Y,LI Z,NIE L,et al.A semi-supervised bayesian network model for microblog topic classification[C]//Proceedings of the 24th International Conference on Computational Linguistics.Mumbai,India,2012:561-576.

        [2]HA-THUC V,RENDERS J M.Large-scale hierarchical text classification without labelled data[C]//Proceedings of the fourth ACM International Conference on Web Search and Data Mining.Hong Kong,China,2011:685-694.

        [3]WETZKER R,ALPCAN T,BAUCKHAGE C,et al.An unsupervised hierarchical approach to document categorization[C]//Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence.Silicon Valley,USA,2007:482-486.

        [4]ZHANG C,XUE G R,YU Y.Knowledge supervised text classification with no labeled documents[C]//Proceedings of the 10th Pacific Rim International Conference on Artificial Intelligence.Hanoi,Vietnam,2008:509-520.

        [5]HUANG C C,CHUANG S L,CHIEN L F.Liveclassifier:creating hierarchical text classifiers through Web corpora[C]//Proceedings of the 13th International Conference on World Wide Web.New York,USA,2004:184-192.

        [6]WANG P,DOMENICONI C.Towards a universal text classifier:transfer learning using encyclopedic knowledge[C]//Proceedings of the Ninth IEEE International Conference on Data Mining Workshops.Miami,USA,2009:435-440.

        [7]HUNG C M,CHIEN L F.Web-based text classification in the absence of manually labeled training documents[J].Journal of the American Society for Information Science and Technology,2007,58(1):88-96.

        [8]HUNG C M,CHIEN L F.Text classification using Web corpora and em algorithms[C]//Proceedings of the Asia Information Retrieval Symposium.Beijing,China,2005:12-23.

        [9]劉麗珍,宋瀚濤,陸玉昌.無(wú)標(biāo)記訓(xùn)練樣本的Web文本分類方法[J].計(jì)算機(jī)科學(xué),2006,33(3):200-201.LIU Lizhen,SONG Hantao,LU Yuchang.The method of Web text classification of using non-labeled training sample[J].Computer Science,2006,33(3):200-201.

        [10]WEISS G M.Mining with rarity:a unifying framework[J].ACM SIGKDD Explorations Newsletter,2004,6(1):7-19.

        [11]CHEN S,HE H,GARCIA E A.Ramoboost:ranked minority oversampling in boosting[J].Neural Networks,IEEE Transactions on.2010,21(10):1624-1642.

        [12]NGUYEN H M,COOPER E W,KAMEI K.Borderline over-sampling for imbalanced data classification[J].International Journal of Knowledge Engineering and Soft Data Paradigms,2011,3(1):4-21.

        [13]GAO M,HONG X,CHEN S,et al.A combined smote and pso based rbf classifier for two-class imbalanced problems[J].Neurocomputing,2011,74(17):3456-3466.

        [14]KO Y,SEO J.Learning with unlabeled data for text categorization using bootstrapping and feature projection techniques[C]//Proceedings of the 42nd Annual Meeting on Association forComputationalLinguistics.Barcelona,Spain,2004:255-262.

        [15]VEERAMACHANENI S,SONA D,AVESANI P.Hierarchical dirichlet model for document classification[C]//Proceedings of the 22nd International Conference on Machine Learning.Bonn,Germany,2005:928-935.

        [16]CAI L,HOFMANN T.Hierarchical document categorization with support vector machines[C]//Proceedings of the thirteenth ACM International Conference on Information and Knowledge Management.Washington,DC, USA,2004:78-87.

        [17]FAN R E,CHANG K W,HSIEH C J,et al.Liblinear:a library for large linear classification[J].Journal of Machine Learning Research,2008,9:1871-1874.

        猜你喜歡
        分類利用方法
        利用min{a,b}的積分表示解決一類絕對(duì)值不等式
        分類算一算
        利用一半進(jìn)行移多補(bǔ)少
        分類討論求坐標(biāo)
        利用數(shù)的分解來(lái)思考
        Roommate is necessary when far away from home
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        日本亚洲成人中文字幕| 少妇无码太爽了不卡视频在线看| 久久久久亚洲精品天堂| 日本高清不在线一区二区色| 国产一区二区在线观看av| 国产情侣自拍一区视频| 少妇人妻大乳在线视频不卡| 美女视频一区| 亚洲中文字幕有综合久久| 那有一级内射黄片可以免费看| 绝顶潮喷绝叫在线观看| 18禁男女爽爽爽午夜网站免费| 亚洲不卡av不卡一区二区| 水蜜桃在线精品视频网| 少妇高潮一区二区三区99| 国产日韩网站| 久久久国产视频久久久| 亚洲国产精品一区二区毛片| 亚洲av无码一区二区三区观看| 国产精品自产拍在线观看免费 | 综合偷自拍亚洲乱中文字幕| 麻豆一区二区99久久久久| 国内无遮码无码| 国产又湿又爽又猛的视频| 中文字幕无线码一区二区| 国产无遮挡又黄又爽在线视频| 五月天无码| av在线天堂国产一区| 国产成人亚洲综合无码品善网| 在线观看av中文字幕不卡| 久久九九av久精品日产一区免费| 激情人妻网址| 一区二区三区日本伦理| 欧美一区二区三区久久综| 国产精品视频流白浆免费视频| 日韩熟女精品一区二区三区视频| 久久精品成人一区二区三区| 亚洲欧美日韩中文无线码| 女人被躁到高潮嗷嗷叫| 91精品国产色综合久久| 丰满岳妇乱一区二区三区|