何焱
摘 要:隨著我國現(xiàn)代科技的快速發(fā)展,文本分類逐漸在信息化技術(shù)與數(shù)字化技術(shù)領(lǐng)域得到重視。利用計(jì)算處理系統(tǒng)處理文本信息,能夠有效提升文本分類的質(zhì)量與效率,提升數(shù)據(jù)信息的利用率,從而促進(jìn)信息化技術(shù)的普及。而支持向量機(jī)是處理文本內(nèi)容,加強(qiáng)文本分類速度,并通過文檔建模、中文分詞、分類器評估等形式,構(gòu)建出的行之有效的統(tǒng)計(jì)語言模型,它可以推動文本分類工作的發(fā)展。本文結(jié)合國內(nèi)外研究現(xiàn)狀,探析文本分類內(nèi)涵及支持向量機(jī)原理,提出基于支持向量機(jī)的文本分類算法。
關(guān)鍵詞:文本分類;支持向量機(jī);統(tǒng)計(jì)語言模型
中圖分類號:TP391.1文獻(xiàn)標(biāo)識碼:A文章編號:1003-5168(2019)29-0008-03
Research on Support Vector Machine in Text Categorization
HE Yan
(Zunyi Medical and Pharmaceutical College,Zunyi Guizhou 563002)
Abstract: With the rapid development of modern science and technology in China, text classification has gradually gained attention in the field of information technology and digital technology. The use of the computing processing system to process text information can effectively improve the quality and efficiency of text classification, improve the utilization of data information, and promote the popularization of information technology. The support vector machine is a statistical language model that is effective in processing text content, enhancing text classification speed, and constructing it through document modeling, Chinese word segmentation, and classifier evaluation, which can promote the development of text classification work. Based on the research status at home and abroad, this paper analyzed the text classification connotation and the principle of support vector machine, and proposed a text classification algorithm based on support vector machine.
Keywords: text classification;support vector machine;statistical language model
大數(shù)據(jù)時代,數(shù)據(jù)信息技術(shù)逐漸成為推動我國社會經(jīng)濟(jì)快速發(fā)展的重要途徑,同時也是加速城市智能化、現(xiàn)代化發(fā)展的關(guān)鍵手段。隨著云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的快速發(fā)展,數(shù)字信息技術(shù)得到我國社會各領(lǐng)域的廣泛重視。然而,如何提升現(xiàn)代信息的利用效率,凸顯數(shù)字信息的時代價(jià)值呢?人們需要從文本分類手段出發(fā),整合現(xiàn)有的文本信息,使其成為大數(shù)據(jù)技術(shù)及云計(jì)算技術(shù)的重要組成部分。
1 國內(nèi)外研究現(xiàn)狀
20世紀(jì)中葉,文本分類得到了迅速的發(fā)展,并利用知識工程理論實(shí)現(xiàn)了人為定制分類體系的建構(gòu)目標(biāo)。而在21世紀(jì)初,相關(guān)專家和學(xué)者開始嘗試?yán)脵C(jī)器學(xué)習(xí)的形式實(shí)現(xiàn)對文本的分類。這種不需要人為干預(yù)的文本分類方法得到快速的發(fā)展,并逐漸成為文本分類的主要研究內(nèi)容[1-3]。2002年,美國學(xué)者提出基于權(quán)重修復(fù)的分類器,并對數(shù)據(jù)檢索展開分析研究,提出了召回率、準(zhǔn)確率等相關(guān)概念。2005年,英國學(xué)者提出使用向量機(jī)開展文本分類工作的理論方法,而在“深度學(xué)習(xí)”理論不斷發(fā)展的過程中,神經(jīng)網(wǎng)絡(luò)逐漸被廣泛應(yīng)用到現(xiàn)代網(wǎng)絡(luò)分類體系中,并且獲得了顯著的效果。
現(xiàn)階段,文本分類的主要研究熱點(diǎn)有四。首先是多語種分類,即如何通過分類器對跨文化文本進(jìn)行分類。其次是噪聲問題,即如何破解文本分類中所固有的噪聲問題,尤其是短文本問題。再次是規(guī)模性文本分類,即如何在大規(guī)模數(shù)據(jù)文本中構(gòu)建有效的分類器。最后是層次化分類,即根據(jù)文本內(nèi)容間的主從關(guān)系、邏輯關(guān)系、依賴關(guān)系實(shí)現(xiàn)分級分類。
在文本分類理論研究過程中,我國學(xué)者通過明確“深度學(xué)習(xí)”理論的內(nèi)涵、深化召回率與準(zhǔn)確率等概念,從實(shí)際應(yīng)用層面闡述文本分類的現(xiàn)實(shí)價(jià)值。文本分類是互聯(lián)網(wǎng)檢索技術(shù)、大數(shù)據(jù)技術(shù)、云計(jì)算技術(shù)、數(shù)據(jù)庫技術(shù)等多種技術(shù)的基礎(chǔ)性技術(shù),在實(shí)際研究過程中,能夠有效提升數(shù)據(jù)的檢索質(zhì)量與傳輸質(zhì)量[4-6]。以現(xiàn)代檢索技術(shù)為例,當(dāng)前的檢索平臺以關(guān)鍵詞檢索為主,在數(shù)據(jù)文本的檢索過程中存在著明顯的局限,即60%的數(shù)據(jù)信息屬于無效文本。而在文本分類技術(shù)快速發(fā)展的過程中,檢索平臺能夠根據(jù)關(guān)鍵詞的主題內(nèi)容,向用戶推送與之“存在內(nèi)部邏輯關(guān)系”即依賴關(guān)系的數(shù)據(jù)信息,以此提升文本數(shù)據(jù)的利用率。
2 文本分類內(nèi)涵與分類任務(wù)
2.1 文本分類的基本內(nèi)涵
文本分類主要指通過計(jì)算機(jī)技術(shù)對文本集或物件,根據(jù)特定的分類標(biāo)準(zhǔn)或機(jī)制進(jìn)行智能化、自動化分類標(biāo)記的過程。具體屬于樸素貝葉斯分類手法。在概念界定上,文本分類是基于用戶興趣、資訊過濾的自動分類,同時也是針對關(guān)鍵詞、關(guān)鍵字的統(tǒng)計(jì)分類,更是以學(xué)科為基礎(chǔ)的專業(yè)分類手段。在應(yīng)用背景層面,伴隨我國社會經(jīng)濟(jì)的快速發(fā)展,電子文檔逐漸取代紙質(zhì)文本成為現(xiàn)代文本數(shù)據(jù)的重要載體。相關(guān)數(shù)據(jù)顯示,當(dāng)前的互聯(lián)網(wǎng)系統(tǒng)中依舊存在上百億級別的網(wǎng)頁數(shù)據(jù),并以數(shù)千萬級的發(fā)展速度增長著。因此,面對指數(shù)增長且基數(shù)龐大的數(shù)據(jù)世界,如何組織文本數(shù)據(jù)并從中探尋出有效的數(shù)據(jù)信息是當(dāng)前信息化技術(shù)發(fā)展的挑戰(zhàn)。為有效探尋解決方案,人們需要對數(shù)據(jù)信息進(jìn)行檢索、分類,以此提升數(shù)據(jù)資源的有效利用率。
2.2 文本分類的主要任務(wù)
根據(jù)相關(guān)理論定義,文本分類是各種自然語言分析、處理、檢索任務(wù)的基礎(chǔ)。通常來講,文本分類與傳統(tǒng)的監(jiān)督方法相同,需要根據(jù)已知標(biāo)記的數(shù)據(jù)模塊上構(gòu)建模型,并將模型進(jìn)行存儲以便開展后續(xù)的文本分析工作。而針對新文本,模型將會根據(jù)文本的特征及特點(diǎn)給出類別。與傳統(tǒng)“監(jiān)督”任務(wù)的不同之處在于,互聯(lián)網(wǎng)技術(shù)難以從原始數(shù)據(jù)中獲取信息,所以需要對文本的基本特征進(jìn)行表示。其中,“特征表示”主要是指將文檔數(shù)據(jù)作為語意信息或統(tǒng)計(jì)信息,以此使計(jì)算機(jī)系統(tǒng)能夠有效識別文本單元內(nèi)部的信息內(nèi)容。其間往往需要利用特征向量的方式,對文本數(shù)據(jù)進(jìn)行表示。通常采用的表示方式有詞向量與TF-DF兩種。在意義層面,文本分類能夠有效縮短文本資料的處理時間,可以對數(shù)據(jù)信息進(jìn)行檢索,有利于文本的管理、儲存與歸類。通過文本分類,人們能夠有效認(rèn)知并區(qū)分事物,進(jìn)而提升接觸并了解自然物質(zhì)世界的水平。
在文本分類力量研究上,我國相關(guān)專家學(xué)者主要的研究方向如下。首先是冗余過濾。如何過濾冗余信息,如何在重復(fù)性文本中篩選出性價(jià)比高的文本內(nèi)容,是冗余過濾研究中的重點(diǎn)內(nèi)容。其次是文檔組織。文檔組織具體指在文本分類的同時將具有內(nèi)在邏輯的文本進(jìn)行組織規(guī)劃,以此提升文本與文本間的協(xié)調(diào)性。例如,在農(nóng)業(yè)文本中,小麥種植應(yīng)與小麥病害防范組織在一起,而根據(jù)實(shí)際應(yīng)用需求,也可將小麥種植與大豆種植進(jìn)行組織。再次是信息檢索,信息檢索的本質(zhì)是利用已分類的文本,提升社會各領(lǐng)域的生產(chǎn)質(zhì)量及工作效率。其間需要相關(guān)人員根據(jù)文本的主題特征及關(guān)鍵詞等要素,作為檢索標(biāo)記或通過語段描述特征的分析方式,對不同語段的連詞、動詞、名詞進(jìn)行分析及處理,進(jìn)而形成完整的文本標(biāo)記庫,以此通過計(jì)算機(jī)對文本內(nèi)容的識別,提升文本檢索質(zhì)量。最后是信息過濾,信息過濾具體指與文本分類主體不存在主從關(guān)系、邏輯關(guān)系的其他信息,其中包括網(wǎng)絡(luò)推廣信息、廣告信息等。
3 支持向量機(jī)原理及算法
3.1 支持向量機(jī)的基本原理
支持向量機(jī)是美國學(xué)者Vapnik通過統(tǒng)計(jì)學(xué)原理提出的機(jī)器學(xué)習(xí)法。在具體的文本分類過程中,支持向量機(jī)以結(jié)構(gòu)風(fēng)險(xiǎn)小的優(yōu)勢,通過篩選函數(shù)子集及子集內(nèi)部的判別函數(shù),促使學(xué)習(xí)機(jī)的風(fēng)險(xiǎn)維持最小,以此確保在通過有限的樣本訓(xùn)練獲得的分類器對測試文本時,誤差仍最小,進(jìn)而獲得擁有推廣泛化與最優(yōu)分類等能力的智能學(xué)習(xí)機(jī)。從理論層面來分析,支持向量機(jī)的主要思想是根據(jù)給定的有限訓(xùn)練樣本的文本學(xué)習(xí)任務(wù),對給定訓(xùn)練內(nèi)容進(jìn)行無差別的學(xué)習(xí)訓(xùn)練,以此獲得最優(yōu)的學(xué)習(xí)性能。而支持向量機(jī)的識別原則是以構(gòu)建超平面平臺作為決策主體,以此使正負(fù)間的有效空白最大化。其根本任務(wù)是建設(shè)目標(biāo)函數(shù)集,并劃分出不同的函數(shù)子集,進(jìn)而實(shí)現(xiàn)文本分類的目的。而在線性不可分與可分的不均衡背景下,支持向量機(jī)能夠?qū)⑽谋痉诸悊栴}轉(zhuǎn)化為規(guī)劃問題,并利用線性折射的方式,將輸入的數(shù)值映射到特殊維度的空間中,以此在構(gòu)造有效的超平面空間時,進(jìn)行線性分類。
近年來,支持向量機(jī)應(yīng)用理論以其良好的特性與扎實(shí)的理論基礎(chǔ)得到了廣泛的支持與關(guān)注。在最開始時,它主要是為兩種文本分類問題設(shè)計(jì)的,然而在具體應(yīng)用過程中,多類分類較為普遍。文本分類則屬于多類分類范疇。所以,如何使支持向量機(jī)的性能應(yīng)用到文本分類范疇中,提升向量機(jī)的決策速度與訓(xùn)練質(zhì)量是解決當(dāng)前向量機(jī)文本分類問題的重要內(nèi)容與課題。在理論應(yīng)用中,支持向量機(jī)采用訓(xùn)練及學(xué)習(xí)的方式,提升自身性能,其基本內(nèi)涵是對現(xiàn)有的分類方法及組合形式進(jìn)行歸納與應(yīng)用,以此實(shí)現(xiàn)自動化、智能化分類的效果。在具體文本分類過程中,支持向量機(jī)需要根據(jù)特定的算法,構(gòu)建相應(yīng)的分類器,并對分類器的分類程序進(jìn)行整理及運(yùn)算,從而形成子分類器。在標(biāo)記樣本的正類或負(fù)類的過程中,最終完成對文本類型的分類。
3.2 支持向量機(jī)的主要算法
3.2.1 組合法。支持向量機(jī)組合法中最早形成的文本分類算法是1-A-R算法,也稱“一對多法”。在實(shí)際的文本分類過程中,人們需要應(yīng)用到不同類型的分類器。其間往往構(gòu)建兩類分類器,每個分類器又需要將其中的內(nèi)容進(jìn)行二級分類,即在不同類別的分類器體系下,構(gòu)建大量分類模塊,從而輸入有效的X歸屬集。通常來講,一對多法主要是對k類文本問題建造k個支持向量機(jī)子分類系統(tǒng),并在建立第n個子分類系統(tǒng)時,需要將從屬第n類的文本樣本標(biāo)記為正向類。而不屬于n類的文本樣本則需要標(biāo)記為負(fù)向類。
在具體的數(shù)據(jù)測試過程中,人們需要分別核算不同子分類體系的函數(shù)值,進(jìn)而選取數(shù)值比較大的類別作為核算文本的基本類別。在現(xiàn)代文本分類過程中,一對多分類法簡單易行,得到廣泛的推廣與應(yīng)用。但是,一對多分類法存在諸多的缺陷,譬如泛化能力差,尤其在訓(xùn)練樣本和訓(xùn)練時間成正相關(guān)時,訓(xùn)練難度較大,繼而造成向量機(jī)訓(xùn)練不均衡等問題。在對規(guī)模較小的樣本類別進(jìn)行識別時,識別進(jìn)度較低。而組合法中的一對一分類法,雖然與一對多分類法相似,也是采取兩類分類器進(jìn)行運(yùn)算,然而在構(gòu)建過程中,則采取類別q與類別o的數(shù)據(jù)樣本作為數(shù)據(jù)訓(xùn)練基礎(chǔ),能夠有效解決一對多算法的弊端。
3.2.2 決策樹法。決策樹通常是支持向量機(jī)的重要文本分類法,并通過相互融合的形式,形成類別多樣的識別器。根據(jù)相關(guān)理論分析,人們能夠發(fā)現(xiàn),支持向量機(jī)決策樹擁有較為分明的層次結(jié)構(gòu),不同層次的子分類器的重要性與級別各不相同,并且訓(xùn)練結(jié)合的內(nèi)容與構(gòu)成也存在較大的差異。人們需要根據(jù)不同層次間的邏輯結(jié)構(gòu)進(jìn)行文本分類測試,并輸入不同的樣本,子分類器的規(guī)模與數(shù)目必須介于決策樹的縱向深度與數(shù)值1之間。因此,在具體測試過程中,樣本測試速度比較快。由于決策樹分支與節(jié)點(diǎn)的劃分缺乏充足的理論依據(jù),所以操作人員需要擁有充足的知識。
在具體應(yīng)用過程中,向量機(jī)決策樹能夠同時處理規(guī)模龐大的文本類別與樣本,保障每一個文本分類問題都能夠得到有效解決。在測試及分類過程中,決策樹對分類器的需求較少,能夠保障最優(yōu)的性能。從實(shí)效性角度來分析,決策樹分類法的基本優(yōu)勢是訓(xùn)練樣本與向量機(jī)分類器的數(shù)量較少,能夠在節(jié)約成本的同時提升后續(xù)工作的分類水平。在文本分類過程中,操作人員不需要估計(jì)所有分類器,因此,在文本分類的應(yīng)用過程中,決策樹分類法具有顯著的分類速度與訓(xùn)練速度。
4 結(jié)語
我國現(xiàn)代數(shù)據(jù)化技術(shù)與信息化技術(shù)的快速發(fā)展對文本分類提出了全新的要求,尤其是大數(shù)據(jù)時代,文本分類不僅要具有準(zhǔn)確性、保真性、時效性,更要深入到不同語種、不同學(xué)科專業(yè)的文本分類過程中,進(jìn)而在支持向量機(jī)的幫助下,推動我國數(shù)字信息化技術(shù)的快速發(fā)展。
參考文獻(xiàn):
[1]周慶平,譚長庚,王宏君,等.基于聚類改進(jìn)的KNN文本分類算法[J].計(jì)算機(jī)應(yīng)用研究,2016(11):3374-3377.
[2]羅玉華,左軍,李巖.SVM及其在文本分類中的應(yīng)用[J].科技信息,2010(3):441-442.
[3]丁勇,秦曉明,何寒暉.支持向量機(jī)的參數(shù)優(yōu)化及其文本分類中的應(yīng)用[J].計(jì)算機(jī)仿真,2010(11):187-190.
[4]張小艷,李強(qiáng).基于SVM的分類方法綜述[J].科技信息,2008(28):344-345.
[5]祝曉魯,白振興,賈海燕.自動文本分類技術(shù)研究[J].現(xiàn)代電子技術(shù),2007(3):121-124.
[6]王義忠,劉循,吳迪.一種改進(jìn)的SVM文本分類算法[J].現(xiàn)代計(jì)算機(jī),2014(26):16-20.