亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SVM的中文文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

        2016-09-09 02:51:41張昭楠
        電子設(shè)計(jì)工程 2016年16期
        關(guān)鍵詞:向量自動(dòng)分類

        張昭楠

        (陜西職業(yè)技術(shù)學(xué)院 陜西 西安 710000)

        基于SVM的中文文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

        張昭楠

        (陜西職業(yè)技術(shù)學(xué)院 陜西 西安710000)

        互聯(lián)網(wǎng)已經(jīng)成為現(xiàn)代生活中不可或缺的一部分,網(wǎng)絡(luò)上的信息量也在以數(shù)倍的速度快速增長(zhǎng)。無論是企事業(yè)單位,學(xué)校,或者科研院校等等機(jī)構(gòu)中,都積累了非常多的資料,這些資料絕大多數(shù)都以文檔的形式存在。所以,如何將數(shù)以萬計(jì)且排序混亂的文本信息,按照一定的規(guī)則和形式進(jìn)行統(tǒng)一的管理,以達(dá)到方便使用和管理的目的成為了一個(gè)不得不去解決的問題。本文就是在SVM,即支持向量機(jī)方法的基礎(chǔ)上,設(shè)計(jì)了一個(gè)中文文本分類系統(tǒng)。介紹了系統(tǒng)的需求分析,并對(duì)系統(tǒng)進(jìn)行了詳細(xì)設(shè)計(jì),從概念的初始化設(shè)計(jì)到之后的詳細(xì)設(shè)計(jì),實(shí)現(xiàn)了基于SVM的中文文本分類系統(tǒng)的最終目的,達(dá)到了設(shè)計(jì)要求。

        文本分類;支持向量機(jī);文本表示;特征選擇

        隨著信息化時(shí)代的全面降臨,信息資源也已經(jīng)和能源,物質(zhì)等常規(guī)資源占有同樣重要的地位。我國(guó)最近大力推行的信息化建設(shè),也正是對(duì)這方面越來越重視的充分體現(xiàn)。當(dāng)今,互聯(lián)網(wǎng)上出現(xiàn)了各種各樣的信息,信息量也以幾何倍數(shù)的快速增長(zhǎng)。而這些信息大部分都是以文本的形式存在的。另外在各個(gè)大中型院校,政府機(jī)構(gòu)或者企事業(yè)單位等等這些地方,都存放著大量紙質(zhì)或數(shù)字化的文檔資料。通常,為了更好的存儲(chǔ)和保留,紙質(zhì)文檔都會(huì)錄成數(shù)字文檔,存放起來[1-2]。日積月累,數(shù)字文檔的數(shù)量也急劇膨脹。面對(duì)海量的文本文檔,對(duì)它們合理的管理和利用,就顯得特別重要。而研究的這些方法就是所謂的文本處理技術(shù)。該技術(shù)的核心就是本文介紹的文本分類技術(shù)。文本分類,以前都是依靠人工操作來進(jìn)行的,而且不同領(lǐng)域的分類標(biāo)準(zhǔn)和辦法是不相同的。但是這樣會(huì)有一個(gè)明顯的問題就是,這種方法需要的人力和物力都是驚人的,而且效率非常低,有些情況下只靠人力是無法完成的。正因?yàn)槿绱?,設(shè)計(jì)開發(fā)一個(gè)方便快捷的文本分類系統(tǒng),就顯得非常重要了。本文,基于SVM的中文文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),通過對(duì)系統(tǒng)的需求分析,以及對(duì)系統(tǒng)的詳細(xì)設(shè)計(jì),很好的解決了這個(gè)問題,大幅度的提高了文本分類的效率和準(zhǔn)確性[3-4]。

        1 SVM方法概述

        所謂SVM,全稱是支持向量機(jī)(Support Vector Machine)。是一種近年來推出的一種全新的分類和統(tǒng)計(jì)方法。該方法遵循的原則是結(jié)構(gòu)化風(fēng)險(xiǎn)的最小化,與傳統(tǒng)常規(guī)的方法相比,其優(yōu)勢(shì)也比較明顯。比如理論基礎(chǔ)特別扎實(shí)。根據(jù)統(tǒng)計(jì)學(xué)理論權(quán)威專家通過實(shí)踐得出的結(jié)論來看,SVM方法不僅解決了以前文本分類周期長(zhǎng),準(zhǔn)確度低,范圍較小等弱點(diǎn)。還可以在極小的樣本條件下,仍然可以滿足常規(guī)的使用方式,且效率不會(huì)受到影響。因此該方法逐漸受到人們的重視,并且以廣泛的使用到了文本分類,人臉識(shí)別,指紋識(shí)別等領(lǐng)域。SUV方法不是無限制自動(dòng)調(diào)控的系統(tǒng),其自身也有著安全的監(jiān)控算法和分類算法。在進(jìn)行文本分類處理時(shí),一般需要經(jīng)過兩個(gè)步驟,分別為訓(xùn)練和分類[5]。訓(xùn)練過程,與之字面意思不同,這里的訓(xùn)練實(shí)際就是對(duì)詞語重新定義的一個(gè)過程。由于重新規(guī)劃所面臨的問題很多,計(jì)算量又是十分之大。隨著技術(shù)的優(yōu)化,如今引入了多維空間理論,不同緯度空間實(shí)現(xiàn)了交叉映射,從而避開了線性與非線性的問題,支持向量機(jī)也因此成為了一種常用的分類方法[6-7]。

        2 系統(tǒng)需求及可行性分析

        通過對(duì)SVM的介紹,其屬于智能分類算法。所以在進(jìn)行文本分類工作之前要進(jìn)行小部分的人工分類,為分類器提供比對(duì)和校準(zhǔn),也就是所謂的訓(xùn)練功能。訓(xùn)練完成后系統(tǒng)的記憶功能將會(huì)自動(dòng)生效,以后同種類型的文本就無需重復(fù)的操作。在操作完成后,系統(tǒng)會(huì)自動(dòng)對(duì)結(jié)果進(jìn)行統(tǒng)計(jì)和分析,以到達(dá)最好的效果[8-9]。下面介紹一下SVM的訓(xùn)練分類過程,所謂訓(xùn)練,就是將普通詞典的文本及文件輸入到計(jì)算機(jī)中去。在計(jì)算機(jī)分詞系統(tǒng)的存儲(chǔ)和處理后,以一種以比較特殊的此類表格的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)在系統(tǒng)的數(shù)據(jù)庫(kù)內(nèi)存中,為中文文本分類程序的使用做好準(zhǔn)備。下面對(duì)SVM進(jìn)行分類器的使用的過程進(jìn)行說明,首先就是將需要處理分類的文檔打開,對(duì)其先進(jìn)行預(yù)處理操作,在對(duì)其特征,權(quán)重等因素進(jìn)行計(jì)算,最后使用構(gòu)建成功的文本分類器系統(tǒng)進(jìn)行自動(dòng)分類。在分類完成后,系統(tǒng)會(huì)將分類前文本的各種參數(shù)以及分類后文本的各種參數(shù)一并展示在使用者面前,方便使用者查看。一般在設(shè)計(jì)系統(tǒng)時(shí)。都會(huì)對(duì)其系統(tǒng)的可行性作出分析和說明,這里的重點(diǎn)就是在系統(tǒng)無論進(jìn)行哪一步操作之前,首先必須完成文本的預(yù)先處理工作。預(yù)處理是將文本中的中文分詞進(jìn)行簡(jiǎn)單的,系統(tǒng)可以識(shí)別的標(biāo)識(shí)操作[10]。通過對(duì)文獻(xiàn)的分析以及對(duì)類似產(chǎn)品的比對(duì),發(fā)現(xiàn)此方法已經(jīng)廣泛運(yùn)用到各個(gè)分類系統(tǒng)中,所以該方法無論從技術(shù)上還是使用經(jīng)驗(yàn)上都以十分完善和成熟,在使用時(shí)直接進(jìn)行操作和調(diào)用即可。

        3 系統(tǒng)概要設(shè)計(jì)

        前文已經(jīng)提到,在系統(tǒng)進(jìn)行文本分類操作之前,需要將文本中一小部分詞語提取出來進(jìn)行分類器的模擬比對(duì)和訓(xùn)練工作,即將文本的一小部分提出進(jìn)行試驗(yàn),這一小部分文檔就作為分類成功的模板被記錄下來[11-12]。本系統(tǒng)的功能示意圖如圖1所示。系統(tǒng)概要設(shè)計(jì)中一個(gè)比較重要的部分就是文本的預(yù)處理過程,該過程是在系統(tǒng)的預(yù)處理模塊中進(jìn)行的。該過程其實(shí)就分為標(biāo)識(shí)處理和存儲(chǔ)處理,這是因?yàn)闈h語不會(huì)像拉丁語一樣可以用空格符號(hào)來隔開,所以在系統(tǒng)分類前要對(duì)詞語進(jìn)行標(biāo)識(shí)處理,而此步驟是后續(xù)分類系統(tǒng)順利進(jìn)行工作的前提。所以說本模塊在整個(gè)中文分詞系統(tǒng)中的地位是舉足輕重的。前文提到的中科院的ICTCLAS中文分詞系統(tǒng),正是因?yàn)槠湓陬A(yù)處理過程中性能穩(wěn)定,處理準(zhǔn)確,且提供免費(fèi)的使用,受到了很多科研機(jī)構(gòu)以及需要此功能人員的青睞。并且該系統(tǒng)還自帶了記憶功能,對(duì)于經(jīng)過操作的分詞文本再次輸入時(shí)無需進(jìn)行重復(fù)的操作。中文文本分類系統(tǒng)的權(quán)重模塊也是設(shè)計(jì)的重點(diǎn)之一,本文在普通文本分類系統(tǒng)單一算法的基礎(chǔ)上,通過對(duì)多種算法的比較和實(shí)際運(yùn)用,綜合了傳統(tǒng)的比對(duì)權(quán)重算法以及細(xì)化權(quán)重算法等常用算法,在選擇其優(yōu)勢(shì)的基礎(chǔ)上對(duì)出現(xiàn)的問題進(jìn)行了改進(jìn),提出了本文基于BG*IG的全新算法。本系統(tǒng)的另一大優(yōu)勢(shì)就是文本表示模塊的使用,與傳統(tǒng)表示模塊不同,本系統(tǒng)采用的表示模型是數(shù)學(xué)上的向量空間的思想。文本經(jīng)過訓(xùn)練模塊和預(yù)處理模塊的處理后,分本由統(tǒng)一的格式分化成為具有各種不同屬性的分詞,但是SVM只支持向量格式的數(shù)據(jù),這時(shí)文本表示模塊就發(fā)揮了作用,其會(huì)自動(dòng)將傳遞過來的文本信息轉(zhuǎn)化為三維空間向量的形式。所以本文采用該方法進(jìn)行文本的表示[13]。

        圖1 基于SVM的文本分類功能示意圖

        4 系統(tǒng)詳細(xì)設(shè)計(jì)

        中文文本分類系統(tǒng)設(shè)計(jì)的重點(diǎn)首先就是系統(tǒng)的總體界面,系統(tǒng)的總體界面如圖2所示。其對(duì)應(yīng)的算法格式與之前提到的相同,且是由權(quán)重算法自動(dòng)生成的。作用就是負(fù)責(zé)對(duì)顯示系統(tǒng)和響應(yīng)系統(tǒng)的菜單進(jìn)行操作和處理,并且所有菜單的操作和處理都是基于此類算法產(chǎn)生的。本系統(tǒng)所有的實(shí)現(xiàn)功能首先都是要經(jīng)過界面上顯示的“操作 ”按鈕來實(shí)現(xiàn)的,換句話說,系統(tǒng)的所有功能在操作界面上都可以體現(xiàn)出來。在對(duì)文本進(jìn)行分類操作時(shí),首先單擊“訓(xùn)練 SVM分類器”菜單選項(xiàng),這時(shí)會(huì)跳出一個(gè)訓(xùn)練設(shè)置界面,在設(shè)置完成后點(diǎn)擊確認(rèn)按鈕,系統(tǒng)就會(huì)自動(dòng)進(jìn)行分類訓(xùn)練。這時(shí)觀察SVM文本分類和查看分類結(jié)果菜單都是灰色的狀態(tài),這就說明分類工作還在進(jìn)行,在完成這部分工作后系統(tǒng)才會(huì)進(jìn)行下一步的操作,也就是進(jìn)行文本的分類。在分類完成后分類結(jié)果會(huì)出現(xiàn)在顯示器上。本系統(tǒng)還有一個(gè)優(yōu)勢(shì)就是默認(rèn)的參數(shù)往往就是可靠性以及效率最高的值,通常不需要更改,如若需要進(jìn)行特殊格式的分類,也只需重新單擊參數(shù)值按鈕,重新根據(jù)需求設(shè)定即可。需要注意的是,若參數(shù)更改,則分詞器需要進(jìn)行重新的訓(xùn)練[15]。系統(tǒng)設(shè)計(jì)的另一個(gè)重點(diǎn)就是特征選擇方式的設(shè)計(jì),本系統(tǒng)進(jìn)行選擇處理的方式分兩種,分別是整體選擇和分類選擇。所謂整體的選擇方式,就是將文本中的詞按照其根本的詞性特點(diǎn),將其放入統(tǒng)一的數(shù)據(jù)庫(kù)中,通過固定的算法,根據(jù)其特征詞進(jìn)行篩選,最后按照一定的格式排列起來。而第二種分類選擇方式,就是將中文文本中段落細(xì)分為類來處理,通過分析,按照權(quán)重,詞性等因素劃分完成后對(duì)其分別經(jīng)行評(píng)估。根據(jù)評(píng)估的的結(jié)果,分類放入到數(shù)據(jù)庫(kù)中,其最終也是以數(shù)據(jù)表的形式存在。最后根據(jù)實(shí)際需求進(jìn)行調(diào)用和選取。

        圖2 系統(tǒng)界面

        5 結(jié) 論

        文中在充分研究了傳統(tǒng)中文文本分類系統(tǒng)的基礎(chǔ)上,設(shè)計(jì)并開發(fā)了一個(gè)效率高,分類精確的中文文本分類系統(tǒng),即基于SVM的中文文本分類系統(tǒng)。通過對(duì)SVM方法的概述,系統(tǒng)的可行性分析介紹,系統(tǒng)的詳細(xì)設(shè)計(jì),特別是對(duì)界面模塊以及特征選擇模塊進(jìn)行了詳細(xì)的說明。很好的解決了傳統(tǒng)中文文本分類方式所面臨的問題,大幅度的提高了文本分類的效率和準(zhǔn)確性,達(dá)到了設(shè)計(jì)要求。

        [1]袁彥芹.基于支持向量機(jī)的大規(guī)模文本分類研究與設(shè)計(jì)[D].山東:山東師范大學(xué),2007.

        [2]都云琪,肖詩(shī)斌.基于支持向量機(jī)的中文文本文檔自動(dòng)分類研究[J].計(jì)算機(jī)工程,2002(11):137-138.

        [3]王永成.中文信息處理技術(shù)及基礎(chǔ)[M].上海:上海交大出版社,1999.

        [4]成穎,史九林.自動(dòng)分類研究現(xiàn)狀與展望 [J].情報(bào)學(xué)報(bào),1999,18(2):20-26.

        [5]王閏強(qiáng),胡鐵軍.中文文本文檔自動(dòng)分類研究進(jìn)展[J].醫(yī)學(xué)情報(bào)工作,2002(6):342-347

        [6]葉新明,徐進(jìn)鴻.中文文獻(xiàn)自動(dòng)分類研究 [J].情報(bào)科學(xué),1992,13(5):31-34.

        [7]朱蘭娟.中文文獻(xiàn)自動(dòng)分類的理論與實(shí)踐 [J].情報(bào)科學(xué),1987,6(6):433-437.

        [8]肖明,沈英.自動(dòng)分類研究進(jìn)展.現(xiàn)代圖書情報(bào)技術(shù)[J]. 2000,5(3):25-28.

        [9]田軍.圖書自動(dòng)分類的數(shù)學(xué)建模型及實(shí)現(xiàn)[J].圖書情報(bào)工作,2001,9(2):44-47.

        [10]李曉黎,劉繼敏,史忠植.概念推理網(wǎng)及其在文本分類中的應(yīng)用[J].計(jì)算機(jī)研究與發(fā)展,2000:37.

        [11]鄒濤,王繼成,黃源等.中文文檔自動(dòng)分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),1999,13(3):124-157.

        [12]陶蘭,申軍霞.文本信息自動(dòng)分類系統(tǒng)[J].中國(guó)農(nóng)業(yè)大學(xué)學(xué)報(bào),1999,4(4):341-357.

        [13]馬忠寶.基于支持向量機(jī)的中文文本分類系統(tǒng)研究[D].武漢:武漢理工大學(xué),2006.

        [14]朱德熙.語法講義[M].上海:商務(wù)印書館,1982.

        [15]周程遠(yuǎn).中文自動(dòng)分詞系統(tǒng)的研究與實(shí)現(xiàn)[D].上海:華東師范大學(xué),2008.

        Design and implementation of Chinese text categorization system based on Support Vector Machine

        ZHANG Zhao-nan
        (Shaanxi Vocational and Technical College,Xi'an 710000,China)

        The internet has become an indispensable part in modern life,the amount of information on the network also several times at the speed of fast growth.Both the enterprises and institutions,schools,or scientific research in colleges and universities,and so on organization,have accumulated a lot of information,the information is mostly in the form of document. So,in the face of these massive amounts of text document information,how to effectively manage and utilize them becomes a have to solve the problem.This article is in the SVM,namely,on the basis of support vector machine(SVM)method,a Chinese text classification system is designed.Introduces the system requirement analysis,and has carried on the detailed design of system,after the initialization of the concept of design to detailed design,realized the ultimate goal of Chinese text classification system based on SVM,and has reached the design requirements.

        text classification;support vector machine;text presentation;feature selection

        TN99

        A

        1674-6236(2016)16-0139-03

        2016-03-22稿件編號(hào):201603297

        張昭楠(1986—),女,陜西渭南人,碩士研究生,助教。研究方向:中國(guó)古代文學(xué),語言學(xué)及應(yīng)用語言學(xué)。

        猜你喜歡
        向量自動(dòng)分類
        向量的分解
        分類算一算
        聚焦“向量與三角”創(chuàng)新題
        自動(dòng)捕盜機(jī)
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        基于STM32的自動(dòng)喂養(yǎng)機(jī)控制系統(tǒng)
        教你一招:數(shù)的分類
        關(guān)于自動(dòng)駕駛
        汽車博覽(2016年9期)2016-10-18 13:05:41
        向量垂直在解析幾何中的應(yīng)用
        久久婷婷国产综合精品| 精品国内在视频线2019| 超薄丝袜足j好爽在线观看| 96精品在线| 精品国产亚洲人成在线观看| 色婷婷久久精品一区二区| 人人妻人人狠人人爽天天综合网| 五十路熟久久网| 亚洲av熟女天堂系列| 精彩亚洲一区二区三区| 天天摸夜夜摸夜夜狠狠摸| 国产美女遭强高潮网站| 国内精品91久久久久| 你懂的视频网站亚洲视频| 又大又粗欧美黑人aaaaa片| 男人边吻奶边挵进去视频| 国产乱子伦农村xxxx| 黑丝美腿国产在线观看| 久久国产成人精品国产成人亚洲| 日韩好片一区二区在线看| 久久久久久久久久免免费精品| 五月婷婷开心五月播五月| 超碰97人人射妻| 亚洲国产av一区二区三区四区| 久久久精品国产视频在线| 亚洲乱码中文字幕视频| 亚洲综合激情五月丁香六月| 伊人网视频在线观看| 久久亚洲精品成人av观看| 亚洲av无码乱码国产麻豆| 又湿又黄裸乳漫画无遮挡网站| 午夜国产精品久久久久| 蜜桃成熟时日本一区二区| 日韩精品视频一区二区三区| 天天天综合网| 国产喷白浆精品一区二区豆腐 | 亚洲av无码精品国产成人| 久久精品久久精品中文字幕| 午夜少妇高潮免费视频| 无码爽视频| 午夜福利电影|