亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自動(dòng)分類技術(shù)研究

        2009-04-29 00:00:00
        電腦知識(shí)與技術(shù) 2009年4期

        摘要:自動(dòng)分類技術(shù)已成為文檔信息分類的主導(dǎo)關(guān)鍵技術(shù),針對技術(shù)的發(fā)展現(xiàn)狀,歸納自動(dòng)分類技術(shù)的類型及歸類方法,以及對未來發(fā)展的展望。

        關(guān)鍵詞:自動(dòng)分類;現(xiàn)狀;類型;文檔分類;方法

        中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)04-1020-02

        自動(dòng)分類技術(shù)是利用計(jì)算機(jī)系統(tǒng)對文本集按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)類別標(biāo)記,分類工具根據(jù)文檔的信息將其分配到已經(jīng)存在的類別中,也稱“主題”。

        隨著網(wǎng)絡(luò)的迅猛發(fā)展,網(wǎng)頁、電子郵件、數(shù)據(jù)庫、聊天室和數(shù)字圖書館等電子文本成幾何級數(shù)不斷增長,處理這些海量數(shù)據(jù)的一個(gè)重要方法就是將它們分類。當(dāng)我們?yōu)g覽一個(gè)網(wǎng)站查找信息時(shí),如果網(wǎng)頁凌亂的堆積在一起沒有類別供我們查找,會(huì)使我們很難找到自己所需的信息。現(xiàn)在,大型網(wǎng)站都將網(wǎng)頁分類,以方便人們?yōu)g覽。比如,Yahoo就將網(wǎng)頁放在一個(gè)巨大的層次分類結(jié)構(gòu)中,通過組裝維護(hù)這些類別,可以幫助人們查找知識(shí)和信息。網(wǎng)頁自身并沒有類型區(qū)分,這就需要人工分類,將網(wǎng)頁、郵件等各種格式的文檔經(jīng)過文法分析都可以轉(zhuǎn)化為純文本,而自動(dòng)文本分類系統(tǒng)可以幫助人們檢查文本、判斷文本所屬類別。

        1 自動(dòng)分類技術(shù)的現(xiàn)狀

        到目前為止,國外已在自動(dòng)分類領(lǐng)域進(jìn)行了較為深入的研究。已經(jīng)從最初的可行性基礎(chǔ)研究經(jīng)歷了實(shí)驗(yàn)性研究進(jìn)入實(shí)用階段,并在郵件分類、電子會(huì)議、信息過濾等方面取得了較為廣泛的應(yīng)用[1]。

        國內(nèi)對自動(dòng)分類技術(shù)的研究相對較晚。1986年,上海交通大學(xué)電腦應(yīng)用技術(shù)研究所開發(fā)的中文科技文獻(xiàn)(計(jì)算機(jī)類)實(shí)驗(yàn)性分類系統(tǒng)。1995年,清華大學(xué)電子工程系研制的漢語語料自動(dòng)分類系統(tǒng)。1998年,東北大學(xué)計(jì)算機(jī)系的新聞?wù)Z料漢語文本自動(dòng)分類模型。1999年,由鄒濤等人開發(fā)的中文技術(shù)文本分類系統(tǒng)CTDS。除此之外,國內(nèi)眾多學(xué)者對中文文本分類算法也進(jìn)行了深入研究,黃萱箐等提出的基于機(jī)器學(xué)習(xí)的、獨(dú)立于語種的文本分類模型[3],周永庚等研究的隱含語義索引在中文文本處理中的應(yīng)用[4],李榮陸等的最大熵模型[5],張劍等提出的一種以WordNet語言本體庫為基礎(chǔ),建立文本的概念向量空間模型作為文本特征向量的特征提取方法[6],朱靖波等將領(lǐng)域知識(shí)引入文本分類,利用領(lǐng)域知識(shí)作為文本特征,提出一種基于知識(shí)的文本分類方法等[7]。

        從20世紀(jì)90年代以來,基于機(jī)器學(xué)習(xí)的文本分類逐漸成為文本分類的主流技術(shù)。近年來文本分類技術(shù)取得了很大的進(jìn)展,提出了多種特征抽取方法和分類方法,如回歸模型、支持向量機(jī)、最大熵模型等,建立了OHSUMED,Reuters等開放的分類語料庫。

        2 自動(dòng)分類技術(shù)的類型

        根據(jù)目的性,信息自動(dòng)分類包括自動(dòng)聚類和自動(dòng)歸類兩種類型。

        2.1 自動(dòng)聚類

        由計(jì)算機(jī)系統(tǒng)對待分類文本進(jìn)行分析并提取有關(guān)的特征,然后對提取的特征進(jìn)行比較,根據(jù)一定規(guī)則將具有相同或相近特征的對象定義為一類。自動(dòng)聚類的目的是在已有信息中定義符合實(shí)際情況的類。在網(wǎng)站的非主要分類體系中,也可以用自動(dòng)聚類的方法自動(dòng)生成欄目內(nèi)的類別。

        2.2 自動(dòng)歸類

        計(jì)算機(jī)系統(tǒng)對分類文本提取有關(guān)特征,然后與既定分類系統(tǒng)中對象所具有的公共特征進(jìn)行相關(guān)性比較。將對象歸入其特征最相近的類中。自動(dòng)歸類的目的是把各種信息納入已建立的分類系統(tǒng)中,用于搜索引擎或網(wǎng)站導(dǎo)航系統(tǒng)的管理和數(shù)據(jù)更新。根據(jù)使用的技術(shù),自動(dòng)歸類通常分為基于詞的自動(dòng)分類(詞典法)和基于專家系統(tǒng)的自動(dòng)分類(知識(shí)法)兩大類,也有人將界于兩種技術(shù)之間的稱為基于信息的自動(dòng)分類。

        3 文檔分類關(guān)鍵技術(shù)分類及方法

        現(xiàn)有的文本分類技術(shù)主要采用3 種方法:基于連接的方法、基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。

        3.1 基于連接的文本分類方法

        基于連接的方法主要是利用人工神經(jīng)網(wǎng)絡(luò)來模擬人腦神經(jīng)網(wǎng)絡(luò),并期望其能像大腦一樣地運(yùn)作,一樣地學(xué)習(xí),從而產(chǎn)生智慧。這種方法可以實(shí)現(xiàn)信息的分布存取,運(yùn)算的全局并行,并且可在進(jìn)行非線性處理的同時(shí)具有高容錯(cuò)性等特點(diǎn),適用于學(xué)習(xí)一個(gè)復(fù)雜的非線性映射。但是使用他學(xué)習(xí)所形成的知識(shí)結(jié)構(gòu)是人所難以理解的,系統(tǒng)本身也不具有良好的透明性。

        3.2 基于規(guī)則的文本分類方法

        基于規(guī)則的方法本質(zhì)上是一種確定性的演繹推理方法。其優(yōu)點(diǎn)在于他能根據(jù)上下文對確定性事件進(jìn)行定性描述,并且能充分利用現(xiàn)有的語言學(xué)成果。其成立的前提是有大量的知識(shí),而這些知識(shí)必須是人類專家總結(jié)出來的。由于必須有人的參與,這種方法側(cè)重于知識(shí)的可理解性和可讀性,對于有些統(tǒng)計(jì)方法無法解決的問題,利用基于規(guī)則的方法可以很容易地解決。但是,這種方法在不確定性事件的描述、規(guī)則之間的相容性等方面存在一些缺陷和限制。常用的基于規(guī)則的方法有決策樹、關(guān)聯(lián)規(guī)則等。

        3.3 基于統(tǒng)計(jì)的文本分類方法

        基于統(tǒng)計(jì)的方法本質(zhì)上是一種非確定性的定量推理方法?;诮y(tǒng)計(jì)的方法的優(yōu)勢在于他的全部知識(shí)是通過對大規(guī)模語料庫分析得到的,可以取得很好的一致性和非常高的覆蓋率,對語言處理提供了比較客觀的數(shù)據(jù)依據(jù)和可靠的質(zhì)量保證。但由于其是基于概率的一種方法,因此必然會(huì)對小類別文本即小概率事件造成忽視。常用的基于統(tǒng)計(jì)的方法有KNN、樸素貝葉斯、類中心向量、回歸模型、支持向量機(jī)、最大熵模型等。

        3.4 經(jīng)典文本分類方法

        3.4.1 KNN算法

        KNN算法即k- Nearest Neighbor 分類方法,是一種穩(wěn)定而有效的文本分類方法。采用KNN 方法進(jìn)行文檔分類的過程如下:對于某一給定的測試文檔d,在訓(xùn)練集中,通過相似度找到與之最相似的k個(gè)訓(xùn)練文檔。在此基礎(chǔ)上,給每個(gè)文檔類打分,分值為k個(gè)訓(xùn)練文檔中屬于該類的文檔與測試文檔之間的相似度之和。也就是說, 如果在這k個(gè)文檔中,有多個(gè)文檔屬于一個(gè)類,則該類的分值為這些文檔與測試文檔之間的相似度之和。對這k個(gè)文檔所屬類的分值統(tǒng)計(jì)完畢后,即按分值進(jìn)行排序。還應(yīng)當(dāng)選定一個(gè)閾值,只有分值超過閾值的類才予考慮。測試文檔屬于超過閾值的所有類。形式化表示為:

        ■(1)

        其中,dj∈ci時(shí)y(dj,ci)=1;dj?埸c(diǎn)i時(shí)y(dj,ci) 。

        bi為閾值,Sim(d,dj)為文檔d和dj的相似度,score(d,ci)為測試文檔d屬于ci類的分值。一般的,bi是一個(gè)有待優(yōu)化的值可以通過一個(gè)驗(yàn)證文檔集來進(jìn)行調(diào)整。驗(yàn)證文檔集是訓(xùn)練文檔集的一部分,根據(jù)公式(1)可確定測試文檔的類別。很顯然,對于每一個(gè)測試文檔,必須求解其和訓(xùn)練文檔庫中所有文檔的相似度。因此, KNN方法的時(shí)間復(fù)雜度為o(|D|ni)。其中,|D|和ni分別為訓(xùn)練文檔總數(shù)和測試文檔總數(shù)。

        3.4.2 SVM

        支持向量機(jī)(Support Vector Machine,SVM)是在統(tǒng)計(jì)學(xué)習(xí)理的基礎(chǔ)上發(fā)展而來的一種機(jī)器學(xué)習(xí)方法, 該模型是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的方法,把原始數(shù)據(jù)集合壓縮為支持向量集合,其基本思想是構(gòu)造出一個(gè)超平面作為決策平面,使正負(fù)模式之間的空白為最大化。在解決小樣本、非線性及高維模式識(shí)別問題中SVM表現(xiàn)出了許多特有的優(yōu)勢, 并在很大領(lǐng)域得到了成功的應(yīng)用,如:人臉識(shí)別、手寫字體識(shí)別、文本分類等。其中,SVM在文本分類方面的表現(xiàn)尤為突出。

        SVM 的基本思想可用圖1的兩維情況進(jìn)行說明。圖1中,圓形實(shí)心點(diǎn)和菱形實(shí)心點(diǎn)代表2類樣本,H為分類線,H1,H2分別為過各類中離分類線最近的樣本且平行于分類線的直線,他們之間的距離叫做分類間隔。所謂最優(yōu)分類線就是要求分類線不但能將兩類正確分開(訓(xùn)練錯(cuò)誤率為0),而且使分類間隔最大。分類線方程為:

        x·w+b=0

        在此可以對他進(jìn)行歸一化,使得對線性可分的樣本集:

        (xi,yi),i=1,…,n,x∈R4,y∈{+1,-1}

        滿足:yi[(w.xi)+b]-1≥0 i=1,2,…n

        此時(shí)分類間隔等于2/‖w‖, 使間隔最大等價(jià)于使‖w‖2最小。滿足式且使間距為‖w‖/2的分類面就叫做最優(yōu)分類面, H1 , H2上的訓(xùn)練樣本點(diǎn)就稱作支持向量。

        基本的SVM是針對兩類分類問題的,為了實(shí)現(xiàn)對多個(gè)類別的識(shí)別,需要對SVM進(jìn)行擴(kuò)展。常用的SVM多類分類方法有One-vs-Res, One-vs-One,ECOC( Error Correcting Output Coding)、DAGSVM和二叉樹等方法。實(shí)驗(yàn)結(jié)果表明DAGSVM 方法要優(yōu)于其他2 種方法。Weston和Watkins[2]對SVM的理論進(jìn)行了擴(kuò)充,使其一次就可以完成多類分類,但是實(shí)驗(yàn)結(jié)果顯示其分類查準(zhǔn)率要低于One-vs-Rest 和One-vs-One方法。

        4 技術(shù)的發(fā)展趨勢與展望

        本文介紹了文本分類的研究背景,國內(nèi)外關(guān)于文本分類技術(shù)研究的最新動(dòng)態(tài),總結(jié)了近年來文本分類研究的關(guān)鍵技術(shù)。文本分類技術(shù)有著廣泛的應(yīng)用,逐漸趨于實(shí)用。

        但隨著自動(dòng)分類技術(shù)相關(guān)應(yīng)用的發(fā)展,及對其需求的不斷提升,文本分類技術(shù)仍有非常多的問題值得研究:可靠、有效及快速的在線分類;基于語義度量的數(shù)據(jù)模型和分類方法;緩解樣本標(biāo)注瓶頸以及樣本數(shù)據(jù)分布帶來的影響等。隨著數(shù)據(jù)挖掘領(lǐng)域和機(jī)器學(xué)習(xí)理論、技術(shù)研究的不斷深入, 針對解決不同實(shí)際應(yīng)用和數(shù)據(jù)特征的問題將成為文本分類相關(guān)研究,及其應(yīng)用的主要突破方向和攻克難點(diǎn)。

        參考文獻(xiàn):

        [1] 李榮陸.文本分類及相關(guān)技術(shù)研究[D].上海:復(fù)旦大學(xué),2005.

        [2] 李應(yīng)紅.慰詢楷. 劉建勛.支持向量機(jī)的工程應(yīng)用[M].北京:兵器工業(yè)出版社,2004.

        [3] 黃萱菁,吳立德,石崎洋之,等. 獨(dú)立于語種的文本分類方法[J].中文信息學(xué)報(bào),2000,14(6):1-7.

        [4] 周水庚,關(guān)佶紅,胡運(yùn)發(fā). 隱含語義索引及其在中文文本處理中的應(yīng)用研究[J].小型微型計(jì)算機(jī)系統(tǒng),2001,22(2):239-244.

        [5] 李榮陸,王建會(huì),陳曉云,胡運(yùn)發(fā)等. 使用最大熵模型進(jìn)行中文文本分類[J].計(jì)算機(jī)研究與發(fā)展.2005,42(1):94-101.

        [6] 張劍,李春平. 基于WordNet概念空間模型的文本分類[J].計(jì)算機(jī)工程與應(yīng)用.2006(4):174-178.

        [7] 朱靖波,陳文亮. 基于領(lǐng)域知識(shí)的文本分類[J].東北大學(xué)學(xué)報(bào),2005,26(8):733-736.

        畢靜,女,陜西漢中人,助理講師,工作于漢中市農(nóng)業(yè)干部學(xué)校,主要從事于計(jì)算機(jī)科學(xué)應(yīng)用的研究。

        亚洲国产成人片在线观看无码| 91美女片黄在线观看| 日本激情视频一区在线观看| 天堂av一区二区麻豆| 中文字幕一区二区三区的| 久久久老熟女一区二区三区| 国产精美视频| 女同中的p是什么意思| 亚洲av色香蕉一区二区三区软件| 日本视频一区二区三区在线观看 | 国产动作大片中文字幕| 好看的欧美熟妇www在线| 99精品成人片免费毛片无码| 黄色三级国产在线观看| 国产网站一区二区三区| 免费无码一区二区三区蜜桃大| 无码成人片一区二区三区| 亚洲精品女同在线观看| a黄片在线视频免费播放| 国产md视频一区二区三区| 思思99热精品免费观看| 性感人妻av在线播放| 一区二区三区人妻av| 日韩一卡2卡3卡4卡新区亚洲| 亚洲av无码成人yellow| 男女视频在线一区二区| 国产一区二区熟女精品免费| 内射口爆少妇麻豆| 国产黄a三级三级三级av在线看| 欧美片欧美日韩国产综合片| 成人麻豆视频免费观看| 国产特级毛片aaaaaa| 久久福利资源国产精品999| 女同舌吻互慰一区二区| 中文字幕人妻熟女人妻| 夜色阁亚洲一区二区三区| 日本高清不卡一区二区三区| 国产情侣自拍一区视频| 影音先锋每日av色资源站| 国产在线天堂av| 久久婷婷综合激情五月|