亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展

        2016-03-27 18:14:32孫逸菲
        移動(dòng)信息 2016年11期
        關(guān)鍵詞:研究進(jìn)展機(jī)器概念

        孫逸菲

        ?

        基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展

        孫逸菲

        沈陽化工大學(xué)信息工程學(xué)院,遼寧 沈陽 110142

        信息化時(shí)代信息容量出現(xiàn)爆發(fā)性增長的趨勢(shì),信息量的增加在豐富人們生活的同時(shí)也會(huì)造成一定麻煩,為了實(shí)現(xiàn)科學(xué)高效工作就需要對(duì)海量信息進(jìn)行有效管理。文本分類就是這樣一種技術(shù),這種技術(shù)能夠幫助人們迅速獲取準(zhǔn)確信息。同傳統(tǒng)的文本分類技術(shù)相比,基于機(jī)器學(xué)習(xí)的文本分類方式應(yīng)用更為廣泛,效果也更為明顯。這項(xiàng)技術(shù)所發(fā)揮的作用也越來越重要,正因?yàn)槿绱司托枰獙?duì)基于機(jī)器學(xué)習(xí)的文本分類技術(shù)進(jìn)行深入分析。從文本分類概念入手重點(diǎn)分析了當(dāng)前的研究進(jìn)展。

        文本分類;機(jī)器學(xué)習(xí);計(jì)算機(jī)

        在經(jīng)濟(jì)社會(huì)快速發(fā)展的背景下,網(wǎng)絡(luò)信息急劇增長,文本形式的信息更是呈現(xiàn)出了爆炸性增長趨勢(shì)。在這樣的背景下為了有效提升信息管理效率就要利用更為高效地文本分類技術(shù)?;跈C(jī)器學(xué)習(xí)的文本分類技術(shù)已經(jīng)成為近些年來人們普遍采用的一種方式,這樣一種方式的應(yīng)用能夠起到非常重要的現(xiàn)實(shí)意義。

        1 文本分類概念

        文本是當(dāng)前語言應(yīng)用的主要形態(tài),所謂文本分類實(shí)際上就是要在既定分類體系下來根據(jù)文本內(nèi)容或者是屬性把文本劃分為一個(gè)或者多個(gè)預(yù)先定義的類別當(dāng)中。如果從數(shù)學(xué)角度來看文本分類實(shí)際上就是一個(gè)映射過程,這個(gè)映射過程既可以是一一映射,又可以是一對(duì)多映射。[1]

        文本分類是一項(xiàng)非常專業(yè)地工作,這項(xiàng)工作的進(jìn)行是包含多個(gè)環(huán)節(jié)的,文本預(yù)處理、文本表示、特征提取、分類器選擇訓(xùn)練、分類結(jié)果評(píng)價(jià)及反饋就是其中主要環(huán)節(jié)。文本預(yù)處理就是要把原始語了格式化成規(guī)范格式,文本模型實(shí)際上就是要把文本分解成基本處理單元;特征處理就是要總結(jié)出特征,然后進(jìn)行科學(xué)分類,最后就是要對(duì)分類效果進(jìn)行科學(xué)評(píng)價(jià)。

        2 機(jī)器學(xué)習(xí)思想

        當(dāng)前對(duì)于機(jī)器學(xué)習(xí)還沒有統(tǒng)一定義,對(duì)于這一概念也很難作出一個(gè)公正的定義。從當(dāng)前實(shí)際研究情況來看人們通常把利用計(jì)算機(jī)來模擬人類學(xué)習(xí)活動(dòng)看作是機(jī)器學(xué)習(xí),通過機(jī)器學(xué)習(xí)最終目的是為了能夠獲得新技能和新知識(shí)。多數(shù)情況下所謂機(jī)器學(xué)習(xí)主要指的是計(jì)算機(jī)學(xué)習(xí)。這一概念誕生以來人們就開始探索如何利用機(jī)器學(xué)習(xí)能夠更緊密地貼近人類學(xué)習(xí),能夠讓計(jì)算機(jī)掌握人類智能。在這方面人們對(duì)此是取得了不小成果的。[2]

        自20世紀(jì)50年代以來,人們對(duì)此研究正式開始。無知學(xué)習(xí)是50年代到60年代機(jī)器學(xué)習(xí)研究的階段,在這一階段的主要目標(biāo)就是為了能夠研究出各類自組織系統(tǒng)及自適應(yīng)系統(tǒng)。在實(shí)際研究過程中為了提升系統(tǒng)執(zhí)行力,人們也對(duì)系統(tǒng)控制參數(shù)進(jìn)行不斷改進(jìn)。盡管如此機(jī)器學(xué)習(xí)還是難以滿足人們需求。

        第二階段是從60年代中葉到70年代中葉。研究目標(biāo)是模擬人類的概念學(xué)習(xí)過程,并采用邏輯結(jié)構(gòu)或圖結(jié)構(gòu)作為機(jī)器內(nèi)部描述。機(jī)器能夠采用符號(hào)來描述概念(符號(hào)概念獲?。?,并提出關(guān)于學(xué)習(xí)概念的各種假設(shè)。這種學(xué)習(xí)系統(tǒng)取得了較大的成功,但只能學(xué)習(xí)單一概念。

        第三階段是從70年代中葉到80年代中葉。在這個(gè)時(shí)期,人們從學(xué)習(xí)單個(gè)概念擴(kuò)展到學(xué)習(xí)多個(gè)概念,搜索不同的學(xué)習(xí)策略和各種學(xué)習(xí)方法。機(jī)器的學(xué)習(xí)過程一般都建立在大規(guī)模的知識(shí)庫上,實(shí)現(xiàn)知識(shí)強(qiáng)化學(xué)習(xí)。尤其令人鼓舞的是,該階段已開始把學(xué)習(xí)系統(tǒng)與各種應(yīng)用結(jié)合起來,并取得了很大的成功,促進(jìn)了機(jī)器學(xué)習(xí)的發(fā)展。1980年,在美國CMU大學(xué)召開的第一屆機(jī)器學(xué)習(xí)國際研討會(huì),標(biāo)志著機(jī)器學(xué)習(xí)研究已經(jīng)在全世界興起。[3]

        到了80年代中葉,人們對(duì)機(jī)器學(xué)習(xí)的研究開始越來越深入,診斷分類專家系統(tǒng)、聲圖文識(shí)別系統(tǒng)、工程控制等技術(shù)也得到了廣泛應(yīng)用。這些技術(shù)的應(yīng)用使得機(jī)器學(xué)習(xí)所發(fā)揮的影響越來越大。

        3 研究進(jìn)展和現(xiàn)狀

        在了解基本概念之后本文將重點(diǎn)探討基于機(jī)器學(xué)習(xí)的文本分類方法的研究進(jìn)展,通過對(duì)研究進(jìn)展的梳理能夠使人們對(duì)此能夠有更加深刻地認(rèn)識(shí)。

        (1)研究進(jìn)展。20世紀(jì)50年代末人們開始對(duì)自動(dòng)分類進(jìn)行研究,美國IBM公司在這一領(lǐng)域更是起到了先驅(qū)作用,詞頻統(tǒng)計(jì)思想的提出和應(yīng)用就是IBM的重大貢獻(xiàn)。1964年Maron則是提出了關(guān)于自動(dòng)分類的論文。進(jìn)入60年代文本分類從原來的基于知識(shí)途徑正式發(fā)展到了基于機(jī)器學(xué)習(xí)的階段。在實(shí)際發(fā)展過程中基于機(jī)器學(xué)習(xí)的文本分類方法取得了豐碩成果,到了90年代正式取代了知識(shí)工程方法。從理論研究到正式應(yīng)用,基于機(jī)器學(xué)習(xí)的文本分類法經(jīng)過了多年發(fā)展,直到1975年以后這種方法才得以正式應(yīng)用,其作用也才得以充分發(fā)揮。[4]

        從國內(nèi)研究情況來看,國內(nèi)對(duì)于基于機(jī)器學(xué)習(xí)的文本分類方法的研究最早開始于20世紀(jì)80年代,候漢清教授是國內(nèi)第一位對(duì)自動(dòng)分類進(jìn)行研究的學(xué)者,在實(shí)際研究過程中對(duì)國外計(jì)算機(jī)管理分類表等方面的內(nèi)容進(jìn)行了詳細(xì)介紹。當(dāng)時(shí)國內(nèi)文本分類研究的方法也是非常單一的,在分類過程中主要是在英文文本分類基礎(chǔ)上來結(jié)合中文文本自身特點(diǎn)從而來采取相應(yīng)措施。在經(jīng)過多年發(fā)展滯后,當(dāng)前我國已經(jīng)出現(xiàn)了一批自動(dòng)分類系統(tǒng),目前國內(nèi)的自動(dòng)分類系統(tǒng)主要是分為基于詞典法的自動(dòng)分類系統(tǒng)和基于專家系統(tǒng)的自動(dòng)分類系統(tǒng)。總的來看當(dāng)前我國基于機(jī)器學(xué)習(xí)的文本分類方法同外國相比還是有明顯差距的,要想實(shí)現(xiàn)更為科學(xué)廣泛地應(yīng)用,今后工作中還需要不斷加強(qiáng)研究。這樣才能夠滿足需要。

        (2)研究現(xiàn)狀。當(dāng)前針對(duì)基于機(jī)器學(xué)習(xí)的文本分類方法的研究是取得了不少進(jìn)展的,同時(shí)也應(yīng)該看到,在實(shí)際研究過程中也還存在著不少問題,具體而言存在以下問題:

        缺少統(tǒng)一的中文語料庫。至今尚無標(biāo)準(zhǔn)的用于文本分類的中文語料庫,各個(gè)研究者分頭收集自己的訓(xùn)練文本集,并在此基礎(chǔ)上開展研究。因此語料庫基本上都是針對(duì)自己的系統(tǒng)而規(guī)劃的,不具有普遍性。

        特征向量形成方法有待改進(jìn)。特征向量的形成包括特征提取和權(quán)重確定兩個(gè)方面,是文本分類中十分重要的一個(gè)環(huán)節(jié),對(duì)文本分類正確率有著決定性的影響。在目前適用的方法中,普遍采取與詞頻和倒文檔頻率相關(guān)函數(shù)確定權(quán)重的方法,文本中很多其他的信息沒有用上,造成了特征詞權(quán)重的片面性。

        分類方法的準(zhǔn)確度。目前文本分類方法主要以機(jī)器學(xué)習(xí)方法為主,取得了較好的效果。但單一的分類方法往往在保證分類準(zhǔn)確度和高效率之間難以取得平衡,實(shí)際需要建立一個(gè)即能保證分類準(zhǔn)確度又能取得高效率的文本分類系統(tǒng)。

        基于機(jī)器學(xué)習(xí)的文本分類方法是一種非常典型地方法,這種方法在實(shí)際工作中的應(yīng)用對(duì)于提升信息管理效率具有非常重要的意義。為了能夠滿足實(shí)際需要,今后對(duì)于這種方法就必須要加強(qiáng)研究才能夠滿足實(shí)際需要。本文結(jié)合文本分析和機(jī)器學(xué)習(xí)的概念對(duì)基于機(jī)器學(xué)習(xí)的文本分類的研究進(jìn)展進(jìn)行了重點(diǎn)分析,通過詳細(xì)分析可以發(fā)現(xiàn)當(dāng)前的研究雖然取得了一定成果,但同時(shí)也應(yīng)該看到也還存在著不少問題。對(duì)于這些問題今后應(yīng)該展開深入研究,探討針對(duì)性對(duì)策。

        [1]李道國,苗奪謙,俞冰.決策樹剪枝算法的研究與改進(jìn)[J].計(jì)算機(jī)工程,2005,31(8):19-21.

        [2]張?jiān)茲?,龔?數(shù)據(jù)挖掘原理與技術(shù)[M].北京:電子工業(yè)出版社,2003.

        [3]楊善林,倪志偉.機(jī)器學(xué)習(xí)與智能決策支持系統(tǒng)[M].北京:科學(xué)出版社,2004.

        [4]楊學(xué)兵,張俊.決策樹算法及其核心技術(shù)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007,17(1):43-45.

        Research progress of text categorization technology based on machine learning

        Sun Yifei

        School of Information Engineering,Shenyang University of Chemical Engineering,Liaoning Shenyang 110142

        The information age information capacity of explosive growth trend,the increase in the amount of information in the rich people's life but also caused some trouble,in order to realize the scientific and efficient work required to effectively manage the mass information. Text classification is such a technique that can help people quickly get accurate information. Compared with the traditional text classification,text classification based on machine learning is more widely used,and the effect is more obvious. This technology is playing a more and more important role,and it is necessary to conduct in-depth analysis of the text classification technology based on machine learning. This article will start with the concept of text categorization to analyze the current research progress.

        text classification;machine learning;computer

        TP181

        A

        1009-6434(2016)11-0144-02

        猜你喜歡
        研究進(jìn)展機(jī)器概念
        機(jī)器狗
        Birdie Cup Coffee豐盛里概念店
        機(jī)器狗
        MiRNA-145在消化系統(tǒng)惡性腫瘤中的研究進(jìn)展
        幾樣概念店
        離子束拋光研究進(jìn)展
        學(xué)習(xí)集合概念『四步走』
        未來機(jī)器城
        電影(2018年8期)2018-09-21 08:00:06
        獨(dú)腳金的研究進(jìn)展
        中成藥(2017年9期)2017-12-19 13:34:44
        聚焦集合的概念及應(yīng)用
        亚洲午夜av久久久精品影院色戒| 人妖熟女少妇人妖少妇| 美利坚亚洲天堂日韩精品| 麻豆资源在线观看视频| 野花社区视频在线观看| 欧美亚洲日本国产综合在线美利坚| 国产内射999视频一区| 日韩欧美在线观看成人| 美女狂喷白浆网站视频在线观看| 高黄暴h日本在线观看| 性一交一乱一透一a级| 91爱爱视频| 日本一区二区偷拍视频| 黑人大群体交免费视频| 午夜男女爽爽爽在线视频| 国产黄色片在线观看| 国内精品国产三级国产av另类| 国产精品天堂在线观看| 色综合久久网| 婷婷色中文字幕综合在线| 国产精品一区2区三区| 亚洲国产成人va在线观看天堂| 人妻无码一区二区三区| 亚洲成a人片在线观看无码| 亚洲AV无码一区二区三区少妇av| 亚洲天堂一二三四区在线| 国产成人精品无码免费看| 18分钟处破好疼哭视频在线观看| 999精品免费视频观看| 亚洲码专区亚洲码专区| 国产亚洲成av人片在线观黄桃| 国产性猛交╳xxx乱大交| 国产熟女av一区二区三区四季| 激情五月我也去也色婷婷| 激情综合色综合啪啪五月丁香| 国产精品-区区久久久狼| 中文字幕偷拍亚洲九色| 国产精品高潮呻吟av久久黄| 国产成人aaaaa级毛片| 久久精品人成免费| 日本激情视频一区在线观看|