亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展

        2016-03-27 18:14:32孫逸菲
        移動信息 2016年11期
        關(guān)鍵詞:研究進(jìn)展機器概念

        孫逸菲

        ?

        基于機器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展

        孫逸菲

        沈陽化工大學(xué)信息工程學(xué)院,遼寧 沈陽 110142

        信息化時代信息容量出現(xiàn)爆發(fā)性增長的趨勢,信息量的增加在豐富人們生活的同時也會造成一定麻煩,為了實現(xiàn)科學(xué)高效工作就需要對海量信息進(jìn)行有效管理。文本分類就是這樣一種技術(shù),這種技術(shù)能夠幫助人們迅速獲取準(zhǔn)確信息。同傳統(tǒng)的文本分類技術(shù)相比,基于機器學(xué)習(xí)的文本分類方式應(yīng)用更為廣泛,效果也更為明顯。這項技術(shù)所發(fā)揮的作用也越來越重要,正因為如此就需要對基于機器學(xué)習(xí)的文本分類技術(shù)進(jìn)行深入分析。從文本分類概念入手重點分析了當(dāng)前的研究進(jìn)展。

        文本分類;機器學(xué)習(xí);計算機

        在經(jīng)濟社會快速發(fā)展的背景下,網(wǎng)絡(luò)信息急劇增長,文本形式的信息更是呈現(xiàn)出了爆炸性增長趨勢。在這樣的背景下為了有效提升信息管理效率就要利用更為高效地文本分類技術(shù)。基于機器學(xué)習(xí)的文本分類技術(shù)已經(jīng)成為近些年來人們普遍采用的一種方式,這樣一種方式的應(yīng)用能夠起到非常重要的現(xiàn)實意義。

        1 文本分類概念

        文本是當(dāng)前語言應(yīng)用的主要形態(tài),所謂文本分類實際上就是要在既定分類體系下來根據(jù)文本內(nèi)容或者是屬性把文本劃分為一個或者多個預(yù)先定義的類別當(dāng)中。如果從數(shù)學(xué)角度來看文本分類實際上就是一個映射過程,這個映射過程既可以是一一映射,又可以是一對多映射。[1]

        文本分類是一項非常專業(yè)地工作,這項工作的進(jìn)行是包含多個環(huán)節(jié)的,文本預(yù)處理、文本表示、特征提取、分類器選擇訓(xùn)練、分類結(jié)果評價及反饋就是其中主要環(huán)節(jié)。文本預(yù)處理就是要把原始語了格式化成規(guī)范格式,文本模型實際上就是要把文本分解成基本處理單元;特征處理就是要總結(jié)出特征,然后進(jìn)行科學(xué)分類,最后就是要對分類效果進(jìn)行科學(xué)評價。

        2 機器學(xué)習(xí)思想

        當(dāng)前對于機器學(xué)習(xí)還沒有統(tǒng)一定義,對于這一概念也很難作出一個公正的定義。從當(dāng)前實際研究情況來看人們通常把利用計算機來模擬人類學(xué)習(xí)活動看作是機器學(xué)習(xí),通過機器學(xué)習(xí)最終目的是為了能夠獲得新技能和新知識。多數(shù)情況下所謂機器學(xué)習(xí)主要指的是計算機學(xué)習(xí)。這一概念誕生以來人們就開始探索如何利用機器學(xué)習(xí)能夠更緊密地貼近人類學(xué)習(xí),能夠讓計算機掌握人類智能。在這方面人們對此是取得了不小成果的。[2]

        自20世紀(jì)50年代以來,人們對此研究正式開始。無知學(xué)習(xí)是50年代到60年代機器學(xué)習(xí)研究的階段,在這一階段的主要目標(biāo)就是為了能夠研究出各類自組織系統(tǒng)及自適應(yīng)系統(tǒng)。在實際研究過程中為了提升系統(tǒng)執(zhí)行力,人們也對系統(tǒng)控制參數(shù)進(jìn)行不斷改進(jìn)。盡管如此機器學(xué)習(xí)還是難以滿足人們需求。

        第二階段是從60年代中葉到70年代中葉。研究目標(biāo)是模擬人類的概念學(xué)習(xí)過程,并采用邏輯結(jié)構(gòu)或圖結(jié)構(gòu)作為機器內(nèi)部描述。機器能夠采用符號來描述概念(符號概念獲?。?,并提出關(guān)于學(xué)習(xí)概念的各種假設(shè)。這種學(xué)習(xí)系統(tǒng)取得了較大的成功,但只能學(xué)習(xí)單一概念。

        第三階段是從70年代中葉到80年代中葉。在這個時期,人們從學(xué)習(xí)單個概念擴展到學(xué)習(xí)多個概念,搜索不同的學(xué)習(xí)策略和各種學(xué)習(xí)方法。機器的學(xué)習(xí)過程一般都建立在大規(guī)模的知識庫上,實現(xiàn)知識強化學(xué)習(xí)。尤其令人鼓舞的是,該階段已開始把學(xué)習(xí)系統(tǒng)與各種應(yīng)用結(jié)合起來,并取得了很大的成功,促進(jìn)了機器學(xué)習(xí)的發(fā)展。1980年,在美國CMU大學(xué)召開的第一屆機器學(xué)習(xí)國際研討會,標(biāo)志著機器學(xué)習(xí)研究已經(jīng)在全世界興起。[3]

        到了80年代中葉,人們對機器學(xué)習(xí)的研究開始越來越深入,診斷分類專家系統(tǒng)、聲圖文識別系統(tǒng)、工程控制等技術(shù)也得到了廣泛應(yīng)用。這些技術(shù)的應(yīng)用使得機器學(xué)習(xí)所發(fā)揮的影響越來越大。

        3 研究進(jìn)展和現(xiàn)狀

        在了解基本概念之后本文將重點探討基于機器學(xué)習(xí)的文本分類方法的研究進(jìn)展,通過對研究進(jìn)展的梳理能夠使人們對此能夠有更加深刻地認(rèn)識。

        (1)研究進(jìn)展。20世紀(jì)50年代末人們開始對自動分類進(jìn)行研究,美國IBM公司在這一領(lǐng)域更是起到了先驅(qū)作用,詞頻統(tǒng)計思想的提出和應(yīng)用就是IBM的重大貢獻(xiàn)。1964年Maron則是提出了關(guān)于自動分類的論文。進(jìn)入60年代文本分類從原來的基于知識途徑正式發(fā)展到了基于機器學(xué)習(xí)的階段。在實際發(fā)展過程中基于機器學(xué)習(xí)的文本分類方法取得了豐碩成果,到了90年代正式取代了知識工程方法。從理論研究到正式應(yīng)用,基于機器學(xué)習(xí)的文本分類法經(jīng)過了多年發(fā)展,直到1975年以后這種方法才得以正式應(yīng)用,其作用也才得以充分發(fā)揮。[4]

        從國內(nèi)研究情況來看,國內(nèi)對于基于機器學(xué)習(xí)的文本分類方法的研究最早開始于20世紀(jì)80年代,候漢清教授是國內(nèi)第一位對自動分類進(jìn)行研究的學(xué)者,在實際研究過程中對國外計算機管理分類表等方面的內(nèi)容進(jìn)行了詳細(xì)介紹。當(dāng)時國內(nèi)文本分類研究的方法也是非常單一的,在分類過程中主要是在英文文本分類基礎(chǔ)上來結(jié)合中文文本自身特點從而來采取相應(yīng)措施。在經(jīng)過多年發(fā)展滯后,當(dāng)前我國已經(jīng)出現(xiàn)了一批自動分類系統(tǒng),目前國內(nèi)的自動分類系統(tǒng)主要是分為基于詞典法的自動分類系統(tǒng)和基于專家系統(tǒng)的自動分類系統(tǒng)??偟膩砜串?dāng)前我國基于機器學(xué)習(xí)的文本分類方法同外國相比還是有明顯差距的,要想實現(xiàn)更為科學(xué)廣泛地應(yīng)用,今后工作中還需要不斷加強研究。這樣才能夠滿足需要。

        (2)研究現(xiàn)狀。當(dāng)前針對基于機器學(xué)習(xí)的文本分類方法的研究是取得了不少進(jìn)展的,同時也應(yīng)該看到,在實際研究過程中也還存在著不少問題,具體而言存在以下問題:

        缺少統(tǒng)一的中文語料庫。至今尚無標(biāo)準(zhǔn)的用于文本分類的中文語料庫,各個研究者分頭收集自己的訓(xùn)練文本集,并在此基礎(chǔ)上開展研究。因此語料庫基本上都是針對自己的系統(tǒng)而規(guī)劃的,不具有普遍性。

        特征向量形成方法有待改進(jìn)。特征向量的形成包括特征提取和權(quán)重確定兩個方面,是文本分類中十分重要的一個環(huán)節(jié),對文本分類正確率有著決定性的影響。在目前適用的方法中,普遍采取與詞頻和倒文檔頻率相關(guān)函數(shù)確定權(quán)重的方法,文本中很多其他的信息沒有用上,造成了特征詞權(quán)重的片面性。

        分類方法的準(zhǔn)確度。目前文本分類方法主要以機器學(xué)習(xí)方法為主,取得了較好的效果。但單一的分類方法往往在保證分類準(zhǔn)確度和高效率之間難以取得平衡,實際需要建立一個即能保證分類準(zhǔn)確度又能取得高效率的文本分類系統(tǒng)。

        基于機器學(xué)習(xí)的文本分類方法是一種非常典型地方法,這種方法在實際工作中的應(yīng)用對于提升信息管理效率具有非常重要的意義。為了能夠滿足實際需要,今后對于這種方法就必須要加強研究才能夠滿足實際需要。本文結(jié)合文本分析和機器學(xué)習(xí)的概念對基于機器學(xué)習(xí)的文本分類的研究進(jìn)展進(jìn)行了重點分析,通過詳細(xì)分析可以發(fā)現(xiàn)當(dāng)前的研究雖然取得了一定成果,但同時也應(yīng)該看到也還存在著不少問題。對于這些問題今后應(yīng)該展開深入研究,探討針對性對策。

        [1]李道國,苗奪謙,俞冰.決策樹剪枝算法的研究與改進(jìn)[J].計算機工程,2005,31(8):19-21.

        [2]張云濤,龔玲.數(shù)據(jù)挖掘原理與技術(shù)[M].北京:電子工業(yè)出版社,2003.

        [3]楊善林,倪志偉.機器學(xué)習(xí)與智能決策支持系統(tǒng)[M].北京:科學(xué)出版社,2004.

        [4]楊學(xué)兵,張俊.決策樹算法及其核心技術(shù)[J].計算機技術(shù)與發(fā)展,2007,17(1):43-45.

        Research progress of text categorization technology based on machine learning

        Sun Yifei

        School of Information Engineering,Shenyang University of Chemical Engineering,Liaoning Shenyang 110142

        The information age information capacity of explosive growth trend,the increase in the amount of information in the rich people's life but also caused some trouble,in order to realize the scientific and efficient work required to effectively manage the mass information. Text classification is such a technique that can help people quickly get accurate information. Compared with the traditional text classification,text classification based on machine learning is more widely used,and the effect is more obvious. This technology is playing a more and more important role,and it is necessary to conduct in-depth analysis of the text classification technology based on machine learning. This article will start with the concept of text categorization to analyze the current research progress.

        text classification;machine learning;computer

        TP181

        A

        1009-6434(2016)11-0144-02

        猜你喜歡
        研究進(jìn)展機器概念
        機器狗
        Birdie Cup Coffee豐盛里概念店
        機器狗
        MiRNA-145在消化系統(tǒng)惡性腫瘤中的研究進(jìn)展
        幾樣概念店
        離子束拋光研究進(jìn)展
        學(xué)習(xí)集合概念『四步走』
        未來機器城
        電影(2018年8期)2018-09-21 08:00:06
        獨腳金的研究進(jìn)展
        中成藥(2017年9期)2017-12-19 13:34:44
        聚焦集合的概念及應(yīng)用
        日本久久精品国产精品| 亚洲人成绝费网站色www| 国产亚洲精品bt天堂| 亚洲国产一区二区三区,| 少妇被爽到高潮喷水免费福利| 国内免费高清在线观看| 秋霞鲁丝片av无码| 日韩在线不卡一区在线观看| 中文字幕亚洲高清精品一区在线| 精品亚洲a∨无码一区二区三区| 国产影片中文字幕| 亚洲另类激情专区小说婷婷久| 免费人成网站在线观看| 免费无码专区毛片高潮喷水 | 国内a∨免费播放| 免费一级国产大片| 久久综合亚洲鲁鲁五月天| 精品久久久bbbb人妻| 国产av无码专区亚洲av手机麻豆| 亚洲啪啪AⅤ一区二区三区| 久久综合久久综合久久| 少妇内射兰兰久久| 国产日韩在线播放观看| 偷柏自拍亚洲综合在线| 国产一区二区黄色录像| 亚洲aⅴ天堂av天堂无码麻豆| 久久精品成人免费观看97| 99久久婷婷亚洲综合国产| 日本丰满熟妇videossex一| 日韩无码无播放器视频| 亚洲高清国产拍精品熟女| 色哟哟亚洲色精一区二区| 99久久精品费精品国产一区二区| 中文字幕久久精品波多野结百度 | 四季极品偷拍一区二区三区视频 | 把女的下面扒开添视频| 国产精品亚洲五月天高清| av天堂手机在线免费| 国产精品偷窥熟女精品视频| 久久精品无码免费不卡| 涩涩国产在线不卡无码|