周捷 朱建文
摘? 要: 機器學習是一門綜合性較強的學科,對該學科的研究多集中在分類問題和算法方面?;诖它c,文章從機器學習的內(nèi)涵及發(fā)展歷程介紹入手,分析了機器學習中的分類問題及學習步驟,在此基礎上對機器學習的算法分類進行論述。
關鍵詞: 機器學習;分類;算法
中圖分類號: TP181? ? 文獻標識碼: A? ? DOI:10.3969/j.issn.1003-6970.2019.07.040
【Abstract】: Machine learning is a comprehensive subject, and research of the subject mostly focuses on classification and algorithms. Based on the point, the paper introduces connotation and development of machine learning, analyses classification issues and learning steps in machine learning, and discusses algorithms classification on above basis.
【Key words】: Machine learning; Classification; Algorithm
0? 引言
近年來,隨著科技的不斷進步,使得人工智能技術得到快速發(fā)展,作為人工智能核心的機器學習也獲得業(yè)內(nèi)專家學者的廣泛關注,研究范圍進一步擴大,研究的重點以分類問題及相關的算法為主[1]。機器學習的分類精度、學習速度以及解答的正確性和質(zhì)量等方面,是評價其學習能力的關鍵指標[2]。鑒于此,下面重點對機器學習分類問題及算法展開探討。
1? 機器學習的內(nèi)涵及發(fā)展歷程
1.1? 內(nèi)涵
機器學習是人工智能的核心,是實現(xiàn)計算機智能化的重要途徑。近年來,隨著計算機網(wǎng)絡技術的快速發(fā)展,使得機器學習的內(nèi)涵變得越來越豐富,尤其是在人工智能的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)中,涉及了海量數(shù)據(jù),其中的數(shù)據(jù)形式呈現(xiàn)為多樣化的特點,如文本類、圖形圖像以及語音視頻等等,既有結構化數(shù)據(jù),也有半結構化數(shù)據(jù),多種學習方法并存,如分類、聚類、貝葉斯、決策樹以及遺傳算法等等。機器學習最為主要的任務就是獲得對輸入數(shù)據(jù)分類的能力,主要包括對不同概念的區(qū)分以及對文字信息的識別等等,同時,還需要獲得解決實際問題和行為控制的能力[3]。
1.2? 發(fā)展歷程
機器學習是人工智能領域研究的重點,其發(fā)展經(jīng)歷了四個階段,上個世紀50年代中期到60年代中期,是機器學習的第一階段,在該階段,業(yè)內(nèi)的專家學者對機器學習的研究熱情異常高漲,為機器學習的后續(xù)發(fā)展奠定了基礎;上個世紀60年代中期到70年代中期,是機器學習的第二個階段,在該階段機器學習的研究趨于平緩;從上個世紀70年代中期到80年代中期,機器學習進入了第三階段,這個階段是機器學習的復興時期;從1986年至今是機器學習發(fā)展的最新階段,進入該階段后機器學習正式成為邊緣學科,很多高校都開設了機器學習課程,與人工智能基礎問題的統(tǒng)一性觀點也在該階段逐步形成,如學習與問題求解的有機結合等。同時機器學習方法的應用領域逐步拓寬,有些成為可以流通的商品[4]。
2? 機器學習中的分類問題及學習步驟分析
2.1? 分類問題
對于機器學習而言,分類問題是基礎,很多應用均是從分類問題演變而來。機器學習能夠借助計算機在海量的數(shù)據(jù)當中,對數(shù)據(jù)的規(guī)律和模式進行學習,并在學習的過程中,對數(shù)據(jù)內(nèi)部潛在的、有利用價值的信息進行深入挖掘。機器學習的數(shù)據(jù)處理主要有兩種,一種是監(jiān)督學習,另一種是無監(jiān)督學習。
2.1.1? 監(jiān)督學習問題
所謂的監(jiān)督學習具體是指借助帶有標簽的數(shù)據(jù)地學習過程進行輔助,從而達到學習目標,通過實踐證明這種機器學習方式的效果較好。然而,由于學習中需要使用標簽數(shù)據(jù),致使學習成本較高。在該學習方式下,初始數(shù)據(jù)是不可或缺的要素,必須在學習前進行收集[5]。監(jiān)督學習最為突出的優(yōu)勢是可以使機器本身所具備的泛化能力得以充分發(fā)揮,由此便可使分類及回歸等問題得到有效解決。在該學習方式中,較為常用的算法有以下幾種:多層感知、神經(jīng)網(wǎng)絡以及邏輯回歸等等,整個訓練過程是以標注特征為核心展開的。通過監(jiān)督學習能夠使機器獲得合理劃分不同事物的能力,并且還能對規(guī)則以及規(guī)律數(shù)據(jù)等進行預測。該學習方式中的包含兩類問題,一類是分類問題,其特征是輸出變量處于離散狀態(tài);另一類是回歸問題,其特征為是輸出變量處于連續(xù)狀態(tài)。
2.1.2? 無監(jiān)督學習問題
無監(jiān)督學習是一種更加先進的學習方式,它是利用計算機本身所具備的自動化功能來完成學習過程,依托各種數(shù)據(jù),對知識的吸收過程進行完善,由于該學習方式的成本具有可控性的特點[6]。因此,學習中無需投入較大的資金,經(jīng)濟性較高。但從實踐情況上,這種機器學習方式的效率并不是很高。在該學習方式下,當樣本數(shù)據(jù)尚未進行標記時,機器通常不會進入訓練狀態(tài),其最為突出的優(yōu)勢在于機器能夠與人一樣,學習所需的知識,對于不需要的知識則會自動忽略,通過有選擇性的學習,可以使知識的獲取更具針對性。無監(jiān)督學習方式中較為常用的算法有以下幾種:深度置信網(wǎng)絡、自動編碼器等等,該學習方式在聚類問題的解決中應用較為廣泛。在無監(jiān)督學習問題中,數(shù)據(jù)本身并沒有標簽,學習過程主要是對數(shù)據(jù)中隱藏的結構進行分析,據(jù)此來發(fā)現(xiàn)是否有能夠被區(qū)分的群組。
2.2? 基本學習步驟