潘穎輝
摘要:隨著信息庫中的信息總量日漸龐雜,信息處理變得越來越困難,互聯(lián)網(wǎng)逐漸步入了大數(shù)據(jù)時代。大數(shù)據(jù)顧名思義,意味著互聯(lián)網(wǎng)使用者需要管理、分析和反饋日常生活中產(chǎn)生的大量數(shù)據(jù)。而機器學習算法對于數(shù)據(jù)收集,分析和集成非常有效。
關鍵詞:大數(shù)據(jù);機器學習;算法
中圖分類號:G642? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2020)32-0187-02
1 大數(shù)據(jù)的特點
大數(shù)據(jù)的特點最初由維克托和肯尼斯在二人編寫的《大數(shù)據(jù)時代》中提出,分別為volume(數(shù)據(jù)量大),velocity(輸入和處理速度快),variety(數(shù)據(jù)多樣性)和value(價值密度低),俗稱為“4V”特點,這種說法與歸納受到了大家的廣泛認同并在后續(xù)研究中被頻繁引用[1]。
2 傳統(tǒng)的機器學習相關理論
機器學習在近年來研究人工智能的技術中占據(jù)的地位和比重已經(jīng)越來越大,并發(fā)展成了一門涉及統(tǒng)計學、凸分析(Convex analysis)、概率性等多領域的交叉性學科[2]。
2.1 機器學習類型
機器學習的類型大致分為監(jiān)督學習、半監(jiān)督學習、無監(jiān)督學習、強化學習、自學習、異常檢測和機器人學習。
監(jiān)督學習是用一組現(xiàn)有的培訓數(shù)據(jù)樣本使被監(jiān)督的對象達到應有性能的學習過程,大多數(shù)是用于學習一個具體功能的機器學習任務。在監(jiān)督學習中,每組示范數(shù)據(jù)的例子都包括輸入對象和期望的輸出值。半監(jiān)督學習使用的訓練數(shù)據(jù)介于沒有任何標記的訓練數(shù)據(jù)和有完全標記的訓練數(shù)據(jù)之間。無監(jiān)督學習從輸入的未標記的一組數(shù)測試據(jù)中查找結構和學習,通常通過識別數(shù)據(jù)中的共性來判斷新數(shù)據(jù)中有無這種共性并做出反應,基于這種特點,無監(jiān)督學習通常被運用于統(tǒng)計和總結。強化學習是包括監(jiān)督學習和非監(jiān)督學習在內的三大機器學習范式之一。自學習是一種沒有外部反饋和監(jiān)督的學習,是有自學習能力的神經(jīng)網(wǎng)絡,被稱為Crossbar自適應陣列(CAA)。異常檢測是對于那些觀察結果與大多數(shù)數(shù)據(jù)結果不同的數(shù)據(jù)的懷疑和識別行為。機器人學習是機器學習算法在學習過程中自動生成的相當于“課程表”的學習經(jīng)驗序列表,通過計算機的自動探索和交互積累經(jīng)驗和獲取新技能[3]。
2.2 機器學習主要算法
機器學習中算法主要分為決策樹算法、SVM算法、樸素貝葉斯、Adaboost算法和K均值算法。
決策樹算法可用于直觀地表達決策和描述數(shù)據(jù),其中的主要算法是ID3算法和C4.5算法。二分迭代法器3(ID3)是C4.5算法的前提,其用處是在數(shù)據(jù)集里處理和生成決策樹。C4.5是ID3算法的擴展,C4.5由于其生成的決策樹可在分類部分使用常常被當作統(tǒng)計分類器[4]。
SVM算法,被稱為支持向量機或支持向量網(wǎng)絡,屬于監(jiān)督學習的機器學習算法。SVM算法在多維度空間中構建了一組超平面用于分類、預測以及其他工作。SVM分為線性和非線性兩種,若是線性的,可以用兩個平行的超平面分割兩種不同類別的數(shù)據(jù)來使兩者的間隔擴大;若是非線性分類,則每個點積都可以使用非線性核函數(shù)進行替代。
樸素貝葉斯是貝葉斯定理中較為簡單的概率分類器,是一種文本分類方法:把從有限集合中繪制的模型標簽定義于問題實例的數(shù)據(jù),表示為特征值的向量。這種訓練分類數(shù)據(jù)方法的算法不是單一的,只要有這一原理的算法都可以使用。
Adaboost算法的全稱是Adaptive Boosting,該算法更適合與其他的機器學習算法一并使用來提高計算機的學習能力。
K均值算法,此類算法最初來自信號處理,分區(qū)數(shù)據(jù)觀測到集群中,通過集群中心對數(shù)據(jù)進行建模從而找到可比較的空間范圍的數(shù)據(jù)集群,該算法是機器學習的重要基礎。
2.3 傳統(tǒng)的機器學習遇到的挑戰(zhàn)
傳統(tǒng)機器學習的問題在于,雖然算法看起來很復雜但缺乏智能性,仍需要大量專業(yè)知識和人為干預來處理大數(shù)據(jù)。大量應用功能需要計算機領域的專家來識別和操作,以便于降低大數(shù)據(jù)對于傳統(tǒng)機器學習的復雜性以及方便傳統(tǒng)機器學習算法生效。除此之外,傳統(tǒng)機器學習的學習處理過程也略顯拖沓,大大增加了處理信息所需的時間。
機器學習可以通過開發(fā)高效快速的算法和數(shù)據(jù)驅動模型來實時處理大數(shù)據(jù),從而產(chǎn)生準確的結果和分析,這是任何人工操作和其他傳統(tǒng)計算機操作面對大數(shù)據(jù)都無法達到的成果,因此在大數(shù)據(jù)背景下的機器學習是必要的。
3 大數(shù)據(jù)下的機器學習算法
3.1 大數(shù)據(jù)處理的基本策略
大數(shù)據(jù)處理機器學習的基本策略大致分為分治策略和大數(shù)據(jù)抽樣。
分治策略的原理是基于多分支遞歸的算法,其工作原理是將一個復雜的問題拆分成數(shù)個相同或相似的子問題,待子問題足夠簡單后將解決子問題的方法帶入最初的問題中加以解決。分治策略對于大數(shù)據(jù)處理的一個重要優(yōu)勢在于優(yōu)化,如果在處理數(shù)據(jù)的每一步將搜索空間減少進而整個算法的漸進復雜度與修剪步驟相同,取決于對幾何序數(shù)求和,這就是所謂的檢索功能[5]。
大數(shù)據(jù)抽樣在機器學習中更是相當重要的一部分,采樣偏差會影響機器學習算法構建的模型的性能,而在機器學習的培訓和學習階段,確保數(shù)據(jù)樣本反映建模的基礎分布非常關鍵。對于大數(shù)據(jù)的利用管理,采用適合的采樣技術所花費的成本比大數(shù)據(jù)整體更高效,減少抽樣偏差是重中之重。
3.2 大數(shù)據(jù)分類
大數(shù)據(jù)分類是依靠已知訓練數(shù)據(jù)集來確定新觀察值屬于子種群中的哪一個的度量方法。是機器學習算法的分類中監(jiān)督學習的一個典型標準實例,意為是人為控制相應的訓練數(shù)據(jù)集合和訓練結果的機器學習。大數(shù)據(jù)分類將數(shù)據(jù)劃分為各個類別并把劃分結果定義為數(shù)個可量化的屬性,且命名這些屬性為特征或是解釋變量。這些解釋變量既有可能是實際的值,也有可能是分類的類別、分類的等級和具體的整數(shù)等。一種算法對于分類產(chǎn)生的具體實現(xiàn),就是分類器把輸入的數(shù)據(jù)映射后的結果。大數(shù)據(jù)分析算法有非概率分類和概率分類兩種分類子類,但通用的算法是概率算法。這是由于概率算法對于大數(shù)據(jù)處理的優(yōu)勢在于其算法本質為產(chǎn)生的概率,意味著可以更加高效率地把概率分類器和更大的機器學習任務合并,以最大限度地避免錯誤傳播數(shù)據(jù)。
3.3 大數(shù)據(jù)回歸分析
回歸分析最常使用的形式是線性回歸,研究人員通常根據(jù)需求的數(shù)學標準來判斷最適合數(shù)據(jù)的線性組合。由于可以通過自變量給定的組值來估算出因變量的總體平均值,不同的回歸形式來估計替代位置參數(shù)或在更廣泛的非線性模型集合中估計條件期望的時候使用的過程也略有偏差?;貧w分析不僅可以在機器學習中用于預測,更可以用來推斷自變量與因變量之間的因果,揭示固定數(shù)據(jù)集中因變量和自變量集合之間的關系。為了方便將回歸用于進行預測還用于推斷因果關系兩者進行有效區(qū)分,研究者需要詳細描述現(xiàn)有的關系值是否對新情境具有預測能力,或者提出兩種變量之間的關系具有因果聯(lián)系的原因。在這一點上,提出因果聯(lián)系的原因對于當研究者希望使用觀測數(shù)據(jù)來估計因果關系時就顯得尤為重要。在處理數(shù)據(jù)的過程中,研究者根據(jù)其選擇的想要估計的模型來使用他們選擇的方法來估計該模型的參數(shù)。
3.4 大數(shù)據(jù)聚類
大數(shù)據(jù)聚類算法可以基于聚類算法的聚類模型對大數(shù)據(jù)進行分類。目前已經(jīng)有超過100種發(fā)布的聚類算法,因此研究中無法全部提供模型來對其進行詳細的分類。除非有數(shù)學上的原因證明比起該特定聚類模型更適合使用另一個聚類模型,研究者通常習慣使用通過實驗來選擇針對特定問題的最合適的聚類算法的方法,而且針對一種模型設計的算法通常會在包含完全不同的模型的數(shù)據(jù)集上失敗。分層聚類算法是一套聚類中比較核心且完整的方法,它們的區(qū)別在于計算距離的方式不同。除了通常選擇距離函數(shù)外,用戶還需要確定鏈接標準來加以使用。通用的選擇一般為單鏈接聚類,完整鏈接聚類和UPGMA或WPGMA。另外分層聚類可以被區(qū)分成是聚集性的或分散性的[6]。
3.5 大數(shù)據(jù)關聯(lián)規(guī)則
關聯(lián)規(guī)則學習是一種反饋大數(shù)據(jù)中變量之間的相互關系的機器學習方法,其特點在于使用特定的方法來識別數(shù)據(jù)庫里的規(guī)則和數(shù)據(jù)交互時的規(guī)律性,這種交互規(guī)律可用于信息的處理中。
關聯(lián)規(guī)則的優(yōu)點在于這種方法可以同時滿足用戶指定最小置信度和用戶指定最小支持兩種需求。每當計算機應用最低支持閾值來查找數(shù)據(jù)庫中的所有頻繁項目集后最低置信約束使用這些頻繁項目集來形成規(guī)則,隨后這兩個步驟就意味著關聯(lián)規(guī)則的生成。
目前已經(jīng)研究出了許多用于生成關聯(lián)規(guī)則的算法,比如Apriori算法、FP Growth算法和 Eclat算法。Apriori算法一般使用廣度優(yōu)先策略對于項目集合進行搜索和計數(shù),以此來用備選的生成函數(shù)進行向下封閉;FPGrowth算法首先對集中項目出現(xiàn)次數(shù)統(tǒng)計后將數(shù)據(jù)存儲在表內,以便于用這些數(shù)據(jù)創(chuàng)建接下來的樹狀結構。
但正是因為它們是用于挖掘頻繁項集的算法,因此通常只能完成一半的工作,當該關聯(lián)算法使用數(shù)據(jù)庫中的頻繁項目集生成規(guī)則了之后,就需要執(zhí)行另一個算法了。
3.6 大數(shù)據(jù)集成學習
相比于機器學習中的其他組成學習算法,集成方法由于可以用多種學習算法而擁有著更強的預測處理能力。機器學習中的集成算法一般由具體的替代模型群組構成,而這些替代模型群組中又有著更加靈活的結構,這是這種算法和傳統(tǒng)集成最大的不同。
在監(jiān)督學習算法中,集成算法同樣占據(jù)著優(yōu)勢,這種優(yōu)勢在于集成的特點使其擁有更多的數(shù)據(jù)假設集群,對比于其他的監(jiān)督學習算法更能生成優(yōu)良的假設結果。這種優(yōu)勢也意味著集成算法的預測數(shù)據(jù)集合需要的計算量更大,以此可以用這種大量計算的特點來彌補其他學習效果較差的算法,因此那些處理速度快的算法更容易與集成算法互相促進。
由于集成算法的訓練數(shù)據(jù)和用模型預測的能力明顯體現(xiàn)出其身為監(jiān)督學習特性的機器學習算法,因此雖然集成算法反饋單個假設為代表,但構建模型的假設空間內也許并不包含這種假設,這同樣體現(xiàn)了集成算法在這方面功能具有極大的靈活性,這使得集成算法在訓練數(shù)據(jù)時比單個模型要更占優(yōu)勢。
4 結論
針對大數(shù)據(jù)處理的聚類算法、選擇特征算法、回歸算法和關聯(lián)算法等方法,它們不僅在對于大數(shù)據(jù)的提取方面展現(xiàn)出了巨大的潛力,更是有利于最大效率上地利用大數(shù)據(jù)和表示大數(shù)據(jù)的分層。大數(shù)據(jù)也是促進這些機器算法不斷地訓練和進化的后盾,這種良性促進的關系讓人不禁想要探索未來的機器學習算法會取得的成就,那成就無疑是值得期待的。
參考文獻:
[1] 肖紅.大數(shù)據(jù)下的機器學習算法探討[J].通訊世界,2017(6):265-266.
[2] 李成錄.大數(shù)據(jù)背景下機器學習算法的綜述[J].信息記錄材料,2018,19(5):4-5.
[3] 陳學武,肖港.基于大數(shù)據(jù)技術的制造企業(yè)商業(yè)模式創(chuàng)新[J].經(jīng)貿(mào)實踐,2018(8):245-246.
[4] 孫凱.大數(shù)據(jù)背景下機器學習在數(shù)據(jù)挖掘中的應用淺析[J].科學技術創(chuàng)新,2018(18):82-83.
[5] 朱巍,陳慧慧,田思媛,等.人工智能:從科學夢到新藍海——人工智能產(chǎn)業(yè)發(fā)展分析及對策[J].科技進步與對策,2016,33(21):66-70.
[6] 張紹成,孫時光,曲洋,等.大數(shù)據(jù)環(huán)境下機器學習在數(shù)據(jù)挖掘中的應用研究[J].遼寧大學學報(自然科學版),2017,44(1):15-17.
【通聯(lián)編輯:代影】