,
(亳州職業(yè)技術(shù)學(xué)院信息工程系,安徽 亳州 236800)
目前萬維網(wǎng)具有超過萬億的統(tǒng)一資源定位符(URL),cebook 有 10 億節(jié)點(diǎn)和千億連邊,大腦神經(jīng)元網(wǎng)絡(luò)有數(shù)百億節(jié)點(diǎn),中國三大運(yùn)營商的手機(jī)通訊網(wǎng)絡(luò)無一不擁有數(shù)億用戶。如何處理超大規(guī)模的網(wǎng)絡(luò)數(shù)據(jù),已經(jīng)成為學(xué)術(shù)界急需解決的關(guān)鍵科學(xué)問題。
傳統(tǒng)的數(shù)據(jù)分析方法,主要是根據(jù)以前的經(jīng)驗(yàn),先設(shè)計(jì)出人工模型,然后根據(jù)設(shè)計(jì)出的模型對數(shù)據(jù)進(jìn)行分析,這種方式在以前是還是有效的,處理一些結(jié)構(gòu)性強(qiáng)、數(shù)據(jù)量小的信息,但是在大數(shù)據(jù)的時(shí)代下,在使用這種方式,就會(huì)出現(xiàn)很多弊端,已經(jīng)不能適應(yīng)現(xiàn)代大數(shù)據(jù)的發(fā)展了[1]。另外,現(xiàn)在占據(jù)大數(shù)據(jù)時(shí)代的主要是一些非結(jié)構(gòu)性數(shù)據(jù),出現(xiàn)的模式也是不一樣的,無法再根據(jù)之前的經(jīng)驗(yàn)進(jìn)行分析,再想要建立人工模型,是十分困難的,這就需要再研究相關(guān)數(shù)據(jù)挖掘技術(shù),所以,神經(jīng)網(wǎng)絡(luò)分析方法就應(yīng)運(yùn)而生了,它能夠從復(fù)雜、深量的數(shù)據(jù)中提取有用的信息,這就是現(xiàn)代的大數(shù)據(jù)分析方法。
神經(jīng)網(wǎng)絡(luò)方法主要是以深度學(xué)習(xí)為主要特點(diǎn),以數(shù)據(jù)驅(qū)動(dòng)、數(shù)據(jù)自動(dòng)檢索來提取其中的數(shù)據(jù)信息,尤其是在非結(jié)構(gòu)化、模型不明且多變、跨領(lǐng)域的大數(shù)據(jù)上更具有顯著優(yōu)勢,復(fù)值BP神經(jīng)網(wǎng)絡(luò)方法主要是通過在內(nèi)部構(gòu)建許多隱形的機(jī)器模型和大量的數(shù)據(jù)分析訓(xùn)練,從而得出準(zhǔn)確的數(shù)據(jù)信息,隨著大數(shù)據(jù)時(shí)代的不斷深入,大數(shù)據(jù)所含有的信息量也十分豐富,只有想神經(jīng)網(wǎng)絡(luò)這種更加復(fù)雜、更有表達(dá)能力的模型,才能夠挖掘出其中的內(nèi)在信息。
在數(shù)據(jù)系統(tǒng)中,大數(shù)據(jù)主要是經(jīng)過了五個(gè)重要環(huán)節(jié),數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)存儲(chǔ)和管理、計(jì)算機(jī)管理、數(shù)據(jù)分析和知識(shí)再現(xiàn)五個(gè)重要環(huán)節(jié),數(shù)據(jù)分析階段占據(jù)核心地位,主要是體系在3V方面,從體量巨大、增長迅速和類型多樣三個(gè)方面來進(jìn)行分析,得出規(guī)律和結(jié)論,只有通過進(jìn)行數(shù)據(jù)分析才能夠挖掘大數(shù)據(jù)中更有深度、更有價(jià)值的信息,得到大數(shù)據(jù)的第四個(gè)特性—價(jià)值,所以說數(shù)據(jù)分析在大數(shù)據(jù)時(shí)代顯得尤為重要,是從數(shù)據(jù)轉(zhuǎn)化為信息的重要一環(huán)[2]。
大數(shù)據(jù)的4V特性對于大數(shù)據(jù)分析也是一個(gè)重大挑戰(zhàn),現(xiàn)在全球每年的數(shù)據(jù)增長速度基本上都是去年的兩倍左右,相當(dāng)于美國國會(huì)圖書館大約2500萬個(gè),對這樣龐大的數(shù)據(jù)分析是十分苦難的,從每個(gè)人手中的智能手機(jī)到顯示器上的傳感設(shè)備等,都無時(shí)無刻不再發(fā)生著復(fù)雜的結(jié)構(gòu)性或者非結(jié)構(gòu)性的數(shù)據(jù)變化,結(jié)構(gòu)性的數(shù)據(jù)變化相對來說比較容易分析,但是往往數(shù)據(jù)的出現(xiàn)是以非結(jié)構(gòu)性出現(xiàn)的,這就給大數(shù)據(jù)分析更增添了一些難度,有相關(guān)的研究調(diào)查指出,在以后大約10年的時(shí)間內(nèi),非結(jié)構(gòu)性的數(shù)據(jù)將會(huì)占據(jù)到90%左右,數(shù)值型的結(jié)構(gòu)性數(shù)據(jù)將會(huì)得到更加深入的分析和研究,這就相當(dāng)于傳統(tǒng)的數(shù)據(jù)研究領(lǐng)域,包括網(wǎng)頁索引、社交數(shù)據(jù)等,都在一些大型互聯(lián)網(wǎng)公司中得到很淺的分析,但是對于像文本、信息、圖片、視頻等這些占據(jù)了總數(shù)據(jù)量約85%的非結(jié)構(gòu)性信息卻是很難進(jìn)行有效分析。
神經(jīng)網(wǎng)絡(luò)是屬于人工智能方面的鏈接主義學(xué)派,和人大腦中的神經(jīng)突觸一樣,能夠進(jìn)行信息的傳遞和處理。第一代的神經(jīng)網(wǎng)絡(luò)感知機(jī)誕生于20世紀(jì)50年代,它主要是實(shí)現(xiàn)線性分類以及聯(lián)想記憶,能夠解決的問題比較少,而出現(xiàn)在20世紀(jì)80年代的反向傳播算法就能夠在解決現(xiàn)行不可分問題上廣泛應(yīng)用,因?yàn)樗軌蜻M(jìn)行多層感知和訓(xùn)練算法,但是由于當(dāng)時(shí)硬件的計(jì)算能力和網(wǎng)絡(luò)訓(xùn)練算法還都比較落后,這就掣肘了神經(jīng)計(jì)算方法的發(fā)展,直至到了2006年Hinton教授提出的深度教學(xué)方法,多層結(jié)構(gòu)、逐層學(xué)習(xí),這才真正使得神經(jīng)網(wǎng)絡(luò)方法在大數(shù)據(jù)時(shí)代發(fā)揮了強(qiáng)大的計(jì)算能力,并逐漸在大數(shù)據(jù)時(shí)代分析下明亮起來,它主要運(yùn)用在語音識(shí)別、圖像識(shí)別以及自然語音識(shí)別等方面,現(xiàn)在這些領(lǐng)域做出了很大的突破性成功,而且隨著大數(shù)據(jù)時(shí)代的不斷深入,神經(jīng)網(wǎng)絡(luò)方法的不斷探索,已經(jīng)在不少領(lǐng)域內(nèi)取得了標(biāo)志性的記錄。
大部分的神經(jīng)網(wǎng)絡(luò)方法還都是運(yùn)用前饋神經(jīng)網(wǎng)絡(luò),根據(jù)字面意思,就可以知道數(shù)據(jù)在這種網(wǎng)絡(luò)中流向是屬于單向性的,即是說從開始的輸入到輸出是一條線傳遞的,中間逐層進(jìn)行映射和傳遞,網(wǎng)絡(luò)的深度,也就是說在神經(jīng)網(wǎng)絡(luò)中神經(jīng)元層次的數(shù)量,之間通過很多隱形的神經(jīng)元數(shù)量,各個(gè)神經(jīng)元之間相互鏈接,開始對原始數(shù)據(jù)進(jìn)行特征分析,根據(jù)神經(jīng)網(wǎng)絡(luò)中的逼近原理,任何一個(gè)非線性映射,都能夠找到一個(gè)淺層網(wǎng)絡(luò)和一個(gè)深層網(wǎng)絡(luò),而且能夠在任意精度的情況下無限逼近,出現(xiàn)這種情況是有條件的,要使得淺層網(wǎng)絡(luò)的隱形神經(jīng)元足夠多,深度網(wǎng)絡(luò)的做的足夠深,但是淺層網(wǎng)絡(luò)和深度網(wǎng)絡(luò)相比較,深層網(wǎng)絡(luò)只要能取得一定數(shù)量的參數(shù)就可以有相同的逼近效果,而不需要和淺層網(wǎng)絡(luò)大量的參量[3]。復(fù)值BP神經(jīng)網(wǎng)絡(luò)是在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上延伸的,構(gòu)成了一個(gè)全新的網(wǎng)絡(luò)模型,每個(gè)網(wǎng)絡(luò)之間是互相連接,如圖1所示。
圖1 復(fù)值BP神經(jīng)網(wǎng)絡(luò)模型
復(fù)值BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型相對復(fù)雜一些,一般就是由幾個(gè)相對簡單的模塊對層次堆積起來的,這里面的每個(gè)模塊都是將從輸入到輸出的非線性映射,而且,在映射時(shí),每個(gè)模塊都能夠?qū)斎刖哂羞x擇性和不變性,一個(gè)神經(jīng)網(wǎng)絡(luò)具有多層非線性層,往往具有5到20左右的深度,就可以根據(jù)選擇性,對一些很小的細(xì)節(jié)進(jìn)行選擇,可以非常敏感,同時(shí),對其它細(xì)節(jié)可以不敏感,這就是神經(jīng)層的選擇性,例如背景,就因?yàn)槊舾卸炔煌?,所以出現(xiàn)的圖像、顏色等都不一樣。
(1)
假設(shè)R和I分別代表的是實(shí)部和虛部,可以得到隱層神經(jīng)元輸出值為公式(2)所示
(2)
則輸出神經(jīng)元輸出方程為公式(3)所示
(3)
通過上式可以得到神經(jīng)元的輸出為公式(4)所示
(4)
復(fù)雜神經(jīng)網(wǎng)絡(luò)基于反向傳播過程來計(jì)算目標(biāo)函數(shù)相對于每個(gè)模塊中的參數(shù)的梯度。反向傳播過程的數(shù)學(xué)原理即為鏈?zhǔn)椒▌t。目標(biāo)函數(shù)相對于每個(gè)模塊的梯度具有一定的獨(dú)立性,這是鏈?zhǔn)椒▌t的關(guān)鍵,目標(biāo)函數(shù)相對于一個(gè)模塊的輸入的梯度可以在計(jì)算出目標(biāo)函數(shù)相對于這個(gè)模塊輸出的梯度之后被計(jì)算,反向傳播規(guī)則可以反復(fù)施加通過所有模塊傳播梯度,從而實(shí)現(xiàn)梯度(亦即誤差)的不斷反向傳播,從最后一層一直傳播到原始的輸入。BP復(fù)值神經(jīng)網(wǎng)絡(luò)的反向傳播定義一個(gè)輸出神經(jīng)元的誤差為δpk=(Dpk-Opk),其中p代表的是第p個(gè)訓(xùn)練向量,k代表第k個(gè)輸出神經(jīng)元,最小誤差所有輸出神經(jīng)元的平方和如公式(5)所示。
(5)
根據(jù)系數(shù)的實(shí)部和虛部進(jìn)而對Ep的梯度的復(fù)值進(jìn)行計(jì)算,權(quán)值的實(shí)虛部形式如公式(6)所示。
(6)
根據(jù)上式可以得到輸出層權(quán)值更新的公式(7)
(7)
(8)
根據(jù)前面的定義表達(dá)式可以進(jìn)一步得到公式(9)
(9)
通過上面公式可以得到隱層誤差公式(10)所示
(10)
許多的經(jīng)典學(xué)習(xí)算法是出現(xiàn)于上世紀(jì)九十年代,但是大數(shù)據(jù)時(shí)代的浪潮不斷推進(jìn),各種各樣更加強(qiáng)大的計(jì)算機(jī)設(shè)備也就隨之不斷更新,各種訓(xùn)練深層的網(wǎng)絡(luò)新思路也踴躍的提出,這些新的思想、新的科技都在現(xiàn)實(shí)中得到了充分的運(yùn)用,這些深度的學(xué)習(xí)都在實(shí)際運(yùn)用中得到替身,無限深度學(xué)習(xí)可以利用各種海量數(shù)據(jù),而且能夠從這些數(shù)據(jù)中提取出所蘊(yùn)含的相關(guān)信息,并通過抽象知識(shí)進(jìn)行表達(dá),這就是把原始的數(shù)據(jù)轉(zhuǎn)變?yōu)槟撤N知識(shí),運(yùn)用無限深度學(xué)習(xí)能夠大大提升數(shù)據(jù)信息的運(yùn)用準(zhǔn)確性,在這幾年的短時(shí)間內(nèi),就能夠在語音理解、圖像理解、文本理解等眾多領(lǐng)域找算法設(shè)計(jì)思路,逐漸形成各種模型,然后輸出最后的結(jié)果。雖然在優(yōu)化方面還比不上深度神經(jīng)網(wǎng)絡(luò),但是目前出現(xiàn)的BPTT、LST等出現(xiàn)為這一問題提供了解決方案。
尤其是隨著大數(shù)據(jù)時(shí)代的不斷推進(jìn),基于回復(fù)式網(wǎng)絡(luò)結(jié)構(gòu)的無限深度神經(jīng)網(wǎng)絡(luò)計(jì)算方法也在學(xué)術(shù)界和工業(yè)界得到了越來越廣泛的關(guān)注,并迅速在許多大互聯(lián)網(wǎng)公司成為研究的重點(diǎn),神經(jīng)網(wǎng)絡(luò)在處理時(shí)序問題上具有很大的潛力,大數(shù)據(jù)的分析和預(yù)測功能在強(qiáng)大的互聯(lián)網(wǎng)上顯示出更加強(qiáng)大的能力,隨著結(jié)合智能計(jì)算的大數(shù)據(jù)分析日益成為大數(shù)據(jù)時(shí)代的熱點(diǎn)問題,神經(jīng)網(wǎng)絡(luò)方法也就在更多領(lǐng)域被提出更多新的思路和方法,它的應(yīng)用也必將會(huì)刷新更過領(lǐng)域的奇跡,推動(dòng)和大數(shù)據(jù)分析的發(fā)展和革新。