天津航天長(zhǎng)征火箭制造有限公司 石杉 鄭偉 李曉鵬
信息智能化技術(shù)的發(fā)展速度和衍生的各種技術(shù)工具成為社會(huì)轉(zhuǎn)型發(fā)展的技術(shù)支持,尤其在大數(shù)據(jù)領(lǐng)域,人工智能技術(shù)的應(yīng)用為數(shù)據(jù)采集速率、數(shù)據(jù)識(shí)別準(zhǔn)確率等方面帶來極大提升?;诖耍疚膶?duì)當(dāng)前時(shí)代下大數(shù)據(jù)分析的重要性進(jìn)行探討,并圍繞人工智能技術(shù)分析以此為基礎(chǔ)的大數(shù)據(jù)發(fā)展網(wǎng)絡(luò)技術(shù)設(shè)計(jì),在掌握數(shù)據(jù)挖掘人物之后對(duì)大數(shù)據(jù)人工智能分析方法進(jìn)行研究,具體包括及其學(xué)習(xí)、深度學(xué)習(xí)、計(jì)算智能等方面。
目前,大數(shù)據(jù)已經(jīng)成為人類發(fā)展的重要經(jīng)濟(jì)資產(chǎn),然而海量的數(shù)據(jù)仍對(duì)挖掘、分析和計(jì)算技術(shù)提出更高要求。人工智能技術(shù)作為大數(shù)據(jù)分析的重要方式之一,其深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等技術(shù)均有效滿足了日益復(fù)雜的大數(shù)據(jù)分析。因此,為拓展大數(shù)據(jù)分析的應(yīng)用范圍,優(yōu)化大數(shù)據(jù)分析任務(wù),以人工智能為基礎(chǔ)研究大數(shù)據(jù)分析方法并掌握其技術(shù)要點(diǎn)是必要的。
所謂大數(shù)據(jù),指的是非結(jié)構(gòu)化數(shù)據(jù)的集合,相較于傳統(tǒng)數(shù)據(jù)管理工具,其具有鮮明的數(shù)據(jù)采集、存儲(chǔ)與處理能力,在對(duì)其開展目標(biāo)信息的提取工作時(shí),必須通過處理海量數(shù)據(jù)方可實(shí)現(xiàn)。但是一旦有效挖掘數(shù)據(jù)信息,就能夠獲得大量的內(nèi)在價(jià)值信息和科學(xué)知識(shí),促進(jìn)數(shù)字經(jīng)濟(jì)的快速發(fā)展。新時(shí)期下,新媒體技術(shù)、移動(dòng)通信網(wǎng)絡(luò)幾乎覆蓋全球,數(shù)據(jù)信息無處不在,在經(jīng)濟(jì)發(fā)展方面,通過對(duì)產(chǎn)業(yè)、工業(yè)發(fā)展相關(guān)數(shù)據(jù)進(jìn)行深入分析,能夠?yàn)楫a(chǎn)業(yè)經(jīng)濟(jì)結(jié)構(gòu)的調(diào)整提供有效支持;在制造方面,通過結(jié)合物聯(lián)網(wǎng)、BIM等技術(shù),能夠?yàn)橹圃鞓I(yè)轉(zhuǎn)型和社會(huì)發(fā)展提供強(qiáng)有力的技術(shù)支持;在人們?nèi)粘I钪?,大?shù)據(jù)分析的落實(shí)能夠優(yōu)化網(wǎng)絡(luò)體驗(yàn),得到更為人性化、智能化的信息獲取體驗(yàn)??偠灾髷?shù)據(jù)分析的重要性是顯而易見的,它不僅體現(xiàn)在經(jīng)濟(jì)社會(huì)發(fā)展層面,也作用于人們的日常生活[1]。
大數(shù)據(jù)技術(shù)下的網(wǎng)絡(luò)掃描主要是利用電子系統(tǒng)對(duì)相關(guān)數(shù)據(jù)信息進(jìn)行準(zhǔn)確識(shí)別、讀取和記錄的過程,從而能夠針對(duì)那些尚未通過授權(quán)的信息數(shù)據(jù)實(shí)施綜合檢測(cè),做好數(shù)據(jù)驗(yàn)證,提升數(shù)據(jù)信息安全性,但立足于人工智能技術(shù)層面分析,查詢相關(guān)信息數(shù)據(jù)中存在較高難度,為此想要進(jìn)一步處理該種問題,需要針對(duì)相關(guān)數(shù)據(jù)信息實(shí)施全面掃描。通過大數(shù)據(jù)對(duì)相關(guān)信息數(shù)據(jù)實(shí)施全面掃描,是對(duì)瀏覽數(shù)據(jù)實(shí)施定性分析和分類活動(dòng),整個(gè)操作中所用數(shù)據(jù)參數(shù)為分辨率,也是數(shù)據(jù)掃描關(guān)鍵。
提取大數(shù)據(jù)信息即通過人工智能技術(shù)平臺(tái)對(duì)相關(guān)數(shù)據(jù)信息進(jìn)行全面瀏覽,從中提取價(jià)值信息。現(xiàn)有數(shù)字技術(shù)是基于人工智能技術(shù)進(jìn)行網(wǎng)絡(luò)識(shí)別,相關(guān)操作思路如下,率先采集目標(biāo)客戶相關(guān)瀏覽信息數(shù)據(jù),并對(duì)具體數(shù)據(jù)實(shí)施預(yù)處理,初步確定大數(shù)據(jù)屬性特征,順利過濾無用信息[2]。
數(shù)據(jù)分析法主要包括聚類分析、特征數(shù)據(jù)分析、相關(guān)性分析和人工神經(jīng)網(wǎng)絡(luò)等分析方法,其中聚類分析法主要針對(duì)相似性采集信息數(shù)據(jù)實(shí)施有效分類和科學(xué)分組,促進(jìn)相關(guān)信息按照分段形式展現(xiàn)。該種方法論盡管看起來是分析各種雜亂數(shù)據(jù)信息,結(jié)合分析目標(biāo)對(duì)各種數(shù)據(jù)信息實(shí)施科學(xué)分組,并結(jié)合各種數(shù)據(jù)集內(nèi)在聯(lián)系提取有用信息,明確信息價(jià)值。在實(shí)施聚類分析中存在一定問題,數(shù)據(jù)具有個(gè)性化特征,導(dǎo)致數(shù)據(jù)統(tǒng)計(jì)無法進(jìn)行合理分析,影響數(shù)據(jù)識(shí)別。人工神經(jīng)網(wǎng)絡(luò)分析即通過模擬大腦神經(jīng)網(wǎng)絡(luò)的信息存儲(chǔ)、處理方法,對(duì)原本混亂、復(fù)雜的數(shù)據(jù)信息實(shí)施全面抽象分析,順利接收計(jì)算結(jié)果,提取價(jià)值信息。比如基于數(shù)學(xué)模型形成的人工神經(jīng)網(wǎng)絡(luò)技術(shù)通過創(chuàng)建全新算法,將神經(jīng)網(wǎng)絡(luò)數(shù)值輸入其中。采集各種數(shù)據(jù)信息中聯(lián)系現(xiàn)實(shí)需求合理分析相關(guān)數(shù)據(jù),通過數(shù)據(jù)分析保障人工智能技術(shù)合理應(yīng)用。相關(guān)性分析即借助大數(shù)據(jù)對(duì)數(shù)據(jù)庫(kù)內(nèi)各種數(shù)據(jù)聯(lián)系實(shí)施科學(xué)分析和揭示,借助相關(guān)性分析可以幫助針對(duì)所采集信息數(shù)據(jù)實(shí)施科學(xué)分析,深入挖掘處理各種隱藏信息,準(zhǔn)確辨別隱藏?cái)?shù)據(jù)唯一性,應(yīng)用該種方法具有較高準(zhǔn)確性和目的性,可以支持?jǐn)?shù)據(jù)進(jìn)行精準(zhǔn)分析。
為進(jìn)一步提高大數(shù)據(jù)識(shí)別簡(jiǎn)易性,需要在實(shí)施大數(shù)據(jù)識(shí)別中對(duì)相關(guān)搜尋數(shù)據(jù)信息進(jìn)行完整、全面描述,但對(duì)于大數(shù)據(jù)識(shí)別網(wǎng)絡(luò)的描述也具有重要作用。除此之外,因?yàn)榇髷?shù)據(jù)最終輸出結(jié)果為基礎(chǔ)數(shù)據(jù)集,需要對(duì)相關(guān)操作進(jìn)行合理定義,進(jìn)一步迎合廣大用戶多樣需求。為此需要準(zhǔn)確把握大數(shù)據(jù)識(shí)別主要數(shù)據(jù)來源。
基于人工智能技術(shù)誕生的大數(shù)據(jù)技術(shù)應(yīng)用于大數(shù)據(jù)網(wǎng)絡(luò)檢測(cè)當(dāng)中可以提高相關(guān)信息檢驗(yàn)速度,提高傳輸數(shù)據(jù)安全性。對(duì)目標(biāo)數(shù)據(jù)進(jìn)行提取挖掘大數(shù)據(jù)屬性特征,利用大數(shù)據(jù)技術(shù)來提取相關(guān)性,融合屬性檢測(cè),實(shí)現(xiàn)預(yù)期數(shù)據(jù)檢驗(yàn)?zāi)繕?biāo),創(chuàng)建大數(shù)據(jù)挖掘系統(tǒng)。
對(duì)于人工智能技術(shù)而言,機(jī)器學(xué)習(xí)在大數(shù)據(jù)分析中的應(yīng)用主要體現(xiàn)在4個(gè)方面,具體如下。
3.1.1 大數(shù)據(jù)聚類
將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于大數(shù)據(jù)分析工作時(shí),初步就是大數(shù)據(jù)聚類,只有這樣才能保證數(shù)據(jù)分析結(jié)果的全面性,但是由于大數(shù)據(jù)聚類與傳統(tǒng)聚類不同,其具有跨學(xué)科、跨領(lǐng)域的特點(diǎn),所以以往的傳統(tǒng)聚類算法難以直接應(yīng)用。因此,當(dāng)研究人員開展以機(jī)器學(xué)習(xí)為基礎(chǔ)的大數(shù)據(jù)分析工作時(shí),應(yīng)對(duì)聚類算法進(jìn)行優(yōu)化,或是直接選擇新型算法,其中,若是采用傳統(tǒng)聚類算法,應(yīng)先對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行阻塞與簡(jiǎn)化,然后通過計(jì)算結(jié)果重新組合的方式實(shí)現(xiàn)大數(shù)據(jù)分析,或是采用并行聚類算法,依托于計(jì)算機(jī)處理數(shù)據(jù)速度的提升實(shí)現(xiàn)經(jīng)典大數(shù)據(jù)的分析。
從目前主流計(jì)算框架來看,Map Reduce作為常用的分布式計(jì)算框架之一,其主要方式是簡(jiǎn)化處理數(shù)據(jù)分塊,然后將各個(gè)分塊的分析結(jié)果進(jìn)行合并,最終實(shí)現(xiàn)數(shù)據(jù)的并行化;或是以Hadoop平臺(tái)為基礎(chǔ)的K-means聚類算法,依托于Map、Combine、Reduce的劃分實(shí)現(xiàn)自下而上的凝聚式層次聚類分析,強(qiáng)化文本類數(shù)據(jù)聚類時(shí)的準(zhǔn)確性。除此之外,還有在Map Reduce的發(fā)展下,基于密度的聚類方法,即DB-SCAN,這一聚類算法分為4個(gè)階段,階段一為數(shù)據(jù)預(yù)處理;階段二是局部DB SCAN;階段三為合并集群獲得;階段四是全局集群處理,在依次落實(shí)處理環(huán)節(jié)后將其應(yīng)用于軌跡聚類[3]。通過上述分析可知,不同的大數(shù)據(jù)聚類算法,其側(cè)重點(diǎn)存在差異性,以Map Reduce為基礎(chǔ)的大數(shù)據(jù)聚類算法主要是強(qiáng)化聚類效果,并對(duì)海量數(shù)據(jù)計(jì)算的復(fù)雜度進(jìn)行有效降低;而K-means算法則注重大數(shù)據(jù)分析速度與性能的提升。而且,目前傳統(tǒng)聚類算法優(yōu)化研究也處于持續(xù)狀態(tài),尤其是面對(duì)越來越大的數(shù)據(jù)量以及難度不斷提高的數(shù)據(jù)分析難題,通過采用并行聚類算法和改進(jìn)傳統(tǒng)聚類算法,是目前以人工智能機(jī)械學(xué)習(xí)為基礎(chǔ)的,大數(shù)據(jù)聚類算法研究與發(fā)展的主要方向。
3.1.2 大數(shù)據(jù)關(guān)聯(lián)挖掘
在面對(duì)海量數(shù)據(jù)查找任務(wù)時(shí),主要采用關(guān)聯(lián)挖掘?qū)?shù)據(jù)集合之間的關(guān)聯(lián)、因果等信息進(jìn)行查找與整合。目前,常用的關(guān)聯(lián)分析算法有Apriori關(guān)聯(lián)規(guī)則分析、FPGrowth關(guān)聯(lián)規(guī)則分析等,但是在算法的實(shí)際應(yīng)用過程中,傳統(tǒng)串行算法將給I/O帶來過大的負(fù)載,且數(shù)據(jù)關(guān)聯(lián)挖掘時(shí)間成本較大,隨著數(shù)據(jù)量的增加,需要查找的數(shù)據(jù)規(guī)模越來越大,對(duì)計(jì)算能力和存儲(chǔ)容量的要求越來越高。因此,在算法實(shí)際應(yīng)用過程中,可融入Map Reduce或Spark分布式計(jì)算框架,依托于分布式、并行化的處理優(yōu)化,提升數(shù)據(jù)計(jì)算速度,從而使大數(shù)據(jù)關(guān)聯(lián)挖掘得以廣泛應(yīng)用,比如日志分析領(lǐng)域、醫(yī)療疾病診斷領(lǐng)域、交通智能管理領(lǐng)域、數(shù)值分析領(lǐng)域等,極大地滿足了多個(gè)社會(huì)行業(yè)對(duì)數(shù)據(jù)分析與利用的需求。
3.1.3 大數(shù)據(jù)分類
大數(shù)據(jù)分類也是數(shù)據(jù)挖掘的一種技術(shù)手段,因而與其他技術(shù)工具相同,分類算法豐富且先進(jìn)。比如主要應(yīng)用于非均衡數(shù)據(jù)的分類工作的,以Map Reduce為基礎(chǔ)的隨機(jī)森林算法,通過依托于決策樹算法的并行化,能夠有效加快最佳分裂屬性的選擇過程;再如結(jié)合了Mahout的隨機(jī)森林,為實(shí)時(shí)檢測(cè)點(diǎn)對(duì)點(diǎn)僵尸網(wǎng)絡(luò)的工作提供技術(shù)支持。除此之外,還包括Map Reduce與K近鄰分類器的結(jié)合應(yīng)用等,有效提升了大數(shù)據(jù)分類的泛化性能,使其能夠應(yīng)用的更為寬泛[4]。
3.1.4 大數(shù)據(jù)預(yù)測(cè)
作為大數(shù)據(jù)研究的核心內(nèi)容,以機(jī)器學(xué)習(xí)為基礎(chǔ)的大數(shù)據(jù)預(yù)測(cè)應(yīng)用也十分廣泛,涉及的學(xué)習(xí)算法也十分豐富。比如應(yīng)用于金融領(lǐng)域的機(jī)器學(xué)習(xí)算法,通過針對(duì)流式大數(shù)據(jù)以及市場(chǎng)結(jié)構(gòu)的差異性進(jìn)行可擴(kuò)展交易模型的建立,最后結(jié)合運(yùn)用邏輯回歸方法實(shí)時(shí)預(yù)測(cè)目標(biāo)市場(chǎng)產(chǎn)品的價(jià)格。或是對(duì)HDFS、集合特征學(xué)習(xí)等技術(shù)進(jìn)行整合,依托于支持向量機(jī)運(yùn)用的網(wǎng)絡(luò)對(duì)入侵攻擊進(jìn)行預(yù)測(cè)的算法等;再如應(yīng)用于醫(yī)療領(lǐng)域的流感預(yù)測(cè)指數(shù)模型、結(jié)合向量機(jī)方法的綜合分析預(yù)測(cè)等,為該領(lǐng)域精準(zhǔn)個(gè)性化醫(yī)療的實(shí)現(xiàn)提供技術(shù)支持;亦或是應(yīng)用于電網(wǎng)負(fù)荷的以動(dòng)態(tài)需求響應(yīng)為基礎(chǔ)的預(yù)測(cè)平臺(tái),依托于語義信息的集成采集獲得目標(biāo)動(dòng)態(tài)數(shù)據(jù),然后利用回歸樹模型對(duì)海量歷史數(shù)據(jù)進(jìn)行訓(xùn)練,最后對(duì)Web端的電能消耗進(jìn)行預(yù)測(cè),從而實(shí)現(xiàn)智能用電需求管理。
自2006年開始,深度學(xué)習(xí)成為機(jī)器學(xué)習(xí)的重要學(xué)習(xí)方法之一,在大數(shù)據(jù)分析中,其主要應(yīng)用于圖像、自然語言處理以及語音等領(lǐng)域。在大數(shù)據(jù)分析過程中,評(píng)價(jià)其明顯的計(jì)算密集性特點(diǎn),深度學(xué)習(xí)訓(xùn)練的使用需要確定隱層權(quán)值與閾值參數(shù)等,然后依托于大量的迭代計(jì)算完成相關(guān)分析工作。
以中等規(guī)模的數(shù)據(jù)為例,即便僅有幾個(gè)隱層,但每個(gè)隱層均具有幾百個(gè)節(jié)點(diǎn)的深層網(wǎng)絡(luò),學(xué)習(xí)時(shí)間在幾天或幾周之間。數(shù)據(jù)規(guī)模與模型訓(xùn)練時(shí)間存在正比關(guān)系,在龐大的訓(xùn)練量下,主要采用分布式的方式降低深度學(xué)習(xí)訓(xùn)練成本,具體實(shí)現(xiàn)方式包括:(1)以Map Reduce為基礎(chǔ)的深度學(xué)習(xí)分布式方式,能夠有效提升大量數(shù)據(jù)的處理速度,解決深度學(xué)習(xí)的可拓展問題,減少網(wǎng)絡(luò)節(jié)點(diǎn)的通信代價(jià);(2)以Spark為基礎(chǔ)的深度學(xué)習(xí)分布式方式,以內(nèi)存為基礎(chǔ)開展大數(shù)據(jù)計(jì)算工作,相較于第一種算法,這種學(xué)習(xí)方法更適用于迭代型計(jì)算任務(wù),目前常用的學(xué)習(xí)模式有R_CRBN模型、卷積神經(jīng)網(wǎng)絡(luò)等。因而,通過在大數(shù)據(jù)分析中運(yùn)用該技術(shù)功能,能夠直觀的將復(fù)雜信息呈現(xiàn)給用戶,幫助其根據(jù)分析結(jié)果對(duì)未來做出精準(zhǔn)預(yù)測(cè)[5]。
除此之外,現(xiàn)有的以大數(shù)據(jù)分析優(yōu)化為目標(biāo)的深度學(xué)習(xí)算法正處于不斷改進(jìn)狀態(tài),針對(duì)樣本數(shù)量缺乏、質(zhì)量不足等常見問題,固定模型重用策略被提出并應(yīng)用,能夠很好地獲取判別信息,降低數(shù)據(jù)分析過程中需要投入的訓(xùn)練樣本數(shù)量。此外,強(qiáng)化檢測(cè)器性能、改進(jìn)訓(xùn)練樣本質(zhì)量的方法不斷豐富,根據(jù)深度學(xué)習(xí)一訓(xùn)練步驟實(shí)現(xiàn)對(duì)各種數(shù)據(jù)的迭代計(jì)算,從而改變當(dāng)前的工作質(zhì)量。
計(jì)算智能為人工智能分支之一,其具有隨機(jī)性、啟發(fā)式特征,在大規(guī)模優(yōu)化方面能夠發(fā)揮良好作用,而傳統(tǒng)算法以收斂速度為側(cè)重點(diǎn),強(qiáng)調(diào)集中化思想,若所需分析的數(shù)據(jù)過于龐大,則會(huì)使傳統(tǒng)算法難以處理,即使能夠處理分析也會(huì)形成較大時(shí)間消耗,數(shù)據(jù)分析效率嚴(yán)重不足。而當(dāng)前數(shù)據(jù)復(fù)雜性、規(guī)?;潭热找嬖黾?,此時(shí)可在大數(shù)據(jù)分析時(shí)引入分布式算法,從群智能、進(jìn)化算法兩個(gè)方面展開大數(shù)據(jù)分析。(1)群智能算法分析。其構(gòu)建了分布式計(jì)算環(huán)境,對(duì)算法搜索過程具有較強(qiáng)加速效果,其主要借助粒子群算法、布谷鳥算法、蟻群算法、螢火蟲算法等順利完成大數(shù)據(jù)分析。(2)進(jìn)化算法分析。該算法分析方式含有大量迭代計(jì)算,在具體大數(shù)據(jù)分析過程中,主要通過大數(shù)據(jù)分組保障運(yùn)算分析效率,通過長(zhǎng)期的進(jìn)化算法研究,進(jìn)化算法現(xiàn)已能夠?qū)崿F(xiàn)差分自動(dòng)分組,降低不同分組內(nèi)的變量依賴程度,借助智能化分析提高算法分析效率,以此解決傳統(tǒng)算法在預(yù)算效率方面的不足。除此之外,大數(shù)據(jù)分析時(shí)還可混合運(yùn)用多種算法,如貪心算法、遺傳算法、模擬退火算法等,同時(shí)融入加速技術(shù)、分布式計(jì)算等,對(duì)原算法精準(zhǔn)優(yōu)化,繼而提高數(shù)據(jù)分析效率。
綜上所述,人工智能在大數(shù)據(jù)分析中發(fā)揮的作用日益關(guān)鍵,所取得的成果也日益豐富。為促進(jìn)大數(shù)據(jù)的更好發(fā)展,強(qiáng)化其智能化水平,應(yīng)對(duì)大數(shù)據(jù)積累、關(guān)聯(lián)分析、分類、預(yù)測(cè)挖掘任務(wù)進(jìn)行分析,并研究分布式深度學(xué)習(xí)及其算法的改進(jìn),最后從群智能、進(jìn)化算法兩方面開展分析研究,以此更好應(yīng)對(duì)大數(shù)據(jù)分析帶來的挑戰(zhàn)。
引用
[1]金晶.基于大數(shù)據(jù)分析的5G-Advanced節(jié)能演進(jìn)創(chuàng)新應(yīng)用方法研究[J].廣東通信技術(shù),2022,42(2):24-29.
[2]郭文欣,吳忭.人工智能視域下基于設(shè)計(jì)的實(shí)施研究方法:框架及案例分析[J].中國(guó)教育信息化,2022,28(6):54-63.
[3]高長(zhǎng)元,張曉星,張樹臣.多維鄰近性對(duì)跨界聯(lián)盟協(xié)同創(chuàng)新的影響研究——基于人工智能合作專利的數(shù)據(jù)分析[J].科學(xué)學(xué)與科學(xué)技術(shù)管理,2021,42(5):100-117.
[4]楊偉,劉健.基于生態(tài)流量的數(shù)字創(chuàng)新生態(tài)系統(tǒng)演化模式——人工智能行業(yè)的探索性研究[J].技術(shù)經(jīng)濟(jì),2021,40(9):34-44.
[5]趙婷婷,韓雅杰,楊夢(mèng)楠,等.基于機(jī)器學(xué)習(xí)的時(shí)序數(shù)據(jù)預(yù)測(cè)方法研究綜述[J].天津科技大學(xué)學(xué)報(bào),2021,36(5):1-9.