潘澤波
摘 要:伴隨著科學(xué)技術(shù)的快速發(fā)展,大數(shù)據(jù)技術(shù)以及相關(guān)應(yīng)用已經(jīng)得到眾多行業(yè)工作者的關(guān)注與認(rèn)可。如何分析大數(shù)據(jù),如何更有效地挖掘大數(shù)據(jù)的潛在價(jià)值,也同樣成為技術(shù)自身成長的關(guān)鍵節(jié)點(diǎn)。文章針對(duì)大數(shù)據(jù)分析中的計(jì)算智能研究展開初步分析與探討,希望可對(duì)行業(yè)工作者起到一定借鑒作用。
關(guān)鍵詞:大數(shù)據(jù)應(yīng)用;大數(shù)據(jù)技術(shù);計(jì)算智能
0 引言
計(jì)算智能是人工智能技術(shù)不斷發(fā)展與延伸的重要成果,計(jì)算智能源于自然智慧與人類智慧,其主要目的在于解決一系列傳統(tǒng)邏輯程序所無法解決的復(fù)雜難題。計(jì)算智能運(yùn)行過程中,不需要去創(chuàng)建對(duì)應(yīng)的數(shù)學(xué)模型,也不需要相關(guān)知識(shí)體系作為內(nèi)涵表達(dá),而是依靠大量數(shù)據(jù),對(duì)輸入信息進(jìn)行綜合分析與處理。計(jì)算智能的這一特點(diǎn),使其與大數(shù)據(jù)分析工作有著天然的共性,大數(shù)據(jù)應(yīng)用借助計(jì)算智能,可以快速完成圖像處理、模式識(shí)別、知識(shí)獲取、經(jīng)濟(jì)管理與智能控制等諸多工作,其所取得的實(shí)際成效,更是讓大數(shù)據(jù)技術(shù)應(yīng)用進(jìn)入全新時(shí)期,而大數(shù)據(jù)技術(shù)的發(fā)展,也讓計(jì)算智能迎來全新的機(jī)遇與挑戰(zhàn)[1]。
1 ? 大數(shù)據(jù)技術(shù)概述
大數(shù)據(jù)并不是一個(gè)新鮮事物。早在20世紀(jì)70年代,國外行業(yè)工作者為實(shí)現(xiàn)對(duì)經(jīng)濟(jì)領(lǐng)域各項(xiàng)數(shù)據(jù)的快速統(tǒng)計(jì),監(jiān)督各類企業(yè)的生產(chǎn)狀況,并預(yù)估經(jīng)濟(jì)宏觀走勢,發(fā)現(xiàn)經(jīng)濟(jì)生活中的不穩(wěn)定因素,開始大數(shù)據(jù)應(yīng)用的初步探索。但是,當(dāng)時(shí)的計(jì)算機(jī)軟件與硬件條件均與實(shí)際應(yīng)用需求之間存在巨大差距?,F(xiàn)如今,大數(shù)據(jù)技術(shù)與應(yīng)用已經(jīng)初步成熟,其定義也擁有多種描述,從直觀角度分析[2],大數(shù)據(jù)是指數(shù)據(jù)規(guī)模達(dá)到PB乃至EB級(jí)別的大量數(shù)據(jù),并且,這個(gè)數(shù)據(jù)量無法利用傳統(tǒng)的邏輯方法與軟硬件實(shí)現(xiàn)快速分析處理與感知管理。在大數(shù)據(jù)應(yīng)用過程中,需要采用全新的數(shù)據(jù)處理模式,提高實(shí)際工作的決策力、洞察力與流程優(yōu)化能力。因此,大數(shù)據(jù)本身已經(jīng)成為一個(gè)寬泛的概念,其同時(shí)涵蓋數(shù)據(jù)的采集、處理、分析與解釋等眾多技術(shù)與手段。
2 大數(shù)據(jù)分析中的計(jì)算智能方法
隨著人工智能技術(shù)的快速發(fā)展,計(jì)算智能已經(jīng)逐步演變?yōu)?個(gè)主要分支,分別為人工神經(jīng)網(wǎng)絡(luò)、模糊系統(tǒng)與演化計(jì)算。這3個(gè)相對(duì)成熟的分支亦可相互融合,并由此產(chǎn)生全新的數(shù)據(jù)利用與開發(fā)模式。因此,計(jì)算智能從其運(yùn)用特性角度分析,在大數(shù)據(jù)分析與應(yīng)用中有著巨大的發(fā)展空間。計(jì)算智能方法詳細(xì)如圖1所示。
2.1? 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是一種對(duì)動(dòng)物神經(jīng)系統(tǒng)特征進(jìn)行模仿的分布式并行數(shù)據(jù)信息處理模型,而這一模型又同時(shí)具備較強(qiáng)的自適應(yīng)能力、較好的容錯(cuò)性與映射能力,并同時(shí)具備分布存儲(chǔ)的特性,是計(jì)算智能分支中最為重要的一種核心模式。對(duì)于神經(jīng)網(wǎng)絡(luò)模型應(yīng)用而言,數(shù)據(jù)不需要具備任何概率分布特征,與傳統(tǒng)統(tǒng)計(jì)學(xué)與邏輯思維相比,實(shí)際限制很少。在人工神經(jīng)網(wǎng)絡(luò)中,感知器是一種最為經(jīng)典的在線學(xué)習(xí)模型,并根據(jù)預(yù)測結(jié)果的正確性來決定相關(guān)樣本的權(quán)重[3]。當(dāng)前,感知器在線學(xué)習(xí)算法涵蓋投票感知、均值感知、權(quán)重多數(shù)感知、被動(dòng)主動(dòng)感知、置信度權(quán)重感知與核感知器算法,而這些手段的存在,讓人們在數(shù)據(jù)生產(chǎn)與采集層面的能力日益增強(qiáng),數(shù)據(jù)規(guī)模與維度也在不斷擴(kuò)大。人工神經(jīng)網(wǎng)絡(luò)的存在也同樣解決高維數(shù)據(jù)所存在的兩項(xiàng)基本問題:其一,應(yīng)用過程不再關(guān)注數(shù)據(jù)的全部屬性,數(shù)據(jù)中的冗余信息與噪音將會(huì)被徹底排除;其二,將數(shù)據(jù)進(jìn)行有效簡化,消除高維數(shù)據(jù)在性能應(yīng)用層面的約束,在不提高計(jì)算代價(jià)的前提下,提高其實(shí)際應(yīng)用效率。
2.2? 模糊系統(tǒng)
大數(shù)據(jù)應(yīng)用體系下,所采集的數(shù)據(jù)在精度與狀態(tài)層面存在隨機(jī)化與非線性的特點(diǎn),并存在自然環(huán)境等各類不可控因素干擾。因此,大數(shù)據(jù)本身是一種相對(duì)模糊的數(shù)據(jù),例如電商網(wǎng)站、社交網(wǎng)絡(luò)等,這些站點(diǎn)用戶所發(fā)表的內(nèi)容帶有很強(qiáng)的個(gè)人傾向,而不是傳統(tǒng)邏輯層面的好與壞,喜歡與不喜歡,這種內(nèi)容在意圖層面十分模糊且自帶不確定性,難以用語言進(jìn)行細(xì)節(jié)化分類。此外,大數(shù)據(jù)所對(duì)應(yīng)的不同事物之間也帶有明顯的過渡性與不分明性,邏輯層面不再是非此即彼的現(xiàn)象,這一過程雖然對(duì)傳統(tǒng)邏輯思維有著極大的挑戰(zhàn),但是對(duì)于計(jì)算智能的模糊系統(tǒng)而言,其利用模糊聚類方法,卻可以快速找到數(shù)據(jù)的巨大潛力與價(jià)值。模糊聚類方法是一種非監(jiān)督性質(zhì)的學(xué)習(xí)模式,可以快速找到數(shù)據(jù)中的隱含信息,維持?jǐn)?shù)據(jù)在空間與時(shí)間層面的準(zhǔn)確性[4]。提高模糊聚類算法的策略在于采樣、在線處理與分布式計(jì)算,并快速找到不同算法的適用場景,針對(duì)性地提供必要的選擇策略?;诤说哪:垲愃惴ㄐ枰酵瓿扇绾芜x擇核、如何確定策略適用場景,并進(jìn)行深入分析與探討。
2.3? 計(jì)算智能在大數(shù)據(jù)應(yīng)用中存在的問題與未來的研究方向
計(jì)算智能雖然可以為大數(shù)據(jù)應(yīng)用快速處理各類非確定性的復(fù)雜問題,但是,其本身也為大數(shù)據(jù)分析過程帶來諸多問題:
數(shù)據(jù)規(guī)模的大量膨脹讓分析時(shí)間變長,計(jì)算復(fù)雜度迅速提升,原本可以適用的策略也在落后。
數(shù)據(jù)的產(chǎn)生是持續(xù)性的且不斷變化,很多數(shù)據(jù)無法直接進(jìn)入計(jì)算機(jī)的存儲(chǔ)空間,更無法快速保存其歷史樣本,這就導(dǎo)致其分析過程無法像傳統(tǒng)批量算法應(yīng)用過程構(gòu)建=合理的無偏訓(xùn)練集。
隨著人們數(shù)據(jù)采集與生產(chǎn)層面的能力不斷增強(qiáng),數(shù)據(jù)屬性更顯多維度,而傳統(tǒng)的簡化與分組方式,也逐漸無法應(yīng)對(duì)數(shù)據(jù)稀疏與復(fù)雜的特點(diǎn)[5]。
針對(duì)以上問題與挑戰(zhàn),大數(shù)據(jù)應(yīng)用與分析的未來研究方向可分為以下幾點(diǎn):
(1)提高計(jì)算智能算法的可拓展性與業(yè)務(wù)容納能力,保證其在問題規(guī)模擴(kuò)大時(shí),算法或模型可以有效提高數(shù)據(jù)在時(shí)間與空間層面的質(zhì)量。針對(duì)技術(shù)的發(fā)展,可以將這些策略分為4種,分別為:在線優(yōu)化算法、隨機(jī)化算法、基于哈希策略的算法以及大規(guī)模集群分布式算法。
(2)進(jìn)一步發(fā)展分而治之的策略,將復(fù)雜問題逐步簡化,減少大規(guī)模復(fù)雜問題的處理時(shí)間,提高處理質(zhì)量,依靠子問題的解決實(shí)現(xiàn)全部問題的快速解答。
(3)進(jìn)一步發(fā)展粒計(jì)算理論與模型,實(shí)現(xiàn)對(duì)問題的多層次與多角度分析,并保證粒度間的靈活性,為各類復(fù)雜問題尋找更為有效的全新解決模式。
(4)提高對(duì)數(shù)據(jù)集規(guī)律的排查能力,可通過降低部分子集數(shù)據(jù)準(zhǔn)確性,用以提高數(shù)據(jù)分析在時(shí)空層面的消耗,并利用子集來尋找大數(shù)據(jù)所蘊(yùn)藏的深層規(guī)律。
(5)針對(duì)持續(xù)性輸入數(shù)據(jù),可利用概率分布隨機(jī)取樣的方式,對(duì)持續(xù)性流數(shù)據(jù)進(jìn)行在線處理,并推進(jìn)各類結(jié)果的快速融合,當(dāng)數(shù)據(jù)分布發(fā)生變化時(shí),也要確保其分析結(jié)果的穩(wěn)定性,并快速完成降噪工作。
(6)提高對(duì)數(shù)據(jù)規(guī)律變化的應(yīng)對(duì)能力,建立數(shù)據(jù)動(dòng)態(tài)分析模式,針對(duì)大數(shù)據(jù)的演化機(jī)制,提升數(shù)據(jù)的利用價(jià)值。
(7)進(jìn)一步降低數(shù)據(jù)中的弱約束規(guī)則,提高對(duì)各類數(shù)據(jù)源中冗余信息的處理效果,確定各類事件的空間位置關(guān)系、時(shí)間先后關(guān)系以及觸發(fā)關(guān)系等。
(8)提高對(duì)低價(jià)值密度數(shù)據(jù)的應(yīng)用能力,檢測數(shù)據(jù)中的異常模式,針對(duì)數(shù)據(jù)異?,F(xiàn)象,建立應(yīng)用策略。
(9)提高數(shù)據(jù)分析對(duì)各種領(lǐng)域知識(shí)的結(jié)合能力,使其形成更為精準(zhǔn)的領(lǐng)域模型,建立更為準(zhǔn)確的數(shù)據(jù)分析方式,提高數(shù)據(jù)分析結(jié)果的可解釋性[6]。
3 結(jié)語
綜上所述,大數(shù)據(jù)技術(shù)在為計(jì)算智能提供巨大機(jī)遇的同時(shí),也讓相關(guān)理論發(fā)展面臨嚴(yán)峻挑戰(zhàn),而未來計(jì)算智能的發(fā)展,也需要結(jié)合大數(shù)據(jù)應(yīng)用過程中所展露出的實(shí)際問題與需求進(jìn)行進(jìn)一步調(diào)整,進(jìn)而提高計(jì)算智能在大數(shù)據(jù)分析中的潛力,展現(xiàn)數(shù)據(jù)內(nèi)在價(jià)值?,F(xiàn)如今,大數(shù)據(jù)分析工作中的計(jì)算智能策略依舊處于探討與技術(shù)摸索階段,很多問題依舊困擾著技術(shù)與應(yīng)用發(fā)展,需要做進(jìn)一步研究。
[參考文獻(xiàn)]
[1]邱宇,王持,齊開悅,等.智慧健康研究綜述:從云端到邊緣的系統(tǒng)[J].計(jì)算機(jī)研究與發(fā)展,2020(1):53-73.
[2]于洪,何德牛,王國胤,等.大數(shù)據(jù)智能決策[J].自動(dòng)化學(xué)報(bào),2020(5):878-896.
[3]楊揚(yáng),劉圣,李宜威,等.大數(shù)據(jù)營銷:綜述與展望[J].系統(tǒng)工程理論與實(shí)踐,2020(8):2150-2158.
[4]郭平,王可,羅阿理,等.大數(shù)據(jù)分析中的計(jì)算智能研究現(xiàn)狀與展望[J].軟件學(xué)報(bào),2015(11):3010-3025.
[5]吳俊杰,劉冠男,王靜遠(yuǎn),等.數(shù)據(jù)智能:趨勢與挑戰(zhàn)[J].系統(tǒng)工程理論與實(shí)踐,2020(8):2116-2149.
[6]WEI W,MOHSEN G,SYED H A,et al.Guest editorial:special section on integration of Big Data and artificial intelligence for Internet of Things[J].IEEE Transactions on Industrial Informatics,2020(4):2562-2565.
(編輯 王雪芬)