金偉+劉冬秋
摘 要:本文通過對大數(shù)據(jù)的發(fā)展、算法分析以及平臺設(shè)計進行探究,對大數(shù)據(jù)平臺的應(yīng)用進行了展望,力求為智能化技術(shù)的發(fā)展提供創(chuàng)新的思路。
關(guān)鍵詞:大數(shù)據(jù);人工智能;算法設(shè)計
DOI:10.16640/j.cnki.37-1222/t.2017.13.133
1 大數(shù)據(jù)的發(fā)展概述
大數(shù)據(jù)指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)包括海量的數(shù)據(jù)信息與高強度的數(shù)據(jù)處理能力,對于傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)來說,大數(shù)據(jù)處理有著相當(dāng)多的優(yōu)勢,可以對于大型復(fù)雜的數(shù)據(jù)模塊進行高效地分析,包括數(shù)據(jù)的收集、分析、共享與傳輸?shù)?。大?shù)據(jù)可以采用預(yù)測的方式進行分析,在用戶分析后進行數(shù)據(jù)提取,將其價值體現(xiàn)出來。
數(shù)據(jù)集分析可以發(fā)現(xiàn)新的聯(lián)系與信息??茖W(xué)家在電子科學(xué)工作中遇到了很多需要處理海量數(shù)據(jù)的問題,涉及氣象學(xué)、基因組學(xué)、復(fù)雜物理模擬、生物學(xué)和環(huán)境研究等。
2 大數(shù)據(jù)技術(shù)中的算法分析
2.1 神經(jīng)網(wǎng)絡(luò)算法
神經(jīng)網(wǎng)絡(luò)系統(tǒng)是由眾多的神經(jīng)元可調(diào)的連接權(quán)值連接而成,具有大規(guī)模并行處理、分布式信息存儲、良好的自組織自學(xué)習(xí)能力等特點。神經(jīng)網(wǎng)絡(luò)是一種計算方法,基于神經(jīng)單元的大集合,解決由軸突連接的生物神經(jīng)元的大群集的問題。 每個神經(jīng)單元與許多其他神經(jīng)單元連接,并且可以對所連接的神經(jīng)單元的激活狀態(tài)影響中實施抑制。每個單獨的神經(jīng)單元可以具有將所有其輸入的值組合在一起的求和功能。在每個連接和單元本身上可以存在閾值函數(shù)或限制函數(shù),使得信號在傳播到其他神經(jīng)元之前必須超過極限。神經(jīng)網(wǎng)絡(luò)已被用于解決使用普通的基于規(guī)則的編程難以解決的各種各樣的任務(wù),如智能化學(xué)習(xí)。歷史上,神經(jīng)網(wǎng)絡(luò)模型的使用向高級人工智能的方向移動,其特征在于包含在具有一些動力系統(tǒng)的認(rèn)知模型的參數(shù)中的知識。
2.2 灰色關(guān)聯(lián)度分析
灰色關(guān)聯(lián)分析方法,是根據(jù)因素之間發(fā)展趨勢的相似或相異程度,來進行歸納和評價,作為衡量因素間關(guān)聯(lián)程度的一種方法?;疑P(guān)聯(lián)度分析使用特定的信息概念。它定義沒有信息為黑色的情況以及具有完美信息為白色的情況,這些理想化的情況都不會出現(xiàn)在現(xiàn)實世界的問題中。事實上,這些過渡階段的情況被描述為灰色。因此,灰色系統(tǒng)意味著其中部分信息是已知的并且部分信息是未知的系統(tǒng)。根據(jù)這個定義,信息質(zhì)量形成從信息的缺乏到完整信息的存在過渡過程。由于不確定性總是存在,灰色分析可以得出一系列關(guān)于解決方案的清晰陳述。在一個極端情況下,這種方案無解,在另一個極端情況下,具有完美信息的系統(tǒng)具有獨特的解決方案。在中間情況中,灰色系統(tǒng)將給出各種優(yōu)化的解決方案。灰色分析試圖找到最好的解決方案,提供了確定一個好的解決方案的技術(shù)來解決現(xiàn)實世界的問題。
3 大數(shù)據(jù)平臺的設(shè)計
3.1 平臺層
大數(shù)據(jù)分布式存儲系統(tǒng)可以對大規(guī)模的結(jié)構(gòu)數(shù)據(jù)進行存儲,通過大型的的存儲與管理技術(shù),實現(xiàn)對于數(shù)據(jù)的高效處理,這個數(shù)量級大部分時候在PB級以上,這樣才能讓科研活動更加合理地進行開展。
3.2 功能層
功能層采用擴展算法進行數(shù)據(jù)挖掘,采用TB級的數(shù)據(jù)進行模型建立,實現(xiàn)云計算與分布調(diào)度處理,利用負(fù)載的均衡技術(shù),使得分布處理能力提升,從而實現(xiàn)高效數(shù)據(jù)處理。
3.3 服務(wù)層
采用基于WEB與Open API的大數(shù)據(jù)挖掘處理技術(shù),從大數(shù)據(jù)的環(huán)境分析入手,加強端口的管理與流程的優(yōu)化,從而實現(xiàn)端口的智能配置與數(shù)據(jù)交換,讓大數(shù)據(jù)的共享變得科學(xué)合理簡潔。服務(wù)層屬于高級別管理層次,因此應(yīng)當(dāng)加強對輸入輸出的合理控制,使其可以實現(xiàn)大數(shù)據(jù)的高效交換。
4 大數(shù)據(jù)算法的應(yīng)用分析
4.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是發(fā)現(xiàn)大數(shù)據(jù)數(shù)據(jù)規(guī)律的計算過程,涉及人工智能、機器學(xué)習(xí)、統(tǒng)計和數(shù)據(jù)庫系統(tǒng)結(jié)合的方法,它是一個跨學(xué)科的計算機科學(xué)子領(lǐng)域。數(shù)據(jù)挖掘過程的總體目標(biāo)是從數(shù)據(jù)集中提取信息并將其轉(zhuǎn)換為可以理解的結(jié)構(gòu)以供進一步使用。除了原始數(shù)據(jù)分析外,它涉及數(shù)據(jù)庫和數(shù)據(jù)管理方面、數(shù)據(jù)預(yù)處理、模型和推理、復(fù)雜性考慮、結(jié)構(gòu)整合處理、可視化和在線更新。數(shù)據(jù)挖掘是數(shù)據(jù)庫信息分析的過程。目標(biāo)是從大量數(shù)據(jù)中提取模式和信息,而不是數(shù)據(jù)本身的提取。數(shù)據(jù)挖掘是一個熱門的領(lǐng)域,并且經(jīng)常應(yīng)用于各種形式的大規(guī)模數(shù)據(jù)或信息處理,主要包括收集、提取、存儲、分析和統(tǒng)計以及計算機決策支持系統(tǒng)的應(yīng)用,包括人工智能、機器學(xué)習(xí)和商業(yè)智能。這些模式然后可以被視為輸入數(shù)據(jù)的一種分類方法,并且可以用于在機器學(xué)習(xí)和預(yù)測分析進一步分析。
4.2 機器學(xué)習(xí)
機器學(xué)習(xí)是計算機科學(xué)的子領(lǐng)域,它使計算機能夠?qū)W習(xí)而不用明確編程。從模式識別和計算學(xué)習(xí)理論在人工智能的研究演變而來,機器學(xué)習(xí)探索學(xué)習(xí)對數(shù)據(jù)進行預(yù)測算法的研究和構(gòu)建,這樣的算法克服了嚴(yán)格的靜態(tài)程序指令數(shù)據(jù)驅(qū)動的預(yù)測或決策,通過從樣本輸入來建立一個模型。機器學(xué)習(xí)在一系列計算任務(wù)中使用,比如垃圾郵件過濾、檢測網(wǎng)絡(luò)入侵者或惡意內(nèi)部人員、光學(xué)字符識別、搜索引擎和計算機視覺,這些方面都沒有明確的算法表示。機器學(xué)習(xí)與數(shù)學(xué)優(yōu)化有著緊密的聯(lián)系,它將方法、理論和應(yīng)用領(lǐng)域傳遞到現(xiàn)場。機器學(xué)習(xí)有時與數(shù)據(jù)挖掘相結(jié)合,后者的子領(lǐng)域更側(cè)重于探索性數(shù)據(jù)分析。
5 總結(jié)與展望
大數(shù)據(jù)技術(shù)算法的創(chuàng)新是一條光明而曲折的路,在這條路上會出現(xiàn)很多難題與挑戰(zhàn),這個任務(wù)長期而又艱巨,需要結(jié)合實際經(jīng)驗,不斷地進行總結(jié)歸納。為實現(xiàn)自身的長遠發(fā)展而進行大膽革新,利用創(chuàng)新思維進行現(xiàn)代化建設(shè),從而大踏步地走向智能化的大數(shù)據(jù)發(fā)展目標(biāo)。
參考文獻:
[1]陳曉,趙晶玲.大數(shù)據(jù)處理中混合型聚類算法的研究與實現(xiàn)[J]. 信息網(wǎng)絡(luò)安全,2015(04).
[2]文坤,廖瑛,楊雅君.帶有空間機械臂的航天器系統(tǒng)慣性參數(shù)辨識[J].飛行器測控學(xué)報,2015(04).
[3]黃冬梅,杜艷玲,賀琪.云存儲中海洋大數(shù)據(jù)遷移算法的研究[J]. 計算機研究與發(fā)展,2014(01).
作者簡介:金偉(1989-),男,安徽六安人,研究生,助教。