張一林 羅楊川云
?
大數(shù)據(jù)算法與數(shù)據(jù)分析技術(shù)探究
張一林 羅楊川云
貴州大學大數(shù)據(jù)與信息工程學院,貴州 貴陽 550000
隨著科學技術(shù)的發(fā)展,大數(shù)據(jù)在人工智能領(lǐng)域起著越來越重要的作用,基于大數(shù)據(jù)平臺的數(shù)據(jù)分析與挖掘已成為各科研單位的研究熱點。通過對大數(shù)據(jù)的發(fā)展、算法分析以及平臺設(shè)計進行探究,對大數(shù)據(jù)平臺的應用進行了展望,力求為智能化技術(shù)的發(fā)展提供創(chuàng)新的思路。
大數(shù)據(jù);人工智能;算法設(shè)計
大數(shù)據(jù)指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)包括海量的數(shù)據(jù)信息與高強度的數(shù)據(jù)處理能力,是相對于傳統(tǒng)數(shù)據(jù)處理應用程序不足以處理大型、復雜的數(shù)據(jù)集的新型處理模式,包括分析、捕獲、數(shù)據(jù)整理、搜索、共享、存儲、傳輸、可視化查詢、更新和信息管理。大數(shù)據(jù)通常僅指使用預測分析、用戶行為分析或某些其他高級數(shù)據(jù)的分析方法,這些方法從數(shù)據(jù)中提取價值,很少涉及特定大小的數(shù)據(jù)集。數(shù)據(jù)集分析可以發(fā)現(xiàn)新的聯(lián)系與信息。越來越成熟的概念更清楚地描述了大數(shù)據(jù)和人工智能之間的區(qū)別,人工智能使用具有高信息密度的數(shù)據(jù)的描述性統(tǒng)計來測量事物、檢測趨勢等。大數(shù)據(jù)使用歸納統(tǒng)計和來自非線性系統(tǒng)識別的概念,從具有低信息密度的大量數(shù)據(jù)集中推斷出法則,以揭示關(guān)系和依賴性或者進行結(jié)果和行為的預測[1]。
2.1 神經(jīng)網(wǎng)絡(luò)算法
神經(jīng)網(wǎng)絡(luò)系統(tǒng)是由眾多的神經(jīng)元可調(diào)的連接權(quán)值連接而成,具有大規(guī)模并行處理、分布式信息存儲、良好的自組織自學習能力等特點。神經(jīng)網(wǎng)絡(luò)是一種計算方法,基于神經(jīng)單元的大集合,解決由軸突連接的生物神經(jīng)元的大群集的問題。 每個神經(jīng)單元與許多其他神經(jīng)單元連接,并且可以對所連接的神經(jīng)單元的激活狀態(tài)影響中實施抑制。每個單獨的神經(jīng)單元可以具有將所有其輸入的值組合在一起的求和功能。這些系統(tǒng)是自學習和訓練的,而不是明確編程的,并且在傳統(tǒng)計算機程序中難以表達的。
2.2 灰色關(guān)聯(lián)度分析
灰色關(guān)聯(lián)分析方法,是根據(jù)因素之間發(fā)展趨勢的相似或相異程度,來進行歸納和評價,作為衡量因素間關(guān)聯(lián)程度的一種方法?;疑P(guān)聯(lián)度分析使用特定的信息概念。它定義沒有信息為黑色的情況以及具有完美信息為白色的情況,這些理想化的情況都不會出現(xiàn)在現(xiàn)實世界的問題中。事實上,這些過渡階段的情況被描述為灰色。因此,灰色系統(tǒng)意味著其中部分信息是已知的并且部分信息是未知的系統(tǒng)[2]。
3.1 平臺層
大數(shù)據(jù)分布式存儲系統(tǒng):研究大規(guī)模、非結(jié)構(gòu)化數(shù)據(jù)的存儲問題,突破大數(shù)據(jù)的存儲、管理和高效訪問關(guān)鍵技術(shù),當前需要構(gòu)建至少 PB 級存儲能力的大數(shù)據(jù)平臺才能滿足一般的科研和應用需求。
分布式數(shù)據(jù)挖掘運行時系統(tǒng):突破 MapReduce 技術(shù)的局限,研究有效支持迭代、遞歸、層次及集成機制的海量數(shù)據(jù)挖掘編程模型和運行時系統(tǒng),構(gòu)建大數(shù)據(jù)運行時系統(tǒng)。
3.2 功能層
高可擴展性大數(shù)據(jù)挖掘算法:基于云計算的分布式大數(shù)據(jù)處理與挖掘算法,構(gòu)建高可擴展的大數(shù)據(jù)處理與挖掘算法庫,實現(xiàn) TB 級數(shù)據(jù)的建模能力。
分布式工作流引擎:基于云計算的分布式工作流調(diào)度、負載均衡技術(shù),構(gòu)建高效分布式工作流執(zhí)行引擎。
交互式可視化分析技術(shù):啟發(fā)式、人機交互、可視化數(shù)據(jù)挖掘新技術(shù),實現(xiàn)大數(shù)據(jù)挖掘的高度人機交互功能。
3.3 服務(wù)層
基于 Web 的大數(shù)據(jù)挖掘技術(shù):Web 的大數(shù)據(jù)挖掘方法和流程,實現(xiàn)易于使用的基于 Web 的大數(shù)據(jù)挖掘技術(shù),構(gòu)建基于 Web 的大數(shù)據(jù)分析環(huán)境。
基于Open API 的大數(shù)據(jù)挖掘技術(shù):采用Open API 的大數(shù)據(jù)挖掘方法,研究大數(shù)據(jù)挖掘開放接口、開放流程,構(gòu)建基于 Open API 的大數(shù)據(jù)分析模式[3]。
4.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是發(fā)現(xiàn)大數(shù)據(jù)數(shù)據(jù)規(guī)律的計算過程,涉及人工智能、機器學習、統(tǒng)計和數(shù)據(jù)庫系統(tǒng)結(jié)合的方法,它是一個跨學科的計算機科學子領(lǐng)域。數(shù)據(jù)挖掘過程的總體目標是從數(shù)據(jù)集中提取信息并將其轉(zhuǎn)換為可以理解的結(jié)構(gòu)以供進一步使用。除了原始數(shù)據(jù)分析外,它涉及數(shù)據(jù)庫和數(shù)據(jù)管理方面、數(shù)據(jù)預處理、模型和推理、復雜性考慮、結(jié)構(gòu)整合處理、可視化和在線更新。數(shù)據(jù)挖掘是數(shù)據(jù)庫信息分析的過程。目標是從大量數(shù)據(jù)中提取模式和信息,而不是數(shù)據(jù)本身的提取。數(shù)據(jù)挖掘是一個熱門的領(lǐng)域,并且經(jīng)常應用于各種形式的大規(guī)模數(shù)據(jù)或信息處理,主要包括收集、提取、存儲、分析和統(tǒng)計,以及計算機決策支持系統(tǒng)的應用,包括人工智能、機器學習和商業(yè)智能。實際的數(shù)據(jù)挖掘任務(wù)是大量數(shù)據(jù)的自動或半自動分析,從而提取先前未知的數(shù)據(jù)存在模式,例如聚類分析、異常數(shù)據(jù)檢測和關(guān)聯(lián)規(guī)則挖掘、順序模式分析等,這通常涉及使用諸如數(shù)據(jù)索引的數(shù)據(jù)庫技術(shù)。
4.2 機器學習
機器學習是計算機科學的子領(lǐng)域,它使計算機能夠?qū)W習而不用明確編程,從模式識別和計算學習理論在人工智能的研究演變而來。機器學習探索學習對數(shù)據(jù)進行預測算法的研究和構(gòu)建,這樣的算法克服了嚴格的靜態(tài)程序指令數(shù)據(jù)驅(qū)動的預測或決策,通過從樣本輸入來建立一個模型。機器學習在一系列計算任務(wù)中使用,其中有著明確算法的設(shè)計和編程是不可行的,比如垃圾郵件過濾、檢測網(wǎng)絡(luò)入侵者或惡意內(nèi)部人員、光學字符識別、搜索引擎和計算機視覺,這些方面都沒有明確的算法表示。機器學習與計算統(tǒng)計密切相關(guān),并且經(jīng)常與計算統(tǒng)計重疊。計算統(tǒng)計也集中在通過使用計算機的預測中,它與數(shù)學優(yōu)化有著緊密的聯(lián)系,是將方法、理論和應用領(lǐng)域傳遞到現(xiàn)場。機器學習有時與數(shù)據(jù)挖掘相結(jié)合,后者的子領(lǐng)域更側(cè)重于探索性數(shù)據(jù)分析。
大數(shù)據(jù)技術(shù)算法的創(chuàng)新是一條光明而曲折的路,在這條路上會出現(xiàn)很多難題與挑戰(zhàn),這個任務(wù)長期而又艱巨,需要結(jié)合實際經(jīng)驗,不斷地進行總結(jié)歸納,為實現(xiàn)自身的長遠發(fā)展而進行大膽革新,利用創(chuàng)新思維進行現(xiàn)代化建設(shè),從而大踏步地走向智能化的大數(shù)據(jù)發(fā)展目標。
[1]陳曉,趙晶玲.大數(shù)據(jù)處理中混合型聚類算法的研究與實現(xiàn)[J].信息網(wǎng)絡(luò)安全,2015(4):15.
[2]楊婷婷,林昌露,劉憶寧,張勝元.基于多方排序協(xié)議的安全電子投票方案[J].計算機系統(tǒng)應用,2015(8):15.
[3]文坤,廖瑛,楊雅君.帶有空間機械臂的航天器系統(tǒng)慣性參數(shù)辨識[J].飛行器測控學報,2015(4):15.
Research on Large Data Algorithm and Data Analysis Technology
Zhang Yilin Luoyang Chuanyun
College of Big Data and Information Engineering of Guizhou University, Guizhou Quiyang 550000
With the development of science and technology, big data is playing an increasingly important role in the field of artificial intelligence. In this paper, the development of large data, algorithm analysis and platform design are explored, and the application of the big data platform is prospected.
Big Data; artificial intelligence; algorithm design
TP311.13
A
1009-6434(2017)02-0153-02