孟森玥
摘要:數(shù)據(jù)、算法、計(jì)算力是人工智能發(fā)展必備三要素,其中以數(shù)據(jù)最為關(guān)鍵。文章以數(shù)據(jù)分析為切入點(diǎn),闡述了人工智能與數(shù)據(jù)分析的概念、組成,論述了人工智能在數(shù)據(jù)分析中的應(yīng)用情況。
關(guān)鍵詞:人工智能;數(shù)據(jù)分析;深度學(xué)習(xí)
前言:在大數(shù)據(jù)、物聯(lián)網(wǎng)、云計(jì)算、互聯(lián)網(wǎng)等信息技術(shù)蓬勃發(fā)展過(guò)程中,圖形處理器、泛在感知數(shù)據(jù)計(jì)算平臺(tái)獲得了良好的發(fā)展機(jī)遇,為以深度神經(jīng)網(wǎng)絡(luò)、知識(shí)問(wèn)答、數(shù)據(jù)分析算法、圖像分類(lèi)等為代表的人工智能技術(shù)發(fā)展提供了充足的驅(qū)動(dòng)力。近幾年,人工智能技術(shù)大幅跨越了科學(xué)與應(yīng)用之間的“技術(shù)鴻溝”,在數(shù)據(jù)分析方面也實(shí)現(xiàn)了從“不能用、不好用”到“可以用”的技術(shù)突破。基于此,探究人工智能在數(shù)據(jù)分析中的應(yīng)用非常必要。
一、人工智能與數(shù)據(jù)分析
1、人工智能
在計(jì)算機(jī)科學(xué)領(lǐng)域,人工智能又可稱(chēng)之為機(jī)器智能,即以機(jī)器為展示載體的智能,是一種與人類(lèi)、動(dòng)物展示的自然智能相對(duì)的概念[1]。在通俗意義上,人工智能特指用于描述模仿人類(lèi)思維或與人類(lèi)思維相關(guān)聯(lián)的“認(rèn)知”功能的機(jī)器,比如“學(xué)習(xí)”、“解決問(wèn)題”等。從組成上來(lái)看,人工智能可以劃分為人類(lèi)啟發(fā)型、分析型、人性化人工智能三種不同類(lèi)型。從研究問(wèn)題上來(lái)看,人工智能領(lǐng)域不僅涉足了推理、學(xué)習(xí)、感知能力,而且包括數(shù)據(jù)統(tǒng)計(jì)方法、規(guī)劃、只是表示以及智能符號(hào)計(jì)算能力。
2、數(shù)據(jù)分析
數(shù)據(jù)分析是一個(gè)清理、檢查、轉(zhuǎn)換、構(gòu)建數(shù)據(jù)模型的過(guò)程,旨在發(fā)現(xiàn)富有價(jià)值的信息、獲得結(jié)論、助力決策下達(dá)。數(shù)據(jù)分析領(lǐng)域涵蓋了多種名稱(chēng)下的多種技術(shù),可以在科學(xué)、商業(yè)、社會(huì)領(lǐng)域發(fā)揮功效。比如,在商業(yè)領(lǐng)域,利用數(shù)據(jù)分析可以提高決策下達(dá)科學(xué)性,助力企業(yè)有效運(yùn)營(yíng)。
在通俗意義上,數(shù)據(jù)分析主要是獲得原始數(shù)據(jù)并將原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換,形成對(duì)用戶(hù)決策富有價(jià)值信息的過(guò)程。包括數(shù)據(jù)要求、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)清理、探索性數(shù)據(jù)分析、建模和算法、數(shù)據(jù)產(chǎn)品、通訊幾個(gè)環(huán)節(jié)。
二、人工智能在數(shù)據(jù)分析中的應(yīng)用措施
1、基于數(shù)據(jù)和算法的系統(tǒng)
人工智能開(kāi)啟了一次數(shù)據(jù)再生產(chǎn)的革命,其不僅可以在短時(shí)間內(nèi)扁平化行業(yè)鴻溝,代替數(shù)據(jù)分析行業(yè)經(jīng)驗(yàn)規(guī)則,而且會(huì)產(chǎn)生大量新的數(shù)據(jù)分析經(jīng)驗(yàn),創(chuàng)造出更多新的數(shù)據(jù)價(jià)值?;跀?shù)據(jù)和算法的系統(tǒng)是人工智能在數(shù)據(jù)分析領(lǐng)域主要用工具,相較于常規(guī)靜態(tài)策略+人工干預(yù)手段而言,基于數(shù)據(jù)和算法的系統(tǒng)是以數(shù)據(jù)+系統(tǒng)的方法為基礎(chǔ),拋棄數(shù)據(jù)分析經(jīng)驗(yàn)+程序的方式。比如,提出于18世紀(jì)的貝葉斯算法就實(shí)現(xiàn)了對(duì)客觀事物規(guī)律化數(shù)據(jù)的精確數(shù)學(xué)推理演繹。通過(guò)將任何行業(yè)數(shù)據(jù)所攜帶特征進(jìn)行工程處理,轉(zhuǎn)化為數(shù)學(xué)問(wèn)題后進(jìn)行分析解決[2]。再如,谷歌團(tuán)隊(duì)利用隱馬爾可夫算法,進(jìn)行人類(lèi)語(yǔ)言模型學(xué)習(xí),構(gòu)建了以隱馬爾可夫算法為基礎(chǔ)的語(yǔ)音識(shí)別模型。這一語(yǔ)音識(shí)別模型是一個(gè)具有代表性的數(shù)據(jù)+算法替代規(guī)則,再可以通過(guò)分析文本前后分布邏輯概率,結(jié)合大規(guī)模文章學(xué)習(xí)經(jīng)驗(yàn),實(shí)現(xiàn)對(duì)語(yǔ)言知識(shí)以及行為運(yùn)動(dòng)姿態(tài)的自動(dòng)學(xué)習(xí)。
基于算法和數(shù)據(jù)的人工智能系統(tǒng)強(qiáng)調(diào)數(shù)據(jù)深入淺出分析。以貝葉斯算法應(yīng)用為例,已知在200個(gè)人有40個(gè)人得了流感,而90%患流感的患者可以檢測(cè)出陽(yáng)性,9.0%未患流感的人也可以檢測(cè)出陽(yáng)性。此時(shí),在條件、答案已知的情況下,就可以計(jì)算條件概率P(結(jié)果陽(yáng)性|健康人)=9.0%,此時(shí),貝葉斯公式就可以表示為P(得流感|結(jié)果陽(yáng)性),結(jié)合條件在結(jié)果為陽(yáng)性的人的范圍內(nèi)進(jìn)行概率分析,即流感患者陽(yáng)性人數(shù)與結(jié)果陽(yáng)性總?cè)藬?shù)的比值。其中流感患者陽(yáng)性人為:200×40%×90%;而結(jié)果陽(yáng)性總?cè)藬?shù)為:(0.4×0.9+1.6×0.09)×200。
2、基于深度學(xué)習(xí)的數(shù)據(jù)分析
機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的一種方法和一個(gè)途徑,其強(qiáng)調(diào)算法從數(shù)據(jù)中開(kāi)展學(xué)習(xí),在分析數(shù)據(jù)過(guò)程中尋找一種可擬合相關(guān)數(shù)據(jù)的模型,達(dá)到使用相關(guān)模型對(duì)未知數(shù)據(jù)進(jìn)行預(yù)先估測(cè)的目的。深度學(xué)習(xí)則是在2012年后數(shù)據(jù)量急劇增加、計(jì)算能力迅速提升背景下出現(xiàn)的一種機(jī)器學(xué)習(xí)新算法,其使用的方法類(lèi)似于機(jī)器學(xué)習(xí),但更為注重通過(guò)深度神經(jīng)我昂立進(jìn)行數(shù)據(jù)特征的分析、學(xué)習(xí)、表達(dá)。
以深度學(xué)習(xí)在時(shí)空大數(shù)據(jù)(圖1)分析中的應(yīng)用為例,時(shí)空大數(shù)據(jù)是指同時(shí)具有時(shí)間屬性、空間屬性的數(shù)據(jù),比如,GPS定位數(shù)據(jù)、滴滴網(wǎng)約車(chē)訂單數(shù)據(jù)、人口密度數(shù)據(jù)等。由于時(shí)空大數(shù)據(jù)在時(shí)間、空間上均具有關(guān)聯(lián),且存在平移動(dòng)態(tài)變化特征,數(shù)據(jù)源影響因素多種多樣,對(duì)于數(shù)據(jù)源整合、分析提出了較大的挑戰(zhàn),傳統(tǒng)圖像分類(lèi)、機(jī)器翻譯方法并無(wú)法實(shí)現(xiàn)時(shí)空大數(shù)據(jù)分析。而利用人工智能領(lǐng)域的深度學(xué)習(xí)工具,可以抓住時(shí)空的關(guān)聯(lián)性,將多數(shù)據(jù)源不同質(zhì)因子進(jìn)行有機(jī)整合,拓展分析,解決數(shù)據(jù)缺失、噪聲過(guò)大對(duì)數(shù)據(jù)分析的不利影響。比如,在分析一個(gè)區(qū)域未來(lái)一段時(shí)間內(nèi)網(wǎng)約車(chē)叫車(chē)訂單不會(huì)被滿(mǎn)足的極限問(wèn)題時(shí),可以利用深度學(xué)習(xí)的數(shù)據(jù)特征提取能力,將訂單數(shù)據(jù)、天氣數(shù)據(jù)、日期數(shù)據(jù)、位置數(shù)據(jù)進(jìn)行整合,形成一個(gè)深度學(xué)習(xí)框架,在框架內(nèi)具有多個(gè)模塊,每一個(gè)模塊負(fù)責(zé)處理不同類(lèi)型的數(shù)據(jù)[3]。
如圖2所示,Environment part負(fù)責(zé)處理環(huán)境信息,而order part則負(fù)責(zé)進(jìn)行訂單數(shù)據(jù)處理,Identify part負(fù)責(zé)處理時(shí)間數(shù)據(jù),并利用一個(gè)residual link(殘差連接)將多模塊整合,最終實(shí)現(xiàn)端到端數(shù)據(jù)源信息預(yù)測(cè)分析。
總結(jié):
綜上所述,人工智能是多個(gè)學(xué)科的知識(shí)融合,而數(shù)據(jù)分析是人工智能的主要應(yīng)用領(lǐng)域,只有切實(shí)將人工智能應(yīng)用到數(shù)據(jù)分析領(lǐng)域,才可以保證人工智能的可持續(xù)發(fā)展。因此,在利用人工神經(jīng)網(wǎng)絡(luò)、基于概率學(xué)的方法、搜索和數(shù)學(xué)優(yōu)化等人工智能工具進(jìn)行數(shù)據(jù)分析的基礎(chǔ)上,應(yīng)從人與機(jī)器之間數(shù)據(jù)交互入手,進(jìn)行人工智能的恰當(dāng)應(yīng)用,以便在短時(shí)間內(nèi)扁平化數(shù)據(jù)分析領(lǐng)域的壁壘,構(gòu)建新的人工智能作用發(fā)揮鏈,為智能文明新紀(jì)元的開(kāi)啟奠定基礎(chǔ)。
參考文獻(xiàn):
[1]李國(guó)良,周煊赫.面向AI的數(shù)據(jù)管理技術(shù)綜述[J].軟件學(xué)報(bào),2021(01):21-40.
[2]陳翠娟.改進(jìn)的多項(xiàng)樸素貝葉斯分類(lèi)算法和Python實(shí)現(xiàn)[J].景德鎮(zhèn)學(xué)院學(xué)報(bào),2021(03):92-95.
[3]孔繁鈺,周愉峰,陳綱.基于時(shí)空特征挖掘的交通流量預(yù)測(cè)方法[J].計(jì)算機(jī)科學(xué),2019(07):322-326.