基金項目:福州外語外貿(mào)學(xué)院2023年教育教學(xué)研究項目(JF2023016)
第一作者簡介:張宏展(1974-),男,博士,副教授。研究方向為大數(shù)據(jù)分析技術(shù)、網(wǎng)絡(luò)與分布式軟件。
DOI:10.19981/j.CN23-1581/G3.2024.21.004
摘" 要:當(dāng)前我國正在經(jīng)歷著數(shù)字化轉(zhuǎn)型,大數(shù)據(jù)受到各行各業(yè)的重點關(guān)注,對大數(shù)據(jù)技術(shù)人才的需求正在不斷增長。AI技術(shù)的突破和發(fā)展使得傳統(tǒng)大數(shù)據(jù)處理技術(shù)的不足和局限性進(jìn)一步被放大,探討AI在大數(shù)據(jù)技術(shù)中的創(chuàng)新與應(yīng)用勢在必行。針對這一問題,該文首先在分析使用大數(shù)據(jù)技術(shù)面臨的問題時提出使用AI的解決方案,然后從大數(shù)據(jù)處理流程出發(fā),提出增加AI數(shù)據(jù)感知階段,最后展望AI的優(yōu)勢和存在的不足之處。
關(guān)鍵詞:AI;大數(shù)據(jù);ChatGPT;數(shù)據(jù)處理;模型
中圖分類號:TP319" " " 文獻(xiàn)標(biāo)志碼:A" " " " " 文章編號:2095-2945(2024)21-0016-04
Abstract: Currently, China is undergoing digital transformation, and big data is receiving significant attention from various industries. The demand for big data technology talents is constantly increasing. The breakthrough and development of AI technology have further magnified the shortcomings and limitations of traditional big data processing technologies, so it is imperative to explore the innovation and application of AI in big data technology. To address this issue, this paper first proposes a solution of using AI when analyzing the problems existing in using big data technology. Then, starting with the big data processing process, it is proposed to add an AI data perception stage. Finally, the advantages and shortcomings of AI are discussed.
Keywords: AI; big data; ChatGPT; data processing; model
當(dāng)前,我國正在經(jīng)歷數(shù)字化的轉(zhuǎn)型[1],“數(shù)字化”這一名詞術(shù)語鋪天蓋地,成了經(jīng)濟(jì)與科技領(lǐng)域最熱門的話題。作為數(shù)字化時代的數(shù)據(jù)要素,大數(shù)據(jù)正受到各行各業(yè)的重點關(guān)注。2023年3月,中共中央、國務(wù)院明確提出組建國家數(shù)據(jù)局,并于2023年10月正式成立。數(shù)據(jù)作為一種新型的生產(chǎn)要素,由中央部委來管理,預(yù)示著在數(shù)字經(jīng)濟(jì)和社會發(fā)展中的作用越來越強(qiáng),在未來很長一段時間內(nèi),大數(shù)據(jù)技術(shù)人才需求會持續(xù)增長,發(fā)展前景十分廣闊[2]。
2023年,大模型技術(shù)取得的突破使得人工智能技術(shù)發(fā)生了深刻的變革[3],以ChatGPT為代表的新一代生成式人工智能技術(shù)應(yīng)用火遍全球。AI技術(shù)主要是通過大量訓(xùn)練樣本數(shù)據(jù)的深度機(jī)器學(xué)習(xí)得出算法模型實現(xiàn)的,AI技術(shù)的突破和發(fā)展離不開高質(zhì)量大數(shù)據(jù)的支撐和基礎(chǔ)。另一方面,AI是處理數(shù)據(jù)產(chǎn)生的智能,能更智能地處理大數(shù)據(jù),借助AI的輸出,大數(shù)據(jù)技術(shù)能更有效挖掘和分析數(shù)據(jù)中的價值信息。隨著AI和大數(shù)據(jù)的不斷發(fā)展,它們之間的融合和滲透將會越來越緊密。一方面,大數(shù)據(jù)技術(shù)與時俱進(jìn),尋求與AI技術(shù)的融合貫通和應(yīng)用創(chuàng)新;另一方面,AI技術(shù)應(yīng)用于大數(shù)據(jù),能解決大數(shù)據(jù)技術(shù)面臨的一些痛點問題。本文主要以ChatGPT為主,探討AI與大數(shù)據(jù)技術(shù)的融合創(chuàng)新與應(yīng)用。
1" 大數(shù)據(jù)技術(shù)中的痛點與機(jī)遇
1.1" 數(shù)據(jù)清洗和預(yù)處理
原始大數(shù)據(jù)中通常包含有噪音、冗余、缺失值或錯誤信息等問題,這些問題可能導(dǎo)致分析結(jié)果不準(zhǔn)確甚至錯誤。因此,先進(jìn)行數(shù)據(jù)清洗和預(yù)處理是非常關(guān)鍵的一步,這需要學(xué)習(xí)大數(shù)據(jù)知識和技術(shù),編寫程序來完成。例如面對金融大數(shù)據(jù)或醫(yī)療健康大數(shù)據(jù)時,大數(shù)據(jù)處理人員除了需要掌握大數(shù)據(jù)專業(yè)知識,還必須耗費(fèi)大量時間和精力學(xué)習(xí)掌握大數(shù)據(jù)處理技術(shù),導(dǎo)致精力分散而不能做到術(shù)業(yè)有專攻。尤其是對從事藝術(shù)、傳媒等社科或人文工作的人員來說,知識跨度大,很難實現(xiàn),只能定性描述而不能定量計算得到想要的結(jié)果。
AI的出現(xiàn),使得人們已經(jīng)不滿足于僅僅使用這些傳統(tǒng)的大數(shù)據(jù)清洗和預(yù)處理方法,而是希望能借助AI技術(shù)的創(chuàng)新來改進(jìn)方法提高效率。AI輸入的可能是含有異常信息的數(shù)據(jù)集,通過分析和學(xué)習(xí)正常數(shù)據(jù)的特征,可以輸出正常的處理結(jié)果。使用AI可以自動完成數(shù)據(jù)清洗和預(yù)處理,確保數(shù)據(jù)的準(zhǔn)確性和完整性。
1.2" 分布式計算和數(shù)據(jù)安全
大數(shù)據(jù)多年來已經(jīng)存在并存儲于行業(yè)、組織、企業(yè)或高校中,且其生產(chǎn)經(jīng)營狀況或科研體系運(yùn)行良好,沒有必要為了專門迎合大數(shù)據(jù)時代的到來而進(jìn)行設(shè)備的全面更新和升級換代,以免造成大量資金投入和資源浪費(fèi)。大數(shù)據(jù)時代要求信息共享避免產(chǎn)生信息孤島,需要對這些數(shù)據(jù)進(jìn)行整合和使用,分析可能潛藏的價值。傳統(tǒng)大數(shù)據(jù)技術(shù)側(cè)重于海量數(shù)據(jù)的挖掘和分析,對這些已經(jīng)存在的分散數(shù)據(jù)的分布式計算要求,在處理上顯得力不從心。AI技術(shù)中采用了分布式計算和存儲技術(shù)可以解決這些問題[4]。
為了得到最佳數(shù)據(jù)分析處理結(jié)果,首先在大數(shù)據(jù)采集環(huán)節(jié)中,需要拓寬數(shù)據(jù)來源渠道采集各種不同數(shù)據(jù),其中不乏很多行業(yè)或企業(yè)的隱私和關(guān)鍵數(shù)據(jù)。出于數(shù)據(jù)隱私和安全保護(hù),數(shù)據(jù)源擁有者通常會要求必須對這些數(shù)據(jù)進(jìn)行脫敏或加密后才能被使用,傳統(tǒng)的大數(shù)據(jù)采集方法由于人工處理容易引起數(shù)據(jù)泄露導(dǎo)致隱私權(quán)受到侵犯。AI提供實現(xiàn)隱私保護(hù)的自動數(shù)據(jù)脫敏和加密技術(shù)[5],數(shù)據(jù)脫敏的方法有數(shù)據(jù)匿名化、數(shù)據(jù)泛化和數(shù)據(jù)擾動等。加密算法有對稱加密算法和非對稱加密算法,還可以借助差分隱私技術(shù)實現(xiàn)[6]。
1.3" 海量數(shù)據(jù)處理和增強(qiáng)學(xué)習(xí)
面對海量數(shù)據(jù),尤其是大規(guī)模圖像和視頻數(shù)據(jù)時,傳統(tǒng)的大數(shù)據(jù)處理技術(shù)往往效率較低,有些需要幾個小時甚至更長時間才能完成。例如在涉及這些海量數(shù)據(jù)的實時事務(wù)處理系統(tǒng)中,通常不允許等待很長時間才能得到響應(yīng)結(jié)果,而是要求系統(tǒng)能快速有效地處理,實時響應(yīng)。AI的分布式存儲系統(tǒng)和并行計算能力可以將海量數(shù)據(jù)均勻地分配到各個節(jié)點并同時進(jìn)行計算,最后再將結(jié)果匯總。AI技術(shù)中還引入了圖像處理方法[7],專門針對圖像和視頻數(shù)據(jù)的快速處理。AI能幫助大數(shù)據(jù)處理人員高效使用大數(shù)據(jù),提高數(shù)據(jù)質(zhì)量和效率。
隨著海量數(shù)據(jù)的不斷積累壯大,尤其是隨著低空經(jīng)濟(jì)的蓬勃發(fā)展并快速邁向萬億級規(guī)模的經(jīng)濟(jì)圈[8],不斷涌現(xiàn)的三維空間數(shù)據(jù)將呈指數(shù)級迅猛增長,數(shù)據(jù)的乘數(shù)效應(yīng)愈加明顯[9]。傳統(tǒng)的大數(shù)據(jù)處理技術(shù)已經(jīng)很難從這些海量數(shù)據(jù)中發(fā)掘出有價值的信息。發(fā)展經(jīng)濟(jì),科技先行,尋找新的大數(shù)據(jù)處理技術(shù)勢在必行。AI的出現(xiàn)為探索這種新的大數(shù)據(jù)處理技術(shù)提供了契機(jī),AI算法可以自動發(fā)現(xiàn)、提取、識別和分類數(shù)據(jù)中的模式和關(guān)聯(lián)信息,并且將其轉(zhuǎn)化為實用的知識和洞見。利用AI的自學(xué)習(xí)能力和智能性,在與環(huán)境的交互中尋找隱藏在海量數(shù)據(jù)背后的規(guī)律和模式,可以獲取最優(yōu)策略。
1.4" 統(tǒng)計和可視化展現(xiàn)
大數(shù)據(jù)應(yīng)用的目的是通過數(shù)據(jù)挖掘和分析形成統(tǒng)計結(jié)果,供分析決策使用。以圖形可視化方式展現(xiàn)統(tǒng)計結(jié)果,清晰、明了,是最容易接受的一種形式。當(dāng)前很多大數(shù)據(jù)技術(shù)人員數(shù)據(jù)素養(yǎng)相對較弱,無法熟練使用Excel、SPSS(Statistical Product and Service Solutions)[10]等數(shù)據(jù)分析軟件,在進(jìn)行大數(shù)據(jù)統(tǒng)計和可視化展現(xiàn)時常常會遇到各種困難,尤其是處理三維數(shù)據(jù)進(jìn)行三維圖形展現(xiàn)時,更是無從下手。而且,有些技術(shù)人員的數(shù)據(jù)分析能力單一和局限,即便系統(tǒng)中存有豐富的統(tǒng)計數(shù)據(jù),也無法通過工具將其最大限度地展現(xiàn)出來。
AI可視化分析模型采用大語言模型(Large Language Models,LLM),可以根據(jù)用戶的“文本”需求,轉(zhuǎn)化為“可視化”分析模型甚至UI界面,生成多種可視化圖形,如餅狀圖、柱狀圖、甘特圖、看板及三維態(tài)勢感知圖等,具有更出色的展現(xiàn)效果。
2" AI與大數(shù)據(jù)技術(shù)融合模型
如上所述,在大數(shù)據(jù)技術(shù)中融入AI可以有效解決當(dāng)前大數(shù)據(jù)處理中面臨的一些問題。大數(shù)據(jù)傳統(tǒng)處理流程是數(shù)據(jù)收集、數(shù)據(jù)清洗和預(yù)處理、數(shù)據(jù)挖掘建模、數(shù)據(jù)分析、統(tǒng)計報告和可視化展現(xiàn)幾個階段。AI賦能大數(shù)據(jù),利用AI技術(shù)進(jìn)行大數(shù)據(jù)處理時,可以在數(shù)據(jù)挖掘建模和分析之前新增一個階段:數(shù)據(jù)感知,通過抽取特征對原始數(shù)據(jù)進(jìn)行初始了解、探究和可視化,增強(qiáng)對原始數(shù)據(jù)的直覺和初步感知,從而對數(shù)據(jù)有更深刻的理解,為下一步的挖掘建模和分析預(yù)測提供實證假設(shè)構(gòu)建的思路或靈感。
ChatGPT是當(dāng)前流行且比較成熟的AIGC產(chǎn)品,在數(shù)據(jù)處理的各個階段都能展現(xiàn)出一定的智能性,可以根據(jù)需要將其融入大數(shù)據(jù)處理的各個階段,增強(qiáng)數(shù)據(jù)的處理能力,圖1是ChatGPT與大數(shù)據(jù)技術(shù)的融合模型。
2.1" 數(shù)據(jù)采集
在大規(guī)模的數(shù)據(jù)采集中,ChatGPT并不直接參與,可采用“ChatGPT+”軟件或工具集成的思想來操作。ChatGPT集成這些軟件或工具有幾種方式。
1)直接使用成熟的網(wǎng)絡(luò)爬蟲工具、API抓取工具或IoT設(shè)備接口程序,采集不同的數(shù)據(jù)源,然后利用ChatGPT中的數(shù)據(jù)交換格式轉(zhuǎn)化成ChatGPT能處理的格式。
2)在ChatGPT中使用Python語言編寫Web爬蟲工具。按照預(yù)設(shè)的規(guī)則,調(diào)用Python庫中的Scrapy或BeautifulSoup框架,很容易實現(xiàn)。
3)使用軟件開發(fā)工具包。部分軟件提供SDK,可以方便地將ChatGPT集成到應(yīng)用程序包中,或者有些工具和平臺允許開發(fā)者創(chuàng)建自定義插件或擴(kuò)展,以實現(xiàn)數(shù)據(jù)采集功能。
2.2" 數(shù)據(jù)清洗和預(yù)處理
這一階段包括去除噪音數(shù)據(jù)、糾正拼寫錯誤、去除廣告和冗余內(nèi)容等,以提高數(shù)據(jù)質(zhì)量,同時進(jìn)行聚類和標(biāo)簽、文本分類等。早期這一工作同樣需要編碼實現(xiàn),是使用ChatGPT之前的準(zhǔn)備工作。ChatGPT新增Code Interpreter功能之后,這一工作變得相對簡單,由ChatGPT Interpreter通過自然語言人機(jī)交互完成, 并能給出相應(yīng)的糾正建議。ChatGPT在這個過程中主要發(fā)揮自然語言理解和生成能力。
Code Interpreter使用了Python的一個非常流行的NLP的庫NLTK(自然語言工具包),可以用來執(zhí)行廣泛的NLP任務(wù),如標(biāo)記化、部分語音標(biāo)記、命名實體識別、脫敏處理、情感分析和文本分類等。利用NLTK,沒有豐富數(shù)據(jù)分析經(jīng)驗的人也可以有效地處理和分析文本數(shù)據(jù)。
2.3" 數(shù)據(jù)感知
ChatGPT的探索性數(shù)據(jù)分析(Exploratory Data Analysis,EDA)能力,包含數(shù)據(jù)摘要、單變量分析和多變量分析3部分[11]。數(shù)據(jù)摘要采用中心趨勢度量、離中趨勢度量或分布形態(tài)度量等描述性統(tǒng)計量,幫助了解數(shù)據(jù)的整體特征和分布情況,并用圖表展現(xiàn),便于直觀地理解數(shù)據(jù)的基本屬性和規(guī)律。單變量分析通過數(shù)據(jù)類型、數(shù)據(jù)分布等信息對單一變量(數(shù)據(jù)字段)進(jìn)行統(tǒng)計描述和可視化展現(xiàn),從一個維度探究單個變量的差異性和分布特征,為多變量分析創(chuàng)造條件。多變量分析通過研究2個或多個變量之間的相互關(guān)系和作用,確定各變量之間的關(guān)系強(qiáng)弱,進(jìn)而展現(xiàn)不同因素之間的相互作用,輔助選擇不同的預(yù)測模型,提高研究的準(zhǔn)確性。因此,通過EDA能提高數(shù)據(jù)預(yù)處理后的可信度和準(zhǔn)確度,使數(shù)據(jù)具有更深入、豐富的信息價值,更能發(fā)現(xiàn)先前未被發(fā)現(xiàn)的信息,為下一階段的數(shù)據(jù)挖掘和分析提供依據(jù)和契機(jī)。
2.4" 數(shù)據(jù)挖掘和分析
傳統(tǒng)的數(shù)據(jù)挖掘是從包含大量數(shù)據(jù)的學(xué)習(xí)集(或訓(xùn)練集)中找出知識規(guī)則完成建模,并需要從持續(xù)新增的數(shù)據(jù)集中不斷學(xué)習(xí)并優(yōu)化模型,非常耗費(fèi)時間和精力。Code Interpreter利用計算機(jī)自動學(xué)習(xí)模式和Python豐富的機(jī)器學(xué)習(xí)庫建模,比如Scikit-learn,還提供多種類似模型供選擇借鑒,包括內(nèi)容推薦、類型預(yù)測、情緒分析和趨勢預(yù)測等,方便快捷。ChatGPT也允許使用Google Colab、Jupyter Notebook、Databricks等平臺,訓(xùn)練、評估和部署自定義的ChatGPT模型,不斷豐富模型庫。用好AI機(jī)器學(xué)習(xí)模型庫能提高建模的效率和準(zhǔn)確度。
大數(shù)據(jù)分析主要是使用機(jī)器學(xué)習(xí)和統(tǒng)計分析等技術(shù)和算法,從大規(guī)模的數(shù)據(jù)集中發(fā)現(xiàn)模式、趨勢和見解,以支持業(yè)務(wù)決策和預(yù)測。ChatGPT是一種基于深度學(xué)習(xí)的生成模型,使用遞歸神經(jīng)網(wǎng)絡(luò)和自注意力機(jī)制,通過訓(xùn)練模型來生成與用戶進(jìn)行對話的自然語言回應(yīng),能夠模擬人類對話。所以,使用與ChatGPT對話來進(jìn)行專業(yè)的數(shù)據(jù)分析,更具有智能性,結(jié)果更準(zhǔn)確。
2.5 統(tǒng)計報告和可視化展現(xiàn)
傳統(tǒng)情況下,數(shù)據(jù)分析結(jié)果是通過編程方式生成統(tǒng)計報告,并以二維或者三維圖形的形式展現(xiàn)出來,因此需要數(shù)據(jù)分析人員具有較強(qiáng)的編程能力,而且工作量比較大。AI文生圖工具Dall-E的出現(xiàn),為從文本數(shù)據(jù)轉(zhuǎn)化為可視化圖形提供了強(qiáng)有力的工具。Dall-E是一種基于深度學(xué)習(xí)的強(qiáng)大計算機(jī)視覺模型,能夠?qū)⒍陶Z或描述的要求轉(zhuǎn)換為圖片。使用Dall-E生成統(tǒng)計報告和可視化,可以讓人使用自然語言編寫圖片,通過交互式對話不斷調(diào)整模型精度來提高圖片質(zhì)量,并能在短時間內(nèi)生成復(fù)雜圖形。這種原生集成模型讓用戶無須在編程上花費(fèi)過多時間和精力,同時也使得圖形更能夠精確反映用戶的想法和需求。ChatGPT的Python庫有數(shù)據(jù)可視化庫(Matplotlib、Plotly等),可以用于對數(shù)據(jù)進(jìn)一步可視化,提供更為個性化的服務(wù)。
OpenAI Point-E主要用于從文本生成三維圖形,而且通常只需要一個GPU和1~2 min,而現(xiàn)有系統(tǒng)如 Google 的DreamFusion通常需要數(shù)個小時和多個GPU來生成三維圖形。Point-E是基于大量文本、圖像對語料庫,遵循多樣化和復(fù)雜提示的方式從文本創(chuàng)建三維圖形模型的。在生成3D統(tǒng)計報告和可視化展現(xiàn)時,選用Point-E是很好的選擇。
3" 結(jié)束語
AI最強(qiáng)的優(yōu)勢是數(shù)據(jù)分析能力,AI和大數(shù)據(jù)技術(shù)的結(jié)合可以讓數(shù)據(jù)更好地為人類服務(wù),提高數(shù)據(jù)的價值和效益。然而,由于AI技術(shù)剛剛興起,仍然存在一些局限性和不足。如果ChatGPT缺乏實時知識,可能不了解項目,從而影響判斷的準(zhǔn)確性;由于模型本身的隨機(jī)性,每次的分析方法可能存有差異,可能會造成分析結(jié)果不穩(wěn)定;缺乏一些中文的支持,在數(shù)據(jù)分析過程中,如果使用中文顯示可能會不正常。另外,機(jī)器學(xué)習(xí)能力不足,如果涉及復(fù)雜的機(jī)器學(xué)習(xí)建模,可能就不能勝任。因此,AI并不是靈丹妙藥,未來還有很長的研發(fā)之路要走。
參考文獻(xiàn):
[1] 姚小濤,亓?xí)?,劉琳琳,?企業(yè)數(shù)字化轉(zhuǎn)型:再認(rèn)識與再出發(fā)[J].西安交通大學(xué)學(xué)報:社會科學(xué)版,2022,42(3):1-9.
[2] 陳云龍,翟曉磊.教育數(shù)字化轉(zhuǎn)型的構(gòu)想與策略[J].中國電化教育,2022(12):101-106.
[3] 夏潤澤,李丕績.ChatGPT大模型技術(shù)發(fā)展與應(yīng)用[J].數(shù)據(jù)采集與處理,2023,38(5):1017-1034.
[4] M.CORCHADO J,WEIGANG L,BAJO J, et al.Editorial: Special issue on distributed computing and artificial intelligence[J].Frontiers of Information Technology amp; Electronic Engineering,2016,17(4):281-282.
[5] ZHANG F. Desensitization method of meteorological data based on differential privacy protection[J].Journal of cleaner production,2023:389.
[6] 梁文娟,陳紅,吳云乘,等.持續(xù)監(jiān)控下差分隱私保護(hù)[J].軟件學(xué)報,2020,31(6):1761-1785.
[7] LIU Y Q.Design of Graphic Design Assistant System Based on Artificial Intelligence[J].International journal of information technologies and systems approach,2023,16(3).
[8] 林典馳.訪國際歐亞科學(xué)院院士李世鵬:深圳“勇闖”低空經(jīng)濟(jì)無人區(qū),為何“可計算空域”如此重要?[EB/OL].[2023-04-24]https://www.163.com/dy/article/I332RJC705199NPP.html.
[9] 李璐明,蔣新華,廖律超.基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類[J].湖南大學(xué)學(xué)報:自然科學(xué)版,2015,42(8):116-124.
[10] XINTONG L,P. M M,WOLFGANG W.Conditional Direction of Dependence Modeling:Application and Implementation in SPSS[J].Social Science Computer Review,2023,41(4):1252-1275.
[11] FABIANA C,MARTINS G R,ALEXANDRE Q, et al.Ydata-profiling:Accelerating data-centric AI with high-quality data[J].Neurocomputing,2023,554.