【摘 "要】 當(dāng)前,人工智能快速發(fā)展,主要應(yīng)用在計算機(jī)應(yīng)用視覺領(lǐng)域、ChatGPT和提示學(xué)習(xí)領(lǐng)域等,其在為人們帶來便利的同時,也帶來一定的現(xiàn)實(shí)問題和風(fēng)險,文章就人工智能在以上幾個方面的應(yīng)用進(jìn)行詳細(xì)論述,概括性地反映人工智能在當(dāng)前社會的應(yīng)用情況,簡述人工智能當(dāng)前的發(fā)展現(xiàn)狀。
【關(guān)鍵詞】 人工智能;計算機(jī)應(yīng)用視覺;ChatGPT;提示學(xué)習(xí)
一、計算機(jī)應(yīng)用視覺與實(shí)戰(zhàn)
人工智能技術(shù)在圖像識別上的應(yīng)用主要有圖像分類、目標(biāo)檢測、圖像分割;目標(biāo)檢測中也包含圖像分類的內(nèi)容,且目標(biāo)檢測的應(yīng)用場景更加廣泛,本研究主要結(jié)合目標(biāo)檢測的實(shí)際應(yīng)用場景進(jìn)行分析,以一個手掌傷口檢測為例。
(一)項目需求和目標(biāo)
收集和清洗適當(dāng)?shù)臄?shù)據(jù)集,包括手掌圖片和標(biāo)注信息、手掌目標(biāo)檢測算法,并使用YOLOv5來訓(xùn)練和優(yōu)化模型。部署訓(xùn)練好的模型到Windows和Linux平臺,并實(shí)現(xiàn)對手掌的檢測和標(biāo)定;優(yōu)化模型的性能和精度,如調(diào)整模型超參數(shù)和改進(jìn)數(shù)據(jù)增強(qiáng)技術(shù)等。具體來說,精度要求95%,實(shí)時性要求是3s,穩(wěn)定性要求2000次。
(二)技術(shù)選型和實(shí)現(xiàn)方案
由于YOLOv5具有速度快、端到端訓(xùn)練、背景誤報低、實(shí)時定位與分類的優(yōu)點(diǎn),因而采用YOLOv5目標(biāo)檢測框架。編程語言為Python,開發(fā)環(huán)境為PyCharm。具體步驟為數(shù)據(jù)集采集和預(yù)處理、模型訓(xùn)練和優(yōu)化、模型部署和測試、算法優(yōu)化和改進(jìn)。
(三)數(shù)據(jù)集預(yù)處理和增強(qiáng)
數(shù)據(jù)集預(yù)處理上,首先需要將數(shù)據(jù)集按一定比例劃分為訓(xùn)練集、驗(yàn)證集和測試集。然后進(jìn)行數(shù)據(jù)標(biāo)注:需要標(biāo)注出圖片中的手掌位置和大小信息。在本項目中,使用了開源的標(biāo)注工具LabelImg對數(shù)據(jù)集進(jìn)行標(biāo)注,標(biāo)注信息包括每張圖片中手掌的位置、大小、左右手掌等信息。標(biāo)注信息的準(zhǔn)確性對模型的訓(xùn)練和檢測結(jié)果有重要影響,因此需要盡可能準(zhǔn)確地進(jìn)行標(biāo)注。此外,需要對數(shù)據(jù)集進(jìn)行一些預(yù)處理操作,包括數(shù)據(jù)集格式轉(zhuǎn)換:將原始圖片格式轉(zhuǎn)換為模型可讀取的格式,如JPEG格式。另外還有正負(fù)樣本定義:在手掌檢測任務(wù)中,將包含手掌的圖片定義為正樣本,而不包含手掌的圖片定義為負(fù)樣本。通過這種定義,可以讓模型學(xué)會區(qū)分手掌和背景,以提高檢測準(zhǔn)確率。最后,還有樣本均衡問題,為了解決這個問題,可以通過采樣方法來平衡正負(fù)樣本的數(shù)量。本項目采用了兩種采樣方法,分別是正樣本隨機(jī)復(fù)制和負(fù)樣本隨機(jī)采樣。具體來說,將正樣本隨機(jī)復(fù)制若干份,以增加正樣本的數(shù)量;同時,也會從負(fù)樣本中隨機(jī)采樣一部分樣本,以減少負(fù)樣本的數(shù)量。
數(shù)據(jù)集增強(qiáng)體現(xiàn)在對原始數(shù)據(jù)集進(jìn)行一系列變換操作,可以生成更多、更豐富的訓(xùn)練樣本,以提高模型的準(zhǔn)確率和魯棒性。
(四)模型設(shè)計和訓(xùn)練
YOLOv5采用的是單階段目標(biāo)檢測方法,將目標(biāo)檢測任務(wù)分解成分類和回歸兩個任務(wù)。在目標(biāo)檢測中,通過優(yōu)化損失函數(shù)、降低損失值,以便通過反向傳播優(yōu)化模型參數(shù)以提高模型性能。
(五)模型評估和性能優(yōu)化
模型評估用于目標(biāo)檢測的評估指標(biāo)FPS(Frames Per Second): 模型的每秒推理幀數(shù),用于評估模型的實(shí)時性能。Memory(Memory Usage): 模型占用的內(nèi)存大小,用于評估模型的存儲資源消耗。
(六)模型優(yōu)化
學(xué)習(xí)率調(diào)整:學(xué)習(xí)率是控制模型訓(xùn)練的重要參數(shù),可以使用學(xué)習(xí)率調(diào)度器來逐漸降低學(xué)習(xí)率,如StepLR、MultiStepLR、CosineAnnealingLR等。
參數(shù)初始化:合適的參數(shù)初始化可以使得模型更快地收斂,性能更好。一般來說,可以采用均勻分布、正態(tài)分布等隨機(jī)初始化方式,或使用預(yù)訓(xùn)練模型的權(quán)重來初始化模型。
參數(shù)剪枝(Parameter Pruning):通過減少不重要的參數(shù),降低模型大小,加快推理速度。
梯度裁剪(Gradient Clipping):防止梯度爆炸或梯度消失的方法,將梯度限制在一個合理的范圍內(nèi)。
網(wǎng)絡(luò)架構(gòu)搜索(Neural Architecture Search):通過自動化搜索網(wǎng)絡(luò)架構(gòu)的方法,設(shè)計出更加優(yōu)秀的模型。
超參數(shù)優(yōu)化(Hyperparameter Tuning):通過隨機(jī)搜索、網(wǎng)格搜索等方式尋找最優(yōu)的超參數(shù),如學(xué)習(xí)率、正則化參數(shù)、batch size等。
精度量化:將模型權(quán)重參數(shù)從浮點(diǎn)數(shù)格式轉(zhuǎn)換為整數(shù)格式,以減少模型存儲和計算所需的內(nèi)存和功耗。
(七)部署和應(yīng)用
項目部署方法常見的模型部署方法包括本地部署和云端部署。本地部署是將模型直接部署到本地設(shè)備(如PC、移動端設(shè)備)上進(jìn)行推理。云端部署則是將模型部署到云端服務(wù)器上進(jìn)行推理,可以通過API或SDK進(jìn)行訪問。在部署模型之前,需要根據(jù)具體場景選擇不同的推理引擎,如TensorRT、OpenVINO等。同時,為了提高推理速度,還需要優(yōu)化模型并壓縮。
(八)項目總結(jié)
本項目旨在實(shí)現(xiàn)基于YOLOv5的兒童手掌檢測算法,并將其應(yīng)用于智能機(jī)器人上。通過對數(shù)據(jù)集的處理和增強(qiáng),設(shè)計了基于YOLOv5的檢測網(wǎng)絡(luò),并進(jìn)行了模型訓(xùn)練和評估,最后進(jìn)行實(shí)時檢測。在項目的實(shí)現(xiàn)過程中,使用了Python語言和PyTorch框架,利用YOLOv5算法進(jìn)行手掌檢測。在模型設(shè)計方面,采用了YOLOv5的骨干網(wǎng)絡(luò)和檢測頭,同時對模型進(jìn)行了調(diào)參和優(yōu)化。在模型訓(xùn)練方面,使用了多種訓(xùn)練技巧,如學(xué)習(xí)率調(diào)整、Warmup、CosineAnnealing、Autoanchor等,提高了模型的訓(xùn)練效果。最終,將訓(xùn)練好的模型部署到智能機(jī)器人上,通過實(shí)時檢測實(shí)現(xiàn)了手掌傷口的識別。
(九)項目展望
YOLOv5算法的改進(jìn):盡管YOLOv5已經(jīng)是一個非常高效的物體檢測算法,但是仍然有改進(jìn)的空間??梢钥紤]進(jìn)一步優(yōu)化模型的精度和速度,增加模型的穩(wěn)定性,以及改進(jìn)模型在特定場景下的表現(xiàn)等??梢钥紤]在未來的項目中,將YOLOv5算法應(yīng)用于更高效的硬件平臺上,例如GPU、FPGA、ASIC等。
應(yīng)用場景的拓展:YOLOv5算法不僅可以用于物體檢測,還可以應(yīng)用在其他場景。比如視頻監(jiān)控、人臉識別、自動駕駛等??梢詫⑺惴☉?yīng)用于更多的場景中,以提高算法的實(shí)用性和適用性。比如可以將YOLOv5算法與語音識別算法結(jié)合使用,以實(shí)現(xiàn)智能語音控制等功能。
商業(yè)化的應(yīng)用:基于YOLOv5算法,可以開發(fā)各種商業(yè)化的應(yīng)用,例如智能門禁、智能安防、智能家居等。還可以通過將算法應(yīng)用于商業(yè)化的場景中,為用戶提供更好的服務(wù)和體驗(yàn)。
二、AIGC在各行業(yè)的應(yīng)用及實(shí)現(xiàn)
文本和圖片領(lǐng)域預(yù)訓(xùn)練大模型技術(shù)相對比較成熟,模型數(shù)量、應(yīng)用場景和相關(guān)公司目前是最多的。其中最有代表性的有兩個產(chǎn)品,一個是ChatGPT,一個是生成繪畫的DreamStudio。
(一)內(nèi)容生成經(jīng)典方法及技術(shù)實(shí)現(xiàn)
VAE(變分自編碼器) 是一種自編碼器,其目標(biāo)是學(xué)習(xí)一個低維的表示,將高維的輸入數(shù)據(jù)映射到該低維表示中,再通過解碼器將其映射回高維空間,從而重構(gòu)原始數(shù)據(jù)。其特點(diǎn)是能夠?qū)斎霐?shù)據(jù)進(jìn)行編碼和解碼,同時學(xué)習(xí)到一個潛在的連續(xù)分布,這使得它能夠生成與原始數(shù)據(jù)相似但不完全相同的新數(shù)據(jù)。
Autoencoder(自編碼器)生成樣本的缺陷是低維空間的點(diǎn)大多數(shù)沒有意義、不了解編碼在低維空間中的分布情況、難以采樣出合適的Z,難以生成有意義的X對Z的概率分布做限制。按照概率分布采樣出合適的點(diǎn),即可解碼復(fù)原出有意義的內(nèi)容。Variational Autoencoder:變分自編碼器,假設(shè)樣本被編碼后在低維空間中服從某種分布(如正態(tài)分布)。
VAE的應(yīng)用方面,VQ-VAE,學(xué)習(xí)到的低維空間是一個離散分布而不是正態(tài)分布;VQ-VAE核心是將連續(xù)的潛在變量離散化為一個固定的詞匯表(Vocabulary),然后使用量化后的離散變量進(jìn)行編碼和解碼。VQ-VAE在圖像、音頻2等領(lǐng)域有廣泛的應(yīng)用,因?yàn)殡x散化的潛在空間具有更好的可解釋性和更強(qiáng)的穩(wěn)定性。VQ-VAE技術(shù)在DALL-E 1中起到了關(guān)鍵作用,它能夠?qū)⒏呔S的自然語言描述向量映射到一個離散化的詞匯表中,并將其轉(zhuǎn)換為一個低維的向量表示,從而提高了圖像生成的效率和準(zhǔn)確性。Deepfake A臉編碼后解碼的還是A臉,B臉編碼后解碼的還是B臉。如果將B臉編碼的向量用A臉的解碼去解,B的臉會出現(xiàn)在原本A的臉的位置,但面部的表情和一些細(xì)節(jié)會保留A的。這樣就實(shí)現(xiàn)了換臉。
GAN: 生成對抗網(wǎng)絡(luò),是一種生成模型,它由一個生成器和一個判別器組成。辨別器D越強(qiáng),則“鑒偽” 能力越強(qiáng),所以需要訓(xùn)練出一個更強(qiáng)的生成器G去“偽造”,這就是“對抗”本質(zhì)。GAN在圖像生成上的應(yīng)用:GauGAN,GauGAN的訓(xùn)練數(shù)據(jù)包括了數(shù)百萬張真實(shí)的圖像和草圖,以及相關(guān)的場景和顏色標(biāo)簽。通過這些數(shù)據(jù),GauGAN學(xué)習(xí)了如何將草圖轉(zhuǎn)換成逼真的圖像,并且可以實(shí)時地生成高質(zhì)量的圖像。
還有Stable Diffusion,向前:擴(kuò)散,向原始圖像逐步加入高斯噪聲,在T時刻變?yōu)榧兇獾脑朦c(diǎn)。向后:去噪,由噪點(diǎn)圖像還原為原始圖像。應(yīng)用于視頻生成、圖像去噪及插值從文本到圖像。
三者各有缺點(diǎn),VAE容易產(chǎn)生模糊、GAN缺乏多樣性、Diffusion需要推理上千步。
(二)AIGC中的3D生成(Nerf方法)
首先來看相機(jī)標(biāo)定的意義,人們拍攝的圖片是二維的,但是真實(shí)世界是三維的。一個場景是如何從三維變成二維的呢?相機(jī)起到的就是這個作用?,F(xiàn)在主流的攝像機(jī)都是運(yùn)用感光耦合組件(CCD)作為感光組件。而收集數(shù)據(jù)為NeRF提供信息有點(diǎn)像紅地毯上的攝影師,試圖從各個角度捕捉名人的服飾—神經(jīng)網(wǎng)絡(luò)需要從場景周圍的多個位置拍攝幾十張圖像,以及這些鏡頭的每個位置。如果在二維圖像捕捉過程中有太多的運(yùn)動,人工智能生成的三維場景將是模糊的。NeRFs使用神經(jīng)網(wǎng)絡(luò)來表示和渲染基于輸入的二維圖像集合的逼真三維場景,NeRF基本上填補(bǔ)了空白。
3D渲染是用計算機(jī)模擬照相機(jī)拍照,它們的結(jié)果都是生成一張照片。用照相機(jī)拍照是一個現(xiàn)實(shí)世界的物理過程,主要是光學(xué)過程,拍照對象是現(xiàn)實(shí)世界中真實(shí)的萬事萬物,形成照片的機(jī)制主要就是光經(jīng)過鏡頭,到達(dá)傳感器,被記錄下來。
(三)AIGC+GPT在各個垂直領(lǐng)域的經(jīng)典項目
文本—圖像—視頻的跨模態(tài)生成、2D到3D生成、多模態(tài)理解結(jié)合生成。商業(yè)視角下人們認(rèn)為,未來3年內(nèi),虛擬人生成和游戲AI這兩種綜合性的AIGC場景將趨于商業(yè)化成熟。
三、提示學(xué)習(xí)和新型機(jī)器學(xué)習(xí)訓(xùn)練方法
提示學(xué)習(xí)(Prompt Learning)簡單來說是通過一些方法編輯下游任務(wù)的輸入,使其形式上模擬模型預(yù)訓(xùn)練過程使用的數(shù)據(jù)與任務(wù)。
比如做情感分類任務(wù)時,監(jiān)督學(xué)習(xí)的做法是輸入“我今天考砸了”,模型輸出分類的分?jǐn)?shù)或分布,而提示學(xué)習(xí)的做法則是在“我今天考砸了”后拼接上自然語言描述“我感覺很 " " " ”,讓模型生成后面的內(nèi)容,再根據(jù)某種映射函數(shù),將生成內(nèi)容匹配到某一分類標(biāo)簽。提示學(xué)習(xí)這種方式拉近了測試分布與預(yù)訓(xùn)練分布的距離,進(jìn)而可以利用大規(guī)模預(yù)訓(xùn)練語言模型在預(yù)訓(xùn)練過程中習(xí)得的強(qiáng)大語言建模能力,使其不經(jīng)過微調(diào)就可以在各種下游任務(wù)上取得很好的結(jié)果。Prompt是一種為了更好地使用預(yù)訓(xùn)練語言模型的知識,采用在輸入段添加額外的文本的技術(shù)。提示學(xué)習(xí)的研究領(lǐng)域:多重提示學(xué)習(xí)(Multi-Prompt Learning)。包括提示集成(Prompt Ensembling)、提示增強(qiáng)(Prompt Augmentation)、提示合成(Prompt Composition)、提示分解(Prompt Decomposition)。
四、結(jié)束語
人工智能生成內(nèi)容的出現(xiàn)極大地解放了生產(chǎn)力,以ChatGPT為代表的產(chǎn)品風(fēng)靡全球,其多樣性的應(yīng)用場景催動商業(yè)化迅猛發(fā)展。本研究綜合介紹了人工智能在當(dāng)前社會的不用應(yīng)用方向,為讀者提供一個大概的了解方向和思路。對具體的方向,比如具體的視覺應(yīng)用方向、ChatGPT方向等具體應(yīng)用場景有待對一些典型場景再進(jìn)行專門性分析,這一部分的內(nèi)容將有待進(jìn)一步地完善。此外,將GPT模板作為研究對象,通過分析其已經(jīng)暴露或出現(xiàn)的安全隱患,重點(diǎn)研究人工智能數(shù)據(jù)偽造的風(fēng)險問題也是另一個研究方向。
參考文獻(xiàn):
[1] 項全星. 發(fā)票文字信息檢測與識別技術(shù)研究[D]. 重慶:重慶郵電大學(xué),2021.
[2] 劉瑜興. 人工智能在工業(yè)設(shè)計中的應(yīng)用研究[J]. 石河子科技,2023(04):70-71.
[3] 蔡秉坤,徐小壘. 人工智能應(yīng)用中數(shù)據(jù)安全的法律規(guī)制分析[J]. 科技智囊,2023(07):45-52.
[4] 李軍合,李曉燕. 人工智能在自動化控制中的應(yīng)用分析[J]. 中國設(shè)備工程,2023(15):26-28.