亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

芻議基于人工智能的圖像處理技術(shù)

2023-08-09 19:08:54周媛媛

計(jì)算機(jī)應(yīng)用文摘 2023年15期

摘要：文章對基于人工智能的圖像處理技術(shù)中多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)原理、應(yīng)用場景進(jìn)行了介紹，旨在為從業(yè)者提供一定的參考，以及為行業(yè)外感興趣之人提供一定的科普知識。

關(guān)鍵詞：人工智能：圖像處理：多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)

中圖法分類號：TP391文獻(xiàn)標(biāo)識碼：A

基于人工智能的圖像處理主要進(jìn)行“數(shù)字圖像處理”，即通過編制計(jì)算機(jī)程序控制算法，在原始數(shù)字圖像中定向執(zhí)行某些功能作業(yè)。在圖像處理的過程中，可以從數(shù)字圖像中完成基本信息的提取。在現(xiàn)代生活中，大眾已經(jīng)習(xí)以為常的“相機(jī)美顏” 功能、電影《流浪地球２》中令劉德華、吳京等人飾演的角色“年輕化”的方法均應(yīng)用了人工智能圖像技術(shù)?？傮w而言，對此技術(shù)的實(shí)現(xiàn)原理及應(yīng)用展開分析具有重要意義。

１基于人工智能的圖像視覺處理技術(shù)原理

當(dāng)前應(yīng)用較為廣泛的圖像處理技術(shù)以多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)（Ｍｕｌｔｉ?ＴａｓｋＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，ＭＴＣＮＮ）為代表［１］。此項(xiàng)技術(shù)的核心原理是，能夠?qū)ⅰ叭四槄^(qū)域檢測” 以及“人臉關(guān)鍵點(diǎn)檢測” 融合于一體，形成類似ｃａｓｃａｄｅ的主題框架［２］。ＭＴＣＮＮ網(wǎng)絡(luò)一般分成Ｐ，Ｒ，Ｏ三層?ＮＥＴ網(wǎng)絡(luò)結(jié)構(gòu)。在上述三個(gè)級聯(lián)網(wǎng)絡(luò)形成圖像檢測跟蹤模型之后，進(jìn)一步添加“候選框＋分類器”處理機(jī)制，能夠自動捕捉人臉圖像并進(jìn)行檢測。上述三個(gè)級聯(lián)網(wǎng)絡(luò)各自具有的功能是：Ｐ?ＮＥＴ具有“快速生成候選窗口”功能；Ｒ?ＮＥＴ具有“基于高精度候選窗口過濾選擇”的功能；Ｏ?ＮＥＴ具有“生成最終邊界框與人臉關(guān)鍵點(diǎn)”的功能［３］。

２基于人工智能的圖像視覺處理技術(shù)的應(yīng)用歷程

ＭＴＣＮＮ網(wǎng)絡(luò)模型在人臉識別領(lǐng)域的應(yīng)用范圍最廣，處理人臉圖像信息的過程如下。

（１）圖像金字塔的構(gòu)建。首先，在處理一張人臉圖像之前，需要對圖片進(jìn)行縮放，但縮放的程度并不固定［４］。如圖１所示，右側(cè)的效果便是“圖像金字塔”。這一過程在計(jì)算機(jī)圖像處理軟件中的實(shí)現(xiàn)方法為設(shè)定縮放系數(shù)ｆａｃｔｏｒ。經(jīng)過對不同人臉圖像的反復(fù)試驗(yàn)，研究人員得出一個(gè)結(jié)論，將ｆａｃｔｏｒ取值設(shè)定為０．７０９，取得的縮放效果最佳。于是“ｆａｃｔｏｒ＝０．７０９”被編入控制程序中。圖１右側(cè)的“金字塔”型人臉圖像的“金字塔具體分層” 取決于人臉圖像的原始大小———“ｆａｃｔｏｒ＝０．７０９”實(shí)際上是縮小比例，將原始圖像的長度、寬度均乘以這一系數(shù)，一直到長度、寬度低于某個(gè)特定值（不同處理軟件有不同的標(biāo)準(zhǔn)，同樣可以自行設(shè)定）便停止。經(jīng)過幾輪的“縮放”，圖像的“金字塔層級”便是多少?；谏鲜鲈韺δ橙四槇D片進(jìn)行處理，核心處理程序如下。

ｄｅｆｃａｌｃｕｌａｔｅＳｃａｌｅｓ（ｉｍｇ）：

ｃｏｐｙ＿ｉｍｇ＝ｉｍｇ．ｃｏｐｙ（）

ｐｒ＿ｓｃａｌｅ＝１．０

ｈ，ｗ，＿＝ｃｏｐｙ＿ｉｍｇ．ｓｈａｐｅ

ｉｆｍｉｎ（ｗ，ｈ）＞５００：

ｐｒ＿ｓｃａｌｅ＝５００．０／ｍｉｎ（ｈ，ｗ）

ｗ＝ｉｎｔ（ｗ?ｐｒ＿ｓｃａｌｅ）

ｈ＝ｉｎｔ（ｈ?ｐｒ＿ｓｃａｌｅ）

ｅｌｉｆｍａｘ（ｗ，ｈ）＜５００：

ｐｒ＿ｓｃａｌｅ＝５００．０／ｍａｘ（ｈ，ｗ）

ｗ＝ｉｎｔ（ｗ?ｐｒ＿ｓｃａｌｅ）

ｈ＝ｉｎｔ（ｈ?ｐｒ＿ｓｃａｌｅ）

ｓｃａｌｅｓ＝［］

ｆａｃｔｏｒ＝０．７０９

ｆａｃｔｏｒ＿ｃｏｕｎｔ＝０

ｍｉｎｌ＝ｍｉｎ（ｈ，ｗ）

ｗｈｉｌｅｍｉｎｌ＞＝１２：

ｓｃａｌｅｓ．ａｐｐｅｎｄ（ｐｒ＿ｓｃａｌｅ?ｐｏｗ（ｆａｃｔｏｒ，

ｆａｃｔｏｒ＿ｃｏｕｎｔ））

ｍｉｎｌ ?＝ｆａｃｔｏｒ

ｆａｃｔｏｒ＿ｃｏｕｎｔ＋＝１

ｒｅｔｕｒｎｓｃａｌｅｓ

按照上述程序?qū)D片進(jìn)行比例縮放，其中存在２個(gè)數(shù)據(jù)，分別是“５００”和“１２”。前者指利用處理軟件處理圖片前，可通過人工方式對圖片的長度、寬度進(jìn)行調(diào)整，使其高于５００，否則軟件處理的圖片過小，信息提取容易失真［５］。后者指經(jīng)過多輪次自動縮放，當(dāng)圖片的長度、寬度達(dá)到１２時(shí)，縮放即可停止。

（２）基于Ｐ?ＮＥＴ（ＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）的網(wǎng)絡(luò)層。經(jīng)過步驟（１）的縮放處理，在“人臉金字塔”圖像中形成一個(gè)“全卷積網(wǎng)絡(luò)”。這一過程的主要作用是通過全卷積網(wǎng)絡(luò)，對圖片中的重要區(qū)域———人臉?biāo)谖恢眠M(jìn)行“邊框標(biāo)定”，之后初步提取人臉特征，完成上述作業(yè)，還可進(jìn)行窗口調(diào)整及大部分窗口過濾作業(yè)。需要注意，在該階段，Ｐ?ＮＥＴ存在２個(gè)“輸出”，應(yīng)用層的核心控制程序是：

ｃｌａｓｓｉｆｉｅｒ＝Ｃｏｎｖ２Ｄ（２，（１，１），ａｃｔｉｖａｔｉｏｎ＝＇ｓｏｆｔｍａｘ＇，ｎａｍｅ＝＇ｃｏｎｖ４?１＇）（ｘ）

設(shè)置ｃｌａｓｓｉｆｉｅｒ指令的作用是，對網(wǎng)格點(diǎn)上框的可信度進(jìn)行判斷。在該條控制程序之下，還需編制：

ｂｂｏｘ＿ｒｅｇｒｅｓｓ＝Ｃｏｎｖ２Ｄ（４，（１，１），ｎａｍｅ＝＇ｃｏｎｖ４?２＇）（ｘ）

對這一條程序的深度理解是：雖然ｂｂｏｘ＿ｒｅｇｒｅｓｓ能夠表示相框的位置，但這一位置是經(jīng)過縮放后的圖像中的人臉?biāo)谖恢?，并非原始真?shí)位置。

（３）將ｂｂｏｘ＿ｒｅｇｒｅｓｓ映射到真實(shí)圖像上，然后完成一次解碼作業(yè)。在編制控制程序時(shí)，上述“映射＋解碼”過程的實(shí)現(xiàn)需要調(diào)用函數(shù)庫中的ｄｅｔｃｔ＿ｆａｃｅ＿１２ｎｅｔ函數(shù)［６］。具體的程序是：

ｄｅｆｄｅｔｅｃｔ＿ｆａｃｅ＿１２ｎｅｔ（ｃｌｓ＿ｐｒｏｂ，ｒｏｉ，ｏｕｔ＿ｓｉｄｅ，

ｓｃａｌｅ，ｗｉｄｔｈ，ｈｅｉｇｈｔ，ｔｈｒｅｓｈｏｌｄ）：

＃０，１表示維度的翻轉(zhuǎn)

ｃｌｓ＿ｐｒｏｂ＝ｎｐ．ｓｗａｐａｘｅｓ（ｃｌｓ＿ｐｒｏｂ，０，１）

ｒｏｉ＝ｎｐ．ｓｗａｐａｘｅｓ（ｒｏｉ，０，２）

ｓｔｒｉｄｅ＝０

＃ｓｔｒｉｄｅ略等于２，圖片壓縮比例（經(jīng)過ｐ?ｎｅｔ導(dǎo)致的），（ｘ，ｙ）是有人臉概率大于ｔｈｒｅｓｈｏｌｄ的點(diǎn)

ｉｆｏｕｔ＿ｓｉｄｅ！＝１：

ｓｔｒｉｄｅ＝ｆｌｏａｔ（２?ｏｕｔ＿ｓｉｄｅ?１）／（ｏｕｔ＿ｓｉｄｅ?１）

（ｘ，ｙ）＝ｎｐ．ｗｈｅｒｅ（ｃｌｓ＿ｐｒｏｂ＞＝ｔｈｒｅｓｈｏｌｄ）

ｂｏｕｎｄｉｎｇｂｏｘ＝ｎｐ．ａｒｒａｙ（［ｘ，ｙ］）．Ｔ上述程序?qū)?yīng)的解析內(nèi)容是：針對經(jīng)過縮放及Ｐ?ＮＥＴ處理后的圖片，找到其對應(yīng)原圖的位置，反向復(fù)盤“Ｐ?ＮＥＴ比例＋圖像黃金比例”，最后完成映射。完成函數(shù)調(diào)用及編制程序控制語句后，需要解決的問題如下。

①ｂｂｏｘ＿ｒｅｇｒｅｓｓ映射到真實(shí)圖像后，圖片中會出現(xiàn)多個(gè)網(wǎng)格點(diǎn)。這些網(wǎng)格點(diǎn)的置信程度有高有低，需要從中篩選出具有高置信度的網(wǎng)格點(diǎn)［７］。具體的篩選原理是：圍繞“置信程度” 設(shè)定一個(gè)“ 臨界值”，超出該臨界值，意味著該網(wǎng)格點(diǎn)內(nèi)存在“人臉信息”；低于該臨界值，表明該網(wǎng)格點(diǎn)內(nèi)不存在人臉信息。為便于理解，筆者舉一個(gè)更簡單、更容易驗(yàn)證的例子。對很多圖像處理初學(xué)者而言，Ｐｈｏｔｏｓｈｏｐ一般是所接觸的第一個(gè)圖片處理軟件。在Ｐｈｏｔｏｓｈｏｐ軟件中打開一張圖片后，很多人都嘗試過“前推鼠標(biāo)滑輪，放大圖片”的操作。之后看到的景象是，圖片仿佛被切割成多個(gè)“小方格”。這些小方格的本質(zhì)是“像素”———如果一張背景是白色的人臉圖像，那么在一定深度色彩的像素區(qū)間內(nèi)便“有圖像內(nèi)容信息”；依然保持白色的像素區(qū)間便“沒有圖像內(nèi)容信息”。這里還需注意一個(gè)問題，即當(dāng)前階段的ＡＩ人工智能（可理解為具有多種處理功能的軟件工具）依然停留在“類人化”的階段，而非“完全具備人類大腦的思維能力”。之所以提出該問題，是因?yàn)檐浖刂瞥绦虻摹八伎寂卸ㄟ壿嫛本哂袠O強(qiáng)的“直觀性”，并不懂得“轉(zhuǎn)彎”。比如，在人工處理一張人臉圖片時(shí)，如果背景是白色，圖像中人的脖頸處出現(xiàn)了部分白色襯衫，那么其會將該“白色襯衫”所在的像素區(qū)域認(rèn)定為“人臉的一部分”，在手動摳圖時(shí)會將該區(qū)域與人臉區(qū)域作為一個(gè)整體提取。圖像處理軟件則不具備上述功能，在相關(guān)控制程序啟動后，所有“白色像素區(qū)域”都會被認(rèn)定為“該區(qū)域不存在人臉信息”，故會將該區(qū)域篩除［８］ ?；诖耍O(shè)定的“置信程度臨界值”不能引起歧義，否則會導(dǎo)致人臉識別效果大幅度降低。

②對網(wǎng)格點(diǎn)所在的位置進(jìn)行記錄，即記錄框架內(nèi)的ｘ，ｙ軸信息。

③繼續(xù)利用函數(shù)，完成圖像中框的左上角基點(diǎn)、右下角基點(diǎn)之間的“像素差”。完成堆疊處理后，可以得到ｂｏｕｎｄｉｎｇｂｏｘ。在此基礎(chǔ)上，可以利用ｂｂｏｘ＿ｒｅｇｒｅｓｓ完成對解碼結(jié)果的計(jì)算，對應(yīng)的程序?yàn)椋海猓铮酰睿洌椋睿纾猓铮?＝ｂｏｕｎｄｉｎｇｂｏｘ＋ｏｆｆｓｅｔ１２．０ｓｃａｌｅ

（４）Ｒ?ＮＥＴ層（ＲｅｆｉｎｅＮｅｔｗｏｒｋ）處理。這一層同樣需要構(gòu)造一個(gè)“卷積神經(jīng)網(wǎng)絡(luò)”［９］。與Ｐ?ＮＥＴ層相比，該層多出一個(gè)“圈層連接”功能。這樣設(shè)置的目的是，以更加嚴(yán)格的標(biāo)準(zhǔn)，對圖像相關(guān)信息及輸入數(shù)據(jù)進(jìn)行篩選。具體來說，當(dāng)圖片進(jìn)入Ｐ?ＮＥＴ層時(shí)，很多用于“預(yù)測”的窗口會被留下。通過編制控制算法，將這些預(yù)測窗口送入Ｒ?ＮＥＴ層，接受深度篩選。由于卷積神經(jīng)網(wǎng)絡(luò)的存在，大量效果較差的候選框會在該環(huán)節(jié)被篩除，最后剩下的候選框均具有較為清晰的效果，之后會被送入Ｂｏｕｎｄｉｎｇ?ＢｏｘＲｅｇｒｅｓｓｉｏｎ，以完成深度優(yōu)化預(yù)測。總體而言，Ｒ?ＮＥＴ層在使用最后一個(gè)卷積層后，還會對規(guī)模達(dá)到１２８的全連接層進(jìn)行充分利用，以實(shí)現(xiàn)“保留更多圖像特征”的目標(biāo)。基于此，Ｒ?ＮＥＴ處理層的性能、對圖像信息處理的精確度均優(yōu)于Ｐ?ＮＥＴ層。

（５）Ｏ?ＮＥＴ層（ＯｕｔｐｕｔＮｅｔｗｏｒｋ）處理。該層的基本結(jié)構(gòu)是一個(gè)復(fù)雜程度更高的卷積神經(jīng)網(wǎng)絡(luò)，比Ｒ?ＮＥＴ層多一個(gè)卷積層［１０］。從某種程度上來看，相較于Ｒ?ＮＥＴ層，Ｏ?ＮＥＴ層的主要功能更接近“輔助回歸”功能———可對圖像中的人臉面部區(qū)域進(jìn)行更具側(cè)重性的識別，之后對圖像中能夠體現(xiàn)出人臉面部特征的點(diǎn)位進(jìn)行“回歸處理”。完成相關(guān)作業(yè)之后，在圖片中，篩選出一定數(shù)量的人臉面部信息對應(yīng)的多個(gè)面部特征點(diǎn)（可進(jìn)行設(shè)置，按照特征代表性由高到低分布），之后完成輸出。完成上述處理后，還需對ＮＭＳ結(jié)果進(jìn)行驗(yàn)證處理，最終生成人臉識別信息。一張圖片中存在多個(gè)人，依次完成人臉信息的縮放、篩選、提取，可自動完成識別檢測，效率極高。

３結(jié)束語

人工智能的本質(zhì)是“程序控制”，是指人類編制出具有“定向控制、定向作業(yè)”功能的程序算法，在“跑程序”的過程中，將其對特定對象信息進(jìn)行識別、捕捉、分析、處理，最終給出人們希望看到的結(jié)果。相關(guān)“處理”流程最初由人工完成，但隨著計(jì)算機(jī)計(jì)算能力的提升，人類大腦的計(jì)算速度已經(jīng)遠(yuǎn)遠(yuǎn)低于計(jì)算機(jī)，人工處理過程還容易受到諸多因素的干擾，最終處理效果遠(yuǎn)遠(yuǎn)無法達(dá)到人們的要求。在這種情況下，人工智能技術(shù)應(yīng)運(yùn)而生，極大地提高了運(yùn)算處理效率。總之，相信在不久的未來，更多令人驚嘆的人工智能圖像處理技術(shù)會在各行各業(yè)得到應(yīng)用，從而使人類世界更加“多姿多彩”。

參考文獻(xiàn)：

［１］李峰泉．人工智能的皮革自適應(yīng)視覺圖像處理切割技術(shù)研究［Ｊ］．中國皮革，２０２２，５１（９）：４４?４８．

［２］曾光華，肖洋．人工智能算法在圖像處理中的應(yīng)用見解［Ｊ］．電子元器件與信息技術(shù)，２０２２，６（７）：９７?１００．

［３］宋朝暉．人工智能算法在圖像處理中的應(yīng)用探討［Ｃ］／／２０２２年第五屆智慧教育與人工智能發(fā)展國際學(xué)術(shù)會議論文集，２０２２：２７８?２７９．

［４］何映彤．人工智能技術(shù)下圖像處理教學(xué)的應(yīng)用研究［Ｊ］．科學(xué)咨詢（教育科研），２０２２（６）：１２４?１２６．

［５］劉云川，韓夢瑤，王浩全，等．人工智能算法在圖像處理中的應(yīng)用分析［Ｊ］．電子世界，２０２１（１６）：６７?６８．

［６］劉磊，袁林德，王紫寧，等．基于人工智能算法的敦煌舞圖像處理技術(shù)［Ｊ］．軟件，２０２１，４２（８）：３９?４１．

［７］鄧晨曦，蔣一鋤．人工智能算法在圖像處理中的應(yīng)用探討［Ｊ］．中國新通信，２０２０，２２（１８）：９８?９９．

［８］張超．人工智能圖像處理的邊緣計(jì)算硬件優(yōu)化［Ｄ］．哈爾濱：哈爾濱工業(yè)大學(xué)，２０２０．

［９］梁斌．試論人工智能算法在圖像處理中的應(yīng)用［Ｊ］．?dāng)?shù)碼世界，２０１８（９）：２２０．

［１０］張薇．人工智能算法在圖像處理中的應(yīng)用［Ｊ］．通訊世界，２０１８（４）：６３?６４．

作者簡介：

周媛媛（１９８８—），碩士，實(shí)驗(yàn)師，研究方向：教育信息化、圖像識別技術(shù)、數(shù)據(jù)可視化。