◎丁思源
基于NAO機(jī)器人的面部和語音識別
◎丁思源
人造智能在1955年首次被人們所認(rèn)識,是一個歷史悠久,前景輝煌的學(xué)科。 21世紀(jì),由于計(jì)算機(jī)運(yùn)算能力的提高,人工智能得到了長足的發(fā)展。 由于目前聲音識別技術(shù)已經(jīng)比較成熟,本文將重點(diǎn)研究NAO人臉識別的能力,特別是身份識別的能力。
人工智能有很長的歷史,涉及到很多學(xué)科。 面部識別和聲音識別是在其發(fā)展過程中發(fā)明的。 圖1顯示了人工智能演變的簡單歷史。
面部識別:圖像識別是人工智能的主要研究領(lǐng)域之一。 它可以分為兩部分:2D和3D。
圖像的常規(guī)空間單位是RDB,HSV和YUV。 捕捉圖像的常見方式是通過相機(jī),這意味著圖像的質(zhì)量很大程度上取決于鏡頭和傳感器的質(zhì)量。 而且,捕獲二維圖像和三維圖像最重要的區(qū)別之一就是鏡頭的數(shù)量:兩個鏡頭水平放置,以獲得兩個二維圖像,這可以用來計(jì)算目標(biāo)物體的紋理,結(jié)構(gòu)。同樣,捕獲的方向和角度越多,最終的3D圖像就越精確。
圖1 人工智能開始進(jìn)入第四次發(fā)展浪潮
表1
人臉識別是圖像識別的一個分支,已經(jīng)可以通過計(jì)算兩個二維圖像之間的相似度來實(shí)現(xiàn)。 然而,由于人們可以使用圖像而不是真實(shí)的人臉進(jìn)行識別(這是人臉識別的最重要和最有用的應(yīng)用),所以需要用于區(qū)分圖像和人臉的技術(shù),這導(dǎo)致了3D面部識別。在創(chuàng)建這個思想的時候,計(jì)算機(jī)缺乏支持包含人臉?biāo)刑卣鼽c(diǎn)的基礎(chǔ)數(shù)據(jù)的能力。 因此,這個思想才剛剛被重新考慮,因?yàn)橛?jì)算機(jī)的計(jì)數(shù)能力有了很大的發(fā)展。
為了更好地理解人臉識別的進(jìn)展和存在的問題,我將NAO機(jī)器人用于捕獲圖像的實(shí)驗(yàn)對象,并將其帶回計(jì)算機(jī)進(jìn)行計(jì)算.NAO機(jī)器人支持C ++和Python實(shí)例。為了驗(yàn)證NAO的身份識別能力和分析能力,我在其官方網(wǎng)站上采用了編碼實(shí)例。
算法主要用于:
ALFaceDetection/
ALVideoDevice/
ALVisionRecognition/
實(shí)驗(yàn):(見表1)
通過對NAO機(jī)器人的實(shí)驗(yàn)表明,Python的聲音識別和1:1面部識別已經(jīng)成熟,可以正確識別我和我的臉部信息,而基礎(chǔ)數(shù)據(jù)只包含我的臉部圖像。 然而,所有這些失敗的例子都帶來了成功識別身份的重要因素:成功識別的可能性在很大程度上取決于互聯(lián)網(wǎng)與機(jī)器人之間的連接程度有多強(qiáng),這造成了相對不穩(wěn)定的工作過程。
武漢外國語學(xué)校)